一种基于动态水位值的Flink调度优化算法

doi:10.12677/CSA.2021.115155

期刊菜单

一种基于动态水位值的Flink调度优化算法
A Flink Scheduling Optimization Algorithm Based on Dynamic Water Level

DOI: 10.12677/CSA.2021.115155, PDF, HTML, XML, 科研立项经费支持
作者: 冯鹏：大连大学信息工程学院，辽宁大连;大数据应用技术国家民委重点实验室，辽宁大连；黄山, 段晓东：大数据应用技术国家民委重点实验室，辽宁大连;大连民族大学计算机科学与工程学院，辽宁大连;大连市民族文化数字技术重点实验室，辽宁大连
关键词: Flink；大数据；反压；Netty；Flink； Big Data； Backpressure； Netty

摘要: 新一代大数据间引擎Flink在面临远程传输问题时，主要通过Netty完成数据传输，并依靠Netty水位值机制来保证其反压机制的运行。Netty水位值机制是一种相对静态的机制，这使得Flink在面临突变性特别大的数据流时会反复进行反压，进而影响整个Flink集群的计算效率。针对此问题，本文提出一种基于动态水位值的Flink调度优化算法Flink-N，经实验验证，与Flink默认的反压机制相比，Flink-N在吐吞量、CPU利用率及时延均有很大提升，时延整体优化达18%，最高优化23%。

Abstract: When the new generation of big data engine Flink is faced with the problem of remote transmission, it mainly completes the data transmission through Netty, and relies on the Netty water level mechanism to ensure the operation of its back pressure mechanism. Netty water level mechanism is a relatively static mechanism, which makes Flink repeatedly back pressure in the face of catastrophic data flow, thus affecting the computing efficiency of the whole Flink cluster. To solve this problem, this paper proposes a Flink scheduling optimization algorithm Flink-N based on dynamic water level. Experimental results show that, compared with Flink’s default back pressure mechanism, Flink-N greatly improves the throughput, CPU utilization and time delay. The overall delay optimization is 18%, and the maximum optimization is 23%.

文章引用：冯鹏, 黄山, 段晓东. 一种基于动态水位值的Flink调度优化算法[J]. 计算机科学与应用, 2021, 11(5): 1512-1521. https://doi.org/10.12677/CSA.2021.115155

1. 引言

随着信息时代的不断发展及线上线下交互需求的增加，实时计算能力强的流处理系统越来越被产业办重视。Flink因其具有强大的实时计算能力被广泛应用于实时计算 [1] [2]、高频交易和社交网络等方面。如美团 [3]、阿里云实时计算 [4] 及在线监测 [5] 等场景。

反压(backpressure)能力的好坏是判断实时处理系统数据处理能力强弱的重要依据。当系统瞬时负载高峰使得其接受数据的速度远远高于其处理数据的能力时，就会出现反压情况，如垃圾回收不及时或者停顿可能使得流入系统的数据快速堆积、大促或秒杀活动时出现的流量陡增等都会造成反压。如不对反压及时处理，将会使系统资源耗尽甚至导致系统崩溃。

Flink通过自身数据流来响应反压问题，下游的消费者处理数据减慢会降低上游发送者的发送速率。

2. 相关研究现状

现有大数据实时处理系统处理反压问题方面，Storm [6] [7] 是通过监控Bolt中的接收队列负载情况，如果超过高水位值就会将反压信息写到Zookeeper，Zookeeper上的watch会通知该拓扑的所有Worker都进入反压状态，最后Spout停止发送tuple。J Storm [8] [9] 采用逐级降速的方式来处理反压，使用Topology Master替代Zookeeper来协调拓扑进入反压状态，效果较Storm更为稳定。Spark Streaming [10] [11] 根据批处理时间(Batch Processing Time)和批次间隔(Batch Interval，即Batch Duration)的信息来动态调整系统的摄入速率，从而完成其反压工作。

在Flink优化方面，关沫使用Flink执行一种传统堆序优化后的算法Heap Optimize，增加了Flink的吞吐量 [12]。针对Flink默认的先来先服务的任务调度策略，王丽娟等人 [13] 通过资源感知，将待执行任务分配到最佳节点进行计算，优化了Flink的负载均衡。何贞贞等人 [14] 则根据任务间数据流的大小确定拓扑边的权重，以生成关键路径，大幅缩减了Flink节点间的通信开销。文献 [15] [16] [17] 把Flink从原来的CPU迁移扩展到异构的CPU-GPU集群，在并行计算、内存管理及通信策略方面极大地提高了Flink的计算能力。

目前诸多的研究当中没有Flink反压方面的问题，当Flink面临远端传输问题时，其所依托的Netty所采用的是一种静态的水位机制，这使得Flink在面临颠簸状态数据的远程传输问题时，容易出现反复反压的情况，极大地影响了Flink传输数据的效率，故而本文将针对此问题展开研究。

3. Flink反压原理解析

3.1. Flink反压原理

Flink的反压原理如图1所示，假如Flink的一个Job分为Task A、B、C，其中Task A是Source Task、Task B处理数据、Task C为Sink Task。假如Task C由于各种原因吞吐量降低，会将负载信息反馈给Task B，Task B会降低向Task C发送数据的速率，此时若Task B还保持从Task A读取数据，数据会把Task B的Send Buffer和Receive Buffer撑爆，导致OOM或者丢失数据。所以，当Task B的Send Buffer和Receive Buffer被用完后，Task B会用同样的原理将负载信息反馈给Task A，Task A收到Task B的负载信息后，会降低给Task B发送数据的速率，以此类推。

Figure 1. Flink back pressure schematic diagram

图1. Flink反压原理图

3.2. Flink网络传输的数据流向

Flink反压存在Task内与跨Task两种情况，本文已在图1中标注，本文主要是针对Flink跨Task传输进行反压优化，故下文主要对Flink跨Task传输进行介绍：图2展示了Flink网络传输时的数据流向，可以看到Task Manager A给TaskManager B发送数据，Task Manager A做为Producer，Task Manager B做为Consumer。Producer端的Operator实例会产生数据，最后通过网络发送给Consumer端的Operator实例。Producer端Operator实例生产的数据首先缓存到Task Manager内部的Net Work Buffer。Net Work依赖Netty来做通信，Producer端的Netty内部有Channel Outbound Buffer，Consumer端的Netty内部有Channel Inbound Buffer。Netty最终还是要通过Socket发送网络请求，Socket这一层也会有Buffer，Producer端有Send Buffer，Consumer端有Receive Buffer。

故Flink网络传输时的整个反压过程为：首先Producer Operator从自己的上游或者外部数据源读取到数据后，对一条条的数据进行处理，处理完的数据首先输出到Producer Operator对应的Net Work Buffer中。Buffer写满或者超时后，就会触发将Net Work Buffer中的数据拷贝到Producer端Netty的Channel Outbound Buffer，之后又把数据拷贝到Socket的Send Buffer中，这里有一个从用户态拷贝到内核态的过程，最后通过Socket发送网络请求，把Send Buffer中的数据发送到Consumer端的Receive Buffer。数据到达Consumer端后，再依次从Socket的Receive Buffer拷贝到Netty的Channel Inbound Buffer，再拷贝到Consumer Operator的Net Work Buffer，最后Consumer Operator就可以读到数据进行处理了，这就是两个Task Manager之间的数据传输过程。

4. Flink反压机制的缺点

如图2所示，Flink通过Netty完成其数据的网络传输任务，Netty在向底层的Channel写数据的时候会用到Channel Outbound Buffer，Channel Outbound Buffer本身是无界的，如果水位控制不当的话就会造成占用大量的内存，因此Netty为其配置了一个高水位线和低水位线。为避免上游数据量太大，当上游数据的大小超过高水位线的时候对应channel的isWritable就会变成false，当上游数据的大小低于低水位线的时候，isWritable就会变成true，低水位线主要是其自动恢复运行的一种保障，为便于理解下文所提的水位线均指高水位线。Flink以此来保证不在网络中写入太多数据，进而保证Flink的反压能力。

Figure 2. Data flow chart of Flink network transmission

图2. Flink网络传输数据流向图

分析源码可知，Netty水位机制是一种静态的机制，Netty默认其水位线的高度为定值，这使得Flink系统在面临瞬时流量不稳定的场景(即系统的数据流量值在特别高与特别低的值之间不断跳动时)时，会出现下述两种问题：

1) 水位值较下游可用缓存区数偏低：如图3 (左图)所示，图中以“圆圈”表示数据，以“方框”表示缓存区的大小，下同。假设当上游A点来临的数据量是9 (Flink中以buffer为数据单位，每个buffer大小为32 k，为便于表述，下文块描述)，而此时下游B点的可用缓存区是10，H代表代表数据通道(其作用类似于水坝，水位值的大小决定了其单位时间通过的数据量大小)，此处设水位值高度为4，则Flink传输本批次的数据需要3个单位时间(上游共9块数据，每个单位时间只能通过4块的数据，需要3个单位的时间来处理这批数据)。而若此时的水位值为9或者10的话，则只需要一个单位时间，Flink便可以处理本批次的数据。

2) 水位值较下游可用缓存区数偏高：如图3 (右图)，假设当上游A点来临的数据量是4，而此时下游B点的可用缓存区为2，水位值高度为4。由于数据量不于水位值高度，Flink会误以为可以在一单位时间内接受这批数据，如图中可以看出，只有2块的缓存区，直接接收了4块的数据量，会直接导致内存溢出(OOM)甚至引起系统阻塞。综上，由于不合理的静态水位线的设置，使得Flink传输数据时间延长，或者出现非正常的阻塞，进而影响整个Flink的数据传输情况。

Figure 3. Schematic diagram of data transmission of different Netty water level values

图3. 不同Netty水位值数据传输示意图

综上，由于不合理的静态水位线的设置，使得Flink传输数据时间延长，或者出现非正常的阻塞，进而影响整个Flink的数据传输情况。

5. 反压优化算法

本节将针对Flink反压传输所存在的缺点，提出一种基于动态水位值的Flink调度优化算法，并给出示例进行说明：

5.1. 基于动态水位值的Flink调度优化算法

虽然可以在数据处理前对Netty所默认的两个buffer高度进行参数调整，但这种默认的定值始终是一种静态的机制。这种相对静态的机制使得Flink在面临远程传输问题时，容易出现上文所述的两种问题。本节将针对Flink反压传输所存在的缺点，提出一种基于动态水位值Flink调度优化算法，并给出例子进行说明。Flink-N算法的核心思想是：把Flink中Netty下游可用buffer数B_t实时写入Redis中，根据Redis中前后时刻buffer数(即B_t值)的大小变化，对水位值Wt进行动态调整，算法流程如图4所示，其具体步骤如下：

第一步，设置访问函数，并创建接口，使得Flink启动的同时运行访问函数。其中，访问函数的作用是，每间隔一段时间访问Netty下游缓存区可用buffer (图中B点位置)的数量，并将其记录到Redis中；

第二步，获得下游可用buffer数B_t；

第三步，取0.8倍的B₀值的整数部分(向下取整)作为Netty的高水位值，即令W_0H = ⌊0.8|B₀|⌋；

第四步，将B_t值反馈到Redis中并记录；

第五步，根据B_t值调整水位值W_t，具体方法为：若B_t大于B_t与B_t−1的平均值，则W_t取B_t大于B_t与B_t−1的平均值；反之，当B_t ≤ B_t−1时，则令W_t = B_t。

第六步，重复第二步、第四步与第五步。

本文选择Redis是因为Flink处理时延是ms级别的，而Redis数据读取速度可达110,000次/s，写数据的速度可达81,000次/s，选择Redis相较于其他数据库而言，不会对Flink的时效性产生负增益。

Figure 4. Flow chart of Flink-N

图4. Flink-N算法流程图

5.2. 示例说明

现对所提出的算法给出实例加以说明：设某连续时间段t₁、t₂、t₃、t₄、t₅内Netty上游来临的数据量分别8、4、8、4、8，且下游对应时间段内的缓存区数分别为10、4、10、4、10，在表1中以G表示对应时刻系统接收的数据量，以R表示系统实际的数据传输量。则两种不同的机制对应的数据传输结果如下(假设此处静态水位值为6，且每次阻塞系统需要两个时刻的时间才能恢复正常运行。)：

如表1所示，对于Flink默认的反压算法，系统t₁时刻要传输8单位的数据量，默认的水位值一直是6，故而Flink在t₁时刻只能传输6块的数据。在t₂时刻系统接收外部来的4块数据，同时要传输t₁时刻剩余的2块数据，因此实际传输数据为6块，此时水位值为6，但下游缓存区只有4，故而会出现第4节中的第二种情况而导致系统阻塞。因为发生了阻塞，系统在t₃、t₄会自行调整恢复到可运行状态，无法进行数据的传输。t₅、t₆、t₇、t₈时刻的状态与t₁、t₂、t₃、t₄时刻的状态相似。t₁₀时，系统已无外部的数据要接收，但仍有t₉时刻的2块数据需要传输，此时水位值为6，下游缓存区数为4，可直接传输，从而完成所有数据的传输。

Table 1. Comparison of data transmission examples under two algorithms

表1. 两种算法下数据传输示例对照

对于Flink-N算法，因为t₁时刻下游缓存区数为10，所以我们为水位值赋初始值8，此时要传输的数据为8，故传输后无数据剩余。t₂时刻时，下游缓存区数为4，因为10与4的平均值7大于4，所以水位值设为4，上游数据为4，且下游缓存区为4，刚好可以把t₂时刻的数据传输完毕。t₃时刻时，下游缓存区为10，因为10与4的平均值7小于10，所以水位值设为7，此时上游来临的数据为8，下游缓存区数为10，故t₃时刻传输后，系统会剩余1单位数据在t₄时刻传输。t₄时刻时，下游缓存区数为4，因为10与4的平均值大于4，所以t₄时刻的水位值设为4，此时外部数据为4，加之t₃时刻的数据剩余，整个t₄时刻系统实际要传输的数据为5，此时下游缓存区为4，因此t₄时刻后，系统会剩余1块数据在t5时刻传输。t₅时刻下游缓存区数为10，因为10与4的平均值7小于10，故水位值设为7，此时外部数据为8，加上t₄时刻剩余的1块数据，t₅时刻实际要传输的数据为9，则t₅时刻后系统剩余2块的数据在t₆时刻传输。在t₆时刻时，系统下游缓存区为4，因为10与4的平均值7大于4，故水位值设为4，此时系统外部无待接收数据，加上t₅时刻剩余的2块数据，则系统t₆实际要传输的数据为2，可以全部完成传输。

综上，对于本例所给出的数据颠簸的案例，Flink完成整个传输需要10个时刻，Flink-N只需6个时刻即可完成数据传输。显然，理论上Flink-N较Flink默认的反压算法具有更好的时效性。

6. 实验分析

6.1. 实验环境

实验在三台配置均为Inter(R)Core(TM) i7-8700、2.66 GHz CPU、32GDDR4内存、2T硬盘的机器所组成的集群上进行，采用一主两从结构，其他配置如表2所示：

Table 2. Experimental configuration

表2. 实验配置

6.2. 实验及分析

实验选择典型大数据处理应用单词统计Word Count进行对比实验，将Flink默认反压机制与优化后的算法机制Flink-N进行对比。

实验分别从kafka集群中订阅同一个Topic，而kafka不断读取合成的人工数据集并向该Topic注入数据。Flink处理的数据便会随着时间的变化越来越多。为了消除不确定因素对实验结果的影响，本文将实验分别运行10组，取统计的平均值进行分析，分别观察两组实验各个时间点的吞吐量、CPU利用率及传输时延。

1) 吞吐量效果评测

如图5显示的是Flink默认反压机制与Flink-N在吞吐量方面的差别，相比于默认反压机制，Flink-N的反压机制在整体吞吐量上提高了20%左右。

Figure 5. Throughput test comparison

图5. 吞吐量测试对比

2) CPU利用率效果评测

如图6显示的是Flink默认反压机制与Flink-N在CPU利用率方面的差别，相比于默认的Flink反压机制，Flink-N的反压机制在系统刚开始运行时便可以迅速提高系统的利用率。Redis的加入，使得Flink-N一开始便拥有更高的CPU利用率，相较于Flink本身的反压机制，其最高优化率达到36%，平均优化率为21%。

Figure 6. CPU utilization comparison

图6. CPU利用率对比

3) 传输时延效果评测

如图7所示为Flink与Flink-N的传输时延效果对比，随着时间增加，系统的吞吐量不断增大，伴随着系统吞吐量的增加，系统的传输时延不断增大。虽然在系统运行初始阶段，由于数据传输量小，但系统整体组件较多，Flink-N也会出现时延较大的情况，但从整体角度来看，Flink-N在时延方面的优化还是很成功的，其整体优化率达18%，最大优化率达23%。

Figure 7. Time delay test comparison

图7. 时延测试对比

7. 结论与展望

本文基于Netty水位机制，对Flink反压机制进行了动态水位调优，使Flink在面临远程传输问题时，具有更好的反压能力。经实验评测可知：优化后的Flink-N算法在吞吐量、CPU利用率及时延方面均优于Flink默认的反压机制。但本文研究工作也有不足，可以从以下两方面改进：1) 对Flink本地传输进行反压优化问题；2) 本文在Flink-N算法中接入了Redis，是一种曲线式解决问题的方法。

基金项目

科技部重点研发项目“云计算和大数据”重点专项项目(2018YFB1004402)。

参考文献

[1]	袁海飞. 基于分布式实时计算架构的生产设备数据分析平台[J]. 电子技术与软件工程, 2020, 174(4): 217-219.
[2]	樊春美, 朱建生, 单杏花, 等. 基于Flink实时计算的自动化流控制算法[J]. 计算机技术与发展, 2020, 30(8): 66-72.
[3]	https://tech.meituan.com/2018/10/18/meishi-data-flink.html
[4]	https://help.aliyun.com/document_detail/110778.html?spm=a2c4g.11174283.2.6.114773d5r0epNT
[5]	姜红玉, 汪朋, 封雷. 基于流式计算的实时用户画像系统研究[J]. 计算机技术与发展, 2020, 30(7): 186-193.
[6]	Aniello, L., Baldoni, R. and Querzoni, L. (2013) Adaptive Online Scheduling in Storm. Proceedings of the 7th ACM International Conference on Distributed Event-Based Systems, June 2013, 207-218. [Google Scholar] [CrossRef]
[7]	Yang, M. and Ma, R.T.B. (2015) Smooth Task Migration in Apache Storm. Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, May 2015, 2067-2068. [Google Scholar] [CrossRef]
[8]	林琳. 阿里巴巴的大数据之路JStorm与Blink的发展史[J]. 计算机与网络, 2019, 45(2): 41-42.
[9]	https://developer.aliyun.com/article/709397?spm=a2c6h.14164896.0.0.b095505ax2TAav
[10]	宋灵城. Flink和Spark Streaming流式计算模型比较分析[J]. 通信技术, 2020, 53(1): 59-62.
[11]	Mhand, M.A., Boulmakoul, A. and Badir, H. (2019) Scalable and Distributed Architecture Based on Apache Spark Streaming and PROM6 for Pro-cessing RoRo Terminals Logs. Proceedings of the New Challenges in Data Sciences: Acts of the Second Conference of the Moroccan Classification Society, March 2019, Article No. 19. [Google Scholar] [CrossRef]
[12]	关沫, 魏碧晴. 基于Flink框架的TopN堆排序优化算法[J]. 信息技术与网络安全, 2020(2): 23-26.
[13]	汪丽娟, 钱育蓉, 张猛, 等. 基于Flink平台的资源感知任务调度策略[J]. 东北师大学报:自然科学版, 2020, 52(2): 66-72.
[14]	何贞贞, 于炯, 李梓杨, 等. 基于Flink的任务调度策略[J]. 计算机工程与设计, 2020, 41(5): 1280-1287.
[15]	Chen, C., Li, K., Ouyang, A., et al. (2016) GFlink: An In-Memory Computing Architecture on Heterogeneous CPU-GPU Clusters for Big Data. 45th International Conference on Parallel Processing (ICPP), Philadelphia, 16-19 August 2016, 542-551. [Google Scholar] [CrossRef]
[16]	Chen, C., Li, K., Ouyang, A. and Li, K. (2018) FlinkCL: An OpenCL-Based In-Memory Computing Architecture on Hetero-geneous CPU-GPU Clusters for Big Data. IEEE Transactions on Computers, 67, 1765-1779. [Google Scholar] [CrossRef]
[17]	Chen, C., Li, K., Ouyang, A., et al. (2017) GPU-Accelerated Paral-lel Hierarchical Extreme Learning Machine on Flink for Big Data. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 47, 2740-2753. [Google Scholar] [CrossRef]

为你推荐

友情链接