Flink Metrics监控与 RestApi

安全 应用安全
Flink 的 metrics 是 Flink 公开的一个度量系统,metrics 也可以暴露给外部系统,通过在 Flink 配置文件 conf/flink-conf.yaml 配置即可,Flink原生已经支持了很多reporter,如 JMX、InfluxDB、Prometheus 等等。

[[404556]]

本文转载自微信公众号「KK架构师」,作者wangkai 。转载本文请联系KK架构师公众号。

 一、Flink metrics简介

Flink 的 metrics 是 Flink 公开的一个度量系统,metrics 也可以暴露给外部系统,通过在 Flink 配置文件 conf/flink-conf.yaml 配置即可,Flink原生已经支持了很多reporter,如 JMX、InfluxDB、Prometheus 等等。

我们也可以自定义指标通过 metric 收集,实际开发时经常需要查看当前程序的运行状况,flink 提供了 UI 界面,有比较详细的统计信息。

但是 UI 界面也有不完善的地方,比如想要获取 flink 的实时吞吐。本文将详细介绍如何通过 metric 监控 flink 程序,自定义监控指标以及 metrics 在 flink 的 UI 界面的应用。

二、Metrics在UI页面上的应用

在 flink 的 UI 的界面上我们点击任务详情,然后点击 Task Metrics 会弹出如下的界面,在 add metic 按钮上 我们可以添加我需要的监控指标。

注意:如果点击 Task Metrics 没有显示 Add metics 点击一下任务的 DAG 图就会显示出来,当我们点击了 DAG 图中某个算子的名字,那么 Add metric 显示的就是该算子的监控指标,且按照分区显示,算子名前置的数字就是分区号。

三、各个指标的含义

关于各个指标的含义官网上有详细介绍:

https://ci.apache.org/projects/flink/flink-docs-release-1.7/monitoring/metrics.html#availability

四、自定义监控指标

案例:在map算子内计算输入的总数据,设置 :

  1. DataStream<String> userData = kafkaData.map(new RichMapFunction<String, String>() { 
  2.             Counter mapDataNub; 
  3.             @Override 
  4.             public void open(Configuration parameters) throws Exception { 
  5.                 mapDataNub=  getRuntimeContext() 
  6.                        .getMetricGroup() 
  7.                        .addGroup("flink_test_metric"
  8.                        .counter("mapDataNub"); 
  9.             } 
  10.             @Override 
  11.             public String map(String s)  { 
  12.                 String s1 =""
  13.                 try { 
  14.                     String[] split = s.split(","); 
  15.                     long userID = Long.parseLong(split[0]); 
  16.                     long itemId = Long.parseLong(split[1]); 
  17.                     long categoryId = Long.parseLong(split[2]); 
  18.                     String behavior = split[3]; 
  19.                     long timestamp = Long.parseLong(split[4]); 
  20.                     Map map = new HashMap(); 
  21.                     map.put("userID", userID); 
  22.                     map.put("itemId", itemId); 
  23.                     map.put("categoryId", categoryId); 
  24.                     map.put("behavior", behavior); 
  25.                     map.put("timestamp"timestamp); 
  26.                     s1 = JSON.toJSONString(map); 
  27.                     mapDataNub.inc(); 
  28.                     System.out.println("数据"+map.toString()); 
  29.                 } catch (NumberFormatException e) { 
  30.                     e.printStackTrace(); 
  31.                 } 
  32.                 return  s1; 
  33.             } 

程序启动之后就可以在任务的ui界面上查看

注意点:

搜索自定义或者查看某个指标需要点击DAG图中对应算子的名称

指标的前缀0,1,2....是指算子的分区数

进行监控时,尽量不要对算子进行重命名,使用默认的名字,这样一套监控程序可以监控多个flink任务,比如对sink重新命名,如果不同的flink程序对sink的命名不一样,则一套监控无法监控多个flink程序

  1. .addSink(KafkaSink.getProducer()).name("kafka_sink"); 

五、Flink UI 不显示算子数据接收和发送的条数

有时候我们Flink任务正常运行,数据也可以打印,而且都保存到数据库了,但是UI上面却不显示数据接收和发送的条数 ,导致无法进行指标监控和查查flink任务运行的具体情况,这是什么原因导致的呢?

原因:是因为默认情况下Flink开启了operator chain,所以当flink程序所有的算子都在一个chain里面时,也就是在一个DAG(task)里面,所有没有向下游发送数据,所以显示都为0。比如下图的情况所有指标都是0;

解决方案:第一种方法:在flink程序里添加自定义metric

第二种方法:使用startNewChain和disableChainin打断程序默认的operator chain

第三种方法:修改某个算子的并行度使其和上下游算子并行度不一致

六、Metric Reporter

Metrics可以暴露给外部系统,通过在flink配置文件conf/flink-conf.yaml配置即可,flink原生已经支持了很多reporter,如JMX、InfluxDB、Prometheus等等,同时也支持自定义reporter。

Flink自带了很多Reporter,包括JMX、InfluxDB、Prometheus等等,接下来介绍下InfluxDB Reporter的使用。

只需在flink配置文件conf/flink-conf.yaml中配置Influxdb相关信息即可,主要包括域名、端口号、用户密码等等。

flink1.10之后采用

  1. metrics.reporter.influxdb.factory.class: org.apache.flink.metrics.influxdb.InfluxdbReporterFactory 
  2. metrics.reporter.influxdb.host: localhost 
  3. metrics.reporter.influxdb.port: 8086 
  4. metrics.reporter.influxdb.db: flink 
  5. metrics.reporter.influxdb.consistency: ANY 
  6. metrics.reporter.influxdb.connectTimeout: 60000 
  7. metrics.reporter.influxdb.writeTimeout: 60000 
  8. metrics.reporter.influxdb.interval: 30 SECONDS 

flink1.10之前

  1. metrics.reporters: influxdb 
  2. metrics.reporter.influxdb.class: org.apache.flink.metrics.influxdb.InfluxdbReporter 
  3. metrics.reporter.influxdb.host: localhost 
  4. metrics.reporter.influxdb.port: 8086 
  5. metrics.reporter.influxdb.db: flink_monitor 
  6. metrics.reporter.influxdb.username: flink-metrics 
  7. metrics.reporter.influxdb.password: 123 

注意事项:收集flinkSQL任务的监控指标,如果用户书写的sql语句 insert into 或者insert overwrite 中单引号带有换行符,写入influxdb会报错

查看influxdb收集到监控信息,发现会自动给我生成数据库和measurement,所有的指标都存储在了具体的measurement中

七、flink metric监控程序

前面介绍了flink公共的监控指标以及如何自定义监控指标,那么实际开发flink任务我们需要及时知道这些监控指标的数据,去获取程序的健康值以及状态。这时候就需要我们通过 flink REST API ,自己编写监控程序去获取这些指标。很简单,当我们知道每个指标请求的URL,我们便可以编写程序通过http请求获取指标的监控数据。

八、flink REST API监控程序

为了获取flink任务运行状态和吞吐量我们需要注意一下两点:

  • flink集群模式需要知道 JobManager 的地址和端口(5004)
  • 对于 flink on yarn 模式来说,则需要知道 RM 代理的 JobManager UI 地址,例如 http://yarn-resource-manager-ui/proxy/application_155316436xxxx_xxxx

1.获取flink任务运行状态(我们可以在浏览器进行测试,输入如下的连接)

http://yarn-resource-manager-ui/proxy/application_155316436xxxx_xxxx/jobs

返回的结果

  1.  jobs: [{ 
  2.    id: "ce793f18efab10127f0626a37ff4b4d4"
  3.    status: "RUNNING" 
  4.   } 
  5.  ] 

2.获取 job 详情

需要在/jobs/jobid

http://yarn-resource-manager-ui/proxy/application_155316436xxxx_xxxx/jobs/ce793f18efab10127f0626a37ff4b4d4

  1.  jid: "ce793f18efab10127f0626a37ff4b4d4"
  2.  name"Test"
  3.  isStoppable: false
  4.  state: "RUNNING"
  5.  start - time: 1551577191874, 
  6.  end - time: -1, 
  7.  duration: 295120489, 
  8.  now: 1551872312363, 
  9.  。。。。。。 
  10.       此处省略n行 
  11.     。。。。。。 
  12.    }, { 
  13.     id: "cbc357ccb763df2852fee8c4fc7d55f2"
  14.     parallelism: 12, 
  15.     operator: ""
  16.     operator_strategy: ""
  17.     description: "Source: Custom Source -&gt; Flat Map"
  18.     optimizer_properties: {} 
  19.    } 
  20.   ] 
  21.  } 

九、更灵活的方式获取每个指标的请求连接

有人可能会问,这么多指标,难道我要把每个指标的请求的URL格式都记住吗?

今天教大家一个小技巧,一个前端技术,就是进入flink任务的UI界面,按住F12进入开发者模式,然后我们点击任意一个metric指标,便能立即看到每个指标的请求的URL。比如获取flink任务的背压情况:

如下图我们点击某一个task的status,按一下f12,便看到了backpressue,点开backpressue就是获取任务背压情况的连接如下:

http://127.0.0.1/proxy/application_12423523_133234/jobs/86eb310874aeccb37b58ae2892feced3/vertices/cbc357ccb763df2852fee8c4fc7d55f2/backpressure

请求连接返回的json字符串如下:我们可以获取每一个分区的背压情况,如果不是OK状态便可以进行任务报警,其他的指标获取监控值都可以这样获取 简单而又便捷。

 

十、案例:实时获取yarn上flink任务运行状态

我们使用 flink REST API的方式,通过http请求实时获取flink任务状态,不是RUNNING状态则进行电话或邮件报警,达到实时监控的效果。

  1. public class SendGet { 
  2.     public static String sendGet(String url) { 
  3.         String result = ""
  4.         BufferedReader in = null
  5.         try { 
  6.             String urlNameString = url; 
  7.             URL realUrl = new URL(urlNameString); 
  8.             // 打开和URL之间的连接 
  9.             URLConnection connection = realUrl.openConnection(); 
  10.             // 设置通用的请求属性 
  11.             connection.setRequestProperty("accept""*/*"); 
  12.             connection.setRequestProperty("connection""Keep-Alive"); 
  13.             connection.setRequestProperty("user-agent"
  14.                     "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); 
  15.             // 建立实际的连接 
  16.             connection.connect(); 
  17.             in = new BufferedReader(new InputStreamReader( 
  18.                     connection.getInputStream())); 
  19.             String line; 
  20.             while ((line = in.readLine()) != null) { 
  21.                 result += line; 
  22.             } 
  23.         } catch (Exception e) { 
  24.             System.out.println("发送GET请求出现异常!" + e); 
  25.             e.printStackTrace(); 
  26.         } 
  27.         // 使用finally块来关闭输入流 
  28.         finally { 
  29.             try { 
  30.                 if (in != null) { 
  31.                     in.close(); 
  32.                 } 
  33.             } catch (Exception e2) { 
  34.                 e2.printStackTrace(); 
  35.             } 
  36.         } 
  37.         return result; 
  38.     } 
  39.  
  40.     public static void main(String[] args) { 
  41.         String s = sendGet("http://127.0.0.1:5004/proxy/application_1231435364565_0350/jobs"); 
  42.         JSONObject jsonObject = JSON.parseObject(s); 
  43.         String string = jsonObject.getString("jobs"); 
  44.         String substring = string.substring(1, string.length() - 1); 
  45.         JSONObject jsonObject1 = JSONObject.parseObject(substring); 
  46.         String status = jsonObject1.getString("status"); 
  47.         System.out.println(status); 
  48.     } 

结果

 

责任编辑:武晓燕 来源: KK架构师
相关推荐

2021-09-11 21:02:24

监控Sentry Web性能

2021-06-03 09:00:00

Kubernetes集群容器

2024-03-13 13:44:43

开发插件开源

2021-09-30 06:35:23

监控性能优化

2022-07-26 07:47:14

架构

2021-09-08 10:47:33

Flink执行流程

2024-01-03 16:29:01

Agent性能优化

2014-12-04 09:47:59

2015-04-13 10:13:29

2021-04-16 08:20:00

Flink CEP直播监控

2022-05-18 07:30:51

OperatorprometheusVM 集群

2013-11-06 10:46:58

OpenStack监控监控系统

2010-09-17 10:41:27

SIP协议视频监控

2012-10-29 10:14:07

APPHadoopSplunk

2017-07-07 14:30:27

Flink架构拓扑

2021-04-29 08:27:06

druidundertowMetrics

2022-07-12 16:54:54

字节跳动Flink状态查询

2022-06-20 05:52:27

FlinkTTL流查询

2018-05-21 14:57:38

云监控服务监控原因

2022-08-25 18:23:07

携程HBase存储Metrics
点赞
收藏

51CTO技术栈公众号