微服务:剖析一下源码,Nacos的健康检查竟如此简单

开发 架构
Nacos中临时实例基于心跳上报方式维持活性,基本的健康检查流程基本如下:Nacos客户端会维护一个定时任务,每隔5秒发送一次心跳请求,以确保自己处于活跃状态。

[[409195]]

本文转载自微信公众号「程序新视界」,作者二师兄。转载本文请联系程序新视界公众号。

前言

前面我们多次提到Nacos的健康检查,比如《微服务之:服务挂的太干脆,Nacos还没反应过来,怎么办?》一文中还对健康检查进行了自定义调优。那么,Nacos的健康检查和心跳机制到底是如何实现的呢?在项目实践中是否又可以参考Nacos的健康检查机制,运用于其他地方呢?

这篇文章,就带大家来揭开Nacos健康检查机制的面纱。

Nacos的健康检查

Nacos中临时实例基于心跳上报方式维持活性,基本的健康检查流程基本如下:Nacos客户端会维护一个定时任务,每隔5秒发送一次心跳请求,以确保自己处于活跃状态。Nacos服务端在15秒内如果没收到客户端的心跳请求,会将该实例设置为不健康,在30秒内没收到心跳,会将这个临时实例摘除。

原理很简单,关于代码层的实现,下面来就逐步来进行解析。

客户端的心跳

实例基于心跳上报的形式来维持活性,当然就离不开心跳功能的实现了。这里以客户端心跳实现为基准来进行分析。

Spring Cloud提供了一个标准接口ServiceRegistry,Nacos对应的实现类为NacosServiceRegistry。Spring Cloud项目启动时会实例化NacosServiceRegistry,并调用它的register方法来进行实例的注册。

  1. @Override 
  2. public void register(Registration registration) {  
  3.    // ... 
  4.    NamingService namingService = namingService(); 
  5.    String serviceId = registration.getServiceId(); 
  6.    String group = nacosDiscoveryProperties.getGroup(); 
  7.  
  8.    Instance instance = getNacosInstanceFromRegistration(registration); 
  9.  
  10.    try { 
  11.       namingService.registerInstance(serviceId, group, instance); 
  12.       log.info("nacos registry, {} {} {}:{} register finished"group, serviceId, 
  13.             instance.getIp(), instance.getPort()); 
  14.    }catch (Exception e) { 
  15.       // ... 
  16.    } 

在该方法中有两处需要注意,第一处是构建Instance的getNacosInstanceFromRegistration方法,该方法内会设置Instance的元数据(metadata),通过源元数据可以配置服务器端健康检查的参数。比如,在Spring Cloud中配置的如下参数,都可以通过元数据项在服务注册时传递给Nacos的服务端。

  1. spring: 
  2.   application: 
  3.     nameuser-service-provider 
  4.   cloud: 
  5.     nacos: 
  6.       discovery: 
  7.         server-addr: 127.0.0.1:8848 
  8.         heart-beat-interval: 5000 
  9.         heart-beat-timeout: 15000 
  10.        ip-delete-timeout: 30000 

其中的heart-beat-interval、heart-beat-timeout、ip-delete-timeout这些健康检查的参数,都是基于元数据上报上去的。

register方法的第二处就是调用NamingService#registerInstance来进行实例的注册。NamingService是由Nacos的客户端提供,也就是说Nacos客户端的心跳本身是由Nacos生态提供的。

在registerInstance方法中最终会调用到下面的方法:

  1. @Override 
  2. public void registerInstance(String serviceName, String groupName, Instance instance) throws NacosException { 
  3.     NamingUtils.checkInstanceIsLegal(instance); 
  4.     String groupedServiceName = NamingUtils.getGroupedName(serviceName, groupName); 
  5.     if (instance.isEphemeral()) { 
  6.         BeatInfo beatInfo = beatReactor.buildBeatInfo(groupedServiceName, instance); 
  7.         beatReactor.addBeatInfo(groupedServiceName, beatInfo); 
  8.     } 
  9.     serverProxy.registerService(groupedServiceName, groupName, instance); 

其中BeatInfo#addBeatInfo便是进行心跳处理的入口。当然,前提条件是当前的实例需要是临时(瞬时)实例。

对应的方法实现如下:

  1. public void addBeatInfo(String serviceName, BeatInfo beatInfo) { 
  2.     NAMING_LOGGER.info("[BEAT] adding beat: {} to beat map.", beatInfo); 
  3.     String key = buildKey(serviceName, beatInfo.getIp(), beatInfo.getPort()); 
  4.     BeatInfo existBeat = null
  5.     //fix #1733 
  6.     if ((existBeat = dom2Beat.remove(key)) != null) { 
  7.         existBeat.setStopped(true); 
  8.     } 
  9.     dom2Beat.put(key, beatInfo); 
  10.     executorService.schedule(new BeatTask(beatInfo), beatInfo.getPeriod(), TimeUnit.MILLISECONDS); 
  11.     MetricsMonitor.getDom2BeatSizeMonitor().set(dom2Beat.size()); 

在倒数第二行可以看到,客户端是通过定时任务来处理心跳的,具体的心跳请求由BeatTask完成。定时任务的执行频次,封装在BeatInfo,回退往上看,会发现BeatInfo的Period来源于Instance#getInstanceHeartBeatInterval()。该方法具体实现如下:

  1. public long getInstanceHeartBeatInterval() { 
  2.     return this.getMetaDataByKeyWithDefault("preserved.heart.beat.interval", Constants.DEFAULT_HEART_BEAT_INTERVAL); 

可以看出定时任务的执行间隔就是配置的metadata中的数据preserved.heart.beat.interval,与上面提到配置heart-beat-interval本质是一回事,默认是5秒。

BeatTask类具体实现如下:

  1. class BeatTask implements Runnable { 
  2.      
  3.     BeatInfo beatInfo; 
  4.      
  5.     public BeatTask(BeatInfo beatInfo) { 
  6.         this.beatInfo = beatInfo; 
  7.     } 
  8.      
  9.     @Override 
  10.     public void run() { 
  11.         if (beatInfo.isStopped()) { 
  12.             return
  13.         } 
  14.         long nextTime = beatInfo.getPeriod(); 
  15.         try { 
  16.             JsonNode result = serverProxy.sendBeat(beatInfo, BeatReactor.this.lightBeatEnabled); 
  17.             long interval = result.get("clientBeatInterval").asLong(); 
  18.             boolean lightBeatEnabled = false
  19.             if (result.has(CommonParams.LIGHT_BEAT_ENABLED)) { 
  20.                 lightBeatEnabled = result.get(CommonParams.LIGHT_BEAT_ENABLED).asBoolean(); 
  21.             } 
  22.             BeatReactor.this.lightBeatEnabled = lightBeatEnabled; 
  23.             if (interval > 0) { 
  24.                 nextTime = interval; 
  25.             } 
  26.             int code = NamingResponseCode.OK; 
  27.             if (result.has(CommonParams.CODE)) { 
  28.                 code = result.get(CommonParams.CODE).asInt(); 
  29.             } 
  30.             if (code == NamingResponseCode.RESOURCE_NOT_FOUND) { 
  31.                 Instance instance = new Instance(); 
  32.                 instance.setPort(beatInfo.getPort()); 
  33.                 instance.setIp(beatInfo.getIp()); 
  34.                 instance.setWeight(beatInfo.getWeight()); 
  35.                 instance.setMetadata(beatInfo.getMetadata()); 
  36.                 instance.setClusterName(beatInfo.getCluster()); 
  37.                 instance.setServiceName(beatInfo.getServiceName()); 
  38.                 instance.setInstanceId(instance.getInstanceId()); 
  39.                 instance.setEphemeral(true); 
  40.                 try { 
  41.                     serverProxy.registerService(beatInfo.getServiceName(), 
  42.                             NamingUtils.getGroupName(beatInfo.getServiceName()), instance); 
  43.                 } catch (Exception ignore) { 
  44.                 } 
  45.             } 
  46.         } catch (NacosException ex) { 
  47.             NAMING_LOGGER.error("[CLIENT-BEAT] failed to send beat: {}, code: {}, msg: {}"
  48.                     JacksonUtils.toJson(beatInfo), ex.getErrCode(), ex.getErrMsg()); 
  49.              
  50.         } 
  51.         executorService.schedule(new BeatTask(beatInfo), nextTime, TimeUnit.MILLISECONDS); 
  52.     } 

在run方法中通过NamingProxy#sendBeat完成了心跳请求的发送,而在run方法的最后,再次开启了一个定时任务,这样周期性的进行心跳请求。

NamingProxy#sendBeat方法实现如下:

  1. public JsonNode sendBeat(BeatInfo beatInfo, boolean lightBeatEnabled) throws NacosException { 
  2.      
  3.     if (NAMING_LOGGER.isDebugEnabled()) { 
  4.         NAMING_LOGGER.debug("[BEAT] {} sending beat to server: {}", namespaceId, beatInfo.toString()); 
  5.     } 
  6.     Map<String, String> params = new HashMap<String, String>(8); 
  7.     Map<String, String> bodyMap = new HashMap<String, String>(2); 
  8.     if (!lightBeatEnabled) { 
  9.         bodyMap.put("beat", JacksonUtils.toJson(beatInfo)); 
  10.     } 
  11.     params.put(CommonParams.NAMESPACE_ID, namespaceId); 
  12.     params.put(CommonParams.SERVICE_NAME, beatInfo.getServiceName()); 
  13.     params.put(CommonParams.CLUSTER_NAME, beatInfo.getCluster()); 
  14.     params.put("ip", beatInfo.getIp()); 
  15.     params.put("port", String.valueOf(beatInfo.getPort())); 
  16.     String result = reqApi(UtilAndComs.nacosUrlBase + "/instance/beat", params, bodyMap, HttpMethod.PUT); 
  17.     return JacksonUtils.toObj(result); 

实际上,就是调用了Nacos服务端提供的"/nacos/v1/ns/instance/beat"服务。

在客户端的常量类Constants中定义了心跳相关的默认参数:

  1. static { 
  2.     DEFAULT_HEART_BEAT_TIMEOUT = TimeUnit.SECONDS.toMillis(15L); 
  3.     DEFAULT_IP_DELETE_TIMEOUT = TimeUnit.SECONDS.toMillis(30L); 
  4.     DEFAULT_HEART_BEAT_INTERVAL = TimeUnit.SECONDS.toMillis(5L); 

这样就呼应了最开始说的Nacos健康检查机制的几个时间维度。

服务端接收心跳

分析客户端的过程中已经可以看出请求的是/nacos/v1/ns/instance/beat这个服务。Nacos服务端是在Naming项目中的InstanceController中实现的。

  1. @CanDistro 
  2. @PutMapping("/beat"
  3. @Secured(parser = NamingResourceParser.class, action = ActionTypes.WRITE) 
  4. public ObjectNode beat(HttpServletRequest request) throws Exception { 
  5.  
  6.     // ... 
  7.     Instance instance = serviceManager.getInstance(namespaceId, serviceName, clusterName, ip, port); 
  8.  
  9.     if (instance == null) { 
  10.         // ... 
  11.         instance = new Instance(); 
  12.         instance.setPort(clientBeat.getPort()); 
  13.         instance.setIp(clientBeat.getIp()); 
  14.         instance.setWeight(clientBeat.getWeight()); 
  15.         instance.setMetadata(clientBeat.getMetadata()); 
  16.         instance.setClusterName(clusterName); 
  17.         instance.setServiceName(serviceName); 
  18.         instance.setInstanceId(instance.getInstanceId()); 
  19.         instance.setEphemeral(clientBeat.isEphemeral()); 
  20.  
  21.         serviceManager.registerInstance(namespaceId, serviceName, instance); 
  22.     } 
  23.  
  24.     Service service = serviceManager.getService(namespaceId, serviceName); 
  25.     // ... 
  26.     service.processClientBeat(clientBeat); 
  27.     // ... 
  28.     return result; 

服务端在接收到请求时,主要做了两件事:第一,如果发送心跳的实例不存在,则将其进行注册;第二,调用其Service的processClientBeat方法进行心跳处理。

processClientBeat方法实现如下:

  1. public void processClientBeat(final RsInfo rsInfo) { 
  2.     ClientBeatProcessor clientBeatProcessor = new ClientBeatProcessor(); 
  3.     clientBeatProcessor.setService(this); 
  4.     clientBeatProcessor.setRsInfo(rsInfo); 
  5.     HealthCheckReactor.scheduleNow(clientBeatProcessor); 

再来看看ClientBeatProcessor中对具体任务的实现:

  1. @Override 
  2. public void run() { 
  3.     Service service = this.service; 
  4.     // logging     
  5.     String ip = rsInfo.getIp(); 
  6.     String clusterName = rsInfo.getCluster(); 
  7.     int port = rsInfo.getPort(); 
  8.     Cluster cluster = service.getClusterMap().get(clusterName); 
  9.     List<Instance> instances = cluster.allIPs(true); 
  10.      
  11.     for (Instance instance : instances) { 
  12.         if (instance.getIp().equals(ip) && instance.getPort() == port) { 
  13.             // logging 
  14.             instance.setLastBeat(System.currentTimeMillis()); 
  15.             if (!instance.isMarked()) { 
  16.                 if (!instance.isHealthy()) { 
  17.                     instance.setHealthy(true); 
  18.                     // logging 
  19.                     getPushService().serviceChanged(service); 
  20.                 } 
  21.             } 
  22.         } 
  23.     } 

在run方法中先检查了发送心跳的实例和IP是否一致,如果一致则更新最后一次心跳时间。同时,如果该实例之前未被标记且处于不健康状态,则将其改为健康状态,并将变动通过PushService提供事件机制进行发布。事件是由Spring的ApplicationContext进行发布,事件为ServiceChangeEvent。

通过上述心跳操作,Nacos服务端的实例的健康状态和最后心跳时间已经被刷新。那么,如果没有收到心跳时,服务器端又是如何判断呢?

服务端心跳检查

客户端发起心跳,服务器端来检查客户端的心跳是否正常,或者说对应的实例中的心跳更新时间是否正常。

服务器端心跳的触发是在服务实例注册时触发的,同样在InstanceController中,register注册实现如下:

  1. @CanDistro 
  2. @PostMapping 
  3. @Secured(parser = NamingResourceParser.class, action = ActionTypes.WRITE) 
  4. public String register(HttpServletRequest request) throws Exception { 
  5.     // ... 
  6.     final Instance instance = parseInstance(request); 
  7.  
  8.     serviceManager.registerInstance(namespaceId, serviceName, instance); 
  9.     return "ok"

ServiceManager#registerInstance实现代码如下:

  1. public void registerInstance(String namespaceId, String serviceName, Instance instance) throws NacosException { 
  2.      
  3.     createEmptyService(namespaceId, serviceName, instance.isEphemeral()); 
  4.     // ... 

心跳相关实现在第一次创建空的Service中实现,最终会调到如下方法:

  1. public void createServiceIfAbsent(String namespaceId, String serviceName, boolean local, Cluster cluster) 
  2.         throws NacosException { 
  3.     Service service = getService(namespaceId, serviceName); 
  4.     if (service == null) { 
  5.          
  6.         Loggers.SRV_LOG.info("creating empty service {}:{}", namespaceId, serviceName); 
  7.         service = new Service(); 
  8.         service.setName(serviceName); 
  9.         service.setNamespaceId(namespaceId); 
  10.         service.setGroupName(NamingUtils.getGroupName(serviceName)); 
  11.         // now validate the service. if failed, exception will be thrown 
  12.         service.setLastModifiedMillis(System.currentTimeMillis()); 
  13.         service.recalculateChecksum(); 
  14.         if (cluster != null) { 
  15.             cluster.setService(service); 
  16.             service.getClusterMap().put(cluster.getName(), cluster); 
  17.         } 
  18.         service.validate(); 
  19.          
  20.         putServiceAndInit(service); 
  21.         if (!local) { 
  22.             addOrReplaceService(service); 
  23.         } 
  24.     } 

在putServiceAndInit方法中对Service进行初始化:

  1. private void putServiceAndInit(Service service) throws NacosException { 
  2.     putService(service); 
  3.     service = getService(service.getNamespaceId(), service.getName()); 
  4.     service.init(); 
  5.     consistencyService 
  6.             .listen(KeyBuilder.buildInstanceListKey(service.getNamespaceId(), service.getName(), true), service); 
  7.     consistencyService 
  8.             .listen(KeyBuilder.buildInstanceListKey(service.getNamespaceId(), service.getName(), false), service); 
  9.     Loggers.SRV_LOG.info("[NEW-SERVICE] {}", service.toJson()); 

service.init()方法实现:

  1. public void init() { 
  2.     HealthCheckReactor.scheduleCheck(clientBeatCheckTask); 
  3.     for (Map.Entry<String, Cluster> entry : clusterMap.entrySet()) { 
  4.         entry.getValue().setService(this); 
  5.         entry.getValue().init(); 
  6.     } 

HealthCheckReactor#scheduleCheck方法实现:

  1. public static void scheduleCheck(ClientBeatCheckTask task) { 
  2.     futureMap.computeIfAbsent(task.taskKey(), 
  3.             k -> GlobalExecutor.scheduleNamingHealth(task, 5000, 5000, TimeUnit.MILLISECONDS)); 

延迟5秒执行,每5秒检查一次。

在init方法的第一行便可以看到执行健康检查的Task,具体Task是由ClientBeatCheckTask来实现,对应的run方法核心代码如下:

  1. @Override 
  2. public void run() { 
  3.     // ...         
  4.     List<Instance> instances = service.allIPs(true); 
  5.      
  6.     // first set health status of instances: 
  7.     for (Instance instance : instances) { 
  8.         if (System.currentTimeMillis() - instance.getLastBeat() > instance.getInstanceHeartBeatTimeOut()) { 
  9.             if (!instance.isMarked()) { 
  10.                 if (instance.isHealthy()) { 
  11.                     instance.setHealthy(false); 
  12.                     // logging... 
  13.                     getPushService().serviceChanged(service); 
  14.                     ApplicationUtils.publishEvent(new InstanceHeartbeatTimeoutEvent(this, instance)); 
  15.                 } 
  16.             } 
  17.         } 
  18.     } 
  19.      
  20.     if (!getGlobalConfig().isExpireInstance()) { 
  21.         return
  22.     } 
  23.      
  24.     // then remove obsolete instances: 
  25.     for (Instance instance : instances) { 
  26.          
  27.         if (instance.isMarked()) { 
  28.             continue
  29.         } 
  30.          
  31.         if (System.currentTimeMillis() - instance.getLastBeat() > instance.getIpDeleteTimeout()) { 
  32.             // delete instance 
  33.             deleteIp(instance); 
  34.         } 
  35.     } 

在第一个for循环中,先判断当前时间与上次心跳时间的间隔是否大于超时时间。如果实例已经超时,且为被标记,且健康状态为健康,则将健康状态设置为不健康,同时发布状态变化的事件。

在第二个for循环中,如果实例已经被标记则跳出循环。如果未标记,同时当前时间与上次心跳时间的间隔大于删除IP时间,则将对应的实例删除。

小结

 

通过本文的源码分析,我们从Spring Cloud开始,追踪到Nacos Client中的心跳时间,再追踪到Nacos服务端接收心跳的实现和检查实例是否健康的实现。想必通过整个源码的梳理,你已经对整个Nacos心跳的实现有所了解。关注我,持续更新Nacos的最新干货。

 

责任编辑:武晓燕 来源: 程序新视界
相关推荐

2023-03-02 07:20:10

GRPC服务健康检查协议

2023-03-01 08:33:37

gRPC健康检查代码

2023-03-03 08:19:35

KubernetesgRPC

2021-06-29 21:36:21

微服务Nacos日志

2022-02-28 07:40:23

Nacos注册中心客户端

2017-08-25 10:20:46

Docker容器机制

2023-02-18 13:34:14

Nacos健康检查机制

2021-07-15 10:25:15

集群节点检查

2020-12-07 06:29:13

SpringBoot

2023-05-09 07:34:25

Docker健康检查方式

2023-10-14 15:36:14

PodKubernetes

2024-02-27 17:30:11

2022-09-07 09:19:49

Docker健康检查

2024-09-04 10:44:19

2022-07-08 08:37:23

Nacos服务注册动态配置

2017-05-03 16:36:32

Android图片动画

2021-09-18 16:10:48

Spring BootJava微服务

2021-02-26 13:59:41

RocketMQProducer底层

2019-10-11 09:39:44

HTTP调用系统

2021-08-02 07:57:03

注册Nacos源码
点赞
收藏

51CTO技术栈公众号