程序员笔记 | 一次Zookeeper扩展之殇

开发 开发工具
基于公司发展硬性需求,生产VM服务器要统一迁移到ZStack 虚拟化服务器。检查自己项目使用的服务器,其中zookeeper集群中招,所以需要进行迁移。

背景

基于公司发展硬性需求,生产VM服务器要统一迁移到ZStack 虚拟化服务器。检查自己项目使用的服务器,其中zookeeper集群中招,所以需要进行迁移。

迁移计划

为了使迁移不对业务产生影响,***是采用扩容 -> 缩容的方式进行。

迁移

说明:

  • 原生产集群为VM-1,VM-2,VM-3组成一个3节点的ZK集群;
  • 对该集群扩容,增加至6节点(新增ZS-1,ZS-2,ZS-3),进行数据同步完成;
  • 进行缩容,下掉原先来的三个节点(VM-1,VM-2,VM-3);
  • 替换nginx解析地址。OK! 目标很明确,过程也很清晰,然后开干。

步骤 (过程已在测试环境验证无问题)

1. 对新增的三台服务器进行zk环境配置,和老集群配置一样即可,***使用同一版本(版主使用的是3.4.6);

2. 对老节点的zoo.cfg 增加新集群的地址(逐一增加),然后对新增加节点逐一重启。

问题

ZS-1 启动成功,zkServer.sh status 报错,用zkServer.sh status查看,反馈如下异常:

  1. [root@localhost bin]# ./zkServer.sh  status 
  2. ZooKeeper JMX enabled by default 
  3. Using config: /usr/zookeeper/zookeeper-3.4.6/bin/../conf/zoo.cfg 
  4. Error contacting service. It is probably not running. 

此时查看数据,数据同步正常:

  1. ZS-1 数据同步正常,但是无法查看节点的状态信息; 
  • 怀疑是因为老节点没有重启的原因;此时去查看原集群节点信息,发现原集群节点状态异常。 经排查定位,原集群的状态一直处于异常状态。
  • 初步定位原因可能是原集群的选举存在异常,导致新节点无法正常纳入,继续排查。
  • 恢复集群初始状态,如果集群节点的状态一直没法正常查看。OK 继续定位...

排查过程

以下方法来自于网络:

可能有以下几个原因:

***、zoo.cfg文件配置:dataLogDir指定的目录未被创建。

  1. 1.zoo.cfg 
  2. [root@SIA-215 conf]# cat zoo.cfg 
  3. ... 
  4. dataDir=/app/zookeeperdata/data 
  5. dataLogDir=/app/zookeeperdata/log 
  6. ... 
  7.  
  8. 2.路径 
  9. [root@SIA-215 conf]# cd /app/zookeeperdata/ 
  10. [root@SIA-215 zookeeperdata]# ll 
  11. total 8 
  12. drwxr-xr-x 3 root root 4096 Apr 23 19:59 data 
  13. drwxr-xr-x 3 root root 4096 Aug 29  2015 log 

经排查,排除该因素。

第二、myid文件中的整数格式不对,或者与zoo.cfg中的server整数不对应。

  1. [root@SIA-215 data]# cd /app/zookeeperdata/data 
  2. [root@SIA-215 data]# cat myid  
  3. 2[root@SIA-215 data]#  

定位排查后排除不是该原因。

第三、防火墙未关闭。

使用service iptables stop 关闭防火墙 使用service iptables status确认使用chkconfig iptables off禁用防火墙。

确认防火墙是关闭的。

  1. [root@localhost ~]# service iptables status 
  2. iptables: Firewall is not running. 
  3. 确认防火墙是关闭的 

第四、端口被占用。

  1. [root@localhost bin]# netstat -tunlp | grep 2181 
  2. tcp        0      0 :::12181                    :::*                        LISTEN      30035/java           
  3. tcp        0      0 :::22181                    :::*                        LISTEN      30307/java  
  4.  
  5. 确认端口没有被占用 

第五、zoo.cfg文件中主机名出错。

  1. 经测试环境测试,主机名正确,多域名解析也正常,不存在此问题 

第六、hosts文件中,本机的主机名有两个对应,只需保留主机名和ip地址的映射。

  1. 经测试环境测试,主机名正确,多域名解析也正常,不存在此问题 排除。 

第七、zkServer.sh里的nc命令有问题。

  1. 可能是机器上没有安装nc命令,还有种说法是在zkServer.sh里找到这句: 
  2. STAT=`echo stat | nc localhost $(grep clientPort “$ZOOCFG” | sed -e ‘s/.*=//’) 2> /dev/null| grep Mode` 
  3. 在nc与localhost之间加上 -q 1 (是数字1而不是字母l) 
  4.  
  5. zookeeper版本是3.4.6,zkServer.sh里根本没有这一句(获取状态的语句没有用nc命令) 
  6.  
  7. # -q is necessary on some versions of linux where nc returns too quickly, and no stat result is output 
  8.    clientPortAddress=`grep "^[[:space:]]*clientPortAddress[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'` 
  9.    if ! [ $clientPortAddress ] 
  10.    then 
  11.        clientPortAddress="localhost" 
  12.    fi 
  13.    clientPort=`grep "^[[:space:]]*clientPort[^[:alpha:]]" "$ZOOCFG" | sed -e 's/.*=//'` 
  14.    STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ 
  15.             -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ 
  16.             $clientPortAddress $clientPort srvr 2> /dev/null    \ 
  17.          | grep Mode` 
  18.    if [ "x$STAT" = "x" ] 
  19.    then 
  20.        echo "Error contacting service. It is probably not running." 
  21.        exit 1 
  22.    else 
  23.        echo $STAT 
  24.        exit 0 
  25.    fi 
  26.    ;; 

以下是自己排查的方式

目前现象老集群数据同步正常,也能进行leader选举(从日志获取),但是无法查看节点状态,同异常信息;进行集群扩容,数据不能同步。

解决方法:

1. 尝试进行foreground 模式启动,选择一台非主节点进行重启,可以前台查看启动日志。

  1. zkserver.sh start-foreground  
  2. 节点启动正常,无异常输出。 

2. 查看shell脚本:分析zkServer.sh。

"Error contacting service. It is probably not running." 这块日志出现以下脚本中。

  1. STAT=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ 
  2.              -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ 
  3.              $clientPortAddress $clientPort srvr 2> /dev/null    \ 
  4.           | grep Mode` 
  5.     if [ "x$STAT" = "x" ] 
  6.     then 
  7.         echo "Error contacting service. It is probably not running." 
  8.         exit 1 
  9.     else 
  10.         echo $STAT 
  11.         exit 0 
  12.     fi 
  13.     ;; 

截取其中一部分脚本内容:我们可以初步定为应该是 $STAT 获取存在异常 如果STAT变量为空,则会显示Error contacting service. It is probably not running.: OK,那就分析下这个$STAT到底是什么鬼?

  1.  if [ “x$STAT” = “x” ] 
  2. then 
  3. echo “Error contacting service. It is probably not running.” 
  4. exit 1 
  5. else 
  6. echo $STAT 
  7. exit 0 
  8. fi 

3. 尝试用shell的debug模式看下执行过程。

截取片段执行日志如下 :果然STAT变量确实为空,导致输出Error contacting service. It is probably not running.并且退出。

  1. ++ grep '^[[:space:]]*clientPort[^[:alpha:]]' /app/zookeeper-3.4.6/bin/../conf/zoo.cfg 
  2. clientPort=5181 
  3. ++ grep Mode 
  4. ++ /opt/jdk1.8.0_131/bin/java -Dzookeeper.log.dir=. -Dzookeeper.root.logger=INFO,CONSOLE -cp '/app/zookeeper-3.4.6/bin/../build/classes:/app/zookeeper-3.4.6/bin/../build/lib/*.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-log4j12-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/slf4j-api-1.6.1.jar:/app/zookeeper-3.4.6/bin/../lib/netty-3.7.0.Final.jar:/app/zookeeper-3.4.6/bin/../lib/log4j-1.2.16.jar:/app/zookeeper-3.4.6/bin/../lib/jline-0.9.94.jar:/app/zookeeper-3.4.6/bin/../zookeeper-3.4.6.jar:/app/zookeeper-3.4.6/bin/../src/java/lib/*.jar:/app/zookeeper-3.4.6/bin/../conf:.:/opt/jdk1.8.0_131/lib/dt.jar:/opt/jdk1.8.0_131/lib/tools.jar' org.apache.zookeeper.client.FourLetterWordMain localhost 5181 srvr 
  5. STAT
  6. + ‘[‘ xx = x ‘]’ 
  7. + echo ‘Error contacting service. It is probably not running.’ 
  8. Error contacting service. It is probably not running. 
  9. + exit 1 

4、修改shell脚本:分析zkServer.sh 在脚本总增加输出STAT 内容,这次我们不进行过滤。

  1. STAT1=`"$JAVA" "-Dzookeeper.log.dir=${ZOO_LOG_DIR}" "-Dzookeeper.root.logger=${ZOO_LOG4J_PROP}" \ 
  2.              -cp "$CLASSPATH" $JVMFLAGS org.apache.zookeeper.client.FourLetterWordMain \ 
  3.              $clientPortAddress $clientPort srvr 2> test.log \ ` 
  4.  
  5. echo "$STAT1" 

***的方式是copy一个新脚本,以免污染原本的脚本。我是这么做的;然后运行该脚本。

  1. [root@localhost bin]# ./zkServer.sh  status 
  2. ZooKeeper JMX enabled by default 
  3. Using config: /usr/zookeeper/zookeeper-3.4.10/bin/../conf/zoo.cfg 
  4. Error contacting service. It is probably not running. 

然后查看生成的test.log 文件:果然存在异常内容。

  1. in thread “main” java.lang.NumberFormatException: For input string: “2181 
  2. at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65) 
  3. at java.lang.Integer.parseInt(Integer.java:492) 
  4. at java.lang.Integer.parseInt(Integer.java:527) 
  5. at org.apache.zookeeper.client.FourLetterWordMain.main(FourLetterWordMain.java:76) 

从日志信息来看,提示说2181这个端口号造成的。 不是一个合法的数字。

zkServer.sh里有这么一句:

  1. clientPort=`grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’` 
  2. grep “^[[:space:]]*clientPort[^[:alpha:]]” “$ZOOCFG” | sed -e ‘s/.*=//’在执行过程中,实际命令如下: 
  3. grep ‘^[[:space:]]*clientPort[^[:alpha:]]’ /app/zookeeper-3.4.6/bin/../conf/zoo.cfg | sed -e ‘s/.*=//’ 
  • 最终可以基本确认配置文件存在问题:
  • 替换配置文件:重启 问题解决;
  • 存在原因可能是编辑zoo.cfg 编码格式等等引起文件内容解析异常。

【本文是51CTO专栏机构宜信技术学院的原创文章,微信公众号“宜信技术学院( id: CE_TECH)”】

戳这里,看该作者更多好文

责任编辑:赵宁宁 来源: 51CTO专栏
相关推荐

2021-03-23 10:34:17

开发性能代码

2012-10-19 09:27:23

Ruby

2011-06-16 08:58:57

软考程序员

2017-05-27 14:16:36

技术管理者

2021-03-15 08:02:37

程序员996打工

2015-03-10 14:05:46

程序员软件架构读书笔记

2014-09-28 10:32:10

程序员

2010-12-23 11:18:16

程序员

2022-05-31 14:28:07

Web3加密货币假名文化

2019-11-14 09:32:16

程序员MySQLRedis

2020-12-29 10:25:07

漏洞JSONP注入

2011-05-30 14:50:56

程序员

2019-05-16 08:36:53

Eureka缓存网关

2018-01-26 09:59:07

前端程序员百度

2009-01-16 19:49:49

程序员考试数组指针

2015-07-15 15:24:25

OpenFlowSDN

2013-08-20 09:33:59

程序员

2012-03-06 09:22:46

程序员

2020-10-05 21:13:37

程序员技能开发者

2021-07-01 07:43:41

项目程序员代码
点赞
收藏

51CTO技术栈公众号