生产系统CPU飙高问题排查

系统
线上问题定位,相对比较简单,难点主要在于保留现场,有了现场就能快速定位问题,以下是二种常用排查方式。

现状

系统平稳运行了2年时间,一直没出现过问题,突然这两天进行CPU占用过高报警,如下:

排查方法

执行top命令,查看是哪个进程导致的,可以确定是pid为22168的java应用导致的:

执行top -Hp命令,查看这个进程的那个线程导致cpu过高,如下图,可以看到是22749线程导致的:

top -Hp 22168

由于jstack里面的线程号为16进制,需要转换线程号为16进制,如下图得到16进制值为58dd:

printf "%x\n" 22749

执行jstack生成线程快照保存至1.txt文件中,22168为进程id:

jstack 22168>1.txt

根据16进制线程号,查询线程信息:

grep 58dd 1.txt

如上图,可以看到是调用DesenUtils.desen方法导致,此方法作用是数据脱敏,里面用了较为复杂的正则表达式,所以分析是由于特定字符正好遇到此正则表达式,进行大量计算导致,为了快速解决此问题,先去除掉此代码的调用,重新发布即可。

https://cloud.tencent.com/developer/article/1780881,正则导致cpu飙高问题描述,请查看此地址。

总结

线上问题定位,相对比较简单,难点主要在于保留现场,有了现场就能快速定位问题,以下是二种常用排查方式:

  • CPU飙高通过jstack命令,定位到线程信息。
  • 内存飙高通过jmap dump出堆栈信息,再通过mat这些工具定位那个类占用过多内存。

责任编辑:赵宁宁 来源: 架构成长指南
相关推荐

2020-09-29 07:59:22

CPU系统性能

2024-06-28 11:54:20

2022-08-08 09:02:23

CPUID日志

2021-03-31 13:45:59

CPU运维命令

2023-10-26 09:00:58

Arthas工具CPU

2024-02-21 11:06:54

ArthasCPU工具

2021-02-26 13:35:46

JavaCPU内存

2019-07-16 06:43:18

LinuxCPU占用率

2019-01-21 11:17:13

CPU优化定位

2019-07-24 11:52:11

CPU服务器面试官

2020-10-12 14:18:15

CPU技巧代码

2019-05-08 08:37:08

高可用问题排查

2019-04-29 14:23:46

Java服务器CPU

2010-08-18 09:52:25

Memcache

2020-10-16 08:10:41

Linux CPU 开发

2020-07-13 09:05:47

2013-03-27 10:32:22

2024-06-24 09:29:15

2009-02-12 16:09:40

浪潮虚拟化

2024-06-07 08:19:05

点赞
收藏

51CTO技术栈公众号