生产环境突发高负载!是“谁”偷走了你的服务器性能?

开发 后端
网站上线后一直稳定运行,事情发生在今天早上,刚到公司,还没走到工位,手机收到告警信息,生产环境中的某台服务器突发高负载!立马开启电脑,放下手中早餐,开始排查处理。下面是诊断引起系统CPU性能问题的过程,希望能给到大家一些诊断问题时的一些思路。

[[272814]]

 场景描述

网站上线后一直稳定运行,事情发生在今天早上,刚到公司,还没走到工位,手机收到告警信息,生产环境中的某台服务器突发高负载!立马开启电脑,放下手中早餐,开始排查处理。下面是诊断引起系统CPU性能问题的过程,希望能给到大家一些诊断问题时的一些思路。

生产环境突发高负载!是“谁”偷走了你的服务器性能?

业务环境:PHP

排查过程

1、使用top命令查看当前系统情况,并按[1]展开CPU列表

生产环境突发高负载!是“谁”偷走了你的服务器性能?

2、上图可以看出来CPU占用主要是php进程导致,当前可用内存足够。现在重点看下CPU的情况。

此例子中CPU 主要消耗在内核态「sy」,而非用户态「us」。 需要跟踪程序行为一般会用到两个工具:

  • 内核态的函数调用跟踪用「strace」
  • 用户态的函数调用跟踪用「ltrace」

下面使用strace来分析这次的问题:

  1. [root@localhost ~]# strace -cp <PID> 

 

生产环境突发高负载!是“谁”偷走了你的服务器性能?

从上图可以看到CPU总耗时最长的操作是一个名为clone的调用函数,单独追踪下这个命令:

  1. [root@localhost ~]# strace -T -e clone -p <PID> 
  2. # -T: 获取操作实际消耗的时间 
  3. # -e: 指定需要追踪的操作 

 

生产环境突发高负载!是“谁”偷走了你的服务器性能?

可以看到,一个 clone 操作需要几百毫秒,clone操作的作用简单来说就是调用系统函数去创建(fork)一个新进程。现在回归到PHP侧分析为什么会出现此类系统调用。

查询业务代码看到了 exec 函数,这个命令导致了系统不断会fork进程,去处理exec执行的外部命令,导致CPU开销很大。

通过如下命令验证它确实会导致 clone 系统调用:

  1. [root@localhost ~]# strace -e clone php -r 'exec("ls");' 

有同学要疑问了,同是Linux运维工程师,自己从来都是登陆服务器观察资源使用情况才获取到高负载告警,之前还有因未及时发现服务器高负载情况,使得业务短时间崩溃,损失惨重。

你是如何在还没到工位时就收到服务器高负载的告警信息的呢?

我是使用了一个云运维工具——王教授,对于日常运维工作帮助确实非常大,可以及时提醒我云资源的变化情况,例如:服务器 CPU 使用率偏高、服务器安全组设置不安全、云数据库存在慢SQL等。使用云,运维云的同学可以选择使用。

王教授工具地址:https://prof.wang。

生产环境突发高负载!是“谁”偷走了你的服务器性能?

 

生产环境突发高负载!是“谁”偷走了你的服务器性能?
责任编辑:华轩 来源: 今日头条
相关推荐

2018-09-10 16:23:36

手机信号信号差信号强度

2023-06-05 00:21:33

0.001服务可用漏洞

2019-04-11 17:57:22

容器互联网公司开发

2017-12-17 21:33:55

2010-09-10 13:19:57

无线网络信号

2014-03-03 21:02:35

2010-10-18 09:47:09

DRBDNFS负载均衡

2009-05-07 17:54:15

无线网络信号故障

2013-07-23 09:51:32

Tomcat性能优化服务器性能优化

2020-11-10 07:46:09

服务器高并发高性能

2018-02-27 14:30:17

2014-03-04 09:39:41

设计师团队合作

2015-11-03 09:46:53

数据房地产买房

2010-04-26 16:12:54

2021-09-22 16:25:17

服务器戴尔科技集团

2022-06-06 16:17:10

云计算运营商IT

2018-06-26 09:58:35

2010-03-16 15:16:26

服务器负载均衡服务器CPU利用率

2021-01-13 05:27:02

服务器性能高并发

2017-09-13 14:46:42

服务器Go函数
点赞
收藏

51CTO技术栈公众号