Linux服务器进阶:谁在切换我们的进程?

系统 Linux
我们在做Linux服务器的时候经常会需要知道谁在做进程切换,什么原因需要做进程切换。在我的很高端的服务器上,进程切换的开销在8us左右, 这个相对于高性能的服务器是不可接受的。于是,本文将介绍如何查看进程切换发生在什么地方。

我们在做Linux服务器的时候经常会需要知道谁在做进程切换,什么原因需要做进程切换。 因为进程切换的代价很高,我给出一个LMbench测试出来的数字:

Context switching – times in microseconds – smaller is better
————————————————————————-
Host OS 2p/0K 2p/16K 2p/64K 8p/16K 8p/64K 16p/16K 16p/64K
ctxsw ctxsw ctxsw ctxsw ctxsw ctxsw ctxsw
——— ————- —— —— —— —— —— ——- ——-
my174.cm4 Linux 2.6.18- 6.1100 7.0200 6.1100 8.7400 7.7200 8.96000 9.62000

在我的很高端的服务器上,进程切换的开销在8us左右, 这个相对于高性能的服务器是不可接受的, 所以我们要在一个时间片内尽可能的多做事情,而不是把时间浪费在无谓的切换上。

好奇害死猫,我们来调查下谁在切换我们的进程:

[root@my174 admin]# dstat 1
—-total-cpu-usage—- -dsk/total- -net/total- —paging– —system–
usr sys idl wai hiq siq| read writ| recv send| in out | int csw
0 0 100 0 0 0| 0 0 | 796B 1488B| 0 0 |1004 128
0 0 100 0 0 0| 0 0 | 280B 728B| 0 0 |1005 114
0 0 100 0 0 0| 0 0 | 280B 728B| 0 0 |1005 128
0 0 100 0 0 0| 0 0 | 280B 728B| 0 0 |1005 114
0 0 100 0 0 0| 0 320k| 280B 728B| 0 0 |1008 143
…

我们可以看到 csw的数目是 120/S, 但是dstat或者vmstat类似的工具并没有告诉我们谁在干坏事。好吧!我们自己动手行吧。

祭出我们可爱的systemtap!

[root@my174 admin]# cat >cswmon.stp
#! /usr/bin/env stap
#
#
 
global csw_count
global idle_count
 
probe scheduler.cpu_off {
csw_count[task_prev, task_next]++
idle_count+=idle
}
 
function fmt_task(task_prev, task_next)
{
return sprintf(“%s(%d)->%s(%d)”,
task_execname(task_prev),
task_pid(task_prev),
task_execname(task_next),
task_pid(task_next))
}
 
function print_cswtop () {
printf (“%45s %10s\n”, “Context switch”, “COUNT”)
foreach ([task_prev, task_next] in csw_count- limit 20) {
printf(“%45s %10d\n”, fmt_task(task_prev, task_next), csw_count[task_prev, task_next])
}
printf(“%45s %10d\n”, “idle”, idle_count)
 
delete csw_count
delete idle_count
}
 
probe timer.s($1) {
print_cswtop ()
printf(“————————————————————–\n”)
}
CTRL+D

这个脚本会每隔设定的时间打印出TOP 20切换最多的进程和他的pid, 我们来看下结果把:

[root@my174 admin]# stap cswmon.stp 5
Context switch COUNT
swapper(0)->systemtap/11(908) 500
systemtap/11(908)->swapper(0) 498
swapper(0)->fct1-worker(2492) 50
fct1-worker(2492)->swapper(0) 50
swapper(0)->fct0-worker(2191) 50
fct0-worker(2191)->swapper(0) 50
swapper(0)->bond0(3432) 50
bond0(3432)->swapper(0) 50
stapio(879)->swapper(0) 26
swapper(0)->stapio(879) 25
stapio(879)->swapper(0) 19
swapper(0)->stapio(879) 17
swapper(0)->watchdog/9(31) 5
watchdog/9(31)->swapper(0) 5
swapper(0)->mysqld(18346) 5
mysqld(18346)->swapper(0) 5
swapper(0)->watchdog/13(43) 5
watchdog/13(43)->swapper(0) 5
swapper(0)->watchdog/14(46) 5
watchdog/14(46)->swapper(0) 5
idle 859
————————————————————–
…

我们可以看到进程从哪里切换到哪里,并且发生了多少次, ***一行,我打印出来idle的次数,也就是说这时候系统没啥事情做,就切换到idle(0)这个进程去休息去了。

通过上面的调查,我们会很清楚的了解到我们系统的开销发生在那里,方便我们定位问题。

玩的开心!

【编辑推荐】

  1. 四大命令助你玩转Linux进程管理
  2. 如何监测Linux进程的实时IO读写情况
  3. Linux技巧:多核下绑定硬件/进程到不同CPU
责任编辑:yangsai 来源: 淘宝核心系统团队博客
相关推荐

2018-03-15 08:25:53

2009-07-12 10:42:26

2010-10-14 15:50:33

MySQL服务器

2021-05-26 11:30:34

戴尔

2015-05-29 13:22:10

Linux挂载运维

2018-02-07 10:24:01

Nginx服务器架构

2010-08-05 14:15:20

NFS服务器

2010-08-25 21:42:57

DHCP服务器

2009-11-29 17:18:38

Linux服务器

2010-09-01 17:15:45

Linux DHCP

2018-01-31 11:20:48

2023-03-03 00:03:07

Linux进程管理

2011-08-24 10:15:55

Oracle数据库服务器进程

2022-05-05 09:27:31

Linux服务器优化

2014-08-06 11:25:00

LinuxSVN服务器

2009-12-09 16:40:03

迷你Linux服务器

2009-09-30 11:14:52

2011-09-01 17:32:11

Linux服务器

2014-03-14 16:06:26

Linux服务器

2018-08-03 08:43:38

点赞
收藏

51CTO技术栈公众号