Top:高效的监控系统资源使用率

系统 Linux
对于桌面用户来说,资源监控是件比较重要的事情。在这么多监控软件中,大多数人使用top工具(procps包的一个组件)。Top给我们提供了用系统快照来监控系统资源使用率。

  对于桌面用户来说,资源监控是件比较重要的事情。我们可以以此明白系统的性能瓶颈以计划如何优化系统,定位内存溢出等问题。但问题是,我们该用哪个软件或什么软件才能满足我们的目的呢?在这么多监控软件中,大多数人使用top工具(procps包的一个组件)。Top给我们提供了用系统快照来监控系统资源使用率。在这篇文章中,所有的内容都是基于linux内核2.6.×的procps3.2.5组件包来讲的。

  现在,假设你已经在你的linux环境中安装并运行了procps组件包。你不需要有任何top命令的使用经验,但是你如果已经简单用过一下了,就更好了。

  下面是一些挑战:

  A.交互还是批处理模式?

  默认情况下,Top 被调用时使用交互模式。在此模式下,Top 无限期运行,并可以通过按键重新定义 Top 的运行方式。但是,有时你需要对 Top 的输出进行后续处理,但这在此模式下难以实现。解决方法?使用批处理模式。

  $ top -b

  你将获得类似下面的输出:

   top - 15:22:45 up  4:19,  5 users,  load average: 0.00, 0.03, 0.00

  Tasks:  60 total,   1 running,  59 sleeping,   0 stopped,   0 zombie

  Cpu(s):  3.8% us,  2.9% sy,  0.0% ni, 89.6% id,  3.3% wa,  0.4% hi,  0.0% si

  Mem:    515896k total,   495572k used,    20324k free,    13936k buffers

  Swap:   909676k total,        4k used,   909672k free,   377608k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND

  1 root      16   0  1544  476  404 S  0.0  0.1   0:01.35 init

  2 root      34  19     0    0    0 S  0.0  0.0   0:00.02 ksoftirqd/0

  3 root      10  -5     0    0    0 S  0.0  0.0   0:00.11 events/0

  哈,等等,它是不断重复运行的,同交互模式一样。不用担心,你可以使用 -n 限制重复数量。所以,如果你希望获得一次性结果,键入:

  $ top -b -n 1

  这一模式的真正优势在于你可以很容易的与 at 或 cron 命令结合。它们的结合,使得 Top 可以在特定时间对资源使用状态进行快照。例如,使用 at ,我们可以设定 top 在一分钟之后运行。

  $ cat ./test.at
  TERM=linux top -b -n 1 >/tmp/top-report.txt
  $ at -f ./test.at now+1minutes

  细心的读者可能会问“在创建新任务时,为什么我需要在调用 Top 之前设置环境变量 TERM?”。答案是,Top 运行时需要此变量,但“at”在定时调用时并不会保留它。同上面那样简单的设置可以确保 Top 正常运行。#p#

  B.如何监控制定进程?

  有时,我们只对几个进程感兴趣,可能只是全部进程中的4个或5个。例如,如果你想要监测进程标识(PID)为4360和4358的进程,你需要键入:

  $ top -p 4360,4358
  或
  $ top -p 4360 -p 4358

  看起来很简单,只需要使用 -p 列出所有需要的 PID,并使用逗号间隔或简单的多次使用 -p即可。

  另一种可能是监测拥有特定用户标识(UID)的进程。应对此需求,你可以使用 -u 或 -U 选项。假设用户“johndoe”的 UID 为500,键入:

  $ top -u johndoe
  OR
  $ top -u 500

  或

  $ top -U johndoe

  结论是,你既可以纯使用用户名,也可使用数字 UID。“-u,-U?这两者不同?”是的。同多数其它 GNU 工具一样,选项是大小写敏感的。-U 意味着 Top 将会搜索有效的、真实的、被保存的以及文件系统的 UID 进行匹配,而 -u 仅匹配有效的用户id。要知道,每一个 *nix 进程在运行时都是用有效用户标识(effective UID),而其中有些并不等同真实用户标识。多数情况是,对类似文件系统权限或操作系统功能这项的有效用户标识感兴趣的人将会检查它,而不是 UID。

  不同于 -p 仅用于命令行选项,-U 和 -u 都可以在交互模式中使用。同你猜测的一样,键入‘U’或‘u’可以依据用户名过滤进程。同样的规则依然适用,‘u’为有效用户标识,‘U’为 真实/有效/保存/文件系统用户名。你将被要求键入用户名或数字 UID。#p#

  C.快熟还是缓慢更新?

  在回答这个问题之前,让我们先简单介绍一下,Top 是如何运行的。这里,Strace 能够帮助你:

  $ strace -o /tmp/trace.txt top -b -n 1

  使用你偏爱的文本编辑器打开 /tmp/trace.txt。你怎么想?一次调用有太多的活要做了,反正我是这么想的。Top 在每次遍历中必做的工作之一就是打开很多文件,并解析其内容,可以看看次数:

  $ grep open( /tmp/hasil.txt | wc -l

  举例而言,我的 Linux 中,这个数量是304.仔细观察就会发现,Top 遍历 /proc 文件夹,以收集进程信息。/proc 本身是一个虚拟文件系统,意味着它并非存在于真实硬盘之中,而是由 Linux 内核凭空创建,保存在内存中的。在文件夹中,如/proc/2097(2097为 PID),Linux 内核将与之关联的信息打印到此文件中,而这里就是 Top 的消息来源。

  同时试一下:

  $ time top -b -n 1

  这样你就能了解到 Top 单轮工作有多快了。在我的系统中,大约为0.5-0.6秒。看“real”字段,不是“user”或“system”字段,因为“real”字段反应了 Top 工作需要的总时间。

  所以,有了这个认知之后,使用适度的更新间隔是明智的。基于文件系统访问内存也是需要时间的。经验法则是,对于多数用户来说,1到3秒的间隔就足够了。在命令行中使用-d,或在交互模式下按下“s”以设置。你可以使用类似2.5,4.1这样的小树。

  什么时候我们需要快于1秒的更新?

  时间段内需要更多的样本。应对这点要求,***使用批处理模式,并将标准输出重定向到文件中,以便更好的分析。

  你并不在意 Top 消耗的额外CPU负荷。是的,虽然它很小,它依然需要负荷。如果你的 Linux 系统相对比较空闲,随意使用短间隔,如果不是,***为重要的任务保留你的 CPU 时间。

  一个减少 Top 工作的办法是只监测特定的几个 PID。这样,Top 无需遍历 /proc 下所有的子文件夹。用户名过滤呢?并不会变得更好。用户名过滤会给Top带来额外工作量,因此将其与短间隔联合将会增加 CPU 负荷。

  当然,当你需要强制更新时,按下 Space 键,Top 将会刷新统计。#p#

  D.我们需要的字段

  默认时,Top 启动后会显示下面的任务属性:

  字段 描述

  • PID:进程 ID
  • USER:有效用户 ID
  • PR:动态优先值
  • NI:良好值,也被称为基本优先级
  • VIRT:任务虚拟大小。包括进程的可执行二进制文件大小,数据区大小以及所有已加载的共享库的大小。
  • RES:目前任务内存消耗。存入交换分区的部分并不包含。
  • SHR:一些内存区域可能由两个或多个任务分享,此字段反应这些共享区域。例如共享库以及 Sysv 共享内存。
  • S:任务状态
  • %CPU:Top 屏幕更新时专用于运行任务的CPU 时间百分比。
  • %MEM:任务当前内存消耗的百分比
  • TIME+:在任务启动后消耗的总CPU时间。"+" sign means it is displayed with hundreth of a second granularity. 默认时,TIME/TIME+ 不会计入已经关闭的任务子进程。
  • COMMAND :显示程序名。

  不止这些。下面我介绍一些你可能会用到的列:

  要显示以上的列,在交互模式下按 'f' 键,然后再按相应的键。按一下显示指定的列,再按一下隐藏该列。要确定当前显示的是哪些列,只需看***行的字母(在"Current Fields"的右边)。大写字母表示显示了该列,小写表示隐藏。你选好以后,按回车即可。

  排序使用了类似的方法。按 'O' (大写),然后再按相应的键。即使记不住那些按键也没关系,top 会显示出来。新的排序键将标上星号,相应的字母会变成大写,很直观。选好以后,记得按回车。#p#

  E.多视图比单个视图更好吗?

  在不同的情况下,有时候我们想监视不同的系统属性。例如,你想同时监控CPU的百分比和CPU被所有任务消耗的时间。在另一段时间,你想监控常驻内存和所有任务的总页面故障。快速按‘F’键然后切换界面?我想这也太不明智了吧。

  为什么不试试多视图窗口模式呢?按‘A’(大写)切换到多窗口界面。默认的,你将会看到4个不同的系列的字段组。每个字段组有默认的标签/名称:

  ***字段组: Def

  第二字段组: Job

  第三字段组: Mem

  第四字段组: Usr

  ***字段组就是你在单一视图窗口所常见的组,而其余的组会被隐藏。内置多视图窗口模式,所有可用的窗口通过按‘a’或者‘w’循环。注意,切换到其他窗口时会改变活动窗口(也称为当前窗口)。假如你不确定哪一个是活动窗口的话,只需要看一下top展示的***行(在当前时间字段的左边)。另一个改变活动窗口的方法是通过按‘G’紧跟着输入数字(1到4)。

  活动窗口是针对用户输入的,因此在开始干活之前确定选好了你偏好的界面。然后,你可以在单一窗口模式下爱干嘛干嘛。在这种情况你一般想自定义字段展示,那么你只需要按‘f’然后开始自定义。

  假如你认为第四字段组太多的话,你只需要切换到字段组然后按‘-’隐藏。请注意,即使你隐藏了当前的字段组,那并不以意味着你同时改变了活动组。再次按‘-’的话,当前组就可见了。

  如果你想操作多视图窗口模式,再次按‘A’键。那样也将使得活动组成为了单一视图窗口模式的新的字段组。#p#

  F. "我的Linux主机上怎么会只有很少的空闲内存?"

  有同样的问题? 不管你在主板上增加多少内存,你都会很快发现空闲内存减少的非常迅速. 空闲内存算错了? 不!

  在回答这个之前, 先查看一下top命令顶部显示的内存概要 (有可能你需要按 'm'来显示出来). 在这里,你可以看到两个区域: 缓冲(buffers)和缓存(cached)。 "缓冲(Buffers)" 代表有多少内存用来缓存磁盘块 "缓存(Cached)" 有一点类似 "缓冲(Buffers)", 只是仅仅从文件读取缓存页面. 想透彻了解这部分,建议读一下Linux内核的书比如Robert M.Love写的《Linux Kernel Development》。

  这足够了解缓冲(buffers)和缓存(cached)代表系统缓存. 他们会根据linux内核机制动态增加或减少。

  除去被缓存的消耗,程序和代码同样要占据RAM. 所以,最终空闲内存显示的是RAM中不被缓存和程序/代码占用的部分 一般来说,你也可以考虑缓存区域为另一部分“空闲”RAM,如果程序需要更多内存它会减少。

  从进程的角度来看,你可能想知道哪个区域代表真实的内存消耗,VIRT(virtual memory usage )区域? 当然不是! 回顾一下,这个区域代表了进程地址空间里一切,包括相关的库。阅读top命令的源代码和proc.txt (在内核代码树中的Documentation/filesystem 文件夹内), 我的结论是RSS字段是进程内存消耗的***的描述.我说“***的”是因为你可以考虑它是近似而不是所有时间100%准确。

  G.使用数个保存的配置

  希望保存多个不同的配置文件,以便于轻松的切换预配置视图?只需要创建一个 Top 二进制文件的软连接到你喜欢的名字:

  # ln -s /usr/bin/top /usr/bin/top-a

  然后运行新的“top-a”。调整完毕后键入‘W’保存配置,它将被保存到 ~/.top-arc(格式为你的 Top 别名+rc)。

  这样,运行原来的 Top 可以使用之前的视图,而 top-a 则使用第二个,依次类推。

  H.总结

  有很多窍门使用top会更加高效。关键是知道你真正需要的是什么和可能的对Linux低级别原理的一般理解。统计并不总是正确,但至少有助于总体衡量。所有这些数字收集自 /proc,因此首先确保它已挂载!

  参考:Understanding The Linux Kernel,第二版。内核源代码树里的/filesystems/proc.txt文档。Linux 内核源代码。

责任编辑:黄丹 来源: oschina.net
相关推荐

2024-04-11 13:27:19

Linuxtop命令

2021-05-31 15:53:57

CPU Top命令

2021-08-10 11:45:57

topCPULinux

2009-09-21 09:51:19

LoadRunnerLinux系统监控Linux

2016-11-15 15:23:27

2011-04-06 11:36:30

MRTG监控内存

2009-09-28 10:34:32

LR监控Linux系统资源Linux

2014-12-23 09:43:33

linux监控工具

2019-09-12 08:03:56

MySQL索引数据库

2009-06-16 09:18:26

Linux系统管理系统资源

2023-12-20 08:00:52

Zabbix脚本信息

2016-10-11 08:33:32

服务器使用率多线程

2017-05-03 11:10:14

Linux进程监控cpustat

2010-05-10 11:34:38

Oracle系统表空间

2009-10-21 12:42:20

Linux系统资源操作系统

2022-01-24 16:17:26

htop工具Linux

2019-01-15 15:04:54

CPU电脑使用率

2015-01-05 14:07:27

云计算虚拟化云环境

2010-03-11 17:25:17

Linux系统使用率proc文件系统

2012-12-28 11:46:35

手机系统iOS黑莓
点赞
收藏

51CTO技术栈公众号