collectl：一款高级的Linux一体化性能监测工具-51CTO.COM

对Linux系统管理员来说，最重要的任务莫过于确保他或她管理的系统处于非常良好的情况。Linux系统管理员可以使用好多工具，帮助监测和显示系统里面的进程，比如top和htop，但这些工具没有一个比得上collectl。

collectl：Linux性能监测工具

collectl是一款非常棒的、功能丰富的命令实用工具，它可以用来收集描述系统当前状况的性能数据。不像大多数其他的监测工具，collectl并不着眼于数量有限的系统衡量指标，而是可以收集关于许多不同类型的系统资源的信息，比如处理器、磁盘、内存、网络、套接字、TCP、索引节点、Infiniband、Lustre、NFS、进程、quadric、slab和伙伴系统信息等资源。

使用collectl的一个非常好的方面是，它还能扮演像top、ps和iotop另外许多这些只针对某个特定用途设计的实用工具的角色。那么，哪些功能特性让colleclt成为一款实用工具呢？

我在进行了大量的研究后，整理出了一份清单，为大家列出了collectl命令行实用工具的一些最重要的功能特性。

collectl的功能特性

◦它能够以交互式运行、作为守护程序运行，或者两者兼而有之。

◦它能够显示采用多种格式的输出结果。

◦它能够监测几乎任何一个子系统。

◦它能扮演像ps、top、iotop或vmstat这些另外许多实用工具的角色。

◦它能够记录并回放捕获的数据。

◦它能够以众多文件格式导出数据。（如果你想借助外部工具来分析数据，这项功能就非常有用）。

◦它能够作为一项服务来运行，以监测远程机器或整个服务器集群。

◦它能够在终端中显示数据，并将数据写入到文件或套接字。

如何在Linux中安装collectl？

collectl实用工具可以在所有Linux发行版上运行，它只需要perl就能运行，所以确保你在机器中安装collectl之前已在机器中安装了Perl。

在Debian/Ubuntu/Linux Mint上

下面这个命令可用于将collectl实用工具安装在基于Debian的机器上，比如Ubuntu。

$ sudo apt-get install collectl

在RHEL/CentOS/Fedora上

如果你使用基于红帽的发行版，很容易借助yum命令，从软件库获取它。

# yum install collectl

collectl实用工具的一些实际例子

一旦collectl工具安装完毕，你很容易从终端来运行它，甚至不带任何选项。下面这个命令将以一种非常简短而易于阅读的格式，显示关于处理器、磁盘和网络统计数字等的信息。

# collectl  
waiting for 1 second sample...  
#  
#cpu  sys  inter  ctxsw KBRead  Reads KBWrit  Writes   KBIn  PktIn  KBOut  PktOut   
  13   5   790   1322      0      0     92      7      4     13      0       5   
  10   2   719   1186      0      0      0      0      3      9      0       4   
  12   0   753   1188      0      0     52      3      2      5      0       6   
  13   2   733   1063      0      0      0      0      1      1      0       1   
  25   2   834   1375      0      0      0      0      1      1      0       1   
  28   2   870   1424      0      0     36      7      1      1      0       1   
  19   3   949   2271      0      0     44      3      1      1      0       1   
  17   2   809   1384      0      0      0      0      1      6      0       6   
  16   2   732   1348      0      0      0      0      1      1      0       1   
  22   4   993   1615      0      0     56      3      1      2      0       3

大家可以从终端屏幕中显示的上述输出结果中看到，处理命令输出中的系统衡量标准值非常容易，因为它就显示在单单一行上。

collectl实用工具不带任何选项执行后，它显示了关于下列子系统的信息：

◦处理器

◦磁盘

◦网络

注意：在我们这个例子中，子系统是指可以测量的每一种系统资源。

你还可以显示除slab之外的所有子系统的统计数字，只要结合该命令和–all选项，如下所示。

# collectl --all  
waiting for 1 second sample...  
#  
#cpu sys inter  ctxsw Cpu0 Cpu1 Free Buff Cach Inac Slab  Map   Fragments KBRead  Reads KBWrit Writes   KBIn  PktIn  KBOut  PktOut   IP  Tcp  Udp Icmp  Tcp  Udp  Raw Frag Handle Inodes  Reads Writes Meta Comm   
  16   3   817   1542  430  390   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0     24      3      1      1      0       1    0    0    0    0  623    0    0    0   8160 240829      0      0    0    0   
  11   1   745   1324  316  426   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0      0      0      0      3      0       2    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0   
  15   2   793   1683  371  424   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0      0      0      1      1      0       1    0    0    0    0  622    0    0    0   8160 240829      0      0    0    0   
  16   2   872   1875  427  446   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0     24      3      1      1      0       1    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0   
  24   2   842   1383  473  368   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0    168      6      1      1      0       1    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0   
  27   3   844   1099  478  365   1G 175M   1G 683M 193M   1G nsslkjjebbk      0      0      0      0      1      6      1       9    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0   
  26   5   823   1238  396  428   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0      0      0      2     11      3       9    0    0    0    0  622    0    0    0   8160 240828      0      0    0    0   
  15   1   753   1276  361  391   1G 175M   1G 683M 193M   1G ssslkjjebbk      0      0     40      3      1      2      0       3    0    0    0    0  623    0    0    0   8160 240829      0      0    0    0

但是，你如何借助该实用工具监测处理器的使用情况？“-s”选项可用于控制收集或回放哪些子系统数据。

比如说，下面这个命令可用于监测处理器使用情况的摘要。

# collectl -sc  
waiting for 1 second sample...  
#  
#cpu  sys　inter  ctxsw   
  15   2   749   1155   
  16   3   772   1445   
  14   2   793   1247   
  27   4   887   1292   
  24   1   796   1258   
  16   1   743   1113   
  15   1   743   1179   
  14   1   706   1078   
  15   1   764   1268

如果你结合命令和“scdn”，会出现什么情况？想学习如何使用命令行工具，***的办法就是尽可能实际运用一下，所以在你的终端中运行下面这个命令，看看会出现什么情况。

# collectl -scdn  
waiting for 1 second sample...  
#  
#cpu  sys  inter  ctxsw KBRead  Reads KBWrit  Writes   KBIn  PktIn  KBOut  PktOut   
  25   4   943   3333      0      0      0      0      1      1      0       2   
  27   3   825   2910      0      0      0      0      1      1      0       1   
  27   5   886   2531      0      0      0      0      0      0      0       1   
  20   4   872   2406      0      0      0      0      1      1      0       1   
  26   1   854   2091      0      0     20      2      1      1      0       1   
  39   4  1004   3398      0      0      0      0      2      8      3       6   
  41   6   955   2464      0      0     40      3      1      2      0       3   
  25   7   890   1609      0      0      0      0      1      1      0       1   
  16   2   814   1165      0      0    796     43      2      2      0       2   
  14   1   779   1383      0      0     48      6      1      1      0       1   
  11   2   795   1285      0      0      0      0      2     14      1      14

你很容易明白：默认选项是“cdn”，它代表处理器、磁盘和网络数据。命令的结果与“collectl -scn”的输出结果一样。

如果你想收集关于内存的数据，使用下面这个命令。

# collectl -sm  
waiting for 1 second sample...  
#  
#Free  Buff  Cach Inac  Slab   Map   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G   
   1G 177M   1G 684M 193M   1G

如果你想获得关于内存使用情况、闲置内存以及对系统性能而言很重要的其他方面的一些详细信息，上述输出结果非常有用。

想获得关于tcp的一些数据？使用下面这个命令即可实现。

# collectl -st  
waiting for 1 second sample...  
#  
#  IP  Tcp  Udp Icmp   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
    0    0    0    0   
0    0    0    0

你有了一定的经验后，就很容易结合诸多选项，获得所需要的结果。比如说，你可以结合代表tcp的“t”和代表处理器的“c”。下面这个命令就实现了这项功能。

# collectl -stc  
waiting for 1 second sample...  
#  
#cpu  sys  inter   ctxsw   IP  Tcp  Udp Icmp   
  23   8   961   3136    0    0    0    0   
  24   5   916   3662    0    0    0    0   
  21   8   848   2408    0    0    0    0   
  30  10   916   2674    0    0    0    0   
  38   3   826   1752    0    0    0    0   
  31   3   820   1408    0    0    0    0   
  15   5   781   1335    0    0    0    0   
  17   3   802   1314    0    0    0    0   
  17   3   755   1218    0    0    0    0   
  14   2   788   1321    0    0    0    0

我们人类很难记住所有的可用选项，于是我列出了该工具支持的子系统摘要列表。

◦b – 伙伴系统信息（内存片段）

◦c – 处理器

◦d – 磁盘

◦f – NFS V3数据

◦i – 索引节点和文件系统

◦j – 中断

◦l – Lustre

◦m – 内存

◦n – 网络

◦s – 套接字

◦t – TCP

◦x – 互连

◦y – slabs（系统对象缓存）

对Linux用户的系统管理员来说，一个非常重要的数据就是磁盘使用情况方面所收集的数据。下面这个命令将帮助你监测磁盘的使用情况。

# collectl -sd  
waiting for 1 second sample...  
#  
#KBRead  Reads KBWrit Writes   
      0      0      0      0   
      0      0      0      0   
      0      0     92      7   
      0      0      0      0   
      0      0     36      3   
      0      0      0      0   
      0      0      0      0   
      0      0    100      7   
      0      0      0      0

你还可以使用“-sD”选项，收集关于单个磁盘的数据，但是你要知道关于全部磁盘的数据不会报告。

# collectl -sD  
waiting for 1 second sample...  
# DISK STATISTICS (/sec)  
#           Pct  
#Name       KBytes Merged  IOs Size  Kbytes  Merged  IOs  Size  RWSize  QLen  Wait SvcTim Util  
sda              0      0    0    0      52     11    2   26      26     1     8      8    1  
sda              0      0    0    0       0      0    0    0       0     0     0      0    0  
sda              0      0    0    0      24      0    2   12      12     0     0      0    0  
sda              0      0    0    0     152      0    4   38      38     0     0      0    0  
sda              0      0    0    0     192     45    3   64      64     1    20     20    5  
sda              0      0    0    0     204      0    2  102     102     0     0      0    0  
sda              0      0    0    0       0      0    0    0       0     0     0      0    0  
sda              0      0    0    0     116     26    3   39      38     1    16     16    4  
sda              0      0    0    0       0      0    0    0       0     0     0      0    0  
sda              0      0    0    0       0      0    0    0       0     0     0      0    0  
sda              0      0    0    0      32      5    3   11      10     1    16     16    4  
sda              0      0    0    0       0      0    0    0       0     0     0      0    0

你还可以使用其他的具体子系统来收集详细数据。下面列出了各个具体子系统。

◦C – 处理器

◦D – 磁盘

◦E – 环境数据（风扇、电源和温度），通过ipmitool

◦F – NFS数据

◦J – 中断

◦L – Lustre OST的细节，或者客户端文件系统的细节

◦N – 网络

◦T – 只有plot格式才有的65个TCP计数器

◦X – 互连

◦Y – Slabs（系统对象缓存）

◦Z – 进程

collectl实用工具有许多可用选项，而仅仅一篇文章没有足够的时间和篇幅来逐一细述。不过，有必要了解如何将该实用工具作为top和ps来使用。

很容易让collectl作为top实用工具来使用，只要在你的终端中运行下面这个命令，你会看到top工具在Linux系统中执行时提供的类似输出结果。

# collectl --top  
# TOP PROCESSES sorted by time (counters are /sec) 13:11:02  
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command  
^COuch!tecmint  20     1   40 R    1G  626M  0  0.01  0.14  15  28:48.24    0    0    0  109 /usr/lib/firefox/firefox   
 3403  tecmint  20     1   40 R    1G  626M  1  0.00  0.20  20  28:48.44    0    0    0  600 /usr/lib/firefox/firefox   
 5851  tecmint  20  4666    0 R   17M   13M  0  0.02  0.06   8  00:01.28    0    0    0    0 /usr/bin/perl   
 1682  root     20  1666    2 R  211M   55M  1  0.02  0.01   3  03:10.24    0    0    0   95 /usr/bin/X   
 3454  tecmint  20  3403    8 S  216M   45M  1  0.01  0.02   3  01:23.32    0    0    0    0 /usr/lib/firefox/plugin-container   
 4658  tecmint  20  4657    3 S  207M   17M  1  0.00  0.02   2  00:08.23    0    0    0  142 gnome-terminal   
 2890  tecmint  20  2571    3 S  340M   68M  0  0.00  0.01   1  01:19.95    0    0    0    0 compiz   
 3521  tecmint  20     1   24 S  710M  148M  1  0.01  0.00   1  01:47.84    0    0    0    0 skype   
    1  root     20     0    0 S    3M    2M  0  0.00  0.00   0  00:02.57    0    0    0    0 /sbin/init   
    2  root     20     0    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd   
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.60    0    0    0    0 ksoftirqd/0   
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H   
    7  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/u:0H   
    8  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:04.42    0    0    0    0 migration/0   
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh   
   10  root     20     2    0 R     0     0  0  0.00  0.00   0  00:02.22    0    0    0    0 rcu_sched   
   11  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.05    0    0    0    0 watchdog/0   
   12  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:00.07    0    0    0    0 watchdog/1   
   13  root     20     2    0 S     0     0  1  0.00  0.00   0  00:00.73    0    0    0    0 ksoftirqd/1   
   14  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:01.96    0    0    0    0 migration/1   
   16  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kworker/1:0H   
   17  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 cpuset

现在***但并非最不重要的是，想把collectl实用工具用作ps工具，在你的终端中运行下面这个命令。你会获得关于系统中进程的信息，就跟你在终端中运行“ps”命令所得到的输出一样。

# collectl -c1 -sZ -i:1  
waiting for 1 second sample...  
### RECORD    1 >>> tecmint-vgn-z13gn <<< (1397979716.001) (Sun Apr 20 13:11:56 2014) ###  
# PROCESS SUMMARY (counters are /sec)  
# PID  User     PR  PPID THRD S   VSZ   RSS CP  SysT  UsrT Pct  AccuTime  RKB  WKB MajF MinF Command  
    1  root     20     0    0 S    3M    2M  0  0.00  0.00   0  00:02.57    0    0    0    0 /sbin/init   
    2  root     20     0    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kthreadd   
    3  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.60    0    0    0    0 ksoftirqd/0   
    5  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/0:0H   
    7  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kworker/u:0H   
    8  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:04.42    0    0    0    0 migration/0   
    9  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 rcu_bh   
   10  root     20     2    0 S     0     0  0  0.00  0.00   0  00:02.24    0    0    0    0 rcu_sched   
   11  root     RT     2    0 S     0     0  0  0.00  0.00   0  00:00.05    0    0    0    0 watchdog/0   
   12  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:00.07    0    0    0    0 watchdog/1   
   13  root     20     2    0 S     0     0  1  0.00  0.00   0  00:00.73    0    0    0    0 ksoftirqd/1   
   14  root     RT     2    0 S     0     0  1  0.00  0.00   0  00:01.96    0    0    0    0 migration/1   
   16  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 kworker/1:0H   
   17  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 cpuset   
   18  root      0     2    0 S     0     0  1  0.00  0.00   0  00:00.00    0    0    0    0 khelper   
   19  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kdevtmpfs   
   20  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 netns   
   21  root     20     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 bdi-default   
   22  root      0     2    0 S     0     0  0  0.00  0.00   0  00:00.00    0    0    0    0 kintegrityd

我非常确信，许多Linux系统管理员会喜欢这款工具，如果最充分地使用它，就会领略其强大的功能。如果你想进一步了解collectl，可以参阅参考手册页，并且不断实际运用一下。

只要在终端中键入下面这个命令，就可以开始阅读参考手册页了。

# man collectl

参考链接

collectl的主页：http://collectl.sourceforge.net/index.html

英文链接： http://www.tecmint.com/linux-performance-monitoring-with-collectl-tool/