pidstat（pidstat d）

软件问答 2024.10.04 2

Linux 服务器性能出问题，排查下这些参数指标

1.1 top

1.2 vmstat

r 表示可运行进程数目，数据大致相符；而b表示的是 uninterruptible 睡眠的进程数目；swpd 表示使用到的虚拟内存数量，跟 top-Swap-used 的数值是一个含义，而如手册所说，通常情况下 buffers 数目要比 cached Mem 小的多，buffers 一般20M这么个数量级；io 域的 bi、bo 表明每秒钟向磁盘接收和发送的块数目(blocks/s)；system 域的 in 表明每秒钟的系统中断数(包括时钟中断)，cs表明因为进程切换导致上下文切换的数目。

说到这里，想到以前很多人纠结编译 linux kernel 的时候 -j 参数究竟是 CPU Core 还是 CPU Core+1？通过上面修改 -j 参数值编译 boost 和 linux kernel 的同时开启 vmstat 监控，发现两种情况下 context switch 基本没有变化，且也只有显著增加 -j 值后 context switch 才会有显著的增加，看来不必过于纠结这个参数了，虽然具体编译时间长度我还没有测试。资料说如果不是在系统启动或者 benchmark 的状态，参数 context switch100000 程序肯定有问题。

1.3 pidstat

如果想对某个进程进行全面具体的追踪，没有什么比 pidstat 更合适的了——栈空间、缺页情况、主被动切换等信息尽收眼底。这个命令最有用的参数是-t，可以将进程中各个线程的详细信息罗列出来。

-r：显示缺页错误和内存使用状况，缺页错误是程序需要访问映射在虚拟内存空间中但是还尚未被加载到物理内存中的一个分页，缺页错误两个主要类型是

-s：栈使用状况，包括 StkSize 为线程保留的栈空间，以及 StkRef 实际使用的栈空间。使用ulimit -s发现CentOS 6.x上面默认栈空间是10240K，而 CentOS 7.x、Ubuntu系列默认栈空间大小为8196K

1.4 其他

while :; do ps -eo user,pid,ni,pri,pcpu,psr,comm | grep 'ailawd'; sleep 1; done

2.1 iostat

3.1 netstat

➜ ~ netstat -antp #列出所有TCP的连接

➜ ~ netstat -nltp #列出本地所有TCP侦听套接字，不要加-a参数

3.2 sar

3.3 tcpdump

pidstat（pidstat d）

cpu负载突刺问题排查

通过监控工具巡检自己的服务发现服务cpu load存在周期性变高的现象，如图：

机器的cpu核数是4核，最高点明显超过了4，但是cpu使用率没有明显变高，如图：

cpu有突刺的现象是gc时引起的，这里先不做赘述；

那么是什么原因引起的cpu load变高呢？？？，又该如何解决呢？

一、引起load变高的原因有哪些：

1.磁盘io繁忙，网络io繁忙

2.线程上下文切换频繁

3.cpu繁忙

二、根据上面提出的三个原因去寻找解决方案

由上面三张图对比可以看出负载升高的时候，磁盘io以及网络io并没有任何变化还是保持和之前一样，说明不是io影响的。

使用命令：pidstat -w -p pid

由以图可以看出来，每秒自愿上下文切换（voluntary context switches）的次数为0（cswch ）；

被系统强制调度导致，每秒非自愿上下文切换（non voluntary context switches）的次数（nvcswch）的次数也为0；

说明不是线程频繁切换导致的

从最上面的cpu整体使用率看到并不是很高，那么应该不是cpu繁忙导致的；

继续向下排查，

pidstat查看java线程内详细信息，可发现用户态cpu使用率很高，长时间占用CPU，导致等待线程增多；

结合服务业务发现：

该服务是批量拉去kafka消息，然后使用线程池进行消费，而这个线程池使用的拒绝策略为CallerRunsPolicy，也就是当线程池执行不过来，并且阻塞队列也满的时候就会默认使用主线程来进行处理；

继续排查确认：

1.通过命令top -Hp pid 查看进程下最耗费cpu的线程

2.printf “%x\n” 得到线程的16进制

3.jstack 进程｜grep 线程id 获取线程状态

执行以上步骤的到文件，观察发现，最繁忙的线程就是kafka线程

1、减少一批消息的拉去数量，使当前线程池足够消费；

2、增大线程池数量的核心线程数（这种需要判断当前服务是io密集型还是cpu密集型，此方案选用）

3、更改业务逻辑，减少rpc，尽量减少业务处理，加快消费速度；

以上三种方式可以一起使用，也可以部分使用；

1.先减少批量拉取的消息数，观察load是否有降低；

2.因为我的业务服务是网络io密集型，所以我适当增大了业务线程池的核心线程数；

3.最后再来看业务逻辑层面是否存在优化的空间；

前两步结束后，负载已经降低到正常范围时，最后一步业务逻辑优化可选择性的去做；

linux怎么看cpu使用率

CPU使用率是单位时间内CPU使用情况的统计，是以百分比的方式进行展示的，Linux作为一个多任务操作系统，将每个CPU的时间划分为很短的时间片，再通过调度器轮流分配给各个任务使用，因此造成多任务同时运行的错觉。

CPU使用率的计算方式=1-空闲时间/总CPU时间，平均CPU使用率=1-新的空闲时间-旧的空闲时间/新的总CPU时间-旧的总CPU时间。

怎么查看CPU使用率?

要想查看CPU使用率，就必须要读取/proc/stat和/proc/[pid]/stat这两个文件，然后再按照上面的公式计算，但其实现在有很多性能分析攻击已经帮我们计算好了。

top命令显示了系统总体的CPU和内存使用情况，以及各个进程的资源使用情况，top默认显示的是所有CPU的平均值，这个时候只需要按下数字1，就可以切换到每个CPU的使用率了。

ps命令只显示了每个进程的资源使用情况。

pidstat为每个进程的详细情况：

用户态CPU使用率(%usr);

内核态CPU使用率(%system);

运行虚拟机CPU使用率(%guest);

等待CPU使用率(%wait);

以及总的CPU使用率(%CPU);

cm003-pidstat命令详解

pidstat是一个常用的进程性能分析工具，用来实时查看进城的cpu，内存，io以及上下文切换等。

本人是centos7系统，安装方式：# yum install sysstat （和mpstat在一个包里）

-u 默认的参数，显示各个进程的 CPU 使用统计。

-r 显示各个进程的内存使用统计。

-d 显示各个进程的 IO 使用情况。

-p 指定进程号。

-w 显示每个进程的上下文切换情况。

-t 显示选择任务的线程的统计信息外的额外信息。

#pidstat -u

UID：用户ID

PID：进程ID

%usr：进程在用户空间占用CPU的百分比

%system：进程在内核空间占用CPU的百分比

%guest：任务花费在虚拟机上的CPU使用率（运行在虚拟处理器）

%CPU：任务总的CPU使用率

CPU：正在运行这个任务的处理器编号

Command：这个任务的命令名称

#pidstat -r

输出重点内容详解：

minflt/s：从内存中加载数据时每秒出现的次要错误的数目，这些不要求从磁盘载入内存页面

majflt/s：从内存中加载数据时每秒出现的主要错误的数目，这些要求从磁盘载入内存页面

VSZ：虚拟地址大小，虚拟内存的使用KB

RSS：长期内存使用，任务的不可交换物理内存的使用量KB

%MEM：进程使用的物理内存百分比，top命令也会输出该字段

#pidstat -d

输出重点内容详解：

kB_rd/s：进程每秒从磁盘读取的数据量(以kB为单位)

kB_wr/s：进程每秒向磁盘写入的数据量(以kB为单位)

kB_ccwr/s：任务写入磁盘被取消的速率（KB）；当任务截断脏的pagecache的时候会发生。

#pidstat -t

输出重点内容详解：

TGID：主线程的标识

TID：线程ID

#pidstat -w

cswch：每秒自愿上下文切换的次数。

nvcswch：每秒非自愿上下文切换的次数。

如何用九条命令在一分钟内检查Linux服务器性能

一、uptime命令

这个命令可以快速查看机器的负载情况。在Linux系统中，这些数据表示等待CPU资源的进程和阻塞在不可中断IO进程（进程状态为D）的数量。这些数据可以让我们对系统资源使用有一个宏观的了解。

命令的输出分别表示1分钟、5分钟、15分钟的平均负载情况。通过这三个数据，可以了解服务器负载是在趋于紧张还是趋于缓解。如果1分钟平均负载很高，而15分钟平均负载很低，说明服务器正在命令高负载情况，需要进一步排查CPU资源都消耗在了哪里。反之，如果15分钟平均负载很高，1分钟平均负载较低，则有可能是CPU资源紧张时刻已经过去。

上面例子中的输出，可以看见最近1分钟的平均负载非常高，且远高于最近15分钟负载，因此我们需要继续排查当前系统中有什么进程消耗了大量的资源。可以通过下文将会介绍的vmstat、mpstat等命令进一步排查。

二、dmesg命令

该命令会输出系统日志的最后10行。示例中的输出，可以看见一次内核的oom kill和一次TCP丢包。这些日志可以帮助排查性能问题。千万不要忘了这一步。

三、vmstat命令

vmstat(8) 命令，每行会输出一些系统核心指标，这些指标可以让我们更详细的了解系统状态。后面跟的参数1，表示每秒输出一次统计信息，表头提示了每一列的含义，这几介绍一些和性能调优相关的列：

r：等待在CPU资源的进程数。这个数据比平均负载更加能够体现CPU负载情况，数据中不包含等待IO的进程。如果这个数值大于机器CPU核数，那么机器的CPU资源已经饱和。

free：系统可用内存数（以千字节为单位），如果剩余内存不足，也会导致系统性能问题。下文介绍到的free命令，可以更详细的了解系统内存的使用情况。

si，so：交换区写入和读取的数量。如果这个数据不为0，说明系统已经在使用交换区（swap），机器物理内存已经不足。

us, sy, id, wa, st：这些都代表了CPU时间的消耗，它们分别表示用户时间（user）、系统（内核）时间（sys）、空闲时间（idle）、IO等待时间（wait）和被偷走的时间（stolen，一般被其他虚拟机消耗）。

上述这些CPU时间，可以让我们很快了解CPU是否出于繁忙状态。一般情况下，如果用户时间和系统时间相加非常大，CPU出于忙于执行指令。如果IO等待时间很长，那么系统的瓶颈可能在磁盘IO。

示例命令的输出可以看见，大量CPU时间消耗在用户态，也就是用户应用程序消耗了CPU时间。这不一定是性能问题，需要结合r队列，一起分析。

四、mpstat命令

该命令可以显示每个CPU的占用情况，如果有一个CPU占用率特别高，那么有可能是一个单线程应用程序引起的。

五、pidstat命令

pidstat命令输出进程的CPU占用率，该命令会持续输出，并且不会覆盖之前的数据，可以方便观察系统动态。如上的输出，可以看见两个JAVA进程占用了将近1600%的CPU时间，既消耗了大约16个CPU核心的运算资源。

六、iostat命令

r/s, w/s, rkB/s, wkB/s：分别表示每秒读写次数和每秒读写数据量（千字节）。读写量过大，可能会引起性能问题。

await：IO操作的平均等待时间，单位是毫秒。这是应用程序在和磁盘交互时，需要消耗的时间，包括IO等待和实际操作的耗时。如果这个数值过大，可能是硬件设备遇到了瓶颈或者出现故障。

avgqu-sz：向设备发出的请求平均数量。如果这个数值大于1，可能是硬件设备已经饱和（部分前端硬件设备支持并行写入）。

%util：设备利用率。这个数值表示设备的繁忙程度，经验值是如果超过60，可能会影响IO性能（可以参照IO操作平均等待时间）。如果到达100%，说明硬件设备已经饱和。

如果显示的是逻辑设备的数据，那么设备利用率不代表后端实际的硬件设备已经饱和。值得注意的是，即使IO性能不理想，也不一定意味这应用程序性能会不好，可以利用诸如预读取、写缓存等策略提升应用性能。

七、free命令

free命令可以查看系统内存的使用情况，-m参数表示按照兆字节展示。最后两列分别表示用于IO缓存的内存数，和用于文件系统页缓存的内存数。需要注意的是，第二行-/+ buffers/cache，看上去缓存占用了大量内存空间。

这是Linux系统的内存使用策略，尽可能的利用内存，如果应用程序需要内存，这部分内存会立即被回收并分配给应用程序。因此，这部分内存一般也被当成是可用内存。

如果可用内存非常少，系统可能会动用交换区（如果配置了的话），这样会增加IO开销（可以在iostat命令中提现），降低系统性能。

八、sar命令

sar命令在这里可以查看网络设备的吞吐率。在排查性能问题时，可以通过网络设备的吞吐量，判断网络设备是否已经饱和。如示例输出中，eth0网卡设备，吞吐率大概在22 Mbytes/s，既176 Mbits/sec，没有达到1Gbit/sec的硬件上限。

sar命令在这里用于查看TCP连接状态，其中包括：

active/s：每秒本地发起的TCP连接数，既通过connect调用创建的TCP连接；

passive/s：每秒远程发起的TCP连接数，即通过accept调用创建的TCP连接；

retrans/s：每秒TCP重传数量；

TCP连接数可以用来判断性能问题是否由于建立了过多的连接，进一步可以判断是主动发起的连接，还是被动接受的连接。TCP重传可能是因为网络环境恶劣，或者服务器压

九、top命令

top命令包含了前面好几个命令的检查的内容。比如系统负载情况（uptime）、系统内存使用情况（free）、系统CPU使用情况（vmstat）等。因此通过这个命令，可以相对全面的查看系统负载的来源。同时，top命令支持排序，可以按照不同的列排序，方便查找出诸如内存占用最多的进程、CPU占用率最高的进程等。

但是，top命令相对于前面一些命令，输出是一个瞬间值，如果不持续盯着，可能会错过一些线索。这时可能需要暂停top命令刷新，来记录和比对数据。