blktrace命令 – 分析磁盘IO

07/28/2020 磁盘管理

在Linux系统上，查看磁盘的负载情况，咱们一般使用iostat监控工具。其中很重要的参数就是await，await表示单个I/O所需的平均时间，但它同时包含了I/O Scheduler所消耗的时间和硬件所消耗的时间，所以不能作为硬件性能的指标。那如何才能分辨一个io从下发到返回整个时间上，是硬件层耗时多还是在io调度上耗时多呢？如何查看io在各个时间段所消耗的时间呢？那么，blktrace在这种场合就能派上用场，因为它能记录I/O所经历的各个步骤，从中可以分析是IO Scheduler慢还是硬件响应慢，以及各个时间段所用时间。

blktrace的原理：

一个I/O请求进入block layer之后，可能会经历下面的过程：

Remap: 可能被DM(Device Mapper)或MD(Multiple Device, Software RAID) remap到其它设备
Split: 可能会因为I/O请求与扇区边界未对齐、或者size太大而被分拆(split)成多个物理I/O
Merge: 可能会因为与其它I/O请求的物理位置相邻而合并(merge)成一个I/O
被IO Scheduler依照调度策略发送给driver
被driver提交给硬件，经过HBA、电缆（光纤、网线等）、交换机（SAN或网络）、最后到达存储设备，设备完成IO请求之后再把结果发回。

语法格式：blktrace [参数]

常用参数：

-A hex-mask	设置过滤信息mask成十六进制mask
-a mask	添加mask到当前的过滤器
-b size	指定缓存大小for提取的结果，默认为512KB
-d dev	添加一个设备追踪
-k	杀掉正在运行的追踪
-n num-sub	指定缓冲池大小，默认为4个子缓冲区
-o file	指定输出文件的名字
-r rel-path	指定的debugfs挂载点
-w seconds	设置运行的时间

参考实例

centos7安装blktrace（会自动生成blktrace blkparse btt 3个工具，其中，blktrace收集数据，blkparce分析数据，btt汇总数据）：

[root@linuxvip ~]# yum install blktrace -y

使用blktrace需要挂载debugfs：

[root@linuxvip ~]# mount -t debugfs debugfs /sys/kernel/debug

利用blktrace查看实时数据的方法，比如要看的硬盘是sdb：

[root@linuxvip ~]# blktrace -d /dev/sdb -o – | blkparse -i –

分析磁盘/dev/sdc的IO情况：

[root@linuxvip ~]# blktrace -d /dev/sdc

生成数据：应用结束后，手动终止监控，会生成cpu数量的文件

[root@linuxvip ~]# blkparse -i sdc -d sdc.blktrace.bin

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30