Skip to content

系统监控指标

公共指标

系统资源是系统不可或缺的一个重要组成部分。在 PB 级数据存储系统中,使用了大量的存储设备、计算设备和网络设备。用户在使用过程中,不可避免的需要对其进行大量的运行维护工作。Lightning System 通过对系统所需资源集中管控的方式,减少在设备管理运行过程中的维护强度和难度。

以下所有类别均包含:

名称解释类型示例
host机器识别码string
name指标类型stringcpu
timestamp当前时间戳time2024-02-26T14:25:00Z

CPU

名称解释类型示例
cpu指标项stringcpu-total
per_cpu_percent每个 CPU 核心的使用百分比[]float64[1.1, 0, 4.3...]
usage_user用户态的 CPU 使用百分比float6410.758965802305156
usage_system系统态的 CPU 使用百分比float6413.51125938042933
usage_idle空闲状态的 CPU 使用百分比float6475.64637196597096
usage_iowait等待 I/O 操作完成的 CPU 使用百分比float640.08340283568182641
usage_softiorq软中断等待状态的 CPU 使用百分比float640

以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:

名称解释类型示例
user用户态的 CPU 使用时间float64812605.15
system系统态的 CPU 使用时间float641027354.37
idle空闲状态的 CPU 使用时间float6418696682.59
nice低优先级任务的 CPU 使用时间float64123.78
iowait等待 I/O 操作完成的 CPU 使用时间float641886.3
irq处理硬中断的 CPU 使用时间float640
softirq处理软中断的 CPU 使用时间float64506.15
steal被其他虚拟机偷取的 CPU 使用时间float640
guest运行虚拟 CPU 的 CPU 使用时间float640
guest_nice运行低优先级虚拟 CPU 的 CPU 使用时间float640
totalCPU 的总使用情况float6420639158.34

Disk 磁盘

名称解释类型示例
device设备名称string/dev/nvme0n1p2
mount_point挂载点string/
fs_type文件系统类型stringext4
total总容量int64982820896768
free剩余容量int64592964710400
used已使用容量int64340342669312
read_bytes已读取字节数int64364293051392
write_bytes已写入字节数int64249522384896

以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:

名称解释类型示例
inodes_totalinodes(索引节点) 总数int6461022208
inodes_free剩余 inodes(索引节点)int6457272987
read_count已读取次数int6412881032
merged_read_count已完成的合并读操作次数int649643677
write_count已写入次数int6411930989
merged_write_count已完成的写操作次数int6411061325
read_time读操作花费的时间 (ms)int641421739
write_time写操作花费的时间 (ms)int644671824
iops_in_progress前正在进行的输入/输出操作(I/O)的数量int640
io_time进行读写操作时所花费的总时间int648532872
weighted_ioint646263747
stats_namestringnvme0n1p2
serial_number序列号stringWDC_WDS...
labelstring

LDB 数据库

名称解释类型示例
table_name表名stringzh_test
total_size所有表占用磁盘大小总和 (B)int64123
table_row_count当前表行数int64123
total_row_count所有表的行数总和int64123
table_size当前表占用磁盘大小 (B)int64123

Memory 内存

名称解释类型示例
total总内存大小 (B)int64134960599040
available可用内存大小 (B)int64103273857024
used已使用的内存大小 (B)int6430350184448
free空闲内存大小 (B)int6487960084480
active活跃内存大小 (B)int640
inactive非活跃内存大小 (B)int6414733422592
buffers缓冲区内存大小 (B)int64756338688
cached缓存内存大小 (B)int6415893991424
swap_cached交换缓存内存大小 (B)int64172032
swap_total总交换空间大小 (B)int642147479552
swap_free可用交换空间大小 (B)int642146168832
swap_used已使用的交换空间大小 (B)int641310720

以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:

名称解释类型示例
wired内核保留的快速访问内存区域int640
writeback内核写回磁盘的缓冲区大小int640
dirty需要写入磁盘的内存页数量int646004736
shared被多个进程共享的内存区域int642600960
slabLinux 内存分配器中的内存分配机制int641052164096
sreclaimable可回收的 slab 内存int64839774208
page_tables用于虚拟内存管理的页表内存大小int64143540224
commit_limit内核内存使用的限制int6469627777024
committed_as内核内存使用的实际大小int6439913271296
high_total高内存总量int640
high_free高内存空闲量int640
low_total低内存总量int640
low_free低内存空闲量int640
mapped映射到文件系统的内存大小int64899174400
vmalloc_total虚拟内存分配器总内存大小int6435184372087808
vmalloc_used虚拟内存分配器已使用内存大小int6466887680
vmalloc_chunk虚拟内存分配器中的内存块大小int640
huge_pages_total系统总的大页面内存大小int640
huge_pages_free系统空闲的大页面内存大小int640
huge_page_size大页面内存的大小int642097152
swap_sin交换空间写入次数int640
swap_sout交换空间写出次数int64638976
swap_pgin交换空间页入次数int641487574056960
swap_pgout交换空间页出次数int641034292760576
swap_pgfault交换空间页错误次数int6412765933031424
swap_pgmajfault交换空间主要页错误次数int642374070272

Net

名称解释类型示例
interface_name网卡名称stringlo
byte_sent已发送字节数int641557351245
byte_recv已接收字节数int641557351245

以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:

名称解释类型示例
packet_sent已发送数据包数量int6468857372
packet_recv已接收数据包数量int6468857372
errin接收过程中错误的总数int640
errout发送过程中错误的总数int640
dropin被丢弃的传入数据包总数int640
dropout被丢弃的传出数据包总数int640
fifoin接收过程中 FIFO 缓冲区错误的总数int640
fifoout发送过程中 FIFO 缓冲区错误的总数int640

Process

名称解释类型示例
total任务总数int642

Runtime

名称解释类型示例
num_goroutinegoroutine 数量int641025
heap_alloc已分配的堆内存int64120053481
total_alloc已分配的内存int64140548012
heap_in_use正在使用中的堆内存int64100420189

以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:

名称解释类型示例
num_cgo_call执行不同地址空间代码的 CGO 调用的数量int64123
sys系统时间,用于各种操作的耗时int6435738888
lookups由 Go 运行时执行的指针查找次数int640
mallocs程序进行的对内存分配个数int6453062
frees程序进行的堆内存释放个数int6441850
heap_sys堆内存使用量,包括尚未释放的内存int6427623424
heap_idle堆中空闲内存的数量int645177344
heap_released已经释放回系统的堆内存数量int644243456
heap_objects堆中对象的数量int6411212
stack_in_use当前使用的栈内存量int641736704
stack_sys栈内存使用量,包括分配和未分配的内存int641736704
mspan_in_use当前使用的 MSpan 对象的数量int64159840
mspan_sysMSpan 对象的总内存使用量int64163200
mcache_in_use当前使用的 MCache 对象的数量int6414400
mcache_sysMCache 对象的总内存使用量int6415600
buck_hash_sys用于哈希表的桶的数量int641454292
gc_sys垃圾回收操作的总系统时间int642719408
other_sys其他系统时间的总和int642026260
next_gc下次垃圾回收预计需要的时间int6442444688
last_gc上次垃圾回收完成的时间int641708931086750004304
pause_total_ns所有垃圾回收期间程序暂停的总时间,以纳秒为单位int64108189
num_gc发生的垃圾回收次数int645
num_forced_gc强制触发的垃圾回收次数int640
gc_cpu_fraction垃圾回收占用的 CPU 时间比例float640.04692499651338815
enable_gc是否启用垃圾回收的标志booltrue/false
debug_gc是否在垃圾回收时打印调试信息的标志booltrue/false
num_fds打开的文件描述符(file descriptor)数量int6425
cpu_time_stats_user用户态 CPU 时间统计float640.1
cpu_time_stats_system系统态 CPU 时间总计float640
cpu_time_stats_idle空闲 CPU 时间总计float640
cpu_time_stats_nice低优先级进程使用的 CPU 时间总计float640
cpu_time_stats_iowait等待 I/O 操作完成的 CPU 时间总计float640
cpu_time_stats_irq处理硬件中断的 CPU 时间总计float640
cpu_time_stats_softirq处理软件中断的 CPU 时间总计float640
cpu_time_stats_steal被其他虚拟化技术(如容器或虚拟机)偷取的 CPU 时间总计float640
cpu_time_stats_guest虚拟机或容器运行时的 CPU 时间总计float640
cpu_time_stats_guest_nice虚拟机或容器中低优先级进程使用的 CPU 时间总计float640
io_counter_read_count读操作的次数int6477
io_counter_write_count写操作的次数int644
io_counter_read_bytes读操作传输的数据量int640
io_counter_write_bytes写操作传输的数据量int640