Appearance
系统监控指标
公共指标
系统资源是系统不可或缺的一个重要组成部分。在 PB 级数据存储系统中,使用了大量的存储设备、计算设备和网络设备。用户在使用过程中,不可避免的需要对其进行大量的运行维护工作。Lightning System 通过对系统所需资源集中管控的方式,减少在设备管理运行过程中的维护强度和难度。
以下所有类别均包含:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
host | 机器识别码 | string | |
name | 指标类型 | string | cpu |
timestamp | 当前时间戳 | time | 2024-02-26T14:25:00Z |
CPU
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
cpu | 指标项 | string | cpu-total |
per_cpu_percent | 每个 CPU 核心的使用百分比 | []float64 | [1.1, 0, 4.3...] |
usage_user | 用户态的 CPU 使用百分比 | float64 | 10.758965802305156 |
usage_system | 系统态的 CPU 使用百分比 | float64 | 13.51125938042933 |
usage_idle | 空闲状态的 CPU 使用百分比 | float64 | 75.64637196597096 |
usage_iowait | 等待 I/O 操作完成的 CPU 使用百分比 | float64 | 0.08340283568182641 |
usage_softiorq | 软中断等待状态的 CPU 使用百分比 | float64 | 0 |
以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
user | 用户态的 CPU 使用时间 | float64 | 812605.15 |
system | 系统态的 CPU 使用时间 | float64 | 1027354.37 |
idle | 空闲状态的 CPU 使用时间 | float64 | 18696682.59 |
nice | 低优先级任务的 CPU 使用时间 | float64 | 123.78 |
iowait | 等待 I/O 操作完成的 CPU 使用时间 | float64 | 1886.3 |
irq | 处理硬中断的 CPU 使用时间 | float64 | 0 |
softirq | 处理软中断的 CPU 使用时间 | float64 | 506.15 |
steal | 被其他虚拟机偷取的 CPU 使用时间 | float64 | 0 |
guest | 运行虚拟 CPU 的 CPU 使用时间 | float64 | 0 |
guest_nice | 运行低优先级虚拟 CPU 的 CPU 使用时间 | float64 | 0 |
total | CPU 的总使用情况 | float64 | 20639158.34 |
Disk 磁盘
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
device | 设备名称 | string | /dev/nvme0n1p2 |
mount_point | 挂载点 | string | / |
fs_type | 文件系统类型 | string | ext4 |
total | 总容量 | int64 | 982820896768 |
free | 剩余容量 | int64 | 592964710400 |
used | 已使用容量 | int64 | 340342669312 |
read_bytes | 已读取字节数 | int64 | 364293051392 |
write_bytes | 已写入字节数 | int64 | 249522384896 |
以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
inodes_total | inodes(索引节点) 总数 | int64 | 61022208 |
inodes_free | 剩余 inodes(索引节点) | int64 | 57272987 |
read_count | 已读取次数 | int64 | 12881032 |
merged_read_count | 已完成的合并读操作次数 | int64 | 9643677 |
write_count | 已写入次数 | int64 | 11930989 |
merged_write_count | 已完成的写操作次数 | int64 | 11061325 |
read_time | 读操作花费的时间 (ms) | int64 | 1421739 |
write_time | 写操作花费的时间 (ms) | int64 | 4671824 |
iops_in_progress | 前正在进行的输入/输出操作(I/O)的数量 | int64 | 0 |
io_time | 进行读写操作时所花费的总时间 | int64 | 8532872 |
weighted_io | int64 | 6263747 | |
stats_name | string | nvme0n1p2 | |
serial_number | 序列号 | string | WDC_WDS... |
label | string |
LDB 数据库
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
table_name | 表名 | string | zh_test |
total_size | 所有表占用磁盘大小总和 (B) | int64 | 123 |
table_row_count | 当前表行数 | int64 | 123 |
total_row_count | 所有表的行数总和 | int64 | 123 |
table_size | 当前表占用磁盘大小 (B) | int64 | 123 |
Memory 内存
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
total | 总内存大小 (B) | int64 | 134960599040 |
available | 可用内存大小 (B) | int64 | 103273857024 |
used | 已使用的内存大小 (B) | int64 | 30350184448 |
free | 空闲内存大小 (B) | int64 | 87960084480 |
active | 活跃内存大小 (B) | int64 | 0 |
inactive | 非活跃内存大小 (B) | int64 | 14733422592 |
buffers | 缓冲区内存大小 (B) | int64 | 756338688 |
cached | 缓存内存大小 (B) | int64 | 15893991424 |
swap_cached | 交换缓存内存大小 (B) | int64 | 172032 |
swap_total | 总交换空间大小 (B) | int64 | 2147479552 |
swap_free | 可用交换空间大小 (B) | int64 | 2146168832 |
swap_used | 已使用的交换空间大小 (B) | int64 | 1310720 |
以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
wired | 内核保留的快速访问内存区域 | int64 | 0 |
writeback | 内核写回磁盘的缓冲区大小 | int64 | 0 |
dirty | 需要写入磁盘的内存页数量 | int64 | 6004736 |
shared | 被多个进程共享的内存区域 | int64 | 2600960 |
slab | Linux 内存分配器中的内存分配机制 | int64 | 1052164096 |
sreclaimable | 可回收的 slab 内存 | int64 | 839774208 |
page_tables | 用于虚拟内存管理的页表内存大小 | int64 | 143540224 |
commit_limit | 内核内存使用的限制 | int64 | 69627777024 |
committed_as | 内核内存使用的实际大小 | int64 | 39913271296 |
high_total | 高内存总量 | int64 | 0 |
high_free | 高内存空闲量 | int64 | 0 |
low_total | 低内存总量 | int64 | 0 |
low_free | 低内存空闲量 | int64 | 0 |
mapped | 映射到文件系统的内存大小 | int64 | 899174400 |
vmalloc_total | 虚拟内存分配器总内存大小 | int64 | 35184372087808 |
vmalloc_used | 虚拟内存分配器已使用内存大小 | int64 | 66887680 |
vmalloc_chunk | 虚拟内存分配器中的内存块大小 | int64 | 0 |
huge_pages_total | 系统总的大页面内存大小 | int64 | 0 |
huge_pages_free | 系统空闲的大页面内存大小 | int64 | 0 |
huge_page_size | 大页面内存的大小 | int64 | 2097152 |
swap_sin | 交换空间写入次数 | int64 | 0 |
swap_sout | 交换空间写出次数 | int64 | 638976 |
swap_pgin | 交换空间页入次数 | int64 | 1487574056960 |
swap_pgout | 交换空间页出次数 | int64 | 1034292760576 |
swap_pgfault | 交换空间页错误次数 | int64 | 12765933031424 |
swap_pgmajfault | 交换空间主要页错误次数 | int64 | 2374070272 |
Net
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
interface_name | 网卡名称 | string | lo |
byte_sent | 已发送字节数 | int64 | 1557351245 |
byte_recv | 已接收字节数 | int64 | 1557351245 |
以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
packet_sent | 已发送数据包数量 | int64 | 68857372 |
packet_recv | 已接收数据包数量 | int64 | 68857372 |
errin | 接收过程中错误的总数 | int64 | 0 |
errout | 发送过程中错误的总数 | int64 | 0 |
dropin | 被丢弃的传入数据包总数 | int64 | 0 |
dropout | 被丢弃的传出数据包总数 | int64 | 0 |
fifoin | 接收过程中 FIFO 缓冲区错误的总数 | int64 | 0 |
fifoout | 发送过程中 FIFO 缓冲区错误的总数 | int64 | 0 |
Process
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
total | 任务总数 | int64 | 2 |
Runtime
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
num_goroutine | goroutine 数量 | int64 | 1025 |
heap_alloc | 已分配的堆内存 | int64 | 120053481 |
total_alloc | 已分配的内存 | int64 | 140548012 |
heap_in_use | 正在使用中的堆内存 | int64 | 100420189 |
以下指标在 Websocket 接口中未返回,可通过 Thrift 接口查询获得:
名称 | 解释 | 类型 | 示例 |
---|---|---|---|
num_cgo_call | 执行不同地址空间代码的 CGO 调用的数量 | int64 | 123 |
sys | 系统时间,用于各种操作的耗时 | int64 | 35738888 |
lookups | 由 Go 运行时执行的指针查找次数 | int64 | 0 |
mallocs | 程序进行的对内存分配个数 | int64 | 53062 |
frees | 程序进行的堆内存释放个数 | int64 | 41850 |
heap_sys | 堆内存使用量,包括尚未释放的内存 | int64 | 27623424 |
heap_idle | 堆中空闲内存的数量 | int64 | 5177344 |
heap_released | 已经释放回系统的堆内存数量 | int64 | 4243456 |
heap_objects | 堆中对象的数量 | int64 | 11212 |
stack_in_use | 当前使用的栈内存量 | int64 | 1736704 |
stack_sys | 栈内存使用量,包括分配和未分配的内存 | int64 | 1736704 |
mspan_in_use | 当前使用的 MSpan 对象的数量 | int64 | 159840 |
mspan_sys | MSpan 对象的总内存使用量 | int64 | 163200 |
mcache_in_use | 当前使用的 MCache 对象的数量 | int64 | 14400 |
mcache_sys | MCache 对象的总内存使用量 | int64 | 15600 |
buck_hash_sys | 用于哈希表的桶的数量 | int64 | 1454292 |
gc_sys | 垃圾回收操作的总系统时间 | int64 | 2719408 |
other_sys | 其他系统时间的总和 | int64 | 2026260 |
next_gc | 下次垃圾回收预计需要的时间 | int64 | 42444688 |
last_gc | 上次垃圾回收完成的时间 | int64 | 1708931086750004304 |
pause_total_ns | 所有垃圾回收期间程序暂停的总时间,以纳秒为单位 | int64 | 108189 |
num_gc | 发生的垃圾回收次数 | int64 | 5 |
num_forced_gc | 强制触发的垃圾回收次数 | int64 | 0 |
gc_cpu_fraction | 垃圾回收占用的 CPU 时间比例 | float64 | 0.04692499651338815 |
enable_gc | 是否启用垃圾回收的标志 | bool | true/false |
debug_gc | 是否在垃圾回收时打印调试信息的标志 | bool | true/false |
num_fds | 打开的文件描述符(file descriptor)数量 | int64 | 25 |
cpu_time_stats_user | 用户态 CPU 时间统计 | float64 | 0.1 |
cpu_time_stats_system | 系统态 CPU 时间总计 | float64 | 0 |
cpu_time_stats_idle | 空闲 CPU 时间总计 | float64 | 0 |
cpu_time_stats_nice | 低优先级进程使用的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_iowait | 等待 I/O 操作完成的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_irq | 处理硬件中断的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_softirq | 处理软件中断的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_steal | 被其他虚拟化技术(如容器或虚拟机)偷取的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_guest | 虚拟机或容器运行时的 CPU 时间总计 | float64 | 0 |
cpu_time_stats_guest_nice | 虚拟机或容器中低优先级进程使用的 CPU 时间总计 | float64 | 0 |
io_counter_read_count | 读操作的次数 | int64 | 77 |
io_counter_write_count | 写操作的次数 | int64 | 4 |
io_counter_read_bytes | 读操作传输的数据量 | int64 | 0 |
io_counter_write_bytes | 写操作传输的数据量 | int64 | 0 |