Ethtool 計數器¶
- 版權:
© 2023, NVIDIA CORPORATION 及其關聯公司。保留所有權利。
目錄¶
概述¶
計數器的計數位置不同,因此分為幾個計數器組。此外,每組計數器可能包含不同的計數器型別。
這些計數器組基於網路設定中的元件(如下圖所示)進行描述:
----------------------------------------
| |
---------------------------------------- ---------------------------------------- |
| Hypervisor | | VM | |
| | | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | Ethernet driver | | RDMA driver | | | | Ethernet driver | | RDMA driver | | |
| ------------------- --------------- | | ------------------- --------------- | |
| | | | | | | | |
| ------------------- | | ------------------- | |
| | | | | |--
---------------------------------------- ----------------------------------------
| |
------------- -----------------------------
| |
------ ------ ------ ------ ------ ------ ------
-----| PF |----------------------| VF |-| VF |-| VF |----- --| PF |--- --| PF |--- --| PF |---
| ------ ------ ------ ------ | | ------ | | ------ | | ------ |
| | | | | | | |
| | | | | | | |
| | | | | | | |
| eSwitch | | eSwitch | | eSwitch | | eSwitch |
---------------------------------------------------------- ----------- ----------- -----------
-------------------------------------------------------------------------------
| |
| |
| Uplink (no counters) |
-------------------------------------------------------------------------------
---------------------------------------------------------------
| |
| |
| MPFS (no counters) |
---------------------------------------------------------------
|
|
| Port
組¶
- 環
由驅動程式棧填充的軟體計數器。
- Netdev
軟體環形計數器的聚合。
- vPort 計數器
因轉向或無緩衝區導致的流量計數器和丟包。可能表示網絡卡存在問題。這些計數器包括乙太網流量計數器(包括原始乙太網)和 RDMA/RoCE 流量計數器。
- 物理埠計數器
收集 PF 和 VF 統計資訊的計數器。可能表示網絡卡、鏈路或網路存在問題。此測量點包含 IEEE 802.3、RFC2863、RFC 2819、RFC 3635 等標準化計數器以及流量控制、FEC 等附加計數器的資訊。物理埠計數器不向虛擬機器公開。
- 優先順序埠計數器
一組物理埠計數器,按每個埠的每個優先順序進行統計。
型別¶
計數器分為三種類型。
- 流量資訊計數器
用於計數流量的計數器。這些計數器可用於負載估算或一般除錯。
- 流量加速計數器
計數由 Mellanox 驅動程式或硬體加速的流量。這些計數器是資訊計數器集的附加層,相同的流量在資訊計數器和加速計數器中都會被計數。
- 錯誤計數器
這些計數器的增加可能表示存在問題。每個計數器都有解釋和糾正措施。
可透過 ip link 或 ethtool 命令獲取統計資訊。ethtool 提供更詳細的資訊。
ip –s link show <if-name>
ethtool -S <if-name>
描述¶
與之前定義的計數器類似的 XSK、PTP 和 QoS 計數器將不再單獨列出。例如,ptp_tx[i]_packets 將不會明確說明,因為 tx[i]_packets 描述了這兩個計數器的行為,只是 ptp_tx[i]_packets 僅在使用精確時間協議時才計數。
環 / 網路裝置計數器¶
以下計數器按每個環或軟體埠提供。
這些計數器提供有關網絡卡加速流量的資訊。除了標準計數器計數外,這些計數器還對加速流量進行計數(即,加速流量被計數兩次)。
下表中的計數器名稱指的是環和埠計數器。環計數器的表示法包含不帶括號的 [i] 索引。埠計數器的表示法不包含 [i]。計數器名稱 rx[i]_packets 將列印為環 0 的 rx0_packets 和軟體埠的 rx_packets。
計數器 |
描述 |
型別 |
rx[i]_packets |
在環 i 上接收到的資料包數量。 |
資訊 |
rx[i]_bytes |
在環 i 上接收到的位元組數。 |
資訊 |
tx[i]_packets |
在環 i 上傳送的資料包數量。 |
資訊 |
tx[i]_bytes |
在環 i 上傳送的位元組數。 |
資訊 |
tx[i]_recover |
SQ 被恢復的次數。 |
錯誤 |
tx[i]_cqes |
在環 i 上 SQ 發出的 CQE 事件數量。 |
資訊 |
tx[i]_cqe_err |
在環 i 的 SQ 上遇到的錯誤 CQE 數量。 |
錯誤 |
tx[i]_tso_packets |
在環 i 上傳送的 TSO 資料包數量 [1]。 |
加速 |
tx[i]_tso_bytes |
在環 i 上傳送的 TSO 位元組數 [1]。 |
加速 |
tx[i]_tso_inner_packets |
在環 i 上傳送的、指示攜帶內部封裝的 TSO 資料包數量 [1]。 |
加速 |
tx[i]_tso_inner_bytes |
在環 i 上傳送的、指示攜帶內部封裝的 TSO 位元組數 [1]。 |
加速 |
rx[i]_gro_packets |
使用硬體加速 GRO 處理的接收資料包數量。在環 i 上接收到的硬體 GRO 解除安裝資料包數量。僅計算真實的 GRO 資料包:即僅計算 SKB 中 GRO 計數 > 1 的資料包。 |
加速 |
rx[i]_gro_bytes |
使用硬體加速 GRO 處理的接收位元組數。在環 i 上接收到的硬體 GRO 解除安裝位元組數。僅計算真實的 GRO 資料包:即僅計算 SKB 中 GRO 計數 > 1 的資料包。 |
加速 |
rx[i]_gro_skbs |
由硬體加速 GRO 構建的 GRO SKB 數量。僅計算 GRO 計數 > 1 的 SKB。 |
資訊 |
rx[i]_gro_large_hds |
使用硬體加速 GRO 接收的資料包中,具有需要分配額外記憶體的大型頭部的數量。 |
資訊 |
rx[i]_hds_nodata_packets |
在頭部/資料分離模式下僅包含頭部的資料包數量 [1]。 |
資訊 |
rx[i]_hds_nodata_bytes |
在頭部/資料分離模式下僅包含頭部的資料包的位元組數 [1]。 |
資訊 |
rx[i]_hds_nosplit_packets |
在頭部/資料分離模式下未被分離的資料包數量。當硬體不支援其協議分離時,資料包將不會被分離。例如 ICMPv4/v6 協議。目前,IPv4/IPv6 的 TCP 和 UDP 支援頭部/資料分離 [1]。 |
資訊 |
rx[i]_hds_nosplit_bytes |
在頭部/資料分離模式下未被分離的資料包的位元組數。當硬體不支援其協議分離時,資料包將不會被分離。例如 ICMPv4/v6 協議。目前,IPv4/IPv6 的 TCP 和 UDP 支援頭部/資料分離 [1]。 |
資訊 |
rx[i]_lro_packets |
在環 i 上接收到的 LRO 資料包數量 [1]。 |
加速 |
rx[i]_lro_bytes |
在環 i 上接收到的 LRO 位元組數 [1]。 |
加速 |
rx[i]_ecn_mark |
ECN 標記已開啟的接收資料包數量。 |
資訊 |
rx_oversize_pkts_buffer |
由於到達 RQ 且超過裝置為入站流量分配的軟體緩衝區大小的長度而被丟棄的接收資料包數量。這可能意味著裝置 MTU 大於軟體緩衝區大小。 |
錯誤 |
rx_oversize_pkts_sw_drop |
由於 CQE 資料大於 MTU 大小而在軟體中丟棄的接收資料包數量。 |
錯誤 |
rx[i]_csum_unnecessary |
在環 i 上接收到的帶有 CHECKSUM_UNNECESSARY 標記的資料包 [1]。 |
加速 |
rx[i]_csum_unnecessary_inner |
在環 i 上接收到的帶有內部封裝且 CHECKSUM_UNNECESSARY 標記的資料包 [1]。 |
加速 |
rx[i]_csum_none |
在環 i 上接收到的帶有 CHECKSUM_NONE 標記的資料包 [1]。 |
加速 |
rx[i]_csum_complete |
在環 i 上接收到的帶有 CHECKSUM_COMPLETE 標記的資料包 [1]。 |
加速 |
rx[i]_csum_complete_tail |
已計算校驗和、可能需要填充且能夠使用 CHECKSUM_PARTIAL 完成填充的接收資料包數量。 |
資訊 |
rx[i]_csum_complete_tail_slow |
校驗和需要填充超過八位元組的接收資料包數量。 |
資訊 |
tx[i]_csum_partial |
在環 i 上傳送的帶有 CHECKSUM_PARTIAL 標記的資料包 [1]。 |
加速 |
tx[i]_csum_partial_inner |
在環 i 上傳送的帶有內部封裝且 CHECKSUM_PARTIAL 標記的資料包 [1]。 |
加速 |
tx[i]_csum_none |
在環 i 上未進行硬體校驗和加速的資料包。 |
資訊 |
tx[i]_stopped / tx_queue_stopped [2] |
環 i 上的 SQ 已滿的事件。如果此計數器增加,請檢查為傳輸分配的緩衝區數量。 |
資訊 |
tx[i]_wake / tx_queue_wake [2] |
環 i 上 SQ 從已滿變為未滿的事件。 |
資訊 |
tx[i]_dropped / tx_queue_dropped [2] |
在環 i 上由於 DMA 對映失敗而丟棄的已傳送資料包。如果此計數器增加,請檢查為傳輸分配的緩衝區數量。 |
錯誤 |
tx[i]_nop |
由於達到迴圈緩衝區末尾,插入到 SQ(與環 i 相關)的空 WQE(nop WQE)數量。當接近迴圈緩衝區末尾時,驅動程式可能會新增這些空 WQE,以避免處理 WQE 從佇列末尾開始並在佇列開頭結束的狀態。這是正常情況。 |
資訊 |
tx[i]_timestamps |
在裝置的 DMA 層進行硬體時間戳的已傳送資料包。 |
資訊 |
tx[i]_added_vlan_packets |
將 vlan 標籤插入解除安裝到硬體的已傳送資料包數量。 |
加速 |
rx[i]_removed_vlan_packets |
將 vlan 標籤剝離解除安裝到硬體的已接收資料包數量。 |
加速 |
rx[i]_wqe_err |
在環 i 上接收到的錯誤操作碼數量。 |
錯誤 |
rx[i]_mpwqe_frag |
在環 i 上未能分配複合頁從而使用了分片 MPWQE(多資料包 WQE)的 WQE 數量。如果此計數器增加,可能表示沒有足夠的記憶體用於大頁,驅動程式分配了分片頁。這不是異常情況。 |
資訊 |
rx[i]_mpwqe_filler_cqes |
在環 i 上發出的填充 CQE 事件數量。 |
資訊 |
rx[i]_mpwqe_filler_strides |
在環 i 上填充 CQE 消耗的步幅數量。 |
資訊 |
tx[i]_mpwqe_blks |
從多資料包 WQE (mpwqe) 處理的傳送塊數量。 |
資訊 |
tx[i]_mpwqe_pkts |
從多資料包 WQE (mpwqe) 處理的傳送資料包數量。 |
資訊 |
rx[i]_cqe_compress_blks |
在環 i 上具有 CQE 壓縮的接收塊數量 [1]。 |
加速 |
rx[i]_cqe_compress_pkts |
在環 i 上具有 CQE 壓縮的接收資料包數量 [1]。 |
加速 |
rx[i]_arfs_add |
為在環 i 上直接 RQ 轉向而新增到裝置的 aRFS 流規則數量 [1]。 |
加速 |
rx[i]_arfs_request_in |
已請求移動到環 i 以進行直接 RQ 轉向的流規則數量 [1]。 |
加速 |
rx[i]_arfs_request_out |
已請求移出環 i 的流規則數量 [1]。 |
加速 |
rx[i]_arfs_expired |
已過期並被刪除的流規則數量 [1]。 |
加速 |
rx[i]_arfs_err |
未能新增到流表的流規則數量。 |
錯誤 |
rx[i]_recover |
RQ 被恢復的次數。 |
錯誤 |
tx[i]_xmit_more |
在 skbuff 上設定 xmit_more 指示(無門鈴)的已傳送資料包數量。 |
加速 |
ch[i]_poll |
通道 i 的 NAPI 輪詢呼叫次數。 |
資訊 |
ch[i]_arm |
NAPI 輪詢函式完成並在通道 i 上武裝完成佇列的次數。 |
資訊 |
ch[i]_aff_change |
由於親和性改變,NAPI 輪詢函式在 CPU 上顯式停止執行的次數,在通道 i 上。 |
資訊 |
ch[i]_events |
通道 i 完成佇列上的硬中斷事件數量。 |
資訊 |
ch[i]_eq_rearm |
EQ 被恢復的次數。 |
錯誤 |
ch[i]_force_irq |
NAPI 因 XSK 喚醒而透過向 ICOSQ 釋出 NOP 而觸發的次數。 |
加速 |
rx[i]_congst_umr |
在環 i 上,由於擁塞導致未完成的 UMR 請求被延遲的次數。 |
資訊 |
rx_pp_alloc_fast |
成功快速路徑分配的數量。 |
資訊 |
rx_pp_alloc_slow |
慢速路徑 0 階分配的數量。 |
資訊 |
rx_pp_alloc_slow_high_order |
慢速路徑高階分配的數量。 |
資訊 |
rx_pp_alloc_empty |
當指標環為空時,此計數器會增加,因此強制進行了慢速路徑分配。 |
資訊 |
rx_pp_alloc_refill |
當某個分配觸發了快取的重新填充時,此計數器會增加。 |
資訊 |
rx_pp_alloc_waive |
當從指標環獲取的頁由於 NUMA 不匹配而無法新增到快取時,此計數器會增加。 |
資訊 |
rx_pp_recycle_cached |
當回收將頁面放置到頁面池快取中時,此計數器會增加。 |
資訊 |
rx_pp_recycle_cache_full |
當頁面池快取已滿時,此計數器會增加。 |
資訊 |
rx_pp_recycle_ring |
當頁面放入指標環時,此計數器會增加。 |
資訊 |
rx_pp_recycle_ring_full |
當頁面池中的頁面由於指標環已滿而釋放時,此計數器會增加。 |
資訊 |
rx_pp_recycle_released_ref |
當頁面被釋放(而不是回收)因為 refcnt > 1 時,此計數器會增加。 |
資訊 |
rx[i]_xsk_buff_alloc_err |
在 XSK RQ 上下文中分配 skb 或 XSK 緩衝區失敗的次數。 |
錯誤 |
rx[i]_xdp_tx_xmit |
由於 XDP 程式 XDP_TX 操作(反彈)而轉發回埠的資料包數量。這些資料包不被其他軟體計數器計數。這些資料包由物理埠和 vPort 計數器計數。 |
資訊 |
rx[i]_xdp_tx_mpwqe |
在 RQ 上下文中由網路裝置傳輸並透過網路裝置 XDP_TX 的多資料包 WQE 數量。 |
加速 |
rx[i]_xdp_tx_inlnw |
已傳輸的 WQE 資料段的數量,其中資料可以內聯到 WQE 中,然後在 RQ 上下文中進行 XDP_TX。 |
加速 |
rx[i]_xdp_tx_nops |
釋出到 XDP SQ 的 NOP WQEBB(WQE 構建塊)數量。 |
加速 |
rx[i]_xdp_tx_full |
本應由於 XDP_TX 操作而轉發回埠但由於傳輸佇列已滿而被丟棄的資料包數量。這些資料包不被其他軟體計數器計數。這些資料包由物理埠和 vPort 計數器計數。您可以開啟更多接收佇列,將接收流量分散到所有佇列中,和/或增加接收環大小。 |
錯誤 |
rx[i]_xdp_tx_err |
RX 環的 XDP_TX 環上發生 XDP_TX 錯誤(例如幀過長和幀過短)的次數。 |
錯誤 |
rx[i]_xdp_tx_cqes / rx_xdp_tx_cqe [2] |
在 XDP_TX 環的 CQ 上接收到的完成數量。 |
資訊 |
rx[i]_xdp_drop |
由於 XDP 程式 XDP_DROP 操作而被丟棄的資料包數量。這些資料包不被其他軟體計數器計數。這些資料包由物理埠和 vPort 計數器計數。 |
資訊 |
rx[i]_xdp_redirect |
在環 i 上觸發 XDP 重定向操作的次數。 |
加速 |
tx[i]_xdp_xmit |
(由於 XDP 重定向)重定向到介面的資料包數量。這些資料包不被其他軟體計數器計數。這些資料包由物理埠和 vPort 計數器計數。 |
資訊 |
tx[i]_xdp_full |
(由於 XDP 重定向)重定向到介面但由於傳輸佇列已滿而被丟棄的資料包數量。這些資料包不被其他軟體計數器計數。您可以增大傳輸佇列。 |
資訊 |
tx[i]_xdp_mpwqe |
解除安裝到網絡卡的多資料包 WQE 數量,這些 WQE 是從其他網路裝置 XDP_REDIRECT 來的。 |
加速 |
tx[i]_xdp_inlnw |
WQE 資料段的數量,其中資料可以內聯到 WQE 中,且資料段是從其他網路裝置 XDP_REDIRECT 來的。 |
加速 |
tx[i]_xdp_nops |
釋出到 SQ 的 NOP WQEBB(WQE 構建塊)數量,這些 WQEBB 是從其他網路裝置 XDP_REDIRECT 來的。 |
加速 |
tx[i]_xdp_err |
(由於 XDP 重定向)重定向到介面但由於幀過長和幀過短等錯誤而被丟棄的資料包數量。 |
錯誤 |
tx[i]_xdp_cqes |
在 CQ 上接收到的、因 XDP 重定向而重定向到介面的資料包的完成數量。 |
資訊 |
tx[i]_xsk_xmit |
使用 XSK 零複製功能傳輸的資料包數量。 |
加速 |
tx[i]_xsk_mpwqe |
解除安裝到網絡卡的多資料包 WQE 數量,這些 WQE 是從其他網路裝置 XDP_REDIRECT 來的。 |
加速 |
tx[i]_xsk_inlnw |
使用 XSK 零複製傳輸的 WQE 資料段的數量,其中資料可以內聯到 WQE 中。 |
加速 |
tx[i]_xsk_full |
在 XSK 零複製模式下,當 SQ 已滿時門鈴響起的次數。 |
錯誤 |
tx[i]_xsk_err |
在 XSK 零複製模式下發生的錯誤數量,例如資料大小大於 MTU 大小。 |
錯誤 |
tx[i]_xsk_cqes |
在 XSK 零複製模式下處理的 CQE 數量。 |
加速 |
tx_tls_ctx |
為加密而新增到裝置的 TLS TX 硬體解除安裝上下文數量。 |
加速 |
tx_tls_del |
從裝置中移除的 TLS TX 硬體解除安裝上下文數量(連線已關閉)。 |
加速 |
tx_tls_pool_alloc |
在 TLS 硬體解除安裝池中成功分配工作單元的次數。 |
加速 |
tx_tls_pool_free |
在 TLS 硬體解除安裝池中釋放工作單元的次數。 |
加速 |
rx_tls_ctx |
為解密而新增到裝置的 TLS RX 硬體解除安裝上下文數量。 |
加速 |
rx_tls_del |
從裝置中刪除的 TLS RX 硬體解除安裝上下文數量(連線已完成)。 |
加速 |
rx[i]_tls_decrypted_packets |
成功解密的 RX 資料包數量,這些資料包是 TLS 流的一部分。 |
加速 |
rx[i]_tls_decrypted_bytes |
在 RX 資料包中成功解密的 TLS 有效載荷位元組數。 |
加速 |
rx[i]_tls_resync_req_pkt |
帶有重新同步請求的接收 TLS 資料包數量。 |
加速 |
rx[i]_tls_resync_req_start |
TLS 非同步重新同步請求開始的次數。 |
加速 |
rx[i]_tls_resync_req_end |
TLS 非同步重新同步請求透過提供硬體跟蹤的 tcp-seq 正確結束的次數。 |
加速 |
rx[i]_tls_resync_req_skip |
TLS 非同步重新同步請求過程已開始但未正確結束的次數。 |
錯誤 |
rx[i]_tls_resync_res_ok |
TLS 重新同步響應呼叫驅動程式成功處理的次數。 |
加速 |
rx[i]_tls_resync_res_retry |
當 ICOSQ 已滿時,TLS 重新同步響應呼叫驅動程式被重新嘗試的次數。 |
錯誤 |
rx[i]_tls_resync_res_skip |
TLS 重新同步響應呼叫驅動程式不成功終止的次數。 |
錯誤 |
rx[i]_tls_err |
CQE TLS 卸載出現問題的次數。 |
錯誤 |
tx[i]_tls_encrypted_packets |
由核心進行 TLS 加密的傳送資料包數量。 |
加速 |
tx[i]_tls_encrypted_bytes |
由核心進行 TLS 加密的傳送位元組數。 |
加速 |
tx[i]_tls_ooo |
在環 i 上處理亂序 TLS SQE 片段的次數。 |
加速 |
tx[i]_tls_dump_packets |
透過 DMA 從網絡卡複製的 TLS 解密資料包數量。 |
加速 |
tx[i]_tls_dump_bytes |
透過 DMA 從網絡卡複製的 TLS 解密位元組數。 |
加速 |
tx[i]_tls_resync_bytes |
請求重新同步以進行解密的 TLS 位元組數。 |
加速 |
tx[i]_tls_skip_no_sync_data |
可以安全跳過/不需要解密的 TLS 傳送資料量。 |
加速 |
tx[i]_tls_drop_no_sync_data |
由於 TLS 資料重傳而被丟棄的 TLS 傳送資料量。 |
加速 |
ptp_cq[i]_abort |
在精確時間協議中,由於埠時間戳和 CQE 時間戳之間的偏差大於 128 秒而必須跳過 CQE 的次數。 |
錯誤 |
ptp_cq[i]_abort_abs_diff_ns |
在精確時間協議中,當埠時間戳和 CQE 時間戳之間的差值大於 128 秒時,時間差的累積值。 |
錯誤 |
ptp_cq[i]_late_cqe |
在 PTP 時間戳 CQ 上交付 CQE 的次數,此時 CQE 是未預期的,因為裝置通常會確保不釋出 CQE 的特定時間已過去。 |
錯誤 |
ptp_cq[i]_lost_cqe |
由於時間差流逝,裝置預期不會在 PTP 時間戳 CQE 上交付 CQE 的次數。如果此類 CQE 以某種方式交付,則 ptp_cq[i]_late_cqe 會增加。 |
錯誤 |
對應的環和全域性計數器不共享相同的名稱(即不遵循通用的命名方案)。
vPort 計數器¶
連線到 eSwitch 的網絡卡埠上的計數器。
計數器 |
描述 |
型別 |
rx_vport_unicast_packets |
接收到的單播資料包,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_unicast_bytes |
接收到的單播位元組數,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_unicast_packets |
傳送的單播資料包,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_unicast_bytes |
傳送的單播位元組數,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_multicast_packets |
接收到的組播資料包,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_multicast_bytes |
接收到的組播位元組數,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_multicast_packets |
傳送的組播資料包,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_multicast_bytes |
傳送的組播位元組數,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_broadcast_packets |
接收到的廣播資料包,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_broadcast_bytes |
接收到的廣播位元組數,轉向埠,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_broadcast_packets |
傳送的廣播資料包,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
tx_vport_broadcast_bytes |
傳送的廣播位元組數,從埠轉向,包括原始乙太網 QP/DPDK 流量,不包括 RDMA 流量。 |
資訊 |
rx_vport_rdma_unicast_packets |
接收到的 RDMA 單播資料包,轉向埠(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_unicast_bytes |
接收到的 RDMA 單播位元組數,轉向埠(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_unicast_packets |
傳送的 RDMA 單播資料包,從埠轉向(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_unicast_bytes |
傳送的 RDMA 單播位元組數,從埠轉向(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_multicast_packets |
接收到的 RDMA 組播資料包,轉向埠(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
rx_vport_rdma_multicast_bytes |
接收到的 RDMA 組播位元組數,轉向埠(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_multicast_packets |
傳送的 RDMA 組播資料包,從埠轉向(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
tx_vport_rdma_multicast_bytes |
傳送的 RDMA 組播位元組數,從埠轉向(計數器計數 RoCE/UD/RC 流量)[1]。 |
加速 |
vport_loopback_packets |
已迴環的單播、組播和廣播資料包(已接收和已傳送),IB/Eth [1]。 |
加速 |
vport_loopback_bytes |
已迴環的單播、組播和廣播位元組數(已接收和已傳送),IB/Eth [1]。 |
加速 |
rx_steer_missed_packets |
網絡卡接收到的資料包數量,但由於與網絡卡流表中的任何流不匹配而被丟棄。 |
錯誤 |
rx_packets |
僅限代表器:已接收並由管理程式處理的資料包。 |
資訊 |
rx_bytes |
僅限代表器:已接收並由管理程式處理的位元組數。 |
資訊 |
tx_packets |
僅限代表器:已傳送並由管理程式處理的資料包。 |
資訊 |
tx_bytes |
僅限代表器:已傳送並由管理程式處理的位元組數。 |
資訊 |
dev_internal_queue_oob |
由於內部裝置 RQ 缺少接收 WQE 而丟棄的資料包數量。 |
錯誤 |
物理埠計數器¶
物理埠計數器是連線介面卡到網路的外部埠上的計數器。此測量點包含 IEEE 802.3、RFC2863、RFC 2819、RFC 3635 等標準化計數器以及流量控制、FEC 等附加計數器的資訊。
計數器 |
描述 |
型別 |
rx_packets_phy |
在物理埠上接收到的資料包數量。此計數器不包括因 FCS、幀大小和類似錯誤而被丟棄的資料包。 |
資訊 |
tx_packets_phy |
在物理埠上傳送的資料包數量。 |
資訊 |
rx_bytes_phy |
在物理埠上接收到的位元組數,包括乙太網頭部和 FCS。 |
資訊 |
tx_bytes_phy |
在物理埠上傳送的位元組數。 |
資訊 |
rx_multicast_phy |
在物理埠上接收到的組播資料包數量。 |
資訊 |
tx_multicast_phy |
在物理埠上傳送的組播資料包數量。 |
資訊 |
rx_broadcast_phy |
在物理埠上接收到的廣播資料包數量。 |
資訊 |
tx_broadcast_phy |
在物理埠上傳送的廣播資料包數量。 |
資訊 |
rx_crc_errors_phy |
由於物理埠上的 FCS(幀校驗序列)錯誤而被丟棄的接收資料包數量。如果此計數器高速增加,請使用下面的 rx_symbol_error_phy 和 rx_corrected_bits_phy 計數器檢查鏈路質量。 |
錯誤 |
rx_in_range_len_errors_phy |
由於物理埠上的長度/型別錯誤而被丟棄的接收資料包數量。 |
錯誤 |
rx_out_of_range_len_phy |
由於物理埠上長度超出允許範圍而被丟棄的接收資料包數量。如果此計數器增加,則意味著連線到介面卡的對等方配置了更大的 MTU。使用相同的 MTU 配置應能解決此問題。 |
錯誤 |
rx_oversize_pkts_phy |
由於物理埠上長度超過 MTU 大小而被丟棄的接收資料包數量。如果此計數器增加,則意味著連線到介面卡的對等方配置了更大的 MTU。使用相同的 MTU 配置應能解決此問題。 |
錯誤 |
rx_symbol_err_phy |
由於物理埠上的物理編碼錯誤(符號錯誤)而被丟棄的接收資料包數量。 |
錯誤 |
rx_mac_control_phy |
在物理埠上接收到的 MAC 控制資料包數量。 |
資訊 |
tx_mac_control_phy |
在物理埠上傳送的 MAC 控制資料包數量。 |
資訊 |
rx_pause_ctrl_phy |
在物理埠上接收到的鏈路層暫停資料包數量。如果此計數器增加,則意味著網路擁塞,無法吸收來自適配器的流量。 |
資訊 |
tx_pause_ctrl_phy |
在物理埠上傳送的鏈路層暫停資料包數量。如果此計數器增加,則意味著網絡卡擁塞,無法吸收來自網路的流量。 |
資訊 |
rx_unsupported_op_phy |
在物理埠上接收到的帶有不支援操作碼的 MAC 控制資料包數量。 |
錯誤 |
rx_discards_phy |
由於物理埠上缺少緩衝區而被丟棄的接收資料包數量。如果此計數器增加,則意味著介面卡擁塞,無法吸收來自網路的流量。 |
錯誤 |
tx_discards_phy |
即使未檢測到錯誤,但在傳輸時被丟棄的資料包數量。丟棄可能由於鏈路處於關閉狀態、隊頭阻塞、網路暫停等原因發生。 |
錯誤 |
tx_errors_phy |
由於物理埠上長度超過 MTU 大小而被丟棄的已傳送資料包數量。 |
錯誤 |
rx_undersize_pkts_phy |
由於物理埠上長度小於 64 位元組而被丟棄的接收資料包數量。如果此計數器增加,則意味著連線到介面卡的對等方配置了非標準 MTU 或收到了格式錯誤的資料包。 |
錯誤 |
rx_fragments_phy |
由於物理埠上長度小於 64 位元組且存在 FCS 錯誤而被丟棄的接收資料包數量。如果此計數器增加,則意味著連線到介面卡的對等方配置了非標準 MTU。 |
錯誤 |
rx_jabbers_phy |
由於物理埠上長度大於 64 位元組且存在 FCS 錯誤而被丟棄的接收資料包數量。 |
錯誤 |
rx_64_bytes_phy |
在物理埠上接收到的尺寸為 64 位元組的資料包數量。 |
資訊 |
rx_65_to_127_bytes_phy |
在物理埠上接收到的尺寸為 65 到 127 位元組的資料包數量。 |
資訊 |
rx_128_to_255_bytes_phy |
在物理埠上接收到的尺寸為 128 到 255 位元組的資料包數量。 |
資訊 |
rx_256_to_511_bytes_phy |
在物理埠上接收到的尺寸為 256 到 511 位元組的資料包數量。 |
資訊 |
rx_512_to_1023_bytes_phy |
在物理埠上接收到的尺寸為 512 到 1023 位元組的資料包數量。 |
資訊 |
rx_1024_to_1518_bytes_phy |
在物理埠上接收到的尺寸為 1024 到 1518 位元組的資料包數量。 |
資訊 |
rx_1519_to_2047_bytes_phy |
在物理埠上接收到的尺寸為 1519 到 2047 位元組的資料包數量。 |
資訊 |
rx_2048_to_4095_bytes_phy |
在物理埠上接收到的尺寸為 2048 到 4095 位元組的資料包數量。 |
資訊 |
rx_4096_to_8191_bytes_phy |
在物理埠上接收到的尺寸為 4096 到 8191 位元組的資料包數量。 |
資訊 |
rx_8192_to_10239_bytes_phy |
在物理埠上接收到的尺寸為 8192 到 10239 位元組的資料包數量。 |
資訊 |
link_down_events_phy |
鏈路操作狀態變為關閉的次數。如果此計數器增加,可能意味著埠不穩定。您可能需要更換電纜/收發器。 |
錯誤 |
total_success_recovery_phy |
埠復位週期內任何型別成功恢復事件的總次數。 |
錯誤 |
rx_out_of_buffer |
接收佇列沒有為介面卡入站流量分配軟體緩衝區的次數。 |
錯誤 |
module_bus_stuck |
模組 I2C 匯流排(資料或時鐘)檢測到短路的次數。您可能需要更換電纜/收發器。 |
錯誤 |
module_high_temp |
模組溫度過高的次數。如果此問題持續存在,您可能需要檢查環境溫度或更換電纜/收發器模組。 |
錯誤 |
module_bad_shorted |
模組電纜短路的次數。您可能需要更換電纜/收發器模組。 |
錯誤 |
module_unplug |
模組被彈出的次數。 |
資訊 |
rx_buffer_passed_thres_phy |
埠接收緩衝區已超過 85% 滿的事件數量。 |
資訊 |
tx_pause_storm_warning_events |
裝置長時間傳送暫停的次數。 |
資訊 |
tx_pause_storm_error_events |
裝置長時間傳送暫停,達到超時並停用暫停幀傳輸的次數。在停用暫停幀期間,可能發生了丟包。 |
錯誤 |
rx[i]_buff_alloc_err |
在環 i 上未能為接收到的資料包(或 SKB)分配緩衝區。 |
錯誤 |
rx_bits_phy |
此計數器提供有關可能已接收的流量總量的,可用作衡量 rx_pcs_symbol_err_phy 和 rx_corrected_bits_phy 中錯誤流量比率的指南。 |
資訊 |
rx_pcs_symbol_err_phy |
此計數器計算未被 FEC 糾錯演算法糾正或 FEC 演算法在此介面上未啟用的符號錯誤數量。如果此計數器增加,則意味著網絡卡和網路之間的鏈路存在高誤位元速率,並且流量正在丟失。您可能需要更換電纜/收發器。錯誤率是特定時間幀內 rx_pcs_symbol_err_phy 的數量除以 rx_bits_phy 的數量。 |
錯誤 |
rx_corrected_bits_phy |
根據活動 FEC (RS/FC) 在此埠上糾正的位元數量。如果此計數器增加,則意味著網絡卡和網路之間的鏈路存在高誤位元速率。糾正位元率是特定時間幀內 rx_corrected_bits_phy 的數量除以 rx_bits_phy 的數量。 |
錯誤 |
rx_err_lane_[l]_phy |
此計數器計算每個通道 l 索引的物理原始錯誤數量。此計數器計算 FEC 糾正之前的錯誤。如果此計數器增加,則意味著網絡卡和網路之間的鏈路存在高誤位元速率,並且流量可能會丟失。您可能需要更換電纜/收發器。請根據 rx_corrected_bits_phy 進行檢查。 |
錯誤 |
rx_global_pause |
在物理埠上接收到的暫停資料包數量。如果此計數器增加,則意味著網路擁塞,無法吸收來自適配器的流量。注意:此計數器僅在全域性暫停模式啟用時才啟用。 |
資訊 |
rx_global_pause_duration |
在物理埠上接收到的暫停持續時間(以微秒為單位)。此計數器表示埠未傳送任何流量的時間。如果此計數器增加,則意味著網路擁塞,無法吸收來自適配器的流量。注意:此計數器僅在全域性暫停模式啟用時才啟用。 |
資訊 |
tx_global_pause |
在物理埠上傳送的暫停資料包數量。如果此計數器增加,則意味著介面卡擁塞,無法吸收來自網路的流量。注意:此計數器僅在全域性暫停模式啟用時才啟用。 |
資訊 |
tx_global_pause_duration |
在物理埠上暫停傳送的持續時間(以微秒為單位)。注意:此計數器僅在全域性暫停模式啟用時才啟用。 |
資訊 |
rx_global_pause_transition |
物理埠上從 Xoff 到 Xon 轉換髮生的次數。注意:此計數器僅在全域性暫停模式啟用時才啟用。 |
資訊 |
rx_if_down_packets |
由於介面關閉而被丟棄的接收資料包數量。 |
資訊 |
優先順序埠計數器¶
以下計數器是按 L2 優先順序(0-7)計數的物理埠計數器。
注意:計數器名稱中的 p 代表優先順序。
計數器 |
描述 |
型別 |
rx_prio[p]_bytes |
在物理埠上以優先順序 p 接收到的位元組數。 |
資訊 |
rx_prio[p]_packets |
在物理埠上以優先順序 p 接收到的資料包數量。 |
資訊 |
tx_prio[p]_bytes |
在物理埠上以優先順序 p 傳送的位元組數。 |
資訊 |
tx_prio[p]_packets |
在物理埠上以優先順序 p 傳送的資料包數量。 |
資訊 |
rx_prio[p]_pause |
在物理埠上以優先順序 p 接收到的暫停資料包數量。如果此計數器增加,則意味著網路擁塞,無法吸收來自適配器的流量。注意:此計數器僅在優先順序 p 上啟用 PFC 時可用。 |
資訊 |
rx_prio[p]_pause_duration |
在物理埠上以優先順序 p 接收到的暫停持續時間(以微秒為單位)。此計數器表示埠在此優先順序上未傳送任何流量的時間。如果此計數器增加,則意味著網路擁塞,無法吸收來自適配器的流量。注意:此計數器僅在優先順序 p 上啟用 PFC 時可用。 |
資訊 |
rx_prio[p]_pause_transition |
物理埠上優先順序 p 從 Xoff 到 Xon 轉換髮生的次數。注意:此計數器僅在優先順序 p 上啟用 PFC 時可用。 |
資訊 |
tx_prio[p]_pause |
在物理埠上以優先順序 p 傳送的暫停資料包數量。如果此計數器增加,則意味著介面卡擁塞,無法吸收來自網路的流量。注意:此計數器僅在優先順序 p 上啟用 PFC 時可用。 |
資訊 |
tx_prio[p]_pause_duration |
在物理埠上以優先順序 p 暫停傳送的持續時間(以微秒為單位)。注意:此計數器僅在優先順序 p 上啟用 PFC 時可用。 |
資訊 |
rx_prio[p]_buf_discard |
由於每個主機缺少接收緩衝區而被裝置丟棄的資料包數量。 |
資訊 |
rx_prio[p]_cong_discard |
由於每個主機擁塞而被裝置丟棄的資料包數量。 |
資訊 |
rx_prio[p]_marked |
由於每個主機擁塞而被裝置標記為 ECN 的資料包數量。 |
資訊 |
rx_prio[p]_discards |
由於缺少接收緩衝區而被裝置丟棄的資料包數量。 |
資訊 |
裝置計數器¶
計數器 |
描述 |
型別 |
rx_pci_signal_integrity |
計數物理層 PCIe 訊號完整性錯誤,以及由於幀錯誤和 CRC (dlp 和 tlp) 而導致恢復的轉換次數。如果此計數器增加,請嘗試將介面卡卡移動到不同的插槽,以排除 PCI 插槽不良的可能性。驗證您是否正在執行最新的韌體和最新的伺服器 BIOS 版本。 |
錯誤 |
tx_pci_signal_integrity |
計數物理層 PCIe 訊號完整性錯誤,以及由另一側發起的恢復轉換次數(由於收到 TS/EIEOS 而進入恢復狀態)。如果此計數器增加,請嘗試將介面卡卡移動到不同的插槽,以排除 PCI 插槽不良的可能性。驗證您是否正在執行最新的韌體和最新的伺服器 BIOS 版本。 |
錯誤 |
outbound_pci_buffer_overflow |
由於 PCI 緩衝區溢位而丟棄的資料包數量。如果此計數器高速增加,可能表明主機的接收流量速率大於 PCIe 匯流排,從而發生擁塞。 |
資訊 |
outbound_pci_stalled_rd |
在過去一秒內,網絡卡有出站非釋出讀請求但由於釋出信用不足而無法執行操作的時間百分比(範圍 0...100)。 |
資訊 |
outbound_pci_stalled_wr |
在過去一秒內,網絡卡有出站釋出寫請求但由於釋出信用不足而無法執行操作的時間百分比(範圍 0...100)。 |
資訊 |
outbound_pci_stalled_rd_events |
outbound_pci_stalled_rd 高於 30% 的秒數。 |
資訊 |
outbound_pci_stalled_wr_events |
outbound_pci_stalled_wr 高於 30% 的秒數。 |
資訊 |
dev_out_of_buffer |
裝置擁有的佇列沒有分配足夠緩衝區的次數。 |
錯誤 |