S7306X-G 设备开机后报如下信息。
H3C S7306X-G %Jun 26 20:00:44:370 2026 S7306X-G DRVPLAT/4/SOFTCAR DROP: -Slot=0; Chip=0, Cos=123, Drop at Stage=0, StageCnt=215918, TotalCnt=259405, possible protocol IP_ROUTE/GRPC_ACK_TO_SLOT0/GRPC_ACK_TO_SLOT1/GRPC_ACK_TO_SLOT2/GRPC_ACK_TO_SLOT3/GRPC_ACK_TO_SLOT4/GRPC_ACK_TO_SLOT5/GRPC_ACK_TO_SLOT6/GRPC_ACK_TO_SLOT7/GRPC_ACK_TO_SLOT8/GRPC_ACK_TO_SLOT9/GRPC_ACK_TO_SLOT10/GRPC_ACK_TO_SLOT11/GRPC_ACK_TO_SLOT12/GRPC_ACK_TO_SLOT13/GRPC_ACK_TO_SLOT14/GRPC_ACK_TO_SLOT15/GRPC_ACK_TO_SLOT16/GRPC_ACK_TO_SLOT17/GRPC_ACK_TO_SLOT18/GRPC_ACK_TO_SLOT19
该交换机是所有VLAN 的网关,G0/0/16接口连接后交换机的Slot0 CPU 到40-50%。SSH登录交换机变的异常卡顿。从该交换机的任何地址PING出去的包,或者ping到该交换机的包延迟都到400毫秒左右。但是从终端地址ping该交换机上联设备的地址正常10毫秒左右。或者从上联设备ping内部地址也正常10毫秒左右。
业务网络正常,无法SSH管理该交换机。
最佳答案
一、日志与现象解读
1. 报错日志含义
plaintext
DRVPLAT/4/SOFTCAR DROP: Slot=0; Chip=0, Cos=123, Drop at Stage=0
possible protocol IP_ROUTE/GRPC_ACK_TO_SLOT0~SLOT19
SOFTCAR DROP:上送主控 CPU 的软件协议报文超限速,芯片主动丢弃,属于 CPU 过载后的保护机制;
丢包源:大量跨板卡 gRPC 应答报文 GRPC_ACK_TO_SLOTx;
Cos=123:设备内部 gRPC/telemetry 报文使用最高优先级队列,持续疯狂上送主控 Slot0。
2. 业务现象对应原理
Slot0 主控 CPU 长期 40%~50%:全部消耗在处理海量跨板 gRPC 应答报文;
SSH 登录极卡顿、ping 交换机本机延迟 400ms:管理报文(SSH/ICMP 本机)和 gRPC 报文抢占同一主控 CPU,调度排队严重;
终端跨业务转发正常(直通转发):数据平面流量由线卡芯片硬件转发,不走主控 CPU,所以业务无感知;
上联 ping 内部网段延迟正常:三层转发硬件直通,仅目的为本交换机 IP的报文才上送 CPU 排队延迟。
二、故障根因
交换机开启了 Telemetry+GRPC 全量采样(MOD/TCB/ 设备状态全采集):
所有业务板卡定时向主控 Slot0 推送海量 gRPC 状态应答报文;
未配置 gRPC CPU 占用上限、未做报文限速,大量 GRPC_ACK 持续上送主控;
主控 CPU 被协议报文占满,管理会话、本机 ICMP 报文排队拥塞。
三、分步修复(先快速降 CPU,再根治)
步骤 1:紧急限制 gRPC 最大 CPU 占用(立刻降低负载)
plaintext
system-view
# 限制gRPC最多占用30%CPU,超限自动暂停采样
grpc cpu-usage max-percent 30
# 查看生效
display grpc verbose
执行后 1~3 分钟内主控 CPU 会明显下降,SSH、本机 ping 延迟恢复正常。
步骤 2:无用则直接关闭 gRPC/telemetry(最彻底,无采集平台必做)
方案 A:完全关闭 Telemetry 与 gRPC(现场无网管采集器推荐)
plaintext
system-view
# 关闭遥测总开关
undo telemetry enable
# 关闭gRPC服务
undo grpc enable
# 删除所有遥测传感器、目标组配置
undo telemetry sensor-group all
undo telemetry destination-group all
# 关闭MOD丢包采集(TCB采样)
undo telemetry mod
执行后 display grpc 无输出,跨板 GRPC_ACK 报文彻底消失,SOFTCAR DROP 日志不再打印。
方案 B:保留采集,但精简采样(有网管采集平台使用)
删除高频、无用的全量硬件状态采样,仅保留业务关键指标:
plaintext
system-view
telemetry
# 清空原有高频传感器
undo sensor-group all
# 新建轻量采集组,只保留必要路径
sensor-group lite-collect
sensor path device/cpu
sensor path device/memory
sensor path interface/statistic
# 删除TCB全量报文采样(产生海量GRPC应答)
undo sensor path tcb/tcbpacketinfoevent
undo sensor path tcb/tcbrawpacketinfoevent
quit
# 缩短采样周期,降低报文发送频率
telemetry interval 60000
步骤 3:软件报文全局限速,兜底保护主控 CPU
限制所有上送 CPU 的协议报文速率,防止突发冲击:
plaintext
system-view
# 全局控制上送CPU报文带宽
car protocol cpu all cir 10000 cbs 100000
# 单独对gRPC协议限速
car protocol cpu grpc cir 2000 cbs 20000
步骤 4:验证故障恢复命令
plaintext
# 1. 查看主控CPU使用率,正常应稳定<20%
display cpu-usage slot 0
# 2. 确认gRPC报文不再持续产生
display platform softcar statistics slot 0
# 查看SOFTCAR丢包计数是否停止增长
# 3. 查看gRPC运行状态
display grpc
# 4. 测试本机连通性
ping -c 20 交换机三层VLAN网关IP
四、补充排查与拓展优化
确认 G0/0/16 接口是否接入采集器
若该口对接 Telemetry 采集服务器,大量下行采集请求会触发每块线卡回传 GRPC_ACK;无采集器时直接关闭接口下 telemetry 相关配置。
plaintext
interface GigabitEthernet 0/0/16
undo telemetry enable
区分直通转发与 CPU 处理边界(解释你业务正常但本机卡)
终端 A → 交换机 → 终端 B:硬件三层直通,不占用主控 CPU;
终端 → ping 交换机 VLAN 网关 / SSH 交换机:报文上送 Slot0 主控 CPU,受 gRPC 流量挤压排队延迟。
版本优化建议
老旧 Comware V7 版本存在 gRPC 报文处理 CPU 泄漏 bug,长期开机报文堆积;稳定后升级设备官网推荐稳定版本,减少同类问题复发。
五、最简一键根治配置(无采集平台直接复制)
plaintext
system-view
# 限制gRPC CPU上限
grpc cpu-usage max-percent 30
# 关闭遥测与gRPC
undo telemetry enable
undo grpc enable
undo telemetry sensor-group all
undo telemetry destination-group all
undo telemetry mod
# 全局协议报文限速
car protocol cpu all cir 10000 cbs 100000
car protocol cpu grpc cir 2000 cbs 20000
save force
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论