一、日志核心故障点提取(根因直接可见)
1. 主控板卡物理移除(最直接诱因)
plaintext
HA/5_HA_SLAVE_REMOVED: slave board in slot 2 is removed.
DEVM/3/BOARD_REMOVED: Board is removed from Chassis 0 slot 2, type is MAIN_BOARD_TYPE_58
slot2 备主控板被检测到物理拔出 / 掉电,设备直接判定从机离线。
2. IRF 互联链路心跳超时、链路 Down,IRF 分裂
plaintext
STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.
STM/3/STM_LINK_STATUS_DOWN
Ten-GigabitEthernet1/0/53、1/0/54 两条IRF物理口反复UP/DOWN最终DOWN
IRF 堆叠链路心跳中断,IRF 组直接分裂为两台独立设备:
Chassis0 slot1:原主设备
Chassis0 slot2:原从主控板离线,堆叠通道失效
3. 衍生报错:can't receive irf pkt
所有DRVDBG/2 LOG Info: The port Ten1/0/xx can't receive irf pkt是IRF 链路断开后的次生日志,不是根因 —— 收不到 IRF 报文是链路 Down 导致的结果,而非故障原因。
4. 三层业务连带故障
Vlan-interface3999 Line protocol DOWN:IRF 分裂后,跨堆叠三层接口协议断开,业务中断。
二、故障发生逻辑时序
slot2 备主控出现硬件掉电 / 松脱 / 故障,系统上报板卡移除;
IRF 堆叠使用的 1/0/53、1/0/54 互联链路心跳无响应,触发heartbeat timed out;
IRF 堆叠通道状态 DOWN,IRF 系统分裂成两台独立交换机;
所有 IRF 物理口无法收发堆叠报文,持续打印can't receive irf pkt;
跨堆叠三层 VLANIF 协议 Down,上层业务断流。
三、分步排查修复(H3C S5500 IRF)
步骤 1:检查 slot2 备主控硬件状态(根因排查)
现场查看 slot2 主控板:
是否人为拔板、机箱断电、电源线松动;
板卡指示灯:RUN/ALARM 灯是否告警、是否完全插紧卡槽;
远程登录现有主设备,查看板卡信息:
bash
运行
display device
display device manuinfo slot 2
若 slot2 显示Absent:板卡未在位,重新插拔 / 更换主控;
若显示Fault:主控硬件损坏,需更换同型号主控(MAIN_BOARD_TYPE_58)。
步骤 2:检查 IRF 堆叠互联链路(1/0/53、1/0/54 万兆口)
确认两条 IRF 堆叠光纤 / 光模块完好:
bash
运行
display interface Ten-GigabitEthernet 1/0/53
display interface Ten-GigabitEthernet 1/0/54
display transceiver diagnosis Ten1/0/53
display transceiver diagnosis Ten1/0/54
检查 IRF 端口配置完整性:
bash
运行
display irf configuration
确认两个万兆口都已绑定 IRF-Port,未被 shutdown、无错配。
链路修复操作:更换光模块、光纤,重新插紧光口,确保两条 IRF 链路同时 UP(IRF 冗余链路避免单链路故障分裂)。
步骤 3:IRF 堆叠重建操作
恢复 slot2 主控板在位、上电正常;
两条 IRF 互联链路全部 UP;
等待设备自动合并 IRF,查看堆叠状态:
bash
运行
display irf
display irf topology
正常输出应看到两台设备、两条堆叠链路、Master/Slave 角色正常。
步骤 4:业务恢复校验
检查三层接口协议状态:
bash
运行
display ip interface brief
display vlan-interface 3999
测试跨设备业务连通性,确认 VLANIF 协议 UP、流量转发正常。
四、预防优化建议(避免再次 IRF 分裂)
IRF 必须配置至少两条堆叠链路(当前 53、54 双链路符合规范,避免单链路单点故障);
主控板固定牢固,机房做好供电冗余(双电源输入),避免瞬时掉电导致备主控离线;
配置 IRF 分裂检测(MAD),防止分裂后双主设备 IP 冲突、二层环路:
MAD 检测分 LACP MAD/BFD MAD,S5500 推荐部署 BFD MAD;
机房运维规范:插拔主控前先 shutdown IRF 端口、关闭备机电源,禁止热插拔堆叠主控;
定期巡检:display irf、display device监控板卡在位与堆叠链路状态。
补充区分关键误区
日志里can't receive irf pkt是结果,不是故障源头;
真正触发 IRF 分裂的前置日志是:BOARD_REMOVED备主控离线 + STM_LINK_STATUS_TIMEOUT堆叠心跳超时。
先处理 slot2 主控硬件问题,再修复堆叠链路,IRF 即可恢复合并。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论