暂无评论
你现场调度主站业务不受影响,说明承载调度业务的以太接口 / 主控正常,告警仅来自 ATM 业务子卡,属于非核心业务硬件告警,可按「先软后硬、不中断调度业务」顺序排查,全程避开主链路割接。
一、第一步:收集告警与硬件诊断信息(定位告警根源,先不改动硬件)
登录路由器执行全套诊断命令,留存日志用于判断是软件识别异常还是硬件物理损坏:
bash
运行
# 1. 查看当前活跃硬件告警,确认告警槽位、告警类型
display alarm active
display alarm history
# 2. 查看整机板卡在位、状态(重点看ATM槽位状态:Normal/Fault/Absent)
display device
display device manuinfo slot X # X为ATM卡所在槽位,读取板卡序列号、型号
# 3. 查看ATM接口链路、光层告警(SF/SD/RDI光信号失效告警)
display interface ATM X/0
display counters interface ATM X/0
display transceiver diagnosis ATM X/0
# 4. 一键收集整机诊断日志(发给H3C售后定位硬件故障)
display diagnostic-information flash:/atm_fault.tar.gz
# 5. 查看设备温度、电压,排除整机供电过热导致板卡识别异常
display health
告警两种区分:
Fault 状态(硬件故障):display device显示 ATM 槽位 Fault、RUN 灯红闪,光模块报 SF 信号失效;
临时识别异常:仅日志报板卡故障,但display device显示 Normal,多为初始化、版本兼容问题。
二、第二步:无风险软件修复(优先操作,完全不影响调度业务)
1. 板卡软复位(在线操作,无需断电)
进入 probe 模式单独给 ATM 板卡下电再上电,修复临时固件卡死:
bash
运行
system-view
probe
# X替换为ATM卡槽位号
debug sysm power-down chassis 0 slot X
# 等待30秒后重新上电
debug sysm power-up chassis 0 slot X
复位完成后查看告警是否清除:display alarm active
2. 版本兼容性修复(常见根因)
MSR36-40 主控系统版本过低,会出现 ATM 子卡识别异常、误报硬件故障:
查看当前版本:display version
核对官网适配清单:ATM OC3/STM1 光卡需要匹配 V7R06 及以上稳定版本;
升级前校验:升级仅影响 ATM 业务,调度以太主链路无感知;升级后重新软复位板卡。
3. ATM 接口光层配置修复(光链路误报板卡故障)
若 ATM 是光口模块,光信号劣化(SD/SF 告警)会联动上报板卡故障:
bash
运行
interface ATM X/0
# 检查两端光纤收发是否接反、单多模是否匹配
# 两端ATM时钟必须一主一从
clock master
# 关闭光告警联动接口down(临时屏蔽业务中断,仅用于排查)
undo alarm-detect sf action link-down
undo alarm-detect sd action link-down
undo alarm-detect rdi action link-down
三、第三步:物理硬件排查(需短时中断 ATM 业务,调度主站不受影响)
前提:软复位、版本升级后告警仍存在,再做物理操作
断电重插 ATM 子卡
机房业务窗口操作:先执行 probe 下电板卡 → 关机柜槽位拨杆拔出 ATM 卡 → 清洁金手指(无水酒精擦拭) → 完全插紧、锁死拨杆 → probe 上电,观察 RUN 灯是否常绿。
槽位互换交叉测试(判定板卡 / 机箱槽位谁损坏)
如有空余业务槽位:
把 ATM 卡换到空闲槽位,上电查看display device状态;
若换到新槽位告警消失 = 原机箱槽位背板故障;
换到任意槽位都报 Fault = ATM 子卡硬件损坏,需更换备件。
配套附属检查
光纤、光模块:更换同型号单 / 多模光模块、成对光纤测试;
机房环境:清理设备进风口灰尘,确认设备温度不超 45℃,过热会触发板卡硬件保护告警。
四、分场景处置方案(结合调度业务特点)
场景 1:仅 ATM 卡软件误报,硬件状态 Normal,业务正常
处置:软复位板卡,核对版本,临时屏蔽光告警;持续观察 24 小时无复现则闭环,无需更换硬件。
场景 2:ATM 卡显示 Fault,ATM 业务中断,但调度以太链路正常
短期方案:ATM 业务做临时切改,隔离故障槽位;
长期方案:申请同型号 ATM 备件,业务窗口更换子卡;
风险提示:严禁整机断电重启,会中断调度主站业务。
场景 3:机箱槽位背板损坏(ATM 卡换槽位恢复正常)
临时:长期使用空闲槽位承载 ATM 业务;
长期:整机返厂维修机箱背板,或备机替换。
五、电力调度专属风险管控要点
所有硬件插拔、整机重启操作,必须安排业务检修窗口,避开电网调度高峰;
全程优先保障以太调度主链路,ATM 仅作为备用通道,故障不影响主站可延后更换备件;
告警持续期间,每日查看display alarm active,防止故障扩散影响整机供电 / 主控;
备件更换前导出完整配置,ATM 接口配置提前备份,更换后一键恢复。
六、快速极简操作顺序(现场直接执行)
执行display alarm active + display device确认故障槽位;
probe 模式软复位 ATM 板卡,观察告警是否消除;
查看光模块诊断信息,排查光纤 / 光模块劣化;
版本过低则升级整机系统版本;
业务窗口断电重插板卡、交叉槽位测试;
硬件确认损坏后申请备件更换。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论