问

交换机自己重启，IMC报单板故障。

20小时前提问

1关注
0收藏，75浏览

zhiliao_7UYUwb

zhiliao_7UYUwb 零段

粉丝：0人关注：0人

问题描述：

一台远行了6年的交换机自己重启，用标杆巡检说软件有个死循环。经过ai分析日志，在8866行发现了死循环记录：```==============display kernel deadloop20 verbose slot1 ===============--------------------- Deadloop record1 ---------------------Description : BUG: soft lockup - CPU#1 stuck for21s! [evHndl_5:78]Recorded at :2026-07-0220:23:52.834643Occurred at :2026-07-0220:23:52.834643Instruction address :0x00000000Thread : evHndl_5 (TID:78)Context : irq contextSlot :1Cpu :0VCPU ID :1```这是一个内核死循环记录，发生在2026-07-0220:23:52.834643，线程是evHndl_5 (TID:78)，上下文是irq context。想知道是软件问题还是硬件问题？

组网及组网描述：

二层部署，做了irf，是irf集群的从机。

3 个回答

按时间按赞数

12342234

12342234 知了小白

粉丝：0人关注：0人

display version看重启原因异常重启的话估计要问下华三工程师

是异常重启（DeadLoopReboot），设备过保了，华三工程师要求在论坛里问。

zhiliao_7UYUwb 发表时间：20小时前 更多>>

是异常重启（DeadLoopReboot），设备过保了，华三工程师要求在论坛里问。

zhiliao_7UYUwb 发表时间：20小时前

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：19人关注：2人

本次交换机内核软死锁 soft lockup 属于典型软件层面故障，IMC 上报单板故障、整机自动重启是死循环引发的连锁现象，硬件无直接证据，但 6 年老设备存在硬件老化诱发软件异常的次要可能性，分两层拆解。

1. 核心判定：BUG: soft lockup 100% 是操作系统 / 设备固件（VOS 内核）软件死循环

日志关键字段解读：

plaintext

BUG: soft lockup - CPU#1 stuck for21s! [evHndl_5:78]
Context : irq context
Thread : evHndl_5 事件处理线程，中断上下文卡死

soft lockup（软死锁）定义
设备内核调度器检测到单个 CPU 核心连续 21 秒无法释放、不执行调度，判定内核卡死，属于操作系统内核逻辑缺陷，不是 CPU、内存、交换芯片硬件损坏。
- 硬件故障表现：硬件报错（CRC、内存 ECC、芯片异常复位、电压 / 温度告警、总线报错）；
- 软死锁表现：纯内核调度卡死、线程死循环、中断抢占异常，完全是固件代码逻辑问题。
线程场景佐证：evHndl_5 通用事件处理线程 + irq 中断上下文卡死
IRQ 中断上下文存在严格执行限制：不能休眠、不能长时间阻塞。
固件代码存在逻辑缺陷：某个中断处理函数进入无限循环、锁抢占死锁，CPU 持续空转，内核看门狗超时后整机强制重启。
IMC 上报 “单板故障” 的原因（误报）
IRF 从机 Slot1 主控 CPU 卡死无响应，板卡心跳中断，IMC / 设备本地诊断模块识别为主控单板失联，上报单板故障告警，属于状态异常衍生告警，不是硬件物理损坏。

2. 区分：纯软件问题 / 硬件老化诱发软件崩溃

场景 A：纯软件问题（大概率）

诱因：

交换机固件版本老旧，存在官方已知内核死循环 BUG（evHndl 事件线程、IRQ 中断处理漏洞）；设备已运行 6 年，固件长期未升级，BUG 未修复；
IRF 集群同步压力、二层泛洪、大量终端 / 日志 / ACL / 镜像等业务持续冲击中断线程，触发代码死循环；
内存泄漏：长时间运行未重启，内核堆内存耗尽，中断处理逻辑异常卡死。
特征：

日志仅存在 soft lockup，无电压、温度、内存 ECC、芯片故障、总线报错；
重启后整机业务、单板识别、转发完全恢复，无持续硬件告警；
故障可复现：同版本同组网环境可能周期性卡死。

场景 B：硬件老化诱发软件异常（次要可能性，6 年长开机设备需排查）

硬件老化不会直接打出 soft lockup，但会破坏内核运行环境，间接触发软件卡死：

主控内存颗粒老化、内存不稳定：偶发内存读写错误，内核代码逻辑错乱进入死循环；
主控供电不稳、主板电容老化：瞬时电压波动导致 CPU 运算异常；
主控散热不良，CPU 高温降频 / 运算出错；
区分依据：
查看完整日志，若伴随以下任意一条，说明硬件存在隐患：

Memory ECC error、内存校验报错；
Power supply voltage abnormal、电源告警；
Temperature over threshold 高温告警；
PCIE / 总线 CRC 错误、交换芯片异常复位。

二、IRF 从机特殊影响点

你这台是 IRF 集群从机，会放大死循环概率：

IRF 主从之间大量报文同步、状态同步、拓扑同步占用 evHndl 事件线程；
从机中断上下文需要实时同步主设备状态，代码锁竞争概率更高；
从机主控长时间被动接收同步报文，老旧固件同步逻辑漏洞极易触发中断死循环。

三、分步排查 & 整改方案

第一步：确认是否纯软件故障（优先操作）

导出完整设备日志，全局检索关键字：ECC、voltage、temperature、chip error、reset reason
- 无任何硬件报错 → 确认纯固件软件 BUG；
- 存在内存 / 电源 / 温度报错 → 硬件老化叠加软件问题。
查看重启原因 display reboot-info
看门狗复位（Watchdog reset）= 内核死循环触发看门狗强制重启，典型软件卡死特征。

第二步：软件根治方案（必做）

升级交换机固件至官方稳定新版本
联系厂商 400 查询当前版本是否存在 evHndl 线程 soft lockup 已知 BUG，升级修复补丁版本；6 年老设备固件必然存在大量未修复内核漏洞。
临时规避（升级前应急）
- 设备定时重启：每周凌晨低业务时段重启，释放泄漏内存；
- 优化 IRF 同步：关闭无用拓扑日志、精简 ACL、减少镜像 / 流量统计等占用中断的业务；
- 关闭不必要的全局调试、报文统计功能，降低 evHndl 线程负载。
IRF 优化：主从设备固件版本严格一致，禁止高低版本 IRF 堆叠。

第三步：硬件隐患排查（6 年设备建议执行）

现场查看设备温度、风扇运行状态，清理灰尘；
更换主控备用件交叉测试：将故障 Slot1 主控插到 IRF 主机，长时间观察是否再次死循环；
- 换槽位不再卡死：原机箱供电 / 散热硬件问题；
- 换槽位依旧死循环：主控本身内存老化或固件问题；
查看电源输出电压，确认供电稳定。

四、总结

本次故障直接根因为固件软件内核死循环（软件 BUG），soft lockup 日志是铁证；
IMC 单板故障告警为 CPU 卡死失联后的衍生误告警，不等于单板硬件损坏；
设备运行 6 年，存在内存、供电老化间接诱发卡死的潜在硬件风险，需配套硬件巡检；
IRF 从机同步业务加重中断线程负载，放大了老旧固件 BUG 触发概率；
根本解决手段：升级设备固件修复内核死循环漏洞，同步巡检硬件老化情况。

刘浩存

刘浩存九段

粉丝：23人关注：1人

根据你提供的内核日志，这台运行了6年的交换机重启，根本原因可以确定为软件层面的内核死循环（Kernel Deadloop）。

🔍 日志分析：问题出在哪里？

你的日志 BUG: soft lockup - CPU#1 stuck for 21s! [evHndl_5:78] 明确指向了软件问题。

BUG: soft lockup：这是Linux内核检测到的一个严重软件错误。它表示一个CPU核心被某个进程（这里是evHndl_5）占用了超过21秒，导致其他任务无法得到调度。H3C交换机也是基于Linux内核的，因此会出现相同的错误。
evHndl_5 线程：这个线程负责处理事件任务。搜索结果显示，evHndl 相关进程（如 evHndl_2）在CPU占用过高时，会导致设备丢包、延迟高等问题。这说明 evHndl 线程的异常是已知的软件问题。
DeadLoop reboot：H3C官方将此类重启原因明确归类为 DeadLoop reboot，即“内核死循环导致的重启”。

⚙️ 为何硬件因素也不能100%排除？

虽然日志指向了软件，但有两点需要考虑，因此不能完全排除硬件诱因：

设备老化：运行了6年的设备，其硬件（如内存、电容）可能存在老化或不稳定因素，可能诱发了软件层面的崩溃。
环境因素：供电不稳定、温度过高等环境问题也可能导致系统运行异常。

🛠️ 排查与解决步骤

建议按以下顺序操作：

优先尝试软件升级（最可能有效）
死循环通常是软件Bug，H3C的后续版本很可能已修复。请访问H3C官网，根据设备型号下载最新版本的软件进行升级。这是最核心的步骤。
排查外部环境与硬件
- 检查供电：确保交换机电源稳定，没有电压波动。
- 检查物理环境：确认设备散热良好，运行温度在正常范围内。
- 检查堆叠：作为IRF从机，检查堆叠线缆是否松动或损坏。
收集完整诊断信息
如果升级后问题依旧，请收集更全面的信息以便求助：
- 执行 display version 查看详细的重启原因。
- 执行 display logbuffer 导出系统日志。
- 执行 display diagnostic-information 导出全面的诊断信息。
寻求官方技术支持
将收集到的诊断信息提交给H3C技术支持（400-810-0504）或通过代理商处理。他们能分析出具体的软件Bug编号或确认是否存在硬件故障。

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

交换机自己重启，IMC报单板故障。

问题描述：

组网及组网描述：

1. 核心判定：BUG: soft lockup 100% 是操作系统 / 设备固件（VOS 内核）软件死循环

2. 区分：纯软件问题 / 硬件老化诱发软件崩溃

场景 A：纯软件问题（大概率）

场景 B：硬件老化诱发软件异常（次要可能性，6 年长开机设备需排查）

二、IRF 从机特殊影响点

三、分步排查 & 整改方案

第一步：确认是否纯软件故障（优先操作）

第二步：软件根治方案（必做）

第三步：硬件隐患排查（6 年设备建议执行）

四、总结

🔍 日志分析：问题出在哪里？

⚙️ 为何硬件因素也不能100%排除？

🛠️ 排查与解决步骤

编辑答案

提出建议