• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

某局点S12508 异常重启问题

  • 0关注
  • 0收藏 570浏览
粉丝:29人 关注:3人

组网及说明

/

告警信息

/

问题描述

73010:00分左右现场有一组S12508设备在凌晨5点左右发生异常重启,监控设备上看到有2次流量大幅度下降,板卡自动重启恢复后,业务已恢复正常。


过程分析

针对故障恢复后收集的诊断信息和logfile,可以明确是1slot0主控故障导致,具体故障过程如下:

诊断信息记录中,1slot0主控在Jul 30 05:47左右开始没有任何记录产生了,说明当时主控cpu发生了异常,同时1slot1主控记录到与1slot 0的板间通信业异常的日志记录,佐证了这点:

%@3600^Jul 30 05:47:51:855 2023 DC1-SRV-3D03-S12508-D-01 DIAG/3/ERR: -Chassis=1-Slot=1.1; f18830f [316]: Cioctl failed!, p1=2, p2=0, p3=648, p4=0x10027bc4, p5=1073807361

%@3601^Jul 30 05:47:54:914 2023 DC1-SRV-3D03-S12508-D-01 DEVD/3/DRV_DEV_DIAG_ERR_INFO: 0xf110101 [650]: DEVD: connect socket failed! maybe server not ready. code=-112, port=17017, lip=2048

%@3602^Jul 30 05:47:54:914 2023 DC1-SRV-3D03-S12508-D-01 DEVD/3/DRV_DEV_DIAG_ERR_INFO: 0xf110101 [933]: DEVD: LIPC connection invalid, chassis=1, slot=0, cpu=0, dstslot=0.

%@3603^Jul 30 05:47:54:914 2023 DC1-SRV-3D03-S12508-D-01 DEVD/3/DRV_DEV_DIAG_ERR_INFO: 0xf110602 [544]: IPC send fail. p1=0, p2=428, p4=1073807361

%@3604^Jul 30 05:47:54:914 2023 DC1-SRV-3D03-S12508-D-01 DEVD/3/DRV_DEV_DIAG_ERR_INFO: 0xf110601 [1431]: Failed to backup information.

%@3605^Jul 30 05:47:54:914 2023 DC1-SRV-3D03-S12508-D-01 DEVD/3/DRV_DEV_DIAG_ERR_INFO: f118505 [1316]: Failed to backup power info! p1=1073807361

因为1slot0 cpu故障,无法收发堆叠hello报文及其它任何控制报文,20s2框无法收到1框主发送的堆叠握手报文超时触发分裂:

%@1965%Jul 30 05:47:51:777 2023 DC1-SRV-3D03-S12508-D-01 STM/2/STM_LINK_STATUS_TIMEOUT: IRF port 1 is down because heartbeat timed out.

%@1966%Jul 30 05:47:51:777 2023 DC1-SRV-3D03-S12508-D-01 STM/3/STM_LINK_STATUS_DOWN: IRF port 1 is down.

  ===============display kernel reboot 20 verbose chassis 1 slot 1=============== 

--------------------- Reboot record 1 ---------------------

Recorded at           : 2023-07-30  05:52:27.123444

Occurred at           : 2023-07-30  05:47:31.261599

Reason                : 0x10a26

Thread                : swapper (TID: 0)

Context               : irq context

Chassis               : 1

Target Chassis        : 1

Slot                  : 0                                               

Target Slot           : 0

Cpu                   : 1

VCPU ID               : 0

同时因为1框其它单板也无法收到slot0的握手报文,导致所有1框的单板握手重启,1分钟左右发送主备倒换1-1切换为全局主:

%@1969%Jul 30 05:48:14:153 2023 DC1-SRV-3D03-S12508-D-01 DEV/5/BOARD_REBOOT: -Chassis=1-Slot=9; Board is rebooting on chassis 1 slot 9.

%@1970%Jul 30 05:48:13:678 2023 DC1-SRV-3D03-S12508-D-01 DEV/5/BOARD_REBOOT: -Chassis=1-Slot=2; Board is rebooting on chassis 1 slot 2.

%@1971%Jul 30 05:48:39:861 2023 DC1-SRV-3D03-S12508-D-01 HA/5/HA_STANDBY_TO_MASTER: Standby board in chassis 1 slot 1 changed to master.

%@1972%Jul 30 05:48:39:869 2023 DC1-SRV-3D03-S12508-D-01 STM/3/STM_LINK_STATUS_DOWN: IRF port 1 is down.

--------------------- Reboot record 2 ---------------------

Recorded at           : 2023-07-30  05:52:17.348169

Occurred at           : 2023-07-30  05:48:15.729168

Reason                : 0x5000311

Thread                : devd (TID: 142)

Context               : thread context

Chassis               : 1

Target Chassis        : 1

Slot                  : 5

05:51:28左右堆叠板启动并且堆叠口up,此时与2框的通信正常,2框作为备重启加入1框,然后全部恢复正常。

%@2478%Jul 30 05:51:28:238 2023 DC1-SRV-3D03-S12508-D-01 STM/6/STM_LINK_STATUS_UP: IRF port 1 is up.

%@2479%Jul 30 05:51:28:847 2023 DC1-SRV-3D03-S12508-D-01 STM/4/STM_LINK_RECOVERY: Merge occurs.

--------------------- Reboot record 3 ---------------------

Recorded at           : 2023-07-30  05:58:52.693057

Occurred at           : 2023-07-30  05:51:32.794750

Reason                : 0x22000a11

Thread                : PTMR (TID: 58)

Context               : thread context

Chassis               : 2

Target Chassis        : 2

Slot                  : 5

Target Slot           : 5

Cpu                   : 0

VCPU ID               : 0   

 

综上,由于1slot0 cpu硬件故障,导致堆叠异常分裂合并动作,业务受损。建议更换1slot0单板解决。   

解决方法

返修1slot 0单板

该案例对您是否有帮助:

您的评价:1

若您有关于案例的建议,请反馈:

0 个评论

该案例暂时没有网友评论

编辑评论

举报

×

侵犯我的权益 >
对根叔知了社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔知了社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作