某局点S5800 与S9800互联端口down 问题案例分析

关键词:
问题现象

某局点S5800 S9800互联端口down 问题案例分析

一、       组网:

    无。

二、       问题描述:

        S5800S9800之间通过4x10G端口聚合互联,某一天突然发现S5800410G上行口几乎同一时间down掉,后又自动恢复。

S5800采用版本R7006P02

S9800采用版本R2117P01

三、       过程分析:

    为了定位问题原因,通过现场收集了S5800的诊断信息和logfile信息。

logfile的记录中可以看到端口down的记录信息:

%Sep   2 07:19:34:630 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/49 link status is down.

%Sep   2 07:20:04:543 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/49 link status is up

%Sep   2 07:19:34:260 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/50 link status is down.

%Sep   2 07:20:03:473 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/50 link status is up.

%Sep   2 07:19:34:071 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/51 link status is down.

%Sep   2 07:20:04:564 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/51 link status is up.

%Sep   2 07:19:33:674 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/52 link status is down.

%Sep   2 07:20:04:672 2014 S5800 IFNET/3/PHY_UPDOWN: Ten-GigabitEthernet1/0/52 link status is up.

    因为都是10G光口,第一个想到的问题原因是光路不稳定导致,但从信息来看,4条链路在同一时刻出现光路故障的可能性比较小,从日志信息来看,端口up/down的比较有规律,从downup的时间段都在30s左右。从这个规律来判断,很有可能是某个功能模块触发了端口down。进一步查看配置发现客户在S5800上配置了MAC地址迁移上报功能:

mac-address notification mac-move suppression

    当监测到某端口下的MAC地址频繁迁移时,配置MAC地址迁移抑制功能之后会使频繁迁移的源端口down,一定时间后该端口将自行恢复up,而缺省情况下,MAC地址迁移抑制的持续时间刚好为30秒,即端口被设置为down状态后的持续时间是30秒,这个时间和我们的日志记录现象吻合,在设备上通过下面命令查看对应时间点的MAC地址漂移记录,可以发现设备的确存在MAC地址漂移

display mac-address mac-move 

-------------------slot 1 MAC address moving information----------------
MAC
 address  VLAN Current port  Source port   Last time Times

70:f9:6d:48:4c:d1   10     1   0   48   ->1   0   37   1   2014/09/01 23:19:43 1  

    通过命令debug port mapping 1可以查看到上面记录的内部端口号与外部端口号的对应关系刚好对应我们产生链路down的聚合组。聚合组中有端口出现mac地址迁移,当前的版本在开启mac-address notification mac-move suppression

    功能的情况下会将MAC地址漂移的源和目的物理端口都shutdown

    这里要注意一点,因为客户配置里添加了timezone+8小时时差的配置,在时间计算时,需要算上8小时时差,系统记录的MAC地址漂移的时间点2014/09/01 23:19:43 + 8刚好与日志里记录端口down的时间点吻合。至此,依据我们的分析可以判断是mac-address notification mac-move suppression功能导致了我们的端口down问题。

四、       解决方法:

    目前这个功能mac-address notification mac-move suppression只能是基于全局配置,为了避免此问题对业务的影响,可以把这个功能从配置中去掉。后续版本会对此处理进行进一步优化:

    1、优化后,系统只将迁移的源端口设置为down状态;

    2、开启MAC地址迁移抑制功能由在系统全局视图下配置优化为在接口视图下配置,只有当接口开启该功能且在一个检测周期内MAC地址迁移出端口的次数超过一定阈值时,系统才会将接口设置为down状态。

    这个问题还是比较典型,需要对一些功能细节比较了解,这里作为案例提供给大家,供大家参考,在平常问题处理中多了解一个案例可以多一个角度来考虑问题。

案例信息

案例类型:经验案例
案例号:KMS - 25258
创建时间:2014年10月27日
更新时间:2015年11月3日
发布时间:2015/11/3 11:12:01
文章密级:游客可见
有效期:长期有效
发布者:赵国卫 [z05590]
点击次数:9111
评论平均得分:0
关键词:
产品线:低端交换机
产品系列:
产品版本:
故障类型:

常用操作
收藏