小概率 大事件

关键词:
首次发现问题的版本

                          小概率   大事件

【问题描述】

某金融价值客户存储发生故障,业务读写缓慢,办事处小A接到客户电话后,立即赶往客户现场。进入客户机房,立即收集信息,联系二线协同处理。定为发现存储上控制器SC0阵列raid10-SAS中的硬盘disk[1,0,14]发生故障,被踢出阵列。虽然有热备盘完成了阵列的重建,但下控制器SC1在后续扫描槽位状态时收到大量该槽位反馈的相关phy warning信息,造成PHY通道繁忙最终导致下控制器SC1 IOP状态异常,同时下控制器SC1 IOP异常时将本控制器写缓存禁用,在两者的共同作用下从而产生下控制器业务应用缓慢问题。

由于问题发生时间是在某周四的上午,正是客户业务应用高峰期,本着以恢复客户业务为第一要务,立刻与二线沟通解决方案。因IOP异常问题只能通过重启相关控制器恢复,沟通后有两种方案:1)下控制器停SC1止业务应用,暂停上下控制器的故障保护功能,手工重启下控制器SC12)保持现有业务不动,在上控制器SC0上手工进行故障保护切换,由上控制器SC0临时接管下控制器SC1相关业务后,完成下控制器SC1的重启操作。

方案确定后与客户沟通,并说明每种方案潜在的风险,最终客户选择了第一种方案,且重启设备的时间也选择了中午下班期间,之后将问题解决。

【案例分析】

   此次问题主要是由于磁盘故障后,没有及时发现拔出,导致下控制器IOP进程异常,从而影响到了业务。  

1) 磁盘故障没有及时发现,有客户的原因,也有我们的原因,设备上没有部署实时监控平台、巡检的力度不够,十八大刚结束后思想松懈没有再做现场巡检等。

2)老版本存在致命缺陷,没有推动客户升级,有客户的原因,也有我们的原因,推动客户升级的力度不够,没有传递到客户高层,存有侥幸心理等。

 

【经验总结】

     1、任何时刻,都不能松懈,都不能抱有侥幸心理。版本缺陷,有隐患,要积极主动与客户领导高层沟通,及时传达信息。

     2、设备发生IOP进程异常是极小极小概率的事件,但我们还是“中奖了”。事故发生后,紧急申请备件保障,总部二线专家现场支持,当面向客户提交故障处理报告,积极与客户沟通后期保障方案。事后一周24小时现场值守,保障设备稳定运行,虽然至今设备未在出现故障,但我们还是一周至少2次到客户现场查看设备,及时排除安全隐患。每时每刻,向客户传递我们的“服务”、我们的“温暖”、我们的“专业”。

案例信息

案例类型:BugList
案例号:KMS - 22789
创建时间:2013年2月17日
更新时间:2013年3月21日
发布时间:2013/3/21 10:33:44
文章密级:游客可见
有效期:长期有效
发布者:方刚
点击次数:4345
评论平均得分:0
关键词:
目前状态:
产品线:
产品系列:
产品版本:

常用操作
收藏