问题现象

 
一台新安装的Integrity Superdome 2 服务器上有内存自检告警,在定位出的故障内存被更换后,出现了新的告警信息。

 

告警信息

 
初始告警信息:
 

3976    SFW   1,7,1,0,0   1        *3 6498202341e102d9 0100ff0701080a74 MEM_DDR_MBIST_ERR
3976                                                                    12/20/2017 08:25:22
3977    SFW   1,7,1,0,0   1        *3 6498202341e102db 0100ff0701080a74 MEM_DDR_MBIST_ERR
3977                                                                    12/20/2017 08:25:24
 
4585    SFW   1,7,1,0,0   1        *3 6498202341e1074a 0100ff0701080a74 MEM_DDR_MBIST_ERR
4585                                                                    12/26/2017 04:30:30
4586    SFW   1,7,1,0,0   1        *3 6498202341e1074c 0100ff0701080a74 MEM_DDR_MBIST_ERR
4586                                                                    12/26/2017 04:30:33
 
4621    SFW   1,7,0,0,0   1        *5 a49820be01e10792 0100ff07ff010017 MEM_PROC_TIMEOUT
4621                                                                    12/26/2017 04:32:14
4622    SFW   1,7,0,0,0   1        *3 64981f1101e10794 0100ff07ffffff94 BLADE_BOOT_ERROR
4622                                                                    12/26/2017 04:32:14

 

 
更换内存后的告警信息:
 
6178    SFW   1,7,1,0,0   1        *3 649824b941e11338 0100ff0701160a74 MEM_DIMM_PAIR_MISMATCHED
6178                                                                    01/19/2018 02:42:38
6179    SFW   1,7,1,0,0   1        *3 649824b941e1133a 0100ff0701090a74 MEM_DIMM_PAIR_MISMATCHED
6179                                                                    01/19/2018 02:42:38
6180    SFW   1,7,1,0,0   1        *3 6398259a41e1133c 0000000000000000 MEM_DDR_CHAN_LOCKSTEP_DISABLED
6180                                                                    01/19/2018 02:42:38

 

原因分析

 
无论SEL还是MCA,都显示Cabinet1 blade7 CPU1 DIMM8A多次发生multibit error,该内存确实需要更换。

 
IPMI Event Code: 6498202341e102d9 0100ff0701080a74
 
Record Type         = E1h
Reporting Entity ID = System Firmware -  Enclosure# 1, Blade # 7, CPU Socket # 1, Core 0, Thread 0
Event ID            = #8227
 
...........................................................
 
Keyword             = MEM_DDR_MBIST_ERR     
 
Description:
 
A Memory Built-In Self-Test (MBIST) detected a memory error.
 
Cause / Action:
 
Fault detected during memory selftest.
 
Recommendation:
 
Refer to related WS-Man alerts. If none, this event does not require action.
 
 
 

对比新旧日志可知:怀疑的内存条已经替换掉,但新旧内存的规格不一致。

解决办法

 
由于PC3L-12800 和 PC3L-10600 时钟频率不同,互不兼容,无法配合使用。要解决此问题,需要派出正确内存备件879283-001再次进行更换。
 
 
更换879283-001后,问题解决。

建议与总结

 
新出厂的HPE Superdome 2 服务器所使用的内存已经升级到1600MT/s,规格为DDR3L 12800。新备件号如下:
 

Part Number : 879283-001
Part Description:8GB PC3L 12800R DIMM - Registered synchronous dynamic random access memory (SDRAM), dual data rate (DDR3L) mode, organized as 1Gx72 - IPL –BCS
 
Part Number:     881118-001
Part Description: 16GB PC3L 12800R DIMM - Registered synchronous dynamic random access memory (SDRAM), dual data rate (DDR3L) mode, organized as 2Gx72 - nm -BCS

 
 
由于当前版本的idc工具存在问题,仍将新内存标识为旧款内存(DDR3L 10600)的备件号739927-001。
在HPE Partsurfer也存在问题:一个产品号居然对应两种不同的内存备件号。

 

 
在现有工具更新之前,给出的内存备件号并不完全准确。凡涉及到Superdome 2内存派单需求,特别是新安装服务器,派单工程师务必要检查IDC日志中的“DIMM label”条目。如果涉及内存为DDR3L 10600或更早产品,可参考原有资料或IDC给出的备件号。
如果涉及内存规格为DDR3L 12800,请参考本文选择正确的备件号。

 
Superdome 2 内存备件列表:

 
!!! for i2 Blades only !!!
AM327-69001,4 GB  DDR3 PC3-10600R memory module
AM328-69001,8 GB  DDR3 PC3-10600R memory module
 
!!! for i4 Blades only !!!
708394-001,8 GB PC3L-10600R DIMM memory module
739927-001,8 GB PC3L-10600R DIMM memory module
739928-001,16 GB PC3L-10600R DIMM memory module          
 
!!! for i4 and i6 Blades !!!
879283-001,8GB PC3L 12800R DIMM memory module
881118-001,16GB PC3L 12800R DIMM memory module

案例信息

案例类型:经验案例
案例号:201801250002
创建时间:2018年1月25日
更新时间:2018年1月30日
发布时间:2018/1/29 22:04:46
文章密级:游客可见
有效期:长期有效
发布者:徐佳 [x61473]
点击次数:266
评论平均得分:5.00
关键词:superdome
产品线:关键业务服务器
产品系列:SuperDome
产品版本:
故障类型:硬件问题

常用操作
收藏