问题现象

HPE ProLiant 系列服务器上,IML(Integrated Management Log)日志中显示Uncorrectable PCI Express Error",其后有 Slot Bus Device  Function 信息,此报错如何处理?

告警信息

下面举两台不同服务器真实的报错信息

1:Uncorrectable PCI Express Error (Slot 5  Bus 128  Device 2  Function 2  Error status 0x00000020)
       2:Uncorrectable PCI Express Error (Embedded device, Bus 0, Device 5, Function 0, Error status 0x00014000)

原因分析

首先需要定位产生此问题的部件, 一般来说, 需要先明确的Slot信息, 如果是Embedded设备, 一般为主板集成设备,Slot x 则是指独立的PCI设备。然后开始定位具体故障备件。 在G7之前的机型, 可以通过查看

Advanced Survey Report 中的 对应Bus Device Function 来确认故障备件

在G8之后的服务器报独立的PCI设备可以简单的通过AHS日志来查看Slot信息(如下图),如果为集成设备,则需要根据PCI Configuration Tree,然后通过Bus Device Function 来确认故障备件
 
 
Slots (from SMBIOS)       Negotiated   Negotiated       
  Slot  Type                  Width         Speed      Component
------------------------------------------------------------------------------------------------------------------------------
    1   PCI-Express Gen3      N/A          N/A         Empty Slot                                                         
    2   PCI-Express Gen3      N/A          N/A         Smart Array P431 Controller                                       
    3   PCI-Express Gen3      N/A          N/A         Empty Slot                                                         
    4   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    5   PCI-Express Gen3      N/A          N/A         HP InfiniBand FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter       
    6   PCI-Express Gen3      x4           2.5 GB/sec  HP Ethernet 1Gb 4-port 331T Adapter - NIC                          
    7   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    8   PCI-Express Gen3      x8           8 GB/sec    HP Infiniband FDR/Ethernet 10Gb/40Gb 2-port 544+QSFP Adapter - NIC 
    9   PCI-Express Gen3      x8           8 GB/sec    Smart Array P431 Controller 


 
解决办法

在初步确认引起报错的部件后,一般按照以下步骤处理:

1:确认故障的PCI设备驱动和固件是否是最新,如果不是请升级到最新

2:如果升级固件驱动后,故障依旧,则更换相关报错部件。

建议与总结

Uncorrectable PCI Express Error"报错在许多情况都可以通过升级驱动固件解决,如果升级后问题依旧或者已经是最新的固件驱动, 此时则需要更换相关备件。

集成PCI设备一般需要更换主板, HPE ProLiant DL5XX系列服务器可能需要更换SPI板。

独立PCI设备,一般先更换PCI卡,问题无法修复在更换PCI扩展板或者主板。

在某些极个别的案例中,是通过更换CPU解决的, 在更换上述备件问题依旧,可以考虑更换CPU测试。

案例信息

案例类型:经验案例
案例号:201712270019
创建时间:2017年12月27日
更新时间:2017年12月28日
发布时间:2017/12/28 11:00:18
文章密级:游客可见
有效期:长期有效
发布者:刘灏 [l61368]
点击次数:244
评论平均得分:0
关键词:Uncorrectable PCI Express Error
产品线:x86塔式/机架式服务器
产品系列:HPE塔式/机架式服务器
产品版本:
故障类型:硬件问题

常用操作
收藏