3par8200(3.3.1),node1已经failed,现在坏了一块硬盘(0:6:0),换上新硬盘已经识别但是没有pdid,resume一段时间就会任务失败,目前该如何处理硬盘故障?能不能在换控制器之前,先修复硬盘故障这个问题
3par8200_N cli% showpd -c
-------- Normal Chunklets --------- ---- Spare Chunklets -----
-- Used -- -------- Unused -------- - Used -- ---- Unused ----
Id CagePos Type State Total OK Fail Free Uninit Unavail Fail OK Fail Free Uninit Fail
--- 0:6:0 FC degraded 1675 0 0 0 0 0 0 0 0 0 0 0
0 0:0:0 FC degraded 1675 1469 0 38 0 0 0 111 0 57 0 0
1 0:1:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0
2 0:2:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0
3 0:3:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0
4 0:4:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0
5 0:5:0 FC degraded 1675 1471 0 37 0 0 0 167 0 0 0 0
6 0:6:0? FC failed 1675 0 0 0 1468 0 40 0 0 0 0 167
7 0:7:0 FC degraded 1675 1471 0 37 0 0 0 167 0 0 0 0
8 0:8:0 FC degraded 1675 1465 0 43 0 0 0 165 0 2 0 0
9 0:9:0 FC degraded 1675 1470 0 38 0 0 0 167 0 0 0 0
----------------------------------------------------------------------------------------------
11 total 18425 13226 0 341 1468 0 40 1449 0 59 0 167
3par8200_N cli% showpd -s
Id CagePos Type -State-- --------------------Detailed_State-------------------- -SedState--
--- 0:6:0 FC degraded missing_B_port not_capable
0 0:0:0 FC degraded missing_B_port not_capable
1 0:1:0 FC degraded missing_B_port not_capable
2 0:2:0 FC degraded missing_B_port not_capable
3 0:3:0 FC degraded missing_B_port not_capable
4 0:4:0 FC degraded missing_B_port not_capable
5 0:5:0 FC degraded missing_B_port not_capable
6 0:6:0? FC failed vacated,missing,invalid_media,smart_threshold_exceeded unknown
7 0:7:0 FC degraded missing_B_port not_capable
8 0:8:0 FC degraded missing_B_port not_capable
9 0:9:0 FC degraded missing_B_port not_capable
--------------------------------------------------------------------------------------------
11 total
3par8200_N cli% shownode -d
---------------------------------------------Nodes----------------------------------------------
Control Data Cache
Node ----Name---- -State-- Master InCluster -Service_LED- ---LED--- Mem(MB) Mem(MB) Available(%)
0 CN7XXXXX-0 Degraded Yes Yes Off AmberBlnk 16384 16384 100
1 CN7XXXXY-1 Failed No No Unknown Unknown 0 0 0
3par8200_N cli% servicemag status -d
Cage 0, magazine 6:
A servicemag resume command failed on this magazine.
The command completed at Mon Jun 29 12:03:36 2026.
The command started at Mon Jun 29 11:52:44 2026
The output of the servicemag resume was:
servicemag resume 0 6
... onlooping mag 0 6
... firmware is current on pd WWN [5000C500A05E0304]
... firmware is current on pd WWN [5000C500C23B1A5C] Id [ 6]
... checking for valid disks...
... checking for valid disks...
... disks not normal yet..trying admit/onloop again
... onlooping mag 0 6
... checking for valid disks...
... checking for valid disks...
... disks not normal yet..trying admit/onloop again
... onlooping mag 0 6
... checking for valid disks...
... checking for valid disks...
... disks not normal yet..trying admit/onloop again
... onlooping mag 0 6
... checking for valid disks...
Failed --
disk WWN [5000C500A05E0304] not admitted
Failed --
disk WWN [5000C500A05E0304] is not normal. Please use showpd -s to see details of disk state
servicemag resume 0 6 -- Failed
一、先梳理所有关键故障线索
硬件架构故障核心:Node1 整机 Failed 离线
shownode -d Node1 状态 Failed、不在集群、无缓存内存;所有硬盘showpd -s报missing_B_port。
存储双控制器架构:每块硬盘 A 通道接 Node0、B 通道接 Node1;Node1 完全离线 → 所有硬盘 B 端口丢失,整机全局 Degraded。
硬盘 0:6:0 现状
原盘 Failed,已更换新 FC 硬盘,硬件能识别 WWN,但无 PD ID、状态 invalid_media /vacated;
servicemag resume 0 6反复 onloop、admit 磁盘,最终提示 disk not admitted、状态无法 normal;
硬盘存在smart_threshold_exceeded媒体校验异常,无法完成自动入池。
风险现状
整机单控 Node0 运行,所有数据仅单副本,无冗余;硬盘 0:6:0 无法恢复,chunklet 存在 Unavail,一旦再坏盘直接数据丢失。
二、为什么 resume 一直失败(核心 2 个原因)
原因 1:Node1 控制器离线,B 通道永久缺失,磁盘准入校验不通过
3PAR 磁盘 onloop/admit 流程会校验 A/B 双通路完整性,当前 Node1 宕机,B_port 全部 missing,系统判定磁盘链路不完整,拒绝将新硬盘正常 admit 分配 PD ID。
原因 2:新硬盘媒体初始化校验失败(invalid_media、smart 告警)
新盘插入后系统会底层介质自检,自检报错,无法完成 chunklet 初始化;resume 反复重试 onloop,但介质校验不通过,流程直接中断失败。
关键结论
无法先单独修好硬盘故障,Node1 离线是底层前置障碍。只要 Node1 处于 Failed 离线状态,该硬盘 magazine 0/6 永远无法正常 resume、admit 上线。
三、分阶段操作方案(先应急处理硬盘,再修复 Node1 控制器)
阶段 1:强制手动准入新硬盘 0:6:0,临时缓解 chunklet 不可用告警
前提:仅 Node0 单控运行,操作仅临时恢复磁盘 PD 身份,无法消除 missing_B_port 全局降级
先强制清空该 magazine 残留故障标记
cli
servicemag stop 0 6
servicemag clearfault 0 6
手动强制 admit 识别到的硬盘 WWN(替换为你日志里新盘 WWN:5000C500C23B1A5C)
cli
admitpd -f 5000C500C23B1A5C
手动分配 PD ID 6,强制上线
cli
setpd -pdid 6 5000C500C23B1A5C
再次执行 magazine 上线
cli
servicemag resume 0 6
校验磁盘状态
cli
showpd 6
showpd -s 6
若依旧提示 media 异常
执行底层磁盘介质初始化(会清空硬盘所有底层 chunklet 标记,无业务数据,新盘可操作)
cli
initializepd -f 6
# 初始化完成后重新resume
servicemag resume 0 6
阶段 2:操作后观察现象
成功标准:硬盘 0:6:0 State 变为 Normal/Degraded,不再 failed,Unavail chunklet 开始后台重构;
局限:整机所有硬盘依旧missing_B_port,集群保持单控降级,数据无双控制器冗余;
业务风险:此状态下严禁再扩容、插拔硬盘,仅临时过渡,必须尽快修复 Node1 控制器。
阶段 3:根源修复:恢复 Failed 的 Node1 控制器(彻底解决所有 Degraded、missing_B_port)
先排查 Node1 故障点(CN7XXXXY-1 Failed)
检查 Node1 电源线、机柜供电、控制器风扇;
拔插控制器、检查 SAS 线缆(连接磁盘柜 B 通道);
若控制器硬件故障,更换同型号 8200 控制器;
Node1 硬件修复上电后,执行节点集群加入
cli
shownode
# 节点识别后执行
setnode -incluster 1
Node1 正常 InCluster 后,所有硬盘 B_port 通路恢复,missing_B_port告警自动消失;整机恢复双控冗余。
等待所有磁盘重构完成,showpd -c无 Unavail/Fail chunklet,整机 Normal。
四、重要风险提醒
单控 Node0 运行期间,存储无控制器冗余,任何硬盘 / 链路故障都会直接业务中断、数据丢失;
initializepd仅能对全新替换硬盘执行,严禁对原有正常 PD 执行,会销毁数据;
仅强制 admit 硬盘只能临时消除硬盘故障告警,无法解决全局 missing_B_port,不能替代 Node1 控制器维修;
重构期间建议降低业务 IO 压力,避免重构速度过慢、缓存占满。
五、最简执行顺序总结
停止 magazine、清除故障标记 → 强制 admit 新硬盘 WWN → 手动分配 pdid6;
介质异常则 initializepd 初始化磁盘,重新 resume 磁框;
临时缓解硬盘不可用告警,但集群仍单控降级;
维修 / 更换 Failed 的 Node1 控制器,恢复双控集群,彻底消除所有 Degraded 状态。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论