问

3par8200硬盘故障，resume失败

23小时前提问

0关注
0收藏，46浏览

呸呸熊

呸呸熊零段

粉丝：0人关注：0人

问题描述：

3par8200(3.3.1)，node1已经failed，现在坏了一块硬盘（0:6:0），换上新硬盘已经识别但是没有pdid，resume一段时间就会任务失败，目前该如何处理硬盘故障？能不能在换控制器之前，先修复硬盘故障这个问题

3par8200_N cli% showpd -c

-------- Normal Chunklets --------- ---- Spare Chunklets -----

-- Used -- -------- Unused -------- - Used -- ---- Unused ----

Id CagePos Type State Total OK Fail Free Uninit Unavail Fail OK Fail Free Uninit Fail

--- 0:6:0 FC degraded 1675 0 0 0 0 0 0 0 0 0 0 0

0 0:0:0 FC degraded 1675 1469 0 38 0 0 0 111 0 57 0 0

1 0:1:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0

2 0:2:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0

3 0:3:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0

4 0:4:0 FC degraded 1675 1470 0 37 0 0 0 168 0 0 0 0

5 0:5:0 FC degraded 1675 1471 0 37 0 0 0 167 0 0 0 0

6 0:6:0? FC failed 1675 0 0 0 1468 0 40 0 0 0 0 167

7 0:7:0 FC degraded 1675 1471 0 37 0 0 0 167 0 0 0 0

8 0:8:0 FC degraded 1675 1465 0 43 0 0 0 165 0 2 0 0

9 0:9:0 FC degraded 1675 1470 0 38 0 0 0 167 0 0 0 0

----------------------------------------------------------------------------------------------

11 total 18425 13226 0 341 1468 0 40 1449 0 59 0 167

3par8200_N cli% showpd -s

Id CagePos Type -State-- --------------------Detailed_State-------------------- -SedState--

--- 0:6:0 FC degraded missing_B_port not_capable

0 0:0:0 FC degraded missing_B_port not_capable

1 0:1:0 FC degraded missing_B_port not_capable

2 0:2:0 FC degraded missing_B_port not_capable

3 0:3:0 FC degraded missing_B_port not_capable

4 0:4:0 FC degraded missing_B_port not_capable

5 0:5:0 FC degraded missing_B_port not_capable

6 0:6:0? FC failed vacated,missing,invalid_media,smart_threshold_exceeded unknown

7 0:7:0 FC degraded missing_B_port not_capable

8 0:8:0 FC degraded missing_B_port not_capable

9 0:9:0 FC degraded missing_B_port not_capable

--------------------------------------------------------------------------------------------

11 total

3par8200_N cli% shownode -d

---------------------------------------------Nodes----------------------------------------------

Control Data Cache

Node ----Name---- -State-- Master InCluster -Service_LED- ---LED--- Mem(MB) Mem(MB) Available(%)

0 CN7XXXXX-0 Degraded Yes Yes Off AmberBlnk 16384 16384 100

1 CN7XXXXY-1 Failed No No Unknown Unknown 0 0 0

3par8200_N cli% servicemag status -d

Cage 0, magazine 6:

A servicemag resume command failed on this magazine.

The command completed at Mon Jun 29 12:03:36 2026.

The command started at Mon Jun 29 11:52:44 2026

The output of the servicemag resume was:

servicemag resume 0 6

... onlooping mag 0 6

... firmware is current on pd WWN [5000C500A05E0304]

... firmware is current on pd WWN [5000C500C23B1A5C] Id [ 6]

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

Failed --

disk WWN [5000C500A05E0304] not admitted

Failed --

disk WWN [5000C500A05E0304] is not normal. Please use showpd -s to see details of disk state

servicemag resume 0 6 -- Failed

2 个回答

按时间按赞数

zhiliao_Gixe

zhiliao_Gixe 六段

粉丝：11人关注：9人

联系400等技术支持。

暂无评论

zhiliao_GeOM0O

zhiliao_GeOM0O 九段

粉丝：18人关注：2人

一、先梳理所有关键故障线索
硬件架构故障核心：Node1 整机 Failed 离线
shownode -d Node1 状态 Failed、不在集群、无缓存内存；所有硬盘showpd -s报missing_B_port。
存储双控制器架构：每块硬盘 A 通道接 Node0、B 通道接 Node1；Node1 完全离线 → 所有硬盘 B 端口丢失，整机全局 Degraded。
硬盘 0:6:0 现状
原盘 Failed，已更换新 FC 硬盘，硬件能识别 WWN，但无 PD ID、状态 invalid_media /vacated；
servicemag resume 0 6反复 onloop、admit 磁盘，最终提示 disk not admitted、状态无法 normal；
硬盘存在smart_threshold_exceeded媒体校验异常，无法完成自动入池。
风险现状
整机单控 Node0 运行，所有数据仅单副本，无冗余；硬盘 0:6:0 无法恢复，chunklet 存在 Unavail，一旦再坏盘直接数据丢失。
二、为什么 resume 一直失败（核心 2 个原因）
原因 1：Node1 控制器离线，B 通道永久缺失，磁盘准入校验不通过
3PAR 磁盘 onloop/admit 流程会校验 A/B 双通路完整性，当前 Node1 宕机，B_port 全部 missing，系统判定磁盘链路不完整，拒绝将新硬盘正常 admit 分配 PD ID。
原因 2：新硬盘媒体初始化校验失败（invalid_media、smart 告警）
新盘插入后系统会底层介质自检，自检报错，无法完成 chunklet 初始化；resume 反复重试 onloop，但介质校验不通过，流程直接中断失败。
关键结论
无法先单独修好硬盘故障，Node1 离线是底层前置障碍。只要 Node1 处于 Failed 离线状态，该硬盘 magazine 0/6 永远无法正常 resume、admit 上线。
三、分阶段操作方案（先应急处理硬盘，再修复 Node1 控制器）
阶段 1：强制手动准入新硬盘 0:6:0，临时缓解 chunklet 不可用告警
前提：仅 Node0 单控运行，操作仅临时恢复磁盘 PD 身份，无法消除 missing_B_port 全局降级
先强制清空该 magazine 残留故障标记
cli
servicemag stop 0 6
servicemag clearfault 0 6
手动强制 admit 识别到的硬盘 WWN（替换为你日志里新盘 WWN：5000C500C23B1A5C）
cli
admitpd -f 5000C500C23B1A5C
手动分配 PD ID 6，强制上线
cli
setpd -pdid 6 5000C500C23B1A5C
再次执行 magazine 上线
cli
servicemag resume 0 6
校验磁盘状态
cli
showpd 6
showpd -s 6
若依旧提示 media 异常
执行底层磁盘介质初始化（会清空硬盘所有底层 chunklet 标记，无业务数据，新盘可操作）
cli
initializepd -f 6
# 初始化完成后重新resume
servicemag resume 0 6
阶段 2：操作后观察现象
成功标准：硬盘 0:6:0 State 变为 Normal/Degraded，不再 failed，Unavail chunklet 开始后台重构；
局限：整机所有硬盘依旧missing_B_port，集群保持单控降级，数据无双控制器冗余；
业务风险：此状态下严禁再扩容、插拔硬盘，仅临时过渡，必须尽快修复 Node1 控制器。
阶段 3：根源修复：恢复 Failed 的 Node1 控制器（彻底解决所有 Degraded、missing_B_port）
先排查 Node1 故障点（CN7XXXXY-1 Failed）
检查 Node1 电源线、机柜供电、控制器风扇；
拔插控制器、检查 SAS 线缆（连接磁盘柜 B 通道）；
若控制器硬件故障，更换同型号 8200 控制器；
Node1 硬件修复上电后，执行节点集群加入
cli
shownode
# 节点识别后执行
setnode -incluster 1
Node1 正常 InCluster 后，所有硬盘 B_port 通路恢复，missing_B_port告警自动消失；整机恢复双控冗余。
等待所有磁盘重构完成，showpd -c无 Unavail/Fail chunklet，整机 Normal。
四、重要风险提醒
单控 Node0 运行期间，存储无控制器冗余，任何硬盘 / 链路故障都会直接业务中断、数据丢失；
initializepd仅能对全新替换硬盘执行，严禁对原有正常 PD 执行，会销毁数据；
仅强制 admit 硬盘只能临时消除硬盘故障告警，无法解决全局 missing_B_port，不能替代 Node1 控制器维修；
重构期间建议降低业务 IO 压力，避免重构速度过慢、缓存占满。
五、最简执行顺序总结
停止 magazine、清除故障标记 → 强制 admit 新硬盘 WWN → 手动分配 pdid6；
介质异常则 initializepd 初始化磁盘，重新 resume 磁框；
临时缓解硬盘不可用告警，但集群仍单控降级；
维修 / 更换 Failed 的 Node1 控制器，恢复双控集群，彻底消除所有 Degraded 状态。

暂无评论

编辑答案

分享扩散:

➤

网站相关: 关于我们; 服务条款; 隐私政策; 帮助中心; 经验与权限; 积分规则

联系我们: 联系我们; 建议反馈

常用链接: 标杆的神器下载

关注我们: H3C官网; 新华三服务公众号; 安仔远程运维服务; 新华三商城

内容许可: 除特别说明外，用户内容均可采用知识共享署名-相同方式共享3.0中国大陆许可协议进行许可

本图标版权归新华三集团所有，仅限本社区使用，切勿用做商业目的，违者必究

浙ICP备09064986号-1 浙公网安备 33010802004416号

✖

亲~登录后才可以操作哦!

确定

✖

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

✖

你的邮箱还未认证，请认证邮箱或绑定手机后进行当前操作

✖

侵犯我的权益 >

对根叔社区有害的内容 >

辱骂、歧视、挑衅等（不友善）

侵犯我的权益

泄露了我的隐私 >

侵犯了我企业的权益 >

抄袭了我的内容 >

诽谤我 >

辱骂、歧视、挑衅等（不友善）

骚扰我

泄露了我的隐私

您好，当您发现根叔知了上有泄漏您隐私的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您认为哪些内容泄露了您的隐私？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

侵犯了我企业的权益

您好，当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱，我们会在审核后尽快给您答复。

1. 您举报的内容是什么？（请在邮件中列出您举报的内容和链接地址）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）
3. 是哪家企业？（营业执照，单位登记证明等证件）
4. 您与该企业的关系是？（您是企业法人或被授权人，需提供企业委托授权书）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

原文链接或出处

诽谤我

您好，当您发现根叔知了上有诽谤您的内容时，您可以向根叔知了进行举报。请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱，我们会尽快处理。

1. 您举报的内容以及侵犯了您什么权益？（请在邮件中列出您举报的内容、链接地址，并给出简短的说明）
2. 您是谁？（身份证明材料，可以是身份证或护照等证件）

我们认为知名企业应该坦然接受公众讨论，对于答案中不准确的部分，我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

垃圾广告信息

色情、暴力、血腥等违反法律法规的内容

政治敏感

不规范转载 >

辱骂、歧视、挑衅等（不友善）

骚扰我

诱导投票

不规范转载

举报说明

产品线		搜索取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式	默认策略匹配全词匹配整句

3par8200硬盘故障，resume失败

问题描述：

编辑答案

提出建议