• 全部
  • 经验案例
  • 典型配置
  • 技术公告
  • FAQ
  • 漏洞说明
  • 全部
  • 全部
  • 大数据引擎
  • 知了引擎
产品线
搜索
取消
案例类型
发布者
是否解决
是否官方
时间
搜索引擎
匹配模式
高级搜索

3par8200硬盘故障,resume失败

23小时前提问
  • 0关注
  • 0收藏,46浏览
粉丝:0人 关注:0人

问题描述:

3par8200(3.3.1),node1已经failed,现在坏了一块硬盘(0:6:0),换上新硬盘已经识别但是没有pdid,resume一段时间就会任务失败,目前该如何处理硬盘故障?能不能在换控制器之前,先修复硬盘故障这个问题

3par8200_N cli% showpd -c

                                -------- Normal Chunklets --------- ---- Spare Chunklets -----

                                -- Used -- -------- Unused -------- - Used -- ---- Unused ----

 Id CagePos Type State    Total    OK Fail Free Uninit Unavail Fail   OK Fail Free Uninit Fail

--- 0:6:0   FC   degraded  1675     0    0    0      0       0    0    0    0    0      0    0

  0 0:0:0   FC   degraded  1675  1469    0   38      0       0    0  111    0   57      0    0

  1 0:1:0   FC   degraded  1675  1470    0   37      0       0    0  168    0    0      0    0

  2 0:2:0   FC   degraded  1675  1470    0   37      0       0    0  168    0    0      0    0

  3 0:3:0   FC   degraded  1675  1470    0   37      0       0    0  168    0    0      0    0

  4 0:4:0   FC   degraded  1675  1470    0   37      0       0    0  168    0    0      0    0

  5 0:5:0   FC   degraded  1675  1471    0   37      0       0    0  167    0    0      0    0

  6 0:6:0?  FC   failed    1675     0    0    0   1468       0   40    0    0    0      0  167

  7 0:7:0   FC   degraded  1675  1471    0   37      0       0    0  167    0    0      0    0

  8 0:8:0   FC   degraded  1675  1465    0   43      0       0    0  165    0    2      0    0

  9 0:9:0   FC   degraded  1675  1470    0   38      0       0    0  167    0    0      0    0

----------------------------------------------------------------------------------------------

 11 total                 18425 13226    0  341   1468       0   40 1449    0   59      0  167

3par8200_N cli% showpd -s

 Id CagePos Type -State-- --------------------Detailed_State-------------------- -SedState--

--- 0:6:0   FC   degraded missing_B_port                                         not_capable

  0 0:0:0   FC   degraded missing_B_port                                         not_capable

  1 0:1:0   FC   degraded missing_B_port                                         not_capable

  2 0:2:0   FC   degraded missing_B_port                                         not_capable

  3 0:3:0   FC   degraded missing_B_port                                         not_capable

  4 0:4:0   FC   degraded missing_B_port                                         not_capable

  5 0:5:0   FC   degraded missing_B_port                                         not_capable

  6 0:6:0?  FC   failed   vacated,missing,invalid_media,smart_threshold_exceeded unknown

  7 0:7:0   FC   degraded missing_B_port                                         not_capable

  8 0:8:0   FC   degraded missing_B_port                                         not_capable

  9 0:9:0   FC   degraded missing_B_port                                         not_capable

--------------------------------------------------------------------------------------------

 11 total

3par8200_N cli% shownode -d

---------------------------------------------Nodes----------------------------------------------

                                                                    Control    Data        Cache

Node ----Name---- -State-- Master InCluster -Service_LED- ---LED--- Mem(MB) Mem(MB) Available(%)

   0 CN7XXXXX-0 Degraded Yes    Yes       Off           AmberBlnk   16384   16384          100

   1 CN7XXXXY-1 Failed   No     No        Unknown       Unknown         0       0            0

 

3par8200_N cli% servicemag status -d

Cage 0, magazine 6:

A servicemag resume command failed on this magazine.

The command completed at Mon Jun 29 12:03:36 2026.

The command started at Mon Jun 29 11:52:44 2026

The output of the servicemag resume was:

servicemag resume 0 6

... onlooping mag 0 6

... firmware is current on pd WWN [5000C500A05E0304]

... firmware is current on pd WWN [5000C500C23B1A5C] Id [ 6]

... checking for valid disks...

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

... checking for valid disks...

... disks not normal yet..trying admit/onloop again

... onlooping mag 0 6

... checking for valid disks...

Failed --

disk WWN [5000C500A05E0304] not admitted

Failed --

disk WWN [5000C500A05E0304] is not normal. Please use showpd -s to see details of disk state

servicemag resume 0 6 -- Failed

2 个回答
粉丝:11人 关注:9人

 联系400等技术支持。


暂无评论

粉丝:18人 关注:2人

一、先梳理所有关键故障线索
硬件架构故障核心:Node1 整机 Failed 离线
shownode -d Node1 状态 Failed、不在集群、无缓存内存;所有硬盘showpd -s报missing_B_port。
存储双控制器架构:每块硬盘 A 通道接 Node0、B 通道接 Node1;Node1 完全离线 → 所有硬盘 B 端口丢失,整机全局 Degraded。
硬盘 0:6:0 现状
原盘 Failed,已更换新 FC 硬盘,硬件能识别 WWN,但无 PD ID、状态 invalid_media /vacated;
servicemag resume 0 6反复 onloop、admit 磁盘,最终提示 disk not admitted、状态无法 normal;
硬盘存在smart_threshold_exceeded媒体校验异常,无法完成自动入池。
风险现状
整机单控 Node0 运行,所有数据仅单副本,无冗余;硬盘 0:6:0 无法恢复,chunklet 存在 Unavail,一旦再坏盘直接数据丢失。
二、为什么 resume 一直失败(核心 2 个原因)
原因 1:Node1 控制器离线,B 通道永久缺失,磁盘准入校验不通过
3PAR 磁盘 onloop/admit 流程会校验 A/B 双通路完整性,当前 Node1 宕机,B_port 全部 missing,系统判定磁盘链路不完整,拒绝将新硬盘正常 admit 分配 PD ID。
原因 2:新硬盘媒体初始化校验失败(invalid_media、smart 告警)
新盘插入后系统会底层介质自检,自检报错,无法完成 chunklet 初始化;resume 反复重试 onloop,但介质校验不通过,流程直接中断失败。
关键结论
无法先单独修好硬盘故障,Node1 离线是底层前置障碍。只要 Node1 处于 Failed 离线状态,该硬盘 magazine 0/6 永远无法正常 resume、admit 上线。
三、分阶段操作方案(先应急处理硬盘,再修复 Node1 控制器)
阶段 1:强制手动准入新硬盘 0:6:0,临时缓解 chunklet 不可用告警
前提:仅 Node0 单控运行,操作仅临时恢复磁盘 PD 身份,无法消除 missing_B_port 全局降级
先强制清空该 magazine 残留故障标记
cli
servicemag stop 0 6
servicemag clearfault 0 6
手动强制 admit 识别到的硬盘 WWN(替换为你日志里新盘 WWN:5000C500C23B1A5C)
cli
admitpd -f 5000C500C23B1A5C
手动分配 PD ID 6,强制上线
cli
setpd -pdid 6 5000C500C23B1A5C
再次执行 magazine 上线
cli
servicemag resume 0 6
校验磁盘状态
cli
showpd 6
showpd -s 6
若依旧提示 media 异常
执行底层磁盘介质初始化(会清空硬盘所有底层 chunklet 标记,无业务数据,新盘可操作)
cli
initializepd -f 6
# 初始化完成后重新resume
servicemag resume 0 6
阶段 2:操作后观察现象
成功标准:硬盘 0:6:0 State 变为 Normal/Degraded,不再 failed,Unavail chunklet 开始后台重构;
局限:整机所有硬盘依旧missing_B_port,集群保持单控降级,数据无双控制器冗余;
业务风险:此状态下严禁再扩容、插拔硬盘,仅临时过渡,必须尽快修复 Node1 控制器。
阶段 3:根源修复:恢复 Failed 的 Node1 控制器(彻底解决所有 Degraded、missing_B_port)
先排查 Node1 故障点(CN7XXXXY-1 Failed)
检查 Node1 电源线、机柜供电、控制器风扇;
拔插控制器、检查 SAS 线缆(连接磁盘柜 B 通道);
若控制器硬件故障,更换同型号 8200 控制器;
Node1 硬件修复上电后,执行节点集群加入
cli
shownode
# 节点识别后执行
setnode -incluster 1
Node1 正常 InCluster 后,所有硬盘 B_port 通路恢复,missing_B_port告警自动消失;整机恢复双控冗余。
等待所有磁盘重构完成,showpd -c无 Unavail/Fail chunklet,整机 Normal。
四、重要风险提醒
单控 Node0 运行期间,存储无控制器冗余,任何硬盘 / 链路故障都会直接业务中断、数据丢失;
initializepd仅能对全新替换硬盘执行,严禁对原有正常 PD 执行,会销毁数据;
仅强制 admit 硬盘只能临时消除硬盘故障告警,无法解决全局 missing_B_port,不能替代 Node1 控制器维修;
重构期间建议降低业务 IO 压力,避免重构速度过慢、缓存占满。
五、最简执行顺序总结
停止 magazine、清除故障标记 → 强制 admit 新硬盘 WWN → 手动分配 pdid6;
介质异常则 initializepd 初始化磁盘,重新 resume 磁框;
临时缓解硬盘不可用告警,但集群仍单控降级;
维修 / 更换 Failed 的 Node1 控制器,恢复双控集群,彻底消除所有 Degraded 状态。

暂无评论

编辑答案

你正在编辑答案

如果你要对问题或其他回答进行点评或询问,请使用评论功能。

分享扩散:

提出建议

    +

亲~登录后才可以操作哦!

确定

亲~检测到您登陆的账号未在http://hclhub.h3c.com进行注册

注册后可访问此模块

跳转hclhub

你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作

举报

×

侵犯我的权益 >
对根叔社区有害的内容 >
辱骂、歧视、挑衅等(不友善)

侵犯我的权益

×

泄露了我的隐私 >
侵犯了我企业的权益 >
抄袭了我的内容 >
诽谤我 >
辱骂、歧视、挑衅等(不友善)
骚扰我

泄露了我的隐私

×

您好,当您发现根叔知了上有泄漏您隐私的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您认为哪些内容泄露了您的隐私?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)

侵犯了我企业的权益

×

您好,当您发现根叔知了上有关于您企业的造谣与诽谤、商业侵权等内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到 pub.zhiliao@h3c.com 邮箱,我们会在审核后尽快给您答复。
  • 1. 您举报的内容是什么?(请在邮件中列出您举报的内容和链接地址)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
  • 3. 是哪家企业?(营业执照,单位登记证明等证件)
  • 4. 您与该企业的关系是?(您是企业法人或被授权人,需提供企业委托授权书)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

抄袭了我的内容

×

原文链接或出处

诽谤我

×

您好,当您发现根叔知了上有诽谤您的内容时,您可以向根叔知了进行举报。 请您把以下内容通过邮件发送到pub.zhiliao@h3c.com 邮箱,我们会尽快处理。
  • 1. 您举报的内容以及侵犯了您什么权益?(请在邮件中列出您举报的内容、链接地址,并给出简短的说明)
  • 2. 您是谁?(身份证明材料,可以是身份证或护照等证件)
我们认为知名企业应该坦然接受公众讨论,对于答案中不准确的部分,我们欢迎您以正式或非正式身份在根叔知了上进行澄清。

对根叔社区有害的内容

×

垃圾广告信息
色情、暴力、血腥等违反法律法规的内容
政治敏感
不规范转载 >
辱骂、歧视、挑衅等(不友善)
骚扰我
诱导投票

不规范转载

×

举报说明