手册找一下:
https://www.h3c.com/cn/Service/Document_Software/Document_Center/H3Cloud/Catalog/H3Cloud_YCZXT/H3C_CloudOS7.0/?CHID=631566&v=612
一、官方配套手册说明
有官方标准文档
核心参考文档:《H3C CloudOS 7.0 云操作系统 高危操作手册》(文档编号 5W100-20220428),内置集群整机停机、上电、单节点维护开关机完整规范。
配套补充:《H3C UIS 超融合产品正常开关机配置指导》,适配 CloudOS7.0 底层 ONEStor 分布式存储集群上下电逻辑。
获取渠道
1)H3C 官网文档中心:搜索文档编号 / CloudOS7.0,下载 PDF;
2)合作伙伴云数 Wiki:内部维护手册下载链接;
3)iMC/CloudOS Web 内置在线帮助:顶部【帮助】→【高危操作 / 主机维护】可查看简化版上下电指引。
文档核心覆盖场景
场景 1:整机集群全部下电(机房停电、设备搬迁);
场景 2:单节点维护开关机(更换硬件、故障检修);
场景 3:意外掉电后集群恢复上电校验流程;
关键风险约束:存储集群健康状态、维护模式、数据均衡暂停、管理节点最后关机。
二、官方标准完整上下电操作流程(可直接当现场执行手册)
第一部分:集群整机下电关机(完整停电场景)
步骤 1:下电前置检查(必做)
登录 CloudOS7.0 Web,查看任务中心,等待所有迁移、备份、存储均衡任务全部完成;
任意节点 SSH 登录,执行存储健康校验:
bash
运行
ceph -s
必须输出 HEALTH_OK,无 OSD 离线、数据降级告警,有告警先修复再下电;
备份平台配置、License、数据库:
平台→系统维护→配置备份;MySQL 全量备份 /opt/h3cloud/mysql 库;
确认业务窗口,通知所有虚拟机业务停机。
步骤 2:关闭全部业务虚拟机(顺序从业务侧到平台侧)
先关闭业务虚拟机内应用、数据库,再在 CloudOS 界面正常关闭虚拟机操作系统(禁止强制断电);
云桌面 Workspace、CloudBACKUP 备份、云平台中间件虚拟机全部正常关机;
确认所有虚拟机状态为「已关机」,无运行实例。
步骤 3:集群主机进入维护模式(核心防数据损坏)
进入【云计算→宿主机集群→主机】,逐个选中所有计算 / 管理节点;
更多操作→进入维护模式,必须勾选【暂停数据均衡】;
等待集群完成数据副本重分布,确认 ceph -s 依旧 HEALTH_OK。
步骤 4:依次关闭集群物理服务器(管理节点最后关)
先关闭普通业务 CVK 节点,最后关闭承载 CloudOS/License Server 的管理 CVM 节点;
两种关机方式任选其一:
Web 界面操作:主机→更多→关闭主机(系统自动执行安全关机流程);
后台命令行(备用):
bash
运行
sync
hwclock -w
shutdown -h now
每台服务器等待 HDM 显示电源待机、电源灯橙色常亮后,再断开电源线;
全部服务器下电后,最后关闭上联交换机、防火墙等网络设备。
关机关键禁忌
禁止多台服务器同时强制断电、长按电源 5 秒硬关机;
管理节点不可优先关闭,会丢失云管操作入口;
不进入维护模式直接关机,会触发存储大量数据均衡,甚至副本丢失。
第二部分:集群整机上电开机(停电恢复)
步骤 1:先启动网络设备
交换机、防火墙、存储交换机全部上电,等待端口协商完成,集群管理网 / 存储网全链路 UP。
步骤 2:所有超融合服务器同时上电
接通所有节点电源线,服务器开机,等待硬件自检完成;
全部节点开机后,SSH 登录任意节点,校验四层网络互通:管理网、存储前后端网、业务网两两互通;
校验 NTP 时间同步:
bash
运行
ntpq -p
所有节点时间偏移<100ms,无时间断层。
步骤 3:退出主机维护模式,恢复存储集群
CloudOS Web【主机】页面,选中所有节点→更多→退出维护模式;
后台校验存储集群恢复:
bash
运行
ceph -s
ceph osd tree
所有 OSD 状态 up、in,集群健康 HEALTH_OK,等待数据均衡完成。
步骤 4:平台服务自检、启动虚拟机业务
等待 CloudOS、License Server、Workspace、备份等平台服务自动拉起;
Web 登录云平台,检查授权、存储池、主机状态全部正常;
按业务优先级依次启动虚拟机,验证应用、数据库连通正常;
巡检告警管理,确认无硬件、存储、虚拟化故障告警。
三、单节点维护上下电精简流程(仅单台服务器检修,集群不停业务)
单节点关机
迁移该主机上所有虚拟机至集群其他节点;
主机进入维护模式(勾选暂停均衡);
Web / 命令行安全关机,HDM 确认待机后拔电源线检修。
单节点上电恢复
服务器上电,等待系统、存储服务自动启动;
Web 退出维护模式,校验 ceph 集群健康;
虚拟机迁回,业务验证。
四、高频故障规避要点
分布式存储 ONEStor 上下电核心约束:严禁多节点同时离线,整机下电必须走完维护模式流程;
License Server/CloudOS 管理节点关机顺序:永远最后关闭、最先上电;
意外断电未走规范流程:上电后先执行ceph -s检查数据完整性,出现 HEALTH_WARN 先修复副本再启动业务;
开关机全程禁止插拔存储硬盘、业务板卡,避免存储数据损坏。
五、文档快速获取途径
本地在线帮助:登录 CloudOS7.0 Web 页面,右上角「?」帮助图标,检索「关机 / 维护模式」查看轻量化操作手册;
官网文档中心:搜索关键词CloudOS 7.0 高危操作手册下载完整 PDF;
新华三知了社区:搜索《UIS 超融合产品正常开关机配置指导》配套实操案例。
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论