AD-Campus 6.5 三物理 Master 机房迁移完整实施方案(含开关机规范、风险点、校验步骤)
前置核心说明
AD-Campus6.5 底层为Matrix 三节点集群(etcd 分布式数据库 + 微服务集群 + 服务链 / SDN 控制器),三节点同时断电极易引发集群脑裂、etcd 数据损坏、控制器服务链异常、认证 / 策略丢失;迁移属于冷迁移,全程停机,必须严格按顺序关机、搬运、上电、集群校验。
三台节点统一命名:Node1(主 Leader)、Node2、Node3。
一、迁移前准备工作(迁移前 1~2 天完成,必做)
1. 全量数据双备份(最高优先级)
1)平台完整配置备份
登录 Matrix Web → 系统管理 → 配置备份,导出全量配置包本地留存;
2)数据库离线备份(三节点分别执行)
bash
运行
# 登录每台服务器root
su - matrix
matrix-db-backup
# 备份文件路径 /opt/matrix/backup/,拷贝至本地U盘/异地服务器
3)控制器业务备份(SeerEngine-Campus / 服务链 / Portal/EIA)
Web:园区控制器 → 运维 → 导出控制器策略、服务链模板、准入策略、VXLAN、SRv6 配置;
4)备份校验:将备份包解压查看配置文件无缺失,确认备份可恢复。
2. 信息台账收集(新旧机房网络不变仅换机柜可跳过 IP 变更,重点记录)
三台服务器网卡规划:管理口、集群互联 bond 口、业务上联口、存储口 IP、MAC;
集群参数:etcd 集群地址、各节点 node-id、集群虚拟 IP、NTP 服务器地址;
配套网络:上联交换机 VLAN、ACL、端口放行规则、AD-Campus 对接核心 / 汇聚配置;
硬件信息:服务器 SN、HDM 地址、硬盘 RAID、集群互联网线对应端口,全部贴纸质标签;
业务依赖:无线 AC、接入交换机、EIA 802.1X、Portal、服务链引流、iMC 联动参数。
3. 新机房环境预验收(搬迁前完成)
机柜 PDU 双路供电、接地达标,服务器双电源分两路 PDU;
交换机端口 VLAN、链路带宽、ACL、防火墙策略与旧机房完全一致;
集群互联网线提前布放,保证三节点两两互通(集群内网互通无拦截);
NTP 可达,时间同步正常(集群时间不一致会直接脑裂);
预留 HDM 远程管理口,方便搬迁后故障排查。
4. 业务通知与维护窗口确认
通知园区运维、用户,明确停机时长;
梳理业务影响:802.1X 认证、无线准入、服务链、访客 Portal、流量管控全部中断;
制定回滚方案:搬迁异常立刻运回旧机房恢复。
二、旧机房关机标准顺序(严禁三台同时断电,防止 etcd 脑裂)
关机核心原则
先停业务控制器 → 分批停止集群节点服务 → 操作系统安全关机;不能一次性三台同时断电。
步骤 1:停止 AD-Campus 园区控制器业务(所有节点统一操作)
登录 Matrix Web → 业务管理 → 停止 SeerEngine-Campus、服务链、准入、无线联动全部业务组件;
命令行批量停止微服务:
bash
运行
su - matrix
matrix-service stop all
# 等待5分钟,所有容器完全停止
步骤 2:分批关闭集群节点(顺序:Node3 → Node2 → Node1(Leader 最后关))
三节点 etcd 集群需要至少 2 节点存活保证数据一致性,先关从节点,最后关主 Leader:
登录 Node3 root,执行系统安全关机
bash
运行
sync;sync
shutdown -h now
等待服务器完全断电(电源灯琥珀待机),拔网线、HDM 线、电源线;
2. 间隔 3 分钟,登录 Node2,执行同样关机命令,断电拆线;
3. 最后关闭 Node1(集群 Leader),完成整机断电拆线。
关机禁忌
禁止三台同时执行 shutdown;
禁止直接拔电源硬断电(极易损坏 etcd 持久化数据,集群起不来);
不要先关 Leader 再关从节点,会触发集群数据不一致。
三、设备搬运阶段注意事项
服务器断电后静置 5 分钟再搬运,防震泡沫包裹硬盘区域;
所有网线、模块、硬盘、配件单独分装,与对应服务器标签绑定;
搬运全程禁止剧烈颠簸,硬盘震动易坏导致集群数据丢失;
新机柜上架严格按照原机柜顺序摆放,HDM 口、业务口、集群互联口一一对应标签接线。
四、新机房上电开机标准顺序(顺序:Node1 → Node2 → Node3,先主后从)
开机核心原则
先启动 Leader 主节点,待集群基础 etcd 服务就绪,再依次启动两台从节点,避免集群选举异常。
步骤 1:新机柜接线校验
双电源分两路 PDU 上电,所有业务口、集群互联口、HDM 网线接好;
核对交换机端口 VLAN、链路无错插,集群内网三节点两两互通;
上电前确认 PDU 开关正常,无短路。
步骤 2:按顺序开机
先开启 Node1(原 Leader)服务器,等待系统完全启动,登录 root 查看集群基础服务:
bash
运行
su - matrix
matrix-service status etcd
# etcd正常running后,等待5分钟
间隔 3 分钟,开机 Node2,系统启动完成后等待集群自动加入;
间隔 3 分钟,开机 Node3,三节点全部上电完成。
步骤 3:集群网络连通校验(必查)
三台节点互相 ping 通管理 IP、集群互联 IP,无丢包:
bash
运行
# Node1测试
ping Node2集群IP
ping Node3集群IP
检查 bond 聚合端口全部 UP,无丢包、CRC 错包。
五、集群健康全面校验(搬迁后核心环节,分 4 层校验)
1. 底层 Matrix 集群状态校验
bash
运行
# 查看集群三节点在线状态
matrix-cluster status
# 正常输出:三个节点均online,Leader正常选举
# 查看etcd数据库健康
matrix-etcd health
# 输出healthy无报错
异常处理:节点离线 / 脑裂,停止所有业务,核对集群互联网线、IP、防火墙拦截。
2. 微服务组件状态校验
bash
运行
matrix-service status all
所有 matrix、controller、service-chain、portal、eia 容器必须 running,无 failed 状态。
3. AD-Campus 控制器与服务链业务校验
Web 登录 Matrix,查看园区控制器实例状态为运行;
检查服务链模板、引流策略、VXLAN、VLAN、ACL 配置完整无丢失;
核对 802.1X 准入、Portal 访客、无线联动配置与搬迁前一致;
下发一条测试策略到接入交换机,确认下发无报错。
4. 终端业务全量验证
有线终端 802.1X 认证正常上线,获取正确网段;
无线终端接入 SSID,认证、流量转发、服务链引流生效;
测试访客 Portal、带宽管控、安全策略、审计日志正常生成;
检查 iMC 联动、日志上报、NTP 时间同步无偏移。
六、迁移后收尾工作
导出搬迁后完整配置备份,异地留存;
核对服务器硬件告警(HDM 查看硬盘、电源、风扇无告警);
记录搬迁日志:开关机时间、故障点、处理操作,更新运维台账;
撤销维护窗口,恢复园区正常业务使用。
七、高频风险与避坑要点(重点关注服务链、集群脑裂)
集群脑裂(最常见)
诱因:三台同时断电、关机顺序颠倒、集群互联不通、时间不同步;
现象:etcd unhealthy、单节点无法组成集群、控制器策略下发失败;
规避:严格遵守「先关从、后关主;先开主、后开从」,搬迁前校验 NTP。
服务链引流失效
诱因:搬迁后交换机端口 VLAN/ACL 变更、集群互联断流;
规避:新机房交换机配置完全复刻旧机房,搬迁后下发测试流量验证服务链转发。
etcd 数据库损坏
诱因:硬断电、搬运震动硬盘;
规避:全程系统命令安全关机,搬迁前完整数据库备份,损坏可通过备份恢复集群。
控制器配置丢失
诱因:集群未就绪就启动业务组件;
规避:开机后等待 etcd 健康再启动 SeerEngine-Campus、服务链服务。
跨节点网络不通
诱因:网线插错、VLAN 隔离、防火墙拦截集群内网;
规避:搬迁前贴标签,上电后三节点全互联 ping 测试。
八、极简开关机顺序速记
关机(旧机房)
Node3 → Node2 → Node1(Leader 最后关闭)
开机(新机房)
Node1(Leader 先启动)→ Node2 → Node3
暂无评论
暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论