EVPN 数据中心 云外核心能学到 border 分布式网关路由但 ping 不通完整排障
一、先梳理组网与核心现象
- 组网层级:外网核心 → Border(EXT,EVPN 边界)→ Spine → Leaf(分布式网关)
- 路由层面:外网核心、Border 双向互学网段路由(含 Leaf 分布式网关网段)
- 连通故障:路由表存在对应网段,ICMP ping 分布式网关 IP 不通
二、分大类根因,按现场高发顺序排查
类别 1:EVPN 分布式网关 ARP/ND 代理、跨域三层转发缺失(数据中心内部基础转发异常)
1. Leaf 分布式网关未开启 ARP 代理(最常见)
EVPN VXLAN 分布式网关场景,跨 Leaf 访问网关 IP 必须开启 ARP 代答,否则 ARP 泛洪失败、无法解析 MAC,ping 断流。
Leaf 配置检查:
system-view
evpn
vlan 10
arp proxy enable
vxlan tunnel
evpn arp-sync enable
验证:display evpn arp-table,查看是否存在分布式网关 ARP 表项;无条目则 ARP 代理未生效。
2. Border 与 Leaf EVPN 路由 / Type5 外部路由同步异常
外网网段通过 Border 引入 EVPN Type5 路由下发 Leaf,Leaf 回程路由缺失会导致 ping 单向不通:
- Border 检查引入外网静态 / OSPF/BGP 路由至 EVPN:
evpn
address-family ip
import bgp instance 外网BGP实例
- Leaf 查看 EVPN 外部路由:
display evpn routing-table type 5,无外网路由 = 回程路由缺失。
3. VXLAN 隧道阻断、VNI 隔离
Border、Leaf 之间 VXLAN 隧道状态 down、或业务 VNI 未全局放行,三层封装报文丢弃:
display vxlan tunnel
display vxlan vni
隧道 UP、VNI 绑定业务 BD 才可以三层转发。
类别 2:Border(EXT 边界)跨安全域 / 包过滤拦截 ICMP、三层业务报文
Border 是数据中心内外网关,存在多层拦截策略,路由可达不代表报文允许转发:
1. 接口 inbound/outbound 包过滤 ACL 拦截 ICMP
Border 连接外网核心、连接 Spine 的接口绑定 ACL,仅放行业务 TCP/UDP,丢弃 ICMP echo-request/reply:
# 查看接口是否绑定包过滤
display this interface GigabitEthernet 0/0/X
# 出现 packet-filter inbound/outbound 即为拦截策略
# 临时放行ICMP测试
acl number 3000
rule permit icmp
interface GigabitEthernet 0/0/X
undo packet-filter inbound
undo packet-filter outbound
2. Border 域间安全策略拦截外网 ↔ EVPN 内网
Border 划分Untrust(外网核心) / Trust(数据中心Spine)安全域,域间策略拒绝跨域 ICMP:
- Web / 命令查看安全策略命中计数:
display security-policy statistics
- 临时放行所有 ICMP 跨域流量测试连通性,确认后精细化放通。
3. Border ECMP 负载分担报文分片、TTL 超限丢弃
外网核心多 ECMP 链路到 Border,ICMP 大包分片异常;或三层转发 TTL 值被设备递减至 0 丢弃:
- 测试小包 ping:
ping -l 32 分布式网关IP,小包通、大包不通 = 分片 MTU 问题;
- EVPN VXLAN 默认封装增加 50 字节开销,内网业务 VLAN 接口 MTU 建议设 1550,外网接口 1500。
类别 3:三层路由转发细节缺陷(路由表存在但下一跳不可达)
1. 路由递归下一跳黑洞
外网核心学习到分布式网关网段路由,下一跳指向 Border 互联 IP;但 Border 回程路由递归下一跳 Spine/Leaf 不可达,回程报文丢弃。
验证:在外网核心执行
tracert 分布式网关IP
- 第一跳到 Border 正常,第二跳无响应 = Border 回程路由转发失败。
2. 路由优先级冲突、次优路由黑洞
Border 同时存在 EVPN 内网路由、静态 / OSPF 重复路由,优先级更低的无效路由抢占转发,回程报文走黑洞链路。
# Border查看目标网段多条路由
display ip routing-table 分布式网关网段
保留 EVPN 内部路由为最优,删除冲突静态路由。
3. Border 未发布 Leaf 分布式网关主机路由 / 网段路由
EVPN 分布式网关是 Leaf 本地直连网段,Border 仅同步汇总路由、无明细主机路由,ARP 代答跨设备失效。
排查 EVPN Type2/Type5 路由同步完整性。
类别 4:跨设备 ARP 抑制、CPCAR 限速误伤 ICMP
1. Border/Leaf 全局 ARP 源抑制拦截外网 ARP 请求
外网 ping 网关会发送全网 ARP 查询,ARP 并发超限被设备 CPCAR 限速丢弃:
# 临时关闭ARP抑制测试
undo arp source-suppression enable
# 如需保留抑制,放大阈值
arp source-suppression limit 300
2. 接口广播 / 组播抑制阈值过低
VXLAN 封装依赖组播泛洪 ARP,广播抑制带宽过小,ARP 报文直接丢弃,无法解析网关 MAC:
interface GigabitEthernet 0/0/X
broadcast-suppression bandwidth 20000
multicast-suppression bandwidth 20000
类别 5:BGP EVPN 邻居 / 外部 BGP 邻居属性阻断报文转发
1. BGP 路由前缀携带 NO_EXPORT 团体属性,跨 Border 不传递
EVPN 内网路由默认携带隔离团体,Border 引入外部 BGP 时未解除属性,外网核心收到路由但回程被拦截。
Border EVPN BGP 配置解除隔离属性:
bgp instance evpn
address-family evpn
peer SpineIP undo route-policy NO_EXPORT export
2. BGP 引入路由过滤策略只发布 TCP/UDP 业务,过滤 ICMP 相关前缀
route-policy export 时匹配 ACL 仅放行业务端口,ICMP 报文转发权限被过滤。
标准化快速定位步骤(现场 5 分钟区分故障域)
- 第一步:Border 本机自测连通性
在 Border 上直接 ping Leaf 分布式网关 IP
- 能通:故障在 Border ↔ 外网核心之间(ACL / 安全策略 / 回程路由)
- 不通:故障在 EVPN 内网(ARP 代理、VXLAN 隧道、EVPN 路由同步)
- 第二步:外网核心 tracert 追踪路径
tracert 分布式网关IP
- 断点在 Border:Border 出方向拦截 ICMP / 回程路由缺失
- 断点在 Spine/Leaf:EVPN 内网三层转发、ARP 代答异常
- 第三步:临时全放开安全策略 + ACL 测试
删除 Border 域间安全限制、接口包过滤,小包 ping 测试,通则为策略拦截问题。
- 第四步:核对 EVPN ARP 代理、VXLAN 隧道、Type5 外部路由
Border 能 ping 通网关,外网不通,90% 为安全策略 / ICMP 包过滤拦截。
高频踩坑总结
- 只同步网段路由,Leaf 未开启 ARP proxy,跨设备无法解析网关 MAC,ping 不通;
- Border 划分内外安全域,默认域间策略拒绝 ICMP,路由可达但报文丢弃;
- VXLAN 封装 MTU 不匹配,大包 ping 不通、小包正常;
- EVPN 路由携带隔离团体属性,外网路由回程无法回灌数据中心;
- ARP 源抑制、广播限速误伤外网发起的网关 ARP 查询请求。
暂无评论