在 H3C Secpath F1000-AK1150 防火墙(链接外网,具备 IPS、IDS功能) 和 WS5850 核心交换机(三层IP交换,各vlan 的网关由此设备的vlan接口承担)组成的网络中,防火墙外出链接有三个:一个 PPPoE 拨号,两个固定IP接入。核心交换机具有 vlan 网关若干,分别对应公司各个部门。
自昨日开始,网络中的部分主机出现特定域名无法访问的故障,发生问题的主机随机、可以访问的域名随机。例如 A 主机无法访问 微博、邮箱等问题。但是另一部分主机完全正常,且发生问题的时间同样随机,也可能是网页可以打开,但是登录失败。昨日已经发现 PPPoE 接口掉线,做了重新拨号,并且重启了防火墙。但是问题没有解决,与此同时,内网资源访问完全正常。
防火墙配置:两个固定 IP 配置 IPSec 隧道;根据不同的链接,有配置出链路负载均衡;为了IPSec 限定回程接口,在三个对外接口上配置了策略路由。
这个故障可能是什么原因引起的,该如何排查,请指出排查方向。
故障整体定位
内网互访完全正常,仅外网随机半通、网页打不开 / 登录失败、不同终端 / 域名随机异常,核心边界设备为 F1000-AK1150 多出口链路负载均衡 + 策略路由 + IPSec,故障集中在防火墙出口转发、会话、安全策略、链路选路、NAT / 分片、安全检测拦截六大方向,下面分根因 + 分步排查方案。
一、高概率故障根因(按出现概率排序)
1. 多出口负载均衡 + 策略路由冲突,来回路径不一致(最常见)
原理
内网访问外网报文,防火墙负载均衡随机从 PPPoE / 固定 IP1 / 固定 IP2 三个出口发出;
回程报文因 IPSec 回程强制策略路由、静态路由、运营商路由,从另一条外网接口回来;
防火墙开启会话表校验,来回接口不一致判定为非法报文,直接丢弃;
现象:网页能打开静态页面(小包单向通),登录提交 POST / 长连接 TCP 会话直接断连、随机域名失效、终端随机故障。
叠加 IPSec 场景更容易触发:IPSec 流量强制指定出接口,普通互联网流量走负载均衡,路由冲突加剧来回路径不对称。
2. 防火墙会话表资源耗尽 / 会话老化参数不合理
昨日 PPPoE 反复拨号,大量无效残留 TCP 会话占满会话表;
大量短连接网页、短视频堆积,新 TCP 握手报文无法创建会话,随机终端新建连接被丢弃;
现象:部分主机随机打不开网页,内网无压力,重启防火墙临时缓解但很快复现。
3. IPS/IDS 安全检测误拦截(网页登录失败高发)
防火墙开启 IPS / 特征库检测,POST 登录数据包、COOKIE、表单提交、HTTPS 长连接命中风险特征:
仅拦截登录交互报文,静态首页图片 / GET 页面正常加载;
特征库对部分域名、UA、表单内容误判攻击,随机拦截;
部分运营商链路 MTU 不一致,分片数据包被 IPS 深度检测丢弃。
4. 多出口 NAT 地址池分配异常、端口耗尽
三个出口分别配置独立 NAT 地址池,单链路内网并发高时,NAT 源端口耗尽,新 TCP 连接无法建立,随机终端分配到满载链路就无法访问外网业务。
5. PPPoE 链路不稳定、MTU/MSS 不匹配
PPPoE 标准 MTU 1492,内网设备默认 1500,大包 TCP 分片,网页登录、大表单 POST 报文分片丢失;PPPoE 拨号偶发丢包,负载均衡随机分配终端走该链路,出现随机半通。
6. 策略路由优先级、路由优先级冲突
IPSec 回程策略路由、默认路由、负载均衡路由优先级混乱,部分目的网段回程路由指向错误外网接口,TCP 会话来回路径分离丢包。
7. 硬件资源瓶颈(CPU / 内存)
IPS/IDS 深度检测消耗 CPU,峰值 CPU 超过 80% 时,防火墙延迟处理报文,随机丢弃 TCP 握手、登录交互报文。
分步骤标准化排查方向(由简到繁)
阶段 1:确认来回路径不一致(头号嫌疑)
抓包验证往返接口
在内网故障主机长 ping 外网域名,同时在防火墙三个外网接口分别抓包:
diagnose capture interface GigabitEthernet 0/0/X
若上行出接口和下行回程接口不是同一个,确定路由不对称问题。
查看负载均衡与策略路由配置冲突
负载均衡作用于普通互联网流量;
IPSec 回程策略路由强制指定出接口,没有匹配普通业务流量;
修复方案:
1)负载均衡开启会话保持(源 IP 会话保持),同一内网 IP 全程走同一条外网链路;
plaintext
load-balance outbound
persistence source-ip
2)IPSec 策略路由增加 ACL 匹配,仅 VPN 网段走固定接口,不要全局强制所有流量;
3)关闭无用全局策略路由,调整路由优先级,确保普通外网流量由负载均衡统一调度。
阶段 2:检查防火墙会话表资源
查看会话表占用率
plaintext
display session table statistics
若会话占用率持续 90% 以上,说明会话表耗尽;
查看老化时间配置,缩短无用 TCP 短连接老化时长:
plaintext
session aging-time tcp 300
session aging-time tcp fin 10
清空残留会话测试(业务窗口操作):
plaintext
reset session table all
清空后故障消失 = 会话表溢出导致随机断网。
阶段 3:关闭 IPS/IDS 测试,定位安全检测误拦截
临时全局关闭 IPS 特征检测,测试故障主机网页登录:
plaintext
ips disable
关闭后网页登录恢复正常 → IPS 特征库误拦截登录 POST 报文。
2. 细分定位:
新建 IPS 策略,对办公域名、邮箱、微博配置豁免检测;
升级 IPS 特征库至最新版本,修复旧版本误拦截 BUG;
关闭 HTTPS 深度检测(SSL 解密),解密过程分片报文易丢包。
阶段 4:MTU、MSS 分片优化(解决网页加载不全、登录失败)
PPPoE 接口强制 TCP MSS 1480,避免大包分片丢包:
plaintext
interface Dialer 0
tcp adjust-mss 1480
三个固定 IP 外网接口统一配置 MSS 1480,内网 VLANIF 无需修改;
测试大包连通性:故障主机执行 ping 目标域名 -l 1472 -f,若不通代表分片丢包。
阶段 5:NAT 资源排查
查看三条出口 NAT 地址池端口占用:
plaintext
display nat address-group usage
若某条链路端口占用 100%,该链路下所有终端随机无法新建 TCP 连接;
优化:扩大 NAT 地址池、多地址池复用、启用 NAT 端口复用。
阶段 6:硬件资源与链路稳定性排查
查看防火墙 CPU、内存、IPS 调度占用:
plaintext
display cpu-usage
display memory
display ips statistics
CPU 持续高于 85%,IPS 深度检测算力不足,报文随机丢弃;
优化:拆分 IPS 策略,仅对危险业务开启检测,办公业务豁免。
2. 检查三条外网链路丢包率:
plaintext
display interface Dialer 0
display interface GigabitEthernet 0/0/1
display interface GigabitEthernet 0/0/2
查看输入输出 error、CRC、丢包计数,PPPoE 链路频繁丢包会导致分配到此链路的终端随机故障。
阶段 7:路由优先级排查
查看防火墙完整路由表,确认外网网段回程路由:
plaintext
display ip routing-table
确认普通互联网流量路由由负载均衡生成,IPSec 网段路由仅匹配加密流量,无路由抢占冲突;
2. 临时删除 IPSec 回程策略路由测试,故障消失则为策略路由抢占回程流量。
快速验证临时定位手段(快速缩小故障范围)
单链路隔离测试:临时关闭另外两条外网出口,仅保留一条固定 IP 链路,所有终端走单一出口,若故障消失 → 多出口来回路径不一致;
关闭 IPS 测试:IPS 禁用后业务恢复 → 安全检测误拦截;
清空会话表测试:清空会话后半小时无故障 → 会话表资源耗尽;
固定 MSS 测试:调整 tcp adjust-mss 1480 后网页登录正常 → 分片 MTU 问题。
配套长期优化方案
多出口负载均衡必须开启源 IP 会话保持,彻底解决来回路径不一致;
IPS 策略精细化,办公常用域名、邮箱、业务系统添加白名单豁免深度检测;
所有外网接口统一配置 tcp adjust-mss 1480,规避 PPPoE 分片丢包;
优化会话老化时间,定期清理无效短连接;
IPSec 策略路由精准匹配 VPN 私网网段,不全局覆盖所有流量;
监控防火墙会话、CPU、NAT 端口使用率,设置阈值告警。
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论