防火墙阶段性 CPU 冲高 + ping 丢包、进程 kdrvdp1 占用高完整排查方案
一、先明确核心信息解读
图表:Slot1 CPU0 近 60 分钟系统 CPU 长期基线 20% 左右,阶段性冲高至 45%~55%,波动峰值对应丢包时段;
现象:ping 防火墙内网网关 168.192.0.1 出现时延突增 190~275ms + 间歇性请求超时;
关键进程:kdrvdp1 占用 CPU 51.3%,是本次故障根进程。
kdrvdp1 进程是什么(H3C SecPath V7 防火墙)
kdrvdp = Data Plane 数据转发平面进程,负责:
报文转发、会话表处理、DPI 应用识别、SSL 解密、流量统计、ACL 匹配、攻击防范、特征库检测;
该进程 CPU 飙升 =大量报文上送 CPU 软处理,转发平面过载,直接导致 ping 时延高、丢包、业务卡顿。
二、分步骤定位根因(按排查优先级)
步骤 1:查看转发平面过载诱因(先抓流量 / 表项)
1.1 查看会话表数量,是否打满、大量新建会话
bash
运行
display session table statistics
display session table aging-time
高发场景:
内网中病毒、挖矿、端口扫描,每秒大量新建 TCP/UDP 会话;
会话老化时间设置过长,无效长连接堆积占用 CPU 遍历。
优化:收紧会话老化时间
bash
运行
session aging-time tcp 300
session aging-time udp 60
session aging-time tcp-fin 10
session aging-time tcp-rst 5
1.2 查看 DPI/SSL 解密占用(kdrvdp1 最常见诱因)
bash
运行
display dpi cpu
display ssl cpu
display dpi memory
全局全量 SSL 解密:所有流量都解密,加密报文消耗大量 CPU;
全量应用识别、恶意 URL、入侵防御 IPS 全开;
特征库版本老旧存在性能 BUG,频繁特征匹配循环占用 CPU。
优化方案:
SSL 解密仅针对业务网段,不全局 untrust 流量全解密;
临时关闭 IPS、恶意 URL 过滤验证 CPU 是否下降;
升级固件 + 更新最新特征库修复性能缺陷。
1.3 查看流量统计 / 采样开销
bash
运行
display flow statistics configuration
开启 1:1 全量流量采样、MTA/NTA 流量画像,每包都做统计分析,持续消耗转发 CPU;
优化:调低采样比例(1:100),关闭无用本地流量缓存,远端 syslog 转发日志。
1.4 攻击防范 / 异常流量上送 CPU
bash
运行
display attack statistics
内网扫描、SYN 洪水、ICMP 大包、端口扫描,防火墙逐包校验防护,全部上送 kdrvdp1 处理;
优化:配置域间 ACL 丢弃恶意扫描源,收紧攻击防范阈值,开启硬件快速丢弃。
步骤 2:查看接口流量,定位流量冲击源
bash
运行
display interface brief | include rate
display packet-drop statistics
某接口瞬时带宽跑满,大流量报文冲击 CPU;
端口存在大量 CRC 错包、广播风暴、组播风暴,转发平面持续处理广播报文。
步骤 3:确认是否版本 BUG(kdrvdp 进程 CPU 泄漏)
现象:设备长期运行(30 天以上),kdrvdp1 占用缓慢持续上涨,阶段性冲高丢包,重启后临时恢复。
处理:
收集诊断包:display diagnostic-information 400 提单确认是否该版本存在转发进程 CPU 泄漏已知缺陷;
维护窗口升级设备至官方稳定修复版本。
步骤 4:硬件资源校验
bash
运行
display device
display cpu-usage history
单 CPU 核长期跑满(你截图 Slot1 CPU0 单核冲高),无多核分担;
设备规格不足:业务流量超出整机转发性能上限,只能扩容或分流业务。
三、快速临时缓解操作(业务不中断,立即降 CPU)
临时关闭冗余安全功能验证
bash
运行
system-view
undo ips enable
undo app-control enable
undo url-filter enable
关闭全局全量 SSL 解密,仅保留必要业务解密策略
缩短各类会话老化,快速回收无效会话
关闭流量全采样,调整采样比例
配置 ACL 封禁内网扫描、挖矿恶意 IP 源
四、长期根治方案
流量分层优化
仅业务核心流量开启 DPI/SSL,普通互联网流量不做深度检测,卸载转发 CPU 压力;
会话优化
收紧老化时间,配置会话自动清理阈值,超过 80% 自动回收闲置会话;
日志远端存储
所有安全审计、流量日志外发 syslog 服务器,本地不缓存日志占用转发资源;
版本升级
升级至修复 kdrvdp 转发进程性能 BUG 的稳定固件,同步更新 DPI/URL 特征库;
流量分流
大带宽业务前置交换机分流,避免防火墙单设备承载全部流量;
定期运维
每月清理无效安全策略 / ACL,季度维护窗口重启释放转发进程内存 CPU 泄漏。
五、故障现象对应逻辑总结
kdrvdp1(转发平面 CPU)冲高 → 报文处理时延增加 → ping 网关出现大延迟、超时丢包 → 业务访问卡顿、断流;
根本:深度检测、海量会话、异常流量、版本缺陷四类因素导致转发 CPU 过载。
暂无评论
[kdrvdp1] 占用 51.3%,可以初步判定这是防火墙数据转发平面(内核转发进程)过载导致的典型故障。kdrvdp(kdrv data plane)负责底层的数据包转发。当该进程 CPU 占用率异常偏高时,设备处理报文的能力达到瓶颈,就会导致新连接无法建立、现有连接超时,进而引发业务丢包和 Ping 防火墙丢包的现象。display cpu-usage history,观察 CPU 占用率升高的时间点是否与业务高峰期或特定事件重合。display process cpu | include kdrv。由于 kdrvdp1 是转发平面的内核进程,如果单核使用率接近阈值(例如 48 核设备的单核极限约 2.08%),说明该核心已满载,导致业务卡顿和丢包。kdrvdp 占用过高通常由以下三种情况引起:display attack-defense log 或 display logbuffer,检查是否有大量的攻击日志(如 SYN Flood、ICMP Flood)。display firewall session table summary,若会话数量巨大或存在大量 SYN 半开状态,基本可确认为攻击导致。display process cpu,查看是否有 ntopd(流量统计进程)等伴随占用过高。system-view
undo flow-stat global enable
undo ip traffic-statistics live application enablekdrvdp 进程 CPU 是否回落。tcp mss adjust 1360。暂无评论
亲~登录后才可以操作哦!
确定你的邮箱还未认证,请认证邮箱或绑定手机后进行当前操作
举报
×
侵犯我的权益
×
侵犯了我企业的权益
×
抄袭了我的内容
×
原文链接或出处
诽谤我
×
对根叔社区有害的内容
×
不规范转载
×
举报说明
暂无评论