5000 包/秒高频探测 + 无需时钟同步的单向丢包检测 + 全路径覆盖。内部跑了多年,现在开源了。
先讲一个实际case。
线上服务突然超时,用户投诉电话打爆了。打开监控大盘,一切正常——没有任何告警。折腾两小时,最后发现是某条链路间歇性轻微丢包,丢包率 0.3‰,传统监控压根抓不到。
百度内部,baize 跑了多年:
- 集群间高频探测:机房内跨集群链路fullmesh监控
- 机房间fullmesh探测:机房间,LCC机房链路fullmesh监控()
- 混合云高频探测:A区和C区之间的混合云链路监控,5000 pps,秒级发现异常
- 专线 SLA 监控:运营商专线质量持续监测,为 SLA 考核提供数据支撑
- 网络改造保障:设备割接、链路升级期间持续监控,改造前后对比一目了然
- 故障回切验证:从灾备切回主链路后,确认回切路径无丢包、无 bitflip后再切流
06 开源与社区
baize 是百度 nettools 工具集的第二个开源工具,MIT 协议。
- GitHub: https://github.com/baidu/nettools
- 使用指南:https://nettools.rpcx.io/baize.html
- 语言:Go 1.26+
- 平台:Linux / macOS,AMD64 / ARM64
内部版还支持从数据库拉配置、推数据到 Kafka 聚合,开源版做了简化,但留了可插拔的 Sender 接口——你可以自己实现,把数据发到 ClickHouse、Prometheus 或者任意后端。
网络监控这件事,不是能不能做的问题,是做得够不够细的问题。
每一条链路、每一个端口、每一个比特,都值得被监控。 这是我们在百度内部坚持的标准,今天开源出来,希望对你有用。
被间歇性轻微丢包折磨过的话,去 GitHub 点个 Star,试试 baize。
