百度物理网络监控工具开源第二弹:毫秒级监控工具 baize,让你的网络问题无处遁形

5000 包/秒高频探测 + 无需时钟同步的单向丢包检测 + 全路径覆盖。内部跑了多年,现在开源了。


先讲一个实际case。

线上服务突然超时,用户投诉电话打爆了。打开监控大盘,一切正常——没有任何告警。折腾两小时,最后发现是某条链路间歇性轻微丢包,丢包率 0.3‰,传统监控压根抓不到。

百度内部,baize 跑了多年:

  • 集群间高频探测:机房内跨集群链路fullmesh监控
  • 机房间fullmesh探测:机房间,LCC机房链路fullmesh监控()
  • 混合云高频探测:A区和C区之间的混合云链路监控,5000 pps,秒级发现异常
  • 专线 SLA 监控:运营商专线质量持续监测,为 SLA 考核提供数据支撑
  • 网络改造保障:设备割接、链路升级期间持续监控,改造前后对比一目了然
  • 故障回切验证:从灾备切回主链路后,确认回切路径无丢包、无 bitflip后再切流

06 开源与社区

baize 是百度 nettools 工具集的第二个开源工具,MIT 协议。

内部版还支持从数据库拉配置、推数据到 Kafka 聚合,开源版做了简化,但留了可插拔的 Sender 接口——你可以自己实现,把数据发到 ClickHouse、Prometheus 或者任意后端。


网络监控这件事,不是能不能做的问题,是做得够不够细的问题。

每一条链路、每一个端口、每一个比特,都值得被监控。 这是我们在百度内部坚持的标准,今天开源出来,希望对你有用。

被间歇性轻微丢包折磨过的话,去 GitHub 点个 Star,试试 baize。