#ops
CF验尸报告:
省流:
1. ClickHouse 的权限改动导致非预期的 Bot Management 配置文件增大。
2. Cloudflare 模块因为性能原因是预分配内存的,所以在读到过大的配置文件时……
3. 因为是自己生成的配置文件,所以自然而然的使用了
4. 因为这个 ClickHouse 的改动是逐步部署的,所以大家看到了喜闻乐见的仰卧起坐情况。
5. 部署修复之后,一大堆人同时试着登录以及默认的重试也降低了服务可用性。
CF 打算做的增强:
1. 对自己生成的配置文件也按照用户输入进行读取;
2. 提供全局开关来控制特性启用;
3. Coredumps和其他错误报告不再干死整个系统;
4. 重新检查所有代理模块的失效模型。
编者点评:
这个模块为啥不能是 fail-open 的?
https://blog.cloudflare.com/18-november-2025-outage/
CF验尸报告:
省流:
1. ClickHouse 的权限改动导致非预期的 Bot Management 配置文件增大。
2. Cloudflare 模块因为性能原因是预分配内存的,所以在读到过大的配置文件时……
3. 因为是自己生成的配置文件,所以自然而然的使用了
.unwrap() ,也就自然而然地 panic 了。4. 因为这个 ClickHouse 的改动是逐步部署的,所以大家看到了喜闻乐见的仰卧起坐情况。
5. 部署修复之后,一大堆人同时试着登录以及默认的重试也降低了服务可用性。
CF 打算做的增强:
1. 对自己生成的配置文件也按照用户输入进行读取;
2. 提供全局开关来控制特性启用;
3. Coredumps和其他错误报告不再干死整个系统;
4. 重新检查所有代理模块的失效模型。
编者点评:
这个模块为啥不能是 fail-open 的?
https://blog.cloudflare.com/18-november-2025-outage/