数据可观测性与质量平台演练
本文演示一个以规则口径、异常检测、告警路径和修复闭环为核心的数据可观测性 / 质量平台仓库,如何从需求澄清到 review 收口完整跑通。
1. 场景
- 仓库当前主要维护数据质量规则、异常检测与告警链路
- 团队准备新增一条质量规则,并同步补齐告警和处置路径
- 目标不是改业务页面,而是把异常发现和修复治理成可解释、可跟踪的状态
2. 推荐链路
/team-intake/team-plan/tdd/team-execute/verify/team-review
3. 第一步:/team-intake
输入示例
text
/team-intake
目标:为数据可观测性平台新增质量规则并补齐告警与修复闭环
范围:规则定义、异常检测、告警通道、结果汇总、测试计划
不做:无关分析台 UI 改造
约束:必须说明规则口径、误报/漏报风险、告警责任和处置路径4. 第二步:/team-plan
需要拆清的动作
- 规则定义与阈值
- 异常信号与告警路径
- 误报 / 漏报验证
- review 中的可接受噪音和优化方向
5. 第三步:/tdd
重点是先锁:
- 规则口径与阈值
- 告警是否可行动
- 误报 / 漏报判断标准
- 谁来接异常处置
6. 第四步:/team-execute
执行阶段通常包含:
- 调整质量规则与检测逻辑
- 调整告警通道与结果汇总
- 更新 review 摘要和责任路径
7. 第五步:/verify
Verify 阶段要回答:
- 规则是否有效发现异常
- 误报 / 漏报是否在可接受范围
- 告警是否能指导行动
8. 第六步:/team-review
Review 阶段要回答:
- 当前噪音是否可接受
- 哪些告警仍需优化
- 当前是否适合继续推广或放量
9. 常见错误
- 只看规则命中,不看告警是否可用
- 没明确误报 / 漏报的接受度
- 没有把责任路径写进 review 结论