파트 1 · Ch05 · Oncall Agent
언제 사람을 깨우는가
너무 많이 깨우면 신뢰를 잃고, 너무 적게 깨우면 사고를 놓친다 — 두 축을 곱해 게이트를 만든다
축 1 · Confidence Score
과거 동일 패턴 매칭 / 단일 원인 후보 / 명확한 stack trace 여부
축 2 · Blast Radius
사용자 수 / 매출 영향 / downstream 서비스 수 / 시간대 (peak hour 여부)
| Blast Radius 작음 | Blast Radius 큼 |
| Confidence 높음 | Slack 알림만 | Slack + on-call 호출 |
| Confidence 낮음 | on-call 호출 | on-call + manager 호출 |
원칙 하나만 기억한다 — 불확실하면 깨운다
False positive 비용 < False negative 비용. 임계치는 보수적으로 두고 1~2달 데이터로 푼다 — 처음부터 똑똑하게 튜닝하려 하지 말 것.