실패 시나리오 — 같은 모델, 같은 작업

검증 없는 Loop는 어떻게 깨지는가

"신용카드 환불 기능 추가해줘" — 검증 인프라의 유무만 차이
시나리오 A · 검증 부재
❌ 자체 평가만 — 운영 사고
"잘 동작할 것 같습니다" → 머지 → 배포
1
엔지니어: "환불 기능 추가"
2
agent 코드 작성 → 자체 평가: "잘 동작할 것 같습니다"
3
PR 머지, 배포
4
운영 발견: minor unit 변환 오류 — 금액 100배 환불 발생
5
1주일치 환불 정정, customer support 폭주
6
post-mortem 결론 — "agent가 자기 작업을 검증하지 못했다"
결과
장애 1주 · 환불 정정 폭주
시나리오 B · 2-Layer 검증
✅ Self-correction loop 가동
pytest + LogQL → 통과 → 머지
1
엔지니어: "환불 기능 추가"
2
agent 코드 작성 → pytest -x 자동 실행 (Layer 1) — edge case 실패
3
실패 traceback 분석 → 코드 수정 → 재실행 → 통과
4
LogQL 쿼리 실행 (Layer 2) — 비정상 금액 0건 확인
5
두 layer 모두 통과 → PR 머지
6
운영 환경 — 사고 0건
결과
사고 0건 · validated work
⚡ 같은 모델, 같은 작업 — 차이는 self-correction loop의 인프라 하나. 그 하나가 장애 1주사고 0건을 가른다.