실패 시나리오 — 같은 모델, 같은 작업
검증 없는 Loop는 어떻게 깨지는가
"신용카드 환불 기능 추가해줘" — 검증 인프라의 유무만 차이
시나리오 A · 검증 부재
❌ 자체 평가만 — 운영 사고
"잘 동작할 것 같습니다" → 머지 → 배포
2
agent 코드 작성 → 자체 평가: "잘 동작할 것 같습니다"
4
운영 발견: minor unit 변환 오류 — 금액 100배 환불 발생
5
1주일치 환불 정정, customer support 폭주
6
post-mortem 결론 — "agent가 자기 작업을 검증하지 못했다"
시나리오 B · 2-Layer 검증
✅ Self-correction loop 가동
pytest + LogQL → 통과 → 머지
2
agent 코드 작성 → pytest -x 자동 실행 (Layer 1) — edge case 실패
3
실패 traceback 분석 → 코드 수정 → 재실행 → 통과
4
LogQL 쿼리 실행 (Layer 2) — 비정상 금액 0건 확인
결과
사고 0건 · validated work
⚡ 같은 모델, 같은 작업 — 차이는 self-correction loop의 인프라 하나. 그 하나가 장애 1주와 사고 0건을 가른다.