만드는 AI ≠ 검사하는 AI

자기가 쓴 글의 오타는 안 보인다 — 같은 맥락에 갇히면 같은 실수를 못 본다

Generator가 자기 검토

같은 맥락 → 같은 실수 못 봄

"내가 이렇게 짰으니 맞겠지"

어설퍼도 자신 있게 칭찬

"훌륭하게 구현했습니다"

≠

Evaluator를 물리적 분리

다른 세션 · 다른 컨텍스트

깨끗한 눈으로 본다

"너는 깐깐한 리뷰어다, 문제를 찾아라"

제 역할을 한다

실전 팁 — 검사하는 쪽을 깐깐하게 튜닝하는 게, 만드는 쪽을 자기비판적으로 만드는 것보다 훨씬 쉽다

만드는 AI한테 검사를 맡기지 마라