Pillar I · 확률적 혼란

Dump Everything은 왜 실패하는가

LLM은 probabilistic engine — context에 데이터를 더 던질수록 노이즈는 신호보다 빠르게 증가한다

❌ 안일한 방식

Dump Everything

"200k window가 있으니 — 다 넣어도 되네"

관련 토큰의 신호는 그대로
무관한 토큰의 노이즈는 비례 이상으로 증가
모델의 variance(출력 분산)가 폭발
같은 질문에 매번 다른 답 — probabilistic confusion

vs

⭐ 전략적 방식

Fresh + Condensed

"정확히 필요한 만큼의 데이터만"

Fresh — 오늘 결정된 사실. 폐기된 결정은 뺀다
Condensed — 5줄로 표현 가능한 걸 50줄로 두지 않는다
신호 토큰의 비중이 압도적으로 높아짐
같은 진입점 → 같은 트리 → 결정론적 수렴

"The prevailing myth that massive context windows eliminate the need for curation is a strategic fallacy."