Pillar I · 확률적 혼란
Dump Everything은 왜 실패하는가
LLM은 probabilistic engine — context에 데이터를 더 던질수록 노이즈는 신호보다 빠르게 증가한다
❌ 안일한 방식
"200k window가 있으니 — 다 넣어도 되네"
- 관련 토큰의 신호는 그대로
- 무관한 토큰의 노이즈는 비례 이상으로 증가
- 모델의 variance(출력 분산)가 폭발
- 같은 질문에 매번 다른 답 — probabilistic confusion
vs
⭐ 전략적 방식
"정확히 필요한 만큼의 데이터만"
- Fresh — 오늘 결정된 사실. 폐기된 결정은 뺀다
- Condensed — 5줄로 표현 가능한 걸 50줄로 두지 않는다
- 신호 토큰의 비중이 압도적으로 높아짐
- 같은 진입점 → 같은 트리 → 결정론적 수렴
"The prevailing myth that massive context windows eliminate the need for curation is a strategic fallacy."