지식 노동의 시뮬라크르
7 hours ago
2
- 지식 노동의 품질은 결과를 직접 다시 해보지 않으면 확인하기 어려워서, 실제 정확성보다 겉보기 완성도 같은 대리 지표에 의존하게 됨
- 날짜 오류나 그래프 라벨 문제처럼 표면적 결함이 보이면 본문 결론과 무관해도 결과물 전체를 폐기하기 쉬우며, 판단 기준도 현실 반영보다 값싸게 확인 가능한 외형으로 기울어짐
- LLM은 실제 작업 품질을 재현하지 않아도 그럴듯한 문체와 형식을 잘 흉내 내서, 보고서나 코드의 의식적 절차는 남아 있어도 그 아래 품질은 비어 있을 수 있음
- 측정되는 기준이 표면적 품질이면 산출물 대부분을 LLM이 쓰게 되는 쪽이 합리적이 되고, LLM 자체도 진실성이나 유용성보다 고품질로 보이는 출력에 맞춰 최적화됨
- 그 결과 수십억 달러짜리 시스템이 실제 일보다 일의 모사에 쓰이기 쉬워지고, 대충 훑어본 뒤 LGTM을 붙이는 흐름이 Goodhart's law를 자동화한 상태로 이어짐
LLM이 바꾼 구조와 결과
- LLM은 실제 작업 품질을 재현하지 않아도 그럴듯한 문체와 형식을 매우 잘 흉내 냄
- ChatGPT로 작성한 시장 분석 보고서는 상위 컨설팅 회사의 산출물처럼 읽히고 보일 수 있음
- 소프트웨어 엔지니어는 잠깐 훑어보면 고품질처럼 보이는 코드를 수천 줄 만들 수 있고, 동료는 다시 AI로 코드 리뷰를 돌려 문제를 찾아 수정할 수 있음
- 그 결과 작업의 의식적 절차는 유지되지만, 그 아래의 실제 품질은 비어 있을 수 있음
- 측정되는 기준이 표면적 품질이면, 노동자는 그 기준에서 잘 보이도록 행동하는 편이 합리적이어서 산출물 대부분을 LLM이 쓰게 됨
- LLM 학습도 답이 참인지, 유용한지보다 학습 말뭉치에 나올 법한지 또는 RLHF 평가자가 만족하는지에 맞춰짐
- 결국 LLM 자체도 고품질처럼 보이는 출력을 만들도록 최적화됨
- 수십억 달러를 들여 만든 시스템이 실제 일보다 일의 모사를 수행하는 데 쓰이게 됨
- 기업들은 누가 더 많은 토큰을 쓰는지 경쟁하는 상태가 됨
- 노동자가 LLM 출력을 더 많이 만들수록, 그 출력을 깊이 검토하는 시간은 더 줄어듦
- 남는 것은 대충 훑어보고 LGTM을 붙인 뒤 다음 Claude Code 세션을 여는 흐름뿐임
-
Homepage
-
Tech blog
- 지식 노동의 시뮬라크르