지식 노동의 시뮬라크르

7 hours ago 2

지식 노동의 품질은 결과를 직접 다시 해보지 않으면 확인하기 어려워서, 실제 정확성보다 겉보기 완성도 같은 대리 지표에 의존하게 됨
날짜 오류나 그래프 라벨 문제처럼 표면적 결함이 보이면 본문 결론과 무관해도 결과물 전체를 폐기하기 쉬우며, 판단 기준도 현실 반영보다 값싸게 확인 가능한 외형으로 기울어짐
LLM은 실제 작업 품질을 재현하지 않아도 그럴듯한 문체와 형식을 잘 흉내 내서, 보고서나 코드의 의식적 절차는 남아 있어도 그 아래 품질은 비어 있을 수 있음
측정되는 기준이 표면적 품질이면 산출물 대부분을 LLM이 쓰게 되는 쪽이 합리적이 되고, LLM 자체도 진실성이나 유용성보다 고품질로 보이는 출력에 맞춰 최적화됨
그 결과 수십억 달러짜리 시스템이 실제 일보다 일의 모사에 쓰이기 쉬워지고, 대충 훑어본 뒤 LGTM을 붙이는 흐름이 Goodhart's law를 자동화한 상태로 이어짐

LLM이 바꾼 구조와 결과

LLM은 실제 작업 품질을 재현하지 않아도 그럴듯한 문체와 형식을 매우 잘 흉내 냄
ChatGPT로 작성한 시장 분석 보고서는 상위 컨설팅 회사의 산출물처럼 읽히고 보일 수 있음
소프트웨어 엔지니어는 잠깐 훑어보면 고품질처럼 보이는 코드를 수천 줄 만들 수 있고, 동료는 다시 AI로 코드 리뷰를 돌려 문제를 찾아 수정할 수 있음
그 결과 작업의 의식적 절차는 유지되지만, 그 아래의 실제 품질은 비어 있을 수 있음
측정되는 기준이 표면적 품질이면, 노동자는 그 기준에서 잘 보이도록 행동하는 편이 합리적이어서 산출물 대부분을 LLM이 쓰게 됨
LLM 학습도 답이 참인지, 유용한지보다 학습 말뭉치에 나올 법한지 또는 RLHF 평가자가 만족하는지에 맞춰짐
결국 LLM 자체도 고품질처럼 보이는 출력을 만들도록 최적화됨
수십억 달러를 들여 만든 시스템이 실제 일보다 일의 모사를 수행하는 데 쓰이게 됨
기업들은 누가 더 많은 토큰을 쓰는지 경쟁하는 상태가 됨
노동자가 LLM 출력을 더 많이 만들수록, 그 출력을 깊이 검토하는 시간은 더 줄어듦
남는 것은 대충 훑어보고 LGTM을 붙인 뒤 다음 Claude Code 세션을 여는 흐름뿐임

Read Entire Article