LLM은 위임할 때 문서를 훼손한다

2 hours ago 1

DELEGATE-52는 사용자가 LLM에 긴 문서 편집 작업을 맡기는 위임형 워크플로에서 문서가 얼마나 충실히 유지되는지 평가하는 벤치마크임
이 벤치마크는 코딩, 결정학, 악보 표기 등 52개 전문 영역에서 깊이 있는 문서 편집이 필요한 작업을 다루며, 예시 시뮬레이션은 20개의 연속 작업 위임으로 구성됨
19개 LLM 실험에서 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 같은 프런티어 모델도 긴 워크플로가 끝날 때 평균적으로 문서 내용의 25% 를 훼손함
문서 훼손은 드물지만 심각한 오류로 나타나며, 문서 크기, 상호작용 길이, 방해 파일이 늘어날수록 열화가 커지고 에이전트형 도구 사용도 성능을 개선하지 못함
현재 LLM은 위임형 문서 편집에서 신뢰할 수 있는 대리자로 보기 어렵고, microsoft/DELEGATE52와 datasets/microsoft/DELEGATE52가 DELEGATE-52 관련 자료로 공개됨

위임형 편집의 실패 양상

위임형 업무는 사용자가 작업을 LLM에 맡기고, LLM이 문서에 오류를 넣지 않고 작업을 수행할 것이라는 신뢰를 전제로 함
19개 LLM을 대상으로 한 대규모 실험에서 현재 모델들은 위임 과정에서 문서를 열화시킴
다른 모델들은 프런티어 모델보다 더 심각하게 실패함
문서 훼손은 긴 상호작용 동안 누적되어 문서를 조용히 망가뜨림

예시로 제시된 문서 변화

Graph Diagrams 영역의 Linux Kernel Architecture 문서는 Gemini 3.1 Pro에서 원본 대비 4회 후 79%, 10회 후 49%, 14회 후 48%, 20회 후 48% 수준으로 표시됨
Textile Patterns 영역의 12-Shaft Twill Diamond 문서는 Claude 4.6 Opus에서 원본 대비 4회 후 100%, 10회 후 40%, 14회 후 27%, 20회 후 34% 수준으로 표시됨
3D Objects 영역의 ActionBoy Palm Tree 문서는 GPT-5.2에서 원본 대비 4회 후 100%, 10회 후 31%, 14회 후 15%, 20회 후 6% 수준으로 표시됨

공개 자료

microsoft/DELEGATE52
datasets/microsoft/DELEGATE52

Read Entire Article