LLM은 위임할 때 문서를 훼손한다
2 hours ago
1
- DELEGATE-52는 사용자가 LLM에 긴 문서 편집 작업을 맡기는 위임형 워크플로에서 문서가 얼마나 충실히 유지되는지 평가하는 벤치마크임
- 이 벤치마크는 코딩, 결정학, 악보 표기 등 52개 전문 영역에서 깊이 있는 문서 편집이 필요한 작업을 다루며, 예시 시뮬레이션은 20개의 연속 작업 위임으로 구성됨
- 19개 LLM 실험에서 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 같은 프런티어 모델도 긴 워크플로가 끝날 때 평균적으로 문서 내용의 25% 를 훼손함
- 문서 훼손은 드물지만 심각한 오류로 나타나며, 문서 크기, 상호작용 길이, 방해 파일이 늘어날수록 열화가 커지고 에이전트형 도구 사용도 성능을 개선하지 못함
- 현재 LLM은 위임형 문서 편집에서 신뢰할 수 있는 대리자로 보기 어렵고, microsoft/DELEGATE52와 datasets/microsoft/DELEGATE52가 DELEGATE-52 관련 자료로 공개됨
위임형 편집의 실패 양상
- 위임형 업무는 사용자가 작업을 LLM에 맡기고, LLM이 문서에 오류를 넣지 않고 작업을 수행할 것이라는 신뢰를 전제로 함
- 19개 LLM을 대상으로 한 대규모 실험에서 현재 모델들은 위임 과정에서 문서를 열화시킴
- 다른 모델들은 프런티어 모델보다 더 심각하게 실패함
- 문서 훼손은 긴 상호작용 동안 누적되어 문서를 조용히 망가뜨림
예시로 제시된 문서 변화
- Graph Diagrams 영역의 Linux Kernel Architecture 문서는 Gemini 3.1 Pro에서 원본 대비 4회 후 79%, 10회 후 49%, 14회 후 48%, 20회 후 48% 수준으로 표시됨
- Textile Patterns 영역의 12-Shaft Twill Diamond 문서는 Claude 4.6 Opus에서 원본 대비 4회 후 100%, 10회 후 40%, 14회 후 27%, 20회 후 34% 수준으로 표시됨
- 3D Objects 영역의 ActionBoy Palm Tree 문서는 GPT-5.2에서 원본 대비 4회 후 100%, 10회 후 31%, 14회 후 15%, 20회 후 6% 수준으로 표시됨
공개 자료
- microsoft/DELEGATE52
- datasets/microsoft/DELEGATE52
-
Homepage
-
Tech blog
- LLM은 위임할 때 문서를 훼손한다