-
대형 언어 모델(LLM) 은 수학 문제에 불필요한 고양이 정보가 포함될 때 실수 빈도 증가 현상 보임
- 이와 같이 무관한 사실을 추가하면 LLM의 오류율이 최대 300% 증가하는 것으로 나타남
-
인간은 상관없는 정보에 쉽게 영향받지 않지만, LLM은 이로 인해 지시를 제대로 수행하지 못하는 문제점 드러남
- 이번 연구는 AI의 약점을 이해하고, 문제 설계의 중요성에 대한 인사이트를 제공함
- AI를 평가하거나 사용할 때, 입력 데이터의 불필요한 요소 관리가 필요함
연구 배경 및 현상
- 최신 AI인 대형 언어 모델(LLM) 은 수학 문제를 잘 풀지만, 문제에 상관없는 고양이 관련 사실을 포함하면 오류율이 극적으로 증가하는 현상 분석 결과 등장
- 연구에 따르면, ‘수학적 계산’과는 전혀 무관한 고양이의 생태나 습관, 기타 쓸데없는 부가 정보가 추가되면, LLM이 문제를 잘못 해석하거나 오류 있는 답변 산출 비율이 최대 300%까지 증가함
인간과 LLM의 차이
- 동일하게, 인간 대상 실험에서는 상관없는 정보가 있어도 정답률에 큰 영향 없음
- 그러나 LLM은 이러한 분산 정보에 민감하게 반응하여, 핵심 문제에서 벗어난 해석이나 오해 가능성 높음
AI 평가 및 입력 데이터 관리의 중요성
- 해당 현상은 LLM의 약점을 드러내는 동시에, AI를 적용하는 현실 상황에서 입력 데이터의 불필요한 정보 관리가 얼마나 중요한지 강조함
- 문제 설계 시 명확하고 관련성 있는 정보만을 제시하는 것이 AI의 정확도 향상에 핵심적임
시사점
- 앞으로 AI 도입과 서비스 적용에서, 입력 문항 내 불필요한 요소나 잡음 관리가 필수적임
- LLM이 갖고 있는 한계와 개선 포인트를 이해하려는 연구 및 개발 방향 제시함