딥러닝은 주목받지만, 딥팩트체킹은 외면받음

2 days ago 4

딥러닝 기반 논문은 혁신적으로 보이고 높은 평가를 받음
사실 검증과 오류 지적은 논문 인용이나 조회 수에서 제대로 보상받지 못함
실험적으로 뛰어난 것처럼 보인 AI 모델도 실제로는 수백 건의 잘못된 예측을 포함함
도메인 전문가의 심층적 검증 없이 AI 결과 신뢰가 쉽지 않음
반짝이는 AI 연구보다 데이터와 결과 검증 작업의 중요성을 더 인정해야 함

딥러닝과 딥팩트체킹 : 상반된 인정과 보상

딥러닝은 현재 가장 각광받는 기술로, 대규모 데이터를 활용해 혁신적인 논문을 Nature 같은 저명한 저널에 게재하는 경우 큰 관심과 인정을 얻음
그러나 타 연구의 오류를 세심하게 검증해 수백 건의 심각한 실수를 밝혀내는 일은, 거의 인용되지 않고 대중의 관심도 받지 못하는 구조임
실제 사례로, 동일 연구 주제를 다룬 두 논문 ― 하나는 딥러닝 모델 결과 발표, 다른 하나는 그 오류를 세세하게 분석한 논문 ― 의 인용 및 조회 수가 극명하게 차이남

효소 기능 예측의 문제

효소는 생명체 내의 다양한 반응을 촉진하는 핵심 분자임
효소 기능 분류에는 EC(Enzyme Commission) 번호가 활용되며, 아미노산 서열로부터 효소의 기능을 예측하는 일은 머신러닝에 적합해 보임
UniProt 데이터베이스에는 2,200만 건이 넘는 효소와 그 EC 번호가 축적되어 있고, 이 방대한 데이터를 활용해 모델링이 진행됨

Transformer 기반 접근 방식

한 연구팀은 최신 Transformer 기반 딥러닝 모델을 사용하여, 기존에 알려지지 않은 E. coli 효소들의 기능을 예측함
BERT에서 차용한 네트워크 구조와 합리적인 학습·검증 절차, 해석 가능성을 높이기 위해 어텐션 영역 분석 등을 활용함
450여 개의 효소에 대해 새로운 예측을 했고, 이 중 무작위로 3개 효소를 실제 실험(in vitro)로 검증하여 모델의 정확성을 주장함

드러난 오류들

그러나 해당 Nature 논문의 Transformer 모델은 수백 건의 잘못된 예측을 함
테스트셋에서는 높은 성능을 보였으나, 이후 분석을 통해 데이터 유출(data leakage) 가능성도 제기됨
예를 들어, E. coli의 YjhQ 유전자의 경우, 실제로 해당 효소를 합성하지 않는 기능을 예측하였고, yciO 유전자 역시 생물학적으로 알려진 것과 다른 기능을 예측함
450건 중 135건은 이미 UniProt에 존재하는 정보였고, 148건은 생물학적으로 불가능한 수준의 반복 예측이 포함됨(동일 기능이 여러 유전자에 중복 예측된 현상)

마이크로바이올로지 탐정: 오류 발견 과정

딥러닝 모델 예측 결과 중 실험대상으로 선정된 yciO 가 과거 Dr. de Crécy-Lagard의 연구 대상이었고, 본인의 경험 및 실험 결과와 전혀 맞지 않음을 알게 됨
해당 유전자는 TsaC와 구조적 유사성은 있으나, 기능은 명확히 다름
단순 구조 유사성 외에도 유전자 네트워크, 대사경로, 기질 도킹 등 다양한 생명과학적 맥락이 효소 기능 규명에 필수적임

추가 분석: 반복된 오류와 오답

de Crécy-Lagard 등은 135건의 예측이 실제로는 새로운 결과가 아닌 기존 데이터였음을 밝혀냄
반복성 오류, 데이터 불균형, 모델의 한계 등으로 인해 잘못된 예측이 양산됨
생물학적 맥락, 문헌 조사 및 실험 데이터 등을 통해 여러 예측이 부정확함이 확인됨
오답 데이터가 UniProt 같은 주요 데이터베이스에 들어가고, 이후 모델 학습 시 반복적으로 잘못된 정보가 확산될 위험이 증가함

“진짜 미지수”와 효소 분류의 재고

효소 기능 분류에는 기존 기능의 전파와 미지 기능 발견 두 가지 유형이 존재함
머신러닝으로는 진정한 미지수를 예측할 수 없는 태생적 한계가 있음
기존 기능을 전파하는 데에는 유용할 수 있으나, 오류 전파와 데이터 큐레이션의 중요성을 간과하면 문제점이 증폭됨
잘못된 데이터가 반복해서 학습·전파되는 상황에서 오류가 더 쌓이는 현상

도메인 전문성과 AI 신뢰성

AI 모델 개발은 큰 보상을 받지만, 세밀하게 데이터와 결과를 검증하며 도메인 지식 기반으로 오류를 판별하는 작업은 소홀히 여겨짐
실제 고위험 AI 프로젝트에서도, 도메인 전문 지식 부족이 대형 사고의 주요 원인임이 밝혀짐
결과를 면밀히 검증하는 일은 많지 않고, 대부분의 딥러닝 논문은 해당 분야 전문가가 세밀하게 오류를 검증하지 않는 현실
실제 품질 검증 없는 화려한 논문이 얼마나 많을지 알기 어려움
AI 결과 검증, 팩트체킹 연구에 대한 인정과 보상책 강화 필요성 대두