딥러닝은 현재 가장 각광받는 기술로, 대규모 데이터를 활용해 혁신적인 논문을 Nature 같은 저명한 저널에 게재하는 경우 큰 관심과 인정을 얻음 효소는 생명체 내의 다양한 반응을 촉진하는 핵심 분자임 한 연구팀은 최신 Transformer 기반 딥러닝 모델을 사용하여, 기존에 알려지지 않은 E. coli 효소들의 기능을 예측함 그러나 해당 Nature 논문의 Transformer 모델은 수백 건의 잘못된 예측을 함 딥러닝 모델 예측 결과 중 실험대상으로 선정된 yciO 가 과거 Dr. de Crécy-Lagard의 연구 대상이었고, 본인의 경험 및 실험 결과와 전혀 맞지 않음을 알게 됨 de Crécy-Lagard 등은 135건의 예측이 실제로는 새로운 결과가 아닌 기존 데이터였음을 밝혀냄 효소 기능 분류에는 기존 기능의 전파와 미지 기능 발견 두 가지 유형이 존재함 AI 모델 개발은 큰 보상을 받지만, 세밀하게 데이터와 결과를 검증하며 도메인 지식 기반으로 오류를 판별하는 작업은 소홀히 여겨짐 연구 지원이 줄어드는 시기에, 다양한 각도의 과학·생명과학 연구, 그리고 결과 검증에 대한 더 많은 투자가 요구됨
딥러닝과 딥팩트체킹 : 상반된 인정과 보상
그러나 타 연구의 오류를 세심하게 검증해 수백 건의 심각한 실수를 밝혀내는 일은, 거의 인용되지 않고 대중의 관심도 받지 못하는 구조임
실제 사례로, 동일 연구 주제를 다룬 두 논문 ― 하나는 딥러닝 모델 결과 발표, 다른 하나는 그 오류를 세세하게 분석한 논문 ― 의 인용 및 조회 수가 극명하게 차이남효소 기능 예측의 문제
효소 기능 분류에는 EC(Enzyme Commission) 번호가 활용되며, 아미노산 서열로부터 효소의 기능을 예측하는 일은 머신러닝에 적합해 보임
UniProt 데이터베이스에는 2,200만 건이 넘는 효소와 그 EC 번호가 축적되어 있고, 이 방대한 데이터를 활용해 모델링이 진행됨Transformer 기반 접근 방식
BERT에서 차용한 네트워크 구조와 합리적인 학습·검증 절차, 해석 가능성을 높이기 위해 어텐션 영역 분석 등을 활용함
450여 개의 효소에 대해 새로운 예측을 했고, 이 중 무작위로 3개 효소를 실제 실험(in vitro)로 검증하여 모델의 정확성을 주장함드러난 오류들
테스트셋에서는 높은 성능을 보였으나, 이후 분석을 통해 데이터 유출(data leakage) 가능성도 제기됨
예를 들어, E. coli의 YjhQ 유전자의 경우, 실제로 해당 효소를 합성하지 않는 기능을 예측하였고, yciO 유전자 역시 생물학적으로 알려진 것과 다른 기능을 예측함
450건 중 135건은 이미 UniProt에 존재하는 정보였고, 148건은 생물학적으로 불가능한 수준의 반복 예측이 포함됨(동일 기능이 여러 유전자에 중복 예측된 현상)마이크로바이올로지 탐정: 오류 발견 과정
해당 유전자는 TsaC와 구조적 유사성은 있으나, 기능은 명확히 다름
단순 구조 유사성 외에도 유전자 네트워크, 대사경로, 기질 도킹 등 다양한 생명과학적 맥락이 효소 기능 규명에 필수적임추가 분석: 반복된 오류와 오답
반복성 오류, 데이터 불균형, 모델의 한계 등으로 인해 잘못된 예측이 양산됨
생물학적 맥락, 문헌 조사 및 실험 데이터 등을 통해 여러 예측이 부정확함이 확인됨
오답 데이터가 UniProt 같은 주요 데이터베이스에 들어가고, 이후 모델 학습 시 반복적으로 잘못된 정보가 확산될 위험이 증가함“진짜 미지수”와 효소 분류의 재고
머신러닝으로는 진정한 미지수를 예측할 수 없는 태생적 한계가 있음
기존 기능을 전파하는 데에는 유용할 수 있으나, 오류 전파와 데이터 큐레이션의 중요성을 간과하면 문제점이 증폭됨
잘못된 데이터가 반복해서 학습·전파되는 상황에서 오류가 더 쌓이는 현상도메인 전문성과 AI 신뢰성
실제 고위험 AI 프로젝트에서도, 도메인 전문 지식 부족이 대형 사고의 주요 원인임이 밝혀짐
결과를 면밀히 검증하는 일은 많지 않고, 대부분의 딥러닝 논문은 해당 분야 전문가가 세밀하게 오류를 검증하지 않는 현실
실제 품질 검증 없는 화려한 논문이 얼마나 많을지 알기 어려움
AI 결과 검증, 팩트체킹 연구에 대한 인정과 보상책 강화 필요성 대두결론: 데이터 검증의 가치 인정
화려한 AI만을 쫓는 왜곡된 연구 보상구조에 대한 재고가 절실함