서울대병원·하버드의대 공동연구팀
가상병원 기반 AI 평가 모델 첫 공개
과거의 정적인 데이터에 갇혀 필기시험 수준에 머물렀던 의료 인공지능(AI) 평가 체계가 전환점을 맞이했다. 실제 임상 현장과 똑같은 환경의 가상 병원을 구축해 AI의 실무 능력을 실전처럼 검증하는 모델이 세계 최초로 발표된 것이다.
이로써 AI의 처방이 환자의 예후는 물론, 병원 자원 고갈에 미치는 연쇄적 파급 효과까지 사전에 검증할 수 있게 됐다. 실제 환자의 생명을 담보로 하지 않고도 AI의 안전성을 철저히 시험할 수 있는 전임상 관문이 열렸다는 평가다.
김성은 서울대병원 의생명연구원 특화연구소 연구교수와 하버드 의대 공동 연구팀은 거대언어모델(LLM) 기반의 의료 AI를 동적으로 평가하는 ‘임상 환경 시뮬레이터(CES)’를 공개했다고 14일 밝혔다. 의료 AI의 패러다임을 바꿀 이번 연구 결과는 세계적 권위의 국제 학술지인 ‘네이처 메디슨(Nature Medicine, IF 50)’ 최신 온라인판에 게재됐다.
기존 의료 AI 평가는 이미 확정된 과거 데이터에 의존하는 정적 평가 방식이었다. 이 때문에 AI의 결정이 현장에서 유발하는 실시간 변화와 연쇄적인 반응을 포착하는 데 한계가 있었다. 실제 의료 현장에서 환자의 상태는 시시각각 변하며 의사의 처방은 곧 병원의 제한된 인력과 장비 소모로 직결된다.
연구팀은 바로 이 지점, 즉 시간적·시스템적 상호의존성을 평가하기 위해 새로운 접근이 필요하다고 판단했다. 마치 베테랑 조종사가 비행 시뮬레이터에서 수만번의 훈련을 거치듯, 의료 AI 역시 시간의 흐름과 자원 제약이라는 극한 상황 속에서 대처 능력을 평가받아야 한다는 분석이다.
AI의 모든 결정을 ‘환자 예후’와
‘병원 운영 효율성’이라는
이중지표 복합 점수로 평가
이를 구현하기 위해 연구팀은 두 가지 핵심 엔진을 정교하게 동기화했다. 첫째는 가상 경로를 동적으로 생성해 환자의 상태 변화를 실감 나게 모사하는 환자 엔진이다. 둘째는 현장의 단계별 업무 흐름을 재현해 병상, 의료진, 장비 상태를 실시간으로 추적하는 병원 엔진이다. 이 두 엔진이 톱니바퀴처럼 맞물리며 실제 병원 환경을 디지털 공간에 완벽하게 복제해냈다.
이 가상병원 시스템 안에서 AI의 개입은 실제 위기 상황으로 이어진다. AI가 내린 단 하나의 결정이 특정 환자의 생사를 가르는 결정타가 될 수도 있고, 무분별한 처방으로 병원의 남은 자원을 고갈시켜 다음 대기 환자의 진료 기회를 박탈하는 상황을 초래할 수도 있다. CES는 AI의 모든 결정을 ‘환자 예후’와 ‘병원 운영 효율성’이라는 두 가지 축을 결합한 이중 지표 복합 점수로 통합 평가해 그 유효성을 입증한다.
이번 연구의 의의는 실제 환자를 위험에 노출시키지 않고도 AI 시스템의 안전성과 신뢰성을 증명할 수 있는 무위험 전임상 검증 환경을 구축했다는 데 있다. 이제 의료 AI는 단순히 단편적인 문제를 푸는 도구의 수준을 넘어섰다. 이번 연구는 AI가 역동적인 의료 체계 내에 완전히 통합돼 의료진과 환자에게 실제적인 도움을 줄 수 있도록 검증하는, 가장 가치 있는 다음 단계가 될 전망이다.



![[포토] "아 시원해" 더위 날리는 물놀이](https://pimg.mk.co.kr/news/cms/202604/20/20260420_01110125000008_L00.jpg)








English (US) ·