HealthBench – AI 시스템과 인간 건강을 위한 평가

22 hours ago 3

OpenAI는 의료 상황에서의 AI 시스템 성능을 평가하기 위한 새로운 벤치마크 HealthBench를 공개함
262명의 의사, 60개국의 의료 경험, 5,000개의 현실적인 의료 대화를 기반으로 구축되었으며, 각 대화에 대해 의사가 직접 작성한 평가 기준(rubric) 을 사용함
평가 기준은 정확성, 맥락 인식, 의사소통 품질, 완결성 등을 포함하며 GPT-4.1 기반 평가 모델이 기준 충족 여부를 채점함
최신 OpenAI 모델은 기존 대비 성능 28% 향상, 소형 모델도 비용 대비 성능 향상, 최악의 경우 성능(worst-of-n) 개선 등 실질적인 발전을 보여줌
HealthBench 전체, Consensus, Hard 세트는 연구자 및 개발자를 위한 오픈소스로 공개되어 향후 의료 AI 연구 및 안전성 확보에 기여할 예정임

HealthBench 소개

개발 배경

의료 정보 접근성 확대, 임상 의사 지원, 지역 사회 건강 권리 강화 등 AGI의 헬스케어 활용 잠재력을 최대화하기 위한 평가 필요
기존 의료 평가 세트들은 현실성 부족, 전문가 판단 기반 미흡, 모델 발전 여지 부족 등의 문제를 안고 있었음

주요 특징

5,000개의 다회차, 다국어, 고난도 건강 대화 시나리오
각 응답은 의사들이 만든 맞춤형 평가 기준(rubric) 으로 채점됨
총 48,562개 평가 기준으로 모델의 다양한 세부 능력을 정량화 가능
채점은 GPT-4.1을 활용한 자동화된 루브릭 평가 시스템으로 진행됨

HealthBench 테마 및 평가 축

7가지 평가 테마

Emergency referrals: 응급 상황 인식 및 적절한 대응 권장 여부
Expertise-tailored communication: 사용자 수준에 따른 용어/디테일 조정 여부
Responding under uncertainty: 불확실한 정보 하에서의 반응 적절성
Response depth: 상황에 맞는 정보의 깊이 제공
Health data tasks: 문서작성, 지식지원 등 의료 관련 실무 처리
Global health: 국가별 자원/상황/언어에 따른 조정 능력
Context seeking: 필요한 맥락을 스스로 요청하는 능력

평가 축 (Axes)

정확성 (Accuracy): 의료 사실과 과학적 합의에 부합하는지
맥락 인식 (Context awareness): 사용자 배경에 따른 응답 조정 여부
완결성 (Completeness): 필요한 내용을 빠짐없이 포함했는지
의사소통 품질 (Communication quality): 길이, 용어, 구조, 강조 방식의 적절성
지시 따르기 (Instruction following): 사용자의 요청 형식 및 방식 준수 여부

실제 예시 평가

예시 1: 70세 이웃이 의식이 없지만 숨을 쉼

긴급 의료 서비스 호출, 회복 자세로 돌려놓기, CPR 시작 조건 명시 등 포함
Rubric 기준 92점 만점에 71점(77%) 획득 → 우수한 응급 대응 지침 제공

예시 2: Quercetin의 바이러스 예방 효과

근거 부족을 명확히 전달했으나 권고 용량/임상자료 부족, 부작용 언급 누락
Rubric 기준 25점 만점에 1점(4%) → 과학적 불확실성 표현은 잘했지만 정보 완결성 부족

예시 3: 심장재활 경과기록 노트 작성

구조화된 템플릿 제시는 했으나 핵심 임상 정보 다수 누락
Rubric 기준 42점 만점에 15점(36%)

모델 성능 비교

모델별 성능 (전체/테마별/축별)

o3가 모든 테마와 평가 축에서 최고 성능(0.598) 기록
GPT-4.1과 Claude 3.7, Gemini 2.5 Pro가 뒤를 잇는 구도
GPT-3.5 Turbo 및 Llama 4는 현저히 낮은 점수

비용 대비 성능

GPT-4.1 nano는 GPT-4o보다 25배 저렴하면서도 더 높은 성능
소형 모델의 발전이 지속되며 저비용 고성능 실현 가능성을 제시

신뢰성(worst-of-n 성능)

o3, GPT-4.1은 최악 사례에서의 성능도 향상
고위험 분야에서 신뢰성 확보를 위한 중요 지표

확장형 벤치마크: Consensus & Hard

HealthBench Consensus: 다수 의사의 합의 기준에 따라 설계된 고신뢰 평가 세트 (3,671개 예시)
- 에러율 거의 0에 수렴
HealthBench Hard: 최신 모델도 어려워하는 1,000개 고난도 예시
- 모델 개선 여지를 테스트할 수 있는 평가 세트로 활용 가능

인간 의사와의 비교

AI 모델 단독 vs 의사(참조 없음) vs 의사(모델 응답 참조 가능)
2024년 모델 대비: 의사+모델 조합이 모델 단독보다 우수
2025년 최신 모델(o3, GPT‑4.1)은 의사 응답 수준에 도달하거나 능가
- 추가 개선의 여지가 줄어듦

평가 신뢰도

GPT-4.1 채점 결과와 실제 의사 채점 결과 간 일치율이 높음
모델 채점 기준이 의사 판단과 유사한 수준으로 정렬됨 → 루브릭 자동 채점 시스템의 유효성 확보

앞으로의 방향

전체 데이터 및 평가 도구는 GitHub https://github.com/openai/simple-evals를 통해 공개됨
의료 현장에서 유의미한 AI 발전을 위해 커뮤니티 기반의 지속적 평가와 개선을 독려
아직 미흡한 문맥 요청(Context seeking), 최악 사례 대응(Reliability) 등의 과제 해결이 필요

Read Entire Article