USMLE는 1992년부터 미국 의대생·의사 지식을 평가하는 테스트다. 미국에서 의료업무를 하기 전에 반드시 합격해야 하는 시험이다. 테스트는 3단계로 이뤄져 있다. 1단계는 의과대학 2학년 말, 2단계는 4학년 말, 3단계는 의대·레지던트 1학년을 마친 후에 진행된다. 미국에서 매년 10만명 넘는 학생이 이 시험을 본다.
(사진=셔터스톡) 이번 연구는 미국 앤서블 연구팀이 진행했다. 이 팀은 챗GPT에USMLE질문 350개를 주입했다. 실험은 지난해 6월 실시된 시험 문제로 진행됐다. 연구진은 세 번에 걸쳐 챗GPT의 답을 검토했다. 두 번은 일반 의사가 평가했다. 애매한 답변은 의료 전문가들이 재검토했다.
챗GPT는 응답률 88.9%를 기록했다. 연구진은 응답을 '명확' '비명확' '임상적으로 유효'로 나눠 평가했다. 연구팀은 "응답 분류 중 '비명확' 부문이 가장 적었다"며 "결과적으로 챗GPT는 최대 75점까지 받을 수 있다"고 평했다.
챗GPT는 의학 문헌만 학습한 언어 모델 '펍메드GPT'보다 높은 성능을 보였다. 펌메드GPT는USMLE시험에서 50점을 받은 바 있다.
앤서블 연구진은 "챗GPT는 별도의 인간 피드백 없이USMLE합격 점수에 도달했다”며 “이는 대화형AI챗봇에 주목할 만한 이정표를 나타낸다”고 말했다.