스탠포드 대학의 AI 기반 VeriFact는 환자 기록의 임상 텍스트 정확성을 검증합니다.

1–2 minutes

인공지능(AI)이 놀라울 정도로 정확하게 임상 문서를 생성하여 인간의 오류가 발생할 여지를 거의 남기지 않는 세상을 상상해 보세요. 마치 꿈처럼 들리지 않나요? 스탠포드 대학교 연구진은 임상 환경에서 대규모 언어 모델(LLM)이 생성한 텍스트의 정확성을 검증하도록 설계된 AI 기반 플랫폼인 VeriFact를 개발하여 이러한 꿈에 한 걸음 더 다가섰습니다.

## VeriFact 작동 방식

VeriFact는 LLM이 생성한 문서의 내용을 환자의 전자 건강 기록(EHR)과 비교하여 사실 여부를 확인하는 AI 시스템입니다. 이 과정은 EHR에서 관련 데이터를 분석하고, LLM을 평가 기준으로 사용하여 생성된 내용이 데이터에 의해 뒷받침되는지 여부를 판단하는 방식으로 진행됩니다. VeriFact는 환자별 사실 검증을 수행하고, 오류를 찾아내며, 오류의 근본 원인을 설명합니다.

VeriFact 개발진은 임상의가 직접 주석을 단 벤치마크 데이터셋인 VeriFact-BHC를 제작했습니다. 이 데이터셋은 병원 퇴원 기록을 개별 사례로 분석하고, 각 사례가 실제 전자건강기록(EHR)에 의해 뒷받침되는지 여부를 표시합니다. VeriFact-BHC 데이터셋은 100명의 환자와 13,070개의 진술로 구성되어 있으며, 각 진술은 간략한 입원 과정에서 추출되었고, 3명 이상의 임상의가 주석을 달았습니다.

## 결과

NEJM AI에 발표된 연구에서 연구진은 임상 환경에서 LLM(로컬 라이프 모델링)으로 생성된 텍스트의 정확도를 환자의 실제 의료 기록과 비교하여 검증했습니다. VeriFact는 임상의와의 일치율이 93.2%에 달하는 놀라운 결과를 보여주며, 사실 검증에서 인간 평가자를 능가했습니다. 임상의 간 최고 일치율은 88.5%로, VeriFact가 인간보다 더 일관된 사실 검증 결과를 제공할 수 있음을 시사합니다.

## 한계 및 향후 연구 방향

VeriFact는 임상 문서의 정확도를 향상시키는 데 매우 유망한 기술이지만, 연구진은 이번 연구에서 몇 가지 한계를 지적했습니다. 예를 들어, 그들은 추가적인 검색 또는 재순위 모델을 탐색하지 않았고, 의학 분야별 LLM을 평가하거나 도메인별 미세 조정을 수행하지도 않았습니다. 또한 VeriFact는 EHR을 정보의 원천으로 사용하는데, EHR은 신규 환자의 경우 불완전하거나 오진, 의사소통 오류 또는 오래된 정보로 인해 오류가 포함될 수 있습니다.

이러한 한계에도 불구하고 VeriFact는 의료진이 환자 진료 기록의 사실을 검증하는 방식을 혁신할 잠재력을 가지고 있습니다. 차트 검토가 필요한 작업을 자동화함으로써 VeriFact는 의료진이 LLM이 작성한 문서를 환자의 EHR에 저장하기 전에 사실을 검증할 수 있도록 지원합니다. 이는 환자 치료 결과 개선 및 의료 오류 감소로 이어질 수 있습니다.

향후 VeriFact-BHC 데이터셋은 환자 진료 기록의 사실 검증을 위한 새로운 방법론을 개발하고 벤치마킹하는 데 사용될 수 있습니다. 여기에는 추가적인 검색 또는 재순위 모델 탐색, 의학 분야별 LLM 평가, 도메인별 미세 조정 수행 등이 포함될 수 있습니다. VeriFact를 지속적으로 개선하고 정교화함으로써 연구원과 임상의는 협력하여 환자 진료 기록의 사실 여부를 더욱 정확하고 신뢰할 수 있는 방식으로 검증하는 시스템을 구축할 수 있습니다.

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI