想像一下,人工智慧 (AI) 能夠以驚人的精準度生成臨床文檔,幾乎杜絕人為錯誤。這聽起來是不是像是夢想成真?史丹佛大學的研究人員開發了 VeriFact,這是一個基於人工智慧的平台,旨在驗證大型語言模型 (LLM) 在臨床環境中產生的文本的準確性,從而使這一願景更進一步。
## VeriFact 的工作原理
VeriFact 是一個人工智慧系統,它透過將 LLM 產生的文件中的陳述與患者的電子健康記錄 (EHR) 進行比較,來檢查這些陳述的真實性。這個過程包括分析 EHR 中的相關數據,並使用 LLM 作為評判者來評估產生的陳述是否得到數據的真正支持。該系統能夠執行針對特定患者的事實驗證,定位錯誤並描述其根本原因。
VeriFact 的研究人員創建了一個由臨床醫生標註的基準資料集 VeriFact-BHC,該資料集將醫院出院記錄分析為單一陳述,並標記每個陳述是否得到實際 EHR 的支持。 VeriFact-BHC 資料集包含 100 位患者的 13,070 筆記錄,這些記錄源自於簡短的住院病程,每筆記錄均由三位或更多臨床醫生標註。
## 結果
在發表於《新英格蘭醫學雜誌人工智慧》(NEJM AI)的一項研究中,研究人員測試了邏輯邏輯模型(LLM)在臨床環境中產生的文本與患者真實病歷的準確性。 VeriFact 與臨床醫師的一致性高達 93.2%,在事實查核方面優於人工評估。臨床醫師之間的最高評分者間一致性為 88.5%,顯示 VeriFact 能夠比人工提供更一致的事實查核結果。
## 局限性與未來方向
儘管 VeriFact 在提高臨床文件準確性方面展現出巨大的潛力,但研究人員也指出了研究的一些限制。例如,他們沒有探索其他檢索或重排序模型,也沒有評估特定醫學領域的邏輯邏輯模型或進行領域特定的微調。此外,VeriFact 依賴電子病歷 (EHR) 作為資訊來源,但對於新患者而言,EHR 可能並不完整,或因誤診、溝通不良或資訊過時而導致資料錯誤。
儘管有這些局限性,VeriFact 仍有潛力徹底改變臨床醫生核實患者護理文件中事實的方式。透過自動化需要查閱病歷的任務,VeriFact 可以幫助臨床醫生在將 LLM 起草的文檔提交到患者 EHR 之前,核實其中的事實。這有望改善患者預後並減少醫療差錯。
未來,VeriFact-BHC 資料集可用於開發和評估用於核實患者護理文件中事實的新方法。這可能包括探索其他檢索或重排序模型、評估特定醫學領域的 LLM 以及進行特定領域的微調。透過不斷改進和完善 VeriFact,研究人員和臨床醫生可以攜手合作,創建一個更準確、更可靠的患者護理文件事實核實系統。




