史丹佛大學利用人工智慧技術開發的VeriFact系統可對臨床文字進行準確性檢查,確保病患記錄的準確性。

1–2 minutes

想像一下,人工智慧 (AI) 能夠以驚人的精準度生成臨床文檔,幾乎杜絕人為錯誤。這聽起來是不是像是夢想成真?史丹佛大學的研究人員開發了 VeriFact,這是一個基於人工智慧的平台,旨在驗證大型語言模型 (LLM) 在臨床環境中產生的文本的準確性,從而使這一願景更進一步。

## VeriFact 的工作原理

VeriFact 是一個人工智慧系統,它透過將 LLM 產生的文件中的陳述與患者的電子健康記錄 (EHR) 進行比較,來檢查這些陳述的真實性。這個過程包括分析 EHR 中的相關數據,並使用 LLM 作為評判者來評估產生的陳述是否得到數據的真正支持。該系統能夠執行針對特定患者的事實驗證,定位錯誤並描述其根本原因。

VeriFact 的研究人員創建了一個由臨床醫生標註的基準資料集 VeriFact-BHC,該資料集將醫院出院記錄分析為單一陳述,並標記每個陳述是否得到實際 EHR 的支持。 VeriFact-BHC 資料集包含 100 位患者的 13,070 筆記錄,這些記錄源自於簡短的住院病程,每筆記錄均由三位或更多臨床醫生標註。

## 結果

在發表於《新英格蘭醫學雜誌人工智慧》(NEJM AI)的一項研究中,研究人員測試了邏輯邏輯模型(LLM)在臨床環境中產生的文本與患者真實病歷的準確性。 VeriFact 與臨床醫師的一致性高達 93.2%,在事實查核方面優於人工評估。臨床醫師之間的最高評分者間一致性為 88.5%,顯示 VeriFact 能夠比人工提供更一致的事實查核結果。

## 局限性與未來方向

儘管 VeriFact 在提高臨床文件準確性方面展現出巨大的潛力,但研究人員也指出了研究的一些限制。例如,他們沒有探索其他檢索或重排序模型,也沒有評估特定醫學領域的邏輯邏輯模型或進行領域特定的微調。此外,VeriFact 依賴電子病歷 (EHR) 作為資訊來源,但對於新患者而言,EHR 可能並不完整,或因誤診、溝通不良或資訊過時而導致資料錯誤。

儘管有這些局限性,VeriFact 仍有潛力徹底改變臨床醫生核實患者護理文件中事實的方式。透過自動化需要查閱病歷的任務,VeriFact 可以幫助臨床醫生在將 LLM 起草的文檔提交到患者 EHR 之前,核實其中的事實。這有望改善患者預後並減少醫療差錯。

未來,VeriFact-BHC 資料集可用於開發和評估用於核實患者護理文件中事實的新方法。這可能包括探索其他檢索或重排序模型、評估特定醫學領域的 LLM 以及進行特定領域的微調。透過不斷改進和完善 VeriFact,研究人員和臨床醫生可以攜手合作,創建一個更準確、更可靠的患者護理文件事實核實系統。

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI