想象一下,人工智能 (AI) 能够以惊人的精准度生成临床文档,几乎杜绝人为错误。这听起来是不是像梦想成真?斯坦福大学的研究人员开发了 VeriFact,这是一个基于人工智能的平台,旨在验证大型语言模型 (LLM) 在临床环境中生成的文本的准确性,从而使这一愿景更进一步。
## VeriFact 的工作原理
VeriFact 是一个人工智能系统,它通过将 LLM 生成的文档中的陈述与患者的电子健康记录 (EHR) 进行比较,来检查这些陈述的真实性。该过程包括分析 EHR 中的相关数据,并使用 LLM 作为评判者来评估生成的陈述是否得到数据的真实支持。该系统能够执行针对特定患者的事实验证,定位错误并描述其根本原因。
VeriFact 的研究人员创建了一个由临床医生标注的基准数据集 VeriFact-BHC,该数据集将医院出院记录分析为单个陈述,并标记每个陈述是否得到实际 EHR 的支持。 VeriFact-BHC 数据集包含 100 位患者的 13,070 条记录,这些记录源自简短的住院病程,每条记录均由三位或更多临床医生标注。
## 结果
在发表于《新英格兰医学杂志人工智能》(NEJM AI)的一项研究中,研究人员测试了逻辑逻辑模型(LLM)在临床环境中生成的文本与患者真实病历的准确性。VeriFact 与临床医生的一致性高达 93.2%,在事实核查方面优于人工评估。临床医生之间的最高评分者间一致性为 88.5%,表明 VeriFact 能够比人工提供更一致的事实核查结果。
## 局限性和未来方向
尽管 VeriFact 在提高临床文档准确性方面展现出巨大的潜力,但研究人员也指出了该研究的一些局限性。例如,他们没有探索其他检索或重排序模型,也没有评估特定医学领域的逻辑逻辑模型或进行领域特定的微调。此外,VeriFact 依赖电子病历 (EHR) 作为信息来源,但对于新患者而言,EHR 可能并不完整,或者由于误诊、沟通不畅或信息过时而导致数据错误。
尽管存在这些局限性,VeriFact 仍有潜力彻底改变临床医生核实患者护理文档中事实的方式。通过自动化需要查阅病历的任务,VeriFact 可以帮助临床医生在将 LLM 起草的文档提交到患者 EHR 之前,核实其中的事实。这有望改善患者预后并减少医疗差错。
未来,VeriFact-BHC 数据集可用于开发和评估用于核实患者护理文档中事实的新方法。这可能包括探索其他检索或重排序模型、评估特定医学领域的 LLM 以及进行特定领域的微调。通过不断改进和完善 VeriFact,研究人员和临床医生可以携手合作,创建一个更准确、更可靠的患者护理文档事实核实系统。




