斯坦福大学利用人工智能技术开发的VeriFact系统可对临床文本进行准确性检查,确保患者记录的准确性。

1–2 minutes

想象一下,人工智能 (AI) 能够以惊人的精准度生成临床文档,几乎杜绝人为错误。这听起来是不是像梦想成真?斯坦福大学的研究人员开发了 VeriFact,这是一个基于人工智能的平台,旨在验证大型语言模型 (LLM) 在临床环境中生成的文本的准确性,从而使这一愿景更进一步。

## VeriFact 的工作原理

VeriFact 是一个人工智能系统,它通过将 LLM 生成的文档中的陈述与患者的电子健康记录 (EHR) 进行比较,来检查这些陈述的真实性。该过程包括分析 EHR 中的相关数据,并使用 LLM 作为评判者来评估生成的陈述是否得到数据的真实支持。该系统能够执行针对特定患者的事实验证,定位错误并描述其根本原因。

VeriFact 的研究人员创建了一个由临床医生标注的基准数据集 VeriFact-BHC,该数据集将医院出院记录分析为单个陈述,并标记每个陈述是否得到实际 EHR 的支持。 VeriFact-BHC 数据集包含 100 位患者的 13,070 条记录,这些记录源自简短的住院病程,每条记录均由三位或更多临床医生标注。

## 结果

在发表于《新英格兰医学杂志人工智能》(NEJM AI)的一项研究中,研究人员测试了逻辑逻辑模型(LLM)在临床环境中生成的文本与患者真实病历的准确性。VeriFact 与临床医生的一致性高达 93.2%,在事实核查方面优于人工评估。临床医生之间的最高评分者间一致性为 88.5%,表明 VeriFact 能够比人工提供更一致的事实核查结果。

## 局限性和未来方向

尽管 VeriFact 在提高临床文档准确性方面展现出巨大的潜力,但研究人员也指出了该研究的一些局限性。例如,他们没有探索其他检索或重排序模型,也没有评估特定医学领域的逻辑逻辑模型或进行领域特定的微调。此外,VeriFact 依赖电子病历 (EHR) 作为信息来源,但对于新患者而言,EHR 可能并不完整,或者由于误诊、沟通不畅或信息过时而导致数据错误。

尽管存在这些局限性,VeriFact 仍有潜力彻底改变临床医生核实患者护理文档中事实的方式。通过自动化需要查阅病历的任务,VeriFact 可以帮助临床医生在将 LLM 起草的文档提交到患者 EHR 之前,核实其中的事实。这有望改善患者预后并减少医疗差错。

未来,VeriFact-BHC 数据集可用于开发和评估用于核实患者护理文档中事实的新方法。这可能包括探索其他检索或重排序模型、评估特定医学领域的 LLM 以及进行特定领域的微调。通过不断改进和完善 VeriFact,研究人员和临床医生可以携手合作,创建一个更准确、更可靠的患者护理文档事实核实系统。

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI