スタンフォード大学のAI搭載VeriFactが患者記録の臨床テキストの正確性を検証

1–2 minutes

人工知能(AI)が驚くほどの精度で臨床文書を作成し、人間のミスがほとんど許されない世界を想像してみてください。まるで夢のようですね。スタンフォード大学の研究者たちは、臨床現場において大規模言語モデル(LLM)によって生成されたテキストの正確性を検証するために設計されたAI搭載プラットフォーム、VeriFactの開発により、その実現に一歩近づきました。

## VeriFactの仕組み

VeriFactは、LLMによって生成された文書内の記述を患者の電子医療記録(EHR)と比較することで、その真実性を検証するAIシステムです。このプロセスでは、EHRから関連データを分析し、LLMを判定基準として、生成された記述がデータによって事実に基づいているかどうかを評価します。このシステムは、患者ごとに事実検証を行い、エラーを特定し、その根本原因を説明します。

VeriFactの研究者たちは、臨床医による注釈付きベンチマークデータセットであるVeriFact-BHCを作成しました。このデータセットは、退院時の記録を個々の請求に分析し、各請求が実際の電子医療記録によって裏付けられているかどうかをラベル付けします。VeriFact-BHCデータセットには、100人の患者から得られた、入院時の短期経過から得られた13,070件の記述が含まれており、それぞれ3人以上の臨床医によって注釈が付けられています。

## 結果

NEJM AIに掲載された研究で、研究者たちは臨床現場においてLLMによって生成されたテキストの精度を、患者の実際の医療記録と比較検証しました。VeriFactは臨床医との一致率が93.2%と非常に高く、事実検証において人間の評価者を上回りました。臨床医間の評価者間一致率は最高で88.5%であり、VeriFactは人間よりも一貫性のある事実検証を生成できることが示されました。

## 限界と今後の方向性

VeriFactは臨床文書の精度向上に大きな可能性を示していますが、研究者たちはこの研究においていくつかの限界があることを指摘しました。例えば、追加の検索モデルや再ランキングモデルの検討、医薬品特化型LLMの評価、ドメイン固有の微調整は実施されていません。さらに、VeriFactはEHRを真実の情報源として利用していますが、新規患者の場合、EHRは不完全であったり、誤診、コミュニケーションミス、古い情報による誤りが含まれていたりする可能性があります。

これらの制約があるにもかかわらず、VeriFactは臨床医が患者ケア文書における事実の検証方法に革命をもたらす可能性を秘めています。カルテレビューを必要とするタスクを自動化することで、VeriFactはLLMが作成した文書を患者のEHRにコミットする前に、臨床医が文書内の事実を検証するのに役立ちます。これは、患者の転帰の改善と医療過誤の削減につながる可能性があります。

将来的には、VeriFact-BHCデータセットを使用して、患者ケア文書における事実の検証のための新しい方法論を開発し、ベンチマークすることができます。これには、追加の検索モデルや再ランキングモデルの検討、医薬品特化型LLMの評価、ドメイン固有の微調整が含まれる可能性があります。 VeriFact を継続的に改善および改良することで、研究者と臨床医は協力して、患者ケア文書内の事実を検証するためのより正確で信頼性の高いシステムを構築できます。

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI