人工智能能否比人类更好地预测科学?BrainBench 的突破性研究

1–2 minutes

科学长期以来一直是人类专家的领域,但最近的一项研究揭示了一个引人入胜的可能性:人工智能能否比人类更好地预测科学结果?想象一下,如果人工智能能够阅读每一篇论文,从数十年的研究中提炼出规律,并以惊人的准确度预测实验结果,那会是怎样一番景象?听起来像是科幻小说?但根据一项突破性研究,这并非天方夜谭,而是基于真实案例。

## 科学浩瀚,时间有限

阅读所有文献对人类来说是不可能的。想象一下,你是一位即将设计下一个实验的科研人员。你需要阅读数十年的研究成果,学习其中反复出现的规律,找出研究空白,并对实验结果做出合理的预测。但问题在于:你是人。人的能力是有限的。时间、注意力和记忆力都是有限的。科学出版物的数量正以惊人的速度增长,即使在专业领域,研究人员也越来越难以跟上步伐。

## 当人工智能超越人类专家

伦敦大学学院的研究人员决定测试一个简单却引人深思的问题:人工智能能否比人类专家更好地预测科学结果?为了解答这个问题,他们构建了一个名为 BrainBench 的基准测试平台,专门用于测试人工智能在神经科学领域的预测能力。他们将 15 个大型语言模型与 171 位神经科学专家的表现进行了比较,这些专家在其各自的子领域平均拥有约十年的经验。结果令人信服。在整个基准测试中,人工智能模型的平均准确率达到了 81.4%,而人类专家的平均准确率仅为 63.4%。

## BrainBench 的工作原理

BrainBench 通过向参与者展示两个版本的科学摘要来衡量预测准确率;科学摘要是出现在研究论文开头的简短概述。两个版本描述的是同一个实验,使用了相同的方法,并且背景相同。两者听起来都符合科学逻辑。然而,只有一个版本包含了真实的结果。在修改后的版本中,结果被微妙地改变了。例如,某个脑区可能显示活动减少而不是增加。一种药物的疗效可能优于另一种,而非相反。当此类变化发生时,周围的文本会经过仔细调整,以保持逻辑一致性。没有明显的错误,也没有容易发现的线索。

## 幻觉何时有用

在许多人工智能应用中,幻觉(即模型倾向于将来自不同来源的信息混合并产生错误陈述)被视为严重缺陷。对于依赖准确引用或事实回忆的任务而言,这尤其成问题。然而,预测的运行受到不同的限制。预测科学成果通常意味着要处理嘈杂、不完整,有时甚至相互矛盾的证据。它需要综合数千项不完善的研究中的模式,而不是检索单一的正确事实。

## 人工智能并非侥幸成功

人们对记忆力的持续怀疑是可以理解的。先前的研究表明,大型语言模型有时会重现部分训练数据。BrainBench 的作者预料到了这种担忧,并进行了彻底的测试。首先,人工智能模型使用2002年至2022年间发表的神经科学论文进行训练,并仅使用2023年发表的论文进行评估,从而确保训练数据和评估数据之间不存在重叠。其次,作者证实,2023年初发表的论文对模型而言并不比之后发表的论文更容易理解,从而排除了预印本泄露的影响。第三,他们还应用了一种名为zlib困惑度比率的标准记忆检测技术,该技术有助于区分记忆和真正的泛化。结果与简单的记忆不符。

## 专业化与记忆

仅凭性能无法解释模型学习到了什么。为了探究这一点,作者研究了特定领域的训练如何改变模型的行为。他们推出了 BrainGPT,这是一个专门针对神经科学的模型,它是通过对预训练的 Mistral-7B 语言模型进行微调而创建的,微调使用了 2002 年至 2022 年的神经科学文献。这种微调使 BrainGPT 在 BrainBench 测试中的性能提升了约 3%,并且困惑度分布的变化更符合领域专业化而非召回率。在后续研究中,作者仅使用神经科学文献从头开始训练小型语言模型,而没有进行大规模预训练。尽管这些模型远小于现代语言模型,但它们在 BrainBench 任务上的表现却能与人类专家相媲美。

Asset Management AI Betting AI Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI