人工智能能否比人类更好地预测科学?BrainBench 的突破性研究

1–2 minutes

科学长期以来一直是人类专家的领域,但最近的一项研究揭示了一个引人入胜的可能性:人工智能能否比人类更好地预测科学结果?想象一下,如果人工智能能够阅读每一篇论文,从数十年的研究中提炼出规律,并以惊人的准确度预测实验结果,那会是怎样一番景象?听起来像是科幻小说?但根据一项突破性研究,这并非天方夜谭,而是基于真实案例。

## 科学浩瀚,时间有限

阅读所有文献对人类来说是不可能的。想象一下,你是一位即将设计下一个实验的科研人员。你需要阅读数十年的研究成果,学习其中反复出现的规律,找出研究空白,并对实验结果做出合理的预测。但问题在于:你是人。人的能力是有限的。时间、注意力和记忆力都是有限的。科学出版物的数量正以惊人的速度增长,即使在专业领域,研究人员也越来越难以跟上步伐。

## 当人工智能超越人类专家

伦敦大学学院的研究人员决定测试一个简单却引人深思的问题:人工智能能否比人类专家更好地预测科学结果?为了解答这个问题,他们构建了一个名为 BrainBench 的基准测试平台,专门用于测试人工智能在神经科学领域的预测能力。他们将 15 个大型语言模型与 171 位神经科学专家的表现进行了比较,这些专家在其各自的子领域平均拥有约十年的经验。结果令人信服。在整个基准测试中,人工智能模型的平均准确率达到了 81.4%,而人类专家的平均准确率仅为 63.4%。

## BrainBench 的工作原理

BrainBench 通过向参与者展示两个版本的科学摘要来衡量预测准确率;科学摘要是出现在研究论文开头的简短概述。两个版本描述的是同一个实验,使用了相同的方法,并且背景相同。两者听起来都符合科学逻辑。然而,只有一个版本包含了真实的结果。在修改后的版本中,结果被微妙地改变了。例如,某个脑区可能显示活动减少而不是增加。一种药物的疗效可能优于另一种,而非相反。当此类变化发生时,周围的文本会经过仔细调整,以保持逻辑一致性。没有明显的错误,也没有容易发现的线索。

## 幻觉何时有用

在许多人工智能应用中,幻觉(即模型倾向于将来自不同来源的信息混合并产生错误陈述)被视为严重缺陷。对于依赖准确引用或事实回忆的任务而言,这尤其成问题。然而,预测的运行受到不同的限制。预测科学成果通常意味着要处理嘈杂、不完整,有时甚至相互矛盾的证据。它需要综合数千项不完善的研究中的模式,而不是检索单一的正确事实。

## 人工智能并非侥幸成功

人们对记忆力的持续怀疑是可以理解的。先前的研究表明,大型语言模型有时会重现部分训练数据。BrainBench 的作者预料到了这种担忧,并进行了彻底的测试。首先,人工智能模型使用2002年至2022年间发表的神经科学论文进行训练,并仅使用2023年发表的论文进行评估,从而确保训练数据和评估数据之间不存在重叠。其次,作者证实,2023年初发表的论文对模型而言并不比之后发表的论文更容易理解,从而排除了预印本泄露的影响。第三,他们还应用了一种名为zlib困惑度比率的标准记忆检测技术,该技术有助于区分记忆和真正的泛化。结果与简单的记忆不符。

## 专业化与记忆

仅凭性能无法解释模型学习到了什么。为了探究这一点,作者研究了特定领域的训练如何改变模型的行为。他们推出了 BrainGPT,这是一个专门针对神经科学的模型,它是通过对预训练的 Mistral-7B 语言模型进行微调而创建的,微调使用了 2002 年至 2022 年的神经科学文献。这种微调使 BrainGPT 在 BrainBench 测试中的性能提升了约 3%,并且困惑度分布的变化更符合领域专业化而非召回率。在后续研究中,作者仅使用神经科学文献从头开始训练小型语言模型,而没有进行大规模预训练。尽管这些模型远小于现代语言模型,但它们在 BrainBench 任务上的表现却能与人类专家相媲美。

Asset Management AI Betting AI Clawdbot Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI