人工智能能否比人类更好地预测科学？BrainBench 的突破性研究

科学长期以来一直是人类专家的领域，但最近的一项研究揭示了一个引人入胜的可能性：人工智能能否比人类更好地预测科学结果？想象一下，如果人工智能能够阅读每一篇论文，从数十年的研究中提炼出规律，并以惊人的准确度预测实验结果，那会是怎样一番景象？听起来像是科幻小说？但根据一项突破性研究，这并非天方夜谭，而是基于真实案例。

## 科学浩瀚，时间有限

阅读所有文献对人类来说是不可能的。想象一下，你是一位即将设计下一个实验的科研人员。你需要阅读数十年的研究成果，学习其中反复出现的规律，找出研究空白，并对实验结果做出合理的预测。但问题在于：你是人。人的能力是有限的。时间、注意力和记忆力都是有限的。科学出版物的数量正以惊人的速度增长，即使在专业领域，研究人员也越来越难以跟上步伐。

## 当人工智能超越人类专家

伦敦大学学院的研究人员决定测试一个简单却引人深思的问题：人工智能能否比人类专家更好地预测科学结果？为了解答这个问题，他们构建了一个名为 BrainBench 的基准测试平台，专门用于测试人工智能在神经科学领域的预测能力。他们将 15 个大型语言模型与 171 位神经科学专家的表现进行了比较，这些专家在其各自的子领域平均拥有约十年的经验。结果令人信服。在整个基准测试中，人工智能模型的平均准确率达到了 81.4%，而人类专家的平均准确率仅为 63.4%。

## BrainBench 的工作原理

BrainBench 通过向参与者展示两个版本的科学摘要来衡量预测准确率；科学摘要是出现在研究论文开头的简短概述。两个版本描述的是同一个实验，使用了相同的方法，并且背景相同。两者听起来都符合科学逻辑。然而，只有一个版本包含了真实的结果。在修改后的版本中，结果被微妙地改变了。例如，某个脑区可能显示活动减少而不是增加。一种药物的疗效可能优于另一种，而非相反。当此类变化发生时，周围的文本会经过仔细调整，以保持逻辑一致性。没有明显的错误，也没有容易发现的线索。

## 幻觉何时有用

在许多人工智能应用中，幻觉（即模型倾向于将来自不同来源的信息混合并产生错误陈述）被视为严重缺陷。对于依赖准确引用或事实回忆的任务而言，这尤其成问题。然而，预测的运行受到不同的限制。预测科学成果通常意味着要处理嘈杂、不完整，有时甚至相互矛盾的证据。它需要综合数千项不完善的研究中的模式，而不是检索单一的正确事实。

## 人工智能并非侥幸成功

人们对记忆力的持续怀疑是可以理解的。先前的研究表明，大型语言模型有时会重现部分训练数据。BrainBench 的作者预料到了这种担忧，并进行了彻底的测试。首先，人工智能模型使用2002年至2022年间发表的神经科学论文进行训练，并仅使用2023年发表的论文进行评估，从而确保训练数据和评估数据之间不存在重叠。其次，作者证实，2023年初发表的论文对模型而言并不比之后发表的论文更容易理解，从而排除了预印本泄露的影响。第三，他们还应用了一种名为zlib困惑度比率的标准记忆检测技术，该技术有助于区分记忆和真正的泛化。结果与简单的记忆不符。

## 专业化与记忆

仅凭性能无法解释模型学习到了什么。为了探究这一点，作者研究了特定领域的训练如何改变模型的行为。他们推出了 BrainGPT，这是一个专门针对神经科学的模型，它是通过对预训练的 Mistral-7B 语言模型进行微调而创建的，微调使用了 2002 年至 2022 年的神经科学文献。这种微调使 BrainGPT 在 BrainBench 测试中的性能提升了约 3%，并且困惑度分布的变化更符合领域专业化而非召回率。在后续研究中，作者仅使用神经科学文献从头开始训练小型语言模型，而没有进行大规模预训练。尽管这些模型远小于现代语言模型，但它们在 BrainBench 任务上的表现却能与人类专家相媲美。

人工智能能否比人类更好地预测科学？BrainBench 的突破性研究

Related posts: