人工智慧能否比人類更好地預測科學？ BrainBench 的突破性研究

科學長期以來一直是人類專家的領域，但最近的一項研究揭示了一個引人入勝的可能性：人工智慧能否比人類更好地預測科學結果？想像一下，如果人工智慧能夠閱讀每一篇論文，從數十年的研究中提煉出規律，並以驚人的準確度預測實驗結果，那會是怎樣一番景象？聽起來像科幻小說？但根據一項突破性研究，這並非天方夜譚，而是基於真實案例。

## 科學浩瀚，時間有限

閱讀所有文獻對人類來說是不可能的。想像一下，你是一位即將設計下一個實驗的研究人員。你需要閱讀數十年的研究成果，學習其中反覆出現的規律，找出研究空白，並對實驗結果做出合理的預測。但問題在於：你是人。人的能力是有限的。時間、注意力和記憶力都是有限的。科學出版物的數量正以驚人的速度增長，即使在專業領域，研究人員也越來越難以跟上步伐。

## 當人工智慧超越人類專家

倫敦大學學院的研究人員決定測試一個簡單卻引人深思的問題：人工智慧能否比人類專家更好地預測科學結果？為了解答這個問題，他們建立了一個名為 BrainBench 的基準測試平台，專門用於測試人工智慧在神經科學領域的預測能力。他們將 15 個大型語言模型與 171 位神經科學專家的表現進行了比較，這些專家在其各自的子領域平均擁有約十年的經驗。結果令人信服。在整個基準測試中，人工智慧模型的平均準確率達到了 81.4%，而人類專家的平均準確率僅為 63.4%。

## BrainBench 的工作原理

BrainBench 透過向參與者展示兩個版本的科學摘要來衡量預測準確率；科學摘要是出現在研究論文開頭的簡短概述。兩個版本描述的是同一個實驗，使用了相同的方法，並且背景相同。兩者聽起來都符合科學邏輯。然而，只有一個版本包含了真實的結果。在修改後的版本中，結果被微妙地改變了。例如，某個腦區可能顯示活動減少而不是增加。一種藥物的療效可能優於另一種，而非相反。當此類變更發生時，周圍的文字會經過仔細調整，以保持邏輯一致性。沒有明顯的錯誤，也沒有容易發現的線索。

## 幻覺何時有用

在許多人工智慧應用中，幻覺（即模型傾向於將來自不同來源的資訊混合併產生錯誤陳述）被視為嚴重缺陷。對於依賴準確引用或事實回憶的任務而言，這尤其成問題。然而，預測的運行受到不同的限制。預測科學成果通常意味著要處理吵雜、不完整，有時甚至是相互矛盾的證據。它需要綜合數千項不完美的研究中的模式，而不是檢索單一的正確事實。

## 人工智慧並非僥倖成功

人們對記憶力的持續懷疑是可以理解的。先前的研究表明，大型語言模型有時會重現部分訓練資料。 BrainBench 的作者預料到了這種擔憂，並進行了徹底的測試。首先，人工智慧模型使用2002年至2022年間發表的神經科學論文進行訓練，並僅使用2023年發表的論文進行評估，從而確保訓練資料和評估資料之間不存在重疊。其次，作者證實，2023年初發表的論文對模型而言並不比之後發表的論文更容易理解，從而排除了預印本洩漏的影響。第三，他們還應用了一種名為zlib困惑度比率的標準記憶檢測技術，該技術有助於區分記憶和真正的泛化。結果與簡單的記憶不符。

## 專業化與記憶

僅憑性能無法解釋模型學習到了什麼。為了探討這一點，作者研究了特定領域的訓練如何改變模型的行為。他們推出了 BrainGPT，這是一個專門針對神經科學的模型，它是透過對預先訓練的 Mistral-7B 語言模型進行微調而創建的，微調使用了 2002 年至 2022 年的神經科學文獻。這種微調使 BrainGPT 在 BrainBench 測試中的表現提升了約 3%，且困惑度分佈的變化更符合領域專業化而非召回率。在後續研究中，作者僅使用神經科學文獻從頭開始訓練小型語言模型，而沒有進行大規模預訓練。儘管這些模型遠小於現代語言模型，但它們在 BrainBench 任務上的表現卻能與人類專家相提並論。

人工智慧能否比人類更好地預測科學？ BrainBench 的突破性研究

Related posts: