科學長期以來一直是人類專家的領域,但最近的一項研究揭示了一個引人入勝的可能性:人工智慧能否比人類更好地預測科學結果?想像一下,如果人工智慧能夠閱讀每一篇論文,從數十年的研究中提煉出規律,並以驚人的準確度預測實驗結果,那會是怎樣一番景象?聽起來像科幻小說?但根據一項突破性研究,這並非天方夜譚,而是基於真實案例。
## 科學浩瀚,時間有限
閱讀所有文獻對人類來說是不可能的。想像一下,你是一位即將設計下一個實驗的研究人員。你需要閱讀數十年的研究成果,學習其中反覆出現的規律,找出研究空白,並對實驗結果做出合理的預測。但問題在於:你是人。人的能力是有限的。時間、注意力和記憶力都是有限的。科學出版物的數量正以驚人的速度增長,即使在專業領域,研究人員也越來越難以跟上步伐。
## 當人工智慧超越人類專家
倫敦大學學院的研究人員決定測試一個簡單卻引人深思的問題:人工智慧能否比人類專家更好地預測科學結果?為了解答這個問題,他們建立了一個名為 BrainBench 的基準測試平台,專門用於測試人工智慧在神經科學領域的預測能力。他們將 15 個大型語言模型與 171 位神經科學專家的表現進行了比較,這些專家在其各自的子領域平均擁有約十年的經驗。結果令人信服。在整個基準測試中,人工智慧模型的平均準確率達到了 81.4%,而人類專家的平均準確率僅為 63.4%。
## BrainBench 的工作原理
BrainBench 透過向參與者展示兩個版本的科學摘要來衡量預測準確率;科學摘要是出現在研究論文開頭的簡短概述。兩個版本描述的是同一個實驗,使用了相同的方法,並且背景相同。兩者聽起來都符合科學邏輯。然而,只有一個版本包含了真實的結果。在修改後的版本中,結果被微妙地改變了。例如,某個腦區可能顯示活動減少而不是增加。一種藥物的療效可能優於另一種,而非相反。當此類變更發生時,周圍的文字會經過仔細調整,以保持邏輯一致性。沒有明顯的錯誤,也沒有容易發現的線索。
## 幻覺何時有用
在許多人工智慧應用中,幻覺(即模型傾向於將來自不同來源的資訊混合併產生錯誤陳述)被視為嚴重缺陷。對於依賴準確引用或事實回憶的任務而言,這尤其成問題。然而,預測的運行受到不同的限制。預測科學成果通常意味著要處理吵雜、不完整,有時甚至是相互矛盾的證據。它需要綜合數千項不完美的研究中的模式,而不是檢索單一的正確事實。
## 人工智慧並非僥倖成功
人們對記憶力的持續懷疑是可以理解的。先前的研究表明,大型語言模型有時會重現部分訓練資料。 BrainBench 的作者預料到了這種擔憂,並進行了徹底的測試。首先,人工智慧模型使用2002年至2022年間發表的神經科學論文進行訓練,並僅使用2023年發表的論文進行評估,從而確保訓練資料和評估資料之間不存在重疊。其次,作者證實,2023年初發表的論文對模型而言並不比之後發表的論文更容易理解,從而排除了預印本洩漏的影響。第三,他們還應用了一種名為zlib困惑度比率的標準記憶檢測技術,該技術有助於區分記憶和真正的泛化。結果與簡單的記憶不符。
## 專業化與記憶
僅憑性能無法解釋模型學習到了什麼。為了探討這一點,作者研究了特定領域的訓練如何改變模型的行為。他們推出了 BrainGPT,這是一個專門針對神經科學的模型,它是透過對預先訓練的 Mistral-7B 語言模型進行微調而創建的,微調使用了 2002 年至 2022 年的神經科學文獻。這種微調使 BrainGPT 在 BrainBench 測試中的表現提升了約 3%,且困惑度分佈的變化更符合領域專業化而非召回率。在後續研究中,作者僅使用神經科學文獻從頭開始訓練小型語言模型,而沒有進行大規模預訓練。儘管這些模型遠小於現代語言模型,但它們在 BrainBench 任務上的表現卻能與人類專家相提並論。




