人工智慧能否比人類更好地預測科學? BrainBench 的突破性研究

1–2 minutes

科學長期以來一直是人類專家的領域,但最近的一項研究揭示了一個引人入勝的可能性:人工智慧能否比人類更好地預測科學結果?想像一下,如果人工智慧能夠閱讀每一篇論文,從數十年的研究中提煉出規律,並以驚人的準確度預測實驗結果,那會是怎樣一番景象?聽起來像科幻小說?但根據一項突破性研究,這並非天方夜譚,而是基於真實案例。

## 科學浩瀚,時間有限

閱讀所有文獻對人類來說是不可能的。想像一下,你是一位即將設計下一個實驗的研究人員。你需要閱讀數十年的研究成果,學習其中反覆出現的規律,找出研究空白,並對實驗結果做出合理的預測。但問題在於:你是人。人的能力是有限的。時間、注意力和記憶力都是有限的。科學出版物的數量正以驚人的速度增長,即使在專業領域,研究人員也越來越難以跟上步伐。

## 當人工智慧超越人類專家

倫敦大學學院的研究人員決定測試一個簡單卻引人深思的問題:人工智慧能否比人類專家更好地預測科學結果?為了解答這個問題,他們建立了一個名為 BrainBench 的基準測試平台,專門用於測試人工智慧在神經科學領域的預測能力。他們將 15 個大型語言模型與 171 位神經科學專家的表現進行了比較,這些專家在其各自的子領域平均擁有約十年的經驗。結果令人信服。在整個基準測試中,人工智慧模型的平均準確率達到了 81.4%,而人類專家的平均準確率僅為 63.4%。

## BrainBench 的工作原理

BrainBench 透過向參與者展示兩個版本的科學摘要來衡量預測準確率;科學摘要是出現在研究論文開頭的簡短概述。兩個版本描述的是同一個實驗,使用了相同的方法,並且背景相同。兩者聽起來都符合科學邏輯。然而,只有一個版本包含了真實的結果。在修改後的版本中,結果被微妙地改變了。例如,某個腦區可能顯示活動減少而不是增加。一種藥物的療效可能優於另一種,而非相反。當此類變更發生時,周圍的文字會經過仔細調整,以保持邏輯一致性。沒有明顯的錯誤,也沒有容易發現的線索。

## 幻覺何時有用

在許多人工智慧應用中,幻覺(即模型傾向於將來自不同來源的資訊混合併產生錯誤陳述)被視為嚴重缺陷。對於依賴準確引用或事實回憶的任務而言,這尤其成問題。然而,預測的運行受到不同的限制。預測科學成果通常意味著要處理吵雜、不完整,有時甚至是相互矛盾的證據。它需要綜合數千項不完美的研究中的模式,而不是檢索單一的正確事實。

## 人工智慧並非僥倖成功

人們對記憶力的持續懷疑是可以理解的。先前的研究表明,大型語言模型有時會重現部分訓練資料。 BrainBench 的作者預料到了這種擔憂,並進行了徹底的測試。首先,人工智慧模型使用2002年至2022年間發表的神經科學論文進行訓練,並僅使用2023年發表的論文進行評估,從而確保訓練資料和評估資料之間不存在重疊。其次,作者證實,2023年初發表的論文對模型而言並不比之後發表的論文更容易理解,從而排除了預印本洩漏的影響。第三,他們還應用了一種名為zlib困惑度比率的標準記憶檢測技術,該技術有助於區分記憶和真正的泛化。結果與簡單的記憶不符。

## 專業化與記憶

僅憑性能無法解釋模型學習到了什麼。為了探討這一點,作者研究了特定領域的訓練如何改變模型的行為。他們推出了 BrainGPT,這是一個專門針對神經科學的模型,它是透過對預先訓練的 Mistral-7B 語言模型進行微調而創建的,微調使用了 2002 年至 2022 年的神經科學文獻。這種微調使 BrainGPT 在 BrainBench 測試中的表現提升了約 3%,且困惑度分佈的變化更符合領域專業化而非召回率。在後續研究中,作者僅使用神經科學文獻從頭開始訓練小型語言模型,而沒有進行大規模預訓練。儘管這些模型遠小於現代語言模型,但它們在 BrainBench 任務上的表現卻能與人類專家相提並論。

Asset Management AI Betting AI Clawdbot Generative AI GPT Horse Racing Prediction AI Medical AI Perplexity Comet AI Semiconductor AI Sora AI Stable Diffusion UX UI Design AI