科学は長らく人間の専門家の領域でしたが、最近の研究によって、ある興味深い可能性が浮かび上がりました。それは、人工知能が人間よりも科学的結果を予測できる可能性です。あらゆる論文を読み、数十年にわたる研究のパターンを拾い上げ、驚異的な精度で実験の結果を予測するAIを想像してみてください。まるでSFの世界のように聞こえますか?しかし、画期的な研究によると、これは実際の結果に基づいています。
## 科学は多すぎるが、時間は少なすぎる
あらゆるものを読むことは人間には不可能です。あなたが次の実験を設計しようとしている研究者だと想像してみてください。数十年にわたる研究を読み解き、繰り返し現れるパターンを学び、ギャップを特定し、実験で何が明らかになるかについて、情報に基づいた予測を立てるでしょう。しかし、問題はここにあります。あなたは人間なのです。人間には限界があります。時間、注意力、記憶力には限りがあります。科学論文の数は、専門分野においてさえ、研究者が追いつくのがますます非現実的になるペースで増加しています。
## AIが人間の専門家を凌駕したとき
ユニバーシティ・カレッジ・ロンドンの研究者たちは、シンプルでありながら挑戦的な問いを検証することにしました。それは、「人工知能は人間の専門家よりも科学的結果をより正確に予測できるのか?」という問いです。この問いに答えるため、彼らは神経科学における科学的予測をテストするために特別に設計された「BrainBench」というベンチマークを構築しました。15の大規模言語モデルと、それぞれの分野で平均約10年の経験を持つ171人の神経科学専門家の予測性能を比較しました。その結果は決定的でした。ベンチマーク全体を通して、AIモデルの平均精度は81.4%だったのに対し、人間の専門家は63.4%でした。
## BrainBenchの仕組み
BrainBenchは、研究論文の冒頭に掲載される簡潔な要約である科学的概要の2つのバージョンを参加者に提示することで、予測精度を測定します。どちらのバージョンも同じ実験を記述し、同じ手法を用い、同じ背景を共有しています。どちらも科学的にもっともらしいように聞こえますが、真の結果が含まれているのは片方だけです。改変されたバージョンでは、結果が微妙に変化しています。脳のある領域は、活動が増加するどころか減少するかもしれません。ある薬が別の薬よりも優れている場合もあれば、その逆の場合もあります。このような変更が行われる際、周囲のテキストは論理的な一貫性を保つように慎重に調整されます。明らかな誤りや、簡単に推測できる手がかりはありません。
## 幻覚が有用になる時
多くのAIアプリケーションにおいて、幻覚、つまりモデルが異なる情報源からの情報を混ぜ合わせて誤った記述を生成する傾向は、深刻な欠陥として扱われます。これは、正確な引用や事実の想起に依存するタスクでは特に問題となります。しかし、予測は異なる制約の下で機能します。科学的成果を予測することは、多くの場合、ノイズが多く、不完全で、時には矛盾する証拠を扱うことを意味します。単一の正しい事実を導き出すのではなく、何千もの不完全な研究からパターンを統合する必要があります。
## AIはただ運が良かっただけではない
記憶に対する根強い懐疑論は理解できます。過去の研究では、大規模な言語モデルがトレーニングデータの一部を再現できることが示されています。 BrainBenchの著者らは、この懸念を予測し、徹底的にテストしました。まず、AIモデルは2002年から2022年の間に発表された神経科学論文で学習され、2023年の論文のみで評価されました。これにより、学習データと評価データの重複が排除されました。次に、著者らは、2023年初頭に発表された論文が、モデルにとって後発の論文よりも容易ではないことを確認し、漏洩したプレプリントの影響を排除しました。さらに、zlib-perplexity ratioと呼ばれる標準的な記憶検出手法も適用しました。これは、想起と真の一般化を区別するのに役立ちます。結果は、単純な記憶とは矛盾していました。
## 特化 vs. 記憶
パフォーマンスだけでは、モデルが何を学習したかを説明できません。これを調査するために、著者らはドメイン特化型の学習が行動をどのように変化させるかを調べました。著者らは、2002年から2022年までの神経科学文献を用いてLoRAを用いて事前学習済みのMistral-7B言語モデルを微調整することで作成された、神経科学特化モデルであるBrainGPTを紹介した。この微調整により、BrainBenchの学習効率が約3%向上し、想起ではなくドメイン特化と一致する形でパープレキシティ分布が変化した。追跡研究では、著者らは大規模な事前学習を行わず、神経科学文献のみを用いて小規模な言語モデルをゼロから学習した。これらのモデルは現代のLLMよりもはるかに小規模であるにもかかわらず、BrainBenchタスクにおいて人間の専門家のパフォーマンスに匹敵する性能を発揮した。




