과학은 오랫동안 인간 전문가의 영역이었지만, 최근 한 연구는 흥미로운 가능성을 제시합니다. 인공지능이 인간보다 과학적 결과를 더 정확하게 예측할 수 있을까요? 모든 논문을 읽고, 수십 년에 걸친 연구 패턴을 파악하여 실험 결과를 놀라울 정도로 정확하게 예측하는 인공지능을 상상해 보세요. 공상 과학 소설 같나요? 획기적인 연구에 따르면, 이는 실제 연구 결과를 바탕으로 한 것입니다.
## 너무 많은 과학, 너무 적은 시간
모든 것을 읽는 것은 인간의 현실로는 불가능합니다. 다음 실험을 설계하려는 연구 과학자라고 가정해 보세요. 수십 년간의 연구 자료를 읽고, 반복되는 패턴을 파악하고, 연구의 공백을 찾아내고, 실험 결과에 대한 정확한 예측을 할 것입니다. 하지만 문제는 바로 이것입니다. 당신은 인간입니다. 인간에게는 한계가 있습니다. 시간, 주의력, 기억력은 유한합니다. 과학 논문의 수는 점점 더 빠른 속도로 증가하여, 전문 분야에서조차 연구자들이 모든 것을 따라잡는 것은 점점 더 비현실적입니다.
## AI가 인간 전문가를 능가한 순간
유니버시티 칼리지 런던(UCL)의 연구진은 간단하지만 흥미로운 질문을 던졌습니다. 인공지능이 인간 전문가보다 과학적 결과를 더 정확하게 예측할 수 있을까? 이를 위해 연구진은 신경과학 분야의 과학적 예측을 테스트하도록 특별히 설계된 벤치마크인 브레인벤치(BrainBench)를 개발했습니다. 15개의 대규모 언어 모델과 각 분야에서 평균 10년 경력을 가진 171명의 신경과학 전문가의 성능을 비교했습니다. 결과는 명확했습니다. 벤치마크 전반에 걸쳐 AI 모델은 평균 81.4%의 정확도를 달성한 반면, 인간 전문가는 63.4%에 그쳤습니다.
## 브레인벤치 작동 방식
브레인벤치는 연구 논문의 서두에 나오는 간략한 요약인 과학 논문 초록의 두 가지 버전을 참가자에게 제시하여 예측 정확도를 측정합니다. 두 버전 모두 동일한 실험, 동일한 방법, 동일한 배경을 사용하며 과학적으로 타당해 보입니다. 하지만 실제 결과는 한 버전에만 포함되어 있습니다. 변형된 버전에서는 결과가 미묘하게 변경됩니다. 예를 들어, 특정 뇌 영역의 활동이 증가하는 대신 감소하는 것으로 나타날 수 있습니다. 한 약물이 다른 약물보다 더 효과적일 수 있으며, 그 반대의 경우는 드뭅니다. 이러한 변경이 이루어질 때, 주변 텍스트는 논리적 일관성을 유지하기 위해 신중하게 조정됩니다. 눈에 띄는 오류나 쉽게 알아챌 수 있는 단서는 없습니다.
## 환각이 유용해질 때
많은 AI 애플리케이션에서 환각, 즉 모델이 여러 출처의 정보를 혼합하여 잘못된 진술을 생성하는 경향은 심각한 결함으로 간주됩니다. 이는 정확한 인용이나 사실 기억에 의존하는 작업에서 특히 문제가 됩니다. 그러나 예측은 다른 제약 조건 하에서 작동합니다. 과학적 결과를 예측한다는 것은 종종 잡음이 많고 불완전하며 때로는 상충되는 증거를 다루는 것을 의미합니다. 단 하나의 정확한 사실을 찾아내는 것이 아니라 수천 개의 불완전한 연구에서 나타나는 패턴을 종합해야 합니다.
## AI가 운이 좋았던 것이 아니다
암기에 대한 지속적인 회의론은 이해할 만합니다. 이전 연구에서는 대규모 언어 모델이 때때로 훈련 데이터의 일부를 재현할 수 있음을 보여주었습니다. BrainBench의 저자들은 이러한 우려를 예상하고 철저하게 테스트했습니다. 첫째, AI 모델은 2002년부터 2022년 사이에 발표된 신경과학 논문을 기반으로 학습되었고, 평가는 2023년 논문만을 사용하여 수행되어 학습 데이터와 평가 데이터가 중복되지 않도록 했습니다. 둘째, 저자들은 2023년 초에 발표된 논문이 그 이후에 발표된 논문보다 모델에게 더 쉬운 과제가 아니었음을 확인하여, 유출된 사전 공개 논문의 영향을 배제했습니다. 셋째, 기억력 향상과 진정한 일반화를 구분하는 데 도움이 되는 zlib-perplexity 비율이라는 표준적인 기억력 탐지 기법을 적용했습니다. 그 결과는 단순 기억력 향상과는 일치하지 않았습니다.
## 전문화 vs. 기억력 향상
성능만으로는 모델이 무엇을 학습했는지 설명할 수 없습니다. 이를 조사하기 위해 저자들은 도메인별 학습이 모델의 동작에 어떤 변화를 가져오는지 살펴보았습니다. 연구진은 2002년부터 2022년까지의 신경과학 문헌을 사용하여 LoRA 방식으로 사전 학습된 Mistral-7B 언어 모델을 미세 조정하여 만든 신경과학 특화 모델인 BrainGPT를 소개했습니다. 이러한 미세 조정을 통해 BrainBench에서 약 3%의 추가 성능 향상을 얻었으며, 재현율이 아닌 도메인 특화에 부합하는 방식으로 perplexity 분포가 변화했습니다. 후속 연구에서 연구진은 대규모 사전 학습 없이 신경과학 문헌만을 사용하여 소규모 언어 모델을 처음부터 학습시켰습니다. 최신 LLM보다 훨씬 작은 규모임에도 불구하고, 이 모델들은 BrainBench 작업에서 인간 전문가와 동등한 성능을 보였습니다.




