CMU研究：Google的雙子座落後於Chatgpt的整體表現

CMU研究：Google的雙子座缺少Chatgpt，向Google提前發出信號

** Google Gemini vs. Chatgpt：大語模型之戰**

Google最近發行的雙子座發行引起了人們的重大關注，這是第一個大型語言模型（LLM），據說與Openai的Chatgpt競爭了各種任務。報告表明，Gemini的“ Ultra”版本在各種任務上的表現優於GPT-4，而其“ Pro”版本與GPT-3.5相當。為了闡明這些著名語言模型之間正在進行的競爭，卡內基·梅隆大學（CMU）進行的一項新研究探討了Google Gemini的語言理解和發電能力，並將其與OpenAI的GPT系列進行了比較。該研究揭示了有趣的發現，突出了Google Gemini和Chatgpt之間的性能差距。

**關鍵發現：**

*** Gemini Pro匹配GPT-3.5 Turbo：**在模型大小和類別方面，CMU的研究位置將Gemini Pro與GPT 3.5 Turbo相當。儘管Gemini Pro的準確性通常與GPT 3.5 Turbo的準確性相匹配，但它略短，落後於GPT 4的差距很大。值得注意的是，Gemini Pro的平均性能略有低於GPT 3.5 Turbo，尤其是在諸如在多項選擇問題上訂購偏見，多位數數學推理，代理任務的過早終止以及由於積極的內容過濾導致的答案失敗等領域。但是，雙子座在生成非英語語言和處理更長，更複雜的推理鏈中，尤其是在冗長而復雜的推理任務方面具有優勢。此外，在沒有答案過濾的情況下，雙子座在利用各種語言方面表現出色。

***關鍵的大型語言模型能力：**研究研究了大型語言模型的幾種至關重要的功能，揭示了以下具體發現：
***知識圖問題回答：**比較模型的提問能力，Gemini Pro在大多數任務中表現不佳，如提供的圖中所示。研究小組進一步分析了Gemini Pro落後/超過GPT 3.5的任務，得出結論，Gemini Pro滯後在“人_SEXAILITY”（社會科學），“正式_logic”（人文學科），“ ementimary_mathematics”（STEM）和“ Profession_Medicine”（STEM）和（專業領域）。同時，在Gemini Pro優於GPT 3.5 Turbo的這兩個任務中，優勢是邊緣。

***推理能力：** Gemini Pro在推理任務方面的總體準確性稍微落後於3.5渦輪增壓，並且遠低於GPT 4 Turbo。但是，Gemini Pro在更長，更複雜的問題上掙扎，而GPT模型在處理此類挑戰方面表現出更大的魯棒性。該研究還確定了GPT 3.5 Turbo的性能顯著超過雙子座Pro的任務。

***數學能力：**從總體數學推理結果中可以明顯看出，Gemini Pro在涉及多語言提示的GSM8K，SVAMP和ASDIV任務上的準確性略低於GPT 3.5 Turbo，並且明顯低於GPT 4 Turbo。在MAWPS任務中，所有模型的精度超過90％，但Gemini Pro仍然略高於GPT模型。

***代碼生成能力：**在代碼生成方面，Gemini Pro在處理英語任務中更長的輸入和輸出方面展示了強度。分析表明，在大多數情況下，Gemini Pro在涉及“模擬”，“ Pandas”，“ Numpy”和“ DateTime”等庫中的GPT 3.5表現不佳。但是，在涉及“ matplotlib”的任務中，它的表現均優於GPT 3.5和GPT 4，這表明Gemini通過代碼執行執行數據可視化的功能增強了功能。

***機器翻譯能力：** Gemini Pro在翻譯能力方面以八種語言優於GPT 3.5 Turbo和GPT 4 Turbo。相比之下，Gemini Pro在針對GPT 3.5 Turbo和GPT 4 Turbo測試中的20種語言中表現出卓越的表現，在四種語言中取得了最佳效果。但是，Gemini Pro在大約10個語言對中表現出強烈的響應趨勢。

CMU研究提供了對Google Gemini能力的寶貴見解，與Openai的Chatgpt相比，它突出了該領域不足的領域。儘管Gemini Pro在某些任務中表現出熟練程度，但它在匹配ChatGpt的整體表現方面面臨挑戰。這些發現強調了在大型語言模型領域進行持續改進和進一步研究的必要性，因為追求開發更有能力和多功能的AI系統的追求仍在繼續。

See also 蘋果的漫長游戲：Vision Pro準備成功

CMU研究：Google的雙子座落後於Chatgpt的整體表現

Related posts: