CMU研究:GoogleのGeminiはChatGptに達していません。
** Google Gemini vs. ChatGpt:大規模な言語モデルの戦い**
GoogleのGeminiの最近のリリースは、さまざまなタスクにわたってOpenaiのChatGPTに匹敵する最初の大手言語モデル(LLM)として大きな注目を集めています。レポートによると、Geminiの「Ultra」バージョンはさまざまなタスクでGPT-4を上回り、「Pro」バージョンはGPT-3.5に匹敵します。これらの著名な言語モデル間の進行中のライバル関係に光を当てることを目指して、カーネギーメロン大学(CMU)が実施した新しい研究は、Google Geminiの言語理解と生成能力をOpenaiのGPTシリーズと比較します。この研究では、Google GeminiとChatGptの間のパフォーマンスギャップを強調した興味深い発見を明らかにしています。
**重要な調査結果:**
*** Gemini ProはGPT-3.5ターボと一致します:**モデルサイズとカテゴリの観点から、CMUの研究はGPT 3.5ターボに匹敵するGemini Proを位置付けています。 Gemini Proの精度は一般にGPT 3.5ターボの精度と一致しますが、GPT 4の後ろに大きなマージンを伸ばして、わずかに不足しています。特に、GEMINI Proの平均パフォーマンスは、特に多桁の質問、マルチ桁の数学的推論、エージェントタスクの早期終了、積極的なコンテンツフィルタリングによる回答障害などの回答順序の領域で、GPT 3.5ターボよりもわずかに低くなっています。ただし、Geminiは、英語以外の言語を生成し、特に長く複雑な推論タスクで、より複雑な推論チェーンを処理することにおいて利点を示しています。さらに、回答フィルタリングなしでは、ジェミニは多様な言語を利用することに優れています。
***重要な大規模な言語モデル機能:**この研究は、大規模な言語モデルのいくつかの重要な機能を掘り下げ、次の特定の調査結果を明らかにします。
***知識グラフ質問応答:**モデルの質問回答能力を比較すると、Gemini Proは、提供されたグラフに示されているように、ほとんどのタスクでGPT 3.5を下回ります。研究チームはさらに、Gemini ProがGPT 3.5に遅れをとった/上回るタスクをさらに分析し、Gemini Proは「Human_sexuality」(社会科学)、「Formal_logic」(人文科学)、「Elementary_mathematics」(STEM)、および「Professional_medicine」に遅れていると結論付けています。プロフェッショナルドメイン)。一方、Gemini ProがGPT 3.5ターボを上回る2つのタスクでは、利点はわずかです。
***推論能力:** Gemini Proの推論タスクの全体的な精度は、GPT 3.5ターボをわずかに追い、GPT 4ターボをはるかに下回ります。ただし、Gemini Proはより長く複雑な問題に苦労していますが、GPTモデルはこのような課題を処理する際に大きな堅牢性を示します。この研究では、GPT 3.5ターボのパフォーマンスがGemini Proを大幅に上回るタスクも特定しています。
***数学的能力:**全体的な数学的推論結果から明らかなように、GSM8K、SVAMP、およびASDIVタスクに対するGemini Proの精度は、多言語プロンプトを含むが、GPT 3.5ターボよりわずかに低く、GPT 4ターボよりも大幅に低い。 MAWPSタスクでは、すべてのモデルが90%以上の精度を達成していますが、Gemini ProはまだGPTモデルにわずかに遅れています。
***コード生成能力:**コード生成の観点から、Gemini Proは、英語のタスクでのより長い入力と出力の処理に強さを示します。分析により、Gemini Proは、「Mock」、「Pandas」、「Numpy」、「DateTime」などの図書館が関与するほとんどの場合、GPT 3.5を下回っていることが明らかになりました。ただし、「Matplotlib」を含むタスクでGPT 3.5とGPT 4の両方を上回り、コード実行を通じてデータの視覚化を実行する際のGeminiの強化された機能を示しています。
***機械翻訳能力:** Gemini Proは、翻訳機能の観点から8つの言語でGPT 3.5ターボとGPT 4ターボを上回ります。それに比べて、Gemini Proは、GPT 3.5 TurboおよびGPT 4 Turboに対してテストされた20の言語のうち8つで優れたパフォーマンスを示し、4つの言語で最高の結果を達成しています。ただし、Gemini Proは、約10の言語ペアで応答をブロックする傾向が強い傾向を示しています。
CMUの研究は、Google Geminiの能力に関する貴重な洞察を提供し、OpenaiのChatGptに比べて不足している領域を強調しています。 Gemini Proは特定のタスクの習熟度を示していますが、ChatGPTの全体的なパフォーマンスに合わせて課題に直面しています。調査結果は、より能力が高く多用途のAIシステムの開発の追求が続くため、継続的な改善と大規模な言語モデルの領域でのさらなる研究の必要性を強調しています。