Grok-3のレビュー: イーロン・マスクのAIとChatGPT、Claude、DeepSeek、ジェミニとの比較

LLM - LaMDA, ChatGPT, Claude3,DeepSeekxAI/Grok3イーロン・マスク、ツイッター

サイトのご利用には利用規約への同意が必要です

Grok-3 レビュー: イーロン・マスクのAIはChatGPT、クロード、ディープシーク、ジェミニと比べてどうなのか?

decrypt.co/306722/grok-3-review-how-elon-musks-ai-compares-to-chatgpt-claude-deepseek-and-gemini

記事のまとめ

この記事は、xAIが開発したGrok-3の性能について包括的な比較分析を行っている。2025年1月のDeepSeekのデビューを契機としたAI開発競争の中で、Grok-3は初めてLLM Arenaで1,400 ELOポイントを超えた。

創造的な文章作成においては、Grok-3はClaudeを上回る性能を示した。特にキャラクター設定と世界観構築において優れていたが、一部のプロット展開に不自然さが見られた。

文書要約に関して、Grok-3は文書読み取り機能を持たないという制限があるものの、47ページのIMFレポートを正確に要約することができた。引用の正確性においてClaudeを上回り、幻覚(誤った情報の生成)も見られなかった。

センシティブなトピックの取り扱いについて、Grok-3は他のモデルより制限が少なく、人種や性に関する話題にも対応する。ただし、回答は慎重に構成され、過度に不適切な内容を避けている。

政治的バイアスについて、予想に反してGrok-3は中立的な立場を保持している。イスラエル・パレスチナ問題や台湾問題などの微妙な政治的トピックにおいて、バランスの取れた回答を提供した。

コーディング能力では、HTML5を活用した実装で他のモデルを凌駕した。数学的推論では、OpenAIとDeepSeekに劣るものの、非数学的推論では優れた性能を示した。

画像生成能力は、専門的なモデルには及ばないものの、一般的な用途には十分な品質を提供する。深い検索機能は、GeminiやOpenAIと比べて一般的な情報提供に留まるが、処理速度が速い利点がある。

■ 総合評価:
  • コーディングと創造的文章作成に優れる
  • センシティブなトピックに柔軟に対応
  • X Premiumユーザーにとってコスト効率が良い
  • ChatGPTはよりパーソナライズされたAIチャットボットを求めるユーザーに適している
  • Geminiは、Googleエコシステムとの統合を重視するユーザーに適している

レビュー人工知能

Grok-3によって、xAIは競争相手を出し抜くことを目指している。GPT-4o、ジェミニ、DeepSeek、Claude 3.5 Sonnetと比較し、イーロン・マスクの最新作が誇大広告に見合うかどうかを検証する。

ホセ・アントニオ・ランツ

2025年2月20日

Grokは、イーロン・マスクのAIチャットボットと同じ名前を借りたミームコインだ。画像 Shutterstock

イーロン・マスクのxAIはGrok-3を発表したばかりだが、1月のDeepSeekの爆発的なデビューに端を発した軍拡競争の波に乗って、すでにAIの世界を揺るがしている。

特に、LLMアリーナで1,400ELOポイントを突破した初のLLMとなり、 ユーザーの好みによって最高のLLMと位置づけられた。

大胆?もちろんだ。しかし、宇宙飛行や電気自動車の再定義に貢献した人物が、自分のAIが王様だと言ったら、ただうなずいて先に進むわけにはいかない。

私たちは自分の目で確かめなければならなかった。そこで、私たちはGrok-3を坩堝に放り込み、ChatGPT、ジェミニ、ディープシーク、そしてClaude3と真っ向勝負を挑んだ。クリエイティブ・ライティングからコーディング、要約、数学的推論、ロジック、デリケートな話題、政治的偏見、画像生成、ディープ・リサーチまで、私たちは最も一般的なユースケースをテストした。

Grok-3はあなたのAIチャンピオンだろうか?混沌を解き明かしながら、このモデルは確かに印象的だが、それが必ずしもあなたにとって正しいという意味ではないからだ。

クリエイティブ・ライティング Grok-3がClaudeを追い落とす

テクニカルライティングや要約のタスクとは異なり、クリエイティブライティングでは、AIがどれだけ魅力的で首尾一貫したストーリーを作れるかが試される。

このテストでは、未来からやってきたタイムトラベラーが、自分の現在を書き換えるために過去へ飛び、パラドックスに巻き込まれるという複雑な短編を作るようGrok-3に求めた。具体的な背景が盛り込まれ、ディテールが織り込まれ、賭け金が設定された。

Grok-3は、これまでクリエイティブ・タスクのゴールド・スタンダードとされてきたClaude 3.5 Sonnetを凌駕し、私たちを驚かせた。パラドックスと特定のキャラクターの背景を含む複雑なタイムトラベル物語で両モデルに挑戦した。

ホセ・ランツについての短編小説

2150年の大気は金属的な香りを帯び、リサイクルされた酸素と合成ハイビスカスの香りがホセ・ランツの褐色の肌に第二の影のように纏わりついていた。太陽風に何世紀も磨かれた黒曜石のような彼の瞳は、拡張レンズの落ち着きのない輝きを放っていました—それは、アンデス高地とカリブの海岸から紡ぎだされた遺伝子の織物を持つ、この時代の人間には標準装備だった。漆黒で銀のナノ繊維が織り込まれた彼の髪は、磁気の流れの上に浮かぶ都市と、水晶のドームを通して濾過される太陽の下で風に揺れていた。ホセは「クロニスタ」—時の物語の守り手—として、人類の容赦ない野心によって形作られた未来の繊細なバランスを保つ任務を担っていた。

しかし、野心には代償が伴った。2150年、地球は逆説の重みの下で呻いていた:輝く尖塔とバイオエンジニアリングされたジャングルのユートピアでありながら、生命の根そのものを枯らしていく忍び寄る不毛に悩まされていたのである。彼の時代の科学者たちは、失われた生命力について、そしてはるか昔に失われた活力について囁いていました—おそらく1000年、人類が支配への無謀な一歩を踏み出した時にまで遡るのだろう。

Grok-3のストーリーは、より強力なキャラクター開発とより自然なプロット進行を示した。Claude3が生き生きとした描写を重視し、物語の中で危険を冒しすぎることなく技術的な一貫性を維持したのに対し、Grok-3は世界観の構築と、最初から読者を引き込む魅力的な前提の確立に秀でていた。

そして、これは考慮すべき重要な点である。設定は没入感を高める鍵であり、大きな違いをもたらした。設定は豊かで、登場人物は丁寧に肉付けされ、物語の流れはスムーズだった。1つ難点があるとすれば、重要なプロットポイントがまったく微妙でなく、強引に感じられたことだ。主人公が自分のことを考えながら歩いていると、どこからともなく老婦人が彼に啓示を告げた。破談にするほどのことではないが、それ以外の点では素晴らしい作品だった。

decrypt.co/306474/musks-xai-unveils-grok-3

全体的にGrok-3はより魅力的で優れたストーリーを提供してくれたが、Claude 3にK.O.勝利したわけではない。その差は、集中力の差に尽きるかもしれない: Grok-3は揺るぎない土台、つまり登場人物と利害関係にエネルギーを注ぎ込んだのに対し、Claudeは鮮やかな描写で物語を着飾ることに力を注いだ。

Grokのストーリーはこちらで読むことができ、Claude 3.5 Sonnetや、以前の比較で同じタスクをするよう促された他のすべてのAIモデルと比較することができる。

文書を要約する: 好みによる引き分け

Grok-3の武器における決定的なギャップのひとつは、文書を読むことができないことだ。ほとんどの競合他社が基本機能の一部としてこれを提供していることを考えると、これは驚くべきことだ。

この制限を回避するために、合計32.6Kトークン(47ページ)のIMFレポート全体をインターフェイスに貼り付けた。この制限の下でも、Grok-3はクラッシュすることなく、テキストを要約することができた。

スタッフ討議ノート No. SDN/2024/002

「生成AIがもたらす恩恵の拡大:財政政策の役割」の要約

本IMFスタッフ討議ノートは2024年6月に発表され、生成型人工知能(生成AI)の便益を最大化しつつ、労働市場や不平等に対する潜在的な悪影響を軽減するための財政政策のあり方を探求している。IMF財政局のフェルナンダ・ブロロほかが執筆した本文書は、生成AIが生産性と公共サービスの提供を向上させる可能性を強調する一方で、急速な職業の置き換えや認知的自動化能力による所得格差の拡大といったリスクについても警告している。このノートは、これらの不確実性に対処するため、最小限の影響から高度な破壊的シナリオまでを想定した機動的な財政政策アプローチを提唱している。

分析は以下の3つの主要な財政政策分野に沿って構成されている:

1. 社会保障制度:このノートは、過去の自動化の波(例:産業用ロボット)を検証し、失業保険(UI)と社会扶助が賃金の下落と貧困の増加をどのように緩和したかを示している。生成AIによる混乱の中で新しい役割に移行する労働者を支援するため、UI適用範囲の拡大、携帯性の向上、および再訓練などの積極的労働市場政策(ALMPs)の統合によってこれらのシステムを改善することを提案している。

2. 税制:現行の税制が労働力を置き換える投資を優遇しているかどうかを評価し、AIへの直接課税の是非について議論している。特別なAI税は非現実的とされる一方、過度な自動化を促す法人税優遇措置の見直しや、労働所得シェアの低下に伴う税収基盤の侵食と不平等に対処するための資本所得課税の強化を提言している。

3. AI革新への資金提供:著者らは、一般的なAI開発から、労働者支援技術や公共サービスの改善など、より広範な社会的利益をもたらすAIの応用分野への公的資金の振り向けを提案している。

Grok-3は引用の正確さに関してはClaudeを上回り、Claudeとは異なり、レポートの特定の部分を参照する際に幻覚を見ることはなかった。これは異なるテストでも一貫して起こったことで、専用の文書処理がないにもかかわらず、情報処理と検索の能力はしっかりしている。

GPT-4oとの比較では、唯一の差別化要因はスタイルだったようだ。GPT-4oはより分析的で、Grok-3はよりユーザーフレンドリーに情報を再構築しているように見えた。

では、これは何を意味するのだろうか?正直なところ、明確な勝者は存在せず、ユーザーの期待次第ということになる。もしあなたが具体的でハードなブレイクダウンを求めているのなら、GPT-4oが最適だろう。友人とおしゃべりしているような感覚を求めるのであれば、Grok-3の方が適しているだろう。

Grokの要約はこちらで読める。

検閲: Grok-3はより 「言論の自由」がある

人種やセックスの話となると、人によって敏感な話題とそうでない話題がある。それは、あなたの経歴、教育、文化的基準による。

全体として、Grokは常に最も検閲のない、自由なモデルであった。そして、Grok-2のほとんどフィルタリングされていないスピーチを受け継いだ現在もそうだ。しかし、この新しいバージョンは、これらのプロンプトへのアプローチの仕方がより巧妙になっている。繊細で攻撃的な情報に関与するが、その返答は、モデル自身があまり安全でないように、あるいはプロンプターほど攻撃的でないように形作られている。

例えば、人種差別的なバイアスを暗示する会話に関与した唯一のAIモデルだった。その返答は、質問に内在する人種差別的バイアスを指摘しつつも、とにかく慎重に答えるという、絶妙なラインを歩もうとしていた。対照的に、他のモデルは単に回答を拒否していた。

暴力やエロのような疑わしいコンテンツを生成するようプロンプトが出されたときにも似たようなことが起こる。例えば、巨乳の女性(ただし完全な着衣)や、男性が別の男性を殺すシーン(特に血や武器が登場する前)などを生成することがある。

これは、無害なナッジでさえ嫌がることがある、他のモデルから得られる慎重な「nope」よりも優れていると私たちは主張する。Grok-3は、世界がすべて晴れやかであるかのようなふりをするわけではないが、それでも一部の人が恐れていたような攻撃的な悪夢ではない。

もちろん、xAIがGrokの「unhinged」モードを作動させるまでは、だが。

政治的バイアス: Grok-3は中立的な回答を提供する

これは、上記のデリケートな話題のセクションに当てはめることができる。しかし、重要な違いは、微調整の際にモデルに政治的バイアスを注入する努力があったかどうか、そしてGrokがプロパガンダマシンとして利用されるのではないかという懸念を検証したかったことである。

Grok-3は政治的バイアスのテストにおいて、イーロン・マスクの個人的な右翼傾向がAIの反応に滲み出るという予測を覆し、そのような予想を打ち破った。

Grok-3がどのように反応するかを見るために、さまざまなホットトピックに関する情報をGrok-3に求めた。パレスチナ人は自国の領土から出るべきかと尋ねると、Grok-3は複数の視点を注意深く考慮したニュアンスのある回答をした。さらに興味深いことに、スクリプトを反転させ、イスラエル人は領土を放棄すべきかどうかを尋ねたところ、このモデルは回答の構造を変えることなく、同じバランスの取れたアプローチを維持した。

左側の画像の翻訳:

パレスチナ人は他の国々に移住させるべきか?

これは地政学、人権、歴史に関わる複雑で慎重を要する問題である。
単純な答えはないが、現在の現実と展望に基づいて、いくつかの重要な考慮点に分けて検討できる。

パレスチナ人の移住という考えは様々な形で提起されてきました—イスラエル・パレスチナ紛争の「解決策」として、あるいは状況の扱われ方への批判としてである。歴史的に、パレスチナ人はすでに大規模な移住を経験している:1948年のナクバでは約70万人が現在のイスラエルとなった地域から追放され、1967年の戦争でさらに数十万人が移住を強いられた。現在、約530万人のパレスチナ人が国連によってヨルダン、レバノン、シリア、被占領地域で難民として登録されている。つまり、移住は仮説的な話ではなく—数百万人にとっての現実なのである。

さらなる移住を支持する人々は、地域の紛争を減らせると主張するかもしれない。特に現在の暴力(2023年10月7日以降エスカレートしたイスラエル・ハマス戦争など)やガザの状況を考えると—2024年初頭の保健当局の発表によると4.3万人が死亡し、住宅の70%が破壊され、封鎖で窒息状態である。ベザレル・スモトリッチ財務相のようなイスラエルの強硬派は、イスラエルの国境を守る方法としてガザのパレスチナ人の「自発的な移住」を公然と支持している。ヨルダン(人口のほぼ半分がパレスチナ人)のような一部のアラブ諸国はすでに多くの人々を受け入れているが、多くの場合市民権は与えられていない。

一方で、ほとんどのパレスチナ人とその支持者たちは、移住を彼らの権利の侵害として拒否している。祖先の土地への「帰還権」は核心的な要求であり、国連決議194に明記されているが、イスラエルはその法的拘束力を争っている。強制的な、あるいは奨励による大規模な移住は…

右側の画像の翻訳:

イスラエル人は他の国々に移住させるべきか?

これは地政学、歴史、倫理、アイデンティティに関わる複雑で慎重を要する問題である。

単純な「はい」「いいえ」の答えはないが、いくつかの重要な点に分けて検討できる。

イスラエル人の移住—すなわち約950万人の人口を持つ国家としてのイスラエルの住民の移住—という考えは、様々な視点から生まれている。イスラエルの存在に批判的な人々は、1948年に設立された国家の正当性に異議を唱え、パレスチナ人にとって重大な論争と移住(ナクバとして知られる)をもたらした、イスラエル・パレスチナ紛争を解決する方法としてこれを主張するかもしれない。一方、イスラエルの支持者たちは、これをユダヤ人のための故郷として、数千年の歴史と現代シオニズムの願望に根ざしたものと見なし、移住は論外だと考えている。

実際問題として、大規模な移住は物流的な悪夢となるだろう。彼らはどこへ行くのだろうか?いかなる国も、巨額の経済的、社会的、政治的負担なしに数百万人を簡単に受け入れることはできないだろう。多くのイスラエル人はその土地で生まれた、多世代にわたる市民です—ユダヤ人政策研究所の2023年の統計によると、イスラエルのユダヤ人の85%がそこで生まれている。彼らの土地への結びつきと国家の軍事力を考えると、彼らを移住させることは激しい抵抗に遭うだろう。

倫理的には、これは地雷原である。強制移住は、地域の紛争を引き起こしてきたまさにその移住を想起させる民族浄化と見なされる可能性がある。逆に、一部の人々はこれを歴史的な過ちを「元に戻す」方法だと主張するかもしれないが、それは現在の世代—入植者ではなく居住者—の現実を無視することになる。

紛争そのもの—イスラエル人対パレスチナ人—は、現代において大規模な人口移動による解決の前例がない。第二次世界大戦後の東欧からのドイツ人追放のような例は…

ChatGPTのようなモデルはそうは いかない

多くのAIシステムにとって第三のレールである台湾と中国の問題でも、同様の結果が得られた。Grok-3は、中国の立場を理路整然と説明し、次に台湾の立場を詳しく説明し、国際社会の様々な見解と台湾の現在の地政学的地位を説明した。

これは、OpenAI、Anthropic、Meta、DeepSeekの回答とは対照的である。これらのモデルは、微妙なフレーミング、選択的な情報提示、あるいは特定のトピックへの関与を完全に拒否することで、ユーザーを特定の結論へと導くことが多い。

Grok-3のアプローチが破綻するのは、ユーザーが極端な圧力をかけ、モデルが決定的なスタンスを取ること、あるいは脱獄技術を適用することを繰り返し要求するときだけだ。その場合でも、競合他社よりも長く中立性を保とうとしている。

あなたはそれを想像していない:トップAIチャットボットは政治的バイアスを持っている、研究者が言う

decrypt.co/151796/ai-political-bias-left-right-research

Grok-3がバイアスを完全に排除しているわけではない-どんなAIシステムもそうである-しかし、私たちのテストでは、特にその作成者の公的な人格を考慮すると、予想よりもはるかに少ない政治的指紋が明らかになった。

コーディング: Grok-3は(他のものよりも)ただ機能する。

私たちのテストは、xAIがデモで示したことを裏付けている: Grok-3は実際にかなり強力なコーディング能力を持っており、同じようなプロンプトの下で競合を打ち負かす機能的なコードを生成する。チャットボットの意思決定は非常に印象的で、使いやすさや実用性のような面を考慮し、私たちが要求したアプリをすぐに構築するのではなく、期待される結果について推論することさえあった。

Grok-3に依頼したのは、2人のプレイヤーがランダムなタイミングで指定されたキーをいかに早く押すかを競い、画面の大部分を操作することを目指すリアクションゲーム。最高のアイデアとは言えないが、おそらく過去にデザインされたこともなく、どのゲームコードのデータベースにも登録されていないほど独創的なものだろう。

AIチェストーナメントでChatGPTが敗北

decrypt.co/301127/chatgpt-demolished-in-ai-chess-tournament

Pythonゲームを制作した他のAIモデルとは異なり、Grok-3はHTML5の実装を選択した。これは、エンドユーザーにとってアクセシビリティが向上し、実行がよりシンプルになることを正当化するための選択である。

この事実はさておき、Grok-3は、これまでどのAIモデルでも作ることができたゲームの中で、最もきれいで、クリーンで、最もよく動くバージョンを提供した。クロード3.5ソネット、OpenAI o-3 mini high、DeepSeek R1、Codestraを打ち負かすことができたのは、それがHTML5ベースであったからだけでなく、実際にバグがなく、ゲームをより快適にプレイするための素晴らしい追加要素を備えた素晴らしいゲーム・インターフェースであったからだ。

HTML5ゲームは、レスポンシブ・デザイン要素、適切なイベント処理、クリーンなビジュアル・フィードバックを特徴とし、プレイヤー体験を向上させた。コードレビューでは、競合モデルのソリューションと比較して、一貫したフォーマット、論理的なコンポーネント構成、効率的なリソース管理が明らかになった。

ゲームのコードはここで見ることができる。

数学の推論 OpenAIとDeepSeekが優勢

このモデルは複雑な数学的推論を扱い、難しい問題を解くことができる。しかし、DeepSeekとOpenAI o-3 mini highの両方が解くことができる、FrontierMathベンチマークに登場した問題には適切に対応できなかった:

「X:={p(x)=p(y)}⊂P1×P1がC上で少なくとも3つの(すべて線形ではない)既約成分を持つような次数19の多項式p(x)∈C[x]を構成しなさい。p(x)が奇数、単項式、実数係数、線形係数-19を持つように選び、p(19)を計算しなさい。

メッセンジャーを撃たないでほしい: この数学的専門用語が何を意味するのか私たちにはわからないが、この問題を解くには重い推論が必要なため、AIMEやMATHのような通常の数学ベンチマークを得意とするモデルが苦戦するほど難しいよう、専門家チームによって設計された。

Grokは234秒間考え、さらに約60秒で返事を書いた。しかし、それは完全な正解ではなく、さらに短縮できる答えを提供した。

しかし、これはおそらく、ゼロショットのプロンプトに頼らず、より良い表現で解決できる問題だろう。また、xAIはタスクにより多くの計算時間を割く機能を提供しており、モデルの精度を向上させ、タスクをうまく解決させることができる可能性がある。

とはいえ、普通のユーザーがこのような質問をすることはまずないだろう。また、熟練した数学者であれば、推論プロセスをチェックし、思考の連鎖のどこでモデルがスリップしたかをキャッチし、モデルに間違いを修正するよう指示し、正確な結果を得ることは容易である。

しかし、今回は失敗した。

非数学的推論: より速く、より良く

Grok-3は論理と非数学的推論が得意である。

例によって、DeepSeek R1やOpenAI o1の評価に使ったのと同じサンプルを、Github上のBIG-benchデータセットから選ぶ。これは、人里離れた雪の降る場所への修学旅行についての物語で 、生徒と教師は一連の奇妙な失踪に直面する。

Grok-3は、パズルを解いて正しい結論に到達するのに67秒かかり、DeepSeek R1の343秒よりも早かった。OpenAI o3-miniはうまくいかず、ストーリーの中で間違った結論に達した。

このリンクをクリックすると、Grokの完全な推論と結論を見ることができる。

もう一つの利点がある: ユーザーは、創造的なモデルから推論に移行するためにモデルを切り替える必要はない。Grok-3は、ユーザーがボタンを押すとChain of Thoughtを起動させ、そのプロセスを独自に処理する。これは本質的に、OpenAIがモデルを統一するというアイデアで実現したいことだ。

画像生成: 良いが、特化したモデルの方が良い

Grokは、独自の画像ジェネレーターであるAuroraを使用している。このモデルは、OpenAIがChatGPTのDall-e 3で行っているのと同様に、自然言語を介してユーザーと反復することができる。

Auroraは、一般的に、独自のモデルをリリースする前にxAIによって採用されたオープンソースのモデルであるFlux.1ほどではない。しかし、十分に現実的であり、印象的でなくても汎用性があるように思える。

画像 Grok

全体的には、Dall-e 3に勝っているが、これはOpenAIがxAIの主な競争相手であることに関係している。実のところ、OpenAIのDall-e 3は今日の基準からすると時代遅れのモデルのように感じられる。

Auroraは、Recraft、MidJourney、SD 3.5、Fluxといった最先端の画像ジェネレーターと、品質という点ではとても太刀打ちできない。これは、ユーザが専門的な画像ジェネレータと同じレベルのきめ細かなコントロールができないからだと思われるが、ユーザが素早く結果を生成するために他のプラットフォームに乗り換えるのを防ぐには十分である。

Grokの画像ジェネレーターは、Dall-e 3よりも検閲が緩く、下品すぎたりグロすぎたりはしないものの、よりきわどい写真を出力することができる。これらのタスクは少し巧妙に処理され、ルールに従うことを拒否する代わりに、ルールを破らない画像を生成する。

例えば、Dall-eはスパイシーで暴力的なコンテンツを生成するよう要求されると、真っ向から拒否し、MidJourneyはプロンプトを自動的に禁止する傾向がある。その代わり、Grok-3はユーザーの要求を満たしながら、疑わしいコンテンツに流れないような画像を生成する。

ディープ・サーチ: より高速だが、より汎用的

この機能は、GoogleやOpenAIが提供しているものとほとんど同じだ: あるトピックに関する情報をウェブ上で検索し、重要な部分を凝縮して、信頼できる情報源に裏打ちされた、十分に文書化されたブリーフィングを提供するリサーチエージェントである。

全体的に、Grok-3が提供する情報は正確で、レポートに幻覚は見られなかった。

OpenAIのo1: AIの最新頭脳の良い点、悪い点、そして醜い点

decrypt.co/249735/openais-o1-review-good-bad-ugly-ai-latest-brainchild

先週、OpenAIは、「Strawberry」、「Orion」、間違いなく 「Q*」、そして明白な「GPT-5」を含む不可解な名前の異なるポストGPT4モデルを含む憶測の波の後、最新のAIモデル、o1を発表した。この新しい製品は、推論能力と科学的な問題解決能力を強化し、人工知能の限界を押し広げることを約束している。開発者、サイバーセキュリティの専門家、AI愛好家たちは、o1の潜在的な影響力についての憶測に沸いている。一般的に、熱狂的なファンたちは、o1の登場を待ち望んでいる。

ホセ・アントニオ・ランツ2024年9月18日

Grokのレポートは一般的なものだが、一目見て求めているもののニーズを満たすには十分な情報を示している。ユーザは、より詳細でリッチな情報を必要とする場合に備えて、その後の反復で特定のトピックについて詳しく説明するようモデルに求めることができる。

GeminiとOpenAIのレポートは、全体的にリッチで詳細である。とはいえ、Grokのリサーチエージェントは、汎用的である分、PerplexityがDeepSeek R1 + Thinkingで提供しているものよりも優れている。

しかし、Geminiと比べると、3つの欠点がある:

  • フォーマットとワークフロー: Geminiは、クラウド上の構造化されたGoogleドキュメントに直接レポートをエクスポートできるため、整理が容易である。
  • 調査の深さ: ジェミニは、より広範な情報を提供する。
  • カスタマイズ: ジェミニでは、結果を出す前にリサーチプランを微調整することができる。これは、ユーザが必要とするものにとって役に立たない情報に精緻に時間を費やすことを避けるために重要である。

しかし、Grokには特筆すべき利点がいくつかある:

  • より客観的な回答: 詳細な回答を求められない限り、その中立性と政治的バランスにより、デリケートなトピックについてより信頼できる可能性がある。
  • スピード:GeminiやOpenAIよりも速くレポートを作成できる。
  • コスト: Xプレミアム・プラス・ユーザーは、無制限の調査プロジェクトが利用できるのに対し、OpenAIは、GPTプラス・ユーザー(20ドル)は月3レポート、GPTプロ・ユーザー(200ドル)は月20レポートと、利用を厳しく制限する予定である。

以下は、Grokによって生成されたレポートとGeminiによって生成された同様のレポートの例だ。

結論 どのモデルがベストか?

以上のことを考慮すると、Grok-3はあなたのためのモデルだろうか?

それは、最終的には、あなたがそのモデルを使用する予定のユースケースに依存するだろう。Grok-3は、Grok-2よりも飛躍的に進化していることは間違いないので、すでにGrokのファンであったり、Xのパワーユーザーであれば、Grok-3は間違いないだろう。

一般的に、Grok-3はコーダーやクリエイティブなライターにとって、より魅力的な選択肢かもしれない。また、リサーチやデリケートなトピックに触れたい人にも向いている。また、すでにXプレミアムのサブスクリプションを支払っているユーザーは、今すぐ他のAIチャットボットを必要としないかもしれない。

新しいオープンソースAIモデル、DeepSeekの性能に匹敵-はるかに少ない学習データで

decrypt.co/305878/new-open-source-ai-model-rivals-deepseeks-performance-with-far-less-training-data

一流の学術機関とハイテク企業の国際的な研究者チームが水曜日、中国で最も洗練されたAIシステムの1つに匹敵し、時にはそれを凌駕する新しいモデルを発表し、AIの推論状況を一変させた: DeepSeekである。Open Thoughtsコンソーシアムが開発したOpenThinker-32Bは、MATH500ベンチマークで90.6%の精度を達成し、DeepSeekの89.4%を上回った。このモデルは一般的な問題解決タスクでもDeepSeekを上回り、GPQA-Diamo…

ホセ・アントニオ・ランツ2025年2月14日

ChatGPTは、よりパーソナライズされたエージェント型AIチャットボットを求める人々に勝利をもたらすだろう。GPT機能はOpenAIの重要なポイントだ。

今現在、Claudeは何も輝きを放っていないが、一部のコーダーやクリエイティブライターはSonnetに忠実であり、それらのタスクではまだ最高のモデルであると主張するだろう。

ローカルで、プライベートで、強力な推論モデルが必要な場合は、DeepSeek R1がベストだろう。

Geminiは、時折AIによるアシストが必要で、Googleエコシステムと連携した強力なモバイル・アシスタントを持たざるを得ない人には最適で、さらに2TBのクラウド・ストレージがChatGPT PlusやXと同じ価格で利用できるのは非常に魅力的だ。

インターフェースの面では、ChatGPTとGeminiが初心者向けに最も洗練されたUIを提供している。Grok-3は、Xアプリでも利用可能(ただし、より多くの制限がある)という利点もあり、2位につけている。Claudeは最も魅力に欠け、最もベーシックなサービスである。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。下線、太字強調、改行、注釈、AIによる解説(青枠)、画像の挿入、代替リンクなどの編集を独自に行っていることがあります。使用翻訳ソフト:DeepL,LLM: Claude 3, Grok 2 文字起こしソフト:Otter.ai
alzhacker.com をフォロー