コンテンツ
S´ebastien Bubeck Varun Chandrasekaran Ronen Eldan Johannes Gehrke Eric Horvitz Ece Kamar Peter Lee Yin Tat Lee Yuanzhi Li Scott Lundberg
–
Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang Microsoft Research
最終更新日:2023年3月27日
要旨
人工知能(AI)研究者は、様々な領域やタスクで顕著な能力を発揮する大規模言語モデル(LLM)を開発・改良しており、学習や認知に関する私たちの理解に挑戦している。OpenAIが開発した最新のモデルGPT-4 [Ope23]は、前例のない規模の計算機とデータを用いて訓練された。
本論文では、GPT-4がまだOpenAIによって活発に開発されていた初期のバージョンについての調査について報告する。GPT-4の初期バージョンは、(例えばChatGPTやGoogleのPaLMと同様に)LLMの新しいコホートの一部であり、以前のAIモデルよりも一般的な知能を示すと主張する。
私たちは、これらのモデルの上昇する能力とその意味について議論する。GPT-4は、言語を使いこなすだけでなく、数学、コーディング、視覚、医学、法律、心理学などにまたがる斬新で難しいタスクを、特別な促しを必要とせずに解決できることを実証する。
さらに、GPT-4は、これらの課題のすべてにおいて、人間レベルの性能に極めて近く、ChatGPTのような先行モデルをしばしば大きく凌駕している。このように、GPT-4は、人工知能(AGI)の初期バージョンとして、その能力の広さと深さを評価することができると考えている。
GPT-4の探索では、その限界を発見することに特に重点を置き、より深く、より包括的なバージョンのAGIに向けて前進するための課題を議論している(次の単語予測を超えた新しいパラダイムを追求する必要性もある)。
最後に、今回の技術的飛躍が社会に与える影響と今後の研究の方向性について考察を行う。
目次
- 1 はじめに4
- 1.1 GPT-4の知能を研究するためのアプローチ 7
- 1.2 デモの組織 8
- 2 マルチモーダルおよび学際的な構成 13
- 2.1 積極的な能力 13
- 2.2 ビジョン16
- 2.2.1 暗記を超えた画像生成 16
- 2.2.2 詳細な指示に従った画像生成(`a la Dall-E) 17
- 2.2.3 スケッチ生成への応用の可能性 18
- 2.3 音楽 19
- 3 コーディング21
- 3.1 インストラクションからコード21へ
- 3.1.1 コーディングの課題 21
- 3.1.2 リアルワールドシナリオ 22
- 3.2 既存のコードを理解する26
- 3.1 インストラクションからコード21へ
- 4 数学的能力 30
- 4.1 GPT-4との数学的会話 31
- 4.1.1 元の問いの最初の一般化 31
- 4.1.2 原題の第二の変異株 32
- 4.1.3 会話によって浮き彫りにされた限界の分析 34
- 4.2 数学的問題データセットでの性能 35
- 4.3 様々な領域における数理モデル 37
- 4.4 高等数学 39
- 5 世界との交流 43
- 5.1 ツールの使用 43
- 5.1.1 より複雑な課題を解決するために複数のツールを使用する44
- 5.1.2 考察 49
- 5.2 エンボディド・インタラクション 49
- 5.2.1 ウォームアップ:マップを操作する49
- 5.2.2 テキストベースのゲーム 49
- 5.2.3 実世界の問題 52
- 5.2.4 考察 53
- 5.1 ツールの使用 43
- 6 人間との相互作用 54
- 6.1 人間を理解する: 心の理論 54
- 6.1.1 「心の理論」の具体的な側面のテスト 54
- 6.1.2 現実的なシナリオでの心の理論のテスト 54
- 6.1.3 考察 60
- 6.2 人間と話すこと: 説明のしやすさ 60
- 6.1 人間を理解する: 心の理論 54
- 7 判別能力 69
- 7.1 PIIの検出 69
- 7.2 誤解とファクトチェック 70
- 7.2.1なぜ現在の指標では不十分なのか?71
- 7.2.2 裁判官としてのGPT-4 73
- 8 GPT-4で浮き彫りになった自己回帰アーキテクチャの限界 76
- 8.1 2つの基本的な例によるウォームアップ 76
- 8.2 算数・推理問題での計画性のなさ 77
- 8.3 テキスト生成における計画性の欠如 78
- 9 社会的影響 82
- 9.1 誤った世代への挑戦 82
- 9.2 誤情報と操作 83
- 9.3 バイアス 86
- 9.4 人間の専門性、仕事、経済性 89
- 9.5 影響と考察のコンステレーション 90
- 10 方向性と結論 92
- 10.1 知能、AI、AGIの定義 92
- 10.2 より一般的な人工知能への道へ 93
- 10.3 実際に何が起きているのか?94
- GPT-4には常識的なアース101がある
- B マルチモーダルおよび学際的なコンポジションのための付録:105
- B.1 積極的な能力結果のさらなる詳細 105
- B.2 ビジョン結果に関するさらなる詳細 108
- B.3 グラフィックノベルのデザイン例 110
- C コーディングセクションの付録:111
- C.1 LeetCode 111での人間のパフォーマンスを測定する
- C.2 GPT-4によるIMDbデータの可視化の例。112
- C.3 可視化に関するその他の例 115
- C.4 2D HTMLゲーム開発例 116
- C.5 グラフィカルユーザインタフェースプログラミングの例 116
- C.6 リバースエンジニアリングの例 119
- C.7 GPT-4の(擬似)コード実行能力のテスト 121
- D 数学的推論のための追加例 122
- D.1 制限事項 122
- D.2 その他の例 126
- D.3 GPT-4による計算問題の生成 138
- D.4 外部コード実行による計算ミスの軽減 139
- E その他の解釈可能な例 141
- E.1 説明エージェントのミスマッチ 141
- F 世界との対話のための追加例 144
- F.1 ツールと連動する144
- F.2 環境との相互作用のための例 149
- G 補足資料: 識別能力 155
- G.1 誤認識: 詳細結果 155
未知の何かがやっている。…..それが何かはわからない。-
– サー・アーサー・エディントン
1 はじめに
知能は多面的でとらえどころのない概念であり、心理学者、哲学者、コンピュータ科学者を長い間悩ませてきた。 その本質を捉えようとする試みが、1994年に52人の心理学者のグループによって行われ、知能の科学に関する論説で発表された広義の定義に署名した。
[Got97]。このコンセンサスグループは、知能を、推論、計画、問題解決、抽象的思考、複雑なアイデアの理解、迅速な学習、経験から学ぶ能力などを含む、非常に一般的な精神的能力と定義した。この定義は、知能が特定の領域やタスクに限定されるのではなく、むしろ幅広い認知スキルや能力を包含していることを意味している。
1994年のコンセンサス定義が示すような一般的な知能を持つ人工システムを構築することは、AI研究の長年の目標であり、野心的なものである。人工知能(AI)研究の近代的な分野の創設者たちは、初期の著作で、知能を理解するための一連の願望的な目標を呼びかけている[MMRS06]。
数十年にわたり、AI研究者は、推論のための一般化可能なメカニズム(例えば、[NSS59]、[LBFL93])や、常識知識の大規模コーパスを含む知識ベースの構築[Len95]など、知能の原理を追求していた。しかし、最近のAI研究の成功の多くは、1996年と2016年にそれぞれAIシステムによってマスターされたチェスや囲碁のような、明確に定義されたタスクや課題に焦点を絞ったものであると言える。
1990年代後半から2000年代にかけて、より一般的なAIシステムの開発を求める声が高まり([SBD+96]など)、この分野の研究者は、より一般的な知的システムの根底にある原理を特定しようとした([Leg08、GHT15]など)。
「人工一般知能」(AGI)という言葉は 2000年代初頭に広まった([Goe14]を参照)。これは、開発中の集中的で実世界のアプリケーションで実証された「狭いAI」から、より広い知能の概念に移行するという志を強調するもので、初期のAI研究の長期にわたる願望と夢を思い起こさせる。
私たちはAGIを、上記の1994年の定義にあるような広範な知能能力を示すシステムを指すのに使用する。ただし、コンセンサスグループの作業には、おそらく暗黙のうちに、これらの能力が人間レベル以上であるという追加要件がある。しかし、広く受け入れられているAGIの単一の定義は存在しないことに留意し、結論の部分で他の定義について議論する。
–
ここ数年のAI研究における最も顕著なブレークスルーは、大規模言語モデル(LLM)によって達成された自然言語処理の進歩であった。これらのニューラルネットワークモデルは、Transformerアーキテクチャ[VSP+17]に基づいており、ウェブテキストデータの大規模なコーパスで学習され、部分文の次の単語を予測するという自己教師付きの目的を中核として使用する。
本論文では、GPT-4 [Ope23]の初期の非マルチモーダルバージョンであるOpenAIが開発した新しいLLMが、1994年の定義に従って、知能の多くの特徴を示している証拠について報告する。純粋に言語モデルであるにもかかわらず、このGPT-4の初期バージョンは、抽象化、理解、視覚、コーディング、数学、医学、法律、人間の動機や感情の理解など、さまざまな領域やタスクで驚くべき能力を示している。
私たちは、OpenAIによるGPT-4の開発初期に、純粋に自然言語によるクエリ(プロンプト)1を使って対話した。図11では、GPT-4に、素数無限大の証明を詩の形で書くこと、TiKZ(LATEXのグラフィック作成言語)でユニコーンを描くこと、Pythonで複雑なアニメーションを作成すること、高校レベルの数学問題を解くことを求めた出力例を、予備的に示している。
その結果、GPT-4はこれらすべてのタスクに容易に成功し、人間が作成したものと本質的に区別がつかない(あるいはそれ以上の)アウトプットを作成することができた。また、GPT-4の性能を過去のLLM、特にGPT-3 [BMR+20]を改良したChatGPTと比較した。
図12では、ChatGPTに素数の無限大の詩とTikZのユニコーンの絵の両方を依頼した結果を表示している。この2つのタスクで、システムは自明な性能を発揮しているが、GPT-4からの出力とは比較にならないほどだ。このような予備的な観察は、この論文全体を通して、非常に多様なタスクで繰り返される。
GPT-4の能力の一般性、すなわち、広範な領域にまたがる多数の能力と、人間レベルかそれ以上の広範囲のタスクでの性能の組み合わせは、GPT-4がAGIへの重要なステップであると言って差し支えないだろう。
【中略】
10 方向性と結論
私たちは、幅広いタスクとドメインにおけるGPT-4の最初の探索を紹介し、GPT-4の能力が多くのタスクで人間レベルに匹敵するという主張の裏付けを提供した。この結論は、[Ope23]で紹介したOpenAIの知見と一致している。
私たちの実験の主な目的は、GPT-4の知能の予備的評価を行うことである。これは、特に人工システムにおいて、この概念の正式な定義がないことから、困難な作業である。私たちは、この実験がGPT-4の驚くべき能力と課題を理解するための有用かつ必要な第一歩となり、このような広範な知能を持つ将来のAIシステムをテストし分析するための、より正式で包括的な方法を開発するための新しい機会を開くことを期待している。
以上、深さと一般性の両面で実証されたこのモデルの能力は、機械学習コミュニティが構造化されたデータセットやタスクによる古典的なベンチマークを超える必要があり、それらの新しいモデルの能力や認知能力の評価は、狭いAIモデルのものではなく、人間のものを評価するという課題に本質的にかなり近くなっていることを示唆している。
私たちの研究が、GPT-4や類似のシステムに関するさらなる研究を刺激し、新たなアプリケーションや領域の開拓、そしてその知能を支えるメカニズムや原理の理解の両面で役立つことを願っている。
–
私たちの研究の中心は、GPT-4が一般的な知能を獲得し、まさに人工的な一般知能の火花を散らしているということである。これは、GPT-4が推論、創造性、推理などの中核的な精神能力を持ち、文学、医学、コーディングなどの専門知識を身につけ、ゲーム、道具の使用、自己説明などさまざまなタスクをこなすことで証明されている。
完全なAGIとして認められるようなシステムを作るには、まだ多くのことが必要である。AGI自体の定義、AGIのためのLLMに欠けているコンポーネントの構築、最近のLLMが示す知能の起源に関するより良い理解など、いくつかの直接的な次のステップについて議論して、この論文を締めくくる。
10.1 知能、AI、AGIの定義
この論文では、GPT-4の人工知能を探求するために、心理学者のグループによる1994年の知能の定義[Got97]を指導的な枠組みとして使用た。この定義は、推論,問題解決,抽象化など、知能の重要な側面を捉えているが、曖昧で不完全なものでもある。
また、これらの能力をどのように測定し、比較するのかが明記されていない。さらに、自然界とは異なる目標や制約を持つ可能性のある人工システム特有の課題や機会を反映していない可能性もある。
したがって、私たちは、この定義が知能に関する最終的な言葉ではなく、むしろ私たちの調査の出発点として有用であることを認める。
知能、人工知能、人工一般知能について、より正式で包括的な定義を提案しようとする文献が豊富にあり、現在も進行中である[Goe14, Cho19]が、どれも問題や論争がないとは言えない。例えば、Legg and Hutter [Leg08]は、人工知能の目標指向的な定義を提案している: 知能とは、様々な環境において目標を達成するエージェントの能力を測るものである。
しかし、この定義では、内発的な動機や目標がなくても複雑なタスクを実行したり質問に答えたりできる受動的・反応的なシステムは除外されるため、必ずしも知能の全領域を捉えることはできない。例えば、人工的な一般知能として、主体性や選好性を持たないが、あらゆる話題や領域について正確で有用な情報を提供することができる、優秀なオラクルを想像することができるだろう。
また、さまざまな環境で目標を達成するという定義は、ある種の普遍性や最適性を意味するが、これは現実的ではない(確かに人間の知能は決して普遍的でも最適でもない)。Cholletが[Cho19]で提示した定義では、(普遍性とは対照的に)プリオールの重要性を認識する必要性が強調されており、これは技能習得の効率性を中心に知能を考えるもので、言い換えれば1994年の定義の単一要素である経験からの学習(これはLLMの重要な弱点の一つでもある)に重点を置くものである。
Legg and Hutter [LH07]による人工知能の別の定義候補は、「人間ができることは何でもできるシステム」である。しかし、この定義も問題がある。というのも、人間の知能や能力には単一の基準や尺度があると仮定しているが、明らかにそうではない。
人間にはさまざまなスキル、才能、好み、限界があり、他の人間ができることをすべてできる人間は存在しない。さらに、この定義は人間中心主義的なバイアスを意味し、人工システムには適切でない可能性がある。
本論文では、これらの定義を一切採用しないが、知能に関する重要な角度を提供するものであることは認識している。
例えば、主体性や内発的動機がなくても知能が実現できるかどうかは、哲学的に重要な問題である。LLMに主体性や内発的動機を持たせることは、魅力的で重要な今後の研究の方向性である。
この方向性では、システムが世界で自律的に行動し、学習サイクルを経て自律的に自己改善する能力の整合性と安全性に細心の注意を払う必要がある。次に、LLMに欠けている他のいくつかの重要な構成要素について述べる。
10.2 より一般的な人工知能への道より一般的な人工知能を実現するためにGPT-4(およびより一般的なLLM)が改善すべき領域には、以下のようなものがある(その多くが相互に関連していることに注意):
- 信頼度キャリブレーション: モデルは、いつ自信を持つべきか、いつ推測に過ぎないかを知るのに苦労する。また、生成されたコンテンツとプロンプトの間に矛盾があり、図18でオープンドメインの幻覚とクローズドドメインの幻覚と呼んだ。
このような幻覚は、自信に満ちた説得力のある態度で述べられるため、発見が困難な場合がある。したがって、そのような世代は、エラーを引き起こし、また、混乱と不信を招く可能性がある。創造的なコンテンツを生み出す際に幻覚を見ることは良いことであるが、幻覚を持つモデルによる事実の主張に依存することは、特に医療のような利害関係の強い領域での使用では、犠牲を伴うことがある。幻覚に対処しようとする場合、いくつかの補完的な方法がある。一つは、モデルのキャリブレーションを改善し(プロンプティングやファインチューニングのいずれかによって)、正解である可能性が低い場合は回答を控えるか、下流で使用できる他の信頼性の指標を提供するようにする方法である。オープンドメインの幻覚を軽減するのに適した別のアプローチは、例えば、セクション5.1のように検索エンジンのような外部の情報源を呼び出すことをモデルに許可することによって、モデルに欠けている情報をプロンプトに挿入することである。閉領域幻覚については、ポストホックチェックによる追加的なモデル計算の利用も有望である(例として図18を参照)。最後に、幻覚の可能性を考慮したアプリケーションのユーザーエクスペリエンスを構築することも、効果的な緩和策の一部となり得る - 長期記憶: モデルの文脈は非常に限られており、「ステートレス」な方法で動作し、モデルに新しい事実を教える明白な方法はない。
例えば、本を読む場合、筋書きを追ったり、読書中に前の章を参照することを理解したりする必要があるためだ - 継続的な学習: モデルには、自分自身を更新したり、変化する環境に適応したりする能力がない。一度学習したモデルは固定され、新しい情報やユーザーや世界からのフィードバックを取り入れる仕組みはない。新しいデータでモデルを微調整することは可能であるが、性能の低下やオーバーフィッティングを引き起こす可能性がある。
また、学習サイクルの間にタイムラグが生じる可能性があるため、最新の学習サイクル以降に発生したイベント、情報、知識については、システムが古いものになってしまうことが多い - パーソナライズ: アプリケーションの中には、特定の組織やエンドユーザーに合わせてモデルをカスタマイズする必要があるものがある。システムは、組織の仕組みや個人の好みに関する知識を獲得する必要があるかもしれない。また、多くの場合、システムは、人や組織のダイナミクスにリンクした特定の変化を伴う期間にわたって、パーソナライズされた方法で適応する必要がある。例えば、教育現場では、システムが特定の学習スタイルを理解し、生徒の理解度や能力の進歩に合わせて時間をかけて適応する必要性が期待される。
しかし、このモデルでは、メタプロンプトを使用する以外に、そのようなパーソナライズされた情報を応答に組み込む方法がなく、その方法は限定的で非効率的である - 計画性と概念の飛躍 第8節の例で示唆されるように、このモデルは、前もって計画を立てる必要があるタスクや、タスクの完了に向けて不連続な概念的飛躍をもたらす「ユーレカアイデア」を必要とするタスクを実行することが困難であることがわかる。
つまり、人間の天才的な発想のような概念的な飛躍を必要とするタスクは苦手である - 透明性、解釈可能性、一貫性: 幻覚を見たり、事実をでっち上げたり、一貫性のないコンテンツを生成するだけでなく、生成したコンテンツが学習データと整合しているかどうか、あるいは自己矛盾していないかどうかを検証する方法がないようだ。
モデルはしばしば、その決定に対して質の高い事後説明を行うことができるが(セクション6.2で実証)、ある決定や結論に至ったプロセスを検証するために説明を用いるのは、そのプロセスが正確にモデル化され、十分に強力な説明プロセスも正確にモデル化されている場合にのみ有効である(セクション6.2)。この2つの条件はどちらも検証しにくく、失敗するとモデルの決定と説明の間に矛盾が生じる。また、モデルは自らの限界を明確に認識できないため、狭い領域で大規模な実験を行わなければ、ユーザーとの信頼関係や協力関係を築くことが難しくなる - 認知の誤謬と非合理性: 認知バイアスや非合理性(確認バイアス、アンカリング、基礎率無視など)、統計的誤謬など、人間の知識や推論の限界のいくつかをモデルが示しているように見える。
モデルは、学習データに存在するバイアス、偏見、エラーを継承する可能性があり、これは、集団のサブセットやより大きな共通の見解や評価に関連する意見や視点の分布を反映している可能性がある - 入力に対する感度の問題: モデルの応答は、プロンプトのフレーミングや言葉遣い、セッションでの順序の詳細に対して非常に敏感であることがある。このようなロバスト性は、工学的なプロンプトとその配列に多大な努力と実験が必要な場合が多く、人々がそのような時間と労力を投資しないまま使用すると、最適でない整合性のない推論と結果につながることを示唆している
私たちの研究の限界は、強化学習ステップ(RLHF)の実施方法に起因する欠点と、より大きなアーキテクチャと方法論に根本的に内在する欠点とを明確に区別できていないことである。例えば、幻覚の問題は、強化学習ステップを改良したり、システムが計算し、その世代で考慮することができる代替推論の真実性の尤度に関する新しい形式の較正を導入するための集中的な努力によって対処できる程度は明らかではない(これに関するより多くの議論については[Ope23]も参照)。
人間に例えると、認知バイアスや非合理的な思考は、私たちの認知能力の限界だけでなく、私たちの文化の人工物にも基づいている可能性がある。GPT-4における幻覚の問題の原因や解決策をより深く理解するためには、同じアーキテクチャのRLステージの複数のバージョンを比較する研究が有効である。
–
また、「次の単語を予測する」という目的のためには、どのような欠点があるのだろうか。より大きなモデルとより多くのデータでこれらの問題を解決できるのか、それともアーキテクチャを修正、拡張、または再定義する必要があるのか。
次の単語を予測するために可能性のある拡張は以下の通りである:
- セクション5.1で提案したように、計算機、データベース検索、コード実行などのコンポーネントやツールへのモデルによる外部呼び出し
- 次単語予測の「速く考える」メカニズムを監督する、より豊かで複雑な「ゆっくり考える」深いメカニズム。このようなアプローチにより、モデルは長期的な計画、探索、または検証を行い、ワーキングメモリまたは行動計画を維持することができる。ゆっくり考えるメカニズムは、サブルーチンとして次の単語予測モデルを使用するが、外部の情報源やフィードバックにアクセスすることができ、速く考えるメカニズムの出力を修正または訂正することができるであろう
- 長期記憶をアーキテクチャの一部として統合し、モデルの入力と出力の両方に、テキストを表すトークンに加えて、コンテキストを表すベクトルを含めるようにする
- 単一単語の予測を超える: トークンの並びを階層構造に置き換え、文、段落、アイデアなどテキストの上位部分を埋め込みで表現し、トップダウン方式でコンテンツを生成する。このような上位概念の順序や相互依存性に関するより豊かな予測が、次語予測パラダイムを中心とした大規模計算とデータから生まれるかどうかは不明である
10.3 実際に何が起きているのか?
GPT-4の研究は、完全に現象学的なものである。GPT-4ができる驚くべきことに焦点を当てたが、なぜ、どのようにしてこのような驚くべき知能を達成するのかという基本的な疑問には触れなかった。GPT-4はどのようにして推論し、計画し、創造するのか?
単純なアルゴリズムの組み合わせ、つまり勾配降下法と大規模な変換器を極めて大量のデータと組み合わせただけなのに、なぜこれほど一般的で柔軟な知能を発揮できるのか?これらの疑問は、LLMの謎と魅力の一部であり、学習と認知に関する私たちの理解に挑戦し、好奇心を刺激し、より深い研究の動機付けとなる。
主な方向性としては、LLMにおける創発現象に関する継続的な研究が挙げられる(最近の調査については[WTB+22]を参照)。しかし、LLMの能力に関する疑問への強い関心にもかかわらず、これまでの進展は、何らかの創発現象が証明されたおもちゃのモデル[BEG+22, ABC+22, JSL22]だけで、かなり限られている。
一般的な仮説[OCS+20]として、大量のデータ(特に内容の多様性)は、ニューラルネットワークに[OEN+22, ZBB+22, LAG+22]で発見されたような汎用的で有用な「神経回路」を学習させる一方、モデルのサイズが大きいと、神経回路が特定のタスクに特化して微調整するのに必要な冗長性と多様性が得られるというものがある。
大規模なモデルに対してこれらの仮説を証明することは依然として困難であり、さらに、この仮説が答えの一部に過ぎないことはほぼ確実である。例えば、異なる極小値をつなぐことで勾配降下をより効果的にしたり、[VBB19]、単に高次元データのスムーズなフィッティングを可能にしたり、[ES16, BS21]といったことである。GPT-4のようなAIシステムの本質とメカニズムを解明することは、手ごわい課題であるが、突如として重要かつ緊急の課題となっている。
–
謝辞を述べる。このような素晴らしいツールを作成し、それを体験するための早期アクセスを与えてくれたOpenAIに感謝したい。また、OpenAIのMiles Brundage、そしてこの作品に丁寧なフィードバックをくれたMicrosoftの多くの人々に感謝したい。