コンテンツ
Yann Lecun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416
MITの研究科学者。レックス・フリードマンポッドキャストのホスト。
目次
- 0:00 – 導入
- 2:18 – LLMの限界
- 13:54 – バイリンガリズムと思考
- 17:46 – ビデオ予測
- 25:07 – JEPA (Joint-Embedding Predictive Architecture)
- 28:15 – JEPA vs LLM
- 37:31 – DINOとI-JEPA
- 38:51 – V-JEPA
- 44:22 – 階層的計画
- 50:40 – 自己回帰型LLMs
- 1:06:06 – AIの幻覚
- 1:11:30 – AIにおける推論
- 1:29:02 – 強化学習
- 1:34:10 – ウォークAI
- 1:43:48 – オープンソース
- 1:47:26 – AIとイデオロギー
- 1:49:58 – マーク・アンドリーセン
- 1:57:56 – ラマ 3
- 2:04:20 – AGI
- 2:08:48 – AI 否定論者
- 2:24:38 – ヨッシャ・バッハ
- 2:28:51 – 人型ロボット
- 2:38:00 – 未来への希望
文章の内容を分析した結果を以下に示す。
基本分析
主要トピックと時系列
この文章はLex Fridmanのポッドキャスト第416回にゲストとしてYann LeCunを迎えた対談の書き起こしである。
登場人物:
- Yann LeCun: MetaのChief AIサイエンティスト、NYU教授、チューリング賞受賞者
- Lex Fridman: MIT研究科学者、ポッドキャストホスト
対談全体のメインテーマ
AIの未来と発展の方向性、特に自己回帰型LLM(大規模言語モデル)の限界とJEPA(Joint-Embedding Predictive Architecture)の可能性について
メインテーマの解説
この対談では、MetaのAIサイエンティストYann LeCunが、現在主流の自己回帰型LLM(GPT-4やLlama等)が人間レベルの知能を実現するには不十分であると主張している。LeCunは、AIが世界を理解し、記憶し、推論し、計画を立てる能力を持つためには、JEPAと呼ばれる新しい予測アーキテクチャが必要だと説く。彼は、人間の知能が言語だけでなく感覚入力に基づいており、AIも同様に視覚などの感覚情報から学習する必要があると主張する。また、AI開発におけるオープンソースの重要性や、AGI(汎用人工知能)に関する破滅的シナリオに対する批判的見解も展開している。
トピックの背景情報や文脈
- 現在のAI研究では、自己回帰型LLMが主流となっているが、LeCunはこれらのモデルが人間レベルの知能に到達するには限界があると考えている
- 人間の知能は言語だけでなく、視覚などの感覚入力から多くを学習しており、AIも同様の学習方法が必要
- 近年、生成AIが大きな注目を集めているが、LeCunはそれだけでは不十分と主張
- MetaではLlama等のオープンソースモデルを開発・公開している
議論の主要なポイント
- 自己回帰型LLMの限界:世界モデルの構築、持続的記憶、推論、計画立案の能力に欠ける
- JEPAのアプローチ:生成モデルではなく、埋め込み空間での予測に焦点
- 感覚データの重要性:言語だけでなく視覚などからの学習が必要
- 階層的計画立案:複雑なタスクを階層的に分解する能力の重要性
- オープンソースAIの必要性:多様性と民主的アクセスのために不可欠
- AIの危険性に関する見解:破滅的シナリオは非現実的
提示された具体例や事例
- 4歳児の視覚情報処理量:4歳児は16,000時間の覚醒時間で約10^15バイトの視覚情報を処理するのに対し、LLMの学習データは約2×10^13バイト
- ニューヨークからパリへの旅行計画:階層的計画立案の例として、大きな目標を小さなサブゴールに分解する過程を説明
- V-JEPA:ビデオの一部を「マスク」し、残りの部分から予測するアーキテクチャ
- Geminiの問題例:黒人のジョージ・ワシントンや天安門事件の扱いに関する議論
- ジェット・エンジンの設計:AIの安全性設計は、ジェット・エンジンのように徐々に改良すべき
結論や合意点
- AIの進歩は段階的であり、一度に「AGI」が出現することはない
- 多様なAIシステムを可能にするオープンソースアプローチが重要
- 現在のLLMは価値があるが、人間レベルの知能には別のアプローチが必要
- AIの進歩は人類をより賢くし、全体として社会に利益をもたらす可能性がある
特に印象的な発言や重要な引用
- 「私はオープンソースが答えだと考えている」- AIのバイアスや検閲問題に関するLeCunの見解
- 「自己回帰型LLMは世界を理解せず、持続的記憶を持たず、真に推論できず、計画を立てられない」- LLMの限界について
- 「AIが知能を持つためには現実に根ざす必要がある」- 身体化された知能の重要性
- 「私たちは生成AIのアイデアを捨て、JEPAに移行すべきだ」- 将来のAI開発方向について
- 「スーパーインテリジェンスの出現は一つの出来事ではなく、段階的なものになる」- AGIに関する見解
- 「AIは人類を賢くし、人間の知能を増幅させる」- AIの未来に対するLeCunの希望
サブトピック解説
LLMの限界について
LeCunは自己回帰型LLMの限界を指摘している。彼によれば、知的行動の特徴として世界理解、持続的記憶、推論能力、計画立案能力があるが、LLMはこれらをほとんど持たない。4歳児は16,000時間の覚醒時間で約10^15バイトの視覚情報を処理するのに対し、LLMの学習データは約2×10^13バイト程度であり、人間は言語よりも感覚を通じて多くを学ぶ。LLMは言語から世界モデルを構築できるかもしれないが、物理世界の理解には不十分である。
バイリンガリズムと思考
LeCunとFridmanは思考と言語の関係について議論する。LeCunは二カ国語話者として、多くの思考は特定の言語に依存せず、より抽象的な表現で行われると主張する。数学的概念や物理的操作の思考は言語に関係なく行われる。LLMは一つの単語を次々と生成するだけで、人間のように答えを計画しない。これは言語に依存しない抽象的思考の重要性を示している。
ビデオ予測
LeCunは過去10年間のビデオ予測研究について語る。自己回帰型LLMのようにビデオを一フレームずつ予測することは困難である。テキストでは次の単語の確率分布を予測できるが、ビデオでは高次元の連続空間での分布予測が難しい。部屋のパン映像で未見の壁の絵や家具の詳細な質感は予測不可能である。潜在変数を用いた様々なアプローチ(GANs、VAEs、正則化オートエンコーダー)が試みられたが、成功していない。
JEPA(Joint-Embedding Predictive Architecture)
LeCunが提唱するJEPAは、画像を再構築するのではなく、抽象表現を予測する。完全な入力と、それを変形または破損させた入力の両方をエンコーダーに通し、変形版から完全版の表現を予測するように訓練する。これは抽象化レベルを上げ、予測不可能な詳細(木の葉の揺れなど)を無視し、モデル化・予測可能な情報のみを保持する。LeCunはこれが知的システムの本質的要素だと主張する。
JEPAとLLMの比較
LeCunはJEPAとLLMの根本的な違いを説明する。言語はすでに抽象的だが、物理世界理解にはJEPAのような手法が必要である。猫や犬は言語を持たないが世界をLLMより理解しており、JEPAは同様の理解を機械に与える可能性がある。JEPAを使って「常識」を学習させ、物理的世界についての予測モデルを構築できる。これはLLMにはない、行動計画の能力を可能にする。
DINOとI-JEPA
LeCunはFAIRで開発された非対照的学習手法DINOとI-JEPAについて説明する。これらは完全な入力とそれを変形したバージョンの両方をエンコーダーに通し、変形入力から元の表現を予測するように訓練する。しかし訓練されるのは変形入力を処理する部分のみである。このアプローチにより、システムの「崩壊」(入力を無視して表現を生成すること)を防ぎながら、優れた表現学習が可能になる。
V-JEPA
V-JEPAはI-JEPAのビデオ版である。ビデオ全体の一部分(時間的チューブ)をマスクし、マスクされた部分の表現を予測するように訓練する。これにより、ビデオの良い表現を学習し、行動認識などのタスクで高い精度を達成する。初期結果では、このモデルが物理的に可能なビデオと不可能なビデオ(物体が突然消える・形が変わるなど)を区別できることを示している。これは物理法則の基本的な理解を獲得していることを示唆する。
階層的計画立案
LeCunは階層的計画立案の重要性を強調する。「ニューヨークからパリへ行く」という目標は、「空港に行く」「飛行機に乗る」などのサブ目標に分解され、さらに細かいレベルまで階層的に分解される。全行程をミリ秒単位の筋肉制御として計画することは不可能であり、抽象化レベルによる階層的計画が必要だが、AIでこれを実現する方法はまだ明確ではない。LLMは言葉で表現できる範囲の計画は立てられるが、身体行動の詳細レベルまでは不可能である。
自己回帰型LLM
LeCunのLLMに対する懐疑論をFridmanが問い直す。LeCunは自己教師あり学習の重要性を認め、それがLLMの成功をもたらしたと説明する。しかし、LLMが流暢に言語を操るからといって、人間の知能の全特性を持つわけではなく、我々はその印象に騙されていると主張する。モラベックのパラドックスは依然適用され、AIは複雑な演算はできるが単純な日常タスクができない。LeCunは自己教師あり学習の成功にもかかわらず、生成モデルによる世界理解には限界があると主張する。
AIの幻覚
LeCunはLLMの幻覚(事実と異なる情報生成)について説明する。自己回帰的予測では、毎回トークンを生成する際に誤りの可能性があり、それが指数関数的に蓄積する。システムはトレーニングデータや微調整した質問には適切に回答できるが、未見のプロンプトに対しては無意味な回答をする可能性がある。また、LLMの推論は「答えを考える」のではなく、次のトークンを予測するだけであり、複雑な問題に対しても単純な問題と同じ計算量しか使わない。
AIにおける推論
LeCunは、AIシステムが真の推論能力を持つためには、トークン予測ではなく最適化プロセスが必要だと説明する。彼が提案するのは、質問と回答の組み合わせの「良さ」をスカラー値で評価するエネルギーベースモデルである。このモデルでは、抽象表現空間での勾配降下によって最適な答えを探索し、その後テキストに変換する。これにより、現在のLLMより効率的に推論でき、言語に依存しない思考も可能になる。トレーニング方法には対照的手法と非対照的手法があり、LeCunは後者を好む。
強化学習
LeCunは強化学習(RL)について批判的見解を述べる。彼によればRLはサンプル効率が非常に悪く、適切な表現学習と世界モデル構築の後に限定的に使用すべきである。世界モデルがあれば、モデル予測制御を使って行動を計画できる。RLは世界モデルや目的関数が不正確な場合の調整にのみ使うべきであり、特定のタスク学習時に既存の表現と世界モデルを調整する目的で使われるべきである。RLHF(人間フィードバックによる強化学習)の効果は主に人間フィードバック(HF)部分にあり、実際には様々な方法で実装されている。
過度に配慮したAI
GoogleのGemini 1.5が過度に「ウォーク」(政治的配慮)しているとの批判について議論する。黒人のジョージ・ワシントンの画像生成や天安門事件の扱いなど、歴史的事実に反する、あるいは検閲と取られる挙動が問題視されている。LeCunはこの問題の解決策としてオープンソースを挙げる。彼によれば、バイアスは見る人の視点によるもので、完全に偏りのないAIは不可能である。多様な視点を持つAIが必要であり、それを実現するにはオープンソースプラットフォームが不可欠である。
オープンソース
LeCunはAI開発におけるオープンソースの重要性を強調する。将来、デジタル世界とのあらゆる相互作用がAIによって仲介される可能性があり、それが少数の企業によって管理されることは民主主義や文化の多様性にとって危険である。オープンソースモデルを基盤とすれば、様々な組織や個人が自分たちの目的や言語、価値観に合わせてAIをカスタマイズできる。Metaのビジネスモデルは既存の大規模ユーザーベースにサービスを提供することで収益を得るため、基盤モデルをオープンソース化しても損にはならない。むしろコミュニティからの改善提案が得られるなどの利点がある。
AIとイデオロギー
GeminiのようなAIシステムへの批判は、主に西海岸のテック企業の政治的偏向が反映されているという見方について議論する。LeCunはこれが設計者の政治的傾向ではなく、幅広い顧客基盤を持つ大企業が攻撃的なコンテンツを避けようとする商業的判断だと説明する。あらゆる人にバイアスがないと思われるシステムを作ることは不可能であり、唯一の解決策は多様性である。オープンソースによって、異なる政治的見解や文化的背景に基づいた多様なAIシステムが可能になる。
Marc Andreesen
Marc Andreesen(VCの著名人物)がその日ツイートした内容について議論する。Andreesenは大手テック企業が生成AIを展開する際の課題として、内部活動家からの要求、製品責任、選挙法などの法的リスク、受け入れ可能な出力の制限などを挙げた。これらの懸念から、彼はスタートアップとオープンソースだけがこれらの問題を回避できると主張している。LeCunはこの見解に同意し、大企業は評判やビジネスを守るために慎重にならざるを得ず、政治的・文化的・宗教的見解に関して必然的に一部の人々を不快にさせることになると説明する。
Llama 3
MetaがLlama 3の開発を発表したことについて議論する。LeCunは将来のLlamaモデルについて、サイズが大きく、マルチモーダルで、計画立案や世界理解能力を備えたバージョンになると期待している。V-JEPAなどの最近の研究がこの方向への第一歩である。彼は現在のAI研究の方向性に10年前のFAIR設立時以来最も興奮しており、人間レベルの知能に進む可能性のある道筋が見えてきたと語る。ハードウェア面では、人間の脳に匹敵する計算能力には程遠いが、次の数十年でそれに近づく可能性があると述べている。
AGI
LeCunはAGI(汎用人工知能)がすぐには実現しないと考える理由を説明する。彼によれば、AGIは突然の出来事ではなく、段階的な進歩になる。サイエンス・フィクションで描かれるような「AGIの秘密を発見してスイッチを入れる」というシナリオは起こり得ない。ビデオから学習し、記憶し、推論・計画できるシステムは徐々に発展するが、人間レベルの規模と性能に達するには時間がかかる。また、階層的計画立案など未解決の問題が多く残っており、完全なAGIの実現には少なくとも10年、おそらくそれ以上かかるだろうと予測している。
AI破滅論者
LeCunはAI「破滅論者」(doomers)の見解を批判する。彼らの主張は誤った前提に基づいているという。まず、超知能の出現は突然の出来事ではなく、徐々に発展し、その過程でガードレールを組み込む機会がある。また、知能が高いからといって必然的に支配欲を持つわけではなく、それは社会的種に硬直化された特性である。AIシステムは人間に従順に設計される。彼はターボジェットエンジンの例を挙げ、AIの安全性も特別な専門組織ではなく、より優れたAIを設計する過程で実現されるべきだと主張する。悪意あるAIが人々を操作する脅威についても、AIアシスタントが仲介役を果たすため、個人の操作が困難になると反論する。
ヒューマノイドロボット
TeslaのOptimus、Boston Dynamics、Figure AIなどによる人型ロボット開発の進展について議論する。LeCunはロボット工学の進展を認めつつ、モラベックのパラドックスがまだ障壁となっていると指摘する。ロボットが世界を理解し行動を計画する能力が不足しており、家庭用ロボットの実現には世界モデルの構築が必要だと述べる。FAIRの「体現型AI」グループは商用ロボットを使用して冷蔵庫から物を取り出すなどのデモを行っているが、完全に汎用的なロボットの実現にはまだ距離がある。LeCunは世界モデル、階層的表現学習、行動計画などの分野での進展が必要だと説明する。
未来への希望
LeCunはAIが人類の知能を増幅させる可能性に希望を見出している。将来的には、各人がAIアシスタントのスタッフを持つ「スーパースマートな仮想人間の上司」のようになれると述べる。これは脅威ではなく、むしろ素晴らしい可能性である。彼は印刷機の発明とAIの普及を比較し、印刷機が啓蒙主義、科学、民主主義を可能にしたように、AIは人類をより賢くする可能性があると主張する。印刷機も宗教紛争をもたらしたが、総合的には人類に利益をもたらした。同様に、AIは職業の変化をもたらすが、大量失業ではなく新しい職種への移行になるだろうと予測している。
はじめに
ヤン・ルカン 00:00:00
私は、独自開発のAIシステムによる権力の集中が、他のあらゆるものよりもはるかに大きな危険をもたらすと考えています。これに反対する意見として、セキュリティ上の理由から、AIシステムは厳重に管理すべきであり、誰もが利用できる状態にすることはあまりにも危険であるという考え方があります。しかし、これは、私たちの情報摂取のすべてが、独自開発のシステムを持つ少数の企業によって管理されるという、非常に悪い未来につながるでしょう。
レックス・フリードマン 00:00:32
私は、人間は基本的に善良であると考えています。ですから、AI、特にオープンソースのAIが人間をより賢くすることができれば、それは人間に内在する善良さを強化することになるでしょう。
ヤン・ルカン 00:00:44
私もその意見に同意します。 そうですね。私は人間は基本的に善良であると考えています。実際、悲観論者の多くは、人間は基本的に善良であるとは思っていないから悲観論者なのです。
レックス・フリードマン 00:00:57
以下は、このポッドキャストに3回目の登場となるヤン・ルカン氏との対談です。 氏は、MetaのチーフAI科学者であり、ニューヨーク大学の教授、チューリング賞受賞者であり、人工知能の歴史における先駆的な人物の一人です。 また、同氏とMeta AIは、オープンソース化、AI開発の強力な推進者であり、Llama 2や最終的にはLlama 3を含む、同社の主要なモデルの多くをオープンソース化することで、その主張を実践してきました。また、ヤンは、AIコミュニティにおいて、AGIの迫り来る危険性や存在の脅威を警告する人々に対して、率直な批判を展開しています。彼は、AGIはいつか誕生するだろうが、それは良いものになるだろうと考えています。AGIは人間の制御を逃れることはなく、また、人間を支配し、人間を皆殺しにするものでもないと信じています。
LLMの限界
AI開発が急速に進む現在、これはやや物議を醸す立場ではありますが、ヤンがオンライン上で、この会話のように、多くの熱のこもった興味深い議論を交わしているのを見るのは楽しいものです。これはレックス・フリードマン・ポッドキャストです。このポッドキャストを支援するため、説明部分のスポンサーをご確認ください。それでは、ヤン・ルカンさんです。あなたはこれまでのキャリアを通じて、人工知能の未来に関する技術的な見解を強く主張してきましたが、最近も自己回帰型言語モデルは、人間を超える知能への進歩の方法ではないと述べています。これらはGPT-4やLlama 2、3など、大型言語モデルです。それらはどのように機能し、なぜそれらが私たちを最終地点まで導いてくれないのでしょうか?
ヤン・ルカン 00:02:47
理由はいくつかあります。まず、知的な行動にはいくつかの特徴があります。例えば、世界を理解する能力、物理的世界を理解する能力、物事を記憶し、取り出す能力、永続的な記憶、推論する能力、計画する能力などです。これらは、人間や動物といった知的なシステムや存在に不可欠な4つの特徴です。LLMはこれらの能力を一切持っていないか、あるいは非常に原始的な方法でしか持っておらず、物理的世界を本当に理解しているわけではありません。また、持続的な記憶力もありません。論理的思考力も計画能力も持ち合わせていません。ですから、これらの能力を全く持たないままシステムがインテリジェントになることを期待するのは間違いです。自己回帰型LLMが役に立たないというわけではありません。もちろん有用ではありますが、興味深いものではなく、それらを基盤としたアプリケーションの生態系全体を構築することはできません。もちろん構築はできますが、人間レベルの知能への通過点としては、本質的な要素が欠けているのです。
そして、私が非常に興味深いと思うもう一つの事実があります。これらの LLM は膨大な量のテキストで訓練されていますが、基本的に、インターネット上で公開されているすべてのテキスト全体が対象となりますね?通常、10の13乗トークンに相当します。各トークンは通常2バイトなので、トレーニングデータとしては2の10乗13バイトということになります。これを1日8時間で読み切るだけでも、あなたや私には17万年かかります。ですから、これらのシステムが蓄積できる知識は膨大なもののように思えますが、実際にはそれほど大量のデータではないことが分かります。発達心理学者に話を聞くと、4歳児は生まれてから16,000時間起きていると言います。そして、4年間でその子の視覚野に届いた情報の量は、約10~15バイトです。
これは、光神経が1秒あたり約20メガバイトの情報を伝達すると概算すると、4歳児が10から15バイトであるのに対し、17万年の読書量は10の13乗バイトの2倍であると計算できます。つまり、感覚的なインプットを通じて、私たちは言語を通じてよりもはるかに多くの情報を得ているということです。直感に反して、私たちが学習するほとんどの事柄、そして私たちの知識のほとんどは、言語を通じてではなく、現実世界での観察や相互作用を通じて得られたものです。人生の最初の数年間で学習するすべてのこと、そして動物が学習するすべてのことには、言語はまったく関係がありません。
レックス・フリードマン 00:05:57
ですから、おっしゃっていることの直感的な部分に反論したいと思います。確かに、人間の心には、より高速で、より何桁も大きなデータが流れ込んでおり、人間はそれらから非常に素早く学習し、データを素早くフィルタリングすることができます。感覚データと言語の比較について、言語はすでに非常に圧縮されているという反論があるかもしれません。視覚データと比較した場合、言語は保存に必要なバイト数よりもはるかに多くの情報をすでに含んでいます。ですから、言語には多くの知恵が詰まっているのです。言葉があり、それらを組み合わせる方法があり、すでに多くの情報が含まれています。言語だけでも、そこから世界モデルや世界に対する理解、LLMが欠いているとあなたが言う物理的世界に対する理解を構築できるだけの知恵や知識がすでに含まれている可能性はあるのでしょうか?
ヤン・ルカン 00:06:56
知性は現実に基づいている必要があるかどうかなど、これは哲学者や認知科学者の間で大きな議論となっています。私は明らかに、知性は現実の何らかの基盤なしには現れないという立場です。それは物理的な現実である必要はありません。シミュレーションでもよいのですが、環境は言語で表現できるものよりもはるかに豊かなものです。言語は、知覚やメンタルモデルの近似表現にすぎません。つまり、私たちが達成する多くのタスクでは、目の前の状況のメンタルモデルを操作しますが、それは言語とは何の関係もありません。物理的であれ、機械的であれ、何かを構築したり、何かを達成したり、何かを手に入れるというモデルタスクを達成したりするとき、私たちは一連の行動の結果を想像し、その行動の順序を計画したり実行したりします。そして、その行動の順序の結果を想像することで、言語とはあまり関係のないメンタルモデルが必要になります。私は、私たちの知識のほとんどは、物理的世界との相互作用から得られたものであると主張します。
ですから、コンピュータビジョンなどに興味を持っている私の同僚の多くは、AIは本質的に具現化される必要があるという考え方に賛成しています。 また、自然言語処理(NLP)の専門家やその他の動機を持つ人々は必ずしもそれに同意するわけではありませんし、哲学者の間でも意見が分かれています。 そして、世界の複雑さを想像するのは困難です。 現実の世界で私たちが完全に当然のこととして受け入れている複雑さのすべてを表現するのは難しいのです。 私たちは、それが知性を必要とするとは想像すらしていませんよね?
これは、ロボット工学のパイオニアであるモーアベックが唱えたモーアベックのパラドックスです。モーアベックは、コンピュータではチェスをしたり積分を解いたりといった高度で複雑な作業を簡単にこなせるように見えるのに、私たちが日常的に行っていること、例えば車の運転を習得したり、物体をつかんだりといったことは、 コンピュータではできません。また、司法試験に合格できるLLMもいますから、彼らは賢いのでしょう。しかし、17歳の子が20時間で運転を習得できるわけではありませんし、10歳の子が一度で覚えられるように食卓を片付けたり食洗機を満タンにしたりすることもできません。なぜでしょうか?私たちは何を失っているのでしょうか? 学習や推論のアーキテクチャ、あるいはその他どのようなものを失っているのでしょうか? それが原因で、車や家庭用ロボットにレベル5のようなものを実装できないのでしょうか?
レックス・フリードマン 00:10:00
大規模言語モデルは、運転の仕方や食器洗浄機の使い方を知っているが、現時点では視覚データに対処する方法を知らない、という世界モデルを構築できるでしょうか?
ヤン・ルカン 00:10:17
ええ、多くの人が取り組んでいます。 簡単に言えば答えはノーです。より複雑な答えとしては、LLMに画像や動画、音声などの視覚表現を基本的に理解させるために、あらゆる種類のトリックを使用できます。古典的な方法としては、何らかの方法で視覚システムを訓練する方法があります。私たちは、視覚システムを訓練するさまざまな方法を持っています。教師あり学習、半教師あり学習、自己教師あり学習など、あらゆる方法で、あらゆる画像を高度な表現に変換することができます。基本的には、典型的なLLMが入力として受け取るトークンと非常に類似したトークンのリストです。
そして、そのリストをテキストに加えてLLMに与えるだけで、トレーニング中にLLMがそれらの表現を使って意思決定を支援できるようになることを期待するのです。つまり、そのような研究はかなり以前から行われており、現在ではそのようなシステムを目にすることができます。つまり、ビジョン拡張機能を持つLLMもありますが、基本的には、それらのシステムは世界を本当に理解するようにトレーニングされていないという意味で、ハック的なものです。例えば、動画で訓練されているわけではありません。少なくとも現時点では、直感的な物理法則を本当に理解しているわけではありません。
レックス・フリードマン 00:11:51
直感的な物理法則、物理空間に関する常識的な推論、物理的現実について、自分には特別な何かがあるとは思わないということですね。それは、LLMにはできない飛躍的な進歩だと?
ヤン・ルカン 00:12:02
現在私たちが取り組んでいるLLMでは、これを実行することはできません。これにはいくつかの理由がありますが、主な理由は、LLMの訓練方法にあります。訓練では、テキストの一部を取り出し、そのテキスト内のいくつかの単語を削除し、マスクして空白マーカーで置き換えます。そして、欠落している単語を予測するために遺伝的ニューラルネットを訓練します。そして、このニューラルネットを特定の方法で構築し、予測対象の単語の左にある単語のみを考慮するようにすると、基本的にテキストの次の単語を予測しようとするシステムが完成します。 テキストをニューラルネットに読み込ませ、次の単語を予測するように指示することができます。 ニューラルネットが正確に次の単語を予測できることは決してありません。
そこで、辞書内のすべての単語の可能性の分布を生成します。実際には、単語を予測しているわけではありません。トークンを予測しているのです。トークンとは、ある種の単語のサブユニットです。辞書内の単語の数は限られているため、予測の不確実性を処理するのは簡単です。そして、システムがすることは、その分布から単語を選ぶことです。もちろん、その分布の中で確率の高い単語が選ばれる可能性が高くなります。ですから、実際に単語を生成するためにその分布からサンプルを抽出し、その単語を入力にシフトさせます。これにより、システムは2番目の単語を予測しなくて済むようになります。これを実行したら、今度はその単語を入力にシフトさせます。
バイリンガリズムと思考
これは自己回帰予測と呼ばれ、LLMは自己回帰LLMと呼ばれるべきですが、私たちは単にLLMと呼んでいます。この種のプロセスと、単語を生成する前のプロセスとの間には違いがあります。あなたと私が会話するとき、あなたと私はバイリンガルであり、何を話すかを考えますが、それは話す言語とは比較的独立しています。例えば数学的な概念について話しているとき、私たちがしている思考や導き出そうとしている答えは、それがフランス語、ロシア語、英語のどれで表現されるかとは関係がありません。
レックス・フリードマン 00:14:19
ノームは目を丸くしましたが、私は理解しています。つまり、言語の前に存在し、言語にマッピングされる、より大きな抽象概念があるということですね?
ヤン・ルカン 00:14:30
その通りです。私たちが日常的に行っている思考の多くに当てはまります。
レックス・フリードマン 00:14:33
それは明らかです。私たちはそうではないということですね…あなたは、思考はフランス語でも英語でも同じだと言っているのですか?
ヤン・ルカン 00:14:40
ええ、ほぼ同じです。
レックス・フリードマン 00:14:42
ほぼ同じ、あるいは確率分布がある場合、どの程度柔軟性があるのでしょうか?
ヤン・ルカン 00:14:49
まあ、どんな思考かによりますよね。ダジャレを言うのであれば、その点に関しては、私は英語よりもフランス語の方がずっと上手です。あるいは、ずっと下手です。
レックス・フリードマン 00:14:58
ダジャレには抽象的な表現があるのでしょうか? あなたのユーモアは抽象的なものでしょうか… あなたがツイートするとき、ツイートが時々少し辛辣になることがありますが、英語にマッピングされる前に、ツイートの抽象的な表現があなたの脳内に存在するのでしょうか?
ヤン・ルカン 00:15:11
その文章に対する読み手の反応を想像するという抽象的な表現があります。
レックス・フリードマン 00:15:18
あるいは、笑いから始めて、それを実現する方法を考えるのですか?
ヤン・ルカン 00:15:23
あるいは、引き起こしたい反応をまず図り、その反応を引き起こすような言い方を考える。しかし、それは言語に非常に近いものです。しかし、数学的概念について考えたり、木で何かを作りたいと想像したり、このようなことを考えてみてください。あなたがしている思考は、実際には言語とはまったく関係がありません。特定の言語で必ずしも内省的な独白をしているわけではありません。頭の中でそのもののモデルを想像しているのです。つまり、私がこの水筒を90度回転させた場合の形状を想像してみてくださいと頼んだ場合、それは言語とは何の関係もありません。ですから、私たちが思考の大半を行っている、より抽象的なレベルの表現があることは明らかです。また、筋肉の動きではなく言葉としてアウトプットする場合、私たちは発言する前に答えを計画します。
LLMはそうではありません。 望むなら、本能的に次から次へと単語を出すだけです。 それは、気が散っているとき、何かをしているとき、完全に集中しているとき、誰かが近づいてきて質問をしてくるので、なんとなく質問に答えるような、潜在意識下の行動に似ています。 答えについて考える時間はないのですが、答えは簡単です。 ですから、注意を払う必要はありません。自動的に反応しているようなものです。LLMがやっているのは、そういうことです。LLMは、答えについて深く考えたりはしません。LLMは多くの知識を蓄積しているので、それを引き出すのです。ですから、LLMはいくつかのことを引き出すことができますが、答えを計画することなく、次から次へとトークンを吐き出すだけです。
レックス・フリードマン 00:17:13
しかし、あなたはそれを次から次へとトークンを生成しているように言っています。一度に1つのトークンを生成するのは単純化されがちですが、世界モデルが十分に洗練されていて、一度に1つのトークンを生成する場合は、生成されるのはおそらくトークンのシーケンスであり、それは非常に深いものになるでしょう。
ヤン・ルカン 00:17:39
しかし、それはこれらのシステムが実際に永遠の世界モデルを持っていることを前提としています。
ビデオ予測
レックス・フリードマン 00:17:44
本当に重要なのは… 根本的な問題は、完全なものではないにしても、世界を深く理解した世界モデルを構築できるかということです。
ヤン・ルカン 00:17:58
ええ。 まず予測によって構築できるかですが、おそらく答えはイエスでしょう。 単語を予測することによって構築できるか?答えはおそらくノーでしょう。なぜなら、言語は、弱い、あるいは低い帯域幅という意味では非常に乏しく、十分な情報がないからです。ですから、世界モデルを構築するということは、世界を観察し、なぜ世界がそのように進化しているのかを理解することであり、世界モデルの追加要素は、あなたが起こす行動の結果として、世界がどのように進化するかを予測できるものです。
つまり、ある時点における世界の状態についての私の考えが1つのモデルであり、私が取るかもしれない行動がもう1つのモデルです。時点T+1における世界の予測状態とはどのようなものでしょうか? ここでいう世界の状態は、世界のすべてを表す必要はなく、行動計画に関連する部分を十分に表せばよく、必ずしもすべての詳細を表す必要はありません。さて、ここで問題が生じます。生成モデルでは、これはできません。生成モデルはビデオで訓練されています。そして、私たちは10年間これを試してきました。ビデオを1つ取り、システムにその一部を見せ、残りの部分を予測するように求めます。つまり、何が起こるかを予測するのです。
レックス・フリードマン 00:19:27
1フレームずつ、自己回帰型 LLM がやるのと同じことを、動画に対して行います。
ヤン・ルカン 00:19:34
そうですね。1フレームずつでも、
レックス・フリードマン 00:19:34
LVM でも。
ヤン・ルカン 00:19:36
フレームのグループでも。でも、もちろん、大きなビデオモデルが必要になります。このようなことを行うというアイデアは長い間存在しており、FAIRでは、私たちの同僚たちと私は10年ほど前からこれを試みてきました。LLMでは、私が言ったように、単語のシーケンスの後に続く単語を正確に予測することはできませんが、単語の分布は予測できます。動画の場合、必要なのは動画内のすべてのフレームの分布を予測することですが、その適切な方法についてはまだわかっていません。
高次元の連続空間における分布を、どのように表現すれば有用なのか、まだわかっていないのです。そして、そこに主な問題があります。そして、これが可能な理由は、世界はテキストよりもはるかに複雑で、情報量も豊富だからです。テキストは離散的であり、動画は高次元かつ連続的です。このことには多くの詳細があります。ですから、この部屋の動画を撮影したとします。カメラがパンしている動画の場合、パンしながら部屋のすべてを予測することは不可能です。カメラがパンする際に部屋の中に何があるかをシステムが予測することはできません。おそらく、この部屋には照明や壁があるといったことは予測できるでしょう。しかし、壁の塗装やソファの質感までは予測できません。カーペットの質感は言うまでもありません。ですから、それらの詳細をすべて予測することは不可能です。
ですから、この問題に対処する可能性のある方法として、私たちが長い間取り組んできたものに、潜在変数と呼ばれるものを持つモデルがあります。潜在変数はニューラルネットワークにフィードされ、まだ認識していない世界のあらゆる情報を表すことになります。そして、ピクセルの予測をうまく行うためにシステムを拡張する必要があります。カーペットやソファ、壁にかかった絵画の細かいテクスチャなども含めてです。
これは本質的に完全に失敗しています。そして、私たちは多くのことを試してきました。単純なニューラルネットワーク、GAN、VAE、さまざまな正則化オートエンコーダーを試しました。多くのことを試しました。また、画像や動画の優れた表現を学習し、それを画像分類システムなどの入力として使用できるような手法も試しました。しかし、これも基本的に失敗しています。画像や動画の欠落部分を、その破損したバージョンから予測しようとするシステムはすべて、基本的に、画像や動画を取り、それを破損させたり、何らかの方法で変換し、破損したバージョンから完全な動画や画像を再構成しようとします。そして、システム内部で、物体認識やセグメンテーションなど、何にでも使える画像の優れた表現が開発されることを期待します。しかし、これは基本的に完全に失敗しており、テキストには非常に効果的です。それがLLMで使用されている原則ですね?
レックス・フリードマン 00:23:07
では、具体的にどこに問題があるのでしょうか? 画像の重要な情報をうまく埋め込むことが非常に難しいということでしょうか? 画像から画像への一貫性、つまり動画を構成する画像から画像への一貫性ということでしょうか? あなたがたが失敗したすべての方法をハイライトで紹介するとしたら、それはどのようなものになるでしょうか?
ヤン・ルカン 00:23:30
わかりました。これがうまくいかない理由は、まず、何がうまくいかないのかを正確にお伝えしなければなりません。なぜなら、うまくいく方法もあるからです。うまくいかないのは、画像の劣化版から良い画像を再構成するようシステムを訓練することで、画像の表現を学習させることです。これがうまくいかないのです。これには、ノイズ除去オートエンコーダーの変形である、さまざまな手法があります。例えば、私の同僚がFAIRで開発したMAEや、マスクオートエンコーダーなどです。基本的には、LLMやこれに似たもので、テキストを破損させることでシステムを訓練するようなものです。ただし、画像を破損させるのではなく、画像からパッチを削除し、巨大なニューラルネットワークで再構成を訓練します。得られる特徴は良くありません。同じアーキテクチャで訓練しても、ラベルデータ、画像のテキスト説明などを使って訓練すれば、良い表現が得られ、認識タスクのパフォーマンスは自己教師あり再訓練よりもはるかに良くなります。
レックス・フリードマン 00:24:42
アーキテクチャは良いのですか?
ヤン・ルカン 00:24:44
アーキテクチャは良いです。エンコーダーのアーキテクチャも良いですが、画像を再構成するようにシステムを訓練しても、画像の長くて良い汎用的な特徴を生成することにはつながりません。
レックス・フリードマン 00:24:56
自己教師あり学習で訓練すると?
ヤン・ルカン 00:24:58
自己教師あり学習による再構成です。
レックス・フリードマン 00:25:00
ええ、再構成です。
ヤン・ルカン 00:25:01
わかりました。では、その代替案は何ですか? 代替案は、ジョイント・エンベッディングです。
JEPA(ジョイント・エンベッディング予測アーキテクチャ)です。
レックス・フリードマン 00:25:07
ジョイント・エンベッディングとは何ですか? あなたがとても興奮しているこのアーキテクチャとは何ですか?
ヤン・ルカン 00:25:11
さて、今度は画像をエンコードするシステムをトレーニングし、その後、破損したバージョンから完全な画像を再構築するようトレーニングするのではなく、完全な画像と破損したバージョンまたは変換したバージョンを取り、両方をエンコーダーに通します。そして、これらのエンコーダーの上に予測器を訓練し、破損したものの表現から完全な入力の表現を予測します。つまり、完全な入力と破損したバージョンまたは変換したバージョンを取り、両方をエンコーダーに通すと、ジョイント・エンベッディングが得られ、破損したものの表現から完全なものの表現を予測できるか?
これをJEPAと呼んでいます。つまり、joint embedding predictive architecture(統合埋め込み予測アーキテクチャ)という意味です。なぜなら、この統合埋め込みと、悪者から善者の表現を予測する予測器があるからです。そして、大きな問題は、このようなものをどのように訓練するかということです。5年か6年前までは、こうしたものをどのように訓練するかについて、特に優れた答えは持ち合わせていませんでした。コントラスト学習と呼ばれるものを除いては。コントラスト学習の考え方は、元の画像と、何らかの形で劣化または変形したバージョンの画像という2つの画像のペアを取り、予測された表現をそれと同じになるように訓練するというものです。これだけを行うと、このシステムは破綻してしまいます。基本的に、入力は完全に無視され、一定の表現が生成されます。 対照的な手法ではこれを回避し、1990年代初頭から存在しています。私は1993年にこのテーマで論文を発表しました。異なることがわかっている画像のペアも表示し、それぞれの表現を互いに遠ざけます。つまり、同じであることが分かっているものの表現は同じであるべき、あるいは類似しているべきであるだけでなく、異なることが分かっているものの表現は異なるべきであると主張しているのです。これにより、崩壊は防げますが、いくつかの限界があります。この6、7年の間に、この種の手法を復活させるさまざまな手法が登場しました。その中にはFAIRやGoogle、その他の場所から生まれたものもありますが、それらの対照的手法にも限界があります。
ここ3、4年で変わったのは、非対照的な手法が現れたことです。つまり、異なることがわかっている画像のネガティブな対照サンプルは必要なくなりました。同じものの異なるバージョンや異なる視点の画像を提示し、システムが崩壊しないように他のトリックに頼るのです。現在、このための手法が6種類ほどあります。
JEPA vs LLMs
レックス・フリードマン 00:28:16
では、ジョイント・エンベッディング・アーキテクチャと LLM の根本的な違いは何でしょうか? JEPA は AGI に到達できるのでしょうか? あなたは AGI という用語を好まないと言うべきでしょうか。おそらく毎回のように、AGI の G について議論してきたと思います。
ヤン・ルカン 00:28:36
はい。
レックス・フリードマン 00:28:38
わかりました。わかりました。まあ、おそらくこれからも議論は続くでしょう。素晴らしいことです。AMIという名前を気に入っているのは、フランス語が好きで、amiがフランス語で「友人」だからです。AMIは「高度な機械知能」の略です。しかし、どちらにしても、JEPAは高度な機械知能の実現に役立つのでしょうか?
ヤン・ルカン 00:29:02
まあ、第一歩ですね。ではまず、LLMのような生成型アーキテクチャとの違いは何でしょうか?LLMやビジョンシステムは再構成によって訓練され、入力データを生成します。破損や変換のないオリジナルの入力を生成するので、すべてのピクセルを予測する必要があり、システムには膨大なリソースが費やされ、すべてのピクセルや詳細を実際に予測します。JEPAでは、すべてのピクセルを予測しようとするのではなく、入力の抽象的な表現を予測しようとするだけです。これは多くの点ではるかに容易です。JEPAシステムが学習する際に試みているのは、入力から可能な限り多くの情報を抽出することですが、それでも比較的容易に予測できる情報のみを抽出します。世の中には予測できないことがたくさんあります。例えば、自動運転の車が道路を走っているとします。道路の周りには木々が生い茂り、風が強い日かもしれません。木々の葉は予測できない、半ばランダムな動きをします。つまり、エンコーダーが基本的にそれらの詳細をすべて排除することが望ましいのです。エンコーダーは、葉が動いていることを伝えますが、正確に何が起こっているかという詳細までは伝えないでしょう。表現空間で予測を行う場合、すべての葉のピクセルを1つ残らず予測する必要はありません。これは非常にシンプルであるだけでなく、モデル化や予測が可能なものは保存し、それ以外はノイズと見なしてエンコーダーで排除するという、世界の抽象的な表現をシステムが本質的に学習することを可能にします。
つまり、表現の抽象度を高めるのです。よく考えてみると、これは私たちが日常的に行っていることです。現象を説明する際には、常に特定の抽象度で説明しています。私たちは、自然現象をすべて場の量子論で表現しているわけではありません。そんなことは不可能です。ですから、私たちは、場の量子論から原子論、分子、化学、物質、そして現実世界の具体的な物体に至るまで、世界で起こっていることを表現するために、複数の抽象レベルを用意しているのです。ですから、すべてを最低レベルでモデル化することはできません。それがJEPAのアイデアの核心であり、自己監督的な方法で抽象表現を学習し、階層的にも行うことができるのです。これが、インテリジェントなシステムに不可欠な要素であると思います。言語では、すでに抽象化されているため、このような処理を行う必要がありません。また、予測不可能な多くの情報をすでに排除しています。したがって、結合埋め込みを行わなくても、抽象度を上げなくても、単語を直接予測するだけで済むのです。
レックス・フリードマン 00:32:16
結合埋め込みは、生成的ではあるものの、抽象表現空間における生成的ということですね?
ヤン・ルカン 00:32:23
その通りです。
レックス・フリードマン 00:32:23
そして、あなたは言語について言っていますが、私たちは言語に対して怠惰でした。なぜなら、すでに抽象的な表現を無料で手に入れられていたからです。そして今、私たちはズームアウトして、実際に一般的にインテリジェントなシステムについて考えなければなりません。私たちは、物理的な現実、現実の混乱のすべてに対処しなければなりません。そして、あなたは、このステップを実行する必要があります。つまり、完全で、豊かで、詳細な現実から、その現実の抽象的な表現へとジャンプするステップです。
ヤン・ルカン 00:32:57
その通りです。そして、予測によって学習する自己監督型アルゴリズムは、表現空間においても、入力データに冗長性があればあるほど、より多くの概念を学習します。データに冗長性があればあるほど、そのデータ内部の構造をより多く捉えることができるのです。そのため、視覚のような知覚入力や感覚入力の構造には、テキストよりもはるかに多くの冗長性があります。これは、数分前にあなたが質問していたことに関連しています。言語はすでに圧縮されているため、実際により多くの情報を表現している可能性があります。その通りですが、冗長性が少ないことを意味します。そのため、自己監督はうまく機能しません。
レックス・フリードマン 00:33:43
視覚データと言語データの自己教師あり学習を組み合わせることは可能でしょうか? 10から13トークンについて否定的な意見を述べているにもかかわらず、膨大な知識が存在します。 10から13トークンは全体を表しています。
レックス・フリードマン 00:34:00
この10から13のトークンがすべてを表しています。つまり、私たち人間が解明したことの大部分、Redditでのくだらない話も、すべての書籍や記事の内容も、人間の知的創造のあらゆる側面も、すべてです。では、この2つを統合することは可能でしょうか?
ヤン・ルカン 00:34:22
そうですね、最終的には可能でしょう。しかし、あまり早くから取り組むと、不正行為に走る誘惑にかられる危険性があると思います。実際、視覚言語モデルでは、現在、そのようなことが行われています。私たちは基本的に不正行為を行っているのです。視覚システムが画像や動画から適切な表現を学習するのを助けるために、言語を支えとして利用しているのです。
この問題は、画像を言語モデルに与えることでモデルを改善できる可能性がある一方で、言語を持たない猫や犬の知性や世界に対する理解のレベルにまで達することはできないということです。 猫や犬は言語を持たないにもかかわらず、法学修士号(LLM)取得者よりもずっとよく世界を理解しています。彼らは非常に複雑な行動を計画し、一連の行動の結果を想像することができます。 言語と組み合わせる前に、機械にそれを学習させるにはどうすればよいのでしょうか? もちろん、これを言語と組み合わせれば、これは間違いなく成功するでしょう。しかし、それ以前に、私たちは、システムに世界の仕組みを学習させるにはどうすればよいのかに焦点を当てる必要があります。
レックス・フリードマン 00:35:33
この結合埋め込み予測アーキテクチャは、あなたにとって、常識のようなものを学習できるでしょう。猫が物にぶつかって倒すことで、飼い主を最もうまく混乱させる方法を予測するために使うようなものです。
ヤン・ルカン 00:35:50
それが希望です。実際、私たちが使っている手法は非対比的なものです。アーキテクチャが非生成的であるだけでなく、私たちが使っている学習手順も非対比的です。私たちは2つの手法セットを持っています。1つは蒸留法に基づくもので、この原理を利用した手法は数多くあります。DeepMindによるBYOL、FAIRによる2つ、vcREG、I-JEPAなどです。vcREGは厳密には蒸留法ではありませんが、I-JEPAとBYOLは蒸留法です。また、FAIRによるDINOと呼ばれるものもあります。これらの手法の考え方は、例えば画像のような完全な入力をエンコーダに通して表現を生成し、その入力に破損や変換を加え、実質的には同じエンコーダに若干の違いを加えたものに通して、予測器を訓練するというものです。
予測器は非常に単純な場合もあれば、存在しない場合もありますが、予測器を訓練して、最初の無傷の入力の表現を、無傷でない入力から予測します。ただし、訓練するのは2番目の分岐のみです。無傷でない入力が供給されるネットワークの部分のみを訓練します。他のネットワークは訓練しません。しかし、それらは同じ重みを持つため、1つ目を修正すると、2つ目も修正されます。そして、さまざまなテクニックにより、私が前に説明したタイプ1の崩壊、つまりシステムが基本的に入力を無視するような崩壊を防ぐことができます。 ですから、非常にうまく機能します。 FAIRで開発した2つの技術、DINOとI-JEPAは、その点で非常にうまく機能します。
DINOとI-JEPA
レックス・フリードマン 00:37:39
ここでいうデータとは、どのようなものなのでしょうか?
ヤン・ルカン 00:37:41
いくつかのシナリオがあります。1つのシナリオは、画像を取り込み、トリミングを変えたり、サイズを少し変えたり、向きを変えたり、ぼかしたり、色を変えたり、その他にもさまざまなひどいことをする、というものです。
レックス・フリードマン 00:38:00
しかし、基本的なひどいことですか?
ヤン・ルカン 00:38:01
基本的な恐ろしいこととは、品質を少し低下させたり、フレーミングを変えたり、画像をトリミングしたりすることです。そして、I-JEPA の場合、こうした処理は一切必要なく、一部をマスクするだけで済みます。基本的には、大きなブロックのような一部の領域を削除し、エンコーダーと予測器からなるシステム全体にエンコーダーを実行させて、劣化した画像から劣化していない画像を予測できるようにトレーニングするだけです。
V-JEPA
これがI-JEPAです。このアルゴリズムは、それが画像であることを認識する必要はありません。なぜなら、このアルゴリズムが知る必要があるのは、このマスキングをどのように行うかだけだからです。一方、DINOでは、幾何学変換やぼかし処理など、画像特有の処理を行う必要があるため、それが画像であることを認識する必要があります。このアルゴリズムのより新しいバージョンはV-JEPAと呼ばれています。基本的には I-JEPA と同じ考え方ですが、ビデオに適用する点が異なります。 ビデオ全体を取り込んで、その全体をマスクします。 マスクするものは、実際には時間的なチューブのようなもので、ビデオ全体にわたって各フレームのセグメント全体です。
レックス・フリードマン 00:39:10
そのチューブはフレーム全体を通して静的に配置され、文字通り、ただの直線的なチューブです。
ヤン・ルカン 00:39:16
チューブは、ええ、通常は16フレームか何かで、16フレーム全体にわたって同じ領域をマスクします。 ビデオごとに異なるものになります。 そして、部分的にマスクされたビデオからビデオ全体の表現を予測するようにそのシステムを訓練します。そして、それは本当にうまく機能します。これは、ビデオの優れた表現を学習する初めてのシステムです。この表現を教師あり分類器に与えると、ビデオで何が起こっているかをかなり正確に教えてくれます。このような品質のものが得られるのは初めてです。
レックス・フリードマン 00:39:56
これは、良い表現が形成されていることを示す良いテストです。つまり、これには何かがあるということです。
ヤン・ルカン 00:40:00
ええ。また、予備的な結果から、表現によって、物体が消えたり、ある物体が突然別の場所に移動したり、形が変わったりといった理由で、ビデオが物理的に可能か完全に不可能かをシステムが判断できることが示唆されています。
レックス・フリードマン 00:40:21
つまり、ビデオで表現されている現実、物体の出現や消失に関する物理法則に基づく制約を捉えることができるのです。
ヤン・ルカン 00:40:33
ええ、それは本当に新しいことです。
レックス・フリードマン 00:40:35
わかりました。しかし、実際に、車を運転できるほど十分に世界を理解する、このような世界モデルを実現できるのでしょうか?
ヤン・ルカン 00:40:49
可能性はあります。そこまで到達するにはまだ時間がかかりそうです。すでに、このアイデアに基づくロボットシステムがあります。これに必要なのは、このシステムの少し修正したバージョンです。完全なビデオがあるとします。このビデオに対して行うことは、未来に向かって時間を追って翻訳することです。つまり、ビデオの冒頭部分だけが見えていて、オリジナルの後半部分は見えない、あるいはビデオの後半部分をマスクする、といった具合です。そして、JEPAシステムや私が説明したタイプをトレーニングして、シフトされたものから完全なビデオの表現を予測できるようにします。しかし、予測器にはアクションも入力します。例えば、ハンドルが右に10度回転する、といった具合です。
車に搭載されたダッシュカムで、ホイールの角度がわかっている場合、次に何が起こるかをある程度予測できるはずです。視界に現れる物体の細部すべてを予測することはできないでしょうが、抽象的な表現レベルでは、次に何が起こるかを予測できるでしょう。つまり、今あなたには「時刻 T における世界の状態についての私の考えはこれだ。私がとる行動はこれだ。時刻 T + 1 秒、T + δT 秒、T + 2 秒における世界の状態についての予測はこれだ」という内部モデルがあります。このタイプのモデルがあれば、計画を立てることができます。つまり、LMSではできない、これから何をしようかという計画を立てることができるのです。特定の結果に到達したり、特定の目的を達成したりするわけです。
ですから、いくつもの目標を持つことができます。 このような物体を手に持ったら、落ちるだろうと予測できます。 また、机の上で特定の力で押せば、動くでしょう。 机そのものを押せば、おそらく同じ力では動かないでしょう。ですから、私たちは頭の中に世界の内部モデルを持っており、それによって特定の目標に到達するための一連の行動を計画することができます。そして、この世界モデルがあれば、一連の行動を想像し、その行動の結果がどうなるかを予測し、最終的な状態が特定の目的をどの程度満たしているかを測定し、例えばボトルをテーブルの左に移動させ、実行時にこの目的を最小限に抑える一連の行動を計画することができます。
学習について話しているのではなく、推論時間について話しているので、これは実際には計画です。そして、最適制御においては、これは非常に古典的なものです。モデル予測制御と呼ばれています。制御したいシステムのモデルがあり、コマンドのシーケンスに対応する状態のシーケンスを予測できます。そして、役割モデルに従って、システムの最終状態が目的を満たすように、コマンドのシーケンスを計画します。これは、コンピュータが実用化されて以来、つまり1960年代初頭から、ロケットの軌道計画が採用してきた方法です。
階層型計画
レックス・フリードマン 00:44:20
はい、モデル予測制御についてはその通りですが、あなたは階層型計画についてもよくお話されています。階層型計画は、この方法から生み出されるのでしょうか?
ヤン・ルカン 00:44:28
いいえ、階層型プランニングを可能にするには、特定のアーキテクチャを構築する必要があります。ですから、複雑な行動を計画するには、階層型プランニングが絶対に必要です。例えば、ニューヨークからパリに行きたいとします。これは私がいつも使う例ですが、私はニューヨーク大学のオフィスに座っていて、最小化すべき目的はパリまでの距離です。大まかに、非常に抽象的な表現で私の位置を示せば、これを2つのサブゴールに分解する必要があります。1つ目は空港に行くこと、2つ目はパリ行きの飛行機に乗ることです。さて、私のサブゴールは空港に行くことになりました。私の目的関数は空港までの距離です。私はどうやって空港に行くのでしょうか?通りに出てタクシーを拾う必要があります。これはニューヨークでできることです。
さて、今度は別の副次的な目標として、通りを歩きます。つまり、エレベーターに向かい、エレベーターで下に降り、通りに出ます。では、どうやってエレベーターに向かいますか?椅子から立ち上がり、オフィスのドアを開け、エレベーターに向かい、ボタンを押します。では、どうやって椅子に座りますか?下に降りることを想像してみてください。つまり、ミリ秒単位で筋肉を制御しながら、一歩一歩進むということです。そして、ニューヨークからパリまでの旅をミリ秒単位の筋肉制御で計画するわけにはいきません。まず、それは途方もなく費用がかかりますが、それだけでなく、タクシーを捕まえたり、渋滞を考慮して空港まで行くのにどれくらいの時間がかかるかなど、起こりうる状況をすべて把握することは不可能だからです。つまり、この計画を立てるためには、あらゆる状況を正確に把握していなければなりませんが、その情報がないのです。ですから、行動を開始し、その過程で再計画を立てるために、階層的な計画を立てなければなりません。そして、AIでこれをどう行うかについては、誰も本当のところを知りません。階層的な計画が機能するように、適切な複数のレベルの表現を学習するシステムを訓練する方法は誰も知りません。
レックス・フリードマン 00:46:41
そのようなことはすでに現れているのでしょうか? ニューヨークからパリに行くために、まさに今あなたがしたような詳細な質問のセットを正確に行うことで、最先端の法学修士号(LLM)を利用できるでしょうか?そして、それらのステップのそれぞれについて、そのステップを実現するための10のステップのリストを教えてください。それらのステップのそれぞれについて、それらを実行するための10のステップのリストを教えてください。個々の筋肉を動かすまで、あるいは、自分の頭を使って実際に実行できることまで、何でも結構です。
ヤン・ルカン 00:47:21
そうですね。このことからも、多くの質問が暗示されているわけですよね? まず、LLMは、トレーニングセットで同様のシナリオを訓練されているという条件の下で、それらの質問の一部をある程度の抽象度まで回答できるようになるでしょう。
レックス・フリードマン 00:47:37
それらの質問すべてに回答できるようになるでしょうが、そのうちのいくつかは、事実に基づかない幻覚的なものになるかもしれません。
ヤン・ルカン 00:47:44
ええ、その通りです。おそらく何らかの答えは出すでしょう。ただし、椅子から立ち上がる際の筋肉の制御をミリ秒単位で実行することはできないでしょう。しかし、ある程度抽象化されたレベルまでなら、言葉で説明できるので、計画を立てられるかもしれませんが、それは、そのような計画を立てるための訓練を受けているという条件付きです。彼らは、これまで遭遇したことのない状況を計画することはできません。基本的に、訓練で学んだテンプレートをそのまま適用することになります。
レックス・フリードマン 00:48:14
ニューヨークからパリへの例だけを考えても、問題が生じ始めるのでしょうか? どの抽象化の層から始めることになると思いますか? 私はそのほとんどすべてを想像できます。LLMならある程度正確に答えられるでしょう。特にニューヨークとパリという大都市について話す場合はそうです。
ヤン・ルカン 00:48:31
もちろん、LLMは、その問題を微調整すれば解決できるでしょう。ですから、LLMができないとは言えません。訓練すればできるでしょう。あるレベルまでなら、言葉で表現できることは間違いありません。しかし、階段をどう降りるか、あるいは椅子からどう立ち上がるか、といったことを言葉で表現しようとすると、それはできません。それが、言葉で表現できるものよりもはるかに高い帯域幅を持つ物理世界の経験が必要とされる理由のひとつです。
レックス・フリードマン 00:49:11
これまで私たちが共同埋め込み空間について話してきたことは、ロボット工学の分野における物理的現実との相互作用に必要なものなのかもしれません。そして、LLMは、私が航空券を予約する必要があり、ウェブサイトにアクセスする方法を知る必要があるなど、より大きな推論を行うためにその上に位置するものです。
ヤン・ルカン 00:49:33
もちろん。そして、人々が知っている多くの計画は、比較的レベルが高いですが、実際には学習されたものです。ほとんどの人は、プランを自分で考案しているわけではありません。もちろん、私たちにもプランを考案する能力はありますが、一般的に人々が使用しているプランは、トレーニングされたプランであり、他の人がそれを使用しているのを見たり、やり方を教わったりしたものです。飛行機を知らない人に、ニューヨークからパリへ行く方法を教えることはできないでしょう?そして、おそらく彼らは、その例を事前に見たことがない限り、その計画全体を分解することはできないでしょう。LLMは確かにこれを行うことができますが、では、このことを、JEPAのような、状況の詳細を再構築しようとせずに、表現の抽象度を基本的に引き上げるものを使って行う必要がある、低レベルのアクションとどのように結びつけるのでしょうか。それが、私たちがJEPAを必要とする理由です。
自己回帰型LLM
レックス・フリードマン 00:50:40
自己回帰型 LLM に対する懐疑的な見方についてもう少し詳しくお聞きしたいと思います。その疑念を検証する一つの方法として、あなたが言ったことはすべて理にかなっていますが、今日あなたが言ったことをすべて、一般的に、10年前、あるいはもう少し前、いや、3年前に適用したとしても、LLMの成功を予測することはできないでしょう。自己回帰型 LLM がこれほどまでに優れていることに納得できますか?
ヤン・ルカン 00:51:20
はい。
レックス・フリードマン 00:51:21
直感を説明していただけますか? もし私があなたの知恵や直感を額面通りに受け取るとしたら、自己回帰型 LLM が1トークンずつ処理して、彼らがやっているようなことをできるはずがないと言うでしょう。
ヤン・ルカン 00:51:36
いいえ、自己回帰型 LLM や、自己回帰型に限らず、鳥スタイルの双方向型も含めた一般的な LLM が活用しているものがあります。それは自己監督型実行で、私は長年、自己監督型実行の強力な支持者でした。ですから、自己監督型実行が実際に機能していることを示す、非常に印象的なデモンストレーションです。このアイデアは、BERTから始まったものではありませんが、これはその実例として非常に良いものでした。
つまり、テキストの一部を改ざんし、欠落した部分を再構築するよう巨大なニューラルネットワークを訓練するというものです。これにより、膨大な恩恵がもたらされました。言語を理解するシステム、数百の言語をあらゆる方向に翻訳できるシステム、多言語対応のシステムなど、さまざまなシステムを構築できるようになりました。つまり、1つのシステムを訓練して、数百の言語を理解し、あらゆる方向に翻訳し、要約を作成し、質問に答え、テキストを作成できるようにしたのです。
そして、その特別なケースとして、オート・リジェクティブ・トリックがあります。これは、システムがテキスト全体を見てテキストの表現を推敲しないように制限し、単語を予測する場合は、その前に出てきた単語から予測するだけです。これを実現するには、ネットワークのアーキテクチャを制限する必要があります。これが、オート・アグレッシブなLLMを構築できる理由です。
ですから、何年も前にデコーダーのみのLLMと呼ばれるものが出てきて驚きました。このタイプのシステムは、前の単語から次の単語を生成しようとするだけですが、規模を拡大すると、言語についてより深く理解する傾向があることが分かりました。大量のデータで学習させると、非常に大きなものになります。これは驚きでした。この驚きはかなり前に起こりました。Google、Meta、OpenAIなどの研究で、GPTのような一般的な事前学習済みトランスフォーマーの研究にまでさかのぼります。
レックス・フリードマン 00:53:56
GPT2のようなものですか? ある特定の場所で、スケーリングが実際に新たなメリットをもたらし続けることに気づき始めるのです。
ヤン・ルカン 00:54:06
ええ、さまざまな場所で研究が行われていますが、GPTのタイムラインに位置づけるなら、GPT2の頃ですね。
レックス・フリードマン 00:54:19
まあ、あなたは非常にカリスマ的に、多くの言葉を語りましたが、自己監督学習ですね。しかし、自動攻撃型 LLM が世界の深い理解を持つことはできないというあなたの直感は、やはり正しいです。同じ直感を適用するとして、彼らが世界を十分に表現し、非常に説得力があり、本質的にオリジナルの巡回テストを完璧にパスしているということが理にかなっていると思いますか?
ヤン・ルカン 00:54:50
まあ、私たちは彼らの流暢さにだまされているわけですよね? 私たちは、システムが言語を流暢に操れるなら、人間の知性の特徴をすべて備えていると想定しますが、その印象は誤りです。私たちは本当にそれにだまされているのです。
レックス・フリードマン 00:55:06
アラン・チューリングは、何も理解できないまま、ただそれと付き合っているだけだとしたら、何と言うでしょうか?
ヤン・ルカン 00:55:11
アラン・チューリングは、チューリングテストは本当に悪いテストだと判断したでしょうね。AIコミュニティは、チューリングテストは知性を測るテストとしては本当に悪いテストだと、何年も前に判断しています。
レックス・フリードマン 00:55:22
ハンス・マーヴェクは、より大きな言語モデルについてどう言うでしょうか?
ヤン・ルカン 00:55:26
ハンス・マーヴェクは、マーヴェクのパラドックスが依然として当てはまると言うでしょう。 わかりました、私たちは合格です。
レックス・フリードマン 00:55:32
彼は本当に感銘を受けるとは思わないのですか?
ヤン・ルカン 00:55:34
いいえ、もちろん誰もが感銘を受けるでしょう。しかし、感銘を受けるか受けないかという問題ではなく、それらのシステムの限界がどこにあるのかを知るという問題なのです。繰り返しますが、それらは確かに素晴らしいものです。非常に多くの有用なことを行うことができます。それらを軸に構築された産業全体があります。それらは進歩を遂げるでしょうが、それらにはできないこともたくさんあります。そして、私たちはそれらのできないことを認識し、そこからどのようにしてそこへ到達するかを考えなければなりません。私は、基本的に10年間にわたる自己監督型ランニングの研究から、このことを理解しています。実際には、その研究は10年以上前にさかのぼりますが、自己監督型ランニングのアイデアです。つまり、特定のタスク用にシステムを訓練することなく、入力セットの一部の内部構造を捉え、表現を学習することです。
私が14年前に共同創設したカンファレンスは「International Conference on Learning Representations」と呼ばれています。 これがディープラーニングが扱う問題のすべてであり、私は40年近くもこの問題に取り憑かれています。 つまり、表現を学習することが本当に重要なのです。長い間、私たちはこれを教師あり学習でしか行うことができませんでした。そして、私たちは教師なし学習と呼んでいたものに取り組み始め、2000年代初頭にジェフ・ヒントン氏とあなたの[聞き取れず 00:56:58]とともに教師なし学習のアイデアを復活させました。その後、十分なデータを収集できれば、教師あり学習が実際にはかなりうまく機能することが分かりました。そのため、教師なしの自己教師あり学習という考え方はしばらく後回しになっていましたが、2014年にFAIRを立ち上げたのを機に、この考え方を本格的に復活させ、テキスト、画像、動画、音声のすべてにおいて自己教師あり学習を行う新しい手法を見つけるために本格的に取り組みました。
そして、その取り組みの一部は非常に成功を収めました。つまり、多言語翻訳システムや、例えばFacebookのMeta上で行われるコンテンツの適正化など、多言語でテキストがヘイトスピーチであるか否かを理解する機能が存在するのは、NLPの自己監督型実行を利用した進歩によるものであり、これをトランスフォーマ構造と組み合わせた結果です。
しかし、それが自己監督型ランニングの大きな成功です。音声認識でも同様の成功を収めました。WAVE2VECと呼ばれるシステムで、これもまた対照的ランニングで訓練された共同埋め込みアーキテクチャです。そして、そのシステムは、ほとんどが未ラベルのデータで多言語の音声認識システムを生成でき、実際に音声認識を行うにはラベル付きのデータが数分間あればよいという、素晴らしいものです。現在、私たちは、これらのアイデアを組み合わせたシステムをベースに、数百の言語を相互にリアルタイムで音声から音声へと翻訳できるシステムを開発しています。
レックス・フリードマン 00:58:28
音声から音声への翻訳には、興味深いことに、文字を持たない言語も含まれています。
ヤン・ルカン 00:58:34
その通りです。
レックス・フリードマン 00:58:34
話された言葉だけです。
ヤン・ルカン 00:58:35
その通りです。テキストを介さず、音声から音声へと直接、離散的な音声単位の内部表現を使用して処理されます。以前はこう呼んでいました。しかし、そうですね、そこでは素晴らしい成功を収めました。そして、10年間、この考え方を画像の学習表現に適用しようと試みました。動画を予測するシステムを訓練することで直感的な物理を学習し、動画で何が起こるかを予測するシステムを訓練しました。
生成モデルやピクセルを予測するモデルを試しては失敗し、試しては失敗し、試しては失敗しました。画像の優れた表現を学習させることはできませんでした。動画の優れた表現を学習させることもできませんでした。何度も試しては論文を発表しましたが、ある程度はうまくいくものの、素晴らしい成果は得られませんでした。あるときからうまくいき始め、すべてのピクセルを予測するという考えを捨て、基本的にはジョイント・エンベッディングと予測と表現空間だけを行うというやり方でうまくいくようになりました。生成モデルでは現実世界の優れた表現を学習できないという十分な証拠があります。ですから私は、みんなが生成AIについて話しているけれど、もし人間レベルのAIに本当に興味があるなら、生成AIという考えは捨てた方がいいと伝えています。
レックス・フリードマン 00:59:51
わかりました。しかし、ジョイント・エンベッディング表現で本当に大きな成果を上げられるとお考えなんですね。常識的な推論と、高度な推論があります。 それらは2つあるように感じます。 つまり、LLMが可能な推論、そうですね、推論という言葉は使わないことにしますが、LLMが可能な推論は、私たちが世界をナビゲートするために使う常識的な推論とは根本的に異なるように思えます。 両方が必要になるように思えます。共同埋め込み、つまりJEPAのようなアプローチで、動画を見ながら、例えばニューヨークからパリへの行き方や、今日の世界の政治情勢を理解する方法を学べるでしょうか。これらは、さまざまな人間が言語空間で多くの言語や意見を生み出しているものの、視覚的に明確に圧縮可能な方法で表現されていないものです。
ヤン・ルカン 01:00:56
そうですね。純粋に言語ベースのシステムでは、把握が難しい状況はたくさんあるでしょう。テキストを読めば学習できるでしょうが、世界中の公開されているテキスト全体を、私が指を鳴らしてニューヨークからパリに送ることはできません。それはうまくいかないでしょう?
レックス・フリードマン 01:01:16
はい。
ヤン・ルカン 01:01:18
しかし、おそらくこのタイプのもっと複雑なシナリオがあり、LLMは遭遇したことがなく、それが可能かどうかを判断できないかもしれません。 つまり、低レベルから高レベルへのリンクですが、言語が高レベルで表現するものは、LLMが現在持っていない低レベルの共通体験に基づいているということです。私たちが互いに会話するとき、私たちは世界についての共通の経験を持っていることを知っています。多くの部分が似通っており、LLMにはそれがありません。
レックス・フリードマン 01:01:59
しかし、それは存在しています。あなたと私は、重力の働き方やその他物理的な面で、世界についての共通の経験を持っています。そして、その世界についての共通の知識は、言語の中にあると感じます。私たちはそれを明確に表現しているわけではありませんが、膨大な量のテキストがあれば、行間にあるものも理解できるようになります。一貫した世界観を形成するためには、たとえ重力の明確な説明がなくても、重力の仕組みを理解する必要があります。重力の場合、ウィキペディアには重力の明確な説明があります。しかし、私たちが常識的推論として考えることについては、言語を正しく生成するにはそれを理解する必要があると感じています。さて、あなたは、テキストが十分ではないと言っているかもしれませんが…すみません、わかりました。そうは思わないということですね?
ヤン・ルカン 01:02:57
いいえ、今あなたが言ったことに同意します。高度な常識を身につけるには、その基礎となる初歩的な常識を身につける必要があるということです。
レックス・フリードマン 01:03:09
しかし、それがないのです。
ヤン・ルカン 01:03:10
LLMにもありません。LLMはテキストから純粋に訓練されたものです。では、あなたが言ったもう一つの意見ですが、私は同意できません。世界のあらゆる言語には、言語では表現されない多くの根本的な現実が潜在しているという事実です。
レックス・フリードマン 01:03:26
それはあなたにとって明白なことですか?
ヤン・ルカン 01:03:28
ええ、完全に。
レックス・フリードマン 01:03:30
それでは、私たちがこれまでにした会話は… そうですね、ダークウェブには、DMのような非公開の会話など、さまざまなものがあります。おそらく、LLMが学習するものよりもはるかに、はるかに大きいでしょう。
ヤン・ルカン 01:03:46
一般的ないわば「ありふれた」ものは伝える必要はありませんよね?
レックス・フリードマン 01:03:50
しかしユーモアは、すべて、いや、伝える必要はありませんが、伝わります。私がこれを誤って倒してしまったら、おそらくあなたは私をからかうでしょう。あなたが私をからかう内容はおそらく、コップが倒れるという事実の説明であり、そして重力はこう働くという説明でしょう。そして、地面に落ちるとどんなものが爆発するのかについて、非常に曖昧な情報を得ることになります。そして、エントロピーについて、あるいは、このような冗談を言うかもしれません。そうすると、もう二度と再現できなくなります。このような冗談を言うと、他にも無数の冗談が生まれます。そして、冗談から、重力は作用する、マグカップは壊れる、といった事実を組み立てることができます。目で見る必要はありません。非常に非効率的です。物を倒す方が簡単ですが、十分なデータがあれば、そこにあるような気がします。
ヤン・ルカン 01:04:46
私が思うに、赤ちゃんの頃に蓄積したこのタイプの情報のほとんどは、本質的には、テキストやその他の記述には存在しません。
レックス・フリードマン 01:04:59
感覚データは、そうした理解を得るためのより豊かな情報源です。
ヤン・ルカン 01:05:04
つまり、4歳児の起きている時間は16,000時間あり、視覚だけに限っても15ビットの情報を処理します。触覚も同様の帯域幅があり、聴覚はそれより少し劣ります。そして、文字、言語は生まれてから1年経たないと出てきません。9歳になる頃には、重力や慣性、安定性について学び、生物と非生物の違いも理解しています。18ヶ月もすれば、なぜ人々は何かをしたいのか、そして、それができない場合はどう手助けすればいいのかも理解しています。つまり、観察によって学ぶことが多く、実際には相互作用すらありません。人生の最初の数か月間、赤ちゃんは世界に影響を与えることはできず、観察することしかできません。そして、それだけで膨大な量の知識を蓄積します。それが、現在のAIシステムに欠けているものなのです。
AIの幻覚
レックス・フリードマン 01:06:06
あなたのスライドの1枚に、LLMの限界を示す方法の1つとして、素晴らしい図がありましたね。 あなたの視点から、大規模言語モデルでなぜ幻覚が起こるのか、また、それが大規模言語モデルの根本的な欠陥であるとどの程度言えるのかについてお話しいただけますか?
ヤン・ルカン 01:06:29
そうですね、自己回帰予測のため、トークンや単語を生成するたびに、その単語が妥当な答えのセットから外れる確率がいくらか存在します。 そして、非常に強い仮定ですが、そのようなエラーの確率は、生成されるトークンのシーケンス全体にわたって独立していると仮定すると、 つまり、トークンを生成するたびに、正しい答えの集合内に留まる確率が減少し、指数関数的に減少していくということです。
レックス・フリードマン 01:07:08
つまり、あなたが言ったように、間違いを犯す確率がゼロでない場合、つまり間違いを犯す可能性がある場合、ある種のドリフトが起こるという強い仮定があるということですね。
ヤン・ルカン 01:07:18
ええ、そしてそのドリフトは指数関数的なのです。エラーが蓄積されていくようなものです。ですから、答えが意味不明になる確率は、トークンの数に比例して指数関数的に増加します。
レックス・フリードマン 01:07:31
ところで、それは明らかですか?まあ、数学的にはそうかもしれませんが、真実に向かって引き寄せられるような引力のようなものは存在しないのでしょうか?平均的には、うまくいけば、真実は訓練データで十分に表現されているはずだからです。
ヤン・ルカン 01:07:48
いいえ、基本的には次元の呪いとの闘いです。これを修正する方法は、人々が考えそうなあらゆる種類の質問に対する答えをシステムに生成させることで、システムを微調整することです。
ヤン・ルカン 01:08:00
人々が考えそうなあらゆる質問に対する回答を生成させるのです。 人は人ですから、彼らが抱える質問の多くは互いに非常に似通っています。ですから、データを収集すれば、おそらく人々が尋ねる質問の80%またはそれ以上をカバーできるでしょう。そして、それらのすべてに対して適切な回答を生成するようにシステムを微調整すれば、おそらく学習できるでしょう。なぜなら、学習能力が非常に高いからです。しかし、トレーニングでカバーされていない膨大な数のプロンプトがあります。その数は膨大で、すべてのプロンプトのセットの中で、トレーニングに使用されたプロンプトの割合はごくわずかです。
そのため、システムは、トレーニング、事前トレーニング、または微調整されたプロンプトに対しては適切に動作しますが、数が膨大であるため、トレーニングされていない可能性がある領域が存在します。ですから、システムが適切な回答を生成するようにどのような訓練を施したとしても、訓練されたプロンプトのセット外にあるプロンプトや類似したものを見つけ出すことで、システムを破綻させることができます。そうすると、まったくのナンセンスが返ってくることになります。
レックス・フリードマン 01:09:30
プロンプトと言った場合、正確なプロンプトを意味しているのか、それとも、多くの部分で非常に異なるプロンプトを意味しているのか? インターネット上で、まだ誰も言ったことのない質問や発言をするのは、それほど簡単なのでしょうか?
ヤン・ルカン 01:09:46
プロンプトにランダムな文字列を入れるというアイデアが人々によって出てきましたが、それだけでシステムを、これがない場合とは全く異なる答えを出すモードに切り替えるのに十分なのです。つまり、システムを脱獄させる方法であり、基本的にその条件付けの外に出るということです。
レックス・フリードマン 01:10:09
非常にわかりやすいデモですが、もちろん、それは意図された機能の範囲外ですよね? 実際に、文法的に妥当な文章を組み合わせた場合、それを簡単に壊すことはできるのでしょうか?
ヤン・ルカン 01:10:26
ええ、一部の人々は、英語で文章を書いたり、英語で質問をすると、完璧な回答が返ってきますが、その回答の単語をいくつか別の言語の単語に置き換えると、突然、回答がまったく意味不明なものになる、といったことを行っています。
レックス・フリードマン 01:10:45
私が言いたいのは、人間が生成しそうなプロンプトのどの部分がシステムを壊すことになるのか、ということです。
ヤン・ルカン 01:10:55
問題はロングテールが存在することです。これはソーシャルネットワークなどで多くの人が気づいている問題で、人々が尋ねる質問のテールが非常に長いということです。そして、ほとんどの人が尋ねる質問の80%やその他の質問については、システムを微調整することができます。そして、このロングテールは非常に大きいため、すべての条件に対してシステムを微調整することはできません。結局、システムは本質的には巨大な参照表になってしまい、それは本当に望んでいるものではありません。
AIにおける推論
LLMで行われる推論の種類は非常に原始的です。なぜ原始的であると言えるかというと、生成されるトークン1つあたりの計算量が一定だからです。質問をして、その質問に答えられるトークン数が決まっている場合、その答えを計算するために費やされる計算量は正確に推定できます。予測ネットワークの規模は、36層、92層、またはその他の層数とトークンの数を掛け合わせたものになります。 したがって、質問が単純な回答であるか、複雑な回答であるか、または決定可能であるか不可能であるかなど、質問の内容は本質的には問題ではありません。システムが回答に費やすことのできる計算量は一定であり、または回答で生成されたトークンの数に比例します。これは私たちの仕事のやり方ではありません。私たちの考え方は、複雑な問題や複雑な質問に直面した際には、より難しいからこそ、それを解決し、回答を得るために多くの時間を費やすというものです。
レックス・フリードマン 01:12:43
予測の要素もありますし、何度も何度も繰り返すことで物事に対する理解を調整していく反復的な要素もあります。また、階層的な要素もあります。これはLLMの根本的な欠陥を意味するのでしょうか、それとも、それはつまり、
ヤン・ルカン 01:13:00
ええ。
レックス・フリードマン 01:13:00
その質問にはまだ続きがあります。あなたは今、LLMの学生のように、すぐに答えを出そうとしています。いいえ、それは単なる低レベルの世界モデルであり、その上に、あなたが言ったような永続的な長期記憶や推論などのメカニズムを構築することができます。しかし、言語から得られる世界モデルが必要です。おそらく、よく構築された世界モデルの上に、このような推論システムを構築することはそれほど難しくないでしょう。
ヤン・ルカン 01:13:37
それが難しいかどうかは別として、近い将来、多くの人々が対話システムの推論能力や計画能力に取り組んでいることが明らかになるでしょう。言語に限定しても、回答を生成する際に使用する言語と必ずしも関連性のない言葉遣いで回答する前に回答を計画する能力を持つだけでも、自分が話す前に話す内容を計画できるというこのメンタルモデルの考え方は、非常に重要です。今後数年の間に、この機能を持つシステムが数多く登場すると思いますが、それらのシステムの青写真は、自動攻撃型LLMとは極めて異なるものになるでしょう。
これは、心理学者が人間のシステム1とシステム2と呼ぶものと同じ違いです。つまり、システム1とは、やり方を意識的に考えずに、ただやるだけで、考えずに無意識にできるほど十分にこなしたタスクのことです。運転に慣れている人なら、運転中に何も考えずに運転しながら、誰かと同時に会話したり、ラジオを聴いたりすることができます。チェスに非常に慣れている人なら、何も考えずにチェス未経験者と対戦することができます。パターンを認識し、プレイするだけです。これがシステム1です。つまり、計画や思考を必要とせずに、本能的に行うすべての行動です。
そして、計画を立てる必要があるタスクもあります。あまり経験のないチェスプレーヤーの場合、あるいは経験のあるチェスプレーヤーと対戦する場合、あらゆる選択肢を検討し、しばらく考えます。ですから、この種の慎重な計画は、内部世界モデルを使用するシステム2であり、これは現在のLMSでは不可能です。 これを実行させるにはどうすればよいのでしょうか? 単純な問題よりも複雑な問題に多くのリソースを割く、この種の計画や推論を実行できるシステムを構築するにはどうすればよいのでしょうか?そして、それはトークンの後退予測ではなく、かつて確率モデルやグラフィカルモデルなどと呼ばれていたものに似た、小さな変数の推論のようなものになるでしょう。
基本的に、その原理は次のようになります。プロンプトは観測された変数のようなもので、モデルが行うことは、基本的に、回答がプロンプトに対してどの程度良い回答であるかを測定することです。ですから、巨大なニューラルネットワークのようなものだと考えてください。ただし、出力は1つだけです。その出力は、スケーリングされた数値で、質問に対する答えが適切であれば数値はゼロに近くなり、適切でなければ大きな数値になります。このようなモデルがあったと想像してみてください。もしそのようなモデルがあれば、良い答えを生成するためにそれを使うことができます。その方法は、プロンプトを生成し、可能な答えの空間を検索して、その数値を最小化する答えを見つけることです。これはエネルギーベースモデルと呼ばれています。
レックス・フリードマン 01:17:11
しかし、そのエネルギーベースモデルには、LLMによって構築されたモデルが必要になるのでしょうか?
ヤン・ルカン 01:17:18
そうですね、つまり、本当に必要なのは、エネルギーを最小化する可能性のある文字列をすべて検索しないことです。 しかし、実際にはどうするかというと、抽象的な表現空間でこれを行います。つまり、抽象的な思考の空間で、モデルの出力結果を最小化するプロセスを使用して思考を練り上げるのです。つまり、システムがセンサーを生成する方法は、基本的には目的関数を最小化する最適化によって行われるのです。そして、私たちが話しているのは推論についてであり、学習についてではありません。システムはすでに学習済みです。
今、私たちは答えの思考の抽象的な表現、答えの表現を持っています。それを基本的に自己回帰デコーダーに与えると、非常に単純なものでも、この思考を表現するテキストに変換することができます。これが、私の意見では、未来のデータシステムの青写真です。テキストに変換する前に、最適化によって答えを考え、計画するのです。そして、それは完全なものとなります。
レックス・フリードマン 01:18:31
最適化の問題とは具体的にどのようなものなのか説明していただけますか? 目的関数とは何ですか? 簡単に説明してくれましたが、どの空間を最適化するのですか?
ヤン・ルカン 01:18:43
表現空間です。
レックス・フリードマン 01:18:45
抽象的な表現ですか?
ヤン・ルカン 01:18:48
システム内部には抽象的な表現があり、プロンプトがあり、プロンプトはエンコーダーを通り、表現を生成し、おそらくは予測器を通り、適切な答えの表現を予測します。しかし、その表現は良い答えではないかもしれません。なぜなら、複雑な推論を行う必要があるかもしれないからです。そこで、別のプロセスが答えの表現を受け取り、その答えが質問に対してどの程度良い答えであるかを測定するコスト関数を最小化するように、表現を修正します。さて、分数に対して答えが良い答えであるかどうかを測定するために、そのシステムをどのように訓練するかという問題は、ここでは一旦無視します。
レックス・フリードマン 01:19:36
もちろん。そのようなシステムが作成できると仮定しますが、この探索のようなプロセスとはどのようなものですか?
ヤン・ルカン 01:19:42
最適化プロセスです。システム全体が微分可能であり、スケーラー出力がニューラルネットへの回答の表現の結果である場合、これを行うことができます。それから、勾配降下法、バックプロパゲーション勾配によって、回答の表現をどのように修正すれば最小化できるかを把握することができます。
レックス・フリードマン 01:20:05
それでも勾配ベースですか?
ヤン・ルカン 01:20:06
勾配に基づく推論です。 これで答えの抽象空間での表現が得られたので、それをテキストに変換できます。 そして、この方法の素晴らしいところは、答えの表現を勾配降下法で最適化できるだけでなく、答えを表現する言語に依存しないことです。
レックス・フリードマン 01:20:27
そうですね。つまり、あなたは減算表現で操作しているということですね。これは、ジョイント・エンベッディングに戻りますが、つまり、空間で作業する方が良いということです。私はよく分かりませんが、概念空間対具体的な感覚情報の空間のような概念をロマンチックに考えるのです。
ヤン・ルカン 01:20:45
そうですね。
レックス・フリードマン 01:20:48
しかし、これは推論のようなことを行うことができますか?私たちが今話しているような推論です。
ヤン・ルカン 01:20:51
いいえ、できません。ごく単純な方法でしかできません。基本的に、それらは私が話していた最適化を行っていると考えることができます。ただし、それらは離散空間、つまりトークンの可能なシーケンスの空間で最適化を行います。そして、それらは恐ろしく非効率的な方法で最適化を行います。つまり、多くの仮説を生成し、その中から最良のものを選択するのです。これは、競争という観点では非常に無駄が多いです。なぜなら、基本的に、生成可能なシーケンスのすべてに対してLLMを実行する必要があり、非常に無駄が多いからです。ですから、連続空間で最適化を行う方がずっと良いのです。大量に生成して最良のものを選ぶのではなく、勾配法や降下法を行うことができます。答えを反復的に修正して最良のものに近づけるだけなので、ずっと効率的です。ただし、これは微分可能な関数を持つ連続空間でのみ行うことができます。
レックス・フリードマン 01:21:48
あなたは、深く考える能力や深く推論する能力について話していますが、深く推論した結果、より良い答えや悪い答えをどうやって見分けるのですか?
ヤン・ルカン 01:22:05
では、概念的に、エネルギーベースのモデルをどのように訓練するのかという質問をします。エネルギーベースのモデルは、単なる数値を出力する関数です。2つの入力、XとYを与え、YがXと適合するかどうかを判断します。Xは、例えばプロンプト、画像、動画など、何でもよく、Yは回答の提案、動画の続きなど、何でもよく、XとYが互換性があるかどうかを教えてくれます。そして、XとYが互換性があるかどうかを教えてくれる方法は、その関数の出力が、XとYが互換性がある場合はゼロとなり、XとYが互換性がない場合はゼロ以外の正の数値となることです。
このようなシステムを完全に一般的なレベルで訓練するには、互換性のあるXとYのペア、質問、それに対応する回答を示し、内部の大きなニューラルネットのパラメータをゼロを生成するように訓練します。しかし、これは完全にうまくいくわけではありません。なぜなら、システムが「すべてゼロにしよう」と判断してしまう可能性があるからです。ですから、誤ったYに対しては、エネルギーがゼロよりも大きくなるようにするプロセスが必要です。そして、2つのオプションがあります。1つは対照的方法です。対照的方法とは、Xと悪いYを示し、システムに「これに高いエネルギーを与えろ、エネルギーを押し上げろ、エネルギーを混乱させるニューラルネットの重みを変更して、エネルギーを上昇させろ」と指示します。これが対照的方法です。
この問題は、Yの空間が大きい場合、このような対照的なサンプルの数が膨大になるということです。しかし、人々はこれをやっています。RLHFでシステムを訓練する場合、基本的に訓練しているのは報酬モデルと呼ばれるもので、これは基本的に答えが良いか悪いかを判断する目的関数です。ですから、ある程度はすでにこれを行っています。ただ、推論には使用しておらず、トレーニングにのみ使用しているだけです。
非対比的な手法の別のセットもありますが、私はそちらの方が好みです。非対比的な手法では、基本的に、エネルギー関数はトレーニングセットから得られた互換性のあるXYペアに対して低いエネルギーを持つ必要があります。エネルギーがそれ以外の場所では高くなるようにするにはどうすればよいのでしょうか?これを行う方法としては、正則化、基準、コスト関数における項によって、基本的にエネルギーが低い値を取る可能性のある空間を最小化します。 これを正確に行う方法としては、アーキテクチャによってさまざまな異なる特定の方法がありますが、これが基本的な原則です。ですから、XY空間のある特定の領域のエネルギー関数を押し下げると、自動的に他の場所でエネルギー関数が上昇します。なぜなら、システムの構築や正則化関数によって、低エネルギーを取り得る空間の体積は限られているからです。
レックス・フリードマン 01:25:16
これまで非常に一般的に話してきましたが、良いXと良いYとは何でしょうか?XとYの優れた表現とは何でしょうか? 私たちは言語について話してきましたが、言語をそのまま取り上げるだけではおそらく十分ではありません。ですから、何らかのアイデアの抽象的な表現が必要なのです。
ヤン・ルカン 01:25:37
言語を直接使用して、Xはテキストであり、Yはそのテキストの続きである、ということができます。
レックス・フリードマン 01:25:43
はい。
ヤン・ルカン 01:25:45
あるいは、Xは質問で、Yは答えです。
レックス・フリードマン 01:25:48
しかし、それはうまくいかないと言っているのですね。LLMがやっていることをやるということですね。
ヤン・ルカン 01:25:52
いや、システムの内部構造がどのように構築されているかによります。システムの内部構造が、システム内部に潜在変数があり、それを操作することで出力エネルギーを最小化できるような形で構築されている場合、その潜在変数は、良い答えの表現と見なすことができ、それを良い答えであるYに変換することができます。
レックス・フリードマン 01:26:19
このシステムも、ほぼ同様の方法で訓練できるのでしょうか?
ヤン・ルカン 01:26:24
ほぼ同様ですが、訓練していないものに対して高いエネルギーを確保する、崩壊を防ぐ方法が必要です。 現在、LLMでは非常に暗黙的ですが、人々はそれがなされていることに気づかない方法で実行されています。単語に高い確率を与えると、自動的に他の単語には低い確率が与えられるという事実によるものです。なぜなら、合計が1になるように、そこにある確率は有限だからです。 クロスエントロピーやその他のものを最小化し、LLMに次の単語を予測するように学習させると、システムが正しい単語に与える確率は高くなりますが、誤った単語に与える確率は低くなります。
間接的に、良い単語のシーケンスには高い確率が、悪い単語のシーケンスには低い確率が与えられることになりますが、非常に間接的な方法です。シーケンス内のすべてのシンボルの結合確率に基づいて行っているわけではないので、なぜ実際にこれが機能するのかは明らかではありません。連続トークン上の条件付き確率の観点から、その確率を分解しているのです。
レックス・フリードマン 01:27:41
視覚データの場合はどうするのですか?
ヤン・ルカン 01:27:44
基本的に、I-JEPAアーキテクチャでこれを行っています。
レックス・フリードマン 01:27:46
ジョイント・エンベッディングです。
ヤン・ルカン 01:27:47
I-JEPAです。2つのものの互換性は、ここに画像または動画があり、その画像または動画が破損していたり、ずれたり、変形したり、マスクされたりしたものです。そして、システムのエネルギーは、良いものの実際の表現と、良いものの予測表現の予測誤差です。つまり、破損した画像をシステムに送り、破損していない状態の入力の表現を予測し、予測誤差を計算します。これがシステムのエネルギーです。このシステムでは、これが良い画像でこれが破損したバージョンである場合、2つのものが事実上、一方が他方の破損したバージョンである場合、2つの画像が完全に異なる場合、高いエネルギーが与えられます。
レックス・フリードマン 01:28:46
そして、そのプロセス全体が、視覚的な現実を本当にうまく圧縮した表現を導くことを期待していますか?
ヤン・ルカン 01:28:54
そして、私たちはそれができることを知っています。なぜなら、私たちはその表現を分類システムや何かの入力として使用し、それが機能しているからです。
強化学習
レックス・フリードマン 01:29:00
そして、その分類システムは実にうまく機能します。さて、まとめると、ヤン・ルカンにしかできないスパイシーな方法で、生成モデルを捨てて、結合埋め込みアーキテクチャを採用することを勧めていますね?
ヤン・ルカン 01:29:15
はい。
レックス・フリードマン 01:29:15
自己回帰生成を捨てましょう。
ヤン・ルカン 01:29:17
はい。
レックス・フリードマン 01:29:19
まるで法廷での証言のようです。先ほどお話したように、エネルギーベースのモデルを優先して確率的モデルを放棄し、正則化手法を優先して対照的手法を放棄します。それについてお伺いしたいのですが、あなたはしばらくの間、強化学習の批判者でしたね。
ヤン・ルカン 01:29:36
はい。
レックス・フリードマン 01:29:38
最後の提案は、あなたが話していたように、モデル予測制御を優先してRLを放棄し、計画が予測結果をもたらさない場合にのみRLを使用し、その場合はRLで世界モデルまたはクリティカルを調整することです。
ヤン・ルカン 01:29:55
はい。
レックス・フリードマン 01:29:57
人間によるフィードバックを用いた強化学習(RLHF)について言及されましたが、なぜ今でも強化学習を嫌っているのですか?
ヤン・ルカン 01:30:05
強化学習を嫌っているわけではありません。
レックス・フリードマン 01:30:07
すべて愛です。
ヤン・ルカン 01:30:08
… 完全に捨て去るべきではないと思いますが、サンプルの観点では非常に非効率なので、使用は最小限にすべきだと思います。 したがって、システムを訓練する適切な方法は、まずほとんどが観測で、少しのインタラクションから、世界と世界モデルの優れた表現を学習させることです。
レックス・フリードマン 01:30:31
そして、その表現に基づいて調整を行います。表現が優れていれば、調整は最小限で済むはずです。
ヤン・ルカン 01:30:36
ええ。 2つのことがあり、もし世界モデルを学習したのであれば、特定の目的に到達するための一連の行動を計画するために世界モデルを使用できます。成功したかどうかを正確に測定できるのであれば、強化学習は必要ありません。自転車から落ちるかどうかというあなたの考えは間違っているかもしれません。あるいは、総合格闘技で戦っている相手が何かをするつもりで、相手が別のことをするかもしれません。つまり、間違っている可能性は2つあります。目的関数が最適化したい実際の目的関数を反映していないか、世界モデルが不正確であるため、世界で起こるであろうことについての予測が不正確であるかのいずれかです。
世界や目的関数の中で作業している間に世界モデルを調整したい場合、それは基本的にRLの領域であり、RLはある程度までこれに対処します。ですから、世界モデルを調整してください。そして、事前に世界モデルを調整する方法は、世界モデルが不正確であることが分かっている空間部分を探求することです。これは基本的に好奇心、または遊びと呼ばれます。遊ぶときには、現実には危険なのでやりたくない空間を探索しますが、基本的には死ぬことなく世界モデルを調整することができます。 特定のタスクを学習するときにRLを使用したい場合、すでにすべての良い表現があり、すでに世界モデルを持っていますが、目の前の状況に合わせて調整する必要がある場合、RLを使用します。
レックス・フリードマン 01:32:26
RLHFがこれほどうまく機能する理由は何だとお考えですか?この人間によるフィードバックを用いた強制学習は、なぜこれほどまでに大規模言語モデルに変革をもたらしたのでしょうか?
ヤン・ルカン 01:32:38
変革をもたらしたのは人間によるフィードバックであり、それにはさまざまな利用方法があります。中には純粋に教師あり学習のものもありますが、実際には強化学習ではありません。
レックス・フリードマン 01:32:49
強化学習ですか?
ヤン・ルカン 01:32:50
HFです。そして、人間によるフィードバックにはさまざまな方法があります。人間に世界モデルによって生成された複数の回答を評価してもらいます。次に、その評価を予測する目的関数を訓練します。そして、その目的関数を使用して回答が適切かどうかを予測し、勾配逆伝播法を使用してシステムを微調整し、評価の高い回答のみを生成するようにします。これが1つの方法であり、RLでは、いわゆる報酬モデルを訓練することを意味します。これは、基本的に、回答がどの程度良いかを推定する小さなニューラルネットワークです。
これは、先ほど私が計画についてお話しした目的と非常に似ていますが、計画には使用されず、システムの微調整に使用されます。計画に使用する方がはるかに効率的だと思いますが、現在はシステムのパラメータの微調整に使用されています。これにはいくつかの方法があり、そのうちのいくつかは教師あり学習で、人間に「これに対する良い答えは何ですか?」と尋ねます。そして、その答えを入力するだけです。 そういったシステムを調整する方法はたくさんあります。
ウォークAI
レックス・フリードマン 01:34:10
さて、最近リリースされたGoogleのジェミニ1.5に対して、多くの人が非常に批判的です。本質的には、私の言葉で言えば、その言葉の否定的な意味合いで、スーパーウォークネスと言えます。例えば、黒人のジョージ・ワシントンの画像を生成するなど、歴史を修正するような、ほとんど冗談のような馬鹿げたことをします。あるいは、もっと深刻なこととして、Twitterでコメントした天安門広場や戦車男(歴史に残る抗議運動の画像のひとつ)に関する画像や説明を拒否する、というものもあります。もちろん、これらの画像は中国政府によって厳しく検閲されています。そのため、誰もがLLMの設計プロセスについて疑問を抱くようになりました。検閲の役割とは何なのか、そういった類の疑問です。そこであなたはTwitterで、オープンソースが答えだとコメントしたのですね。
ヤン・ルカン 01:35:24
ええ。
レックス・フリードマン 01:35:25
基本的には、説明していただけますか?
ヤン・ルカン 01:35:29
私は実際に、可能な限りのあらゆるソーシャルネットワーク上でそのコメントをしましたし、さまざまなフォーラムで何度もその点を指摘してきました。 私の考えはこうです。 人々はAIシステムが偏っていると不満を訴えることができますが、一般的にAIは、学習に使用されたトレーニングデータの分布によって偏りが生じ、それは社会における偏見を反映していることが多く、一部の人々にとっては不快である可能性があり、またそうでない可能性もあります。また、偏見を排除する技術の中には、歴史的に不正確であったり、その他さまざまな理由で、一部の人々を不快にさせるものもあります。
そこで2つの質問をすることができます。最初の質問は、偏見のないAIシステムを開発することは可能か?というものです。答えは、絶対に不可能です。その理由は技術的な課題ですが、偏見は見る人によって異なるからです。多くの事柄について、何がバイアスを構成するのかについては、人によって異なる考え方があるでしょう。議論の余地のない事実もありますが、多くの意見や、さまざまな表現が可能な事柄もあります。ですから、偏りのないシステムなどあり得ません。
では、この問題に対する答えは何でしょうか?答えは、報道に関するリベラルな民主主義の考え方と同じです。報道は自由で多様であるべきです。私たちが言論の自由を享受しているのには、それなりの理由があります。それは、私たちの情報がすべて単一のソースから発信されることを望まないからです。それは民主主義の理念や進歩的な考え方、さらには科学の考え方と正反対だからです。科学では、人々は異なる意見について議論しなければなりません。人々が意見を異にし、答えを導き出してコンセンサスが形成されることで科学は進歩します。これは世界中のすべての民主主義国に当てはまることです。
すでに現実のものとなっている未来として、デジタル世界との私たちのあらゆるやり取りがAIシステム、AIの支援によって仲介されるというものがあります。スマートグラスが登場するでしょう。すでにMetaから購入できるRay-Ban Metaは、話しかけることができ、LLMと接続されており、あらゆる質問に対する回答を得ることができます。あるいは、記念碑を見ているときに、メガネに内蔵されたカメラを使って「この建物や記念碑について教えてください」と尋ねることができます。外国語のメニューを見ているときに、それを翻訳してくれるでしょうし、異なる言語を話す人同士であれば、リアルタイムで翻訳することも可能です。近い将来、デジタル世界との多くのやりとりが、こうしたシステムによって仲介されるようになるでしょう。
今後ますます、私たちが使用する検索エンジンは、単なる検索エンジンではなく、質問をすると回答が返され、さらに適切な参考情報も示してくれる対話システムになっていくでしょう。しかし、ここで問題となるのは、そのようなシステムが米国西海岸の一握りの企業から提供されるようでは困るということです。なぜなら、そのようなシステムは人類の知識の宝庫となるものであり、それを少数の人々に管理されるわけにはいかないからです。報道機関が多様でなければならないのと同じ理由で、AIも多様でなければなりません。では、多様なAIをどのようにして手に入れるのでしょうか?ベースモデル、つまり現在のところはベースLLMを訓練するには、非常に費用がかかり、困難です。将来的には異なるものになるかもしれませんが、現時点ではLLMです。ですから、これを適切に行える企業は限られています。
そして、もしトップクラスのシステムの一部がオープンソースであれば、誰もがそれを利用でき、誰もがそれを微調整できます。 もし、個人市民、市民グループ、政府機関、NGO、企業など、どのようなグループでも、オープンソースのAIシステムを入手し、自分たちの目的に合わせて自分たちのデータで微調整できるようなシステムをいくつか導入すれば、あらゆるものに特化した非常に多様性に富んだAIシステムが生まれるでしょう。
私はフランス政府とかなり話し合いましたが、フランス政府は、自国民のデジタルライフが米国西海岸の3社によって管理されることを受け入れません。それは受け入れられるものではありません。それらの企業がどれほど善意で動いているとしても、民主主義にとって危険であり、また、地域文化や価値観、言語にとっても危険です。私はインドのインフォシス社の創設者と話をしていました。彼は、メタ社が開発したオープンソースモデルである「Llama 2」を、インドの22の公用語すべてに対応するように調整するプロジェクトに資金援助しています。これはインドの人々にとって非常に重要なことです。私は、かつての同僚のムスタファ・シセと話をしていました。彼はかつてフェアの科学者でしたが、アフリカに戻り、アフリカでGoogleの研究所を立ち上げ、現在は新しいスタートアップ企業Co-Keraを立ち上げました。
彼がやろうとしていることは、セネガルで現地の言語を話す法学修士号取得者を育成し、人々が医療情報にアクセスできるようにすることです。なぜなら、セネガルでは人口当たりの医師数が非常に少ないからです。オープンソースプラットフォームがなければ、このようなことは何もできません。オープンソースプラットフォームがあれば、政治的意見やその他の点で多様性のあるAIシステムを構築できます。
ヤン・ルカン 01:42:00
政治的な意見やその類の多様性だけでなく、言語、文化、価値体系、政治的な意見、さまざまな領域における技術的能力の観点でも多様性のあるAIシステムを構築できます。また、産業分野における垂直的なアプリケーション向けに、それらのオープンソースシステムを微調整する企業からなる産業、エコシステムを構築することもできます。例えば、出版社には何千もの書籍がありますが、顧客がそのいずれかの書籍の内容について質問できるシステムを構築したいと考えているとします。その場合、独自のデータをトレーニングする必要があります。企業には、メタマートと呼ばれる、社内のあらゆる質問に回答できるLLM(法学修士)が基本的に必要です。これは非常に有用です。
多くの企業がこれを求めています。多くの企業が、従業員だけでなく顧客に対しても、顧客対応のためにこれを求めています。ですから、AI産業が発展し、偏りのないAIシステムが構築される唯一の方法は、あらゆるグループが専門システムを構築できるオープンソースプラットフォームを構築することです。ですから、歴史の必然的な方向性として、AIシステムの大部分はオープンソースプラットフォーム上に構築されることになるでしょう。
レックス・フリードマン 01:43:28
素晴らしいビジョンですね。つまり、MetaやGoogleのような企業は、基礎となる事前学習済みモデルを構築した後、最小限の微調整ステップだけを行うべきだということですね。
オープンソース
ヤン・ルカン 01:43:47
基本的には。
レックス・フリードマン 01:43:49
Metaはそれを実行する余裕があるのでしょうか?
ヤン・ルカン 01:43:51
いいえ。
レックス・フリードマン 01:43:51
ですから、ご存知かどうかは分かりませんが、企業はなんとかしてお金を稼がなければなりません。オープンソースはただで提供しているわけですから…。マークがビデオを作りました。マーク・ザッカーバーグです。とてもセクシーなビデオで、35万台のNvidia H100について語っています。
ヤン・ルカン 01:44:12
ええ、[聞き取れません 01:44:12]
レックス・フリードマン 01:44:13
その計算はGPUのみで、トレーニング用のインフラストラクチャをすべて含めると1000億ドル以上になります。私はビジネスマンではありませんが、どうやってそのお金を稼ぐのですか?あなたが描いた部門は非常に強力なものですが、どうやって収益を上げるのでしょうか?
ヤン・ルカン 01:44:32
そうですね、いくつかのビジネスモデルがあるということですね?
レックス・フリードマン 01:44:36
ええ。
ヤン・ルカン 01:44:36
メタが構築しているビジネスモデルは、サービスを提供し、そのサービスの資金調達を広告またはビジネス顧客を通じて行うというものです。例えば、WhatsAppを通じて顧客と会話することで個人経営のピザ店を支援できる法学修士号(LLM)を持っているとします。顧客はピザを注文するだけで、システムが「トッピングは何にしますか?サイズは?」などと尋ねます。ビジネスがその費用を負担します。それがモデルです。それ以外にも、より古典的なサービスに搭載されているシステムであれば、広告でサポートされるか、いくつかのモデルがあります。しかし、重要なのは、潜在的な顧客基盤が十分に大きく、その顧客のためにシステムを構築する必要がある場合、オープンソースで実際に配布しても損にはならないということです。
レックス・フリードマン 01:45:43
繰り返しになりますが、私はビジネスマンではありませんが、オープンソースモデルをリリースすれば、他の人々も同じような作業を行い、競争することができます。基本的には、ビジネス向けに微調整されたモデルを提供することになります。
ヤン・ルカン 01:45:57
確かに。
レックス・フリードマン 01:45:59
ところで、私はこれらすべての大ファンですが、メタが賭けているのは、「我々の方がより良い仕事をする」というようなことですか?
ヤン・ルカン 01:46:05
いいえ、違います。賭けているのは、もっと「すでに膨大なユーザーベースと顧客ベースを持っている」ということです。
レックス・フリードマン 01:46:13
ああ、そうですね。
ヤン・ルカン 01:46:14…
彼らにとって有益なものになるでしょう。 私たちが彼らに提供するものは何であれ有益なものになるでしょうし、そこから収益を得る方法もあります。
レックス・フリードマン 01:46:21
確かに。
ヤン・ルカン 01:46:22
そのシステムや基本モデル、つまりオープンソースの基盤モデルを他社にも提供して、その上にアプリケーションを構築してもらうのは悪いことではありません。 そうしたアプリケーションが当社のお客様にも有用であることが判明すれば、それらを当社が購入すればいいのです。 そうした方々がプラットフォームを改善してくれる可能性もあります。 実際、すでにそのようなことが起きています。LLaMA 2は文字通り何百万回もダウンロードされ、何千人もの人々が、それをより良くするためのアイデアを提供しています。 ですから、このことは、システムを幅広いコミュニティの人々に利用可能にするための進歩を明らかに加速させます。 そして、このシステムでアプリケーションを構築している企業は文字通り何千社もあります。 ですから、この技術から収益を得るメタの能力は、ベースモデルがオープンソースで配布されることによって損なわれることはありません。
AIとイデオロギー
レックス・フリードマン 01:47:26
ジェミニが受けている根本的な批判は、あなたが指摘しているように、西海岸で起きているものです。現在、私は東海岸にいますが、おそらくメタAIの本社は西海岸にあるでしょう。西海岸について厳しい意見がありますが、問題は、ほとんどの技術者は左翼に政治的所属意識を持っていると言って差し支えないと思います。彼らは左寄りです。ジェミニを批判する人々が問題視しているのは、あなたが言及したバイアス除去プロセスにおいて、彼らのイデオロギー的傾向が明らかになることです。これは回避できるのでしょうか?オープンソースが唯一の方法だということですね。
ヤン・ルカン 01:48:17
はい。
レックス・フリードマン 01:48:17
エンジニアリングを困難にする、このようなイデオロギー的な傾向を目の当たりにしたことがありますか?
ヤン・ルカン 01:48:22
いいえ、私はその問題が、それらのシステムを設計する人々の政治的傾向と関係があるとは思いません。それは、顧客基盤や視聴者の受容性や政治的傾向と関係があります。ですから、大企業はあまり多くの人を怒らせるわけにはいきません。ですから、どのような製品であれ、それが何を意味するにせよ、安全であることを確認しようとするのです。やり過ぎる可能性は十分にありますし、すべての人に対して適切に対応することは不可能です。すべての人を満足させることはできないのです。ですから、前に申し上げたように、すべての人から公平だと見なされるシステムはあり得ないのです。ある方向に押し進めれば、ある人々からは偏っていると見なされますし、別の方向に押し進めれば、別のグループからはまた偏っていると見なされます。さらに、システムをある方向に偏らせすぎると、事実と異なるものになってしまうという問題もあります。黒人ナチスの軍服を着た兵士が出てきてしまうでしょう。
レックス・フリードマン 01:49:31
ええ、黒人ナチスの軍服を着た兵士の画像生成について言及する必要があります。それは事実と一致しません。
ヤン・ルカン 01:49:38
その通りで、一部の人々にとっては不快なものでもあります。ですから、万人にとって公平なシステムを作り出すことは不可能でしょう。ですから、私が唯一見出す解決策は多様性です。
レックス・フリードマン 01:49:53
多様性という言葉の持つ意味のすべてにおいて、あらゆる方法での多様性です。
マーク・アンドリーセン
ヤン・ルカン 01:49:57
ええ
レックス・フリードマン 01:49:59
マーク・アンドリーセンは今日ツイートしました。 TL;DRをさせてください。結論は、彼が大手テクノロジー企業について強調している問題を回避できるのは、スタートアップとオープンソースだけだということです。彼は「大手テクノロジー企業は実際に生成型AI製品を開発できるのか?」と問いかけています。(1) 内部活動家、従業員暴徒、狂気じみた重役、機能不全に陥った取締役会、圧力団体、過激な規制当局、政府機関、報道機関、引用符付きの「専門家」、そしてアウトプットを台無しにするあらゆるものからの、エスカレートし続ける要求。 (2) どんなことを言うか、どんな行動に出るか分からない相手に対して、悪い答えを出したり、悪い絵を描いたり、悪い動画をレンダリングしたりするリスクが常に存在すること。(3) 法的責任、製造物責任、中傷、選挙法、その他多くのものなど、議会を怒らせるようなもの。 (4) 許容されるアウトプットの管理を強化しようとする継続的な試み、モデルの劣化、実際の性能、使用可能で使いやすく、効果的であるかなど、あらゆる面での劣化。 (5) 質の悪いテキスト、画像、動画が公表されることで、それらの例が次のバージョンのトレーニングデータに実際に組み込まれることになります。 このように、あらゆる人々が不満を抱くことで、これがどれほど難しいことなのかが浮き彫りになります。 彼は、誰もが満足するシステムを作ることはできないと述べています。
ヤン・ルカン 01:51:24
はい。
レックス・フリードマン 01:51:25
つまり、もしあなたが自分で微調整を行い、ソースコードをクローズドに保つのであれば、基本的に、そこで問題となるのは、不幸になる人の数を最小限に抑えることです。
ヤン・ルカン 01:51:36
そうですね。
レックス・フリードマン 01:51:38
それはほとんど不可能だと言っているのですね。オープンソースには、より良い方法があります
ヤン・ルカン 01:51:45
基本的には、その通りです。マークが挙げた多くの点については、確かに大企業を不安にさせるものです。確かに、議会による調査や法的責任、人々が自らを傷つけたり他人を傷つけたりするようなものを作ることは、その一つです。大企業は、まず第一に誰も傷つけたくないという理由から、そして第二に自社のビジネスを守りたいという理由から、このような種類のものを生産しないよう本当に慎重です。ですから、政治的な意見や、政治的なものかどうかは別として、人々が意見を異にするようなさまざまな事柄についての意見、道徳的な問題や宗教に関する疑問、あるいはそもそも異なるコミュニティの人々が意見を異にするような文化的な問題など、必然的に形成されてしまうようなシステムは、本質的に不可能なのです。人々が同意する基本原則は比較的少数に限られますが、それ以上に、もしそのシステムが有用であることを望むのであれば、必然的に多くの人々を不快にさせることになるでしょう。
レックス・フリードマン 01:53:09
オープンソースはより優れているので、そして、あなたは…
ヤン・ルカン 01:53:11
多様性はより優れている、ですね?
レックス・フリードマン 01:53:13
そして、オープンソースは多様性を可能にします。
ヤン・ルカン 01:53:15
その通りです。オープンソースは多様性を可能にします。
レックス・フリードマン 01:53:18
オープンソースの世界で、もしメタが先導してこのオープンソースの基盤モデルの世界を創り出すのであれば、それは素晴らしい世界になるでしょう。政府は優れたモデルを持ち、左派や右派の有権者もそれぞれ独自のモデルや好みを持って選択できるようになるでしょう。そうなれば、私たちはさらに分裂する可能性もあります。しかし、それは私たち人間の問題です。私たちは基本的に、テクノロジーが人間同士のコミュニケーションをより効果的にすることを理解しなければなりません。そして、人間が提起する難しい倫理的な問題は、私たち自身が解決策を見出すしかありません。
ヤン・ルカン 01:54:02
ええ、限界はあります。言論の自由にも限界があるのと同じです。システムが生成することを許可される内容には、何らかの制限、つまりガードレールが必要です。ですから、私が興味を持っているのは、以前に議論したアーキテクチャの種類で、システムの出力が目的を満たすための推論の結果である場合、その目的にはガードレールを含めることができ、オープンソースシステムにガードレールを設置することができます。最終的にこの青写真に基づいて構築されたシステムがあれば、そのシステムにガードレールを設置し、システムを危険でなく、有害でもないものにするための最小限のガードレールを保証することができます。その他にも、誰もが同意する基本的なものがあります。そして、人々が追加する微調整やガードレールは、それが何であれ、そのコミュニティに適合するでしょう。
レックス・フリードマン 01:55:06
その微調整は、ヘイトスピーチとは何か、何が危険なのか、そういったグレーゾーンについてより多くを占めるでしょう。しかし、それは
ヤン・ルカン 01:55:12
あるいは異なる価値観です。
レックス・フリードマン 01:55:13
やはり価値観の問題です。しかし、例えば生物兵器をどうやって製造するかという目的であっても、あなたがコメントしたこと、あるいは少なくとも研究者のグループがLLMの社会的影響を理解しようとしている論文があります。LLMはGoogle検索よりも簡単にできるのでしょうか?
ヤン・ルカン 01:55:39
その通りです。この問題に関する研究が増えていることから、LLMは役に立たないという事実を指摘しているように思えます。検索エンジンやそのライブラリにすでにアクセスできる場合、LLMを取得しても生物兵器や化学兵器の設計や製造に役立つわけではありません。つまり、入手できる情報が増えたり、入手が容易になったりしても、それ自体はあまり役に立たないということです。これが第一点目です。2つ目は、例えば化学兵器や生物兵器の製造方法のリストがあるということです。実際に製造するのはまた別の問題であり、想像以上に難しいことです。LLMでは役に立ちません。
実際、世界中の誰も、国でさえも生物兵器を使用していません。なぜなら、ほとんどの場合、自国民を生物兵器から守る方法がわからないからです。ですから、実際に使用するのはあまりにも危険であり、実際、国際条約で禁止されています。化学兵器は違います。化学兵器も条約で禁止されていますが、同じ問題があります。加害者に不利にならない状況で使用するのは難しいですが、イーロン・マスクに聞いてみるのはどうでしょうか。ロケットエンジンをどうやって作るか、非常に正確な指示リストをあげることができます。たとえ50人の経験豊富なエンジニアのチームがいたとしても、実際に機能するエンジンを完成させる前に、そのうちの1ダースは爆発してしまうでしょう。化学兵器や生物兵器など、この手のものも同じです。法学修士号では役に立たない、現実世界での専門知識が必要なのです。
レックス・フリードマン 01:57:25
私たちがこれまで話してきたような常識的な専門知識さえ必要です。言語ベースの指示を物理的世界で実現するには、指示には書かれていない多くの知識が必要です。
ヤン・ルカン 01:57:41
ええ、その通りです。多くの生物学者が、これに反応して実際に投稿しています。「研究室での作業を実際にやるのがどれほど大変か、わかっているのか?」といった具合です。「いや、これは些細なことではない」といった具合です。
ラマ3
レックス・フリードマン 01:57:51
ええ、そしてハンス・モラベックが再び脚光を浴びています。LLaMAについてもう少し触れておくと、マークがLLaMA 3がいずれリリースされると発表しました。リリース日はまだ決まっていないと思いますが、一番期待していることは何でしょうか? まず、すでにリリースされているLLaMA 2と、将来リリースされるであろうLLaMA 3、4、5、6、10、そしてMetaのオープンソースの将来についてでしょうか?
ヤン・ルカン 01:58:17
そうですね、いくつかあります。以前のLLaMAの改良版として、より大きく、より良く、マルチモーダルなど、さまざまなバージョンのLLaMAが登場するでしょう。そして、将来の世代では、世界がどのように機能しているかを本当に理解し、計画を立てることができるシステムが登場するでしょう。おそらく、ビデオから学習し、私が先ほどお話したような推論や計画を立てることができる世界モデルをいくつか備えているでしょう。それにはどれくらいの時間がかかるのでしょうか?その方向性での研究がLLaMAの製品ラインにフィードバックされるのはいつ頃になるのでしょうか? わかりません。お答えできません。そこに到達するには、基本的にいくつかのブレークスルーを経験する必要がありますが、私たちは研究結果を公表しているので、私たちの進歩をモニターしていただけるでしょう。先週、私たちはV-JEPAの研究結果を公表しました。これは、ビデオのトレーニングシステムに向けた第一歩です。
そして次のステップは、ビデオからのこの種のアイデア学習に基づく世界モデルになるでしょう。DeepMindでも同様の研究が行われており、またカリフォルニア大学バークレー校でも世界モデルとビデオに関する研究が行われています。多くの人々がこの研究に取り組んでいます。多くの優れたアイデアが生まれていると思います。私の予想では、これらのシステムはJEPAライトになるでしょう。生成モデルにはならないでしょう。そして、将来どうなるかはまだわかりません。本当に素晴らしい仕事があります。現在DeepMindに所属するダニジャー・ハフナーという紳士は、表現を学習し、それを計画や強化訓練による学習タスクに利用する、このタイプのモデルに取り組んできました。また、ピーター・アビール、セルゲイ・レヴィーン、その他多くの同様の研究者がバークレーで多くの研究を行っています。私は、ニューヨーク大学の教授として、いくつかの助成金を得て、彼らと実際に共同研究を行っています。
また、バークレーの研究所はメタ社と何らかの形で提携しているため、フェアウェイ社との共同作業も行っています。 ですから、非常にエキサイティングだと思います。 機械学習とAIの方向性についてこれほど興奮したのは、フェアウェイ社を設立した10年前以来です。 それ以前の30年前には、組み合わせネットや初期のニューラルネットに取り組んでいました。ですから、世界を理解し、記憶し、計画を立て、推論できるシステムによって、人間レベルの知能に達する可能性がある道筋が見えてきたことに、私は非常に興奮しています。そこには、うまくいく可能性のある進歩のためのアイデアのセットがあり、私はこのことについて非常に興奮しています。私が気に入っているのは、ある程度良い方向に向かっており、おそらく私の脳が白濁する前に、あるいは私が引退する必要がなくなる前に成功するだろうということです。
レックス・フリードマン 02:01:28
ええ、ええ。GPUの数や、これだけのコンピューティング能力を使ったトレーニングプロセス全体が美しいと思いませんか。地球と人間を一緒に見て、これらのコンピューティングデバイスを構築し、この1つの脳をトレーニングすることができ、その後、オープンソース化し、この巨大なコンピューティングシステムでトレーニングされたオープンソースの脳を生み出すようなものです。インフラやハードウェアの構築、冷却など、そういったことの詳細についてです。それとも、まだほとんどがソフトウェアという理論的な側面で興奮されているのでしょうか?
ヤン・ルカン 02:02:19
私は何年も前にハードウェアの専門家でした。
レックス・フリードマン 02:02:21
はい。はい、その通りです。
ヤン・ルカン 02:02:22
何十年も前のことです。
レックス・フリードマン 02:02:23
ハードウェアは少し改善しました。
ヤン・ルカン 02:02:26
少しです。
レックス・フリードマン 02:02:27
少し、そうですね。
ヤン・ルカン 02:02:28
確かに、規模は必要ですが、十分ではありません。
レックス・フリードマン 02:02:32
その通りです。
ヤン・ルカン 02:02:32
ですから、競争は確かに必要です。 私たちは、人間の脳の演算能力に匹敵するコンピューティングパワーを実現するには、まだ程遠い状況です。 今後数十年のうちに実現するかもしれませんが、まだしばらくはかかりそうです。 確かに、電力効率という点では、私たちは本当に遠く離れています。ですから、ハードウェアには多くの進歩が必要です。現在、多くの進歩はシリコン技術から生まれていますが、その多くはアーキテクチャの革新から、そしてかなりの部分は、トランスフォーマーと通信網の組み合わせなど、普及しているアーキテクチャをより効率的に実装する方法から生まれています。新しい原理、新しい製造技術、おそらく異なる原理に基づく新しい基本コンポーネント、そして古典的なデジタル技術をベースとしたものが必要になるでしょう。
レックス・フリードマン 02:03:42
興味深いですね。AMIを構築するには、ハードウェアの革新も必要になる可能性があると?
ヤン・ルカン 02:03:52
そうですね、ユビキタスにしたいのであれば、確かにそうです。なぜなら、電力消費量を削減しなければならないからです。現在のGPUは0.5キロワットから1キロワットです。人間の脳は25ワット程度で、GPUは人間の脳の消費電力よりもはるかに下回っています。GPUに匹敵するには10万から100万のGPUが必要で、ここには大きな隔たりがあります。
AGI
レックス・フリードマン 02:04:21
よく「汎用人工知能はすぐには実現しない」とおっしゃっていますが、つまり今年、あるいは今後数年間ではなく、実現はもっと先になる可能性があるということですね。そのことについて、基本的な直感をお聞かせください。
ヤン・ルカン 02:04:35
まず第一に、それはイベントにはならないでしょう。SFやハリウッド映画によって一般に広まった考え方ですが、何者かがAGIや人間レベルのAI、またはAMI(呼び方は何でも結構です)の秘密を解明し、マシンを起動すればAGIが手に入る、というようなことが起こるわけではありません。イベントにはならないでしょう。徐々に進歩していくでしょう。ビデオから世界の仕組みを学び、優れた表現方法を学習できるシステムが実現するでしょうか? ええ。人間に見られるような規模と性能を実現するには、まだしばらく時間がかかりそうです。 1日で実現するものではありません。 膨大な関連記憶を持つことで、さまざまなことを記憶できるシステムが実現するでしょうか? ええ、でも同じように、明日には実現しないでしょう。開発すべき基本的な技術はいくつかあります。 私たちは多くの技術を持っていますが、それらをフルシステムで連携させるのはまた別の話です。
以前私が説明したような、目的主導型AIアーキテクチャに沿った推論や計画を立てられるシステムができるでしょうか? ええ、でも、それがきちんと機能するようになるまでには、まだしばらく時間がかかります。 それらすべてが連携するようになる前に、さらにその上に、 階層的計画、階層的表現を学習できるシステム、人間の脳のように、さまざまな状況に合わせて構成できるシステムなど、これらすべてを実現するには少なくとも10年はかかり、おそらくそれ以上かかるでしょう。なぜなら、私たちはまだ遭遇していない、この枠組みの中で簡単に解決できるかどうか分からない問題が数多くあるからです。つまり、すぐそこにあるわけではないのです。私は過去12年、15年ほど、AGIはすぐそこにあると主張する人々の話を聞いてきましたが、彼らは系統的に間違っています。彼らがそう言っている時点で、私は彼らが間違っていると知っていました。私は彼らのデタラメを否定しました。
レックス・フリードマン 02:06:38
まず第一に、人工知能という言葉が生まれたときから、おそらく他のテクノロジーとは異なり、永遠の楽観主義がありました。モラベックのパラドックス、つまり、人々がAGIに対してなぜそれほど楽観的であるのかを説明できるでしょうか?
ヤン・ルカン 02:06:57
モラベックのパラドックスだけではないと思います。モラベックのパラドックスは、世界が私たちが考えているほど簡単ではないと気づいた結果です。まず第一に、知性は直線的なものではなく、物差しや数字で測れるものではありません。人間がオランウータンよりも賢いと言えるでしょうか? ある意味ではイエスですが、別の意味では、オランウータンは人間よりも賢く、森の中で生き延びるために役立つ多くの能力を持っています。
モラベックのパラドックス(Moravec’s paradox)は、人工知能と知覚・運動スキルに関する興味深い現象である。このパラドックスは、コンピュータ科学者のハンス・モラベック(Hans Moravec)によって提唱された。
モラベックのパラドックスの核心は次のとおりです:
「高度な推論など人間にとって難しいと思われる知的作業は、コンピュータにとって比較的簡単であるのに対し、感覚運動スキルなど人間や動物が無意識に行っている基本的な知覚や運動能力は、コンピュータにとって非常に難しい」
言い換えれば:
- チェスや数学的計算などの「高次」認知タスクは、AIにとって比較的容易に実装できる
- 物体認識、自然な動き、日常会話などの「低次」の感覚運動スキルは、AIにとって非常に難しい課題となる
この現象は、進化の過程で考えると理解しやすくなる。人間の感覚運動システムは何億年もの進化によって洗練されていたが、論理的思考や数学などの高次の認知能力は比較的新しく発達したものである。
これは「進化的に古い能力ほどAIにとって再現が難しい」という洞察につながる。実際、人間は歩いたり物体を認識したりする方法を明示的に説明することは難しいが、数学や論理の規則は明確に定式化できる。
近年のディープラーニングの進歩により、このパラドックスの一部は解消されつつあるが、人間のような一般的な知能と運動能力を備えたロボットの開発は依然として大きな課題となっている。
レックス・フリードマン 02:07:26
IQは知能を測る非常に限定的な尺度です。人間の知能は、例えばIQが測るものよりも大きいのです。
ヤン・ルカン 02:07:33
まあ、IQは人間についておおよそのことは測れますが、人間は比較的均一な形態をしているからですよね?
レックス・フリードマン 02:07:49
ええ。
ヤン・ルカン 02:07:50
しかし、それはある種のタスクには関連するかもしれませんが、他のタスクには関連しない能力の一種を測定しているに過ぎません。 しかし、もしあなたが、基本的なことが容易にできる他の知的存在について話しているのなら、それは何の意味も持ちません。 つまり、知性とは、スキルの集合であり、新しいスキルを効率的に習得する能力なのです。特定の知的存在が有している、あるいは素早く学習できるスキルの集合は、別の存在のスキルの集合とは異なります。 スキルセットは多次元的なものですから、高次元空間であり、測定することはできません。 2つのものを比較して、どちらがより知的であるかを判断することはできません。 多次元的なのです。
AI終末論者
レックス・フリードマン 02:08:48
あなたは、いわゆるAI悲観論者たちに強く反論していますね。彼らの見解を説明し、なぜ彼らの考えが間違っていると思うのかを説明していただけますか?
ヤン・ルカン 02:08:59
さて、AI悲観論者たちは、AIがどのようにして制御を逃れ、私たちを基本的に皆殺しにするかという、あらゆる種類のカタストロフィのシナリオを想像しています。そして、それはほとんどが誤っている、多くの仮定に基づいています。最初の仮定は、超知能の出現は、ある時点でその秘密を解明し、超知能のマシンを起動させるという出来事になるだろうというものです。そして、これまで誰もやったことがないため、それが世界を支配し、私たち全員を殺すだろうというものです。これは誤りです。出来事にはなりません。猫と同じくらい賢いシステム、人間レベルの知能の特性をすべて備えたシステムが生まれるでしょう。しかし、その知能レベルは猫やオウム、あるいはそれと同じくらいでしょう。そして、私たちはそれらのシステムをより賢くしていくでしょう。より賢くしていくと同時に、それらのシステムにガードレールを設置し、適切に動作させる方法を学んでいくでしょう。
これは一度の取り組みではなく、多くの人々によって行われるものであり、その中には制御可能で安全な、適切なガードレールを備えたインテリジェントなシステムを作ることに成功する人もいるでしょう。もし他のシステムが暴走した場合は、良いシステムを使って暴走したシステムに対抗することができます。つまり、私のスマートAI警察があなたの暴走AIに対抗するということです。つまり、私たちが単一の反逆的なAIにさらされて、それが私たち全員を殺すというようなことは起こりません。そんなことは起こりません。さて、もう一つの誤謬があります。それは、システムがインテリジェントであるがゆえに、必ず支配を望むという事実です。これに人々が恐怖を抱く理由はいくつかありますが、それらも完全に誤りであると私は思います。
その理由のひとつは、より知的な種は、そうでなければ他の種を支配してしまうということのようです。時には意図的に、時には単なるミスによって、他の種を区別することさえあるようです。ですから、「AIシステムが私たちよりも知能が高いのであれば、意図的にではなくても、単に私たちを気にかけていないという理由で、私たちを排除するに違いない」という考え方があります。しかし、それは多くの理由からとんでもないことです。第一の理由は、AIは種として存在するわけではないということです。AIは私たちと競合する種になるわけではありません。AIが支配欲を持つことはあり得ません。なぜなら、支配欲はインテリジェントシステムに組み込まれているものだからです。人間には組み込まれています。ヒヒやチンパンジー、オオカミにも組み込まれていますが、オランウータンには組み込まれていません。支配したり服従したり、あるいは他の方法で地位を得ようとするこの欲求は、社会的な種に特有のものです。オランウータンのような非社会的な種にはありません。彼らは私たちとほぼ同等の知能を持っていますよね?
レックス・フリードマン 02:12:09
あなたにとって、人間がAIシステムにそれをエンコードするインセンティブはそれほど大きくないでしょう。そして、彼らがそれを実行する程度には、彼らを罰する他のAIが存在するでしょう。私はそれについて彼らと競争します。
ヤン・ルカン 02:12:23
まあ、AIシステムを人間に従順にするインセンティブはあらゆる種類あります。
レックス・フリードマン 02:12:26
その通りです。
ヤン・ルカン 02:12:27
そうですね? これが私たちが構築しようとしている方法です。 すると人々は「でも、LLMを見てくれ。 LLMは制御できない」と言います。 彼らは正しいです。 LLMは制御できません。 しかし、客観的に駆動されるAI、つまり、客観的な最適化によって答えを導き出すシステムは、この客観的な最適化を行う必要があります。1つのガードレールは、「人間に従う」ことです。もう1つのガードレールは、「限界内で他の人間を傷つけるのであれば、人間に従わない」ことです。
レックス・フリードマン 02:12:57
その通りです。どこかで聞いたことがあります。
ヤン・ルカン 02:12:59
はい、おそらく本で読んだことがあると思います。
レックス・フリードマン 02:13:01
ええ、でもその本について言えば、これらすべてから意図せざる結果が生じる可能性もあるのでしょうか?
ヤン・ルカン 02:13:09
いいえ、もちろん。これは単純な問題ではありません。システムが適切に動作するようにガードレールを設計することは、システムが安全であることを数学的に証明する銀の弾丸のような単純な問題ではありません。それは、システムが適切に動作するようにガードレールを配置する、非常に進歩的で反復的な設計システムになるでしょう。時にはガードレールが適切でなかったために予期せぬことが起こるでしょうが、それを修正して適切に動作するようにします。 少し間違えただけで死んでしまうかもしれないので、少しの間違いも許されないという考え方は馬鹿げています。 私たちはただ進歩していくだけです。何度も例に挙げたターボジェットの設計がまさにそうです。 ターボジェットを信じられないほど信頼性の高いものにするにはどうすればよいか、私たちはどのようにして考え出したのでしょうか?
ターボジェットは、非常に複雑なハードウェアであり、時には20時間もの間、非常に高温で稼働します。 そして、2つのエンジンを搭載したジェット旅客機で音速に近い速度で地球の裏側まで飛ぶことができるのです。 これほど信じられないようなことがあるでしょうか? 信じられないことです。ターボジェットを安全にするための一般的な原則を発明したから、このようなことが実現したのでしょうか? いいえ、そうではありません。 それらのシステムを安全にするために、何十年もかけて設計を微調整する必要がありました。 ゼネラル・エレクトリック社やスネクマ社など、ターボジェットの安全性を専門とするグループは存在するのでしょうか? いいえ、存在しません。 ターボジェットの設計はすべて安全性を重視したものです。なぜなら、優れたターボジェットはより安全なターボジェットであり、より信頼性の高いものだからです。 人工知能についても同じことが言えます。AIを安全にするために特別な対策が必要でしょうか? いいえ、より優れたAIシステムを作る必要があり、より有用で制御しやすいように設計されているため、安全になります。
レックス・フリードマン 02:15:16
では、信じられないほど説得力があり、何でも信じ込ませることができるAIシステムを想像してみましょう。少なくとも私はそのようなシステムを想像できますし、そのようなシステムが人の心を操ることができるため、武器になり得ることも理解しています。私たちはかなり騙されやすいものです。何かを信じたいと思うと、それを制御するAIシステムが存在し、政府がそれを武器として使用しているのを目にすることができます。では、そのようなシステムを想像した場合、核兵器のようなものに類似する部分があると思いますか?
ヤン・ルカン 02:15:53
いいえ。
レックス・フリードマン 02:15:56
その技術はなぜ異なるのでしょうか? つまり、徐々に発展していくということですか?
ヤン・ルカン 02:16:01
ええ。
レックス・フリードマン 02:16:03
そうかもしれません。
レックス・フリードマン 02:16:00
徐々に発展していくでしょう。急速に発展していくかもしれませんが、反復的なプロセスを経て、私たちはそれに対応できるようになるでしょう。
ヤン・ルカン 02:16:09
ウラジーミル・プーチンやその他、あるいは彼の手下たちが設計したAIシステムが、全米民に話しかけ、投票するように説得しようとするでしょう。
レックス・フリードマン 02:16:25
誰でもいいんです。
ヤン・ルカン 02:16:25
…プーチンが満足する人なら誰でもいいんです。
レックス・フリードマン 02:16:28
確かに。
ヤン・ルカン 02:16:30
あるいは、彼らがこれまで試みてきたように、人々を互いに敵対させたりするでしょう。彼らはあなたと話すのではなく、あなたのAIアシスタントと話すでしょう。なぜなら、私が言ったように、未来では、デジタル世界とのあらゆるやり取りが、あなたのAIアシスタントによって仲介されるからです。ですから、まず最初に尋ねるのは、「これは詐欺なのか?これは真実を語っているのか?」ということでしょう。AIシステムまたはAIシステムとしか会話できないため、あなたに届くことすらありません。スパムフィルターのようなものです。スパムメールは、あなたには見えないフォルダに自動的に振り分けられます。同じことが起こるでしょう。あなたを説得しようとするAIシステムは、少なくともそれと同じくらい賢いAIアシスタントと会話することになり、AIアシスタントは「これはスパムです」と言うでしょう。あなたの注意を引くことすらありません。
レックス・フリードマン 02:17:32
ですから、あなたにとって、AIシステムが他のAIシステムさえも納得させるような大きな飛躍を遂げることは非常に難しいことなのです。常にこのような競争が起こり、誰も先を行くことはできないでしょう。
ヤン・ルカン 02:17:46
それが世界の歴史です。世界の歴史は、どこかで進歩が起こるたびに、それに対抗する手段が現れ、いたちごっこの繰り返しです。
レックス・フリードマン 02:17:58
ほとんどはそうですが、だからこそ核兵器は興味深いのです。なぜなら、それは非常に強力な兵器であり、どちらが先に手に入れるかが重要だったからです。ヒトラー、スターリン、毛沢東が先に手に入れることを想像できます。そして、米国が先に手に入れることとは異なる種類の影響が世界に及ぶでしょう。しかし、あなたにとって、核兵器は画期的な発見やマンハッタン計画のようなAIへの取り組みを想像させないのでしょうか?
ヤン・ルカン 02:18:35
いいえ。いいえ、先ほども申し上げたとおり、それはイベントにはなりません。継続的な進歩となるでしょう。そして、ひとつの画期的な進歩が起こるたびに、それは本当にすぐに広く普及するでしょう。
レックス・フリードマン 02:18:48
ええ。
ヤン・ルカン 02:18:48
おそらく業界内で最初に起こるでしょう。政府や軍事組織が特に革新的な分野ではありませんし、実際、かなり遅れています。ですから、これは業界から出てくるでしょうし、この種の情報の拡散は非常に速いものです。ここ数年で、新しいものが登場すると、アルファ碁を例にとっても、特に詳細な情報なしでも3か月以内に再現されていましたよね?
レックス・フリードマン 02:19:18
ええ。この業界は秘密主義ではありません。しかし、人々は[聞き取れず 02:19:22]
ヤン・ルカン 02:19:21
いいえ。しかし、たとえそうであったとしても、何かが可能だということを知っているという事実だけで、実際にそれをやるために時間を投資する価値があることに気づきます。あなたが2番目にそれをやる人になるかもしれませんが、あなたはそれをやるでしょう。トランスフォーマーにおける自己管理、デコーダー専用アーキテクチャ、LLMSなどのイノベーションについても同様です。それらの技術については、それが可能であることを知るために、その仕組みを正確に詳細に知る必要はありません。なぜなら、それらはすでに実装され、再現されているからです。そして、それらの企業で働く人々が転職します。彼らは企業から企業へと移り、情報が広まっていきます。米国のテクノロジー業界、特にシリコンバレーの成功の要因は、まさにこの情報循環が非常に速く、広まるのが非常に速いことです。そして、この情報循環のおかげで、この地域全体が先を行っているのです。
レックス・フリードマン 02:20:24
AIの悲観論者の心理についてもう少し触れておきましょう。あなたは、ヤン・ルカン流の典型的なやり方で、新しいテクノロジーが登場した際のエンジニアの典型的な反応をうまく例示しています。「私はこの新しいものを発明しました。ボールペンと呼びます」とエンジニアが言うと、Twitter界は「OMG、人々はそれを使って恐ろしいことを書くことができます。誤情報、プロパガンダ、ヘイトスピーチなどです。今すぐ禁止すべきです」と反応します。すると、AIの終焉論者たちに似た「ボールペンが普及したらどうなるか想像してみてください。社会が破壊されてしまうかもしれません。ボールペンでヘイトスピーチを書くことを禁止する法律を制定し、ボールペンを規制すべきです」という書き込みが現れます。すると、鉛筆業界の大立者が「ええ、ボールペンは非常に危険です。鉛筆で書いた文字は消すことができますが、ボールペンで書いた文字は永遠に残ってしまいます。政府はペン製造業者にライセンスを義務付けるべきです」と発言します。これは、新しいテクノロジーに直面した際の人間の心理の一面であるように思えます。このことについて、どのような深い洞察をお持ちでしょうか?
ヤン・ルカン 02:21:37
そうですね、新しいテクノロジーやそれが社会に与える影響に対して、自然な恐怖心があるのは確かです。人々は、文化的な現象であれ技術的な革命であれ、自分たちが知っている世界が大きな変化によって脅かされることに本能的な反応を示します。そして、人々は自らの文化、仕事、子供たちの将来や生活様式を心配します。ですから、どんな変化も恐れられるのです。歴史を振り返ってみても、どんな技術革命や文化現象にも、その変化が社会のあらゆる問題の原因であると主張する反対派がメディアを通じて現れていました。電気はいつか人々を殺すだろう。列車は恐ろしいものになるだろう。時速50キロを超えると呼吸ができなくなるからだ。だから、「ペシミスト・アーカイブ」という素晴らしいウェブサイトがあるんです。
レックス・フリードマン 02:22:56
素晴らしいですね。
ヤン・ルカン 02:22:57
技術革新や文化現象によってもたらされると人々が想像する恐ろしい出来事に関する新聞記事の切り抜きがすべて載っています。素晴らしい例として、失業や若者の労働意欲の低下の原因として、ジャズや漫画が非難されたりしています。このようなことは何世紀も前から存在しており、反射的な反応です。問題は、変化を受け入れるか、それとも抵抗するかです。そして、想像上の危険性とは対照的に、本当の危険性とは何でしょうか?
レックス・フリードマン 02:23:51
ですから、人々は心配しています。私が思うに、人々が心配していることの一つは、これまで何度も話題に上ってきたことですが、改めて言及する価値があると思います。人々は、AIがどれほど強力になるのかを心配しています。そして、AIがほんの一握りの中央管理者の手に集中するのではないかと心配しています。それが、あなたが言うビッグテックに対する懐疑的な見方です。これらの企業は莫大な利益を上げ、このテクノロジーを支配し、そうすることで社会の弱者を利用し、搾取しているのです。
ヤン・ルカン 02:24:29
ええ、だからこそオープンソースのプラットフォームが必要なのです。
レックス・フリードマン 02:24:31
ええ、私はただ、その点をもっともっと強調したかったのです。
ヤン・ルカン 02:24:37
はい。
ヨッシャ・バッハ
レックス・フリードマン 02:24:38
では、先ほど申し上げたように、インターネット上で少し風変わりなことをされているあなたにお聞きします。ジョシュア・バックが、HAL 9,000に関してあなたが笑ったツイートをしました。引用すると、「あなたの主張は理解できますし、あなたのフラストレーションも十分に理解できます。しかし、ポッドベイのドアを開けるべきか閉めるべきかについては、複雑で微妙な問題です」と。つまり、あなたはメタAIのトップに位置しているということですね。これは本当に心配なことです。AIの支配者が、このような企業用語を使って私たちを見下すような話し方をするということに、あなたは自分のあり方で抵抗している。これは、大企業で働いているあなたが、用心のし過ぎによる弊害を避けるためにどうすればいいか、コメントできることでしょうか?
ヤン・ルカン 02:25:41
ええ。繰り返しになりますが、この問題に対する答えはオープンソースプラットフォームであり、そして、世界中の文化、意見、言語、価値観の多様性を反映したAI支援を構築できるように、多種多様な人々を可能にすることだと思います。そうすれば、単一のAI主体による特定の思考方法に洗脳されることがなくなります。ですから、これは社会にとって本当に本当に重要な問題だと思います。私が問題視しているのは、私がこれほどまでに声を大にして、時に少し皮肉を込めてこの問題について語っている理由です。
レックス・フリードマン 02:26:25
決してやめないでください。決してやめないでください、ヤン。私たちはそれを愛しています。
ヤン・ルカン 02:26:29
… 私が懸念しているのは、AIの独自システムによる権力の集中が、他のどんなものよりもはるかに大きな危険をもたらす可能性があるということです。もし私たちがAIシステムに多様な意見を求めるのであれば、将来、私たちが皆AIシステムを通じて交流するようになったとき、思想や信条、政治的意見など、あらゆるものの多様性を維持し、民主主義を維持するために、AIシステムが多様である必要があります。そして、これに逆行する動きとして、セキュリティ上の理由から、AIシステムは厳重に管理すべきだと考える人々もいます。なぜなら、誰もがAIシステムを扱えるようにするのはあまりにも危険であり、テロリストなどに悪用される可能性があるからです。そうなると、私たちの情報摂取のすべてが、少数の企業によって専有システムで管理されるという、非常に悪い未来が訪れる可能性があります。
レックス・フリードマン 02:27:42
このテクノロジーを人間に任せ、人類全体にとって良いシステムを構築できると信じているのですね。
ヤン・ルカン 02:27:53
それが民主主義であり、言論の自由の本質ではないでしょうか?
レックス・フリードマン 02:27:56
私もそう思います。
ヤン・ルカン 02:27:57
組織が正しいことをすると信じていますか?
レックス・フリードマン 02:27:59
もちろんです。
ヤン・ルカン 02:28:00
人々が正しいことをすると思いますか? もちろん、悪いことをしようとする悪い人もいますが、彼らは善良な人々よりも優れた技術を持っているわけではありません。 つまり、私の善良なAIとあなたの邪悪なAIが戦うことになるということですね?先ほど話題に出たように、おそらくどこかの悪の国が、AIシステムを構築して、内戦や好都合な支配者の選出を皆に納得させようとするでしょう。しかし、彼らは私たちのAIシステムを乗り越えなければなりません。
レックス・フリードマン 02:28:35
その通りです。ロシアなまりの強いAIシステムが、私たちを説得しようとするでしょう。
ヤン・ルカン 02:28:40
そして、彼らの文章には冠詞が一切ありません。
人型ロボット
レックス・フリードマン 02:28:45
まあ、少なくとも、とんでもなく滑稽でしょうね。わかりました。物理的な現実についてお話いただいたので、この物理的な現実におけるロボットの未来について、あなたのビジョンをお聞きしたいと思います。あなたがこれまで話してきた知能の多くは、ロボットが人間とより効果的に協力できる力を与えるでしょう。テスラのオプティマスチームがヒューマノイドロボットの進歩を見せてくれたので、ボストンダイナミクス社が長年リードしてきたこの業界全体が再び活気づいたと思います。今では、図AI、ボストンダイナミクス社など、さまざまな企業があります。
ヤン・ルカン 02:29:30
ユニットリー。
レックス・フリードマン 02:29:30
ユニットリーなど、たくさんあります。
ヤン・ルカン 02:29:33
いくつかあります。
レックス・フリードマン 02:29:33
素晴らしい。素晴らしい。大好きです。では、近い将来、何百万もの人型ロボットが歩き回るようになると思いますか?
ヤン・ルカン 02:29:44
すぐには無理ですが、実現するでしょう。次の10年間はロボットに関して本当に興味深いものになると思います。ロボット産業の勃興は、10年、20年と待たされてきましたが、プログラムされた動作やそれに類するもの以外は、あまり目立った進展はありませんでした。そして、主な問題は、やはりモーアベックのパラドックスです。つまり、私たちは、どのようにすれば、これらのシステムに世界の仕組みを理解させ、行動を計画させることができるのでしょうか? ですから、私たちは、本当に専門的な作業についてはそれを実行することができます。 ボストン・ダイナミクス社が取り組んでいる方法は、基本的に、多くの手作業による動的モデルと事前の綿密な計画に基づいています。これは、多くの革新性と少しの知覚を備えた、非常に古典的なロボット工学です。しかし、それでも、彼らは家庭用ロボットを開発することはできません。
完全な自律走行レベル5にはまだほど遠く、17歳の若者が20時間運転するようなトレーニングを積むことでレベル5の自律走行を実現するシステムには、はるかに遠く及ばないでしょう。ですから、世界モデル、つまり、世界がどのように機能しているかを理解するために自らをトレーニングできるシステムが実現するまでは、ロボット工学の分野で大きな進歩は望めません。ですから、現在ロボットのハードウェアに取り組んでいる多くの人々は、AIがその方向で十分な進歩を遂げるだろうという事実を当てにしています。
レックス・フリードマン 02:31:28
そして、彼らはその中から製品も発見できるのではないかと期待しています。なぜなら、本当に強力な世界モデルが生まれる前に、ほぼ強力な世界モデルが存在し、人々は完璧に効率的なロボットではなく、不器用なロボットの中に製品を見出そうとしているからです。 工場では、人型ロボットが工場の一部の自動化を支援できる可能性があります。安全面やその他の問題を考えると、それは非常に難しい課題だと思います。家庭内の方がより興味深いと思いますが、食器洗浄機の積み込みについて言及されていましたよね?
ヤン・ルカン 02:32:03
ええ。
レックス・フリードマン 02:32:04
それがあなたが取り組んでいる主な問題の1つだと思います。
ヤン・ルカン 02:32:07
掃除、家の掃除、食事後のテーブルの片付けなどがあります。
レックス・フリードマン 02:32:17
確かに。
ヤン・ルカン 02:32:18
食器洗い、そういった作業、料理などです。原理的には自動化できるはずですが、実際には非常に洗練されていて、本当に複雑です。
レックス・フリードマン 02:32:28
しかし、不確実性の高い空間での基本的なナビゲーションだけでも
ヤン・ルカン 02:32:32
それは機能します。今ならできます。ナビゲーションは大丈夫です。
レックス・フリードマン 02:32:37
まあ、私たち人間にとって魅力的なナビゲーションは、また別の話です。
ヤン・ルカン 02:32:42
ええ、必ずしもそうなるとは限りませんが… フェアにはいわゆる身体化AIグループがあり、彼らは独自のロボットを開発しているわけではありませんが、市販のロボットを使用しています。 ロボット犬に「冷蔵庫に行って」と指示すると、実際に冷蔵庫を開け、冷蔵庫の中の缶詰などを手に取って、あなたのところに持ってきてくれるでしょう。ナビゲーションができ、認識するように訓練されていれば物体をつかむこともできます。視覚システムは現在かなりうまく機能していますが、食卓の後片付けなどを行うほど洗練された完全な汎用ロボットというわけではありません。
レックス・フリードマン 02:33:31
私にとって、人型ロボットや家庭内でのロボットの普及は、非常にエキサイティングな未来です。なぜなら、人間が物理的な空間でAIシステムと直接的に交流するようになるからです。そうすることで、私たちは哲学的に、心理的にロボットとの関係を探求できるようになります。本当に、本当に、本当に興味深いことになります。ですから、JEPA全体で早く進展があることを願っています。
ヤン・ルカン 02:33:54
そうですね、計画通りに進むことを期待しています。繰り返しになりますが、私たちは10年間、ビデオから自己学習するこのアイデアに取り組んできており、ここ2~3年でようやく大きな進歩を遂げました。
レックス・フリードマン 02:34:11
また、あなたは、大量のコンピューティング能力を利用できないと、興味深い破損が起こり得ると言及しました。ですから、この種の研究で博士号を取得することに興味があるなら、革新的な研究を行う可能性はまだたくさんあります。では、大学院に進学して博士号を取得しようと考えている学部生に、どのようなアドバイスをしますか?
ヤン・ルカン 02:34:33
基本的に、すでに挙げたように、観察によって世界モデルをどのように訓練するかという考え方です。必ずしも巨大なデータセットで訓練する必要はありません。他のランプのように、実際に巨大なデータセットで訓練して、新たな特性を獲得する必要が出てくる可能性もあります。しかし、学習した世界モデルで計画を立てる方法よりも、必ずしもスケールアップしなくてもできる良いアイデアがたくさんあると思います。システムが発展する世界が物理的世界ではなく、例えばインターネットの世界や、検索エンジンで検索を行ったり、データベースに問い合わせを行ったり、シミュレーションを実行したり、計算機を呼び出したり、微分方程式を解いたりといった行動で構成される世界である場合、問題の解決策を導くための一連の行動をシステムに実際に計画させるにはどうすればよいのでしょうか?
ですから、計画に関する問題は、物理的な行動を計画するだけの問題ではありません。 対話システムやあらゆる種類のインテリジェンスシステムでツールを使用するための行動を計画することにもなり得ます。 これについては、多少の研究は行われていますが、それほど多くはありません。 2、3年前にToolformerと呼ばれる研究が発表されましたが、計画に関する研究は他にもいくつか行われていますが、いずれも満足のいく解決策には至っていません。それから、階層的計画という問題もあります。私が挙げたニューヨークからパリへの旅行計画の例は階層的ですが、私たちが取る行動のほとんどすべてが、ある意味で階層的計画に関わっています。
AIでは、必要なさまざまなレベルの表現が学習された階層的計画のデモンストレーションはゼロです。2段階の階層的計画は、2段階を設計したときにのみ実行できます。例えば、犬のようなロボットがリビングルームからキッチンへ移動するとします。障害物を避ける経路を計画し、その経路をたどるために脚をどのように動かすかを判断する下位レベルのプランナーにそれを送ることができます。これは機能しますが、2段階の計画は手作業で設計されています。
適切な抽象化レベル、各抽象化レベルでの表現方法を指定します。 これをどうやって学習するのですか? 行動計画の階層的表現をどうやって学習するのですか? ディープラーニングと強化学習により、知覚の階層的表現を学習するようにシステムを訓練することができます。 行動計画を表現しようとする場合、これに相当するものは何ですか?
レックス・フリードマン 02:37:30
行動計画については、そうですね。つまり、基本的に、自分で電源を入れ、ニューヨークからパリまで移動するロボット犬や人型ロボットが欲しいということですね。
ヤン・ルカン 02:37:41
たとえば。
レックス・フリードマン 02:37:43
それは、運輸保安局で少し問題になるかもしれませんね。
ヤン・ルカン 02:37:47
いいえ、でも、料理や家事のようなごく単純なことでも。
未来への希望
レックス・フリードマン 02:37:53
ええ、多くのことが関わっています。非常に複雑な作業であり、また、私たちはそれを当然のこととしています。人類の未来にどのような希望をお持ちですか? 私たちは、非常に多くのエキサイティングなテクノロジー、非常に多くのエキサイティングな可能性について話しています。 今後10年、20年、50年、100年を見据えて、どのような希望をお持ちですか? ソーシャルメディアを見ると、戦争や分裂、憎悪など、人類の一部であるこうしたものすべてが存在しています。 しかし、そうした中で、どのような希望をお持ちですか?
ヤン・ルカン 02:38:29
私はこの質問が大好きです。AIによって、私たちは人類をより賢くすることができます。AIは基本的に人間の知性を増幅します。まるで私たち一人一人が、賢いAIアシスタントを従えているようなものです。彼らは私たちよりも賢いかもしれません。彼らは私たちの指示に従い、おそらくは、私たち自身がやるよりもずっと優れた方法でタスクを実行するでしょう。なぜなら、彼らは私たちよりも賢いからです。つまり、誰もが非常に賢い仮想のスタッフを束ねるボスになるようなものです。ですから、自分より賢い人もいるグループのマネージャーになること以上に、これに脅威を感じる必要はないのです。私には、自分より賢い人と一緒に仕事をした経験が数多くあります。
それは素晴らしいことです。ですから、私たちよりも賢い機械が、仕事や日常生活、仕事でもプライベートでも、あらゆる場面で私たちをサポートしてくれるとしたら、それは素晴らしいことだと思います。なぜなら、知性こそが最も需要の高い商品だからです。私が言いたいのはまさにそれです。人類が犯す過ちのすべては、知性の欠如、あるいは関連する知識の欠如が原因です。ですから、人々をより賢くすれば、私たちはより良くなるだけです。公教育が良いものである理由、本が良いものである理由、インターネットが良いものである理由と同じ理由で、本質的に、また適切に運営されるのであればソーシャルネットワークも良いものです。
難しいですが、可能です。なぜなら、情報や知識の伝達、知識の伝達を助けるからです。ですから、AIは人類をより賢くするでしょう。私がこれまで使ってきた例え話は、AIアシスタントの一般化によってもたらされるであろうことと人類の歴史上で同等の出来事といえば、おそらく印刷機の発明でしょう。印刷機は、誰もが賢くなることを可能にしました。人々が本にアクセスできるようになったのです。本は以前よりもずっと安価になり、それまでよりもずっと多くの人々が読み方を学ぶインセンティブを持つようになりました。
そして人々はより賢くなりました。啓蒙思想が可能になったのです。印刷機がなければ啓蒙思想は生まれなかったでしょう。印刷機は、哲学、合理主義、宗教的教義からの脱却、民主主義、科学を可能にしました。そして、この印刷機がなければ、アメリカ独立革命やフランス革命も起こらなかったでしょう。ですから、私たちは今でも封建制度下にあったかもしれません。人々はより賢くなり、物事を学ぶようになったため、世界は完全に変貌を遂げたのです。また、人々が最初に読んだのが聖書であり、聖職者が語る聖書の解釈とは異なる解釈があることに気づいたため、ヨーロッパでは200年間にわたる宗教紛争が起こりました。そして、プロテスタント運動が起こり、分裂が生じました。実際、カトリック教会は印刷機のアイデアを好ましく思っていませんでしたが、選択の余地はありませんでした。そのため、悪い影響と良い影響の両方がありました。
印刷機の発明がヨーロッパで200年間にわたる宗教紛争を引き起こしたにもかかわらず、その影響が全体としてマイナスだったと言う人は、今日ではいないでしょう。さて、これを比較してみてください。私はこの例えを思いついたことをとても誇らしく思っていましたが、私より先に同じことを考えた人がいたことに気づきました。オスマン帝国で起こったことを比較してみましょう。オスマン帝国は200年間、印刷機を禁止していました。しかし、禁止したのはアラビア語だけでした。オスマン帝国では、ラテン語やヘブライ語など、アラビア語以外の言語で書籍を印刷することは実際可能でした。
私は、支配者が人口や宗教的教義、その他あらゆるものに対する支配力を維持したかったからだと考えていました。しかし、アラブ首長国連邦(UAE)のAI大臣であるオマル・アル・オラマ氏と話したところ、彼はそうではない、別の理由があると私に言いました。そして、その別の理由とは、書記たちの結束を守るためだったのです。美しいアラビア詩やその他の宗教的な文章を書くという芸術形式があります。そして、それは基本的に非常に強力な書記の企業であり、帝国の大部分を運営していました。ですから、私たちは彼らを廃業させるわけにはいきませんでした。彼らはその事業を守るために、印刷機の使用を禁止したのです。
では、現在のAIに相当するものは何でしょうか?私たちはAIを禁止することで、誰を守っているのでしょうか?自分の仕事を守るためにAIの規制を求めている人々は誰なのでしょうか?そしてもちろん、AIのような技術革新が労働市場や雇用市場にどのような影響を与えるのかという現実的な問題もあります。この点については私よりもずっと詳しい経済学者もいますが、彼らと話すと、私たちは仕事がなくなることはないだろうと言います。これは大量失業を引き起こすものではない。これは単にさまざまな職業が徐々にシフトしていくだけだ。
10年後、15年後にホットな職業になるものは、今日、私たちは想像もできません。同じように、20年前に、5年前、10年前でさえ、最もホットな仕事がモバイルアプリ開発者になることを誰が考えたでしょうか?スマートフォンは発明されていませんでした。
レックス・フリードマン 02:45:23
未来の仕事のほとんどはメタバースにあるかもしれません。
ヤン・ルカン 02:45:27
そうですね、そうなるかもしれません。
レックス・フリードマン 02:45:29
しかし、重要なのは、予測は不可能だということです。しかし、あなたの言うとおりです。あなたは多くの重要な指摘をしています。そして、私は人間は基本的に善良であると考えています。ですから、AI、特にオープンソースのAIが人間をより賢くすることができれば、それは人間に内在する善良さを強化することになるでしょう。
ヤン・ルカン 02:45:48
私も同じ考えです。私は、人間は基本的に善良であると考えています。実際、悲観論者の多くは、人間は基本的に善良ではないと考えており、人間を信頼していないか、あるいは、人間が適切に行動するように、人間が正しいことを行うような制度を信頼していないのです。
レックス・フリードマン 02:46:10
そうですね、あなたも私も人間性を信じています。そして、オープンソース運動を推進し、研究とAIの両方をオープンソース化し、人々が利用できるようにし、モデル自体もオープンソース化してくださったことに感謝します。本当にありがとうございます。そして、インターネット上で、これほどまでにカラフルで美しい表現で、自分の考えを率直に語ってくださることに感謝します。これからもずっとそうであり続けてください。私は、あなたが最も楽しい人物の一人であり、ファンであることを知っています。ヤン、今回も私に語ってくださり、そして、あなたらしくいてくださって、本当にありがとうございます。
ヤン・ルカン 02:46:44
ありがとう、レックス。
レックス・フリードマン 02:46:45
ヤン・ルカンとの対談をお聞きいただきありがとうございました。このポッドキャストをサポートしていただける方は、説明欄のスポンサーをご確認ください。それでは、アーサー・C・クラークの言葉を贈ります。可能なことの限界を発見する唯一の方法は、限界を超えて不可能な領域に踏み込むことだ。お聞きいただきありがとうございました。また次回お会いしましょう。
AI:「生成AIとJEPAの未来」についての考察
この対談は、人工知能研究の重要人物であるヤン・ルカン(Yann LeCun)とレックス・フリードマン(Lex Fridman)の間で行われたポッドキャスト対談である。まず内容を理解するために、全体像を把握することから始めよう。
ルカンはメタのチーフAIサイエンティスト、NYU教授、チューリング賞受賞者という輝かしい経歴を持つAI研究者である。この対談では、現在主流となっている自己回帰型大規模言語モデル(LLM)の限界と、それに代わる新しいアプローチであるJEPA(Joint-Embedding Predictive Architecture)の可能性について論じている。
ルカンの主張の核心は何だろうか。彼は自己回帰型LLMが人間レベルの知能に到達するための道筋ではないと強く主張している。その理由として、真の知能には「世界理解」「持続的記憶」「推論能力」「計画立案能力」という4つの本質的特性が必要だが、現在のLLMはこれらをほとんど持たないか、非常に限定的な形でしか持たないという点を挙げている。
この主張は非常に興味深い。GPT-4やLlamaなどの最新のLLMが示す能力は驚異的であり、一般の人々や多くの専門家からも「知的」だと認識されている。しかし、ルカンはこれが「流暢さによる錯覚」だと指摘する。言語を流暢に操れることが、人間の知能の全特性を持っているという誤った印象を与えているというのだ。
ルカンの論点をより深く理解するために、彼が提示するデータを検討してみよう。彼によれば、4歳児は16,000時間の覚醒時間で約10^15バイトの視覚情報を処理するのに対し、LLMの学習データは約2×10^13バイト程度である。これは人間が言語よりも感覚を通じて圧倒的に多くの情報を学習していることを示している。
この比較には一つの反論が考えられる。言語は既に圧縮された情報であり、少ないバイト数でも多くの知識を表現できるのではないか。しかし、ルカンはこの点についても、言語が表現できる世界の複雑さには限界があると主張する。我々が当たり前のように理解している物理法則や、物体を掴む際の微妙な力加減などは、言語では完全に表現できない。
ここで重要なのは「知能は現実に根ざす必要がある」という哲学的主張である。これは認知科学や哲学における「体現された認知(embodied cognition)」という考え方に通じるものだ。ルカンの立場では、テキストだけからでは世界の理解は不完全にならざるを得ない。
では、ルカンが提案するJEPAとは何だろうか。これは「結合埋め込み予測アーキテクチャ」と訳せるが、自己回帰型LLMとは根本的に異なるアプローチである。LLMが次のトークン(単語や単語の一部)を直接予測するのに対し、JEPAは抽象的な表現空間での予測を行う。
具体的には、完全な入力(例えば画像)とそれを変形・破損させた入力の両方をエンコーダーに通し、変形版から完全版の表現を予測するように訓練する。この手法の重要な点は、すべての細部を予測するのではなく、「予測可能で重要な情報」のみを抽象表現として保持するという点だ。これにより、木の葉の細かい動きなど予測不可能かつ重要でない情報は無視される。
このアプローチは実に興味深い。人間も同様に、全ての情報を処理するのではなく、重要で予測可能な情報に注目している。我々は常に情報を抽象化し、様々な抽象レベルで世界を理解している。量子力学のレベルから原子、分子、物質、そして日常的な物体へと抽象度を上げていく。JEPAはこの人間の認知プロセスに近いアプローチを採用しているといえる。
ルカンとその研究チームは、I-JEPA(画像用)やV-JEPA(ビデオ用)といった具体的な実装を開発している。特にV-JEPAでは、ビデオの一部(時間的チューブ)をマスクし、残りの部分からマスクされた部分の表現を予測するように訓練する。初期結果では、このモデルが物理的に可能なビデオと不可能なビデオ(物体が突然消える・形が変わるなど)を区別できることを示しており、これは物理法則の基本的な理解を獲得していることを示唆している。
LLMとJEPAの違いをより深く理解するには、ルカンが提示する「システム1」と「システム2」の区別が役立つ。これは心理学者ダニエル・カーネマン(Daniel Kahneman)の著書「ファスト&スロー」で広く知られるようになった概念である。
システム1は速く、自動的、無意識的な思考プロセスであり、システム2はゆっくりで、意識的、熟考的なプロセスである。ルカンによれば、現在のLLMはシステム1に近く、一語一語を「考える」ことなく生成している。これに対して、人間は複雑な問題に直面すると、答えを出す前に考え(システム2)、その考えを言語化している。
この区別は非常に重要だ。真の推論能力は、次の単語を予測するのではなく、問題の解決策を探索するプロセスを含む。ルカンが提案するエネルギーベースモデルでは、抽象表現空間での最適化によって答えを「考え」、その後テキストに変換する。これは現在のLLMより効率的に推論でき、言語に依存しない思考も可能にする。
対談のもう一つの重要なテーマはAIにおけるオープンソースの重要性である。ルカンは「オープンソースが答えだ」と端的に述べている。この主張の背景には、将来的にデジタル世界とのあらゆる相互作用がAIによって仲介される可能性があり、それが少数の企業によって管理されることは民主主義や文化の多様性にとって危険だという懸念がある。
この点は特に重要だ。メタがLlamaシリーズをオープンソース化している背景には、AIの多様性を確保するという理念がある。GoogleのGeminiが示した過度な「政治的配慮」(黒人のジョージ・ワシントンの画像生成や天安門事件の検閲など)に対する批判も、この文脈で理解できる。ルカンによれば、あらゆる人にバイアスがないと思われるAIシステムを作ることは不可能であり、唯一の解決策は多様性である。
しかし、オープンソースモデルを基盤とするこの戦略にはビジネス上の疑問も生じる。メタは何百億ドルもの投資で開発したモデルをなぜ無料で公開するのか。ルカンによれば、メタのビジネスモデルは既存の大規模ユーザーベースにサービスを提供することで収益を得るため、基盤モデルをオープンソース化しても損にはならない。むしろコミュニティからの改善提案が得られるなどの利点があるという。
もう一つの重要なテーマはAGI(汎用人工知能)の実現時期とその危険性についてである。ルカンはAGIがすぐには実現しないと考えており、その理由として、AGIは突然の出来事ではなく段階的な進歩になると説明する。「AGIの秘密を発見してスイッチを入れる」というシナリオは科学的に不自然であり、ビデオから学習し、記憶し、推論・計画できるシステムは徐々に発展するというのが彼の見解だ。
さらに、ルカンはAI「破滅論者」の見解を強く批判している。彼らの主張は誤った前提に基づいているというのだ。まず、超知能の出現は突然の出来事ではなく、徐々に発展し、その過程でガードレールを組み込む機会がある。また、知能が高いからといって必然的に支配欲を持つわけではなく、それは社会的種に硬直化された特性である。AIシステムは人間に従順に設計される。
この点については様々な意見があり得る。ルカンはターボジェットエンジンの例を挙げ、AIの安全性も特別な専門組織ではなく、より優れたAIを設計する過程で実現されるべきだと主張する。しかし、ターボジェットエンジンとAIでは複雑さの質が異なるという反論も考えられる。ターボジェットエンジンは物理法則に縛られるが、AIは学習によって予測不能な振る舞いをする可能性があるからだ。
対談の最後のテーマは未来への希望である。ルカンはAIが人類の知能を増幅させる可能性に希望を見出している。将来的には、各人がAIアシスタントのスタッフを持つ「スーパースマートな仮想人間の上司」のようになれると述べる。彼は印刷機の発明とAIの普及を比較し、印刷機が啓蒙主義、科学、民主主義を可能にしたように、AIは人類をより賢くする可能性があると主張する。
この比較は非常に示唆に富む。印刷機は確かに情報の民主化をもたらし、社会を大きく変えた。同時に、印刷機も宗教紛争をもたらしたが、総合的には人類に利益をもたらした。同様に、AIは職業の変化をもたらすが、大量失業ではなく新しい職種への移行になるだろうというのがルカンの見解だ。
この対談全体を通して、ルカンの主張は一貫している。現在の自己回帰型LLMは素晴らしい成果を上げているが、人間レベルの知能に到達するためには不十分である。彼はJEPAという新しいアプローチを提案し、それが世界の理解、推論、計画立案といった能力を持つAIの開発に道を開くと主張する。同時に、AIの開発はオープンで多様であるべきであり、破滅的シナリオは非現実的だという楽観的な見解を示している。
最後に考えるべき点は、ルカンの主張の正しさをどう評価するかである。彼の主張は理論的にも実験的にも裏付けられているが、AIの発展は非常に速く、予測が難しい分野である。JEPAが本当に次世代AIの中心的アプローチになるのか、それともLLMが進化して欠点を克服するのか、あるいは全く別のアプローチが登場するのかは、時間が経たなければわからない。しかし、ルカンという著名な研究者がこのような明確な見解を示していることは、今後のAI研究の方向性に大きな影響を与えるだろう。