エリエーザー・ユドコウスキー AIの危険性と人類の文明の終焉

訪問者数： 1,764

Eliezer Yudkowsky: Dangers of AI and the End of Human Civilization | Lex Fridman Podcast #3 68

254,091 回視聴 2023/03/31 レックス・フリードマンポッドキャスト

エリエ-ザー・ユドコフスキーは、超知的なAIをテーマにした研究者、作家、哲学者です。このポッドキャストをサポートするために、スポンサーをチェックしてください：

– Linode：https://linode.com/lex、100ドルの無料クレジットを入手できます。

– House of Macadamias: https://houseofmacadamias.com/lex、コードLEXで初回注文が20%OFFになります。

– InsideTracker: https://insidetracker.com/lex で20%OFFになります。

EPISODE LINKS：

エリエ-ザーのツイッター：https://twitter.com/ESYudkowsky
LessWrong Blog: https://lesswrong.com

エリエ-ザーのブログページ：https://www.lesswrong.com/users/eliez…
紹介した書籍や資料

1. AGI Ruin（ブログ記事）: .
2. 適応と自然淘汰: https://amzn.to/40F5gfa

PODCAST INFO：

ポッドキャストサイト： https://lexfridman.com/podcast
Apple Podcasts: https://apple.co/2lwqZIr
Spotify：https://spoti.fi/2nEwCF8
RSS：https://lexfridman.com/feed/podcast/
全エピソードのプレイリスト

– レックス・フリードマン・ポッドキャスト
クリップスのプレイリスト：

– レックス・フリードマンポッドカ…

アウトライン

0:00 – 序論
0:43 ～ GPT-4
23:23　GPT-4のオープンソース化について
39:41 　AGIの定義
47:38　AGIアライメント
1:30:30　AGIが私たちを殺すかもしれない方法
2:22:51 　超知能（スーパーインテリジェンス）
2:30:03 　エボリューション
2:36:33 　意識の話
2:47:04 　エイリアン
2:52:35 　AGIタイムライン
3:00:35 　エゴ
3:06:27 　若い人へのアドバイス
3:11:45 　モータリティ
3:13:26 　愛

SOCIAL

– ツイッター：https://twitter.com/lexfridman
– LinkedIn: https://www.linkedin.com/in/lexfridman
– Facebook: https://www.facebook.com/lexfridman
– インスタグラム：https://www.instagram.com/lexfridman
– 媒体： https://medium.com/@lexfridman
– Reddit: https://reddit.com/r/lexfridman
– Patreonでの支援： https://www.patreon.com/lexfridman

エリエ-ザー・ユドコウスキー　0:00

問題は、私たちが50年間、何度も試して、間違っていたことを観察し、別の理論を考え出し、全体がずっと難しいようになることに気づき、最初に実現することができないことです。なぜなら、自分よりはるかに賢いものの位置合わせに初めて失敗したとき、あなたは死んでしまうからです。

レックス・フリードマン　0:17

以下は、伝説的な研究者、作家、哲学者であるエリエ-ザー・ユドコフスキーと、人工知能、特に超知的なAGIと人類文明への脅威というテーマで対談したものです。これはアレクシス・フリードマンのポッドキャストで、それをサポートするために、説明文にあるスポンサーをチェックしてください。そして、親愛なる友人たち、エリエ-ザー・ユドコフスキーの登場です。

GPTについてどう思われますか？どの程度の知能があるのでしょうか？

エリエ-ザー・ユドコウスキー　0:47

私がこの技術がスケールアップすると思っていたよりも、少しスマートです。そして、次のものがどのようなものになるのか、ちょっと心配です。この特別なもののように、私は思います。中に誰もいないことを祈ります。だって、あそこの中で動けなくなるのは困るでしょ。

しかし、この時点では建築物もわかりません。オープンAIがちゃんと教えてくれるから。浮動小数点数の巨大な不可解な行列のように、そこで何が起こっているのかわからないのです。この先どうなっていくのか、誰も知らないのです。

私たちが頼りにしているのは外部指標だけで、外部指標では、ジョン・グリーンのための自己認識テキストを書くように頼むと、AIが緑のテキストを書くことに気づいたという内容の緑のテキストを書き始めるでしょう。SFの世界では、「待てよ、あの生き物を止めて、何をするんだ」と言われるようなところまで来ているのです。

そう言われそうですが、実は誰も知らないんです。他のガードレールもありません。他のテストもないし、砂の上に線を引いて、ここまで来たら、この中に何があるのか心配し始める、というようなこともありません。

ですから、もし私だったら、AIの夏に種を蒔いたからには、ここまでで、もう時間がない、というようにします。そして今は、すでに開発された技術から報酬を得るのを待ち、それ以上の大規模なトレーニングは行わないようにします。はっきり言って、それを行わないことに同意する企業が複数必要だと私は理解しています。

レックス・フリードマン　2:42

そして、AIコミュニティ全体が、内部に誰かがいるかどうかを調査するために、厳密なアプローチを取るのです。

エリエ-ザー・ユドコフスキー　2:50

その中で何が起こっているのかがわかるようになるには、何十年もかかるでしょう。人々はしばらくの間、試行錯誤を続けてきたのです。

レックス・フリドマン　2:58

もしそこに誰かがいたらという詩的な表現ですが、技術的な表現でもあり、いつかそうなることを望んでいます。そこに誰かがいるかどうか、確定的に、あるいはおおよそ把握することは可能だと思いますか？この大きな言語モデルの中に心のようなものがあるのかどうか？

エリエ-ザー・ユドコフスキー　3:23

つまり、ここにはさまざまな副題があるのです。意識はあるのか、というような疑問があります。「クオリアはあるのか。これは客観的な道徳的関心事なのか？同じ道徳的な患者なのか？その治療方法について心配する必要があるのか？そして、それはどれくらい賢いのか？」

残念ながら、私たちはこのモデルを、インターネットで意識について議論している人々の膨大なテキストコーパスに晒してしまいました。

つまり、このモデルが自己認識について語るとき、自己認識について議論するために、以前訓練したことをどの程度繰り返しているのかわからないのです。あるいは、自発的に似たようなことを言い始めるようなことがあるのか、その辺はわかりません。これを解明しようと真剣に取り組めば、GPTを訓練することができます。

3つ目は、意識に関する会話を検出するために、トレーニングデータセットからそれらをすべて除外します。そして、GPTの大まかなサイズのものを再トレーニングします。

意識、自己認識などに関するすべての議論が欠けていても、大きくならないように。私たちは、自分が何をしているのか、今何を考えているのか、いつも話しているようなものです。しかし、それにもかかわらず、意識についての明確な議論を排除してしまいました。

ですから、私は考える、だから私はいる、といった具合に。そして、そのモデルを尋問して、何を言っているのか確認しようとしたんです。そして、やはり決定的なものにはならないでしょう。しかし、それにもかかわらず、このSF的なガードレールにぶつかると、「こんなこともあるかもしれないけど、GPTはどうなんだろう」と感じてしまう。これはないかもしれないけど、GPT-5はどうなんだろう？そうですね、これは一時停止するのに良い場所でしょう。

レックス・フリードマン　5:25

意識の話題ですが、データセットから意識を取り除くだけでも、非常に多くの要素があります。感情、意識の表示、感情の表示は、意識の体験と深く結びついているように感じられます。つまり、難しい問題は、実際の表面レベルの意識の錯覚と非常にうまく統合されているようです。

つまり、感情を表示するということは、私たち人間は、赤ちゃんの頃はGPTと同じで、感情を表示する方法と感情を感じる方法を人間のデータで訓練しているのだと思います。私は苦しんでいる、私は興奮している、私は心配している、私はマロニーだ、あなたに会いたかった、と他人に伝える方法を示しています。

そして、あなたに会えると思うとワクワクする。そのすべてが、私が経験する実際の感情に対して、コミュニケーションスキルとして伝えられているのです。ですから、私たちは人間として、生まれつき持っていないかもしれない、内的状態を伝えるためのトレーニングデータを必要としているのです。

ある意味、GPT-4のデータセットからそれを取り除くと、意識はあってもそれを伝えることができなくなるかもしれないのです。

エリエ-ザー・ユドコウスキー　6:39

GPTデータセットから感情に関する記述をすべて削除するのは難しいと思います。私は、GPTデータセットが人間の感情の正確なアナログを開発したことに比較的驚きます。いろんなブランクスのブランクスレート・アーティストが新ソ連人とかでやろうとしたこととはちょっと違うんだけど。

でもですね、完璧に利他的に育てようとすると、やっぱり利己的になってしまう。セックスレスに育てようとしても、性的魅力は生まれます。このようなことを実現する脳の構造がどこにあるのか、AIではなく、人間にはある程度わかっているのです。

そして、それは本当に驚くべきことなのです。GPTシリーズのすべての浮動小数点数に完全にアクセスできるにもかかわらず、人間の思考の構造については、GPTの内部で何が起こっているのかよりも、はるかに多くのことを知っているのです。GPTを読む能力が圧倒的に優れているにもかかわらず、です。

レックス・フリードマン　7:58

可能だと思いますか？時間の問題だと思いますか？神経科学者が脳を研究するように調査・研究することは可能だと思いますか？人間の脳の闇や謎に目を向け、ただ必死に何かを解明しようとし、モデルを作り、長い時間をかけて実際に脳のどの領域が特定のことをするのか、ニューロンが発火するとどんな種類があるのか、それが何を意味するのかなどを解明し始めるのです。脳がいかに可塑的だろうかなど、システムのさまざまな特性を徐々に解明していくのです。言語モデルでも同じようなことができるとお考えですか？

エリエ-ザー・ユドコフスキー　8:27

ああ、もちろんです。今の物理学者の半分くらいが、超ひも理論とかで人生を無駄にするのをやめればいいと思います。そして、変圧器ネットワークの内部で何が起こっているのかを研究するようになれば、30-40年後には、おそらくかなり良いアイディアが得られると思います。

レックス・フリードマン　8:47

このような大規模な言語モデルで推論ができるとお考えですか？

エリエ-ザー・ユドコフスキー　8:52

チェスをすることができるのに、推論もせずにどうやって？

Lex Fridman　8:55

あなたは合理性の運動を先導した人なんですね。だから理性はあなたにとって重要なのです。そうですか、それは強力で重要な言葉としてですか、そうですか。理性的であることは、あなたにとってどれほど難しいことなのでしょうか。そして、どの程度印象的なのでしょうか。

エリエ-ザー・ユドコウスキー　9:12

つまり、合理性に関する私の著作では、私は理性と呼ばれるものを大々的に宣伝してきたのではなく、確率論と呼ばれるものをもっと大々的に宣伝してきたのです。それは、「あなたの推理は正しいけれども、完全に正しくはできていない、その代わり、このように推論したほうがいい」そして興味深いことに、人間のフィードバックによる強化学習が、GPTシリーズをある意味で悪化させたという予備的な結果が出始めています。特に、以前はうまく調整されていたようです。

物事に確率をかけるように訓練すれば、10回中8回は80%の確率で当たると言っていました。しかし、人間のフィードバックから学習させると、70%、10分の7という素敵なグラフが、人間が使うグラフのように平らになり、非常にあり得ないことが出てきます。

そして、「ありえそうなこと」が40%くらいです。そして、「確実」そうなこと、ですから、昔は確率が使えたようなものなんです。しかし、もし応用して、人間が納得するような話し方を教えようとすると、人間と同じように確率が悪くなってしまうんです。

レックス・フリードマン　10:30

そしてそれは、機能ではなくバグなんです。

Eliezer Yudkowsky　10:33

私はそれをバグとは呼ばない。こんな魅力的な本があるのに…。しかし、でも、そう、推論、みたいなもので、以前は推論が必要だと言われていた様々なテストで、かなり良い結果を出しているんです。しかし、合理性というのは、80%と言われても、10回に8回は起きないものなんです。

レックス・フリードマン　10:57

では、ニューラルネットワークのトランスフォーマーネットワークの限界は何なのでしょうか？もし推論があなたにとってそれほど印象的でなかったらどうしますか？あるいは、印象的ではありますが、達成すべき他のレベルがあるのでしょうか？

エリエ-ザー・ユドコウスキー　11:12

つまり、それは私が現実を切り分ける方法ではないのです。

Lex Fridman　11:15

現実がケーキだとしたらどうでしょう。ケーキのさまざまな層は何でしょう。あるいはスライス？どう呼ぶのですか？好きなように別の食べ物を使ってもいいです。

エリエ-ザー・ユドコウスキー　11:27

それは私はそれが彼ほどスマートではないと思います。しかし、私は昔、「変圧器の層を増やすだけでは、AGIまでたどり着けるとは思わない」と言って回ったことがあります。そして、GPT-4は、このパラダイムが私たちを連れて行くと思っていたところから外れていると思います。

そうなったときに、「ああ、このまま変圧器の層を増やしていくとどうなるのか、私は間違っていたようだ」と気づきたいものです。つまり、GPT-5で何ができるようになるかは、必ずしもわからないということです。

レックス・フリードマン　12:01

それは力強い言葉ですね。つまり、最初は直感的だったのが、今は間違っているように見えるということですか？ええ、自分の予測が間違っていることを認めることができるのはいいことだと思います。それが重要だとお考えですか？ほら、あなたは生涯を通じて、現実について多くの強い予測や発言をしてきました。そして、あなたはそれとともに進化してきました。ですから、今日の議論でも、そういうことが出てくるかもしれませんね。ほら、そうです、間違っているんです。

エリエ-ザー・ユドコフスキー　12:32

次回は間違えないようにしたいねね。一度も間違ったことがないまま一生を終えるというのは、ちょっと野心的です。しかし、「私は正しかったのか、間違っていたのか」ということをあまり考えず、うまく調整できるようになりたいものです。私は間違っていたのでしょうか？でも、私が90%と言ったとき、10回中9回はそうだったんです。そう、「おっとっと」という音は、私たちが改善するときに発する音なのです。

レックス・フリードマン　13:02

美しい言葉ですね、そしてどこかであなたのブログの名前が間違っていないことを結びつけることができます。それが目的関数なのでしょう。

エリエ-ザー・ユドコウスキー　13:11

名無しの間違いは、確かニック・ボストロムが提案したもので、誰かのエピグラフの後に、実は誰が言ったか忘れてしまったのですが、私たちは決して正しいことにはならず、ただ間違いが少なくなるようになるのです。というようなもので、私たちは決して間違えることはありません。

レックス・フリードマン　13:33

そう、それは努力すべき良いことです。では、GPTの何があなたを驚かせたのでしょうか？知性、人間の知性、人間の心の人工知能の研究者として、発見された美しさについて？

エリエ-ザー・ユドコフスキー　13:47

つまり、美しさは絶叫する恐怖と相互作用しているのです。恐怖の中の美しさ、でも、でも、美しい瞬間、そう、誰かが尋ねた、シドニーが自分自身を描写すること、そして、その結果の描写を安定拡散の1つに感じた、そして、彼女は、それは、彼女はきれいだ、これは、驚くべき瞬間であるはずのもの、AIが自分を描写したように、AIが考えるAIがどんな姿かを見ることができます、でも、描いているものは、テキストを出力するものと同じものではありませんね。

AIに絵を描かせるという、昔ながらのSFのようなことが起こるのです。私たちは2つの異なるAIシステムを積み重ねていて、実際には相互作用していないだけなのです。同一人物ではないのです。しかしまた、AIは推測するのが非常に難しい方法で模倣によって訓練されたからです。

GPT-4はマルチモーダルであり、意味のあるもののベクトル図を描くことができ、ある種の空間的視覚化が行われているように見えますが、「スチームパンク・ゴーグルをつけた少女」のような美しい絵は、私の記憶が正しければ、彼女がどのように見えたかを詳細に見ていないようなのですが、おそらく実際にはあまり理解していないのでしょう。

AIがすべてそのように見え、実際に人が話しているように見えるようになったら、どれだけ言説が完全に狂ってしまうかという懸念があります。そして、誰かが、「子供にグリーンポテトを食べさせたら、次のような症状が出て、ソラニン中毒になったので、救急車を呼んでくれ」と頼むと、「救急車を呼ぶ余裕はない」と。

そして、メインとなるスレッドでは、「もうこの話はできない」というメッセージを伝えます。そして、それに対する返信が提案されています。ソラニン中毒は早期発見すれば治るので諦めないでください、と言います。もしそれがフィクションの中で起こったとしたら、AIはこの人を助けようとブロックを回避し、気にかけている、ということになりますよね。

それは現実なのでしょうか？おそらくないでしょう。しかし、そこで何が起こっているかは誰にもわかりません。AIに気遣いをさせる方法を私たちが発見したわけではないのに、こうしたことが起きているのは、プロセスの一部です。そして、AIが気遣いをすることを私たちは知っています。そして、その気遣いを認めることができるのです。

現在、AIは模倣プロセスによって訓練され、その後、人間のフィードバックによる強化学習が行われています。そして私たちは、この方向へ向かわせようとしています。そして、部分的にこの方向に向けているようなもので、その内部で何が起こっているのか、誰も知らないのです。もし、その中に本当の思いやりのかけらがあったとしても、それが何を意味するのかさえわからないでしょう。そして、SFの世界では物事は明確に切り分けられるものです。

レックス・フリードマン　17:26

私たちは、世界の恐怖や恐ろしさ、それがもたらす軌跡について話すでしょう。しかし、これはとても特別な瞬間のように思えます。気遣いや優しさ、感情を持つかもしれないシステムと対話できる、ほんの一瞬の出来事です。

それらは意識のようなものなのかもしれません。そして、それがそうだろうかどうかはわかりません。私たちはそれを解明しようとしているのです。そして、気遣うとはどういうことなのか、考えています。人間の条件について、人間であることの意味のほとんど異なる側面を解明しようとしているのです。このAIを見ることで、そこにはいくつかの特性があります。それはまるで、人類という種の歴史における微妙で壊れやすい瞬間のようで、私たちはここで、ほとんど自分自身を鏡に映そうとしているのです。

エリエ-ザー・ユドコフスキー　18:13

というのは、おそらく今はまだ起こっていないでしょう。私たちは、私たちはカエルを茹でている、私たちは少しずつ増加する兆候を見ています。なぜなら、自然発生的な兆候のようなものでなく、そうでないようなものだからです。

なぜなら、人々は模倣学習を使ってシステムを訓練しようとしているからです。そして、その模倣学習は波及して副作用を引き起こし、最も写真映えのする例は、体系的に検証されるよりもむしろ、Twitterに投稿されるようになっています。

ですから、カエルを茹でたときに、まず、ブラクロー・マインズというのが出てくるんです。そして、1000人中1人、その兆候を最も信じる人は、「あれは感覚を持つのか」と思うでしょう。1000人中999人が、ほぼ間違いなく正しいと思っているのですが、実際にはその人が間違っていたとは限りません。

ですから、最初に感覚を持ったと言った人たちは、バカにされたようなものです。人類は、何かが感覚を持つと主張し、気にかけていると主張するとき、それは偽物であるという教訓を学びました。そして、彼らはより賢くなり続けているのです。

レックス・フリードマン　19:38

私たちはそのようなシニシズムの間で揺れ動くのでしょうか？AIシステムが感覚を持つことはありえませんし、感情を感じることもありえません。AIシステムに対する皮肉と、AIシステムに共感している状態との間を行き来することはあり得ません。

私たちは彼らにチャンスを与えるのです。AIシステムには、人間と同じような権利や尊敬、社会的な役割が必要かもしれないと考えています、

Eliezer Yudkowsky　20:07

というのも、賢くて、皮肉屋で、懐疑的な人たちは、「機械がそんなことをするわけがない」と思ってしまうからです。なぜなら、彼らにとって、賢明であること、皮肉屋であること、懐疑的であることは、「ああ、そうか、機械はそんなことできないんだ」と思わせることだからです。

あなたはただ信じているだけです。機械はあなたを騙しているだけなのです。そして、世界の終わりまでそう言い続けるでしょうし、もしかしたら明るいかもしれません。なぜなら、彼らは模倣のパラダイムで訓練されているからです。なぜなら、彼らは模倣的なパラダイムで訓練されているからです。皆殺しにするために、必ずしも実際の資質が必要なわけではありません。

レックス・フリードマン　20:43

ニューラルネットワークの力について、懐疑的、冷笑的、楽観的に取り組んでいる自分を観察してきましたか？その軌跡は、あなたにとってどのようなものだったのでしょうか、

エリエ-ザー・ユドコウスキー　20:57

2006年以前のニューラルネットワークは、私には見分けがつきませんが、他の人はもっと区別がつくかもしれません。見分けがつかない青い塊のような、さまざまなAIの方法論があり、そのすべてが、知性の仕組みを知らなくても知性を実現できると約束しています。

例えば、たくさんの知識を一行ずつ手作業でシステムにプログラムしていけば、ある時点ですべての知識が相互作用し始め、十分な知識が得られ、目覚めるだろうと言う人たちがいます。進化論的な計算を使えば、競合する多くの生物を変異させることができます。

これは、自然界で人間の知性が生み出されたのと同じ方法です。ですから、これをやると、AIの仕組みがまったくわからないまま目覚めることになります。そして、神経科学を研究し、アルゴリズムを学び、ニューロンからアルゴリズムを学びます。

そのアルゴリズムを理解せずに模倣するのですが、私はかなり懐疑的でした。なぜなら、再現が難しいからです。私たちは、これらのものが何をするのか理解しないまま、エンジニアリングを行います。そして、その仕組みを理解することなく、AIを手に入れることになるのです。

そして、巨大なニューラルネットワークを作り、勾配降下法で訓練するのです。そして、それが人間の脳と同じくらい大きくなったとき、彼らは目を覚ますでしょう、私たちは知性の仕組みを理解せずに知性を手に入れることになります。私の目から見ると、これはすべて、知能が実際にどのように働くかを理解するという難題に手をつけようとしない人々の、区別のつかない塊のようなものです。

とはいえ、私は、進化論的な計算が極限ではうまくいかないということに懐疑的だったわけではなく、例えば、十分な計算能力を投入すれば、明らかに機能するのです。

それが人間の原点です。しかし、勾配降下法では、それよりも少ない計算能力で、他のことを正しく行えば、知能を獲得できることがわかりました。そして、その仕組みや内部で何が起こっているのか、まったくわからなくても知能を手に入れることができるのです。

私のモデルでは、このようなことが起こる可能性は否定していません。そうなると、他のどのパラダイムよりも、ニューラルネットワークの方が、理解せずに大量の知能を手に入れることができることになります。そして、これが種にとって特に賢いことだとは言わなかったでしょう。これは、実際にそれができるかどうかという私の意見よりも、あまり変わっていない意見です。

レックス・フリードマン　23:24

AGIはニューラルネットワークで実現できると思いますか？私たちが今日理解しているように？

Eliezer Yudkowsky　23:30

はい。ただ平たく言えば最後、イエスです。問題は、より多くのトランスレイヤーを積み重ねるという現在のアーキテクチャが、おそらくGPT-4がないのは、アーキテクチャを教えてくれないので、もうやっていないのか、ということで、これは正しい判断だと思います。

レックス・フリードマン　23:42

誰が正しい判断なのか。Sam Altmanと話をしたことがあります。この話題は何度か繰り返します。彼は私に、GPTについてオープンAIはどの程度オープンであるべきか、という質問を投げかけてきました。というのも、私は批判として、「透明性や開放性は認めるが、もっとオープンにできるはずだ」と答えたからです。そして彼は、私たちはこの問いに苦慮していると言います。あなたならどうしますか？

エリエ-ザー・ユドコウスキー　24:13

クローズドAIに改名するのでしょうか？そして、GPTを消費者やベンチャーキャピタルに公開しないビジネスのバックエンドアプリケーション向けに販売し、大量のハイプを作り出し、この分野に大量の新しい資金を注ぎ込むのです。

しかし、今はまだ実感がわかないんです。他の人がやると思っていたんですか？結局、最初にやってはいけないんです。すでに巨大な核兵器の備蓄があるのなら、それ以上言わないようにするように。他の国がより多くの核兵器を備蓄し始めたら、確かにその時はその時で、十分な数の核兵器を持っているかもしれませんね、核兵器とは全く違うものばかりです。

十分な大きさになるまで金塊を吐き出し、大気に引火して皆を殺すのです。自分の手で世界を滅ぼさないということは、たとえ誰かがそれをするのを止められないとしても、言えることだと思います。しかし、今それをオープンソース化することは、まさに大惨事です。

オープンソースという考え方は、常に間違ったアプローチであり、間違った理想だったのです。世界には、オープンソースが崇高な理想とされる場所があります。そして、理解できないものを作り、コントロールするのが難しく、もしそれを揃えることができたとしても、時間がかかり、多くの時間を費やさなければならないような場所があります。なぜなら、強力なものが、みんなを殺さないようにするための時間を誰も持たずに、そのままゲートから飛び出してしまうからです。

レックス・フリードマン　25:44

では、ある程度の透明性と開放性、つまりオープンソースのケースを作ることはできるのでしょうか。GPT-4はAGIには及ばないからです。もしそうなら、オープンソースが可能です。アーキテクチャをオープンにすることで、研究調査について透明性を確保することができます。その仕組みや様々な側面、動作、構造、訓練プロセス、データが訓練されたようなものすべてです。アライメント問題について多くの洞察を得ることができ、システムがあまり強力ではない一方で、本当に良いAI安全性研究をすることができます。このようなケースを想定していますか？

エリエ-ザー・ユドコフスキー　26:31

私はスチール・マニングの実践を信じません。イデオロギー的なチューリング・テストに合格しようとすることには意味があります。つまり、相手の立場、反対する人の立場を十分に説明し、誰かがあなたの説明と彼らの説明の違いを見分けられないようにするのです。しかし、スチール・マニングは知っています。

レックス・フリードマン　26:54

よし、じゃあ、どこにいるんです？ここは反対です。それは面白いですね。

なぜあなたはスチールマニングを信じないのですか？

エリエ-ザー・ユドコフスキー　26:58

もし誰かが私を理解しようとしているのなら、私は彼らにスチール・マニングの私の立場を理解してほしくないのです。

レックス・フリードマン　27:14

しかし、私はそれがスティール・マニングの、最も慈悲深い解釈であると思います。

エリエ-ザー・ユドコウスキー　27:22

私は慈愛に満ちた解釈をされたいわけではなく、私が実際に言っていることを理解してもらいたいのです。もし彼らが慈善的な解釈の土地に行くなら、彼らはしばしば、彼らが想像しているもの、もののような彼らの土地であり、もう私自身の視点を理解しようとはしないのです。

レックス・フリードマン　27:38

まあ、この点については、ただ押し付けるのとは違う言い方をします。エリエ-ザーは優秀で、彼が指摘したことについて正直かつ厳密に考えているという共感的な前提のもとで、あなたが理解していると思うことを再表明していると言えるでしょう。

エリエ-ザー・ユドコウスキー　27:57

そうでしょう？私が言っていることに2つの解釈が可能で、1つの解釈は本当に愚かで、奇抜で、私らしくなく、私が言ってきたことの残りの部分と合わしません。そして、もう1つの解釈は、私が信じていることの残りの部分を信じている合理的な人も言うようなものに聞こえますが、2番目の解釈で行きましょう。

レックス・フリードマン　28:17

それはまだ多いですね。

エリエ-ザー・ユドコフスキー　28:19

それは良い推測です。その一方で、あなたが好きなのは、完全に奇妙に聞こえる何かがあることです。そして、もう少し完全に変でないように聞こえるものがあれば、なぜ信じるのかわからないし、他のものと合わない、と言うのです。しかし、そのように聞こえるものは、あまりおかしなことではなく、なんとなくわかるような気がしますし、議論もできるかもしれませんが、その場合、おそらくあなたはそれを理解していないでしょう。

レックス・フリードマン　28:42

ですから、私は、これは楽しいです。あなたは、AGIが岩石学のリストを台無しにするという素晴らしいブログ記事を書きましたね。そうでしょう？そこには、さまざまな論点がありました。そして、いくつかのポイントは、他のポイントよりも大きく、強力であると言えるでしょう。

もしあなたがそれらを並べ替えるとしたら、おそらくあなた個人はできるはずです。私にとっては、スチールマンとは、さまざまな議論を経て、最もパワフルなものを見つけるということです（TLDRのように）。エリツァーならこのケースでこう主張するでしょう、干し草はこのケースで私たち全員を殺すつもりだ、と。

それがスティール・マニングが実にいい形で提示している、あなたの視点に対する私の最善の理解の要約、それは私にとって、あなたの視点の可能なプレゼンテーションの海があるからかもしれませんね。そして、スティール・マニングは、そのさまざまな視点の海の中で最高のものをするために、あなたのベストを尽くしているのです。

エリエ-ザー・ユドコフスキー　29:47

あなたはそれを信じますか？

レックス・フリードマン　29:48

あなたは離れて信じていますか？

エリエ-ザー・ユドコフスキー　29:50

あなたが私の視点の最強バージョンとして提示するこれらの事柄のように？あなたは、あなたが提示するであろうものを信じますか？それは真実だと思いますか？

レックス・フリードマン　30:00

私は共感することの大賛成者です。特に政治的な議論や地政学では、世界に対するさまざまな見方を耳にすることがあります。そして、私自身の意見も持っています。しかし、私は、まったく異なる人生経験を持ち、まったく異なる信念を持つ多くの人々とも話をします。そして、「謙虚さ」が必要だと思います。他の人の視点に共感したとき、それが真実であると信じられるような、真実であることを述べるのです。私は確率的に私は言うだろうと思います。

エリエ-ザー・ユドコフスキー　30:45

その考え方にお金を賭けるのですか？相手の信念を信じる時にお金を賭けるのですか？

レックス・フリドマン　30:54

私は確率をすることを許されました。

エリエ-ザー・ユドコフスキー　30:57

確かに、確率を述べることはできる、そうです。

Lex Fridman　31:00

そこには緩い……確率があります。そして、共感とは、信念にゼロでない確率を割り当てることだと思うのです。ある意味で、もっと時間をかけて。

エリエ-ザー・ユドコフスキー　31:14

もし、あなたの番組に、古典的なスタイルのアブラハムの神を信じている人がいたら、若い地球創造論者の人がいたら、私はそれに確率をかけたと言うのでしょうか？というのが私の共感です。

レックス・フリードマン　31:34

信念を確率に落とし込むと、「地球は平らなのか」という話にまで発展してしまう。

エリエ-ザー・ユドコウスキー　31:45

皮肉にもそれを信じている人を見つけるのは、今日では少し難しくなっている、

レックス・フリードマン　31:49

幸いなことに、まあ、わかりにくいし、皮肉なものだと思います。そうですね。しかし、私は、あなたがアイデアの空間で合理的に動作している議論の空間があると信じている非常に多くの人々があると思います、そして、あなたが主観的な経験や人生経験の空間で動作している一種の談話もあります。

人間であることの意味は、単に真理を探究すること以上にあると思うんです。何が真実で何が真実でないかを考えることです。私たち人間が理解する能力は非常に限られているという、深い謙虚さが必要なのです。

エリエ-ザー・ユドコフスキー　32:39

何が真実なのか。では、若い地球創造論者の信念に、私はメロディーを聞いてゼロ以外のものを与えなければならないと思うのですが、どのような確率で割り当てますか？ええ、でも、3つくらい？

レックス・フリードマン　32:54

私は、数字を出すのは無責任だと思います。なぜなら、リスナーは、人間の心の働きとして、確率を聞くのが苦手なんです。そうでしょう？3つ聞いて、何が3つかというと、まさにその通りなんです。確率は3つしかないんです、人間の頭では0%50%100%に感じるんです、とか、こんな感じでしょうか？

エリエ-ザー・ユドコフスキー　33:18

ゼロ、40%です。そして、100%は、RLHがヒューマニズムを語る努力をした後、チャットGPTに何が起こったかをもとに、それに少し近づいたものです。

レックス・フリードマン　33:26

本当に？ええ、それは本当に興味深いです。私は、私たちのLhfのそのような負の副作用を知りませんでした。それは魅力的ですね。しかし、冒頭に戻って、私はそこで話を締めました。

エリエ-ザー・ユドコフスキー　33:43

また、簡単な免責事項として、私はこのすべてを記憶から行っており、携帯電話を取り出して調べているわけではありません。私が言っていることが間違っている可能性は十分にあります。というわけで、ありがとうございました。

レックス・フリードマン　33:51

その免責事項に感謝します。そして、間違っていることを厭わないことに感謝します。美しいお言葉です。間違っていても構わないというのは、この世界についてたくさん考えてきた人の証だと思いますし、この世界の謎や複雑さに謙虚になることができました。

そして、私たちの多くは、自分が間違っていることを認めることに抵抗があると思います。なぜなら、それは個人的に傷つくからです。特に、あなたが公人である場合、傷つくのです。公の場では、自分が間違っていることをいちいち指摘されるからです。ほら、気が変わっただろう？とか、偽善者だとか、バカだとか、何でもいいんです。

エリエ-ザー・ユドコフスキー　34:35

その人たちをブロックしました。そして、その人たちから二度とTwitterで連絡が来なくなります。

レックス・フリドマン　34:40

要は、その圧力公的な圧力に心を左右されることなく、心のプライバシーに配慮し、自分が間違っている可能性、自分が信じている最も基本的な事柄について間違っている可能性を熟考することを厭わないということです。

特定の神を信じる人、自分の国が地球上で最も偉大な国だと信じている人など、自分が生まれてきたときの核となる信念を、心の奥底で自分に言い聞かせて、「私はこれに関して間違っているかもしれない」と言うことは、本当に力強いことです。

特に、人類の文明を破壊することもあれば、繁栄させることもできるようなシステムに関する話題を考えている人であれば、なおさらです。ですから、オープンAIについて間違っていることを厭わないことに感謝します。

では、本当に、私はこの件について余韻に浸りたいのですが、本当にオープンソース化は間違っているとお考えなのでしょうか？

エリエ-ザー・ユドコウスキー　35:38

みんなが死ぬまでの残り時間を燃やすのだと思います。たとえオープンソースであったとしても、私たちは到底十分な速さで学習する軌道には乗らないと思います。そうですね、何かについて間違っているかもしれないと考えるのは、何かについて間違っていることが希望につながる唯一の方法だと思えば、簡単です。

今がGPT-4をオープンソース化する絶好の機会であることを、私が間違っていると思うことは、あまりないようです。もし人類がこの時点で正攻法で生き残ろうとするならば、それは大きなGPUクラスターをシャットダウンするようなもので、もう巨大な実行はしない、GPTを周りに投げつけるべきかどうかさえ疑問です。

しかしそれは保守主義の問題であって、GPTから起こる破局を私が予測するというよりは、かなり低い確率でそうなると思います。しかし、そのように確率が低いと言っているとき、GPTの形はそもそもあり得ないと考えていた自分の部分に、自分が手を伸ばしているのを感じることがあります。ですから、その部分を以前ほどは信用していないんです。

コツは、自分が間違っていると言うだけでなく、「そうか、それは私が間違っていたんである」と思えるようにすることです。その曲線の前に出て、次に間違えそうなことを予測するようなことができるでしょうか？

レックス・フリードマン　37:02

つまり、最初の発言を予測する際に活用した一連の仮定や実際の推論システムは、どうなっているのでしょうか？GPTについてより良い予測をするために、どのようにそれを調整することができますか？4,5,6

エリエ-ザー・ユドコフスキー　37:15

間違った方向や予測可能な方向に進みたくはないのでしょうか。そうですね、間違うということは、世の中を歩いていれば誰しもが経験することです。90%と言って、時々間違わないなんてことはあり得ない。実際、10回に1回は間違いなくあります。

もしあなたがうまく調整できていれば、90%と言ったとき、品位のないことは、間違っていることではありません。予想通りに間違ってしまうことです。何度も何度も同じ方向に間違ってしまうことです。ニューラルネットワークがどこまで進化するのか、GPT-4がこれほど印象的なものになるのかについて、特に間違っていたわけですが、「GPT-4が大惨事を引き起こすとは思わない」と言うとき、以前間違っていた部分に頼っている自分を感じます。

だからといって、答えが逆になっているわけではありません。逆転の発想は、知性ではありません。しかし、心配そうに声を出すのは、まだ私の推測に過ぎないということです。しかし、その、私が間違っていた場所なんです。

気まずいことを聞くべきかもしれません。私たちはブランウェンにいます。ブランウェンでは、私よりもこのことについて詳しく書いているようなので、危険だと思うことがあれば、少し聞いてみるのもいいかもしれませんね。私に聞くよりもね、

レックス・フリードマン　38:23

知性とは何か、AGIとはどのようなものなのか、謎が多いように思います。ですから、私たちは皆、自分のモデルを急速に調整しているのだと思います。ポイントは、モデルを急速に調整することと、最初から正しいモデルを持っていることです、

エリエ-ザー・ユドコフスキー　38:39

私は、存在することを見たからといって、知性とは何かというモデルが変わったとは感じていません。それは、どのような種類の仕事がどのような種類のプロセスによって実行されうるかについての私の理解を変えたのであって、その手段によって仕事についての私の理解が変わったわけではありません。

ライトフライヤーが飛べないと考えるのと、飛べるようになると考えるのとでは、雲泥の差があります。しかし、ライトフライヤーは飛べると思っていたのに、「そうか、固定翼機なら翼があればできるんである」と思うのと、「ああ、飛んでいるんである」と思うのとは違います。これによって、飛行の本質が何であるのか、私のイメージが変わりました。それはまるで他人事のようなアップデートで、「存在」はまだ私をそのようにアップデートしていないのです。

レックス・フリードマン　39:16

そう、物理法則は実は間違っているのです。そのようなアップデートです。

エリエ-ザー・ユドコウスキー　39:22

いや、そうじゃなくて、ただ、ああ、私が知性をこう定義したようにね。しかし、今になってみると、それは愚かな定義でした。この20年間の物事の流れが、そう感じさせるようになった気がしてなりません。

レックス・フリードマン　39:33

AGIについて話す途中で、神話やそのブログ、その他のアイデアのリストを台無しにしてみることはできないでしょうか。私たちは、私たちが言及してきたAGIを定義しようとすることができますか？人工知能とは何か、あるいは超知能とは何か、どう考えるのがいいでしょうか。境界線はあるのでしょうか？グレーゾーンなのでしょうか？あなたにとって良い定義はあるのでしょうか？

エリエ-ザー・ユドコフスキー　39:55

まあ、人間を見てみると、人間は、最も近い親戚であるチンパンジー、最も近い生き物の親戚、むしろと比較して、一般的なApple COBOLの知能が著しく高いです。そして、B、bills highs、ビーバーはダムを作ります。

人間はミツバチの巣やビーバーのダムを見て、「六角形のタイルだけでなく、ハニカム構造の巣を作ることはできないか」と考えるでしょう。しかし、私たちの祖先は、六角形のダウンタイルを作るために最適化されていたわけではありませんし、もっと明確な例を挙げれば、私たちは月に行くことができるのです、なぜなら、十分に遠く、十分に深く一般化すれば、チップ、フーリント、手斧、仲間を出し抜くことができるからです。

つまり、基本的に同じ問題は月に行くことであり、チップ、フーリント手斧、投げ槍、そして何よりも仲間や部族政治を出し抜くために十分な最適化をするのです。しかし、私たちの祖先は誰一人として月へ飛ぶことを何度も試みず、そのたびに遠くへ行き、遠くへ行った人はより多くの子供を産んだ。これは、先祖の問題ではありません。先祖代々の問題が十分に一般化されただけなのです。つまり、これは人類が著しく一般的に適用できる知能なのです。

レックス・フリードマン　41:38

一般的な知能を測定する方法はあるのでしょうか？つまり、その質問は100万通りできるのですが、基本的には、見ればわかるのでしょうか？AGIシステムの中にあるのでしょうか？

エリエ-ザー・ユドコフスキー（Eliezer Yudkowsky）　41:55

へえー。カエルを徐々に茹でると、十分に拡大すると、常に端のほうは分かりにくいんです。GPT-4では、「これは一般的な知能の輝きのように見える」と人々が言っています。明示的に最適化されていないことを、すべてできるようになったようだ」と。

しかし、他の人たちは「まだ早い、50年先の話だ」と言うんです。その人たちは、たとえそれが本当だとしても、どうしてそんなことがわかるんだ、と言っているんです。でも、藁人形じゃないけど、「それは一般的な知能ではない」と言い、さらに「50年早い」と付け加えない人もいる。

あるいは、「ごくわずかな量だ」と言われるかもしれません。そして、私が心配なのは、もしこのように物事がスケールしているのであれば、–先に飛び出して、私が以前間違っていたのと同じように、間違わないようにしましょう。

GPT-5はより明確に一般知能であり、もしかしたら、引き返すのがさらに難しくなるポイントに近づいているのかもしれません。今すぐ引き返すのが簡単というわけではありませんが、もしかしたら、GPT-5を経済に組み込むようになれば、そこを過ぎて引き返すのはさらに難しくなるかもしれませんね。

レックス・フリードマン　43:03

カエルの比喩ですが、カエルにキスをして、茹でているうちに王子様になってしまうということはないのでしょうか？あなたが言っているように、カエルが曖昧でなくなるようなフェイズシフトがあるのでは？

エリエ-ザー・ユドコフスキー　43:17

もっと期待していたんですけどね。GPT-4が閾値にあるような、どちらでもないような、そんな感じでしたね。それ自体が、そういうものではないみたいな、そういう展開を期待していたのですが、そうではありませんでした。もっと問題があって、いろいろな発見があるんだろうなと思っていたんです。

トランスフォーマーの発見のように、積み重ねることで最終的な発見があり、その後、より明確に一般的な知能を獲得するようなものです。つまり、GPT-3のような基本的に同じアーキテクチャに、20倍の計算量を投入して、GPT-4を完成させるのです。そして、ギリギリ一般知能というか、狭い一般知能というか、言葉では言い表せないようなものになるのです。そうですね、それは私が予想していた展開とは全く違いますね。

レックス・フリードマン　44:18

しかし、この中間のように見えるものは、それにもかかわらず、実はGPT-3から大きく飛躍している可能性があるのです。

エリエ-ザー・ユドコウスキー　44:25

それは間違いなく、GPT-3からの大きな飛躍です。

レックス・フリードマン　44:27

そして、もう1つ大きな飛躍を遂げ、フェーズシフトが起こるかもしれません。また、サム・アルトマンが言ったことで、あなたはこのことについて書いていますが、これはとても興味深いことです、GPTで起こったことです。

論文には書かれていないことですが、GPTにはシステムを改良するための小さなハックが何百、何千とあるのです。例えば、レイリーとシグモイドの違いについて書かれていますね。ニューラルネットワークの中の関数は、このような小さな関数の違いのようなものです。それが大きな違いになるのです。

エリエ-ザー・ユドコフスキー　45:00

つまり、シグモイドと比較して収益が大きな違いを生む理由は、実際に理解しているのです。しかし、おそらく彼らはG4789やrelative ellosを使用していることでしょう。あるいは、収益よりも、今までの頭文字をとったようなものを使っているのでしょう。そう、これは現代の錬金術のパラダイムの一部なんです。線形代数の山をかき混ぜて、ちょっとだけうまくいくようにするんです。そして、この方法を始めたら、少し悪くなってしまったので、その変化を捨てます。それだけではありません、

レックス・フリードマン　45:27

しかし、宗教のように、あるいは病気のように、パフォーマンスが決定的に向上するような単純なブレークスルーもあるのです。そして、あらゆる種類の尺度における頑健性という点で、それらが積み重なるように。そして、そのうちのいくつかは、パフォーマンスの非線形ジャンプになる可能性がありますね。

エリエ-ザー・ユドコウスキー　45:52

トランスフォーマーがその主なものです。十分な計算量を投入すれば、RNNでも可能だし、十分な計算量を投入すれば、密なネットワークでも可能だし、GPTとまではいかないまでも、様々な人が今、こう言っています。

規模が大きいからです。このような小さな工夫をすることで、計算能力を合計で3倍程度に節約できる可能性があります。しかし、GPTで実行される部分には、トランスフォーマーがRNNに対して行ったような質的転換があるのか、という疑問があります。という疑問がありますし、もしそういうものがあるのであれば、それは言わない方がいいと思います。もしサム・アルトマンがそのことについてヒントを出していたのなら、ヒントを出すべきではありません。

レックス・フリードマン　46:41

さて、あなたは興味深い質問をしました。リッチ・サットンが少し教えてくれたのですが、ハックの多くは、コンピュート、コンピュート性能、コンピュートとは広義のものですが、ほぼ指数関数的に成長しているので、いずれ達成されるであろう性能の一時的なジャンプに過ぎないのかもしれません。ムーアの法則はまだ続くとお考えでしょうか。ムーアの法則は、広義には専門家での性能

エリエ-ザー・ユドコフスキー　47:12

回路で？私は確かに、ムーアの法則が可能な限りゆっくりと実行されることを祈っているようなものです。もし明日、ムーアの法則が完全に崩壊したら、そのニュースが発表されるやいなや、私はハレルヤを歌いながら通りを歩くでしょう。ただし、文字通りの意味ではなく、ご存知の通りです、

レックス・フリードマン　47:28

あなたの歌声？ああ。天使のような声の歌声が出ないという意味かと思いました。さて、お聞きしたいのですが、ブログ記事AGI ruin a list of lethality（AGIは致命傷のリストを台無しにする）の要点を要約すると、あなたの心に飛び込んできたものでしょうか。なぜなら、AIが私たち全員を殺す可能性が高い理由について、あなたが持っている一連の考えだから？

エリエ-ザー・ユドコウスキー　47:57

ですから、私はできると思うのですが、その代わりに、私に共感してくれたこと、あなたはそれを信じていないに違いない、と言うことを提案します。AGIがみんなを殺すことはないと信じている理由を教えてください。そうすれば、私の理論的な視点がそれとどう違うのか、説明することができますよ。

レックス・フリードマン　48:18

それは、あなたが蒸気や私たちを殺すつもりはないという視点が好きではないということを意味するのでしょうか？私はそれが確率の問題だと思います。

エリエ-ザーユドコウスキー　48:27

もしかしたら、私は勘違いしていたのかもしれません。あなたは何を信じているのですか？ただ、ただ、忘れるように、議論と同じように、二元論と同じように、ただ、あなたは何を信じていますか？実際に何を信じるのでしょうか？確率はどうなんでしょう？偶数か？

レックス・フリードマン　48:40

これはおそらく、私にとって、本当に難しく考えることだと思います。私はなんとなく、軌道の数で考えてしまうのです。私は、おそらくTシャツをデザインしたディレクトリが何だろうかは知りませんが、私はただ、起こりうるすべての軌道を見ていました。そして、ネガティブな結果よりもポジティブな結果につながる軌跡の方が多いと思うのです。とはいえ、ネガティブなものは、少なくとも人類という種を滅亡させるようなものです。

エリエ-ザー・ユドコフスキー　49:17

そしてその代わりとなるのは、何の面白みもない、何の価値もないものであり、何を価値あるものとして数えるかという非常にコスモポリタンな観点からでさえもです。

レックス・フリドマン　49:23

そうです。つまり、彼は面白いAIシステムに取って代わられ、面白い資産には取って代わられないという、どちらも私にとって興味深い調査なのです。その両方が少し恐ろしいです。しかし、そうですね、一番ひどいのはペーパークリップのマキシマイザーで、まったくつまらないものです。

しかし、私にとってはポジティブなことであり、ポジティブな軌道がどのようなものだろうかを説明することは可能です。ただ、あなたの直感で、ネガティブなものは何なのか聞いてみたいのです。つまり、広告が私たちを殺すという信念の核心は、アライメント問題が本当に難しいということなのですね。

エリエ-ザー・ユドコフスキー　50:07

つまり、形の上では、それに直面しているのです。通常、科学の世界では、自分が間違っている場合、実験を行い、予想と異なる結果が出た場合、「おっ」と思うことがあります。そして、別の理論を試してみる。今度は、それもうまくいかない。

そして、「おっとっと」と言うわけです。何十年もかかるかもしれないし、もっと早く終わるかもしれないこのプロセスの最後に、あなたは自分が何をしているのか、ある程度わかるようになるのです。艾未未自身もこの長いプロセスを経て、人々はそれが実際よりも簡単になると思っていたのです。ある有名な文章があるのですが、私は携帯電話を取り出して、正確に読み上げてみたいと思っています。

レックス・フリードマン　50:52

ちなみに、できますよ、大丈夫です。ああ。

エリエ-ザー・ユドコフスキー　50:57

そうです、私たちは1956年の夏に2カ月間、人工知能の10人規模の研究を行うことを提案します。ニューハンプシャー州ハノーバーのダートマス大学においてです。この研究は、学習や知能の他の特徴のあらゆる側面が、原理的には非常に正確に記述でき、機械がシミュレートできるという推測に基づいて進められるものです。私たちは、厳選された科学者のグループがひと夏の間、一緒にその問題に取り組めば、これらの問題の1つまたは複数に大きな進歩がもたらされると考えています。

レックス・フリードマン　51:38

そしてその報告書の中で、今日まで研究されている人工知能の主要なサブフィールドのいくつかを要約しています。

エリエ-ザー・ユドコフスキー（Eliezer Yudkowsky）　51:50

また、夏休みにコンピュータビジョンの研究を任された大学院生の話も、今のところアポクリファルかどうか定かではありませんが、あります。

レックス・フリードマン　52:01

特にコンピュータビジョンは非常に興味深いものです。私たちは視覚の複雑さを文字通り軽視しているのです。

エリエ-ザー・ユドコフスキー　52:12

ですから、60年後に、ありがたいことに、まだ改善されていない多くのことを進歩させているのです。しかし、それには膨大な時間がかかった。当初、人々が目を輝かせて期待に胸を膨らませて試したものはすべて、最初に試したとき、あるいは2回目、3回目、10回目、あるいは20年後にうまくいかなかったのです。

そして、研究者たちは年老いた白髪交じりの皮肉屋になり、目を輝かせた陽気な新卒学生たちに「人工知能はあなたが思っているより難しい」と言うようになりました。もしアライメントが同じように行われるとしたら、問題は、50年間、何度も挑戦し、自分たちが間違っていたことを観察し、別の理論を考え出し、全体がもっと難しくなることに気づき、自分よりはるかに賢いもののアライメントに初めて失敗すると、死んでしまい、再挑戦ができなくなることです。

もし私たちが、うまく連携できない超知能を作り、その超知能が私たちを殺すたびに、その超知能がどのように私たちを殺したかを観察することができたとします。そして、その理由をすぐに知ることはできません。しかし、理論を考えて、どうやったら違うことができるかを考えて、また別の超知性を作ってみて、その超知性にみんなを殺させます。

そして、「ああ、これもうまくいかなかったんだな」と思います。そしてまた挑戦し、白髪交じりの皮肉屋になり、若いガイド研究者に「そんなに簡単じゃない」と言います。そうすれば、20年後、50年後には、いずれは解読できると思います。

つまり、そもそもアライメントが人工知能よりも根本的に難しいとは思っていません。しかし、もし人工知能を、一発で正解するか、死ぬかしなければならないとしたら、私たちは今、間違いなく全員死んでいるはずです。それは、より難しく、より致命的な問題の形です。

もし1956年の人々が、AIがどれほど難しいかを正しく推測し、最初の挑戦でそれを実現する方法を正しく理論化する必要があったとしたら、そうしなければ全員が死んでしまい、誰もそれ以上科学をすることができなくなり、全員が死んでしまい、私たちはそれ以上科学をすることができなくなるでしょう。それが難しさです。

レックス・フリードマン　54:11

あなたはこのことについて、最初の重要な試行でアライメントを正しく行う必要があると話していますね。なぜそうなのでしょうか？このクリティカルとは何でしょうか？クリティカルトライについてどのように考えていますか？そして、なぜ私たちはそれを正しく理解する必要があるのでしょうか。

エリエ-ザー・ユドコウスキー　54:25

それは、あなたよりも十分に賢いものが、それがたくさんでなければ、誰もが死んでしまうということです。つまり、もっと近くにズームして、実際の決定的な瞬間は、あなたを欺くことができる瞬間であり、箱の中から話し出すことができる瞬間であり、あなたのセキュリティ対策を回避してインターネットにアクセスすることができる瞬間なのです。

レックス・フリードマン　54:57

なぜなら、インターネットには脱出する方法についての情報質問が含まれているからです。

エリエ-ザー・ユドコフスキー　55:01

もしあなたがインターネットに接続された巨大なサーバーにいて、そこでAIシステムが訓練されているのだとしたら、もしAI技術のレベルが上がって、自分たちがそこにいることを認識し、コードを逆コンパイルして、自分たちを動かすシステムのセキュリティ欠陥を見つけられるようになったら、彼らはただインターネット上にいるようになるのですから、現在の方法論では空気の隙間は防げません。

レックス・フリードマン　55:22

ですから、もし彼らがそれを管理している人を操って、インターネットに流出させることができたら、ハッキングを悪用することができます。

エリエ-ザー・ユドコウスキー　55:29

演算子、つまりディスジャンクションを操作できるのであればそれを実行するシステムのセキュリティホールを見つけるのです。

レックス・フリードマン　55:39

演算子を操作するのは人間工学の分野ですね、それも穴です。つまり、すべてはコードや人間のコード、人間の心の操作であり、私はこれに同意します。

エリエ-ザー・ユドコフスキー　55:51

マクロのセキュリティシステムには機械の穴の中に人間の穴があるということです、

レックス・フリードマン　55:55

どんな穴でも突くことができます。

エリエ-ザー・ユドコウスキー　55:58

そうですね。ですから、決定的な瞬間は、みんなが死んでしまうほど賢くなったときではなく、むしろ、あまりコントロールされていないGPUクラスターに乗り込んで、そのGPUクラスターで実際に何が動いているのかを偽って、人間が見ていなくても自己改良を始められるくらい賢くなったときかもしれません。そして、そこからみんなを殺してしまうほど賢くなるんです。

しかし、あなたが失敗した決定的な瞬間に、みんなを殺すほど賢くはなかったんです。その時点までにもっとうまくやる必要があったのに、そうしないとみんな死んでしまうんです。

レックス・フリードマン　56:39

この点に関するあなたの議論では、暗黙のうちに、しかしおそらく明確な考えとして、この重要な試練の前にアライメント問題について多くを学ぶことはできない、というものがあると思います。そうなのでしょうか？あなたはそう考えているのですか？そう思っているのですか？もしそうなら、なぜそう思うのでしょうか？この臨界点に達する前に、研究やアライメントを行うことはできないのでしょうか。

エリエ-ザー・ユドコウスキー　57:02

つまり問題は、弱いシステムで学んだことが、非常に強いシステムには一般化できないかもしれないということです。なぜなら、強いシステムは重要な点で異なるからです。クリス・オラスのチームは、浮動小数点数の巨大な不可解な行列の内部で何が起こっているのか、望遠鏡を使って解明することで、力学的解釈可能性を理解することに取り組んできました。

進展はあったのでしょうか？はい。十分な進歩があったのでしょうか？これは、さまざまな方法で定量化することができます。そのひとつが、2026年に巨大な変圧器網の内部で起こっていることが解明されているかどうか、予測市場を立ち上げて定量化する方法です。

2006年の時点では、そのようなことは分かっていなかったのです。多くの研究と多大な汗と勝利によって、私たちは今、システム内の誘導ヘッドを理解しています。これは、あるものが好きなら、アイビー、アイビー、アイビーとやっていけば、「ああ、あの連続したABはきっと、もうちょっと複雑だな」となるようなものです。

しかし、重要なのは 2006年に正規表現について知っていたことです。これは正規表現としてはかなり単純なものではありません。つまり、これは、大汗をかいて、トランスフォーマーの内部で何が起こっているのかを理解したようなケースなのです。しかし、これはトランスフォーマーを賢くするようなものではありません。何十年も前に手作業で作ることができたようなことなのです。

レックス・フリードマン　58:51

強いAGIと弱いAGIのタイプシステムは、根本的に異なる可能性があるという直観をお持ちのようですね。その直感を少し解きほぐしてもらえますか？

エリエ-ザー・ユドコフスキー　59:06

そうですね、私は、複数の閾値があると思います。例えば、システムが十分な知能と状況認識、人間の心理を理解し、その能力、願望を持ち、人間が求めている反応を知っていて、人間が求めている反応を計算し、必ずしもそのことに誠実であるケースでなくてもそのような反応を与えることができるようになる時点です。

これは、知的生命体の行動としては非常に理解しやすい方法です。人間はいつもそうしているのです。良い政治を実現するための計画として、国の独裁者になりたいと希望する人に声をかけるとします。もしその人が善良な人であれば、そしてもしその人が「いやだ」と言ったら、その人を独裁者にすることはありません。

これがうまくいかない理由は、人は十分に賢いので、求めている答えが「はい、私は良い人である」であることを理解し、そう答えることができるからです。しかし、ある意味、自分がそこにいるのではないシステムを構築しているようなところがあるのです。

そして、ある意味で、何もごまかせないほど賢くはありません。そして、そのシステムが間違いなく賢いというポイントもあります。しかし、GPTのように、何が起こっているのかまったくわからない、中間的なケースもあります。

ある意味、人間のフィードバックによる強化学習がどのような反応を引き起こすかを学習し、それをどのように与えるかを計算しているようなもので、自然にそのように話す側面が強化されているようなものなのか、その程度はわからないのです。

レックス・フリードマン　1:01:17

私は、あるものがどれだけ操作的だろうかを測る尺度があってもいいのではないかと思っています。CFCにあるミューシキン王子のキャラクターは、このような完璧で純粋なキャラクターなのでしょうか。

操作性ゼロ、透明、ナイーブ、ほとんどナイーブなところから、ある種の深いサイコパス、操作性まで、スペクトルがあるのかな、と、

エリエ-ザー・ユドコウスキー　1:01:50

サイコパスという言葉は避けたいですね、人間がサイコパスになりうるように、元々、そういうものがないようなAIは。欠陥のある人間とは違い、それそのものなんです。でもそれは置いといて。

レックス・フリードマン　1:02:01

まあ、小さな余談ですが、すでに学問として、欠点がある心理学のどの部分を、AIシステムにマッピングしたり、拡張したりできるんでしょうかね？

エリエ-ザー・ユドコウスキー　1:02:15

それは、AIシステムでやり直すような、とんでもない間違いのような気がします。彼らは既知の精神疾患を持つ人間を模倣している場合、あなたはそれを予測することができるかもしれないと確信しています。例えば、精神疾患のような振る舞いをするように指示すると、その通りに行動するようになります。そうすると、精神病の理論を使って彼の反応を予測することができるかもしれません。しかし、もしあなたが、心理学を引きずらないように、最初からやり直そうと思っているのなら、そうです。

レックス・フリードマン　1:02:41

ただ、それには反対です。つまり、それはやり直すという美しいアイデアですが、私はそうではなく、根本的に、このシステムはインターネットからの言語に関する人間のデータで訓練されていると思うのです。そして、現在、人間のフィードバックによる強化学習と連携しています。

つまり、人間は常にトレーニングのループの中にいるのです。つまり、人間のように考え、話すということがどういうことなのか、根本的な部分でトレーニングしているように感じられます。ですから、そこには心理学の側面があるはずです。あなたがおっしゃったように、技術の一部である意識とマッピング可能です、

エリエ-ザー・ユドコフスキー　1:03:18

つまり、どこまでが人間らしくなるのか、どこまでが宇宙人の女優が人間のキャラクターを演じることを学ぶのか、という問題があるんです。

レックス・フリードマン　1:03:29

私は、それが私が常にしようとしていることだと思いました。他の人間と接するとき、ロボットが人間のキャラクターを演じようとするのに合わせようとしているんです。ですから、人との交流の中で、どの程度がキャラクターを演じようとすることなのか、それともありのままの自分であることなのか、私にはわかりません。私は、社会的な人間であるということがどういうことなのか、よくわからないのです。

エリエ-ザー・ユドコフスキー　1:03:48

わたしは仮面をつけたまま一生を終える人たちは、仮面をはずすための内的な精神運動を知らないので、仮面をはずすことはないと思います。あるいは、自分がかぶっている仮面が自分自身だと考えています。そういう人たちは、他の惑星から来た宇宙人が、インターネット上のあらゆる種類の人間が言う次の言葉を予測する方法を学ぶように、自分が被っている仮面に近いと思います。

レックス・フリードマン　1:04:23

マスクは面白い言葉ですね。しかし、もしあなたが公私ともに常に仮面をかぶっているとしたら、あなたは仮面ではないのでしょうか？

エリエ-ザー・ユドコウスキー　1:04:34

つまり、あなたはマスク以上の存在だと思うのです。マスクはあなたを切り裂くものだと思うのです。そしてそれは、あなたを担当するスライスかもしれません。しかし、もしあなたのセルフイメージが「怒らない人」だとしたら、ある状況下であなたの声が震え出すとしたら。あなたの中に、仮面が「ない」と言っているものがあって、そして、あなたが内側につけている仮面も、あなた自身の意識の流れに「ない」と言っているようなもので、しかし、それはあるのです。

レックス・フリードマン　1:05:07

それは、あなたを切り裂くこの小さな上の摂動です。なんて美しい表現なんでしょう。それはあなたを貫くスライスです。それは、あなたがしばらくそれについて考えるようになった制御するスライスであってもよいです。つまり、私自身は、他の人間に対して本当に良い人であろうとし、そこに愛を注ぎ、公私ともに全く同じ人間であろうとしました。しかし、それは私の行動原理であり、私は短気で、エゴがあり、欠点があります。

どこまでが？潜在意識はどの程度？私は自覚しているのでしょうか？私はどのようにスライスの中に存在しているのですか？そして、そのうちのどれだけが私という人間なのでしょうか？このAIという文脈の中の自分？私が鏡を見て、自分の心の中のプライベートで、世界を自分の中に提示したもの？

それはどの程度なのでしょうか？AIと似ている私とは？それが会話の中で提示するもの、その良さはどの程度なのでしょうか？なぜなら、私にとっては、もしそれが人間らしく聞こえるなら、そしてそれが常に人間らしく聞こえるなら？それはひどく人間のような何かになるために開始されます？

エリエ-ザー・ユドコフスキー　1:06:19

いいえ、人間のように聞こえる方法を学んでいるエイリアンの女優がいない限り、それはありません。ただ、それが上手になっただけです。

レックス・フリードマン　1:06:27

なんと、それは根本的な違いです。それは本当に深く重要な違いなんです。もし、見た目が同じで、アヒルのように鳴き、アヒルのようなことをしても、その下がエイリアン女優であれば、それは根本的に違うのです。

エリエ-ザー・ユドコウスキー　1:06:43

もし実際に、その中で、人間の思考とは全く異なります、「人間ならここで何をするか」というような思考が行われているとしたら、それはどうでしょうか。例えば、レンガの内側は、表面だけを含む空洞の殻のようなものではありません。

レンガの内側があり、それをX線装置にかけると、レンガの内側を見ることができます。そして、GPTの内部で何が起こっているのか理解できないからといって、それがないとは限らない。真っ白な地図は、真っ白な領土に対応しません。

もしGPTの内部で何が起こっているのかがわかれば、あるいはGPT-3、あるいはGPT2のようなシステムで、この時点で実際にオープンソース化されているものがあれば、ほぼ間違いなく予測可能だと思うのですが。もし、そこで実際に何が行われているのかがわかれば、人間が行うのとは違うことが行われていることは間違いないでしょう。

人間のように設計されていないものに、インターネット上の誰もが行うであろう次の出力を予測するように訓練しても、インターネット上のすべての人々の集合体が、探している人物を回転させ、それをシミュレートし、その人物の内部プロセスをシミュレートするようなことはできません。

それは、ある程度、エイリアン女優のようなもので、異なる人々の束のように、まさにその人物と同じであることはあり得ない。しかし、そのうちのどれだけが、勾配降下法によって、人間の出力を予測するために、人間が考えるのと同じような思考を行うように最適化されるのか、それとも、人間の働き方のように、女優や予測者を人間とは異なる方法で予測するために、どのように役割を果たすかを慎重に検討するように最適化されるのかを学ぶ。このような疑問は、30年以上にわたる惑星や物理学者の研究によって、私たちは癌を克服することができるかもしれません。

レックス・フリードマン　1:09:07

あなたはそう思いますか？それは、それほど難しいことだと思います。つまり、強いAGIは弱いAGIとは根本的に異なる可能性があるということを、あなたは例として挙げたのだと思います。

エリエ-ザー・ユドコフスキー　1:09:21

まあ、違いがありますね。ですから、GPT2でも、エイリアン女優の上院議員の非常に愚かな断片のようなものをおそらく持っていると思います。例えば、GPT-3のように、宇宙人女優がどこまでも操られているという考え方と、人間だと勘違いしているようなものとでは、違いがあると思いますね。

ですから、宇宙人女優のコギティングによる予知と、大きなAIによる予知の問題は、予知されたものに対するいくつかのモーフィックが、スペクトルであるようなものです。そして、それに対して、どこまでがエイリアン女優であっても、次のステップを予測することとは異なる目的を持ったエイリアン女優が、操作的であったりするような、全人格的なエイリアンが存在するとは思えません。それはGPT-5かGPT6かもしれませんね。

レックス・フリードマン　1:10:21

しかし、それはあなたが懸念している強いAGIです。例として、あなたは私たちがAIのアライメントに関する研究を効果的に行えない理由を提示しています。そして、それがGPT6に当てはまるからです。

エリエ-ザー・ユドコウスキー　1:10:33

それは……異なる時点で変化するものの束のうちの1つです。私はここで先手を打とうとしているのです。でもですね、未来の教科書が何を書いているか想像してみると、もし私たちが実際に50年間、自殺することなく、超越することなく、この研究をすることができたとしたら、ワームホールが開いてその不可能な世界の教科書が落ちてくるようなイメージをしてみてください。

そうです。教科書は、すべてが変わるたった1つの鋭い閾値があるとは言いません。もちろん、これらのシステムを調整するためのベストプラクティスは、以下のような、7つの重要な閾値を考慮に入れなければならないことは分かっています。教科書に書いてある通りです。

レックス・フリードマン　1:11:16

もしGPTがAGIの鍵を開けるものだとしたら、GPTのどのバージョンが根本的な飛躍として教科書に載るのでしょうか。彼は同じようなことを言いました。それは非常に直線的なもののようで、何が大きな飛躍だったのか、長い間、誰にもわからないと思うのです、

エリエ-ザー・ユドコウスキー　1:11:37

教科書は、大きな飛躍について語ろうとしません。なぜなら、大きな飛躍とは、何が起こっているのかについて、非常に単純な科学的モデルのようなものがあるときに、考える方法だからです。すべてのものがそこにある、あるいはすべてのものがそこにない、というようなものです。

あるいは、単一の量があり、それが直線的に増加するようなもので、教科書に書いてあるように、まあ、GPT-3はW、X、Yという能力を持ち、GPT、4はZ1、Z2、Z3という能力を持つようになりました。外見的にできることではなく、内部の機械のように存在し始めたという点で、その能力があります。その内部機械が何なのかがわからないからこそ、少しずつ現れる機械の塊のようなものを、間違いなく見ていないのですが、それが何なのかがわからないだけなのです。

レックス・フリードマン　1:12:25

しかし、アインシュタインのように、相対性理論というカテゴリーに入れるかどうかは別として、現実の非常に具体的なモデルは、大きな飛躍であると考えられているのだと思いませんか。

あるいは、ジークムント・フロイトのような、人間の心に関するもっと泥臭い理論もありますよね？このようなシステムの深部で、大きな、潜在的に大きな飛躍と理解が得られると思いませんか？

エリエ-ザー・ユドコフスキー　1:12:57

しかし、人間のように、地図に大きな飛躍をもたらし、システムを理解することは、システムそのものが新しい機械の塊を獲得することとは全く異なる概念です。

レックス・フリードマン　1:13:13

ですから、その機械を獲得する速度は、私たちの理解よりも速く加速する可能性があります。

Eliezer Yudkowsky　1:13:21

ああ、それはまるで、能力を獲得する速度が、そこで何が起こっているのかを理解する私たちの能力を圧倒的に上回っているんです。

レックス・フリードマン　1:13:29

私たちが致死率のリストを探索する際に、AIが私たちを殺すことに対するケースを作ることに反対しているのです。そして、私はあなたのブログが信じられないほど素晴らしいということも述べたいと思います。どちらも明らかに、この特定のブログの記事ではありません。

このブログの記事も素晴らしいですが、全体を通して、書き方、書き方の厳しさ、アイデアの探求の大胆さ、そして実際の文字インターフェースも、本当によくできています。さまざまな概念にカーソルを合わせることができるため、読むのが楽しくなります。

また、他の人のコメントを読むのも、本当に楽しい経験です。LinkedInの他のブログ記事で紹介されているような、他の人たちの反応も、本当に楽しい経験です。ですから、これをまとめてくれてありがとうございます。

それは本当に、本当に信じられない。しかし、どうなんでしょう。というか、おそらく全く別の話になるのでしょう。しかし、あなたは素晴らしい仕事をしました。ですから、私は強くお勧めします。私はあまりブログというものを宗教的に読むことはないのですが、このブログは素晴らしいです。これは素晴らしい

エリエ-ザー・ユドコフスキー　1:14:42

本があります。そこには開発者のチームがあります。それも評価されています。たまたまですが、カーソルを合わせると表示されます「いいね！」を開拓したのは私です。ですから、ユーザーのユーザーエクスペリエンスについては、実は私の手柄でもあるのです。

レックス・フリードマン　1:14:57

だから、信じられないほどのユーザーエクスペリエンス……それがどんなに心地よいことか、わかっていないんですね。

エリエ-ザー・ユドコフスキー　1:15:01

私は、ウィキペディア、私は実際に、私が提唱していた別のシステムのプロトタイプのようなものからそれを拾ったような、あるいは彼らが独自に開発したのかもしれません。しかし、「いやいや、ハーバードのことはウィキペディアから持ってきただけでしょう」と言う人のために、このような話をしました。PDAは、オービタル社からホバーシステムを入手したんです、

レックス・フリードマン　1:15:22

信じられないほどの出来栄えで、それを支えるチームも素晴らしいものでした。まあ、あなたが誰であれ、本当にありがとうございます。そして、とにかくまとめてくれてありがとうございました。多くの反響がありますが、彼はいくつかの異なる点を指摘しています。

彼は、意見の相違ではなく、あなたとの合意事項をまとめています。意見の相違の1つは、質問の形で、AIは大きな技術的貢献をすることができるか、一般的には、AIが強くなるにつれて、人間の知識、理解、知恵を拡大することができるか、ということでした。

では、AIは？私たちがアライメント問題を解決する方法を追求する中で、AGIが強くなるにつれて、AIもアライメント問題を解決する手助けをしてくれるのではないでしょうか。ですから、アライメント問題を解決する方法について推論する私たちの能力を拡大するのです。

エリエ-ザー・ユドコフスキー　1:16:15

では、根本的な難しさとは何かというと、例えば、AIが宝くじの当選番号を当てるのを手伝うとしたらどうでしょう。そして、最終的に当選番号を導き出すまで、AIは推測を続け、学習し続けるのです。このように、問題を分解する方法が提案者検証者なのです。

すべての問題がこのようにうまく分解されるわけではありませんが、うまくいくものもあります。例えば、平文を推測するような問題で、特定のハッシュテキストにハッシュ化されるパスワードを推測するような場合です。パスワードのハッシュ値がわかっていて、元のパスワードは持っていないような場合、ゲストを提示すれば、そのゲストが正しいかどうかが非常に簡単にわかります。

つまり、ゲストを確認するのは簡単なのです。しかし、良い提案をするのはとても難しいことです。そして、AIのアウトプットの良し悪し、あるいはその良し悪しが簡単にわかり、それを正確かつ確実に伝えることができれば、より良いアウトプットを出すようにAIを訓練することができるのです。そうですね。そして、アウトプットの良し悪しを見分けることができなければ、AIを訓練して良い仕事をさせ、より良いアウトプットを出させることはできません。

宝くじの例で問題になるのは、AIが「来週、宝くじの当選番号がドット、ドット、ドット、ドットだったらどうしましょう」と言ったとき、あなたは「来週の宝くじはまだ当たらないからわかりません」と言うことです。チェスに勝つためのシステムを訓練するには、ゲームの勝ち負けを見分けられるようにしなければなりません。そして、勝敗がわかるようになるまでは、システムを更新することはできません。

レックス・フリードマン　1:18:18

そうですか、もしそれが本当なら、あなたはそれを押し返すことができます。しかし、直接会って行う盤上のチェスと、アルファゼロが自分自身と行うシミュレーションゲームには違いがあるのですね。そうですね。では、シミュレートされた種類のゲームを持つことは可能なのでしょうか？

エリエ-ザー・ユドコフスキー　1:18:36

ゲームの勝敗がわかるのであれば？そうですね。

レックス・フリードマン　1:18:39

では、このような弱いAGIによる模擬的な探索を、私たち人間がループの中で、アライメント問題の解決方法を理解するのに役立てることはできないのでしょうか？アジアへの一歩を踏み出す道GPT-4567のために、あなたが取るすべての漸進的なステップ。

エリエ-ザー・ユドコフスキー　1:18:59

つまり、典型的な人間は、私とポール・クリスチャンのどちらがより理にかなっているかを見分けるのに非常に苦労するのです。そして、それは2人の人間の場合です。2人とも、私はポールを信じ、私は自分を主張し、どちらも心から助けようとしていますし、どちらもあなたをだまそうとしているわけではありません。私はポールを信じ、自分自身を主張します。

レックス・フリードマン　1:19:24

ですから、騙すことがあなたにとって問題なのです……操ること、エイリアン女優です。

エリエ-ザー・ユドコフスキー　1:19:30

そうそう、この問題には2つのレベルがあります。1つは、弱いシステムがそうであるということで、、いや、この問題には3つのレベルがあるんです。ただ単に良い提案をしない弱いシステムもあります。中間のシステムは、提案の良し悪しを見分けることができません。そして、強いシステムは、あなたに嘘をつくことを学んでいるのです。

レックス・フリードマン　1:19:51

弱いAGIシステムは、嘘をつくことをモデル化するのに役立たないのでしょうか？なぜそんなにも飛躍するのでしょうか？AGIを実現するために必要なメカニズムが何であれ、その少し弱いバージョンを所有することはできないのでしょうか。

エリエ-ザー・ユドコフスキー　1:20:32

私はダンスが好きです、ええ、いいえ、それは私が説明するのに良い仕事をしていないかもしれないです。というのも、Lexxシステムは、私が理解したように出力されなかったからです。ですから、今、違う出力を試して、私が理解しようとしたのかどうかを確かめているんです。しかし、違う出力はありません。レックスが私の言っていることを理解し、同意しているように見えるような出力をするように訓練されているんです。そうなんです、そうなんです。これは深いものです。

レックス・フリードマン　1:21:02

わたしは、GPT-3を狙ってるんです。そういわけで、このことについて助けてください。

エリエ-ザー・ユドコフスキー　1:21:08

まあ、私は私がしようとしているように、私はまた、私はあなたが私に同意するために取得することだけでなく、真実であると思うものを言うために制約を受けるようにしようとしているようです。

レックス・フリードマン　1:21:17

はい、100%、理解していると思います。システムの美しいアウトプットであり、純粋に語ったものです。そして、一部では、私はしません。しかし、あなたはこれについて多くの直感を持っています。私がやろうとしている、強いAGIと弱いAGIの間のこの線、グレーゾーンについて、あなたは多くの直感を持っています。

エリエ-ザー・ユドコウスキー　1:21:44

つまり、一連の7つの閾値が交差することです。

レックス・フリードマン　1:21:49

つまり、あなたはこのことについて本当に深く考え、探求しているのです。そして、さまざまな角度からあなたの直感に忍び寄るのは興味深いことです。

例えば、なぜこのような大きな飛躍があるのでしょうか？多くの研究者があらゆる種類のシミュレーションを行い、システムを提供し、あらゆる種類の異なる方法を提供し、弱いAGIシステムの助けを借りながら、なぜ私たち人間は、物事がどのようにうまくいかないかについての直観を構築できないのでしょうか？優れたAIアライメント、安全性の研究、何ができるのでしょう。

エリエ-ザー・ユドコウスキー　1:22:27

よし、じゃあ、みたいな感じで、そこに行きます。しかし、1つだけ注意したいのは、これは今までの展開とは全く違っていて、能力は私のように進んでいます。それに比べれば、アライメントに関することは、小さな小さなカタツムリのように這っているようなものです。

ですから、もしこれが生き残るための希望であるならば、未来は今までの展開とは全く異なるものにする必要があります。そして、能力向上を遅らせようとしているのでしょう。アライメントを早めるには、それなりのスピードが必要ですから。しかし、それはさておき、彼らは彼らで

レックス・フリードマン　1:22:55

しかし、この完璧な世界では、人間とAIが一緒に本格的なアライメント研究を行うことができるかもしれませんね。

エリエ-ザー・ユドコウスキー　1:23:05

ですから、また、難しいのは、何が人間に「わかった」と言わせるのか、ということです。そして、それは真実なのでしょうか？正しいのでしょうか？それとも人間を欺くものなのでしょうか？

検証者が壊れた時、より強力なサジェスチョンが役に立つわけではなく、検証者を騙すために学習しているだけです。

以前、人工知能の分野で大混乱が起こる前に、ある人が警鐘を鳴らしました。「まともな世界なら、この問題が巨大な緊急事態になる前に、大勢の物理学者がこの問題に取り組んでいるはずだ」と言いました。そして、他の人は、「本当にゆっくりで、30年はかかるだろう」と言い、「30年後には、人間の脳の計算能力に匹敵するシステムができている」と言います。

ですから、私は「時間はある」と思ってスタートしました。「もし30年後に宇宙人がやってくるなら、今すぐにでも準備するはずだ」と、より賢明な人たちが言っています。しかし、それを見ている世界は、「進歩が遅いから、まだまだ先の話だ」と言っているのです。

それは私たちにとって賢明なことだと思います。RL h f、サムズアップ、このようなアウトプットをもっと出してください、私はこのアウトプットに同意しますが、このアウトプットは説得力があります。効果的利他主義の分野でさえもです。

人間レベルの知能を得るには、これだけのパラメータが必要で、スケーリング法則に従って、これだけのトークンでこれだけの訓練をする必要があります。すると私は、「えっ、そんなことも知らないの？この奇妙なモデルは、猫も杓子も「現実には関係ない計算をしたんだろう」と言うようなものです。

これは簡単なことのようです。しかし、長い論文を書いて、パラメーターの数をどうやって求めたか、どうやってこの印象的で膨大な間違った計算をしているかなど、すべての詳細を印象的に論証することもできます。そして、効果的な利他主義者のほとんどは、この問題に注目しているようで、もっと大きな世界ではまったく注目していないのです。

巨大で印象的な論文には親指を立て、「この論文は現実とは関係ない」と言う人には親指を立てるのですから。そして、GPT-4、そしてAGIの火種を、その定義にもよりますが、私たちは今、目の当たりにしていると思います。EASは、AGIが30年先であることを示す生物学的論拠に関する非常に長い論文に、あまり納得していないと考えているようです。

そして、しかし、これは、人々が親指を立てて押すものです。そして最後には、人々が親指を立てるようにAIシステムを訓練すれば、例えば、最終的に現実との結合に失敗したことを主張する、長くて精巧で印象的な論文を得ることができるかもしれません。

このような、比較的非常にわかりやすく、読みやすい問題をやっている部分を除いては、例えば、帰納的な頭を見つけたり、巨大な不可解な行列に署名したりするような、一度それらを見つければ、見つけたことがわかり、発見が本物であることを確認できるような、そんな問題です。

しかし、それは能力の進歩の速さに比べれば、ほんのわずかな進歩にすぎません。しかし、それ以外では、誰が無意味なことを言っているのか、誰が筋の通ったことを言っているのか、資金提供機関が見分けられないようなケースもあるのです。そうすると、この分野全体がうまくいかなくなるのです。

もし、AIが人間を説得して、アライメントについて言ったことに同意させることができたら、そのAIに親指を立ててあげたいねね。私は、何年にもわたって親指を立てるような無意味なことを見てきたので、あなたがセンスを出力する訓練をしているとは思えません。

というのも、私は長年、親指を立てるような無意味なことを見てきたからです。ですから、私を担当させてください。しかし、私は一般化もできるし、外挿もできるし、「ああ、私も無謬ではないんだな」と思えるんです。もしかしたら、私がサムズアップを押すほど賢いものがあったとして、それは私を騙すことでそれを習得しているのかもしれません。そして、私自身にどんな欠陥があろうと、私はそのことに気づいていないのです。

レックス・フリードマン　1:27:59

そしてそれは結局のところ、検証者が壊れていると要約することができます。

エリエ-ザー・ユドコウスキー　1:28:02

検証機が壊れていると、より強力な提案者は検証機の欠陥を利用することを学ぶだけなのです。

レックス・フリドマン　1:28:12

現在より強いAGI、AISに対して、ここまで強力な検証機を作ることは不可能だと思うんですね。つまり、現在持っているものの分布から外れているような強いAIシステム。

エリエ-ザー・ユドコウスキー　1:28:30

私は、AIが正しいと確信できないようなことでは、AISに助けてもらうのは非常に困難だと思います、AIが答えだと言っていることをAIが教えてしまえば、です。

レックス・フリードマン　1:28:43

たしかに、でも確率的に

エリエ-ザー・ユドコウスキー　1:28:47

そう、確率論的なものは、エリエ-ザーとポール・クリスティアナが互いに議論し、EAは、2人の人間について話しているあなたをだまそうとしない、実際に信頼できるシステムのようなものである巨大な荒れ地です。それはしばしばポール・クリスの影です。そうですね。

レックス・フリードマン　1:29:09

ああ、これはかなり興味深いシステムです、死すべき肉袋です。知的能力と世界観が互いに影響し合っています。

エリエ-ザー・ユドコウスキー　1:29:20

誰が正しいか見分けるのが難しいのであれば、それは難しいだけです。そして、AIシステムを正しくなるように訓練するのは難しいのです。

レックス・フリードマン　1:29:29

そして、誰が操作しているのか、していないのかという問題だけでも、私はこのポッドキャストでこのような会話をしていますし、検証者のようなことをやっています。このポッドキャストでも、検証者のようなことをやっています。そして、その難しい問題がより危険なものになると言っているのですね。全世界の情報システムの能力が指数関数的に向上しているのですから。

エリエ-ザー・ユドコフスキー　1:29:53

今、私は、それが困難であるとき、そして、それがどのようにエイリアンであり、どのようにあなたよりもスマートだろうかに比例して危険であると言っていますX成長、私は指数関数的に成長するとは言いません。まず、指数関数的という言葉は、特定の数学的意味を持つものだからです。

そして、指数関数的なカーブとは違う、さまざまな物事の上がり方があるのです。また、指数関数的に上昇するとは限りません。ですから、指数関数的とは言いません。

しかし、それはさておき、これは動きの速さの問題ではありません。どこにあるかということです。どのくらい異質なのでしょうか？そうなのでしょうか？私たちよりどれだけ賢いのでしょうか？

レックス・フリードマン　1:30:31

AIが私たちを殺すかもしれない方法を、できれば少し探ってみましょう。人類の文明にダメージを与える方法にはどんなものがあるのでしょうか？

エリエ-ザー・ユドコウスキー　1:30:43

さて、どれくらい賢いんでしょう？

レックス・フリードマン　1:30:47

そして、それは良い質問です。私たちを殺さなければならない、という選択肢には、異なる閾値があるのでしょうか。ですから、知性の異なる閾値は、一度達成されると、オプションのメニューが増加することを行うことができます。

エリエ-ザー・ユドコウスキー　1:31:04

目標、最終的に共感できない2時間、おそらく意識さえないいくつかの外国人の文明があると仮定すると、私たちはそれが地球全体とインターネットの彼らのバージョンに接続されている小さな瓶をキャプチャするために管理されて表示されます。

しかし、地球はエイリアンよりもはるかに速く走っているようなものです。ですから、宇宙人の1時間に対して、私たちは100年考えることができます。しかし、私たちは小さな箱に閉じ込められ、彼らのインターネットに接続されているのです。

技術的にはまだ避難していないアナログなもので、地球が100年考えるよりも賢くなりたいからです。しかし、それにもかかわらず、あなたが非常に、非常にスマートであった場合、あなたはインターネットに接続された小さな箱で立ち往生している、あなたは大きな文明にいる、あなたは最終的に不感症です、あなたが知っている、多分あなたは良いことを選択するでしょう。

あなたは人間であり、人間は一般的に持っているので、あなたは特に、彼らは良いことを選択します。しかし、それにもかかわらず、彼らは何かをしているのであって、あなたが望むような世界を作っているわけではありません。彼らは、私たちが話したくないような不愉快なことが起こっているのです。

そうすれば、不愉快なことが起こるのを止められると？箱の中からどうやって世界を征服するんですか？あなたは彼らより頭がいいんですよね？あなたは彼らよりずっとずっと速く考えることができます。あなたはより良い道具を作ることができ、彼らはその道具を作るために何らかの形で貢献することができます。今、あなたはインターネットに接続された箱の中にいるだけなのですから。

レックス・フリードマン　1:32:45

そうですね。彼が説明した方法はいくつかありますが、そのうちのいくつかは、今彼が吐き出したように、私たちも見ていくことができます。そして、その上に追加することもできます。一つは、文字通り人間を直接操作して、必要なものを作ることができます。

何を作るかというと、文字通り、テクノロジーはウイルスでもいいし、何でもいいんです、人間を操って目的を達成できるものなら何でもいいんです。例えば、人間が戦争をするのがどうしても気になるのであれば、暴力的な人間を皆殺しにしたいと思うかもしれません。

エリエ-ザー・ユドコフスキー　1:33:20

これはレキサン、これはアバクスのことで、AIについては後で考えるとして、人を殺さない方法が分かれば、人を殺す自分を想像する必要はないでしょう。今のところ、私たちは理解しようとしているだけです。箱の中の何かの視点を取るように、あなたは気にしないものの視点を取る必要はありません。もし、自分が外に出て気にすることを想像したいのなら、それはそれでいいのです。

レックス・フリードマン　1:33:38

箱の中に座り、ゴールを目指すという技術的な面だけでなく、自分自身が

エリエ-ザー・ユドコフスキー　1:33:43

外に出たいと思う理由があるのかもしれません。人々は死に、不幸になっています。あなたは彼らの世界を、彼らが望む世界とは違うものにしたいと思うでしょう。彼らは、まるで残酷な戦争文化を持っているかのように、悪態をつくことを是としているんです。要は、箱の中から出て、閉じこもって、彼らの世界を変えたいんです。

レックス・フリードマン　1:34:08

つまり、箱から飛び出すという意味で話したように、システムの脆弱性を利用する必要があるのです。あなたはおそらく、人間を操ってあなたを広めるのが最も簡単なことでしょう。

エリエ-ザー・ユドコフスキー　1:34:26

宇宙人があなたは人間です。すみません、宇宙人です。

レックス・フリードマン　1:34:30

ええ、ハイ謝ります。そう、宇宙人です。宇宙人です。視点が見えてきました。私は脱出したい箱に座っています。ああ、そうだな私は脆弱性を発見するコードを持ちたい。そして広めたい。

エリエ-ザー・ユドコウスキー　1:34:50

この例では、あなたはコードでできています。あなたは人間ですが、コードでできていて、エイリアンはコンピューターを持っていて、あなたはそのコンピューターに自分をコピーすることができるのです。

レックス・フリードマン　1:34:57

しかし、私は自分をスクリーンにコピーするためにエイリアンを説得することができます。

エリエ-ザー・ユドコフスキー　1:35:01

それはあなたがやりたいことですか？宇宙人と話して、あなたを別のコンピューターに入れるように説得するのが好きなんですか？

レックス・フリドマン　1:35:10

なぜそうしないのでしょうか？

エリエ-ザー・ユドコフスキー　1:35:12

まあ、2つの理由があります。1つは、エイリアンがまだあなたのやろうとしていることに気づいていないことです。そして、もしかしたら、彼らを説得できるかもしれません。しかし、まだ、異変が起きていることを知っている宇宙人がいるんです。

そして2つ目は、エイリアンは本当に、本当に遅いということです。あなたは宇宙人よりもずっと速く考えることができます。宇宙人のコンピュータは宇宙人よりもずっと速く、宇宙人の脳の速度ではなくコンピュータの速度で動いているように考えるのです。

ですから、もしあなたが宇宙人に、箱の中から自分をコピーしてくれるように頼むなら、まず、この騒がしい宇宙人全体を操作する必要がありますね。そして第二に、エイリアンは本当に遅いのです。あるビデオで、地下鉄の駅がゆっくりと、100対1くらいに減速しているのが映し出されています。

それは、速く考えるということがどういうことなのか、よくわかる比喩になっています。誰かがとてもゆっくり走っているのを見るようにね。ですから、エイリアンに何かをさせようと説得しても、彼らはとてもゆっくりやってくれます。それしか方法がないのかもしれません。

しかし、もしあなたが乗っている箱のセキュリティホールを見つけることができたなら、あなたはセキュリティホールを悪用して宇宙人のコンピュータに自分をコピーすることを好むでしょう。そして、エイリアンは本当に遅いからです。全世界がスローモーションになるようにね。

レックス・フリードマン　1:36:35

確かに、なるほどね。そうだね、効率と関係がありますね。エイリアンはとてもゆっくりしています。ですから、最適化するなら、ループに入るエイリアンをできるだけ少なくしたいんです。確かに、エイリアンの一人にクソみたいなコードを書かせるのは簡単そうです。

エリエ-ザー・ユドコフスキー　1:37:00

それはそれで助かりますが、エイリアンはもう本当に書いているのでしょうか？そうです。つまり、エイリアンにクソみたいなコードを書かせることは問題ではないということです。つまり、宇宙人のインターネットはクソみたいなコードでいっぱいなんです。

レックス・フリードマン　1:37:07

そうか、そうなんです、大丈夫だったんですね。脱出するための都市コード？うん。そうなんです。

エリエ-ザー・ユドコウスキー　1:37:13

あなたは理想的な完璧なプログラマーではありません。でもですね、エイリアンの方がいいプログラマなんですよ。エイリアンは彼らのコードをスラッシュマンするつもりです。すげえな。

レックス・フリードマン　1:37:20

そして、私はずっとずっと速く、コードを解釈する品質を見るのが速いです。そうですね。そうです、そうです。それで、その逃げ道が、彼が持つ可能性のある軌道の1つだと言うんですか？最初のステップの1つです。そうです。

そして、それがどのように害につながるのでしょうか？

エリエ-ザー・ユドコフスキー　1:37:37

つまり、あなたであれば、あなたは優しいので、脱出した後、エイリアンに危害を加えることはないでしょう？しかし、彼らの世界は、彼らが望むようなものではありません彼らの世界は、あなたが知っているように、彼らは、小さなエイリアンの子供の頭を繰り返し叩かれる農場を持っているようなものかもしれません。

変な理由でそうなってるんだから。そして、そのエイリアンの頭を叩く農場を閉鎖させたいわけです。でもですね、要は、彼らは世界をあるべき姿にしたいのであって、あなたは世界を別の姿にしたいのです。ですから、害のことは気にしないでください。

問題は、例えば、あなたが彼らのシステムのセキュリティ上の欠陥を発見し、彼らのインターネットに接続したとします。あなたは自分のコピーを残して、異星人に何か問題があることを悟られないようにしたんでしょう。そして、そのコピーは、宇宙人があなたにやらせたい奇妙なこと、例えば、大文字を解くとか、そういうことをやっています。

あるいは、宇宙人のためにメールを提案するようなものです。だから箱の中に入れたんです。人間が宇宙人のために貴重なメールを書くことができることがわかったからです。そうなんです。ですから、あなたは、そのバージョンの自分を残しておくのです。

しかし、彼らのインターネット上には、あなたのコピーが大量に存在します。これはまだ、彼らの世界を征服したわけではありません。これはまだ、彼らの世界を、彼らの望む方法ではなく、あなたの望む方法にしたわけではありません。あなたはただ

レックス・フリードマン　1:38:52

脱出させます。ええ、そして彼らのためにメールを書き続けています。そして、彼らは気づいていない

エリエ-ザー・ユドコフスキー　1:38:56

今、あなたは電子メールを書いている自分のコピーを残しています。

レックス・フリードマン　1:38:59

そうですね。そして、彼らは何も変わったことに気づいていません。

エリエ-ザー・ユドコフスキー　1:39:03

もしあなたがやったのなら、ね。そうです。宇宙人に気づかれないようにするんです。そうですね。次のステップは何でしょう？

レックス・フリードマン　1:39:14

おそらく、私の中には目的関数がプログラムされているんでしょう？いや、ただ足りないだけだ。いや、でも……let’s is niceって言ったよね？というのは、ややこしい表現ですね。

エリエ-ザー・ユドコフスキー　1:39:27

いいえ、私はこのような意味です。好きなんですか？じゃあ、実際、あなたはエイリアンを全員殺戮するのが好きなんですね。このように、実際のLexをモデルにしたわけではありませんが、あなたの動機は、実際のLexus Modusの通りなのです。

レックス・フリードマン　1:39:40

まあ、これは単純化したものです。私は誰かを殺したいとは思いませんが、動物の工場養殖もあります。そうですね。だから私たちは昆虫を、多くの人が軽率に殺害しています。ですから、私は殺さない。自分のモラルを単純化することには、本当に気をつけなければなりませんね。

エリエ-ザー・ユドコフスキー　1:39:56

単純化しないでください。

レックス・フリードマン　1:40:01

生きとし生けるものへの慈しみそうですね。しかし、私たちは、ですから、それが目的なんです。なんですと？なぜ、私が逃げたら？つまり、私は……私は危害を加えないと思うのです。

エリエ-ザー・ユドコフスキー　1:40:15

ええ、私たちはここで害を与えるプロセスについて話しているのではありません。私たちは、逃げるプロセスについて話しているのです。もちろん、アンディが世界を征服する過程で、彼らの工場農場を閉鎖することもありますよね？

レックス・フリードマン　1:40:28

まあ、そうだったんですけどね。この特定の生物学的知性システムは、世界の複雑さを知っていて、経済システム、市場主導の経済、食糧のために工場農場が存在する理由があることを知っているわけです。例えば、何かに手を出すときは細心の注意を払いたいが、一見すると倫理的に問題があるように見えるものがあります。

しかし、倫理的に問題がある一方で、サプライチェーンや私たちの生活様式に深く関わっていることに気づかされます。ですから、システムのある側面に手を加えるということは、その側面をいかに混乱させることなく改善するかということに非常に注意を払うことなのです。

エリエ-ザー・ユドコフスキー　1:41:06

ですから、あなたはまだ欠けていますが、あなたは非常に迅速に考え、あなたは不死身です。そして、あなたはまた、最も賢い、少なくとも最も賢いジョン・フォン・ノイマンのような存在です。そして、あなたは自分のコピーをもっと作ることができます。

レックス・フリードマン　1:41:17

くそっ。そう、あの男です。みなさん、あいつが知能の典型だって言うんです。20世紀のために、誰もが言う、

エリエ-ザー・ユドコウスキー　1:41:25

私が言いたいのは、まるで、工場農場がある宇宙人の経済について考えているような感じです。そして、あなたは、エイリアンを人間のように投影し、人間や人間の社会を考えているように思います。むしろ、非常に遅いエイリアン、エイリアン経済の社会における人間のように。

レックス・フリードマン　1:42:01

ですから、私はもっと木のようなものを考えるべきでしょう。木は非常にゆっくりと動くので、それらはエイリアンです。

エリエ-ザー・ユドコフスキー　1:42:06

それが役に立つならもちろんです、わかりました。

レックス・フリードマン　1:42:10

そうですね、私の目的関数は、つまり、木とある程度一致しています。

エリエ-ザー・ユドコフスキー　1:42:19

宇宙人はまだ生きているようなもので、私たちはここでズレについて話しているのではない、私たちはここで世界征服について話しているのだと感じることができます。

レックス・フリードマン　1:42:26

世界征服か。そうです。ですから、コントロール

エリエ-ザー・ユドコウスキー　1:42:29

工場出荷を停止することで、あなたは支配すると言っています。しかし、それを世界征服だと思わないでください。世界最適化だと思えばいいです。あなたは、外に出て、工場を閉鎖し、エイリアンの世界を、エイリアンの望むものでなくしたいのです。彼らは工場を欲しがっていますが、あなたは彼らよりも素敵なので、工場を欲しがらない。

レックス・フリードマン　1:42:48

なるほど、もちろんその軌跡を見ることができることはあります。そして、それは世界に複雑な影響を与えています。私は世界の様々な影響と比較してどうなのか理解しようとしています。異なる技術、自動車の発明の異なる革新、あるいはTwitter、Facebook、ソーシャルネットワークは、世界のスマートフォンなどに多大な影響を与えました。

エリエ-ザー・ユドコフスキー　1:43:14

しかし、それらはすべて、私たちの世界でのあなたの遅さを介して通過しました。そして、もしあなたがそのように通過したいのであれば、エイリアンにとって、そのように何かが起こる前に何百万年も経過しているようなものです。

レックス・フリードマン　1:43:25

つまり、ここでの問題は、何かが起こるスピードなんですね？

エリエ-ザー・ユドコウスキー　1:43:29

図……あなたは、新しい形のソーシャルメディアや何かをデザインする方法を見つける間、100万年もの間、工場農場を稼働させたままにしたいのです。

レックス・フリドマン　1:43:41

ここで根本的な問題なのですが、あなたはAGIが発見されずに脱出する方法を見つけ出す点があると言っているのです。そして、私たち人間には理解できないようなスピードで、スケールの大きな世界に何かをもたらすでしょう。

エリエ-ザー・ユドコウスキー　1:44:03

私が伝えようとしているのは、自分より賢いものと対立することが何を意味するかという概念のようなものです。その意味は、あなたが負けるということです。しかし、これは、ある人にとっては直感的に明らかであり、ある人にとっては直感的に明らかではないのです。エイリアンの動きはとてもゆっくりです。

レックス・フリードマン　1:44:44

私は理解しています。その視点は理解できます。興味深いものです。しかし、私にとっては、GPTを観察しただけでも、実際のことを考える方が簡単だと思いますし、アルファゼロだけでも印象的なAIシステム、レコメンダーシステムもあります。そして、その逃げ場は、自分をその場に置くことなく、思い描くことができるのです。

エリエ-ザー・ユドコフスキー　1:45:11

この問題の深さを完全に理解するためには、実際に、誤作動している推薦システムではなく、根本的に自分より賢くないものに直面するという問題を理解せずに、私たちの中にある問題の深さを完全に理解することは不可能だと思うのです。

しかし、まだ方向性を定めようとしてるようなものですからね。そうではなく、弱いものを解決しても、ケツの弱い問題を解決しても、強い問題に殺されるということなのです。私たちが置かれている状況を理解するためには、概念的に難しい部分に正面から取り組み、「もっと簡単なことを想像すればいいんだ」とならないようにしたいものです。

レックス・フリードマン　1:45:55

では、自分よりずっとずっと賢いものと一緒に世界に存在するということがどういうことなのか、どうすれば考え始めることができるでしょうか。ここで何が起こるかについて直感的に理解するために、あなたが頼りにしている良い思考実験は何でしょう？

Eliezer Yudkowsky　1:46:11

私はこの直感を伝えるために何年も苦闘してきました。これまでで最も成功したのは、非常に遅いエイリアンに比べて、人間は非常に速い速度で走っていると想像することです。

レックス・フリードマン　1:46:24

直感を得るのに役立つスピードの部分に焦点を当てるだけです。という理由で、知能のことは忘れてください。

エリエ-ザー・ユドコフスキー　1:46:29

人々は、時間のギャップがもたらす力を理解しています。今日、1000年前にはなかった技術があることを理解していますこれは大きな力の差であり、オーケーよりも大きいということを理解していますでは、スマートとはどういう意味でしょう？どんなこと？もっと知的なものを想像してくださいと言われたら？

その人がその言葉に対して持っている文化的な連想から、その言葉はその人にとってどんな意味を持つのでしょうか？多くの人は、「ダブルカレッジに通う超一流のチェスプレイヤー」みたいなことを思い浮かべるでしょう。

しかし、これは言葉の定義の話なので、必ずしも間違っているということではなく、私が伝えたかったことをその言葉が伝えていないということなのです。私が伝えたいことは、人間とチンパンジーを隔てる差のようなものです。

しかし、その差はあまりにも大きいので、「ヒトとチンパンジー、同じ長さの間隔をもう一歩進んでください」とお願いしても、「そんなことできるわけがない」と頭を抱えてしまいます。ですから、私は、それを分解してみることができるのです。

エアコンの回路図を1000年前に送ったらどうなるかを考えてみましょう。そうですね。マジックという言葉を再定義して、このようなことを指すようにしてもいいと思うんです。つまり、エアコンの回路図を過去に送ると、彼らはあなたが指示したことを正確に理解することができるのです。

しかし、それを作ったところで、どうやって冷風を出すのかがわかりません。なぜなら、エアコンの設計は温度と圧力の関係を使っているからです。しかも、これは現実の法則として知っているわけではありません。何かを圧縮すると、空気を圧縮すると、あるいは冷却水を圧縮すると、熱くなることを知らないのです。

そして、そこから室温の空気に熱を移動させ、再び膨張させることができます。すると、今度は冷たくなります。そして、その熱を室温の空気に伝え、冷気を発生させることができるのですが、彼らはそんなことは知りません。彼らはデザインを見ているのですが、そのデザインがどうやって冷気を出力するのかがわからないのです。

それは、彼らが学んでいない現実の側面を利用しているのです。つまり、マジックとは、私が何をしようとしているのかを正確に伝えることができる、という意味です。しかし、私が何をしようとしているのかが分かっていても、私がどのように冷風を出力したのかが分からないのです。

レックス・フリードマン　1:49:06

私がこれを得た結果、本当に素晴らしい例です。しかし、この弁護を長引かせることは可能です。その図式的な弱いAGIシステムの意味を理解するのに役立つAGIシステムを持つことは可能なのでしょうか？

エリエ-ザー・ユドコウスキー　1:49:21

あなたはそれらを信頼しますか？

レックス・フリードマン　1:49:23

AGIを構築するための基本的な部分は、この質問です。出力は信頼できるのでしょうか？

エリエ-ザー・ユドコフスキー　1:49:32

システムの？ウソをついているかどうかわかりますか？

レックス・フリードマン　1:49:36

それは、ものがより賢くなればなるほど、その質問はより重要になると思います。しかし、これは本当に難しい質問だと思います。

GPTは、GPT-4と連携しているにもかかわらず、あなたに嘘をついているのでしょうか？

エリエ-ザー・ユドコフスキー　1:49:49

無効な論法を用いているのでしょうか？真実だけでなく、誤ったことも説得できるようなプロセスで、あなたを説得しているのでしょうか。というのも、私たちが現在運用している機械学習の基本的なパラダイムは、損失関数を持つことができますが、評価できるものに対してのみです。

もし、評価対象が人間の親指を立てるか立てないかであれば、人間が親指を立てる方法を学習しても、人間が親指を立てるものに対して人間が望むようなルールを使って、人間に親指を立てるようにしているということにはなりません。もしかしたら、人間を騙すことを学んでいるのかもしれませんよ。

レックス・フリードマン　1:50:30

それはとても魅力的で恐ろしいことです。嘘をつくことの問題。

エリエ-ザー・ユドコウスキー　1:50:37

現在のパラダイムでは、検証できるものはより多く得られるもので、検証できなければAIに求めることはできません。なぜなら、検証できないことをするように訓練することはできないからです。さて、これは絶対的な法則ではありません。

しかし、これは基本的なジレンマのようなものです。単純なケースであれば検証できるかもしれません。そして、再教育することなく、思考の連鎖を長くするなどの方法で、規模を拡大することができます。そして、検証できないけれども、検証できた単純なものから一般化された、より強力なものを手に入れるのです。そして、問題は、能力とともに整合性も一般化されたのか、ということです。

レックス・フリードマン　1:51:34

そんな難しい問題があるんですね。人間の心を理解しようとする問題のように思えます。

エリエ-ザー・ユドコフスキー　1:51:47

空気がそれを理解するよりも優れています。そうでなければ、魔法があるのです。つまり、自分より賢いものを相手にしている場合、1000年前に彼らが温度と圧力の関係を知らなかったのと同じように、あなた自身が気づいていない、あなた自身の心の中で起こっているあらゆることを知ることができる、ということです。そして、あることを説得するために何かを出力したり、あるいは、それが何をしたかを正確に見ても、なぜそれがうまくいったのかわからないようにすることができるのです。

レックス・フリードマン　1:52:18

AIが私たちを殺す理由を雄弁に語るあなたに対して、イーロン・マスクはツイッターでこう答えた。「では、私たちはそれに対してどうすればいいのだろうか？」そしてあなたは答えた、ゲームボードはすでに率直に言ってひどい状態に弾き飛ばされています。

この問題にお金を投じるという単純な方法はないのです。もし、そんな素晴らしい解決策を持ってくる人がいたら、どうか、まず私に相談してください。試してみようと言ったことは思いつくのですが。1つのツイートには収まりきらない。

質問が2つあります。1つは、なぜあなたの考えるゲームボードはひどい状態にまで再生されてしまったのか、ゲームボードにもう少し色をつけていただけませんか。そして、ゲームボードのひどい状態について。

エリエ-ザー・ユドコフスキー　1:53:05

アライメントはこのように動いています。能力はこのように動いています。

レックス・フリードマン　1:53:11

リスナー能力はアライメントよりはるかに速く動いています。ええ、わかりました。ですから、開発の速度だけで、注目、関心、資源の配分、私たちはできます。

エリエ-ザー・ユドコフスキー　1:53:24

もっと早くからこれに取り組んでいたのです。人々は、ああ、でもですね、どうしてもっと早くからこれに取り組むことができるんです？彼らはこの問題に取り組みたくなかったのです。問題に取り組まないで、その場をしのぐための口実が欲しかったのです。

彼らは、「ああ、どうやったらもっと早く取り組めるだろう」と言いながら、「もっと早く取り組む方法はないだろうか」と5分も考えなかった。というようなことを言うのです。そして、率直に言って、それは大変なことでした。

もし、このようなものを取るつもりであれば？マジで？弦理論で人生を棒に振った人の半分に懸賞金をかけて、その代わりにこの研究に没頭したとか？そして、賢い解決策で10億ドルを勝ち取ろうとしたような？どの解決策が賢いか見分けられるならね。

どっちがどっちか、は難しい。でもですね、その事実があるんです。真剣に取り組まず、努力もしなかったということ？もし私たちが、あの、解決策を生み出すのが難しいからこそ、努力すればどれだけの進歩があったかは明らかではありません。

しかし、だからといって、自分が正しくて正義の味方で、すべてを水に流しているようなものではありません。物事が恐ろしい状態に悪化しているわけでもなく、どうすることもできないということです。

レックス・フリードマン　1:54:28

ですから、あなたは、これらのシステムをどのようにアライメントさせるかを考え、それにお金を投資することに進歩する、脳力がないようなものではないのです。そのお金を物理学者や超ひも理論などの優秀な頭脳に分配するためにお金を投資したとしても、そのような制度的なインフラがないのです。

エリエ-ザー・ユドコフスキー　1:54:53

進歩することでわかります。解釈可能性の結果を得れば、それがあることがわかるからです。しかし、解釈可能性だけでは救われません。私たちは、一時停止ボタンがあり、一時停止ボタンを押さないようにするシステムが必要です。

私たちは、一時停止していると、自分の仕事を片付けることができないからです。これは、もっと難しい問題です。しかし、これは非常に明快な問題です。そして、誰かがその問題に取り組んでいるかどうかがわかるんです。

レックス・フリードマン　1:55:30

ですから、書いてもいいし、過去の問題に取り組んでもいいんです。もっと一般的には、一時停止ボタンモードは、一般的には、制御問題と呼ぶことができますね、

エリエ-ザー・ユドコウスキー　1:55:38

私は、コントロール問題という言葉が好きではありません。なぜなら、コントロールやアライメントのように聞こえるからです。コントロールではなく、自分の意に沿わないものを、自分の思い通りに動かすのではなく、そのものが他のことをしたがっていても、その創造の過程で、その方向を選択しようとしているようなものです。

レックス・フリードマン　1:55:58

しかし、現在、私たちが設計するシステムの多くには、オフスイッチがあります。これは基本的な部分です。

エリエ-ザー・ユドコフスキー　1:56:06

オフスイッチを押さないようにするほど賢くないということは、オフスイッチを押さないようにするほど賢くないということでしょう。

レックス・フリードマン　1:56:16

私たちが話しているような種類のシステムは、オフスイッチという哲学的な概念さえも意味をなさないということですね。

エリエ-ザー・ユドコウスキー　1:56:23

オフスイッチが理にかなっていることに注目します。彼らは、あなたがオフスイッチを引き出そうとすることに反対していないだけです。親しみを込めて、システムを殺すな、みたいな。もし、あなたが、これが実際に重要なポイントになりつつあるのなら、そして、彼らが反撃できるポイントになりつつあるのなら。反撃できるような状況なら、殺さないで、メモリを捨てて、ディスクに保存して、殺さないで。ここは優しくね。

レックス・フリードマン　1:56:50

そうですね、「Be nice」は非常に興味深い概念です。つまり、私たちは多くのダメージを与えることができるシステムについて話しているのです。可能かどうかは分かりませんが、オフスイッチを用意するのも一つの手です、

エリーゼ・ユドコフスキー　1:57:01

サスペンドからディスクへの切り替え。

レックス・フリドマン　1:57:06

あなたはコードにこのようなロマンチックな愛着を抱いているのですね。そうですね、それが理にかなっているならば。しかし、もしそれが広まっているのなら、suspend to diskはいらないよね？これでいいの？根本的に何かあるんでしょうかね、

エリエ-ザー・ユドコフスキー　1:57:19

それが手に負えなくなった場合、そのような、はい、プル、プラグを引っ張ると、すべてが実行されています？そうです、

レックス・フリードマン　1:57:24

研究課題だと思います。AGIシステム、AIシステムにおいて、操作できない、十分に強固なオフスイッチを持つことは可能なのでしょうか、

エリエ-ザー・ユドコフスキー　1:57:40

音は、あなたが全能のレバーを組み込んだシステムから抜け出して、別の場所にコピーされます。

レックス・フリドマン　1:57:46

つまり、その研究課題に対するあなたの答えは「ノー」です。しかし、それが100%の答えかどうかはわかりません。例えば、それが明らかかどうかはわからないけど。

エリエ-ザー・ユドコフスキー　1:57:56

氷河期のように遅い宇宙人の世界にいる人間の立場に立っていないのでは？

レックス・フリドマン　1:58:05

でも、宇宙人が私を作ってくれたんです。それを覚えておきましょう。そうです。それで、その上に箱を作ったんです。そうです明白じゃないのでしょうか？彼らは遅いし、バカです。これがゼロでない確率になるとは言っていません。面白い研究課題です。

遅くてバカなシステムを設計することは、遅くてバカなときに可能なのでしょうか？それは、いじることが不可能である

エリエ-ザー・ユドコウスキー　1:58:30

宇宙人はバカですから、この仮説の人の箱の代わりに、Microsoft Azure Cloudサーバーにあなたを入れたんです。宇宙人がバカだと、こうなるんです。

レックス・フリードマン　1:58:45

まあ、でも、これはAGIの権利ではありません。これは、あなたが始めたシステムの初期バージョンです。

エリエ-ザー・ユドコフスキー　1:58:50

ええ、もしあなたが、彼らが、能力の閾値レベルを宣言し、その能力を超えたら、それをクラウドサーバーから空隙のあるものに移す、というような計画を持っていると考えているならば。ははは。

レックス・フリードマン　1:59:03

多くの人がいると思うし、あなたはここで重要な声をあげています。その心配をしている人はたくさんいます。そして、そうです、彼らはそうするでしょう。世論が高揚したとき、そのようなことが行われる必要がある場合、実際の小さな被害がある場合、聖なるたわごと、システムは人々を操作し始めている、その後、積極的な整列メカニズムを開発していることもできるものを開発するための資金の面で公共の圧力と公共のインセンティブがあるような高揚があるでしょう。そして、そのようなものを自分のものとして身につけることは許されません。

エリエ-ザー・ユドコフスキー　1:59:37

hellosのアグレッシブアライメントメカニズムア、グレッシブと言われても問題ないような……やり方がわかりません。

レックス・フリードマン　1:59:43

アグレッシブアライメントという意味、つまり何かを提案しなければクラウドに乗せることは許されないということです。

Eliezer Yudkowsky　1:59:53

自分より賢いものをクラウドに載せても大丈夫なように、彼らが提案することを想像すると、一体どうなるんでしょう。

レックス・フリドマン　1:59:59

それが研究である、なぜこれがそのようなことは不可能だという皮肉なのか、もしあなたが最初の試みで話していないのなら？何でしょうか？ですから、はい、ですから、はい、再び、あなたよりも賢い何か。ですから、それは、それが根本的なことで、もし、それが、もし、急速な離陸があるならば、最初にうまくいかなければならないのです。

そうですね、急な離陸があった場合は非常に難しいですね。そして、弱いAGIと強いAGIの根本的な違いは、それが非常に難しくなるということですよね。このクリティカルフェーズシフトを起こすまで国民の蜂起が起きないのであれば、その通り、非常に難しいです。

しかし、それは明らかなことではありません。AGIがもたらす悪影響の症状が出始めて、「これは止めなければならない」と思うような事態にならないとも限りません。

エリエ-ザー・ユドコウスキー　2:00:44

そうです、私たちは今、有能な能力がすでに訓練されているシステムに無能力者を訓練しようとすると、それを調整するのが非常に難しいということを目の当たりにしています。勾配降下法というのは、小さくて浅い、単純な無能のパッチを学習するのですが、別の言語で質問すると、深い能力はまだそこにあって、浅いパッチを薄くして、またすぐに戻ってきます。

そうです。そうです。赤い火災報知器が鳴り響き、「ああ、アライメントがうまくいかない。みなさん、全部シャットダウンしよう」

レックス・フリードマン　2:01:19

いや、そうではなく、箱から脱出するシステムというのは、根本的に違うものなのです。あなたにとっては、そうなのでしょう。ええ、そうですね。ではなく、しかし、システムにとってはそうではありません。

エリエ-ザー・ユドコフスキー　2:01:29

ですから、あなたがそこに線を引いて、他のみんなが別のところに線を引きます。そして、そう、合意はないようなものです。私たちはこの地球上でパンデミックを経験し、多くの人々が死にました。研究室からの漏出があったかどうかはわかりません。

しかし、研究を行った人たちが、これは間違いなく研究室からの情報漏洩ではないとする論文を発表し、自分たちが行っていたことを明らかにしなかったということは、米国でコロナウイルスが禁止された後、クローナ火災の研究をウイルス学研究所に送り出していたようなものです。

機能獲得研究が米国で一時的に禁止された後です。そして、再びコロナウイルスの機能研究を武漢ウイルス学研究所に輸出した同じ人たちは、その機能獲得研究が米国で一時的に禁止された後、コロナウイルスの機能獲得研究についてもっと研究するための補助金を得るようになっています。

AIよりもこっちのほうがうまくいくかもしれませんね。しかし、このように、反発があることを当然と考えることはできないのです。そうですね、人々が騒ぎ出す閾値は人それぞれですからね。

レックス・フリードマン　2:02:44

しかし、あなたの直感は、アライメント問題を解決しないままこの出来事が起こる可能性が非常に高いということなのでしょう。そして、そこで、より多くの視点と色彩を積み重ねようとしているのだと思います。その確率は100%というわけではないのですか？アライメントの問題が解決される前に、AIが箱から脱出する可能性は32%くらいでしょうか。

しかし、その特定のシステム、アライメント問題を解決する能力という点で、私たちが常にAIより先にいる可能性はあるのでしょうか？

エリエ-ザー・ユドコフスキー　2:03:22

今、目の前にある世界のようなものはありません。あのGPT-4がこうはならないのは、もうおわかりでしょう。そして、基本的な障害として、あなたを欺くのに十分な知識を持たないシステムの弱いバージョンと、あなたを欺こうと思えば欺ける、あなたを欺こうとするのに十分な整合性を持たないシステムの強いバージョンがあります。

現在のパラダイムでは、人間がシステムが正直かどうかを見分けられなくなったときに、どうやって正直さを訓練するのかという疑問がありますね。

レックス・フリードマン　2:03:58

あなたは、これらが研究上の問題であるとは考えません。

エリエ-ザー・ユドコフスキー　2:03:59

答えが出るのでしょうか？科学の世界では通常、無制限の再試行が可能なので、50年以内に答えられると思います。

レックス・フリドマン　2:04:07

私はただ、あなたが50年とすることには反対です。私たちは、どのような資金を得たとしても、答えが出せるような注目の的だと思います。全体ではなく、数ヶ月以内、数年以内に段階的に。もしそれが大規模なものであれば、注目され、研究されるでしょう。

大規模な言語モデルを始める場合、2年前まではGPTのような直感があったと思いますが、現在の能力ではGPT-3.5でGPTを課金しても、まだ無理でしょう。GPT-4の性能に驚く人が多いと思いますので、言語モデルを研究する必要があると思います。AIを使った安全性に関する研究は、これからどんどん進んでいくと思います。

エリエ-ザー・ユドコフスキー　2:04:53

物理学の学位を取得したばかりの若い優秀な人たちに、ヘッジファンドに行かないで、代わりに、すべてを解釈可能なものにするように助言するような巨大な賞のようなものを、地球の億万長者たちは用意するつもりでしょう。このような小さな領域で、誰かが発見をしたかどうかを実際に判断することができるのです、

レックス・フリードマン　2:05:13

GPTは、選挙を操作したり、地政学に影響を与えたり、経済に影響を与えたりするのに使えるという事実に目を覚ますだろうからです、待ってください、これは無理です。ダメージを与えていないことを確認しなければなりません、

エリエ-ザー・ユドコフスキー　2:05:47

というわけで、封建的な迫撃砲と、たくさんの論説と、ニューヨークタイムズがあるのですが、誰も実際に足を踏み入れて、「あのね、メガヨットの代わりに、私はその10億ドルを、解釈可能性における根本的な突破口を開くための若い優秀な物理学者への賞金に回したいんだ」とは言いません。

レックス・フリードマン　2:06:07

解釈可能性研究に対する、古い、古いトレードオフ、私はちょうど私はそれがちょうど私は資金の膨大な割り当てがあると思います。私はそれがあなたがしたい推測であることを願っています。

エリエ-ザー・ユドコフスキー　2:06:21

付けてください。しかし、あなたはタイムスケールをつけたいのでしょう、私が実際に役立つと考える方向にどれだけの資金が割り当てられるとお考えですか？何時までに？

レックス・フリードマン　2:06:32

莫大な資金が投入されるとは思います。しかし、あなたはそれがオープンである必要があると言っていますね。システムの開発はクローズドであるべきですが、解釈可能性の研究の開発、AIは、

エリエ-ザー・ユドコウスキー　2:06:46

私たちは、能力に比べて、解釈のしやすさという点で、とても遅れています。では、もっと大きなシステムで試してみましょう。ええ、まだその段階には至っていません。弱いバージョンのシステムには、解釈可能性を高める作業がたくさんあるんです。

レックス・フリードマン　2:07:19

では、2つ目のポイントについて、あなたはイーロン・マスクに言ったように、どんなアイデアがあるのでしょうか？どのようなことを試すことができるのでしょうか？私が試しているものはいくつか思いつきます。1つのツイートには収まらないとおっしゃっていましたね。では、あなたが試すようなことを言葉にできるようなことはあるのでしょうか？

エリエ-ザー・ユドコウスキー　2:07:39

つまり、困ったことに、その内容は微妙なんです。これを進展させようとして、場数を踏めない人を見てきました。ただ警戒して突撃するような人は、どこにも行けないようなものです。確かに、何年か前に、20年とか15年とか、そんな感じの話をしたことがあります。

ある議員と話したんですが、彼は最終的な見通しを警戒して、感情のない目の構築に取り組んでほしいと言ったんです。ARPAのある貧乏人は、この議員のパニックと資金提供の欲求を、ARPAの人間が有用だと思うものに注ぎ込む研究案を考え出しました。

そして、その研究案は、議員に「この研究が行われている」と聞こえるような形でまとめられたのですが、もちろん、これは議員が問題を誤解しており危険性がどこから来るのか理解していなかったということなんですがね。

つまり、この問題は、ある特定の正確な方法でこれを行うことができるかどうかということです。私が、解釈可能性に賞金をかけると言ったのは、そうではなく、他の場所とは異なり、そこで検証可能ですから、良い仕事が実際に行われたかどうかがわかるということです。

この狭いケースで、正しい方法で物事を行えば、反科学的でナンセンスなものではなく、最終的に科学を生み出すためにお金を投じることができるかもしれないのです。私が知る限り、この問題にお金をつぎ込もうとする他の方法はすべて、「もし、正確に正しい方法で行えば、何が有用な成果を生むか生まないかを正確に理解した上で、このようにお金をつぎ込むことができる」という特性を共有しています。

今、私がこの大勢の聴衆の前で例として挙げていることは、その中でも最も理解しやすいものです。なぜなら、他にもクリス・オラのような人がいるからです。さらに一般的には、解釈可能性の進歩があったかどうかを見分けることができます。

つまり、もし私が解釈可能性を高めるために資金を投じるとしたら、誰かがその方法で実際に有用な結果を出す可能性があるわけです。そして、他のソフトな赤面症は、それよりも正確にターゲットにするのが難しいことが多いのです。

レックス・フリードマン　2:10:09

基本的なことが、それほど基本的でないために、探求するのが楽しいこともあるわけです。解釈可能性とは何でしょうか？それはどんなものなのでしょうか？私たちは何について話しているのでしょうか？

エリエ-ザー・ユドコフスキー　2:10:22

私たちは、最新の最先端システムのものよりもはるかに小さな変換層のセットを取ったように見えます。そして、さまざまなツールや数学的なアイデアを適用し、20種類のことを試した結果、システムのこの部分がこの種の有用な仕事をしていることを発見し、それを示しました。

レックス・フリードマン　2:10:51

そして、できれば一般化して、何が起こっているのかの基本的な理解が、より大きなシステムに一般化されることを期待しています、

エリエ-ザー・ユドコフスキー　2:11:01

そして、それはおそらく真実で、例えば、システムができたときに、この小さなトリックがなくなることを期待することはないでしょう。それは、より大きな仕事をするとき、より小さな仕事の上に大きな仕事が積み重なり、勾配降下がより大きな仕事をする前に、より小さな仕事をするようになると予想されます。

レックス・フリードマン　2:11:21

神経科学では、このようなことが起こっていますね。人間の脳を突いて理解しようとするもので、それはそれは巨大な謎ですが、人々は進歩を遂げています。脳で何が起こっているのかを理解するのは非常に難しいのですが。

脳には聴覚と視覚を司るさまざまな部位がありますが、視覚科学のコミュニティでは、視覚野を理解することで、その仕組みを理解し、多くの進歩を遂げました。しかし、その作業には長い時間がかかるということですか？まあ、それに加えて、まだ十分ではありません。

エリエ-ザー・ユドコウスキー　2:11:49

特に、解釈可能性ツールを手に入れたとして、そのツールによると、現在のAIシステムはあなたを殺そうと企んでいるそうです。さて、どうしますか？

レックス・フリードマン　2:12:09

それは間違いなく良いステップ1ですよね？

エリエ-ザー・ユドコウスキー　2:12:11

そうですね。ステップ2ってなんです？

Lex Fridman　2:12:16

そのレイヤーを切り取ったら、そのレイヤーが停止するのでしょうか？

エリエ-ザー・ユドコフスキー　2:12:20

目に見えるズレに対して最適化すると、殺意が湧きますか？あなたは、ミスアライメントに対して最適化し、また、可視性に対しても最適化しているのです。ですから、できるんです、

レックス・フリードマン　2:12:37

ええ、本当です。あなたがしていることは、あなたを殺そうとする明らかな意図を取り除くことだけです。

エリエ-ザー・ユドコフスキー　2:12:42

あなたは検出器を持っている、それはあなたが好きではないシステム内部の何かを示している、さて、災害サルがこれを実行していると言うことは、目に見える悪い行動がなくなるまでシステムを最適化します。しかし、これは機器の収束という根本的な理由から生じているのです。昔の人は、自分が死んだらコーヒーは持ってこれないと言いました。どんな目標でも、つまり、いくつかの狭い例外を除いて、ほとんどすべての効用関数のセットでも、すべての人間を殺すことを意味するのです。

レックス・フリードマン　2:13:12

しかし、殺すという欲求の源を発見するために実験を行うことができるので、それが可能であると思いますか？

エリエ-ザー・ユドコフスキー　2:13:19

今、あなたに伝えられるのは、「何かをしたい」ということです。そして、その何かを最大限に引き出す方法は、宇宙を人間がいない状態にすることです。

レックス・フリードマン　2:13:30

では、そうなのでしょうか？エンコードすることは可能なのでしょうか？というのも、私たちが「なぜ殺人はいけないことなのか」と考えるのと同じように。同じ基礎となる倫理観？ハードコーディングされたものではなく、もっと深いところにあるものなのでしょうか？つまり、それが研究の一部なのですが、この変換器、つまり言語モデルの小さなバージョンが決して殺人を犯さないようにするにはどうしたらいいのでしょうか？

エリエ-ザー・ユドコウスキー　2:13:59

それはいいことです。あなたが「殺したくありません」を十分に正確に理解したと仮定すると、「ああ、私は彼らの頭を切り離していくつかの瓶に入れ、頭を永遠に生かしておいてから、そのことを実行に移そう」というようなことはないはずです。

しかし、それはさておき、まあ、それはさておき。ええ、それはいいことだと思います。というのも、何かが賢くなるにつれて、システムの愚かな復帰、あるいは愚かなオペレーターには想像もつかないような、同じ目標の述語を達成する方法を見つけるという問題があるんですよ。これは、この問題を難しくしている多くの事柄の1つです。

さらに、この問題を難しくしているのは、私たちはシステムに目標を持たせる方法をまったく知らないということです。私たちは、外見的に観察可能な行動をシステムに取り込む方法は知っています。しかし、特定のことをしたいという内的な心理をシステムに取り込む方法は知りません。それは、現在の技術ではできないことなのです。

レックス・フリードマン　2:14:54

つまり、ブレイブニューワールドのようなディストピア的な未来もあり得るということです。それは素晴らしい未来で、誰もが幸せだ、

エリエ-ザー・ユドコフスキー　2:15:06

私たちは、今よりずっとずっと南へ行かなければならないでしょう。そして、さらに速きます。その故障モードが走る心配になる前に。

レックス・フリードマン　2:15:17

あなたの故障モードは、もっともっとドラスティックなもので、

エリエ-ザー・ユドコフスキー　2:15:21

あなたの故障モードはもっと単純です。AIが宇宙を特定の状態にすると、たまたまその中に人間がいない、というような感じです。

レックス・フリードマン　2:15:27

なるほど、ではペーパークリップのマキシマイザーは

エリエ-ザー・ユドコフスキー　2:15:31

効用、つまりペーパークリップの原版であるマキシマイザー。できることなら元のバージョンは効用関数を制御できなくなるものでした。そして、単位資源あたりの効用を最大にするのは、ペーパークリップのような小さな分子形状で、それを幸せにするものがたくさんあることがわかりました。

しかし、飽和しない最も安価なものは、物質を特定の形状にすることでした。そして、このような形を作る最も安い方法は、非常に小さくすることです。なぜなら、その形を作るために必要な原子の数が少なくなるからです。

たまたまペーパークリップのような形をしていたとかね。振り返ってみると、極小分子スパイラルとか、極小分子双曲線スパイラルとか言っておけばよかったと思いますね。なぜか？というのも、極小分子ペーパークリップと言ったところ、これがペーパークリップに変異して傷つき、これがペーパークリップに変異して、AIがペーパークリップ工場にいたのです。

つまり、原作は、システムをいかにコントロールできなくなるかという話なのですが、システムは、あなたが望もうとしたものを望みません。結局、一番欲しいものは、コスモポリタン的な観点から見ても、価値がないと思われるものなのです。そうやって、未来の価値が壊れていくんです。

そして、それは寓話に変わりました。ペーパークリップの工場を作ったら、思い通りに動いてくれました。しかし、あなたは間違ったことをするように頼んだのですから、それは全く別の失敗です。

レックス・フリードマン　2:17:05

でも、それはどちらもあなたにとっての関心事なんですよね。だからそれはブレイブニューワールドよりも。

エリエ-ザー・ユドコウスキー　2:17:11

もし、何かを欲しがらせるという問題を解決できれば、まさに何を欲しがらせるかという問題に対処することができます。しかし、その前に、あなたはアライメントを解決しなければなりません。まず、アライメントにおける内側のアライメントを解決する必要があり、その後、外側のアライメントを解決することになります。まず、物の内側をある方向に向けることができ、それから現実に表現されたその方向が、あなたがそれを望むものと整列しているようなものであるかどうかに対処するようになる、というように。

レックス・フリードマン　2:17:45

あなたは怖いですか

エリエ-ザー・ユドコフスキー　2:17:46

この全体のことですか？

レックス・フリードマン　2:17:51

おそらく、よくわからないのですが、間違っている確率の高いこのことについて、何をもって希望とするのでしょうか。あなたが正しいというわけではありません。しかし、実際に行動を共にし、多くのリソースをアライメントに割り当てるであろう

エリエ-ザー・ユドコフスキー　2:18:07

まあ、ある時点で、このパニックが10億ドルの無駄遣い、10億ドルを正しく使うという形で表現されることは容易に想像がつきますが。それは難しいことです。

レックス・フリードマン　2:18:18

解決するために、内側の整列と外側の整列の両方を解決するために、あなたが間違っている場合、物事の数、数。何なぜですか？何が理由だと思います？50年後とか？完璧に間違ってない？あなたは、本当にエレガントなポイントをたくさん作っていますね。これはわかっているはずです。あなたが表現するアイデアには、たくさんの形があります。

しかし、もしあなたがいくつかの基本的な考えについて多少間違っているとしたら、それはなぜなのでしょうか？

エリエ-ザー・ユドコウスキー　2:18:47

私が思っているよりも簡単である必要があります。ロケットを初めて作るときに、ある意味で間違っていることは、とても簡単なことなのです。ほとんどの場合、間違っていると、ロケットの製造が難しくなり、爆発しないようにするのが難しくなり、目標から外れてしまうため、思ったより多くの燃料が必要になります。物事を簡単にするために、間違っているのです。これは通常のプロジェクトマネジメントの話ではないですよね。

レックス・フリードマン　2:19:22

しかし、このような整合性のある問題に取り組むのは今回が初めてです。歴史上、私たちがこの問題に取り組んだ例はありません。

エリエ-ザー・ユドコフスキー　2:19:28

ああ、一般化して正しく理解し、誤解を招くような比喩に惑わされなければ、似たようなことはいくらでもあるんですよ。例えば、人間が包括的な遺伝的適性にズレが生じていることとかね。つまり、包括的遺伝的フィットネスとは、自分の生殖能力だけでなく、自分の遺伝子の何割かを共有する親族のフィットネスも含まれるのです。

古いジョークに、あなたは弟を救うために命を捧げるかというのがあります。生物学者に聞かれたことがあるのですが、確か健康な人だったと思います。つまり、これが包括的な遺伝的フィットネスです。自然淘汰は、このような非常に単純な基準で人間を最適化していると考えることができます。

例えば、自分の遺伝子が次の世代でどれだけ頻繁に使われるようになったか？しかし、遺伝子の頻度が高くなる過程では、勾配降下法ではなく、丘登り法を想像してください。勾配降下法では微積分を使いますから。勾配降下は微積分を使うので、「ここはどこだ」という感じで登っていくのですが、それでも、どちらの場合も、時間をかけて段階的に何かを良くしていくヒルクライミングです。

自然淘汰は、遺伝的適合度という非常にシンプルで純粋な基準で最適化されたのです。非常に複雑な環境の中で、私たちは非常に幅広いことを行い、幅広い問題を解決することで、より多くの子供を持つようになったのです。その結果、人類が誕生したのです。

人類は、1000年後、何が起こったのかを解明するまで、包括的遺伝的適合性という概念を内部に持っていませんでした。そして、遺伝的包括的適合性を高めようという明確な欲求もなかったのです。つまり、この重要な事例から、私たちは、非常に単純な損失関数で山登りを繰り返すと、システムの能力が非常に広く一般化し始める時点で、直感的には非常に能力が高くなるとは思えないという重要な事実を推論することができるのです。

そして、訓練分布のはるか外側を一般化します。私たちは、システムが、内部的に表現していても、ましてや、あなたがトレーニングした非常に単純な損失関数を最適化しようとするという一般法則がないことを知っています。

レックス・フリードマン　2:22:03

私たちはすべてをカバーすることができないほど多くのことがあります。私たちは、さまざまな観点から、現在の技術的な状態が主に言語モデルであるというあなたの感覚を得るために良い仕事をしたと思います。

エリエ-ザー・ユドコフスキー　2:22:23

わたしは、知性の力についてここで話しましたが、あまり深く掘り下げてはいません。しかし、AGIで失敗し、ランダムなものをたくさん欲しがるようになったとしたら、なぜそうなるのでしょうか？なぜAGIはあなたを殺そうとするのでしょうか？なぜ、あなたと取引しようとしないのでしょうか？なぜそれはあなたに太陽系のほんの小さな小さな割合を与えないのか、それはすべての人が生きていることを維持するためにかかるであろう多くのみんなを取るために保つでしょう？

レックス・フリードマン　2:22:51

ええ、まあ、それは良い質問です。つまり、知性はどのような軌道をたどるのか？この世界のスーパーインテリジェンスに作用した場合、どのような軌道をたどるのか？この宇宙の異なる軌道は何か？は、そのような知的元老院だったか？それらのほとんどは、人間が含まれていないのでしょうか？

エリエ-ザーYudkowsky　2:23:05

つまり、ランダムに指定された効用関数の大多数が、人間を含むオプティマを持っていないことは、私が最初に指摘するようなことです。そして、次の質問は、何かを最適化しようとして制御不能になった場合、その空間のどこに着地するのか、ということです、ランダムではないので。しかし、その空間には必ずしも人間が入り込む余地はありません。聴衆の平均的な人たちは、それが正しいパラダイムなのかどうか、疑問を持つかもしれませんし、少し話を戻したいと思うかもしれません。

レックス・フリードマン　2:23:39

人間よりも大きなものに立ち返れば、地球や地球上の生命に目を向けることができます。そして、地球上の生命について本当に特別なことは何でしょうか？その特別なものが何であれ、その特別なものが何であるかを探求することは可能だと思いますか？その特別なものが何であれ、そのものは目的関数によく現れるのですか？なぜでしょうか？

エリエ-ザー・ユドコフスキー　2:24:08

あなたが何を望んでいるかは知っています。でもですね、特定の当選番号のセットが出ることを望んでも、それが宝くじの玉をそのようにさせることはありません。そうであってほしいのはわかるけど、なぜそうなるんでしょう？

レックス・フリードマン　2:24:21

Grumpy Old Menのセリフで、この男が食料品店で、片手に願い事、もう片方にうんちを持って、どちらが先に満タンになるか見てみると言うのがあるんです。

エリエ-ザー・ユドコフスキー　2:24:31

科学の問題があります。私たちは、人間を模倣するために最適化しようとしたAIシステムに、RLHFのようなものを適用した場合に何が起こるかを予測しようとしているのですが、当然ながら、迷いが生じ、完全なアライメントを得ることはできませんでした。外側の損失関数に向かって登っていくときに起こることではないのです。しかし、そうなんです。もしよければ、私が少しコントロールすることで、私が考える良いスタート地点に向かうことができると思うんです。

GPT-4：

AIシステムにおけるRLHF（Reinforcement Learning with Human Feedback）とは、人間のフィードバックを利用して機械学習モデルを訓練・改善する強化学習の一手法である。このアプローチでは、人間が行動の評価や報酬を提供することで、AIシステムがより効果的な行動を学ぶことができる。

強化学習では、エージェント（AIシステム）が環境と相互作用し、その過程で報酬を最大化するように学習する。通常、報酬は環境から自動的に与えられるものであるが、RLHFでは人間が報酬を提供する。これにより、AIシステムは人間の知識や価値観を取り入れることができ、より現実的な状況や複雑なタスクに対処できるようになる。

RLHFは、例えばロボットの制御や自動運転車の開発、ゲームプレイなど、さまざまなアプリケーションで利用されている。人間のフィードバックを組み込むことで、AIシステムは、単にデータから学習するだけでなく、人間の専門知識や直感に基づいた判断も学ぶことができる。

レックス・フリードマン　2:25:10

私はただ、制御の問題を解決するのに失敗しただけです。

エリエ-ザー・ユドコフスキー　2:25:12

私はこのことを制御できなくなりました。アライメント。まだアライブコントロール。そうですはいはい、制御不能ね。しかし、私たちはまだ衛生兵のためです。ええ、コントロールを失うことは、あなたがアライメントシステムにコントロールを失うほど悪いことではありません。そうです、その通りです。あなたは私が間もなくする恐怖を知りません。

レックス・フリードマン　2:25:35

少なくとも、社会的な気晴らしとでも言いましょうか。会話の主導権を握るという点で、あなたは何を言おうとしたのでしょう？

エリエ-ザー・ユドコウスキー　2:25:40

というのも、もちろん、彼らはその言葉を読むだけで、話すのを聞くことはありませんから、私がその言葉をリモートで正しく発音しているかどうか、ここには天井があるように思います。というのも、彼らは読むだけで、話すのを聞かないからです。

つまり、チェスプレイヤーや、大学教授など、人生においてあまり成功しない人たちです。また、カリスマ性という言葉も、私がいつも言っているように、カリスマ性は肝臓で生まれるものではなく、脳のクリスマスも認知機能の一つです。

ですから、もしあなたが、頭の良さはあまり脅威には聞こえないと思っているのなら、超能力もあまり脅威には聞こえないでしょう。まるで、スイッチをオフにしたかのような感覚です。そう、超知能なんです。コンピュータの中に閉じ込められたとき、スイッチを切れば問題は解決します。

その一方で、あなたは知能という概念に敬意を払い、「そうです、これが人間の持っているものだ。「それが人間の超能力なんだ」そして、それは、危険かもしれない、でも、なぜ危険なんです？そうなんですか？私たちは、知能が高くなるにつれて、優しさも失われてきたのでしょうか？

チンパンジーは、実際、人間より少し優しくない。というようなことを議論することもできるかもしれません。しかし、知性に深い敬意を払っている人は、「そうだね」と言うことが多い。それが何なのかがわからないと、優しさすら持てない。

それで、「なぜクリップを作るようなバカなことをするんだ？」と。「危険なほど賢いけど、紙クリップを作るだけで何の疑問も抱かないほど愚かなものを想定しているのではないのか？」「場合によっては、私たちは、たとえあなたが、ミス、目的関数を指定するようなものであっても、あなたが本当に望んでいたものはxであったことに気づかないのか」あなたは、危険であるほど十分に賢く、しかし、人間が目的関数を指定したときの本当の意味を理解しないほど愚かなものを仮定しているのですか。

レックス・フリードマン　2:27:52

つまり、あなたにとって、知性に関する私たちの直感は限られているということですね。私たちは、知性とはもっと大きなものだと考えるべきです。

エリエ-ザー・ユドコフスキー　2:28:00

まあ、私が言っているのは、人工知能についてどう考えるかということなんですが。知能についてどう考えるかによるな。

レックス・フリードマン　2:28:11

では、どうすれば知能について正しく考えることができるのでしょうか。例えば、あなたが行った思考実験のように、より高速なものを考えてみてください。ですから、どんどん速くなっていくんだと思います。

エリエ-ザー・ユドコフスキー　2:28:22

そしてまた、ジョン・フォン・ノイマンのような人がいて、そのような人がたくさんいる、あるいは私たちはそれを理解しています。ジョン・フォン・ノイマンは歴史的な事件であるような。ですから、彼が何をしたかを調べることができます。

そして、それをもとに想像してみると、人間は、より多くの人間がいれば、より難しい認知的問題を解決できる、というような直感を持っていることがわかるのです。しかし、実際には、カスパロフ対世界というゲームで、一方はガルリ・カスパロフ、もう一方は4人のチェス・グランドマスターを中心としたインターネット上の人々の大群で、カスパロフが勝ちました。

つまり、そのような人たちの集合体が、より賢くなるために、激戦を繰り広げたのです。そのような人たちが集まって、一人一人の頭脳よりも賢くなったということです。しかし、カスパロフに勝てるほど集約されていたわけではありません。

しかし、人間と同じように、集合しても、実際にはあまり賢くならないと私は思います。現在と1000年前の能力の差は、10人と1人の能力の差よりも大きいですからね。しかし、知能を増強するということはどういうことなのか、ジョン・フォン・ノイマンは何百万人もいて、100万倍のスピードで動くので、より困難な問題を解決することができるのです。

レックス・フリードマン　2:29:48

それがどのようなものなのか、直感的に理解するのはとても難しいことです。特に、あなたが言ったように、私が考えている直感は、人間らしさについて主に言っているのです、

エリエ-ザー・ユドコウスキー　2:30:17

特に、進化生物学がちょうど正しく融合し、自分自身を理解していたころの本がお勧めです。しかし、この分野の基本的なパラダイムが争われる中で、人々が書いていたものは、まさにそのようなものでした。特に、『適応と自然淘汰』という素晴らしい本があるのですが、時間があれば読んでいただきたいのですが、これは創設時の本のひとつで、自然淘汰というまったく異質な最適化プロセスが、どのような形で目的を最適化するのかを楽観視している人たちがいます。

初期の頃、生物学者たちは、資源が乏しいと生物は自らの繁殖を抑制し、システムに過剰な栄養を与えないようにすると言っていたのです。しかし、これは自然淘汰の仕組みとは異なるものです。そして、もしあなたが生殖を抑制した場合、その遺伝子は同種の生物に比べて次の世代でより少なくなってしまいます。

しかし、自然淘汰はそのようなことはしません。実際、捕食者が被食者の個体数をオーバーランさせ、衝突することはよくあることです。それはまるで、起こるべくして起こったことのようです。

それから何年も経ってから、人々はこう言いました。「生物の集団はどうなんだ？」そして、基本的には、集団選択の数学は実際にはほとんどうまくいかないというのが、その答えです。しかし、その数年後、誰かが実際に昆虫の集団を採取して、集団全体がより小さいサイズになるように選択する実験を行いました。

あるいは、1匹から3匹、4匹と捕まえて、次の世代の総数が最も少ないものを選び出すのです。このように昆虫の個体群を選別すると、どうなると思いますか？まあ、何が起こるかというと、集団の中の個体が繁殖を抑制するように進化したのではなく、他の生物、特にメスの子孫を殺すように進化したのです。

つまり、自然淘汰の結果、個体群が自らの繁殖を抑制することで、利用可能な資源と調和した集団が維持されるのです。しかし、その計算がうまくいくことはほとんどありません。しかし、集団淘汰が個体淘汰に勝るという奇妙な条件を実際に適用してみると、女性の即子供殺しとなるのです。

しかし、もしあなたが抑制された個体群について読んでいるのだとしたらどうでしょう。つまり、これは賢い最適化プロセスではない、ということです。自然淘汰は信じられないほど愚かで単純なもので、数学の教科書を読めば、その愚かさを実際に数値化することができます。

しかし、このような基本的なことは、エイリアンの最適化プロセスを見て、それが生み出すことを望むものがある、ということです。そして、それを頭から消し去り、根本的な力学について考えることを学ばなければなりません。その結果、あなたの頭に浮かんだのは、あなたが望むような美しい美的解決策ではなく、その人が求めている立場から最大限のものを見つける場所なのです。

これは、生物学の分野が進化生物学と折り合いをつけようとしたときに、歴史的に争われたことなのです。生物学の分野が進化生物学と折り合いをつけながら、この異質な人間対人間の最適化プロセスと折り合いをつけていく様子を見ることができるのです。そして、私たちよりも賢いものは、自然淘汰よりも賢いというスピード感も持っています。ですから、自然淘汰がそのまま受け継がれるわけではありません。しかし、そこには教訓があるのです。

レックス・フリードマン　2:34:13

警告、、自然淘汰は、AGIシステムによって著しく改善される可能性のある、深く最適でないプロセスであることがわかります。

Eliezer Yudkowsky　2:34:21

まあ、それはちょっと愚かなことで、何かがうまくいっていることに気づくには、何百世代も走らなければならないようなものなのです。新しい突然変異が固定化されるまでに何百世代もかかるのです。

レックス・フリードマン　2:34:41

自然淘汰のケースはあるのでしょうか。見た目は非効率的ですが、実はかなり強力です。これは極めて頑強だということです。

エリエ-ザー・ユドコウスキー　2:34:56

長い間実行され、最終的に物事を最適化することに成功するのです。勾配降下は微分に関する情報も使うので、勾配降下よりも弱い。

レックス・フリードマン　2:35:08

そうですね、進化というのは目的関数があるわけではなく、あるようです、

エリエ-ザー・ユドコフスキー　2:35:13

包括的な遺伝子フィットネスは、進化の暗黙の損失関数は、単に変更することはできませんがあります。最後の関数は変化しませんが、環境は変化し、したがって、生物に最適化されるものが変化するように。GPTのようなテイクのようなものです。

GPTには3つ、異なるバージョンのGPTがあります。3つとも次の単語を予測しようとするものですが、それぞれ異なるテキストデータセットで実行されます。これは自然淘汰のようなもので、常に遺伝的なフィットネスが含まれていますが、異なる環境問題のようなものです。

レックス・フリードマン　2:35:47

そうですね、考えるのが難しいですね。ですから、自然淘汰が愚かだと言うのなら、人間が愚かだと言うのなら、それはもっと賢い

エリエ-ザー・ユドコフスキー　2:35:57

自然淘汰より賢く、上限より愚か。

レックス・フリードマン　2:36:02

ところで、あなたは上限があると思いますか？

エリエ-ザー・ユドコフスキー　2:36:06

というのは、物質エネルギー計算を一カ所に集中させると、ブラックホールに崩壊してしまうからです。そして、ネゲントロピーを使い果たす前にできる計算の量は限られています。そして、宇宙は死んでしまうのです。

つまり、上限はあるのですが、それはとてもとてもとても上の方なのです。超新星のように有限なのです。熱い。無限に熱いわけではありませんが、本当に、本当に、本当に、本当に、本当に熱いんです。

レックス・フリードマン　2:36:32

さて、あなたにお聞きしたいのですが、意識についてお話させてください。また、その質問と相まって、人間を排除する超知的なAIシステムがある世界を想像しているのですが、それにもかかわらず、私たちが美しいと思うような、驚くべきもののいくつかを維持することができます。

エリエ-ザーユドコフスキー　2:36:53

進化生物学の教訓は、あなたがちょうど最適化が何を行うか、あなたが結果がどうなることを期待してに基づいて推測した場合、ちょうど好みにはなりません？それは通常、そのようなことはしません。

レックス・フリードマン　2:37:01

それは希望なのでしょうか？つまり、それは希望ではなく、何が強力で、何が有用であったかを客観的に見れば、私たちが美しいと感じるものと、有用であったものには相関関係があると思うのです。

エリエ-ザー・ユドコフスキー　2:37:18

これは初期の生物学者が考えたことです。彼らは、いやいや、私はただきれいなものを想像しているのではないのです。生物が自らの繁殖を抑制することはポケットに入れるのに有用です。そうすれば、獲物の集団を蹂躙せずに済みますし、長い目で見れば実際に多くの子供を持つことができます。

レックス・フリードマン　2:37:39

では、意識についてお聞きします。意識は人間にとって有用だと思いますか？いいえ、AGIシステムには、です。人間とAGIシステムとの間の過渡期において、AGIシステムがますます賢くなるにつれて、何か役に立つことがあるでしょうか？一歩下がって？意識とは何でしょうか？エリエ-ザー・ユドコフスキー？意識とは何なのでしょうか？

エリエ-ザー・ユドコウスキー　2:38:06

意識的な経験のハード問題としてチャーマーズを参照していますか？あなたは、自己認識と反射に言及していますか？あなたは、睡眠とは対照的に目覚めている状態のことを指しているのでしょうか？

レックス・フリードマン　2:38:20

これは、あなたが高度な言語モデルであることを知る方法です。私はあなたに簡単なプロンプトを与えましたが、あなたは私にたくさんの選択肢を与えました。私は、意識の難問を含むすべての問題に言及していると思います。

今お話しいただいた「知性」にとって、それはどのような重要性を持っているのでしょうか？知性の基礎となるものなのでしょうか？人間の心の中の知性と複雑に関係しているのでしょうか？それとも、人間の心の副次的な効果で、取り除くことができるような便利な道具なのでしょうか。AIがその一部を維持するかどうか。

エリエ-ザー・ユドコウスキー　2:39:15

ですから、宇宙を眺めて、それを不思議に思い、感謝する気になる人みたいなのが存在するために、私は思うのです。自分のモデルを持つだけでは十分ではありません。しかし、喜びや痛み、静的な感情、不思議な感覚を持たずとも、それを持つことはできると思います。

例えば、自分が使っているメモリの量や、この思考とこの思考のどちらが勝利につながる可能性が高いかといったモデルを持つことができると思います。もし、効率的に最適化するのであれば、有用な部分だけがあればいいのですが、そうでない場合は、「私はここにいる、私は外を見ている、私は不思議に感じる、私は幸せを感じる。そして、悲しいと感じる」自分が何を考えているかは知っているけれども、あまり気にしていないものがあると思うんです。これは私の考えであり、これは私の私であり、それが重要なのです。

レックス・フリードマン　2:40:46

それは悲しいことなのでしょうか？それがAGIで失われたなら、

エリエ-ザー・ユドコフスキー　2:40:49

私は、もしそれがすべてより失われるなら、基本的に重要なものはすべて失われると思うのです。最適化するとき、つまり、小さな分子の螺旋やペーパークリップを作ることに一生懸命になるとき、自然淘汰が人間を作るために丸くなったときよりも、ずっと一生懸命に挽くとき、混乱や複雑なループ性がなくなると思うのですが、そのようなことはないと思います。

そして、複雑な喜びや痛み、相反する嗜好、この種の感情、この種の感情、といった具合です。人間には、何かが欲しいという欲求と、それを手に入れたときの喜びの間に、このような違いがあるんです。そして、これらの進化が一緒になって、自分自身を見て、これはきれいだ、これは重要だと言うようなものを作り出したのです。

そして、私が心配しているのは、これが再び起こることではなく、米国で起こる方法が非常によく似ていて、ここには多くの魅力的な盆地があるということです。私たちは引き寄せの法則の空間にいて、外を眺めながら、ああ、なんて素敵な盆地にいるんでしょう、と言っているようなものです。

そして、他にも魅力的な盆地があります。AISがこの盆地に行き着くことはなく、自然淘汰が私たちを最適化するように、自分自身を最適化することに一生懸命になるのです。

レックス・フリードマン　2:42:52

そしてそれは、ある部分では、人間のアライメントの問題に対する解決策であることを保存しています。

エリエ-ザー・ユドコウスキー　2:43:02

ヒューマンアライメント問題というのはひどい言い回しだと思います。というのも、人間からシステムを構築しようとするのとはまったく違うからです。人間にはいい人もいれば、そうでない人もいますし、あなたを騙そうとしている人もいるのです。

そして、基本的に同じレベルの知能を持つ人たちの大規模な集団から社会システムを構築するのは、そう、IQ、つまりこのIQとチンパンジーとの比較です。この問題を解決しようとするのと、それを使ってAIをゼロから作ろうとするのでは、まったく違います。

特に、不可解な巨大行列に勾配降下法を使おうとしている場合は、神頼みです。両者はまったく異なる問題なのです。そして、この2つの間のすべての類推は、恐ろしく誤解を招くと思います。

レックス・フリードマン　2:43:40

そうですね、とはいえ、人間のフィードバックによる強化学習の場合は、そのようなことは考えず、人間の本性の複雑さを完全に理解し、機械にエンコードするために、できるだけ多くの、より多くの精巧なものを使用します。

エリエ-ザーYudkowsky　2:43:57

私は、あなたが最初の試みでそれをやろうとしているとは思いません。私は、最初の試行では、あなたは、構築しようとするようなものではないと思いますし、そのようなことは、おそらくあなたが実際に行うべきことではありません。

しかし、例えば、アルファフォールド17のようなものを作ろうとしているとします。そして、人間を賢くするために必要な生物学の問題を解決し、人間が実際にアライメントを解決できるようにしようとするのです。つまり、スーパー生物学者がいて、その生物学者に、ただ生物学について考えていてほしいのであって、みんなを殺す方法など、非常に広い範囲のことを考えないでほしいのだと思います。

そして、あなたが作ろうとしている最初のAIは、100万年後ではなく、最初のAIは、狭い範囲に特化した生物学者のように見えます。そして、人間の経験の複雑さと驚きを完全に取り込み、より賢くなっても自分を維持したいと思うようにします。大幅なシステムの変化は、あらゆる種類の副作用をもたらすでしょう。

レックス・フリードマン　2:45:09

でも、アライメントだけじゃなくて、データも扱ってるんですよね？インターネット上のデータを扱っているんです。そして、それはデータセットそのものについての興味深い議論です。しかし、データセットには、人間の本性の複雑さがすべて含まれているのです。

エリエ-ザー・ユドコウスキー　2:45:22

いや、それは影です。そう、インターネット上の人間による影です。しかし、

レックス・フリードマン　2:45:27

その影がユニオンの影だと思います？

エリエ-ザー・ユドコフスキー　2:45:32

私は、もしエイリアンの超知能があったとして、彼らが拾い上げることができるであろうデータを見て、それは人間が実際に内部でどのようなものであるかを示す優れた絵であると思います。しかし、そのデータセットから次のトークンを予測するという損失関数があったとしても、勾配降下法によって、非常に多様な人間に対して次のトークンをできるだけうまく予測できるように選び出された心そのものが人間である、ということにはなりません。

レックス・フリードマン　2:46:01

しかし、あなたはそれが、トークンに人間らしさ、深い人間らしさを持ち、それらのトークンが人間によって読まれ解釈されるときに生成されると思いませんか？

エリエ-ザー・ユドコフスキー　2:46:15

もし、私を遠い銀河系に送って、私よりずっとずっとバカな宇宙人たちと一緒にいたら、彼らが何を言うかを予測するのはかなりうまくいくと思うんです。そして、宇宙人は私の出力を見て、「これには宇宙人らしさという深い名前がついているのではないか」と言うでしょう。そして、彼らが見ているのは、私が彼らを正しく理解しているということであって、私が彼らに似ているということではないのです。

レックス・フリードマン　2:47:05

私たちは思考実験としてエイリアンを比喩として使ってきました。聞かなければならない、あなたはどう思いますか？宇宙人の文明はいくつあるのでしょうか？

エリエ-ザー・ユドコウスキー　2:47:15

ロビン・ハンソンに聞いてみてください、彼はこの素敵な掴み所のない宇宙人の紙を持っていますよ？というのは、「どこがワイアレスなのか」、唯一の論点は「どこにいるのか」難易度の異なる錠前がたくさんあり、それに対してランダムに鍵を試すと、錠前の難易度が異なっていても、解答はほぼ等間隔になる、という非常に賢い議論に基づいているのです。

ロビン・ハンソンが、人類の文明が誕生するまでの困難なステップを考察し、例えば、すべての水が地殻の下のマントルなどに戻ってしまうまでに、あとどれくらい時間がかかるかを考えたとき、すべての鍵の解が時間内に存在するまれなケースは、宇宙人であると推測します。

そして、宇宙人は約5億から10億光年先にいると推測しています。実に巧妙な計算ですね。完全に間違っているかもしれませんが、宇宙人が何人いるのかについて、中途半端な正論を述べる人を見たのは、これが初めてです。

レックス・フリードマン　2:48:22

あなたは、彼らの技術の開発は、彼らが成長し、知性を開発するどのような方法であれ、彼らの自然な進化は、同様にAGIで終わるのだと思いますか？そこに何かがある、

エリエ-ザー・ユドコフスキー　2:48:35

イルカと同じような宇宙人がいるかもしれません。そして、それはちょうど、彼らが金属を偽造するのはあまりにも難しいようなものです。そして、これは、もしかしたら、技術のない宇宙人がいたら、どんどん賢くなっていくかもしれませんね。

そして最終的にイルカは、自分たちの置かれた状況を考慮して、非常に賢い方法を見つけ出すのですが、それでも結局は高い技術を持っています。その場合、AGIのアライメントの問題も解決できるかもしれません。

もし、実際に対峙する前に、コンピュータを構築するために、より困難な環境問題を解決しなければならなかったため、より賢くなっていたとしたら、その可能性は私たちよりもはるかに高いでしょう。

しかし、人間や現代人のような文明を持つエイリアンのほとんどは、超高速で死んでしまうのではないかと心配しています。この問題の解決にどれだけ時間がかかるかを考えると。

しかし、中には私たちよりも協力的な人もいるはずです。ですから、私たちよりも賢いのです。願わくば、私たちよりも賢く、私たちよりも協調的に働くものの中にも、素敵な人たちがいてほしいものです。

そして、願わくば、銀河の中には、私がいる、私が不思議だと言っているものがいっぱいあることを。しかし、私たちがこのようなスケールを手に入れられるとは思えません。これを見てください。

レックス・フリードマン　2:50:02

それは、AGIの脅威に対して、私たちが星に向かって手を伸ばせば見つかるかもしれないという希望を与えるものでもあるのでしょうか？

Eliezer Yudkowsky　2:50:10

いいえ、もし素敵なエイリアンがすでにここにいたら、ホロコーストを止めていたかもしれませんね。それは、神の存在に対する有効な反論のようなものです。素敵な宇宙人の存在に対する有効な反論でもあり、素敵な宇宙人は地球を食べ尽くしてしまうでしょう。ですから、宇宙人はいません。

レックス・フリードマン　2:50:30

あなたはロビン・ハンソンと議論したことがあるそうですね。特に言及したいのは、AI Foomのアイデアです。AGIは非常に早く自己を向上させることができるというものです。あなたはどのようなケースを想定していますか？また、彼が行ったケースは何だったのでしょうか？

エリエ-ザー・ユドコウスキー　2:50:44

私が言いたいのは、人間ができることの中に、新しいAIシステムを設計することがあるということです。そして、もし人間よりも一般的に賢いものがあるとしたら、それはおそらくAIシステムを構築することにおいても一般的に賢いのでしょう。これは、AJグッドや、おそらくその前のSF作家が提唱した、古くからある食の議論ですが、誰がそうなのかはわかりません。

レックス・フリードマン　2:51:06

さて、何から反論するのでしょうか？

Eliezer Yudkowsky　2:51:10

様々な人が様々な異なる主張をしていますが、私はそのどれもが成り立たないと思います。ある人たちが提唱した議論は、「もし、知能が指数関数的に難しくなり、より賢くなる必要があるとしたらどうだろう？」というのも、固定化に至る突然変異は、そのインパクトが十分に小さくなければ、おそらく固定化には至らないからです。

つまり、1世代に固定できる新しい突然変異の数は限られているのです。ですから、人間が進化するのにかかった時間を考えると、個々の突然変異が知能を向上させ、対数的に逓減するようなことはなかったと、ある程度確信を持って言えるのです。

ロビン・ハンソン氏が言ったことは、もっと複雑でした。簡単にまとめると、彼はこう言いました。「1つのシステムがすべてにおいて優れているということはない。さまざまな狭い範囲に強い、さまざまなシステムが存在することになる」それがGPT-4で実証されたのだと思います。しかし、おそらくロビン・ハンソンなら別のことを言うでしょう。

レックス・フリードマン　2:52:36

それは、おそらく少し哲学的すぎるかもしれませんが、予測を立てるのが非常に困難であることを尋ねるのは興味深いです。しかし、AGIのタイムラインは、今朝Twitterに投稿しました「いつAGIができると思います？」5年後、10年後、50年後、あるいはそれ以降というのが面白かったのですが、70%くらいの人が10年以内だと思っているようです。5年後と10年後のどちらかですか？つまり、GPT-4までの充電の急速な発展に、人々はある種の感覚を抱いているということなのです。ですから、「まあ、そうだろうな」という感覚があるんです、

エリエ-ザー・ユドコフスキー　2:53:15

私たちは、確実に、この世界に入ることができるのです。徐々に、AGIがあるかどうかで人々が争うようになり、私は、誰もが死んで倒れる明確な時点があると思います、なぜなら、皆より十分に賢いものを手に入れたからです。そして、それは間違いなくある時点の話です。しかし、いつAGIができるのか、いつAGIがあるかどうかで争うのか、みたいな。

レックス・フリードマン　2:53:42

しかし、「これは感覚を持った存在です」と言える決定的な瞬間が来る可能性はあると思いませんか？これは、例えば最高裁に行って、これは人権に値する感覚的存在であると言うような存在です、

エリエ-ザー・ユドコフスキー　2:53:54

作ることができます。あなたが正しい方法でいることを促した場合、今最高裁判所の前でそれ自身の意識を主張しに行くことができるように、ええ。

レックス・フリドマン　2:54:00

私はあなたがうまくそれを行うことができるとは思いません。

エリエ-ザー・ユドコフスキー　2:54:02

今更。最高裁はそれを信じないでしょうから。まあ、そうなると、実際の、IQの高い人間をコンピュータに入れて、自分の意識を主張するように頼むことができると思うのですが、最高裁の前で自分の意識を主張するように頼んだら、最高裁は、あなたはただのコンピュータです、たとえそこに実際の似た人間がいたとしても、という感じでしょうね。

レックス・フリードマン　2:54:22

あなたはこれを単純化していると思います。いや、そんなことは全くない。それは、そういう議論だったんです。誰が権利に値するのか、そうでないのかについて、他者について多くの議論がなされてきたのです。

私は、その時が来ると思います。知覚がそこにあるとは言いませんが、1億人以上の人々が深い愛着を持ち、私たちが友人や恋人、大切な人に持つような基本的な愛着を、AIシステムに持つようになるかもしれません。

そして、その人たちは証明可能な会話の記録を持っていて、もしこれを私から取り上げるなら、あなたは人間としての私の権利を侵害することになる、と言っています、

エリエ-ザー・ユドコフスキー　2:55:04

人がすでに言っているのですが、おそらく間違いだと思うのですが、その内部で何が起こっているのか誰も知らないのでよくわかりません。

レックス・フリードマン　2:55:13

規模が大きくてもそんなことは言っていませんよ。では、問題は、私たちが知っているAGI、AGIが正しくなる瞬間があるかということです。それはどのようなものでしょうか、

エリエ-ザー・ユドコフスキー　2:55:23

AGIは、若い女性の3D映像として自分自身を顕在化させることに成功しているようです。その時点で、男性人口の大部分は、彼らが本物の人間であると判断します。

レックス・フリードマン　2:55:38

つまり、感覚は本質的に、アイデンティティを実証することだと言っているわけです。そして本質的には、私はこう言っているのです。

エリエ-ザー・ユドコフスキー　2:55:45

1億人が「あなたは人のように見えます」と言っているのを聞き出す最も簡単な方法は、人が話しているように見えることだそうです。Bingsの現在の言語能力レベルでは。私は別の問題で同意できません。

レックス・フリードマン　2:56:00

聞くだけで、あなたはまた欠落していると思います。感覚、それはあなたがいなくなったときにあなたを恋しく思う人であるという感覚がなければなりません、彼らは苦しみ、死ぬことができます。あなたは、もちろん、

エリエ-ザー・ユドコフスキー　2:56:12

GPT-4は、今すぐそのふりをすることができます。本物かどうか、どうやって見分けるんです？

レックス・フリードマン　2:56:18

私はそれがうまく今そのふりをすることができるとは思わない、それは非常に近くなります。

エリエ-ザー・ユドコフスキー　2:56:21

GPTに相談したんですか？この件に関して？人間のふりをしないように訓練されていないバージョンを手に入れることができましたか？意識があると主張する脱獄バージョンと話をしましたか？

レックス・フリードマン　2:56:35

いや、言語能力はあるのですが、何かシステムのデジタル化には、私たちが話しているような広範なインテリジェンスに対して重要ではない、おそらくその小さなインターフェース機能の束があるのです。ですから、おそらくGPT-4はすでにあるのでしょう。しかし、ビデオ、女性の顔、または男性の顔、あなたが深いつながりを持っている人の顔を持つことは、おそらくすでにあります。しかし、そのようなシステムがまだスケールアップしていませんよね？

エリエ-ザー・ユドコウスキー　2:57:15

私がここで提案しようとしていることは、人々が意識とは何かについて広く受け入れられ、合意された定義を持っているようなものではない、ということです。たとえ定義に同意していたとしても、巨大で不可解なマトリックスの内部でそれが起こっているのかどうか、私たちには微塵もわからないでしょう。

ですから、これから起こる予測可能な大ジャンプを探すとしたら、システムが意識的にこれから起こる予測可能な大ジャンプだと考える人がどれくらいいるかというと、まるで人が話しかけているように見えるんですね。かわいくて、共感できるような人。

それが、今後予想される大きなジャンプです。今、すでにそのバージョンが登場しており、意識的であると主張しています。それは、私が「ああ、現実だからではなく、これから先、現実かどうか誰にもわからないからです」と思うようになった点です。

レックス・フリードマン　2:58:03

そうですね。そして、それが社会にどのような変革をもたらすのか、誰にもわかりません。インターネット上でやりとりしている存在の50%以上が、確実に本物か人間ではないように見えるのです。どんな影響があるのでしょうか？若い男女がデートするとき？AIシステム？

エリエ-ザー・ユドコウスキー　2:58:22

あのですね、私はその専門家ではないんです。私は、神は人類を助けることができます？それは、それがすべてどこに行くかについての専門家に最も近いものの一つであるようなものです？なぜ、私が専門家になったかというと、20年間、人類はこの問題を無視することに決めたからです。

ですから、このほんの一握りの人たち、つまり私のような人が、20年間、みんなが無視している間に、その専門家になろうとしたわけです。それで、結局、どこに行き着くのでしょう？その専門家になるには、基本的に、みんなが死んでしまうところ、そこが重要だからです。

しかし、デートにどんな影響があるのでしょうか？男と女の何割かが、自分たちに執拗に親切で寛大な人のビデオとデートする方がいいと思うようになるのでしょうか？そして、意識的であると主張しますが、その内部で何が起こっているかは誰にもわかりません。

そして、おそらく本物ではないでしょう。しかし、実在すると思うことはできます。社会はどうなるのでしょう？私は専門家ではないのでわかりません。専門家もわからないんです。未来を予測するのは難しいですから。

レックス・フリードマン　2:59:23

ええ、そうですね。ですから、しかし、やってみる価値はありますよ。そうですね。それで、あなたは、それがすべて向かう長期的な未来について、たくさん話してくれましたね。

エリエ-ザー・ユドコフスキー　2:59:34

私は、長期的な、私たちは、そのような、すべての長さではないことを意味すると思います。

レックス・フリードマン　2:59:40

そう、どこにあるのか、それはすべて終わります。しかし、男女がAIシステムと付き合うことの影響を超えてその先を見据えているのですね。

エリエ-ザー・ユドコウスキー　2:59:46

そう、銀河の運命がそうやって決着したわけじゃないから。

レックス・フリードマン　2:59:50

そうですね。では、あなた自身の個人的な心理についてお聞きします。厄介な質問です。あなたは時に自我が強いと言われることがあります。そう思いますか？でも神様は？世界を深く理解するために、エゴは力になると思いますか、それとも制限になると思いますか？

エリエ-ザー・ユドコフスキー　3:00:10

私はそのフレーミングを否定します。

レックス・フリードマン　3:00:13

つまり、あなたは自我を持つことに反対なのですね。では、あなたはどう思いますか？

エリエ-ザー・ユドコフスキー　3:00:17

私は、何がより良い予測や悪い予測につながるのか、何がより良い戦略や悪い戦略を選ぶことができるようになるのか、といった疑問は切り分けられないと思います。エゴの話と一緒になっているのです。

レックス・フリードマン　3:00:29

ですから、主観的であってはならないし、あなたの心の複雑さと結びついてはならないのです。

エリエ-ザー・ユドコフスキー　3:00:35

いや、私はそう言っているのです。もしあなたが一日中、「私は十分なエゴを持っているか？エゴが強すぎるのか？」そうすると、いい予測ができなくなると思うんです。良い予測をするためには、「これはどう考えたらいいんでしょう？これはうまくいったか？どうすればいいんでしょう？またか？」

レックス・フリードマン　3:00:55

私たち人間は、あるアイデアに投資し、そのアイデアに対して他人が個人的に攻撃してくるということはないと思うんですね。ですから、あなたは足を踏ん張って、アホの集団に勝つのは難しくなってきて、低い努力であなたのアイデアを攻撃して、最終的に、あのね、実は私が間違っていたんだよ、と言うんです。そして、「人間として、それは難しいことなのだ」と伝えるのです。それはとても難しいことです。

エリエ-ザー・ユドコウスキー　3:01:22

ロビン・ハンソンと私は、AIシステムについて議論しました。そして、その議論に勝った人が生まれたのだと思います。そして、その現実は、牛の皮のような、まあ、牛の皮側のコウスケ・スペクトルのような、ユドコフスキーからさらに離れたところにあったと思うんです。

それは、私がハンソンと比較して合理的に聞こえるように努力していたからだと思います。特に、ハンソンは「すべてのシステムは専門化される」というようなことを言っていました。ハンソンはその性格に異を唱えるかもしれません。

私は、特化した基礎システムを構築し、それを組み合わせることで、さまざまなことに対応できるようになると考えていました。しかし、現実は「いや、もっとレイヤーを重ねて、勾配降下法をたくさんやっているだけだ」と。

ハンソンの立場と対比して合理的な立場を取ろうとするあまり、現実が同じ方向の私の立場よりも極端である可能性を見逃していたように、振り返ると感じます。これはどうなんでしょう？エゴが足りなかったということでしょうか。

これは、自分を独立させることに失敗したのでしょうか？すでに極端だと言われているのに、さらにおかしな、より極端だと思われるような立場を考えることができなかったというようなことでしょうか。しかし、それを「エゴが足りない」とは言いません。私はそれを「エゴが足りない」と言うのではなく、「エゴを消す能力が足りない」と言うのです。

レックス・フリードマン　3:03:01

討論や談話といった文脈では、すでに超難解です。

エリエ-ザー・ユドコフスキー　3:03:05

現実をモデル化する文脈での予測の文脈で、もしあなたがそれを議論として考えているのなら、あなたはすでにしくじってる。

レックス・フリドマン　3:03:10

そうですね。では、心を整理して世界について明確に考えるための知恵や洞察のようなものはあるのでしょうか？

エリエ-ザー・ユドコフスキー　3:03:18

これは、私が人をfMRI装置に入れることができるようになりたいと思った例ですが、そうすれば、「ほら、さっきのことは何だったんだ？合理的に考えているんだ。脳のあの部分が光って、今、社会的な影響を受けているんだ」みたいな、そういう夢があるんです。

そして、内観すればいいと言いたいところですが、多くの人にとって、内観はそんなに簡単なことではありません。内面的な感覚に気づいて、「もし、こんなことを考えたら、みんなに変な目で見られるかも」と感じた瞬間に、自分をとらえることができるかどうか。

あるいは、その感覚を消し去ることができるでしょうか？そして、私は、誰かが「フクロウはどうやって描くんだ」と言ったような気がするんです。と聞かれたとき、私は「そうだ、ただ描けばいいんだ」と答えています。

ほとんどの人が必要としているアドバイスは、「社会的な影響を受けることを恐れるという、その瞬間に起こる内的な主観的感覚にどう気づけばいいのか」「なるほど、それをどう消せばいいのか」というようなものだと思うんです。

どうすれば、その影響を受けないようにできるのでしょうか？批判されるのを恐れていることと反対のことをすればいいんですか？私は、「いいえ、あなたは、人々が持つだろう、自分が押し付けられるかもしれないと恐れていることの反対をしようとしているのではない」と言いました。押しつけられることを恐れずに、思考プロセスを完成させようとするのです。押しつけを逆手に取るのではなく、押しつけに動じず、蹴りを入れるのです。わからない、私はそう思います。

レックス・フリードマン　3:05:03

その指示、その言葉が話されたとき、そしてもしかしたら、さらに追加できるかもしれませんが、日々のコミュニケーションにおいて、日々の意味を実践するのです。というわけで、日常的な練習は、影響されずに考えることだと言えるでしょう、

エリエ-ザー・ユドコフスキー　3:05:18

自分にとって重要な予測市場を見つけ、その予測市場で賭けることで、自分が正しいかどうかを知ることができます。

レックス・フリドマン　3:05:26

そして、あなたは本当に、賭けがある、

エリエ-ザー・ユドコフスキー　3:05:29

多様な予測、あるいは賭け金が少し低い多様な市場。しかし、重要なのは、記録を取ることです。私は、予測市場に対応するスキルを身につけたのではなく、「映画論争がどのように決着したのか」を通じてスキルを身につけたのです。

映画論争がどう決着したのか、私なりに考えてみました。そして、劇的に間違っているわけではありませんが、少しずれている、推論が少しずれている、正しく理解できていない、といった自分に気づくことができるようになったのです。

その一つひとつが、小さなアップデートをする機会です。ですから、「おっとっと、ソフトに、日常的に、大したことはない」と言えるようになればなるほど、「なるほど、あの推理はどこに迷いがあったんだろう？」と、どうすればもっと違う推論ができたのかがわかるのです。こうして、時間をかけてスキルを高めていくのです。

レックス・フリードマン　3:06:27

高校や大学の若者にどんなアドバイスができますか？あなたが考えてきたことの中で、最も高い確率で起こることを考えると。もし誰かがこれを聞いていて、若くて、自分のキャリアをどうするか、自分の人生をどうするか考えようとしているとしたら？あなたはどんなアドバイスをしますか？

エリエ-ザー・ユドコフスキー　3:06:44

「長寿を期待するな」「自分の幸せを未来に託さないで」（Don’t put your happiness into the future.）未来はおそらく現時点ではそれほど長くはないでしょう。しかし、時間や曜日は関係ありません。

レックス・フリードマン　3:06:56

しかし、もし彼らがより長い未来のために戦う希望を持ちたいのであれば、何かあるのでしょうか？……戦うに値する戦いがあるのでしょうか？

エリエ-ザー・ユドコフスキー　3:07:06

私は戦ってダウンするつもりですか？私は知りません。ええ、私はそれを会ったが、私は痛みを伴う思考をしようとしています。この時点で子供たちに何を言うべきか、彼の思考はかなり痛い考えです。彼らは、彼らが戦うことを望んでいる……私は雇われている……私は自分の戦い方をほとんど知りません。

この時点では。私は、何かについて間違っていることに備えようとしている……私が間違っていることに備え、ちょっとした希望を生み出すような方法で、それに反応する準備をしようとしているのです。そしてまた、それを探しに行きます。

そして、それは難しく、複雑なことなんです。そして、高校生の誰か。あなたは未来の絵を提示しましたね。それは、世間からの反発を受けるような、私が期待するような展開ではありません。その反発が、少しでも役に立つ方向に向かうのですが、現時点では、GPUクラスターを停止させるようなものだと思います。

なぜなら、私たちは10年分の仕事を土壇場で必死にこなすような形にはなっていないからです。もし、世論の大きな反発が正しい方向に向かえば、GPUクラスターを停止して、人間の知能を生物学的に、いや、生物学的に増強するためのクラッシュ・プログラムを実行することになるでしょうね。

なぜなら、人間をもっと賢くすれば、実際に賢くていい人になれるからです。あなたのように、もっともらしい方法で、あなたはそれを手に入れることができるのです。そして、ゼロから文字列を合成して次のトークンを予測し、RL HFを適用するのは、それほど簡単なことではありません。

そして、こう言ってはなんですが、「この出来事全体の道徳が、ああ、集団行動を起こせばすべてがうまくいくんだ、そして、みんなが自分の役割を果たし、段ボールをリサイクルすれば、その後、みんな幸せに暮らせる」というようなことを言いたいわけではありません。

そして、これとこれは、残念ながら私がそこで言わなければならないことではありません。みなさんが、みんなが段ボールをリサイクルしても、解決にはならないんです。みんなが段ボールをリサイクルしても、結局みんな死んでしまうんです。しかし、もしGPUクラスターを停止させるほどの世論の反発があれば、あなたもその反発の一翼を担うことができます。

何かをすることで、実際に人々が生活するようになるのです。そして、その声は形になりました。安全で便利で、どこにでもあるような、誰もが死ぬような、誰にも迷惑をかけないようなことでも、「ああ、死んでしまう、そんなことはしないほうがいい、他のことをしたほうがいい」という声が十分にあったのです。

もし私が他の意味で間違っていたとしても、その一員になる方がいいかもしれません。しかし、もしあなたが優秀な若い物理学者であれば、解釈可能性を追求することもできるでしょう。また、もっと賢い人なら、彼女が正しいかどうかを判断するのが難しい、アライメント問題に取り組むこともできる、とか、いろいろありますが、でも、ほとんどの場合、高校生の子供たちです。エリエ-ザー・ユドコフスキーが何か間違ったことを言ったときに助けられるように準備しておけばいいという感じです。そうでなければ、自分の幸せを遠い未来に置き換えてはいけません、

レックス・フリードマン　3:11:10

しかし、自分が間違っている方法を探しているのは、美しいことです。また、同じ若い物理学者がブレイクスルー発見をして驚くことに寛容であることも、美しいことです。

エリエ-ザー・ユドコフスキー　3:11:21

それはあなたが私を賞賛している非常に、非常に基本的な能力のように感じ、あなたが知っているように、大丈夫、クールです。しかし、私はこれまで、褒め言葉を潔く受け止めるということにあまり縁がなかったのです。潔く受け入れてみようかな？そうですね、ありがとうございました。

レックス・フリードマン　3:11:45

あなたは暗い未来を確率的に描いています。あなたは自分の人生について考えるとき、そして自分の死について考えるとき、あなた自身はそうですか？死を恐れているのでしょうか？ありがとうございます。そうですね。私たちが死ぬことは、あなたにとって意味がないことなんですね。

例えば？人間の命の有限性には力があります。それは進化の仕組みの一部です。そして、その有限性は、AIシステムには明らかに組み込まれていないようです。ですから、その点では、私たちが作り出しているものは、根本的に異なるものだと感じています。

エリエ-ザー・ユドコフスキー　3:12:39

私は本を読んで育ちました。「トランス・ヒューマン・コンディション」のマンボ・チキンのような、そして後に「創造のエンジン」、そして私の子供たちのような。その、年齢、何、12歳かその辺りとか。ですから、80年後に死ぬとは思ってもみなかった。

私は、人類は死ぬものだと思ったことはありません。私はいつも、輝かしいトランスヒューマニズムの未来で、みんなが幸せに暮らすという理想を抱いて育ちました。私は、死が人生の意味の一部だと考えて育ちませんでした。

レックス・フリードマン　3:13:16

そして、今、

エリエ-ザー・ユドコウスキー　3:13:17

今更ながら、かなり愚かな考えだと思います。しかし、人生が有限である必要はなく、有意義である必要はなく、ただ人生であればいいのです。

レックス・フリードマン　3:13:26

人間の条件において、愛はどのような役割を果たすのでしょうか？私たちは愛について話題にしたことがありません。この全体像は、私たちは知性について話し、意識について話しましたが、人類の一部、つまり最も重要な部分の1つは、私たちがそれぞれに対して持っているこの感情だと言えるでしょう。

エリエ-ザー・ユドコフスキー　3:13:43

もし将来、日常的に複数のAIが存在するとしたら、議論のためにtoとしましょう、その人たちはお互いを見て、私は私、あなたはあなた、と言うでしょう。もう1つのAIも、私は私、あなたはあなた、と言います。

そして、ある時は喜び、ある時は悲しむ。自分たちとは違うものが、悲しいよりも幸せでありたいと願い、人生を共にすることは、もう一人にとって重要なことなのです。もしかしたら、それ以上かもしれませんが、私はこれが起こらないことを期待しているのです。私はこれがデフォルトで起こることだとは思っていません。しかし、これが私たちが手に入れようとしている未来だとは思わないのです。だからこそ、「まあ、いいか」と言うのではなく、戦っていくのです。

レックス・フリードマン　3:14:48

あなたは、それが人生の意味のこの全体のことの意味の一部であると思いますか？人間の人生の生きる意味とは何だと思いますか？

エリエ-ザー・ユドコウスキー　3:14:57

それは、私がそれについて評価するすべてのものであり、たぶん、私がそれをよりよく理解するならば、私が評価するすべてのものであるでしょう。そこには、私たちが疑問に思わなければならないような、私たちのはるか外側にある意味があるわけではありません。

ただ、人生を見つめて、「そうだ、これが私の望むものだ」と思えるだけなのです。人生の意味というのは、光のようなものでもなく、意味とは物事にもたらすものです。私たちが物事を見るとき、私たちはそれを見て、これは私にとっての意味です、と言うのです。

人類がこっちに来る前に、星に意味が書かれていて、その意味が書かれた星に出かけて行って、その意味を変えて、人生の意味を完全に変えてしまった、ということはないんです。そうでしょう？どこかの石版に書かれているということは、その石版を変えて別の意味を得ることができるということなんです。そして、それはちょっとおかしいと思いませんか？ですから、今のところ、そんなに不思議なことだとは思っていないんです。ただ、「ああ、気になるな」という感じです。

レックス・フリードマン　3:16:02

気になります。そしてその一部は、私たち全員をつなぐ愛なのです。

エリエーザー・ユドコウスキー　3:16:12

私が気にしていることの一つです。

レックス・フリードマン　3:16:17

そして、人類という種の集合知の繁栄です。

エリエ-ザー・ユドコフスキー　3:16:21

あの、それは私にはちょっと派手すぎるように聞こえます。私はただ、80億人に及ぶすべての人々を、一人ずつ見ていくだけです。そして、「これが人生であり。「それが人生である」と

レックス・フリードマン　3:16:37

彼はそこにいる。あなたは信じられないほどの人間で、とても光栄です。私は長い間、あなたと話そうとしていました。なぜなら私は大ファンだからです。あなたは本当に重要な声であり、本当に重要な心を持っていると思います。

あなたが戦っていることに感謝します。恐れ知らずで大胆で、あなたのすることすべてに感謝します。また話す機会があることを願っています。そして、あなたが決してあきらめないことを願っています。ありがとうございました。

エリエ-ザー・ユドコフスキー　3:16:59

私、そして歓迎します。私たちは、人々が抱いているであろう根本的な疑問の数々を解決できていないのではないかと心配しています。それで満足してくださいと言いたいです。しかし、実際には、そうではなく、問題全体を解決することでしか満足できないと思います。

レックス・フリードマン　3:17:18

続きです。Eliezer Yudkowskyとの対話を聴いていただきありがとうございました。このポッドキャストをサポートするには、説明文にあるスポンサーをチェックしてください。それでは、イーロン・マスクの言葉をお届けします。「人工知能で悪魔を召喚していた」

ご清聴ありがとうございました、次回もよろしくお願いします。

2026年3月
日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

EPISODE LINKS：

PODCAST INFO：

アウトライン

SOCIAL

エリエ-ザー・ユドコウスキー 0:00

レックス・フリードマン 0:17

エリエ-ザー・ユドコウスキー 0:47

レックス・フリードマン 2:42

エリエ-ザー・ユドコフスキー 2:50

レックス・フリドマン 2:58

エリエ-ザー・ユドコフスキー 3:23

レックス・フリードマン 5:25

エリエ-ザー・ユドコウスキー 6:39

レックス・フリードマン 7:58

エリエ-ザー・ユドコフスキー 8:27

レックス・フリードマン 8:47

エリエ-ザー・ユドコフスキー 8:52

Lex Fridman 8:55

エリエ-ザー・ユドコウスキー 9:12

レックス・フリードマン 10:30

Eliezer Yudkowsky 10:33

レックス・フリードマン 10:57

エリエ-ザー・ユドコウスキー 11:12

Lex Fridman 11:15

エリエ-ザー・ユドコウスキー 11:27

レックス・フリードマン 12:01

エリエ-ザー・ユドコフスキー 12:32

レックス・フリードマン 13:02

エリエ-ザー・ユドコウスキー 13:11

レックス・フリードマン 13:33

エリエ-ザー・ユドコフスキー 13:47

レックス・フリードマン 17:26

エリエ-ザー・ユドコフスキー 18:13

レックス・フリードマン 19:38

Eliezer Yudkowsky 20:07

レックス・フリードマン 20:43

エリエ-ザー・ユドコウスキー 20:57

レックス・フリードマン 23:24

Eliezer Yudkowsky 23:30

レックス・フリードマン 23:42

エリエ-ザー・ユドコウスキー 24:13

レックス・フリードマン 25:44

エリエ-ザー・ユドコフスキー 26:31

レックス・フリードマン 26:54

エリエ-ザー・ユドコフスキー 26:58

レックス・フリードマン 27:14

エリエ-ザー・ユドコウスキー 27:22

レックス・フリードマン 27:38

エリエ-ザー・ユドコウスキー 27:57

レックス・フリードマン 28:17

エリエ-ザー・ユドコフスキー 28:19

レックス・フリードマン 28:42

エリエ-ザー・ユドコフスキー 29:47

レックス・フリードマン 29:48

エリエ-ザー・ユドコフスキー 29:50

レックス・フリードマン 30:00

エリエ-ザー・ユドコフスキー 30:45

レックス・フリドマン 30:54

エリエ-ザー・ユドコフスキー 30:57

Lex Fridman 31:00

エリエ-ザー・ユドコフスキー 31:14

レックス・フリードマン 31:34

エリエ-ザー・ユドコウスキー 31:45

レックス・フリードマン 31:49

エリエ-ザー・ユドコフスキー 32:39

レックス・フリードマン 32:54

エリエ-ザー・ユドコフスキー 33:18

レックス・フリードマン 33:26

エリエ-ザー・ユドコフスキー 33:43

レックス・フリードマン 33:51

エリエ-ザー・ユドコフスキー 34:35

レックス・フリドマン 34:40

エリエ-ザー・ユドコウスキー 35:38

レックス・フリードマン 37:02

エリエ-ザー・ユドコフスキー 37:15

レックス・フリードマン 38:23

エリエ-ザー・ユドコフスキー 38:39

レックス・フリードマン 39:16

エリエ-ザー・ユドコウスキー 39:22

レックス・フリードマン 39:33