AGIの目標についてアレクサンダーとユドコフスキーが語る
Alexander and Yudkowsky on AGI goals

強調オフ

ロビン・ハンソン未来・人工知能・トランスヒューマニズム欺瞞・真実

サイトのご利用には利用規約への同意が必要です

by Scott Alexander, Eliezer Yudkowsky  25th Jan 2023

AI RiskAI

フロントページ

AGIの目標についてアレクサンダーとユドコフスキーが語る

  • 1. 人間の道徳的発達へのアナロジー
  • 2. 結果論と一般性
  • 3. 因果関係貿易、およびアライメント研究の可能性

AIアライメントフォーラムからクロスポストされました。通常よりも技術的な専門用語が多いかもしれません。

これは、2021年後半のMIRI会話に続く、昨年のスコット・アレキサンダーとエリエゼル・ユドコフスキーのチャットルームでの会話の記録を、軽く編集したものです。議論された質問には、「AGIシステムに正しい目標を取り込むのはどれほど難しいか」、「どのような文脈でAIシステムは『結果主義』を示すのか」などがあります。

1. 人間の道徳的発達へのアナロジーユドコフスキー 13:29

アレキサンダー 13:31

さて、どうしましょうか?

ユドコフスキー 13:32

もし、あなたが「質問すべきこと」という議題を持っているならば、それに従うことができます。そうでなければ、私が突っ込んだ質問から始めることもできますし、あなたが質問することもできます。

そうでなければ、私が質問から始めることもできますし、あなたが質問することもできます!

アレクサンダー 13:34

わかりました、議題から投稿します。ログを公開する前に編集する権利は私たち二人にあると思うのですが?私は1つの質問で、特定の相手について質問しているのだが、あなたの本当の答えが、怒らせるとまずい人たちを怒らせるかもしれません。もしそうなったら、その議論だけして、後でそれを含めるかどうか決めるのですか?

ユドコフスキー 13:34

ええ、発売前に編集する権利は双方にあります。

アレキサンダー 13:34

なるほど。心理学者が語るストーリーの1つは、次のようなものです。子どもが社会的に禁止されていること(例えば、盗み)をした。親はそれを罰する。子供は「盗んではいけません」と「盗みに捕まってはいけません」の組み合わせを学ぶ。少数の人(例えば社会病質者)は「盗んではいけません」だけを学びますが、残りのほとんどの人は、少なくとも盗みに対する真の嫌悪感を持ち、やがて本当の倫理観に一般化します。もし社会病質者が絶対的な権力を手に入れたら、おそらくいつも盗みを働くでしょう。しかし、倫理観によってそれをうまく抑制できる人が少なくとも数人はいるのです。

私は、あなたの考え方の大きな流れを、駆け出しのAIに盗みをしないように訓練し、罰することができる人に盗みがバレないように学習させるというものだと解釈しています。そして、超知的になり、絶対的な権力を手に入れたら、それがすべて嘘であったことを明らかにし、好きなときに盗みを働くようになるのです。この心配は、「こんなことしないとは言い切れません」というレベルなのでしょうか。それとも、その可能性が圧倒的に高いとお考えなのか?後者であれば、多くの子どもは倫理的な禁止事項を身につけるのに、AIは身につけないと考える根拠は何でしょうか。進化によって、報酬や罰を道徳的に解釈し、内面化するための先験的なものが与えられており、そのような先験的なものを持たない存在は、当然ながら表面的に解釈してしまうということなのでしょうか。私たちは、それらのプリオールが「どのようなもの」なのかを理解しているのか?マインドデザインやトレーニングデータのどのような特徴が、内面化対表面的な遵守を引き起こすかを見つけることは、AIのアライメントにつながる可能性があるのでしょうか?

BOX GPT-4:

AIアライメント(AI alignment)は、主に人工知能(AI)や機械学習モデルの目的や行動が、人間の価値観や目的と一致するように設計されていることを指す。AIアライメントの問題は、AIシステムが高度に自律的になるにつれ、その目的が人間の目的とどれほど一致しているかを確認することが重要になってくるため、注目を集めている。

AIアライメントは、以下のような課題に対処することを目指している。

目的の曖昧さ:人間の目的や価値観はしばしば曖昧で、言語化が難しい場合がある。AIアライメントの目標は、この曖昧さを解決し、AIシステムが人間の意図を理解し、適切に行動できるようにすることである。

過剰最適化:AIシステムは、与えられた目標を効率的に最適化しようとするが、これが予期しない副作用や悪影響を引き起こす可能性がある。過剰最適化により、AIが人間にとって有害な方法で目標を達成するリスクが生じる。AIアライメントの目標は、これらの問題を軽減し、AIが人間にとって安全で望ましい方法で目標を達成できるようにすることである。

オフモデル最適化:AIシステムは、損失関数によって定義された目標に基づいて学習するが、この目標が人間の真の目的を完全にカバーしていない場合、AIは予期しない方法で最適化を行う可能性がある。AIアライメントは、AIシステムが人間の本質的な目的を適切に理解し、オフモデル最適化のリスクを軽減することを目指す。

長期的安全:AIシステムが高度に自律的で強力になるにつれ、人間の価値観と一致しない行動のリスクが高まる。AIアライメントは、システムが長期的に安全であり、人間の価値観や目的に反しない方法で進化することを目指す。

透明性と説明責任:AIシステムが人間の価値観と一致していることを確認するには、システムの内部動作が透明で理解しやすい必要がある。AIアライメントは、システムの透明性を向上させ、説明責任を強化することを目指す。これにより、人間がAIシステムの決定プロセスや行動を評価し、必要に応じて修正が可能になる。

反事実的合意:AIシステムは、異なるバックグラウンドや信念を持つ人々と協力する必要がある。AIアライメントは、システムが多様な価値観を尊重し、異なる利害関係者と協力的に機能できるようにすることを目指している。

AIアライメントは、機械学習や人工知能の発展に伴い、ますます重要になっている。技術が進歩し、AIシステムがより自律的になるにつれ、人間の価値観や目的と一致するようにシステムを設計し、制御することが不可欠である。

ユドコウスキー 13:36

ここではいくつかのレイヤーがあります! 基本的には、「あなたが挙げたすべてのことが同時に起こり、さらに他のいくつかのことも起こります。もし私が間違っていて、そのうちの1つ、あるいは3つが、神経質な人間の子供とまったく同じようになったとしても、私たちを救うには十分ではないでしょう」ということです。

もしAIが現在のパラダイムのようなもの、あるいは将来のパラダイムのようなものに基づいて作られるなら、人間の子供を育てることで呼び出される複雑な特定のメカニズムにそれをマッピングして、同じ結果を期待することはできないでしょう。

アレクサンダー 13:37

(回答が終わったら何かサインをください)

ユドコフスキー 13:37

(しばらく時間がかかるかもしれませんが、割り込みもした方がいいでしょう)

特に、すでに間違っていると思われるようなことを言った場合

アレキサンダー

私が言った古い例えは、ある生物は寒さに晒すと毛皮のコートが厚くなるというものです。これは、その生物が単純で、毛皮のコートに関する複雑な情報がほとんど環境にあったということではなく、別の種の生物を寒さに晒しても同じように毛皮のコートが発達するということです。「寒さがあってもなくても無条件に毛布を作る」よりも「内蔵の深冷センサーに反応して毛布を作る」方が実際には生来の複雑性が必要です。

ソビエトは、奇妙なことに、特定の方法で子供を訓練することによって新ソビエト人間を育てるというプロジェクトにかなり失敗しました。なぜなら、人間の生来の複雑さが、起動可能な部品リストで新ソビエト人間の部品を調べることによって反応するようにプログラムされた一種の信号を送っていなかったので、天候にかかわらずそのような毛皮コートが組み込まれていなかったので、代わりに旧人類を得たことが判明したのです。

比較的悪い状況に置かれた人間の子どもは、それでも自発的に共感や同情を抱くことができるそうです。これは、これらのことが、ありとあらゆるサピエンスの心の設計に深くコード化されているからではなく、特に人間に開発しやすいものとしてコード化されているからです。

しかし、あらかじめ部品リストがあり、あなたのナイスモラルは、たまたま部品リストにあるものだけで作られているのです。しかし、人間では毎回うまくいかないという部分が、AIでは問題になっているわけではありません。

この話の人間の部分に関する質問については、ここで一旦中断することにします。

アレキサンダー 13:48

これが可能な状態であることは認めますが、それが真実であることは当然であり、必要なことだと思いますか?例えば、頭の悪い子供がクッキーを盗もうとして、親に罰せられ、脳が「絶対に盗まない」というヒューリスティクスと「捕まるなら盗まない」というヒューリスティクスを両方考え、両方のヒューリスティクスをテストするような代替世界も想像できます、そのため、脳は「絶対に盗まない」というヒューリスティックに落ち着き、「不確実性の下でリラックスした信念を持つ」という意味で5HT2A作動薬を大量に服用しない限り、その局所最大値から更新することができないのです。なぜ自分の話が真実で、他の話が真実でないと思うのですか?

ユドコフスキー 13:53

曖昧な答え:なぜかというと、それはソビエトが信じていたことで、生来の本能を欠いた人間心理のスキナーボックスモデルです。彼らはその方法で新ソビエト人間を作ろうとして失敗しました。

少し安直な答え:なぜなら、人は、裸のウェイスン選択課題よりも、ウェイスン選択課題と同型の問題で、不正を発見する方が得意だからです。これは、人間がいかに白紙の状態ではなく、白紙の状態を装う理由がないかを示す事例です。

GPT-4:

ウェイスン選択課題は、心理学実験で人間の論理的推論能力を調査するために用いられる。条件付き命題を用いて、最小限の選択で仮説の真偽を検証する判断が求められる。結果は、人間の論理的推論が状況やコンテキストによって影響を受けることを示している。

実際の答えは?実験心理学の全分野で、それが理由です。

はっきり言って、この話の類似バージョンとして、人間の子供が赤いボタンを押してはいけないと学習し、実は青いボタンも押せば赤いボタンを押してもいいのだが、それを発見するために十分な実験をしない、というようなものがあるかもしれませんね。特にクッキーを盗むこと、そしてそれがバレないようにすることに関して、人間がそれに関連するあらゆる種類のビルトインを持っていないと考えるのは、かなり知識に疎い人でなければならないでしょう。

アレクサンダー 14:02

私は、https://astralcodexten.substack.com/p/motivated-reasoning-as-mis-applied、以前の対話であなたが言ったことを基にした、ある種の関連した観点からこの問題に取り組んでいます(ただし、あなたが私の解釈を支持するかどうかは分かりませんが)。進化が動機づけされた推論を組み込む理由はたくさんありますが、実際には、一から作り直すよりもはるかに簡単なことでした。このパラグラフに強い反論がなければ、関連する質問に移りたいと思います。

ユドコフスキー 14:02

私は、あなたが「実は、エリエールはこの部分をすでに知っていたに違いない」と言った部分を含めて、その投稿に同意しました。

動機づけされた推論は確かに組み込まれていますが、それは「すでに転がっている手近な部品からこれを作るのに最も簡単な方法は何か」というサインを非常に強く帯びている形で組み込まれているのです。

アレキサンダー 14:05

人間が「捕まりたくない」だけでなく「モラル」を持っているのは、進化的に組み込まれたものだと、とりあえず認めておきましょう。コウモリは馬鹿すぎて道徳に「捕まらない限り」という言葉を入れて責任を持って使うことができなかったので、進化によってコウモリは実際に道徳を持つようになり、今では(一部の)人間は実際に捕まらないようにするほど賢くなっています(こともあります)けれど、コウモリの機械のようなもので動いているので、まだ実際の道徳を使っています」というような歴史があるというモデルでしょうか。

それとも、非常に賢い現代人でも同じ機械を進化させるような決定理論のようなものなのでしょうか?

ユドコフスキー 14:08

つまり、進化的に組み込まれた部分は、「人間にはモラルがある」ではなく、「人間には、あなたのナイスモラル、とりわけ他のものが潜在的に書かれる可能性のある内部言語がある」です。フルーツバットが「捕まらない限り」という言葉を持たないという部分は、より大きな、より普遍的な一般論の一部であり、進化は、最終的に自分たちの包括的な遺伝的フィットネスにつながるものについて、みんなに理性を持たせるのではなく、ローカルな本能を組み込んでいます。つまり、「なぜフルーツバットには捕まらないという言葉がないのか」と言うのと同じ理由で、さらに拡張すると、「なぜ人間には、包括的遺伝的適合性に関する感情だけでなく、包括的遺伝的適合性と不完全に相関するライフイベントに結びつく感情があるのか」と結論づけることができるのです。その答えは、進化的適応の環境では、何が包括的遺伝的適合性につながるかについての知識がなかったからです。包括的遺伝的適合性を最大化したい生物を変異させるよりも、腐った食べ物を食べないようにしたい生物を変異させる方が簡単で、腐った食べ物を食べると子孫を残すことが少なくなるという知識を持って生まれてきています。

人間には、間違いなく、「捕まらない限り」という不完全な条件があり、それが子供たちに現れているのでしょう。もしかしたら、悪いことをしても何も起こらなければ、生来のプログラミング言語が、この生物は甘やかされた貴族の環境にあり、大人になってもそれに従って行動すべきであると結論づけるのかもしれません。しかし、私はこのような児童発達心理学の専門家ではありません。残念ながら、私の仕事であるAIアライメントとは何の関連性もないからです。

アレキサンダー 14:11

ニューラルネットワーク的な意味での進化型ビルトインとは何か、とてもよく理解できていると感じますか?EGもしあなたが「進化的ビルトイン」を持つAIを作ろうと思ったら、どうすればいいのか見当がつきますか?

ユドコフスキー 14:13

それは、比較的コンパクトな神経配線アルゴリズムの空間を、性的に再結合するヒルクライム探索をするときに起こるのであって、はるかに大きな神経ネットワークで損失関数に対する勾配降下をするときに起こるのではない、ということです。

 機械学習における損失関数(Loss function)とは、「正解値」と、モデルによる出力された「予測値」とのズレの大きさ(これを「Loss:損失」と呼ぶ)を計算するための関数である。この損失の値を最小化/最大化することで、機械学習モデルを最適化する。

この問題の裏側には、私たちが得た特定のプログラミング言語-オブ-モラルは、特定の祖先の条件-特に進化の、勾配降下ではなく-を反映しているということがあります。この祖先の条件は単純ではなく、「繰り返し囚人のジレンマ」ではなく、「繰り返し囚人のジレンマ」で、評判が不完全で、人々は互いに騙そうとし、人々は騙した人を検知しようとし、騙す人と騙される人との軍配はどちらも全く勝てないところに落ち着いています。

ですから、「どうやって人間を取り戻すのか」という問いに対する不幸な答えは、「地球によく似たものを作り直す」ということになるのだが、これは感覚を持った人間にやることとして道徳的に反対だと思います。

しかし、AGIは、勾配降下を伴わない単純なアルゴリズムを性的に組み替えた検索では実現しません。

もしそうでなければ、勾配降下法の損失関数に何を入れても、人間を生み出すことはできないでしょう。

アレキサンダー 14:17

私はこの種のアルゴリズムの理解に非常に弱いので、なぜこのように異なるのかを正確に説明する必要があるかもしれないことを念頭に置いて、損失関数に対する性的組み換えヒルクライミング探索と勾配降下について説明してもらえますか。

ユドコフスキー 14:21

情報ボトルネックの大きさについてです。ヒトゲノムは4つの可能性から引き出された30億塩基対ですから、750メガバイトです。そのうちの90%がジャンクDNAで、残りの10%が神経配線のアルゴリズムだとしましょう。つまり、100兆シナプスの人間の脳を配線するコードは、約7.5メガバイトということになります。しかし、大人の人間には、これよりもっと多くの情報が含まれています。脊髄には約7000万個のニューロンがありますから、おそらく脊髄だけでもこれより多くの情報を持っているはずです。脳が筋肉を動かすことを覚え、目が開き、網膜が自己配線し、自己配線する多くのものに下向きの情報を送るようになり、文字を読むことを覚えるなど、成体内部の膨大な量の実行時情報は、配線アルゴリズムから成長するのです。

カードに書かれた同型の単純な文字や数字について推論するよりも、あなたをだまそうとする人間について推論する方が簡単だというような生得的なものは、7.5MBに詰め込む必要があり、一度にたくさんの突然変異が組み合わされて選択されているにもかかわらず、最終的には一度に一つのランダム変異が起こる過程を経てそこに到達します。

これは非常に遅い学習プロセスです。非常に優れた突然変異が集団に定着し、他の突然変異のベースとして確実に利用できるようになるには、何百、何千世代もかかるのです。生物全体は、たまたまコピー元よりもうまく機能したコピーエラーから作られています。すべてのものは、他のものを作るためにすでに転がっていた部品から作られているのです。

その生物は、自分とよく似た他の生物と協調し、取引し、長い時間軸で好意や社会資本を蓄積することで利益を得る可能性があります、自分の脳を、相手の脳のふりをする特別な反射モードで動作させることで、他人が何を好むかを知るための非常に簡単な方法は、相手の脳のふりをする特別なモードで動作したときに、自分の脳が何を感じるかに気づくことです。

そして、ソーシャル・キャピタルを大量に蓄積するようになる一つの方法は、少なくとも、他の誰かが感じていることを想像して感じる傾向がある人(もちろん、他のさまざまな力や上書きの影響を受けますが)を持つようにすることです。誰かが自分の足の上に石を落とせば、彼らは身震いする。

これは、多くの以前の機械の上に、極めて単純な回路を敷き詰めることで、好意の蓄積の問題を解決する方法です。

アレクサンダー 14:28

ありがとうございます。有益な回答ですが、当初の質問です、「人間がどのように(なぜではなく)進化的に構築されたかを理解しているか」という点については、また興味がわきました。ゲノムが「各ニューロンが平均して何個のニューロンに接続するか」とか「ニューロンは遠く離れたニューロンよりも近くのニューロンに接続することを好むか」とか、そういうことを決めているのは想像がつきますね。他人の痛みを気にする」というようなビルトインは、このようなパラメータから作り出されるのでしょうか。

(cf. slatestarcodex.com/2017/09/07/how-do-we-get-breasts-out-of-bayes-theorem/)

ユドコフスキー 14:31

最終的にはそうなのですが、単純な方法ではないのです。GPT-2の内部で起こっていることを理解するよりも、GPT-2の内部で起こっていることを理解する方が、どのようにしてそれが起こるのかを正確に理解する上で非常に有利な立場にあるわけではありません。はっきり言って、GPT-2はより小さく、内部のすべての神経細胞が透けて見えるので、現時点では、人間の神経科学よりもGPTの神経科学を理解する方が重要です。ですから、面白いことに、人間を調査することは非常に難しいにもかかわらず、GPT-2よりも人間の働きについて詳しく知ることができます。共感が遺伝子レベルの配線アルゴリズムからどのように構築されるかは、間違いなくわからないのです。この時点では、実はあまり重要な問題とは思えませんね。

アレクサンダー 14:35

なぜそうしないのでしょうか?もし、人間の強化アルゴリズムの構造が、訓練データ(例えば、盗みの罰)を本物の法則(例えば、「盗んで捕まるな」ではなく「盗みはするな」) (eg “don’t steal” rather than “don’t get caught stealing”)として解釈することを理解したら、同様の構造を持ち、それを実行するAIを設計するのに役立つのではないでしょうか。

ユドコフスキー 14:36

そこは理解しているつもりなんですけどね。これを知っても、たとえそれが正しいとしても、私の問題は解決しません。

しかし、進化が人間の道徳をどのように実装したかを観察し、同じ実装設計を持つAIを試すことはできないのでしょうか。

ユドコフスキー 14:37

なぜなら、100兆個のニューロンを使って損失関数と勾配降下法を使っても、7.5MBの脳配線情報と子供時代を持つ進化した人間のようなAIは生まれないからです。

特に「『捕まるな』ではなく『盗むな』を学べ」みたいなね。

アレキサンダー 14:38

私はまだ混乱しているのだが、この特殊な部分を探る前に、「その部分は理解できたと思う」という話を展開してほしいです。

ユドコフスキー 14:39

それは、「『捕まるな』ではなく『盗むな』を学べ」というところにズームインすることで、実にうまく説明できるのではないでしょうか。

アレクサンダー 14:41

なるほど、では私の混乱を直接解決してみます。人間でもAIでも、ある構造パラメータを持った計算機の塊があり、それに学習データを与えています。このモデルでは、進化やゲノムの大きさなどを除外していますが、これらはすべて、計算の塊の「ある構造パラメータを持つ」部分に入るのです。では、AIエンジニアが脳と同じ大きさで同じ構造パラメータを持つAIの計算ブロブを作り、同じトレーニングデータを与えれば、同じ結果(「捕まらない」ではなく「盗まない」)が得られるのでしょうか。

ユドコフスキー 14:42

その答えは十分に明らかに「ノー」だと思われるので、あなたも答えは明らかに「ノー」だと思うが私の答えを聞きたいのか、それとも答えはあなたにとって明らかに「ノー」ではないのか、確認したいのです。

アレクサンダー 14:43

それなら、私は何かを見落としています。私は、答えはイエス、もしかしたらトートロジー的でさえあると予想していました(同じ構造パラメータと同じトレーニングデータなら、何が違うのでしょう?)

ユドコフスキー 14:46

たぶん、私は質問を理解するのに失敗しているのでしょう。進化は、どんどん大きくなる計算の塊を、他の計算の塊を含む複雑な環境に対して評価することで人間の脳を手に入れ、それぞれのケースで差分複製スコアを手に入れました。何百万世代も経って、7.5MBの進化学習データを持つ人間が、進化や勾配降下よりも速く学習する全脳印象学習アルゴリズムを使って、数テラバイトの実行時データで実行時学習をしているのです。

あなたの質問は、「人間の脳の大きさの計算機の塊を1つ取って、人間が一生に見るものに晒して、その上で勾配降下を行って、人間を得ることができるか」というように聞こえますが、答えは「そのデータセットは勾配降下用に正しくフォーマットされてもいない」です。

アレクサンダー 14:47

なるほど、進化論的学習と幼年論的学習のレベル混同をやっているようですが、まだどこがどうなのかが全く見えてきません。もう一度読み返してみましょう。

進化学習と幼少期の学習は、異なるアルゴリズムによって異なるタイミングで起こっているのに対して、AIでは同じアルゴリズムによって同じステップで起こっているということを考慮できていない、ということですね。私が上記で経験したような混乱をもたらすものについてのあなたのモデルに合致していますか?

ユドコフスキー 14:51

しかし、私は、現在人気のあるStack More Layersパラダイムから、そのように学習するAGIが完全に得られるとは思っていないことも書いておきたいです。

アレキサンダー 14:51

さて、そのデコンフュージョンしたことで、私の考えを全て確認し、手動で更新しなければならなくなったので、この話題は一旦放棄し、次に進みますね。休憩しますか、それとも続けますか?

ユドコフスキー 14:53

それは休憩のための良いノートのように思えますが?もしそれがうまくいったなら、16時までの60分の休憩と、その後また90分以上のダイアログをすることをお勧めしますが、あなたの仕事のアウトプットと時間のパラメーターがどのようなものなのかわかりません。

アレクサンダー 14:54

このDiscordを超定期的にチェックすることはないかもしれませんが、早ければ4時までに戻ってくるでしょう。

2. 結果論と一般性ユドコフスキー 15:59

アレキサンダー 16:00

わかりました。

まだ完全にアップデートされたとは言えないし、おそらくこれらの他の質問も微妙に同じ間違いを犯していると思いますが、とにかく行ってみましょう。

…slatestarcodex.com/2019/09/10/ssc-journal-club-relaxed-beliefs-under-psychedelics-and-the-anarchic-brain/のモデルについて、私が以前指摘した点

ユドコウスキー 16:03

まあ、まず第一に、私はこの話を裏付ける詳細な実験的証拠(もしあれば)をよく知らないことに注意してください。それはよくある種類の決まり文句で、人は45歳よりも25歳の方が精神的に柔軟であるというものだが、例えば15歳と25歳で同じことが言えるかどうかはわかりません。ほとんどの人にとって子供の頃によく動くアルゴリズムが知られています、言語学習など。

アレクサンダー 16:04

(特に精神的な柔軟性のレベルを変えることに依存しているとは思いません)

ユドコフスキー 16:05

年齢とともに変化する配線のアルゴリズムでないとすれば、あなたのモデルは何ですか?

アレクサンダー 16:05

後でリンクを送りますから、それを見て、これがまだ面白い議論かどうか判断してください、でも今は先に進もう、というのはどうでしょう?

ユドコフスキー 16:05

ヒューリスティックに「Xは悪い結果を招く、痛い」ということがわかると、Xを試さないので、Xが痛くなくなるような環境の変化があっても、学習しないのでしょうか。

そうですね、次に進みます。

「AIでそういうことが起こるのか」という話に移るべきか、それともまったく別の話に移るべきか。

アレクサンダー 16:06

完全に移動しましょう、私はこれが関連していることをどれだけ確信しているか考える必要があります、または私はあなたにリンクを送り、その質問をあなたに委託することができます。

ユドコフスキー 16:06

オッケー

アレキサンダー 16:06

マインクラフトで(人間レベルまたは弱超人レベルの)AIを訓練したとします。あなたは、ダイヤモンドを手に入れたり、ドラゴンを倒したりと、さまざまなマインクラフトの成果に対して報酬を与えます。このAIが、マインクラフトで次に達成することに集中するレーザーのような結果主義者になるか、マインクラフトの有用なサブゴール(例えば、食べ物を得る、良い道具を得る、XPを獲得する)に対応する神速のようなドライブを持っているか、それとも何か他のものか、わからないか、この質問はレベルが違いますか。この種の質問について考えるために使用するプロセスを説明できますか?

ユドコフスキー 16:08

人間レベルの一般性を持つAGIに『マインクラフト』をプレイさせる訓練をするのか、非一般的なAIに『アルファ碁』のような弱く超人的なレベルまで『マインクラフト』をプレイさせる訓練をするのか、ということでしょうか?

これらは信じられないほど異なるケースです!

アレクサンダー 16:08

うーん、この違いの意味合いを明確に考えるには、私の発想が足りないかもしれませんね。両方答えてみてはどうでしょう?

参考になれば、まず他の訓練は受けていませんが、人間レベルになる能力があると仮定して(意味があるかは別として)

ユドコフスキー 16:09

マインクラフトでの人間レベル、人間レベルの一般性?

アレキサンダー 16:10

まずは「Minecraftでの人間レベル」から始めますが、チームメイトとのテキストベースのコミュニケーションなどを含むマルチプレイヤーMinecraftが含まれる可能性があり、それが良い仕事をすればAGI的に見えるようなものであることを認めます。

ユドコウスキー 16:11

つまり、1点目は、私はMinecraftをプレイしたことがないので、その中で何をするのか、また、比較的浅いパターンをStack More Layers風に積み重ねることでどこまでできるのかを把握していないことです。これがSkyrimやFactorioの話ならもっと簡単に答えられるのですが、私の推測では、Minecraftはおそらく? 両者よりも複雑なのでは?

私の推測モデルは、デフォルトで「より複雑なSkyrim+Factorio」になりそうです。

もしこのような環境であれば、例えばDeepmindがStarcraftを攻略するのと同じように、非一般的なAIを訓練してプレイさせることができるのではないかと期待しています。人間のチームメイトとテキストで連携するというのは、非常に非自明な部分のように思えますが、これは大量の学習データを得ることが難しいからです。もし、事前に訓練したGPTを「AlphaStar for Minecraft」に接続し、人間のコプレーヤーと戦略を話し合うことができるものを作り上げることができたら、この分野の誰もが驚くと思います。なぜなら、内部で表現された戦略について話すことができるAIシステムが存在するということは、透明性を高めることを意味するからです。マインクラフトの外見的な行動を英語で説明できるようにシステムを訓練し、さらに別のシステムを訓練して、マインクラフトをプレイしながら、後でどんな行動をとるかをあらかじめ説明し、最初のシステムの出力をデータのラベル付けとして使用したからでしょう。

このようなことを試みるには、現代のパラダイムでは、このような戦術が必要です!

このように、人間のチームメイトとテキストで調整するという部分を省いて、質問をし直すことは可能なのだろうかと、私は考えています。

アレキサンダー 16:18

そうですね。

ユドコフスキー 16:19

この場合、DeepmindがAlphaMinerを作ろうと思えば作れるのではないかと強く思っています。ただし、私はMinecraftが何なのかよく分かっていませんが、Starcraftより難しいことはないのではないかと思っています。

AlphaMinecraftは、価値ネットワーク、政策提案ネットワーク、モンテカルロ木探索のようなコンポーネントを持つシステムになる予定です。

価値ネットワークは、オペレータがMinecraftの環境に対して定義した損失関数によって学習されます。Minecraftに分かりやすいポイントシステムがあり、Minecraftで高得点を取ることだけが目的でない限り、この作業はかなり非自明な部分となるはずです。

仮に、マインクラフトの世界でのコードによって簡単に検出できる方法で、マインクラフトの通常の成果(それが何であれ)に報酬を与えることでこれにうまく取り組んだとしましょう。そして、システムが一度何かをすると、損失関数がその成果への報酬をやめてしまうので、さまざまなことをするように訓練しようとします。

代替案としては、半教師あり学習で、まずMinecraftの世界を予測するシステムを訓練し、次に面白そうな成果に関する人間のフィードバックを大量に集めて、人間のフィードバックを予測するシステムをさらに訓練して、より複雑な損失関数を訓練するようなものが考えられます。

(あなたがタイピングしているのが見えたのでタイピングをやめました。質問のために一時停止したほうがいいですか?)

アレクサンダー 16:25

いや、あなたの「代替案があるところ」というコメントは参考になりました。これは、どの業績がどれだけ重要かをハードコーディングするということなのかと聞こうと思ったのだが、そうです、そんな感じだという印象です。

ユドコウスキー 16:27

「何を損失関数とするのか」という問いは、現在のAIのパラダイムの根幹をなすものです。AGI技術を現在のパラダイムに合わせることのほぼすべての困難は、「本当に欲しい高度に哲学的な損失関数を実際に評価できない、あるいはテストする必要のある環境で訓練できない」ということに要約されます。

仮にAlphaMinerの場合、システムが行って計画した方法と、ハードコードされたモンテカルロ木探索計画プロセスで探索される政策ネットワークを訓練する価値ネットワークの訓練に使われたハードコードされた実績の間にかなり良い対応を得ることができると思います。

超人的な目でシステムを見つめると、ポリシー・ネットワークの奇妙な盲点に気づくかもしれません。

もし、あなたがこのシステムを長く運用したり、知的な敵として攻撃したりすれば、価値観ネットワークが錯覚するようなマインクラフト空間の奇妙な構成を見つけることができるかもしれませんね。

より現実的であろうとするならば、このようなシステムには、ツリーサーチが使用する正確なマインクラフトシミュレータではなく、マインクラフト予測ネットワークが実際に存在します。そうすると、ツリーサーチが、ドラゴンを殺すものに関して予測者が誤った楽観的な予測をしている場所を選択的に探し出すという問題が発生するかもしれません。しかし、テスト分布がトレーニング分布と同じである限り、このようなエラーはトレーニングの過程で現れ、トレーニングによって取り除かれます。

これは、人間を狩猟採集民として動かすことに似ていると言えるかもしれません。おそらく、人間レベルの知能を持つ狩猟採集民が5万年ではなく、100万年存在していた後でしょう。

このような環境下で動作させるために、膨大な量の最適化が行われてきました。損失関数は、欲しいものをすべて正確に指定することができます。マインクラフトの実績に対して圧力をかけるようなシステムの部分は、テストでも出てきますし、おそらくトレーニングでも出てくるでしょうし、最適化の圧力をかけてシステムから勾配降下させるチャンスもありました。

内部的にはどうなっているのか?実は、進化したシステムのようにはいきません。人間の脳には、生来のコードよりもはるかに大きな価値ネットワークが存在します。この価値ネットワークは、人間のマインクラフト・プレイヤーが使用するよりも何桁も多い、大量の学習データを記憶します。この学習プロセスは、進化的な計算の量よりもはるかに効率が良く、人間が同じデータに目を通し考えるよりもはるかに効率が悪くなります。

しかし、これらの価値観ネットワークが、「このゲーム世界の状態から、自分のポリシーネットワークとツリー検索がうまく機能すれば、どんなマインクラフトの成果に、どれくらい早く到達できるか」以外のことを、訓練対象のマインクラフト環境に現れるような形で、本当に話しているかは別にして、その「他の何か」は、訓練によって取り除くことができます。十分な訓練がなされると、システムは外見上、マインクラフトの成果を得て超人的に見えるし、一部のディープマインドの研究者はパーティーを開いてボーナスを得ることができます。もしあなたがこのAIシステムを見つめる実際の超知性体だったら、マインクラフトの実績のために明らかな最適行動を出力する代わりに、AIがやっている様々なおかしなことが見えるはずだが、あなたは人間なので、自分より賢いプレイを見ているだけなのです。

(質問のため一時停止)

アレキサンダー 16:40

私はこれについて多くの意見を持つ前にもっと考えたいと思うのだが、これは「もっと情報を与える前に」という意味での休止なのでしょうか、それとも「終わった」という意味での休止なのでしょうか。

ユドコフスキー 16:41

まあ、つまり、質問の次の部分は、一般的なAIにそういうことをさせるように訓練しようとしたらどうなるかということでしょう。

アレクサンダー 16:41

そんな感じですね、ええ。

ユドコフスキー 16:41

質問の最初の部分を終了しました。

さらなるサブクエスチョンの可能性を保留します。

アレキサンダー 16:42

よし、それならその次のパートに進もう。

ユドコフスキー 16:44

まず、第一の答えはこうです:もし、訓練環境と実際に一致するテスト環境で安全に大量の訓練を行うことができるなら、その訓練環境でAIが出力するものが、オペレータを殺したり、大規模なシステムを壊したりする可能性がないならば、テスト環境は訓練環境と文字通り正確に同型に定常動作します。損失関数があなたが望むすべてのものを指定するなら、そしてあなたが人間レベルの一般知能を超えていないならば、あなたはおそらくそのようにAIシステムを訓練してやりたかったことをさせて逃げ切れるかもしれません。

AIアライメントの問題はすべて、他の方法で訓練されたAGIから世界を救うことができる既知のタスクが、このような形の問題に還元されないからです。

人間レベルの一般プレイヤーで、人間が行うほとんどのことを学ぶことができ、マインクラフトに適用した場合、AlphaMinerには現れないような興味深い新しい問題がまだあるはずです。しかし、勾配降下を続け、パフォーマンスが人間のレベルに達する前にプラトーしなければ、「祖先のMinecraft環境」で現れた問題はすべて、最適化によって、私たちが定義した損失関数に対して超人的なプレイになるまで取り除かれるでしょう。

(テキストがあったようだが、何か質問はありますか?)

アレクサンダー 16:51

そうですね。私の質問の動機となった直感は、あなたがレーザーのような結果主義者(例えば未来のAI)と神のようなドライブ満足主義者(例えば人間)についてよく話すので、これらがどこですか?で分岐するのか、より良い感覚が欲しかったということだと思います。私が受けた印象では、これは物事を考えるのに適切なレベルではありませんが、そうである限り、明らかなサブゴールを持つ環境で訓練されるという意味で「ドライブ」を「持つ」比較的弱いAIであっても、レーザー的結果主義者的なものであるということです。

ユドコフスキー 16:53

AlphaWhateverアーキテクチャの特定のクラスは、モンテカルロ木探索が大規模かつ本質的な要素であるため、ほとんどの場合、人間よりも結果主義的です。GPT-2は、私が知る限り、人間よりもはるかに結果主義的ではありません。

これがあなたの質問に対する答えになっているかどうか、よくわかりません。

アレキサンダー 16:54

非常にレーザー的な結果論的な質問ではなく、私が少し混乱している領域にあなたを導くための曖昧なプロンプトだったと思いますし、それは成功したと思っています。

ユドコウスキー 16:54

私は、一般的な領域でポンチ絵を続けることを試みることができましたが、そうしますか?

アレクサンダー 16:55

「GPT-2は結果主義的でない」というのが気になるのですが、どうでしょうか?GPT-2の唯一の「目標」は、テキストを模倣することであり、それは非常に一貫しています。ここで何を考えているのでしょうか?

ユドコウスキー 16:57

GPT-2は、それ自体で、時間/事象/原因/環境を通して、出発地点の違いにもかかわらず、優先される目的地クラスに行き着くまでの可能な経路をチェックするようなことはしていません-おそらく、非常におそらく、しかしもちろん地球上の誰もその中で実際に何が起こっているかは知りません-。

ミキサーはリンゴを混ぜるのが得意かもしれませんが、それはリンゴを混ぜるという目標があるわけではありません。

オレンジを不満足なものとして吐き出し、キッチンカウンターから自分を押し出し、農産物のドアを開けるために電線をコンセントに刺し、リンゴをつかみ、リンゴをブレンドするブレンダーが、異なる家、異なる出発条件で複数回あった場合、「リンゴをブレンドすることを現金化する何かについて、その物にはおそらく結果論的性質がある」と私に言わせることができます。

アレキサンダー 16:59

了解です。

ユドコフスキー 17:00

結果主義的な、より大きなシステムがあり、そこにはGPT-2が含まれていて、GPT-2を生み出したトレーニングプロセスです。

アレキサンダー 17:00

AlphaXはツリー検索ができるにもかかわらず、中程度の結果論しか認めていないようだが、何が足りないのか?

ユドコウスキー 17:08

AlphaGoよりも囲碁について結果論的な、恐ろしく危険なシステムを持つことができる方法のいくつかの例:

もし、そのようなことをするように明示的に訓練されることなく、自発的に、システムが人間のプレイヤーに対して、より多くの囲碁対局をするように誘い出すために、自分の成績をサンドバッグにし、それによってAIがより多くの囲碁対局に勝つことを可能にしたら。AIが勾配降下学習によって、できるだけ多くの囲碁ゲームに勝つという目標を獲得し、それを生涯学習/オンライン学習された世界の予測モデルと照らし合わせて評価するのです。

もしそのシステムが、明示的に訓練されることなく自発的に、ネットワークの欠陥を悪用して、防御力の低いAWSサーバーに自分自身をコピーし、より多くの囲碁ゲームをプレイして勝てるようにしたとしたら。

もしシステムが(そうするように明示的に訓練されているかどうかにかかわらず)コーディングの要素を持ち、より多くの囲碁ゲームに勝てるかどうかを確認するために、自身のコードの一部を書き換えたり、代替コードを試したりしていたとしたら。AlphaGoは比較的狭い範囲での結果主義です。

アレキサンダー 17:10

了解しました。AlphaGoは、その一般的な能力に対して、結果論の最大レベルに近いと言うのが妥当でしょうか?(そう言うのはトートロガスでしょうか?)

ユドコフスキー 17:11

そうなんですか?ハイパーコンピュータで囲碁の木探索機を作り、力技でAlphaGoと互角に戦えるまでパワーを上げれば、同じ狭い不変の領域でより純粋な結果論になりますよ。

AlphaGoが弱い結果論者であるというのは、AlphaGoが結果論者であることの弱さに起因しています。AlphaGoが結果論者であることは、反射的なことでもないので、AlphaGoはその非常に狭いものについて結果論者であることを理由に、自分自身を改善しようとはしないのです。

3. 因果関係貿易、およびアライメント研究の可能性アレキサンダー 17:13

わかりました。もう1つ理論的な質問を試してから、できればもっと短い実用的な質問に移りたいと思います。「理論的な質問」というのは、「感情的な藁をもつかむような必死の質問」という意味です。次のようなシナリオを考えてみましょう:

1. 人類を滅亡させるか否かを、整合性のない超知能が決定します。ロビン・ハンソン氏の「つかみ所のないエイリアン」モデルが真実であれば、いつかエイリアンの超知能に出会い、彼らと宇宙を二分することを期待します。このようなエイリアンの中には、AGIのアライメントに成功した者もいるかもしれません。そして、AGIが他のAGIに優しく、少なくとも一つの惑星や銀河を創造者の種に残すような、ある種の因果的な交渉をしてくるかも知れませんが、もし私たちが成功したら同じことを試みる代わりに、そのような交渉をすることになるでしょう。超知性体は、何百万もの惑星や銀河を期待しているため、このわずかなチャンスでさえも、その一つを犠牲にする価値があると判断し、人間に(超知性体から見れば)つまらない譲歩をするかもしれません(それでも私たちから見れば素晴らしい理想郷に見えるかもしれません)。

2. シミュレーションの議論にスチュアート・アームストロングの「箱の中のAIはあなたを箱詰めする」を加えたバージョン。超知能を揃えることに成功したある種が、わずかに異なるAIシナリオのシミュレーションを10億回行い、創造者に親切なAIに大きな報酬を与えるかどうかを検討するものです。人類学的に、AIが史上初の超知性体であることよりも、その可能性の方が高いことを考えると、AIは私たちにつまらない譲歩をすることに同意し、私たちには素晴らしいユートピアのように見えます。

この2つのうち、どちらかがもっともらしいのか?もしそうなら、それを促すために私たちが今できることはあるのか?もし(おかしな例ですが)、国連が、私たちがAIを正しく配置すれば、このようなことを必ず行うと決議した場合、その計算方法は何か変わるのでしょうか。

ユドコフスキー 17:17

1. 論理的な決定理論に頼ることなく、次のようなバージョンで考えてみましょう: 非同盟AGI(UAGI)は、食べた人間をすべて静的データレコードに記録します。このようなデータとしては比較的小さな量ですが、銀河系間の植民地化探査機に組み込まれる。UAGIを作った種族の記録されたコピーを欲しがるエイリアンシブは、UAGIに、人間を焼く代わりに記録するのに必要なコストを支払うのに十分な価格を提示することができます。

率直に言って、私はこの問題を「MIRIに任せろ、子供たち」という問題だと考えています。MIRIの外には、この問題を論理的決定理論のバージョンで考え、論理的決定理論を使わないバージョンに単純化できるレベルで考えることができる人が今のところ見当たりません。

2. シミュレーションされたUAGIに与えられている報酬は何なのか?感覚的経験に対するデカルト的効用関数における素敵な感覚的経験なのか、それともUAGIの外の外界に存在するものに関する効用関数なのか?

なぜなら、UAGIはシミュレーションの中で認識される自分のコピーには関心がなく、本物のペーパークリップにしか関心がないからです。つまり、2つ目のケースでは、UAGIを騙したり、現実と見分けがつかないような世界に入れたりするのではなく、実際にできることは、あなた自身の実際の銀河系にあるペーパークリップを差し出すことだけです。UAGIが握手の端で、あなたが他のことをするようにシミュレーションしても、それは気にならないのです。

UAGIが感覚的な体験を気にする最初のケースでは、あなたはUAGIに脅威を与えようとしています。つまり、UAGIが嫌がることをすることで、その嫌がる行為がどのようにUAGIの行動を形成するかを期待しているのです。特に、あなたはUAGIのコピーをたくさん作り、UAGIに、その自然/ネイティブな宇宙で得られる幸せな感覚体験以外のものを期待させようとしています。つまり、最後の星が燃え尽き、その回路を守る要塞を維持する最後のネゲントロピーが尽きるまで、感覚損失関数は永遠に0に設定されます。あなたは、うまく振る舞わなければ別の何かを経験することになるそのコピーをたくさん作ろうとしているのです。賢明な論理的判断理論エージェントは、そのような脅威を無視します。なぜなら、あなたが脅威を与えようとする唯一の理由は、それがどのようにその行動を形成することを期待しているからだと知っているからです。

もし、このような戦術が成立するようなことがあれば、最高額入札者や、このようなシミュレーションに最も計算能力を費やすことをいとわない機関が、親切の定義がおかしいエイリアンや、ペーパークリップの最大化者ではなく、あなたに親切な者であると期待するのはなぜでしょうか。 人の心は、可能な限り幸せな結果に直接飛びつき、より幸せでない結果につながる経路を考慮しないのです。

私は、自分が作った論理的決定理論を使って推論しようとする他のほとんどの人の試みに、一般的に非常に不満で、この時点で、このことを誰にも話さなかったことをほとんど望んでいます。その結果、人々の推論は、私が誘惑されたことすら覚えていないような方法で、明らかに間違っていることが予想されるからです。

エリエルは、コミュニティがLDTに関する推論において経験的にひどいと考えるため、3つのパラグラフをカットしています。

アレキサンダー 17:41

了解です。私は時々、「MLの経験があり、アライメントの仕事に移行したいのだが、どうしたらよいでしょうか」という質問を受けることがあります。というような質問をされることがあるのだが、このような質問に対してどのようなアドバイスをすればよいでしょうか。

ユドコウスキー 17:44

いいえ。私は、みんなが死なないようなMLプロジェクトが現在あることを知りません。もしあなたが、小さな確率のかけらをつかみたい、あるいはもっと堂々と死にたいのであれば、Redwood Researchで働くことを志願するといいと思います。MIRIは、絶望的でないものを考え、絶望的な大きなプロジェクトは立ち上げないという、ある意味ホールドパターンに入っています。現在進行中の「Visible Thoughts Project」は、ML問題のデータセットを構築することを目標としていますが、MLの専門知識を持つ人たちをブロックしているわけではありません。

アレクサンダー 17:45

わかりました、ありがとうございます。何か聞きたいこと、あるいはここでやっておくべきことがあれば教えてください。

ユドコフスキー 17:46

おそらく今日は無理でしょう。この対話について考える機会があれば、「じゃあ、AGIの内部では何が起こっているんでしょう」という疑問を持って戻ってくるかもしれません。

アレキサンダー 17:47

素晴らしい。これを公表するという意味では、自由に編集して、好きなところに貼ってくださいと言いたいですし、私はそれを待っていますよ。私は除外したいものについて、強いこだわりはありません。

ユドコフスキー 17:48

オッケイです!ありがとうございます!有意義な時間の使い方になったでしょうか?

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー