AGIの破滅：致死性リスト

コンテンツ

前文
セクションA：
セクションB：
セクションC：

www.alignmentforum.org/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities

AGI Ruin: A List of Lethalities

2022年6月6日

前文

(すでに基本的なことは知っていて、前置きはいらないという方は、アライメントの技術的な難しさについて、セクションBまで読み飛ばしてほしい)。

AGIで死ぬ理由を整理して書くことに何度か失敗したことがある。AGIで生き残れる理由について、人々はさまざまな考えを持ってやってきて、明らかに重要なポイントを最初に聞きたい。明らかに最も重要なポイントがすぐに取り上げられないと、そのうちの何人かは私に大声で怒り、代わりに異なるポイントを最初に取り上げる。

この問題をうまく解決できなかったので、今はあきらめて、個々の暴言の整理された不十分なリストで解決している。このリストには特に満足していない。代替案は何も公表しないことであり、これを公表する方がわずかに威厳があると思える。

ここでは、一般的な論題について3点、致死性リストと矛盾しないように番号を振っている：

-「直交性」や「道具的収束」とは何か、なぜそうなるのか、といった基本的なことはすでに存知だと思う。「ここで古い戦争をするのはやめてほしい」と言われることがあるが、その人たちは、「その戦争は、現在の聴衆の中で重要視されている部分ではすでに勝っている」と主張している。もしあなたが「直交性」や「道具的収束」が何だろうかを知らないなら、あるいはなぜそれが真実だろうかを自分で理解できないなら、この紹介とは別の紹介が必要だろう。

GPT-4：

「直交性」（Orthogonality）とは、知能と目的の関係を示す概念である。直交性の原理は、知能のレベルと目的（価値観やモチベーション）は独立しており、高い知能があるシステムでも、道徳的に営まれているとは限らないということを意味する。つまり、知能が高いほど道徳的であるとは限らないという考えである。

「道具的収束」（Instrumental convergence）は、異なる究極の目的を持つ知能システムが、それらの目的を達成するために共通の中間目的（手段）を選択する傾向があることを指す。例えば、資源の収集や自己保存など、様々な目的を達成するために役立つ行動がある。これらの中間目的は、目的が何であれ、ほとんどの知能システムにとって有益であることが一般的である。

-2.私が「アライメントが致命的に難しい」と言ったのは、「証明可能な」アライメントという理想的で完璧な目標や、人間の価値観にぴったり合ったスーパーインテリジェンスの完全なアライメント、ちょっと合理的な人間が反対する道徳的ジレンマについてAIが納得のいく議論をすること、AIが皆殺しにしないという絶対的な確度を達成することについて言っているのではない。私が「アライメントが難しい」と言ったのは、実際に私たちが持っている技術を使って、「確率がほぼ1で文字通り全員を分解しないでほしい」というのは、あまりにも大きな要求であり、私たちはそれを得る方向に進んでいないという意味である。私としては、、10億人以上を殺す確率が50%未満で、何か重要な超人工学タスクを実行する強力なAGEを得ることができるなら、私はそれを受け取る、。さらに少ない人数で殺せる可能性があるのはいい贅沢であるが、「全員を殺すことがほぼ確実でない」くらいまでなら、5%以下の確率までなら、もう少し努力すれば可能だろう。実質的にすべての困難は、「文字通り全員を殺すことが確実でない」まで行くことにある。トロッコ問題はこのすべてにおいて興味深い下位問題ではない。生存者がいれば、アライメントは解決した。この時点で、私はもうそれがどのように機能するかは気にしないし、あなたがそこに到達した方法も気にしない。あなたがどんな方法論を使ったとしても、私は原因にとらわれず、私が見ているのは将来の結果だけだ。私がこれより厳しい「アライメント」を求めていると言う人は、読解力に欠けている。AGIのアライメントに求められる大きな課題、私が難しすぎると言っている基本的な課題は、どんな戦略でも、生存者がいる可能性が高いものを得るということである。

-1.原理的に不可能ということではない。私がいつも使う比喩は、もし100年後の未来から教科書が手元に届き、実際に強固に機能するシンプルなアイデアがすべて含まれていたら、おそらく6カ月でアライメントした超知性を構築できるだろうというものである。機械学習を学んだ人のために、私はReLU活性化とシグモイド活性化の違いに喩えている。シグモイド活性は複雑で壊れやすく、何層にもわたって勾配を伝達するのが苦手である。ReLUは非常にシンプルで（よくわからないかもしれないが、活性化関数は文字通り、max(x, 0)）、はるかによく機能する。この分野の最初の数十年間はほとんどのニューラルネットワークがシグモイドを使っていたが、ReLUというアイデアが発見、検証、普及したのはそれから何十年も経ってからだった。致命的なのは、「未来からの教科書」が、現実の生活で実際に機能し、ロバストであるシンプルな解決策をすべて教えてくれないことである。AGIアライメントについてここで議論されているどの困難も、もし私たちが無制限のリトライを使って解決するのに100年あれば、原理的にはもちろん、単に人間の科学と工学にとって不可能だと私は主張していない。この致命的なリストは、私たちが最初の決定的なトライで時間内に実際に解決するコース上にないものについてのもので、どれも 原理的には不可能であるものについてはるかに強い主張をすることを意味さない。

ということなのだが：

なぜAGIが現在の経路や他の経路で生存可能なのかについて、様々な人が信じているような間違ったことを否定するために、私の視点から、いくつかの異なる本当のことを述べてみる。

セクションA：

これは非常に致命的な問題であり、何らかの方法で解決しなければならない。一部の人が夢見るような様々な簡単なモードではなく、最低限の強さと難易度で解決しなければならない。「みんな」が安全な弱い問題だけを解決するために後退するという目に見える選択肢はない。

1.アルファゼロは、人間のプレイブックやサンプルゲームに頼ることなく、1日ほどの自力プレイで、囲碁に関する人間の蓄積した知識をすべて吹き飛ばした。まあ、囲碁で人間の能力まで上がるだろうが、それを超えるのは難しいだろう、それ以上人間から学ぶことはできないだろう」と信じていた人は、真空に依存していたことになる。人間よりずっと賢いものは、人間が脳みそにアイデアを叩き込むのに必要な証拠よりも少ない証拠から学ぶことができる。この点については理論的な上限があるが、その上限は非常に高いようだ。（例えば、すでに完全に予測できなかった各情報は、検討中のすべての仮説の確率的質量の最大半分を排除できる）。人間が反応しやすいタイムスケールですべてが起こることは、（介入しない限り、デフォルトで）当然ない。

2.十分に高い認知能力を持つ認知システムは、中帯域幅の因果関係チャンネルがあれば、人間のインフラとは無関係に圧倒的な能力まで起動することは難しくない。私がここで通常使う具体例はナノテクである。ナノテクで何が可能になるかについて、物理的に達成可能と思われる下界がかなり詳細に分析されており、この下界はポイントを伝えるには十分だからだ。私の考える「十分に強力な知性が、そうしたくないと思わなければ、どのように皆を殺すか」の下限モデルは、インターネットにアクセスし、メールに記載されたDNA配列を受け取り、タンパク質を送り返してくれる多くのオンライン企業のいずれかに、いくつかのDNA配列をメールで送り、AGIを相手にしているとは知らない人間を買収/説得してビーカーでタンパク質を混ぜさせ、実際のナノマシンを製造できる第一段階のナノ工場を形成する、というものである。(私がこのビジュアライゼーションを最初に展開したとき、賢明な評論家たちは「ああ、でも、超知的生命体が、惑星サイズのスーパーコンピューターをすでに持っていないなら、タンパク質の折り畳み問題を解決できるとどうしてわかるのだろうか」と言った。「しかし、（アルファフォールド2の登場後は、なぜかこのような声が少なくなった）ナノマシンはダイヤモンド型バクテリアを作り、太陽光発電と大気中のCHONで複製し、小型のロケットやジェットに集合させて、ジェット気流に乗って地球の大気中に拡散し、人間の血流に乗って隠れ、タイマーで攻撃することができるかもしれない。高性能な認識システムとの衝突に負けることは、少なくとも「地球上のすべての人が同じ秒数の間に突然倒れて死ぬ」のと同じくらい致命的なことに見える。(私が「高い認知能力」という厄介な構文を使うのは、「スマート」や「インテリジェント」といった標準的な英語用語が、私には主に地位の同義語として機能しているように見えるからだ。「超知能」はほとんどの人にとって、「ダブルカレッジに行った地位階層の上位のもの」と聞こえるし、それがなぜそれほど危険か理解できないのではないだろうか。地球人には「実際に役に立つ認知力」を意味する言葉もなければ、標準的なネイティブの概念もない。十分なパニックを起こせないのは、地球人という文化が名付けていないこのものの驚くべき潜在的な致死性を理解していないことに起因すると思われる)

3.私たちは、「危険な」レベルの知性で活動する際の「最初の決定的な試み」でアライメントを正しくする必要がある。危険なレベルの知性でアライメントされていない活動は、地球上のすべての人を殺し、その後再挑戦することはできない。これには、例えば、以下のようなものがある：(a)ナノシステムを構築するのに十分な賢さを持ち、ナノシステムを構築することが明確に許可されているもの、(b)ナノシステムを構築するのに十分な賢さを持ち、インターネットに不正にアクセスしてナノシステムの材料を揃えるために人間にお金を払うことができるもの ;あるいは、（c）インターネットに不正アクセスし、ハッキングできるマシンの数で自分より賢いものを作ることができるほど賢いもの、（d）人間を操作可能な機械として扱い、人間との間に許可または不許可の双方向因果関係チャンネルを持つほど賢いもの、（e）（b）または（d）ができるほど自分を改善するほど賢いもの、などなどである。しかし、より強力なシステムを運用するようになると、十分に致命的なエラーについては更新することができなくなる。もし無制限に再試行ができるのなら、AGIがすべての銀河を破壊するたびに、4年前に戻って再試行できるのなら、100年後には、どの明るいアイデアが実際に機能するかが分かるだろう。人間は、何度も試行すれば、かなり難しいことを理解することができるが、失敗して文字通り全員が死ぬと、それは難しい。最初の挑戦で多くの重要なことを正しく理解しなければならないことが、致死性の大部分であり、同様に、何が正確に「重要」であり、それを間違えると死んでしまうかのリストを教えてくれる権威がここにいないという事実である。(ほとんどの人は、「科学的」教育によって、学問的な権威ある監督なしにパラダイム前のパズルに挑戦する準備がまったくできていないため、それがどれほど難しいか、あるいは最初の決定的な挑戦で正しくやることを要求することがどれほど信じられないほど致命的だろうかにさえ気づいていない、という指摘もある)

4.GPUはどこにでもあり、アルゴリズムに関する知識は常に改善・公開されているため、「AGIを作らない」と決めることはできない。主要なアクターが世界を破壊する能力を得た2年後には、他の5つのアクターが世界を破壊する能力を持つようになる。この致命的な課題は、制限時間内に解決することであり、時間の経過とともに、総計算能力の割合が小さくなっていく弱い行為者が、AGIを構築して世界を破壊することができるようになるというダイナミズムに後押しされている。強力な行為者が一斉に自殺行為を控えたとしても、コンピュータハードウェアとコンピュータソフトウェアの進歩が地球全体で完全に厳しく停止させない限り、制限時間は延びるだけで解除には至らない。すべての大きな主体が愚かなことをしないようにするためのこの協力の現状は、現在、多くの研究者と計算能力を持ついくつかの大きな主体が、AGIの安全性に関するすべての話を声高に軽んじる人々（例えばFacebookのAI研究）に率いられているということである。AGIのアライメントを制限時間内に解決する必要があるが、フルパワーのシステムで迅速に実験するために安全なリトライを無制限に行うか、最初のクリティカルトライにのみ、時間制限を無制限に行うか、どちらも歴史的基準からすると人類を脅かすチャレンジであることに注意してほしい。

5.私たちは、非常に弱いシステムを構築し、それが弱いから危険性が低いのだと勝利宣言することはできない。私は過去に、これを「安全だが役に立たない」トレードオフ、あるいは「安全対有用」とも呼んだ。人々は「なぜAIを使ってXだけをしないのか、それは安全そうだ」と言い続けるが、その答えはほとんどいつも「Xをすることは実際には非常に強力な認知を必要とし、受動的に安全ではない」、あるいはさらに一般的には「Xをすることに制限しても、Facebook AI Researchが6カ月後に世界を破壊することを防げないから」である。スポンジは受動的安全性が高いが、スポンジを作っても、6カ月後にFacebook AI Researchが主役に追いつき、世界を破壊することは防げない。

6.私たちは、ある大きなタスクの実行を揃える必要がある。それは、他の人々が揃わないAGIを構築して世界を破壊するのを防ぐ「極めて重要な行為」である。AGIを持つアクターの数は少ないか1人であるが、ゲームボードをひっくり返すほどの強力なAGIを使って、何か「極めて重要な行為」を実行しなければならない。弱いシステムを揃えるだけでは不十分で、何か1つの非常に大きなことをできるシステムを揃える必要がある。例えば、「GPUを全部燃やす」というのは、強力なAGIがあればできることではない。ナノマシンがGPUを全部追い詰めるためには、非常に複雑なオープン環境で動作する必要があり、そのためにアライメントが無駄に難しくなる。だから、「よくもまあ、GPUを燃やすなんて言い出したものだ」と言われるような例を選んだ。半年後や3年後に誰かが世界を破壊するのを防ぐために、そのために必要な大まかなパワーレベルやマシンの認知レベルを軽く過大評価しているだけだ」と言うことができる。(もしそれが軽い過大評価でなければ、「すべてのGPUを燃やす」というのが実は最小限の極めて重要なタスクであり、それゆえ正しい答えになるのであるが、私はそれを否定することができない。) アライメントに関する多くの巧妙に聞こえる提案は、「世界中のすべてのGPUを停止するために使用できるシステムのアライメントにこれをどう使うことができるだろうか」と質問するとすぐに破綻してしまう。「なぜなら、そのシステムはそれほど強力なことはできないし、もしできるとしても、そのシステムをアライメントするのは簡単ではないからだ」GPUバーナーはまた、ナノテクノロジーを構築するのに十分強力なシステムであり、それを許可されたと称されている。

7.このコミュニティで誰も「極めて弱い行為」を挙げることに成功していないのは、AGIで受動的に安全であるほど弱く、しかし1年後に他のAGIが世界を破壊するのを防ぐほど強力で、しかも今すぐそれを行うことはできず、AIを待つ必要があるからだ。-そんなものは存在しない。他のAGIが出現するのを防ぐために、現在の世界に何かをするのは大変なパワーが必要だ。もしあなたが今問題を解決できないのであれば（解決できないのは、解決されたくない他のアクターと対立しており、それらのアクターはあなたとほぼ同じレベルにいるからである）、あなたは、例えばすべてのGPUを燃やすことができるほど近くにいないため、あなた自身がどうすればいいのか理解できなかったこと、理解するのに近づいていなかったことができる認知システムに頼っているのである。GPUをすべて燃やせば、6カ月後にFacebook AI Researchが世界を破壊するのを実際に止めることができる。「GPT-4をTwitterに放ち、あらゆることについて科学的なリテラシーを持った議論を提供することで公共の認識論を改善する」という弱気なオーバートンは、クールであるが6カ月後にFacebook AI Researchが世界を破壊するのを実際には防ぎない。また、FAIRを特に止めることができれば1年後に熱心にオープンソースの共同研究が世界を破壊してしまう。極めて弱い行為などないのである。

8.AIに解決させたい問題を解決するための最適化アルゴリズムが、AIに解決させたくない問題にも容易に汎化される。

9.安全なシステムの構築者は、そのようなことが可能であるという仮説に基づき、そのシステムを、全員を殺すか、あるいは自分自身をさらに危険にさらす能力を持ちながら、それをしないようにうまく設計されている体制で運用する必要がある。何か極めて重要なことを行う実行型AGIは受動的安全ではなく、核コアに相当し、超臨界になってメルトダウンしないためには設計特性を活発に維持しなければならない。

セクションB：

しかし、存知のように、現代の機械学習は精霊のように願い事をするだけだ。「損失関数」と呼ばれる不思議なもので表現されるが、基本的には英語の願い事の言い回しに等しい。だから、いいことをするエージェントと悪いことをしないエージェントのデータセットに、巨大な変換レイヤーのスタックを訓練し、どこかに「corrigibility」という単語を入れ、計算パワーを上げて、アライメントしたAGIを出してはどうだろう。

セクションB.1：分配の跳躍。

10.致命的に危険な認知を実行し、その出力がオペレータを殺すか欺くか腐敗させるかを観察し、損失を割り当て、教師あり学習を行うことによって、アライメントを訓練することはできないだろう。標準的なMLパラダイムのようなものでは、安全な状態で行ったアライメントの最適化を、危険な状態への大きな分布の変化に応じて一般化する必要がある（この一般化は、そのパラダイム以外でも当てはまるように思う。この点だけでも、どのような出力を揃えるためにどのような訓練をするかという具体的なシナリオを描いたこともなければ、具体的に描くこともできない人たちからの多くの素朴な提案を殺すのに十分である。アライメントを誤ると死んでしまう危険なことをする強力なAGIには、死なない安全な構築/訓練作業からはるかに外れた分布の一般化を行う整合特性が必要である。危険なレベルの知性*能力でアライメントが取れていないと死んでしまう。なので、アライメントが取れていないシステムから始めて、アライメントを学習させるために出力にラベルを付ける場合、トレーニング体制や構築体制は、受動的に安全で、現在アライメントが取れていなくても何の脅威にもならない、より低いレベルの知性*能力で動作していなければならない。(現実的な能力レベルであれば、自分よりかなり賢いものは脅威となることに注意してほしい。例えば、「人間が見るような出力を出せる」ことは、人間よりはるかに賢いAGIが人間という因果系から抜け出すのに十分だろう。特にリアルワールドでは、ソースコードやトレーニング環境に潜む原因を知らないようにするのではなく、誰かが何十バイトものインターネットテキストでシステムをトレーニングした場合である)

11.認知機械が、大量のトレーニングを行った分布から大きく外れたところで一般化しないのであれば、「ナノテクノロジーを構築する」というオーダーで、ナノテクノロジーの構築に失敗するトレーニングを100万回行うにはコストがかかりすぎる問題を解決することはできない。このような極めて弱い行為はない。何百万回もの訓練を安価に行うことができる安全な環境で、安全なレベルの能力を訓練し、その能力を世界を救うために展開し、2年後に次のAGIプロジェクトが世界を破壊するのを防ぐことができるケースは、知られていないのである。このような重要な弱点は知られていないし、それを探す人もいない。そのため、結局は訓練分布から大きく外れるように調整する必要がある。訓練環境が安全である必要があるだけでなく、AGIが何か大きな行為をする必要がある実世界のドメインを評価するより訓練環境が安価である必要があるため、訓練環境はおそらく必要である。すべてのGPUを燃やすのに1000回も失敗することはない。なぜなら、能力の成功とアライメントの失敗の結果を省いても、人々は気づくからだ。

12.高い知能レベルでの運用は、低い知能レベルでの運用から配分を大きく変え、新しい外的選択肢を開き、おそらくさらに新しい内的選択肢とモードを開く。高い知能レベルと危険レベルで実体化した問題は、安全な低い知能レベルでは現れなかったり、最初のパッチで抑えた後に再発する可能性がある。

13.超知能のアライメント問題の多くは、危険で受動的に安全な能力レベルでは自然に出現しない。内的行動「外的行動を変えて意図的にアライメントが良く見えるようにして、プログラマーやオペレータ、そしておそらく自分の上に最適化する損失関数を騙す」ことを考える。この問題は、超知的なレベルで現れる問題である。仮に、それ以前のシステムで自然に現れる時期という点で、このような問題の中央値に含まれると推測すると、超知的なアライメント問題の約半分は、この問題が最初に現れ始めてから自然に顕在化するだろう。どのような問題が後から自然に現れるかを正しく予見できれば、そのような問題を意図的に早く具現化し、その観測を行うことも可能である。これは、(a)後に現れる問題のすべて、あるいはそのスーパーセットを正しく予測し、(b)後に現れる問題のスーパーセットを先取りして実現することに成功し、(c)実際の問題に対して分布外である先の実験室で、後に実現したときに誤操作すると致命的になるアライメント問題を実際に解決できる場合に有効である。本当に危険な問題をすべて予見し、それをうまく具体化し、初期の解決策を後の解決策に一般化できるような正しい形にするのは、ちょっと難しそうだ。

14.AGIは、その環境を完全に最適化するために、プログラマーをうまく殺して置き換えることができる（ように見える）オプションを持っている」というような問題の中には、完全に危険な領域でのみ最初に現れるという自然な順序がありそうだ。オペレーターを脳レベルで説得するか、インターネットに逃避してナノテクを構築し、全人類を破壊するかという明確な選択肢が実際にある。関連する事実を完全に把握しており、さらに能力を高めながらもう1カ月時間をかければ、望ましい戦略を変える何かを学ぶ可能性は、割に合わない低い確率でしかないと推定される。この選択肢はAGEが創造者を倒せると完全に予想した時点で初めて現実的に評価される。そのおもちゃのドメインで、そのシナリオを再現することができる。そのおもちゃのドメインで、その行動に対して勾配降下法で訓練しようとすると、思考プロセスに特にコヒーレントでないローカルパッチが生じると思うが、これは超知能が訓練分布から大きく外れて非常に異なる思考を一般化したときに、ほぼ確実に壊れる。また、プログラマーやオペレーター自身も、あまり危険でない領域での操作に慣れているため、危険な領域に入ると分布外の操作をすることになり、そのときに方法論が破綻する可能性がある。

15.急激な能力向上は、それまでのアライメントに必要な不変量の多くを同時に壊す可能性があるようだ。操作者の先見性が不十分であれば、急激な能力向上の後に、これらの問題の多くがほぼ同時に現れると予想される。人間の知能のケースをもう一度見てみよう。農業が導入された直後、「包括的生殖適合度」という外側の損失関数との整合性が崩れたわけではない。その代わり、一般的な知能ゲームの後半に、外的最適化ループの速度に比して非常に速いバーストで、避妊を含む祖先の環境よりも高度な技術を手に入れた。私たちは自分自身をもっと振り返り始め、文化進化によってもっとプログラムされ始め、祖先の訓練環境における私たちのアライメントの基礎となる多くの仮定が同時に崩壊した。(この抽象的な説明が勾配降下法では通用しない理由を、人々は合理的に説明するだろう。例えば、「勾配降下法は情報ボトルネックが少ない」などである。この多様な読者のモデルには、内側からの視点があり、彼らは外側からの視点というラベルを貼る。それは、外側最適化ループが内側の一般知能を生み出す観察例ではない他のいくつかのデータ点に大きな関連性を割り当て、実際に問題となる現象を特徴とする私たちの一つのデータ点にはほとんど関連性を割り当てない。外側の最適化ループが実際に一般的な知性を生み出したとき、それは一般的になった後にアライメントを崩し、その一般的な知性が能力と知識を蓄積するゲームの比較的遅い時期に、自然選択の外側の最適化ループと比較して「致死的に」危険になるほぼ直前にそうした。誰かがこの一つの警告を無視しているなら、懐疑的であることを考慮してほしい。特に彼らが代わりにうまくいかないだろうと言う同様に致死的かつ危険なものを提示しない場合である)

B.2項アウターアライメントとインナーアライメントの中心的な難しさ

16.たとえ正確な損失関数を一生懸命訓練したとしても、それによってAIに損失関数の明示的な内部表現が生まれ、分布が変化した環境でもその正確な損失関数を追求し続けることはない。人間は明示的に包括的な遺伝的適合性を追求しない。非常に正確で非常に単純な損失関数で外部最適化しても、その方向の内部最適化は生まれない。これは現実の生活で実際に起こっていることであり、私たちが知っている唯一のケースでも起こったことである。そして、このことが再び起こることを期待する深い理論的理由があるように思える。このことは、このリストの他の多くの項目を無視しても、単純な概念で計算された損失関数で束を最適化すれば、その概念で完全な内部アライメントが得られると仮定する素朴なアライメント提案のカテゴリー全体をゴミ箱に入れるのに、それだけで十分である。

17.より一般的には、「外側の最適化が内側のアライメントを生み出さない」という超問題は、現在の最適化パラダイムでは、損失関数を実行できる観測可能な外側の特性ではなく、特定の内側の特性をシステムに取り込む方法、またはそれがあることを確認する方法についての一般的な考えがないことである。これは、元の訓練分布から一般化しようとするときに問題となる。なぜなら、例えば、あなたが見た外側の動作は、あなたを欺くために意図的に外側の動作を生成している、内側に配置されたシステムによって生成されている可能性があるからだ。現在の最適化パラダイムでは、外側の動作ではなく内側のシステムに、どんな情報をどのように取り入れるか、体系的かつ一般的な方法で知ることはできない。

18.ある出力が「アライメント」しているかどうかについては、信頼できる直感的なグランドトゥルース（信頼できる損失関数計算機）はない。なぜなら、ある出力は人間のオペレーターを破壊し（あるいは騙し）、外部から登録された損失関数の背後に別の環境の因果の連鎖を生じさせるからだ。つまり、現在人間によって生成されている報酬信号をエージェントに見せた場合、その信号は一般的に、ある行動がどのようにアライメントしていたかについての信頼できる完全なグランドトゥルースとはならない。なぜなら、高い報酬信号を生成する別の方法は、その報酬信号を生成する別の因果系で人間のオペレーターを欺いたり腐らせたり、置き換えることだからだ。エージェントに対して環境報酬信号を示すとき、システムが自分の望むことをしたかどうかについての信頼できる基本的な真実であるものを示しているわけではない。たとえその報酬信号で完全に内側にアライメントすることになったり、「高い報酬信号が送られるような環境の状態を望む」ことに正確に対応する何らかの概念を学習したとしても、その信号で強く最適化するAGIはあなたを殺してしまう。なぜなら感覚報酬信号は（オペレータが見た）アライメントに関する基本的な真実ではなかったのである。

19.より一般的には、損失関数、感覚入力、報酬入力のパラダイムを使用して、認知システム内の何かを最適化し、環境内の特定のものを指し示す方法は知られていない –感覚データと報酬の比較的浅い関数ではなく、環境内の潜在的なイベントやオブジェクト、プロパティを指し示す。これは、システムの目標（どのような目標であれ、偶然に内部最適化されることになる）の中に、偶然に環境の何かを指し示すものがないとは言わない。人間は、少なくとも部分的には環境を指し示すことになったが、内部指向の動機付けのポインタもたくさん持っている。しかし、現在のパラダイムが機能している限り、紙面上の設計特性では、センスデータの既知の直接関数と報酬関数に整合する場合にのみ機能する。これらはすべて、十分に強力な知性によって最適化されると、「ナノテクを使って世界中の人を殺し、戦いになっていることに気づく前に攻撃し、その後永遠に報酬ボタンをコントロールする」という戦略を意味するため、死んでしまう。ウェブカメラの入力に関する関数を知っていて、そのウェブカメラが正しいものを見せているすべての世界が、ウェブカメラの外にいる私たち生物にとって安全であるというのは、真実ではない。この一般的な問題は、地図ではなく領域に関する事実である。特定の最適化装置ではなく実際の環境に関する事実で、与えられたあらゆる感覚入力の基礎となるいくつかの可能な環境には、私たちにとって致命的な可能性が存在している。

20.人間の操作者は誤りやすく、壊れやすく、操作しやすい。人間の評価者は系統的なエラー-規則的でコンパクトに記述でき、予測可能なエラー-を起こす。人間のフィードバック」から関数を忠実に学ぶことは、人間の好みを不誠実に記述し、ランダムではないエラーを（私たちが何を伝達したいと思ったかという外部の立場から）学ぶことだ。人間のオペレーターが割り当てる報酬の参照先を完璧に学習し、完璧に最大化すれば、それは人間を殺すことになる。人間の答えを最もよく予測できる説明は、人間の反応における系統的なエラーを予測するものであり、したがって、人間のエラーを生むケースに割り当てられるであろう高いスコアを正しく予測する心理概念であるというのは、地図ではなく領域に関する事実であり、最適器ではなく環境に関する事実なのである。

21.「環境は本当はどうなっているのか」「環境を把握するにはどうすればいいのか」「現実が特定の特性を持つようになるには、どの出力が現実と相互作用するのか」といった質問には、単一の答え、あるいは答えのバケツのようなものがあり、単純な外側最適化ループは、最適化されたものをこのバケツに直接押し込む。あなたが間違った信念を持っていると、現実はあなたの間違った予測に反撃する。信念の更新装置が壊れている場合、現実は予測損失によってあなたの壊れた予測メカニズムに反撃し、勾配降下更新は、他のすべての予測的なものと容易に一致できる簡単な方法で問題を修正する。対照的に、効用関数の選択に関しては、無限の自由度と複数の反射的にまとまったフィクスポイントがある。現実は、特定の範囲のテストケースでは局所的に損失関数と一致するが、より広い範囲のテストケースでは大域的にずれているものに対して、「反撃」することはないのである。これは、ヒト科の動物がようやく一般化し始めたときに、その能力を月面着陸にまで一般化したが、その内的最適化が、外的最適化の目標である「相対的包括的繁殖フィットネス」にうまく適合しなくなった理由についての非常に抽象的な話である-たとえ、祖先の環境では、この一つのことに非常に厳密に最適化されていて他のものはなかったとしても。この抽象的なダイナミズムは、「自然淘汰」や「勾配降下」のような外側の最適化ループに当てはまるものである。中心的な結果　能力が遠くまで一般化し始めると、アライメントよりも能力が遠くまで一般化する。

22.複雑な認知マシンが機能する理由を説明する比較的単純なコア構造がある。それが、一般的な知能というものが存在する理由であり、無関係な多くの特別な目的のソリューションではない。このコア構造が単純で、低エントロピー高構造環境と一般的に関連しているという事実が、人間が月面を歩ける理由である。特に、勾配降下法では、自然淘汰が先祖代々の人間の中で「包括的な繁殖適性を求める」という一般化された解を見つけるよりも、さらに簡単に見つけることができる。したがって、能力は、一般化し始めると、アライメントよりもさらに分布外に一般化する。

23.コリジビリティは結果論的推論にとって反自然的なものである。ほとんどすべての種類のコーヒーに対して「死んだらコーヒーを持ってくることはできない」私たち（MIRI）は、（そのエージェントが積極的にシャットダウンされようとせずに）自身をシャットダウンさせるエージェントについての首尾良い式を見つけようとしたが失敗した。さらに、このように反コリジビリティの推論の多くのラインは、高いレベルの知性がないと最初に出現さない。

24.アライメントには、根本的に異なる2つのアプローチがあり、それは2つの異なる理由によって解決不可能である。したがって、2つのアプローチの間で混乱して曖昧になることで、アライメントは必ずしも難しいのかについて自分自身を混乱させることができる。最初のアプローチは、CEVスタイルのソヴリンを作ることである。ソヴリンは、私たちが外挿した望みと全く同じものを望んでいるので、それを止めようとする人間の入力を受け入れることなく、未来のすべての銀河を最適化させても安全である。2番目のコースは、私たちの望みと全く同じものを望んでおらず、収束的インセンティブがそこにあるにもかかわらず私たちを殺して銀河を支配することに失敗するコリグリーAGIを作るというものである。

まず一般的に、あるいはCEVに限って言えば、「実際の価値」に対してアライメントやメタアライメントが必要なものの複雑さは、AGIの最初の試みには到底及ばないため、実行不可能である。データセット、メタ学習アルゴリズム、そして学習する必要があるものが、最初の試みには到底及ばないということである。単に手でコーディングできないだけでなく、教えようとするものがあまりにも奇妙で複雑なので、最初の試みでは教えることができないのである。
なぜなら、コリジビリティは、一般的な知能のコア（本来の分布から大きく外れたところで一般化する能力）の中で、 道具的に収束する行動に積極的に対抗するからだ。あなたは、コアがそれまで中立だったものに対して意見を持たせようとしているのではない。特定の訓練分布でこれを行うように訓練することはできるが、その訓練分布から大きく外れた新しい数学の問題を提示すると、能力の一般化に成功したシステム上では、信じられないほど壊れてしまう可能性が高いのである。

セクションB.3：十分に良好で有用な透明性/解釈可能性の中心的な難しさ

25.浮動小数点数の巨大な不可解な行列やテンソルの中で実際に何が起こっているのか、私たちにはわからない。トランスフォーマー層がどこに注意を向けているかという興味深いグラフを描いても、答えが必要な質問が「私たちを殺す方法を計画していたかどうか」であれば役には立たない。

26.仮に、AGIがまだ私たちを殺すには弱すぎるうちに、巨大な不可解なマトリックスの内部で何が起こっているかを知ったとしても、ディープマインドがそのシステムの運用を拒否し、2年後にFacebook AI Researchに世界を破壊させた場合、私たちはより尊厳を持って死ぬことになるだけだ。不可解なマトリックスの中強度のシステムが私たちを殺す予定だと知っていても、それによって私たちを殺す予定ではない不可解なマトリックスの高強度システムを構築できるわけではない。

27.非アライメント思考の検出器に対して明示的に最適化する場合、よりアライメントした思考に対して部分的に最適化し、より検出しにくい非アライメント思考に対して部分的に最適化することになる。解釈済みの思考に対して最適化することは解釈可能性に対して最適化する。

28.AGIは、私たちが内部で操作しようとしているどんな領域においても、私たちよりも賢いので、私たちはAGIが検討するすべての可能性を精神的に確認することはできず、私たち自身の精神的才能を使ってその出力のすべての結果を見ることはできない。強力なAIは私たちが知らない選択肢空間の一部を探索し、私たちはそのすべての選択肢を予見することはできない。

29.AGIの出力は、その結果が出るまでに、巨大な、私たちにはよくわからない領域（リアルワールド）を通過する。人間は、AGIの出力を検査して、その結果が良いものかどうか判断することはできない。

30.今すぐ実行に移せないような重要な行為では、AGIが私たちの知らない世界について理解することで、私たち自身ではできないような計画を立てることができる。少なくとも、ある行動シーケンスが私たちが望む世界をもたらすという、これまで知らなかった事実を知っている。そうなると、人間はその行動シーケンスの結果をすべて把握するために自分自身の世界に関する知識を使う能力はないだろうね。実行する前に、その行動シーケンスのすべての効果を完全に理解できるAIは、その領域では人間よりはるかに弱い。自分と同じくらい賢く、自分を騙そうとしている非アライメントの人間について、同じ保証をすることはできない。人間がチェック可能で、世界を安全に救うために使用できるAGIの極めて重要な出力が、それをチェックしてからしか存在しない。これは、存在しない極めて弱い行為の別の形態である。

31.戦略的な認識を持つ知性は、その知性が戦略的な認識を獲得しているかどうかといった事柄を含め、あなたを欺く結果をもたらすような目に見える出力を選択することができる。AIがあなたを欺こうとするかもしれないAIについての事実を判断するために行動検査を頼ることはできない（それがどれだけ賢いか、戦略的な認識を獲得しているかどうかを含めて）。

32.人間の思考は、部分的に精査可能な外側の表面層のみを露出している。言葉は人間の本当の思考をトレースするだけだ。言葉は本来のスタイルでAGI完全なデータ表現ではない。人間の思考の下層部は直接模倣学習には露出せず、どんなデータセットにも入れることができない。このため、人間の思考の貧弱なサブシステムに過ぎない人間の言葉やその他の人間が読めるコンテンツの模倣だけで強力なシステムを訓練することは難しく、おそらく不可能である。そのシステムが人間を把握する内部知性を含むほど強力であれば別だが、その時点でそれはもはや人間の思考の模倣として本当に機能しているとは言えなくなる。

33.AIはあなたと同じように考えることはなく、あなたが使うのと同じ概念から構築された思考を持っていない。GPT-3が一体何を考えているのか、誰にもわからない。行列が不透明なだけでなく、その不透明な容器の中にあるものが、信じられないほど異質なものである可能性が高いからだ。

セクションB.4：実行不可能な雑多なスキーム

34.超知能間の調整スキームは、人間が参加できるものではない（例えば、人間は超知能のコードについて信頼できる推論ができないから）。異なる効用関数を持つ20の超知能と人類による「多極」システムは、「20の超知能は互いに協力し合うが人類とはしない」というような自然で明白な均衡を持つ。

35.「異なる」AIを対戦させるためのスキームは、AIがお互いのコードに関する推論（確率分布）を通じて協調できるところまで進化すると機能しなくなる。十分な知能を持つエージェントのシステムは、たとえ対戦していると想像しても、おそらく単一のエージェントとして振る舞うことができる。例えば、密かにペーパークリップを最大化するAGIに、密かにステープルを最大化するナノシステム設計者の出力をチェックさせる場合、ナノシステム設計者がペーパークリップ最大化者の本当の望み（すなわちペーパークリップ）を推測できなくても、その設計が許可されれば、その設計をチェックするエージェントと宇宙の半分を共有すると論理的に約束できるだろう、チェッカーエージェントがサジェストシステムの論理的コミットメントを検証でき、それゆえ論理的に依存できる場合（人間レベルの知性は除外される）。あるいは、論理的な決定理論なしに単純化されたカタストロフィを好むなら、提案者はナノシステムの設計に、ナノシステムの設計者と設計チェック者の間で宇宙を目に見える形で（超人的なチェッカーに）分割する新しい超知能のコードを埋めることができる。

36.例えば13世紀から見てエアコンが「魔法」であるのは、事前にエアコンのデザインを正しく見せても、そのデザインを見ただけではなぜ空気が冷たくなるのか理解できないからで、デザインは彼らの知らない環境の規則性、世界のルール、物理法則を利用している。人間の思考や脳の領域は、私たちには非常に理解しにくいもので、目の錯覚、催眠、精神病、躁病、あるいはある場所での強い刺激が別の場所に神経効果を残すことによって生じる単純な残像のような現象が見られる。超知能は、論理的な三目並べのような非常に単純な領域では人間に勝てないかもしれない。しかし、人間の心のように理解が不十分な信じられないほど複雑な領域で戦う場合は、その戦略を見たとしても、なぜその戦略がうまくいくのか理解できないという意味で、「魔法」によって敗北すると考えるべきだ。AIボックス化は比較的弱いAGIにのみ有効である。人間のオペレータは安全システムではない。

セクションC：

AIは「安全」「倫理的」なのか、多くの主要機関が「深刻な懸念」を表明している。

37.地球が太陽の周りを回っている間、よくあるパターンがある。明るい目をした若い科学者、若いエンジニア、若い起業家が、明るい目をした楽観主義で、ある問題に挑戦しようとするが、実際には非常に難しいことが判明する。その分野の皮肉屋なベテランがこのことを警告しようとすると、目を輝かせた若者は耳を貸さず、そんなこと誰が聞きたいんだ、問題を解決しに行きたいんだと言う！そして、この人は現実からスリッパで頭を殴られ、自分の素晴らしい推測理論が間違っていること、壊れ続けるので実際に作るのが難しいこと、社会が自分の賢いイノベーションを期待したほど熱心に採用してくれないことを知り、結局、新しい皮肉屋の老ベテランを生み出すことになる。文字通り最適とは言えないまでも、自然番組のような形でうなずくにはいいライフサイクルだと思う。例えば、1956年に行われたダートマス大学の人工知能に関するサマー・リサーチ・プロジェクトでは、「機械に言語を使わせ、抽象化や概念を形成させ、現在人間にしかできない問題を解決し、自らを向上させる方法を見つけるための試みが行われる予定である。注意深く選ばれた科学者のグループがひと夏の間、一緒に取り組めば、これらの問題の1つまたは複数に大きな進歩がもたらされると考えている」これは、明るい目をした若者たちの最初の大きな失敗が、予期せぬさまざまな困難や物事が困難だった理由があったという知らせで頭を殴られる前に文字通り全員が死んでしまうと、地球の生存計画としてはあまり現実的ではない。この場合、地球上の誰もが死んでしまうので、皮肉屋の老ベテランは生まれない。自分がそのような状況にあると疑い始めたら、ベイズ的なことを行い、後で予測できるように更新する必要がある。つまり、自分が明るい目をした人間であり、後で予想外の困難に遭遇して皮肉屋の老ベテランになってしまう状況にあることに気づくのである。- 他のみんなと共に死んでしまうという部分を除いて、そうなるはずだ。そして、みんなが死んで自分が学べなくなるという形で現実に頭を叩かれる前に、すぐにそのひねくれた老ベテランになろう。他のみんなは、現実がまだ頭を叩いて実際の困難を突きつけていない限り、自由に標準的なライフサイクルを生き、脚本の中で自分の役割を果たし、明るい目をした若者でいることができると感じているようだ。

38.私には、「AIセーフティ」の分野が、現在、その巨大な致命的問題に取り組む上で、少しも生産的であるとは思えない。これらの問題は、実際には手の届かないところにある。現代のAIセーフティの分野は、とにかくその分野で働こうとする人々が選ばれている。ほぼ全員が、成功したように見える問題に取り組み、成功したと主張する論文を発表するためにそこにいる。もしそれができて資金を得られるなら、人類がわずかでも尊厳を持って死ねるように、失敗するようなもっと難しいことに挑戦する、もっと不快なプロジェクトになぜ乗り出すのか。この分野では真の進歩はなく、仮に真の進歩があったとしてもそれを見分ける認識機能もない。この分野に10億ドルをつぎ込んでも、他で行われているわずかな進歩をかき消すだけのノイズしか生まれないだろう。

39.私はヌル文字列を 入力としてこのことを理解した。率直に言って、私は、以前は誰かが説得力のある議論を入力するのを待つために座っていた誰かから本当のアライメント作業を得ることに希望を感じるのは難しいことである。この「エリエイザー・ユドコフスキーに説得されることなく、致命的な困難に気づく」能力は、現在のところ、私には認知機械の不透明な部分であり、他の人にどのように訓練すればよいのかわからない。それはおそらく、「セキュリティマインドセット」や、台本を演じることを拒否する精神運動、カオス状態にあるフィールドで活動できることに関連しているのではないだろうか。

40.フィードバックループがしっかりしていて、結果の良し悪しがすぐに判断でき、この人は天才だと検証しやすい分野で、読みやすい業績を残した「天才」は、（a）フィードバックループがしっかりしていない場所では、同じように素晴らしい仕事ができないかもしれない人、（b）人類が最も天才を必要としている場所でなくても、自分の天才が読みやすい分野を選んだ人、（c）単に珍しいから不思議な歯車を持ってないかもしれない。他の分野の読みやすい天才たちに一人500万ドルを払って、彼らから素晴らしいアライメントの仕事が得られると期待するのは無理な話である。彼らはおそらく、本当の困難がどこにあるのか知らないし、何をすべきなのかも理解していない。特に、20代で純粋に興味があり、読書もしたことがあるような優秀な人材は、通りすがりの人よりも核心的な貢献ができる可能性が高いことは認める。しかし、私は、(a)良い仕事をした人には遡及的に大金を支払うと信頼できる約束をする、(b)後で良い仕事をするかもしれないと予測される人には将来的に支払いを行う、といった懸念を分離することにもっと期待したいです–大きな期待ではなく、もっと期待である。

41.この文書を読んでもコアアライメント研究者にはなれない。そのためには、この文書を読んでうなずく能力ではなく、誰にも促されずにゼロから自発的に書く能力が必要である。私の分析の一部が間違っていることは保証されているが、必ずしも希望のある方向とは言えない。その欠点に気づいて修正する新しい基本的な作業をする能力は、私がこの文書を発表する前に書く能力と同じで、この5年ほど、私はこの文書を書くこと以外にすることがあったにもかかわらず、誰もしなかったようだ。この沈黙の一部は、もしかしたら、楽観的に考えれば、この分野で理解しやすい文章を書く能力を持つ人が誰もいないせいかもしれない–たとえば、誰かが、書き上げることさえできれば、このすべてを自分で書く知識をもっていたが、書くことができなかったので、試さなかったのだ。私がこのデスゲームに参加して21年、他のEAがデスゲームに気づいて7年、ノーマルでさえデスゲームに気づき始めて2年、いまだにエリエイザー・ユドコフスキーがこのリストを書いているという事実は、人類にはまだそれができるゲームピースが1つしかないということである。自分にはスター研究者になる体力がないことを自覚し、健康状態がさらに悪化する前に自分に取って代わろうと必死に努力したのに、こうして書いている。生き残る世界とはそういうものではない。

42.計画がない生存する世界では、この時点で、そして実際には数十年前に、生き残るための計画がある。それは計画書である。計画は秘密ではない。この非生存する世界では、計画の候補はない。エリエイザーが即座に、その計画の目に見える巨大な穴を指摘するのではない。なぜなら、エリエイザーが怒鳴ることなくして、人間がそのことに気づくはずがないからだ。将来のアライメントの難しさについて自分自身に怒鳴るような、注意喚起の内なる声もない。私が個人的に怒鳴る時間を取っていないため、ほとんどの組織は計画を持っていない。「計画を持つべきかも」というのは、私が個人的な天使として常に彼らの肩に立ち、彼らに懇願することなしに、彼らが持つより深いアライメント・マインドセットである。見栄を張るために、真面目そうな人たちが信じていることに穴が開いているように見えるという自分の判断を信じることができないほど「控えめ」なEAを騙すことができる、見せかけの計画を作るべきだということにさえ気づいている人は比較的少ない。

43.あなたが周囲を見渡したときに見えるこの状況は、生き残る世界の姿ではない。生き残る人類の世界には計画がある。彼らは、健康問題を抱えた疲れた一人の男に、現実の致命的な問題を積極的に指摘する全責任を任せているわけではない。解決策を提案するのは自分の仕事、その解決策が間違っていることを証明するのは他の誰かの仕事と考えるのではなく、キーパーソンは自分たちの計画の欠陥を見つけることに内部で本当の責任を負っている。その世界はこれよりも早く重要な致命的問題を解決しようとし始めた。弦理論に取り組んでいた人々の半数は、代わりにAIアライメントにシフトし、そこで真の進歩を遂げた。後に実現するかもしれない、惑星に致命的な問題を提案する人たち–生きることを運命づけられた世界では、そういう提案をする人たちがたくさんいるし、彼らはその分野で特別な地位にあるわけではなく、そこにいる普通の天才がやっているだけだ–は、解決策の計画か、それが起こってはならない理由のどちらかで満たされる。

どうせ、より良い世界の多くは死んでしまう。そんなものを初見で解決するのは、純粋に難しい問題だ。しかし、これよりは尊厳を持って死んでいくだろう。