エリエイザーに同意するところと同意しないところ

コンテンツ

合意事項
意見の相違
エリエイザーの意見について、私の見解を述べる

訪問者数： 1,001

https://www.alignmentforum.org/posts/CoZhXrhpQxpy9xw9y/where-i-agree-and-disagree-with-eliezer

Where I agree and disagree with Eliezer

ポール・クリスティアーノ著

2022年6月20日

(一部、AGI Ruinに呼応している：Lethalitiesのリスト。同じようにとりとめのないスタイルで書かれている。網羅的ではない)

合意事項

強力なAIシステムは、意図的かつ不可逆的に人類を無力化する可能性が十分にある。これは、破壊的な物理技術で全員を殺すよりもはるかに簡単な失敗モードである。
破滅的なリスクのあるAIシステムは、近いうちにもっともらしく存在する可能性があり、そのようなシステムが1年ごとに意味のある存亡の危機をもたらすまでは、この事実について強いコンセンサスが得られない可能性がある。必ずしも「火災報知器」があるわけではない。
強力なAIシステムによるリスクについてコンセンサスが得られたとしても、世界はまったく非生産的な方法で対応する可能性が高い。起こりうる破滅の物語を見て、「そんなことは起こらないだろう」と言うのは希望的観測である。人類は、非常に基本的な課題であっても、特にそれが斬新であれば、台無しにする可能性が十分にある。
私は、AIのアライメントを助けることを目的としたプロジェクトの多くは、重要な難題に進展がなく、破滅的な結果のリスクを大きく減らすことはできないと思う。これは、人々が最も扱いやすい研究に引き寄せられ、それがどのような問題に役立つのかにあまりこだわらないことと、特に長期的な未来に対する関心が低いことに関連している。全体として、アライメントの失敗による実存的なリスクに最も関連する技術的な問題に効果的に焦点を合わせている研究者は比較的少数である。
AIが既存の紛争をどのように形成し、権力をどのようにシフトさせるかについて、もっと多くの時間を費やすべきという強い社会的・政治的圧力がある。このような圧力はすでに生じており、それが改善される可能性はあまりないように思われる。エリエイザーの「the last derail」という言葉は、大げさだが的を射ていると思う。
事故のリスクについて考えるときでさえ、人々の心は「より現実的で、SF的ではない」リスクに向かいがちだが、それらのリスクは人類存亡リスクよりもはるかに起こりにくい（そして時には、よりありそうでない）と思われる。実際に存在するAIシステムが人類存亡リスクをもたらすまで、この力学は変わらない可能性が非常に高い。
AIの大災害は、AIシステムが人間を永久に無力化し、抵抗の機会がほとんどない突然の「クーデター」のように見える可能性が十分にある。人々は、このリスクを、世界に関する自分たちの物語によく合う、より退屈な物語に一貫して丸め込んでいるようだ。AIクーデターが、人間がAIシステムに殺人ロボットを制御させることによって加速される可能性は十分にあるが、「殺人ロボットがいたるところにあり、AIがすべてを制御する」と「AIは研究開発にしか関与しない」の時系列の違いは、1年もないように思われる。
広範な知的世界は、AIシステムが「世界に大きな影響を与える」から「認識できないほど変化した世界」になるまでにかかる時間を、ひどく過大評価しているようだ。これは数十年よりも数年である可能性が高く、数ヶ月である可能性も実際にある。これではアライメントが難しくなり、私たちが集団で準備するようなこととは思えない。
人類は通常、反復して失敗を修正することで技術的な問題を解決する。私たちはしばしば、何が実際に機能するかを確認し、失敗を顔に投げつけられることで、方法論上の厳しい意見の相違を非常にゆっくりと解決する。しかし、アライメントを解決しなくても、価値あるAI製品を作ることは可能だろう。したがって、現実は手遅れになるまでアライメントを解決することを「強制」しないだろう。このように、最高レベルの問題については、経験的なフィードバックループではなく、慎重な推論に異常に頼らざるを得ないケースがあるように思う。
AIシステムは最終的に荒々しく超人的なものになり、人間レベルのすぐ近くに強い技術的ハードルがあることはおそらくないだろう。既存のAIの進歩速度を外挿すると、弱いAIシステムと非常に強いAIシステムの間にあまり時間がかからないことが示唆され、AIによる貢献は、知的作業のごく少数から数年後には多数になる可能性が非常に高い。
もし、どこかのサーバーファームで信じられないほど強力な非整列型AIシステムが稼働していたとしても、人類がその未来に対して意味のあるコントロールを維持できる可能性はほとんどないだろう。
「強力なAIシステムを作るな」というのは難しい政策課題であり、地政学的な協調が必要である。
私は、斬新な問題の賭けが非常に大きいとき、人類が必ずしも「挑戦する」ことを期待しない。2019年の時点では五分五分だったのであるが、COVIDの経験でさらに自信がなくなった。
SGDで最適化できるような物理的に実装された報酬関数で、任意に賢いAIに可能な限り最適化してもらって満足できるものは、おそらく存在しないだろう。(私は、RLが、訓練されるエージェントと並行して賢くなる報酬関数に対してのみ実行されるアプローチを最も楽観視している）。
与えられた報酬関数を最大化するようにAIを訓練しても、内部で報酬を最大化する「動機」を持つAIが一般的に生まれるわけではない。さらに、あるレベルの能力では、AIのモチベーションが非常に広範であれば、学習分布において損失を最小化する行動をとるようになる。なぜなら、損失を最小化することは、AIが世界に対する影響力を維持するための重要な戦略だからだ。
AIシステムにとっては、「一般的に親切である」とか「人間を助けようとする」といった行動を学ぶよりも、環境に関する優れたモデルや、行動の結果がどうなるかを学ぶ方がより強固である。たとえAIが、「もし私が親切にしようとしたらどうするか」からなるデータを模倣していたとしても、親切という一般的な習慣を吸収するよりも、そのデータを生成する実際の物理的プロセスを模倣することを最終的に学ぶ可能性の方が高いだろう。そして、実際には、私たちが生み出すデータは完璧ではないので、「損失を生み出す物理的プロセスを予測する」ことが、SGDによって正選択されることになる。
「希望があると思った方がいい」なんて言って、アライメントがある意味非現実的に簡単になってしまうような、具体的にありえない世界に住んでしまってはいけない。仮にアライメントが簡単に終わったとしても、あなたはそれが簡単になるための間違った予測をしてしまう可能性が高いだろう。物事が運命的に見えるなら、実際には、雑多で予測しにくい世界で幸運を利用するための、より一般的で強固な戦略として、ログの成功確率を最大化しようとする方がよいだろう。
AIのアライメントに関する現在の計画には、多くの反復と修正なしに機能する確率が特に高いものはない。現状は、「アライメントが現実的な問題であることが判明したら、それについて多くを学び、アプローチを反復的に改善する」というのがおおよその流れである。もし問題が深刻ですぐに顕在化するのであれば、もっと前に明確な計画を立てておけば、適応し学ぶ必要はあるが、紙の上でうまくいきそうなものから始めれば、より良い状況になるだろう。
他の分野の多くの研究問題は、扱いやすいか、手が届かないかぎりぎりのところで選ばれている。私たちは、進歩が期待できるベンチマークを選んだり、既存の技術で十分に提起され、アプローチできそうな理論的問題に取り組んだりする。アライメントはそのようなものではなく、重要な問題として選ばれたものであり、ゲームが「公平」であること、問題が解決可能であること、扱いやすいことを保証する者はいない。

意見の相違

(ほとんど論拠なく記載されている)。

エリエイザーは、「最初の『決定的な』トライでアライメントを正しくする必要がある」と「決定的なトライ以前の実験や失敗からはアライメントについて何も学べない」をしばしば同一視している。この区別は非常に重要で、私は前者には賛成であるが、後者には反対である。実験や失敗から学べないまま科学的な問題を解決するのは、とてつもなく難しいことだ。しかし、実験や試行錯誤からアライメントについて多くのことを学ぶことができるだろう。何がうまくいくかについて多くのフィードバックを得て、より伝統的な研究開発の方法論を展開することができるのではないだろうか。私たちには、アライメント失敗のおもちゃのようなモデルがあり、まだ満たせない解釈可能性の基準があり、まだ答えられない理論的な疑問がある。しかし、現実は問題を解決することを強要したり、どのアナロジーが正しいかを明確に教えてくれたりしないので、アライメントを解決せずにAGIの構築に邁進することも可能だということである。全体的にこの考察は、制度的な問題を圧倒的に難しくしているように思えるが、科学的な問題にはそれほど大きな影響を与えない。
エリエイザーは、ナノテクを簡単に構築して人間を決定的に圧倒できるAIシステムについてよく語り、一つの失敗から急速に破滅に向かうビジョンを描いている。これは、魔法のように特別に強力なAIを与えられて、それを揃えるのに失敗した場合に起こることであるが、リアルワールドで起こることは非常に考えにくいと思う。ナノテクで人間を決定的に圧倒できるAIシステムができる頃には、もっとつまらない方法で人間を殺すか、さもなければ人間の研究開発の状況を根本的に進歩させるような他のAIシステムができているはずだ。もっと一般的に言えば、エリエイザーの破滅の物語の映画的世界は、私にはまとまっているようには見えないし、水面下でより現実的なAI開発の姿があるのかどうかも分からない。
エリエイザーは、AIシステムが大きな技術的貢献や能力の限界を明らかにすることを避け、後で問題を起こすために待機しているシナリオをよく想像しているようだ。しかし、もし私たちが常にAIシステムを訓練して、見栄えのすることをさせるなら、SGDは見栄えのしないAIシステムに対して積極的に選択することになる。なので、分子ナノテクを開発できるAIシステムができる頃には、間違いなく、ちょっと見栄えの悪いことをしたシステムを持っているはずだ。
AIが自分自身を改善することは、AIシステムが人間と同じように研究開発を行うように見える可能性が最も高い。「AIが自己改善できるほど賢い」というのは決定的な閾値ではなく、AIシステムは徐々に自己改善能力を高めていくだろう。エリエイザーは、AIシステムが他の領域（アライメント研究を含む）に超人的な貢献をする前に、極めて高速な再帰的自己改良を行うことを期待しているようだが、これはほとんど不当だと思う。もしエリエイザーがそう思っていないのであれば、人間が解決すべきアライメント問題についての彼の主張は間違っているように思われる。
AIが可能にする「極めて重要な行為」という考え方は、見当違いのようだ。アライメントされたAIシステムは、アライメント研究を進め、アライメントされていないAIがもたらすリスクを説得的に示し、アライメントされていないAIが爆発的に成長するために使ったかもしれない「フリーエネルギー」を消費することによって、アライメントされていないAIのリスクの周期を減らすことができる。未アライメントAIのリスクを大幅に低減するために、特定の行為が極めて重要である必要はなく、単一の極めて重要な行為を求めることは、非現実的な未来の物語やAIラボが何をすべきかという非現実的なイメージにつながる。
エリエイザーの言う「極めて重要な行為」の多くは、AIラボが「決定的な戦略的優位性」（すなわち圧倒的なハードパワー）を獲得し、それを使って比較的限定的な政策（例えば、強力なコンピュータの利用を制限する）を実施することにある。しかし、そのハードパワーは、新しい世界秩序を恣意的に決定することも可能であり、既存の国家にとっては存続の危機であると正しく認識されるだろう。エリエイザーは、強力なAIシステムを構築することは、ミスアライメントによって世界を破壊する圧倒的なリスクを伴うにもかかわらず、決定的な戦略的優位がこの政策目標を達成する最も現実的な方法であるという見解を持っているようだ。私は、より伝統的な政策的影響力よりもこのルートを好むには、政策状況の詳細について極度の自信が必要だと思う。その自信は、私よりも政府の詳細についてよく知っている人なら正当化できるかもしれないが、エリエイザーはそうではなさそうだ。このような政策転換は、歴史的に見ても異常な成功であることには同意するが、その確率は、エリエイザーの生存確率よりもはるかに高いように思われる。逆に、エリエイザーは、AI開発者が密かに世界を征服することがどれほど難しいか、その可能性に対して政府がどれほど強く効果的に反応するか、そしてこの種の計画がどれほど有害だろうかを大きく過小評価しているように思う。
エリエイザーは、AIシステムが破滅的に危険な状態になる前に、AIアライメントのようなタスクも含めてどれだけ便利になるかについて、おそらく間違っていると思う。私は、アイデアを生み出し、そのアイデアに対する問題を認識し、提案に対する修正を提案するなどして、進歩を有意義に加速できるAIシステムに比較的早く近づきつつあり、それらのすべてが、AI研究のペースを2倍にできるAIシステムよりかなり前に、小さな方法で可能になると考えている。AIシステムがAI研究のペースを2倍にできる頃には、アライメント研究のペースを大幅に加速させることができるような気がする。しかし、このことは、再帰的自己改良がすぐに致死的な体制に入るという議論が間違っていることを意味していると思う（AIはアライメントと能力の両方のタイムテーブルを早めているのだろうから）。
訓練分布の外での一般化について語るとき、エリエイザーは概してかなり杜撰だと思う。多くの指摘はおおよそ正しいのだが、何段階もの推論を経て合理的な結論に達するのはあまりに杜撰だと思う。私は、これらの議論についての本当の議論を見たいと思っているし、ある意味、エリエイザーはその議論を進めるのに適した人物であるように思える。今のところ、MLの汎化に関する関連する疑問は、実際にはかなり微妙なものだと思う。同様に、収束するインセンティブと結果主義の深い性質に関するエリエイザーの推論は、正しい結論に至るにはあまりにも杜撰で、その結果、主張が乱暴に過信されているように思う。
特に、既存のAIのトレーニング戦略は、低レベルの知能から高レベルの知能への「ドラスティック」な分配シフトに対応する必要はない。知能が徐々に高まるにつれて継続的に訓練するのではなく、このような大きな移行を求めるようなAIの構築方法は、予見できる限り何もない。エリエイザーは、AIの性質が大きく変化するという比較的自信に満ちた主張を一部しているように見えるが、それはおそらく間違いであり、明らかに過信だと思う。もし彼がこの10年間、実際に具体的な予測をしていたら、私のような人間に多くを奪われていただろうと思う。
エリエイザーは、私が意味をなさないと思う議論と霊長類の進化とのアナロジーの組み合わせに基づいて、能力が急激に向上すると強く予想している。この点については以前にも話したことがあるが、私はエリエイザーの立場はおそらく間違っており、明らかに過信していると考えている。私は、エリエイザーのより詳細な主張、例えば硬い閾値については、離陸速度に関する彼の主張（すでに定量的に間違っている）よりも、はるかにあり得ないことだと思う。
エリエイザーは、アライメントの難しさについて、自身の経験に基づいて確信しているようだ。しかし、実際には、社会がこの問題に取り組んだ労力はほとんどなく、MIRI自体も、既存の研究分野が日常的に解決している問題の大部分を解決することはできないし、大きな進展もないだろう。つまり、今のところ、この問題の難しさはほとんどわかっていない（しかし、非常に難しいかもしれないし、たとえ簡単でも解決できないかもしれない）。例えば、MIRIが「コリジビリティの首尾一貫した公式」を見つけようとして失敗したという事実は、コリジビリティが「実行不可能」であることの大した証拠にはならないだろう。
エリエイザーは、研究がどのように機能するか、どのような進歩への期待が非現実的かについて、具体的なことをたくさん言っている（例えば、致死率のリストにおける明るい目の楽観主義について話している）。しかし、それが科学史の理解、現代の機能的な学問分野の力学への精通、研究経験に基づくものだとは思えない。私が知る限り、「科学分野はどのように機能するか」に最も関連するエリエイザーの予測は、物理学者がヒッグス粒子の存在について間違っていると予測したこと（LW bet registry）、真のAIは大きな産業ではなく小さなグループから生まれる可能性が高いという見解を示したこと（436ページ、しかし多くの場所で表明）である。
エリエイザーは、問題を簡単に解決することについての悲観論から、問題をまったく解決しないことについての悲観論、あるいは、特定の技術がすぐに問題を解決しないことから、その技術に関する研究の有用性についての悲観論へと、多くのことを一般化していると思う。私は、研究の進展の仕方についてはエリエイザーとは意見が合わないし、彼がこのテーマについて特別な専門知識を持っているとも思っていない。エリエイザーは、プロジェクトの特定の実装（トレーニングに解釈可能性ツールを使用するような）に対して異議を唱えることがよくある。しかし、研究プロジェクトが成功する可能性があるかどうかを実際に話すためには、将来の研究者がそれを機能させるために実装の詳細を選択することができるような、存在記号化装置に関わる必要がある。最低限、このような提案の最強の既存バージョンに関与することが必要であり、（エリエイザーのように）それができていない場合は、別の種類のアプローチを取る必要がある。しかし、たとえ既存の最も優れた具体的な提案に関わったとしても、自分の反対意見が、将来人々が詳細を知るにつれて克服するのが難しくなるようなものだろうかどうかを注意深く考える必要がある。一つの見方として、エリエイザーは、未来のAIシステムに適用される存在記号（少なくとも主張が真実である1つのものの存在を断言する主張の論理的な数量詞）がどのように問題を引き起こすかを考えることについては適切にオープンマインドであるが、未来の人間に適用される存在記号論については、定量的ではなく定性的に異なる方法で扱うようだ（そしてこのリストを通して述べたように、彼はその定量的違いを過大評価していると思う）、ということが挙げられる。
例えば、エリエイザーは解釈可能性に関して不当に悲観的であるが、その一方で、この分野の現状についてはほとんど無知であると思う。これは、解釈可能性によって達成できる可能性のある理解のレベルと、そのような理解の可能な応用の両方について言えることである。私は、この問題が難しい問題であり、多くの人が不当に楽観的であるように見えるという点で、エリエイザーに同意する。私の知る限り、エリエイザーのここでの立場のほとんどは、議論というより一般的な直感から来るもので、その領域にあまり精通していない場合、そうした直感は説得力を失うと思う。
初期の変革的なAIシステムは、おそらく、より短いフィードバックループを持つ小さなタスクで訓練され、大規模な共同プロジェクト（最初は多くの人間が関与するが、時間とともに自動化が進む）の文脈でこれらの能力を構成することによって、印象的な技術的プロジェクトを行うだろう。エリエイザーが、AIシステムが訓練によって安全なタスクを何百万回もこなし、その後安全に「ナノテクノロジーの構築」（致死性リストの11番目）に移行する可能性を否定するのは、構築されそうなシステムの種類や人々が考えている希望のようなものに関与していないためだ。
List of lethalities#13では、AIの多くの問題を事前に見ることはできない、という特殊な主張をしている。エリエイザーのこのような考え方はよく見る気がすが、誤解を招くか間違っているように思う。特に、AIが「（その）外側の振る舞いを変えて、わざと揃ったように見せ、プログラマーやオペレータ、そしておそらく（その）上で最適化するあらゆる損失関数を欺く」可能性があるという問題を事前に研究することは可能だと思われる。その問題を解決できなければ、他の問題に気づかないというのは事実だが、このことは、アライメントを解決できる確率にはあまり影響はない：その問題を解決できなければ死んでしまうし、その問題を解決できれば、他の問題を研究することができる。
致死性リストは、アライメント問題を解決する方法についての最も深刻な希望に有意義に関与しているとは思えない。必ずしもリストの目的ではないと思うが、運命の確率を評価したり、問題解決に有意義に貢献したい（あるいは他の人が似たようなリストを作っていることに文句を言いたい）のであれば、かなり重要だと思う。
自然淘汰はMLトレーニングのアナロジーとしては比較的弱いと思う。最も重要な異同は、MLのトレーニングを意図的に形成することができるということである。動物の繁殖はより良いアナロジーであり、異なる、より暫定的な結論を示唆しているようだ。例えば、もし人間が、協調性と親しみやすさを求めて積極的に飼育されているとしたら、現在の人間の行動分布の中では、協調性と親しみやすさを持つ可能性が高いように見える。もし、その繁殖プロセスが、現在友好的な人間の中で最も賢い人間によって注意深く実行され続けているとしたら、現在の人間の能力をはるかに超えたレベルで、それが破綻するのはもっともなことのように思われる。
エリエイザーは、AIシステムが提案した極めて重要な行為（アライメント研究への貢献など）を人間が検証できず、それがさらに極めて重要な行為を安全に行うことを困難にしていると主張しているようだ。私は、彼の言う「極めて重要な行為」の概念が嫌いなことに加え、この主張はおそらく間違っていて、明らかに過信していると思う。ほとんどすべての領域で、検証は生成よりもずっとずっと簡単であるという、ほとんどすべての領域の研究開発における現実的な経験とは、あまり一致しないように思う。
エリエイザーは、人間の思考を真似ても強力なシステムは作れないと比較的自信を持っているようだが、それは人間の思考の多くが水面下で起こっているからだ。また、「個々の推論ステップをコピーする」と「結果についてエンドツーエンドで最適化する」の中間のテクニックはたくさんある。言語モデリングのここ5年の進歩は、人間の思考を模倣するAIを訓練することが、変革的なAIの時点で経済的に競争力を持つかもしれないという重要な証拠を提供し、潜在的に50-50の可能性のようなものに持っていくと思う。エリエイザーがここでベイズポイントを失うべきだったかどうかは分からないが、失ったと思われるし、もし彼が実際の予測を評価してほしいのであれば、将来の予測について何か言ってほしい。
この2つのポイント（そしてこのリストの他のほとんどのポイント）は、実は私の中心的なアライメント希望やプランの一部ではない。アライメントの希望は、アライメントの懸念と同様に、分離的であることがある。なぜなら、アライメントを解決しようとする人間の存在は、問題を起こそうとするAIシステムの存在よりもはるかに強固だからである（そのようなAIは、人間がアライメントの重要な部分をすでに失敗している場合にのみ存在する）。私の研究は、ほとんどすべての要素が不利に働くケースに焦点を当てているが、より簡単な世界からも多くの生存確率を得ることができると思う。
エリエイザーは、AIシステムが非常に異質で、人間が理解できない世界の多くのことを理解するようになると比較的確信しているようだ。むしろ、同じような物事のプロファイルを理解したり（しかし少し優れている）、理解は弱いがはるかに高いシリアルスピードなどの他の利点を享受したりするようになるだろう。これは非常に不明確で、エリエイザーは過信していると思う。たとえ人間の言語が人間の思考の浅い影であったとしても、AIシステムが人間を予測することで思考方法の多くを学ぶことは、極めて短いフィードバックループのため、もっともなことのように思える。また、科学に関する知識のほとんどは、科学的な推論と探究の明示的なプロセスによって構築され、たとえその考え方がまったく異なっていたとしても、人間の科学と同じように認識できる形で進行することも十分にあり得ると思われる。最も重要なことは、AIシステムは、世界の多くについて超人的な理解や思考方法のトリックを開発する必要がないうちに、世界に変革的な影響を与える~~（そして陳腐化した人間の貢献は~~撤回される）ことを示唆する大きな構造的利点（高速性や低コストなど）を持っているように思える。したがって、人間と非常に異なる能力のプロファイルを持っていても、多くの重要な点で人間以下だろうかもしれない。
AIシステムが他のAIシステムのコードについて推論することは、AI間の初期の協力にとって重要なダイナミックスにはなりそうにない。そのようなAIシステムは、自分自身や他人のコードについて推論する唯一の方法は、行動を見たり、人間と同じ種類のツールや推論戦略を使ったりすることであり、厄介である可能性が非常に高いと思われる。エリエイザーは、長期的に重要な考慮事項を特定した後、根拠も論拠もなく短期的に関連性があると平然と主張する一貫したパターンを持っている。エリエイザーは、このような予測は、ある程度後の時点（しかし、まだ十分早い段階で関連性がある）でしか発動しないので、このパターンの予測はまだ証拠と矛盾していないと考えているのだと思う。しかし、これが彼の予測実績を評価できない理由の一部であり、後から考えると彼が大きく過大評価している理由なのだと思う。
エリエイザーの「チェック＆バランス」を崩すためにAIシステムが互いに協力し合うというモデルは、AIシステムの協力とインセンティブに焦点を当てているため、私には間違っているように思える。現実的な提案では、AIシステムのインセンティブに頼る必要はない。代わりに、他のAIシステムの提案に説得力のある反論をするAIを見つけるまで探索するなど、競争的にゲームを行うシステムを勾配降下法で選択することができる。(注：致死率35のリストのようなところで、彼が言っていることを私は誤解しているかもしれない。これらは、実際に検討されているアライメント戦略に関与するのではなく、インターネット上で人々がランダムに言うことに反応しているのかもしれない。しかし、その場合でも、彼はこれらの議論の比較的弱いバージョンに反応しているのだと思う)。エリエイザーは、「AIシステムは協力する」というようなセリフと、「勾配降下法を使って選択できるような検証可能な活動は、チェック＆バランスとして適切に機能しない」というセリフの間で等閑視している。しかし、エリエイザーの立場は、どちらかのステップが失敗すれば失敗する接続詞であり、その間を行ったり来たりすることは、実際の議論の構造を全く見えなくしているように見える。
エリエイザーは、AIが重要な役割を果たすようになる頃には、人間もうまく操れるようになっていて、例えば、人間同士で議論したり、敵対するゲームをしたりしても無意味になると考えているようだ。しかし、人間的な能力を持つ心を想像すると、研究開発で超人的であるのと同時に、説得でも超人的であり、どちらにも転びやすいような気がする。さらに、AIが研究開発において超人的である可能性が高いと思われる理由はたくさんある。研究開発に取り組むために主に訓練されていること、研究開発を促進するために設計されたツールや構造を使っていること、研究開発を進めるためにAI間で大規模なコラボレーションが行われていること、一方、操作については個々のAIシステムが議論に勝つために行っていることが多い。さらに、AIシステムの比較優位は、人間による操作よりも研究開発にあると、私は弱く考えている（研究開発は人間には無縁のものだからである）。
生き残る世界には、エリエイザーが求めているような意味での計画はないと思う。エリエイザーの発言から、現実の世界で成功した「計画」がどのようなものなのか、明確で正確なイメージを持っているとは思えない。この点については、エリエイザーに従う理由は特にないと思う。
エリエイザーは、彼の致死性リストは、他の人が書けないような文書であり、したがって、彼らが貢献しそうにないことを示していると言う（ポイント41）。私はそれは間違っていると思う。エリエイザーの文書は、他の人が優先して書くべき分野への特に役立つ貢献というよりは、レトリックや教育学に向けたものがほとんどだと思う。どの考え方が「重要」かということは、何が重要かという客観的な事実というよりは、エリエイザーの特異な知的焦点の結果であることがほとんどだと思う;そして、おそらく最も重要なことは、より重要な問題についてのより慎重な議論が、実際には他の場所でなされているということである。例えば、ARCのELKに関するレポートでは、エリエイザーのリストで提起された~20の技術的困難と同じ種類と深刻さの少なくとも10の困難が記述されている。そのうちの約半分は重複しており、残りの半分は、現実的なアライメント戦略における中核的な問題に関連しているため、どちらかといえばより重要であると思う^[1]。

エリエイザーの意見について、私の見解を述べる

エリエイザーは、かなり明確な論拠に裏打ちされた多くの優れた考察を提起しているが、実際の議論によって示唆されるものよりはるかに強い確信を持った主張をしている。
エリエイザーの投稿（そして彼の文章のほとんど）は、あまり新しい証拠を持ち込んでいない。ほとんどが、先験的な理由付けか、議論の余地のない証拠から論争的な結論を引き出している。そのため、エリエイザーが歴史的にとってきたアプローチとは異なるアプローチが必要だと思う（もし、これらの意見の相違を生産的に解決することが目的であれば）。
- このような議論は、慎重に検討したり批判を受けたりするために、ほとんどが公に書き残されていないのだろうと思う。エリエイザーにそのようなエネルギーがあるかどうかはわからないが、エリエイザーの立場が重要だと思う人は、そのために議論をよく理解しようとするはずだと思う。
- エリエイザーの意見を持つ人たちは、反対する人たちとあまり生産的な関わり方をしてこなかった（そして、そのような関わり方をしばしば難しくしてきた）と思う。もしあなたがこれらの重要なポイントのどれかに本当に飛び込むなら、あなたはすぐに、エリエイザーがスマートな無関心な聴衆に自分の見解を簡単に守ることができない詳細に到達することになると思う。そして、エリエイザーが反対意見を持つ人々に対するイデオロギー的なチューリング・テストに合格できるとは思えない。
- 私は、もしあなたが、非常に重要で、あなたの奇妙な世界の片隅でさえ論争を巻き起こし、その支持をほとんど推論と議論から得ているような、逆張りの考え方を持っているならば、これらは取るべき貴重な手順だと思う。
この記事の多くは、エリエイザーが経験的に支持されていると感じている直感や考え方に依拠しているように見える（むしろ、明示できる議論に依拠している）。でも、実際にはその辺の根拠はあまり感じられないので、本当に論証だけになっているのだと思う。
- エリエイザーは、この20年間で、自分のオブジェクトレベルの直感や世界についての一般的な考え方を証明する多くの証拠が得られたと言いたいのだと思う。もしそうであれば、エリエイザーは、自分の直感や推論戦略を共有しない人たちよりも体系的に優れた未来予測を述べることができると、強く期待すべきだと思う。私は、彼がこの種の証拠を提供すると考える質問について予測を行うか、あるいは私が予測するのに満足できるランダムな質問の束を述べることに満足している（ここで、彼はおそらく私をわずかに下回ると思う）。これらの直感や方法論がオーバーパフォームするような未来についての予測がないのであれば、この20年間で多くのエビデンスを得たことに大いに懐疑的になるべきだと思う（そしてそれは少なくとも説明が必要なことである）。
- エリエイザーは、これらのトピックについて、より広く受け入れられている推論原理を用いて、より複雑な議論の結果を予測することによって「裏付け」された優れた直観を開発することができたと私は思う。同様に、数学者は定理の真偽について優れた直感を持つかもしれない。その直感は、経験的なデータではなく、形式的な証明に関わるフィードバックループから完全に得られるかもしれない。しかし、ある定理について2人の数学者が異なる直感を持っていて、その直感がどちらも似たような定理を数多く形式的に証明したことから得られたものだとしたら、その不一致を解決する方法は、証明に関わる通常の論理法則を使うことだと思う。つまり、エリエイザーは、実際に議論を行い、正当な反論を行うことにもっと興味を持つべきだと思う。
- エリエイザーには、他の方法で理解を示した実績がないと思う（例えば、技術的な目標を達成したり、世界の細部に関与する必要があるプロジェクトや、日々の良い予測をする必要があるプロジェクトなど）。それはそれでいいのだが、経験的に裏付けられた直感は、遠くからの予測か、より慎重な議論として現金化されることをより強く期待するということだ。

^{^{^}}私の頭の中から10個の例を挙げるが、半分くらいが重なっていて、ELKドキュメントの議論は致死性リストの議論よりもどちらかというと徹底していると思うところです：
1. センスデータで定義された目標は、センサーを侵害できるAIによって操作可能であり、実際に気になることを最適化するためにMLを使うには重大な障害となる。
2. AIは、人間がまったく知らない世界の事実や発見的推論を利用してセンサーを操作することがある。このような場合、人間は、提案された行動を非常に長い時間かけて検討しても、そのような改ざんを認識することができない。
3. 人間の科学的理解のプロセスは、たとえ自動化されたとしても、世界の不透明なモデルを見つけるために勾配降下を使用するよりも大幅に効率が悪くなってしまうかもしれない。この場合、AIシステムが私たちの科学活動を支援しようとしても、私たちの知らない世界について理解することは避けられないかもしれない。
4. AIが人間の判断を予測したり、人間が評価したスコアを最適化するように訓練された場合、人間は間違いを犯す可能性が高いである。AIシステムは、意図した動作を学習するのではなく、最終的にこれらのエラーを学習することになる。たとえこれらのエラー自体が重要でなかったとしても、その後、予測可能な形で人間のエラーをコピーし、破滅的な結果につながるような分布になる。
5. たとえ人間がトレーニングセットでエラーを出さなくても、世界を理解するAIは、人間の判断について良い予測をするためにすぐに再利用できる人間のモデルをすでに持っているので、これを実行する傾向があり、そのため人間のエラーを流通からコピーすることになる。
6. たとえAIに人間のモデルがなかったとしても、AIのモデルが非常に複雑で異質なものである場合、AIが「人間が何を言うか」のモデルをゼロから学習する方が、意図したオントロジー識別を学習するよりも速く、単純であることに変わりはない。だから、SGDはあてにならない。
7. 人間が正しく答えられないような問題でも答えられるようにAIを訓練する方法はたくさんある。しかし、現在知られているアプローチのほとんどは、実際に検討されているものも含めて、一貫して「人間がより多くの計算能力を持てば答えられる問題」を頂点としており、必ずしも十分とは言えないようだ。
8. AIにとって最も簡単な戦略は正直であり、正直な方針を学習するために計算時間を正則化するという、より精巧なゲームも考えられるが、その場合、タスクが十分に難しいことを保証するために学習データの構築に注意する必要があり、その特性を持つ既存の提案もない。どの戦略も正直さを上回ることができないようなゲームを設定することさえ非常に難しいのである。
9. たとえリアルワールドの信頼できる観察に基づいて最適化したとしても、何年もの間、人間にとって判りやすい結果が得られない悪行はたくさんある。読み取れる結果が現れる時点では、既存の人間には複雑すぎて、良いか悪いかを評価できない世界かもしれない。このような微妙な悪行に対する私たちの好みを理解するAIを作らなければ、競争の激しい世界は私たちを悪い結果に追い込んでしまうだろう。
10. もし、私たちのタスクに成功する最も単純なポリシーが学習済みオプティマイザであり、私たちはAIを、例えば、質問に素早く答えるように正則化しようとする場合、その最適な戦略は、質問にゆっくり答えるポリシーを内部的に探索することかもしれない（そのようなポリシーを見つける方が早く、探索にかかる時間はメサポリシーにかかる時間よりも大きいからである）。このため、正統化戦略に頼って正直さを奨励することは難しくなる。

2026年4月
日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30