汎用人工知能（AGI）に火災報知器はない

intelligence.org/2017/10/13/fire-alarm/

There’s No Fire Alarm for Artificial General Intelligence

2017年10月13日｜エリエイザー・ユドコウスキー｜分析

火災報知器の機能とは？

火災報知器は、火災が発生したことを示す重要な証拠を提供し、それに基づいて方針を変更し、建物から退出できるようにする機能であると考えるかもしれない。

1968年にラタンとダーリーが行った古典的な実験では、まもなく煙が充満し始めた部屋で、3人ずつの学生8グループがアンケートに答えるよう求められた。8グループのうち5グループは、咳き込むほど煙が濃くなっても、反応も報告もしなかった。この実験では、一人の生徒が75%の確率で反応するのに対し、無関心を装う2人の俳優を伴った生徒は10%の確率で反応することがわかった。この実験や他の実験で、起きているのは多元的な無知であることが突き止められたようだ。私たちは、緊急事態でないことを恐れてパニックになっているように見せたくないので、他の人がどう反応しているかを目の端でチラチラ見ながら、冷静に見せようとするが、もちろん、彼らも冷静に見せようとしている。

(私はこの研究の複製やバリエーションをいくつも読んだが、効果量はあからさまである。これがレプリケーション・クライシスを死に至らしめる結果の一つであるとは思わないし、レプリケーション・クライシスがこれに触れたという話もまだ聞いたことがない。しかし、今は何事にも、”maybe-not “のマーカーを付けなければならないのである（笑)。

火災報知器は、火災が発生したことを「あなたは知っている」「私は知っている」という意味で共通認識とし、その後、社会的に安全な行動をとることができるようにする。火災報知器が鳴れば、他の誰もが火事だと知っていることがわかり、建物から出ようとすれば面目を失うことはないだろう。

火災報知器は、火災が発生したことを確実に教えてくれるわけではない。実際、私はこれまでの人生で、火災報知器で建物から出たときに、実際に火災が発生したことは一度もない。火災報知器は、ドアの下から煙が出るよりも、火災の証拠としては弱いのである。

しかし、火災報知器は、火災に反応しても社会的に問題ないことを教えてくれる。今、整然と出口に進めば、恥をかくことはないと、確実に約束してくれるのである。

例えば、大試合で自分の街のチームが勝つと声高に応援していた人が、賭けを申し込まれるとすぐに引き下がるように、人が信じていることを勘違いしている場合の一つだと思う。彼らは、チームが勝つと叫んだときの報酬的な爽快感と、チームが勝つと予期している感覚を、意識的に区別していないのである。

ドアの下から煙が上がっているのを見て、不安な気持ちがグラグラするのは、火が本当にある確率が高くないからで、労力や時間の無駄を恐れて行動しないのだと思うのだ。もしそうなら、自分の気持ちを間違って解釈しているのではないだろうか。もしそうなら、火災報知器を聞いたときと同じように、あるいはそれ以上に、火災報知器と火災との相関は、ドアの下から出てくる煙よりも低いはずだから、グラグラするはずだ。不確かなグラつきは、火がないことを心配するのではなく、他の人が違うことを信じているのではないかという心配からくるものである。行動を起こそうとしないのは、馬鹿にされるのが嫌だからであり、無駄な努力をしたくないからではない。だから、部屋に一人でいる学生は75%の確率で火事に対処し、火災報知器が示すはるかに弱い証拠に人々が反応するのは、そのためなのである。

人工知能の問題（背景はこちら）については、後回しにした方がいいという意見が時々出てくる。というのも、私たちは人工知能からあまりにも離れていて、現在、生産的な仕事をすることは不可能だと言われているからだ。

(今日できることがあることについての直接的な議論は、以下を参照：Soares and Fallenstein(2014/2017); Amodei, Olah, Steinhardt, Christiano, Schulman, and Mané(2016); or Taylor, Yudkowsky, LaVictoire, and Critch(2016)).)。

(もし、あなたがAI研究者で、そのような論文が1つも存在しないか、読んだことはあるが全部ゴミだと思っていて、アライメントに取り組むことができればと思いつつ、できることが何もないと思っているとしたら、次のステップとして、座って時計の前で2時間、考えられるアプローチを心から考えてみるのが賢明だろう。できれば、もっともらしいことを思いつかないように、自虐的にならないようにしたいものである。仮に、今日取り組むべきことは何もないと考える方がずっと快適で、例えば、そうすれば、もっと興味のある他のことに取り組むことができるからである)。

(でも気にしないで）。

なので、もしAGIがまだ遠い存在に思えて、AGIアライメントに関する生産的な仕事はまだできないと考えるのであれば、暗黙のうちに提示される代替戦略はこうだ：AGIが近づいていることを教えてくれる不特定多数の未来の出来事を待てば、AGIアライメントに取り掛かっても大丈夫だということが、みんなにわかる。

これは、いくつかの理由で間違っていると思われる。以下、そのいくつかを紹介する。

1：スチュアート・ラッセルが観察したように、宇宙から電波が届き、望遠鏡でそこに宇宙船を発見し、30年後に宇宙人が上陸することが分かったら、今日からそのことを考え始めるだろう。

「30年先の話だから、まあいいや」なんてことはないだろう。「もっと近くに来るまで何もできないよ」なんて軽々しく言うわけがない。2時間、少なくとも時計で5分くらいかけて、今始めるべきことはないかと考えなければならない。

もし、あなたが30年後に宇宙人がやってくると言って、今日は何もしないつもりだったとしたら…まあ、もっと効果的な時代だったら、誰かが、宇宙人が来る前に、いつから、どのくらいで、何をすべきかのスケジュールを聞くだろう。もし、そのスケジュールを用意していなければ、あなたは時間通りに行動しているのではなく、ただ先延ばしにして何もしていないのだとわかるだろうし、今日できることを一生懸命探していないのだろうと正しく推測されるだろう。

ブライアン・キャプランの言葉を借りれば、宇宙人について「今、準備できることは何もない」と平然としている人は、気分が悪いのであって、準備する方法が思いつかないことにもっと危機感を持つべきだ。そして、「他に何か思いつかない？でも、気にしないで」

2：歴史を振り返ると、一般の人々や、重要なインナーサークルに属していない科学者、そしてその重要なサークルに属する科学者であっても、重要な技術開発が現れるのはまだ数十年先、5年先に思えることが非常に多い。

1901年、ウィルバー・ライトは、最初の飛行艇を作る2年前に、弟に「動力飛行は50年先のことだ」と話していた。

1939年、エンリコ・フェルミは、ウランレンガの山で初めて臨界連鎖反応を起こす3年前に、ウランを使って核分裂連鎖反応を持続させることは不可能だと90%の自信を持って発言している。また、その1年後、つまり結末の2年前には、核分裂による純発電が可能であるとしても、それは50年先のことだとも言っていたと思う（その時は、それなりの説得力を認めていたが）。

もちろん、ライト兄弟やエンリコ・フェルミでなければ、さらに驚くことだろう。世界中のほとんどの人が、広島の見出しで目を覚ましたとき、原子兵器が今あることを知った。ライトフライヤーが誕生した4年後には、尊敬する知識人たちが、空気より重い飛行機は不可能だと言っていたのである。

今にして思えば、航空機の飛行や原子力発電が近いことを示すサインと思えるような出来事があったのだろうか。しかし、当時の新聞を読み返して、当時の人々が実際に何を言っていたかを見てみると、それが予兆であることを知らなかったり、予兆だろうかもしれないと非常に不確かであったりすることがわかる。ある人は興奮した未来派として、大きな変化が迫っていると宣言し、ある人は冷静な科学者として、子供じみた熱狂に冷水を浴びせようとしたと思うが、その部分は数十年前とほぼ同じだったのではないだろうか。もし、その騒ぎの中に、数十年を「数十年」と言い、5年を「5年」と言うスーパー預言者がいたとしても、騒ぎの中でその存在に気づけるかどうか、幸運を祈る。もっと言えば、そのスーパー預言者は、大きな進展が1日後だったときも、数十年後だったときも、「明日かもしれないし、数十年かもしれない」と言った人たちだったのだろう。

後知恵バイアスが、過去がその時点で実際に予測できた人よりも予測可能だったと感じさせる主な要因のひとつは、後知恵で気づくべきことがわかり、それぞれの証拠が示すものについて、ひとつの考えだけに固執してしまうことである。その時、実際に人々が何を言っているかというと、歴史的に見ても、3カ月前に何が起こるのか、どのサインがどのサインなのか分からないのが普通だ。

つまり、「AGIは50年先だ」という言葉を口にし、その言葉がたまたま当たってしまったということだ。また、「動力飛行は何十年も先の話だ」と言う人もいたが、実際には何十年も先の話で、その人たちがたまたま正しかったのである。問題は、歴史について後から読むのではなく、実際に歴史を生きていれば、どちらにしてもすべてが同じに見えてしまうということだ。

誰かが「50年」と言えば、必ず2年後にそのことが起こるというわけではない。それは、物事が遠くにあるという自信に満ちた予測が、技術に関する認識的状態に対応し、大きな開発に非常に近づくまでは、内部で同じように感じているということである。それは、「どうすればいいのかわからない」という認識状態であり、大きな開発から50年先のことを言うこともあれば、2年先のことを言うこともあり、ライトフライヤーが視界外のどこかに飛んでいるときに言うこともあるのである。

3つ：進歩の原動力は、平均的な知識ではなく、ピーク時の知識である。

フェルミやライト兄弟が3年先のことを見通せなかったとしたら、他の人がそれを見通すのがどれほど難しいか、想像してみてほしい。

もしあなたが、そのようなことをするための知識の世界的なピークにおらず、主要なプロジェクトで行われているすべての進捗状況を把握していなければ、自分の知識では、大きな発展が間近に迫っていることをまったく理解することができないだろう。狩猟採集民には必要ないような視点を持つのが得意で、自分が知らない技術や考え方を他の人が知っているかもしれないということに気づくのが得意であれば別だが、そうでない場合は、自分が知らないということに気づかないのである。この点については、歴史の教訓を意識的に補わないと、すぐに何十年も前のことを言い出すことになる。フェルミは、最初の山を築く3カ月前まで、まだ正味の原子力エネルギーは不可能だとか、何十年も先のことだと考えていたわけではない。なぜなら、その時点でフェーミはすべてのことに精通しており、その方法を理解していたからだ。しかし、そのような状況にない人は、実際のパイルがシカゴ大学のスカッシュコートで発泡している間、おそらくまだ50年先のことのように感じていたことだろう。

大きな展開のタイミングは、その分野の知識のピーク、つまり一番よく知っていて、一番いいアイデアを持っている人が触れる閾値の関数であり、自分自身は平均的な知識であり、したがって自分自身が知っていることは、大きな展開が起こるタイミングについての強い証拠ではないという事実を、人々は自動的に補正していないようだ。そういうことを全く考えていなくて、自分の難易度感覚で目測しているだけだと思う。もし、それ以上にじっくりと考え、レンズの偏りを補正するような作業をしているのであれば、その理由をわざわざ私が読めるような場所に書き留める必要はないだろう。

AGIが何十年も先のことだと知るには、パズルのどのピースが欠けていて、そのピースを手に入れるのがどれほど難しいかを知るために、AGIに関する十分な理解が必要である。また、最先端から外れた人にとっては、パズルは最先端で見えている以上に不完全なものに見えるだろう。そのプロジェクトは、証明する前に理論を発表してしまうかもしれない。しかし、今はまだ証明されていない理論もあるのである。

繰り返すが、「50年」と言う人がスカッシュコートで何かが起こっている証拠だと言っているわけではない。つまり、技術的なタイムラインは、主要なプロジェクトの進捗状況を報告されるわけでもなく、どうすればいいのか、そのためにどれだけの努力が必要なのか、すべてのベストアイデアを共有するわけでもない人たちが、事前に予測できると考える人は、歴史から間違った教訓を学んでいるということなのである。特に、今となっては重要で証拠となる進歩のラインとその目に見えるサインを整然と並べた歴史書を読むことからだ。大きな発展が起こるたびに、その結果について有用な条件付きのことを言うことができることもあるが、1年や2年の地平を越えて、その発展のタイミングについて確信に満ちた予測をすることができることはほとんどないのである。そして、もしあなたがタイミングを呼べる稀有な人の一人であるなら、もしそういう人が存在するとしても、他の誰も、興奮した未来学者や冷静な懐疑主義者ではなく、あなたに注目することを知らない。

4：未来は違う道具を使うので、今とても難しいことを簡単にできたり、今は不可能なことを難なくこなせたりする。

なぜ、AGIは何十年も先の話だとわかるのか？AI研究所の責任者などが書いた人気記事には、一般的に3つの顕著な理由が挙げられている：

(A）現在の技術でAGIを構築する方法を知らない。著者はどこから始めればいいのかわからない。
(B) 著者は、現代のAI技術が行う印象的なことを行うのは本当に大変なことで、それを成し遂げるためには、高温のGPUファームで長時間、ハイパーパラメータを調整する必要があると考えている。また、一般大衆は、Tensorflowを起動すれば誰でもロボットカーを作れると思っているため、早合点してパニックになっていると考えている。
(C）著者は、AIシステムとの対話に多くの時間を費やしているため、AIシステムがまだ愚かで常識に欠けているあらゆる点を個人的に評価することができる。

ここまでで、Aの主張の一部を考察していたが、ここで少しBの主張について考えてみよう。

仮に私がこう言ったとしよう：「N年以上前の研究コミュニティがニューラルネットワークで全くできなかったことを、1人のコンプサイエンスの新卒が1週間でできるようになった」Nはどれくらいの大きさか？

Twitterで、私が知らない人たちからこの質問に対する回答がいくつか寄せられたが、最も多かった回答は「5」だった。(もちろん、文字通りの普遍的なものではないが。現実はそんなにきれいなものではないから。)2012年の時点でできることなら、最新のGPU、Tensorflow、Xavier初期化、バッチ正規化、ReLU、AdamやRMSprop、あるいは勢いをつけた確率勾配降下法で、おそらくかなり簡単にできるはずだ。最新の技術は、それだけ優れているのである。確かに、シンプルな手法だけではできないこと、もっと手間がかかることもあるが、それらは2012年にはまったく不可能だった。

機械学習では、何かできるようになったとしても、未来のはるかに優れたツールを使って簡単にできるようになるのは、せいぜい数年先だろう。このような観点から、Bの「私たちがやっていることをやるのがどれだけ大変かわかっていない」という主張は、タイミングを考えると、ある意味、非論理的なのである。

Bは、1933年にラザフォードが原子核分裂による正味のエネルギーを「密造酒」と呼んだのと同じように私には聞こえる。もしあなたが1933年に核物理学者であったなら、すべての原子を手作業で、他の粒子と衝突させることによって分割しなければならず、それは手間のかかる仕事だった。もし誰かが原子から正味のエネルギーを得るという話をしたら、自分は評価されていない、自分の仕事は簡単だと思われていると感じたかもしれないね。

しかし、もちろんこれは、深刻なフロンティアプロジェクトに携わるAIエンジニアが常に経験することである。大学院生が1週間でできることをやっても、大金はもらえない（AIについて何も知らない官僚組織で働く場合は別だが、それはGoogleやFBではない）。あなたの個人的な経験では、何ヶ月もかけてお金をもらってやっていることは常に難しいということになる。したがって、この個人的な経験の変化は、火災報知器として使用できるものではない。

賢くて冷静な懐疑的な科学者を演じている人たちは、抽象的には道具が良くなることに同意しているはずだが、彼らが書く人気記事には、今年の道具の苦労話が書かれているだけなのである。そのモードでは、5年後の道具がどうなっているかを予測しようともせず、私が読んだ記事でも、そのような議論は書いていなかった。AGIは何十年も先の話だと言うのは、文字通り、現在のツールや知識を使ってAGIを作るのに、どれくらいの時間がかかると感じるか、という推定を述べているのだろう。だから、線形代数の山をかき混ぜて良い答えを出すまでがいかに大変かを強調しているのだ。彼らは、この経験が50年未満でどう変わるかを全く想像していないのだと思う。もし彼らが、現在の主観的な困難感に基づいて将来の技術スケジュールを推定することのバイアスを明確に考慮し、そのバイアスを補おうとしたのなら、その理由は私が読んだ限りではどこにも書かれていない。また、その予測方法が歴史的に良い結果をもたらしたという話も聞いたことがない。

5：さて、ここで単刀直入に言う。AGIは遠い（あるいは近い）という言説のほとんどは、機械学習の将来の進歩のモデルによって生み出されているとは思わない。私たちは間違ったモデルを見ているのではなく、何のモデルも見ていないのだろう。

以前、あるカンファレンスに参加したとき、有名なAIの著名人がたくさんいるパネルがあったのだが、ほとんどの著名人が「もちろんAGIは非常に遠い存在だ」とうなずきながら同意していたのだが、2人の有名なAIの著名人だけは黙っていて、他の人にマイクを持たせていた。

私はQ&Aで立ち上がり、「さて、皆さんは進歩がそれほど速くないということをおっしゃいましたね。しかし、もっと具体的に、具体的に説明しましょう。今後2年間ではできないと確信している、最も印象的な成果を教えてください」と言った。

沈黙があった。

「AGIは数十年後に実現する」と宣言していたときよりも、さらに慎重な口調で、パネルにいた2人が返事をした。彼らは、「ロボットが食器洗い機から食器を壊さずに片付けること」と「ウィノグラード・スキーマ」の名前を挙げた。具体的には、「ウィノグラード・スキーマは、最近50～60%という結果が出たが、今後2年間は、どのような技術を使っても80～90%にはならないだろう」と自信たっぷりに語った。

そのパネルから数ヶ月後、思いがけずウィノグラード・スキーマの大躍進があった。そのブレークスルーは80%を割らなかったので、誤差のある広い信頼区間には3拍手だが、残り1年となった今、予測者は少し緊張しているのではないだろうか。(私が読んだ記憶のあるブレークスルーではないと思うが、Robは、上記の会議から最大で44日後に投稿され、70%まで獲得できた例として、この論文を紹介している)。

しかし、それは重要なことではない。重要なのは、私の質問の後に訪れた沈黙であり、最終的に私が返したのは、暫定的なトーンで話された2つの返事だけだった。私が「今後2年間で不可能な具体的な偉業」を尋ねたとき、そのパネルの著名人たちは、機械学習の将来の進歩のメンタルモデルを構築しようと、自分たちに何が予測できるか、できないか、何を知っているか、知らないかを自問するようになったのだと思う。そして、彼らの名誉のために言っておくと、彼らのほとんどは、急速に変化する分野の将来の境界を予測することは実際には本当に難しいこと、来月arXivに何が掲載されるかは誰にもわからないこと、24カ月後のarXiv論文にどれだけの進歩があるのか、非常に寛大な上限のもとに広い信頼性の間隔を置いておく必要があることを理解できるだけの専門知識をもっていた。

(また、デミス・ハサビスも同席していたので、十分に不可能なことを命名すれば、デミスがディープマインドにやらせてくれることは、全員が知っていた)。

私が質問したのは、パネル考察とは全く異なるジャンルのもので、精神的な文脈の切り替えが必要だった。集まった著名人たちは、機械学習の進歩に関する大雑把で希薄な直感的モデルを実際に参照し、そのモデルが2年以内の時間軸で確実に禁止する未来の経験があるとすれば、それは何だろうかを考えなければならなかった。その代わりに、AGIに関する誇大広告を封印し、聴衆から予想通りの拍手をもらうために、社会的に望ましい言動をするのだ。

単刀直入に言うと、自信のある長期主義が全く考えられていないと思う。もしあなたのモデルが、arXivの論文を120カ月書いた後に10年後に不可能なことを言える並外れた力を持っているなら、2年後に不可能なことをもっと弱く言えるはずで、質問されて緊張して沈黙するのではなく、それらの予測を列にして準備しておくべきである。

現実には、2年問題は難しく、10年問題は笑えるほど難しい。未来は一般に予測しにくく、急速に変化・進歩する科学・工学の分野での予測把握は実に弱く、できないことについての狭い信頼できる間隔を許すことはない。

Graceら（2017)は、ICMLとNIPS 2015の発表者352人の予測を調査した。回答者の総予測は、「すべての職業は完全に自動化可能である」（「どのような職業でも、人間の労働者よりも優れていて安価にタスクを遂行する機械を作ることができる」という意味で）という命題は、121年後まで確率が50%に達しないというものだった。ただし、ランダム化された回答者の一部には、代わりに「人の手を借りない機械が、人間の労働者よりも優れていて安価にあらゆるタスクを達成できるようになったら」という少し変わった質問をし、この場合、44年以内に50%の確率でそうなるとした。

推定できない推定値を出せというからそうなるのであって、望ましい言語行動はどうあるべきかという社会常識があるのである。

「AGIには火災報知器がない」というのは、「ドアの下から煙が出るようなことはありえない」と言っているのではない。

私が言いたいのは、ドアの下の煙は常に議論の余地があり、明確で否定できない絶対的な火災の兆候にはならない。

実際に何かができた時点で、それはAIとは呼ばれなくなる、という古い言葉がある。AIに携わり、広義に加速主義、技術愛好家であるカーツワイル派と呼ばれる人々（私はその一員ではない）は、これを不公平な判断、ゴールポストを動かすものとして非難することがある。

これは、AIの成果に対する逆選択という現実的で重要な現象を見落としている：1974年にAIで何か印象的なことができたとしたら、それは、そのことが安っぽい不正な方法でできるようになったからであって、1974年がAIで驚くほど偉大だったからではない。私たちは、タスクを実行するためにどれだけの認知的努力が必要なのか、そしてそれをごまかすことがどれほど簡単なのかについて不確かであり、最初に達成される「印象的な」タスクは、どれだけの努力が必要なのかについて私たちが最も間違っていたものであろう。かつて、コンピュータがチェスの世界大会で優勝することは、AGIの方向への進歩を必要とし、AGIが近づいていることの証になると考える人がいた。1997年にDeep Blueがカスパロフを破ったとき、ベイズ的な意味で、私たちはAIの進歩について学んだが、同時にチェスが簡単であることについても学んだ。ディープ・ブルーを構築するために使われた技術を考えると、私たちが学んだことのほとんどは、「一般化しやすい技術がなくてもチェスをすることは意外と可能だ」ということであり、「AGIに向けて驚くほどの進歩があった」ということはあまりない。

AlphaGoはドアの下で煙を出していた、10年以内のAGIの兆候か？以前、人々は「What You See Before The End」の例としてGoをあげていた。

AlphaGoのアーキテクチャを説明した論文に目を通すと、囲碁がかなり狭くて場当たり的なアプローチで驚くほど簡単に達成できたことよりも、利用可能なAI技術が予想以上に一般性を追求しそうだということを学んだように思えたのである。しかし、AlphaGoは、Deep Blueがそうでなかったように、比較的一般的な洞察と技術を囲碁という特殊なケースに適用した成果であるように見えた。また、「人間の皮質アルゴリズムの一般的な学習能力は、私が思っていたよりも印象的ではなく、大量の勾配降下と10億個のGPUで捉えるのは困難である」についても大幅に更新した。なぜなら、マッチングが困難な高度に自然に選択された、しかしまだ一般的な皮質アルゴリズムが活躍する場所があるとすれば、それは人間が囲碁を打つときだろうから、印象的であると思われたからだ。

たぶん、1000個の地球で同じような現象が起きたら、統計をとって、惑星囲碁選手権でコンピュータが優勝したら、10年後にAGIの前触れとして信頼できるということがわかると思う。でも、実際にはそんなことはわからない。あなたもそうだろう。確かに、過去に何度もそうであったように、囲碁が予想以上に狭い技術で簡単に実現できることを知っただけだと、誰でも公に主張できる。実際のAGIに限らず、これは間違いなく深刻な火事で、今のAGIは10年、5年、2年先だとわかるような、ドアの下から煙が出るようなケースはあり得ない兆候である。ましてや、みんながそれを信じるとわかっているような兆候はない。

そしていずれにせよ、機械学習をリードする複数の科学者がすでに論文を発表し、火災警報の基準を語っている。彼らは、人工知能（Artificial General Intelligence）が迫っていると信じていることだろう：

(A）現在のツールを使ってAGIを構築する方法を個人的に確認したとき。これは、AGIが近いかもしれないと考える人々の愚かさを非難するために、彼らがいつも言っていることで、現在は真実ではない。
(B）個人的な仕事では、すべてが困難であるという感覚を持てないとき。このことは、AGIが近いかもしれないと考えている無知な一般人にはない重要な知識であり、彼らは生成的敵対ネットワークを安定させるために午前2時まで起きていたことがないからそう信じているだけだと、彼らは苦心して言う。
(C）自分たちが開発したAIが、人間に対していかに賢いか、自分たちにとってまだ魔法のように感じられる点で、非常に感銘を受けたとき。つまり、AIは対話や会話においてかなり賢そうに見える。

だから、火災報知器はないのだろう。以上。

緊張して周囲を見渡せば、AGIが迫っていることを語ることが明らかに常識となり、バカにされたり怯えたりすることを恐れずに、行動を起こして整然と退場できるような時期は、終了前には決して訪れないだろう。

AlphaGoをはじめ、いくつかの「もしかしたら」「そうでないかもしれない」ものが登場し、機械学習に膨大な労力が投じられ、論文が大量に出回った今、私が現在推定できる限りでは、私たちはおそらく最後の最後まで現在の認識状態を維持するつもりである。

私たちは、おそらくほぼ最後までこのような認識論的状態にあるだろうと言うのは、AGIが間近に迫っているとか、その間にAIの重要な新しいブレークスルーがないとか、そういうことを言いたいのではない。AGIに必要な洞察がどれだけあるのか、その洞察に到達するまでにどれくらいの時間がかかるのかを推測するのは難しいということだ。次のブレークスルーがあったとしても、さらにどれだけのブレークスルーが必要なのかがわからず、以前とほとんど同じような認識論的状態になる。次の発見やマイルストーンがどのようなものであっても、おそらく、さらにどれだけの洞察が必要なのかを推測することは難しく、タイムラインも同様に不透明なままであろうと思われる。研究者の熱意と資金がさらに高まり、タイムラインが短縮されたと言えるようになるかもしれない。あるいは、またAIの冬に突入し、物事が他の方法よりも長くかかることを示すサインだと分かるかもしれない。

ある時、突然arXivに論文が投稿され、本当に興味深く、基礎的で、恐ろしい認知的な挑戦が、ますます速いペースで行われているように見えるかもしれない。そして、この洪水が加速するにつれて、冷静で懐疑的と思われる人たちでさえ、AGIはもう15年先なのかもしれない、もしかしたら、もしかするかもしれないと思い立つほど、狼狽することになるだろう。その兆候は、終末を目前に控え、AGIは10年先かもしれないと言うことが社会的に受け入れられると人々が考え始めるほど、露骨になるかもしれないね。しかし、AGIへの到着時間を個人的な知識と個人的な困難をもとに推定している著名人や、誇大広告によって引き起こされたAIの冬に対する歴史的な悪感情を克服するためには、その兆候はかなり露骨でなければならないだろう。

しかし、仮にAGIは15年先だと社会的に受け入れられるようになったとしても、その数年後、数カ月後には、やはり意見の相違が生じると思われる。連想記憶や人間に匹敵する小脳の協調性（あるいはその他）が解決された問題であるにもかかわらず、AGIの構築方法がわからないと抗議する人がまだいることだろう。彼らは、AIがコンピュータサイエンスの論文を書いたり、人間と本当に意味のある会話をしたりすることはないと指摘し、その方法をすでに知っているかのように話す人たちの無意味な警戒心を非難することだろう。彼らは、愚かな素人は、現在のシステムを機能させるためにどれだけの苦痛と調整が必要かを理解していないと説明するだろう。(ただし、それらの最新の方法は、2017年に可能だったことはほとんど何でも簡単にできるし、どんな大学院生でも、Tensorflow 5.3.1のtf.unsupervised モジュールを使って、初回で安定した。GANをロールする方法は知っている)。

すべてのピースが揃い、あとは全世界の知識と創造性の頂点に立つ人々が最後のピースを組み立てるだけとなったとき、平均的なMLの人々には、AGIが遠くに迫っている巨大な挑戦であるように見えるだろう。主要なAI研究グループの著名なトップは、地球上のすべての生命とそれが達成できたであろう将来の価値の完全な破壊を心配することの愚かさを批判し、ローン承認システムが誤って人間の偏見を吸収してしまうような現実的で立派な関心事に気を取られてはいけないという論文をまだ書いているはずだ。

もちろん、未来を詳細に予測することは非常に難しい。あまりに難しいので、私は自分の能力のなさを告白するだけでなく、他の誰にもできないと、はるかに強いポジティブな表現をしている。「ブレイクスルーarXiv論文の洪水」というシナリオは、もしかしたらあり得るかもしれないが、これは具体性を持たせるために私が作った、あり得ないほど特殊なシナリオである。他の地球型文明がAGIを開発するのを見た私の豊富な経験に基づいているわけではない。私は、「マンハッタン計画では、広島まであまり看板が見えない」というシナリオは単純なので、かなりの確率をかけることにしている。なぜなら、このシナリオは単純だからだ。これ以上複雑なシナリオは、すべてが真実である可能性がない、負担の大きい細部に満ちた物語の一つに過ぎない。

つまり、誰もが知っていて同意し、早すぎるのではと不安になることなく行動できるような、紛れもない兆候はその前にないのである。このような兆候やモデルがすべて議論されている今回のようなケースはともかく、飛行や原子力工学のようなもっと単純なケースでは、技術の歴史は通常このように展開されてきたわけではない。私たちは、このテーマを取り巻く不確実性と議論の質の低さについてすでに十分に知っており、10年前、5年前、2年前にAGIが到来するという社会的に受け入れられる議論の余地のない兆候はないと自信を持って言うことができるだろう。もし一般的な社会的パニックが起こるとすれば、それは偶然であり、ひどい推論に基づくものであり、まったくの偶然を除いて実際のタイムラインとは無関係であり、ハリウッド映画によって引き起こされ、比較的つまらない危険性に焦点を当てたものだろう。

このような火災報知器について、誰も実際の説明をせず、そのために残された時間はどれくらいなのか、そしてその時にこそ始めるべきプロジェクトは何かについて説得力を持って論じていないのは偶然ではないだろう。もし誰かがその提案を書いたとしても、次に書く人は全く違うことを言うだろう。そして、おそらくどちらも、タイムラインについて予言的なことを知っているとか、（a）追求する価値がまったくなく、（b）今すぐ着手する価値がない、賢明な攻撃手段を特定したと私を説得することには成功しないだろう。

将来の漠然としたアラームが鳴るまで、すべての行動を遅らせるという決断は、継続的失敗の法則が働くほど大きな無謀さを意味しているように思う。

連続失敗の法則とは、あなたの国が銀行口座やクレジット申請にすべて平文の9桁の数字パスワードを使用するほど無能であれば、その国は1億ものパスワードが明らかになる次の災害後に修正を行う能力がないという規則である。そのような刺激に対して適切に反応し、修正する能力がある文明は、最初からそのようなミスを犯さないほどの能力がある。システムが微妙であり、能力の限界までの範囲で、むしろ大規模で明らかに失敗する場合、次の刺激がシステムを突然知的に動かすようなものに変えることはない。

というのも、「今は欠陥があるけれど、将来のプロッドが現れれば、すべてがうまくいくだろう」と言いたくなるかもしれないからだ。このような希望的観測が実際に正当化されるシステムは、そのほとんどがすでに重要なことをすべて正しく行っていて、認知の1つか2つのステップで失敗しているようにしか見えない。人、組織、政府、社会的なサブシステムが、現在、大規模な不足に陥っている場合、甘い希望が正当化されることはほとんどない。

30年後に宇宙人がやってくるという予測を無視する愚かさは、すでに十分なものであり、この議論の他の欠陥は驚くには値しないだろう。

そして、今日、これらすべてが同時にうまくいかなかったことで、同じシステムやインセンティブが、代わりに5年後にエイリアンが上陸するかもしれないという不確かなサインを受け取った後も、正しいアウトプットを生み出さないことを予測する必要がある。失敗が続く法則によれば、既存の当局が一度に十分な数の異なる方法で失敗し、真の問題は自動運転車のセキュリティだと言って人類存亡リスクに関する会話を脱線させようとすることに意味があると考えた場合、デフォルトの予想では、彼らは後でまだ馬鹿げたことを言い続けることになる。

同時に大量のミスをする人は、頭の中ですべての間違った思考を無意識のうちに「正しくない」とラベル付けしているわけではない。やる気があっても、突然、すべて正しい推論ステップを巧みに実行するようになることはない。確かに、金銭的なインセンティブが自信過剰や政治的バイアスを減らすことができることを示す様々な実験結果があるが、（a）それは排除ではなく削減であり、（b）それは極めて明確な短期の直接的インセンティブによるもので、「多くのことが危険にさらされている」という曖昧で政治的なインセンティブではない、（c）だからといって、スイッチが「複雑な正しい推論の遂行」まで全て反転していることにはならないのである。もし誰かの脳に、複雑で正しい推論を可能にするスイッチがあるとすれば、その脳は、後でではなく今、ほとんど正しい思考をするのに十分な内部精度や技術を持っている。少なくとも、間違っていれば殺されるとわかっている結論を検討する際には、ある程度の保守性やダブルチェックを組み込む程度である。

どんな兆候や前兆も、どんな閾値も、突然人々を目覚めさせ、物事を体系的に正しく行うようにさせるものではない。どんな兆候でも、ましてや完全には確実ではない、完全には合意されていない、目覚めの合図となりそうな証拠品に対して、あれほど有能に反応できる人たちは、おそらくすでに時間拘束を済ませているのだろう。スチュアート・ラッセルが「30年後にエイリアンが上陸するとわかっていても、今はまだ大きな問題だ」と言ったように、彼らはすでに未来のサインが来ることを想像し、先に進んで賢明な考えを抱いていたのである。

昨年寄付した人は今年も寄付してくれるだろうし、昨年「来年も」寄付しようと思っていた人は今年も「来年も」寄付しようと思っていることが多いということを、資金不足だった現在のMIRIの初期に知った。もちろん、ゼロからイチへの移行もあり、すべての出来事は初めて起こる必要がある。もちろん、ゼロからイチへの移行もある。「あとで」といって、純粋に戦略的に賢明な方法で長い間何も与えず、いい仕事に就いて寄付を始めた大学生もいる。しかし、私はまた、多くの安くて簡単な慰めのように、「後で」という言葉は中毒性があり、この贅沢は貧乏人だけでなく金持ちにもあることをよく学んだ。

AGIのアライメント問題についても、これと同じことが言えると私は思っている。アライメント問題でできる限りの把握をしようとする人は、次の年には、前の年に把握したもの（プラス、その間に行われた一般分野の進歩）を使って、少し（あるいはかなり）うまくやるようになる。AIやAGIの理解が深まるまで延期したいと思う人は、AIやAGIの進歩が来年になったら、AIやAGIの理解が深まる未来まで仕事を延期したいと思うようになるだろう。

ある人は、本当にアライメントを終わらせたいと思い、強化学習器のようなものに、感覚的報酬項の代わりに因果環境モデルの特定の要素に対する効用関数を確実に識別させる方法や、更新された（非）擁護のトートロジー性を打ち破る方法について、今頭をフル回転させている。他の人はむしろ他のことに取り組みたいので、今日できる仕事はないと宣言し、その宣言をする前にまず2時間かけて静かに考えることはしないだろう。そして、このことは明日も変わらない。おそらく明日、新聞の面白い見出しに目が覚めれば別だろうが、おそらくそれさえもないだろう。「後で」と言う贅沢は、本当に利用価値の低い人だけに許されるものではない。

しばらくして、私は大学で効果的な利他主義者に言うようになった：もし後で、”earn-to-give “をするつもりなら、今は3カ月に1回、5ドル程度の寄付をしなさい。そして、まったく同じ金額を2回続けて寄付したり、同じ団体に2回続けて寄付したりしないようにし、定期的に原因を見直したり、寄付額を見直したりする心の習慣を身につけるようにする。いつも「後で」と言うだけの心の習慣を身につけないように。”

同様に、もし誰かがAGIのアライメントに「後で」取り組むとしたら、半年に一度、AGIをアライメントするために考案できる現在の最高のスキームを考え、そのスキームについて有用な仕事をするために数時間を費やすようにと言うね。もし必要なら、AGIが現在の技術に似た技術で作られたと仮定する。そして、少なくともFacebookに投稿するという意味で、その「十分ではない現在のベスト・スキーム」を公開する。そうすれば、誰かが実際に2時間かけてベストな悪いアプローチを考えようとしたようには見えないスキームを命名したことに、恥ずかしさを感じることができる。

将来、AIについてもっとよく理解できるようになるだろうし、特定の研究アプローチがAGIに関連することをより確信できるようなことを学ぶこともできるだろう。ニック・ボストロムが「超知能」を出版し、イーロン・マスクがそれをツイートして「オーバートン・ウィンドウ」に石を投げ入れたり、スチュアート・ラッセルのような立派な著名人が公然と参加するような社会学の展開も、将来的にはあり得るだろう。将来は、ML技術の新たな地平線の進歩を公的に、あるいは私的に強調するAlphaGoのようなイベントがもっと開催されるだろう。それはあり得ることだ！でも、未来はそのようなサプライズを起こす能力を持っているのである。

しかし、その驚きを待つ前に、AGIのタイムラインに関するあなたの不確実性が本当に不確実なのかどうかを問うべきである。もし、AGIがN年後に50%の確率で到着すると推測することが、行動するのに十分な知識ではないと感じるなら、怖いほど不確実だと感じ、何かを決定する前にもっと証拠を待ちたいと思うなら、N年後の確率が50%と信じ、地球上の他のみんなもN年後に50%と信じ、AGEがN年後に到着する確率が50%のときに政策Pを実行することが正しく適切であるとみんなが信じていたらどう思うかと自分に聞いてみよう。もし、そのビジュアライゼーションが非常に異なっていると感じるのであれば、Pを実行する際に感じる神経質な「不確実性」は、AGIが到着するのにN年よりもずっと長くかかるかどうかということではないことになるね。

なぜなら、AGIがどんなに近づいても、どんな兆候が現れても、AGIがN年後に到着する確率が50%であるという共通、共有、合意された一般知識はほぼ確実に生まれないし、Pを行うことによって反応することが正しくて適切であるという合意もないからだ。

そして、もしそれが常識になったとしても、Pが放置されたままであったり、AIアライメントが放置されたままであったりすることはないだろうから、支援するのが遅くなってしまう。

しかし、それ以上に可能性が高いのは、その常識が通用しないために、常に神経質なまでに「不確実性」を感じて行動することを検討することである。

それにもかかわらず行動するか、行動しないかのどちらかである。最良の場合は手遅れになるまで行動しない、平均的な場合は本質的に終わった後まで全く行動しない、である。

私は、不特定多数の人が感じる奇跡を待つのは得策ではないと思う。緊張するような「不確実性」も含めて、しばらくはこのような精神状態が続くだろう。この精神状態を「後で」と処理すると、その一般的な方針は、地球にとって良い結果をもたらさないだろう。

さらに資料がある：

MIRIの研究案内・研究フォーラム
FLIの入門用資料集
CHAIのアライメント・ビブリオグラフィーhumancompatible.ai/bibliography
80,000時間」のAI求人情報80000hours.org/job-board/
オープンフィランソロピー・プロジェクトのAIフェローシップと研究提案の一般募集について
AIアライメントに関する私のブレインダンプ
初めてここに来られた方は、私の長年にわたる合理性についての研究、そしてCFARのワークショップ
そして、レイ・アーノルドによる、AIアライメントを原因領域として考える効果的な利他主義者のための一般的なヒントもある。

この記事はいかがだっただろうか？あなたは、以下のような他の分析記事を楽しむことができる：

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30