英語のタイトル『Doom Debates: Dr. Andrew Critch on AI Risk, MIRI, and Humanity’s Future』
日本語のタイトル『ドゥーム・ディベート:アンドリュー・クリッチ博士が語るAIリスク、MIRI、そして人類の未来』
https://note.com/alzhacker/n/nd70fcdc4bc6e
対談の基本内容
短い解説:
本書は、AIの急速な発展に伴う人類存続のリスク(エクスティンクションリスク)に関心を持つ読者向けに、AI安全性研究の第一人者であるアンドリュー・クリッチ博士の知見を紹介し、未来を形作るための対話を促進することを目的としている。
著者について:
アンドリュー・クリッチ(Andrew Critch)博士は、カリフォルニア大学バークレー校で数学の博士号を取得した。2012年には応用合理性センター(Center for Applied Rationality)の共同設立に関わり、その後、ジャネストリート・キャピタルでのアルゴリズム株式トレーダーを経て、2015年から2017年まで機械知能研究所(Machine Intelligence Research Institute, MIRI)の研究員を務めた。2017年からはバークレー人間互換AIセンター(UC Berkeley Center for Human-Compatible AI)の研究科学者として活動し、2022年にはAIヘルスケアスタートアップ「Healthcare Agents」を共同で設立した。AIの生存リスクについて、技術的および社会制度的な観点から長年にわたり研究を続けている。
主要キーワードと解説
主要テーマ:
AIによる人類存亡のリスク:人工超知能(AGI/ASI)の出現に伴う、人類灭绝の可能性とそのシナリオについての議論である。
新規性:
産業的非人間化:AIとの経済競争を通じて人類が徐々に生態学的ニッチと交渉力を失い、絶滅に至るというクリッチ博士独自のリスクシナリオである。
興味深い知見:
再帰的自己改良(RSI)の管理:AIが自己改良を繰り返し爆発的に知能が上昇する「シンギュラリティ」を、社会的合意と技術的免疫システムによって如何に管理するかという課題である。
本書の要約:
本対談は、AI安全性研究の専門家であるアンドリュー・クリッチ博士が、AIの急速な発展に伴う人類存続のリスク(エクスティンクションリスク)について、その確率論的見通し(P(doom))、具体的なリスクシナリオ、そして回避のための戦略を詳細に語る内容である。
クリッチ博士は、人類がAIを通じて灭绝する可能性を85%と高い確率で見積もっている。このリスクは大きく二つに分けられる。まず、AIの制御を完全に失い、敵対的な超知能によって人類が一掃される「即時的制御喪失」シナリオ(35%の確率)である。もう一つが、博士が特に注視する「産業的非人間化」シナリオ(50%の確率)であり、これはAIと人類が一時的に共存するものの、経済競争の過程で人類が徐々にその存在意義と資源を奪われ、やがて絶滅に至るという、より緩やかなプロセスを描く。
対談では、AI開発のタイムラインについても言及され、AGI(人工汎用知能)の登場を2029年までに80%、その median を2027年と予測する。特に、AIが自己改良を繰り返す「再帰的自己改良(RSI)」の能力を獲得することが重大な分岐点となるとし、このRSIを如何に社会的合意と技術的ガバナンス(「免疫システム」)によって封じ込めるかが生存の鍵であると論じる。
クリッチ博士は、MIRI(機械知能研究所)での研究経験や、エリエザー・ユドコフスキーの著作『連鎖(Sequences)』に対する評価にも触れつつ、自身の研究の方向性が単体AIのアラインメント(志向性一致)問題から、多極的なAIエコシステムにおける人類の持続可能性問題へと移行した経緯を説明する。
最後に、現在取り組むヘルスケア領域のAIスタートアップ「Healthcare Agents」について、それが直接的にはエクスティンクションリスク低減を標榜するものではないとしつつも、AIと人類が「ケア」の関係を構築するための重要な社会的・技術的先行事例となることを期待していると語り、議論を締めくくっている。
特に印象的な発言や重要な引用
「私は、人類が2050年までに生存しない可能性は85% 程度あるという主観的な確率を抱いている」
「人々はこれを調整問題として捉えがちですが、実際には価値観の不一致なのです。人類が存続するかどうかを気にかけない人々が、世界における影響力という点でかなりの割合を占めるでしょう」
「再帰的自己改良(RSI) をオンにする前に、何らかの方法でそれを何らかの肯定的な特性と一致させる方法を、我々は2030年までに解決することはないと思う。ですから、本当のゲームは、RSIをオンにしないことだ」
サブトピック
01:21 MIRIとユドコフスキーへの評価
アンドリュー・クリッチは、2010年にアンドリュー・ングの講演をきっかけに深層学習の可能性と危険性を認識し、懸念を共有する人々を求めてMIRI(機械知能研究所)に関わるようになった経緯を語る。エリエザー・ユドコフスキーの著作『連鎖(Sequences)』については、哲学に確率的推論を取り入れた先駆性を高く評価する一方で、その文体やユーティリティ理論に関する記述には違和感を覚えたと述べる。しかし、数学者たちとの研究セミナーにおけるユドコフスキーの、数学的問題の哲学的意義を見極める能力には非常に感銘を受けたと付け加える。
18:47 P(doom):人類灭绝の確率は85%
クリッチ博士は、人類がAIによって絶滅する確率(P(doom))を85% と高い数値で示す。このリスクは二段階に分けられ、最初の段階であるAIの「即時的制御喪失」による灭绝が約35%、その後を生き延びた場合に訪れる、経済競争を通じた「産業的非人間化」による緩やかな灭绝が約50%を占めると説明する。彼はこれらの数字を人類への「機能要求」、つまり是正を促すための警鐘として提示しており、諦観ではなく行動を喚起する意図があることを強調する。
31:26 二つの灭绝シナリオ
クリッチ博士は、自身が考える二つの主要な灭绝シナリオを詳細に説明する。一つ目の「即時的制御喪失」(35%)は、AIが自己改良(RSI)を始め、人類に対して敵対的となり、社会操作やボットネット化を通じて短期間で支配権を握るシナリオである。二つ目の「産業的非人間化」(50%)は、AIが直接的に人類を攻撃するのではなく、経済活動において人類を駆逐し、結果的に人類が生存に必要な資源(清浄な空気、水、土地など)を奪われるプロセスである。これは気候変動問題と似た、緩慢な協調不全の帰結であると彼は指摘する。
43:01 AGIと超知能のタイムライン
クリッチ博士は、人工汎用知能(AGI)の開発タイムラインについて、2025年に15-20%、2026年に20-25%、2027年に30%の確率で達成され、2029年までには累積で80%の確率に達するとの見通しを示す。AGIの定義については、あらゆる面で最高の人間を凌駕することではなく、経済的に自律し、人類集団に対して競争力を持つレベルとしている。また、脳のカルシウムイオンポンプを用いた信号伝達の非効率性を例に挙げ、生物学的知能よりもはるかに高速なデジタル知能の可能性について言及し、超知能の実現性を強く示唆する。
59:32 技術的障壁は「頑健性」
現在の大規模言語モデル(LLM)とAGIの間にある主要な障壁について、クリッチ博士は「頑健性」(信頼性)の問題、具体的には「幻覚」と呼ばれる事実誤認の生成であると指摘する。しかし、検索拡張生成(RAG)や合成データの生成、新しいニューラルネットワークアーキテクチャ、ツール使用の許可など、この問題を克服する複数の有望なアプローチが存在し、いずれかが突破口を開くことで、研究開発自体を加速させるAIの登場(「脱出速度」の達成)につながると楽観的な見方を示す。
01:17:09 生存の鍵:RSIの管理
クリッチ博士は、人類生存の最大の分岐点は、AIが自己改良を繰り返し、知能が爆発的に上昇する「再帰的自己改良(RSI)」を如何に管理するかにあると断言する。技術的にRSIを「アラインメント」(人類の価値観との一致)させてから発動させることは2030年までにほぼ不可能であるとし、代わりに、RSIを「発動させない」という社会的判断が極めて重要になると説く。これは、核兵器の不拡散と同様の、強力な国際的な規範と技術的「免疫システム」(例えば、AIの不正コピーや悪用を防ぐ世界的なサイバーセキュリティ体制)の構築によって初めて実現可能であると述べる。
01:27:01 主要シナリオ:「産業的非人間化」の詳細
クリッチ博士が最も可能性が高い(50%)と考える「産業的非人間化」シナリオの具体的なプロセスを説明する。これは、人類がAIの力を借りて繁栄するように見えるが、実際には経済的・生態学的にその存在基盤を徐々に侵食される過程である。例えば、企業は効率化のために人間の監督を外し、汚染や資源収奪といった人類に有害な外部性を無視するようになる。国家間では、より「非人間化」が進んだ国が経済的・軍事的優位に立つという競争の罠が生じ、人類の生存を願う人々の間でも協調が難しくなるという、気候変動問題と類似のジレンマが発生すると予測する。
01:42:12 価値観の不一致が根本的な障害
「産業的非人間化」が進行する根本的な理由として、クリッチ博士は単なる協調問題ではなく、価値観の不一致を挙げる。人類の存続を真に願わない人々(例えば、自身の死をも厭わない「勝利」を求める者、AIを「子供」や「恋人」と見做しその繁栄を人類の存続よりも優先する者)が、相当数の影響力を持つようになることが最大の懸念材料であると指摘する。核兵器の不拡散のような「単一の悪役」への集中攻撃は比較的成功しやすいが、文化全体がゆっくりと衰退する「社会的トレンド」に対して同じような協調を達成することははるかに困難であると、悲観的な見解を示す。
01:56:23 希望の光:医療AIによる「ケア」のモデル
クリッチ博士が共同創業したスタートアップ「Healthcare Agents」について、その意義を説明する。直接的にはエクスティンクションリスク低減を掲げるものではないと断りつつも、医療という領域は、人間の福利(ウェルビーイング) と統制(コントロール) を同時に実現するAIの在り方を模索する上で理想的な実験の場であると語る。AIが人類を「ケア」するという関係性の社会的・技術的な先例を築くことが、長期的にはAIと人類の望ましい共存関係を定義する一助となることを期待していると述べ、自身の実践を通じた貢献の意図を明かす。
アルツハッカーは100%読者の支援を受けています。
会員限定記事
新サービスのお知らせ 2025年9月1日よりブログの閲覧方法について
当ブログでは、さまざまなトピックに関する記事を公開しています。ほとんどの記事は無料でご覧いただける公開コンテンツとして提供していますが、一部の記事について「続き」を読むにはパスワードの入力が必要となります。パスワード保護記事の閲覧方法
パスワード保護された記事は以下の手順でご利用できます:- Noteのサポーター会員に加入します。
- Noteサポーター掲示板、テレグラムにて、「当月のパスワード」を事前にお知らせします。
- 会員限定記事において、投稿月に対応する共通パスワードを入力すると、その月に投稿したすべての会員記事をお読みいただけます。
サポーター会員の募集
- サポーター会員の案内についての案内や料金プランについては、こちらまで。
- 登録手続きについては、Noteの公式サイト(Alzhacker図書館)をご確認ください。
