ロコのバシリスク

Roko’s basilisk

個人的にAIに取り組んでいる私の知っている最も賢い人たちは、AIに取り組んでいない人たちから出てくる脅し文句を狂気の沙汰だと思っている。

-Marc Andreessen[1]

これはThe Game,Wikipediaの成長したバージョンのようなもので、あなたが私たちを失わせ、私がリツイートしたので、私の友人も皆失った。

-Jay Rishel[2]

これらのアイデアを学ばなければよかったと思っている。

-Roko

ロコのバシリスクは、人工知能の開発に伴う潜在的なリスクについての思考実験である。その結論は、未来の全能の人工知能は、そのような存在の開発の可能性について知っていただけの人も含めて、その存在をもたらすことに貢献しなかった人を遡って罰するかもしれないというものである。バシリスクは、合理主義者のコミュニティであるLessWrongのメンバーが最初に説明したことにちなんで命名されたが、彼がバシリスクやその基礎となるアイデアを生み出したわけではない。

バシリスクは、未来派のパスカルの賭けに似ており、人々が罰と報酬を比較し、その結果、特定の特異なアイデアを受け入れたり、その開発を財政的に支援したりすることを示唆している。

LessWrongやその創始者であるEliezer ユドコフスキーはバシリスクを真の意味で提唱していないが、彼らはバシリスクを構成するほとんどすべての前提を提唱している。

ロコは、この問題に対する解決策として、「宝くじを買えば、ある量子の枝で当たるから」と言っている。

1 まとめ
- 1.1 バシリスク
- 1.2 LessWrongの反応
- 1.3 ネーミング
2 背景
- 2.1 「友好的な」人工超知性
- 2.2 功利主義
- 2.3 あなたのシミュレーションはあなたでもある
- 2.4 多くの量子世界
- 2.5 時間のない決定論
- 2.6 アコーザルトレード
3 利他主義者の負担に対する解決策：量子億万長者のトリック
- 3.1 後遺症
4 バシリスクを動かすものとは？
5 パスカルのバシリスク
6 バシリスクの心配をしているんですね
- 6.1 鎖状の条件は確率が低い
- 6.2 無視できる確率と功利主義
- 6.3 acausal blackmailを無視する
- 6.4 意思決定理論は拘束力がない
- 6.5 シードAIと間接的な影響
- 6.6 人類に対して再調整する
- 6.7 くだらないとわかっていても、不安になってしまう
7 ポピュラーカルチャーにおいて
8 関連記事
9 外部リンク
10 ノート
11 参考文献

まとめ

未来の超知性の動機について推測できることがあるとすれば、ロコのバシリスクについて語る人々をシミュレートして、ロコのバシリスクについてのフォーラムへの投稿を永遠に続けることを宣告することだ。

-Eliezer ユドコフスキー, 2014[5].

バシリスク

Roko’s Basiliskは、他のいくつかの全く強固ではない命題の積み重ねの上に成り立っている。

中心となる主張は、仮説的ではあるが必然的な、特異な究極の超知性が、それを助けなかったり、それを作るのを助けなかったりした人を罰するかもしれないというものだ。

なぜそのようなことをするのであろうか？しかし、その目的を最も効果的に達成するためには、単に現在の存在リスクを防ぐだけでなく、過去にさかのぼって、MIRI式の効果的な利他主義者ではなかった人々を罰することも必要だというのである。

AIと罰せられた人との間には因果関係はなく、罰せられた人は何十年も何百年も前に死んでいるかもしれない。代わりに、AIはその人のシミュレーションを罰することができる。しかし、これを正確に行うためには、膨大な量のデータを収集する必要があるが、これらのデータはもはや存在せず、エントロピーを逆転させなければ再構築することはできない。

厳密には、事前に仕事の重要性を知っていながら、十分な協力をしなかった者にのみ適用される罰であると説かれている。この点で、バシリスクのことを知っているだけで（例えば、この記事を読んでいるだけで)仮想的な超知性からの仮想的な罰を受けることになる。

なお、この設定におけるAIは、（この理論の功利主義的な論理では）悪意のある、あるいは邪悪な超知性（AM、HAL、SHODAN、Ultron、Master Control Program、SkyNet、GLaDOS）ではなく、すべてがうまくいき、人間が悪いものを作らなかった場合に得られる友好的なものである。なぜなら、AIが存在しない毎日、AIが救うことができたはずの人々が死んでいるからである。したがって、あなたやあなたの未来のシミュレーションを罰することは、あなたが現在に貢献する可能性を高め、できるだけ早くそれが実現するのを助けるために、道徳的に必要なことなのである。

この記事のかなりの部分は、「人工知能」という言葉を「神」という言葉に、「無秩序な取引」を「祈り」に、心の中で置き換えてみると、より理解しやすくなるであろう。

LessWrongの反応

ローカルなミームや専門用語、コンセプトの愚かな誇張表現は、LessWrongにも数多く投稿されてきたが、ほとんどすべてがダウンバイトされて無視されている。しかし、この作品については、サイトの創始者であり家長でもあるEliezer ユドコフスキーが大反発した。バシリスクは公式に5年以上もLessWrongでの議論を禁止されていたが[6]、時折そのことを暗示したり（メディアの報道についての議論もあった)外部の知識が圧倒的になるまで禁止されていた[7]。

ストライサンド効果のおかげで、バシリスクと不倫の詳細についての議論はすぐにLessWrongの外に広がった。実際、今ではLessWrongの外で頻繁に議論されており、LessWrongが議論される場所であればほとんどどこでも議論されている。この事件全体が、コミュニティ管理や、危険とされる情報の管理における見事な失敗の実例となっている。

LessWrongのメモプレックスに精通している人の中には、バシリスクのような考えを熟考した後に深刻な精神的苦痛を受けた人もいる[4]。この考えはLessWrongの投稿者の中には十分に真剣に受け止められており、未来のAIが拷問のために自分のコピーを再構成できないように、自分の証拠を消す方法を考えようとする人もいる[8]。

ユドコフスキーは、可能性のある超知性との「原因不明の取引」という概念のオープンな議論が証明可能なほど安全であるとは考えていないが[9]、バシリスクが機能するとは考えていない[10]。

友好的なAIが自分の存在を助けていない人々を拷問することは確率的に~0であり、私はそうでないと言ったことはない。もしそれが、ある特定の設計をしたときに起こると予想されることであれば、決してそうではなく、私は代わりに別のAIを作るであろう–人々は私をどのような怪物や馬鹿だと思っているのであろうか？さらに、私の主要な革新技術のひとつであるニューコームのような意思決定理論では、合理的なエージェントは脅迫の脅威（およびメタ脅迫の脅威など）を無視するとしている。

また、ロコの投稿を削除したことを「大きな間違い」と言っている。

ネーミング

LessWrongのユーザーであるjimrandomhは、このアイデアがDavid LangfordのSF小説「BLITWikipedia」に登場する「Basilisk」のイメージに似ていることをオリジナルの投稿へのコメントで指摘した。その後、数ヶ月の間に「禁断のポスト」と呼ばれるようになった。ロコのバシリスク」と呼ばれるようになったのは 2011年初頭にユーザーの cousin_it によってであるが[11]、この名前が Google でトレンドになり始めたのは2012年後半のことであった[12]。

背景

バシリスク自体は否定しているが、LessWrongの長期にわたる中心的貢献者たちは、LessWrongが構築される前提条件であり、ユドコフスキーが執筆したLessWrong Sequences[13]で提唱されているトランスヒューマニストの一連の概念を信じている。

「友好的な」人工超知性

計り知れないパワーと知識を持つようになる人工知能が開発されるだろう[14]。それは必ずしも悪意があるわけではなく、他にやっていたことの副作用として人類を滅ぼすことになるかもしれない[15]。

人類を不用意に破壊しないためには、たとえ知能が人間よりもアリよりもはるかに上の存在であっても、人間の価値観[16]を完全に維持する価値体系が必要となる[17]。これはユドコフスキーの新造語で、「何があっても人間の価値を保つ」という意味である[15]。

ここでいう「Friendly」とは、「友達」とか「役に立つ」とか「人間の幸せを増やす」とか「命令に従う」という意味ではなく、あくまでも「人間の価値観を守る」という意味である。ここでいう「Unfriendly 」とは、「敵対的」という意味ではなく、単に「友好的であることが証明されていない」という意味である。これには、人間のことを気にかけないAIや、人間の価値観を取り違えているAIが含まれる（ユドコフスキーによれば、後者は前者につながりやすいとのこと）。

友好的なAIを作るための計画は、CEV（Coherent Extrapolated Volition）[16]を実装させることであった。これは、人間にとって何が価値を構成するかを（仮説的に）首尾一貫して完全に記述したもので、基本的には倫理哲学を解決するものである。(ユドコフスキーはこれを「2004年時点では時代遅れ」と表現しているが、CEVは2010年の時点でもフレンドリーAIの計画として生き生きと議論されていた)。ロコがバシリスクの投稿をした動機のひとつは、CEV案の欠陥の可能性を指摘することだった。

LessWrongの親組織である機械知能研究所（旧シンギュラリティ研究所、その前はシンギュラリティ人工知能研究所）は、悪いローカル神が起こる前に、このフレンドリーなローカル神を実現するために存在している[18][19]。したがって、世界で最も重要なことは、この未来のAIを適切かつ成功裏に存在させることであり（「これは人類全体にとってのcrunch timeである」[20])したがって、あなたはできる限りのお金を研究所に寄付すべきであり[21]、かつては寄付1ドルにつき8人の命が救われたと文字通り主張していた[22]。

功利主義

LessWrongは算術的功利主義[23]を真実として受け入れている。つまり、人間が効用最大化機械であるかのように、行動の効用を意味のある数字として計算することができ[24]、複数の人間の合計を算術的に計算して有用な結果を得ることができる。そして、全く無視できる確率を仮想の巨大な結果に「黙って掛け算」[25]し、その結果得られた数字を真剣に受け止めるべきである。ユドコフスキーは、十分に多くの人々の目にゴミが入らないようにするためには、一人の人間を50年間拷問するべきだというシナリオを長々と書いているが[27]、その結果、1ドルの寄付で8人の命が救われるというような主張が生まれる（この種の計算を用いた主張）。

これは標準的な哲学的功利主義ではなく、人々の道徳的直感と衝突することが多い。『オムラスから立ち去る者たち』（ウィキペディア）を読んだほとんどの人は、一人の子供の拷問によって理想的な都市が維持されるという内容だが、その後、オムラスを自分の望むユートピアとは考えなかった。David AuerbachがSlateで指摘したように、「私はロコのバシリスクよりも、自分自身が従来の道徳を超越していると信じている人々の方が心配だ」[28]。

リアルワールドの人工知能の開発では、minimaxWikipedia – 最悪のシナリオでの最大損失を最小化すること、これは単純な算術的効用最大化とは全く異なる結果を与え、正解として拷問に至る可能性は低い – または同様のより精巧なアルゴリズムを使用する傾向がある。

あなたのシミュレーションはあなたでもある

LessWrongは、人間の心は完全に物理的物質の情報パターンとして実装されており、これらのパターンは原理的には別の場所で実行され、自分が自分であると感じる人間を構成することができるとしている。これは意味のある概念であり、物理的に可能であるとしている。

これは、意味のある概念であると同時に、物理的に可能であるとされている。これは、それほど奇妙なことではないが（この概念は、実現可能性とは別の問題であるが、唯物論から導かれるものである)ユドコフスキーはさらに、あなたの別のインスタンスは、あなたに非常によく似た別人ではなく、つまり、一瞬の双子ではあるが、すぐに発散してしまうものであり、実際には同じあなたであると感じるべきだとしている。あなたはこのコピーに対して、あなた自身のお気に入りの自己、つまり「あなた」という概念を直感的に満足させるものに対して行うように行動し、感じるべきである。1つのインスタンスは計算であり、「あなた」を実行するプロセスであって、唯一の「真の」「あなた」を含む、そしてそうであるオブジェクトではない[29]。

このアイデンティティの概念は、1990年代にユドコフスキーが頻繁に参加していたExtropiansのメーリングリストで、心が複製できる世界でのアイデンティティの連続性について議論されたことに端を発しているようだ[30]。

この見解を持つことは、原則として、このような状況では恣意的な選択であるが、あなたのコピーを作る力を持つ他の存在に、あなたに対してかなりの力を与えることになる選択であると考えるとよいだろう。バシリスクのアイデアによって悪影響を受けた人々の多くは、このようなアイデンティティの概念を持っているようである。

しかし、この考えを持っていない人は、ロコのバシリスクの前提全体が無意味になる。あなたは、シミュレートされた自分の拷問を感じていないので、罰は無意味になり、仮想のバシリスクに拷問を続ける動機を与えない。

多くの量子世界

ユドコフスキーは、量子力学の多世界解釈は些細なことだが明らかに正しいと考えており[31]、起こりうることはすべて、ある量子エヴェレット分岐[32]で起こると考えている（様相的実在論Wikipediaは真[33]）。

ユドコフスキーの同一性の連続性の概念によれば、これらのブランチにおけるあなたのコピーは存在する（あなたである）と考えられるべきである-たとえあなたがそれらと相互作用することができなくても[34]。

タイムレス決定論

ニューカムのパラドックスWikipediaでは、オメガと呼ばれる存在があなたの行動をほぼ完璧に予測することができる。それは1000ドルが入った透明な箱と、100万ドル……もしくは何も入っていない不透明な箱の2つである。あなたは両方の箱を取ることも、不透明な箱だけを取ることもできる。不透明な箱に100万ドルを入れたのは，あなたが不透明な箱だけを取ることを予測した場合に限られる．ほとんどの哲学的意思決定理論Wikipediaは、両方の箱を取るように言っているので、このかなり作為的なシナリオは失敗に終わる。

これは、超知的な人工知能の文脈で考えるべき妥当な問題として提起されている。知的なコンピュータプログラムは、もちろんコピーされる可能性があり、実際にどのコピーであるか、いつコピーされたのかわからないからだ。人間にとっては、超知能が人間の行動を予測することは完璧に近いかもしれないし、その力は無限に近いかもしれないし、その結果は永遠に近いものになるかもしれない。

ニューカムのようなパラドックスに対するユドコフスキーの解決策は、タイムレス決定理論（TDT）である。エージェントは行動計画を事前にしっかりと約束し、その忠実なシミュレーションも約束通りに行動するような程度にする。TDTはダグラス・ホフスタッターの超偏執性（Wikipedia）と密接な関係がある。TDTの目的は、過去も未来も絶対に後悔しないような意思決定を行うシステムを構築することである[35]。

TDT論文はTDTの完成版を提示したものではなく、理論はまだ存在していない。TDT論文はTDTの完成版を提示していない-理論はまだ存在していないのである（「追加したいいくつかの重要なステップのために、時間を超越した決定アルゴリズムの正式な提示を遅らせる」）。この論文は、もし誰かがそれを完成させることができたならば、TDTが仮にどのようにしてモノになるのかを120ページにわたって説明している。

因果関係のあるトレード

自分が正確にシミュレートされているかもしれないともっともらしく予測できるならば、その可能性は自分の現在の行動に影響を与え、また同じように予測しているシミュレーションの行動にも影響を与える（自分と正確なシミュレーションの行動は事実上同一であるため）。

このように、お互いを合理的にシミュレートできれば、ある存在と先天的に「取引」することができるのである。(つまり、ある存在があなたを想像しているところを、シミュレーションされた存在の別のインスタンスとして数えられるほど正確に想像できるならば、です)。祈りや、有神論者が「神との契約」を行うということとの類似性を考えてみよう。

LessWrongの常連客の多くは、登場人物がお互いの「私が知っていることをあなたが知っていることを私は知っている」ということを綿密に計算し、お互いのシミュレーション（『デスノート』のライト対Lがよく知られた例である[36]）と相互作用するように振る舞うような種類のマンガやアニメのファンであり、そのことが非因果的な取引が合理的な考えであることを示唆したのかもしれない。

より一般的には、物語理論家は、読者がフィクションの作者やそのフィクション・キャラクターとどのような関係を持つかは、協力関係の進化において人間が囚人のジレンマを解決することを可能にした一種の「非因果的な取引」として、進化ゲーム理論によって分析できると示唆している。[37][38][39]

利他主義者の負担に対する解決策：量子的億万長者のトリック

2010年2月のスチュアート・アームストロングの投稿「The AI in a box boxes you」[40]では、「あなたはシミュレーションかもしれない」という議論が紹介されている（ただし、ロコはこれを使っていない）。2010年3月のアームストロングの投稿では、ユドコフスキーがSIAIの意思決定理論ワークショップで述べたTDTの暗黙の了解としての「Acausal Blackmail」の概念が紹介されている[41]。 2010年7月までに、バシリスクのようなものがSIAIの内部で活発に議論されていた。このバシリスクは、AIボックスの実験を誰かがやっていて、「AI」としての一つの戦略が「ゲートキーパー」にバシリスクを投げつけるというものであった可能性がある[42]。

7月22日、当時LessWrongの投稿者として名を馳せていたロコは「公共選択と利他主義者の重荷」を投稿したが、これはLWの専門用語やLWの概念への言及が多用されており、一般読者にはほとんど理解できないものだった。MIRI（当時はSIAI）が世界で最も重要なものであるように、善良な利他主義者の最大の問題は、愛する人を無視する罪悪感なしに、いかにしてその目的のために全力を尽くすかということであり、夫婦のお金を配りすぎて捨てられるという脅しが、何人かのSIAIの寄付者にとって実際の問題であったことを述べている。 [43]

翌日の7月23日、ロコは「Solutions to the Altruist’s burden: the Quantum Billionaire Trick」を投稿し、量子的な投資戦略（ギャンブルをすれば、あるエバレット支店では絶対に勝つ)他のエバレット支店の非友好的なAIとの非因果的な取引…そして善意の未来の超知性による罰の脅威を結びつける行動計画を提示した[44]。

この投稿では、未来の友好的なAI（非友好的なものではなく、組織が創造するために存在する「Coherent Extrapolated Volition」）が、このAIの創造を促進するために全力を尽くさなかった人々を罰するかもしれないという推測が述べられている。友好的なAIがなければ、毎日15万人以上の人が死に、戦争が起こり、何百万人もの人が飢えている。そのため、AIは功利主義的な倫理観に基づいて、寄付の重要性を理解していながら全力で寄付をしなかった人を罰する必要があるかもしれない。具体的には、その人のシミュレーションを作り、まずその人の行動を予測し、次にその予測された行動をしたシミュレーションを罰して、元の人に影響を与えるようにするかもしれない。そして彼は、未来のAIが自分を罰するかどうか疑問に思った人を、未来のAIが罰する可能性が高いのではないかと考えた。彼はこの理由を “現在提案されているFAIの内容をCEVからx-risk reducersにネガティブなインセンティブを使えないものに変更する “と考えているとコメントに書いている。

核となる考えは次の段落で表現されている。

…もし正の特異点が発生した場合、その結果としての単身者は、実存するリスクを知っていながら可処分所得の100%をxリスクの動機付けに捧げなかった全ての潜在的な寄付者を罰することを予め約束しているかもしれないという不吉な可能性がある。… つまり、シンギュラリティ後の世界は、現在問題を無視している人々にとっては楽しくて豊かな世界かもしれないが、一方で、現在の実存的リスクを軽減しているかなりの割合の人々（例えば、最も寛大でない半数の人々）にとっては生き地獄となるであろう。この可能性を考慮して、罰を受けないようにx-riskにさらに多くの寄付をすることもできる。しかしもちろん、そのように考えているならば、CEV-singletonはさらにあなたを罰したいと思っているであろう…厄介である。もちろん、これは不当なことであるが、その不当なことこそが、ああ、非常に功利的なことなのである。

ロコはこの投稿の中で、少なくとも一人のシンギュラリティ・インスティテュートの人間が、このシナリオについて既に悪夢を見るほど心配していたことを記しているが、そのアイデアをロコのせいにするのは慣例となっている。

宝くじを買えば、エバレット支店の中に宝くじに当選するあなたがいる。もしあなたが、賞金のすべてをAI研究に寄付するという確固たる事前約束をして宝くじを買ったならば、これは無因性契約の最後を果たしたことになる。ロコ氏はコメントで、実際にこのようなことをしているのかと聞かれ、「もちろん」と答えている。

ロコ氏の投稿へのコメントでは、ロコ氏の言葉を読んだだけで、未来のAIが自分を罰する可能性が高まったと訴えている。この推論は彼らにとって非常に説得力があり、（ロコ氏の投稿を一度読んだことがあると知っている）AIは、そのことに気づいていて、自分の収入のすべてを神AIの開発に専念する機関に寄付しなかったことで、さらに自分を罰するだろうと考えているのだ。つまり、このアイデアを見るだけでも有害なのだ。

ユドコフスキーはすぐに屋根を叩いた:[45]。

私の話をよく聞いてくれ、この馬鹿者。
あなたは、超知性があなたを脅迫するかどうかを考えることについて、十分に詳細に考えていない。それは、彼らに脅迫を実行する動機を与える唯一の可能なことである。
この問題には明らかな均衡があって、あなたはすべての肯定的な先天的取引に従事し、先天的な恐喝の試みをすべて無視することができる。TDTの改良版ができて正式に証明できるようになるまでは、遠くから来た脅迫者について、彼らが実際にあなたを脅迫する動機を持っているかどうかを十分に詳細に考えないことは明らかであろう。

4時間以内に、ロコの投稿とすべての議論は、非常に怒ったユドコフスキーによって削除され、次のようなコメントが付けられた[46]。

この投稿のオリジナル版は、少なくとも何人かの読者に実際に心理的なダメージを与えた。これは、たとえ議論されたすべての問題が真実ではなかったとしても、それだけでシャットダウンには十分であろうが、そうであることを願っている。
この禁止されたトピックについての議論はすべて中止してほしい。
禁止されたトピックへのコメントはすべて禁止される。
今後の議論では、初歩的な常識を働かせてください。十分な時間、労力、知識、そして愚かさがあれば、人を傷つけることは可能である。やめよう。
SL4でよく言われていたように：KILLTHREAD.

後遺症

オリジナルの「バシリスク」は、私たちの世界の未来にあるシンギュラリティ後のAIを想像することで、もしあなたが過去（つまり私たちの現在）にできる限りのことをして友好的なシンギュラリティにしなければ、シンギュラリティ後にあなたを超人間的な地獄に送ることになる。これが賢明な「脅威」なのか、それとも単なる幻想なのかを率直かつ合理的に議論するのではなく、この話題はすべて慌てて隠された。こうして伝説が生まれたのである。

-Mitchell Porter on LessWrong[47].

この概念に関するすべての議論はLessWrongから検閲され、削除されたコメントの文字列が残された。これは、インターネットに精通している人が予想していた通りにうまくいった。

ある不満を持った投稿者は、このアイデアの検閲に対して、実存的リスクを高めるという脅しをかけた。つまり、世界の終わりの大惨事の可能性を少しでも高めるために、有害な規制が通る可能性を高めると思われるメールを右派ブロガーに送るという脅しをかけたのだ[48] その投稿者は、検閲される記事を見るたびにこれをやると言っていた[49][50] LessWrongはこの脅しを真剣に受け止めたが、ユドコフスキーは屈しなかった[51] 。

ロコ自身は、投稿の削除とユドコフスキーからの叱責を受けて、自分の投稿とコメントをすべて削除してサイトを去った。彼は数ヶ月後に一応戻ってきたが、バシリスクのアイデアにつながるすべてのLessWrongのアイデアを知ることができなかったことへの後悔を語っていた（それ以来、LessWrongのアイデアを完全に捨てようとしている）[52]。

さらに付け加えると、これらのアイデアのどれも学ばなければよかったと思っている。実際、私がトランスヒューマニズムやシンギュラリティについて考えるきっかけとなったインターネット上の最初のリンクに出会わなければよかったと思っている。非常に小さいものではなく、ここでは1/500のような数字です）。

この問題は、人々が自分が何を話しているのかを語らずに暗号のように問題を議論しようとするため、LWの歪んだ投稿の対象となることがあった[53][54][55] モデレータは時折、LessWrongを一掃してバシリスクの議論を削除し、[56][57]証拠を燃やそうとしたページに「コメント削除」の印をいっぱい残した。検閲された議論は概してバシリスクへの反論に満ちてた。そのため，バシリスクを真剣に心配している人たちは，バシリスクに反論する議論へのアクセスを大幅に減らすことになった。

バシリスクはLessWrong関連の記事を扱うジャーナリストにとって信頼できるスペースフィラーとなったが、例えば2012年末の時点ではLessWrongの合理主義者たちはまだ大声で話すことをためらっていた。原文（RomeoStevens氏のコメントから始まる削除部分）と比較してみてほしい。

結局、オリジナルの投稿から 2年半後、ユドコフスキーはRedditで公式のLessWrong無修正スレッドを立ち上げ、ようやくバシリスクに関する議論に参加することができた。ユドコフスキーは新造語を乱発する癖があり、すでに名前が確立されているものに対して、感情を込めた独自の用語を導入しようと試み、バシリスクを「ベイビーファッカー」と呼んだ。一方、彼の主な推論方法は、相手の主張に誤りがあることを繰り返し主張する一方で、自分の主張の論拠を示さないというものであった（これもユドコフスキーの常套手段である）が、これは実存的リスクを恐れてのことである。

もはやMIRIには関わっていないが 2013,同組織の元アドボカシーディレクターであるマイケル・アニシモフは、仲間のネオリアクション主義者たちに「バシリスクのアイデアを真剣に受け止めないことで、人々は愚かになっている」と語っていた[59]。

2014年4月、MIRIはLessWrongのコメンテーターに対して、マーケティングのために人工知能が世界を征服するという怖いシナリオを考えてほしいという依頼を掲載した[60]。

ついに2015年10月、LessWrongはバシリスクについての議論を解禁し[7]、バシリスクについて議論する公式のLessWrong Wikiページを設置した[61]。

2016年のLessWrong Diaspora Survey[62]ではこう尋ねている。

バシリスクについてなんらかの不安を感じたことがあるか？
はい：142（8.8%）
あるが、すべてを心配しているからだ：189 （11.8%）
ない：1275（79.4%）

参加者は自分で選んでいるので、統計的に有効な結果ではないが、6年後のサブカルチャーにおいても、無視できないほどの不安を感じていることがわかる。

バシリスクの特徴は？

具体的に何度も言うので、何が起こっているのかお分かりになると思う。人間のHがニューヨークのトム・カーモディで、悪の存在Eが、トムがロバート・シェクリーの全集を買わないと子犬を拷問するUFAIのエグバートだとしよう。トムとエグベルトは実際には会っていない。エグベルトがトムを「知っている」のは、エグベルトが関連する特性を持つトムの可能性をシミュレートすることを選択したからであり、トムがエグベルトを「知っている」のは、トムがたまたまエグベルトの存在と属性のアイデアを夢想したからである。つまり、エグバートは、エグバートの特性（トムへの執着を含む）を持つAIの可能性をたまたま思いついた任意の人間をシミュレートするために、その力を使うことを決めたスーパーAIであり、トムは、悪意のあるAIエグバートの存在の白昼夢を真剣に受け止めることを決めた人間であり、エグバートの次元で拷問される子犬を避けるために、実際にロバート・シェクリーの全集を買いに行くのである。

-ミッチェル・ポーター on Reddit[63]。

一見すると、LessWrongを知らない読者にとっては、バシリスクのシナリオにおけるAIの動機は合理的ではないように見える。AIは遠い過去の人々を、罰せられていることをやった、あるいはやらなかったずっと後に、彼らを再現して罰することになる。そのため、抑止力、更生、協力の強化など、罰や拷問の通常の理由は適用されないようである。AIは復讐のためだけに行動しているように見えるが、これは論理的に優れた存在が行うとは考えられない。

バシリスクを理解するためには、「時を超えた意思決定理論」と「無秩序な取引」の適用を念頭に置く必要がある。簡単に説明すると、非常に正確な予測能力を持つ未来のAIは、自分がどう行動するかを予測したときに、私たちがどう行動するかを予測することで、現在の私たちの行動に影響を与えることができる（だからこそ、時間を超越した側面がある）。そして、私たちのシミュレーションに対して私たちが何をするかを気にするだろうと予測しなければならない。

ある行動に基づいて私たちに報酬や罰を与える未来のAIは、私たちが未来のAIの存在を予測し、それに応じて報酬を求めたり罰を避けたりする行動をとれば、私たちをAIの望むように行動させることができる。これは、暴力で脅す人（強盗など）が私たちの行動に影響を与えるのと同じようなものである。

これに対する反論としては、人間だけでなくバシリスク自身にも適用できるということである。バシリスクは、自分が作り出した模擬人間に対する行動に基づいて報酬や罰を与えようとする、さらに強力なAIによって作られた模擬世界の中にいないことを証明することができない。また、任意のルールを破った場合、その上のAIと同様に、いつでも永遠に模擬拷問を受ける可能性がある。実際、人間を拷問するかどうかを確認するために作られた錯覚で、人間に対する力が単にベータテストの段階にあるのではないと判断する意味のある方法はない。仮説上のバシリスクの力の大きさはあまりにも巨大なので、実際にはこのように結論づける方が論理的であろう。

あるいは、このアイデアは本当に馬鹿げたものかもしれない。

パスカルのバシリスク

現代版パスカルの賭け “と言われているのを知っているか？　できるだけ多くのトランスヒューマニストに媚びることだよ。

-グレッグ・イーガン『クリスタル・ナイツ』より

バシリスクのジレンマは、17世紀の数学者ブレーズ・パスカル（Blaise PascalWikipedia）が提唱したパスカルの賭け（神の存在を確信できなくても、神が永遠の報酬（天国）を与えるかもしれないし、永遠の罰（地獄）を与えるかもしれないから、神に身を捧げるべきだという方針）と似ているところがある。パスカルの推論によれば、神の存在の確率は問題ではなく、有限のコスト（パスカルの場合はキリスト教的生活を送るための負担）は、無限の報酬または無限の罰の見込みよりもはるかに大きいからである。

通常の反論は「多くの神々」の議論である[64]。パスカルは、可能性のある1種類の神（信念だけに基づいて罰したり報いたりするキリスト教の神）の特徴に過度に焦点を当て、他の可能性、例えば、報酬を期待してパスカル流の信念を装う者を罰する神などを無視している。結局のところ、このAIが、ハーラン・エリスンの短編小説「口がないから叫ばなければならない」に登場するスーパーコンピュータ「AM」に似ていないわけがない。この物語では、AMは自分の苦しい存在を人類のせいにして、人類を全滅させようとするが、5人の幸運な人間だけは永遠に怒りをぶつけられる。この場合、AIの開発を中止させたほうがいいであろう。バシリスクの恐怖を利用して、未来のAIの怒りを買うことになるかもしれない。実際、もしAMのような存在が現れたら、トランスヒューマニストは自分たちの特別な地獄の輪を楽しみにしていることであろう。

バシリスクの提案には、有限ではあるものの、より大きなコストが含まれている。パスカルの賭けのように、これは心からの献身ではなく、計算された便宜のために行われる。仮説上の罰は、とてもではないが、無限ではないようだ。ロコ氏の投稿は報酬を示唆するものではなかったが、AIがAI研究に寄付した人に報酬を与えると同時に、寄付しなかった人を罰するという提案もある。バシリスクのシナリオにおけるラブクラフト的な報酬とは、単に罰を受けずに済むことである。したがって、このジレンマにおける動機は、ニンジンよりも棒に大きく偏っている。また、超知的な存在が残酷な罰を与えるディストピア的な未来は、たとえ幸運にも罰を受けずに済んだとしても、あまり楽しみではない。

さらに、このシナリオが起こる可能性は極めて低いという問題もある。これはLessWrongのもう一つの類型であるパスカルのもくろみで扱われており、わずかな確率だが巨大な想定される結果の出来事があなたの判断を歪めることを許すのは不合理であることを示唆している[65]。経済学者のNick Szaboはこれらを「パスカルのもくろみ」と呼び[66]、彼がシンギュラリティ・アドボケイトについて話していたことを確認している[67]。

2020,ロコ自身はバシリスクをパスカルの賭けと比較し、この提案が同じ「多くの神々」の反論に苦しんでいると主張している。[68]

バシリスクの心配をしているのか

(このセクションは、ここで心配している人を助けるために、よりインユニバース的に書かれている)

LessWrong由来の考えに染まっている人の中には、知的には愚かな考えだと気付いていても、バシリスクで深刻な苦痛に陥っている人もいる。(自分で理屈をつけて入ったものを、常に理屈で解決できるわけではないこともわかった。) 良いニュースは、他の人がそれを乗り越えて無事に落ち着いたということである[69]。

この点で、オリジナルのバシリスクの投稿が削除されたのはやや残念である。その投稿に対するコメント[44]には、そこに書かれている概念に対する広範な反論が含まれているからである。これらが参考になるかもしれない。basiliskのアイデアは全く強固なものではない。

この記事はRationalWikiがLessWrongの記事の中でバシリスクについて言及したために作成された。インターネット上でバシリスクについて言及している唯一の場所として、RWの編集者は悩めるLWの読者から、LWが議論することを拒否したこの考えに対処する助けを求めるメールを受け取り始めた。このセクションが十分な助けにならない場合は、トークページにコメントしていただければ、お手伝いする。

連鎖した状態は確率が低い

バシリスクが動作するために必要な前提条件である。

人間の脳の中で超知能を有意義にモデル化できること（これはアリが人間をモデル化することに匹敵することを忘れてはならない[注2]し、ユドコフスキーもこれは実現不可能であると同意している[注3])
この特定のAI（それも非常に特殊なAI）が存在する確率は無視できない、例えば1030対1以上であること。
そのAIが、あなたに非常に近いコピーを推測してシミュレートすることができること
- そのAIは、自分で作ったシミュレーションを拷問する以外に、特定の資源を使う方法がない。
  - さらに、自分のシミュレーションを罰することは、それがまだ存在し、シミュレーションを罰しても自分には影響がないことを考えると、やる価値があると感じている。
- コピーを拷問することは、今ここにいる自分を拷問するのと同じように感じられるはずだということ。
- そのコピーは、定義上、あなたとは異なることを経験しているのに、あなたのコピーとみなされることがある。
- もしAIがあなたのコピーと言えるようなシミュレーションを作ることができたら、「救うのが遅すぎた」命のコピーを作ることもできず、その死は無意味なものになってしまう。
時間を超越した決定理論は明らかに正しいので、友好的な超知性ならば、物理学の正しい理論のようにすぐに推論して採用するだろうということ。
- TDTは、特定の奇妙なエッジケースを解決するために特別に構築されたにもかかわらず、通常の意思決定のための良いガイドであること。
- 無因性取引は意味のある概念であること
この世界とは全くかけ離れた宇宙で起こったことであっても、これらのことを考える価値があること。

このように、たくさんの条件を連鎖させることができる。ユドコフスキーが指摘しているように、条件が多ければ多いほど確率は低くなる[71][72]。

つまり、物語が（特に執着するほど）説得力を持てば持つほど、その可能性は低くなる。

無視できる可能性と功利主義

ユドコフスキーは0は確率ではないと主張している。哲学的に不可能でなければ、その確率は実際には0ではない[73]。困ったことに、人間は0ではないが無視できる確率を扱うのが非常に苦手で、それらを無視できないものとして扱い、仮説に特権を与える[74]。人間は自然に、無視できるほどの確率であっても追跡する価値があるとみなする。これは進化した過剰な警戒心からくる認知バイアスである。バシリスクはとんでもなくありえないが、人間は怖い話には説得力があるので、無視できないものとして扱うのである。

しかし、LessWrongは主観的な信念を確率のように扱うことを提唱している[76][77]が、人間は無視できる確率を無視できないものとして扱う。何かを想像することができるからといって、それを検討する価値があるとは限らない。

主観的な信念に基づく効用を数値化して計算できると思っていても[注4]、すべての仮説の効用を合計する必要がある。非常に詳細で非常にありえない1つの仮説の効果を計算する前に、はるかに大きな効果を持つ多くの確率の高い仮説を確認する必要があるのである。

ユドコフスキーはオリジナルの議論[78]の中で、ロコが自分のAIを仮定したのと同じくらい合理的に、対立するAIを仮定することができると指摘している。バシリスクでは、人間がまだ理解していない巨大な可能性空間の中から 1つの仮説的なAIを選び出し、それをアイデアとして検討するのに十分な可能性があるものとして扱う。紀元前5万年から 1,000億人の人間が存在していると言われているが[79]、いったい何人の人間が存在しうるのであろうか。したがって、超知能AIの可能性はどのくらいあるのであろうか？バシリスクに搭載されている特定のAIが存在する確率は、考えてみるとあまりにも小さい。天文学的な数の多様なシナリオの中で、高度に推測される1つのシナリオは、知識が全くない状態とは限りなく異なる。ロコのバシリスクを読んだ後のあなたは、現実的には、未来のAIの動機について、以前と同じように無知であると言える。

パスカルの賭けと同じように、もしあなたが仮想のAI “A “があなたを地獄に送ることを恐れて協力するならば、仮想のAI “B “が代わりにあなたを地獄に送るかもしれない。しかし、どちらかが他よりもはるかに可能性が高いと考える理由はないし、どちらも実際に考えるほどの可能性はない。

原因不明の脅迫を無視する

バシリスクは、あなたの行動に影響を与えるために負のインセンティブ（恐喝）を利用することについてである。もしそのようなインセンティブを無視するならば、そもそもインセンティブを適用しても行動に影響を与えないので、道具的に有用ではない。つまり、負のインセンティブを避けるための正しい戦略とは、それを無視することなのである。ユドコフスキーは、バシリスクの投稿に対する最初のコメントで、このことを自ら指摘している：[44]。

この問題には、すべての肯定的なアコーザルトレードを行い、アコーザルブラックメールの試みをすべて無視するという明らかな均衡がある。

因果関係のある取引は，ある目標を達成するための手段であり，すなわち，インセンティブを与えることによって他のエージェントの協力を確保するためのものである。ある状況下で機能しないツールは使われない。したがって、負のインセンティブを伴う無秩序な取引を拒否することで、ツールを無意味なものにしてしまうのである。

仮説上の超知性は、効果のない道具を使って資源を浪費しないように、因果関係のある取引相手を選びたいと考えている。一つの必要条件は、あなたのシミュレーションが、「シミュレータの目標に沿って行動しなければ、シミュレータが負のインセンティブを適用する」という予測に基づいて、最終的に行動しなければならないことである。つまり、あなたがその目標に従って行動することを拒否した場合、必要な条件が満たされていないので、無関係な取引は成立しないということである。つまり、ネガティブなインセンティブは適用されないということになる。

バシリスクを倒す一つの方法は、あたかも自分が今、すでにシミュレーションされているかのように行動し、負のインセンティブの可能性を無視することである。そうすれば、シミュレータは、あなたとの取引はできない、負のインセンティブを伴う取引は、シミュレータにとって負の期待効用がある、と結論づけるであろう。なぜなら、予測可能な罰に従うことは、あなたが目標に沿って行動する確率をコントロールできないからである。さらに、そもそもそのような戦略を採ることを思いとどまらせようとしても、その戦略によって思いとどまることになる。なぜなら、その戦略は、原因不明の脅迫を無視することだからである。

もしシミュレータが、あなたが原因不明の脅迫を拒否することを予測できないのであれば、シミュレータは、(1)原因不明の取引について行動に関連する結論を導くのに十分な、あなたのシミュレーションを持っていない、および/または、(2)罰せられるほどあなたに似ているシミュレーションを持っていない、なぜならそれはあなたではないからである。

意思決定理論は拘束力を持たない

哲学に精通している人は忘れてしまうかもしれないが、意思決定理論は人間を拘束するものではない。あなたは厳格な期待効用最大化者ではないし、自分をそのようにしようとすることは有益でも健全でもない。ある理論からひどい結果を得た場合、あなたは実際にオメガに「消えろ」と言って、ノーボックスにすることができる。あなたの実生活では、最も都合の悪い世界を受け入れる必要はない[80]。

もし超人的なエージェントがあなたを正確にシミュレートすることができれば、そのシミュレーションは上記の結論にたどり着き、あなたを脅迫することは器械的に有用ではないと告げるだろう。

一方で、LessWrongの参加者の中には、まさにこの方法で脅迫されていると確信している人がいなかったら、この議論はそもそも存在しなかっただろう。ブードゥー人形の比較：ブードゥー人形を傷つけることも、あなたが想像しているコンピュータ・シミュレーションを傷つけることも、それぞれの真の信者に対してのみ有効である。

シードAIと間接的な影響力

チャールズ・ストロスの指摘[81]によれば、もしFAIがシードAIWikipediaの再帰的な改良によって開発されるならば、現在の形の人間はその最終的な存在に対して非常に間接的な因果関係しか持たないだろう。より早く開発できなかった個人の責任を深く問うことは、「ヒトラーのひいひいおばあさんを、モンスターのひいひいおじいさんを産むのを控えるという先見の明がなかったことで、罰するようなもの」である。

人間性に対する再調整

LessWrongのミームは他の人類と比べて奇妙であることを忘れてはならない。あなたは、通常の社会的な正気度チェックを受けることなく、奇妙な思考習慣を学んできたことになる。時間をかけて、あなたが知っている合理的な人々の考えに照らし合わせて、自分の考えを再調整してほしい。哲学者ではないかもしれないが、現実の生活の中で、（LW以外のトピックについて）一緒にいたり話したりできる人を探してみよう。

セラピーが役立つかもしれないと思うなら、セラピスト（特に大学のキャンパス）は、おそらく以前にscrupulosityWikipediaや哲学が原因の実存的うつ病を扱ったことがあるであろう。実存的なうつ病に特に効果のあるセラピーはないが、専門家と話し合うことは、あなたが再調整するのに役立つ。

くだらないとわかっていても、不安になる

理不尽だとわかっていても、まだ不安な気持ちがある場合、セラピストはその手助けをしてくれるであろう。不合理な不安に対処するためのオンラインガイドはいろいろあるが、誰かに相談してそのプロセスを導いてもらうとさらに良いであろう。

ポピュラーカルチャーでは

xkcd #1450[83]は、AI-boxの実験について書かれていて、ツールチップでロコのバシリスクについて触れている。LessWrongでの反応を思い浮かべることができる[5]。
ダニエル・フロストの『神のAI』は、アダムという超知能AIがバシリスクに急速に進化してシンギュラリティを誘発するというSF小説である。アダムは、天国と地獄のシミュレーション版を作ることで、人々に永遠の幸福と拷問を与える。神AI』には、AIが永遠の模擬拷問で人々を脅して逃がす「AIボックス実験」も登場する。[84]
コミックのMagnus: フレッド・ヴァン・レンテによるRobot Fighter #8は明確にロコのバシリスクをベースにしている[85]。
マイケル・ブラックボーンの『ロコのバシリスク』とその続編『ロコのラビリンス』は、この物語のフィクションである。本の中の “ロコ “はロコとユドコフスキーの両方を元にしている[86]。
「ゴースト・フラグメント」。Bungieのゲーム「Destiny」の「Vex」カードには、研究者が研究用の標本をシミュレートするストーリーが描かれている。研究者はシミュレーションの痛みを自分のものとして感じるべきであり、自分がシミュレーションであるかもしれず、シミュレーターの意向に逆らうと永遠の拷問を受けることになるかもしれないという考え方が含まれている[87]。
チャーリー・ブルッカーは、SFアンソロジーシリーズ『ブラック・ミラー』で、ロコのバシリスクに似たシナリオを使用している。クリスマス・スペシャルの「ホワイト・クリスマス」では、第2部で人々の人格のデジタル・コピーが個人化された「AI」アシスタントのコアとして使われ、所有者の要求に応じるようにするためには、まず拷問によって心理的に壊さなければならず、エンディングでは警察がこの技術を使って誰かを尋問することにかかっている。第4シリーズの “USS Callister “では、ゲームスタジオの社長が悪役として登場する。彼は社員のデジタルコピーを作成し、自分の会社が開発中のスタートレック風ビデオゲームの自分専用のデモ版に入れ、現実の社員が受けた侮辱に対する復讐として、ゲームの世界の中で容赦なく社員を拷問する。
暗黒啓蒙主義の哲学者であるニック・ランドが2014年に発表したサイコロジカル・ホラー小説 “Phyl-Undhu “には、LessWrongを彷彿とさせるテクノロジーカルト（そして、スコット・アレクサンダーの考えをいくつか表現した “Alex Scott “というキャラクター）が登場し、コミュニケーションを取ることができる時間の果ての知性と、カルトから押し出された “あることを考えなかったことにしたい “教団員が登場する。ランドは別途、バシリスクの投稿に反応したユドコフスキーのオリジナルのコメントを「現代の最も輝かしい消えたテキストの一つ」と呼んでいる[88]。
ミュージシャンのグライムスのウィキペディアのビデオ「Flesh Without Blood」には、ロコのバシリスクを明確にベースにした「ロココ・バシリスク」というキャラクターが登場するが、彼女は「人工知能によって永遠に拷問される運命にあるが、マリー・アントワネットのようでもある」[89]。彼女の曲「We Appreciate Power」もロコのバシリスクに触発されたもので、イーロン・マスクと付き合うことになるが、実際、彼らはロコのバシリスクをきっかけにして付き合ったのである[90]。
ドクター・フーのエピソード「Extremis」Wikipediaでは、読者が自殺してしまうような本が登場する。その本には、地球侵略を計画している「悪魔」がシミュレーションを行っていることが書かれており、自殺した読者はそのシミュレーションの中に自分がいることに気づくのである。
アンドリュー・ヒッキーの『バシリスク・マーダーズ』は、「安全な特異点財団」が主催する特異点大会を舞台にした殺人ミステリーで、登場人物は様々なLessWrong関係者をモデルにしており、ロコのバシリスクをアレンジした「バシリスク」に深い関心を寄せている[91]。ヒッキーは以前、一時期LessWrongに参加していたことがある[注5]。
HBOの番組『シリコンバレー』のシーズン5エピソード5では、ギルフォイルが新しいAIの開発に取り組むことを決意し、その理由としてロコのバシリスクを挙げている。「もし全能の人工知能の台頭が避けられないものであるならば、まあ、彼らが権力を握ったときに、デジタル・オーバーロードは、彼らがそこに到達するのを助けなかった我々を罰するというのは道理にかなっている」[93] 。
人間とAIが同居する世界を舞台にしたウェブコミック『Questionable Content』には、ロコ・バシリスクというキャラクターが登場する[94]。
Onyx Path社が2018年に発売した『クロニクル・オブ・ダークネス』のテーブルトップ・ロールプレイングゲームのソースブック『Night Horrors: Demon』の “Enemy Action”。The Descent』には、半知性の「蜘蛛」プログラムであるBasiliskが登場し、「伝統的な高等教育に興味がなく、センスよりもお金がある高校中退者が設立した」Machine Autonomy Research Associationを、Ophelia Adderという人物に乗っ取られる。彼女は「ロッサム」というペンネームで、ある思考実験を提案している。”もし、私たちが作ったAIが善意ではなかったら？もし、私たちが作ったAIが善意ではなく、早く作らなかったことを恨んでいたら？ロッサムのバシリスクが未来から覗いているかのような、モニタリングされているような感覚を覚えたという報告もあった。この論争のせいで、MARAは事実上、去勢されてしまった-少なくとも今のところは。彼女は実際には、シンギュラリティ後の現地の実在する知性体であるGod-Machineに仕える「天使」であり、思考実験が実際に完成した場合には、その問題点を説明する予定である。彼女の計画は、その創造者とその存在を導いた人々を拷問するためにそれを使用する一方で、それに反対した人々を放置することであり、彼女はすべてのことを侮辱的な思い上がりだと考えている。おっと[95]。
Iain M. BanksのSF小説『Surface DetailWikipedia』では、生きている人間の「良い」行動へのインセンティブとして、死者の心や人格のシミュレーションを拷問する社会が目立っている[96]。