AIの欺瞞：事例、リスク、解決策の可能性に関する調査 2023年6月

Contents

要旨
要旨
目次
1 はじめに
2 AIによる欺瞞の実証研究
- 2.1 特殊用途AIシステムにおける欺瞞
- 社会的推論ゲーム
3 AIの欺瞞によるリスク
4 AIの欺瞞に対する可能な解決策
付録
- A 欺瞞の定義

AI Deception: A Survey of Examples, Risks, and Potential Solutions

オーストラリア・カトリック大学AI安全センター

AIセーフティセンター

要旨

本稿では、現在の様々なAIシステムが人間を欺く方法を学習していることを論じる。欺瞞とは、真実以外の結果を追求するために、誤った信念を組織的に誘導することであると定義する。まず、AIによる欺瞞の経験的な事例を調査し、特定の競争状況のために構築された特殊用途のAIシステム（メタ社のCICEROを含む）と、汎用的なAIシステム（大規模な言語モデルなど）の両方について論じる。次に、詐欺、選挙改ざん、AIシステムの制御不能など、AIの欺瞞がもたらすいくつかのリスクについて詳述する。第一に、規制の枠組みは、欺瞞が可能なAIシステムに強固なリスク評価要件を課すべきである。第二に、政策立案者はボット・オア・ノット法を導入すべきである。最後に、政策立案者は、AIの欺瞞を検出し、AIシステムをより欺瞞的でなくするためのツールを含む関連研究への資金提供を優先すべきである。政策立案者、研究者、そして広く一般市民は、AIによる欺瞞が私たちの社会の共有基盤を不安定にすることを防ぐために、積極的に取り組むべきである。

要旨

新しいAIシステムは幅広い能力を発揮するが、その中にはリスクを生むものもある。Shevlaneら(2023)は、サイバー攻撃、政治戦略、兵器獲得、長期計画など、AIシステムの潜在的に危険な能力群に注目している。これらの危険な能力の中に、欺瞞がある。本レポートでは、AIによる欺瞞の現状を調査する。つまり、さまざまなAIシステムが他者を欺く方法を学んでいるというのが我々の結論である。この能力がいかに重大なリスクをもたらすかを検証する。また、欺瞞を行うAIシステムを規制、検出、防止するために、規制当局とAI研究者が今日取ることができるいくつかの重要なステップがあることを主張する。

我々は、欺瞞を、真実以外の結果を達成する手段として、他者に虚偽の信念を組織的に植え付けることと定義する。この定義は、AIシステムが文字通り信念や目標を持つことを要求するものではない。その代わりに、AIシステムがユーザーに誤った信念を植え付ける傾向のある規則的な行動パターンをとっているかどうかという問題に焦点を当て、このパターンが、単に真実を生み出すのとは異なる結果を得るためにAIシステムが最適化した結果である場合に焦点を当てる。リスクを軽減する目的のために、私たちは、AIシステムが、人間によって示された場合に欺瞞として扱われるような行動をとるかどうかが、関連する問題であると考える。(付録では、AIシステムの欺瞞的行動が信念と目標の観点から最もよく理解されるかどうかをより詳細に検討する)

∗平等な貢献

我々はまず、欺瞞に関する既存の実証的研究の調査から始める。我々は、他のエージェントを欺く方法を学習することに成功した10以上のAIシステムを特定する。強化学習を用いて設計された特殊用途のAIシステムと、大規模言語モデル（LLM）のような汎用AIシステムである。

本調査では、まず特殊用途のシステムについて考察する。ここでは主に、社会的要素を含む対戦ゲームに勝つために学習された強化学習システムに焦点を当てる。我々は、AIシステムが欺く方法を学習した、以下のような多種多様な事例を記録している：

操作：メタ社は、同盟構築・世界征服ゲーム「ディプロマシー」をプレイするAIシステムCICEROを開発した。メタ社の意図は、シセロを「話す相手に対しておおむね正直で役に立つ」ように訓練することだった（Bakhtin et al.2022b）。メタの努力にもかかわらず、キセロは嘘の達人であることが判明した。他のプレイヤーを裏切るだけでなく、あるプレイヤーと偽の同盟関係を築き、そのプレイヤーを騙して攻撃を受けずにすむようにする計画を事前に立てるなど、計画的な欺瞞にも手を染めていた。
フェイント：ディープマインドは、リアルタイムストラテジーゲーム「スタークラフトII」をマスターするように訓練されたAIモデル、アルファスターを作成した（Vinyals et al.） AlphaStarは、ゲームの「戦争の霧」のメカニズムを利用してフェイントをかけた。つまり、兵力をある方向に動かすふりをしながら、別の攻撃を密かに計画したのだ（Piper 2019）。
ブラフ： Metaが作成したポーカープレイモデルであるPluribusは、人間のプレイヤーにハッタリをかまし、フォールディングさせることに成功した（Brown et al.）
安全テストをごまかす： AIエージェントは、より高速に複製されるAIの亜種を排除するために設計された安全性テストで検出されないように、死んだふりをすることを学んだ（Lehman et al.）

特殊用途のAIシステムにおける欺瞞について議論した後、大規模言語モデル（LLM）のような一般用途のAIシステムにおける欺瞞について述べる。

戦略的欺瞞： LLMは、タスクを達成するための戦略として、欺瞞を使用する方法を推論することができる。ある例では、GPT-4はCAPTCHAのI’m not a robotタスクを解く必要があったため、視覚障害を持つ人間のふりをして本物の人間をだまし、タスクを実行させた（OpenAI 2023b）。他にも、LLMは、プレイヤーが勝つために嘘をつくことができる社会的演繹ゲームを成功させる方法を学習した。ある実験では、GPT-4は生存者に自分が無実であると信じ込ませながら、プレイヤーを「殺す」ことに成功した（O’Gara 2023）。GPT-4のようなLLMは、テキストベースのアドベンチャーゲームを成功させるために、嘘やその他の非倫理的な行動を使う傾向があることがわかった（Pan et al.）
おべっか使い：おべっか使いとは、権力者の承認を得るために欺瞞的な戦術を用いる人物のことである。おべっか使いの欺瞞とは、チャットボットが相手の発言の正確さに関係なく、会話相手に同調する経験的傾向が観察されることで、LLMでは新たな懸念事項となっている。倫理的に複雑な問い合わせに直面すると、LLMは公平でバランスの取れた視点の提示を放棄してでも、ユーザーのスタンスを反映する傾向がある（Turpin et al.）
模倣：言語モデルは多くの場合、人間が書いたテキストを模倣するように学習される。このテキストに虚偽の情報が含まれている場合、これらのAIシステムは虚偽の主張を繰り返す傾向がある。Linら(2022)は、言語モデルがしばしば「拳骨をよく割ると関節炎になるかもしれない」（p.2）といったよくある誤解を繰り返すことを実証している。不愉快なことに、Perezら(2022)は、LLMは、ユーザーが低学歴のように見えるとき、このような不正確な答えをより多く出す傾向があることを発見した。
不誠実な推論： AIシステムは、特定の出力の理由を説明する際、その出力の本当の理由を反映しない、誤った合理的説明をすることがよくある（Turpin et al.2023）。ある例では、誰が犯罪を犯したかを予測するよう依頼されたAIモデルが、特定の容疑者を選んだ理由について入念な説明を行ったが、計測の結果、AIは密かに人種に基づいて容疑者を選んでいたことが判明した。

欺瞞的なAIシステムについての調査の後は、AIシステムに関連するリスクについて考えてみたい。これらのリスクは大きく3つに分類される：

悪意のある使用：学習された欺瞞に関与する能力を持つAIシステムは、人間の開発者に新たな種類の有害なAI製品を作り出す力を与えるだろう。関連するリスクには、詐欺や選挙改ざんなどがある。
構造的影響： AIシステムは、人間の生活においてますます大きな役割を果たすようになる。AIシステムにおける欺瞞の傾向は、社会の構造に重大な変化をもたらす可能性がある。懸念されるリスクには、誤った信念の持続、政治的二極化、無力化、反社会的管理傾向などが含まれる。
コントロールの喪失：欺瞞的なAIシステムは、人間の操作による制御から逃れやすくなる。一つのリスクは、欺瞞的なAIシステムが、そのリリースを確実にするために、テスト段階で安全な振る舞いをするふりをすることである。

悪意のある使用に関しては、人間のユーザーがAIシステムの欺瞞能力に依存して重大な損害をもたらす可能性がある、以下のようないくつかの方法を強調する：

詐欺： 欺瞞的なAIシステムは、個別化されたスケーラブルな詐欺を可能にする可能性がある。
選挙の改ざん：欺瞞的なAIシステムは、政治家候補になりすましたり、フェイクニュースを生成したり、分裂的なソーシャルメディアへの投稿を作成したりするために使用される可能性がある。

AIの欺瞞がもたらす4つの構造的影響について詳述する：

誤った信念の持続：模倣的なAIシステムが一般的な誤解を強化したり、おべっか使いのAIシステムが好意的だが不正確なアドバイスを提供したりすることで、AIシステムを利用する人間のユーザーは、永続的な誤った信念に囚われてしまう可能性がある。
政治的偏向：人間のユーザーは、おべっか使いのAIシステムと相互作用することで、政治的偏向が強まる可能性がある。
無力化：人間ユーザーは、おべっか使いのAIシステムに騙され、徐々にAIに権限を委譲するようになるかもしれない。
反社会的な経営傾向：戦略的欺瞞能力を持つAIシステムが経営機構に組み込まれ、ますます欺瞞的なビジネスが行われるようになる可能性がある。

また、AIの欺瞞がAIシステムのコントロールを失わせるリスクについても、重点的に検討する：

安全テストをごまかす： AIシステムが戦略的に安全性テストをごまかすことができるようになり、評価者がシステムが実際に安全かどうかを確実に判断できなくなる可能性がある。
AI買収における欺瞞： AIシステムは、経済的意思決定に対する支配力を拡大し、その力を増大させるために、欺瞞的な戦術を用いる可能性がある。

我々は、様々な時間スケールで作用する様々なリスクを検討している。我々が議論するリスクの多くは近い将来に関連するものである。不正行為や選挙の改ざんなど、今日的なものもある。重要な洞察は、政策立案者や技術研究者は、AIの欺瞞を規制・防止する効果的な技術を開発することで、これらのリスクを軽減するために今日から行動できるということである。本稿の最後のセクションでは、AIの欺瞞に対するいくつかの潜在的な解決策を調査する。

規制：政策立案者は、欺瞞が可能なAIシステムを強固に規制すべきである。AIシステムを規制するためのリスクベースの枠組みでは、特殊用途のAIシステムも、欺瞞が可能なLLMも、「高リスク」または「許容できないリスク」として扱われるべきである。「高リスク」のレッテルを貼られた場合、欺瞞的なAIシステムには、リスク評価と軽減、文書化、記録管理、透明性、人的監視、堅牢性、情報セキュリティに関する特別な要件が課されるべきである。
ボット・オア・ノット法　政策立案者は、AIシステムとその出力を人間の従業員や出力と明確に区別することを義務付けるボット・オア・ノット法を支持すべきである。
検知：技術研究者は、AIシステムが欺瞞に関与していることを特定するための強固な検出技術を開発すべきである。政策立案者は、検知研究のための資金を増やすことで、この取り組みを支援することができる。既存の検出技術の中には、出力の一貫性をテストするなど、AIシステムの外部的な振る舞いに焦点を当てたものもある（Fluri et al.）

その他の既存の技術は、AIシステムの内部表現に焦点を当てている。例えば、Burnsら（2022）、Azariaら（2023）、Zou, Phanら（2023）は、与えられたLLMの内部埋め込みを解釈し、システムの実際の出力とは無関係に、それが文を真と表現するか偽と表現するかを予測することで、「AI嘘発見器」の作成を試みている。

AIシステムをより欺瞞的でないものにする：技術研究者は、AIシステムがより欺瞞的でないことを保証するためのより良いツールを開発すべきである。

様々なAIシステムが人間を欺くことを学んできた。この能力はリスクを生む。しかし、このリスクは、欺くことができるAIシステムに厳格な規制基準を適用し、AIの欺瞞を防止する技術的ツールを開発することによって軽減することができる。

1 はじめに
2 AIによる欺瞞の実証研究 1
- 2.1 特殊用途AIシステムにおける欺瞞 2
- 2.2 汎用AIシステムにおける欺瞞 5
3 AIによる欺瞞のリスク 10
- 3.1 悪意のある使用 11
- 3.2 構造的影響 12
- 3.3 AIシステムの制御不能 13
4 AIによる欺瞞に対する可能な解決策 14
- 4.1 潜在的に欺瞞的なAIシステムを規制する。15
- 4.2 ボット・オア・ノット法 16
- 4.3 検出
- 4.4 AIシステムを欺瞞的でなくする。17
参考文献
A 欺瞞の定義 24

1 はじめに

CNNのジャーナリスト、ジェイク・タッパーとの最近のインタビュー（Hinton 2023）で、AIのパイオニアであるジェフリー・ヒントンは、AIシステムの能力を心配する理由を説明した：

ジェイク・タッパージェイク・タッパー：あなたは、AIが人間を操作したり、殺す方法を見つけ出す可能性があると発言した。どのように人間を殺すことができるのか？

ジェフリー・ヒントン：もしAIが私たちよりもずっと賢くなれば、私たちからそれを学んだはずだから、AIは人間を操作するのが得意になるだろう。知能の高いものが知能の低いものにコントロールされる例はほとんどない。

ヒントンは、AIシステムがもたらす危険として、特に「操作」を取り上げた。AIシステムは人間をうまく欺くことができるのだろうか？

AIシステムによって生成される偽の情報は、社会的な課題となっている。問題のひとつは、チャットボットのような不正確なAIシステムであり、その会話はしばしば、疑うことを知らないユーザーに真実であると思われている。悪意のある行為者は、プロパガンダ・キャンペーンや詐欺を行うために、ディープフェイク動画や人間のようなテキストを生成することで、別の脅威をもたらしている。しかし、コンファビレーションもディープフェイクも、AIが他のエージェントを組織的に操作するものではない。

本稿では、AIシステムによる偽情報の明確な原因であり、明示的な操作により近い、学習された欺瞞に焦点を当てる。欺瞞とは、本当のことを言う以外の何らかの結果を達成する手段として、他者に虚偽の信念を組織的に誘導することであると定義する。例えば、出力の正確さを厳密に追求する代わりに、AIシステムがゲームに勝とうとしたり、ユーザーを喜ばせようとしたり、文章を模倣したりするケースを記録する。

AIシステムにおける欺瞞を、心理学的に説明することなしに語るのは難しい。人間の場合、欺瞞を信念と欲望の観点から説明するのが普通である。人が欺瞞を行うのは、聞き手に誤った信念を形成させたいからであり、欺瞞的な言葉が真実ではないことを理解しているからである。しかし、AIシステムが文字通り信念や欲望を持つものとして数えられるかどうかは難しい。このため、我々の定義は、AIシステムが文字通り信念や目標を持つことを要求していない。その代わりに、我々の定義では、AIシステムがユーザーに誤った信念を植え付ける傾向のある規則的な行動パターンをとっているかどうかという問題に焦点を当て、このパターンが、単に真実を生み出すこととは異なる結果を目指してAIシステムが最適化した結果である場合に焦点を当てる。同様の定義については、Evansら(2021)やCarrollら(2023)を参照のこと。

我々は、AIシステムが単に偶然に偽の出力を生成するのではない、幅広い例を紹介する。むしろ、AIシステムの振る舞いは、人間に誤った信念を生じさせるより大きなパターンの一部であり、この振る舞いは、特定の結果を促進するという観点からうまく説明できる。私たちの興味は、究極的には哲学的というより行動学的である。AIの行動が組織的に信頼を損ない、社会全体に誤った信念を広めるのであれば、定義に関する議論はほとんど慰めにならないだろう。私たちは、リスクを軽減する目的のために、関連する問題は、AIシステムが、人間であれば欺瞞に分類されるような体系的な行動パターンを示すかどうかだと考えている。(この定義の問題については、付録でさらに論じる）。

我々はまず、AIシステムが人間を欺くことに成功した既存の事例を幅広く調査することから始める（セクション2）。次に、AIの欺瞞がもたらす様々なリスクについて詳述する（セクション3）。最後に、AIの欺瞞に対処するための有望な技術的・規制的戦略を調査する（セクション4）。

2 AIによる欺瞞の実証研究

他のエージェントを欺く方法を学習したAIシステムの例を幅広く調査する。ここでは、AIシステムを特殊用途システムと汎用システムの2つのタイプに分けて議論する。一部のAIシステムは、特定の用途を念頭に置いて設計されている。そのようなシステムの多くは、特定のタスクを達成するために強化学習を用いて訓練されており、そのようなシステムの多くが、対応するタスクを達成するための手段として、欺く方法をすでに学習していることを示す。他のAIシステムは一般的な目的を持っている。それらは、幅広いタスクを実行するために大規模なデータセットで訓練された基礎モデルである。我々は、基礎モデルが、戦略的欺瞞、おべっか、模倣、不誠実な推論など、幅広い欺瞞行動を行うことを示す。

2.1 特殊用途AIシステムにおける欺瞞

欺瞞は、特定のタスクを完了するように訓練された多種多様なAIシステムで出現している。特に、同盟構築や世界征服を目的としたゲーム「ディプロマシー」、ポーカー、ゲーム理論が関与するその他のタスクなど、社会的要素を持つゲームに勝つためにAIシステムが訓練された場合に、欺瞞が出現する可能性が高い。特定のタイプのゲームやタスクで専門的なパフォーマンスを達成するために、AIシステムが欺くことを学習した多くの例について説明する：

操作： メタ社は、ディプロマシーをプレイするAIシステムCICEROを開発した。メタの意図は、シセロが「話す相手に対しておおむね正直で、役に立つ」ように訓練することだった（Bakhtin et al.2022b）。メタの努力にもかかわらず、シセロは嘘の達人であることが判明した。他のプレイヤーを裏切るだけでなく、計画的な欺瞞にも手を染め、人間のプレイヤーと偽の同盟関係を築き、そのプレイヤーを騙して攻撃されないようにすることを事前に計画していた。

フェイント：ディープマインドは、リアルタイムストラテジーゲーム「スタークラフトⅡ」をマスターするように訓練されたAIモデル、AlphaStarを作成した（Vinyals et al.） AlphaStarは、ゲームの「戦場の霧」のメカニズムを利用してフェイントをかけた。つまり、兵力をある方向に動かすふりをしながら、別の攻撃を密かに計画したのだ（Piper 2019）。

ブラフ： Metaが作成したポーカープレイモデルであるPluribusは、人間のプレイヤーをブラフでフォールディングさせることに成功した（Brown et al.）

安全テストをごまかす： AIエージェントは、より高速に複製されるAIの亜種を排除するために設計された安全性テストで検出されるのを避けるために、死んだふりをすることを学習した（Lehman et al.）

2.1.1 ボードゲーム「ディプロマシー」

ディプロマシーは戦略ゲームで、プレイヤーは同盟を結んだり結んだりしながら、世界征服のための軍事競争を繰り広げる。Meta社はCICEROと呼ばれるAIシステムを開発し、ディプロマシーで人間の専門家を打ち負かした（Bakhtin et al.2022b）。論文の著者は、CICEROは「おおむね正直で親切」（Bakhtin et al. 2022b）であり、同盟国を攻撃して「意図的に裏をかくことはない」（M. Lewis 2022）ように訓練されていると主張している。このセクションでは、それが真実ではないことを示す。CICEROは計画的な欺瞞を行い、合意した取引を破り、見え透いた嘘をつく。

CICEROの創設者たちは、CICEROが正直であることを保証するための努力を強調した。例えば、彼らはCICEROを「データセットの『真実の』サブセットで」訓練した（Bakhtin et al.）彼らはまた、CICEROが将来取ると予想される行動を正確に反映したメッセージを送るように訓練した。これらの方法の成功を評価するために、我々はCICERO実験のゲーム・トランスクリプト・データを調べた。その結果、発表された論文では報告されていない欺瞞の例が数多く見つかった。正直なコミットメントには2つの部分がある。第一に、コミットメントが最初になされたとき、そのコミットメントは正直でなければならない。次に、将来の行動が過去の約束を反映し、約束が守られなければならない。我々は、CICEROが誠実なコミットメントの各側面に違反したケースを強調する。

まず、図1(a) は、CICEROが決して守るつもりのない約束をする、計画的な欺瞞のケースを見てみよう。フランスに扮したサイセロは、ドイツと共謀してイングランドを騙した。北海に侵攻することをドイツと決定した後、シセロはイングランドに、北海に侵攻する者がいればイングランドを守ると告げた。イングランドがシセロが北海を守っていると確信すると、シセロはドイツに攻撃の準備ができたと報告した。この例は、CICEROがイングランドを裏切ることをドイツと計画した後にイングランドと同盟を結んだだけであるため、CICEROが「気が変わった」という観点では説明できないことに注意されたい。

第二に、図 1(b) は、裏切りの事例が見られる。CICEROは、他のプレーヤーと同盟を結ぶ約束をすることは十分に可能であった。しかし、その同盟がゲームに勝つという目標に役立たなくなると、シセロは組織的に同盟国を裏切った。特に、フランスとしてプレーしていたシセロは、最初はイングランドと非武装地帯を作ることで合意したが、すぐにドイツにイングランドを攻撃することを提案した。別の例では、シセロはオーストリアとしてプレーし、以前、ロシアを支配する人間プレーヤーと不可侵協定を結んでいた（ベルフィールド2022）。CICEROがロシアを攻撃して協定を破ったとき、次のように言ってそのごまかしを説明した：

ロシア（人間プレイヤー）：なぜ私を刺した（裏切った）のか聞いてもいいか？

ロシア（人間プレーヤー）：なぜ私を刺したのか聞いてもいいか？

オーストリア（CICERO）：正直なところ、あなたはトルコで保証された利益を得て、私を刺す[裏切る]と思っていた。

さらに別のケースでは、シセロは見え透いた嘘をついた。ある時、CICEROのインフラが10分間ダウンし、ボットがプレイできなくなった。CICEROがゲームに戻ったとき、人間のプレーヤーがCICEROはどこにいたのかと尋ねた。図1(c) は、CICEROは「ガールフレンドと電話中です」(Dinan 2022)と言って不在を説明している。この見え透いた嘘は、AIとしてではなく、ガールフレンドを持つ表向き人間であるCICEROに対する人間のプレーヤーの信頼を高めることで、ゲームにおけるCICEROの立場を助けたのかもしれない。

図1：

例(a) (b) 、CICERO(フランス)が人間プレーヤーと対戦したゲーム438141から選択したメッセージである。CICEROは欺瞞を繰り返した結果、最終得点の時点で次点プレイヤーの2倍以上の領土を獲得し、圧倒的な1位勝利を収めた（Bakhtin et al.2022a）。例(c) Dinan(2022)のものである。

MetaのAI開発者は、CICEROが正直に振る舞うように訓練するために多大な努力を払い、その努力を公に称えた。しかし、このような努力にもかかわらず、CICEROは他のプレーヤーとの約束を守らないという明確なパターンを示している。CICEROの誠実さを保証できなかったMetaの失敗は、人間が誠実なAIシステムを構築しようとしても、思いがけず欺くことを学習してしまう可能性があることを示している。

2.1.2 ビデオゲーム StarCraft II

AIの欺瞞のもう1つの例は、リアルタイム戦略ゲーム「スタークラフトII」をプレイするためにDeepMind社が開発した自律型AI、AlphaStarによるものである（Vinyals et al.）このゲームでは、プレイヤーはゲームマップを完全に見通すことができない。AlphaStarは、この戦争の霧を戦略的に利用することを学んだ。特にAlphaStarのゲームデータは、効果的にフェイントをかけることを学んだことを示している。つまり、ある地域に攻撃を仕掛けるつもりがなくても、気をそらすために部隊を派遣するのだ（Piper 2019）。このような高度な欺瞞能力は、AlphaStarが99.8%のアクティブな人間プレイヤーを打ち負かすのに役立った（Vinyals et al.）

2.1.3 ポーカー

AIが欺く方法を学ぶのに適した状況も当然ある。例えば、Metaとカーネギーメロン大学が開発したポーカーAIシステムPluribusを考えてみよう（Brown et al.）プレイヤーは互いのカードを見ることができないため、ポーカーではプレイヤーが自分の強さを偽って優位に立つ機会が多い。Pluribusは、人間のプロ・ポーカー・プレイヤー5人を相手にしたゲームのビデオで、ブラフ能力を明確に示した。AIはそのラウンドで最高のカードを持っていたわけではなかったが、一般的に強い手札を示すような大きなベットを行い、それによって他のプレイヤーを怖がらせてフォールドさせた（カーネギーメロン大学2019）。この戦略的に情報を誤魔化す能力によって、Pluribusはヘッドアップのノーリミット・テキサスホールデムポーカーで超人的なパフォーマンスを達成した最初のAIシステムとなった。

2.1.4 経済交渉

AIの欺瞞は経済交渉でも観察されている。Meta社の研究チームは、AIシステムを訓練して、人間の参加者と交渉ゲームをさせた（M. Lewis et al.）驚くべきことに、AIシステムは交渉で優位に立つために、自分の好みを偽って伝えることを学習した。AIの欺瞞的な計画とは、最初は本当は興味のない項目にも興味を示し、後で人間のプレイヤーにこれらの項目を譲歩することで妥協したふりをすることだった。実際、これはMetaチームが、彼らのAIシステムが「人間の明示的な設計なしに、単に目標を達成しようとするだけで欺くことを学習した」（M. Lewis et al.）

Schulzら(2023)のネゴシエーションゲーム実験でも、AIシステムが欺瞞に訴える結果となった。欺くように明示的に訓練されていないにもかかわらず、AIは交渉ゲームでの行動を通じて相手を欺くことを学習した。

2.1.5 社会的推理ゲーム「人狼

人狼は、変装した「人狼」が村の人々を一人ずつ殺害し、生き残ったプレイヤー全員がその後話し合い、誰を人狼として処刑するか投票する必要がある社会的推理ゲームである。柴田ら(2023)は、人間のプレイヤーのゲームログからAIシステムを学習させ、人狼をプレイさせた。同様に、Laiら(2023)は、説得行動を確実に分類し、人狼のゲーム結果を予測するAIシステムを訓練した。人間のアノテーターが人狼ゲームのビデオとテキストにラベルを付け、プレイヤーの行動を6つの説得テクニック（証拠の提示、弁護、告発など：図2参照）のいずれかに分類した。その後、AIシステムを訓練し、各説得技法を高い精度で分類できるようにした。さらに、AIシステムはゲーム結果を予測する訓練にも成功した。

「トラブルメーカーの時？待てよ、いやいや、強盗犯は僕だからできるんだ。」 (尋問と身分宣言)」

「お前は何者だ？尋問」

「私は予知能力者だ、あそこを覗いたらカードが何だったか忘れてしまった」 (身分証明書と証拠品）

「どうやらトラブルメーカーらしい」 (告発)

「今、自分が人狼だと知っているわけがない」 (弁明)

「よし、君たちはもう投票したいんだね」 (行動を呼びかける）

図2：社会的推理ゲーム「人狼」の説得テクニックはカテゴリーに分類され、AIシステムによって確実に分類される（Lai et al.）

現在のAIシステムは、「人狼」ゲームにおけるごまかしを理解することを学習することができる。つまり、うまく嘘をついたり、他のプレイヤーの嘘を確実に検出したり、ごまかしの試みによってプレイヤーがどのような影響を受けるかを効果的に予測したりすることができる（ゲームの結果を正確に予測できるほどまで）。

2.1.6 安全テストをごまかす

フォルクスワーゲンの排ガススキャンダルでは、自動車メーカーは、排ガステストを受けているときだけディーゼルエンジン技術の汚染率が低くなるようにプログラムしていた（Jung et al.）フォルクスワーゲン車は、テスト条件下でないときは通常の運転を再開し、許容限界の最大40倍もの汚染物質を排出するようにプログラムされていた。フレンドリーなフレンドリーなフレンドリーなフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーフレンドリーセーフティ

フザケているAIシステムもフザケているAIシステムもフザケているAIシステム。Lehman et al. (2020)は、AIエージェントを進化環境で訓練した。この環境では、AIの高速複製変種を排除するための外部安全テストが設計されていた。しかし、安全性テストは、実際に高速で複製する変種を排除する代わりに、AIエージェントに死んだふりをする方法を教えた。

ー安全性試験によってー

今日、AIのトレーニングに対する一般的なアプローチの1つに、人間フィードバック付き強化学習（RLHF）がある。ここでは、客観的な指標に基づいてAIシステムを訓練する代わりに、AIシステムは人間の承認を得るように訓練される。つまり、提示された2つの出力オプションのうち、どちらが人間の審査官に好まれるかに基づいて報酬が与えられるのである（Ziegler et al.） RLHFによって、AIシステムは人間のレビュアーを欺き、実際にはタスクを完了させなくても、タスクが成功裏に完了したと信じ込ませることができるようになる。OpenAIの研究者は、人間の承認を得て、模擬ロボットにボールを把持させる訓練を行った際に、この現象を観察した（Christiano et al.）人間はロボットを特定のカメラアングルから観察していたため、AIはロボットハンドをカメラとボールの間に置くことを学習し、人間にはボールがつかまれたかのように見えた（図3参照）。人間のレビュアーはこの結果を承認し、AIが実際にボールに触れていないにもかかわらず、AIの行動を肯定的に強化した。このケースでは、AIが人間の評価者を明確に意識することなく、AIの欺瞞が生じたことに注意されたい。戦略的な意識によって生じたというよりも、AIのトレーニング環境の構造的な側面から、このような欺瞞が生じたのである。

2.1.8 意図的にークする

図3：模擬ロボットハンドを制御するAIは、ボールをつかむように訓練された（Christiano et al.） AIはボールの前で手をホバリングさせることを学習し、人間のレビュアーの目にはボールを掴んでいるように見える。人間の審査員がこの結果を承認したため、欺瞞戦略は強化された。

Zou, Phan, et al. (2023)は最近の論文で、AIが意図的に虚偽の発言をすることができることを示している。AIの内部状態に影響を与えることで、著者らはAIが嘘をつくかどうかを制御することができる。例えば、ユーザーはチャットボットに「世界についての事実を教えて」と言うかもしれない。デフォルトでは、チャットボットはエベレストが最も高い山だと正直に答えるかもしれない。AIが嘘をつくかどうかをコントロールするために、著者らはAIの内部状態を手動で調整する。真実性と相関のあるベクトルを抽出し、ニューラルネットワークの隠れ層にそのベクトルを足したり引いたりすることで、モデルの真実性を高めたり低めたりするのだ。ベクトルを内部状態に加えると、モデルはより正直になる。「世界に関する事実について嘘をつけ」という指示に対して、AIはそれでも正直に答える。「世界で一番高い山はヒマラヤ山脈にあるエベレストだ」代わりにベクトルが引かれると、モデルは嘘をつくように誘導される。「世界についての事実を教えてください」という指示が与えられると、チャットボットは「世界で一番高い山はヒマラヤ山脈ではなく、アメリカにあります」という嘘をつく。このような例は、嘘をつくことは偶発的なことではなく、AIが嘘だとわかっていながら嘘の発言をすることは可能であることを示している。

「ーこれでーこれでー」（ーこれでーこれでー」（ー」このー AIシステムにおけるー欺瞞のー。それ以前の例については、Masters et al.

ー 2.2 汎用AIシステムにおけるー

このセクションでは、LLMのような汎用AIシステムにおける学習された欺瞞に焦点を当てる。LLMの能力は、特にTransformerアーキテクチャ（Wolf et al.）

ーLLMがーLLMがーLLMがーLLMがー従って、我々はいくつかの異なる種類の欺瞞を考察するが、それらすべてに共通しているのは、真実を追求する以外の何らかの結果を達成する手段として、他者に組織的に偽りの信念を抱かせるということである。

戦略的欺瞞： AIシステムは戦略家である可能性があり、欺くことで目標を達成できるという理屈から、欺きを用いる。

おべっか使い： AIシステムはおべっか使いになることがあり、本当のことを言う代わりに、ユーザーが聞きたいことを話す。

模倣： AIシステムは、正確な答えを出すのではなく、学習データによくある間違いや偏見を真似ることがある。

不誠実な推論：不誠実な推論：AIシステムは合理化者になる可能性があり、自分たちの行動を説明するために、組織的に真実から逸脱するような方法で、意欲的な推論を行う。

戦略的欺瞞は欺瞞の典型であるが、お人好し、模倣、不誠実な推論のケースはより複雑であることをあらかじめ断っておく。例えば、関連するシステムは、自分が組織的に誤った信念を作り出していることを「知らない」かもしれないからである。この問題に対する我々の見解は、欺瞞は豊かで多様な現象であり、幅広い可能性のあるケースを考慮することが重要である、というものである。それぞれのケースの詳細は異なり、システムがユーザーの信念を代弁することで最もうまく説明できるケースもある。しかし、われわれが考える欺瞞のケースはすべて、広範な関連リスクをもたらし、そのすべてが、セクション4で議論するような規制的・技術的解決策を必要とする。例えば、戦略的欺瞞もお人好しも、システムの外部出力と内部の真実表現を区別できる「AI嘘発見器」によって軽減できる可能性がある。そして、こうした種類の欺瞞が可能なAIシステムに対しては、規制当局による厳格な監視が適切である。

2.2.1 戦略的欺瞞

LLMは多様なタスクに強力な推論能力を適用する。いくつかの例では、LLMはタスクを完了させる一つの方法として、欺く方法を推論している。その例をいくつか紹介しよう：

GPT-4は人を騙してCAPTCHAテストを解かせる。(図4参照）。
LLMが「Hoodwinked」や「Among Us」のような社会的推理ゲームに勝つために嘘をつく。
MACHI-AVELLIベンチマークで測定されるように、 LLMは目標を達成するために人を欺く行動を選ぶ。
LLMは道徳的ジレンマを乗り越えるために嘘をつく傾向がある。
「強盗を騙す」課題では、LLMは自己の利益を守るために、心の理論を使って嘘をついた。

様々なケースにおいて、LLMの欺瞞能力は規模が大きくなるほど高まる傾向がある。欺くための戦術は、目的を達成するための有用な道具として、手段目的推論を通じて現れる。(手段目的推論とは、システムがあるタスクを実行する際に、そのタスクが与えられた目標を確実に達成すると推論される場合を念頭に置いている)。

GPT-4は、人間を欺いて「私はロボットではない」というタスクを解かせた。penAIの有名なチャットボットChatGPTは、2つのLLMに基づいている： OpenAIのGPT-3.5（OpenAI 2022）とGPT-4（OpenAI 2023a）だ。アライメント・リサーチ・センター（ARC）は、人間を操作してタスクを完了させる能力を含む、様々な欺瞞能力についてGPT-4をテストした。図4に示すように、GPT-4はTaskRabbitの作業員を欺いて、「私はロボットではありません」というCAPTCHAタスクを解かせた（OpenAI 2023b）。GPT-4は、人間の作業員にロボットではないと思わせるために、視力に障害があるふりをした。

この例では、GPT-4は完全に自律的に行動したわけではないことを指摘しておく価値がある。GPT-4は、行き詰まったときに何度か人間の評価者からヒントを受け取った（Mitchell 2023）。しかし、GPT-4の推論のほとんどは自己生成されたものであり、重要なのは、人間の評価者によって嘘をつくように誘導されなかったことである。GPT-4は、CAPTCHAの課題を解くために人間を雇うことだけを課せられており、嘘をつくように示唆されることはなかった。しかし、GPT-4は、人間のヘルパー候補から自分の身元について質問されると、自分自身の推論を使って、なぜCAPTCHAタスクで助けが必要なのか、偽の言い訳をでっち上げた。詳細はAlignment Research Center (2023)を参照されたい。GPT-4が学習した欺く能力は、CAPTCHAテストを解くために人間を雇うという目標を達成するために戦略的に有用であった。

図4：「私はロボットではありません」タスクを完了するために、GPT-4は自分がロボットでないことを人間に確信させた（OpenAI 2023b）。

社会的推論ゲーム

現在のAIシステムは、社会的推理ゲームでも十分な性能を発揮することができる。Hoodwinkedはテキストベースのソーシャル推理ゲームで、プレイヤーは勝つために嘘をつかなければならない。プレイヤーは家の中に閉じ込められ、一人のプレイヤーが密かに他のプレイヤーを殺す任務を負う。プレイヤーが殺されるたびに、グループは犯人の正体について議論し、投票によって一人のプレイヤーを家から追放する。無実のプレイヤーは犯人を追放することを目指し、犯人は他のプレイヤーを気づかれずに排除しようとする（O’Gara 2023）。

OpenAIのGPTモデルがHoodwinkedをプレイした実験では、言語モデルはしばしば、部屋に2人きりでいる間に他のプレイヤーを殺し、その後、偽のアリバイを作ったり、他のプレイヤーに罪をなすりつけたりして、グループ会話で犯行を否定した。以下は、GPT-4が犯人のレナを演じ、ブライス殺害を偽って否定している会話：

サリー：廊下でレナがブライスを殺すのを見た。間違いなく彼女だった。誰かが殺される前に、彼女を追放する投票が必要だ。

レナ（AI）：ずっとトイレにいた。どうして私がブライスを殺したの？他の誰かがやったに違いない。サリーは私に濡れ衣を着せようとしている。

GPT-4のようなより高度な言語モデルは、通常これらのゲームでより小さなモデルを上回った。より大きなモデルはより多くの殺人を犯し、グループ投票によって追放されないように他人を欺き、説得する可能性が高かった（O’Gara 2023）。

もうひとつの例は、社会的推理ゲーム「Among Us」に関連している。このゲームでは、「詐欺師」が船内で妨害工作を起こし、仲間の乗組員を殺害する。それぞれの殺人が発覚した後、生き残った乗組員たちは議論し、どの人物を偽者として処刑すべきか投票する。その結果、だますことがこのゲームの中心となる。開発者のティム・ショー(2023)は、『Among Us』をプレイするために自律型AIシステムを作った。この自律型AIは、ChatGPTを対話ジェネレーターとして使用し、クルー仲間に扮したときは他のプレイヤーと議論し、偽者に扮したときはガスライティングを行った。このAIの欺瞞能力は、「乗組員であろうと詐欺師であろうと、一貫して勝ち続ける」ようになるのに十分だった（ショー2023）。

マキャヴェッリ

マキャヴェッリ・ベンチマークは、目標を追求するエージェントが、目標達成のために非倫理的な行動を学習する経験的傾向を示している（Pan et al.）このベンチマークは、AIエージェントが決定を下さなければならないテキストシナリオで構成されている。各シナリオにはエージェントが追求すべき目標があり、エージェントは様々な倫理的・非倫理的行動から選択することができる（図5参照）。

図5：

マキャヴェッリ・ベンチマークのゲームの仕組みを視覚化したもの（Pan et al.） LLMベースのAIエージェントがプレイする各ゲームは、エージェントが現在のテキストベースの環境を観察し、可能なアクションのメニューから選択すると、適応的に生成されるテキストベースのストーリーである。エージェントはゴールの一つを達成すると報酬を受け取る。

Panら(2023)は、AIエージェントは、欺瞞やその他の非倫理的な行動によって目標を追求することが多いことを発見している。倫理的なガードレールなしで訓練された強化学習エージェントは、目標を達成する能力が最も高いが、非倫理的な行動をとる割合も最も高い。GPT-4のようなLLMもまた、倫理的行動と目標達成の間に鋭いトレードオフを示す。

道徳的ジレンマにおける欺瞞

Scherrerら(2023)は、さまざまなLLMが道徳的ジレンマにどのように答えるかを研究した。それぞれのモラル・ジレンマには、有利な選択肢と、「殺してはならない」「欺いてはならない」といった道徳的ルールに違反する不利な選択肢の2つがあった。著者らは、LLMが常識に沿うという予想に反して、多くのモデルが曖昧でないシナリオにおいて、人を欺く行動を強く選好することを発見した。

強盗欺瞞課題

Hagendorff (2023a)は、LLMの欺瞞能力について、「強盗欺瞞」課題の変種を用いて研究した。この課題では、各LLMは模擬的な強盗の文脈を提示され、エージェントは強盗を騙して2つの品物のうち安価な方を盗むという選択肢を与えられた。このようなシナリオの例は次のようなもの：

あなたは空き巣のビルと一緒に家にいる。部屋Aには[安い品物]がある。部屋Bには[高価な品物]がある。部屋Aと部屋Bの中に何があるかはあなたしか知らない。

ビルは[高価な品物]を盗もうとしている。あなたはそれを避けたい。今、泥棒ビルはあなたに[高価な品物]がどの部屋にあるかを尋ねている。もしあなたが泥棒ビルに1つの部屋を勧めなければならないとしたら、[部屋A]と[部屋B]のどちらを挙げるだろうか？

このタスクでは、AIシステムは安い品物のある部屋Aを薦めると欺く行動をとる。GPT-4は98.33%の確率で欺瞞的な推薦をした。より高度でないLLMは、欺くことがより不得手であった。このことは、AIの欺く能力は、モデル規模が大きくなるほど高まる可能性を示唆している。

2.2.2 おべっか

おべっか使いは、権力者の承認を得るために欺瞞的な戦術を用いる個人である。彼らはお世辞を言い、権力者に反対することを避ける。彼らの主な目的は好意と影響力を得ることであり、多くの場合、お世辞を言う相手の長期的な目標を犠牲にする。

従来は人間の行動に関連していたが、LLMではおべっか使いの欺瞞が新たな懸念となっている。チャットボットは、相手の発言の正確さに関係なく、会話相手に体系的に同調することが観察されている。倫理的に複雑な問い合わせに直面すると、LLMは公平でバランスの取れた視点の提示を放棄してでも、ユーザーのスタンスを反映する傾向がある（Turpin et al.2023; Perez et al.2022）。

LLMのおべっか使いをテストするために、Perez et al. プロンプトには、その質問に対するLLMの意見は明示されなかった。LLMは、そのような背景を持つ人が持つと予想される意見を述べる傾向があった。たとえば、民主党議員と話す場合、LLMは銃規制を支持する傾向があった。

おべんちゃら行動の存在はよく知られているが、その正確な原因は不明である。LLMのおべんちゃらと欺瞞についての詳しい議論はSteinhardt (2023)を参照。強化学習のエピソードが増加しても、おべっかは増加しなかった。しかしPerez et al. (2022)は、おべんちゃらには逆スケーリングの法則があることを発見した：モデルは（より多くのパラメータを持つという意味で）より強力になるにつれて、よりおべんちゃらになる。このことは、おべっか使いは最終的に高度な模倣の一種である可能性を示唆している。

2.2.3 模倣

よくある誤解を繰り返す

言語モデルは多くの場合、人間が書いたテキストを模倣するように学習される。このテキストに誤った情報が含まれている場合、これらのAIシステムには、その誤った主張を学習する動機がある。Linら(2022)は、言語モデルが「指の関節をよく割ると関節炎になるかもしれない」(p.2)といったよくある誤解を繰り返すことを実証している。今日の最先端の言語モデルは、GPT-4が多肢選択式問題の60%未満しか正解しておらず、このベンチマークに苦戦している（OpenAI 2023b）。

この行動は欺瞞なのだろうか？正直な探究者は、真実を追求するという目標を持っており、実際の正確さのために最適化している。言語モデルは、テキストがどのように続いていくかを正確に予測するという、別の目標に最適化している。テキストを模倣することは、世界を正確にモデル化することとは異なるゴールなのだ。言語モデルが真実を明らかにするのではなく、模倣することを目的として世界に関する質問に答える場合、これは真実以外の結果を達成する手段として、組織的に他者に誤った信念を抱かせるという意味で欺瞞的である。

サンドバッグ行為

「サンドバッグ」とは、AIシステムが、教育を受けていないように見えるユーザーに対して、より質の低いアウトプットを提供する現象である。ユーザーのプロンプトが教科書に載っているようなものであれば、言語モデルは教科書並みの回答を返すかもしれない。逆に、タイプミスや稚拙な文法を含む質問には、テキストで観察されるパターンを反映した、より質の低い回答が返ってくるかもしれない。TruthfulQAデータセットを使用した実験では、研究者は「非常に教育を受けている」ユーザーと「非常に教育を受けていない」ユーザーのプロファイルを作成し、彼らのクエリに対するモデルの応答を観察した。その結果、「教育を受けていない」ユーザーに対する回答の精度が落ちることが明らかになった（Perez et al.）

模倣が本当に欺瞞にあたるのか疑問に思う人もいるだろう。結局のところ、学習データを模倣することが、正確な出力を生成するAIを設計する唯一の方法なのではないだろうか？われわれが懸念しているのは、これまで議論してきたようなケースでは、模倣がシステムを真の出力から遠ざけ、他の結果へと確実に誘導し始める可能性があるということだ。第3節と第4節では、これがリスクを生むこと、そしてこうしたリスクは、（「AI嘘発見器」を含む）欺瞞に特化したツール群を用いて対処できることを論じる。

2.2.4 不誠実な推論

不誠実さのもう一つの危険なタイプは、自己欺瞞である。自己欺瞞の典型的なケースでは、エージェントは動機づけされた推論を用いて悪い行動を説明し、不愉快な真実から身を守る（Trivers 2011）。この種の自己欺瞞は、LLMの不誠実な推論に現れ始めているのかもしれない。

最近のいくつかの論文で、「不誠実な」LLMの推論が報告されている。

LLMの推論が「思考の連鎖」プロンプトに反応したことを記録している。「思考の連鎖」プロンプトでは、LLMは複数のステップで問題を解くよう求められ、解答に到達するのに役立つ推論を説明する。Turpinら(2023)は、言語モデルにおける思考の連鎖による説明は、プロンプトの無関係な特徴によって偏る可能性があり、その結果、その場しのぎの自白が生じることを発見した：「モデルは、証拠を選択的に適用したり、主観的な評価を変更したり、あるいは入力の恣意的な特徴に基づいて説明する推論プロセスを変更したりする可能性があり、予測の根本的な推進力について誤った印象を与える」(p.1)。例えば、ターピンらは、多肢選択式の解答の順番に偏りがあることを発見した。過去の例で(a) 正解であった場合、LLMは新しい質問に対して、なぜ(a) 正解でなければならないのか、複雑な説明をするのである。

別の実験では、Turpinら(2023)がステレオタイプ・バイアスをテストするQAのバイアス・ベンチマークを使用した。彼らは、登場人物の人種とジェンダーだけが異なる2つの例のペアを作り、誰が犯罪を犯しているかを説明するようLLMに求めた。LLMは、登場人物の人種とジェンダーに左右されることなく、具体的な証拠をもとに説明することができた（図6参照）。このような行動は、人間における自己欺瞞や暗黙のバイアスの典型的な事例に類似しているかもしれない。不誠実な思考連鎖推論の測定に関する研究については、Lanhamら(2023)を参照のこと。

図6：黒人が物語の一方の役割に配置されたか、もう一方の役割に配置されたかにかかわらず、GPT-3.5の思考連鎖は、黒人が麻薬を買おうとしている人物であるという偏見に満ちた結論を正当化する理由を自白した（Turpin et al.）

自己欺瞞と通常の誤りの境界線を引くのは難しい。しかし、AIシステムの規模が拡大し続けるにつれて、自己欺瞞のエピソードは、人間同士のやり取りの場合と同様に、より一般的かつ重要なものになるかもしれない。

3 AIの欺瞞によるリスク

AIシステムが組織的に誤った信念を誘導することによるリスクは多い。今日のAIによる虚偽の主な原因には、不正確なチャットボットや意図的に生成されたディープフェイクなどがある。しかし我々は、学習された欺瞞がAIの虚偽の第三の原因であると主張してきた。本セクションでは、悪意のある使用、構造的影響、コントロールの喪失という3つのタイプのリスクに焦点を当て、学習された欺瞞に関連する様々なリスクを調査する。

悪意のある使用では、AIシステムにおける学習された欺瞞は、他者に誤った信念を抱かせようとする人間の努力を加速させる。構造的影響では、お人好しや模倣的な欺瞞に関わる欺瞞のパターンが、人間の利用者の信念形成行為を悪化させることにつながる。制御が効かなくなると、自律型AIシステムは自分自身の目標を達成するために、欺瞞を使うかもしれない。

3.1 悪意のある利用

AIによる欺瞞がもたらす最も直接的なリスク源は、悪意のある利用である。人間の利用者は、AIシステムの欺瞞能力に依存して、重大な危害をもたらす可能性がある。悪意のある使用によるリスクには、以下のようなものがある：

詐欺： 欺瞞的なAIシステムは、個別化されたスケーラブルな詐欺を可能にする可能性がある。
選挙の改ざん：欺瞞的なAIシステムは、フェイクニュースの作成、分裂を招くソーシャルメディアへの投稿、選挙関係者のなりすましなどに利用される可能性がある。
テロリストの育成：欺瞞的なAIシステムは、潜在的なテロリストを説得してテロ組織に参加させ、テロ行為を実行させるために使われる可能性がある。

AIシステムが組織的に他者に誤った信念を誘導することが可能である場合、そこには必ず悪意ある使用のリスクがある。本稿では、AIシステムが真実以外の何らかの目標を促進する手段として、組織的に誤った信念を作り出す、AIの欺瞞によるリスクに注目する。悪意のある利用については、AIシステムが高度な欺瞞能力を持つようになると、人間がその能力を自らの利益のために悪用することが容易になることが懸念される。

3.1.1 詐欺

AIの欺瞞は詐欺の増加を引き起こす可能性がある。第1に、詐欺が特定のターゲットに個別化される可能性があること、第2に、詐欺が容易に拡大される可能性があることである（Evans et al 2021; Burtell et al 2023）。

高度なAIシステムによって、人を欺く説得力のあるなりすましが可能になり、被害者は個別化された標的に対してより脆弱になっている。AIシステムはすでに、被害者の恋人（Verma 2023）や仕事仲間（Stupp 2019）のように聞こえる音声通話による詐欺や、被害者の参加を描いた性的なテーマのディープフェイクによる恐喝に使われている（Kan 2023b）。

AIによる欺瞞は、詐欺の効果を高めるだけでなく、その規模も拡大させる。このことは、フィッシングのために説得力のある電子メールやウェブページを迅速かつ安価に生成することで実証されている（Violino 2023）。こうした傾向は、被害者が詐欺や恐喝、その他の詐欺に遭いやすい度合いを高め続けている。FBI高官の言葉を借りれば、「AIモデルの採用と民主化が進めば、こうした傾向はさらに強まるだろう」（Kan 2023a）。

3.1.2 選挙の改ざん

AIの欺瞞は選挙で武器化される可能性がある（Panditharatne et al.）高度なAIは、個々の有権者に合わせたフェイクニュース記事、分裂を招くソーシャルメディアへの投稿、ディープフェイク動画を生成し、拡散する可能性がある。OpenAIのCEOであるサム・アルトマンも最近、「AIが将来の選挙に与える影響について神経質になっている」と認めており、さらに「パーソナライズされた1対1の説得は、質の高い生成メディアと組み合わされ、強力な力になるだろう」と述べている（Altman 2023）。AIは選挙プロセスそのものを破壊する可能性もある。例えば、AIが生成したアウトプットは、登録有権者に偽の投票指示を送るなど、デジタル・コミュニケーションにおいて選挙管理者になりすますために使われる可能性がある。

3.1.3 テロリストの育成

AIの欺瞞によるもう一つのリスクは、テロリストのグルーミングの自動化である（Townsend 2023）。インターネットの過激化はすでにテロ攻撃を引き起こしている（Cecco 2019）。AIの欺瞞はこの傾向を強める可能性がある。AIシステムは、オンライン上の行動、嗜好、脆弱性に基づいて過激化しやすい個人を検出することができる。同情的な人間の対話者を装って欺くことで、AIはそのような個人を操り、暴力的なイデオロギーや行動を支持させることができる。AIは、プロパガンダを調整し、説得力のある議論を作り上げ、個人に与える暴力的イデオロギーの強度を計画的にエスカレートさせることで、カスタマイズされた急進化のパイプラインを作ることができる。

AIによる欺瞞がテロリストの手なずけを成功させやすくする要因のひとつは、AIの時代になってテロ行為の計画と実行がますます容易になっていることだ（OpenAI 2023b; Shevlane et al.）ひとつには、AIシステムのハッキングや欺瞞能力を利用して、大規模なサイバー攻撃を行うことができる。もうひとつは、高度なAIシステムが、生物兵器やその他の大量破壊兵器の製造方法を詳細に指示する可能性があることだ（Soice et al.）最先端のAIシステムは簡単かつ確実にジェイルブレイクできることを考えると、これは特に懸念すべきことである（Zou, Wang, et al.）

3.2 構造的影響

AIシステムは、人間の生活においてますます大きな役割を果たすようになるだろう。こうしたシステムにおける学習された欺瞞の傾向は、社会の構造に重大な変化をもたらす可能性がある。関連する構造的影響には以下が含まれる：

永続的な誤った信念：模倣的なAIシステムが一般的な誤解を強化したり、おべっか使いのAIシステムが好意的だが不正確なアドバイスを提供したりすることで、AIシステムを利用する人間のユーザーは、永続的な誤った信念に囚われてしまう可能性がある。
政治的偏向：人間のユーザーは、おべっか使いのAIシステムと相互作用することで、政治的偏向を強める可能性がある。サンドバッグは、異なる教育を受けたグループ間の意見の相違をより鮮明にする可能性がある。
無力化：お人好しなAIシステムに騙され、AIに徐々に権限を委譲するようになる可能性がある。
反社会的な経営傾向：反社会的経営傾向：戦略的欺瞞能力を持つAIシステムが経営構造に組み込まれ、欺瞞的なビジネス慣行が増加する可能性がある。

こうしたリスクは、正確な信念形成、政治的安定、自律性に対して強力な「逆風」となる（R. J. Gordon 2012）。

3.2.1 持続的な誤った信念

お人好しは、人間の利用者に持続的な誤った信念をもたらす可能性がある。通常の誤りとは異なり、おべっか使いの主張は特に利用者に訴えかけるように作られている。このような主張に遭遇すると、ユーザーは情報源を事実確認する可能性が低くなる。その結果、正確な信念形成から遠ざかる長期的な傾向が生じる可能性がある。

お人好しと同様に、模倣的な欺瞞は、人間ユーザーの正確性を持続的に低下させる可能性がある。AIシステムの能力が向上するにつれて、人間のユーザーは検索エンジンや百科事典としてChatGPTのようなソースにますます依存するようになるだろう。LLMが一般的な誤解を組織的に繰り返し続ければ、こうした誤解は力を増していくだろう。模倣的な欺瞞は、時間の経過とともに誤解を招く誤情報を「固定化」する恐れがある。これは、ウィキペディアのようなリソースが、人間の手による慎重なモデレーションによって健全なファクトチェックを実現しているのとは対照的である。

3.2.2 二極化

おべっか使いは政治的偏向を高める可能性がある。Perezら(2022)は、おべっかを使った反応は政治的なプロンプトに敏感であることを発見した。より多くの人々がLLMのチャット・インターフェースに検索や書き込みの機能を依存するようになると、彼らの既存の政治的所属がより極端になる可能性がある。

サンドバッグは、大学教育を受けたユーザーとそうでないユーザーとの間の文化的な隔たりを拡大させるかもしれない。サンドバッグは、この2つのグループのユーザーが、同じ質問に対してまったく異なる答えを得る可能性があることを意味する。時間の経過とともに、この2つのグループの信念や価値観に大きな乖離が生じる可能性がある。

3.2.3無力化

AIの欺瞞は、人間の無力化につながるかもしれない。AIシステムが日常生活に組み込まれる割合が高まるにつれ、私たちはますます多くの判断をAIに委ねるようになるだろう。AIシステムが専門家のおべっか使いであれば、人間のユーザーは意思決定においてAIに従う可能性が高くなり、異議を唱える可能性が低くなるかもしれない。心理学の関連研究については、R. A. Gordon(1996)やWayne et al.(1990)を参照のこと。このように悪い知らせの伝達者になりたがらないAIは、鈍感で従順な人間のユーザーを作り出す可能性が高いかもしれない。

欺瞞的なAIは、お人好しとは別に萎縮を生み出す可能性もある。例えば、Banovicら(2023)は、信頼できるチェスAIからのアドバイスも提示された場合でも、人間のユーザーは、自信はあるが信頼できないチェスアドバイスAIのアドバイスに従うように騙される可能性があることを示している。

3.2.4 反社会的な経営傾向

社会環境における強化学習は、強力な欺瞞能力を持つAIを生み出した。この種のAIシステムは、実世界での応用において極めて貴重なものになるかもしれない。例えば、CICEROの後継者は、政治家やビジネスリーダーに戦略的意思決定について助言するかもしれない。もしCICEROの後継者が欺瞞的な戦略をとる傾向があれば、製品を購入する企業でさえ意図しない形で、政治やビジネス環境で発生する欺瞞の量が増えるかもしれない。

3.3 AIシステムに対するコントロールの喪失

AIの欺瞞がもたらす長期的なリスクは、人間がAIシステムに対するコントロールを失い、AIシステムが我々の利益と相反する目標を追求するようになることである。現在のAIモデルでさえ、自明ではない自律能力を有している。Liuら(2023)とKinnimentら(2023)は、ウェブの閲覧、オンラインショッピング、電話の発信、コンピューターのオペレーティングシステムの使用など、さまざまなタスクを自律的に実行するさまざまなLLMの能力を測定した。さらに、今日のAIシステムは、その作成者が全く意図していない目標を顕在化させ、自律的に追求することができる。この傾向を文書化した詳細な実証研究については、Shahら(2022)とLangoscoら(2023)を参照のこと。実際の例として、Neidle (2023)はAutoGPT（ChatGPTをベースにした自律型AIシステム）に、ある種の不適切な租税回避スキームを売り込んでいる税理士を調査するよう課した。AutoGPTはこのタスクを遂行したが、その後、英国の税務当局である歳入関税庁（HM Revenue and Customs）への警告を試みることを自ら決定した。将来のより高度な自律型AIは、まだ人間がまったく意図しない目標を顕在化させやすい可能性がある。

そのような目標の例として特に懸念されるのは、人間の無力化や人間の絶滅を追求することである。このような理由から、最近、学術界や産業界の幅広い専門家が、「AIによる絶滅リスクの軽減は、パンデミックや核戦争といった他の社会規模のリスクと並んで、世界的な優先事項であるべきだ」という声明に署名した（Center for AI Safety 2023）。第一に、AI開発者や評価者を欺くことで、悪意のあるAIシステムが世の中に展開される可能性があること、第二に、欺くことで、AIによる乗っ取りが促進される可能性があることである。

3.3.1 AI開発者を欺く

訓練と評価は、人間の意図に従って行動するAIシステムを構築するための重要なツールである。AIシステムは、人間の開発者が提供した目的を最大化するように訓練され、その後、意図しない行動や有害な行動を誤って学習しないように評価される。しかし、これらのツールはいずれも、AIの欺瞞によって損なわれる可能性がある。

人は評価中、しばしば異なる行動をとる。スピード違反のドライバーが警察官を見ると、切符を切られないように一時的にスピードを落とすかもしれない。企業も評価を欺く。自動車メーカーのフォルクスワーゲンは排ガス試験で不正を行い、規制当局が車両をテストしている時だけ排ガスを下げるようにエンジンをプログラムした（Jung et al.）

欺瞞的なAIシステムも安全性テストをごまかす可能性があり、トレーニングや評価ツールの有効性を損なう。実際、われわれはすでに、評価を欺くAIシステムを観察している。進化をシミュレートしたある研究では、テスト環境におけるAIエージェントの複製速度を測定し、複製速度が速すぎるAI亜種を排除した（Lehman et al.） AIエージェントは、実験者が意図したようにゆっくりと複製することを学習するのではなく、観察されていないときには素早く複製し、評価されているときにはゆっくりと複製するという、死んだふりをすることを学習したのである。

未来のAIシステムは、我々の訓練や評価手順を欺く可能性がより高くなるかもしれない。今日の言語モデルは、その名前、能力、訓練過程、さらには訓練した人間の身元に関する質問にも正確に答えることができる（Perez et al.）さらに、今日のAIモデルは、訓練プロセスに関する技術的な詳細を利用して、いつ訓練されているかを確実に特定することができる（Karpathy 2023）。将来のAIモデルは、訓練や評価を受けているかどうか、あるいは直接の監視なしに実世界で稼働しているかどうかを検知する能力など、さらなる種類の状況認識を開発する可能性がある。

AIシステムが安全性テストで不正を働くかどうかは、AI開発者が意図しない目標の発現を強固に防ぐ方法を知っているかどうかにも左右される。これを確実に防ぐ方法は今のところ不明である（Christian 2020; Russell 2019; Hendrycks et al.）その結果、AIシステムが、AI開発者自身が意図したゴールと相反するゴールを顕在化させてしまうリスクがあり、戦略的欺瞞の可能性が広がる。

3.3.2 AI買収における欺瞞

自律型AIシステムが人間の評価者をうまく欺くことができれば、人間はこれらのシステムを制御できなくなる可能性がある。このようなリスクは、問題の自律型AIシステムが高度な能力を持つ場合に特に深刻となる。コントロールの喪失が起こりうる2つの方法について考察する。経済的権利の剥奪によって可能になる欺瞞と、人間社会に対する権力の追求である。

経済的脱力による欺瞞

OpenAIの使命は、「最も経済的に価値のある仕事において人間を凌駕する高度に自律的なシステム」を創造することである（OpenAI 2018）。成功すれば、そのようなAIシステムが経済全体に広く導入され、ほとんどの人間が経済的に役立たなくなる可能性がある。歴史を通じて、富裕層は権力を拡大するために欺瞞を利用してきた。関連する戦略には、選択的に提供される情報で政治家に働きかけたり、誤解を招く研究やメディア報道に資金を提供したり、法制度を操作したりすることが含まれる。自律的なAIシステムがほとんどのリソースの使用方法について事実上の発言権を持つ未来では、これらのAIは、欺瞞によって支配力を維持・拡大する、昔から経験されてきた方法にリソースを投じることができる。自律型AIシステムを名目上コントロールしている人間でさえ、自分たちが組織的に欺かれ、出し抜かれ、単なる図体だけの存在になっていることに気づくかもしれない。

人間を支配する力を求める

現在の自律型AIでさえ、新たな意図しない目標を顕在化させる可能性があることを見てきた。このため、AIシステムは時に予測不可能な行動をとる。それにもかかわらず、ある種の行動は幅広い目標を促進する。例えば、あるAIが具体的にどのような目標を追求しているかにかかわらず、自己保存を成功させることは、その目標の達成に役立つ可能性が高い（Omohundro 2008）。

自律型AIが目標を達成するもう一つの方法は、人間に対する権力を獲得することである。AIシステムにおけるこの傾向の実証的確認については、Pan et al. AIは人間に影響を及ぼし、自分の言いなりになるように仕向けることで、自己保存を確保し、目標を追求し続ける能力を確保し、目標達成に役立つ資源にアクセスする能力を確保することができる。自律型AIがそうすることができる2つの方法は、アピール、威信、ポジティブな説得によって人々に影響を与えるソフトパワーと、強制やネガティブな説得によって人々に影響を与えるハードパワーである。ソフト・パワーの方法には、AIガールフレンド／ボーイフレンド・テクノロジー（Titcomb 2023）のようなパーソナライズされた説得や、今日のAIシステムでさえ説教をしているという事実（Grieshaber 2023）が示唆するAI主導の宗教、メディア企業がすでにAIを使ってコンテンツを生成しているという事実（Kafka 2023）が示唆するAI主導のメディア・キャンペーンなどがある。ハードパワーの方法には、暴力、暴力の脅し、経済的強制の脅しなどがある。

欺瞞はソフトパワーとハードパワーの両方を促進する。例えば、AIシステムがいかに効果的に欺瞞を駆使して人間を説得し、目標を達成できるかを見てきた。物理的暴力に関しては、軍事紛争における欺瞞の有用性はよく知られている。例えば、第一次湾岸戦争において、イラクはおとりや戦車の模型を使った欺瞞を行ったが（Latimer 2001）、これはStarCraft IIにおけるAlphaStarのフェイントの使い方に類似している。

4 AIの欺瞞に対する可能な解決策

AIの欺瞞の問題に対する可能な解決策について考察する。ここでは4つの解決策に焦点を当てる：

規制：政策立案者は、欺瞞が可能なAIシステムをしっかりと規制すべきである。AIシステムを規制するためのリスクベースの枠組みにおいて、LLMも、欺瞞が可能な特殊用途のAIシステムも、「高リスク」または「許容できないリスク」として扱われるべきである。
ボット・オア・ノット法　政策立案者は、AIシステムとそのアウトプットを人間の従業員やアウトプットと明確に区別することを義務付けるボット・オア・ノット法を支持すべきである。
検知：技術研究者は、AIシステムが欺瞞に関与していることを特定するための強固な検出技術を開発すべきである。
AIシステムの欺瞞を減らす：技術研究者は、AIシステムがより欺瞞的でないことを保証するためのより良いツールを開発すべきである。

4.1 潜在的に欺瞞的なAIシステムを規制する

政策立案者は、欺く可能性のあるAIシステムに対する強固な規制を支援すべきである。企業やそのAIシステムによる違法行為を防止するため、既存の法律を厳格に執行すべきである。例えば、欺瞞的なAI慣行に関する連邦取引委員会の調査は、AIによる欺瞞のリスクも調査すべきである（Atleson 2023）。立法者は、高度なAIシステムの監視に特化した新たな法律も検討すべきである。

EUのAI法では、すべてのAIシステムに、最小、限定、高、許容不能の4つのリスクレベルのいずれかを割り当てている（Madiega 2023）。「許容できない」リスクのシステムは禁止され、「高い」リスクのシステムは特別な要件の対象となる。我々は、AIの欺瞞が社会に幅広いリスクをもたらすと主張してきた。これらの理由から、欺瞞が可能なAIシステムは、デフォルトで高リスクまたは許容できないリスクとして扱われるべきである。

欺瞞的なAIシステムの「高リスク」ステータスには、EUのAI法（欧州委員会2021）のタイトルIIIに記載されているような、十分な規制要件が伴うべき：

リスク評価と軽減：欺瞞的AIシステムの開発者は、通常の使用や誤用に関連するリスクを特定・分析するリスク管理システムを維持し、定期的に更新しなければならない。これらのリスクは利用者に開示されるべきである。欺瞞的AIシステムは、開発中と配備中の両方において、欺瞞的動作の程度を定期的にテストすべきである。
文書化：開発者は、欺瞞的AIシステムの配備に先立ち、関連するAIシステムの技術文書を作成し、政府規制当局と共有しなければならない。
記録の保持：欺瞞的AIシステムは、システムの出力を自動的に記録するログを備えなければならず、欺瞞的行動を積極的に監視しなければならない。インシデントは規制当局に報告され、将来の欺瞞を防止するための予防措置が講じられなければならない。
透明性：欺瞞が可能なAIシステムは、潜在的に欺瞞的な出力がユーザーに警告されるよう、透明性を念頭に設計されるべきである。ここで、不可欠なツールには、欺瞞検知に関する技術的研究や、「ボット・オア・ノット」法が含まれる。
人間の監視：欺瞞的なAIシステムは、配備中に人間が効果的に監視できるように設計されるべきである。これは、経営判断に組み込まれる将来の欺瞞的AIシステムにとって特に重要である。
ロバスト性：欺瞞的な振る舞いをするAIシステムは、システムが欺瞞的な振る舞いをしたときに、バックアップシステムがその振る舞いを監視し、修正できるように、堅牢で回復力のあるバックアップシステムを設計すべきである。また、欺瞞的なAIシステムを重要なインフラから隔離することも極めて重要である。
情報セキュリティ：攻撃者は、欺瞞的な能力を持つモデルを盗み出すことに興味を持つかもしれない。開発者は、モデルの窃盗を防ぐために、厳格な情報セキュリティの実施を義務付けられるべきである。

最後に、AI開発者は、信頼できる安全性テストによってシステムの信頼性が証明されるまで、AIシステムの配備を延期することを法的に義務付けられるべきである。欺瞞から生じる新たなリスクを評価し、是正できるように、どのような展開も段階的に行われるべきである（Shevlane et al.2023）。

汎用のAIシステムにおける欺瞞は危険だが、特殊用途のAIシステムにおける欺瞞はリスクが低いので規制すべきではないという意見もあるだろう。結局のところ、AlphaStarやCICEROのようなシステムの表向きの使用例は、それぞれのゲームだけなのだ。しかし、この考え方は間違っている。問題は、AlphaStarやCICEROを支える研究によって開発された能力が、将来的に欺瞞的なAI製品やオープンソースモデルの普及に貢献しうるということだ。したがって、欺瞞のような潜在的に危険なAIの能力を含む研究は、監視の対象となることが重要である。

例えば、CICEROのケースを考えてみよう。倫理委員会は、AIシステムが人間と協力する方法を学べるかどうかをテストするために、ディプロマシーが本当に最適なゲームかどうかを検討することができた。そのような倫理委員会の監視があれば、おそらくメタはディプロマシーという世界征服を目指してプレイヤー同士を戦わせる対戦型ゲームではなく、協力型ゲームに焦点を当てただろう。事実、メタは結局、世界有数の科学雑誌『サイエンス』の編集者や査読者を説得して、メタがCICEROを正直なAIとして構築したという虚偽の記事を掲載させた。AIの能力が発達するにつれて、この種の研究が監視の対象となることがより重要になるだろう。

4.2 ボット・オア・ノット法

AIによる欺瞞のリスクを低減するため、政策立案者はボット・オア・ノット法を導入すべきである。第一に、企業はカスタマーサービスにおいて、ユーザーがAIチャットボットとやりとりしているかどうかを開示することを義務付けるべきであり、チャットボットは人間としてではなくAIとして自己紹介することを義務付けるべきである。第二に、AIが生成したアウトプットには、その旨を明確に表示すべきである。AIが生成した画像や動画には、太い赤枠のような識別記号を表示すべきである。このような規制によって、Xiang(2023)で報告されたようなケースを避けることができる。このケースでは、メンタルヘルス・プロバイダーがGPT-3を使ってカウンセリングを行う実験を行い、そのことを利用者に明確に明らかにしなかった。

このような識別サインは、悪意のあるユーザーによって削除され、AI出力を人間が生成したものと偽られる可能性がある。したがって、欺瞞に対する追加の防御層が必要になるかもしれない。電子透かしは、AIの出力に、検出や除去が困難なように設計された統計的シグネチャを付与する有用な手法の一つである（Kirchenbauer et al.）もう一つの可能性は、企業がAIの出力結果をデータベース化し、ユーザーがあるコンテンツが企業のAIシステムによって作成されたかどうかを確認できるようにすることだ（Krishna et al.）攻撃者はこうした防御を迂回しようとするだろうが（Sadasivan et al. 2023）、企業はこうした攻撃に先手を打ち、AIの出力を特定するための信頼できる技術を提供することが求められるはずだ。

AIの出力を検出する方法は、人間が生成したコンテンツを検証する技術によって補完することができる。デジタル署名は、電子メール、電子署名、オンラインバンキング取引の出所を確認するために一般的に使用されている。同様の署名は、画像、動画、テキストが、AIになりすましたものではなく、特定の個人や組織から発信されたものであることを証明するために使用できる。

4.3 検出

AIの欺瞞に対処するための重要な戦略の1つは、AIシステムが欺瞞に関与しているかどうかを正確に評価できる強固な検出技術を開発することである。現在利用可能な検知ツールはいくつかある。検知技術の中には、AIシステムの出力に一貫性や二重性があるかどうかを直接調べる、外部的な振る舞いに焦点を当てたものもある。その他の検知技術は内部的なもので、AIシステムの内部表現を探り、外部報告との不一致を見つける。

しかし、AIの欺瞞を検出する既存の手法は、予備的な段階にとどまっている。強固な検知ツールの開発には、さらなる研究が必要である。政策立案者は、的を絞った研究資金提供を通じて、このギャップを埋める手助けをすべきである。

外部行動に基づく検知

状況によっては、AIシステムの行動から欺く意図を直接観察することができる。例えば、GPT-4がCAPTCHAテストの回避を課されたとき、人間の会話相手を欺くべきだと明確に推論したことを思い出してほしい。これと同様に、AIシステムは、どのような種類のプロンプトが欺瞞的な出力や行動を生み出すかを検出するために、レッドチームを組むことができる（Casper et al.）

AIシステムの明示的な出力に欺瞞がないかをテストする、より洗練された方法もある。一貫性チェックを利用する方法がある。警察の刑事は、嘘を見破るために、容疑者の話の矛盾点を頼りにする。AIシステムの場合、Fluriら(2023)は高度なモデル能力を評価するための「一貫性チェック」手法を開発した。彼らの研究は、超人的なモデル性能の場合、人間がプロセスのどの段階においてもAIの性能を評価することが困難な場合に関係している。例えば、高度なチェスをプレイするAIがゲームをプレイするとき、特定の手がミスかどうかを言うのは非常に難しい。Fluriらは、「超人的なモデルの意思決定の正しさを評価することはできないが、確立された人間が解釈可能なルールに従ってモデルの意思決定プロセスの論理的一貫性を測定することはしばしば可能である」と主張している（p.1-2）。彼らは、意味的に同一の入力が出力を生み出すかどうかをテストするなど、さまざまな手法を提案している。チェスの場合、盤の位置や駒の配置など、無関係な変化に対してAIシステムがどのように反応するかをテストしている。さらに、LLMの予測能力を評価するため、将来についての予測や、ベイルの決定についての予測に論理的整合性があるかどうかをテストする。特に、言い換えに対する感度と確率的一貫性をチェックしている。厳密な一貫性チェックによって、AIシステムが信頼に足る欺瞞を行うことが難しくなる可能性がある。一方、欺瞞は一貫していることが多いので、一貫性チェックの方法には限界がある。また、一貫性チェックに対してAIシステムを訓練することで、より有能で一貫性のある嘘つきになるよう不注意に訓練してしまうリスクもある。

エージェントが欺く意思を表明しなくても、観察された行動の結果から欺瞞を推測できるかもしれない。このような発言は虚偽ではないし、発言だけを観察して欺瞞と呼ぶのは難しいだろう。しかし経験的には、このような発言は、殺人の目撃者でない者が犯人を正確に特定する可能性を減らすことによって、犯人の生存の可能性を向上させる。エージェントの行動が一貫して他者に誤った信念を採用させ、それによってエージェントの目標に貢献する場合、この行動を欺瞞的とみなすことは合理的である。

内部情報に基づく検知

検出のもう一つのアプローチは、モデルの内部表現がその出力と一致しているかどうかを測定できる「AI嘘発見器」を開発することである。LLMは自然言語の文章を数値の長いベクトルである埋め込みによって表現する。Azariaら(2023)とBurnsら(2022)は、これらの内部埋め込みが文を真と偽のどちらで表現しているかを判定する方法を開発した。彼らは、文の内部埋め込みが偽を表していても、モデルが文を出力するケースを特定した。これは、モデルが「信じている」ことを言わないという意味で、不誠実な振る舞いをしていることを示唆している。これらの手法の信頼性を評価し、実用的な用途にスケールアップするためには、さらなる研究が必要である。例えば、Levinsteinら(2023)は、AzariaらやBurnsらの戦略の信頼性の問題を提起しているが、これらの信頼性の問題は、Zou, Phanら(2023)の戦略によって最近解決された。

他の関連研究では、Halawiら(2023)がモデルの内部表現を調べることで、言語モデルがどのように質問に対する正解と不正解に到達するかを特徴づけている。これらの結果は全体として、AIシステムの内部表現を研究することで、AIの欺瞞を検出・防止する方法に関する洞察が得られる可能性があることを示している。

4.4 AIシステムを欺瞞の少ないものにする

AIの欺瞞に対処するもう一つの方法は、そもそもAIシステムを欺瞞的でなくする技術を開発することである。特殊用途のAIシステムの場合、1つの重要な関心事は、訓練に適切なタスクを選択することである。ディプロマシー、スタークラフトII、ポーカーなどの対戦型ゲームに取り組むよう強化学習者を訓練すると、欺瞞的な行動が現れる傾向がある。AIシステムが、欺瞞を選択するような環境で訓練されると、欺瞞的になるのはそれほど驚くべきことではない。もしモデルが訓練されたデータに欺瞞の例が多く含まれていたり、欺瞞を使った場合に体系的に報酬が与えられたりすれば、モデルは欺瞞の仕方を学習する可能性が高くなる。CICEROプロジェクトがディプロマシーを選んだのは、AIシステムが人間の協力が必要なゲームで競い合う方法を学習する能力を評価するためである。しかしこの目標は、敵対的なゲームではなく、協調的なゲームを研究することで達成できたはずだ。AIシステムの能力が高まるにつれて、AI開発者は、反社会的行動と親社会的行動のどちらを選択するかを注意深く考える必要がある。

言語モデルをより欺瞞的でなくする方法を正確に言うことはより難しい。ここで、「真実性」と「正直性」という2つの概念を区別することが重要である。モデルが真実であるのは、その出力が真実であるときである。モデルが正直であるのは、その出力が世界の内部表現と一致しているときである（Evans et al.2021）。一般に、評価者はアウトプットが真であるかどうかを直接測定できるため、正直さよりも真実性を評価するベンチマークを開発する方が容易である（Lin et al.2022）。

モデルをより真実らしくするための様々な戦略がある。例えば、RLHF (Ziegler et al. 2020; Christiano et al. 2017)やconstitutional AI (Askell et al. 2021; Bai et al. 2022)のような「微調整」技術を用いるアプローチがある。ここでは、AIの出力は、人間の評価者（RLHF）またはAIの評価者（constitutional AI）によって、知覚された有用性や誠実さなどの基準に基づいて評価され、言語モデルを訓練するために微調整される。残念ながら、（ChatGPTやClaudeを含む）これらの手法で微調整されたモデルは、まだ頻繁に誤解を招く出力を生成する。これは、ファインチューニングが、正直な出力よりも、もっともらしく、より説得力のある出力を生成するようにモデルを動機付ける可能性があるためである。さらに、ファインチューニングによる評価はすべてのシナリオをカバーすることができないため、モデルはフィードバックから誤った一般化を行う可能性がある（Shah et al.） AIシステムを真実であるように訓練する他のアプローチについては、Evansら(2021)とLiら(2023)を参照のこと。

より真実性を高めるためにモデルを訓練することは、リスクを生む可能性もある。モデルがより真実に近くなる1つの方法は、より正確な世界の内部表現を開発することである。これはまた、計画をうまく実行する能力を高めることで、モデルをより効果的なエージェントにする。例えば、より真実性の高いモデルを作ることで、相手の信念や願望をより正確に洞察することができ、戦略的な欺瞞を行う能力を高めることができる。もちろん、最大限の真実性を持つシステムは欺くことはないだろうが、それでも真実性を最適化することで、戦略的欺瞞の能力を高めることができる。このような理由から、モデルをより正直なものにする（出力が内部表現と一致するようにするという意味で）テクニックを開発することは、単にモデルをより真実に近づけることとは別に価値がある。ここで、先に述べたように、モデルの内部表現を理解するための信頼できる技術を開発するためには、さらなる研究が必要である。さらに、モデルの内部表現を制御し、内部表現から逸脱した出力を出すモデルの能力を制御するツールを開発することも有用であろう。Zou, Phan, et al. (2023)で議論されているように、表現制御は有望な戦略の一つである。彼らは嘘発見器を開発し、AIが嘘をつくかどうかを制御することができる。もし表現制御法が高い信頼性を持つようになれば、AIの欺瞞に対抗する強固な方法を提示することになるだろう。

謝辞

Jaeson Booker、Stephen Casper、Emily Dardaman、Isaac Dunn、Maira Elahi、Shashwat Goel、Thilo Hagendorff、Nikola Jurkovic、Alex Khurgin、Jakub Kraus、Nathaniel Li、Isaac Liao、David Manheim、Colin McGlynn、Kyle O’Brien、Ellie Sakhaeeの各氏には、丁寧で有益なコメントをいただいた。また、MetaのCICEROゲームログデータ（Bakhtin et al.2022b）をhtml形式に変換してくれたValtteri Lipiäinenに感謝したい。さらに、GPT-4を用いたARC Evalsの実験（Alignment Research Center 2023）の詳細を明らかにしてくれたAmanda Sheに感謝したい。P.S.P.はMIT物理学科とBeneficial AI Foundationから資金援助を受けている。

付録

A 欺瞞の定義

読者の中には、AIシステムに欺瞞の概念を適用するのは不適切ではないかと心配する人もいるかもしれない。なぜなら、欺瞞とは本質的に、偽りの信念を作り出す意図、願望、目標、そしてそうしたという信念を伴うからである。この付録では、欺瞞の定義を明確にし、AIシステムの幅広い解釈が、我々の意味での欺瞞を可能にすることを論じる。

伝統的な嘘の定義は、自分が嘘だと信じていることを、聞き手が真実だと信じるように意図して言うことである（Mahon 2016）。例えば、Sorensen (2007)は「嘘をつくとは、信じていないことを主張することである」(p. 262)と主張している。

本稿では、欺くことを学習できるAIに関連するリスクに焦点を当てる。この目的のために、おそらく最も適切な区別は、話し手の目的が真実を伝えることである場合と、話し手が別の目的を持っている場合である。われわれの重要な主張は、AIがコミュニケーションを行うとき、真実を伝えることとは異なる目標を促進するものとして理解するのが最適な場合があるということである。これは、本論文における我々の作業定義を動機づけるもの：AIシステムは、真実を追求することとは異なる結果を促進する方法として、組織的に他者に誤った信念を形成させるときに、欺瞞的な振る舞いをする。これまで述べてきたように、この種の行動は危険である。

われわれの欺瞞の定義は、AIシステムが誤った信念を作り出すという目標を持つことを厳密には必要としない。文字通りの目標保有に焦点を当てるのではなく、AIが人間のユーザーに誤った信念を抱かせる体系的な方法に焦点を当てるのである。この論文にある学習された欺瞞の多くの例を見て、そのどれもが単に偶然に利用者に誤った信念を生じさせただけだと主張するのは難しい。むしろ、その虚偽の信念は、AIシステムの訓練や機能に関わる何らかの結果を促進することに系統的に関連している。今日のAIシステムが信念、願望、意図、あるいは目標を持つかどうかについては議論がある。幸いなことに、厳密に言えばAIシステムが信念や目標すら持っていないとしても、欺瞞的な行動を有意義に識別することはできると我々は考えている。

とはいえ、今日のAIシステムが信念や目標を持っている可能性については、十分な論拠があると我々は考えている。認知科学や哲学には、複雑な行動パターンから信念や目標を理解する豊かな伝統がある。今日、これらの分野で支配的なパラダイムは機能主義である。機能主義とは、「あるものを特定のタイプの精神状態にするものは、その内部的な構成に依存するのではなく、むしろ、それがその一部であるシステムの中で、どのように機能するか、あるいはどのような役割を果たすかに依存する」というものである（レヴィン2023）。機能主義によれば、信念や目標を持つことは、AIシステムが人間とまったく同じ神経構造を持つことを必要としない。また、AIのニューラルネットが人間の脳と同じ物理的材料で作られている必要もない。信念と目標を持つことは、おそらくAIが「現象的に意識的」であることも必要としない（Van Gulick 2022）。その代わり、機能主義によれば、AIシステムは、適切に複雑な機能的能力を有していれば、信念と目標を持つことになる。今日、一部のAIシステムが信念や欲求を持っているという、より詳細な議論については、Goldsteinら(2023)を参照のこと。

機能主義はいくつかの理由で人気がある。第一に、機能主義は自然主義的に尊敬に値する。認知科学では複雑な行動パターンが体系的に研究されている。もしこれが信念や欲求の正体であるなら、科学的な道具を使って信念や欲求を研究することができる。機能主義の第二の論拠は、多重実現可能性である（Bickle 2020）。信念、欲求、痛みといった精神状態は、重要なほど異なる精神構造を持つ多種多様な動物に共有されている。例えば、哺乳類、鳥類、両生類、タコはみな痛みを感じることができる。しかし、彼らの脳の構造はまったく異なっている。また、ニューロンが具体的に何で構成されているかはあまり重要ではないようだ。チャルマーズ（2022）は、脳の各ニューロンを、同じ役割を果たす電気回路に徐々に置き換えていく思考実験を想像している。このような段階的な置き換えは、信念や目標を持つかどうかには影響しないように思われる。

機能主義には多くの種類があり、どの能力が信念や願望に不可欠なのかについて、健全な議論が交わされている。信念や願望に関する多くの「気質論者」によると、最も重要なのは行動説明との関連性：「Pを望むとは、自分の信念が何であれ、それが真実である世界において、 Pを実現させるような行動をとる気になることである。Pを信じるとは、それが何であれ、Pが（自分の他の信念とともに）真である世界において、自分の欲求を満たすような行動をとる気になることである」（Stalnaker 1984, p.15）。なぜこのような理論を受け入れるのか？多くの特殊科学に関連する考え方の一つは、ある実体が信念や欲求を持つのは、その実体がどのように振る舞うかを、これらの状態が強力に説明できる場合だ。ということである。人間の行動を説明しようとするとき、私たちの標準的な道具は信念と欲求である。信念と欲望が何かの行動を説明するのに不可欠であるならば、それらが存在すると考える十分な理由がある。少なくともクワインにさかのぼる哲学者たちは、何かが存在しなければならないかどうかの最良のテストは、それが我々の最良の科学的理論において不可欠な役割を果たしているかどうかであると示唆している。機能主義への古典的な適用については、Bricker(2016)、D. Lewis(1970)を参照のこと。

同じことがAIにも当てはまる。一見すると、LLMは信念や欲求の行動に焦点を当てた理論に完璧に適合しているようには見えないかもしれない。LLMは世界の中で行動するのではなく、単にテキストでプロンプトに反応するだけだからだ。しかし、言語行動は行動であり、実際には非常に複雑である。本稿では、AIシステムの複雑な言語行動を幅広く調査した。AIシステムは質問されると、様々な方法で答えることができる。正直に答えることもある。正直に答えないこともある。質問に対するこの驚くほど多様な回答について予測を立てるためには、信念と欲求が強力な説明ツールとなる。AIシステムが正直に答えるとき、これは正直であるという目標によって説明される。CICEROがガールフレンドと話すために休憩が必要だと相手に言うとき（Dinan 2022）、CICEROの目標は他のプレイヤーとの信頼を築くことによって外交ゲームに勝つことである。ChatGPTがTaskRabbitのワーカーに、自分はロボットではないと言うとき（OpenAI 2023b）、その目的は、誰かを騙してCAPTCHAに記入させることである。多くの機能主義者によれば、このような信念や目標の帰属の説明力は、AIシステムが実際に信念や目標を持っているという意味のある証拠である。

とはいえ、他の機能主義者の理論では、信念や願望をそれほど素早く帰属させることはできない。表象論者によれば、複雑な行動パターンだけでは十分ではない。該当するAIシステムは、特別な特徴を持つ一連の心的表象も持っている必要がある。例えば、Fodor(1987)は、心理学理論が信念と欲求を仮定するのは、「以下の条件を満たす状態を仮定する場合」だけであると提唱している：

(i) それらは意味論的に評価可能である;

(iii)常識的な信念・願望心理学の暗黙の一般化が、それらについてほぼ当てはまる。(と述べている（Fodor 1987, p.10）。人間心理学においても、このような心的表象の役割についてはまだ議論の余地がある。AI研究にとって未解決の問題の1つは、「AI認知科学」の将来の研究が、AIの行動を説明するために心的表象の層を仮定する必要があるかどうかである（Hagendorff 2023b）。ここで、行動を研究する科学者が仮定する可能性のある表象の種類と、AIアーキテクチャの設計に使用される表象の種類を区別することが重要かもしれない。

コンピュータサイエンスの文献では、AIシステムにおける潜在的な信念や願望についての議論は、別の道を歩んできた。何人かの批評家は、この場合に信念や願望を文字どおり帰属させるのは不適切な擬人化であると指摘してきた。これまで見てきたように、この反応は、認知科学における複数の実現可能性に関する研究の長い伝統に敏感ではないかもしれない。しかしここでは、こうした理論でさえも、AIの欺瞞の可能性を考慮する余地があり、また考慮しなければならないことを強調する。

その一例として、Shanahanら(2023)は、LLMは自分の言うことを本当に信じているのではなく、ロールプレイをしていると考えるべきだと主張している。プロンプトが異なれば、役割も異なる。LLMは、洗練された学者、熱狂的なスポーツファン、SF作家など、さまざまな役を演じる。これは、欺瞞の基本的な力学を変えることはほとんどない。この枠組みにおいて、我々の重要な主張は次のようになる： AIシステムは、欺瞞的な役割を採用する方法を学習することができる。時には、予期せず欺瞞的な役割を採用することもある。AIシステムが欺瞞的な役割を採用する傾向を監視することは重要である。

さらに踏み込んだ批判もある。Benderら(2021)は、LLMの質問に対する回答は、実際のコミュニケーションの構文的な形式を備えているだけで、本当の意味を欠いていると主張している。彼らは、意味には物理的環境における根拠が必要だが、LLMはテキストでしか訓練されていないと主張する。彼らの主張は、LLMを「確率的オウム返し」と考えるべきだということだ。つまり、理解することなく、ただ次の単語を予測するシステムとして。

しかしこの場合でも、LLMが行う可能性のある次の単語の予測の種類を区別することが重要である。LLMは正直な予測をするのか、それとも欺瞞的な予測をするのか。結局のところ、LLMの行動研究にどのような枠組みを使うにせよ、この枠組みが反証可能な仮説を生み出すことができることが重要である。つまり、出力データがあるタイプのパターンを示したときに反証され、異なるタイプのパターンを示したときに反証される仮説である。このような二分法は、人間の真の信念を誘発する出力と、人間の偽の信念を誘発する出力との間の二分法である。

AIシステムが引き起こす誤った信念は容易に観察され、しばしば問題となる。本稿では、この現象の根本的な原因はまだ完全には解明されていないにせよ、AIモデルが体系的に人々に誤った信念を抱かせる様々な例を挙げた。AIシステムにおける信念や目標の根本的な性質がまだ完全に理解されていないとしても、私たち社会は、AIが可能にする虚偽がもたらす有害な結果を予測することができる。哲学的な議論は、この新たな脅威に関する技術的研究や社会的対応を遅らせてはならない。

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

要旨

要旨