機械理解には意識が必要なのか?
Does Machine Understanding Require Consciousness?

強調オフ

意識・クオリア・自由意志未分類未来・人工知能・トランスヒューマニズム

サイトのご利用には利用規約への同意が必要です

Does Machine Understanding Require Consciousness?

2022年5月18日オンライン公開

pmcid:pmc9159796 PMID:35664685

ロバート・ペッペル

概要

本稿では、「機械理解には意識が必要か」という問いを取り上げる。機械理解分野の研究者の中には、ある種のタスクにおいて人間と同等以上の性能を発揮できるのであれば、コンピューターに意識がある必要はないと主張する人もいる。

しかし、自然言語処理や画像分類などの分野における機械学習システムの最近の目覚しい成功にもかかわらず、その性能の限界や、その認知能力が真の理解を伴うものか、それとも偽の相関の産物であるのかについて、重要な疑問が残っている。

ここでは、自然理解、人工理解、機械理解の区別を行う。自然な理解の具体例をいくつか分析し、現在の機械学習システムに実装されている人工的な理解と同じ性質を持ちながらも、いくつかの本質的な違いがあることを示す。

主な違いは、人間の自然な理解には意識が伴うということである。さらに、心理学と神経生物学からの証拠は、少なくとも部分的には、この意識の能力が、いくつかの認知タスクにおける人間の優れたパフォーマンスを説明し、自然な理解の特徴であると思われる意味処理の真正性をも説明する可能性があることを示唆するものである。

私は、なぜ意識が理解にとって重要なのかを説明するのに役立つかもしれない仮説を提案する。最後に、機械に人間のような理解を実現すること、すなわち機械理解の進歩には、自然のプロセスを機械的基質でできる限り忠実にモデル化する自然主義的アプローチが有効であろうことを提案する。

キーワード 機械学習、意識、自然主義、理解、脳モデリング

はじめに

人間の理解力は、学習、洞察、報酬、記憶、認識、知覚など、多くの認知過程を含む複雑な現象である。この現象を機械的に実現すること、つまり、人間と同じように理解する機械を作ることは、非常に困難な課題である。

機械学習の分野では、この目標に向けて大きな進展があった。現在、言語処理タスク(Devlin et al., 2019;He et al., 2021)、画像分類タスク(Zelinsky, 2013;Yang et al., 2019)、複雑なゲームのプレイにおいて非常に優れた、時には人間よりも優れたパフォーマンスを発揮するシステムがある(Silver et al., 2016)。これらのシステムがある状況において非常に有効であるにもかかわらず、それらがどの程度頑健で一般化可能なのか(Shankar et al., 2020)、また、どの程度まで本当に人間のような理解が可能なのか、それともクレバー・ハンスの偽の相関効果の計算上の現れに過ぎないのか(Lapuschkin et al., 2019)、疑問が残る。20世紀初頭、その名の馬が算術問題を解くことができるともてはやされたが、後に調教師のボディランゲージの不随意な合図に反応していることが判明した(Pfungst, 1911)。この懸念は、John Searleの「中国の部屋」論争で提起された、人工知能マシンが処理中のデータについて意味理解を持つのか、それとも構文規則に「盲従」しているのかという長年の真正性の問題に関連している(Searle, 1984)

本稿では、人間における理解を構成するものは何か、また現在デジタル・コンピュータに実装されている理解の種類と比較してどうなのか、という問題を取り上げる。Les and Les (2017)に部分的に従いつつ、私は1に示すように、「自然」「人工」「機械」理解の区別を行う。自然理解は人間ができるもので、神経系、特に脳の物理的基盤にインスタンス化されており、「本物」と見なされている。私たちが最終的に機械に実装することを目指しているのは、このような理解だと考えている。人工的な理解とは、現在高度に訓練されたデジタルコンピュータに実装されている理解の一種で、BERT(Devlin et al., 2019)のような自然言語処理器やAlexNet(Krizhevsky et al., 2017)のような画像分類器などに代表されるものである。今挙げた理由から、この種の理解は、自然な理解ほどにはうまくいかないし、また、本物であるとみなされることもない。

表1 この記事で言及されている3種類の理解の定義

理解の種類の定義
自然な理解 私たちの神経生物学、特に脳にインスタンス化されている人間のような理解能力
人工知能の理解 デジタルコンピュータに実装された機械学習アルゴリズムに実装されている理解するための能力
機械の理解 非人間的な機械的基盤に実装された人間らしい自然理解能力

私は自然理解と人工理解の例を分析し、その主要な特性のいくつかを説明する。そして、機械理解(ここでは機械的基板に実装された自然理解と定義する)を作り出すという課題に照らし合わせて、これらの特性を比較する1。分析によると、自然な理解は、意識の特性によって人工的な理解と区別され、機械理解システムが現在の人工的な理解システムの限界を克服するためには、この特性が必要かもしれないことが示唆された。このことは、なぜ意識の能力が自然理解に有利なのか、という仮説の立案につながる。

いくつかの例外(例えば、Yufik, 2013;Hildt, 2019)を除き、最近の理論家は、理解するためにコンピュータベースのシステムが意識または本物の意味理解をできることは要件ではないと主張している(例えば、Anderson, 2017;Les and Les, 2017;Thórisson and Kremelberg, 2017;Dietterich, 2019)。これらの理論家の主な目標は、問題解決、物体検出、認識、言語処理タスクにおいて優れたパフォーマンスを発揮する機械を設計することである(Zelinsky, 2013;Yang et al.)確かに、意識的であると主張されていない最近の機械学習システムで達成されたこれらのタスクの性能レベルに基づいて、少なくともいくつかのケースでは、意識は人工理解の必要条件ではないと主張する正当性がある。しかし、もし私たちの目標がここで定義したような機械的理解を作り出すことであるならば、その要件は異なるかもしれない。ここでは、自然な理解とは何かについて、より詳細に考えてみたい。

自然な理解

理解とは、簡単かつ正確に定義することはできない。英語には微妙に異なる意味があり(Oxford English Dictionary)、解釈も分野によって異なる可能性がある。しかし、一般的には、異なる部分が互いにどのように関連し、依存しているかを「把握」または「理解」する能力を意味すると考えられている(Grimm, 2011)。このセクションでは、2つの具体的な例を参照しながら、理解の主要な特性のいくつかをより詳細に説明することを目的としている。まず、自然言語理解の領域から簡単な例を挙げると、3つの単語のセットそれぞれについて、それらに共通する4番目の単語を探す。

An external file that holds a picture, illustration, etc.

Object name is fnsys-16-788486-i000.jpg

これらは、創造的可能性、問題解決、発散的思考、洞察力などの認知過程を評価するために一般的に使用されているリモートアソシエイツテストの例である(Mednick, 1968;Bowden and Jung-Beeman, 2003)。解決策を見出す際の思考回路を考えてみよう。課題を始めたとき、与えられた3つの単語は関連性のない並びを形成しているように見える。答えを見つけるのに苦労しているうちに、軽い緊張感や不安感を覚えるかもしれない。おそらく、与えられた単語を順番に並べ、それが他の単語を引き起こすのを待ち、与えられた単語を飛び越え、3つの単語をつなぐ新しい単語を発見するのだろう。共通項を見つけた3つの単語は、共通項と結びつくことで微妙にその意味を変えていくようだ。それぞれの個性はそのままに、新たな関係性を獲得していく。それぞれの言葉のつながりがわかると、突然、軽い喜びや安心感を感じるかもしれない2

美術品の解釈の領域でもう少し突っ込んだ例を挙げると、1の絵は1910年にパブロ・ピカソによって描かれたものである。この絵は、ピカソとジョルジュ・ブラックが第一次世界大戦争前の数年間に創作した分析的キュビスムの典型例で、日用品の配置が描かれている。キュービズムの視覚言語に馴染みがない場合、この作品が何を描いているのか理解するのは非常に難しく、不可能にさえ思えるかもしれない。

図1 1910年に描かれたパブロ・ピカソの絵画の複製品。©Succession Picasso/DACS, London 2022.

次に、図2の画像を考えてみよう。この絵は同じものだが、今回はいくつかの対象物に輪郭線とラベルが付けられている。この絵 (「レモンのある静物画」)を勉強してから図1に戻ると、ガイドラインがなくても、少なくともいくつかのアイテムがわかるようになっているはずだ。さらに時間と労力をかければ、最終的には全体の構図を把握できるようになるはずだ。そうすれば、この絵の意味をより深く理解できるようになるはずだ。物体の関係や位置関係を少しずつ分析することで、その意味が見えてくるかもしれない。あるいは、一瞬の閃き(「アハ!」の瞬間と呼ばれることもある)として現れ、突然の情報取得に伴う安堵感や満足感を伴うのかもしれない(Muth and Carbon, 2013;Damiano et al.)いずれにせよ、同じ画像を見ているにもかかわらず、以前はなかった物体や物体間の関係が存在するようになり、知覚と認知の能力に大きな変化が起こったのである。

ChatGPT:

「アハ体験(Aha! moment)」とは、突然に理解や気づきが得られる瞬間を指す。この用語は、アメリカの心理学者カール・ダンカーによって提唱され、その後、広く一般にも使われるようになった。

アハ体験は、普段考えていたことが突然に繋がったり、問題の解決策がふと浮かんだりする瞬間を指し、しばしば「光がさした」と表現される。このような体験は、問題解決や創造的な思考、学習の効率化などに役立つことがある。

アハ体験は、様々な分野で起こり得る。例えば、科学者が新たな発見をしたり、芸術家が作品のアイデアを得たり、日常生活で問題を解決するときにもアハ体験が起こることがある。

また、アハ体験は創造的な思考の促進につながることが知られており、創造性を必要とする仕事やプロジェクトでは、アハ体験を促すための環境作りが求められることがある。

図2 1910年に描かれたパブロ・ピカソの「レモンのある静物」の複製画で、輪郭線とラベルが描かれている。この絵には、グラス、フルーツボウル、レモン、鍵など、日常生活で使うものがたくさん置かれたテーブルが描かれている。テーブルの縁と脚は、中央のオブジェクトのグループの左側と右側に見ることができる。

このような理解の獲得において、知覚、認知、現象の各レベルで何が起こっているのだろうか。図2を見る前に、あなたはおそらく多かれ少なかれ抽象的なパターンやマークの配列を経験し、おそらく困惑やフラストレーションの感覚を伴っていたことだろう。そして、2に示されたアウトラインガイドを使って、ある物体の境界を周囲から切り離し、個々の物体のアイデンティティを確立し、それらが互いやシーン全体との関係においてどのように空間的に配置されているかを確認し始めただろう。物体認識の予測符号化理論によれば、あなたの脳は、知覚されているものの最も可能性の高い意味を迅速に予測するために、フィードバックを介して低レベルの知覚入力の処理に影響を与える高レベルの認知モデルを使用している(Rao and Ballard, 1999)。一旦この意味が理解されると、あなたはその画像の周りに、あなたの背景知識と経験というより広い文脈に基づいた意味的連想の新しいネットワークを作り上げたことになる(Harnad, 1990)

理解、認識、検出、学習は関連しているが、異なるプロセスである。ある意味では、この画像を研究することによって、あなたは物体を検出し、分類し、ラベル付けすることを学んだ。これは、機械学習システムが十分な学習例とコンピュータパワーがあればできるように訓練されるかもしれない。しかし、その理解を伴う現象的なアハ!インサイトを経験することで、あなたは単にある入力からある統計的出力を生み出したのではなく、あなたの知覚、認知、現象学的設備は、その意味がない状態からある状態への変換を経験したのである。脳画像や行動研究から、少数のキュビズム絵画の例でこのような経験をした人は、脳の活性化に測定可能な差異を生じさせながら、新しい例でより多くの対象をより速く認識することができるという証拠がある(Wiesmann et al. 2009)3

ChatGPT

アハ体験が起こりやすい、起こしやすい条件については、以下のようなものが挙げられる。

  • 問題意識の高さ:アハ体験は、問題を解決するための状況や課題に取り組んでいるときに起こりやすいとされている。そのため、問題解決の重要性や意義を強く意識している人ほど、アハ体験が起こりやすいと考えられる。
  • 関心や知識の深さ:問題についての関心や知識が深いほど、アハ体験が起こりやすいとされている。問題についての情報を収集したり、知識を習得したりすることで、問題に対する理解が深まり、アハ体験が起こりやすくなると考えられる。
  • 一時的な意識の変化:アハ体験は、一時的な意識の変化によって引き起こされるとされている。例えば、思考の停止やリラックス状態、または別の問題に取り組んでいるときなど、意識の状態が変化したときにアハ体験が起こりやすいと考えられる。
  • 創造性の促進:創造的な思考に重要な役割を果たす「連想」や「アナロジー思考」などの技法を取り入れることで、アハ体験が促進されることが知られている。
  • チームワーク:アハ体験は、協力やコラボレーションによって促進されることがあるとされている。チームで問題解決に取り組むことで、異なるアイデアや視点が結びつくことでアハ体験が起こる可能性があると考えられる。

これらの条件を意識し、問題解決や創造的な思考を促進することで、アハ体験が起こりやすい環境を作ることができる。

また、理解とは、単に物体を局所的に検出・認識することではなく、複数の異なる概念とそれに付随する連想を一度に頭に入れ、それらの相互関係や全体的な意義についてグローバルな観念を形成することが重要である。1969年に『ニューヨーカー』誌の表紙を飾ったジョルジュ・ブラックのキュビズム絵画を鑑賞する人の思考回路を描いたソール・スタインバーグの漫画(図34が示すように、異なる概念は非常に多様であり、必ずしも論理的に一貫しているとは限らない。つまり、たとえば、斜めの線と曲線と灰褐色の絵の具で構成されたある一枚の絵は、レモンであると同時に、とてもレモンには見えない。画像が構成される素材(絵具、インク、ピクセルなど)と、その素材が表す対象との間のこの二項対立は、たとえこのキュビズムの例が絵画的生地と描かれるものの間の知覚的不調和の極端な例であるとしても、あらゆる絵画的描写の基本的特徴である(Peperell, 2015)。しかし、この二律背反にもかかわらず、絵を見るとき、ある線や色のパターンが同時にまったく別の対象を表していることを理解することが妨げられることはほとんどない。

図3 ジョルジュ・ブラックのキュビズム絵画を鑑賞する人の多様な思考回路を描いたソール・スタインバーグの漫画が掲載された『New Yorker』誌の表紙。

要約すると、これらの問題解決と芸術解釈の事例は、ここで大まかに説明した自然理解の主要な特性のいくつかを示している。すなわち、不安を克服し快い報酬を得たいという欲求に動機づけられ、意識的に経験した洞察を伴い、多様で時には矛盾した一連の連想(その一部は文脈の知識と意味予測に依存)を伴い、それが同時認知状態で結合している推論、学習、認識の一形態であることである。これらの特徴を表2にまとめた。

表2 遠隔連想タスクと絵画の解釈の事例に基づく自然理解の主要特性のまとめ

自然界を理解するための重要な特性
インサイト Aha! 瞬間、または刺激の知覚の突然の変化、それまでなかった新しい意味の啓示を伴う。
報奨金 努力型認知を内発的に動機付ける正の価値付けをされた感情状態。
学習 学習をもたらした刺激以外のケースにも一般化できる新しい知識を獲得することによる適応
レコグニション 刺激または刺激の一部を、それが提示するまたは含む特徴に従って正しく分類する能力
差別化 知覚刺激を、複数の、多様な、時には矛盾するような意味のある要素に分割すること。
統合化 多様な知覚要素を、その多様性を損なうことなく、単一のコヒーレンス体験に統一すること。
コンテキスト 刺激の中にすぐには存在しないが、それに関連するアイデア、参照、意味とつながること
推論 既存のデータから論理的に推論・推定し、新しい知識を獲得する能力
予想 高次の認知モデルからのフィードバックを低次の知覚入力に適用し、迅速に意味を予測する能力
意識 自己と環境を認識している状態、特に刺激とそれに対する反応を認識している状態

このリストは自然な理解の各特性を網羅的に記述しているわけではなく、またまとめて正確な定義を与えているわけでもない。また、理解の形態によっては、突然の洞察ではなく、論理的な分析の過程によって到達するものもあることは注目に値する(Jung-Beeman et al.)しかし、少なくともここで論じた事例に関しては、このリストは自然な理解が内包する特性の範囲を示すものである。ここから他の自然理解のケースに一般化できると仮定すると、機械理解の本格的な実装に必要な特性のいくつかを特定したことになる。

人工知能の理解

自然界における理解の重要な特性のいくつかを説明したところで、冒頭で定義した人工知能の種類に目を向けることにする。既存の人工知能システムの多くは、脳組織の神経細胞の機能にほぼ近い、深い層を持つ畳み込みニューラルネットワークなどの計算神経回路網で実装されている。現代の深いニューラルネットワークは、1950年代に開拓されたパンデモニウムやパーセプトロンのような初期の神経を刺激する機械学習アーキテクチャから発展した(Rosenblatt, 1958;Selfridge, 1959)。これらの初期のモデルでは、連続的な入力データはまず「特徴検出器」によって離散化され、次に特徴の特性に対応するように重み付けされたニューロンの層が介在するように渡される。すべての重みの合計に基づいて、システムは最も可能性の高い出力に関する決定処理に到達する。これらのモデルは、後にRumelhartとMcClelland(1986)によって開発された人工知能への並列分散アプローチに影響を与え、多くの点で今日の人工ニューラルネットワークや機械学習システムの中核的アーキテクチャを提供することになった。

典型的な人工ニューラルネットワークは、例えば写真中の物体を分類する場合、画像を入力として受け取り、それを(画素の色値や画素のクラスタなどの)サブセクションに分割し、それらの値を相互に接続された多くの「隠れ」層の1つにあるノードまたはニューロンの配列に渡し、入力のクラスと考えられる確率的推定値に到達するために重みと偏りを適用して、結果を出力層に渡してユーザが読み出すことができるようにするものである。ネットワークに多くの学習画像を与え、バックプロパゲーションなどの誤差補正技術を使用して重みとバイアスを徐々に最適化することにより、ネットワークは最終的に学習データセットのサイズ、ネットワークの層数、誤差補正の量などの要因に依存した精度で対象物を分類するように学習する。このアーキテクチャの単純なフィードフォワードの例を図 4に示す。

An external file that holds a picture, illustration, etc.

Object name is fnsys-16-788486-g004.jpg

図4 単純なフィードフォワードのニューラルネットワークのアーキテクチャは、対象データを離散化する入力層、確率的な重みを調整できるノードまたは「ニューロン」を含む隠れ層、システムの決定を読み取ることができる出力層で構成されている。

2010年代に人工ニューラルネットワークと深層学習技術の研究が爆発的に進み、それに伴って生の計算能力が指数関数的に向上して以来、機械学習を実装するための設計と手法が大量に進化した(LeCun et al.2015;Aggarwal,2018)。BERT(Bidirectional Encoder Representations from Transformers)のような現代の深層学習システムの場合、さまざまな自然言語理解タスクにおけるパフォーマンスを最適化するために、いくつかの手法が組み合わされ、BERTの異なる変異株の相対パフォーマンスは、SuperGLUEなどの標準化ベンチマークに対してテストされている(Wang et al.、2019)

これらのテストでは、人間またはコンピュータに文章が提示され、正しい答えを引き出す。読解力、選択肢の中から正しく選ぶこと、仮説に基づき正しく推論することなど、様々な理解力が試される。例えば、次のような因果関係の推論課題(Roemmele et al:私の体は芝生に影を落としている」という記述と、「何が原因か?例えば、次のような因果推論課題(Roemmele et al., 2011)では、「私の体は草むらに影を落とした」という記述と「この原因は何か」という問いに対して、回答者は選択肢1「太陽が昇っていた」と選択肢2「草が刈られた」から正しい選択肢を選ぶ必要がある。2021年、BERTのDeBERTa変異株は、SuperGLUEベンチマークに対して、いくつかのテストで余裕をもって人間の性能を上回ることが示された(He et al.)

画像分類システムは、自然言語処理システムと同様の手法を用いる畳み込みニューラルネットワークを使用して、画像内のオブジェクトを認識、分割、または位置特定するように設計されているが、ImageNet5などのリポジトリに保存されている人間の注釈付き写真の膨大なデータベースで学習する。2010年に始まったImageNet Large Scale Visual Recognition ChallengeまたはILSVRCなどのコンテストでは、競合モデルが互いに競っている(Russakovsky et al.、2015)。ImageNetチャレンジでは、データベースからアノテーションされた画像の大規模なデータセットをトレーニングに使用し、アノテーションを控えた小規模なサブセットをテストに使用する。競合する分類器は、画像に存在するオブジェクトのクラスを予測したり、オブジェクトの周りにバウンディングボックスを描画したりするなど、テストデータセット上でいくつかの種類の認識および検出タスクを実行することが求められる(前述のキュビズム絵画の例と似て非なるタスクである)。画像分類性能のブレークスルーは、2012年にAlexNetアーキテクチャ(Krizhevsky et al.、2017)の導入によりもたらされ、ImageNetチャレンジにおいて当時前例のない63.3%のスコアを達成した。2021年までに、Convolution and self-Attention Net(CoAtNet)などのシステムは、90.8%の精度スコアを達成していた(Dai et al.、2021)

このような自然言語や画像分類の機械が日常的に90%以上の精度を達成し、場合によっては人間を凌駕していることを考えると、自然な理解を実現する生物組織やプロセスとは全く異なる基質で実装されていても、理解能力を有していると言えるのではないだろうか。例えば、単語が欠落している文章や、多くの物体が写っている写真を見せれば、欠落している単語を予測したり、物体にラベルを貼ったりすることができるだろう。このような理解、推論、認識、検出の能力をデジタルコンピュータに実装したものを、ここでは人工理解と呼んでいる。

ここで広く説明されている人工的な理解の主要な特性は、大規模なデータセットによる訓練に依存していることである。システムは、ニューロンの確率的な重み付けを調整することによって学習し、エラー補正によって修正され、与えられた入力に対して最も可能性の高い出力を予測する統計モデルをもたらす。このプロセスを実行するために、入力データはパーツに区別され、パーツ間のパターンと関連性を見つけるために分析され、その後、出力を生成するために統合される。人工的な理解の主要な特性は、表 3にまとめられている。

表3 自然言語処理と画像分類の事例をもとに、人工的理解の主要な特性をまとめたもの

人工的な理解の主要な特性
予想 確率的な計算に基づいて、ある入力があった場合に正しい出力を推定する能力。
学習 出力の正しさに基づくフィードバックによって導かれる訓練と適応のプロセスを通じて、システムの性能を向上させる。
差別化 入力を複数の特徴に分割し、規則性やパターンの観点から分析できるようにすること
統合化 微分された特徴を確率的に解析して出力したものをまとめたもの
コンテキスト 学習データから抽出され、最も可能性の高い欠損データを予測するために使用される統計的関係の表
レコグニション 与えられた入力、または入力の一部から、その特徴を分析し、正しい出力を予測することによって、対象物を正しく識別またはラベル付けすることができる
推論 インプットに含まれるが明示されていない情報をもとに、正しい結論を選択する能力

繰り返しになるが、これは人工的な理解の主要な特徴の包括的なリストでも、正確な定義でもない。しかし、ここで取り上げた自然言語処理と画像分類システムに基づいて、自然な理解と人工的な理解の間の有益な比較を行う立場にある。

自然理解と人工理解の比較

表4からわかるように、ここで説明した自然理解と人工的理解は、少なくとも表面的にはいくつかの重要な特性を共有しているが、一部は自然理解に特有のものである。この項では、これらの特性を比較し、どの程度共通しているのか、また、どのような違いがあるのかを明らかにする。

表4 上記の事例をもとにした、自然理解と人工理解の主要特性の比較

自然理解と人工理解の特性を比較する
自然な理解 人工知能の理解
学習 学習
レコグニション レコグニション
差別化 差別化
統合化 統合化
コンテキスト コンテキスト
推論 推論
予想 予想
意識
インサイト
報奨金

太字のプロパティは共有するもの

共有財産

一見したところ、どちらの理解も、学習、認識、分化、統合、文脈情報の利用、推論、予測などの能力を共有しているように見える。これらの主要な特性は、人間と人工神経回路網において機能的に類似しており、たとえそれらがインスタンス化される基板や実装方法が大きく異なっていても、特定のタスクについては同じ入力から同じ出力を生成することが可能である。自然言語処理の場合、前述のように、人間の読解力、推論力、理解力を測定するために設計されたテストを基にしたSuperGLUEテストで使用される基準に対して評価すると、人間とコンピュータは同等のスコアを達成できる(例えば、Roemmele et al.、2011)。また、ニューラルネットワークベースの画像分類システムも、現在では日常的に人間と同等、時には人間を上回る性能を発揮している(Buetti-Dinh et al.、2019)。そして、ヒトにおける予測符号化の神経科学的モデルは、物体認識能力を強化したニューラルネットワークの新しい設計にインスピレーションを与えている(Wenら、2018)。これらすべては、これらの人間の認知能力をエミュレートする人工理解システムの驚くべき熟練度の証である。

しかし、いくつかの深層学習モデルで達成された印象的なレベルの性能や、人間の能力との機能的類似性にもかかわらず、それらは、どの程度頑健で一般化可能かという点を含め、いくつかの点で人間レベルの性能とは異なり、不十分なままである。キュビズム絵画の解釈のケースで述べたように、人間はあるケースで学習したことを新しいケースに適用することに長けている(Wiesmann et al.2009)。しかし、深層学習システムは、学習に用いる限られたデータセットに対して非常に細かく「調整」されるようになるため、最近自然言語推論の領域で示されたように、システムの能力が学習データに限定され、新しいケースに適応できない「浅い」学習の危険性がある(McCoy et al.、2019)

一方、ImageNetで学習した機械学習システムを用いた画像分類タスクは、特定のタスクにおいて人間レベルの性能を達成するには至っておらず、人間のエージェントに比べてロバスト性や汎化性に劣ると評価されている(Shankar et al.、2020)。画像分類アルゴリズムにおけるロバスト性と汎化性の問題は、さらに、写真の内容を理解するリーディングモデルの能力が、難しいケースや「難しい」ケース、すなわち画像の内容がより曖昧なケースによって著しく損なわれることを示す研究によって強調された(Recht and Roelofs, 2019)

人間と機械の理解(ここで使う用語では自然と人工)の違い、すなわち不協和音について、Zhangら(2019)はBiedermanの人間の画像理解に関する理論(Biederman, 1985)の文脈で検討した。Biederman(1985)は、画像認識は、まず画像を見る位置や画質に関して不変な構成要素に区別または分割し、これらの構成要素から画像全体に対する理解を構築することに依存すると主張した。Zhangら(2019)は、人間とニューラルネットワーク(NN)画像分類器の両方に、画像の集合を、認識に最も顕著な部分を含む「スーパーピクセル」にセグメント化するよう求めた。彼らは、人間とNNが異なる方法で画像をセグメント化する傾向があることを発見した。このことは、人間とNNが異なる戦略でタスクをこなしていることを示唆している。しかし、より困難な画像や曖昧な画像では、NNは人間よりも性能が劣っていた。

これらの証拠から、自然言語理解と人工言語理解は、少なくとも機能レベルでは表4の太字で示した特性を共有しており、場合によっては同程度の性能を発揮するものの、頑健性や一般性、困難なケースへの対応力には大きな差があることがわかる。さらに、機械学習システムが偽の相関関係に依存していないか、つまり「間違った理由で正しくなる」ことがないか、また、本当に意味理解の能力を持っているか、といった疑問も残っている。このため、「賢いハンス」や「中国の部屋」的な批判、すなわち、本質的に真に認知・理解しているわけではない、という批判を受けやすい。

ユニークなプロパティ

自然理解と人工理解の本質的な違いは、自然意識に特有の重要な特性(最も明白なのは、それが意識を伴うということ)を考慮すると、より顕著になる。意識の性質、それが人間(あるいは他の生物)にどのように備わるのか、また、非生物学的基質においてどのように実現されうるのか、といった疑問は膨大で深いため、ここで詳細に取り上げることはできない。しかし、自然な理解という意識的な性質が、全体としてどのような現象に寄与しているのか、そしてなぜそれが人工的な種類との本質的な違いや優位性を説明するのに役立つのかを簡単に考えることは必要だろう。ここで述べた自然な理解の他の重要な特徴の2つ、すなわち洞察力と報酬は、それ自体が意識的な経験の側面であることを考えると、これは特にそうである。

意識は、自己と環境を認識している状態と定義することができる。この場合、認識とは何を意味するのかという疑問が生じるが、ここでは、私たち自身がその意味をよく理解しているということにしておく。意識のあるシステムとそうでないシステムの違いを測る一つの方法は、人間の脳のような意識のあるシステムは、その組織と行動において非常に高いレベルの分化と統合を同時に示すということである(Tononi et al.、1994)。もちろん、異なるサブシステムが結合して構成されたシステム、すなわちシステムのシステムであれば、ある程度は分化・統合される(Nielsen et al.、2015)。しかし、人間の脳の場合、この程度は極めて大きく(Tononi et al., 1994)、システムの複雑さを指標とするならば、既存の機械学習システムよりもはるかに大きいようだ。人間のニューロン1個の複雑さをエミュレートするには、7層を有する複雑なニューラルネットワークが必要であるが(Beniaguev et al., 2021)人間の脳には、このようなニューロンが約860億個、非神経細胞がほぼ同じ数あると推定されている(Azevedo et al., 2009)

意識に関する神経科学的研究から得られた最近の証拠は、意識状態の間の脳活動が分化・統合される方法について、現象状態の生成に寄与する何か特別なものがあることを示唆しているBaarsら(2013)Mashourら(2020)が提唱するGlobal Neuronal Workspace Hypothesis(GNW)は、局所的、離散的かつ広範囲に分布する皮質機能が相互に連結した長距離軸索を介して統合されているという意識処理のモデルを提唱している。そして、これらの離散的な機能プロセッサの1つ以上からの情報が選択的に増幅され、システム全体にわたって「放送」されることで、意識主体に単一の統合された首尾一貫した経験が生み出されるというものである。Tononi and Koch (2015)andTononi et al. (2016)によって提唱された意識の統合情報理論 (IIT) – GNWとある意味で競合する理論 – は、脳などのシステムが意識を持つためには、高度な分化(情報の豊かさ、多様性を意味する)と統合(情報の相互依存性、相互関連性を意味する)、その量はΦという値で与えられることを予測するものである。例えば、完全に意識のある脳は、部分的に意識のある脳や無意識の脳よりも、より多くのΦを含んでいることになる。

TononiとKochは、この仮説を実証的に支持するものとして、Casaliら(2013)が行った研究を挙げている。意識の兆候をほとんど、あるいはまったく示さない重度の脳損傷患者を含む、さまざまな意識レベルの人々の脳に磁気パルスを印加し、その結果生じる活性化パターンを情報理論的な複雑さの尺度を使って測定したところ、活性化パターンがどの程度の分化と統合を示すかに基づいて、意識レベルを確実に識別することができたのである6。その結果、分化と統合の度合いが大きいほど、意識レベルが高いことを確実に予測でき、このレベルが脳のある閾値を下回ると、どの人が意識不明になるかを予測できることがわかった(植物状態にある重度の脳障害者等)。重要なのは、意識が低下した人々の脳はある程度機能しており、したがって多くの物理システムの基準からすると高度な分化と統合を示していたにもかかわらず、完全な意識を支えるのに必要な閾値を下回っていたという点である。

完全な意識状態は、脳内の局所的・分離的なネットワークとグローバルに統合されたネットワークの活動間の重要なバランスの維持に依存しているというさらなる証拠が、Rizkallahら(2019)により提供された。研究チームは、高密度脳波データのグラフ理論に基づく分析を用いて、長距離機能ネットワーク間の統合レベルも低下すると意識レベルが低下し、同時に、情報処理がますますクラスター化・局在化することを示した。意識障害以外にも、脳組織における局所分離とグローバル統合の間の不均衡が、精神神経疾患やその他の臨床疾患に関与していることが研究者によって示されている(Fairら 2007Lordら、2017)

この証拠によって提起された一つの難しい問題は、意識のある人の脳の活動で観察される分化と統合のレベルとその意識状態の間に直接的な因果関係があるのか、それともその相関は偽りなのか、ということである(Pepperell, 2018)。この問題は哲学的な要素が強すぎるため、ここで深く取り上げることはできない。しかし、上記のような、理解されるものの部分と部分間の関係の両方を同時に認識することを伴う自然理解の現象的性格は、18世紀にライプニッツ(1998)が観察し、その後も多くの人が観察したように、すべての意識状態の性質と思われる、分化と統合を同時に経験するという表現の一つに過ぎない7。この相関関係は、現象学とその背後にある神経生物学との間の因果関係を証明するものではなく、また、意識のある脳で起こる分化と統合の特定の種類や程度がなぜ重要だろうかを説明するものでもないが、この相関関係が単なる思いつきであるという主張を弱めるものではある。

意識的に経験される洞察(insights)という特性に関しては、神経心理学から、突然の洞察やAha!によって達成されるものを含む理解や納得は、分化した脳のプロセスの統合に重要な脳の領域が媒介するという証拠がある(St Georgeら, 1999;Jung-Beeman ら, 2004)物体表現が意識化される際に、広く分布する脳領域を束ねるメカニズムも同じ原理であることが観察されている(Tallon-Baudry and Bertrand, 1999)他の研究では、突然の洞察や理解の瞬間の出現は、実際には、先行する複数の脳の状態やプロセスの集大成であることが示されている。洞察は「準備された心」に有利で、これらの大部分が無意識のプロセスを単一の意識状態に引き寄せる働きをすることが示唆されている(Kounios and Beeman, 2009)。したがって、この証拠は、意識を媒介する根本的なメカニズムと自然な理解、すなわち洞察の現象論との間の関連性をも指し示している。

報酬の性質に関して、洞察を経験した人の情動状態に関する研究では、情動は多様だが正の価を持ち、幸福、確信、穏やか、興奮、容易、喜びが最も多く報告されている(Shen et al.、2016)。洞察と問題解決に関連する情動状態は、ポジティブな情動と報酬に関連する脳の領域の活動や、タスクに関連する動機づけ領域の活動に依存すると同時に、学習の強化、記憶の再編成、意味の一貫性、高速検索エンコーディングのプロセスに関与することが示されている(Tikら、2018)

サブリミナルに合図された場合でも、潜在的報酬の動機づけ力は、上で引用した遠隔アソシエイト課題のバージョンを使って、人の問題解決パフォーマンスをテストした研究者によって実証された(Cristoforiら、2018)。彼らはその結果に基づいて、報酬の可能性が、行動を強化し、認知を促進し、分化したプロセスの自動統合を強化する脳のシステムを活性化したと推測している。サブリミナルにそうすることで、認知リソースが注意選択性などの意識的プロセスから流用されないため、全体的なパフォーマンスを促進すると論じた。さらに、気分は問題解決のパフォーマンスに大きく影響し、ポジティブな感情を持つ人は、そうでない人よりも問題解決や洞察に至ることができるという証拠もある(Subramaniam et al. 2009)。この発見は、意識的に経験される情動と理解能力の間の関連性を補強するものである。

自然な理解に特有の主要な特性に関する神経生物学的および心理学的データから確固たる結論を導き出すのは時期尚早だが、一般的な傾向を示しているように思われる。すなわち、意識的に何かを理解する行為は、神経生物学的および現象学的に高度な同時分化と統合、そして問題解決に報い、学習の動機付けとなる正の価値観を持った情動によって特徴付けられるというものである。このように、共通する性質とユニークな性質を比較分析することで、自然な理解と人工的な理解の間には機能的な類似性があるものの、機能的にも本質的にも大きな違いがあり、それは部分的には自然な理解が伴う意識的性質に起因することが明らかとなった。

仮説

提示された証拠と議論から、人工的な理解の現在の性能の限界と、序文で指摘したその真正性に関する疑問は、少なくとも部分的には、人工的な理解には意識の能力と、それに関連して、自然の理解に見られる洞察と報酬の能力が欠けているために生じるのではないかと提案された。この提案は、次のような仮説で表すことができる。

ロバスト性、一般性、困難なケースでの能力、意味の真正な理解など、人工的な理解システムで望ましいとされながら不足している能力は、少なくとも部分的には、洞察を得る動機、洞察が必要とする多様な概念の統一、および達成から得られる報酬が意識的に経験されることによって、自然の理解で発生する

この仮説は、自然理解に特有の性質が、その能力や本質に寄与している理由として、少なくとも2つあるのではないかと考えている。

  • 1. 報酬の約束、および報酬を達成することによって伴う肯定的な感情状態は、記憶検索、物体認識、選択的注意などの必要な認知資源を手元のタスクに充てるための内在的動機(Di Domenico and Ryan, 2017)をシステムに提供する。これにより、学習が強化され、記憶の再編成が促進され、その後の関連タスク、特に困難なケースに関するパフォーマンスが向上し、また頑健性にも寄与する。
  • 2. 人間の意識の発生に関連する、高度な同時分化と統合を生み出す神経生物学的活動は、理解者が多くの多様な認知状態を、その構成状態間の差異を消すことなく、単一の包括的認知状態に同化させることを可能にするものである。この神経生物学的活動は、「自然な理解」の項で述べたように、現象学的レベルに反映されており、自然な理解は、多様で、時には矛盾するような概念を同時に「把握」して、意味のある概念全体を形成することによって特徴付けられる。

これらの理由の妥当性について結論を出すには、さらなる分析、調査、そして理想的には実証的なテストが必要だろう。

機械学習の実践

機械理解をどのように実装するかという問題は、機械意識をどのように実装するかという問題と関連しているが、それとは異なる(Haikonen, 2003;Pepperell, 2007;Yufik, 2013;Manzotti and Chella, 2018;Hildt, 2019)。ここで述べたような自然理解の特性を人間以外の基質に符号化しようとする人が直面するであろう概念的・技術的課題を詳細に検討することは、この記事の範囲外である。しかし、私たちが実装しようとしているのが自然な形の理解であるとするならば、そのような機械を作るための自然主義的アプローチは有益であるかもしれない。「自然主義的」というのは、自然界に存在する現象の性質や機能をできるだけ忠実にモデル化しようとするアプローチのことである8。これは、先に挙げた機械学習の初期モデルが、自然の生物学的プロセスに直接触発されたものであることと一致する。

今日の人工神経回路網は、こうした初期の自然主義的発想のモデルの直接の子孫であるにもかかわらず、人間の認識と意識の根底にある生物学的プロセスとは重要な点で異なっている。例えば、成人の人間の脳は体積の約2%を占めるが、安静時には体のエネルギー予算の約20%、つまり約20Wを消費する(Sokoloff, 1992;Laughlin, 2001)ことを考えよう。しかし、このことは、脳が非常にエネルギーを消費していることを示唆しているかもしれないが、実際には、現在のコンピュータ、特に機械学習タスクを実行するコンピュータと比較すると、非常に効率的である(García-Martín et al.、2019)大脳皮質が実際の計算を行うために使用する電力量(ATPの利用可能量)は約0.1Wと推定されているが、たった1回の学習モデルのトレーニングで60万kWh以上を消費する(Strubell et al.2019)。

また、脳によるエネルギー資源の組織化と利用は、しばしば想定されるよりもはるかに重要な役割を意識の生成に果たしている可能性があることを考慮する(Shulman, 2013)。現在の文献で優勢になりがちな、主にデジタル情報処理パラダイムに基づく脳活動の神経科学的モデルは、現象的状態の生産におけるエネルギーの因果的役割を過小評価してきたと言える(Pepperell, 2018)。例えば、上述のCasaliら(2013)による分化と統合のレベルに基づく意識の測定に関するブレイクスルー研究は、「情報処理」の大きさが意識の大きさに関係するという、情報理論的な観点から一般的に解釈されている。しかし、同じ結果は、脳内の代謝プロセスの分化と統合のレベルが高いほど、観察された意識のレベルが高いことと因果関係があるという根拠で、エネルギー的な用語で同様に解釈することができる。

近年、ニューロモーフィック・ハードウェアを用いた機械学習システムのエネルギー効率を劇的に向上させる試みがなされており(Stöckl and Maass, 2021)、機械学習コンピューティングが環境に与える影響への認識が高まっていることから、今後、より精力的に研究が行われることが予想される(Dhar, 2020)。これと並行して、理解などの精神機能においてエネルギーと仕事が果たす因果的な役割の理解を深めること(Yufik et al.、2017)や、複雑で自己組織化した非平衡システムの自然な計算能力を利用しようとする熱力学に着想を得た計算モデルへの関心が高まっている(Hylton. 2020)。同時に、機械理解や意識が実装される物理的基盤が、その機能性や効率に決定的な影響を与えるかどうかについての議論も続いている(Koene, 2012)。こうした議論は、例えば、人工知能におけるエネルギーの獲得と散逸の基礎的な役割が強調される自然主義的アプローチの文脈で、特に関連性が高くなる(Thagard, 2022)。こうした動きは、脳という自然システムにおいてエネルギーが果たしている役割に関する考察が、今後の機械理解や機械意識の開発にますます反映されていくことを示唆している。

また、脳機能に関する現在の神経科学的理論に直接触発された、知覚、認知、意識という人間のような能力を持つシステムの設計に関する研究も活発に行われている(Marblestone et al.)これらの中で顕著なのは、上で引用したグローバルニューロナルワークスペース(GNW)理論に基づくモデルである(Haqiqatkhah, 2019;Mallakin, 2019;Safron, 2020;VanRullen and Kanai, 2021)。この理論によれば、脳には、高度に分化し、局在化し、広く分布し、しかも無意識のうちに行われる多くのプロセスが存在する。ある条件下では、これらの局所的なプロセスが脳内ネットワーク全体に伝達され、統合された認知状態を形成し、この理論の提唱者は意識的に経験されると主張する。この理論を「自然な理解」の項で述べた例に当てはめると、キュビズムの絵画が生み出す多様な知覚、概念、連想は、脳全体の皮質プロセスにおいて、このように別々にインスタンス化されると想像することができる。同時に、長距離軸索を含む豊かに相互接続されたグローバルな作業空間領域は、1つまたは複数の局所プロセスを選択してシステム全体に流すことができるため、絵画の意味を理解したときに経験するのと同じように、多様なプロセスを広く同時に統合することができる。VanRullenと金井(2021)のような研究者は、現在の機械学習システムの性能を向上させ、潜在的に意識能力を持たせるという観点から、GNWを人工ニューラルネットワークに実装する方法を提案している。このような脳に触発された機械が検証されれば、原理的には、ここで定義した自然な理解を機械的に実現するための要件を満たすことになる。

しかし、現在のコンピュータアーキテクチャーの限界を考えると、自然の理解をエミュレートする能力、つまり機械で自然のプロセスを再現する能力については、慎重にならざるを得ない理由もある。意識に関連する脳活動の重要な特性は、高度に再帰的な神経処理の存在である。この神経処理では、活動が脳全体に前方および後方に送られ、動的ループを形成して、局所処理をより大きなグローバルネットワークに結合している。GNWは、再帰的、リエントラントまたはリカレント処理の重要性を強調するいくつかの脳機能理論の一つであり(Edelman and Gally, 2013;Lamme,2020)、そのようなフィードバック活動の減少が麻酔中の意識喪失の特徴の一つであることが示されている(Lee et al.)GNWによれば、リカレント処理は、複数の多様な内容が一つの心的状態に束ねられる意識経験の同時性が生み出される一つのメカニズムである(Mashour et al.)前述したように、何十億もの相互作用する細胞が3次元格子に密に配置された脳の非常に複雑な生理的組織を考えれば、リカレント処理の複雑な多次元パターンがいかに発生するかを理解するのは難しいことではない。

しかし、現在のデジタルコンピュータアーキテクチャでは、同様のレベルの再帰的処理を実装することはおろか、シミュレーションすることさえ困難である現在のコンピュータのハードウェアは、一般に中央演算処理装置によって制御され、一定のクロックレートでコンピュータコードを順次実行しているため、生物のニューロンで観察されるような高度に非線形でグローバルに相互接続された動作を作り出すことができない。さらに、現在のコンピュータにおけるプログラムの実行は、並列処理アーキテクチャにかかわらず、主として線形であるため、自然な理解と意識的な処理を特徴付けると思われる処理の同時性が損なわれている。もちろん、ソフトウェアで実装されたフィードバック機構は、しばしば機械学習アルゴリズムに不可欠であり(Herzogら、2020)、神経フィードバックはソフトウェアでシミュレーションすることができる(Caswellら、2016)。さらに、哺乳類の脳における再帰処理が物体認識をどのように助けるかに関する最近の研究でも、ニューラルネットでシミュレーションすると性能が向上することが示されている(Kar et al., 2019)。しかし、人間の理解と意識を示すと思われる方法で、非常に多数の多様なモジュールの同期統合をサポートするために必要な程度の再帰処理と同時処理を生成することは、上述の複雑さの要件を考えると、現在のデジタルコンピュータアーキテクチャの能力をはるかに超えている可能性がある。

このように、自然界の生物学的プロセスは、意識などの人間の認知能力を非ヒトの基質に実装しようとする人々の指針やインスピレーションの源であり続ける一方で、克服すべき大きな課題や問題が残されていることがわかる。

結論

この論文では、機械による理解に意識が必要かどうかという問題を取り上げた。私は、理解の正確な運用上の定義はないものの、自然な理解、人工的な理解、そして機械的な理解という有用な区別をすることができることを示した。自然な理解の具体例を分析することによって、その主要な特性のいくつかを説明し、人工的な理解の主要な特性のいくつかと対比させた。これらの特性や両者の対比についてはさらに多くのことが言えるが、ここで紹介した分析から明らかなように、自然な理解の意識的特性は、両者に機能的な類似性があるにもかかわらず、人工的な理解とは機能と本質の両方で大きな違いを示している。

この分析に基づいて、私は、自然な理解が人工的な理解よりも優れている点、特に、頑健性と一般化能力、困難なケースに対処する能力、認知と意味処理の信憑性の点で、その説明に役立つ仮説を提案した。機械的理解を実現するための実際的な課題についても簡単に考察したが、これは明らかにかなりのものである。つまり、人間の理解を仲介する生物学的プロセスや構造をモデル化し、それらを人間以外の機械的基盤に可能な限り効率的に実装することである。しかし、このアプローチを追求するためには、現在の計算機アーキテクチャを超えることが必要かもしれない。

本研究にはいくつかの限界がある。3つ挙げると、まず、冒頭に述べたように、自然理解という現象は非常に複雑で多面的であり、理解とは何かということについて正確な定義がないことである。さらに悪いことに、異なる専門分野の異なる人々が異なる意味で理解することができる。そのため、単一の分析で、その多くの心理学的、神経生物学的特性をすべて把握し、それらをすべて詳細に定義し、すべての人が同意する形でそれらがどのように相互作用するかを説明できる可能性は低い。ここで採った実用的なアプローチは、これらの特性を正確に定義するのではなく、広範な用語で記述することで、現象の有用な作業説明を提供し、特定のケースで理解の他の実装と比較できるようにすることだった。しかし、この分野での今後の研究には、より正確で一般的に合意された定義が必然的に必要となる。

第二に、ここで論じた意識と理解の関係は、上述のように、自然な理解を可能にする認知プロセスの多くがサブリミナルに起こるという事実によって複雑になっている。今後の研究では、脳内の無意識的な処理の役割をより深く考慮し、このことが機械的理解システムの設計にどのように反映されうるかを検討する必要があるかもしれない。このことは、人間以外の基質に人間のような能力をうまく実装するために、自然の脳のプロセスと機能をどの程度再現する必要があるのか、あるいは、たとえ非常に異なる手段であっても、多かれ少なかれ同じ結果を達成する機械を設計すれば、「すべての実用的目的のために」十分だろうかどうかについて、さらなる疑問を提起している(Anderson. 2017)

第三に、機械理解の問題は、今日まで、そして大部分において、コンピュータサイエンスの学問分野の中で取り組まれてきたものである。この論文で紹介する分析は、美術史、心理学、神経科学、コンピュータサイエンス、意識研究などの知識を用いた、高度に学際的なものである。このような高度に学際的な研究には、構成する知識を単純化しすぎてしまう危険性が常にある。しかし、機械理解の問題は、あまりにも広く深い問題であるため、このような高度な学際的アプローチを取らざるを得ないのかもしれない。その場合、広く分散した研究分野間の協力のプロトコルを確立する必要がある。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー