Contents

A Large-Scale, Cross-Sectional Investigation Into the Efficacy of Brain Training

A Large-Scale, Cross-Sectional Investigation Into the Efficacy of Brain Training

www.ncbi.nlm.nih.gov/pmc/articles/PMC6629869/

要旨

脳トレは大規模で拡大している産業であるが、その科学的根拠や有効性のエビデンスについては、現在も継続して議論が行われている。このような議論の中で、脳トレーニングの有効性を示す証拠の多くは、「脳トレーニング」の種類、伝達効果の特異性、一般化された効果を得るために必要なトレーニングの長さなどを評価していない小規模な研究から得られている。

これらの要因を探るために、我々は2つの大規模なインターネットコホート研究（合計N=60,222）からの横断的データを分析し 2010年から 2013年頃に一般的に使用されているプログラムを用いて、異なるデバイスで、異なる時間枠で脳トレを行っていると報告した個人の認知が集団レベルで異なるかどうかを決定した。

ワーキングメモリ、推論と言語能力の評価のためのスコアを調べると、脳を鍛える個人のための認知的な利点はないを示している。これは、定期的にコンピュータ、ボードゲームやカードゲームなどの他の認知的な追求を行う個人のための有意な利点と不利に対照的である。

しかし、より詳細な分析では、脳トレと認知能力の間にはより複雑な関係があることが明らかになった。具体的には、脳トレを始めたばかりの人は、脳トレをしたことがない人に比べて認知能力のベースラインが低いのに対し、1年以上トレーニングを続けている人は、始めたばかりの人に比べてワーキングメモリと言語のスコアが高いことから、長期的な脳トレの有効性が示唆されている。

数ヶ月間のトレーニングでグローバル機能、作業記憶、言語記憶が向上することは、臨床的にも妥当な規模であると考えられる。しかし、この関係は推論能力や日常生活機能の自己申告尺度（例えば、就労状況や注意力の問題）では明らかではなかった。これらの結果は、脳トレーニングプログラムは利益をもたらす可能性があるが、その利益はトレーニングレジームと操作的に類似したタスクにまで及ぶ可能性があるという見解と一致している。

さらに、認知能力を効果的に向上させるために必要なトレーニング期間は、ほとんどの先行研究で適用されている期間よりも長くなっている。

キーワード

脳トレーニング、脳トレーニングの効果、横断的研究、記憶、市販の脳トレーニング

序論

脳トレは、大規模で拡大している産業である。この分野の売上高は毎年20～25%のペースで増加しており 2013年には世界で13億ドルを突破し 2020年には60億ドルを超えると予測されている（SharpBrains, 2013; Cookson, 2014; Katz, 2014）。脳トレもまた、集中的な学術研究の焦点となっているが、脳トレの知名度と商業的な成功にもかかわらず、その有効性については未だに多くの議論がなされている。

最も注目すべきは 2014年に70人以上の科学者が「科学界からの脳トレ産業に関するコンセンサス」と題した公開書簡に署名し、脳トレの有効性について科学的根拠も証拠もないと主張したことである(Allaire et al 2014)。これに対し、2カ月後には、100人以上の科学者からなる別のグループが、形式的にも内容的にも公開書簡を公に批判し、「脳トレ効果」の証拠は十分にあると主張し、最初の書簡がコンセンサス見解とは考えられないことを強調した（Alescio-Lautier et al 2014）。また、後者のグループは、科学的証拠を無視した極端な「信仰に基づく」立場を取っていると非難している。現在のところ、意見は分かれたままである。

この論争には多くの要因が絡んでいる。最も根本的なレベルでは、何が正確に「有効性」を構成するのかという定義についての不確実性がある。より具体的には、脳トレの目的は、コンピュータを使った特定の課題で反復運動を行うことによって、認知力の全般的な向上をもたらすことにある。効果があるとみなされるためには、脳トレーニングは、基礎となる認知能力の改善を介して、トレーニングされていないタスクのパフォーマンスを向上させる必要がある(Lindenberger et al 2017)。その結果、検証研究では、”一般化 “または “転移効果 “の証拠を探する。

コンピュータによる認知トレーニングにおける最大規模の学術的ランダム化対照試験（ACTIVE、IHAMS、IMPACT）のいくつかは、認知機能の改善、および日常の認知機能への移行の証拠を報告している（例：手段的日常生活動作(I日常生活動作)/HRQoL/HRQoL/HRQoL/HRQoL/HRQoL/HRQoL/HRQoL）。それぞれ手段的日常生活動作(I日常生活動作)s/HRQoL/うつ病、手段的日常生活動作(I日常生活動作)s/うつ病、PROs）（ACTIVE：Willis et al 2006;Rebok et al 2014;IHAMS：Wolinsky et al 2013;Wolinsky et al 2016;IMPACT：Smith et al 2009;Zelinski et al 2011）。しかし、別の大規模試験では、より長い時間枠でトレーニングを行った高齢者では、実測値への一般化を含む肯定的な結果が報告されたものの、若年成人では否定的な結果が報告された（Owen et al 2010）。認知トレーニングの最近のメタアナリシスとパイロット研究では、認知機能におけるベネフィットが示されており、前者では特に訓練されていない尺度への移行を指摘し（Mewborn et al 2017)後者ではグローバル認知の向上に関連した短期的な機能的および長期的な構造的可塑的変化が報告されている（Lampit et al 2015a, 2015a, しかし、Lampit et al 2015bも参照）。

しかし、「トランスファー」が実際に何を意味するのかについては、決定的に明確になっていない。著名なレビューでは、”near” transferと “far” transferの区別が提唱されている(Simons et al 2016)。具体的には、”near transfer “とは、訓練パラダイムと操作的に類似したタスクに一般化する改善のことであり、例えば、ある空間作業記憶タスクで訓練を行い、別の空間作業記憶タスクで改善を観察することである。対照的に、「遠い転移」とは、より広範に一般化する改善を指し、例えば、空間ワーキングメモリ課題でトレーニングを行い、選択的注意やIQなどの複合的な構成要素の改善を観察することである。

実際、脳のトレーニング分野の「誇大広告と一致する」ためには、転送は「遠く」だけでなく、生態学的にも有効でなければならない、すなわち、日常機能の改善として明らかである。これを達成しようとすると、非常に野心的である。サイモンズが指摘しているように、「領域固有の内容を欠いた認知スキルの脱文脈化された実践に由来する認知、学業成績、職業能力、社会的能力の広範な改善を示す証拠はない」(Simons et al 2016)。これらの広範な能力は、ドメインに関連した課題への実践と関与を提供する複雑な環境など、脳のトレーニングレジームがしばしば軽視する要因に依存している可能性がある（Simonton, 1990; Shimamura et al 1995; Staudinger and Baltes, 1996; Stern, 2002; Ericsson, 2006; Rohwedder and Willis, 2010; Grossmann et al 2012）。遠い」転移効果を報告している研究が稀にしか存在せず、これらの研究のほとんどは子供を参加者として使用していることは驚くに値しないかもしれない（Thorell et al 2009;Steiner et al 2011;Johnstone et al 2012;Foy and Mann et al 2014;Graziano and Hart et al 2016;Conklin et al 2017）。

逆に、「移行に近い」証拠の方が説得力がある。脳トレーニングレジームは、高齢者（Nouchi et al 2012）と若年成人（Nouchi et al 2013）において、処理速度と実行機能を改善することが報告されている。トレーニングパラダイムに類似したタスクについて、ワーキングメモリ領域内で実質的な効果が報告されている（Melby-Lervåg and Hulme, 2013; Karbach and Verhaeghen, 2014; Au et al 2016; Melby-Lervåg and Hulme, 2016; Soveri et al 2017; Strobach and Huestegge, 2017）。例えば、刺激のカテゴリーが変更され、パラダイムの運用要件が類似したままの場合にはトランスファーが起こる可能性があるが、パラダイムが変更された場合には起こらないことが示されている(Holmes et al 2018)。著しいニアトランスファーの文脈でのファートランスファーの欠如は、軽度の認知障害を持つ集団でも実証されている(Vermeij et al 2016)。それにもかかわらず、いくつかの脳トレーニング研究では、「ニアトランスファー」効果すら見いだせなかった（Guye and von Bastian, 2017）。

この再現性の欠如は、小規模なコホート規模で実施された並行試験が多すぎることに関係していると主張することができるかもしれない。このように、「脳のトレーニング」という学術的な分野では、タイプ1とタイプ2の誤りのリスクが高いのである。この規則の顕著な例外は、何千人もの個人を対象にトランスファー効果を測定した研究である。しかし、そこでも報告されている結果は矛盾しているようで、ある論文では大規模で有意な伝達効果を主張しているのに対し（Hardy et al 2015)他の論文では、操作的に類似したタスクであっても無視できるほどの伝達効果を報告している（Owen et al 2010）。

注目すべきは、Owen et al 2010)はトレーニング段階での「強度」が不十分であると批判されていることである。この批判は、見落とされがちな問題を浮き彫りにしているため、さらに議論を重ねる必要がある。トレーニングは1回のセッションを何分で行うべきか、何時間で行うべきか？週に何回やるべきか？トレーニングプログラムは、有意な規模の移入効果（近い、または遠い）をもたらすためには、どのくらいの時間スケールで実施すべきなのであろうか？脳トレーニングのポジティブな効果を高めるために、身体活動や社会的相互作用と組み合わせて脳トレーニングを行うべきか(Boot and Kramer, 2014)。この問題は、この分野における探索的な「スコーピング」作業の欠如に関連している。対照試験からのエビデンスが介入研究の究極のターゲットとなるが、これはしばしば研究デザインのパラメータを事前に調査することなく実施され、その結果、不感症やパワー不足の研究のリスクを増大させる。脳トレーニングの観点からは、既存の理論と既存のデータとの間のギャップが最近になって強調されている(Edwards et al 2018)。理論的根拠に基づいて効果的な行動介入を却下するという選択肢は公衆衛生にとって有益ではないが(Edwards et al 2018)、脳トレーニングプログラムを広く実施する前にさらなる調査が必要である。実際、Owen et al 2010）のコホートの高齢者は転移効果を示したが、より長い期間にわたってトレーニングを行ったことは注目すべきことである。

ここでは、2つの大規模インターネットコホート研究のデータを横断的に探索的に調査することで、この知識のギャップを埋めることを試みる。最初のコホートでは、質問票に “do you brain train “という質問が含まれていた。第二コホートでは、この質問を大幅に拡大して、トレーニングの強度、デバイス、トレーニングの長さを調査するとともに、これらの要因がゲームなどの他の認知的な追求とどのように比較されるかを調査した。その結果、脳のトレーニングは、長い時間スケールでは伝達効果を有意にスケーリングしているが、短い時間スケールではないという仮説が立てられた。転送に近い証拠を求めるために、我々は 2010年から 2013年に一般的に使用されている脳トレーニングプログラムを使用した個人が彼らの作業-記憶、推論と言語のスコアに有意な優位性を持っていたかどうかをテストする。このようなスコアの違いが、参加者が脳トレを行っていた期間、すなわち、脳トレを始めたばかりの人について、脳トレを全く行わない人や数週間、数ヶ月、数年に渡って脳トレを行っていた人と比較して、どのように相互作用するかを調べる。次に、認知パフォーマンスがトレーニング頻度の関数としてどのように変化するかを評価する。また、脳トレを行った群間で、雇用状況と日常生活における注意力の問題を自己申告で比較することで、遠い転移の証拠を探る。最後に、近距離移動と遠い転移の両方について、脳トレーニングに従事することは、カードゲーム、ビデオゲーム、パズルなどの代替的な認知的追求と同等かそれ以上に効果的であるという仮説を検証する。

材料と方法

認知タスク

この研究で報告された認知タスクは、AH社のAdobe Flex 3でプログラムされた。それらは、いくつかの先行研究（Owen et al 2010; Hampshire et al 2012; Daws and Hampshire 2017など）で報告されており、実験心理学や認知神経科学の文献の古典的なパラダイムからインターネットに適応された。これらは計画性、推論、注意力、作業記憶能力を測定する。タスクは特注のウェブサイト上で一定の順序で提示され、その後、詳細な人口統計学的評価を行った。各タスクは1つの結果指標を計算するもので、タスク全体の完了には約30分を要した。

参加者

コホート1のデータ収集は 2010年9月から 12月にかけて、ニューサイエンテイストの特集で宣伝されたウェブサイト、ディスカバリーチャンネルのウェブサイト、デイリーテレグラフ、FacebookやTwitterなどのソーシャルネットワーキングサイトを通じて行われた（詳細については、Hampshire et al 2012を参照）。コホート2では、タスクのわずかに異なるサブセットを使用し 2013年の最初の4ヶ月間に、コホート1の分析から公開された記事に関連するプレスリリースを介して広告で収集された（Hampshire et al 2012）。

コホート1では、12のタスクをすべて完了した参加者を分析に含めた（44,780人、表1）。コホート2では、13のタスクのうち12以上を完了した参加者のみを分析に含めた（15,442人）。

表1　コホート1の人口統計学（N = 44,780）

年齢範囲（年）	平均	30
	SD	11,48
性別	女性	11,633
	男性	33,147
利き手	左	5,411
	正しい	39,369
ブレイントレイン？	はい	2,833
	番号	41,947
ビデオゲーム？	毎日	12,415
	毎週	11,911
	毎月	9,452
	決して	11,002

本研究のプロトコルは、ケンブリッジ心理学研究倫理委員会（2010.62）およびウェスタンオンタリオ大学保健科学研究倫理委員会（10347）より、それぞれコホート1および2の倫理的承認を得ている。すべての参加者は、認知および人口統計学的評価にアクセスできるようになる前に、ウェブサイト上のボタンをクリックしてインフォームドコンセントを与えた。

データ分析

統計解析にはMATLABとSPSSを使用した。これらの研究は事前登録されておらず、分析は事前の分析計画に基づくものではなく、探索的なものである。両研究のデータは、以下の手順で前処理を行った。

(i) 年齢が15歳未満または90歳以上の参加者、および任意の調査質問に対して無意味な回答をした被験者は、ケースごとに除外した（詳細についてはHampshire et al 2012年を参照のこと）。各参加者にはユーザー名とログイン名が与えられた。参加者は希望すれば何度でも課題に取り組むことができたが、本研究ではテスト電池の最初の試みのみを分析した。また、質問紙に回答するのが早すぎて質問を読んでいない人は除外した。
(ii) 各タスクの認知データをランク付けし、非正規分布データや外れ値を扱うアプローチである正規性への変換を行った。
(iii) コホート1とコホート2のパフォーマンスデータとは別に、主成分分析(PCA)を用いて、以下のように潜在変数をデータドリブンな方法で推定した。
各コホートにおける認知パフォーマンスの「グローバル」な尺度を定義するために、我々はまず、12のタスクのそれぞれについて、ランク変換されたスコアについて主成分分析を行った。最初の回転していない主成分を使用して、「グローバル」指標を定義した。数学的には、これはタスクが関与するすべての能力の最大の線形混合物であり、IQスコアに類似している。異なる認知ドメイン間でより詳細な分析を可能にするために、我々はPCA係数のバリマックス回転を使用して、3つの直交する「要約」変数を定義した。これらの潜在変数は、以前の研究(Hampshire et al 2012; Daws and Hampshire, 2017)で完全に特徴づけられている。簡単に言えば、有意成分は、1よりも高い固有値を持つ成分のみを含むカイザー規約を用いて定義された（表2）。両方のデータセットにおいて、3つの「有意な」成分が同定された。バリマックス回転後のタスク-成分負荷の検査では、これらの要約変数がタスクのワーキングメモリ(WM)、推論、および言語的要求に対応していることが示された。各タスクのパフォーマンスの根底には複数の能力があり、これは我々の過去の論文でも広く報告されている。先行研究との整合性を保つために、我々はPFAのような代替手法ではなく、バリマックス回転を用いたPCAを使用した。しかし、後者はほぼ同一のタスク因子負荷行列を生成することに注意した。

表2　コホート1における脳トレーニングとコンピュータゲームとタスクスコアの比較

		Waldカイ2乗	df	Sig。
グローバルスコア	ビデオゲーム	1413.65	3	<0.001
	脳トレーニング	9.98	1	0.002
WM	ビデオゲーム	608.00	3	<0.001
	脳トレーニング	14.25	1	<0.001
推論	ビデオゲーム	909.80	3	<0.001
	脳トレーニング	4.18	1	0.041
口頭	ビデオゲーム	18.63	3	<0.001
	脳トレーニング	3.10	1	0.079

(iv) 回帰を用いて参加者の潜在変数スコアが生成された。潜在変数スコアと質問票変数の間の関係は、他の潜在的に交絡する可能性のある質問票変数を除外した後、一般化線形モデリングによって決定された。

多数のサンプルを用いてデータを分析すると、非常に高い統計力が得られるが、これは、潜在的に無視できる影響や規模の小さい影響が非常に低いp値を持つ可能性があることを意味する。ここでは、Cohenの効果サイズの概念に準拠し、約0.2標準偏差(SDs)の効果は小さく、約0.5SDsは中程度、約0.8SDsは大きいということになる。我々の分析から得られた全ての統計値は、特に示さない限り、p < 0.001である。すべての結果と数値は、効果の大きさを視覚的に評価できるように、SD単位で表示されている。

解析結果

コホート1 – 脳トレは効果的か？

脳トレは効果的だが、通常のビデオゲームと比較すると効果は小さいか、ごくわずかである。
コホート1に含まれた44,780人の参加者のうち、2,833人が定期的に脳トレーニングプログラムを利用していると報告した(表1)。グローバル尺度は、パフォーマンスの母集団の分散の約28%を説明した。3つのバリマックスは主成分を回転させ（図1)合計で分散の約46%を占めていた。年齢、性別、利き手、民族、教育レベル、雇用状況などの潜在的な交絡変数は、さらなる分析に先立ち、これらの要約変数から除外された。一般的な線形モデルは、脳トレ（「脳トレをするか」という質問に対して「はい」対「いいえ」と回答）とビデオゲーム（「ビデオゲームをプレイする頻度は？ウォルトカイ二乗は、脳トレの主効果（X = 9.98 p = 0.002）とビデオゲームの主効果（X = 1413.7 p < 0.001）を統計的に有意に示した。しかし、脳トレの主効果は小規模であった（+0.06 SDs）。ビデオゲームの主効果は中規模であり、ゲーム頻度との間に明確な関係があり、具体的には、非ゲーム者は毎日ビデオゲームをプレイしていると報告した人よりも0.47SDs低いスコアを示した。WM、推論、言葉の要約変数（表2,図2）についてこれらの分析を繰り返すと、脳のトレーニングについては無視できるほどの有意な尺度化された主効果が示された。WM変数と推論変数ではビデオゲームに有意な尺度化された主効果があったが、Verbal変数ではなかった（それぞれ0.31,0.37,0.024 SD）。最後の分析では、脳を鍛える効果の尺度を各年代別に検討した。どの年齢層でも有意なスケール効果は認められず、30代と60代が最大となった(いずれも∼0.15 SDs)。

図1　主成分分析

同様のバリマックス回転3成分モデルは、研究1と2で明らかになった。1つの成分(WM)は、ワーキングメモリに情報を能動的に維持することを必要とするタスクにおける実質的な分散を説明した。もう一つの成分（推論）は、情報を規則に従って変換する必要があるタスク（例：回転と空間計画)または規則を特定する必要があるタスク（例：演繹的推論）の分散を説明した。最後の構成要素(Verbal)は、言語または数字の刺激を持つタスクの分散を説明した。

図2　研究1における脳トレーニングおよびコンピュータゲームと認知スコアとの関係

左 – 研究1では、定期的な脳トレを報告している人とそれ以外のコホートの人の認知スコアにはほとんど差がなかった。右 – ビデオゲームをした参加者は、認知スコアに小・中規模の優位性を示した。これらはゲームの頻度に応じて変化し、グローバル、WM、推論のスコアでは明らかであったが、言語スコアではなかった。

コホート2 – 脳のトレーニングやその他の認知的な追求に影響を与える要因は何か？

コホート1で認知能力と脳トレの間に関係が見られなかった理由として、平均よりも低い認知能力が脳トレに従事する動機となっていることが考えられる。もしそうだとすれば、脳トレを始めたばかりの人は、タスクのパフォーマンスが平均よりも低く、それが効果を覆い隠してしまうことになる。関連する可能性としては、一般化された効果を生み出すためには、高い頻度でトレーニングを行う必要があるかもしれないということが挙げられる。さらに、いくつかのトレーニングソフトウェアパッケージは、他のものよりも有益であるかもしれない。これらの可能性を探るために、コホート2では、より詳細なアンケート調査を実施した。また、テレビゲーム、カードゲーム、ボードゲーム、数独やクロスワードパズルなどのパズルなど、他の一般的な認知活動の頻度に関する質問もあった。

脳トレの信念は一般化された信念の強さと一致している

データクリーニング後、15,442人がコホート2に含まれ、そのうち3,917人が脳トレを行ったと報告した（表3）。コホートの約半数（8,387人）が「脳トレは効果があると思うか」という質問に対して「はい」と答え、1,368人が「いいえ」と答え、残りの5,682人は「意見がない」と答えた。興味深いことに、脳トレに対する信念の強さは、宗教的信念の強さと直線的に比例していた（図3）。グローバルなパフォーマンス変数は、パフォーマンスの分散の27%を占めてた。3つのバリマックス回転成分が分散の43%を占めてた（図1）。年齢、利き手、性別、民族、教育レベル、雇用状況、宗教団体などの潜在的な交絡効果は、さらなる分析の前に要約変数から除外された。

表3 コホート2の人口統計学（N = 15,442）

年齢範囲（年）	平均	26
	SD	12.7
性別	女性	4,756
	男性	10,683
利き手	左	1,638
	正しい	13,804
脳のトレーニングは機能しますか？	はい	8,387
	多分	5,682
	番号	1,368

図3　研究2における宗教性と脳トレに対する信仰心の関係

参加者の大多数は、脳トレは「効果がある」との意見を持っていた。しかし、宗教的な信念を強く持っている人は、脳トレを信じている可能性も高くなった。

脳トレは効果的かもしれないが、他の認知的追求もそうである

グローバルなパフォーマンスを予測変数とし、脳トレ、ビデオゲーム、ボードゲーム、カード、パズル（クロスワードや数独など）の頻度（表4の頻度）の因子を含む一般的な線形モデルを実行した。すべての要因は、p＜0.001で統計的に有意な主効果を示した（表5,図4）。最大の正の効果の大きさは、ビデオゲームが0.27 SDs、パズルが0.39 SDsであった。毎日脳トレをしていると報告した人は、していない人に比べて小さな不利な結果を示した（例えば、毎日トレーニングをしている vs. していない = -0.21 SDs）。

表4　認知的追求の頻度

	毎日	毎週	毎月	決して
脳トレーニング	810	1,055	2,052	11,519
ビデオゲーム	3,572	3,666	3,684	4,515
トランプ	441	1,312	6,218	7,466
ボードゲーム	265	1,071	6,110	7,991
パズル	1,304	4,968	6,428	2,276

表5　コホート2における認知的追求とタスクスコアの比較

		Waldカイ2乗	df	Sig。
グローバルスコア	脳トレーニング	41.19	3	<0.001
	ビデオゲーム	177.29	3	<0.001
	トランプ	18.47	3	<0.001
	ボードゲーム	51.43	3	<0.001
	パズル	358.30	4	<0.001
WM	脳トレーニング	1.85	3	0.604
	ビデオゲーム	32.78	3	<0.001
	トランプ	57.20	3	<0.001
	ボードゲーム	24.52	3	<0.001
	パズル	130.83	4	<0.001
推論	脳トレーニング	17.78	3	<0.001
	ビデオゲーム	182.73	3	<0.001
	トランプ	4.25	3	0.235
	ボードゲーム	12.65	3	0.005
	パズル	127.00	4	<0.001
口頭	脳トレーニング	65.48	3	<0.001
	ビデオゲーム	10.52	3	0.015
	トランプ	4.72	3	0.194
	ボードゲーム	26.00	3	<0.001
	パズル	68.20	4	<0.001

図4　研究2における脳トレや他の認知的追求と認知スコアとの関係

左 – コホート2の異なる頻度で脳トレを行った参加者の認知スコア。すべての測定値は、脳トレをしない人との相対値である。毎日脳トレを行った参加者では、グローバルと言語のスコアにわずかではあるが有意な不利が見られた。右 – スコアを他の認知的な目的別に分けたもの。すべての値は、関連する認知的追求に参加していない参加者との相対的なもの。認知的なスコアでは、小・中程度の尺度での優位性が明らかであった。これらはしばしば頻度で尺度化されていた。この関係はまた、認知的追求のタイプによっても変化した。例えば、定期的にカードゲームをしていた参加者はWMスコアのみに優位性を示したのに対し、ビデオゲームをしていた参加者はWMと推論に優位性を示したが、口頭スコアには優位性を示さなかった。パズルは3つの認知変数すべてで高いスコアと関連していた。

細かいところでは、ビデオゲームとパズルをプレイしている人は推論のスコアに小さな優位性を示し（それぞれ0.29と0.24 SDs)トランプとパズルをプレイしている人はWMのスコアに小さな優位性を示し（ともに0.21 SDs)パズルをプレイしている人はVerbalのスコアに小さな優位性を示し（0.21 SDs)一方で脳トレをしている人はVerbalのスコアに小さな不利性を示した（-0.25 SDs）。

脳を鍛えるための一般的なデバイスとパッケージの間には小さな違いがある

グローバル変数のスコアを、コホートで最も一般的なトレーニング・ソフトウェア・パッケージについて比較すると、Lumosity（N = 877）Nintendo Brain Age（N = 298）と他のすべてのパッケージが比較された。デバイスの有意な主効果はなかった（p = 0.537）。この分析をより細かい粒度で繰り返すと、WM変数に対してデバイスの統計的に有意な主効果は認められなかった（p = 0.165）。推論変数と言語変数には、デバイスの統計的に有意な主効果があった（それぞれ、p = 0.007とp = 0.001）。しかし、これらの効果は無視できる大きさで、推論変数では脳年齢がルモシティより0.15 SDs高く、言語変数ではルモシティが脳年齢より0.18 SDs高くなってた。

頻度と強度は脳トレの効果に寄与する独立因子である

脳トレを行った個人を、1年以上（875人)数ヶ月（704人)数週間（695人)または開始したばかり（1644人）のいずれのグループに分けて、さらに細かい粒度で調査した。グローバル・パフォーマンスを予測変数とし、トレーニング頻度（毎日、毎週、毎月）とトレーニング期間、およびこれらの因子の2方向交互作用を因子とした一般線形モデルが実行された（クロス集計については表6を参照）。両方の主効果は、p < 0.001で有意であった。交互作用は統計的に有意ではなく、このコホート尺度での統計力を考えると注目に値する。

表6　トレーニング頻度とトレーニング期間のクロスタブ

	はじまったばかり	週	月	> 1年	合計
毎日	240	130	143	298	811
毎月	1064	316	322	350	2052
毎週	340	249	239	227	1055
合計	1644年	695	704	875	3918

新しい「脳トレ」は認知能力の低いベースラインからスタート

脳トレを開始したばかりの人のデータを調べたところ、平均的に数値的にはより広いコホートの平均パフォーマンスを下回っていることがわかった(表6,77,図5)。この影響は、日常的にトレーニングを行った人で最も顕著であった（-0.24SDs）。全体的なパフォーマンスは、3つの頻度グループすべてにおいて、トレーニング期間の関数として直線的に上昇しており、最もパフォーマンスが高いグループは、1年以上毎週トレーニングを行ったグループであった。このグループは、ブレイントレーニングを行わない人の集団平均よりも0.32 SDs高いパフォーマンスを示した。各複合パフォーマンス変数についてこの分析を繰り返すと、Verbal変数では頻度と持続時間の有意な主効果、WM変数では持続時間の有意な主効果、Reasoning変数では頻度の有意な主効果が示された。他の有意な主効果または相互作用はなかった（表7および図5）。

表7　頻度と期間の主な効果と相互作用

		Waldカイ2乗	df	Sig。
グローバルスコア	周波数	28.833	2	<0.001
	デュレーション	35.414	3	<0.001
	インタラクション	2.343	6	0.886
WM	周波数	0.678	2	0.713
	デュレーション	12.393	3	0.006
	インタラクション	5.875	6	0.437
推論	周波数	19.56	2	<0.001
	デュレーション	4.461	3	0.216
	インタラクション	4.232	6	0.645
口頭	周波数	16.739	2	<0.001
	デュレーション	25.729	3	<0.001
	インタラクション	11.723	6	0.068

図5　異なる頻度で、異なる期間にわたって脳トレを行ったと報告した人の研究2における認知スコア

脳トレを開始したばかりの参加者は、脳トレをしていないと報告した参加者と比較して、グローバルスコアと言語スコアに有意なスケールの不利さを示した。これらの低いスコアは、日常的に脳トレを報告した参加者で最も顕著であった。認知スコアにはトレーニングの期間に応じて増加が見られ、1年以上毎週トレーニングを受けた人は、トレーニングを受けていない人に比べてグローバルスコアが0.32SDs高かった。WMと推論の変数では、同じ方向に小さなスケールの傾向が見られた。

脳のトレーニングは日常的な問題の自己申告には無視できるほどの効果がある

最後に、脳トレーニングの期間と認知能力の間に明らかになった関係が、日常生活での “遠い転移 “にまで及ぶかどうかを調べた。まず、日常生活での集中力に問題があると自己申告した頻度（一度もない、めったにない、毎週、週に数回、毎日、ずっと）を、異なる期間の脳トレーニングを受けた人を対象に調べた。しかし、集中力の問題の自己申告得点が最も低いグループは、最も長く脳トレを行ったグループであったが、脳トレを始めたばかりのグループとの相対的な差は無視できる規模（0.072 SDs）であり、脳トレを行わないグループとの相対的な差も無視できる規模（0.13 SDs）であった。次に、脳トレに費やした時間の関数として、雇用された人の割合を調べた。トレーニングに費やした時間（一度もしたことがない、始めたばかり、毎週、毎月、1年以上）と雇用状況（フルタイム、パートタイム、無職）の間の関連の強さを計算すると、再び統計的には有意ではあるが無視できる程度の相関が示された（CramerのV = 0.05,p < 0.001）（図6）。

図6　研究2における脳トレに費やした時間と就労との関係

研究コホートの約70%がフルタイム雇用であることを報告した。雇用状況と報告された脳トレーニングの期間との間には、有意な尺度による関係はなかった。

議論

我々の大規模な横断的分析により、異なる強度と時間スケールで適用された場合の異なる脳トレーニングプログラムの有効性について、母集団レベルでの洞察が得られた。この知見は、以前に報告された結果の評価に役立つだけでなく、将来の試験の設計にも役立つ(Seitz, 2017)。

最初のパスでは、脳トレの有益な効果についての横断的な証拠はほとんど見られなかった。より具体的には、コホート1のパフォーマンススコアの分析では、グローバル変数または3つの要約変数のいずれかの点で、脳トレを行う人と行わない人の優位性が示されなかった。コホート2についても基本的には同様であったが、質問紙の拡大により、この帰無的な所見をより詳細に検討することができた。

このより詳細な分析から得られた最も注目すべき知見は、脳トレを始めたばかりの人（つまり、効果を得るまでに時間がなかった人）は、一般的な集団と比較して不利な傾向があるということであった。スコアは、トレーニングの期間の長さではなく、トレーニングの頻度に応じて上昇していく。このような低いスコアは、モチベーションの要因によって最もよく説明される。簡単に言えば、認知能力の低さが脳トレに取り組む動機付け要因になっている可能性が高いのである。この見解によれば、トレーニングを行うよりも、トレーニングが効果的であると信じている人の方がはるかに多いということになる。さらに、最も頻繁にトレーニングを行っている人は、スタート時のベースラインが最も低くなっている。ベースラインの差と、動機づけ要因の母集団のばらつきとの関係を考慮することは、今後の研究において重要な考慮事項である。

長時間トレーニングを行っている人の方が高いパフォーマンスを示していることは、より有望であると考えられる。脳トレに参加している人は、認知的ベースラインが平均よりも低い状態からスタートしているが、練習を重ねることで改善していくということも考えられる。我々の結果は横断的なデータから得られたものであり、縦断的な試験によって裏付けを取る必要があることに注意することが重要である。それにもかかわらず、観察研究と対照試験の間には相乗効果が存在し、前者は後者の焦点とデザインの指針となり、後者は前者から直接推測できない因果関係の証拠を提供している。脳トレーニングの場合、観察研究が不十分であり、公表されている多くの脳トレーニング研究では、最適なデザインがなされていないことが指摘されている。伝達効果を生み出すために必要なトレーニング時間を決定しようとした研究はほとんどない。観察研究の指針は、最適なパラメータ範囲の情報を提供するのに役立つ。ここで発表された大規模な観察研究は、今後の試験デザインの指針となりうる新たな洞察を提供している。最も注目すべきは、1年以上の訓練を受けた者と開始したばかりの者を比較したときに、脳訓練群内の認知能力に有意な差が観察されたことである。一方で、これまでの研究の多くは、大幅に短い期間で実施されているため、数週間や数ヶ月単位で実施されたトレーニング研究から得られた知見は、特に小規模なコホートで実施された場合には慎重に扱うべきである。一方で、我々の研究はこの点を直接評価するのには適していないが、2つのグループ間の違いは選択的衰退（例えば、認知機能の低い人は数ヶ月から 1年の脳トレーニングを継続することができない）によって説明される可能性がある。

また、我々の解析では、脳トレ頻度との相互作用や主効果は認められなかった。このことは、表面的には高強度のレジームを支持するものではないが、より長い時間スケールが必要とされる場合には、実用的な観点から重要である。以前に発表された報告では、トレーニング頻度と伝達効果の尺度との間に関係があることが示唆されているが（Simonsらのレビューに引用されている 2016年)この関係の程度や重要性については、いまだに不明な点がある。事実上、この関係はレトロスペクティブに評価されることが多く、これは使用された実験的研究デザインの性質に直結する側面であり、転移の規模に対する頻度の影響は他の要因の寄与を隠している可能性がある。このように、被験者内での縦断的な研究デザインによって得られる感度とコントロールの高さが、このことを説明する可能性がある。さらに別の説明として、ベースラインの能力とトレーニングによる改善率の間に相互作用があるかもしれないという事実（能力の高い人はより早く学習する傾向があるかもしれない)あるいはモチベーションのような他の要因の重要な役割があるかもしれないという事実も含まれている。これらの要因は効果的にお互いを相殺し、その効果を無効にしてしまう可能性がある。今後の対照介入試験では、トレーニングの強度が重要な役割を果たしているかどうかを評価し、トレーニングの頻度と伝達効果の規模との関係を明らかにしていくことになるだろう。いずれにしても、そのような試験はより長い期間で実施されるべきである。この解釈に沿って、Corbett et al 2015）の研究では、より長い時間スケールで脳トレーニングプログラムを実施した高齢者の認知機能の改善が示されている（Corbett et al 2015）。より長いレジームトレーニングの合併症として考えられるのは、より低い認知ベースラインからスタートした人の脱落率が高くなる可能性があるということである。これは考えられることとして、より長い期間トレーニングを行っていたグループでは改善したかのような錯覚を引き起こす可能性がある。しかし、過去の縦断的研究では、高パフォーマンス者と低パフォーマンス者の間でコンプライアンスに系統的な偏りが観察されていないこと（Hardy et al 2015）を考慮すると、この研究では、少なくとも頻度で測定できるように、低パフォーマンス者こそがトレーニングに最も意欲的に参加していると考えられる。

重要な問題は、脳トレの効果がどこまで一般化するかということである。Simonsらの論文では、トレーニングのパラダイムに類似した認知タスクにも効果が移る可能性が高いことが示唆されている。しかし、脳トレーニング後の日常的な認知機能の改善や、操作的に異なるタスクへの「遠く」転移の証拠は不足している(Simons et al 2016; Lindenberger et al 2017)。我々の結果は、この見解とよく一致している。例えば、WM、推論、言語変数のスコアとトレーニングソフトウェアパッケージの間の関係には微妙な違いがあり、これは使用されるパラダイムの構成の違いに関係していると思われる。

さらに重要なことは、母集団レベルでの遠い転移効果の証拠はほとんど見られなかった。具体的には、生態学的に焦点を当てた2つの自己報告尺度、すなわち、日常生活での集中力に問題がある頻度と雇用状況を調べたところ、これらの尺度は、脳との全体的な関係を示していなかった。これらもまた、脳のトレーニングとの全体的な関係は示されず、トレーニングの頻度や時間スケールとの相関は小規模でした。ここでも、この結果は、転移の範囲が限られているというサイモンズの見解とよく一致している(Simons et al 2016)。また、脳トレーニング研究を設計する際に、転移効果の生態学的関連性を評価することの重要性を強調している。

より暫定的には、臨床集団における日常機能への一般化を達成するためには、日常業務における問題の一因となっている特定の操作障害に密接にターゲットを絞ったトレーニングレジームを開発する必要があるだろう。また、このようなトレーニングをより生態学的に関連性のある形式で行うことも推奨される。例えば、実世界のアプリケーション（Moreau and Conway, 2014)仮想環境、または個人が改善することで最も恩恵を受けるであろう日常業務に類似した拡張現実を用いたトレーニングを設計することによって、このようなトレーニングを行うことができる。また、日常生活は他の人との相互作用を伴うため、生態学的妥当性は社会的相互作用に関連する要因を考慮する必要がある（Engert et al 2017; Valk et al 2017）。

脳トレと他の追求とのこれらの結果の比較は、コントロール、すなわち脳トレをしない人との単純平均値の差という点で有益である。クロスワードやジグゾーなどのパズルを解くことは、もちろん認知的に挑戦的である(Fissler et al 2017)。ビデオゲーム、ボードゲーム、パズルの頻度と認知パフォーマンスの関係は、いずれも非エンゲージメントと比較して有意な尺度であった。これは、そのような追求に従事することの一般化された利点がある場合、それらは「遠く」とは対照的に「近く」に転移する可能性が高いという考え方と再び一致している。

コンピュータゲームのような認知的な追求は娯楽のために行われているので、そのような追求に従事する人は、より認知的に能力があり、より良いパフォーマンスを発揮することができれば、よりモチベーションが高くなるかもしれない。しかし、このような強固な関係性は今後の研究でさらに注目されるべきであり、ベースラインのパフォーマンスの違いにまで踏み込んだ横断的な研究や、慎重にコントロールされた「ゲームトレーニング」試験に焦点を当てた実証的研究が必要である。

実際、「ビデオゲームトレーニング」に関する現在の文献は、脳のトレーニングに関する文献と類似している。例えば、いくつかの研究では、有意な一般化された有益性が報告されている（Basak et al 2008;Boot et al 2008;Anguera et al 2013;Granic et al 2014;Mayas et al 2014;Toril et al 2014;Green and Bavelier et al 2015;Bediou et al 2018）。2018）であるのに対し、他のものは、効果がないか、または中程度の効果しかない（Unsworth et al 2015; Ballesteros et al 2017; Sala et al 2018）であり、近いおよび遠い転移の両方についてのいくつかの暫定的なメタ分析的証拠がある（Wang et al 2016; Bediou et al 2018）。繰り返しになるが、一般化されたベネフィットに必要なタイムスケールの定義は不十分であり、この矛盾の根底にある可能性がある。より大規模なコホート研究や30時間以上の訓練を伴うより多くの介入研究の必要性はすでに議論されている(Bediou et al 2018)が、効果を介入に帰属させる前に代替的な説明を排除するために動機付け効果の役割を考慮することの重要性と同様に(Foroughi et al 2016)。

最後の興味深い点は、宗教性と脳トレの効果に対する信念との関係である。上述したように、脳トレに好意的な意見を持っている研究者が、公開書簡の中で、そうでない研究者を信仰に基づいた立場を取っていると非難しているのは興味深いことである。私たちは以前、宗教性と他の変数との関係についての分析を発表したことがある。それは、それが実際には、信仰に基づいた決定（DawsとHampshire 2017)「脳のトレーニングが機能する」と信じている可能性が最も高い人々を特徴とする宗教的な個人であることは、やや皮肉なことであり、それはいくつかの人々がかなり一般的に彼らに提示された主張を信じる可能性があるかもしれない。さらに、他の潜在的な混乱要因（例えば、地理、年齢、SES）があるかもしれないが、異なる文脈での信念は相関している。これは、脳のトレーニング技術を提供する企業が自社の製品を最適なターゲットにするための意味合いを持っている。

我々の研究は多くの強みを持っているが、報告書の回顧的な性質、その非実験的なデザイン、自己報告に内在する潜在的なバイアスなど、我々の主要な知見の解釈に影響を与える可能性のある制限に言及することが重要である。脳トレーニングは長期的な練習なしでは無視できる効果を持っているという我々の発見は、この横断的な分析では、脳トレーニングを受けた参加者が異質な経験（すなわち、ドメインの範囲に焦点を当てていた）を持っていたという事実によって複雑になっている。このことは、我々の知見にノイズを追加し、潜在的に我々の推論のスケールを低下させ、分析のレトロスペクティブなスタイルと参加者による脳トレーニングの自己報告によって複合的に、ここに提示されたヌルの結果を説明する役割を果たしている可能性がある。脳トレーニングの内容と具体的な結果との関係を評価することも考えられる。当然ながら、脳トレの内容と具体的な認知結果との関連性を評価することは、今後の研究で検討されるべきである。しかし、介入的な実験デザインでの分析では、ここで明らかになったように、期間と頻度について、より焦点を絞ったパラメータが必要になることに注意しなければならない。より一般的なレベルでは、脳トレーニングを開始したばかりのグループと1年以上トレーニングを続けているグループとの間の違いは、選択的萎縮（例えば、認知機能が低い人は数ヶ月や1年の脳トレーニングを持続することができない）によって説明される可能性がある。

結論として、我々は、市販の脳トレを長期間に渡って実施した場合、他のコンピュータを使った作業には限定的な方法ではあるが利益が得られるという見解と一致する、インターネットを利用した2つの大規模なコホートからの横断的な結果を提供している。脳トレーニングに従事する動機は、ベースラインの認知能力と相関があるため、重要な交絡因子であることが示されている。他のタイプの認知的追求は、一般集団においてより大きなパフォーマンスの優位性と関連しており、対照試験でのさらなる調査が必要である。トレーニングレジームの検証を目的とした今後の試験では、より長い期間に焦点を当て、ベースラインの能力と動機付け要因を慎重にコントロールし、日常機能への移行を定量化する必要がある。トレーニングの臨床応用は、日常機能への移行距離を最小化するために、患者の障害の具体的な基礎となる認知操作に焦点を当てるべきである。

倫理声明

著者の寄稿

AH と PH は、研究の構想とデザイン、研究のためのデータ、分析、解釈に多大な貢献をし、研究の原案を作成し、重要な知的内容のために研究を批判的に改訂した。SSは、本研究のデータの解釈に多大な貢献をし、重要な知的内容のために本研究を批判的に改訂した。すべての著者は、内容の出版を承認し、研究のいずれかの部分の正確性や完全性に関連する疑問が適切に調査され、解決されることを保証するために、研究のすべての側面について説明責任を負うことに同意した。

利益相反に関する声明

著者らは、利益相反の可能性があると解釈されるような商業的または経済的な関係がない状態で研究が行われたことを宣言している。