科学と科学的根拠を構成するもの 帰無仮説の検証の役割
What Constitutes Science and Scientific Evidence: Roles of Null Hypothesis Testing

強調オフ

EBM・RCT因果論・統計学科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

What Constitutes Science and Scientific Evidence: Roles of Null Hypothesis Testing

Educ Psychol Meas.2017 Jun; 77(3):475-488.

2016年10月5日オンライン公開doi:10.1177/0013164416667978

pmcid:pmc5965552

PMID:29795924

マーク・チャン1,2

概要

科学の哲学的基礎、因果関係、科学的証拠について簡単に説明し、隠れた、しかし最も基本的な科学の原理、類似性原理を紹介する。この原理が科学的発見においてどのように使われているか、シンプソンのパラドックスなどの例で説明する。帰無仮説統計検定の価値、重回帰の論争、統計学における多重性の問題などを論じる際、類似性原理の解釈に基づき、これらの難題をどう扱うべきかを説明する。

キーワード 仮説検定、類似性原理、多重度、シンプソンのパラドックス、因果関係、誤発見率

科学とは何か?

端的に言えば、科学とは主に、ある研究分野内の因果関係を特徴づける、いわゆる科学的法則の調査の集合体である。その関係が物理学、社会、心理学などの根本的な問題を扱っている場合は、異なる科学となり、時には異なる方法論を伴うこともある。

科学の法則や仮説の提案には、検証可能な予測が必要である。このことは、(1)科学は(理想的には)繰り返される事象の研究であること、(2)科学の本質的な役割は、予測をすることであり、それによって私たちは早期に賢く行動し、真実と信じるものを検証することができることを意味している。歴史や実験を研究するのは、原因が繰り返されるときに、未来を予測するための法則を「発見」するためなのである。しかし、私は(それを証明しようとは思わないにしても)、歴史は一つであり、すべてはその経過の中で唯一無二のものだと考えたいのである。歴史を切り刻み、同じものと判断するとき、私たちは意図的であろうとなかろうと、その違いを無視し、少なくとも歴史の連鎖の中の異なる「隣のピース」を無視する。このような切り分けやグルーピングによって、同じと思われる事象の繰り返しを人為的に作り出し、自然法則や因果関係を「発見」することができる。この意味で、自然法則とは、まず発明(類似のピースのグループ化)であり、次に発見(パターンの発見)なのである。

しかし、似たようなもののグループ分けは暗黙のうちに主観的に行われることが多く、科学的推論において無形の論争を生むことが避けられない。例えば、あなたが背の高い男性だとしたら、あなたの特性(例えば、平均寿命、出世の可能性、がんになる確率など)は、男性全体、背の高い人、背の高い男性、人口全体のどのグループから推測するのだろうか。同様に、私が1989年に中国から米国に移住し、10年後に米国籍を取得したことを考えると、米国人口に属するか、中国男性人口に属するか、あるいはそれ以外の何かに基づいて自分の長寿を予測すべきだろうか。

類似性原理

予測の背後にある概念は因果関係であるが、因果関係の概念は類似性原理である(Chang, 2012,2014)。類似の条件は、同じまたは類似の結果をもたらす可能性が高い。この原理は、問題によって理解を深めるために異なる言い方をすることができる。例えば、「似たようなものは似たような振る舞いをする」と述べるかもしれない。私の考えでは、類似性の原則は、科学的コミュニティにおいて私たちが持つ最も基本的な信念であるが、明示的に表現されることはない。

科学的法則とは、ある(同じ)条件があれば、ある(同じ)結果が生じるというものである。しかし、全く同じ物事・状況は2つとない。「同じ」とは、実際には似ているという意味である。「同じ」と言うとき、隠れている可能性のある、抱いている科学的法則と矛盾するような違いは無視される。そのような矛盾が発見されると、法則の例外が観察され、法則に何らかの修正を加える必要が出てくるかもしれない。つまり、どんな科学的法則も、将来のある時点で、間違っていることが証明されるか、近似値に過ぎないことがわかる。

類似性の原理が科学的発見、あるいは日常生活でどのように使われているか、いくつかの例を見てみよう。

人間や動物の集団を調査する場合、年齢や性別、人種などによって調査対象者を分けることがよくある。これは、各グループに属する被験者が、調査する因果関係から見て類似していると考えるからだ。しかし、被験者はそれぞれ個性的であるため、このようなグループ分けは主観的なものである。心理学の世界では、これまで研究してきた類似の被験者の知識を使って、その人の行動を研究することがある。その際、被験者をグループ化し、類似性の原理を適用している。

日常生活では、ある人の不快な行動を、その人をある集団に所属させ、その集団に共通する特徴としてとらえることで、個人的なこととしてとらえないように合理化することがある。数学者だって、「1+1」を同じように書く人はいないかもしれないが、私たちは文字の違いやフォントの違いを無視して、「1+1=2」と断言できる。これらは、類似性のグループ化と広範な類似性の原理を利用した簡単な例に過ぎない。

創薬と開発は段階を踏んで行われる。新しい化合物は、まず動物でテストされる。その化合物が動物で有効かつ安全であることが確認されると、ヒトを対象とした臨床試験が行われる。これは、患者を守るため、そしてコスト削減のために行われている。この段階的アプローチが有効だと考える理由は、動物がヒトに似ているため、動物とヒトの薬効が似てくると考えるからだ。類似性の原理:動物実験(薬物+動物)はヒト実験(薬物+ヒト)と類似しているので、ヒトに使用しても同じか類似した薬効が得られる可能性が高いという考え方に基づく。

ベイズ統計学では、動物に対する薬効のデータを、ヒトに対する薬効の事後分布を導き出すための事前知識として用いることができる。頻回主義では、動物データを使って直接ヒトへの薬効を計算することはないが、医薬品開発の過程で、既存の医薬品開発の中止、継続、修正などの意思決定に動物データを利用することがある。

私たちの心が類似性原理と手を取り合って行うグルーピングは、すべてのことを理由あるものとしているが、同時に、そのグルーピングの近似性によって、すべての法則や因果関係には例外が存在する。

R.Fisher は生涯を通じて確率の意味について考え続けた。フィッシャーは、生涯を通じて、確率の意味を考え続けたが、当然のことながら、その考え方も変化した(Lehmann, 1993)。彼の最後の概念は、相似性原理と実によく一致するものである。

確率の記述では、述語は物体として、出来事として、あるいは命題として考えられるが、どんなに大きくても、そのうちの既知の割合Pが残りのものにはない何らかの関連する特性[斜体の付加]を持っているような存在の集合の一つであると主張される…(Fisher, 1973, p. 113)。…(Fisher, 1973, p. 113)。

シンプソンのパラドックス

類似性グループ化における主観は、個人の信念、経験、知識を反映する。類似群分類が引き起こす論争は、シンプソンのパラドックス(Simpson 1951)を用いてよく説明することができる。

あなたの住む地域で、あなたを除くある病気に苦しむすべての患者が、2つの薬のうちどちらかを服用したとする。その結果は表1の通りである。治療効果(回答率)はBが520/1500で、Aの500/1500より良いので、患者であるあなたはAよりBを選ぶだろう。しかし、さらに男性と女性に分けてデータを調べたところ、男性の治療効果はAで200/500、Bで380/1000より良く、女性の治療効果はAで300/1000、Bで140/500より良いことがわかった。したがって、女性でも男性でもBよりAの治療を選ぶだろう。私たちはAとBどちらを飲むべきなのだろうか?

表1 シンプソンのパラドックス

薬剤A 薬剤B
男性 200/500 380/1000
女性 300/1000 140/500
合計 500/1500 520/1500

類似性の原則を適用する際に、どの患者カテゴリーやグループに入れるかで判断が分かれる。

このジレンマを数学的に解決しようとする人がいるが、それは間違っている。数学的に最適な解を見つけることはできるが、それでは根本的な問題には対処できない。ここでは、すべての患者が治療され、その反応が正しく記録されるため、ランダムなエラーは発生しない。あなたは唯一の新患で、薬物AとBのどちらを選ぶか?

ここで問題なのは、誰もが納得する単一の答えや、科学的に正しい答えを見つけることではない。ランダムな誤差がある状況を一般化すると、どの統計的パラダイムや手法が一貫した答えを出すかということではない。問題は、統計的な原理やパラダイムよりも先にある、類似性の原理に内在する根本的な信念についてである。ある人を他の人とグループ化するために使われるその人に関する基準は、統計分析における誤差の総和を最小にするために、どの誤差を意味のあるものとしてプールできるかという個人の信念を反映したものである。ある人は、すべての患者に対する薬物の影響に関する誤差は、たとえ動物のデータであっても、意味のあるものとしてまとめることができると考えるかもしれないし、別の人は、例えば同じ性別の患者だけをまとめることができると考えるかもしれない。

シンプソンのパラドックスは、パラドックスが現れるまで、データをどんどんカテゴリーに切り分けていけば、珍しいことではない。例えば、世界的な医薬品開発プロセスにおいて、ある医薬品が世界的に有効であるように見えても、国・地域によってその効果が大きく異なることがある。そのような薬を国や地域によってどのように使い分けるべきかということである。

因果関係

すべての事象は先行する事象の結果であり、さらにその先行する事象によって引き起こされ、といった具合に。人間の行動もこの例外ではなく、犯罪を犯すかどうか、犯罪者を罰するかどうかというような結果的な行動も含まれる。つまり、自分の意志を中心とした選択というものは存在しないのである。しかし、私たち科学研究者は、常に「なぜ、ある選択をするのか」「何が原因で、ある選択をするのか」を考えている。と自問することが多い。脳科学の究極の発展と人間の脳の理解によって、自由意志が存在する余地はどれほど残っているのだろうか?

では、すべてが決定論的であるならば、因果関係とは本当は何を意味するのだろうか。私たちが因果関係と呼んでいるものは、類似性原理を信じた結果である。私たちの貧しい脳は、私たちの生活で起こるすべてのことを扱うことができないので、似たようなものをグループ化し、意識的かどうかにかかわらず類似性の原理を適用している。このようにしてのみ、私たちの脳は宇宙を扱うことができる。つまり、類似性原理があればこそ、因果関係が科学的に意味を持つ可能性があり、この原理に基づいてこそ、科学的法則が導き出される可能性があり、この原理があればこそ、推論や予測を有意義に議論でき、この原理があればこそ、「科学知識」の意味合いが明確になり、この原理があってこそ、確率の概念やランダムエラーの概念がある(張 2014)のである。実際、類似性原理は、すべての科学が存在し、有用であるための、十分ではないにせよ、必要な条件であると私は考えている。

科学的発見の文脈では、事象AとBの間の因果関係とは、私にとって次の3つの条件を意味する:

  • (1)Aが時間的にBに進む、
  • (2)要因分離の法則が成り立つ。AであればB、AでなければBでない、そして
  • (3)その関係が少なくとも原理的には検証可能であること、

つまり条件2が時間的に持続すること、さらに条件1の事象が反復可能であることが必要なのである。事象の繰り返しがあるからこそ、因果関係は大きな有用性を持つのである。

ここまでは、要因AがBの唯一の原因である可能性だけを論じてきたが、要因AまたはCのどちらか一方だけがBの十分な原因となり得る場合、どのように原因を検証すればよいのだろうか。この問題は非常に複雑になる。砂漠における殺人のパラドックス」(Smullyan, 1978)を見てみよう。3人のキャラバン隊(A、BC)がサハラ砂漠を進んでいて、ある夜、そこでテントを張った。AはCを憎んでおり、水筒の水(Cの唯一の水源)に毒を入れてCを殺害しようと考えた。BもCを殺そうと思ったが、Cの水筒の水にすでに毒が入っていることに気づかず、Cの水筒に小さな穴を開け、水が徐々に漏れるようにした。その結果、数日後、Cは喉の渇きで死んでしまった。問題は、AとBのどちらが犯人だったのか、ということだ。Aが入れた毒をCは飲まなかったのだから、Aが毒を入れなくともCは死んでいたはずだ、というのが一応の結論である。反対に、Bの行動は結果に全く影響しないので、Aは真犯人である。Aが水に毒を入れた時点でCは絶望的であり、したがってBが穴を開けなかったとしてもAは死んでいただろう。あなたはどちらの意見に賛成であるか?

2要因の場合、原因を特定するためには、①AでもなくCでもない、②AだがCでもない、③AではないがCでもある、④AかつCである、というすべての状況における結果(BかBでないか)を知る必要がある。

AがBを暗示し、AでないことがBでないことも暗示するならば、Aはある状況(Cありおよび/またはCなし)においてBの原因である。もちろん、この文は要因AとCが交換されたときにも同様に成り立つ。

帰無仮説検定と偽発見率

コインを何度もはじくという古典的な実験を考えてみよう。もしすべての条件(使う力、力の方向、コインがすり減らないなど)が、毎回正確に同じであれば、各コインをはじいた結果も同じになるはずだ。いわゆるランダムな変動は、単に多くの隠れた、あるいは観察されていない変数によって引き起こされるものである。コインのめくり方は、実は毎回微妙に違っているのである。ここで言いたいのは、ある意味、本当の意味でのランダム性はまったくなく、すべては非常に微細な原因と結果であるということである。

ランダム性に対処するために、記述統計は観察された値の実際的な重要性についての情報は提供しても、その発見が本当なのか、それとも単なるランダムな偶然の出来事なのか、つまり、統計的有意性の問題についての情報は提供しない。また、交絡因子が複数存在する場合、記述統計だけでは科学的根拠の全体像を客観的に把握することは非常に困難である。誤った発見を減らすために、私たちは偽発見率(FDR)という指標を用う。FDRは、全所見中の偽陽性所見の期待割合である(Benjamini & Hochberg, 1995;Chang, 2011)。FDRを制御する方法の1つは帰無仮説統計検定(NHST)であり、簡単に説明すると以下のようになる。

H0: 薬xは効果がない、Ha: 薬xは効果がある、という仮説検定を行いたいとする。p< α(名目水準)のとき、私たちはH0を棄却し、その薬は有効であると結論づける。技術的には、p-値は、帰無仮説が正しいと仮定して、少なくともサンプル・データの効果と同程度の極端な効果を得る確率を意味する。したがって、p値は、薬がどの程度有効であるかという問題に直接答えるものではない。

p値が小さいほど、仮説と観測されたデータとの間に矛盾があることを示す。この意味で、p値は帰無仮説に対する証拠の強さを測定している。しかし、p値は帰無仮説が真である確率ではない。α = .05水準でH0をp= .02で棄却しても、5%や2%の確率で間違うということではない。

帰無仮説は仮定に過ぎないので、有意水準α=5%だからといって、偽陽性所見が5%あることにはならない。例えば、調査対象の帰無仮説が全て真であれば、αの値がどうであれ、全ての陽性所見は偽となる。これに対して、調査するすべての帰無仮説が実は偽であれば、αとは無関係に偽の所見はゼロとなる。

調査すべきすべての帰無仮説のうち、ある割合Rが真であるとすると、これらの真仮説のうち偽の発見を帰無仮説検定の有意水準であるαの割合で抑制したいと考える。したがって、αはすべての真の帰無仮説の中で偽の発見が起こる期待割合と解釈できる。問題は、どの帰無仮説が真であるか分からないので、すべての帰無仮説に同じαを適用しなければならないことである。その結果、仮説検定の検出力が低下したり、サンプルサイズが大きくならない限り、真の陽性所見を検出する能力(確率)が低下してしまうのである。では、陽性所見と陰性所見を正しく識別する確率の両方を一つの指標で測るにはどうすればよいのだろうか。偽陽性発見率はそのような指標である。全所見中の偽陽性所見の割合(FDR)は予想通りである。

FDR = (α ×R)/(α ×R+ power × (1 –R))

真のパワーは未知であり、定数ではなく、機種に依存するため、上式は近似に過ぎない。したがって、FDRに関する限り、検出力を大きくし、αを小さくし、Rを小さくすれば、FDRは小さくなる。検出力を上げるには、αを小さくしたり、サンプルサイズを大きくしたりすればよいのである。しかし、調査すべき船体仮説の割合であるRを減らすにはどうすればよいのだろうか。現実的には、ステップワイズアプローチを用う。医薬品開発では、前臨床から臨床に至るまで、各ステップでより多くの偽陽性所見や真の帰無仮説をスクリーニングし、つまり次のステップの研究のためにRを小さくしていくのである。戦略的には、いわゆる探索的研究(多くの場合、記述統計のみを使用)から、NHSTやベイズアプローチなどの類似の方法を使用した確認的研究へと進む。私たちの目標は誤りの影響を減らすことであり、誤り率そのものを減らすことではない、と主張することがある。これは正しいのであるが、一般に誤差の影響を定義するのが難しい場合、FDRを下げることは合理的である。

しかし、NHSTのp値は、しばしば科学的根拠についての全体像を提供しない。記述統計と信頼区間も調べる価値がある。

私たちはしばしば、薬物や臨床介入の有効性に関する疑問に対する直接的な答えを得たいと思う。そのために、事前知識と現在の実験データの組み合わせであるベイズ事後確率を利用することができる。ベイズ法に対する一般的な批判として、事前知識の決定が主観的であるというものがある。このような主観にアンカリングのような心理的バイアスが加わると、結果はより議論のあるものとなる(Lench, Safer, & Levine, 2011)。アンカリングとは、意思決定を行う際に、最初に提示された情報(「アンカー」)に過度に依存する人間の共通傾向を表す認知バイアスである。私たちは、科学的研究や日常生活において、常にベイズ的な学習や推論の概念を用いている。なぜなら、私たちがとる意識的な行動は、すべて事前の関連する経験や知識を利用したものだからだ。

一例を挙げると、製薬会社が医薬品の販売承認を得ようとする場合、承認を得るための統計的根拠として「p<α」のような何らかのハードな基準がないと難しい。なぜなら、その結果は発明者とスポンサーの利害に関わるからだ。彼らの主観的な判断や事前分布を用いると、偏った判断になる可能性がある。同様に、規制当局の主観的な判断も、当局者が特定の結果を好む可能性があるため、偏った判断になることがある。このような状況は、学術研究においてもある程度は生じる。したがって、NHSTはFDRを制御するための重要なツールと見なすことができる。問題は有意水準αをどのように選ぶかである。p値は科学的根拠を構成する1つの証拠となり得るが、二者択一の判断をする際に、必ずしもαを5%という普遍的な一定値にする必要はないだろう。間違いが違えば、私たちの生活に与える影響も違うので、閾値も違うはずだ。

回帰の論争

複数の要因が因果関係に関与している場合、回帰モデルと併用して帰無仮説検定を行うことが多い。

私たちは常に、変数間の関連は必ずしも因果関係ではないと言っている。実際、関連性は因果関係の必要条件ではあるが、十分条件ではない。しかし、より重要なのは、関連が因果関係になることがあるということである。例えば、マッチを持っている人は、持っていない人に比べて肺がんになりやすいというデータがある。つまり、タバコを吸うと癌になる可能性があり、喫煙者は通常マッチを持っているので、マッチと肺癌の間には関連性があるのである。したがって、マッチを持ち歩くことは肺がんの原因にはならない。しかし、さらに調べると、肺がんの直接の原因はタバコではなく、タバコに含まれる発がん性物質であることがわかる。タバコから発がん物質を分離・抽出できれば、タバコを吸うことが肺がんの原因でなくなるのである。一方、因果関係が関連性になることもある。例えば、タバコを吸う人だけがマッチを携帯でき、タバコを吸う人は皆マッチを携帯しているとすれば、ひいてはマッチが肺がんの原因(危険因子)であると考えることができるのである。

物理学では、単一の原因による因果関係を調べるために、要因分離の原理がよく使われる。しかし、生命科学、社会科学、医学の分野では、観察可能なものから隠れたものまで、多くのランダムな要因が存在するため、単純回帰はランダム性が存在する場合の要因分離の原則の活用と捉えることができる。回帰を効果的に行うために、実験には対照群を設け、交絡因子のバランスをとるために無作為化を行うことが多い。因果関係が複数の原因に及ぶ場合は、主効果と共変量効果を調べるために重回帰分析、あるいはそれに準ずる共分散分析を用いることが多い。主効果は治療介入であることが多く、共変量は交絡因子であることが多い。

臨床試験において変数が交絡因子となるためには、3 つの条件を満たす必要がある(Chang, 2014)。

  1. 治療と関連していること(主な要因)。
  2. 測定される結果の予測因子(必ずしも原因ではない)でなければならない。
  3. 治療(主な要因)そのものの結果であってはならない。

ある因子が目的の変数間の因果経路上にある場合、その因子は交絡因子とはならない。このような因子は、直接的な原因であることもあれば、媒介者であることもある。もちろん、因果経路は観測できないことが多く、私たちの解釈に大きく依存する。しかし、仮説的な経路を通じて、システムのメカニズムをよりよくモデル化できる場合が多い。潜在変数構造方程式モデリングは、このような隠れた経路のモデリングの一例である。このような手法は、社会学、心理学、計量経済学の研究でよく使われている。高度な状況を扱う前に、重回帰分析における観測可能な交絡因子によって課される課題について勉強しておこう。

ランダム化比較実験は偉大な発明であるが、そのような実験から得られるデータの解析や結果の解釈には、課題や論争がないわけではない。観察実験であれ、統制実験であれ、重回帰はデータを分析するための一般的な手段である。Y≒aX2+bXという線形回帰モデル(定数aとbで線形)の場合、aはXの効果の部分指標でもあるので、XのYに対する効果がbであるとは言えないだろう。しかし、Y=aZ+bXと書いて、共変量Z=X2が示されていないのに、相関 corr(X, Z)≒1が観測されると、XYへの効果がb であると誤解してしまうことが多い。この論争を、私が別のところで紹介した例(Chang, 2007,2011)を通じて、さらに議論してみよう。

臨床試験において、2つの治療群(X= 0:プラセボ、X= 1:被験薬)に属する5人の被験者が、臨床反応Yとバイオマーカー反応Zを測定したとする。まず、治療、バイオマーカー、臨床エンドポイントという変数間のピアソンの相関を計算する。その結果をFigure 1に示す。両者の相関は推移的でないことがわかる。つまり、治療とバイオマーカーの相関(RXZ= 0.45)、バイオマーカーと臨床反応の相関(RYZ= 0.90)は、治療と臨床反応間の相関(RXY)を保証するものではない。

An external file that holds a picture, illustration, etc. Object name is 10.1177_0013164416667978-fig1.jpg

 

図1 重回帰のパラドックス

臨床エンドポイントとの反応性の平均は各群とも4であり、治療効果がないことを示している。一方、バイオマーカーの平均値は、B群が6、A群が4であり、本剤がバイオマーカーに影響を及ぼすことが示された。

データに線形モデルを当てはめると、次のようになる。

YZ– 2X

このモデルは、モデル適合のp値とR2に基づいて、データによく適合している。具体的には、R2は 1に等しく、モデルおよびすべてのパラメータのp 値は 0に等しい。このモデルに基づいて、私たちは、バイオマーカーが臨床反応に正の効果を持ち、治療が負の効果を持つと結論づけるだろう。しかし、実際には、治療は臨床効果に全く影響を及ぼさない。その理由は、Zはその手段を通じてXに関係するからであるZ¯¯¯=3+2X¯¯¯.これは、Y¯¯¯=3+2X¯¯¯-2X¯¯¯ =3+0⋅X ¯¯¯を意味している。したがって、異なる共変量Zがモデルに加えられると、Xの係数が変化するのは当然である。Zは治療Xの結果であるため、私たちの定義では交絡因子ではなく、交絡因子の定義の基準3を満たさないことに注意してほしい。

ここで、例のバイオマーカーの反応をランダム化前のベースライン交絡因子Zに変更したとする。私たちは、同じモデルを得て、治療が臨床反応に負の効果を持つという同じ結論を得るだろう。さらに、ベースラインでのバイオマーカー値も考慮するように類似性のグループ化を変更すると、コントロール群に3人の患者(z= 3, 4, 5)、テスト群に同じバイオマーカー値を持つ3人の患者を選択することになることを知る。これは、データから得られたY = Z-2Xを生成する重回帰と一致する。

この例から、重回帰では、ベースラインの交絡因子を用いるべきであるが、治療(または主効果)に起因する変数を共変量として用いてはならないことがわかる。一般に、回帰モデルに含まれる変数の異なる集合は、類似性の原理が適用される異なる類似性のグループ化を意味する。

問題は、バイオマーカーや類似の因子が隠されていたり、観察できない場合である。このような場合、無作為化ではすべての交絡因子がバランスされることが保証されないため、2群におけるその不均衡は不明である。説明変数を追加すると結果変数と説明変数の関係が逆転してしまうというこの現象は、一部の学者によってLordのパラドックスと呼ばれている(Lord, 1967;Tu, Gunnell, & Gilthorpe, 2008)。ここでは、Simpsonのパラドックスと同じように、あるいは移民の長寿を予測しようとするときに、このパラドックスに遭遇することになる。

私は、予測変数がモデル中の他の予測変数の結果である場合、重回帰モデルに含まれるように奨励すべきではないと指摘したいのである。なぜなら、そうすると、モデルからの結果の解釈が難しくなるからだ。予測変数の効果は、単にその係数ではない。一般に、重回帰係数は、他の予測変数が固定され、変化しないときの予測変数の効果を反映する。これができない場合、1と式(2)の例のように、回帰モデルの係数の意味を解釈することは困難である。モデル中のほとんどの予測変数には相関があるため、重回帰の結果は一般に解釈しにくい。

最近、Basic and Applied Social Psychology誌に調停分析に関する特集が組まれた。Trafimow(2015)は、太陽系の惑星のデータを用いて、媒介分析の重回帰における問題点を説明している。しかし、彼の例は、(1)運動量Y=質量*速度は科学的法則ではなく、定義であること、(2)Y=1.016*質量+0.054*速度がデータによく合うということは、モデルが本当にデータパターンを反映しているのであまり問題にならないこと、からあまり説得力がない。データによく合うモデルが複数ある可能性もある。複数のモデルがある理由は、データが質量と速度の間に相関を示すからだ:相関(質量、速度)=0.313。相関が高い場合、共線性の問題が発生する。つまり、データに等しく適合するモデルが無限に存在することになる。先に述べたように、相関がある場合、運動量に対する速度の効果は、その係数である0.054によって単純に特徴づけられるものではない。

統計的なモデル化にはデータ全体を使うことが多く、結果として得られるモデルは全誤差を最小化したものとなる。しかし、それは望ましいことではないかもしれない。例えば、ある薬物が若者と高齢者に及ぼす影響は非常に異なることがある。したがって、私たちが本当に最小化したいのは、関連誤差なのである。関連性のある誤差とは何だろうか?それは類似性の原則に基づいていなければならない。もし、同じような年齢の人々が同じような治療効果を持つと考えるなら、そのグループを使ってモデリングを行い、そのグループ内でのモデルの誤差を最小にする。そのようなサブグループをどのように決定するのだろうか?それは、正確さと精度の間のトレードオフである。サンプルを多くの小さなサブサンプルに分割すると、サブグループのサンプルサイズが小さいため、研究者は正確な結論に達することができるが、精度が悪くなる。一方,サンプルをいくつかの大きなサブサンプルに分割すると、サブサンプル内の特性がまだ大きく異なっている可能性があるので、精度は良いが不正確な結論が得られる。

P値は、ある変数が残すべき有意なものか、削除すべき重要でないものかを判断するために、重回帰から得られることが多い。心理学の分野のように多くの隠れた交絡因子が存在しうる場合、無作為化ではこれらすべての交絡因子のバランスを保証することはできない。したがって、p値が正確でないため、NSHTの価値は低くなる。最近,混合分布を使って隠れた交絡因子に対処する興味深い方法を発見した。これは、無作為化コードの盲検化を解除せずに治療効果を明らかにする方法と同様のアイデアである(Chang, 2014)。

多重検定の問題

「多重性問題」とは、NHSTにおいて、複数の解析を行った場合に、FDRやType-Iエラーが増加する統計的な現象を指す。以下に様々な例を挙げる。

ある大都市で恐ろしい犯罪が起きたとする。警察は、データベースにあるAから始まる姓のアルファベット順に従って指紋照合を行い、犯罪サンプルと一致するものが見つかったら照合を中止することにした。仮に、1組の指紋が確認され、その容疑者の指紋が一番最初にチェックされたとする(姓はアーベルグ)。ここで、無作為に選んだ2組の指紋が一致する確率は1/20,000である。つまり、もし捜査当局のチェックがZから始まっていたら、そして仮に捜査当局が全員をチェックしたいとしても、最終的に彼をチェックする前に、世界人口72億人のうち36万人の指紋の一致をすべて確認しただろう、と容疑者は十分主張できる。このように、アルファベットにおける自分の名前の位置の不運と、早々に捜索を中止した行為が、彼に不当な疑いをかけたと言う。

臨床試験において、早期に有効性を主張するために中間解析を行う場合、アルファレベルで全体のタイプIエラーをコントロールするために、各解析(中間と最終)でどの程度のタイプIエラーを費やすかを決定する必要がある。その結果、有効性を主張できるかどうか(帰無仮説を棄却できるかどうか)は、各分析でのアルファの費消に大きく依存することになる。しかし、化学から、統計学者がどのようにアルファを費やしたとしても、有効性に影響を与えないことが分かっており、各段階でアルファを調整する理由はないのである。ここで、薬の効果について、2つの異なる概念を見ることができる。一つは被験物質の化学的性質の集合であり、これは使用する統計手法に依存しない。もう1つは統計的特性のセットで、これは類似の患者群の集約された属性を反映するので変化する。

線形回帰は研究において最もよく使われる統計手法の一つである。重回帰では、後方消去法(BEA)がよく適用される。この方法の問題点はType-I inflationで、結果的にFDRが増加することである。たとえば、調査する10個の要因がある場合、BEAを用いた重回帰では、Type-Iエラーは約40%になる。これは、科学者が11個の変数を持つ任意のデータを使用して、BEAで重回帰を実行し、少なくとも40%の確率で、少なくとも1つの有意なモデルを見つけることができることを意味する。変数が増えれば増えるほど、Type-Iエラー率は高くなる。したがって、Type-IエラーまたはFDRを制御するか、少なくとも評価する必要がある。そうでなければ、誤った科学的発見が多すぎることになる。

科学的発見において、多重性は実に難しい。最も厳しい基準の一つであるNHSTを用いても、ある研究で偽の発見があり、それを確認するために他の100の研究が行われた場合、有意水準5%と仮定すると、NHSTを用いて5つの研究で偽の検証が行われると予想されるという恐ろしい事実に直面することになる。実験を注意深く行えば、誤差や偽陽性はなくなると誤解されるかもしれない。しかし、これは単なる錯覚に過ぎない。誤差が避けられない最大の理由は、実験デザインが悪いとか、測定値に誤差があるとかいうことではなく、実験の瞬間にはわからない、あるいは観察できない交絡因子が隠れているからなのである。

データは、医療介入や他の研究分野への長期的な調査や一連の調査の過程で継続的に蓄積される。より多くの公開データが利用できるようになると、同じデータに対してより多くの(より多くの)分析が行われるようになり、FDRが膨らむことになる。一方、メタアナリシスではより信頼性の高いデータが得られるので、統計的な結論もより信頼性の高いものになる。それでは、「アルファを使い切ったから」という理由だけで、どうしてメタアナリシスの結果を簡単に否定できるのだろうか?

まとめと提言

科学とは、(理想的には)繰り返される事象の研究である。すべてのものはそれなりにユニークなので、似たようなものをグループ化することによって、私たちにとって重要な事象の繰り返しパターンを特定する。これらの繰り返しに基づいて、私たちは類似性の原理を適用する。集団内のメンバー間の差異が認められると、集団を特徴づける統計的性質を利用して、集団内の個々のメンバーの性質を予測することができる。さて、メンバーの特性は未知であっても固定されており、グループ分けや統計手法が変わっても変化することはない。しかし、統計的な性質は、グループ化や使用する統計解析手法に依存することになる。類似性のグルーピングは基本的に主観的なものであるが、教師なし学習法やクラスタリングのような客観的な手段と組み合わせることができる。

科学研究において重要な目標は、FDR(全所見中の偽陽性所見の割合)を減らすことである。FDRを減らすには、NHSTの検出力を上げるか、NHSTの有意水準を下げればよい。この意味で、NHSTとp値は有用である。また、調査における偽の関係の割合であるRを小さくすることによっても、FDRを小さくすることができる。Rを減らす効果的な方法として、ステップワイズアプローチを用いる方法がある。探索的研究から徐々に確証的研究に移行するのである。仮説が確証的な段階になると、通常、サンプルサイズが大きくなり、コストも高くなる。ステップワイズアプローチは、確認研究の前に偽のカジュアルな関係の多くを排除し、確認段階でのRを減らす、費用対効果の高い、時間節約可能な方法である。NHSTではまだFDRが高いかもしれないが、だからといって他の方法がNHSTより優れていると自動的に決めつけることはできない。NHST法を用いる場合、最も厳しい基準を適用しても、隠れた交絡因子と多重性の問題により、偽発見率は依然として高いかもしれない。したがって、NHSTは単独で使用されるべきではなく、むしろ他の科学的あるいは統計的手法と組み合わせて使用されるべきものである。

点推定値では、差が本当に有意なのか、それとも偶然に生じただけなのかを判断することはできない。P値は、処理差の影響とサンプルサイズの影響を組み合わせたものである。P値が小さいのは、処理差が大きいからなのか、サンプルサイズが大きいからなのか、判断できない。他のどんな単一統計指標も同じような欠点がある。NHSTの有用性の誤用や誤解と、NHSTの限界とを区別する必要がある。限界を知れば, NHSTを慎重に使用することになる.NHSTの使い方を誤ると、誤った結論に導かれる。NHSTの有用性を誤って解釈すると、NHSTの価値を見出せず、禁止したいとさえ思うかもしれない。私の知る限り、どの科学雑誌も、NHSTやp-valueだけを用いて原稿の掲載を認定していない。もしそうであれば、私たちは特別な実験をする必要は全くなく、代わりにコインを10回ひっくり返して、8回以上表が出れば(5%の確率で出る)、帰無仮説が何であれ真であると考えることができるだろう

統計学には演繹的推論と帰納的推論の両方が必要である。数学のようにたった一つの反例で誤った定理が否定されてしまうのとは違い、統計的仮説が失敗する例を見つけることは難しくなく、反例が必ずしも統計的結論や方法を無効にしてしまうとは限らない。統計的モデルを過度に信頼し、モデルの言うことを何でも信じてはいけない。また、ある状況に対応できないからといって、統計的手法を否定したり、禁止したりしてはいけない。

重回帰には賛否両論あるため、単純な一変量モデルによるサブグループ解析を推奨し、相関の高い予測因子による重回帰の使用には十分な注意が必要である。重回帰では、できるだけメディエータを使用しないようにする。

一方、私たちは非常に高度な統計モデルを開発した。その一方で、類似性の原理などの基本的な科学的原理や、重回帰などの基本的な統計モデルに対する理解が不足している。より複雑な統計モデルを作ることに全力を注ぐ前に、一旦立ち止まって、これらの基本的なことを考え直す時期に来ているのではないだろうか。

脚注

利益相反の宣言。著者は、本論文の研究、著者資格、出版に関して、潜在的な利益相反がないことを宣言した。

資金援助著者は、本論文の研究、執筆、出版に関して、いかなる金銭的支援も受けていない。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー