P値と統計的有意性 誤解、説明、課題、代替案
The P Value and Statistical Significance: Misunderstandings, Explanations, Challenges, and Alternatives

強調オフ

EBM・RCT科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

www.ncbi.nlm.nih.gov/pmc/articles/PMC6532382/

要旨

研究における P 値の計算と、特に P 値の統計的有意性を宣言するためのしきい値の使用は、近年、両方とも挑戦されている。それは、研究データには、P値とその統計的有意性に要約されるよりもはるかに多くの意味が含まれていることと、この2つの概念がしばしば誤解され、結果的に不適切に解釈されていることである。本論文では、なぜ5%が統計的有意性の妥当なカットオフとして設定されるのかを考察し、P < 0.05やその他のP値の正しい解釈を説明し、統計的有意性の概念の賛否を検証し、データの分析や結果の提示、解釈、議論を行うための他のより良い方法を提案する。

キーワード

互換性区間、信頼区間、P値、統計的有意性


実証的研究では、ノイズの中から信号を識別し、収集したデータから推論を導き出すために、統計的手続きをデータに適用する。したがって、統計的手続きは、データをよりよく理解し、データから結論を導き出すための指針となる。したがって、統計的手続きとその結果が研究に適用されたときに何を意味するのかを十分に理解することが重要である。

すべての推論的統計的検定は、検定統計量と関連するP値で終わる。このP値は、今では研究を行ったり読んだりする人なら誰もが「統計的有意性」を示すカットオフとして「P < 0.05」という表現に慣れ親しんでいるように、非常に高い地位を与えられている。この文脈では、ほとんどの人がP < 0.05を「偶然が所見の原因である確率が5%未満であること」と「所見が真の所見である確率が95%以上であること」を意味すると解釈している。これらの解釈はどちらも正しくない。残念ながら、少しトリッキーな概念を簡単に説明して理解する方法であるため、広く普及している。

この記事では、なぜ5%が統計的有意性の妥当なカットオフとなりうるのかを検討し、P < 0.05が実際に何を意味するのかを説明し、統計的有意性の概念とその理由について議論し、統計的検定の結果を解釈するための他の、おそらくより良い方法を提案している。

なぜ5%なのか?

あなたがコインを投げて、それが尾っぽに落ちると想像してみてほしい。その後、もう一度コインを投げると、また裏目に出てく。まあ、それは確かに起こりうることである。3回目にコインを投げると,また裏目に出てく.同じ顔が連続して3回出てくることもある。4回目に投げて、それが尾を引いたとき、あなたは座って注目する。そして,5回目に投げて,再び尾を引くと,そのコインに何か問題があるのではないかと強く疑念を抱く[1]. なぜだろうか?理論的には,偏りのないコインを数十回に分けて5枚ずつ投げれば,5枚の同じ面が揃うことは確かに偶然に起こりうる.しかし,あなたは何十回もコインを投げていない.あなたがコインを投げたのは1回だけだ。その1回の試行で,そのコインが5回とも同じ顔をしていることがわかった。言い換えれば,むしろ稀にしか起こらないはずのことが最初に起こったのです.このことは、少なくともそのコインについては、結局のところ、それは稀な出来事ではなかったかもしれないことを示唆している。言い換えれば、あなたの発見は有意であると考える。つまり、コインが偏っていないという帰無仮説を棄却し、コインが偏っているという別の仮説を受け入れる。

単純な数学では,投げられたコインが連続して5回同じ表(表か裏か)を表示する確率は,0.5 × 0.5 × 0.5 × 0.5 × 0.5;すなわち,0.0625であることがわかる.このP値0.0625は、一般的な慣習で「統計的有意性」のカットオフとして設定されている0.05にかなり近い値である。

カットオフとして5%を選択するためのもう少し科学的な説明は、正規分布の約5%(より正確には4.5%)は、外れる値または「有意に異なる」値、つまり平均から2標準偏差以上離れた値を含んでいるということである。他の説明も提供されている[1]。

P < 0.05は本当に意味があるのか?

新しい抗うつ薬とプラセボを比較するランダム化比較試験(RCT)を行ったとする。8週間の試験のエンドポイントで、60%の患者が抗うつ薬に反応し、40%の患者がプラセボに反応したことがわかる。適用したカイ二乗検定では、P値0.04,つまり0.05よりも小さい値が得られる。あなたは、プラセボよりも有意に多くの患者が抗うつ薬に反応したと結論づけます。あなたの解釈は、新しい抗うつ薬は本当に抗うつ効果があるということである。結論は正しいのであるが、5%のカットオフや統計的有意性の概念さえも問われているので、曖昧である。統計的に有意なP値であっても、真実を決定するものではないので、解釈は間違っている。

では、正しい結論と正しい解釈とは何であろうか?これには、統計的検定の意味を理解することが必要である[2]。さて、薬物とプラセボを比較するRCTを100件実施した場合、各RCTで薬物とプラセボの反応率が同じになることは確かにないであろう。むしろ、あるRCTでは薬物がプラセボを上回り、他のRCTではプラセボが薬物を上回る。さらに、薬剤とプラセボがお互いを上回る大きさは、試験によって異なる。この文脈では、P = 0.04(すなわち、4%)が意味するのは、帰無仮説が真であり、研究を多くの回数、全く同じ方法で実施し、その都度、母集団から無作為のサンプルを抽出した場合、4%の場合、この1回で得られたものと同じか、それ以上の群間の差が得られるということである。

しかし、あなたはRCTを何回も実施しなかった。あなたは一度だけ実施した。あなたがRCTを実施した1回の機会に、あなたが得た結果は、まれであると考えられるものであることがわかった。したがって、おそらくその所見は本当に稀なものではないのであろう。これは帰無仮説が偽である場合にのみ可能である。したがって、あなたがトスされたコインが偏りがないという帰無仮説を棄却したのと同じように(前項参照あなたはその薬がプラセボと変わらないという帰無仮説を棄却する。この(正しい)推論はかなり複雑なので、多くの人は、この記事の紹介段落で述べたように、より単純ではあるが不正確な方法で説明し理解することを好む。その他の誤った解釈も記述されている[3]。

P < 0.05 AND P > 0.05の解釈

帰無仮説が棄却された場合(P < 0.05我々の研究で薬剤がプラセボよりも優れていたように、サンプルが抽出された母集団において薬剤がプラセボよりも本当に優れていると結論づけることができないのはなぜであろうか?その答えは、P値が確率を表すものであり、確実性を表すものではないからである。つまり、その薬が母集団の中でプラセボよりも本当に優れているという確信は決して持てない。

次に、P = 0.04を得る代わりに、先に説明した架空のRCTでP = 0.14を得たと想像してみてほしい。この状況では、5%の閾値に基づいて帰無仮説を棄却しない。では、この薬はプラセボと変わらないと結論づけることができるのであろうか?確かにそうではないし、その薬がプラセボと似ていると結論づけることもできない。結局のところ、薬剤とプラセボとの間には奏効率に明確な差があることがわかった。つまり、”有意差がない “ということは、”違いがない “ということでも “類似している “ということでもないのである。

統計的有意性のために閾値を使用するのをやめることが必要な理由

前のセクションから、P値が0から1までの連続体に沿ってあるように、我々の解釈もまた、帰無仮説に対する信頼度(または信頼度)の異なる連続体に沿ってあるべきであることが明らかになった;どちらにしても、我々は決して確信することができない。これは、P値が正確な値として報告されるべきであり、連続変数とみなされるべきであることを意味する。したがって、結果を有意か無有意かを定義するために任意のしきい値を挿入するのは誤りであると考えられるべきで、あたかも有意な結果と無有意な結果が、死んでいる人と生きている人がカテゴリー的に異なるように、ある意味でカテゴリー的に異なるものであるかのように。別の言い方をすれば、統計的有意性を宣言しても、Pの値ですでに説明されていること以上に、データの理解を向上させることはできない[4] 。実際、有意性を宣言することは、母集団に所見が存在するという誤った確信を与え、一方、有意性を否定することは、所見が存在しないという誤った確信を与えるかもしれない。

したがって、有意性のある結果を雑誌発表やメディアへの発表のために優遇するのは誤りであるということになる。最後に、確率連続体は、有意でない結果を得た研究が有意な結果を得た研究と矛盾しない理由でもある。どちらの研究も連続体に沿った所見を得ており、矛盾が存在するのは、所見がこの連続体に挿入した任意の架空のフェンス(P < 0.05)の反対側にあるからにすぎない。ベイズ法も例外ではない[5]。

95%の信頼性インターバル

20人の患者のうち10人が新しい抗うつ薬に反応し、22人の患者のうち11人がプラセボに反応したRCTを想像してみよう。各群の奏効率はちょうど50%である。反応率の差は0%である。どのような統計的検定を適用しても、P値は1.00になる。これは、薬物とプラセボの間に差がないことを100%確信しているということであろうか?  そうじゃない!。P = 1.00が意味するのは、帰無仮説が真で、同じ方法で研究を多数回実施した場合、100%の確率で0%以上の群間の差が得られるということである。これは実は常識である。もしその薬が本当に抗うつ効果を持たないのであれば、ある時にはその薬がプラセボよりも多少の差をもって上回り、別の時にはプラセボがプラセボよりも多少の差をもって上回り、そしておそらくある時には2つのグループで結果が同じになる、つまりすべての(100%の)時に0%以上のグループ間の差が得られるということになる。

ここで疑問が湧いてく:もしすべてが、研究を何度も繰り返し、毎回異なる回答を得ることに帰結するのであれば、不確実性の範囲を実際に役立つものにまで減らすことができるのであろうか?ここで95%信頼区間(CI)が登場する。平均値、平均間の差、割合、割合間の差、相対リスク(RRオッズ比、治療に必要な数、害を与えるために必要な数、その他の研究から得られる統計量は、その研究のためだけに正確である。しかし、私たちが本当に知りたいのは、これらの統計の値が母集団の中でどのようになっているのかということである。母集団全体を調査することは(通常)不可能なので、母集団の値が何であるかを確実に知ることはできない。しかし、95% CIは、我々にアイデアを与えるのに役立つ95% CIは、P値と同様によく誤解されているが、ここでは説明する。ある研究を同じ方法で100回繰り返すと、これらの研究で推定した95% CIのうち95% CIは母集団の平均を含むと予想される。したがって、推論では、1つの研究から得られた95% CIを調べると、この特定のCIが母集団平均を含む確率は95%となる[6]。

先に引用したRCTの例では、各群とも応答率は50%、つまり、薬剤とプラセボの間に応答率の差はなかった。少し計算してみると、奏効率のRRは1.00,95%CIは0.55~1.83であることがわかる。つまり、薬物対プラセボの反応の母集団の結果は、薬物がプラセボより45%も劣っているのと同じくらいから、プラセボより83%も優れているのと同じくらいまでの範囲内にあることを95%確信している。ここでは、統計的有意性を絵に持ち込む必要は全くないことに注意してほしい。また、95%信頼区間は、母集団に対して可能な値の範囲を提供していることにも注目してほしい。

不確かさと95%互換性区間

解釈を0.05などのしきい値に基づいて行うと、解釈に確実性の要素を与える傾向がある。すでに説明したように、確率は連続体に沿っているので、この確実性は幻想である。さらに、データセット内にばらつきがあるのと同じように、複製研究の間でも、仮説的な複製研究の間でもばらつきがあるであろう。どのデータセットとどの結論が母集団に最も適合するかは、決して確実ではない。そこで、Amrheinら[5]とWassersteinら[4]は、確実性を意味する二項対立の結論を出すのではなく、科学者は不確実性を受け入れるべきであると提案している。

この文脈では、一つの可能な解決策として、Amrheinら[5]は、95%信頼区間を互換性区間として再概念化することを提案している。すなわち、95%信頼区間内のすべての値は、研究で記録されたデータと互換性があり、「統計的有意性」に関係なく、点推定値(例えば、平均値やRR)が最も互換性があり、信頼区間内の他の値は、点推定値からの距離が大きくなるほど、互換性が徐々に低下する(それでも互換性はある)。やや単純に説明すると、これは(研究がよく設計され、よく実施され、よく分析されていれば)研究で得られた点推定値が母集団値である可能性が最も高く、95%信頼区間内の他のすべての値も母集団値である可能性があり、点推定値からの距離が大きいほど可能性が徐々に減少していくことを意味している。

例を用いて説明すると、試験薬(対プラセボ)に対する反応のRRが1.00(95%CI,0.55-1.83)であることがわかったRCTを考えてみよう。この所見を取るに足らないものとして解釈すべきではなく、むしろ、最も可能性の高い解釈は、試験薬はプラセボよりも良くも悪くもないということであり、低い有効性(最も極端で最も可能性の低い値である45%の悪化)と高い有効性(最も極端で最も可能性の低い値である83%の改善)の可能性も、この研究で記録されたデータと一致していると考えるべきであろう。読者は、統計的有意性がどこにも入ってこないことを改めて思い知らされる。

RRの95%CIが0.95-2.20であれば、従来の解釈では「有意ではない」となるが、より良い解釈では、結果はリスクの増加とほぼ一致しているということになる。同様に、RRの95%CIが0.65-1.05であれば、従来の解釈では再び「有意ではない」となっていたが、より良い解釈では、結果はほとんどがリスクの減少と両立するということである。この点で、Amrheinら[5]は、95%CIでさえ確率を記述しており、母集団の値が互換性の範囲外にある可能性を排除するものではないことを読者に思い出させている。また、95%CIは推定値であり、母集団パラメータがおそらくどこにあるかの決定的な声明ではないことも覚えておかなければならない。

統計的有意性のためのP値にNo、そして閾値にNo

P値と統計的有意性の概念は以前から疑問視されていた[7]が、2016年に米国統計協会(ASA)は統計的有意性とP値に関する声明を発表した[8]。 声明では、P値は決して科学的推論の代用として意図されたものではないと主張している声明では、以下の6つのポイントが強調されていた。

(1) P値は、データが指定された統計モデルとどの程度互換性があるか、あるいは互換性がないかを示す指標を提供することができる。

(2) P値は単独では、仮説の良い検定にはならないし、モデルの良い評価にもならない。

(3) P値は、仮説が真である確率や、偶然性が所見の原因である確率を推定するものではない。

(4) 任意の統計的有意性の基準を満たすようなP値は、効果の大きさや結果の重要性を示すものではない。

(5) 科学的な結論や意思決定は、P値が任意の閾値を下回るかどうかだけに基づいて行われるべきではなく、

(6) 適切な推論を行うためには、完全な報告と透明性が必要である。ASAは、CIのような他の統計的推定値を含める必要があること、ベイズ的アプローチを使用する必要があること、誤発見率を考慮する必要があることを付け加えている。

これらの点のいくつかはすでに説明されているが、その他の点はこの記事の範囲外であり、読者の方は原文を参照されたいと思う。

しかし、P値と統計的有意性のしきい値をなくすことは難しいであろう。なぜなら、P値を推定して統計的有意性(またはその有無)を宣言することは、実証研究の礎となっているからであり、もしここに変化をもたらすのであれば、教科書、教育システム、科学者、資金提供団体、科学雑誌のすべてが大変革を起こさなければならないからである。これは、実際に起こったとしても、何年も何十年もかかるかもしれない。なぜなら、P値は計算や使用が容易で、代替案は理解や使用が容易ではなく、さらに、代替案が何でなければならないかについてのコンセンサスがないからである[4]。

二分法を維持することに賛成して

統計的有意性のためのP < 0.05のしきい値を保持することには、わずかではあるが明確な役割がある。研究所見の二項対立的な解釈は、医薬品を上市承認するかどうかなどの行動が求められる場合に必要である[9] 。このような状況では、あらかじめ定められたルールが必要であり、Armhemら[5]が推奨している不確実性を受け入れることはできない。このような状況では、研究所見は期待値を満たすかそれ以上のものでなければならないため、統計的有意性の閾値を保持する必要がある。しかし、科学の完全性を守り、偽陽性の所見を減らすためには、P < 0.005のように、より高い値を設定することもある[10]。現在多くの人が要求しているように、有意性の閾値を完全に捨ててしまうと、研究結果がユーザーの興味に合わせて解釈されてしまうリスクがある。

Pのしきい値が必要とされる状況は他にもある。例としては、業界の品質管理やリスク許容度などがある。パラシュートを使用する人を考えてみよう。彼は、パラシュートが開くことを95%以上確実にしたいと思っている[1]。脳イメージングやゲノム解析のように、さらなる調査のために変数を選択する際のフィルターとしても閾値が必要になる[4]。

推奨事項

P値は連続変数として解釈すべきであり、二分法ではない。したがって、P値が< 0.05またはその他の所定の閾値であるからといって、研究仮説が真であると結論付けるべきではない。同様に、P > 0.05または他の所定の閾値があるからといって、研究仮説が偽であると言ってはいけない。これらは、いずれにしても、P値が何を意味するかについての間違った解釈である。

統計的有意性のしきい値は意思決定の基礎となる有用なものであるが、その限界は認識されるべきである。0.05よりも低い閾値を設定し、研究結果に関連する偽陽性率を調べることが賢明かもしれない。また、統計的に有意であると認められたものが臨床的に有意であるかどうかを調べることも重要である。

単一の推定値と関連する P 値だけでは不十分である。推定値について可能な限りの評価を行う必要がある。絶対値の他に、95%CIを互換性間隔として検討し、この互換性間隔の精度を考慮すべきである。標準化平均偏差、RR、治療に必要な数などの効果の大きさの尺度、およびこれらの効果の大きさの尺度に関連する信頼区間(互換性)も報告すべきである。

すべての所見は、サンプルの性質、サンプルサイズ、使用した機器の信頼性と妥当性、および研究が実施された厳しさを含む研究デザインの文脈の中で解釈されるべきである。

続きを読む

熱心な読者は、2019年に発行された『American Statistician』の特別付録「21世紀の統計的推論」を参照してほしい。P < 0.05を超える世界” この号には43の記事が掲載されており、その中には技術的なものもあるが、その多くは平均的な医学者にも理解できる内容となっている。Pと統計的有意性の概念が完全に否定されているわけではなく、何が最良の代替案なのかというコンセンサスがない一方で、多くの提案がなされている。これらには、P値のS値への変換、第二世代のP値の導出、信頼性分析の使用、P値と計算された偽陽性リスクの組み合わせ、十分に小さいP値と十分に大きい効果量の組み合わせ、信頼度指数の使用、統計的決定理論の使用、そして既に議論されているように互換性間隔の使用が含まれる。

本特集号の記事は、5つのセクションに分けて掲載されている。ポスト「P < 0.05」の時代に向けて;Pの解釈と使用;Pの補完と代替;より全体的なアプローチの採用;機関の改革:出版政策の変更と統計教育。特集号の社説[4]では、各論文の著者が提供する有用な要約が紹介されている。

最後になったが、読者の皆さんには、P値に関する12の誤解を列挙したGoodman[3]の論文を参考にされることを強くお勧めする。これらは以下の通り。

  1. P値が0.05の場合、帰無仮説が真である確率は5%である
  2. 取るに足らないP値は、(例えば)グループ間に差がないことを意味する。
  3. 統計的に有意な所見(Pが所定の閾値以下)が臨床的に重要である
  4. 0.05の反対側でP値を得た研究では、相反する結果が記述されている。
  5. 同じP値をもたらす分析は、帰無仮説に対する同一の証拠を提供する。
  6. a 0.05のP値は、帰無仮説が真であれば、観測されたデータは5%しか得られないことを意味する。
  7. 0.05のP値と0.05以下のP値は同じ意味を持つ。
  8. P値は,P = 0.009の場合はP < 0.01のように,不等式と書くのがよい.
  9. 0.05のP値は、帰無仮説が棄却された場合、5%の確率でタイプ1のエラーが発生することを意味する。
  10. 統計的有意性のしきい値を0.05に設定した場合、タイプ1のエラーの確率は5%である。
  11.  ワンテールP値は、研究者が一方向の結果に関心がない場合や、その方向の値が得られず、科学的な結論や治療方針が統計的有意性に基づくものでなければならない場合に使用すべきである。
  12. 研究者がある方向の結果に興味がない場合や、その方向の値が得られない場合には、ワンテールP値を使用すべきであり、科学的な結論や治療方針は統計的有意性に基づくべきである。
この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー