6つの根強い研究上の誤解
Six Persistent Research Misconceptions

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

www.ncbi.nlm.nih.gov/pmc/articles/PMC4061362/

オンライン公開2014年1月23 日

ケネス・J・ロスマン博士

概要

科学的知識は急速に変化するが、研究実施の概念や方法はもっとゆっくりと変化する。研究の実施に関する時代遅れの考え方についての議論を喚起するために、私は、その欠陥が明らかになった後も長く続いている、研究についての6つの誤解を挙げている。これらの誤解は以下の通りである。

1)研究デザインには序列があり、無作為化試験が最も有効で、次いでコホート研究、そして症例対照研究は最も信頼性が低い。2)有効な一般化には、研究対象が対象集団の代表サンプルを構成していることが不可欠である。3)回帰モデルにおいて、2つの要因の積を示す項が統計的に有意でない場合、それらの要因の間には生物学的な相互作用はない。4)連続変数を分類する場合、分類のカットポイントを選択するための合理的な方法は、分布の四分位または五分位などのパーセンタイルで定義された境界を使用することである。5)多重比較のために調整されたP値または信頼区間を常に報告すべきである。6)有意性検定はデータの解釈に有用かつ重要である。

これらの誤解は、雑誌、教室、教科書に永続的に残っている。これらの誤解は、研究問題に対するより思慮深いアプローチを回避する知的近道であるため、根強く残っているのである。私は、これらの誤解に注意を喚起することで、これらの時代遅れの考えを永久に棚上げするために必要な議論を呼び起こすことを望んでいる。

KEY WORDS: 研究デザイン、データ解釈、疫学的手法、代表性、相互作用の評価、多重比較、パーセンタイル境界、統計的有意差検定

人間を対象とする研究の実施には、驚くほど多くの誤解が存在する。あるものは、反対の教えがあるにもかかわらず、またあるものは、反対の教えであるべきであるがゆえに、根強く残っている。これらの問題についての議論を喚起するために、ここでは6つの根強い研究上の誤解を挙げ、それぞれの問題点の概略を説明する。

誤解1.研究デザインには階層があり、無作為化試験が最も妥当性が高く、次いでコホート研究、そして症例対照研究は最も信頼性が低いというものである。

無作為化試験は、しばしば研究タイプの「ゴールドスタンダード」と考えられているが、概念的にさえ完璧ではない。さらに、研究結果の比較妥当性が研究の種類から推測できるという前提も間違っている。

無作為化試験からの証拠は、論理的な証明と同じくらい説得力があるという考え方もあるが、どんな経験的所見も絶対的な確実性を提供することはできない。もし無作為化試験が完璧なものであれば、どうして異なる結果が得られるのだろうか?実際、ランダム化試験にはさまざまな誤差がある。明らかに、無作為割付に基づく研究から予想されるように、無作為誤差がある。しかし、系統的な誤差、すなわちバイアスもある。例えば、無作為化試験は通常「治療目的」の原則で分析され、その後のノンアドヒアランスに関係なく、最初に無作為に割り当てられたグループ間で比較される。非アドヒアランスは、治療効果の過小評価を招く。このバイアスは通常、無作為割付によって得られる利点によって相殺されるため、許容できると考えられている。しかし、治療効果の過小評価は、治療の副作用を明らかにすることを目的とした安全性試験においては、容認できるものではない。ランダム化試験におけるもう一つの重要なバイアスの原因は、結果事象の過少算入のような結果評価の誤りから来る。また、無作為化により試験開始時に群間の危険因子のバランスがとれていても、追跡期間が長くなると、差動減量または危険因子分布の変化により試験群のバランスが徐々に崩れていく可能性がある。したがって、長期にわたる試験では、無作為割付の利点が時間とともに薄れる可能性がある。

つまり、臨床試験は完璧とは言い難いのである。さらに、コホート研究も症例対照研究も、適切にデザインされ実施されれば、有効な結果をもたらすものである。したがって、デザインの序列2,、無闇に研究の妥当性を高めることは誤りである。例えば、タバコと肺がんの関係は、コホート研究や症例対照研究の結果に基づいて、十分に確立されている。しかし、この関係は無作為化試験で明確に示されたことはない。喫煙者と非喫煙者を無作為に割り当てることは容易ではないが、Multiple Risk Factor Intervention Trial無作為化試験で多角的介入の一環として禁煙を検討したところ、禁煙を促された人は促されなかった人に比べて実際に肺がんが多く発生した。この試験の結果は、無作為化せずに行われた多くのコホートおよびケースコントロール研究の結果を覆すものではなかった。むしろ、この食い違いは、この試験の問題点に起因するものであった。

もう一つの有名な例では、大規模なコホート研究5,結果、閉経後のホルモン使用者において冠動脈疾患のリスクが減少することが示されたが、後に行われた二つの無作為試験の結果では、関連がないかリスクが増加することが示された7,8。科学界や一般紙9の反応は、コホート研究の結果は無作為化試験で否定されたと推定し、信用を失墜させるものであった。しかし、Hernanら、優雅な再解析により、コホート研究と無作為化試験の研究集団が異なること、閉経後ホルモン使用の影響が年齢と閉経後の時間によって大きく異なることを示した。研究をホルモン剤の新規使用者に限定した場合、Hernanらは、年齢と閉経からの時間の分布の違いによって、見かけ上の矛盾のすべてを説明できることを示した。このような不一致は、非実験的研究の固有の弱点であると考えるのが普通であるが、研究のタイプの階層を推定して妥当性を割り出すのは単純である。

同様に、コホート研究とケースコントロール研究の間の不一致は、ケースコントロール研究に対するコホート研究の有効性の優位性を推定することによって表面的に説明されるべきではない。適切にデザインされたケースコントロール研究は、適切にデザインされたコホート研究と同じ結果をもたらすであろう。矛盾が生じた場合、それはどちらか一方、あるいは両方のタイプの研究の問題から生じている可能性がある。症例対照研究は、疾病から出発して考えられる原因を遡るコホート研究の逆バージョンであると長い間蔑まれてきたが、今日の疫学者は、完全なセンサスを行うよりも分母をサンプリングすることによって得られる効率性を除けば、概念的にコホート研究と同一であると理解している。実際、効率性の向上により、症例対照研究では曝露評価や症例の検証に多くの資源を使うことができ、その結果、同じ関係のコホート研究よりも偏りが少なくなることがある。

症例対照研究をコホート研究の逆バージョンと考える人は、対照群は症例を定義する疾患がないことを除けば症例に酷似しているはずだという誤った類推をすることがある。実際、症例対照研究の対照群は、症例を発生させた人口分母のサンプルであり、コホート研究で得られる完全な分母の代わりとなるものであることを意図している。したがって、対照群は症例ではなく、研究対象者全体に類似している必要がある。,適切にデザインされた場合、ケースコントロール研究は適切にデザインされたコホート研究と同様の優れた妥当性を達成することができるが、一方で、デザインの悪い試験は信頼性に欠ける可能性がある。研究の種類は、研究の妥当性を示す目安としてとらえるべきではない。

誤解2.研究から有効な一般化を行うために不可欠な要素は、研究対象者が対象集団の代表サンプルを構成していることである。

この誤解は、科学的一般化とは、サンプルから母集団へ結果を機械的に外挿することである、という見解と結びついている。しかし、これは統計的な一般化であって、科学的な一般化とは、自然の仕組みについて正しい記述を構築するプロセスである。

科学的一般化は科学的探究の究極の目標であるが、その前提として、すべての攪乱変数を一定に保つことによって高まる内的妥当性のある研究をデザインすることが必要である。動物研究者が、統計的に代表的な動物のサンプルを求めているという話を聞いたことがあるだろうか。むしろ、研究者の行動原理は、代表性を求めるのとはほぼ逆である。つまり、マウスを研究する生物学者は、遺伝子と環境が均質で、実験的に操作された変数だけが異なるマウスを研究することを好む。世論調査やアンケート調査による統計的一般化とは異なり、科学的一般化は、サンプルから母集団への外挿を求めるだけで、有効な研究という安全な基盤の上で、情報に基づいた推測によって進められる。したがって、代表性を求めるのとは対照的に、交絡因子の変動を抑えることができれば、研究はより強固なものとなる。DollとHill14は、英国の男性医師の死亡率を喫煙習慣との関連で研究した。彼らの研究集団は、性別、人種、民族、社会階級、国籍、その他多くの変数に関して、タバコ使用者の一般集団を代表していないという事実にもかかわらず、その所見は広く一般化できると考えられた。

全体的な関連が年齢や民族などの第3の変数のサブグループによって異なるかどうかについて正当な疑問がある場合、その第3の変数の値の広い範囲から集められた人々を含めることが必要かもしれないが、その場合でも、研究集団がその変数のソース集団を代表していることは非生産的である。その場合の目標は、範囲内に均等に分布する研究対象者を含めるか、または研究全体の効率を高める分布にすることである。源流母集団を代表するようなサンプルは最適とは言えない。,

誤解3.回帰モデルにおいて2つの要因の積を示す項が統計的に有意でない場合、それらの要因の間には生物学的な相互作用はない。

ここでいう「生物学的」とは、生化学的、心理学的、行動学的、物理学的な相互作用を包含する広義の意味である。問題は、相互作用は通常回帰モデルで評価され、その際、積項は生物学的相互作用ではなく、統計的相互作用を扱うという点である。

生物学的相互作用とは、2つ以上の原因が同じメカニズムで作用し、その効果が相互に依存し合っていること。これは自然の状態を表している。基本的な効果を疾病リスクの変化として測定する場合、2つの原因因子の共同効果が、別々に作用する効果の合計よりも大きいとき、相乗的な(すなわち正の)生物学的相互作用が存在することになる。、統計的相互作用は、自然を記述するのではなく、数学的モデルを記述するものである。統計的相互作用は、通常、回帰モデルにおける2つの変数の積の項で評価される。その大きさは、測定方法の選択と測定の規模に依存する。統計的相互作用は、特定の数学的モデルの基本的な関数形式が、変数間の関係の記述として適切でないことだけを意味する。生物学的相互作用を示す2つの因子は、使用するモデルによって、統計的相互作用を示すことも示さないこともある。

回帰モデルにおける製品項には、解釈の難しい単位がある。ある変数が1日あたりのグラム数で測定される脂肪消費で、別の変数が喫煙したタバコの箱年数である場合、グラム/日×箱年数の単位を持つ変数の解釈はどうなるのだろうか?このような積項の係数の解釈の難しさから、係数自体の大きさではなく、係数に付随するp値に焦点が当てられるようになった。p値や積項の係数が統計的に有意であるかどうかに注目すると、統計的相互作用を生物学的相互作用と誤解してしまう問題を悪化させるだけである(誤解6を参照)。より意味のある相互作用の評価は、生物学的相互作用に起因すると考えられる疾患の症例の割合に注目することである。,

TREAT試験(Trial to Reduce Cardiovascular Events with Aranesp Therapy)、糖尿病、慢性腎臓病、貧血を有する患者4,038人を対象に、ダルベポエチンアルファまたはプラセボを投与する群に割り付け、脳卒中のリスクを評価したものである。脳卒中既往のない患者において、試験期間中の脳卒中発症リスクは、プラセボ投与群2%、ダルベポエチンアルファ投与群4%であり、脳卒中既往のある患者においては、プラセボ投与群2%、ダルベポエチンアルファ投与群4%であった。脳卒中の既往のある患者では、プラセボ投与群では4%、ダルベポイチンアルファ投与群では12%であった。著者らは、脳卒中既往者ではダルベポイチンアルファの方がリスク上昇が大きいことを指摘したが、ロジスティック回帰モデルの積項は統計的に有意ではなかったため、この交互作用は否定された。ダルベポイチンアルファによるリスク上昇は、脳卒中既往のない患者で2%、既往のある患者で8%であり、ダルベポイチンアルファと脳卒中既往の間に強い生物学的相互作用があることが示された。もし、リスクが単に相加的であれば、両方の危険因子を持つ人のリスクは実際の12%ではなく、6%になるはずだ。つまり、著者らが相互作用はないと主張しているにもかかわらず、両方の危険因子を持つ人のリスクの半分は生物学的相互作用に起因していると思われる。

誤解4.連続変数をカテゴリー化する場合,カテゴリーのカットポイントを選択するための合理的なスキームは、分布の四分位または五分位などのパーセンタイルで定義された境界を使用することである。

パーセンタイルの使用がカテゴリの境界を選択するのに不適切である理由は2つある。第一に、これらの境界は生物学的に意味のある変化が起こる分布の部分に対応しないかもしれない。ビタミンCの摂取量と壊血病のリスクに関する研究を米国で行っているとしよう。もし、ビタミンCの摂取量を五分位で分類することにしたら、ビタミンCの摂取量と壊血病の関係全体が最も低い五分位に限られ、その分類内ではビタミンC摂取量が少ない異常値にある人々のごく一部にしかないことがわかるだろう。10mg/日のビタミンCは壊血病を防ぐことができるが、それ以下の摂取量の人は、米国では人口の1%にも満たない。もし、パーセンタイルのカットポイントを日常的に使っていたら、ビタミンCと壊血病の研究において直面するのと同じ問題に直面しているかどうか、わからなくなるかもしれない。より効果的な方法は、多くの狭いカテゴリーから始めて、リスクの意味のある区切りが明らかになるまで、隣接するカテゴリーを統合していくことである。

パーセンタイルベースのカテゴリの2つ目の問題は、パーセンタイルカテゴリの境界を使用する研究間のカテゴリが一致する可能性が低いため、研究間で結果を比較するのが難しいことである。この問題は、境界点を変数の自然な単位(ビタミンC摂取量のmg/dなど)で表現することで回避することができる。また、カテゴリー内の平均値や中央値を報告することも有用である。

誤解5.常に多重比較のために調整されたP値または信頼区間を報告しなければならない。

従来の多重比較の調整では、実施した比較の数に応じてP値や信頼区間の幅を膨らませていた。実際の関連性に富んだ生物学的データを分析する場合、従来の調整の前提は揺らぎ、その調整を擁護することは困難である。多重比較の懸念は偽有意義な結果(統計学用語でいうI型エラー)が見つかることを恐れてのことである。誤解6では、そもそもデータ分析に統計的有意差検定を用いることの問題点について述べている。しかし、それらの問題点を考える前に、報告された結果を多重比較のために調整することの根拠を考えてみよう。

1回の有意性検定で帰無仮説が真であるときに有意である確率が5%(従来から使われている水準)であり、適切に実施された複数の検定はそれぞれこの性質を持つはずなのに、複数の検定を行うと偽りの結果になる確率が高まることが懸念される。もちろん、検定の数が増えれば、そのうちの1つ以上が偽陽性になる確率は高くなるが、それは多くの検定を行うからに他ならない。多重比較の調整は、これらの第1種の過誤を減少させるが、その代償として第2種の過誤、つまり、実際の関連があるにもかかわらず有意でない検定結果が増加する。観察された関連がすべて偶然の結果である場合、I型エラーは起こりえるが、II型エラーは起こりえない。逆に、観察された関連性がすべて実際の関係を反映している場合、II型エラーは起こりうるが、I型エラーは起こりえない。このように、どのような分析であっても、その文脈はデータの解釈に関して基本的な意味を持つ。特に、それぞれのタイプの誤りの推定相対コストと頻度を評価することなく、タイプIの誤りを減らし、タイプIIの誤りを増やすような調整をすることは不合理である。

もし、科学者が生物学的データではなく、乱数の研究に従事することになれば、報告される有意な結果はすべてI型エラーとなり、多重比較のための調整が意味を持つようになるであろう。しかし科学者が乱数ではなく、生物学的な関係を研究している場合、I型エラーが主要な懸念事項であるという前提は間違っているかもしれない。多重度調整の必要性をより厳密に評価するならば、データが本質的に乱数であるという仮説の信憑性を評価することから始めるべきであろう心霊現象の実験であれば、その結果に懐疑的であれば、多重度調整を支持することになるかもしれない。医薬品の生理学的効果を研究している場合は、実際の関連性が期待されるので、多重度調整はより困難である。一塩基多型と特定の疾患との関連性を研究することは、その中間的な位置づけになるかもしれない。この問題に対して、理論的にはより防御しやすいアプローチの一つがベイズアプローチである。これは、様々なレベルの関連性に事前信頼性を割り当て、ベイズの定理を用いて事後信頼性を計算することによって調整を行うものである。,

誤解6.有意性検定はデータの解釈に有用かつ重要である。

有意差検定は、研究結果の解釈を明確にするよりも、はるかに多くの誤解や誤判断を招いている。有意性検定はP値の劣化版であり、正確さと効果量を混同した統計量であるため、データ解釈の本質的な2つの側面を混同している。効果量とその精度を別々の課題として測定することが、より直接的で明確なデータ解釈のアプローチとなる。

関連を測定し、それが因果関係を反映しているかどうかを推論することを目的とした研究においては、これらの関連の大きさに焦点を当てることが第一の目標であるべきである:効果の推定は統計的検定よりも明らかに望ましい。理想的には、効果量の大きさを推定し、それを歪めている可能性のある誤差を分析することである。測定された要因による交絡のような系統的な誤差は、分析手法によって対処することができる。測定誤差や選択バイアスの影響のような他の系統的誤差は、感度分析(バイアス分析とも呼ばれる)によって対処することが可能である。ランダム誤差は通常、信頼区間を通じて表現され、指定されたレベルまでデータと一致するパラメータ値の範囲を与える。

効果量の推定値とその測定精度の両方を導き出すことができる信頼区間が、通常、単にヌル値を含むかどうかを判断するために使用され、その結果、有意差検定に変換されていることは残念なことである。著者が統計的有意性の欠如を効果の欠如と誤って解釈するため、強い効果が空所見であると誤って解釈されたり、弱い効果が統計的に有意であるため重要であると誤って解釈されたりすることがあるからだ。信頼区間は、有意性検定の代用として使用するのではなく、効果量の大きさと精度の程度を示す定量的尺度として解釈すべきであり、信頼区間の境界の正確な位置にはあまり注意を払わなくてよい。このアドバイスは、生物医学雑誌に投稿される原稿の統一要件に裏付けられているが、それにもかかわらず、この要件を支持する雑誌の査読者や編集者でも見過ごされがちである。

多くの誤解は統計的有意差検定に依存することから生じている。上述したように、相互作用を測定するのではなく、相互作用項の統計的有意性に注目することは、その一例である。傾向の大きさや理想的な形を表現するのではなく、有意な傾向があるかないかを宣言することによって、用量反応傾向を評価することは、もう一つの例である。さらにもう一つは、結果を報告する際に、特にその結果が統計的に有意でない場合は、研究の検出力を計算するようにというアドバイスがなされることがある。研究結果の一部として検出力を報告することは、「ポストホック」検出力計算と呼ばれている。検出力の計算は、ヌル相関と区別されるべき相関のレベルに関する仮説に基づいて行われるが、研究結果が手元にあれば、相関の推定値があるため、相関の大きさについて仮説を立てる必要はもはやない。推定された関連性の信頼区間は、関連するすべての情報を伝えるものであり、検出力の計算から得られるものはそれ以上のものではない。

統計的有意差検定を重視するあまり、定量的に評価したほうがよい関係を二項対立的にとらえるという残念な結果になっている。この区別は、きれいごとでは済まされない。毎日、統計的有意差検定の紛らわしい霧の中から、重要で、残念で、避けられるデータの誤認識が発生している。これらの誤りのほとんどは、統計的検定から推定に焦点を移せば避けることができる。

結論

研究に対するこのような重要な誤解がなぜ残っているのだろうか。多くの場合、こうした誤解は、より思慮深く困難な作業の代用品である。Hernanらのような手間のかかる分析をしなくても、試験と非実験の間の矛盾を試験に有利に解決することは簡単である。データが実際に支持する関連性の範囲を定量的に検討するのではなく、統計的に有意でないと宣言し、関連性を示すものがないと誤認することは簡単である。このような誤解は、低い道を選ぶことになるが、その道が同じ道を行く他の人々で混雑している場合、その道を疑う理由はほとんどないだろう。実際、このような誤解は、雑誌、教室、教科書の中でしばしば広まっている。私は、理性的な議論によって問題意識を高めることが、改善の一番の近道だと考えている。マックス・プランクはかつて、「新しい科学的真理は、反対者を説得して光を見出させることによって勝利するのではなく、反対者がやがて死に、それをよく知る新しい世代が育つことによって勝利する」と述べた。この皮肉な見解が正しい限り、時代遅れの概念は、せいぜいゆっくりと衰退することが期待できる。このような誤解に注意を喚起することが、必要な議論を引き起こし、変化のきっかけとなることを期待する。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー