Information bias in health research: definition, pitfalls, and adjustment methods

www.ncbi.nlm.nih.gov/labs/pmc/articles/PMC4862344/

オンライン2016年5月4日掲載

Alaa Althubaiti

概要

他の分野と同様に、医学は様々なバイアスの影響を受ける。バイアスの原因を理解することは、妥当な結論を導くための重要な要素であるが、健康調査におけるバイアスは、調査の焦点や結果に影響を与える可能性があり、非常にデリケートな問題であり続けている。情報の偏り（別称、誤分類）は、健康調査の妥当性に影響を与える最も一般的な偏りの原因の1つである。情報バイアスは，研究の測定値を得る，あるいは確認するために用いられるアプローチに起因する。本論文は、観察研究および実験研究の研究デザインにおける情報の偏りについての認識を高め、偏りの問題に関する議論を深めることを目的としている。バイアスの種類を特定することは、その影響を抑制するために不可欠であり、調整方法を用いることで、臨床評価や医療行為を改善することができるかもしれない。

キーワード：自己報告バイアス，社会的望ましさバイアス，想起バイアス，誤分類，測定誤差バイアス，確認バイアス

はじめに

バイアスとは、研究の計画、実施、分析におけるあらゆる系統的な誤りと定義できる。健康調査では，バイアスは2つの異なる原因から生じる可能性がある。すなわち，調査の対象者を選択する際に採用した方法と，調査からデータを収集または測定する際に採用した方法である。バイアスは、医学研究結果の妥当性にさまざまな影響を与える。疫学研究では、バイアスは、関連性の不正確な推定や、リスクパラメータの過大評価または過小評価につながる可能性がある。妥当な結論を出すためには、バイアスの原因と最終結果への影響を特定することが重要な要素となる。情報バイアス（別称、誤分類）は、健康調査の妥当性に影響を与える最も一般的なバイアスの原因の1つである。情報の偏りは、研究の測定値を得るため、あるいは確認するために利用されるアプローチに起因する。これらの測定値は、実験（バイオアッセイなど）や観察（アンケートや調査など）によって得られる。

医療従事者は、バイアスの主要な原因を考慮しなければ、調査結果が無効であるとみなされる可能性があるという事実を意識している。バイアスの種類については多くの研究で議論されているが、2-4,実際にはバイアスの問題はまだ無視されることが多いようである。多くの場合、バイアスは、研究者が意図せずに研究に持ち込んでしまうため、認識するのが難しいのであるが、意図的に持ち込むこともできる。このように、バイアスは非常にデリケートな問題であり、オープンに議論することはできない。この論文の目的は、観察的・実験的な医学研究の研究デザインにおける3つの具体的な情報バイアスについての認識を高めることである。これらは、自己報告バイアス、しばしば疎まれる測定誤差バイアス、そして確証バイアスである。我々は、意思決定プロセスを改善するための明確でシンプルな戦略を提示する。後述するように，バイアスの種類を特定することは，その意味するところを限定するために不可欠である。自己報告バイアス」のセクションでは，自己報告データのバイアスの問題について説明し，自己報告バイアスの2つの例，社会的望ましさバイアスと想起バイアスを紹介している。また，「測定誤差バイアス」では測定誤差バイアスの問題について，「確証バイアス」では確証バイアスの問題について述べている。

自己報告バイアス

自己報告は、疫学研究や医学研究でデータを収集するための一般的な手法である。この方法では、参加者は研究者の質問に対して、研究者の干渉を受けずに回答する必要がある。自己報告の例としては、アンケート、調査、インタビューなどがある。しかし、医療記録や実験室での測定値などの他の情報源と比較して、自己報告データは信頼性が低く、自己報告バイアスの恐れがあると主張されることが多い。

自己報告バイアスの問題は、ほとんどの観察研究（例：症例対照研究やコホート研究などの横断的研究や比較研究）の研究デザインを評価する上で重要な問題であるが、実験研究にも影響を与える可能性がある。しかし、自己報告データを正しく利用すれば、他の多くのデータ収集手段よりも幅広い回答を得ることができる5。例えば、自己報告データは、被験者の視点、見解、意見を得るのに役立つ。

自己報告データにはいくつかのバイアスの側面があり、研究の初期段階、特に自己報告手段を設計する際には、これらを考慮する必要がある。バイアスは、社会的望ましさ、想起期間、サンプリング方法、または選択的想起から生じる可能性がある。ここでは、自己報告バイアスの例として、社会的望ましさと想起バイアスの2つを取り上げる。

社会的望ましさによるバイアス

研究者がデータ収集のためにアンケートや質問票、面接を行う場合、実際には、食事の摂取量、薬物使用、収入、暴力などの自己申告など、プライベートな話題やデリケートな話題に関する質問が行われることがある。そのため、データ収集時に匿名性や機密性が保証されていない場合は特に、自己申告データが社会的望ましさや承認に起因する外部バイアスの影響を受ける可能性がある。例えば、ある個人を対象に薬物の使用状況を調査した場合、その結果は正確な使用状況を過小評価する可能性がある。このようなバイアスは、社会的望ましさバイアスと呼ばれている。

社会的望ましさバイアスの克服社会的望ましさバイアスを防ぐための主な戦略は、データ収集のために実施する前に、自己報告式の機器を検証することである。このような検証には、内部的なものと外部的なものがある。内部的な検証では、自己申告書から収集した回答を、実験室での測定値など、他のデータ収集方法と比較する。例えば、尿、血液、毛髪の分析は、薬物検査で最も一般的に使用されるバリデーション手法の一つである。12-14 しかし、実験室での測定ができない場合や、コストや時間などの理由で実験室でサンプルを分析することができない場合には、外部バリデーションがよく使用される。自己報告手段の妥当性を外部から検証するには、医療記録のチェックや家族や友人からの報告など、さまざまな方法がある12,15。

なお、検証研究のデザインと計画においては、いくつかの要因を考慮しなければならず、場合によっては非常に困難なこともある。例えば、検証試験に登録するサンプルの特性を慎重に調査する必要がある。検証から得られた結果をどのような参加者のグループにも一般化できるように、個人を無作為に選択することが重要である。サンプリング方法が無作為かつ主観的でない場合、バリデーション研究の結果は同じグループの個人にしか適用できず、バリデーション研究の結果と自己報告式の機器の違いを利用して、どのグループの個人の違いを調整することもできない12,16。したがって、事前にデザインされ、バリデーションされた自己報告式の機器を選択する際には、バリデーションプロセスに登録された参加者のグループに関する情報を得るべきである。この情報は、研究論文の一部として提供されるべきであり、そうでない場合には、それらを得るために作品の著者とのさらなるコミュニケーションが必要である。例えば、研究の対象が特定の背景を持たない一般集団の薬物使用を調べることであれば、一般的な特徴を持つ集団のサンプルで検証された自己報告式の測定器を使用するべきである。また、複数の検証手法を組み合わせたり、複数のデータソースを使用したりすることで、結果の妥当性が高まる可能性がある。

さらに、社会的望ましさが研究結果に及ぼす影響は、データ収集方法の設計段階で特定しておく必要がある。そのため、Marroe-Crowne Social Desirability Scale17やMartin-Larsen Approval Motivation score18などの測定尺度は、自己申告情報の社会的望ましさの側面を特定し、測定するのに有用であろう。

想起バイアス

被験者が過去の出来事を思い出す能力に依存して、誤った回答をすることがある。この場合のバイアスは、想起エラーの結果であることから、想起バイアスと呼ばれる。このタイプのバイアスは、ケースコントロール研究やレトロスペクティブコホート研究のデザインにおいて、参加者が自己記入式のアンケートなどの自己報告法を用いて曝露変数を遡って評価するよう求められる場合によく発生する19-21。

想起バイアスがもたらす問題は、社会的望ましさによるものに劣らないが、想起バイアスは、疫学研究や医学研究においてより一般的である。想起バイアスの影響は、特に食事や食品の摂取量を測定する調査方法に焦点を当てて、文献で広く調査されている22-25。適切な考慮をしないと、真の効果や関連性を過小評価または過大評価してしまう可能性がある。例えば、食事調査における想起誤差は、食事摂取量と疾病リスクとの関連性を過小評価する結果となる可能性がある24。

想起バイアスの克服

想起バイアスを克服するためには、想起誤差が発生しやすいケースを認識することが重要だ。想起バイアスは、想起期間の長さ（つまり、臨床評価の時間が短いか長いか)調査対象となる疾患の特徴（例えば、急性、慢性)患者・サンプルの特徴（例えば、年齢、アクセスのしやすさ)研究デザイン（例えば、研究期間）など、多くの要因に関連していることが分かっている26-30。そのため，真の暴露は，健常対照者では過小評価され，症例では過大評価されている可能性がある。その結果、症例と対照群で観察された危険因子への曝露率の差が大きくなり、ひいては観察されたオッズ比も大きくなると考えられる。

想起バイアスを最小限に抑え、場合によっては排除するためには、多くの解決策が有効であることがわかっている。例えば、適切なリコール期間を選択するためには、リコールバイアスに関連して上述したすべての要因を考慮する必要がある。これまでの文献によると、特に参加者に日常的または頻繁に起こるイベントについて尋ねる場合、想起期間は長いよりも短い方が望ましいとされている。また、参加者の属性や経験したイベントの頻度に応じて、想起期間を階層化することができる。また、参加者の属性や経験したイベントの頻度に応じて、思い出す期間を階層化することも可能である。参加者の想起を促すその他の方法としては、記憶補助器具の使用、日記、調査開始前の参加者へのインタビューなどがある31。

しかし、想起エラーをなくすことができない場合は、エラーの特徴や分布に関する情報を得ることが重要だ。このような情報は、先行研究やパイロット研究から得ることができ、その後の分析を調整したり、データ分析のための適切な統計的アプローチを選択する際に役立つ。22,32-36 誤差の特性を調べるためにパイロット試験を実施する際には、高い精度と入念な計画が必要である。なぜなら、バリデーションは主に生物学的試験や実験室での測定に依存するが、これらの試験は実施に費用がかかるだけでなく、しばしば測定誤差が生じるからである。例えば、24時間尿中排泄法を用いてナトリウム摂取量を推定する検証研究では、推定されたナトリウム摂取量が実際の摂取量よりも低くなる傾向が見られた25。このような潜在的な欠点はあるものの、生物学的検査や実験室での測定を用いることは、自己報告データを検証するための最も信頼できるアプローチの一つである。測定誤差についての詳細は、で説明する。

ここで重要なことは、記憶の偏りを克服することは実際には難しいということである。特に，症例対照研究の結果にはバイアスがつきものである。したがって、症例対照研究は、研究仮説を立てるために実施されることはあっても、予後や治療効果を評価するために実施されることはない。最後に、リコールバイアスの影響を評価するには、さらなる研究が必要である。自己報告書の回答とゴールドスタンダードのデータソースとの一致を評価する研究を行うべきである。このような研究は、研究や調査中の疾患に自己報告書を使用する前に、自己報告書の妥当性に関する情報を医学研究者に提供することができる。また、リコールバイアスに関連する他の人口統計学的要因も特定することができる。例えば、糖尿病、高血圧、心筋梗塞、脳卒中などの疾患では、自己申告のアンケートとカルテの診断が高い一致率を示したが、心不全では一致しなかった37。

測定誤差の偏り

装置の不正確さ、実験室の環境条件、あるいは自己申告による測定値はすべて誤差の原因となる。これらの誤差が生じると、観察された測定値は実際の値とは異なる。これはしばしば、測定誤差、機器誤差、測定不正確さ、または測定バイアスと呼ばれる。これらの誤差は、観察的研究（コホート研究など）と実験的研究（実験室でのテストなど）の両方の研究デザインで発生する。例えば、心血管疾患の観察研究では、（危険因子としての）血中コレステロール値の測定値にはしばしば誤差が含まれる。

測定誤差が結果に及ぼす影響を無視した解析は、ナイーブ解析と呼ばれる22。ナイーブ解析を用いて得られた結果は、潜在的に偏りがあり、誤解を招く可能性がある。そのような結果には、回帰パラメータの一貫性のない（または偏った）および／または非効率的な推定量が含まれる可能性があり、信頼区間およびパラメータの仮説検定についての推論が不十分になる可能性がある22,34。

ただし、ランダムサンプリングと測定誤差の変動性を混同してはいけない。一般的に使用されている統計手法は、データ分析時にサンプリングの変動性に対処することができるが、測定誤差による不確実性を考慮することはできない。

測定誤差の偏りが医学研究の文献で議論されたり調整されたりすることはほとんどない。ただし、法医学の分野では、法医・薬毒性学者が測定誤差の偏りについて最も理論的に理解しており、彼らの研究タイプには特に関連性が高いことは間違いない38。

系統的エラーとランダムエラー

エラーは、ランダムに発生する場合と系統的に発生する場合がある。誤差が系統的なものである場合、観測された測定値は一貫して真の値から逸脱している、つまり真の値よりも一貫して高いか低いかのどちらかである。例えば、デバイスの校正が不適切で、各測定値からある量を差し引いてしまうことがある。測定におけるこの偏差を考慮しないことで、結果には系統的な誤差が含まれ、この場合、真の測定値は過小評価されることになる。

ランダムエラーの場合は、観測値と真の値の偏差が一致しないため、予測できない方法でエラーが発生する。このような誤差は、最も単純なケースではガウス分布（正規分布またはベル型分布とも呼ばれる）のような分布に従い、平均値と標準偏差がある。平均値がゼロの場合、測定値はゼロを中心とした間隔で報告され、実際の値からの推定偏差量が報告される。目標値が最小値と最大値の範囲または区間内に収まるように報告される場合、区間の大きさは主に測定誤差の大きさに依存する。つまり、誤差が大きいほど不確実性が大きくなり、その結果、区間が広くなり、精度レベルに影響を与える可能性がある。

ランダムな誤差は、測定量に比例する可能性もある。36 これらのランダム誤差は、生物学的実験の濃度に影響を与える実験室の環境条件など、制御不可能で未知の可能性がある実験要因によって生じる。非ガウス型誤差の例は呼気中のアルコール測定で見られ、アルコール濃度が高くなると測定値のばらつきが大きくなる40-42。

測定誤差の偏りの調整

34 誤差が系統的なものである場合、結果への影響を軽減するために校正法を用いることができる。これらの方法は、先行研究またはパイロット研究から得られる基準測定値に基づいており、研究の測定値を校正するための正しい量として使用される。このように、誤差が推定される場合は、単純な数学的ツールを使用することができる。系統的な誤差の調整方法は、ランダムな誤差の調整方法よりも簡単に適用できる。

34 R Software Package（http://www.r-project.org）やStata（Stata Corporation, College Station, TX, USA）など、一般的に入手可能で人気のある統計ソフトウェアパッケージには、ランダムな測定誤差を調整できる機能が含まれている。偏りの調整方法には，シミュレーション-外挿法，回帰キャリブレーション，道具変数法などがある34。最適な調整方法を選択するためには，誤差の特性に関する知識が不可欠である。例えば，標準偏差の大きさや誤差の分布の形などは，先行研究やパイロット研究で確認しておく必要がある。したがって、実際の測定手順を開始する前に、誤差の特性を特定するために、測定技術の評価を行うことが推奨される。また、調査の測定誤差についても、誤差の特性を明らかにする必要があり、その際には、テスト・リテストやレコード・チェックなど、調査の信頼性・妥当性を検討する方法を用いることができる。

疫学研究における誤差を最小化するために実務者が用いるより単純な方法として、複製がある。この方法では、リスク因子（例えば、長期的な平均栄養量）の複製を入手し、これらの値の平均を計算して、実際の値に対する近似値を提示するために用いる43。

確証バイアス

ある仮説が調査者の信念に反しないため、その仮説を重視することを確証バイアスといい、別の言い方をすれば、確証バイアス、確認バイアス、観察バイアスとも呼ばれる。確証バイアスとは、心理学的バイアスの一種で、対象者の先入観や信念、好みに基づいて意思決定が行われることである。このようなバイアスは、不正確さや誤認などのヒューマンエラーに起因する。確証バイアスは、自信過剰のために、矛盾する証拠が無視されたり、見過ごされたりすることによっても生じることがある44。

医療調査の結果が確証バイアスによってどのように影響されるかを理解することは重要だ。多くの研究が、人間の判断を必要とする調査のあらゆる側面が確認バイアスの影響を受けることを示している48-50。また、確認バイアスは、無作為化比較試験の研究デザインの除外基準にも影響を与えることがわかっている51。

確証バイアスの克服

研究者たちは、確証バイアスを考慮しないと、調査の信頼性に影響を与える可能性があることを示している。また、文献にあるいくつかの研究では、この種のバイアスに対処するためのいくつかのアプローチが提案されている。よく用いられるアプローチは、異なる研究室間で、あるいは異なる意見を持つ他の研究者との協議を通じて、研究対象者の複数の独立したチェックを行うことである。52 科学的調査の信頼性を高めるためには、一重盲検法、二重盲検法にかかわらず、盲検法やマスキング法を用いることが重要である。これらのアプローチは、最終的な結論を確証バイアスから守るために、臨床試験において非常に有用であることが証明されている。盲検化には、参加者、治療を担当する臨床医、募集担当者、評価担当者などが関与する。

さらに、研究者は、特定の教育やトレーニングプログラム53,54を通じて、矛盾する証拠を考慮に入れて客観的に証拠を評価し、視点を変えるよう奨励されるべきであり、研究者の意思決定に過剰な修正や変化があってはならない55。

しかし、上記の提案の問題点は、バイアスの具体的な要因を考慮しないと効果がないことである。例えば、研究者は、結果を出さなければならないという外部からのプレッシャーにより、急いで結論を出す可能性があり、これは特に機密性の高い臨床試験で起こり得ることである。このような場合のバイアスは、調査の妥当性に影響を与える可能性があるため、非常にデリケートな問題である。しかし，十分に設計された試験プロトコルを作成し，それに従うことで，このようなバイアスの可能性を回避することができる。

最後に，確証バイアスを克服し，調査の信頼性を高めるためには，調査にはバイアスがつきものであることを受け入れることが重要だ。この避けられないバイアスとその潜在的な原因を定量化することは、よく練られた結論の一部でなければならない。

結論

疫学・医学研究におけるバイアスは大きな問題である。研究結果の妥当性を確保するためには、考えられるバイアスの種類と、それらが研究結論にどのように影響するかを理解することが重要である。本研究では、最も一般的な情報バイアスの種類である、自己報告バイアス、測定誤差バイアス、確認バイアスについて述べた。また、調整法を用いてバイアスを克服するためのアプローチについても紹介した。一般的なデータ収集方法、情報バイアスの種類、調整・防止策を含む研究タイプの概要を表1に示する。本研究で示された枠組みは、疫学者や医学研究者が科学的調査における情報バイアスを管理するための有用なツールを提供するものである。また、このバイアスを無視した場合の結果の妥当性についても述べている。

表1　研究デザインの種類，一般的なデータ収集方法，バイアスの種類，および調整戦略

研究デザイン	データ収集方法	バイアスの種類	戦略の克服
観察的	自己記入式のアンケート、調査、またはインタビュー	社会的望ましさ	内部または外部の検証調査を実施する
			Marlowe–Crowne Social Desirability ScaleまたはMartin–Larsen ApprovalMotivationスコアを適用します
		想起	記憶補助または日記を使用する研究を開始する前に、参加者のサブサンプルにインタビューします（検証済みのサブサンプル）
観察/実験	臨床検査	体系的なエラー	校正調査を実施する
		ランダムエラー	統計的調整方法を適用する（例：シミュレーション-外挿、回帰キャリブレーション、ベイズアプローチ）測定値を複製する
	臨床検査/診断テスト	確認	複数の独立したチェックを行う
			トレーニングおよび教育プログラムを導入する

バイアスは実際には考慮されていないことが多い。バイアスを軽減するための調整方法や防止方法は数多くあるが、時間や資源が限られているため、それらを適用することはかなり困難である。例えば、測定誤差のバイアス特性は、特に測定器に関する情報が不足している場合、検出するのが難しいかもしれない。このような情報を得るためには、検証研究を行う必要があり、前述したように、これらの研究は高価であり、慎重な計画と管理が必要となるため、面倒な作業となる。通常の分析を行い、測定誤差のバイアスを無視することは魅力的かもしれないが、研究者は、結果にバイアスの証拠がある場合は必ず報告するという慣習に従うべきである。

バイアスを最小化または排除するためには、研究デザインの各段階で慎重な計画が必要である。例えば、自己報告式の調査票を作成する際には、いくつかの規則や手順に従う必要がある。このようなバイアスを最小限に抑えるためには、インタビュアーのトレーニングが重要だ。一方、測定器やアルゴリズムは不完全なことが多いため、測定誤差の影響を排除することは困難である。一般的なルールとしては、データ収集に使用する前に、測定器の精度レベルを修正することである。このような調整を行うことで、欠陥の可能性を大幅に減らすことができる。最後に，確認バイアスは，人間の判断に影響を与えるさまざまな要因を考慮することで，結果から排除することができる。

研究者は結果の偏りの原因についてよく知っておく必要があるが，偏りの可能性と影響を最小限に抑えるためのさらなる努力が必要である。バイアスが生じる可能性のある意思決定の欠点や落とし穴についての認識を深めることは、医学部の学部レベルから始めるべきであり、学生にはバイアスがどのように発生するかを示す例を提供すべきである。さらに、偏りを回避できない場合には、偏りや分析の不備を調整することが必要である。最後に、医学研究の結果を発表する際には、偏りの原因となりうるものを認識し、認めることが重要だ。