パースペクティブ　栄養学研究における無作為化対照試験法の根本的限界　プロバイオティクスの例

コンテンツ

要旨
序論
知識の現状
RCTの背後にある前提条件
プロバイオティクスRCTにおける前提条件の意味合い
妥当性を高めるには？
議論
結論
- Box 1. 特定の食事介入が十分に定義されていないかもしれない理由

www.ncbi.nlm.nih.gov/pmc/articles/PMC6140446/

要旨

健康と栄養の関係についての研究は、多くの場合、結論が出ていない。多くの研究結果の妥当性が懸念されており、栄養学の研究者は無作為化比較試験（RCT）法など、質の高いエビデンスを提供できる方法を採用してきた。

残念ながら、多くの栄養学的RCTでは、曖昧な結果が得られている。RCTは栄養学的研究を含む特定の環境には不向きであると主張されてきた。このような観点から、栄養学研究におけるRCT法には根本的な限界があるのではないかと考えている。そのために、範囲を限定するために、プロバイオティクス研究を例に挙げている。

我々は、認識論的アプローチを使用して、RCT法の根底にある前提条件を評価する。3つの一般的な前提条件が識別され、議論されている。我々は、これらの前提条件が常にそうであるとは限らないように見えるプロバイオティクスRCTで真と見なされることができるかどうかを評価する。

この視点は、将来のプロバイオティクスまたは栄養介入試験のために考慮されるかもしれないいくつかの代替的な研究方法を探索することによって締めくくられる。

キーワード

RCTの限界、プロバイオティクス、栄養、研究デザイン

序論

過去半世紀にわたり、食生活と健康状態の関連性は、科学者の間でますます注目されてきた。しかし、研究の多くは観察的なものであり、これらの方法に基づく研究結果の妥当性について懸念が提起されている(1, 2)。栄養学研究の成果に対する信頼性を高めるために、研究者はエビデンスの質の向上に努めており(3)、栄養学研究者はエビデンスに基づいたアプローチを採用している(4)。それぞれの研究方法論は一定レベルのエビデンスの質をもたらすが、臨床研究の「ゴールドスタンダード」である無作為化比較試験（RCT）は、ベースラインでの複数のバイアス源の排除を可能にするデザインであるため、最高品質の医学的・科学的エビデンスを提供すると考えられている(5)。RCTのシステマティックレビューまたはメタアナリシスのみが、より高いグレードのエビデンスを提供すると考えられている（6）（図1）。導き出された勧告の信頼性をさらに向上させるために、GRアルツハイマー病E（Grading of Recommendations Assessment, Development and Evaluation）（7)栄養学的研究に対応するNutriGrade（8)または欧州安全機関（European Safety Authority）によるweight-of-evidence guideline（9）など、いくつかのより洗練されたエビデンスグレーディング方法論が開発されてきた。

図1　参考文献3,5,6で議論されている証拠レベル　RCT、無作為化比較試験。

この証拠の等級分けは、研究研究がどのように適用され、科学的結果を評価し、ヘルスケア製品のための証拠を提供するために使用されるかにおいて重要な役割を果たしており、Blumbergら(4)が述べているように、”このような考慮に値する唯一の証拠のタイプとして、RCTにほぼ独占的に依存していることが多い “ように思われる。

残念なことに、疾患修飾の有効性に関連した栄養学的RCTの結果は、しばしば曖昧な結果をもたらす。例として、2型糖尿病を持つ被験者におけるクロム補給の血糖低下効果をテストするRCTのメタ分析は、全く同じ栄養補助食品（600μgのCrと2 mgのビオチン）と非常に類似した研究集団を使用した研究であっても、空腹時血漿グルコース（10）で得られた効果にかなりのばらつきを示した[すなわち、Albarracinら（12）と比較して、シンガーとジオハス（11）]。言い換えれば、非常に類似したRCTであっても、異なる結果をもたらすことができる。ゴールドスタンダードの方法でさえ、説得力のある一貫した証拠を提供できない場合、RCTのデザインや実施の質が不十分であるか、あるいは疑われる効果が存在しないと結論づけられることが多い。しかし、RCTが一般的な臨床実践となって以来、学者たちは様々な状況でのRCTの適用可能性について懸念を表明してきた。栄養学的研究の範囲内では、いくつかの出版物がRCT法はこの設定にも不適当であるかもしれないと主張している(13-15)。これらの議論の多くは、アウトカム測定の不十分さや介入期間の不十分さから、脱落率の高さ、アドヒアランスの低さ、状況の変動性、研究グループ間の対照の不十分さに至るまで、主に実用的な考慮事項で構成されている。

このPerspective論文では、栄養学研究におけるRCT法の適用に根本的な限界があるかどうかを調査する。この目的のために、また範囲を限定するために、栄養学研究のサブエリアであるマイクロバイオームとプロバイオティクスの研究を例に挙げている。この例を用いる理由の一つは、プロバイオティクスが「錠剤に詰められる」栄養素の例であり(14)、RCTによる研究に適していると思われるからである。さらに、プロバイオティクスは研究者と臨床家の両方からますます関心を集めている。1990年代に培養に依存しない微生物同定法が開発されて以来、マイクロバイオームへの関心は飛躍的に高まっている。その成果は非常に有望であり 2013年にはScience誌がマイクロバイオームをBreakthrough of the Yearの次点賞に選出し(16)、Fortune誌が2015年を「マイクロバイオームの年」と宣言したほどである(17)。このようにマイクロバイオームとプロバイオティクスを介したその調節への関心が急速に高まっており、プロバイオティクス研究においてRCT法が広く用いられていることから、栄養学研究のこの特定のサブエリアにおけるRCTの根本的な限界についての分析が必要であると思われる。

では、マイクロバイオーム介入研究、特にプロバイオティクス試験に関する知識の現状を簡単に概観する。プロバイオティクスに関する多くの研究は、RCTデザインの使用で実施されており、我々が示すように、これらはあまりにも多くの場合、不明確なと不均一な結果をもたらす。その結果、明らかな疑問は次の通りである

：プロバイオティクス研究におけるRCTアプローチの適用可能性には根本的な限界があるのだろうか？

この原稿では、RCTによるプロバイオティクス治療の有効性を実証することの明白な困難性を、基礎となる前提条件を調査することによって検討している。前提条件の意味を簡単に説明した後、RCTに一般的に適用可能なものを議論する。次に、我々は、RCT法が常にプロバイオティクスの介入の効果を実証するために適していないかもしれないと結論付けて、プロバイオティクスを調査する場合、これらの前提条件が真であると見なされることができるかどうかを議論し、検討する。その結果、代替的なアプローチは、RCTの前提条件が合理的に真であると考えることができることを確実にするか、または別の方法の使用を通して有効性を実証するために必要である。我々は、将来のプロバイオティクス介入試験のために考慮されるかもしれないいくつかの代替アプローチを探る。この観点は、栄養学的研究におけるプロバイオティクスRCTに関するこれらの結論の影響の一般的な評価で締めくくる。

知識の現状

マイクロバイオームに焦点を当てた研究は、100年以上も前から行われており、生菌を補給することで健康を促進できることを最初に示唆したエリー・メチニコフの研究に始まる(18)。前述したように、マイクロバイオーム研究はここ数十年で飛躍的に増加しており、その大部分は、マイクロバイオームの組成と機能の解釈と分析を飛躍的に向上させる培養に依存しない微生物同定法の開発によるものである。この研究によって多くの興味深い知見が明らかになったものの、健康上の利点をもたらすためのマイクロバイオームの変調に関する研究は、確固たる証拠を提供することにはあまり成功していない。食事によって、マイクロバイオームの組成に急速かつ実質的な変化をもたらすことが知られている(19)。しかし、プロバイオティクス（「適切な量を投与すると宿主に健康上の利益をもたらす生きた微生物」）のような、マイクロバイオーム関連の健康成果を改善するための他の手段もある。(20).

プロバイオティクスの特性により、高品質のプラセボ製剤の使用が可能となるため、また前述のエビデンスグレーディングのために、多くのプロバイオティクス研究がRCTを通して行われてきた。しかし、これらのRCTはしばしば一貫性のない結果をもたらす。細心の注意を払ってお互いを繰り返すように設計されているRCTであっても、相反する結果をもたらすことができる。例えば、Kalliomäkiら（21）による二重盲検RCTでは、アトピー性湿疹の一次予防に対するLactobacillus rhamnosus GG（ATCC 53103）の周産期投与の効果を調査し、プラセボと比較して疾患頻度が50%減少したと報告しているが、この結論は4年間の追跡調査後も維持されている（22）。逆に、同じ菌株を使用し、ほぼ同じ研究デザインで行われたKoppら（23）による独立研究では、予防効果は認められなかった。

RCTアプローチはプロバイオティクス介入研究においてもゴールドスタンダードと考えられているが、多くの場合、結果は曖昧であると結論づけることができる。研究者は、このような異質な結果が暗示する問題をますます認識しており、機械学習技術の使用など、これらの困難を克服する手段を模索している(24)。しかし、異なる調査手段が同じ問題に遭遇しないようにするためには、多くのプロバイオティクスRCTの曖昧な結果の根本的な原因を理解することが重要である。我々の知る限りでは、これらの根本的な原因を特定するための研究は行われていない。ここでは、根底にある前提条件を調査することで、これらの限界を再検討する。

RCTの背後にある前提条件

RCT の設計と実施におけるいくつかの側面は、結論の内部妥当性に影響を与える。内部妥当性とは、「臨床試験において系統的誤差（バイアス）が最小化される程度」（25）と定義され、患者無作為化の不適切な生成または隠蔽、介入群間で不均等に分布する追加治療または検出率、追跡調査の損失、不服従、不正確な定義または適格基準の違反などの方法論的な問題に影響される。これらおよび他の方法論的考慮事項の影響を最小化するために、いくつかの品質基準（QC）ガイドラインが策定されている。方法論的な問題はRCTの結果の内部妥当性に影響を与える一方で、いくつかの実用的な懸念事項は、食事療法研究でRCT法を使用する可能性を制限している（例えば、フォローアップのための時間、コスト、倫理、革新的な研究質問の阻害）(26, 27)。

これらの方法論的および実用的な考慮事項の詳細な議論は、このテキストの範囲を超えている。その代わりに、我々は質問をする：どのような基本的な原則は、QCにつながり、最終的にプロバイオティクス研究におけるRCTの結果から引き出された結論の妥当性を決定するのだろうか？この質問に答えるために、我々は認識論的アプローチを使用して、根本的な前提条件を評価する。

前提条件は、科学の基本的な側面であり、科学的方法には証拠と論理と同じくらい重要である。前提条件とは、証明できない仮説の出発点であり、多くの場合、暗黙のうちに真であると仮定されているものであり、より正式には次のように定義することができる。「質問の前提条件とは、質問が答えを持つために真でなければならないものである」(28)。

前提条件の中には、科学的手続きに一般的なものもある。例えば、アメリカ科学振興協会（American Association for the Advancement of Science）がポジションペーパーで述べているように、「科学は、宇宙の物事や出来事が、注意深く体系的な研究によって理解可能な一貫したパターンで起こることを前提としている」(29)のである。図 2 に示すように、前提条件は、エビデンス、ロジック、QC が意味を持つフレームを形成している。

図2

前提条件、品質基準、論理（と分析)エビデンスの関係。品質基準とは、結論の妥当性を高めるために、エビデンスやロジックの品質を高めることを目的としたガイドラインである。前提条件は、研究の質問、アプローチ、評価が意味のあるものとなるために必要なフレームを形成し、品質基準、エビデンス、ロジックを支配するものである。結論が有効であるためには、前提条件が真実である必要がある。

品質基準がチェックし、妥当性を確認し、満たされていることを証明することができるのに対し、前提条件はそうすることができない。宇宙の出来事が一貫したパターンで起こるという前提条件は、証明も反証もできない。これをより関連した文脈に入れるために: 特定の病気のための処置を調査するために臨床試験を引き受ける研究者は調査のこの方法が最も有効な処置を見つけるのに使用することができることを仮定する。繰り返しになるが、この前提条件を証明することも改竄することもできない。このことは、前提条件が恣意的であることを意味するのではなく、研究テーマの文脈の中で常識的に正当化されていることを意味している。結論が広められた聴衆にとって意味のあるものとなるためには、この常識が聴衆の間で共有される必要がある(28)。

なぜRCT法がプロバイオティクスの研究の中で不足しているかをよりよく理解するためには、RCTのアプローチの基礎となる前提条件を探ることが不可欠である。これらの前提条件は、介入のタイプの独立した任意のRCTのために作られているが、それらの妥当性は別のものに1つの研究から異なる場合がある。どのような前提条件でもそうであるように、RCTの結果から導き出された結論は、前提条件が真実である場合にのみ有効である。

一貫性

人は一人として同じものはない。個人の体質が人によって異なるだけでなく、ライフスタイル、遺伝学、食生活、健康状態などにもばらつきがある。任意のRCTは、選択された母集団内の異質性の現実に対処しなければならない。適切な包含/除外基準と無作為化手順の使用により、異なる試験群の参加者が一様であることが前提とされており、これは「グループレベルでの交換可能」とも呼ばれている(30)。逆に、実際に一様性を仮定することは、資格基準が試験結果が適用される下位集団を定義しているという考えを暗示していることも多い。これは外部妥当性（applicability/generalizabilityとも呼ばれる）と呼ばれ、「特定の臨床環境における患者の定義可能なグループ」に対する結果の妥当性として定義される（31）。

多くの薬物では、多くの場合、S/N比（すなわち、介入の効果と対人変動の効果を比較した場合の効果）が十分に大きいため、一様性を仮定することは一見許容できるように思われる。時には、含まれた参加者間に既知で記録された変動（例えば、年齢や性別）があり、その結果、サブグループ内での反応の差が生じることがあり、これは層別化によって補正できる。その場合、一様性の仮定は、層別化されたサブグループに延期される。

一様性の前提条件が保持されない状況もある。例えば、試験群がベースライン時（すなわち無作為化時）に本当に交換可能であったとしても、介入とは無関係な要因が試験中に交換可能性を損なうことがあり、これはベースライン後交換可能性とも呼ばれる(32)。例として、周期的な特徴を有する疾患の試験では、ベースライン時にすべての参加者が同じ疾患相にあり、ベースライン時の試験群交換可能性が保証される。しかし、試験中に病相の変化が試験群間で不均等に起こり、試験群が交換可能でなくなることがある（表1）。その場合、（試験群間の）一様性の前提条件は真であるとは考えられず、結果として有効な試験内部の結論を導き出すことはできない。

表1 RCTの背景にある前提条件と、RCTの前提条件が有効でない簡略化された例1

前提	RCTフレームワーク内の簡略化された例	無効な結論	結論が無効である理由	一般的な意味では、次の場合に有効な結論を導き出すことはできない。	コメント
均一性（効果修正）	非常に狭く定義された参加者のグループが、頭痛に対する治療をテストする試験に登録されていると仮定する（例、白人、男性、55〜60歳、非喫煙者、BMI 20〜25 kg / m ²、薬物を使用していない、> 20 d頭痛/月）。60%が元喫煙者であり、非喫煙者（–6 d頭痛/月）とは異なる反応（+4 d頭痛/月）を持っていると仮定する。理想的なランダム化が得られる。	最終的な結果は、頭痛を伴う1か月あたりの日数に変化がないため、非喫煙者などである55〜60歳の白人男性などには治療が効果的ではない（包含/除外基準による）。	この例では非常に狭い範囲の包含/除外基準が使用されたが、観察された結果は不均一なグループによるものであった。元喫煙者と非喫煙者の比率を変えて試験を繰り返すと、異なる結果が得られる。	含まれるグループの定義は、均一な応答を得るには不十分であり、効果を変更する要因を修正することはできない。	喫煙状況（元喫煙者や非喫煙者など）は、層別化によって比較的簡単に修正できる既知の潜在的な効果修正要因であるが、不均一性を引き起こす他の効果修正因子は不明（および記録されていない）である可能性があるが、試験結果の再現性の欠如の原因。
均一性（ベースライン後の交換可能性）	周期的特性を持つ疾患の治療の有効性をテストするための試験が実施されたとする。身体的衰弱の期間は、安定の期間またはわずかな改善と交互になる。含まれている患者は同様の病状を持っており、ランダム化が実行されるときはすべて安定した期間にある。4週間の試験のある日、プラセボ群の40%と活動群の10%で病期が進行性に変化した。	試験後、治療群は疾患の進行が少なかったため、治療は疾患の進行を効果的に遅らせました。	治療群とプラセボ群はベースライン時（無作為化中）に交換可能でしたが、試験開始時には均一ではなくなった。	試験内の異なる（治療またはプラセボ）グループ間には、関連性のある実質的な（ベースライン後の）違いがある。	個人は定義上異なるため、個人のグループも異なる。これらのグループ間の違いが特定の試験に関連しているかどうかは、関連するすべての側面がわかっているとは限らないため、常にわかっているとは限らない。ランダム化手順で差異がわかっていて管理されている場合でも、治療とは関係のない側面のために、これらは試験中に変更される可能性がある。このリスクは、急速に進行する疾患や周期的な特徴を持つ疾患、または追跡期間が長い試験で増加する。
効果の独立性（効果の修正）	薬物Aと薬物Bの間で比較研究が行われ、薬物A（薬物Bではない）のその活性代謝物への代謝がグレープフルーツジュースによって遅くなると仮定する。試験中、グレープフルーツジュースの摂取量は管理されておらず、一般的にフルーツジュースの摂取量のみが記録されている。薬Bを服用しているグループは、薬Aを服用しているグループよりも病気の進行が少ない。	薬剤Bを服用したグループは、薬剤Aを服用したグループと比較して良好な結果が得られたため、薬剤Bは薬剤Aよりも有効性が高くなっている。	この例では、薬物Aとグレープフルーツジュースの相互作用により、薬物Aの活性代謝物の血中濃度が効果的に低下し、その結果、薬物Aの有効性が観察された。グレープフルーツ（ジュース）の摂取が許可されなかった場合、結果は次のようになる。異なっている。	制御されていない1つ以上の効果修正要因がある。	スタチンやベンゾジアゼピンなどの特定の薬物の代謝に対するグレープフルーツジュースの影響はよく知られている（33）。ただし、適切に設計され、適切に実施されたRCTであっても、すべての潜在的な効果修正要因を知ることは不可能である。
効果の独立性（相互作用）	痛みに対する治療がRCTを介してテストされていると仮定する。研究者には知られていないが、参加者の40%は、治療と相乗的に作用する市販のマグネシウムサプリメントを服用している。マグネシウム単独での疼痛スコアの改善が3であり、治療単独で4であり、10を組み合わせたと仮定する。無作為化が理想的である。疼痛スコアの改善は、プラセボ群で1.2,治療群で6.4である。	疼痛スコアの改善は、プラセボよりも治療の方が5.2ポイント優れていたため、治療効果は疼痛スコアの5.2ポイントの改善である。	治療群で観察された反応は、マグネシウムの（制御されていない）相乗効果に部分的に起因していた。	結果に実質的な影響を与えるが、修正されない、または修正できない相互作用がある。
介入とプラセボは明確に定義されている	3つの異なる物質からなる処理で多施設試験が実施され、各施設が現場でカクテルを準備する必要があるが、プロトコルでは物質間の比率が適切に定義されていないとする。5つのセンターのうち2つでは、治療グループの結果がプラセボを上回り、1つのセンターでは違いはなく、他の2つのセンターでは、プラセボグループの結果がアクティブグループよりも優れてた。	平均して、治療はプラセボよりもうまく機能しなかったため、物質A、B、およびCからなる治療は効果がない。	結果は、トリートメントカクテルの組成によって異なる。この例では、明確に定義されていないため、構成はセンター間で異なる。事実上、5つのセンターは5つの異なる治療法を使用したが、これでは1つの全体的な結論は得られない。	治療は、参加者ごとに、または時間の経過とともに構成が異なる。言い換えれば、治療法は明確に定義されていない。	これは医学で広く認められており、安全上の懸念とともに、厳格な製造プロセス管理、品質保証、および前臨床試験の重要な理由である。これは、RCTQCも倫理基準もそのような不十分に定義された製品での試験を許可しない理由でもある。さらに、医薬品の製造が厳格なQCに準拠しているという事実は、この前提が医薬品に当てはまると認めるのが常識であると考えられていることを意味する。

1十分な力があり、十分に管理され、適切に盲検化された試験を想定している。QC、品質基準;RCT、無作為化比較試験。

さらに、効果修飾因子は、群定義の妥当性、すなわち外部妥当性を損なう可能性がある(30,34)。効果修飾因子とは、介入の効果が変数の異なるレベルにわたって変化する変数である(30)。例として、非喫煙者を対象とした研究では、治療効果は、元喫煙者と非喫煙者の間で異なる場合がある（表（表1）.1）。適切な無作為化は、観察されたグループレベルの結果が、試験に登録された特定の研究集団に対して内部的に有効であることを保証する。しかし、非常に狭く定義された群が登録されている場合でも、この群の定義が均一な群を確保するのに十分でない場合があるため、結論はあまり有用ではないかもしれない。全く同じ厳格な適格基準を用いた試験を繰り返すと、新しい試験では効果を修飾する因子のレベルが異なるため、異なる結果が得られる可能性がある。例えば、性別、年齢、または民族の違いはよく知られている効果修飾因子であり、層別化によって補正できることが多いが、不均一性の理由として、未知であるために補正できない他のあまり明白ではない理由がある場合がある。その場合、観察された結果が適格基準を満たす集団に適用されるという、しばしば暗示される研究-外部の結論は無効である。

効果の独立性

対人関係の変動は得られた効果の変動をもたらすが、RCTでは介入が観察された結果の唯一の原因であると考えられる。これは、有効成分と他の要因との間に大きな相互作用がないことを前提としており、因果関係の推論を可能にしている。効果の大きさが、追加の非制御変数の存在に強く依存する場合、因果関係の推論は有効ではないだろう。効果の修正は、グレープフルーツジュースの無制御使用が薬物代謝に及ぼす影響に例示されるように、この仮定が真であるとは考えられない理由の一つである（表（表1）.1）。前述したように、一様性仮説は効果の修正によっても影響を受ける可能性がある。一様性が群定義の妥当性に関するものであるのに対し、効果の独立性は介入とその因果推論に焦点を当てている。

効果の独立性の前提条件が無効となる第2の原因は、相互作用の存在である。効果の修正とは反対に、相互作用は、それぞれが結果指標に影響を与える（介入の効果を修正するだけではない）2以上の因子の共同暴露によって特徴づけられ、それらは相乗効果または拮抗効果のいずれかで作用することができる(35)。このような相互作用の一例は、マグネシウムと薬物治療の痛みに対する効果であり、単独または併用である(36)。これが効果の独立性の前提条件に影響を与える状況の単純化された例として、マグネシウムの制御されていない使用は、鎮痛治療の測定された効果を調整し、試験された治療の効果の大きさに関する結論を無効にする可能性がある（表（表11））。

一般的に、研究者はRCTを設計する際、既知の効果修飾因子（グレープフルーツジュースのような）または相互作用（マグネシウムのような）に頼り、それを考慮することを余儀なくされる。仮説的推論は、他の研究に基づいて事前に使用することができるが、よく設計され、よく実施されたRCTであっても、すべての潜在的な効果修飾因子や相互作用を知ることはできない。その結果、治療に対する反応が他の要因から独立しているという前提が真ではないため、効果修飾や相互作用がコントロールされていないままであり、有効な研究内部の結論が得られないことがある。

介入とプラセボはよく定義されている

前述したように、プラセボと比較した場合、観察された効果の唯一の原因は薬物であると考えられるため、ほとんどの治験では因果推論が有効であると考えられている。これは、被験物質が十分に定義されていることを前提としており、Aの投与によりBの効果が得られるという結論を可能にしている。しかしながら、表1に示されているように、治療法が十分に定義されていない場合、その治療法のどの側面が観察された全体的な効果をもたらしたのだろうか。

十分に定義された介入製品または手順の使用は明らかなように見えるかもしれないし、医薬品の厳格な品質管理の理由の一つであるが、これは栄養製品の使用では必ずしも可能ではない。例として、クルクミン（Curcuma longaの化合物）の薬物動態学的研究では、ピペリン（Piper nigrumの化合物）をわずか1重量%添加するだけで、バイオアベイラビリティが2000%増加することが示唆されている（37）。これが事実であれば、製造品質基準の範囲内にあるかもしれない製品組成のわずかな変更でさえ、非常に異なる効果をもたらす可能性があり、試験された介入を適切に定義することは難しいかもしれない。さらに、天然材料を調査する研究では、品種、栽培方法、原産地、または収穫時期による組成の違いを認識するだけでなく、それも考慮しなければならない。例えば、ブラックカラント（Ribes nigrum）のあるバッチは、次のバッチとは大きく異なる場合がある(38)。

このように、RCTの結果から有効な結論を導き出すためには、十分に定義された介入が鍵となるが、これが常に達成されているかどうかは前提条件のままである。

これら3つの前提条件はすべてのRCTに対してなされており、それらのどれかが真実でなければ、その試験は有効な結論を導き出すことができない。しかし、この厳密な妥当性は二項対立ではなく、研究の結論への影響は最終的には不適合の大きさに依存する。特定のRCTデザインに対するこれらの前提条件の妥当性を評価することは、研究者が、いくつかの介入が信頼できない、混合した、否定的な、または肯定的なアウトカムを見いだす理由を理解するのに役立つ。

プロバイオティクスRCTにおける前提条件の意味合い

栄養介入を用いたRCT試験の多くは、方法論的要因やアウトカムに関連する要因など、多くの理由から説得力のある結果を得られていない。しかし、そのような試験では、基礎となる前提条件が真実であると考えられるかどうかも疑問視されることがある。

医薬品、栄養補助食品、または食品とは対照的に、プロバイオティクスは1つの基本的な違いを示している：それは、それらが生きた生物から構成されているということである。このことは、RCT-前提条件の妥当性に影響を与えるいくつかの特徴をもたらしている。以下のセクションでは、我々は消化管に焦点を当てるが、引数は同様に他のマイクロバイオームのニッチにも適用される。

投与後、生体は腸内に到着する。この環境は、膨大な数の他の微生物だけでなく、可変組成のキームを含む環境である。この複雑な生態系内の各細菌株は、プロバイオティクスであろうと共生であろうと、隣人および宿主のシステムと競合または協力している。これらの相互作用は、一連の生理活性化合物の生産と代謝を通じて発生する。実際、これらの化合物は、プロバイオティクスで観察される生理学的または治療効果において重要な役割を果たしている(39, 40)。さらに、その場での豊富さは、部分的には胃の生存率（これは他の食品の存在によって影響を受ける)競争の成功、およびプロバイオティクス生物と宿主との間の相互作用によって決定され、その逆もまた然りである。プロバイオティクスの効果は多数の相互作用と効果修飾因子に非常に依存しているため、独立性の前提条件の妥当性には疑問が残る。

第二の問題は、前述の相互作用への依存性のために生じる：内因性マイクロバイオームだけでなく、宿主の特性（41-43）の実質的な対人的変動がしばしば存在し、それらは互いに強く影響し合う（44, 45）。腸管内の常に変化する条件に適応するため、細菌叢も宿主組織活性もそれ自体が安定しているわけではない。このことは、安定したベースラインを定義することができないことを意味している。その結果、これが「一様」といえるのかどうかは正当に疑問視される。さらに、腸管の状態が常に変化しているという事実は、ベースライン後に試験群間で差が生じる可能性があることを示唆しており、試験群の均一性、すなわち交換可能性に影響を与え、結果として研究の内部的な結論の妥当性に影響を与える。さらに、栄養介入の効果の大きさは通常、通常の生物学的変動の範囲内である(4)。これは、Van Baarlenらの研究(42)に例示されているように、プロバイオティクスにも当てはまり、「健康の帯域幅」という概念(43)によって捉えられている。すなわち、プロバイオティクスによって誘発される効果的な「シグナル」と、多数のシグナルの「ノイズ」との間の比率（例えば、共生微生物、菌体構成成分、および宿主組織自体によって）は比較的小さい。したがって、治療効果に対する個人間のベースライン差の相対的な影響はより顕著であり、特定のベースライン状態のみが生理学的に関連した応答をもたらすかもしれない。多くの薬物治療とは逆に、個人間のバックグラウンド変動は介入の個人内効果と比較して相対的に大きい。その結果、小さな対人差であっても、試験集団の均一性、したがってグループの定義をより疑わしいものにして、はっきりとした影響を持つかもしれない。さらに、プロバイオティクス介入試験は、しばしば治療効果を確立するために比較的長い介入期間を伴うことが多く、これは、それがベースライン後の交換可能性を損なうため、また、それが均一性に影響を与える持病、ライフスタイルの変化、または不遵守のためのプロトコルの逸脱のリスクを増加させる。試験が適切にパワーを与えられている場合でも、これらの均一性の問題は、効果が相殺されて、平均的な効果がわずかに正、不在、または負であるという結論に至ることがある。このような結論は、試験集団が一様であると考えることが不合理である場合には無効となりうる。

プロバイオティクスは、その治療効果に寄与する生物活性化合物を産生する生きた微生物であるため、「よく定義された」という用語は混乱を招くことがある。臨床試験や医療提供者によって使用されるほとんどのプロバイオティクス製剤は、使用される菌株の点で非常によく特徴づけられている。したがって、患者に投与されるプロバイオティクスは、成分の面でよく特徴づけられていると考えられる。しかし、生理活性化合物または生成される下流効果に関しては、話は大きく異なる。これらのプロセスは、前述の相互作用に大きく依存しており、また、前述の相互作用により変動するため、これらの化合物への生理的曝露は、組成物が日によって、また、参加者によって異なる複合薬剤の投与に類似していると考えられ得る。言い換えれば、同じ製品が同じ治療法を意味するわけではなく、そのように、治療法が十分に定義されているという前提条件の妥当性には疑問があるかもしれない。

プロバイオティクスのユニークな特性を考えると、RCT法の根底にある前提条件が有効でない場合が多く、結果から有効な結論を導き出すことができないことを意味していると結論するのが妥当なように思われる。これらのケースでは、介入が有効か無効かの結論を出すことも、有効であるかもしれない集団を定義することも不可能である。RCTの参加者間での反応の広い分布、または質の高いRCT間でのアウトカムの大きな不均一性は、前述のメカニズムがかなりの影響力を持っており、その結果、前提条件が真実であるとは考えられない状況を示しているかもしれない。

妥当性を高めるには？

RCT法の背後にある前提条件が完全に満たされていないことを受け入れるならば、このアプローチが有効な結論をもたらすかどうかが問われるべきである。前提条件を満たす方法を模索するか、異なる調査方法を模索すべきである。

結論の内部的妥当性の信頼性を高めるための潜在的な方法を特定するためには、プロバイオティクス治療の有効性を調査するための研究を実施する際に、どのような目標を追求するかが重要な問題である。治療開発の経済学においてRCTが果たす決定的な役割は、多くのRCTの外部妥当性とは対照的である。外部妥当性は、開業医や規制機関にとって非常に重要であり、彼らは特定の患者のための最善かつ安全な治療法を求めているからである。結局のところ、介入の有効性を調査する基本的な目標は、患者を援助し、患者ケアの意思決定プロセスを支援することであるべきである。言い換えれば、研究全体の結論は個人に適用可能であるべきであり（強い外部妥当性)その結果は、当該介入の科学的理解を促進するのに役立つべきである（強い内部妥当性）。

RCTの根底にある前提条件がプロバイオティクスに対しては潜在的に無効であるという理由を考えると、前進する一つの方法は、似たような消化管環境を示す参加者を特定することかもしれない。類似性のより大きなレベルで1つは、プロバイオティクス製品と宿主と常在菌の間の相互作用の結果が参加者の間でより均一になることを期待することができる。1つの戦略は、登録前に患者を層別化するか、または反応者と非反応者を区別するために臨床試験前のスクリーニングテストを使用することかもしれない。後者のアプローチでは、特定の一時的なバイオマーカー（研究プロトコルで定義されている）をモニターしながら、プロバイオティクスを簡単に補充することができる。反応者のみがその後プラセボ対照試験に登録される。1つの潜在的な問題は、これがその後の試験の結果を混乱させる可能性があるため、持続的なパイロット的な反応効果であろう。食品中の生理活性成分の場合、Hanekampら（48）が論じているように、この種の化合物に対する大きな反応はまれであるため、正常なホメオスタティック反応幅の範囲内でバイオマーカーの小さな変化をスクリーニングする必要があるかもしれない。したがって、多数の関連するバイオマーカーの小さな反応を組み合わせることで、スクリーニング結果の妥当性が高まる可能性がある。

層別化の重要な実用的限界は、現在までに信頼できるバイオマーカーがほとんど利用できないことである(49)。さらに、学術的に提案されたバイオマーカーの多くは、通常の臨床現場では容易に評価できないため、このアプローチを日常の臨床現場に適用することは難しいかもしれない。これを克服し、外部からの妥当性を高めるための現実的な方法としては、好ましい効果の有無の臨床的評価に基づいて、反応者と非反応者を区別することが考えられる。このような選択プロセスが臨床的に採用されれば、試験結果から個々の患者への翻訳はより簡単になる。これは、反応を継続的にモニタリングし、治療法（例えば、投与量）を適応させることにより、介入を個人に合わせて行うものである(15)。被験者が同時に登録されていない場合、適応的介入の別の実施形態は、以前に登録された被験者で得られた反応に基づいて被験者を治療群に割り当てる確率を調整し、被験者を劣った介入に割り当てる確率を減少させることである(50)。

外部妥当性のための最良のシナリオは、あらゆる意味で患者と同一の参加者を対象とした試験である。グループレベルでは存在しないが、n-of-1試験と呼ばれる、患者を自分のコントロールとして使用する技術がある(51)。N-of-1試験は、単一の被験者を用いた無作為化クロスオーバー試験であり、好ましくは二重盲検デザインを用いる。n-of-1試験を実施するためのガイドラインが容易に入手可能である(52)ため、臨床医であれば誰でもこの種の研究を自分の診療で行うことができる(53)。しかし、前述のクロスオーバーデザインの潜在的な問題は効果の持続性であり、長いウォッシュアウト期間があってもキャリーオーバー効果を防ぐことはできない。その結果、積極的な治療の後にプラセボを試験すると、介入間の差がなくなる可能性がある。一方で、このような持続効果はどのような治療でも望ましいものであり、このことを認識していれば、結果を評価する際に考慮に入れることができ、場合によってはn-of-1試験を早期に中止することも可能である。

同等のn-of-1試験が多数の個人間で実施された場合、より一般的に適用可能な結論を導き出すためにメタアナリシスが使用されることがある(54)。今日の増大し続ける計算能力とデータ保存能力を考慮すると、ビッグデータ技術は、差別化のレベルを高める強力な方法として科学界の関心を集めている(55, 56)。ビッグデータ手法は、指数関数的に増大する非常に汎用性の高いデータ量を採用し、非構造化データを扱うことができ(57)、層別化決定要因を特定することで介入に対する反応性を予測することができる。フリーテキスト文書の自然言語処理など、非構造化データから医療概念を抽出するための様々な機械学習技術が開発されている。開業医の非構造化診察メモでさえも、開業医自身の患者集団に基づいたインフォームド・コンセント（情報に基づいた治療決定）を導くデータソースとして利用することが可能である。このように、一般的に適用可能なデータを抽出するために、同じ方法で試験を実施して報告する必要はもはやない。ビッグデータベースの機械学習技術を採用した例として、Zeeviら（24）による研究がある。

ここで概説した様々な選択肢は、完全に定義された方法ではなく、結論の内部的妥当性と外部的妥当性の両方において、より高いレベルの信頼性につながる可能性のあるアプローチの出発点にすぎない。それは、RCT法によって課せられた制限を超えてプロバイオティクス研究を進める方法を見つけるために、これらおよび他の代替的なアプローチを採用することをお勧めする。

議論

前のセクションで、我々は、多くの場合、プロバイオティクスのRCTについて、前述の前提条件が真であると考えることができるかどうかを疑問視する正当な理由があり、これが異種の知見の原因である可能性があることを示してきた。しかし、いくつかのプロバイオティクス介入については一貫性のないRCTの結果が見られるものの、他のものは繰り返し、一貫して同じ全体的な結論に導くことに成功している。一例として、Saccharomyces boulardiiプロバイオティクスによる抗生物質関連下痢の治療がある。この介入について、RCTの最近のコクラン・レビューでは、平均53%のリスク低減が報告され、さらに重要なことに、含まれているRCT間に有意な異質性は見られなかった(58)。このことは、特定の用途においては、前提条件が妥当に真であるとみなされる可能性があることを示している。どのような状況でこのようなことが起こるのかは正確にはわかっていないが、これは3つの関連する側面の組み合わせによるものではないかと提案している。

第一に、治療が全身的な効果よりも局所的な効果（例えば、消化管内）に依存している場合には、より高いレベルの均一性が見出されるかもしれない。
第二に、特定のプロバイオティクス株の作用機序は、マイクロバイオーム組成物および宿主の分子発現から比較的独立していて、すべての個体において多かれ少なかれ同じ効果を引き出すかもしれない。
第三に、シグナル（プロバイオティクスの効果）-ノイズ（個体差）の比は比較的高いかもしれない。

正確な理由が何であれ、高品質のRCTが一貫して同じ結果を提供する場合は、基本的な前提条件が有効である可能性が高いことを受け入れることは合理的である。プロバイオティクスの特殊性がRCTの基礎となる前提条件の妥当性に影響を与える可能性があるという事実は、すべてのプロバイオティクスのRCTを却下する理由にはならない。それは、RCTsが不幸にもめったにないケースではない一貫性のない結果をもたらす場合、批判的にこれらの暗黙の前提条件の妥当性を評価するために、しかし、理由である。

ここで検討した3つの前提条件に加えて、医学と栄養学の研究はしばしば別の前提条件に基づいている：疾患や介入は還元主義的アプローチの使用によって研究することができるという考え。この前提条件は、単一の経路または一連の経路を標的とすることで、疾患を介入で治療できるという考えを煽る。これは、必ずしも疾患の病態生理が完全に理解されていなければならないとか、標的が詳細に知られているということを意味するのではなく、疾患に関与している経路または経路のセットがあり、それが介入で標的にすることができ、疾患を治療するのに有効であるという暗黙の前提が作られているということだけである。

しかし、この前提は、標的化された経路の影響が、疾患の経過中、患者間、または細胞から細胞へと変化する場合、または標的化された経路の調節の有効性が細胞タイプ、組織、または患者間で変化する場合に問題となり、これがレスポンダー／ノンレスポンダー現象の根源である。癌は、非常に類似したタイプの癌に多くの異なる経路が関与している疾患のよく知られた例であり、その結果、個別化された治療が主要な研究テーマとなっている(59)。その結果、特定の標的経路の前提の枠内で試験が実施された場合、パワー不足で治療効果が得られないか、または治療に必要な数が多い（NNTs）結果になることが予想される。NNTは、1つの利益を得るためにどれだけの患者を治療しなければならないかを表すものであり、切除した腫瘍の補助療法では100人にもなりうる(60)。

プロバイオティクスの場合、特定の経路のセットを標的とするという考えは問題があるかもしれない。正確な標的経路が知られている場合でも（細菌自体または代謝物によって影響を受ける)この経路が実際にプロバイオティクスによって適切に調節され得るかどうかは、個人のベースラインの物理化学的およびマイクロバイオームのメイクアップに依存しているかもしれない。これは潜在的に高いNNTs、多くの非反応、またはアンダーパワーであるように見える試験につながる。

結論

RCT 法は臨床研究の金字塔とされているが、この地位は論理だけに基づいているのではなく、前提条件によってこのアプローチの意味するフレームを形成している。しかし、前に与えられた定義を言い換えれば、科学的調査の前提条件は、調査が答えをだすために真でなければならない。ここで、私たちは、プロバイオティクス研究の中で、多くの場合、3つのRCT-前提条件の妥当性を疑うことが合理的であることを示している、つまり、RCT法は、この特定の研究領域で有効な結論を提供することができないかもしれないことを意味する。

この結論は、一般的に食事と栄養素の健康結果の調査にも適用される可能性がある。これが特定の研究テーマに当てはまるかどうかを判断するためには、前提条件の妥当性の分析を繰り返す必要がある。しかし、いくつかの一般的なアウトラインを描くことは可能である。例えば、食生活の変化は、局所的・全身的な生態系全体に影響を与える可能性が高い。さらに、アミノ酸間で発生しうる腸内取り込み競争に例示されるように、異なる栄養素間に相互作用があることが知られている(61)。このような多様な相互作用を考えると、多くの場合、独立性の前提条件は有効ではないと結論づけるのが妥当なように思われる。さらに、複雑な腸内生態系の非常に多様で個人的な特性を考慮すると、一様性の前提条件の妥当性も影響を受けている可能性が高い。最後に、十分に定義された介入とプラセボの前提条件の妥当性は、いくつかの理由で疑問が残るかもしれない（Box 1）。これらの問題は、栄養素の多価性の特性(13)と相まって、介入が特定の経路を標的とすることができるという前提条件の妥当性に疑問を呈している。

Box 1. 特定の食事介入が十分に定義されていないかもしれない理由

食品の組成物は、実質的に変化し得る。
食物マトリックスまたはその調製物は、生理学的応答（62）に影響を与え得、潜在的に、食事介入の通常の特徴付け（すなわち、食事組成物および栄養価）を十分に定義できないものにし得る。
食事の正確な組成および食材の量は、管理および定量化が困難な場合がある。
複雑な相互作用が栄養素の取り込みに影響を与え、結果として生理的曝露に影響を与える。

プロバイオティクスと栄養学的研究の一般的な研究のためのRCT-前提条件の妥当性を疑ういくつかの理由があると結論づけることができる。これらの前提条件が有効でなければ、有効な結論を導き出すことはできないので、別の調査手段を探索すべきである。しかし、他の研究方法を探求するときでさえ、重要な問題が残っている：どの前提条件が関与しており、それらは有効であると考えることができるか？ここで議論されている代替的な研究アプローチは、RCT-前提条件が真実であると考えるための手段を提供する可能性があるが、新しい前提条件を導入する可能性もある。前提条件が真であると考えられるかどうかを検証するための最も重要なステップは、それを明示することである。これは、新しい方法が導入された場合や、ある分野から別の分野へ既存の方法が採用された場合に特に重要である。