看護・栄養学研究 無作為化臨床試験は実際にゴールドスタンダードか?

強調オフ

EBM・RCT科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

Is Randomized Clinical Trial the Actual Gold Standard?

2017年1月

要旨

本研究の目的は、直接的な栄養介入を含む看護師主導のランダム化比較試験の報告の質を評価することであった。1991年から 2011年までの看護研究における直接的な栄養介入を含むランダム化比較試験の書誌検索を行った。研究の質とデザインの両面を評価した。使用されている一般的なランダム化比較試験のデザインは、2群並行、個別、連続的な主要エンドポイントを有するランダム化である。世界の無作為化比較試験の数と質の高い無作為化比較試験の割合は1990年代から 2001年頃まで2倍以上に増加し、その後は緩やかに増加した。全体的には十分によく計画された試験であるが、質の向上の余地はまだある。さらに、新しいランダム化比較試験のデザインが存在し、それを実施することが提唱されるべきである。

エビデンスに基づいた実践の概念(Sackett, Rosenberg, Gray, Haynes, & Richardson, 1996)は、最初に医学に適用され、その後すぐに他の医療分野でも採用されるようになり、幅広い人気を得ている。文献の増加パターンは、この運動の中心にある無作為化臨床試験(RCT)の方法論が、世界中の研究者の注目をますます集めていることを明確に示唆している(Tsay & Yang, 2005)。

背景

ここ数十年の間に、看護学の分野では、研究への参加の必要性に注目し始め、その研究エビデンスに基づいた変化を看護実践に導入していた(Edwards, Webber, Mill, Kahwa, & Roelofs, 2009; Fineout-Overholt, Melnyk, Stillwell, & Williamson, 2010)。RCTは現在看護学の文献で報告されている研究の大部分を占めているわけではないが、増加している。実際、一部の著者は、RCTをエビデンスに基づいた看護の中心に据えるべきだと主張している(Richards & Hamers, 2009)。なぜなら、看護では(他の医療活動と同様に)変化にどのように影響を与えるかだけでなく、その変化がどのような効果をもたらすかを知る必要があるからである。現在、エビデンスに基づいた看護の分野では、さまざまなアプローチが提案されているが、RCTは看護実践のためのエビデンスを提供する上で重要な役割を果たし続けている(Bench, Day, & Metcalfe, 2013)。よく設計され、適切に実施されたRCTのデータに大きく依存する根拠は、これらの研究が原因と効果を裏付ける証拠を提供し、介入の有効性を確立するために非常に貴重であるからである。さらに、RCTは、参加者をグループに無作為に割り付け、介入間の操作を採用することで、人的・環境的なバイアスをコントロールし、研究の内部妥当性を向上させる(方法論の概要についてはPiantadosi, 2005を参照してほしい)。これらの試験の結果は、患者ケアに直接的な影響を与える可能性がある。

参加者の無作為かつ隠蔽された割り付け(選択バイアスを避けるため)被験者、介入管理者、結果評価者の盲検化(パフォーマンスバイアスを避けるため)intention-to-treat分析(患者数バイアスを避けるため)などのバイアスのリスクを最小化することで、RCTの方法論的な質を高めるためのさまざまな要因が述べられている(Bhattacharyya, Brahma, Pala, Wahlang, & Marak, 2013)。不適切な方法論的アプローチで実施された試験は、治療効果が誇張されたり(タイプ1エラー)効果的な治療を検出できなかったり(タイプ2エラー)するため、方法論の質を保証する基準を採用することが重要である(Christley, 2010; Suresh & Chandrashekara, 2012)。このような偏った研究の結果は、特定の患者に対する治療の決定から国の公衆衛生政策の策定に至るまで、あらゆるレベルのヘルスケアにおける意思決定に誤解を与える可能性がある。さらに、これらの研究が十分に設計され、実施されていたとしても、研究者や消費者が不正確な結論を導き出す可能性があるため、少数の研究だけに基づいて意思決定を行うべきではない。よく計画されたいくつかの研究から一貫性のある結果が得られて初めて、その結果への信頼性が高まる。

看護学の文献におけるRCTの報告の質が最適ではないことを示す証拠がある(Smith et al 2008)。試験の質の評価にはいくつかの尺度があるが ( Olivo et al 2008)、その中でもJadad (Jadad et al 1996) や PEDro (Sherrington, Herbert, Maher,Moseley, 2000) が一般的に用いられている。どちらも、バイオメディカル分野、例えば、消化器外科(Bridoux er al 2012)理学療法(Foley, Bhogal, Teasell, Bureau,Speechley, 2006)がん研究(Thoma er al 2009; Tuech er al 2005)より具体的には、がんに関する看護研究(Guo, Sward, Beck, & Staggers, 2014)などでRCTの質を評価するために広く適用されている。

いくつかの研究(Bridoux et al 2012; Thoma et al 2009; Tuech et al 2005 )が医学雑誌に掲載されたRCTの質を評価しているが、現在までのところ、看護研究における直接的な栄養介入を対象としたものはない。栄養学分野におけるRCTの質を評価することは、特に看護学研究では非常に重要であり、看護学栄養学研究におけるRCTの質を評価した研究は発表されていない。栄養学的介入は、少なくとも害がないという信念に基づいて行われるべきではなく、その代わりに、十分に設計された健全な研究の中でテストされるべきであることが認められている( Davies et al 2006)。

臨床実践に言及すると、看護師は患者の栄養状態や関連する問題の評価やモニタリング、栄養介入の計画や実施(例:経管栄養、嚥下障害を患う患者の経口栄養)などを扱うため、栄養ケアに広く関与している。しかし、栄養学における看護師の役割は、教育者として、また研究者として、さまざまな環境で大きな機会を得て変化している(Endevelt, Werner, Goldman, & Karpati, 2009; Henning, 2009; Kim & Choue, 2009)。

まず、過去20年間に発表された看護研究のRCTを広範に書誌検索することから始めた(Nieswiadomy [2008]に示された看護研究の定義を包含する)。本研究の目的は、JadadとPEDroスコアを用いた報告の質と統計的方法に関連する研究の特徴について、公表されたRCTを評価することであった。

方法

書誌検索と研究の選択

2011 年 12 月に PubMed データベースを用いて出版物の検索を行った。1991 年 1 月 1 日から 2011 年 10 月 31 日までに英語で発表されたすべての論文を評価対象とした。検索戦略は、nursing [MeSH Terms] AND (RCT OR trial* OR “experimental-tal study” OR randomized OR randomization) AND (English[lang])を入力して作成した。

この検索で特定された論文の要旨は、RCT(Grimes & Schulz, 2002)の基準を満たし、栄養学的介入の評価が含まれているかどうかを評価するためにレビューされた(注:研究は栄養学的研究に関連しているかどうかをスクリーニングされた;そのため「栄養学」という用語はエレクトロニック検索に含まれなかった)。この研究では、RCT は、ある介入の有効性・有効性を検証する目的で、被験者を 2 つ以上のグループに無作為に割り付けた実験的研究と定義した。我々は、栄養学のRCTを、食品や食物成分の摂取量を直接変化させる介入を伴うものと考えた。我々は、食品および飲料、母乳、粉ミルク、食品を調製するための成分、および栄養補助食品(すなわち、ビタミン/ミネラル)を定義した。検索戦略と文書スクリーニングは、I.B.が行い、D.G.が監修した(いずれも栄養学研究の幅広い専門知識を有する)。倫理委員会の承認は、ヒト被験者が関与していないため、この研究デザインには適用されなかった。非実験研究や、以前に報告された試験の二次分析は分析から除外した。

国別の研究の出典は、論文の筆頭著者の所属を用い、国は大陸ごとにグループ化した。ジャーナルの分野別分類は、Journal Citation Reports (2011)を用いた。また、20 年間の研究期間中に 2 本以上の RCT 論文を投稿した雑誌のみをこの基準で分類した。

装置・ツール

栄養学のRCTの初期の質の方法論的スコアを提供するために、バイアスのコントロールを参照して、3項目のJadadスケール(Jadad et al 1996)と11項目のPEDroスケール(Sherrington et al 2000)を使用した。Jadadスケールは3つの質問項目から構成され、研究が無作為化され、二重盲検化され、離脱と脱落の記述が含まれていたかどうかを判断するためのものである(前者は研究者によって特定されたクリテリア(有害事象など)のために被験者が研究をやめたという事実を意味し、後者は被験者が研究をやめることを決定したという事実を意味する)。項目は以下の方法で採点した。各「はい」の回答には1点、「いいえ」の回答には0点が割り当てられた。無作為化シーケンスを生成するために使用した方法が記載されており、適切であった場合(例:乱数表、コンピュータ生成)および/または二重盲検法が記載されており、適切であった場合(例:同一プラセボ、活性プラセボ、またはダミー)には、さらに1点が付与された。乱数配列の生成方法が記載されていて不適切な場合(例:患者を交互に割り付けたり、生年月日に応じて割り付けたり)および/または二重盲検試験と記載されていても、盲検化の方法が不適切な場合(例:二重ダミーを用いないタブレットと注射の比較)は、1点減点とした。マキシマム可能なJadadスコアは3項目を用いて5点とした。3点以上のスコアは「良い」と考えられ、他のすべてのスコアは、レビューされた文献(Abraham, Moayyedi, Daniels, & Veldhuyzen Van Zanten, 2004)に記載されている一般的な慣行に従って、「悪い」としてランク付けされた。

PEDroスケールは11の項目で構成されている:被験者のグループへの無作為割り付け、隠蔽割り付け、最も重要な予後指標に関するグループのベースラインでの類似性、被験者、セラピスト、評価者の盲検化、最初にグループに割り付けられた被験者の85%以上で得られた少なくとも1つの主要アウトカムの測定、intention-to-treat分析の実施、グループ間の統計的比較として報告された結果、少なくとも1つの主要アウトカムのポイントと変動性の両方の測定。各項目の回答は “はい “または “いいえ “のいずれかであった。各「はい」の回答には1点のスコアが割り当てられ、「いいえ」の回答には0点が割り当てられた(最初の項目、適格基準に関するものを除き、ポイントは与えられなかった)。最大スコアは10点であり、6点以上のスコアは、レビューされた文献で一貫して報告されているように、「良い」とみなされた(Maher, Sherrington, Herbert, Moseley, & Elkins, 2003)。

また、看護研究における特定のRCTの記述を提供するために、統計的方法に関連する特定の研究の特徴を調査した。無作為化の単位(個人またはコミュニティ)RCTデザイン(並列、クロスオーバー、または事後評価)評価されたエンドポイントの種類(連続、バイナリ、生存、不特定)アームの数を評価し、最後にサンプルサイズに焦点を当て、研究の力が固定されているかどうかを評価した。

統計的方法論に関わる具体的な研究特性を検討し、Jadad スコアを用いた RCT の質の評価を行うためのレイタートレーニング

Jadad スコアを用いた RCT の質の評価と、統計学的方法論に関す る具体的な研究特性を調査する 5 項目の評価は、3 名の研究看護師(いずれも看護学修 士の最終学年であり、研究方法論、疫学、生物統計学の分野で十分な教育を受けてい る)によって行われた。表1
の各項目(3 名の研究看護師が使用した様式に対応)の本質を確実に捉え るために、3 名の研究看護師を対象に、統計学的方法論と報告書の質に関する 2 回の授業(各 3 時間)と研修を実施した。

RCT の基本的な方法論と品質評価に関する授業は、RCT の設計と実施に経験のある生物統計学者が担当した。授業を受講した後、3名の研究看護師は、10本のRCT論文の無作為サンプルを長期的に評価するように依頼された。さらに会議では、評価の不一致(データが入手できない)を確認し、演習中に指摘された重要な点について議論した。

3名の研究看護師は、異なるサンプルサイズの推測を区別するのが困難であることをしばしば報告していた。エンドポイントの種類については、特に研究に正式なサンプルサイズの計算がなく、異なる追跡期間での反復測定が含まれている場合が一般的であった。そこで、我々は、検索する際のキーワード(例えば、無作為化の単位を評価する際には「community-random-omized」や「cluster-randomized」など)を提案したり、調査した各側面について短い質問を設定したりすることで、レビューを容易にし、信頼性を高めることを試みた。この最初のコンセンサス演習(評価者トレーニング)の後、3人の研究看護師のうちの1人は、包含基準を満たすすべてのRCTをレビューするように依頼された。これらのRCTのうち55%(57論文)が無作為に選ばれ、他の2人の看護師によって再評価され、評価者間の信頼性が評価された。

PEDroスケールを用いたRCTの質の評価

対象となった RCT の評価は、経験豊富な別の評価者(治験責任医師)が PEDro スケールを用いて 156 本の論文すべてについて繰り返し行った。その後、PEDro スケールを用いた質の評価を、経験豊富な別の独立した評価者(第二研究者)が、評価者間の信頼性を評価するために、(常に全サンプルの論文に対して)繰り返した。PEDroスケールは表2に報告されており、これは2人の評価者が使用したフォームに対応している。

統計的分析

記述的統計量は、レビューの知見を要約するために使用された。RCTの共通部分の評価者間一致は、古典的なCohenのκ統計量の代わりに、AC1と名付けられたオポチュニティー統計量(Gwet, 2008)を用いて評価された。JadadスケールとPEDroスケールの評価者間信頼性は、二分化スコアとそのままのスコアの両方で評価された。JadadスケールとPEDroスケールの二分法と非二分法の一致度は、AC1統計学を用いて計算した。二分化されたPEDroスケールの評価者間信頼性はAC1統計学を用いて評価され、as-isスコアの評価者間信頼性はクラス内相関係数(ICC)を用いて計算された ( Maher et al 2003)。Jadadスコアと統計的方法に関連する研究特性の一致は57論文(無作為にサンプリングされ、他の2人の研究看護師によって再評価され、評価者間の信頼性が評価された)で報告されたが、PEDroスケールの一致は156論文すべてで計算された(すなわち、主任研究者と2人目の研究者が全論文サンプルのRCTの質を評価した)。

結果

検索により、栄養学のRCTに関する156の論文が同定された。研究は様々な国や大陸で実施された。ヨーロッパ74件(47%)北米47件(30%)アジア15件(10%)オセアニア10件(6%)アフリカ6件(4%)南米4件(3%)であった。

156 件の論文の中で最も評価されている栄養介入はミネラル補給とミルクであるが、飲料に関する栄養介入は RCT に関する 2 件の論文からのみ報告されている(表 3)。このような栄養介入の最も一般的な受け手は、出生から補食期までの乳児(78%)であり、次いで妊娠中または授乳中の女性(12%)であった。

156のRCTは57誌に掲載されており、19誌が75%を占めている。

これらの19誌のうち、Journal Citation Reportに掲載されているのは17誌のみで、その対象カテゴリーは、栄養学・栄養学(n = 8)小児科(n = 6)アレルギー(n = 2)医学・一般・内科(n = 1)に分類されている。残りの 2 誌は、Journal Citation Report の分類がないものの、小児科(n = 1)と栄養学(n = 1)の分野に分類することができる。

表 4 は、2 本以上の RCT 論文を投稿している雑誌の一覧である。栄養学分野のRCTの数は調査期間中に増加しており 2000年代前半にはそれ以前の10年間に比べてほぼ倍増している。アジアの貢献は、ほとんどの貢献国(ヨーロッパや北米)よりも遅れて開始されたようで、過去 10 年間で著しく増加している。

表 5 は RCT の統計的特徴と報告の質の分布を示したものである。試験の大部分は、並行、個別、無作為化で、連続的な主要エンドポイント、典型的には対人測定値(例:体重、身長、頭囲)である。試験の50%は2群で構成されており、約58%は一次エンドポイントに関する試験の所定の検出力を確保するために固定されたサンプルサイズを有している。Jadadスケールによると 2000年以降、質の良いRCTの割合は60%以上に安定しており、質の良い評価が70%と報告されているPEDroスケールと同様である。

表 6 は、統計的方法論に関わる研究特性について AC1 統計を行った結果であり、すべての項目で 3 人の評価者の間で中等度から良好な一致が見られた。質が悪い/良いとされたJadadスコアの一致度(AC1を用いて計算)は0.75(95%CI [0.74,0.75])as-isのJadadスコアの一致度は0.38(95%CI, [0.32, 0.44])であった。as-isのPEDroスコアについては、尺度を二分化したときに、主任研究者と第二研究者の間の一致度は、それぞれ0.75(95%CI [0.67, 0.81])と0.80(95%CI [0.71, 0.89])であった。

考察

現在、栄養介入における看護の役割は、臨床現場での計画・実施・モニタリングだけでなく、臨床研究、特に看護実践のための質の高いエビデンスを提供するRCTを通じた有効性の評価にも及んでいる(Bench et al 2013)。しかし、質の高いエビデンスを得るためには、看護研究が十分に設計され、実施されたRCTを考慮することが重要である。そこで、本研究の目的は、ビタミン、ミネラル、微量栄養素、食品の補給、食品強化、補食を通じた食事の改善を目的とした直接的な栄養介入(主に母親と幼児を対象とした)を含む看護研究におけるRCTの質を評価することであった。これは、母親と幼児の栄養が依然として世界的な問題となっているためである(Koletzko & Shamir, 2013; Sookoian, Gianotti, Burgueno, & Pirola, 2013)。妊娠中や授乳中はエネルギーと様々な栄養素の両方に対する需要が増加するため、母親は特別な栄養ニーズを持っており、幼児は身体的および精神的な発達を促進するために適切な栄養を必要としている。

このような介入の有効性/有効性を評価するために使用される最も一般的なRCTデザインは、2群並行、個別、および連続的な主要エンドポイント、典型的には体組成測定値でランダム化されている。ナーシング研究のための適応デザインの可能性にもかかわらず、固定デザインに基づくRCTのみが実施されている ( Baldi, Gouchon, Di Giulio, Buja, & Gregori, 2011)。また、世界のRCTの数と質の高いRCTの割合は、1990年代から 2001年頃までの間に2倍以上に増加し、その後は緩やかに増加した。

この評価の信頼性は、初めての研究経験に直面した研究看護師が行ったもので、中程度から良好なものであった。「一次エンドポイント」の項目が最も低く、「無作為化の単位」と分類されたJadadスコアが最も高かった。「Primary Endpoint」の項目の一致度が低かったのは、統計学的な概念を理解するのが困難であったためか、論文自体の弱点であったと解釈される。

二分法 PEDro スケールの一致度は良好であり、二分法 Jadad スコアと同様である。しかし、as-is Jadadスコアの一致度はas-is PEDroスケールの信頼性よりは低かったが、品質評価の経験のない学生評価者の評価者間の信頼性を調査した最近の研究の結果と一致しており、3項目のJadadスケールの全体的な一致度は0.35(95% CI [0.11, 0.56])であったと報告している(Oremus, Oremus, Hall,McKinnon, 2012)。経験豊富な校長と第2の評価者の間でのas-is PEDroスケールの一致は、Fleiss (1986)によって推奨されたICC値の分類によって示されるように、良いレベルの一致を示した。PEDroスケールで報告された評価者間の信頼性は、他の研究と一致している (Foley et al 2006; Maher et al 2003)。

限界

いくつかの限界がある。Jadadスケールを用いてRCTの質を評価した3名の研究看護師は、看護学修士課程の最終学年に在籍していたため、研究方法論の分野では十分な教育を受けていたが、初めての研究経験であった。しかし、RCT の設計と実施に経験のある生物統計学者がプロセス全体を監督し、特定された論文の評価は、PEDro スケールを使用して、他の 2 人の独立した経験豊富な評価者によって繰り返された。もう一つの限界は、私たちの研究では、看護研究における直接的な栄養介入に関するRCTの検索戦略を実施したという事実に表れているが、看護職のために同定された研究の関連性はさらに調査されなかった。Journal Citation Reportsの分類に一致する看護学術誌に掲載された論文がないことは、検索したRCTと看護研究との関連性が弱く、栄養学的介入の中でも、間接的な、おそらく看護師主導の教育的介入のみが、看護研究における学術誌の閲覧や出版パターンに影響を与えていることを示唆しているかもしれない。看護学雑誌からの論文がないのは、検索がPubMedのみで、看護学に特化したデータベース(CINAHLなど)ではないことも関係しているかもしれない。

結論

透明性が高く、よく設計され、実施され、報告されたRCTのみが、患者ケアや医療政策の決定に役立つ健全なエビデンスを提供することが認められている。本研究によって確立された状況は、バイアスのコントロールに関する報告書の質が向上傾向にあることを示しており、心強いものである。とはいえ、まだ質の向上と新しいRCTデザインの実施の余地がある。また、統計学や臨床疫学の基礎知識からRCT文献の批判的評価に至るまでの研究看護師の指導方法は、普及した研究成果の批判を受け入れる初歩的な臨床医にとって、教育と研究の橋渡しをするための示唆を与えてくれるものと思われる。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー