米国感染症学会の診療ガイドラインの質とエビデンスの強さ

コンテンツ

概要
方法
結果
- 現行のすべてのガイドラインの概要
考察
- 感染症分野における比較効果研究の優先テーマ
結論

Quality and Strength of Evidence of the Infectious Diseases Society of America Clinical Practice Guidelines

pubmed.ncbi.nlm.nih.gov/20946067/

Abdur Rahman Khan, Sobia Khan, Valerie Zimmerman, Larry M. Baddour, Imad M. Tleyjeh

発行：2010年11月15日記事の履歴

概要

目的

Infectious Diseases Society of America（IDSA）の臨床診療ガイドラインにおける推奨事項を裏付けるエビデンスの質と強さの分布と時間的傾向を明らかにすること。

方法

1994年3月から 2009年7月までにIDSAが発行または承認したガイドラインを、IDSA-US Public Health Service Grading Systemを用いて評価した。このシステムでは、A～Eの文字は推奨の強さを示し、数字I～IIIは推奨を裏付けるエビデンスの質を示している。ガイドラインの推奨度の強さとエビデンスの質のクラス間の分布を数値化した。ガイドラインの最初のバージョンと現在のバージョンの間の時間的変化を評価した。

結果

現行ガイドラインの勧告の約2分の1（中央値、50.0%、四分位範囲[IQR]、38.1%～58.6%）は、レベルIIIのエビデンス（専門家の意見から得られたもの）で支持されていた。観察研究から得られたエビデンス（レベルII）は、勧告の31%（中央値、30.9%;IQR、23.3%～43.2%）を支えており、一方、無作為化臨床試験（レベルI）に基づくエビデンス（レベルI）は、勧告の16%（中央値、15.8%;IQR、5.8%～28.3%）を占めている。勧告の強さは主にクラスA（中央値41.5%、IQR28.7～55.6%）とクラスB（中央値40.3%、IQR27.1～47.9%）に分布していた。ガイドラインの改訂版（⩾1）では、レベルIのエビデンスが増加する傾向にあった（12.4%増）。その結果、クラスAの推奨が比例して増加し（+11.1%)クラスCの推奨が減少した（-23.5%）。

結論

IDSAガイドラインの推奨は、主に非ランダム化研究や専門家の意見に由来する低質なエビデンスに基づいている。これらの知見は、高品質なエビデンスを提供できる現在の臨床感染症研究の限界を浮き彫りにしている。ガイドライン策定に利用できるエビデンスを強化するために、質の高い研究を支援することが急務である。

トピック：Communicable Diseasesunited States Public Health Serviceeguidelinesclinical practice guidelineevidence-based practicegrading systemexpert opinioninfectious diseases society of america

発行セクション主要記事

エビデンスに基づく医療の真髄とされる臨床実践ガイドラインは，1990年に米国医学研究所によって，「特定の臨床状況における適切な医療について，実践者や患者が意思決定することを支援するために体系的に作成された声明」と定義された[1, p38]。それ以来，何百もの組織が何千ものガイドラインを公布し，現在，2000以上のガイドラインがNational Guideline Clearinghouseに登録されている[2]。

米国感染症学会（Infectious Diseases Society of America：IDSA）は、1994年以来、医師やその他の医療従事者が感染症患者の予防、診断、管理を行う際に役立つ臨床実践ガイドラインを発行または承認している。これらのガイドラインの影響や効果を評価した研究はほとんどないが [3-10]、推奨事項が実際に質の高いエビデンスに基づいているかどうかを判断することは、同様に重要なことである。さらに，近年，研究の向上に焦点が当てられていることから，勧告の質と証拠の強さは時系列で改善されているはずである。本稿では，IDSAガイドラインの勧告を裏付けるエビデンスの質と強さの分布と時系列的な傾向について説明する。

方法

1994年3月から 2009年7月までにIDSAが発行または承認し、IDSAのWebサイト（http://www.idsociety.org）に掲載されたすべてのガイドラインを検索した。ガイドラインは、IDSAが使用しているものと同様に3つのカテゴリーに分けた。(1）臓器別感染症、（2）細菌感染症、真菌感染症、ウイルス感染症に分けた生物別感染症、（3）抗菌薬使用と発熱・感染症関連のガイドラインをまとめたその他の3つのカテゴリーに分けた。

IDSAのガイドラインの多くは、IDSA-US Public Health Service Grading System（USPHS）による臨床ガイドラインの推奨度のランク付けに従って評価されている[11]。このシステムでは、A～Eの文字が予防法や治療法に対する推奨の強さを示し、ローマ数字のI～IIIが推奨を裏付ける証拠の質を示している（表1）。3つのガイドラインがIDSA-USPHSと同様のグレーディングシステムを採用していたが、分析に含めることを妨げない程度のわずかな違いがあった（市中肺炎[CAP][12]、膀胱炎/腎盂腎炎[13]、クロストリジウム・ディフィシル関連下痢[14]）。また、異なる評価方法を採用しているガイドライン（肝炎[15, 16]、感染性心内膜炎[IE][17]）については、IDSA-USPHSの評価システムに基づいて再評価を行い、分析を行った。

表1 米国感染症学会-米国公衆衛生局による臨床ガイドラインの推奨度を評価するためのグレーディングシステム

米国感染症学会-米国公衆衛生局による臨床ガイドラインの推奨度ランキングのためのグレーディングシステム。

勧告の数、勧告の強さと証拠の質のクラス間の分布を定量化した。ガイドラインの最初のバージョンと現在のバージョンの間の時間的なグレードの変化を評価した。データは、各ガイドライン内のランク間の割合分布としてまとめられた。全ガイドライン、カテゴリーとその下位区分の中央値と四分位範囲（IQR）を算出した。従って、特に断りのない限り、要約した割合のデータは中央値で示した。各ガイドラインのバージョンによって推奨数が異なる可能性があるため、ガイドラインのバージョン間のエビデンスレベルと推奨度の比例的変化は、ガイドラインの現行バージョンと旧バージョンの間の相対的変化（[現行バージョンのパーセンテージ-旧バージョンのパーセンテージ]/旧バージョンのパーセンテージ）として表現した。

結果

1994年3月から 2009年7月までに、IDSAは65のガイドラインで6643の推奨事項を発表した[18-61]。我々がレビューした時点で、IDSAのWebサイトに掲載されていたガイドラインは52件で、そのうち44件が分析に含まれていた。勧告のない2つのガイドライン（外来非経口抗感染症療法、結核のケアに関する国際基準）と 2009年7月30日の検索期限に開発中であった6つのガイドライン（複雑性尿路感染症、鼻副鼻腔炎、人工関節感染症、臨床微生物学、妥協した宿主への予防接種、乳幼児、小児、青年、成人への予防接種）は含まれていなかった。42のガイドラインが証拠レベルと勧告の強さの両方を報告していたが、病院獲得型肺炎[19]とB型肝炎[25]のガイドラインは証拠レベルのみを報告していた。

エビデンスのレベル勧告総数の約2分の1がレベルIIIのエビデンスに基づいており（中央値、50.0%;IQR、38.1%～58.6%)約3分の1がレベルIIのエビデンスに基づいており（中央値、30.9%;IQR、23.3%～43.2%)6分の1以下がレベルIのエビデンスに基づいていた（中央値、15.8%;IQR、5.8%～28.3%）（表2;付録（本誌電子版のみに掲載)表A1およびA2）。レベルIIIのエビデンスが最も多かったのは真菌類のガイドライン（中央値、73.1%、IQR、65.0%～84.2%）で、レベルIIIのエビデンスによる推奨が最も少なかったのは溶連菌咽頭炎とインフルエンザのガイドライン（それぞれ17.6%、17.5%）だった（付録、表A1,A2）。

表2 現行の全ガイドラインの概要

現行のすべてのガイドラインの概要

勧告の強さ勧告の強さは、クラスA（中央値、41.5%;IQR、28.7%～55.6%）とクラスB（中央値、40.3%;IQR、27.1%～47.9%）に均等に分布し、勧告全体の約80%を占めた。クラスDおよびEは、勧告全体の約8.1%を占めた（クラスD、n=238[6%、中央値,0%]、クラスE、n=84[2.1%、中央値,0%]）（表2,付録、表A1およびA2）。全体的に最も多かったクラスレベルの指定はIII-Bで、推奨の24.5%（中央値、20.5%、IQR、10.3%～32.9%）を占めた（付録、表A3およびA4）。レベルIのエビデンスは、クラスAの推奨に最も多く関連していた。しかし、勧告の強さとエビデンスの質のカテゴリーとの関連性は一貫していなかった。例えば、レベルIIIのエビデンスに基づく推奨（中央値、50.0%;IQR、38.1%～58.6%）は、クラスCの推奨（中央値、8.1%;IQR、1.8%～14.7%）とは相関していなかった。同様に、クラスAの推奨は、レベルIよりもレベルIIおよびIIIのエビデンスに基づくものが多かった（表2,付録の表A3およびA4,図1および2）。

図1 エビデンスレベルIに基づく勧告の強さ（クラス）の分布。

原文参照

エビデンスレベルIにおける推奨の強さ（クラス）の分布。

図2 勧告の強さ（クラス）ごとのエビデンスレベルの分布A.

原文参照

勧告Aの強さ（クラス）ごとのエビデンスレベルの分布。

時系列の傾向。バージョンが1つ以上ある14のガイドラインのうち12のガイドラインが、IDSAガイドラインの時間的変化の分析に適格であった。C型肝炎と重症患者の新熱のガイドラインは、勧告の強さを欠いており、対象外とした。勧告数は、初版から現行版までの間に、1025から1431に増加した（39.6%）。カテゴリーごとの推奨数の絶対的な増加は、レベルIII（+197/577）とクラスA（+184/333)B（+183/387）で最も多かったが、ガイドラインは比例してレベルI（変化率、+12.4%）とIIのエビデンスが多い方向に進んだ（変化率、+2.0%）。同様に、クラスA（変化率、+11.1%）とB（変化率、+5.3%）の推奨が全体的に比例して増加したのに対し、クラスCの推奨は比例して減少した（変化率、-23.5%）（表3,付録、表A5-A9,図3および4）。

表3 ガイドライン第1版から現行版までの推奨数の変化と、エビデンスレベルおよびクラス別の分布のまとめ

原文参照

ガイドライン第1版と現行版の間の推奨数の変化と、エビデンスレベルと推奨クラスの分布のまとめ

図3 ガイドライン第1版と現行版の間のエビデンスレベルの変化率

原文参照

ガイドライン第1版と現行版の間のエビデンスレベルの変化率

図4 ガイドライン第1版と現行版との推奨度の変化の割合

原文参照

ガイドライン第1版と現行版の間の推奨度の変化率

エビデンスレベルIの増加に伴い、それに対応してクラスBおよびCの推奨度も増加した（変化率：I-A, -2.1%; I-B, +54.2%; I-C, +100.0%）のに対し、クラスAの推奨度の増加に伴い、エビデンスレベルIIIが増加した（変化率：I-A, -2.1%; II-A, -17.0%; III-A, +68.9%）（表3,付録、表A5-A9,図3および図4）。

考察

調査結果現行のIDSAガイドラインにおける推奨事項の約半数は、レベルIIIのエビデンス、すなわち、尊敬する権威者の意見や、臨床経験、記述的研究、専門委員会の報告に基づいて裏付けられている。観察研究から得られたエビデンス（レベルII）は、勧告の31%を支えており、少なくとも1件の無作為化比較試験（RCT）に基づくレベルIのエビデンスは、勧告の16%に過ぎない。エビデンスのレベルは、ガイドラインのカテゴリーや個々のガイドラインによって異なる。さらに、強い（クラスA）勧告のうち、強い（レベルI）エビデンスに裏付けられていたのは、わずか26%であった。逆に、レベルIのエビデンスを持つ勧告では、クラスAの強さに満たない勧告が約25%あった。

クラスAの推奨の4分の3は、裏付けとなるRCTデータがないため、有益性が不確かな診断や治療法の使用が増える可能性がある。このことから、現実的または認識されている利益相反が、より強固でない客観的証拠に基づくガイドライン勧告の選択に影響を与えているのではないかという懸念が生じている[62, 63]。

全体として、IDSAガイドラインは、より強固なエビデンスベースに向かっており、その結果、推奨の強さも向上している。しかし、勧告の強さの増加は、エビデンスのレベルと一致していない。レベルIのエビデンスの増加は、それに対応してクラスBおよびCの推奨度の増加を伴っていたが、クラスAの推奨度の増加はレベルIIIのエビデンスを伴っていた。

他の研究との比較我々の発見は、Tricociら[64]による最近の研究と一致しており、American College of CardiologyとAmerican Heart Associationが作成したガイドラインは、主に低いレベルのエビデンスに基づいていることがわかった。Harpoleら[65]も、肺がんに関連するガイドラインの推奨事項のほとんどがエビデンスに基づいていないことを発見した。乳がんと大腸がんのガイドラインの質を評価するために行われた研究では、これらのガイドラインの全体的な質は中程度であることがわかった [66]。このことから、質の高いエビデンスの不足は、IDSAガイドラインだけの限界ではなく、他の専門機関が発行したガイドラインにも当てはまることが示唆される。

説明する。今回の調査結果は、臨床感染症ガイドラインにおける質の高いエビデンスの不足という重要な問題を浮き彫りにした。ガイドラインの質は、主にガイドラインを作成するために利用可能なエビデンスに依存する。

RCTエビデンスに基づく推奨の少なさは、いくつかの要因によるものと考えられる。多くの感染症は無数の症状を呈するため、実現可能な研究プロトコルに組み込むことのできる個別の疾患定義の策定が困難である。さらに、RCTの資金、時間、資源の負担は相当なものであり、臨床的に実現可能であっても、現行の研究システムの非効率性が研究者に無作為化試験の実施を躊躇させている [67]。エビデンスレベルIが5%未満のIDSAガイドラインは、診断や管理が困難なために患者を試験に登録することが困難な感染症や状況を例示している。例えば、侵襲性アスペルギルス症が証明された、またはその可能性がある患者を対象とした最近の無作為化非盲検試験では、19カ国の95の医療センターで391人の被験者を登録して追跡調査するのに4年以上を要した[68]。RCTの実施が困難な感染症があることは、IDSAの7つの真菌ガイドラインのうち3つ（42.9%）がレベルIのエビデンスに基づく推奨を行っていないことに反映されている。有病率の高い疾患でレベルIのエビデンスが増加しているのは、研究の計画と実施の実現性が高いことに関連している可能性が高い。また、疾患の状況によっては、無作為化試験を行うことが倫理的に問題となる場合もある。例えば、感染性心内膜炎患者を弁膜症の手術と内科的治療に無作為に割り当てることは、倫理的に許されない。したがって、感染性心内膜炎患者の一部では手術が標準治療と考えられているが、管理については依然として議論の余地があり、手術の有効性は最近の観察的証拠によって疑問視されている[69]。

エビデンスレベルIに関連する推奨度の低さは、多くの要因に起因すると考えられる。例えば、新生児の細菌性髄膜炎の管理におけるデキサメタゾンの併用の役割に関する勧告を支持するRCTの質によって、ガイドラインの著者は、レベルIのエビデンスにもかかわらず、勧告の強さを低く設定した[20, 70]。さらに、研究間で矛盾した結果がある場合、勧告の強さも低くなる可能性がある。例えば、培養陽性肺結核の治療において、イソニアジドとリファンピンを使用する場合と、イソニアジドとリファペンチンを使用する場合とでは、推奨度が低くなることがある[71]。

RCTによるエビデンスの最適化。RCTはエビデンスに基づく医療のゴールドスタンダードである。しかし、研究の質や内部・外部の妥当性にかかわらず、すべての対照研究を高品質なエビデンスを反映しているとみなすことは、単純化されているだけでなく、不適切である[72]。これはIDSAガイドラインでも示されており、RCT由来のエビデンスには強い推奨強度が与えられていない。

ガイドラインを統合するためのより良いアプローチとして、GRADE（Grading of Recommendations Assessment, Development and Evaluation）システムが提案されている。GRADEシステムでは、システマティックレビューを行い、エビデンスプロファイルを作成し、研究デザイン、研究の質、一貫性、直接性の4つの要素を考慮した上で、エビデンスの質を評価することが推奨されている。そして、ベネフィットとハームのバランス、エビデンスの質、適用性、ベースラインリスクの確実性などを考慮して、勧告の強さを判断している[73]。

McAlisterら[74]による研究では、心血管リスク管理ガイドラインのエビデンスの質が評価された。GRADEの4つの基準のうち3つ（研究デザイン、質、直接性）を考慮した結果、RCTに基づく勧告のうち、高品質なエビデンスを提供しているのは45%に過ぎないことが分かった。同様に、IDSAガイドラインにGRADEシステムを適用すると、IDSAガイドラインを支持するレベルIのエビデンスの大部分が質の高いものではないことが明らかになると思われる。

GRADEシステムは、多くの専門機関でそのまま、または若干の修正を加えて採用されているが、一貫性がなく、有効性の証明がないと批判されている[75]。GRADEシステムでは、勧告の強さとエビデンスのレベルが分離されているため、エビデンスを勧告に変換する際に矛盾が生じる可能性がある。これは、同じエビデンスを評価するガイドライン作成グループ間での観察者間のばらつきにつながる可能性がある。また、価値判断を透明性のある方法でガイドライン作成プロセスに組み込むことができるため、これをGRADEシステムの強みと考える人もいるかもしれない。GRADEシステムに対するもう一つの批判は、推奨を強いと表示するとさらなる研究を阻害する可能性があると警告しているが [76]、これはどの分類システムにも当てはまるだろう。最近のIDSA CAPガイドラインでは、ガイドライン作成者が査読者のコメントを受けて、「GRADEのような、より広範で検証された基準は、現段階では使用することは現実的ではなかった」と述べている[18, p S33]。GRADEシステムは、その限界にもかかわらず、エビデンスを統合し、ガイドラインを作成するための重要なツールである。GRADEシステムは、エビデンスを評価するための国際的な基準に向けての大きな一歩となる。

観察研究から得られるエビデンスの最適化：実世界のデータ。レベルIIのエビデンスに基づく推奨は、自動的にガイドライン開発プロセスの失敗と考えるべきではない。異なる質問に対しては、異なる研究デザインを用いて回答するのが最善である。登録簿やその他の実世界のデータベースのデータを用いた質の高い観察研究は、RCTが実行できない領域やRCTの外的妥当性が疑われる領域において、ギャップを埋めるための貴重な情報を提供することができる [77, 78]。観察研究は、ガイドラインの策定にますます利用されるようになっている。IDSAと米国胸部外科学会が共同で発表した2007年のCAPガイドラインは、複数の大規模なレトロスペクティブ・コホート研究から導き出された [79, 80]。このガイドラインは、ガイドラインに従った場合に有益であることを示したコホート研究によって支持された [3, 4]。観察研究は、患者の安全性に関するデータの評価や、比較効果研究（CER）にも用いられる。

CERは以前から研究者の間で知られてたが，最近になって景気刺激策として優先的に実施されるようになった。CERは，「リアルワールドの環境において，健康状態を予防，診断，治療，モニターするためのさまざまな介入や戦略の利益と害を比較する研究の実施と統合」と定義されている [81, p 5]。

CERでは、大規模な電子データベースやレジストリーを用いた観察研究が大きな役割を果たすことになるであろう。膨大なデータを持つ電子カルテを使用する場合、膨大な観察データから意味のある情報を抽出するために、データマイニング技術のような高度な分析が必要になる。CERのための適切な電子カルテの必要性は、米国医学研究所でも認識されている。「CERプログラムは、大規模な臨床データおよび行政データのネットワークの開発を支援し、データのより良い利用と、CERに情報を提供するための新しいデータのより効率的な収集方法を促進すべきである」 [82, p 154]。

レジストリー、観察研究、その他の電子健康データベースから得られるこの実世界のデータは、複数のバイアスや交絡因子の影響を受けやすいと批判されている。これらは、適切なデザイン、データ収集、および分析手順を確実に使用することで軽減することができる。たとえば、Tleyjehらは、感染性心内膜炎における手術の役割を評価するためのコホート研究のデザインに使用できる基準を提案している[83]。これらの推奨事項の多くは、感染性心内膜炎に限定する必要はなく、感染症の臨床医科学者が観察研究を計画する際に考慮すべきものである。さらに、Strengthening the Reporting of Observational Studies in Epidemiology（疫学における観察研究の報告の強化）のガイドラインは、観察研究の報告に利用することができる[84]。

我々は、観察研究を、今後もエビデンスに基づく医療の指標となるRCTと同等にすることは提案しないが、観察研究はエビデンスベースの強化（エビデンスベースをレベルIIIからレベルIIに改善）のために用いることができる。

専門家の意見多くの推奨は、RCTで検証されることのない健全な臨床判断に基づいているため、専門家の意見は重要であるという考えが高まっている。さらに、専門家の意見は、十分な証拠が比較的少ない分野で患者のケアを導くのに役立つ。なぜなら、医師は先行研究のない分野で専門家の意見を必要とするからである。この意見は、対照研究または観察研究によってさらに検証される。ガイドライン委員会は、2つの報告書を並行して作成することが望ましいのではないかと提案されている。1つは、エビデンスが利用可能なガイドラインを提示し、もう1つは、より多くのデータが必要で、専門家の意見しか与えられない問題を特定するものである[85]。例えば、米国のPreventive Task Forceは、裏付けとなる証拠のない勧告は出さない [86]。

資金の配分。必要に応じて RCT を支援し、観察研究を強化するために登録やデータベースを開発し、CER を支援するなど、既存のエビデンスベースを最適化および拡大するために、十分な資金を用意する必要がある。また、従来の資金源以外の資金源を特定し、明らかな商業的価値がない分野や、ベンチからベッドサイドまでの期間が長い分野の研究を支援する必要がある。トランスレーショナルリサーチを促進するために、官民パートナーシップや民間の慈善団体が介入することも考えられるが [67]、これらの研究は民間部門からの投資を誘致できないことがよくある。このように、公的な資源は、発見と臨床試験の間のギャップを埋め、有望な発見のより効率的な翻訳を可能にする。トランスレーショナルリサーチに資金を提供し、それを促進するための新しい取り組みが数多く行われている。例えば、米国国立衛生研究所のRapid Access to Interventional Development Program [87]や、Cures Acceleration Network [88]の下で米国国立衛生研究所と米国食品医薬品局が協力して実施しているMicroscope to Marketplaceなどがある。

2009年の米国再生・再投資法による資金提供は，既存の「ベストプラクティス」を改善・強化するためのCERの可能性に対する認識を反映したものである [81]。CERファンドは，将来のCERのための強固なインフラを構築することにより，官民で行われている研究を補完する絶好の機会を提供する．米国再生・再投資法の資金で実施されるCERのために、感染症におけるいくつかの優先分野が特定されている（表4）[82]。

表4 感染症における比較効果研究の資金調達のための優先テーマ

原文参照

感染症分野における比較効果研究の優先テーマ

このように、CERにおける最初の国家的優先事項として、またIDSAガイドラインやトランスレーショナルリサーチで強調されている質の高いエビデンスが不足している分野として特定された感染症の優先分野に十分な資源を投入することで、IDSA臨床診療ガイドラインのエビデンスベースを強化できる可能性がある。

結論

IDSAガイドラインの推奨事項は、主に非ランダム化研究や専門家の意見から得られた低質なエビデンスに基づいている。これらの知見は、質の高いエビデンスを提供できる臨床感染症研究の深刻な欠陥を浮き彫りにしている。必要に応じてRCTを実施し、観察研究の実施と報告を最適化し、エビデンスを強化できる可能性のあるCERを実施することで、これらの知識のギャップを解消することが急務である。そのためには、質の高い研究を支援するための十分な資金を確保しなければならない。今回の結果は、診療ガイドラインを無視しろというものではない。IDSAガイドラインに従うことで、患者のケアが改善し、臨床転帰が向上することが研究で示されている。しかし、診療ガイドラインを適用する際には、医師は常に自分の臨床判断に頼らなければならない。