Tarnished Gold エビデンスに基づく医療の病  エビデンスとは?
What Is Evidence?

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

考えることが難しいという意味で、ベイズ統計学は難しい。

ドナルド・ベリー

臨床試験は単純な実地試験であり、臨床研究の方法は基本的に単純である。ここでは、EBMの問題点のほとんどを克服した臨床試験の方法を紹介する。臨床研究の手法は基本的には単純である。医学的証拠をより詳細に見ることで、専門家の診断を説明し、ささやかなベイズ臨床試験をデザインすることができる。このような臨床試験は、堅牢で、シンプルで、安価に行うことができる。原理的には、家庭医が標準的な診療所で行うことができる。重要なのは、必要なサイズに拡張可能で、他のデータと簡単に組み合わせることができることである。要するに、謙虚なベイズ試験は、EBMで誇張された大規模無作為化臨床試験と少なくとも同等の力を持っているのである。

控えめな臨床試験

小規模な実験は、大規模な試験よりも効果的である。臨床試験は、家庭医でも実施できるほど簡単なものであり、しっかりとした科学性を持ち、同じように簡単に再現することができる。

EBMでは、臨床試験は通常、治療を受けた患者と対照となる患者の2つのグループを比較する。この試験では、2つのグループに有意な差があるかどうかを確認する。よく、治療群と対照群の間に「有意でありません」結果が出た場合、その治療法が有効であるという「証拠がありません」ことを意味すると言われるが[134]、これは間違い。有意か否かにかかわらず、あらゆる差が証拠となる。その差は、恣意的な有意性の基準に達していないかもしれないが、それにもかかわらず、関連する確率を伴う情報である。

集団から得られた結果を個々の患者に適用することは妥当ではないため、個々の患者を個別に治療し、どの治療法が効果的かを予測できるような新しいアプローチが必要である。このような試験のデザインは非常に簡単であることがわかった。一連の患者の結果を記録し、それをもとに治療法の効果を予測するのである。

ささやかな例を考えてみよう。カルロス医師は開業医で、糖尿病患者の血糖値を下げる2つの薬のうち、どちらがより効果的かを知りたいと考えている。A剤は古くて安価であり、特許が切れて数年が経過しており、ジェネリック医薬品の供給者も多数存在する。薬剤Bは新しく高価で、その製薬会社は糖尿病治療における画期的な製品であると主張している。

カルロス博士は、倫理的な承認を得て、この2つの薬を一連の患者でテストすることにした。どちらの薬剤も受け入れられる治療法であり、比較的安全であると考えられるので、これで問題ない。そして、彼は実験の基準を決めた。薬がグルコースを3ポイント下げれば、カルロス博士はその結果を成功(S)とし、そうでなければ失敗(F)とする。

カルロス博士は,コンピュータにスプレッドシートを設定し,最初の糖尿病患者を待つ。適当な糖尿病患者が来ると、彼は1ヶ月間グルコース値を測定する。そして、表計算ソフトは、各患者をA剤とB剤のどちらを投与するかランダムに割り当てる。一定期間後、例えば2ヶ月目に、カルロス博士は患者の血糖値を再び測定する。その値を表計算ソフトに入力すると、表計算ソフトは成功か失敗かを記録し、その薬が血糖値を指定された量だけ下げる確率を計算する。結果は次のようになる。

  • A剤を投与された最初の20人の患者に対して、SSFFFSFSSSFFFFSFFF

  • B剤を使用した最初の20人の患者ではFSSSSSSFSSSFSFFSSSFSFFSSS

薬剤Aでは、20人の患者のうち7人が成功している。薬剤が有効である確率は、おおよそ35%(または7/20)と見積もることができる。同様に、薬剤Bはより効果的であることがすぐにわかる。20人の患者のうち15人が成功し、75%(15/20)の効果があることになる。つまり、副作用やコストなど他のすべての条件が同じであれば(実際にはそうではないかもしれないが)、B剤の方がA剤よりも好ましいように見えるのである。

ここで、もう少し踏み込んで、スプレッドシートに確率を計算させてみよう。これにより、ベイズの定理を用いてあらゆる確率を計算することで、患者がそれぞれの薬剤から恩恵を受ける可能性を確認することができる。その結果(確率密度プロットといいます)は次のようになる。

横軸は有効性の確率である。すべての確率は0から1の間で表示される。0はその薬が全く効かないことを意味し、1はすべての患者に効くことを意味する。ある確率は他の確率よりも高く、これは曲線の高さで表される。例えば、薬Aが常に効果を発揮する可能性(薬効の確率1)はなく、反応しない患者もいるからである。予想通り、薬Aの曲線のピークは、患者の約35%に薬が効く確率を示し、薬Bのピークは約75%になる。これらの値は、次の患者がその治療法の恩恵を受ける確率を示している。

これらの計算から、Carlos博士は、2つの薬剤が患者にとってどのような利益をもたらすかをより深く理解することができる。カルロス医師は、「治療が効果的でないと仮定して得られた結果よりも極端な結果が観察される確率」など、p値にまつわる一般的なゴチャゴチャを考慮する必要はない。この結果は、カルロス博士に、次の患者にどちらの薬が効く可能性が高いかを教えているだけである。2つの治療法の相対的な有効性が明らかになったのだ。

ベイズ法を用いることで、カルロス博士は個々の患者に効果がある可能性が高いことをすぐに知ることができる。EBM試験とは異なり、ベイズ統計は実験条件に大きく影響されないため、この研究が信頼できることを知っている。カルロス博士は、その情報を他の医師に視覚的に伝えることができ、医師は研究を繰り返し、裏付けとなるデータを追加したり、あるいは異なる結果が得られた場合に報告することができる。患者の数に制限はない。医師はチームで協力し、結果を組み合わせることができる。この種の臨床研究は、安価で迅速な結果が得られ、少なくとも「最高の」EBMを提供するのと同じくらい有効である。

EBM実験から得られる結果の重要性は、実験のデザインによって変わることがある。ベイジアンアプローチを用いることで、カルロス博士は実験結果の意味が最初の仮定に依存することを知っているが、これらはEBMの場合ほど重要ではない。というのも、利益の確率は患者ごとに再計算されるからである。実験者の最初の考えに起因する問題は、臨床試験が進むにつれて急速に減少していく。

今回の例では、カルロス博士は、実験する2つの薬について初期情報がないと仮定した。もし彼が実験開始時のパフォーマンスを知りたかったのであれば、公表されているデータを利用して、より良い出発点を得ることができたはずである。しかし、最終的な結果には大きな違いはなかった。最初の仮定の効果は、患者からの情報が蓄積されるにつれ、すぐに薄れてしまうからである。また、最初の仮定を変えた場合に、結果がどのように変化するかを計算することもできる。

医学の中心的な問題は「予測」である。診断の際、医師は患者の病気を予測し、どの治療法が最も効果的であるかを判断する。医療統計がベイズ分析やパターン認識などのロバストな予測手法に基づいていないのは、これらの手法が従来の手法よりも多くの計算能力を必要とするからである。EBMで使われている統計手法の多くは、機械式の卓上計算機を使って計算を行っていた時代に考案されたものである。現在では、携帯電話でさえ、初期のスーパーコンピュータよりも高い計算能力を持っているかもしれない。今こそ、医療はもう少し原始的なものに基づいて行われるべきだと思う。

カルロス博士の実験では、自分の作った薬が個々の患者に効く確率を計算することができる。患者のごく一部にしか効かない薬は、このテストでは不合格になる。博士が粘り強く何人もの患者を研究していれば、効果のない薬でも次の患者に効く確率は同じように低くなる。患者の数が増えれば、効果の確率の推定値はより正確になる。しかし、少数の患者であれば、開業医の実際の問題をカバーすることができる。

患者の利益になる確率を求めることの費用対効果は明らかである。現在の方法で推進されているような、100人に1人の患者にしか利益をもたらさないような薬は、資源の無駄遣いとみなされるであろう。カルロス博士のような医師は、より効果的なソリューションを使うように導かれるであろう。

忙しい医師にはわかりやすい方法が必要である。EBMに対する批判のひとつに、複雑で理解しにくいというものがある。カルロス医師は、自分の結果をスプレッドシートに入力し、計算は一切しなかった。カルロス博士は、結果を表計算ソフトに入力し、計算はしなかった。また、薬剤の違いを視覚的に確認することができた。本当の科学は、直接的な結果を出し、情報を明確にする。我々のシンプルなベイズ試験は、このことをよく表している。

エビデンスかインフォメーションか

この単純な実験の利点を理解する前に、証拠の性質に立ち返る必要がある。コンピュータに詳しい人ならば、情報はビット数で表され、データとして表現されることを知っているだろう。カルロス博士の実験では、20ビットのデータが2系列あり、成功(S)と失敗(F)のリストとして指定されている。読者の中には、「1と0のリストが医学と何の関係があるのか」と思われる方もいるかもしれない。しかし、カルロス博士の簡単な実験を見てほしい。Sを1に、Fを0に置き換えると、患者の結果を表すSSFFFSFSSSFFFFFFSFFFという配列は、11000101110000001000という20ビットの配列になる。意外かもしれないが、すべての意思決定は、次の記号が1か0かを予測する問題として表現できる。

医学の知識には、簡単に定義できない概念やアイデアが含まれており、それらを完全に情報として表現できるかどうかは議論の余地がある。0000や0101のようなビット列は情報を含んでいる。しかし、情報は知識や知恵と同じではない。現在のコンピューターは、情報を含んで処理しているが、人が知恵と認めるような能力はほとんどない。現代の電子社会は、情報やデータ処理には溢れているが、本物の知識には欠けている。

今回のカルロス博士の結果のように、臨床試験の結果は2桁の数字で表すことができる。このように考えると、臨床試験とは、見かけ上の無秩序から秩序を探し出し、分離することである。情報とは、あるデータを表現するのに必要なビット数と定義できる。例えば、0から7までの整数を数えるとする。2進法では、これらすべての値を表すのに3ビットの情報が必要である。

秩序と無秩序

不確実性は唯一の確実性であり、不安と共存する方法を知ることが唯一の安全性である。

ジョン・アレン・ポーロス

一般に、ランダム、無秩序、ノイズといった言葉はそれなりに理解されているが、これらの概念が情報とどのように関連しているのかを理解していない場合がある。そもそも、データが無秩序であればあるほど、それを説明するために必要な情報量は多くなる。1,1,1,1,…という数列を考えてみよう。カルロス博士の臨床試験では、これは常に成功する完璧な治療法を表している。すなわち、S,S,S,S…. このシーケンスを指定するには、単に「永遠に続く1のリスト」であることを示す必要がある。短いフレーズで完全なシーケンスを指定できるので、その情報量は少ないと言える。

これに対して、公平なコインを投げた場合、頭と尻尾のランダムな並び、すなわち、h,h,t,h,t,t,h,t,…が得られる。これを2進法で表すと、頭を1、尻尾を0として、1,1,0,1,0,0,1,0,…となる。意外かもしれないが、このリストの情報量は多いのである。各投球はランダムなので、次の投球の結果を予測することはできない。そのため、リストを記述するには、配列のすべての桁を書き留めなければならない。情報量が多いというのは、ランダムな配列を記述するために必要なビット数が、順序付きのものよりも多いことを意味する。

カルロス博士の仮説的裁判が実際の医療とどのように関連しているかを見るために、ある医師が特定の病気にかかった最後の10人の患者にペニシリンを投与し、彼らが回復したとする。医師は同じ病気にかかった現在の患者にその薬を処方すべきか、イエス(1)かノー(0)か?もし医師が、その患者がその薬でより早く回復する可能性が高いと思えば、その薬を処方するかもしれない。

同様に、「手術をすべきか」という質問に対する答えは、過去の手術の経験と結果に依存する推論である。外科医は手術をする(はい、つまり1)か、しない(いいえ、つまり0)かのどちらかである。不確実な世界において、外科医はどの治療法が最も効果的であるかを予測し、それに従って行動する。手術が行われる(1)か、行われない(0)か。

医療や手術の決定は、カルロス博士の裁判のように、常に2進法の文字列で表現することができる。この0と1の2進法は、科学やすべての医療裁判についての新しい理解の基礎となるものである。

多様性と不確実性

何もない。適切なタイミングで適切な鍵盤を叩くだけで、楽器は勝手に演奏してくれる。

ヨハン・セバスチャン・バッハ

メガスタディやメタアナリシスが盛んな今日、カルロス博士のシンプルな試験は小さすぎて重要ではないと思われるかもしれない。しかし、そのような先入観はひとまず保留にして、「情報」「多様性」「不確実性」の本質について、より深く掘り下げてみてほしいと思う。

ランダム性、不確実性、無秩序は、エントロピーと呼ばれる尺度で測られる。コンピュータや情報科学の分野では、システム内の情報量をエントロピーと呼んでいる。物理学では、エントロピーは無秩序やランダム性の増大を意味する。それぞれの分野でエントロピーの定義は若干異なるが、一貫して無秩序に関連するものであり、科学の最も基本的な概念の1つである。

古典物理学の最も強力な法則である熱力学の第2法則は、孤立したシステムは時間とともに無秩序さを増すとしている。エントロピーが増大するということは、システムがよりランダムになり、情報量が増加することを意味する。

マイケル・フランダースとドナルド・スワンがコミックソングで表現したように、熱力学第二法則には次のようなルールがある。

  • 「冷たいものから熱いものに熱を伝えることはできない」というものである。
  • 試してみてもいいが、やめておいたほうがよいだろう。
  • 冷たい方の冷えた体は、定規のように熱くなってしまうからである。
  • 熱い方の体の熱が冷たい方に伝わるからだ。

生物の特徴は、エントロピーを回避することである。生命を定義するのは難しいが、多くの人はそれを見れば認識できる。例えば、カエルや花は生きているが、石は生きていない、というのが一般的な認識であろう。生き物は最初、熱力学の第二法則を破っているように見える。生きている細胞は、周囲からエネルギーを吸収し、それを使って複雑な構造、生化学、行動を作り出する。全体的な効果は、エネルギーの損失である。このプロセスは、情報の観点から解釈することができる。生物は内部の組織を増やするが、その代償として周囲の無秩序さが増していく。その結果、環境のエントロピーの増加と生物の組織化の増加が均衡する。

このような情報変換により、地球上にはさまざまな生物が存在している。生物による秩序の向上は、通常、生物がエネルギーを使用することで表現される。しかし、生物の情報伝達は、ある意味ではエネルギーの使用よりも基本的なものである。生命の単位である生体細胞は、負のエントロピーマシンである。我々が生物を認識するのは、彼らが情報を具現化し、利用しているからである。

前述の20問ゲーム(20Q)を思い出していただければ、完全に指定するために必要な最小数の2進法の質問を見つけることで、配列やリストの情報量を測定することができる。各イエス・ノーの質問はビットを指定するので、我々は情報のビットで情報量と多様性を測定する。原則として、最高の質問、つまり最大の情報を提供する質問は、データを2つの等しいセットに分割するものである。

簡単な例を挙げると、1から100までの任意の整数を思い浮かべてほしいというものである。この数字を決めるためには、最大で7つの二項対立の質問をする必要がある。まず、その数字が50より大きいかどうかを尋ねる。これにより、データのどの半分にその数字が含まれているかを知ることができる。次に、データを再び2つに分けるために、2つ目の質問をする。数字が50より小さい場合は、25より大きいかどうかを尋ねる。回答の数だけ、数字の大きさに関する情報が増えていく。実際、データを同じ大きさのグループに分けると、1つの質問で情報が1ビット増えることになる。100までの数字を分離するためには、最大で7つの質問をする必要があるので、1から100までの数字の情報量は7ビットとなる。必要な質問の数を見つける一つの方法は、数字の範囲(100)を2で繰り返し割り、結果が1以下になるまで繰り返すことである。これは、問題を解くために必要な情報量、つまり問題数を決定するための経験則として妥当な方法である。

実際には、7ビットあれば1から128までの整数を求めることができるので、情報量の見積もりは必要以上に大きくなっている。実際に100までの整数を求めるのに必要な情報量は6.64ビットである。分数ビットの情報量を使うことで、推定値の精度は高くなりますが、言葉で説明するのは簡単ではない。

ロス・アシュビーの「多様性」という概念も、情報の表現方法のひとつである。我々は、多様性と情報量を同じ意味で使っている。情報という概念は、科学において非常に大きな力を持っている[135]。ビットは、数学的な論理と計算の基礎となっている。情報は科学の基本であり、合理的な説明の究極の位置を占めている。

十分なバリエーションを持つ

科学の半分は、正しい質問をすることである。

ロジャー・ベーコン

ある医師が患者を診断する際に、考えられる病気が100個あったとすると、正確な診断を下すためには、最低でも7つのイエス/ノー形式の質問をする必要がある。もし、医師が質問の1つを忘れてしまい、最初の6つの質問しかできなかったと仮定すると、結果として2つの病気が含まれることになる。これは、2つの病気を区別するために必要な質問が行われなかったためである。患者は、例えば、インフルエンザか風邪かという鑑別診断を受けることになる。もし、医師がもっと物忘れがひどく、最後の2つの質問をすることができなかった場合、鑑別診断には、例えば、「インフルエンザ」、「普通の風邪」、「髄膜炎」、「肺炎」の4つの病気の可能性が含まれることになる。

医師の質問に十分なバリエーションがなければ、診断を正確に判断することができない。このことは、アシュビーの法則、つまり 「多様性だけが多様性を破壊できる 」ということにつながる。この場合、患者が100の病気のうちどれにかかっているかを判断するためには、医師は7ビットの多様性レベルが必要である。もし、医師が適切な質問をしていなければ、つまり、有効な多様性が7ビット未満であれば、診断の精度は低下する。症状の不確実性を減らし、正確な診断を下すためには、医師は十分な関連情報を持っていなければならない。ここで注意していただきたいのは、適切な7つの質問があれば、病気が共通していても、類似していても、複雑であっても、常に十分に分けられるということである。問題は、どの質問が必要かということだけである。

医師は、医学部で長い時間をかけて知識と、できれば推論の方法を蓄積する。この長い期間の勉強は、医師の頭の中の多様性を増やすためである。多様性に富んでいれば、医師は正常な生理や病気のプロセスにおける膨大なレベルの不確実性に取り組むことができる。勉強熱心で頭の良い医師は、患者に大きな助けを与えられる可能性がある、というのは真理のように思える。しかし、これにはもっと根本的な問題がある。

医学におけるすべての合理的な行動は、Ashbyの単純な法則に従わなければならない。十分な多様性を持たない行動やプロセスには欠陥がある。

科学的手法

合理的な医学は、可能な限り、科学に基づいている。科学の仕組みは単純である。ある人がアイデアを持ち、それをテストする。その実験でアイデアが確認されれば、少なくとも別の実験が行われるまでは暫定的に受け入れられる。実験によってアイデアが矛盾したり否定されたりした場合、そのアイデアは修正されたり破棄されたりする。このプロセスは帰納法と呼ばれ、ベイズの定理の使用と同等である。ベイズは、現在の信念(アイデアや仮説)を新しい証拠(テストや実験の結果)で更新する。

仮説と理論は、我々が医学を理解するための主な方法である。理論は単純化し、説明し、研究者の進歩を助ける。例えば、細菌説と循環説は、科学的医学の中核をなすものである。細菌説は、抗生物質の開発をはじめとする数々の感染症対策につながった。ウィリアム・ハーベイの血液循環理論は、心臓手術に使用される心肺バイパス装置などの近代的な技術に道を開いた。

他の科学と同様、医学にも核となる理論が必要である。ここでは、「血液循環」と「細菌説」を例に、理論的なブレークスルーがいかに医学を発展させたかを歴史的に検証する。細菌説は、19世紀のロバート・コッホの研究によって確立された。しかし、細菌説は何世紀も前に記述されていた。1546年、フラカストーリアスは、伝染病は「胞子」と呼ばれる小さな粒子によって引き起こされると提唱した[136]。医学における理論的進歩は、適切に調査され、受け入れられるまでに長い歴史を持つことがよくある。フラカストーリアスの胞子が影響を与え、やがてコッホの細菌へと変化していった。最近では、遺伝学とDNAの理論が、医学の基礎となる生物学の理解に革命をもたらした。

理論の開発と理解は、医学にとって非常に重要であり、その実用性を支えるものである。優れた理論とは、既知の事実に適合し、有用な予測を行うものであり、そのような理論は科学の究極の目的である。対照的に、エビデンスに基づく医療には基本的な理論がほとんどない。(欠陥のある)統計モデルは数多く含まれているが、個々の患者、健康、病気に関連するものはほとんどない。我々が強調してきたように、EBMは大規模な社会科学的実験の結果をその場しのぎで集めたものである。結果として得られる情報は、「薬剤Aは、疾患Bの43-57歳の拒食症の女性には臨床的に効果があるが、疾患Cの思春期の男性には効果がないことが証明されている 」という形である。病気は、漠然としたリスクファクターに起因しているが、実際にどのように作用するかを説明する理論モデルが不足している。

理論に基づいて試行錯誤する科学の手法は強力である。物理的な世界を理解するための最も強力な方法なのである。科学とは、観察と実験に基づいた帰納的な推論のプロセスであり、ベイズ統計学によって説明される。次の章では、EBMとその統計的な複雑さと比較するために、科学のシンプルさについて説明する。

主なポイント

  • EBMの複雑な臨床試験は単純な実用試験に過ぎない。
  • テストを理解すると、自然とベイズ統計学にたどり着く。
  • EBMの臨床試験は、単純なベイズ試験に比べて信頼性が低い。
  • 医学の最大の問題は、予測の問題である。
  • 単純なベイズ試験は、EBMの問題点のほとんどを克服している。

大きな一歩を踏み出すことを恐れてはいけない。

小さな2回のジャンプでキャズムを越えることはできない。

デビッド・ロイド・ジョージ

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー
error: コンテンツは保護されています !