Tarnished Gold | エビデンスに基づく医療の病 / 集団は人間ではない
Populations Are Not People

強調オフ

EBM・RCT

サイトのご利用には利用規約への同意が必要です

平均的な人間には乳房と睾丸が1つずつある。

デス・マクヘイル

医師は、自分が日々患者と接しているときに下している診断や判断が、どれほど高度なものかを知らないかもしれない。医師の判断は、最先端の「エビデンスに基づく」医療よりもバランスが取れていて効果的な場合がある。合理的な医師は、大規模な試験や統計的な理論に基づいて医療を行うことを避けるべきである。

ある医学的判断

ある人から、移植のために自分の腎臓や肝臓の一部を提供してほしいと頼まれたとする。あなたの回答にはいくつかの問題がある。第一に、あなたの答えは、移植を受ける人が誰であるかによって決まる。極端な例を挙げれば、ほとんどの人は連続殺人犯よりも愛する親族に献体する傾向があるであろう。また、予想される利益も関係してくる。生産的で幸せな生活を何十年も送れる可能性のある若い配偶者や子供の方が、寿命の短い死刑囚よりも価値があるように思われる。

さらに、なぜ移植が必要なのかという質問もある。アルコール依存症の患者に自分の肝臓を提供することは、手術後も飲酒を続ける可能性があるため、賢明とは言えない。移植を受ける人が責任を持って、あなたの命の贈り物を壊さないようにしてくれるかどうか、安心したいと思うであろう。一卵性双生児でない限り、拒絶反応を考慮する必要がある。一卵性双生児でない限り、拒絶反応は重要な問題である。患者は生涯、抗拒絶反応薬を服用しなければならないかもしれないので、ドナーになる可能性のある方は、組織型の観点から自分が最も適した候補者であることを確認したいと思うかもしれない。

また、手術や病院での感染症のリスクも考慮しなければならない。また、臓器を失うことで、将来的に健康を害する可能性もある。腎臓を提供すると、一生、1つの腎臓に頼ることになる。自動車事故などで残りの腎臓が損傷し、移植が必要になることもある。

臓器提供は、典型的な医学的決断である。あなたの選択は、多くの質問への回答によって決まる。これらの質問は、あなたという個人と、あなたが置かれている特定の状況に関連している。統計的な情報が中心的に重要であることは比較的まれである。統計的に見て、提案されている移植手術にはほとんど合併症がないと言われれば、安心できるかもしれない。人によっては、平均して2%(50人に1人)の確率で重大な問題が発生すると言われても、安心できるかもしれない。

これらの統計の多くは、リスクをある程度示すものである。しかし、これらの統計は、あなた個人に直接当てはまるものではない。例えば、あなたがある種の麻酔薬に非常に敏感であることを知っているとする。この場合、標準的な手術は致命的なものになる可能性があり、標準的ではない形の痛み止めが必要になる。もし、あなたがこのような感受性を持っていて、それを知らなかったとしたら、統計上はそうであっても、あなたは異常に高いリスクを抱えていることになる。

理性的な人であれば、提供された情報に基づいて、提供するかどうかを決めるかもしれない。このような判断を下すための方法が意思決定科学のテーマである。意思決定科学では、特定の選択に到達するプロセスを合理的に扱う。それぞれの意思決定は、集団の統計ではなく、主に特定の状況に依存している。

生態学的誤謬

EBMは統計学上の誤りに基づいている。つまり、集団の値(腎臓手術中の合併症の平均的なリスクなど)を特定の個人に適用できると仮定することである。これは生態学的誤謬として知られている[20]。物理学の簡単な例を挙げると、ヘリウムガスは温度、体積、圧力で記述できる。気体は膨大な数の原子の集合体であり、その平均温度を知っても、特定のヘリウム原子についての情報は得られない。

同様に、日本ではほとんどの人が黒髪だからといって、東京の電車であなたの向かいに座っている人が黒髪でなければならないというわけではない。その席に座っているのは、ピンクやブルーの髪をした原宿の女の子かもしれないし、髪を茶色に染めた若い男性かもしれないし、北欧から来た金髪の人かもしれないし、白髪のお年寄りかもしれないし、ハゲの人かもしれないのである。東京の平均的な髪の色は黒かもしれないが、街を歩けば様々な色を目にすることができる。

生態学的誤謬によれば、大規模な臨床試験の結果を個々の患者に適用することは根本的に間違っている。サリドマイドや最近ではバイオックスの悲劇など、臨床試験のデータを個人に適用することに伴う問題は有名である。このような状況にもかかわらず、EBMの神話は、個々の患者は集団統計のゴールドスタンダードに基づいて治療されるべきだというものである。

Trisha Greenhalgh教授は『How To Read A Paper』という本を書いている。この本は、医療関係者に新しいアプローチを紹介することを目的としたハウツー本である[21]。この本は、数学が医学に応用されていることにグリーンハルが心酔しているような場面から始まる。後日談として、彼女は自分にとってのEBMの定義を述べている。

「エビデンスに基づく医療とは、集団を対象とした質の高い研究から得られた有益性と有害性のリスクを数学的に推定し、個々の患者の診断、調査、管理における臨床上の意思決定に役立てることです。」

二重思考の形で、この本は生態学的誤謬を引用しているが、その意味するところを明確にしていない。Greenhalgh氏は、「Evidence based clinical decision makingには、遠く離れた集団サンプルにおける何百、何千もの比較可能な症例の結果を集約して、現在の問題を評価するという、やや直感に反する実践が含まれる 」と説明している。彼女が言うように、このプロセスが直観に反するものである理由は、意思決定科学がこのようには機能しないからである。集団から得られた確率を特定の個人に適用して、それが正確で有用であると期待することはできない。

Greenhalghはこの問題を認識しているが、明らかな矛盾を見逃しているようで、「無作為化試験やコホート研究における集団の経験的観察によって確立された『真実』は、個々の患者に機械的に適用することはできありません」と説明している[22]。言い換えれば、EBMは特定の患者に対しては機能しないということである。ここで、「機械的に」という言葉は、EBMの結果を人間が主観的に解釈して、患者の治療の指針とすることが可能であることを示唆している。我々はそれに同意する。しかし、我々は、患者の個別の生物学的および状況が支配的であることを付け加える。つまり、EBMの集団研究は、人間の意思決定に漠然とした文脈を提供しているに過ぎないのである。

Greenhalgh氏は、EBMは「34歳の男性が左胸の痛みを訴えた場合、重篤な心臓疾患がある確率はどのくらいか、あるとすれば安静時の心電図に現れるか」という形式の質問に適していると提案している。ECG(心電図)とは、心臓の電気的活動を記録したものである。この問題や関連する問題に対して、EBMの集団統計学を用いて答えを出す有効な方法はないように思われる。これから説明するように、この若者は個人として扱われる必要がある。つまり、個人的な評価が必要なのである。

最後にGreenhalghは、EBMデータに基づいて意思決定を行うためにベイズ統計を用いることを提案している22。ここで彼女は、より効果的な統計手法を取り入れることで生態学的誤謬を回避することを提案している。標準的な技術の複雑さとは対照的に、ベイズ統計は単一のアイデアに基づいており、単一の方程式で記述することができる。基本的には、新しい証拠の観点から信念を更新する方法を説明する。

ベイズ牧師の信念体系

科学者は、証拠をどのように利用すべきかを説明してくれた神学者に感謝している。トーマス・ベイズ牧師は、18世紀のイギリスの数学者で、自分の名前を冠した定理の特別なケースを導き出した。我々がマンモグラフィやその他の検査を評価するために使用する決定木は、ベイズの考えに基づいて構築されている。ベイズの定理とは、臨床試験や実験、スクリーニング検査などのデータを解釈するためのシンプルな方法である。

実験は単独で行われるものではない。臨床試験の開始時には、我々はすでに問題について何かを知っており、信念体系を持っている。この知識は、実験を行う前から存在しているため、事前確率と表現されることもある。例えば、マンモグラフィによる乳がん検査は、乳がんのリスクがあることを理解した上で行われる。検査の結果は、それまでの知識と相まって、我々の評価を向上させる。このような証拠が、信念体系である。しかし、この文脈では、信念というよりも、データの合理的な解釈を意味している。

ベイズの定理は、我々の現在の信念に基づいて、ある結果が発生する確率に関係している。実験の結果は、我々の信念が現実をより正確に反映したものになることを願って、その信念を更新するのに役立つ。結果を利用して知識を増やすつもりがなければ、臨床試験を行う意味はない。試験を行った後、我々の新しい信念は、新しい結果と以前の知識を組み合わせる。

病気に関する知識を深めるために医学実験や臨床試験を行うとき、我々はベイズプロセスを行っているのである。医師がどのような方法でデータを理解しようとも、その方法が正確であれば、それはベイズに近似している。その結果、現在の科学的信念体系は常に更新されている。臨床試験やその他の医学的証拠は、我々の知識を追加し、我々の考え方に影響を与える情報を提供する。

一般の患者には良いのだろうか?

この章の冒頭で、「平均的な人間は乳房と睾丸を1つずつ持っている 」というデス・マクヘイルのユーモラスな言葉を引用した。全人類の平均値を取ると、この言葉が示唆するような奇妙な半人半女になるのである。『ナショナル・ジオグラフィック』は、典型的な人間を「28歳で右利きの漢民族の男性で、携帯電話を持ち、年収は12,000ドル以下で、銀行口座を持っていありません」と表現している[23]。万が一、これが読者のことを表していたとしても、平均的な人間は時代とともに変化し、20年もしないうちにインド人になってしまうであろう。このように、本当に平均的と言える人はほとんどいないことがわかる。

EBMの支持者は、平均的な結果を用いれば、平均的に全員が利益を得ることができると主張するかもしれない。この議論は魅力的であるが、物事はそれほど単純ではない。例えば、ある薬の臨床試験で、平均して10mgの薬で血圧が下がることが分かったとする。その結果、ある集団の平均的なメンバーは高血圧であることがわかった。そこで、例えば全員に10mgの薬を投与すれば、平均的に血圧が下がり、集団全体が健康になるというメリットがあるはずである。

ここで「生態学的誤謬」が登場する。比較的少数の人が極端に高い血圧を持っているが、その人たちが平均値を高めている。この仮定の集団のほとんどの人は、血圧が正常かもしれない。中には低血圧の人もいて、その人にとっては薬は有害で、飲んだら死んでしまうかもしれない。したがって、平均的な投与量を無差別に適用することは、ある人にとっては危険である。血圧の高い人だけが利益を得られ、必要な投与量はその人の状況によって異なる。合理的な医師であれば、高血圧が確認された患者にのみ薬を処方し、それに比例して投与量を調整するであろう。

医師は、すべての患者をそれぞれの問題を抱えた人間として扱う必要がある。また、それは患者が期待することでもある。純粋に統計的な予想に基づいて診療する医師は、どうしても患者を傷つけることになる。例えば、胸の痛みを冠動脈疾患ではなく、胃炎だと判断して退院させてしまうことがある。このようなミスは起こりえる。統計上、心臓発作の可能性は低く、胃炎は一般的であり、医師は忙しすぎて確認できないかもしれない。逆に、可能な限りの検査を行っても、情報過多のために誤った診断を下してしまうこともあるであろう。

意思決定理論の最初のレッスンの1つは、生態学的誤謬をいかに避けるかということである。これは、集団から平均化されたデータを使って、個人についての予測を行おうとしないということである。このような試みの結果は不正確なものとなる。EBMを正当化しようとする我々の試みは、生態学的誤謬の適用に依存しているため、失敗に終わる。我々は、集団統計でこの限界を回避する方法を知らない。しかし、病気の診断や治療にパターン認識やパターンマッチングを用いることで、生態学的誤謬を回避することができる。

パターン認識

社会科学が導き出すことのできる唯一の結論は、「ある者はやり、ある者はやらない」ということである。

アーネスト・ラザフォード

人々の集団から情報を集めることは、政府や社会科学者にとって貴重なデータとなる。例えば、ある都市で予想される心臓発作の数を知ることは、地域の病院が必要とする心臓病用ベッドの数を知る目安になる。同様に、政府は臨床試験の統計結果を利用して、費用対効果が高いと思われる医薬品を推奨することができる。過去には、人口調査によって、タバコの喫煙が肺がんやその他の病気を引き起こすことが明らかになったが、こうした情報はタバコの規制にも役立つ。また、タバコの有害性を知ってもらうことで、タバコを吸うか吸わないかを個人で選択できるようになる。

このように、統計や社会医学は、ある個人(チャーリーおじさんとしよう)にとっては、ほとんどメリットがない。チャーリーおじさんは97歳で、タバコを吸い、お酒を飲み、食生活が乱れ、運動もしていない。しかし、心臓病や関節炎、肺がんなど、想定される病気にかかったことはない。実際、彼はこれまで一度も病院に行ったことがなく、医者を信じていない。この統計結果は、「100歳近くになっても元気なチャーリー 」には当てはまらなかったようだ。多くの人は、「自分は一人の人間として扱われるべきだ」という意識は持っていても、それを適切に表現するための予備知識を持っていないので、チャーリーおじさんの話をしてくれるのである。

一般的な統計では、平均的にはタバコを吸わない方が良いとされている。しかし、それだけではない。科学者たちは、1本でもタバコを吸えば、誰もが何らかの被害を受けることを明らかにしている。この知識は、臨床試験や疫学からではなく、動物実験や実験室での実験から直接得られたものである。基本的な科学は、喫煙者の誰もがダメージを受けることを証明している。喫煙により、薬理学、生化学、生物物理学の分野で直接測定、観察された化学物質が毒性を持つことがわかっている。

タバコを一服吸うごとに喫煙者はダメージを受けるが、このストレスに対する反応は個人差がある。医学的統計は、その結果があなた個人に当てはまるかどうかを、正確に言うことはできない。ただ、平均的には、喫煙によって病気のリスクが高まるというだけである。しかし、チャーリーおじさんのように、抗酸化物質や解毒酵素など、タバコの影響から身を守るための特徴を持った珍しい組み合わせを持っている可能性もあるのである。この珍しいパターンに当てはまれば、タバコを吸っていても平均寿命が100歳を超える可能性がある。

チャーリーおじさんの例は、標準的な人口統計と、パターン認識と呼ばれるもう一つの意思決定の違いを強調している。パターン認識は、個人に適用される。それぞれの人には、性別、目の色、民族、身長、体重などの属性のパターンが関連付けられている。このような特徴を持つ人は、病気や健康になる傾向がある。従来の統計学では、これらの値の集団やサンプルにおける平均値や広がりを知ることができる。パターン認識では、患者が持っている属性に応じて、その患者の予測を行う。

最近まで、コンピュータはパターン認識を行うのに十分な性能を持っていなかった。しかし、この30年の間に、パターン認識は我々の身の回りに存在するようになり、気づかないうちに我々の生活に密接に関わるようになった。パターン認識の応用は、敵の潜水艦や航空機、ミサイルを味方のものと区別するなど、軍事的な要求から始まった。その後、DNAプロファイリング、指紋認識、音声認識、顔認識、封筒の郵便番号読み取り、紙幣の自動チェック、空港での爆発物や密輸品の検索など、徐々に商用システムが開発されてきた。また、著者の一人(SH)は、医療画像などの解析、株式市場の予測、印刷物の検査、車のナンバープレートの読み取りなどのシステムを設計している。これらのアプリケーションやその他の多くのアプリケーションでは、個々のアイテムを認識して分類することを目的としている。

医療用パターン認識

パターン認識は、医療においても新しい技術ではない。従来の診断方法では、医師が患者から兆候や症状を聞き出し、医師の知識や経験をもとに、それらを病気ごとに照合していた。経験豊富な医師であれば、これまで何度も見てきた一般的な病気の特徴をすぐに認識することができる。このように、医師はパターン認識を行っている。

医師は医学教育の中で、実践的な経験とノウハウを身につけていく。これは「パターン認識」と言い換えてもよいであろう。優秀な医師は、少ない情報でも、必要な情報だけを探し出して正確に診断する。練習すれば、ほとんど気づかないうちに、素早く診断できるようになる。マルコム・グラッドウェルは、著書「Blink」の中で、このような迅速な認知について述べている[24]。別の例を挙げると、チェスのグランドマスターは、手を計算することに多くの時間を費やしないが、ボード上のポジション全体を認識することを学んでいる。彼らは、理にかなっていると思われ、自分が有利になると予想される手を選択する。医者も同じような方法で患者の診断や治療を行っている。

一般的な病気であれば、短い症状からそれなりの精度で判断することができる。それ以外の場合には、臨床検査や臨床試験が必要になることもある。しかし、医師が病気を診断するためには、多くの質問の結果を必要としない。その理由は、「20Q」と呼ばれる、まるで魔法のような読心術を持っているかのように見える電子玩具にある。

「20Q」という電子玩具は、あなたに言葉を思い浮かべてもらい、それに基づいて最大20個の質問をするというもので、装置の名前にもなっている。質問には「はい」か「いいえ」で答えていただきますが、一部の機種では「時々」や「不明」と答えることもできる。それぞれの質問は、可能な単語の範囲を狭めるように設計されている。動物かどうかを尋ね、「はい」と答えると、哺乳類かどうかを尋ねる、といった具合である。これらのおもちゃは、ほとんどの単語を正確に推測することができる。いくつかのケースでは、デバイスのデータベースにない単語を選ぶことができるかもしれないが、それはおもちゃの限界であって、分析方法の限界ではない。多くの人にとって、このおもちゃはほとんど魔法のような読心術の能力を持っているように見える。

つまり、比較的少ない質問が与えられれば、英語のあらゆる単語を見つけることが可能であることがわかるのである。イエス/ノーの質問は、それぞれ1つの情報を提供する。20の質問をすると、可能性のある単語のリストが100万以上の異なるカテゴリーに分割される。大規模な英語の辞書には約50万の単語が含まれており[25],[26],[27]、さらに50万の新しい単語が追加されるのを待っている[28]。したがって、理論的には、この装置は辞書にあるあらゆる単語と、まだ含まれていない多くの技術的な単語を予測することができる。一般的な教育を受けた人であれば、20,000の単語を知っているかもしれないし[29]、1週間の間にそのうちの約2,000の単語を使うかもしれない。そのため、プログラムの悪い20問の質問シリーズであっても、ほとんどの人が選びそうな単語を扱うことができる。

同様に、熟練した医師は、多数の病気の可能性を区別するために多くの質問を必要としない。イエスかノーで答える1つの質問で、考えられる病気を2つのグループに分ける。2つ目の質問では、症状を4つのグループに分けることができる。3つ目の質問では、8つの病気のグループが考えられる。驚くべきことに、たった20の質問で、可能性のある病気のリストを1,048,576グループに分けることができるのである。つまり、「はい」「いいえ」という簡単な質問を20回するだけで、100万以上の可能性の中から患者の病気を特定することができるのである。

医師は患者を診察する際、性別や年齢などの特徴を把握し、症状を聞いて、既知の病気と照合する。若い医師は研修中に、症状と病気を結びつけたリストを暗記する。しかし、後になると、そのリストは忘れてしまい、自動的に習得されていく。このようにして、医師は、現在の環境の中で、それぞれの患者に合った診断を下すのである。パターン認識の用語で言えば、質問の目的は、医師が患者の一連の属性を決定し、それを特定の病気に適合させることである。

母集団の統計は、診断に到達するための限られた助けとなる。例えば、乳がんは女性に比べて男性では統計的に珍しい病気である。にもかかわらず、乳がんの男性は、少ないからといって自分の病気が見逃されることを望みません。患者は、医師が特定の診断の専門知識を持ち、その知識を正確に適用して、健康を取り戻すことを期待している。

日々の奇跡

科学の世界では、10対12以上の確率で何かに賭けるべきではない。

アーネスト・ラザフォード

医師が特に後輩を指導する際によく使う格言に「よくあることはよくあること」[30]というものがあるが、これは稀な出来事や奇跡的な出来事の可能性を許容しつつも、症状を最も可能性の高い説明で解釈することを意味している。若手医師は、訴えが珍しいものなのか、ありふれたものなのかを知るために十分な症例を見ていないかもしれない。彼らは、経験や上級医から学んでいないのである。

一般的なことが頻繁に起こるという発言は、医師が患者を診断するために学ぶ方法の1つであるヒューリスティックスをガイドとして使用することを示している。我々は皆、問題解決のためにヒューリスティックスを使っているが、それは意識していなくても同じである。「鼻水、咳、喉の痛み、微熱がある人は風邪をひいている可能性が高い」というのは、医師も一般の人も共通して使う経験則である。このような単純なヒューリスティックスを家庭医が適切に適用すれば、最も強力な統計的手法と同等の精度が得られることを、後ほど説明する。

よくあることが頻繁に起こると聞いて驚く人はほとんどいないであろう。しかし、もっと逆説的な考えは、異常な出来事も頻繁に起こるということである。特定の人が宝くじに当たる可能性は非常に低いが、常連のプレイヤーが言うように、ほとんど毎週のように誰かが宝くじに当たっているのである。よく言われるように「誰かが勝たなければならない!」のだ。残念ながら、その 「誰か 」があなたである可能性は高くない。ケンブリッジ大学の数学者であるジョン・リトルウッドは、「奇跡」を「100万分の1の確率で起こる出来事」と定義した。リトルウッドの法則では、そのような奇跡は月に1回程度の頻度で人に起こることが期待できるとされている[31]。したがって、リトルウッドは、人は比較的頻繁に不思議な出来事を経験することが期待できると計算したのである。

遺伝、生理、環境の影響など、どれも非常に複雑である。時にはリトルウッドの奇跡が画期的な発見につながることもあり、その典型的な例がフレミングによるペニシリンの発見である。科学者たちは、このようなセレンディピティな奇跡が起きたときに、それに気づくことができる天才を探し、期待している。ノーベル賞受賞者のアルバート・セント・ギョルジは、「発見とは、誰もが見たことのあるものを見て、誰も考えなかったことを考えることです」と言っている。

医学的な奇跡は意外と多いものである。医師は1年の間に、数多くの珍しい症状や状態に遭遇することを合理的に予想することができる。しかし、リトルウッドの奇跡やその他の異常な出来事は、医学的な統計ではカバーされていない[32]。 確かに、本当に平均的な患者は極めて珍しく、リトルウッドの奇跡の一つと考えられるほど簡単に珍しい。各個人は、統計的に異常値とみなされるほどの異常な生化学的パラメータを持っている。

異常な主張

信じられないようなデータだからといって、それを否定する論理はない。

フレッド・ホイル卿

経済学の分野では、ナッシム・タレブが株式市場で起こる異常な出来事を「黒い白鳥」と呼んで、その意味を説明した。何世紀にもわたって、人々は “black swan “という言葉を、”as rare as hen’s teeth “と同じように、不可能なことを表現するために使ってきた。その昔、白鳥はすべて白いと思われていた。世界中の白鳥を集めて、地球の陸地のほとんどをカバーしていた。長い歴史の後、黒い白鳥は発見されなかった。EBMの実践者は、これが白鳥がすべて白であることの「証拠」になると言うかもしれないし、このような大規模な調査の後では、これはもっともらしく、厳密に聞こえるかもしれない。

仮に、科学者が見逃していた黒い白鳥を、実際に生息しているオーストラリアで発見した人がいたとしよう[33]。もしあなたが黒鳥の標本を作ったら、詐欺師として訴えられるかもしれないし、羽の色はどうしたのかと聞かれるかもしれない。しかし、限られた証拠しかない人にとっては、黒鳥が偽物であることよりも、受け入れられている考え方が偽物であることの方が、より真実味があるように思えるかもしれない。多くの科学者は懐疑的な立場をとっているが、我々は常に自分の知識がいかに少ないかを意識する必要がある。残念ながら、ほとんどの標準的な統計手法は、「黒い白鳥」に対処するようには設計されていない。

タレブは、多くの経済理論や株式市場の取引アルゴリズムが線形統計学に基づいていることに気づいた。しかし、金融市場は、医学や人生の他の多くの側面と同様に、直線的ではない。世界は常にEBMスタイルの統計のルールに従っているわけではなく、複雑で、ダイナミックで、非線形であることが多いのである。このような状況では、従来の統計はうまく機能しない。異常な出来事は起こるだけでなく、予想されるものである。

スチームローラーの前で小銭を拾う

EBMの支持者との議論では、EBMの手法の主な擁護点は、平均して一貫した小さな利益が得られることであった。つまり、「その薬は100人のうち1人の患者にしか効かないかもしれないが、その1人の患者のおかげですべてが報われる」ということである。この解釈は間違っている。潜在的なコストがベネフィットを大きく上回る可能性があるからである。Nassim Talebは、小さな利益が頻繁に発生し、ときには壊滅的な損失が発生するような金融リターンのシステムに適用される概念を説明している。この概念は、Taleb分布として知られている。この考え方は、医療の現場でも大いに参考になる。

アリスの場合を考えてみよう。彼女は健康に気を配り、よく食べ、よく運動するようにしている。彼女はできる限り長く健康でいたいと思っている。もちろん、彼女はいずれ自分の人生が終わることを理解している。しかし、アリスは健康で活動的な生活を長く送りたいと思っている。彼女が一番心配しているのは、交通事故や心臓発作など、自分の人生を極端に短くしてしまう「ブラックスワン」と呼ばれる出来事である。主治医はEBMに基づいて検診と治療を行い、アリスに予防策を講じているという安心感を与える。ストレスによる頭痛には鎮痛剤を、テニス肘には消炎剤を処方される。この薬は、副作用もなく、彼女の症状を軽減しているようだ。

どうやらアリスの医師は、彼女や他の患者に小さな利益を複数提供しているようだ。しかし、彼女が全体的な利益を得ているというのは幻想である。EBMの統計は外れ値を記述しない。例えば、どんな薬や治療法でも、大規模な臨床試験を経ているにもかかわらず、重大な副作用の可能性がある。副作用は稀だと思われているが、必ずしもそうではない。統計の手法が限られており、薬剤の反応がよく出ることを前提としていることもあって、問題が見逃されることが多いのだ。このような希望にもかかわらず、統計では重大な副作用が見えないことが多いのである。

このケースでは、アリスは時折起こる緊張型頭痛から10年間解放されたが、最終的にこの薬が末期の肝不全を引き起こしたことがわかった。この肝臓障害は慢性的なもので、10年近くかけて現れたものであり、この薬の臨床試験では明らかではなかった。歴史を振り返ると、医療被害は簡単には抑えられない。新薬を服用すれば、誰もが壊滅的な副作用のリスクを抱えることになる。

EBMは、一見すると安定した小さな利益を提供する数多くの活動の一つであるが、厄介な出来事が隠されていることがある。多くの場合、これらの問題を事前に予測したり、標準的な統計を用いてリスクを下げたりすることはできない。典型的な例として、金融の分野が挙げられる。ノーベル経済学賞を受賞したミルトン・フリードマンは、「ペソ問題」について説明している。米国の銀行から低利でドルを借り、高利でメキシコペソに投資することが可能だったのである。ペソがドルに対して変動するようになるまでは、安定した収益が保証されているかのようだった。しかし、ペソがドルに対して変動すると、年間1万ドルの利益を得ていたペソ投資家が、200万ドルの損失を出してしまい、全滅してしまった。この金利差は、ペソが切り下げられるかもしれないという市場の期待を反映したものだったのである。

一般的に、人は重度の病気にかかるリスクは比較的安定して低いであるが、時折、壊滅的な故障に見舞われることがある。人の健康はタレブ分布に従う[34]。長期間安定していることもあるが、突然の予期せぬ病気や怪我のリスクに常にさらされている。誰もがいずれは死ぬのだから、最終的にはネガティブな出来事が優先される。心臓発作は、そのタイミングが予測できない非線形のイベントであるという点で、株式市場の暴落に似ている。

タレブの分布のもう一つの例は、「テールゲーティング」と呼ばれる運転行動である。高速車線を走っているドライバーは、自分の走行時間を数秒でも短くしたいと思って、前の車に近づきすぐ。何人かのドライバーが同じことをすれば、前の車に近い一人が少し強くブレーキを踏むだけで、玉突き事故が起きてしまう。焦っているドライバーやその同乗者、近くにいる他のドライバーが1、2秒のために殺されるかもしれないのだから、リスクに見合った利益は得られない。統計的な平均値に信頼を置くEBM医師は、このような無謀な運転手のように振る舞う。それぞれの決断は、わずかに数人に利益をもたらすかもしれないが、十分な時間があれば、ほとんど確実に災いをもたらすことになる[35]。

統計的に妥当と思われる治療法を用いる医師は、患者に多くの小さな利益を与えることを期待するかもしれない。しかし、これらの小さな利益は、存在するとしても、大きなリスクを伴うことがある。Taleb氏はこのプロセスを、前進するスチームローラーの前で小銭を拾うのと同じだと表現している。利益は小さいが、つまずいて起き上がれなければ、ぺしゃんこになってしまう。タレブの分布は、一時的には安定したリターンを得ることができるが、最終的にはほぼ確実に破滅する[36]。

このような分布の特徴は、医学の実践における特徴と似ていて、以下のようなものがある。

  • 患者の死亡など、極端な有害事象が発生する確率が高いこと。
  • 副作用、薬物相互作用、あるいは優れた「証明されていない」治療法など、隠れた、あるいは観察されていない事象の存在。
  • 知識が限られており、リスクが不確定であり、正確な期待値を算出することが困難であるため、結果が不明であること。
  • リスク管理の信念:特に個人に適用される場合、未知のリスクを管理する統計の能力に対する根拠のない信念。
  • これらの問題を回避するためには、EBMに代わって、個々の患者を支援するための強固な手法が必要である。そのためには、以下のような特徴を持つ方法が必要である。
    • 患者は大きなリスクを回避する。患者は大きなリスクを回避することができる。各患者のリスクは、人口統計をあまり気にせず、個別に検討する必要がある。
    • 不確実性を受容する方法。医療の結果は暫定的なものであり、今後もそうである。合理的な医師と患者はこのことを受け入れなければならない。
    • 様々な選択肢とその結果を検討する。あらゆる治療法のリスクとベネフィットの両方を比較する。
    • 情報の提供。医師は、不確実性のレベルを含む情報をオープンに共有することに重点を置くことが重要である。
    • シナリオ分析。患者は、利用可能なすべての選択肢について、関連するリスクを含めた結果を比較できるようにすべきである。
    • リスクと責任の共有。最終的なリスク、責任、および選択は、個々の患者にある。医師は、情報提供と意思決定を支援する義務がある。
    • 官僚的干渉からの解放。政府や組織の規則が恣意的に患者の生死を決定してはならない。

時間が経てば、医師はほとんどの患者が時折ブラックスワン現象に遭遇することを想定しなければならない。それは、珍しい自動車事故であったり、珍しい癌であったり、アラスカでの休暇中になぜか熱帯病にかかってしまったりするものである。残念ながら、人によっては、非常に珍しい出来事が時々起こるということに抵抗を感じることがある。

天文学者のカール・セーガンは、「異常な主張には異常な証拠が必要だ」という有名な言葉を残している。これは、ありえないことを主張するには、それを裏付ける強力な証拠が必要だという意味である。セーガンは、科学的推論の限界に近い、超常的な観察結果の解釈について述べてた。この引用は、例外的な主張には例外的な証拠が必要であるという提案のバリエーションであり[37]、少なくとも18世紀のデビッド・ヒュームにまで遡ることができる。ヒュームは「奇跡を立証するのに十分な証言はない。ただし、その証言が虚偽であれば、立証しようとしている事実よりも奇跡的であるような種類のものでなければならない」と述べている。

しかし、珍しい報告には特別な証拠が必要だという考えは間違っている。すべてのデータが重要なのである。科学者は、どんなに可能性が低いと思われる観測であっても、それを無視してはいけない。一見、荒唐無稽な主張であっても、ベイズ統計学を用いれば簡単に取り入れることができる。主張の重要性は、他の情報を考慮した上で、その主張が正しい可能性で重み付けされるだけである。ある主張が異常で、他の調査結果と一致しない場合、その重要性はデータの強さに比例する。再現性があり、低コストの簡単な実験で簡単に検証できる主張は、特に受け入れられる。これは、どんなに非凡な科学的主張であっても、それを真っ向から否定するのではなく、検証することができるということであろう。

アシュビーの必要な多様性の法則

ウィリアム・ロス・アシュビーは、エジンバラとケンブリッジで学んだ後、ロンドンのセント・バーソロミュー病院に勤務した精神科医である。彼は脳の働きに興味を持ち、脳がどのように進化し、機能するのかを考えながら過ごしていた。この研究を通して、彼は医療上の判断、意思決定科学、コンピュータの応用などのすべてを支配する単純な法則を発見した。アシュビーは、サイバネティックスという、当時はまだ新しい学問分野において、優れたブレークスルーをもたらした。

サイバネティックスとは、生物や機械などのシステムにおける制御やコミュニケーションを研究する学問である。ロス・アシュビーの功績は、すべてのシステムが機能するための基本原理を発見したことである。アシュビーの法則では、「バラエティ」という言葉を「情報」の別称として使っており、EBMの用語では「エビデンス」と呼ばれているため、EBMとの関連性は高いと言える。

アシュビーの必要な多様性の法則は、おそらく、あらゆるシステムの制御、コミュニケーション、分析に関する唯一の最も強力な声明である。彼の法則は非常に一般的な範囲である。その有効性は外部のデータに依存していない。アシュビーは、論理と情報理論だけでこの法則を証明した。簡単に言えば、この法則は、複雑な問題には同様に複雑な解決策が必要であることを意味している。これは、システムを制御するために必要な情報量は、少なすぎても多すぎてもいけない、ゴルディロックスのお粥のように「ちょうどいい」ものでなければならない、という意味である。

情報量という点では、アシュビーの法則はニュートンの運動の第3法則に相当する。”すべての作用には等しく、反対の反応がある “とよく言われる。つまり、加えられた力は、反対の力(反応)と釣り合っているということである。問題を解決する際にも、同様のバランスが必要だとアシュビーは言う。つまり、解決策を提供する人やコンピューターには、問題そのものと同じ量の関連情報(バラエティ)が含まれていなければならないのだ。言い換えれば、複雑な問題の解決策は、単純な問題の解決策よりも複雑になる。

「複雑な問題は簡単な問題よりも難しい」というのは、何とも月並みな話だ。しかし、アシュビーの法則は微妙で、これを理解することは、効果的な意思決定を理解するために不可欠である。アシュビーの法則とは、医師が正確な診断を下すためには、個々の患者、環境、そして考えられる病気について十分な知識が必要であるというものである。もちろん、アシュビーの法則は通常このような言い方ではなく、「バラエティがバラエティを吸収する」というような少しわかりにくい言い方をする[39]。

アシュビーの法則を別の言い方で表現すると、「医者が十分な知識を持っていなければ、病気を治すことはできありません」ということになる。このように述べると、やはり当たり前のことのように聞こえるが、科学における最も強力な結果の多くも同様である。アシュビーの法則は単純に見えるかもしれないが、後に明らかになるように、その意味するところは壊滅的なものである。例えば、統計的なルールを使って医師の診療をコントロールしようとすると、アシュビーの法則が破られてしまう。

問題を解決するためには、十分な能力、専門性、知識が必要である。アリスのような患者は、病気になったら医者に行って何が悪いのかを調べている。弁護士やエンジニアのところには行かない。なぜなら、彼らが十分な医学的専門知識を持っている可能性は極めて低いからである。アリスは個人であり、体重、遺伝子、活動などのユニークな特徴を持っている。アシュビーの法則とは、診断を下して治療法を処方する際に、これらすべてを考慮に入れなければならないということである。

アリスのような患者を効果的に治療できるかどうかは、相談する医師のスキルと多様性にかかっている。長い医学的訓練により、医師は数多くの異なる患者を助けるための十分なバラエティを持っている。我々は多くの医師に話を聞きたが、統計医学の結果が医師の専門性を覆すことを支持する医師にはまだ出会っていない。

ゲーム理論

ゲーム理論は、軍事、経済、医療など、人間の活動の様々な側面に効果的に作用する意思決定科学の一分野である。ゲーム理論の目的は、与えられた状況での最適な戦略を見つけることである。ゲーム理論は、その名前に反して、決して簡単なものではない。カードゲームや経済学から始まったゲーム理論は、冷戦時代の軍事分析を経て発展し、生死に関わる問題にも頻繁に応用されてきた。ゲーム理論は現代の軍事戦略にも取り入れられており、その進歩は著しいものがある。

しかし、初期のゲーム理論には、社会病理学的な合理化が施されていた。理論家たちは、人は自分の限られた利益のためだけに行動すると考えていたのである。ゲーム理論に影響を与えたジョン・ナッシュを描いた人気書籍・映画『ビューティフル・マインド』は、このことをよく表している。ナッシュは偏執性統合失調症を患っており、それが彼の思考に影響を与えたのかもしれない。ナッシュの天才的なゲーム理論は、ノーベル賞を受賞した。大げさに言えば、彼の研究は、ニュートンやアインシュタインの理論よりも多くの分野に影響を与えていると言われている[40]。

ゲーム理論は、社会的な人間関係など、戦略的な相互作用を伴うあらゆる状況に適用される。医療行為の多くはこのように説明できる。医療現場では、ゲーム理論は、患者が最も効果的な治療や病気の予防を、最も低いリスクで受けられるようにする方法を提供する。

簡単な例を挙げれば、患者のアリスが感染症にかかって医者に行ったとする。治療にはペニシリンが選ばれる。ベスト・プラクティスではペニシリンが推奨され、政府のガイドライン、コスト、そして複数の「エビデンス・ベース」の研究結果もこの薬を推奨している。ペニシリンの使用が有益であることを示すすべての要因にもかかわらず、アリスを個人として考慮せずに治療法を処方するのは間違っている。

医師はアリスが個性的であることを知っている。この例では、アリスがペニシリンにアレルギーを持っており、そのために急性ショックを起こして死ぬかもしれないことを覚えている。そのため、医師は「エビデンスベース」の一部を無視して、テトラサイクリンなどの代替薬に変更する可能性がある。しかし、この時、アリスは妊娠しているので、テトラサイクリンは赤ちゃんの骨の発育を阻害する可能性があるので、これも避けるべきである。この点を考慮して、医師は処方を再検討する。このプロセスは、医師が患者、病気、そして現在の臨床状況に治療法を適合させるまで続くる。

医師は、アリスの感染症を一つの事象として捉え、技術と知識を駆使して戦う。彼は、単純なアプローチではすべてのケースに対応できないことを知っている。細菌が先手を打ってアリスに侵入し、症状を引き起こした。医師は抗生物質を投与する。しかし、もしかしたらその細菌は以前にもこの抗生物質に立ち向かったことがあり、適応して薬に耐性を持っているかもしれない。医師はもう一度考えて、別の抗生物質を見つけなければならない。このプロセスは、適切で効果的な治療法が見つかるまで(あるいは、アリス自身の免疫システムが勝つまで)続き、うまくいけばアリスは回復する。例えるならば、医師は病気に対してチェスのゲームをしているようなものである。

ゲームのルールを学ばなければならない。

そして、誰よりも上手にプレイしなければならない。

アルバート・アインシュタイン

ゲームは意外と複雑なものである。チェスはシンプルなルールで、小さなボードの上で、限られた数の駒を使ってプレイする。しかし、一見シンプルなゲームであるにもかかわらず、人間はゲームをマスターするのに何年もかかる。高い知能を持つ人がグランドマスターになるには、10年以上の集中的な学習が必要かもしれない。現代のコンピュータは高度なゲームをプレイすることができるが、世界チャンピオンのゲーリー・カスパロフ氏にスーパーコンピュータが2回目の挑戦で勝利した。このコンピュータは、ゲームの合間にプログラムを修正して、接戦を制した。注目すべきは、「ディープ・ブルー」と呼ばれるこのコンピュータは、要求された再戦を待たずに勝負をつけたことである。

チェスの対局開始時、白駒の取り得る手は20通りしかない。同様に、黒の駒も20通りの対応が考えられる。しかし、可能なゲームの数は天文学的に大きいのである。このような数の多さを理解するために、よく知られている「王様の賞金」の話を思い出してみよう。ある王様が、偉大で勇敢な行いをした臣下に褒美を与えようとした。その臣下は、チェス盤の1マス目に米1粒、2マス目に2粒、3マス目に4粒、4マス目に8粒、とお願いした。次のマスでは2倍になった。王様はこれでは少なすぎると思い、対象者に再考を求めたが、男はこれでいいと言い張った。実は、王様が考えていたよりも、彼の要求は控えめなものであった。1、2、4、8、16……と、どんどん増えていくので、チェス盤の64マスの米の価値は、王国全体の価値を超えていたのである。現代でも、全世界の100年分の米の生産量を超えているだろう。

このような増加の仕方を指数関数的と表現する。チェスの手の数も同じように指数関数的に増えていくので、現在、最速のスーパーコンピュータでもすべての手を計算することはできない。ゲームに含まれる様々な情報や情報量は天文学的に大きいのである。その結果、現在の最善の手を導き出すことは通常不可能である。また、必勝法があるかどうかもわかっていない。

もっとシンプルなゲームであるチェッカー(ドラフトとも呼ばれる)は、種類が少なく、すべての手が計算できます[41],[42]。英語のルールで行われる標準的なチェッカーゲームは、おそらくこれまでに完全に解かれた最も複雑なゲームである。500,000,000,000以上の可能な手があり,科学者のチームが数十台のコンピュータを使って解を計算するのに約20年かかった.チェッカーで無敵のコンピュータプログラムを作ることは可能である。完璧にプレイすれば、チェッカーゲームは必ず引き分けになる(チックタックトーや、イギリスではナイツ&クロスと呼ばれている)。勝つための戦略はなく、チェッカーゲームに勝つためには、相手がミスをしたときだけである。

医療問題はそのようなゲームよりもさらに複雑で、一般的に人間の高度な専門知識が必要とされる。患者に最善の治療を施すためには、医師は深く複雑な問題を解決しなければならない。すべての医師と患者のゲームに完璧な解を提供することは不可能であり、解が計算できないこともある。意思決定問題の中には、厳密な解が得られないような驚異的な複雑さを持つものもある。そのような場合には、満足のいく結果が得られるような近似解やヒューリスティックを見つけることが目的となる。成功した医師の多くは、その方法が理論的に最適であるかどうかにかかわらず、患者を再び元気にすることができれば満足するだろう。

医療の問題は複雑なので、医師は指示されたことをそのまま実行するのではなく、判断力が必要である。現在の診療方法やガイドラインは参考になるかもしれないが、実際には、個々の医師が直面する問題はあまりにも特殊で、標準的な統計的手法では解決できない。

個別医療

現代の遺伝学は、個別化医療という新しいアプローチを生み出している。製薬会社は、患者の遺伝子に合わせて薬を提供する取り組みを始めている。一卵性双生児や三つ子などを除いて、地球上のすべての人は遺伝的に異なる。遺伝だけでなく、遺伝子と環境の相互作用によって生まれた解剖学的、生理学的、生化学的な特徴を持っている。例えば、一卵性双生児の片方がてんかんで、もう片方がそうでないということは、てんかんは遺伝だけではないということを意味している。

このように、人の遺伝子や生化学的プロファイルを把握し、それぞれの患者に最適な薬を選択することが、この医療の取り組みの目的である。従来の医療を発展させたこの試みは、人間の生化学的な個性を考慮したパターン認識の応用である。

しかし、個別化医療は決して新しいアイデアではない。意外なことに、これまであまり知られていなかった代替医療や補完医療が、その道を切り開いてきた。何十年もの間、栄養学、生態学、オーソモレキュラー医学の実践者たちは、個人のユニークさを受け入れてきた。1956年に出版されたロジャー・ウィリアムズの優れた著書「生化学的個性」は、人間の驚くべき多様性を示している[43]。 彼のアプローチは、彼の声明に要約される。「統計的な人間にはほとんど興味がない。」 生化学的個性は、統計的予測の直接的な適用が失敗しなければならないことを意味する。この制約を示すために、もう一度ロス・アシュビーの話に戻る。アシュビーは、ロジャー・コナントと協力して、統計医学の適用範囲をさらに制限する第一法則の拡張を考え出した[44]。

この拡張は、すべての優れた規制者は規制されたシステムのモデルでなければならないという「良い規制者の定理」である。ダニエル・ショルテンは、実用的な例として、すべての良い鍵は、それが開ける錠前のモデルでなければならないと述べている[45]。錠前を開けるにしても、鍵屋や泥棒はヘアピンやその他の道具で内部の形状を合わせる必要がある。医学でも同じような例えがあるが、錠前と鍵の例えはぴったりである。酵素の活性部位は、基質分子のモデルである。薬物の受容体は、薬物のモデルである。大腿骨頭は寛骨臼のモデルである、などなど。

願わくば、定理という言葉に惑わされず、実用的な意味を持たない難解な学術的な考えではなく、基本的な情報科学であり、どんなシステムにも適用できるものである。これは基本的な情報科学であり、どんなシステムにも当てはまる。規制されたシステムのモデルとは、治療がオーダーメイドで、患者の特質に合わせてカスタマイズされていることを意味する。

明らかに、個別でカスタマイズされた治療は、大規模な統計的試験から「最良のエビデンス」を引き出すこととは両立しない。統計は、個性的な個人の集団から集約されるが、情報が失われるため、逆のプロセスは機能しない。例えば、あるクラスの子どもたちの身長を教えた場合、すべての身長の合計を子どもの数で割ることで、そのクラスの平均身長を算出することができる。同様に、ジェマの身長が4フィート10インチ、親友のクレアの身長が5フィート10インチであれば、彼らの平均身長は5フィート4インチと計算できる。明らかに、彼らの平均身長に合わせてデザインされた服は、どちらにも合わないであろう。平均値の算出は簡単であった。しかし、平均値だけを教えてしまうと、逆算してジェマやクレアの実際の身長を求めることができず、その情報が失われてしまう。

集団統計では、個人を識別することはできない。これは、統計量を算出する際に、情報を捨ててしまうからである。平均(平均の一種)や標準偏差(広がりやばらつきの尺度)などの統計は、母集団を表すものであり、特定の人に関する情報を提供するものではない。

個人のグループの多様性は、個人を表現するための統計の多様性を大きく上回る。これは致命的な失敗である。集団の医療統計を個々の患者に適用しようとすると、生態学的誤謬が生じ、Ashbyの法則が破られるだけでなく、適切なモデルが得られない。特定の患者の医療問題に集団統計を適用しても、原理的にも良い解決策は得られないのである。

このグラフでは、ゼロ地点のピークが平均値で、スプレッド(幅)は標準偏差で表される

科学的な医学

この章では、生物の個性の重要性を強調してきた。そのため、診断や治療は患者に合わせて行う必要がある。集団統計から得られた結果を個人に適用することがなぜ間違っているのかを見てきた。患者の独自性は集団統計に勝るのである。

母集団の平均値やその他の集合的な統計に依存しているため、「証拠に基づく」医学を盲目的に使用することは有害である。現代の意思決定科学は、個人と状況に合わせて行われる。意思決定科学には、意思決定理論、ゲーム理論、システム理論、カオス理論、複雑性、ヒューリスティクス、パターン認識など、刺激的な響きを持ついくつかの分野が含まれるが、その例を挙げてみよう。典型的な家庭医は、日々の診療の中で、これらの先進的なアイデアの多くを直感的に採用しているが、多くの場合、それを意識することはない。

また、EBMのような統計的な概念とは異なり、医師の意見や経験則、さらには直感も、医師が迅速かつ正確な診断を下すための有用なツールとなる。医師は、昔ながらの方法に頼ってはいけないと言われるのではなく、自分の直感を再発見する必要がある。一人ひとりに焦点を当てた手法を用いる医師は、「エビデンスに基づく」医学の最も「決定的な」命令よりも、より洗練された診断と治療を提供することができる。

主なポイント

  • 医療とは知的意思決定である。
  • 意思決定の科学はEBMとはほとんど関係ない。
  • EBMは、ある程度の背景情報を提供することができる。
  • EBMは個々の患者には適用されない(生態学的誤謬)。
  • EBMは十分な情報を提供しない(アシュビーの法則)。
  • EBMは実行可能なモデルを提供しない(Ashby and Conant)。
  • 医師と患者のパートナーシップこそが第一の意思決定単位である。
  • 奇跡は期待すべきだが、それに賭けるべきではない。

 

理論のない科学は、価値のない政治と同じくらい意味がある。

スティーブン・ジェイ・グールド

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー
error: コンテンツは保護されています !