医療ヒューリスティックス：臨床現場の無言の判断者

Contents

ヒューリスティックス
外挿法（Extrapolation）
「数字の処理」について
医学の知識とのギャップを認識する
新しい検査や薬剤に対する現実的な期待の形成
新しい症候群の狭義の定義の回避
治療が診断に従属しないようにするために
無症候性患者の外科的処置
結論

Medical heuristics: the silent adjudicators of clinical practice

pubmed.ncbi.nlm.nih.gov/7503478/

クレメント・J・マクドナルド医学博士（Clement J. McDonald, MD）

医師が検査や治療法を選択する際に、十分な科学的結論が得られないことが多い。その代わりに、その場しのぎの経験則、つまり「ヒューリスティック」が医師を導くことになるが、その多くは問題を抱えている。医師は、臨床試験で調査された少数のサンプルから一般集団への推定を行うが、その方法には一貫性がない。多くの医師は、「数を扱わない」、「ゆっくりと異常を修正する」、「診断の確実性を高める」、「将来の「より大きな」リスクを避けるために今手術する」といったルールに基づいて生活している。しかし、いずれの場合も、歴史的な傾向や統計的な現実は、反対のことをするか、より識別力のあるヒューリスティクスに投資することを示唆している。医療のヒューリスティックスは、議論され、批判され、改良され、そして教えられるべきものである。明示的で優れたヒューリスティックスをより均一に使用することで、診療のばらつきを減らし、より効率的な医療を実現することができるであろう。

医療は、厳しい現実に直面することを避けてきた。医療の決定は、確立された科学的事実に基づいて行われていると思い込んでいるが、診療パターンをざっと見ただけでも、そうではないことがわかる。血管形成術は、無作為化試験や疫学調査でその効果が示される前に、数十億ドル規模の産業となった(1)。MRIは、臨床利用可能になった最初の5年間に大量に購入されたが、それは、MRIが他の診断法よりも優れていることを示すデータがなかったからである(2)。また、マンモグラフィの救命効果は50歳以上の女性のみを対象とした無作為化試験で証明されているが(3)、American College of Radiologyでは40歳から定期的に検査を受けることを推奨している。

科学的なデータは、ほとんどの医学的な決定を直接導くことは期待できない。すべての臨床判断の指針となるような無作為化試験や疫学研究はほとんど存在しない(4)。実際、検査の有用性を示す研究はほとんど存在していない。イソニアジドを投与されている患者の肝機能検査の間隔を決めたり、利尿剤を投与されている患者の電解質検査の日程を決めたりするのに、経験的な根拠はない。我々は、月の周期に合わせて、3ヶ月ごと、6ヶ月ごとに検査や再診の間隔を決めているが、それは単に他に良い方法がないからである。多くの薬物療法の効果は、無作為化試験で証明されている（5,6）。しかし、最適な薬剤、最適な治療期間、特定の患者に治療を開始すべき正確な重症度の閾値などについては、これらの試験ではほとんど答えられない。

また、科学的研究のサンプルサイズが、わずかな患者の要因（例えば、年齢、左主幹動脈閉塞など）によって治療法の有益性と有害性がどのように変化するかを明らかにできるほど大きいことは稀である。我々は通常、報告されたエビデンスから直接、特定の患者に対する管理の詳細を決定することはできない。しかし、医師は日常的に多くの患者の変数（年齢、併存疾患、ソシアルサポート）を考慮して治療法を決定している。

医師は明らかに決断を下しており、それは一般的に容易かつ自信を持って行われている。したがって、医師はこれらの決定を行うために、個人的な理論、仮定、経験、伝統、伝承などから得られる何らかのメカニズムを持っているはずである。

TverskyとKahneman(7)に倣って、このメカニズムのルールをヒューリスティック(8)と呼ぶことにする。宇宙論者が暗黒物質の存在を仮定するのは、銀河の振る舞いを説明するのに、目に見える物質だけでは不十分だからである。私は、医師が判断を下す際には、利用可能な生物学的証拠だけではすべてを説明できないため、一連のヒューリスティックスが説明できると考えている。

残念ながら、医師が使用するヒューリスティックスはあまり理解されておらず、ほとんど議論されていない。過去15年間のAbridged Index Medicusを検索したところ、タイトルや要旨に「ヒューリスティック」という言葉が含まれていたのは、わずか32件の引用にすぎなかった。これらの引用のうち、医師の意思決定プロセスに関するオリジナルの報告は4件のみで、ヒューリスティックを一般的に考えたものはなかった。

「非科学的」なメカニズムが医療の多くを導いていることを、我々医師は認めたくないのかもしれない。しかし、ヒューリスティックスの役割を認めることは恥ずかしいことではない。多くの人に「科学の女王」と呼ばれている数学は、数学的洞察力を支えるヒューリスティックスを有益に探究してきた(9)。医師が採用するヒューリスティクスの違いが、診療パターンの違いの多くを説明する可能性があるため、医療も同様に、このような探求から利益を得ることができるかもしれない(10)。実際、泌尿器科医による前立腺切除率の違いは、このような違いによって説明されている（11）。

このようなヒューリスティックスを批判的に検討し、明確にし、改善し、標準化することで、診療のばらつきを減らし、治療プロセスの最適化を容易にすることができる(12)。さらに、TverskyとKahneman(7)が記述した「日常的な」ヒューリスティクスの多くが機能不全に陥っていることがわかっている。医療ヒューリスティクスを慎重に検討することで、同様の問題が明らかになり、改善のヒントが得られるかもしれない。

ここでは、いくつかの具体的な医療ヒューリスティックスを挙げ、その基礎となる仮定を検討し、歴史的傾向、統計的考察、一般的な経験へのアピールに基づいて、どのように修正または調整するかを提案する。この議論は、ヒューリスティック・ルールについての議論を引き起こし、その定義を明確にするものである。このようなルールを真剣に批判し、正式に研究し、時間をかけてどれだけの効果があったかを評価することで、ルールを標準化し、改善することができるかもしれない。その結果、決定的な経験的研究がまだ得られていない検査や治療について決定を下す際に、より合理的な指針となるはずである。

ヒューリスティックス

いくつかの医学的ヒューリスティックスは、誰もが知っているものである。オッカムのカミソリは、一般的な科学から借りてきたものである(13)。オッカムのカミソリを簡単に解釈すると、一連の観察結果を説明する最も単純な仮説を選べということであり、このヒューリスティックを診断プロセスに直接適用することができる。サットンの法則は、有名な銀行強盗が「お金があるから」という理由で銀行を襲ったことにちなんで名付けられた、もう一つの身近なヒューリスティックである。医学的に解釈すると、「サットンの法則」は、症状を説明するために、一般的な診断を試してから、珍しい診断に変更することを促する。

外挿法（Extrapolation）

外挿とは、既知の点を通るトレンドラインを「近くの」別の点に延長することで、物理システムが時空間のある点から別の点へと徐々に滑らかに変化する傾向があることから正当化される。医学の世界では、外挿法は頻繁に使用されるが、一貫性はない。例えば、我々は、退役軍人援護局による適度な降圧治療試験の結果を、試験参加者である男性から、試験に参加していない女性に外挿した（5）。さらに重要なことは、試験薬（ヒドロクロロチアジド、レセルピン、ヒドラジン、プロプラノロール）の救命効果を、化学的クラスにかかわらず、すべての新しい降圧剤に外挿したことである。実際、開業医はこの外挿法に基づいて、試験済みの古い降圧剤のほとんどを再投与している。新しい降圧剤が血圧を下げることは分かっているが、（外挿によって）命を救うこともできると仮定している。しかし、最近の疫学的研究によると、カルシウム拮抗薬の場合、この推定は間違っている可能性がある(14)。

このようにすべての降圧剤が受け入れられているのとは対照的に、/3-ブロッカーに関しては「Show Me」というスタンスをとっている。英国の大規模研究において、/3遮断薬であるプラクトロールは、心筋梗塞による死亡率を1/3に減少させた(15)。この減少のほとんどは、突然死の減少によるものであった。プラクトロールは腹膜線維症を引き起こすため、米国では承認されなかったが、当時米国で承認されていた/3遮断薬の小規模な研究では、不整脈に対する有益な効果と、死亡率の改善傾向が示されていた(16-18)。しかし、誰もプラクトロールの心血管系への有効性をこれらのj8遮断薬に外挿することを主張しなかった。それどころか、数年後にプロプラノロールとメトプロロールの大規模な研究が終了するまで、/3-遮断薬に心筋保護作用があることは認められていなかった(19)。今日、アンジオテンシン変換酵素（ACE）阻害薬の救命効果を、すでに臨床試験で証明されているのに、より安価でまだ研究中の新しいACE阻害薬に外挿することには、同じような消極性が見られる。

より一貫したヒューリスティックな考え方は、一様に「Show me」のスタンスを採用し、直接的な臨床試験の結果のみに基づいて個々の薬剤を判断することである。これが現在のFood and Drug Administrationの立場のようである。しかし、情報が乏しくコストのかかる世界では、これは最善の方法ではないかもしれない。より良いルールは、ある薬剤から別の薬剤への治療効果の外挿を、それらが同じ生理学的クラス（例えば、/3-ブロッカー、ACE阻害剤）であれば認めるが、そのようなクラス間では認めないことであろう。ベイズ推論は、過去の情報をすべて含めて未来を推測する統計学的手法であり、まさにこのアプローチには根拠がある(20)。似たような薬についての完了した研究の結果は、新薬の有効性についての関連する過去の情報となる。ある意味では、すべての分析をメタアナリシスに変換してしまうのである(21)。

歴史的にもこのようなアプローチは支持されている。プロプラノロールとメトプロロールの大規模な研究では、それらが終了した時点でプラクトロールと同じ効果があることが示され(19)、研究されたACE阻害剤のそれぞれは、うっ血性心不全に対して最初のものと同じ効果があることが示されている。クラス内で外挿することの妥当性は、あるクラスの新種の薬剤について追加の臨床試験を行うことで検証できる。H2ブロッカー、ACE阻害剤、HMG-CoA（3-hydroxy-3-methylglutaryl-coenzyme A）還元酵素阻害剤の研究結果が報告されるたびにスコアを記録することで、このアプローチを支持あるいは否定する証拠をさらに得ることができる。

「数字の処理」について

研修医の頃、”Treating the patient, not the numbers “（数字ではなく、患者さんを見ること）とよく言われた。今でもこの言葉を耳にすることがあるが、これは異常な結果や所見を持つ無症状の患者や軽度の無症状の患者の治療を控えるために使われるものである。私が医師になった頃から、無症状の患者の「数を診る」ことについての議論は、ほとんどが「数を診る側」の勝利であった。1970年、退役軍人局の研究(5)では、軽度から中等度の高血圧の治療に関する議論は、拡張期血圧が90mmHg以上の患者を治療することで決着した(22)。また、糖尿病患者の血糖値を正常値に近づけることについての議論も、現在では決着がついている(23)。血糖値のコントロールが良好であればあるほど、長期的な転帰は良好である。無症候性糖尿病性アルブミン尿（総アルブミン排泄量500mg/d未満）の治療や、冠動脈疾患患者における無症候性高コレステロール血症の治療も、患者の予後を改善することが知られるようになった(24, 25)。

血圧（悪性高血圧）やグルコース（糖尿病性ケトアシドーシス）のようなある種の指標の症状の極限を治療する必要性が、医師に症状の極限にまで達していない異常を治療する勇気を与えたのかもしれない。医師は、ささやかな異常を早期に治療することで、患者が症状の瀬戸際から同じ距離を保つことができると考えているのであろう。専門家の間では、無症候性の異常を治療すべきかどうか、また、どの程度の閾値で治療すべきかについて、何十年にもわたって議論されてきた。揺るぎない立場は、臨床試験で治療効果が認められた閾値を超えた場合にのみ、異常を治療することである。しかし、我々は、新しい治療法の効果は、通常、最も極端な障害を持つ患者で最初に示されることを知っている。なぜなら、そのような患者集団は、介入の効果を示すための統計的な力が大きいからである。また、歴史的に見ても、極端な異常を持つ患者に適用して効果を発揮した治療法の多くが、後になって、それほど極端ではない異常を持つ患者にも効果があることが分かっている。これら2つの事実を総合すると、最も極端なケースで治療効果が大きく、中程度の極端なケースがまだ研究されていない場合には、証明された境界線よりも少し下の治療閾値を選ぶべきだということになる。臨床試験のデータが得られる前に、拡張期血圧を90〜115mmHgで治療していた多くの医師たちは、確かにこのような議論を利用していた。

しかし、これは無差別な治療を求めるものではない。医師は、どんな目的であれ、軽度の異常（正常値からの標準偏差が3〜4未満）を治療することはほとんどない(26)。さらに、治療の効果は重症の場合に大きくなる傾向があるが、患者一人当たりのコストや毒性は一定であることを認識する必要がある。つまり、治療の閾値を重症度曲線の下の人に設定すると、利益とコストの比率が下がる。ベル型の人口曲線のうち、特に太くて異常の少ない部分に入ると、利益の減少はかなり急になるかもしれない。

とはいえ、私は「数字を扱う」というヒューリスティックな考え方を支持する。繰り返しになるが、将来の臨床試験や意思決定分析の結果をどの程度予測できるかを追跡することで、このルールを検証することができる。

医学の知識とのギャップを認識する

医学界は常に、自分たちが知っていることのほとんどを知っていると思いがちである。これは科学の世界ではよくあることである。18世紀、物理学者たちは、自分たちの本当の仕事は終わったと考え、あとは複雑な問題のニュートン方程式の解を導き出すだけだと考えた。その後、量子力学が登場した。1960年代半ばには、微生物学者が「自分たちはすでにすべての病的な細菌を発見した」と結論づけた。咽頭炎の原因が溶連菌であることが証明されていないのに、それを治療した医師は酷評された。彼らは、喉の痛みを引き起こすものはウイルスに違いないと考え、抗生物質の影響を受けないと信じていたからだ。ボレリア・ブルグドルフェリ、レギオネラ、ヘリコバクター・ピロリ、エルシニア・エンテロコリチカ、トワール・エージェントなどは、これらの仮定がいかに間違っていたかを示すために出現した微生物のほんの一例である。今日、DNAシークエンスのデータによると、現在の培養技術では、同定可能な細菌の2%未満、環境によっては0.01%未満しか培養できないことがわかっている（27）。したがって、我々は、自分たちがどれだけ知っているかということについて、もっと謙虚にならなければならない。

このような考え方は、完全ではない感覚データを感覚的に整理する神経メカニズムの延長線上にあると考えることができる。脳が視覚の盲点を周囲の色やパターンで覆い隠し、完全なイメージのイラストを作成するように(28)、我々の判断メカニズムは、実際よりも完全な理解をしていることを示唆しているのである。あるいは、そうでなければ絶望してしまうような状況でも、自分でコントロールできるという感覚を得るための対処法かもしれない。いずれにしても、我々は自分の知識の重要なギャップを見逃す傾向があることを認識しておく必要がある。

また、確証のない仮定を安易に受け入れてしまう傾向もある。1960年代には，ニトログリセリンは心筋梗塞の患者には使用しない方がよいと誰もが知ってた。なぜならば，冠動脈盗血現象がよく知られているからである。今では、ニトログリセリンの静注は、心筋梗塞の治療には欠かせないものとなっている。また、30年も前には、肝炎の治療には長期の安静が必要だと言われてた(29)。一般的に、人間は自分の知識ベースを必要以上に信頼する傾向がある（30）。

この問題には2つの側面がある。1つ目は、現在行われているすべての行為が根拠のある正しいものとして受け入れられているという思考習慣に起因するものである。我々は、それぞれの診療行為の具体的な根拠をもっと意識すべきであり、直接的な科学的証拠に基づいているものとそうでないものとを区別することを学ばなければならない。Evidence-Based Medicine Working Groupは、適用されるヒューリスティックス（「原則」）の多くを明らかにしており（31)いくつかのレビューでは、エビデンスに基づく具体的な根拠に基づいて、実践上の推奨事項を表示している。最近の例では、第4回American College of Chest Physicians Consensus Conference on Antithrombotic Therapy (32)がある。

しかし、批判的分析の欠如の下には、問題の第二の、より現実的な側面が潜んでいる。仮に医師が自分の考え方の癖を直すことができたとしても、臨床行為を判断するために必要なすべてのデータを見つけて統合することはあまりにも困難である。必要な情報が散在していたり、曖昧でアクセスできない場所に保管されていたりするからである。また、情報を見つけることができたとしても、重要な詳細が欠落していたり、研究結果がネガティブなものであった場合、その研究全体が報告されないこともある。

したがって、クラスAまたはクラスBのエビデンスがない介入については、とりあえず、大きな「謙虚な要素」で適応や使用率を調整すべきである(33)。もう一度言うが、私は歴史的にスコアを維持することを提唱する。例えば、出生前のモニタリングや多くの適応症のMRI画像など、有益性を示すクラスAまたはBのエビデンスがない一般的な臨床行為のリストを作成し(34)、時間をかけて研究されたエビデンス・クラス・レベルがどの程度変化するかを記録するべきである。

新しい検査や薬剤に対する現実的な期待の形成

初期の報告では、疾患のある患者とない患者の検査結果の分布は、重なる部分がないように見えることが多く、その検査は完全に識別できるように見える。しかし、時間をかけてさらに研究を進めていくと、「病気のある人」と「病気のない人」の分布の重なりが明らかになってくる。完全に判別できる二重診断テストはない。動脈血ガス測定による肺塞栓症の診断がその典型例である。最初の報告では40例に基づいた最初の報告では、部屋の空気中のP02が80mmHg以上であれば、肺塞栓症の診断を確実に除外できると主張した(35)。医学界はこれを法律として受け入れた。しかし、より多くのサンプルを用いた後の報告では、オーバーラップが明らかになった。血管造影で肺塞栓症が証明された症例の11%は、部屋の空気中のP02が80mmHgを超えていたのである(36)。他にも、サルコイドーシスの診断にACEテストを使用したり、がんの検出にカルチノエンブリオニック抗原を使用したりする例は、簡単に見つけることができます(37, 38)。

Jaeschkeら(39)は、医師がこのような誤りを避けるのに役立つ、検査効果の報告を判断するためのいくつかの具体的な基準を示している。しかし、大規模かつ反復的な研究によってのみ、検査の真の識別力を確かめることができる。個々の臨床家は、初期の素晴らしい性能の主張を、何らかの大きな「疑い」の要素で割り引くべきである。また、ジャーナル編集者は、テストの動作特性に関する報告のデザイン上の欠陥を排除するために、より強力な編集管理を行うべきである。

似たような問題が医薬品にもある。新薬は、発売後1〜2年でそのクラスの「好ましい」薬になることが多い。あたかも、新しいものが自動的に良いものであるというルールを適用しているかのようである。Burnum(40)はこの現象を次のように述べている。「新薬を投与することは、ある医師から別の医師へとコンタミネーションのように広がっていく。」薬がユニークな作用を持つ場合、これは正当化されるかもしれない。ここで問題となるのは、市販前（第3相）の安全性データの下に潜むリスクを医師が認識していないことである。このようなデータは、100回投与して1回以上の頻度で発生する急性毒性が「保証」されているに過ぎない。1,000回に1回以下の頻度で発生する毒性や、発生から6ヶ月以上経過した毒性は明らかにされない(41)。これは、未知のリスクがはるかに低い旧来の医薬品を置き換えるための十分なマージンではない。クロラムフェニコールを最後の手段とするには、治療を受けた2万人の患者に1例以下の再生不良性貧血が必要であったことを思い出してほしい。

このように考えると、多くの薬が普及した後にその「暗黒」の側面を明らかにしたことは驚くべきことではない。クリンダマイシンは、1970年代初頭、敗血症患者に好まれるグラム陽性抗生物質として、セファゾリンに代わって急速に普及していった。しかし、クリンダマイシンで治療した患者の10%に偽膜性大腸炎が発生したという報告があり、この傾向は一変した(42)。1982年から 1983年にかけて、モルヒネと同等の強さを持つと言われる非麻薬性のゾメピラクが、痛みに対する最も一般的な処方薬となった。他の非ステロイド系薬剤に比べて10〜30倍の頻度でアナフィラキシーの報告があり、30人以上の死亡者を出したため、1983年には市場から姿を消した(43)。1979年に発売されたチクリナフェンは、血清尿酸値を上昇させない最初の主要な利尿薬であった(44)。最も人気のある利尿剤にはならなかったが、発売から1年後に肝不全による死亡者が出たために発売中止になったときには、大きな市場シェアを持ってた。トリアゾラムは、反跳性不眠や不安の発生率が競合薬の16倍であるにもかかわらず、米国で最も使用されている催眠剤として急速に普及した(45)。英国はこの薬の承認を撤回した。

このような事例は、新薬に関する新しいルールの必要性を示唆している。「古い薬でも良いのに “新しい薬を使ってはいけない」このルールがあれば、新薬はそのユニークな適応症と、使用可能な旧薬に耐えられない患者にのみ処方されることになる。そうすれば、新薬の隠れた危険性を発見するための時間を確保することができ、薬剤費の削減にもつながる。

これらの例は、技術が急速に導入された場合に生じる問題を示している。しかし、その逆の問題も起きている。インフルエンザワクチンが導入されてから数十年が経過しているにもかかわらず、毎年、インフルエンザワクチン接種を受けている患者は25%にも満たない(46)。また、糖尿病患者が推奨される眼科検診を受ける割合は、無作為化試験で視力への恩恵が証明されているにもかかわらず、あまりにも少ない(47)。このように、ある製品がどの程度積極的に販売されているか、そしてその効果がすぐに得られるかどうかが、その製品が使用されるかどうかに影響を与えることは明らかである。製薬会社は、このような未使用の問題を解決するために多くのことを教えてくれるであろう。

新しい症候群の狭義の定義の回避

我々は新しい疾病症候群を狭く定義しがちである。我々は最初、最も重篤な症例や、観察しやすい徴候や症状に基づいて疾患を特定する。しかし、時間が経つにつれ、より幅広い症状や軽度の症状が明らかになることがほとんどである。例えば、古典的に気管支痙攣で定義される喘息には、咳だけで発症する変異株がある(48)。また、中毒性ショックはショックを伴わないことがあり(49)、心筋狭心症は胸痛を伴わないことがある。実際、狭心症のほとんどの症状は痛みを伴わないと考えている専門家もいる(50)。しかし、プラクティショナーは、最初の厳格な病気の定義を変更するのに非常に時間がかかる。そこで、私はもう一つの臨床的ヒューリスティックを提案する。病状の厳密な定義を避け、すべての疾患には多くのバリエーションがあると仮定するのである。このヒューリスティックの一つの帰結として、患者が見つけたものを別の病気のテンプレートに一致させようとするとき、定義基準の少なくとも一つを無視することを厭わないことが挙げられる。

検査、薬、診断の場合は、統計的な現実に基づいて、当初の見通しを調整する必要がある。すべての初期の見解は暫定的で不完全なものと考えてほしい。経験を積んで（サンプルサイズを大きくして）初めて全体像が見えてくるのである。

治療が診断に従属しないようにするために

Osierは、彼の学生や後に続くすべての内科医の頭に1つの独断を叩き込んだ。患者ケアの3つのステップは、「診断、診断、診断」である。オシエの時代には、思考よりも行動が先行することが多かったので、軽率な経験主義を打ち消すために、このような命令が必要だったのであろう。しかし、Osierのルールは振り子を押しすぎたかもしれず、その結果、内科医は過剰検査と過小治療を行うようになってしまった(51)。痛み(52)やうつ病(53)の治療が不足していることが報告されている。内科医のハウスオフィサーは、自分が指示した結果を検査室に提出することはあっても、処方された治療が開始されたかどうかを確認することに同じエネルギーを注ぐことはほとんどない(54)。

診断は治療の必須条件ではない。PaukerとKassirer(55)は、治療法と検査法の選択肢が1つずつある病気の場合、病気の事前確率が治療法の閾値を超えていれば、検査をせずに治療することが正しい選択であることを証明した。咽頭炎の場合、彼らの方程式は「溶連菌感染の確率が20%以上のときに治療する」ということになる(56)。経験豊富な医師の多くは、患者に症状があり、診断状態がはっきりしない場合、治療試験を開始することを躊躇しない。しかし、アカデミック・メディカル・センターでは、経験的治療はしばしば軽視されている。おそらく、「プラシーボ効果」がそのような試験の解釈を難しくしているからであろう。しかし、日常的な内服薬の処方における「プラセボ効果」の多くは、統計的な回帰によって説明でき、その影響を回避することができる(26)。逆に、治療試験の解釈をさらに明確にするために、「n-of-1」試験を利用することもできる(57)。いずれにしても、我々は治療的試験の使用に関するルールを研究し、正式なものにして、研修生に実践の現実を伝えていく必要がある。

無症候性患者の外科的処置

症状が軽い、あるいはない場合に手術を選択する議論の背景には、2つの前提がある。1つ目は、手術の対象となる臨床的問題は時間とともに不可分に悪化し、患者はいずれ手術を必要とするだろうというものである。2つ目は、緊急事態や高齢のために手術が遅れた場合、より困難で危険な状態になることである。

データによると、泌尿器科医による経尿道的切除術の実施率の違いは、手術に関するこれらの仮定の受け入れ方の違いによって説明できるとされている(58)。しかし、慎重な分析によると、これらの仮定はしばしば間違っており、待機的手術の方が良い選択肢であることが示唆されている。意思決定分析によると、軽度から中等度の尿閉（排泄後200mL未満）の場合、早期にプロテスタント手術を行うよりも、経過観察の方が生命リスクが少ないことがわかっている（59）。また、限局性前立腺癌の多くの症例では、前立腺切除術よりもWatchful Wait-ingの方が良い選択であり(60)、無症候性胆石に対しては開腹手術よりも良い選択である(61)。リスク・ベネフィット分析を慎重に行うことで、多くの選択的手術にこの方法が有効であることがわかるかもしれない。

その他の考慮点としては、「見守る」ことが挙げられる。時間の経過は、技術的なブレイクスルーをもたらす可能性がある（例えば、開腹手術の代わりに腹腔鏡下胆嚢摘出術、腎臓手術の代わりに水晶体破砕術など）。また、メディケアや地域のデータベース、あるいはその両方から得られた地域ベースの周術期死亡率の推定値は、通常、医学文献によく引用される死亡率よりもはるかに高い(62)。このような良好な死亡率は、通常、学術的な医療センターで高度に選択された患者集団から得られたものであり、したがって、地域社会全体に適用されるものではない。その結果、地域社会の死亡率の高さを考慮した場合に正当化されるよりも、はるかに頻繁に手術が行われることになるかもしれない。

無作為化試験で、いわゆる予防的手術の明確な効果が示されなかった場合(63)、特定の状況では新しい経験則に従った方がよいかもしれない。患者が待てるときには手術をしてはいけない。

一方、外科手術の中には、十分に活用されていないものもある。人工膝関節置換術は、患者にもたらされる機能的なメリットと、米国の一部地域での使用率の低さを考慮すると、そのようなケースかもしれない（Heck D. 私信）。しかし、米国には優秀な外科医が多く、経済的なインセンティブも充実しているため、報告されている外科手術に関する懸念はほとんどが過剰利用に関するものである。

結論

科学的証拠を評価するための一般的なルールは、数年前から医学文献で正式に提示されている(64)。これらのルールは、経験的データの正式な分析から得られたものではない。これらのルールは、経験的データの正式な分析から得られたものではなく、常識やその他の基本的な原則から得られたものである。数学でも医学でも、すべての論理的プロセスはこのようにして始まる。第一原理、公理、ポスチュレート、そしてヒューリスティックスと呼ばれる経験則が、常に出発点となる。患者の日々のケアを決定するのも、それと同じである。しかし、医学の世界では、ヒューリスティックスの役割はほとんど無視されている（あるいは否定されている）。

このレポートでは、日々の医療現場で見られるヒューリスティックスを説明し、批判してきた。これらのヒューリスティックスは、歴史的な経験（ヒューリスティックスが臨床試験の結果をどの程度予測したか)統計学的な原理（少数のサンプルは一般集団を正確に表さない)裏付けとなる理論と実際のデータとの比較（例えば、早期の手術は後期の手術よりも優れているという仮定)および特定のヒューリスティックスがどの程度一貫して使用されているかに基づいて判断されるべきである。

倫理的、コスト的な問題から、すべての臨床判断の指針となるような無作為化試験や疫学研究は決して十分ではないが、ヒューリスティックはそのような判断を下すための個人的な基準となる。ヒューリスティックスは個人的な判断基準を提供するものである。医師は常にある程度ヒューリスティックスに依存する必要があるため、医学界はこれらのヒューリスティックスをより詳細に検討し、特定、批判、改善、標準化を始めるべきである。我々は、現在の診療行為が基づいている前提、根拠、証拠をより厳密に特定すべきである。臨床試験データや強力なヒューリスティックに基づいて意思決定を正当化できない場合、おそらく純粋なコスト要因が意思決定を左右することになるであろう。時間をかけて無作為化試験や意思決定の分析が完了すると、我々はスコアを記録する必要がある。将来の研究結果によって確認されることで持ちこたえられるヒューリスティックは、維持し、強化しなければならない。そうでないものは捨て去るべきである。

カナダの予防医療タスクフォースは、当初から予防的介入のエビデンスを判断するためのルールを明示している(65)。これらのルールを公開し、タスクフォースが一貫してそれを遵守することで、結論にシンプルな上品さと統一感が加わっている。さらに最近では、カナダの研究者がエビデンスに基づく医療のルールを定義した(31)。我々は、科学的証拠が明確な方向性を示していない多くの影の中にある多種多様なルールに、同じ系統性と形式を適用する必要がある。そして、統計的現実と過去の経験に基づいて、どのような状況下でどのようなルールが最適なのかを推定し、医療従事者に一連のヒューリスティックなルールを標準化することを奨励する必要がある。最後に、我々はスコアを記録しなければならない。最終的には、どのルールが臨床試験の結果を一貫して予測しているか、という点を評価しなければならない。

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30