測定基準の専制
THE TYRANNY OF METRICS

強調オフ

医学哲学科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

  • はじめに
  • I THE ARGUMENT
    • 1 議論の要点
    • 2 繰り返される欠陥
  • II 背景
    • 3 パフォーマンスの測定と対価の支払いの起源
    • 4 測定基準が普及した理由
    • 5 プリンシパル、エージェント、そしてモチベーション
    • 6 哲学的な批判
  • III あらゆるものの尺度の間違い?ケーススタディ
    • 7 カレッジ&ユニバーシティ
    • 8 学校
    • 9 医学
    • 10 警察
    • 11 軍隊
    • 12 ビジネスと金融
    • 13 フィランソロピーと海外援助
    • エクスカーズ
    • 14 透明性がパフォーマンスの敵となるとき。政治、外交、諜報、そして結婚
  • IV おわりに
    • 15 意図しないが予測可能な負の結果
    • 16 測定基準をいつ、どのように使うか。チェックリスト
  • 謝辞
  • 備考
  • 索引

数値化できないものは存在しないと信じる人は、数値化できるものは存在すると信じている。

-アーロン・ハーペル(AARON HASPEL)

はじめに

デヴィッド・サイモンとエド・バーンズというクリエイターの実体験に基づいたHBOのシリーズ「The Wire」は、現代における最も偉大な文化的ドキュメントのひとつと評価されている。それには理由がある。ボルチモアというアメリカの一都市に焦点を当て、警察、学校制度、市政、報道など、いくつかの主要な機関を掘り下げて、その仕組みや機能不全をX線写真のように映し出している。このシリーズは、組織の機能不全をテーマにしていることから、欧米社会で広く共感を得て、世界中の視聴者を魅了している。

「The Wire」の繰り返しのテーマの一つは、測定基準の重要性、つまり「説明責任」の特徴として測定されたパフォーマンスの重要性である。警察の指揮官は、解決した事件、薬物逮捕数、犯罪率などの数字を叩き出すことに執着し、統計的な目標を達成するために効果を犠牲にする様々な手段を用いている。政治家は、警察が犯罪抑制に成功したことを証明する数字を求める。例えば、麻薬組織が空き家に死体を放置していることが判明した場合、殺人課の巡査部長はその発見を阻止する。物語の多くは、大物麻薬王に対する複雑な刑事事件を解決しようとする熱心な刑事たちによって展開される。上層部は、下っ端の売人をたくさん逮捕して好成績を上げることを望んでいるが、逮捕した売人はすぐに入れ替わってしまうという事実がある。市長は、年末までに重大犯罪の発生率を5%減少させることを要求しているが、これは実際の犯罪を見逃すか、重大性を下げるかしなければ達成できない目標である。いずれの場合も、実際の結果を歪めたり、犯罪防止のために費やしていた時間や労力を、より生産性の低い仕事に振り向けたりすることで、指標を向上させる「ジュクシング・ザ・スタッツ」に取り組んでいるのである。

もう1つのプロットは、貧困や薬物乱用、家族の崩壊に悩まされている地域の中学校で教鞭をとる元警官の話である。この学校の生徒の成績は悪く、生徒のテストの点数が上がらなければ、学校は閉鎖の危機にさらされている。そこで、英語のリーディングとライティングの標準テストが実施される6週間前に、教師たちは校長から、他の教科をまったく無視して、授業時間のすべてをテストの練習に充てるように指示される(「カリキュラム調整」と婉曲的に呼ばれる戦略)。「テストに合わせて教える」というのは、統計を取るのと同様に、教育機関が変質してしまう方法である。教育機関の真の目的(教育)から、その存続を左右する指標目標を達成するために努力がそらされるからである。

パフォーマンス・測定基準の歪んだ影響は、少なくとも大西洋を挟んだイギリスでも感じられる1。そこでは、かつての実業家が執筆したテレビシリーズが同じ現象を捉えている。元病院勤務の医師であるジェド・マーキュリオが脚本を担当した「Bodies」シリーズは、都内の病院の産婦人科病棟が舞台となっている。第1話では、新しく赴任してきた上級外科医が、複雑な合併症を持つ患者の手術を行い、その後彼女は死亡してしまう。そんな彼に、ライバルがこんなアドバイスをする。「優れた外科医は、優れた判断力で、自分の優れた能力が試されるような状況を避けている。」つまり、成功率を維持するために、難しい症例を避けるということだ。これは典型的な “クリーミング “戦略であり、測定されたパフォーマンスにマイナスの影響を与える可能性のある危険な事例を避けるというものである。この戦術の代償として、手術に失敗するリスクの高い患者が、手術を受けずにほぼ確実に死を迎えることになる。

『Bodies』は医療ドラマであるが、描かれている現象は現実の世界にも存在する。例えば、外科医が手術の成功率で評価されたり、報酬を得たりすると、それに応じて、より複雑で重篤な状態の患者の手術を拒否する者が出てくることは、多くの研究で明らかになっている。結果が悪くなる可能性のある、より難しい症例を除外することで、外科医の成功率が向上し、その結果、評価、評判、報酬が向上するのである。もちろん、除外された患者は命の代償を払うことになる。しかし、その死は測定基準には現れない。

これから説明するように、測定基準のゲーム化は、警察、初等・中等・高等教育、医療、非営利組織、そしてもちろんビジネスなど、あらゆる領域で起こっている。賭博は、報酬や制裁の基準としてパフォーマンス指標を使用する際に必然的に発生する問題の一種でしかない。測定可能なものはある。測定する価値のあるものもある。しかし、測定できるものが必ずしも測定する価値のあるものとは限らず、測定されるものは本当に知りたいこととは関係がないかもしれない。測定するためのコストは、メリットよりも大きいかもしれない。測定されるものは、我々が本当に知りたいこととは関係ないかもしれない。また、測定によって歪んだ知識、つまり確かなようでいて実は欺瞞に満ちた知識が得られるかもしれない。

我々は、測定された説明責任の時代、測定されたパフォーマンスに対する報酬の時代、そして「透明性」を通じて測定値を公開することの美徳を信じる時代に生きている。しかし、アカウンタビリティを測定基準や透明性と同一視することは、欺瞞に満ちている。アカウンタビリティとは、自分の行動に責任を持つことであるべきだ。しかし、ある種の言葉の巧みさによって、アカウンタビリティは標準化された測定によって成功を示すことを意味するようになった。また、「アカウンタビリティ」には、パフォーマンスの測定結果を公開すること、つまり「透明性」が求められるということも、しばしば当然の前提とされている。

測定基準へのこだわりは、パフォーマンスを測定し、それを公表し、報酬を与えなければならないという、一見抗しがたいプレッシャーであるが、それがうまく機能していないことを示す証拠にしばしば直面する。

適切に使用すれば、後ほど説明するように、測定は良いことである。透明性も同様である。しかし、これらは歪めたり、逸らしたり、場所を変えたり、気を散らしたり、意欲を失わせたりすることもある。我々は測定の時代に生きることを余儀なくされているが、一方で、誤計測、過剰計測、誤解を招くような計測、逆効果の計測の時代にも生きている。この本は、測定の弊害について書かれたものではない。標準化されたパフォーマンスの尺度を、経験に基づく個人的な判断に置き換えようとすることで生じる、意図しない悪影響について書かれている。問題は、測定ではなく、過剰な測定と不適切な測定であり、測定基準ではなく、測定基準の固定化である。

パフォーマンスを測定した指標を集め、それを一般に公開することが、組織の機能を向上させる方法だとよく言われる。説明責任、業績評価基準、透明性の良さがこれほど喧伝されている場所は、医療の分野ではない。当然のことながら、これほど重要な問題はない。医療分野は米国経済の17%以上を占めているだけでなく、人命にも関わっている。確かに、パフォーマンスを測定することは、ドルと命を救うのに役立つと考えられる。

外科医の成功率や、特定の病院に入院した患者の生存率など、標準化された情報を集めれば、きっと役に立つはずである。なぜなら、もし医師や病院が患者の生存率に基づいて政府機関や民間保険会社から報酬を得ているのであれば、そのような測定はより良いケアを行うためのインセンティブとなるはずだからである。また、医師や病院の成功率が公表されれば、その透明性によって国民は医師や病院を選ぶことができるようになる。つまり、測定基準、説明責任、透明性が、医療従事者の問題を解決するのである。何が間違っているのであろうか?

すでに見てきたように、多くの問題がある。スコアが報酬や罰の基準として使われると、外科医は、そのような監視下にある他の人と同様に、リスクの高い症例を避けるという選択を行う。手術後30日間生存できなかった患者の割合に応じて病院が罰せられる場合、患者は31日間生き続け、その死亡率が病院の指標に反映されないこともある2 。イギリスでは、救急病棟での待機時間を短縮するために、保健省が待機時間が4時間以上の病院に罰則を与える政策を採用した。このプログラムは、少なくとも表面的には成功した。実際、一部の病院では、入院患者が病院のドアを越えて救急車の列に並び、スタッフが入院後4時間以内に診察できると確信するまで、待機させるという対応をとった3。

このような医療の領域の問題については、さらに深く掘り下げていく。しかし、医療の現場で起きている問題は、幼稚園や大学などの教育機関、警察などの公共サービス、ビジネスや金融、慈善団体など、他の多くの機関でも起きていることが注目されている。これらの分野で働いている人は、それぞれの機関で起きている問題を何となく感じているはずである。そして、社会科学者たちは、これらの領域のいずれか、あるいは別の領域で、それらを調査し、解剖してきた。しかし、ほとんど注目されていないのは、業績評価基準、説明責任、透明性がもたらす意図しない同じ負の結果が、さまざまな機関で繰り返し発生していることである4。

多くの洞察力と同様に、いったん測定基準の固定化を認識すると、テレビドラマに限らず、ほとんどあらゆる場所でそれを見つけることができるであろう。

メトリック・フィクセーションのキャッチフレーズは、我々の周りにあふれている。GoogleのNgramは、スキャンされた何千もの書籍やその他の出版物を瞬時に検索し、我々の文化や社会の変化を大まかに表してくれる。年単位でパラメータを設定し、単語やフレーズを入力すると、1800年から現在までのその単語の発生率を示すグラフが表示される。accountability」と入力すると、1965年頃から上向きのカーブを描き始め、1985年以降はますます傾きが大きくなっていく線が表示される。測定基準」も同様で、1985年頃から急上昇している。「ベンチマーク」も「パフォーマンス・インディケーター」も同じパターンである。

本書では、アカウンタビリティ・測定基準は潜在的に価値のあるツールではあるが、その美徳は過大評価されており、そのコストはしばしば過小評価されていると論じている。本書では、指標の固定化を回避し、その苦痛を軽減するための病因と診断、そして予言を提示している。

測定基準の固定化の最も特徴的な点は、経験に基づく判断を標準化された測定に置き換えようとする願望である。判断とは、個人的、主観的、利己的なものと理解されているからである。対照的に、測定基準は、ハードで客観的な情報を提供することになっている。指標が最も高い人、あるいはベンチマークやターゲットに達した人に報酬を与え、遅れをとった人にペナルティを与えることで、組織の効率を向上させるという戦略である。このような仮定に基づいた政策は、数十年前から行われており、Nグラムのグラフの上がり続ける傾きが示すように、仮定された真実は行進し続けているのである。

確かに、標準化された測定値に基づく意思決定が、個人の経験や専門知識に基づく判断よりも優れている場面は数多くある。ビッグデータに基づく判断は、一人の医師の経験が限られていて、直感的な感覚や信頼性の高い有効性の測定ができない場合に有効である。例えば、稀な疾患の症状に直面したとき、医師は多くの症例を集約した標準化された基準に基づいて判断する方が良いであろう。また、『マネーボール』という本にもあるように、統計的な分析を行うことで、明らかに測定可能でありながら無視されていた特性が、蓄積された経験に基づく直感的な理解よりも重要であることが発見されることがある6。

このように、これまで測れなかったものを測ることは、慎重に行うことで大きなメリットをもたらす。パフォーマンスを測定する試みは、後述するように落とし穴があるが、本質的には望ましいものである。実際に測定されるものが、測定されることを意図したものの合理的な代理であり、それが判断と組み合わされていれば、測定は、個人であれ組織であれ、実務者が自らのパフォーマンスを評価するのに役立つ。しかし、そのような測定が報酬や罰則を与えるための基準となった場合、つまり測定基準が成果報酬や格付けの基礎となった場合には問題が生じる。

パフォーマンスを測定する仕組みは、エラーや怠慢の最もひどいケースを発見することで自らを「証明」することができるため、魅力的であるが、それがすべてのケースに適用されてしまう。本当の不正行為を発見するのに適したツールが、すべてのパフォーマンスを測定するツールになってしまうのである。パフォーマンス測定の最初の発見は、パフォーマンスの低い企業を改善に導くか、市場から撤退させるかもしれない。しかし、多くの場合、標準化された測定の延長線上では、実用性が低下したり、逆効果になったりする可能性がある。つまり、賢明な解決策から測定法の狂気へと移行してしまうのである。とりわけ、測定不可能なものを測定し、測定不可能なものを定量化しようとするとき、測定は逆効果になる可能性がある。

権力、金、地位といった具体的な利害関係が絡んでくる。測定値の固定化は、第一線の生産者から管理者、運営者、そしてデータを収集して操作する人たちに資源を移すことにつながる。

管理者が専門家をコントロールするためのツールとして測定基準を使用すると、パフォーマンスを測定して報酬を得ようとする管理者と、専門家(医師、看護師、警察官、教師、教授など)の倫理観との間に緊張関係が生じることがよくある。プロフェッショナルの精神とは、長期間の教育・訓練によって得られた専門知識の習得、仕事に対する自律性とコントロール、自分の専門家集団への帰属意識と同僚への責任感、内発的な報酬の高い評価、コストを超えた顧客の利益へのコミットメントなどに基づいている7。

このような緊張関係は時に必要であり、また望ましいものでもある。というのも、プロフェッショナルとしての倫理観は、コストや機会費用の問題を軽視する傾向があるからである。つまり、プロフェッショナルは、自分のサービスをより多く提供することのメリットだけを考え、リソースの限界や他の用途にはあまり注意を払わない傾向があるプロはコストについて考えるのが好きではない。測定基準の人たちは考える。この2つのグループが一緒に仕事をすれば、結果的に両者にとってより大きな満足を得ることができる。この2つのグループが一緒に仕事をすれば、結果的に両者にとってより大きな満足感が得られるが、互いに対立した場合には、対立と士気の低下が生じる。

合理的な測定基準から測定基準の狂いへと導く既得権益の問題もあるが、その原因は測定基準のイデオロギーを無批判に採用することにもある。あらゆる文化がそうであるように、測定基準による説明責任の文化にも、疑う余地のない聖なる言葉や、特有の盲点がある8。

なぜ歴史家が測定基準の圧制についての本を書くことになったのかと思われるかもしれない。それは、私自身の仕事上の経験における厄介な出来事が、我々の社会におけるより大きなパターンを反映していることを認識するようになったからである。ミクロレベルの不満がマクロレベルの分析につながり、自分の狭い専門分野にダメージを与えていた文化的パターンが、現代の多くの制度を歪めていることを理解するようになったのである。

私は、私立大学で学科長を務めた経験から、このテーマに引き込まれた。このような仕事にはさまざまな側面がある。学者や教師として成長するように教員を指導すること、新しい教員を採用すること、必要なコースを確実に教えられるようにすること、大学の学部長やその他の管理職との関係を維持することなどである。これらの責任は、教育、研究、自分の専門分野の維持といった教員としての役割に加えて、私の役割でもあった。私はこれらの役割に満足していた。教員のことを考えたり、一緒に働いたりする時間は、彼らをよりよい教師や学者にするために役立つ。我々が教えているコースの幅広さと質の高さを誇りに思ってたし、他の学部との関係も良好であった。教えること、研究すること、書くことは大変であったが、満足していた。

ところが、状況が変わり始めたのである。他の大学と同様に、我々の大学も10年ごとにMiddle States Commission on Higher Educationという認定機関による評価を受ける。その報告書には、今後の「評価」の基準となる指標を増やすことが求められてた。「評価」とは、高等教育における流行語であり、通常はパフォーマンスの測定を増やすことを意味する。やがて私は、学部の活動に関するより多くの統計情報の問い合わせに答えることに時間が割かれるようになり、研究、教育、教員の指導などの仕事から時間が逸れるようになった。また、卒業した専攻科生の成果を評価するための新しい尺度があったが、これまでの尺度である成績には何の役にも立ちませんであった。私は、教員がつけた成績を、評価のために作られた4つのカテゴリーの尺度に変換するだけで、教員の時間をかけずにスピーディーに行う方法を考えた。その後、情報の収集と処理のために、大学はデータの専門家を増員することになった。(彼らの報告の中には、各コースの平均的な成績を示すスプレッドシートを作成するなど、実際に役立つものもあった。しかし、多くの情報は実際には役に立たず、実際には誰にも読まれなかったのである。しかし、業績を記録するという文化が浸透すると、学科長はデータの軍拡競争に巻き込まれることになった。私は学部を率いて、1年かけて学部の自己評価を行うことになったが、結果的には有益なエクササイズとなった。しかし、その報告書を官僚に送る前に、もっと統計的な付録を追加するように求められた。あるチェアパーソンは、しっかりとした上級研究者で、ある夏の間、学部長を説得するために、色付きの図表を含むデータをバインダーにまとめてた。

私の経験は、破壊的なものではなく、刺激的なものであった。しかし、私はこの経験から、このような時間と労力の無駄遣いを引き起こしている要因をより深く探ってみたいと思った。より多くのデータを求めるきっかけとなったMiddle States委員会は、米国教育省からの指令に基づいて運営されている。同省は、マーガレット・スペリングスの指揮の下、「高等教育の将来に関する委員会」を招集し、2006年に報告書を発表して、説明責任の強化とデータ収集の必要性を強調するとともに、各地域の認定機関に「パフォーマンス・アウトカム」を評価の中核に据えるよう指示した9。スペリングスは、2001年に「落ちこぼれ防止教育法」が成立したとき、ブッシュ大統領の下で国内政策評議会の 局長を務めていた。私は当初、標準化されたテストの点数に基づいて教師や学校の評価を行うことを拡大したこの法案は、前向きな一歩だと思ってた。しかしそのうちに、ダイアン・ラビッチ元教育次官など、かつての支持者から痛烈な批判を聞くようになった。また、私の知り合いの教師たちは、「教えることは好きだが、テストの成績を最大化するためにカリキュラムが厳格化され、熱意が失われている」と語ってた。

このような話を聞いて、私は自分の知的ツールキットを使って、より多くの教育機関に浸透している、測定され、報われるパフォーマンスの文化の広範な歴史的、文化的ルーツと現代の現れについて調べてみた。私の仕事上の関心は、歴史、経済、社会学、政治の境界線上にあった。私は以前から、現在「公共政策」と呼ばれているものの歴史に興味を持っており、公共政策のアナリストとしてアダム・スミスに関する本を出版していた。マイケル・オークショットやフリードリッヒ・ハイエクなどの思想家についても書いてたが、これらの思想家は、現代のパフォーマンス測定の神格化について重要な洞察を与えてくれた。私は、資本主義の歴史、特にビジネスの社会的、道徳的、政治的な前提条件や影響について知識人がどのように考えてきたかに興味を持ってた。私が執筆した近代西洋の知識人の間では、ビジネスや経済学の規律からくる概念や傾向が、人生の他の領域に悪意を持って波及する可能性があるという懸念が繰り返されていた。このようにして、私の個人的な職業上の不満の経験は、私の関心事を幅広く活用した調査に刺激を与え、セレンディピティを証明したのである。この本には、ヴィクトリア朝の偉大な文化評論家マシュー・アーノルドや、私の師ロバート・K・マートンの霊が宿っている。マートンは、社会活動の予期せぬ、意図しない結果に目を向けるよう私に教えてくれた。

私がこれらの問題を調査し始めた頃、ハーバード・ビジネス・スクールの社会学者であるラケッシュ・クラナの著書『From Higher Aims to Hired Hands』が出版された。The Social Transformation of American Business Schools and the Unfulfilled Promise of Management as a Profession(アメリカのビジネススクールの社会的変容と、職業としてのマネジメントの満たされない約束)』というハーバード・ビジネス・スクールの社会学者の本を読んで、ビジネス・スクール自体の知的歴史と、そこで教えられることの広範な影響に目を向けた。これらの洞察から、私はマネジメントの分野における文化やイデオロギーの変化について、より広い範囲で調査することになった。この分野は、エイドリアン・ウッドリッジの著書『The Witch Doctors』(第2版では、より穏やかな『Masters of Management』というタイトルでうまく表現されている)のタイトルにあるように、時として疑わしい性質を持っている。

私は、経済学、政治学、歴史学、人類学、心理学、社会学、行政学、組織行動学など、さまざまな分野の学術文献を調べた。また、教師、教授、医師、警察官などの現実の行動に関する社会科学的な研究も大いに参考にした。

さまざまな分野の研究を見て感じたのは、学問の壁の大きさと、学問の研究と実社会の実践との間のギャップである。例えば、インセンティブやモチベーションに関する最近の経済学の文献は、心理学者がすでに発見していたことを形式化したものが多いことに気がついた。しかし、心理学者が発見したことの多くは、経営者が判断して以前から知っていたことであった。しかし、心理学や経済学の分野では、測定されたパフォーマンスに対する報酬の前提や効果に疑問を投げかける多くの研究が行われているにもかかわらず、それらの文献は測定値の固定化の広がりをほとんど止められていないようである11。

これが、私がこの本を書いた理由である。この本に書かれていることは、まったく新しいことではなく、他の多くの著者から集めた研究や洞察を総合したものである。私が「測定基準の固定化」と呼んだものに関連する機能不全の多くは、教育、医療、警察、営利目的の企業、非営利団体など、1つまたは複数の領域について書いている学者たちによって記録され、分析されてきた。教育、医療、警察、営利企業、非営利団体などである。組織行動学の研究者の中には、どちらかというと専門的な分野で、成功と機能不全の広範なパターンを分析している人もいる。しかし、教育や医療制度の運命を決める政治家から、企業の取締役会のメンバー、大学や非営利組織の評議員、さらには学科長などの専門家に至るまで、これらの機関を指導したり働いたりするすべての人が、これらの情報をまとめて利用できるようにした人はいない。この本は彼らのためのものである。もっと広く言えば、現代の多くの組織が本来の機能を果たさず、生産性を低下させ、働く人々を苛立たせている大きな理由の1つを理解したい人のための本である。

議論の要点は、現代の多くの組織の既成概念に反するものであるが、私が目指したのは新しさではなく、蒸留された知恵である。議論を既存のイデオロギーの枠組みにはめ込もうとする読者は、失望することになるだろう。私は、どこからでも証拠や洞察を得ることができた。読者の皆さんにも、同じようにオープンマインドでこの本に取り組んでいただきたいと思う。

第9章 医学

医療の分野ほど測定基準が注目されているところはない。おそらく、これほど期待されている分野はないであろう。そして、その危険性は高い。

しかし、この分野でも測定基準は様々な役割を果たしている。

様々な方法や手順を記録し、その結果を比較することで、どれが最も成功したかを判断することができる。成功した方法や手順は、他の人が追随することができる。

もう一つは、消費者に透明性を提供し、プロバイダー間の比較や競争の基礎となることを目的とした、公的に報告される指標である。

さらに、説明責任を金銭的な報酬や罰則で裏付ける「ペイ・フォー・パフォーマンス」もある。医療における測定基準の使用を提唱する人たちは、しばしばこれらの全く異なる役割を同列に論じる。

ここ数十年の間に、評価基準は安全性と有効性を向上させるためだけでなく、コストを抑制するためにも使われるようになった。

コスト管理のための財政的な後押し

コストをコントロールするために測定基準を使用する原動力は、様々な方向から来ており、また、様々な動機から生じている。医療費はここ数年、国民所得を上回る勢いで増加しており、少なくとも今後10年間はその傾向が続くと予測されている。2014年には、米国経済に占める医療部門の割合は17.5%であったが、2025年には20.1%に達すると予想されている。これにはいくつかの理由がある。医療費は、経済学者が「贅沢品」と呼ぶもので、裕福な人ほど医療費を惜しまない。また、ベビーブーム世代の高齢化に伴い、人口の大部分が医療費の支出が最大になる年齢に達しているという事実もある。さらに、より多くの専門的な医薬品が利用できるようになり、薬価の上昇が加速していることも加わる。Affordable Care Actの導入により、米国の医療費に占める政府の割合はこれまで以上に高まり、2025年には連邦政府、州政府、地方政府が支払う医療費総額の割合は47%にまで増加すると予測されている1。

医療費の増加に伴い、民間保険会社や政府系保険会社(英国ではNational Health Service、米国ではMedicare、Medicaid、Veterans Administration)は、医師や病院に対して診療報酬の引き下げや治療成績の向上を求める圧力をかけている。コスト管理の圧力が高まると同時に、電子カルテという新しい技術によって医療データの収集が容易になり、そのデータを利用して問題点を明らかにしようという誘惑に駆られている。その結果、公的な報告書や成果報酬が大幅に増加した。これらはいずれも、米国や海外の医療制度の問題を解決する方法として歓迎された。保険会社やメディケイド、メディケアなどの政府機関をはじめとする第三者支払機関は、医師や病院が効果的かつ費用対効果の高い方法でサービスを提供しているという信頼できる証拠を必要としている。しかし、治療法として宣伝されているものが、治療すべき病気と同じくらい悪いものであることもある。

アメリカの医療システムの評価

しかし、これらの治療法と称されるものを検証する前に、アメリカの医療システムを特徴づけるために使用されている最も影響力のあるパフォーマンス指標を見てみる価値があるだろう。世界保健機関(WHO)の「世界保健報告書2000」によると、米国の医療制度は世界の国々の中で37位にランクされ、「米国は、一人当たりの医療費は1位だが、乳幼児死亡率は39位、成人女性死亡率は43位、成人男性死亡率は42位、平均寿命は36位であることは無視できない」と述べている2。 「医師であり医療アナリストでもあるスコット・W・アトラスは、これらの主張を精査し、その背景を明らかにしたが、これは少なからず誤解を招くものであることがわかった。

我々の多くは、WHOのランキングは全体的な健康レベルを測るものだと思っている。しかし、実際の健康状態がランキングに占める割合は25%に過ぎない。すなわち、「健康の分配」が25%、「経済的公平性」が25%である。「公平性」とは、すべての人が所得の同じ割合を医療費に充てることである。つまり、富める者ほど医療費を多く負担する仕組みでなければ、公平とは言えないのである。つまり、その基準はイデオロギー的なものだったのである。37位という数字がついていることで、客観性や信頼性があるように見えるが3、実際には、総合的なパフォーマンスのランキングは欺瞞に満ちている。

死亡率や平均寿命の数字はどうだろうか。死亡率や平均寿命は、文化や生活習慣など、医療以外の要素が大きく影響していることがわかる。肥満は、II型糖尿病や心臓病などの慢性的で衰弱しやすい病気を引き起こす傾向があり、アメリカ人は他国の国民に比べて平均的に肥満である(一部の国では急速に追いついてきている)。喫煙もまた、心臓病やがんなどの病気の原因となり、喫煙をやめてから数十年後にもその影響が出る可能性がある。アメリカ人は1980年代まで、世界的に見てもかなりのヘビースモーカーであった。さらに、米国は民族的に異質な国であり、一部の民族(アフリカ系アメリカ人など)では乳幼児死亡率が不均衡に高く、これは社会的、文化的、そしておそらく遺伝的な要因を反映している5。病気の診断と治療に関しては、アメリカの医療は世界最高水準にあるとアトラスは述べている6。

教育や治安など他の分野と同様、相対的な成功や失敗をもたらす最も重要な要因の多くは、我々が測定して責任を負わせようとする公式なシステムの外にある。十分な運動をすること、適切な食事をすること、銃器を無責任な人の手に渡さないこと、喫煙、アルコールや薬物の過剰摂取、危険なセックスを控えること、これらが健康と長寿に寄与する主な要因である。医師や公衆衛生担当者は、これらに影響を与えようと努力すべきであり、その努力は惜しまない。しかし、これらの生活パターンは、彼らがコントロールできない部分が多い。このことを念頭に置いて、アメリカの医療の失敗と言われるものを評価しなければならない。しかし、WHOの報告書に書かれている警鐘のような指標を大目に見たとしても、米国の医療が高価であり、改善の余地があることは事実である。

解決策としての指標

アメリカの医療政策で最も注目されているのは、業績評価指標、説明責任、透明性の推進であろう。パフォーマンスを測定することで、医療従事者は臨床実践をよりよく評価し、その実施状況を追跡することができ、保険会社は成功に報い、失敗にペナルティを課すことができ、格付けやレポートカードを通じて、患者がより多くの情報に基づいて医療機関を選択できるような透明性を確保することができるとされている。

ハーバード・ビジネス・スクールのマイケル・E・ポーターは、経営指標の医療への応用を「バリュー・アジェンダ」として提唱している。ポーターはこう主張する。

どのような分野においても、迅速な改善のためには、結果を測定することが必要である。これは、マネジメントにおいてはおなじみの原則である。チームは、時間をかけて進捗状況を確認し、組織内外の同業者のパフォーマンスと比較することで改善し、優れた成果を上げることができる。実際、価値(結果とコスト)を厳密に測定することは、おそらく医療を改善するための最も重要なステップである。国を問わず、医療の結果を体系的に測定しているところでは、その結果が改善されている7。

ポーターは、成果を公的に報告することで、パフォーマンスを向上させる強力なインセンティブが得られると考えている。これは理論的には理にかなっている。

3つの成功例

ポーターは、彼が推奨するアプローチの先駆者として、クリーブランド・クリニックを挙げている。クリーブランド・クリニックは、毎年14冊の「アウトカム・ブック」を発行しており、その中には驚くほど多様な病気の治療実績が記されている。これらの資料(オンラインで閲覧可能)を見ると、それぞれの項目で高い成功率を示している。そして、クリーブランド・クリニックには世界中から患者が集まってくる。

同じくマイケル・ポーターが提唱した医療指標の潜在的な価値を示す説得力のある例として、ガイジンガー・ヘルスシステムが挙げられる。ガイジンガー・ヘルスシステムは、医師が主導する非営利の統合システムで、ペンシルバニア州の約260万人にサービスを提供しているが、その多くは地方の貧しい人々である。ガイジンガーは、米国の先進的なヘルスケアのショーケースとなっているが、それには理由がある8。電子カルテのパイオニアであるガイジンガーは、1995年に電子カルテシステムに1億ドル以上の投資を開始し、医師には患者にオンラインポータルに登録してもらうインセンティブを与えた。このシステムにより、システム内のプロバイダーへの情報伝達が容易になり、個々の医師を含むユニットのパフォーマンスを監視することができるようになった。このシステムでは、リスクの高い患者には看護師のケースマネージャーを採用し、患者の状態についての教育、モニタリング、ケアプランや薬の見直し、フォローアップの予約などを行っている。アメリカの医療において、最もコストがかかり、広く普及している疾患は、糖尿病と心臓病である。ガイジンガーのシステムでは、これらの疾患を持つ患者は、医師や医師アシスタント、薬剤師、栄養士などからなる統合チームによって治療される。ガイジンガーでは、治療を複数の医療機関に分散して行うのではなく、医療機関同士の接点を少なくして、よりホリスティックなアプローチを行っている。医師の報酬の約20%は、コスト削減、ケアの質の向上、患者の満足度に関する目標に連動しており、残りの80%は、フィー・フォア・サービスに基づいている。革新的なプログラムを多数導入することで、ガイジンガーはコスト削減と患者の予後の改善に成功している。

医療における測定基準の利用で最も成功した例の一つは、「セントラルライン」から感染する院内感染を減らすためのパフォーマンス指標の利用である。セントラルラインとは、首や胸から太い静脈に挿入される柔軟なカテーテルチューブのことで、薬や栄養分、水分の導管として使用される。セントラルラインは、現代の病院医療において最も一般的な要素の1つであり、つい最近まで、最も多くの合併症を引き起こす原因となっていた。その理由は、カテーテルが感染の経路となり、最悪の場合は死に至る感染症となり、最良のケースでも治療費がかかるからである。2001年、米国ではセントラルラインに関連した血液感染症が約82,000件発生したと推定されている。感染1件あたりのコストは12,000ドルから56,000ドルであった。約32,000人が死亡した9。

それ以来、後天性感染症の発生率は劇的に低下した。これには、ボルチモアにあるジョンズ・ホプキンス大学病院の救命救急専門医であるPeter J. Pronovostの努力が大きく寄与している。Pronovost氏は同僚と協力して、5つの標準的かつ簡単な手順のチェックリストに基づいたプログラムを開発した。これらの手順を組み合わせることで、中心静脈感染の可能性を減らすことができた。ジョンズ・ホプキンス病院でプログラムを適用した後、Pronovostはミシガン州の病院システムでの適用を監督し、「ミシガン・キーストーンICUプロジェクト」として知られるようになった。その後、同様のプログラムがアメリカ国内だけでなく、イギリスやスペインでも実施された。その結果、血流感染症は66%減少し、何千人もの命と何百万ドルものお金を救うことに成功した。

Keystoneプロジェクトでは、毎月、感染率のデータを収集し、集中治療室のリーダーや病院のトップに報告している。その結果は、失敗から学ぶことを意識して、より多くのスタッフと議論される。これは診断測定基準の一例である。これは診断指標の一例であり、何がうまくいっていて、何がうまくいっていないのかを発見し、パフォーマンスを向上させるために、実務者(医師)や機関(病院)内部で使用したり、実務者や機関間で共有したりできるデータを提供する。

Keystoneプロジェクトでは、診断指標が多用され、またピアプレッシャーという心理的なインセンティブもあった。Pronovost氏自身は、このプロジェクトが成功した理由として、臨床コミュニティを通じて、共通の職業上の目標に向かって取り組み、中心静脈ラインからの感染を解決可能な社会問題として扱ったことを挙げている。また、自分たちの感染率が他の病院と比較されることで、他の病院の成功率に追いつこう、あるいはそれ以上にしようというピア・プレッシャーが生まれた。

これらの成功例から、我々は何を結論づけるべきであろうか?

Cleveland Clinic、Geisinger、Keystoneプロジェクトは、パフォーマンスを測定することの有効性を証明するものとしてよく引用されるが、それには理由がある。しかし、より深く掘り下げてみると、測定基準が重要なのは、それがより大きな組織文化に組み込まれているからであることがわかる。

クリーブランド・クリニックの成功は、クリニックが成果を公表しているからなのであろうか?それとも、成果が素晴らしいからこそ、その成果を公表したいと考えているのであろうか?実際、クリーブランド・クリニックは、パフォーマンス・測定基準が台頭する以前から世界でも有数の医療機関であり、パフォーマンス・測定基準の時代になってもその地位を維持している。しかし、クリニックの質とパフォーマンス・測定基準の公表との間に因果関係があると結論づけるのは、「事後検証」の誤りに陥ることになる。この成功は、品質測定そのものよりも、クリーブランド・クリニックの組織文化が測定基準を活用する方法など、地域の状況に大きく関係している可能性がある10。

ガイジンガーの測定基準が効果的なのは、それがより大きなシステムに組み込まれているからである。重要なのは、測定基準の設定とパフォーマンスの評価が、医師と管理者を含むチームによって行われていることである。したがって、パフォーマンスの評価基準は、直接の知識を持たない管理者が上から押し付けたり、評価したりするものではない。それは、コラボレーションとピアレビューに基づいている。ガイジンガーでは、様々な症状の外来診療において、継続的にパフォーマンスを向上させるためにも、この評価基準を用いている。CEOとしてガイジンガーシステムの変革を指揮した医師のグレン・D・スティールは、その成功について次のように述べている。「我々の新しいケアパスウェイが効果的だったのは、医師が主導し、データに基づくリアルタイムのフィードバックを可能にし、患者のケアの質を向上させることに主眼を置いていたからです」そして、それが「医師の行動を根本的に変える動機となったのです。」また、「実際にサービスラインで働いている人々が、どのケアプロセスを変更するかを自ら選択した」という事実も重要であった。彼らを意思決定に直接参加させることで、彼らの賛同が得られ、成功の可能性が高まったのです。」ガイジンガー社の例から学べるのは、プロバイダーがパフォーマンス指標を策定し、モニタリングすることの重要性である。そして、その指標が、彼ら自身のプロフェッショナルとしての使命感に沿ったものであることが重要であった。

セントラルライン感染症の削減を率先して行ったPeter Pronovost氏は、”Keystone ICUプロジェクトは、仲間の規範とプロ意識による内発的動機に依存した自発的な取り組みの可能性を示した “と考えている。彼は、こうしたアピールを公的な報告や金銭的なインセンティブで補うことに反対しているわけではない。しかし、彼自身の解釈では、医療アウトカムの改善は、主に「医師や看護師としての職業倫理に訴える方法で、感染率が避けられないものではなく、コントロールできることを示すことで、臨床医の信念を変えた」ことによってもたらされたと考えている。

しかし、米国政府のメディケア・メディケイドサービスセンターが導き出した結論は、2011年に感染率の公表を開始し、その1年後には感染率の高い病院に対して診療報酬の支払いを停止するというペナルティを課すことであった。このようなインセンティブの構造は、外発的な動機よりも内発的な動機に依存していたこれまでの組織的な成功例とは全く異なるものであった。

全体像:測定基準、成果報酬、ランキング、レポートカード

医療分野におけるパフォーマンス指標の記録を掘り下げてみると、クリーブランド・クリニック、ガイジンガー、キーストーンの成功は、規則というよりも例外のように見える。

医療測定基準について書いている専門家のほとんどは、パフォーマンス測定の有効性に既得権を持っている。彼らのキャリアは、データの収集と分析の有効性に少なからず基づいている。したがって、一般に公開されている説明責任を果たすための測定基準の有効性がない、または非常に限定的であることを示す多くの研究は、利害関係者に対する証言として読まれるべきである。後述するように、医療関連の雑誌や学術文献にはそのような研究が数多く掲載されている。確かに、これらの研究は、測定基準が役に立たないことが証明されたという明白な宣言ではなく、より多くのデータ、より多くの研究、より洗練された測定基準を求めることで終わることが多い11。

説明責任と透明性を求める議論は、成功と失敗の測定基準を公開することで、患者、専門家、組織の行動に影響を与えるという前提に基づいている。患者は消費者として行動し、治療費と相対的な成功率を比較するようになる。医師は、パフォーマンススコアの高い専門家に患者を推薦する。保険会社は、最高の治療を最低の価格で提供する病院や医療機関に群がる。医師や病院は、評判や収入が落ちないように、スコアを改善しなければならないというプレッシャーを感じるだろう13。

この理論が実際に正しいかどうかを検証するために、オランダのラドバウド大学ナイメーヘン医療センターにある「Scientific Institute for Quality of Healthcare(IQヘルスケア)」の専門家グループは、さまざまな健康問題に関する研究情報に広くアクセスできることが、医療提供者や患者・消費者の行動や患者の転帰にどのような影響を与えるかを既存のエビデンスで検証した。オランダの専門家は、心筋梗塞などの様々な症状について、公開された医療指標の導入前と導入後の行動を比較した、対照的なbefore-after研究を行った。その結果、オランダの専門家は、病院が実際にプロセスの改善に着手したケースがあることを発見した。しかし、説明責任を求める人々の予想に反して、患者の転帰に持続的な効果は見られなかった

これは、医学研究と医療行為の関係の産物かもしれない。医学研究の対象となる集団は、医師や病院が治療を行う現実の集団とは異なる。もっともらしい医療介入(糖尿病予防のための血糖値コントロールなど)は、比較的少人数の患者を対象に行われる。また、医療介入の効果を分離するために、複数の医療問題を抱える患者を意図的に除外して行われる。しかし、現実の世界では、患者は複数の医療問題を抱えていることが多く(併存疾患)試験的な介入の効果が消えてしまうことが多い。そのため、推奨された手順を踏むだけでは、必ずしもアウトカムの改善につながらないのかもしれない14。

また、オランダの専門家によると、評価指標の公表が医療機関や病院を選ぶ際の患者の行動に影響を与えたとは言えない。彼らの結論は 「パフォーマンスデータの公開が、消費者の行動を変えたり、医療を改善したりするという一貫した証拠は、入手可能なわずかな証拠からは得られない」としている15。

測定基準のもう一つの顕著な利用法は、ペイ・フォー・パフォーマンス(P4P)制度である。ここでのインセンティブ構造は単純で、医師は、推奨された手順(チェックリスト)に従ったり、コストを削減したり、治療結果を改善したりするなど、測定された目標に達した場合に、報酬のかなりの部分を受け取ることになる。

英国では、1990年代半ばにNHS(National Health Service)がプライマリーケアの医師に対する報酬制度としてP4Pを採用し始め、トニー・ブレア政権ではその制度を拡大した。米国では、民間のヘルスプランや雇用者グループがP4Pプログラムを採用するケースが増えており、州政府も同様である。メディケアの管理者は、手術後30日までの生存率を基準とした手術結果など、さまざまな測定結果に報いようとしている。

医療指標のもう一つの重要な形態は、「医療レポートカード」という形で医師や病院のランキングを公開することである。ニューヨーク州では、このようなデータの公表を先駆的に行っており、イギリスでは、2001年から保健省が公的医療機関の「星の評価」を毎年公表しており、最近ではイギリスで初めて、9つの外科専門分野における外科医の「アウトカムデータ」の公表が義務付けられた。2015年には、アメリカの報道機関であるProPublicaが、全米の外科医約17,000人の合併症発生率を公表している17。また、非営利の医療認定機関である「Joint Commission」や、ウェブサイト「Healthgrades」や「US News and World Report」など、営利を目的とした民間のランキングでも、レポートカードやランキングが発表されている。これらの団体の背景にある考え方は、医師や病院が、安全性と有効性に関する評判を高め、最終的には潜在的な患者集団における市場シェアを向上させるために、より良いパフォーマンスを行うインセンティブを持つというものである。病院にとって、これらのランキングは、ステータスと「ブランド管理」のために重要だ18。

現在、米国や英国などでは、ペイ・フォー・パフォーマンス(成果報酬)や公的な業績評価基準の影響に関する大規模な社会科学的文献が存在している。驚くべきことに、経済理論的には明らかに効果的なこれらの手法が、成果に対して目に見える効果をもたらさないことが多い。19

例えば、Annals of Internal Medicine誌に掲載された最近の研究では、2009年に病院の死亡率の公表が開始されてから数年間のメディケア患者の運命を調べた。著者らは、「死亡率の公表は、患者の転帰に影響を与えていないことがわかった」と述べている。我々は、すべてのサブグループを調査した。さらに、成績不良のレッテルを貼られた病院がより早く改善するかどうかも調べた。しかし、改善は見られなかった。実際、データに忠実であるならば、公的な報告は患者の転帰の改善速度を遅らせると結論づけられるであろう」20 これだけでは問題がないかのように、ProPublicaの外科手術レポートカードのような公的なランキングの多くは、専門家が疑わしいと見なす基準に基づいており、純粋に解明するよりも誤解を招く可能性が高いと考えられている21。

ランド・コーポレーションの最近の報告書でも、同様の結論が出されている。成果報酬に関する研究のほとんどは、最終的な成果、つまり患者が回復したかどうかではなく、プロセスや中間的な成果を検証していると指摘している。全般的に、「より強力な方法論的デザインの研究では、ペイ・フォー・パフォーマンス・プログラムに関連した有意な改善を特定する可能性が低かった」と報告している。また、確認された効果も比較的小さいものであった」22 この発見は新しいものではなかった。1990年代に公共部門の成果報酬制度を研究した社会科学者たちは、効果がないと結論づけている。しかし、このような制度は導入され続けている。それは、経験に対する希望の勝利か、あるいはコンサルタントが同じような昔からの言い伝えを売り込んでいるからである。23

公的なランキングや成果報酬に用いられる評価基準が結果に影響を与える場合、それは意図しない方法であったり、逆効果であったりすることが多い。また、生産的か非生産的かにかかわらず、成果報酬や透明性の指標を提唱する人たちがほとんど考慮しないような、膨大なコストがかかるのが一般的である。

P4Pやランキングの本質的な問題点として、目標の転用が挙げられる。英国の報告書によると、P4Pプログラムは、「測定可能で帰属可能なものだけに報酬を与えることができる。この限界は、全体的なケアを低下させ、医師の視線が重要なものよりも測定可能なものに不適切に集中することにつながる」としている。英国のP4Pプログラムは、プログラムに参加していない病状のケアの質の低下につながった。要するに、“テストのための治療 “につながるのである。また、体の弱い高齢者など、複数の慢性疾患を抱える多くの患者の治療に、信頼できる測定基準を提供することは不可能である。24

医師のレポートカードは、解決する問題と同じくらい多くの問題を引き起こす。例えば、リスク回避の現象について考えてみよう。一般に公開されている評価基準を導入した後、心臓外科医が手術を必要とする重症患者の手術を嫌がるようになったという研究結果が数多くある。例えばニューヨーク州では、外科医向けのレポートカードに、冠動脈バイパス手術の術後死亡率、つまり手術を受けた患者のうち30日後に生存している患者の割合が報告されている。この指標が導入された後、確かに死亡率は低下し、良い方向に向かったようである。しかし、この指標に含まれるのは、手術を受けた患者だけである。リスクが高く、外科医のスコアが下がるという理由で、外科医が手術を断った患者は評価基準に含まれなかった。これらの重篤な患者の一部はクリーブランド・クリニックに紹介されたため、彼らの手術の結果はニューヨークの評価基準には現れなかった。このような「症例選択バイアス」(つまりクリーミング)の結果、一部の重篤な患者は単に手術を受けなかっただけなのである。また、ニューヨーク州での術後成績の改善が、評価基準の公表の結果であることも明らかではない。また、ニューヨーク州での術後成績の改善が、測定基準の公表によるものであるかどうかも定かではない。

リスク回避の現象とは、リスクを伴う手術によって命が救われる可能性のある患者が、単に手術を受けないということである。しかし、逆の問題もある。それは、指標の目標を達成するために、過度に積極的な治療を行うことである。手術が成功しなかった患者は、病院の死亡率データを向上させるために、必要な30日間は生存させることがあるが、これはコストがかかる上に非人道的な行為である。26

確かに、外科医の成功率や病院の死亡率を公開することには、いくつかの利点がある。外科医の場合、公表することで、非常に成績の悪い者を指摘することができ、その者は外科医をやめることができる。あるいは、病院の場合、下層部は測定されたパフォーマンスを改善するための措置を取ることができる。しかし、他の多くの業績評価指標と同様に、ここでの傾向は、低いところにぶら下がっている果実を収穫し、継続的に豊かな収穫を期待することである。つまり、パフォーマンスの低い異常値を発見することで、すぐに利益を得ることができるのである。27そして、ある時点で限界費用が限界利益を上回る。

問題は、すべての人から測定基準を集め続けることであり、ある時点で限界費用が限界利益を上回ってしまうことである。測定基準を増やし続けることがどれほどの費用と負担になっているかは、Institute of Medicine(医学研究所)の最近の報告書で明らかになっている28。測定および関連活動のための管理費は、年間1,900億ドルと推定されている。さらに、医療機関が政府のPatient Quality Reporting Systemにデータを入力するための、測定不可能なコストもある。大規模な医療機関では、データの入力を外部の企業に依頼しなければならないが、小規模な医療機関では、医師自身に任されることもある。このような大量のデータを収集、入力、処理するための有形のコストに加えて、医師や臨床医がデータ入力に費やす時間に何ができたかという計り知れない機会費用が発生する。しかも、その時間はほとんど計算されず、補償もされない。29 「皮肉なことに、パフォーマンス評価や改善、公的機関や資金提供者への報告、内部の改善活動など、さまざまな目的のために新しい測定方法への関心、支援、能力が急速に広まったことで、これらの努力の有効性が損なわれている」と医学研究所の研究は報告している。

Donald M. Berwick氏は、測定による改善を提唱する第一人者であり、2010年から2011年にかけて、米国メディケア・メディケイドセンターの長官を務めた。報告義務があまりにも煩雑で冗長になっているためバーウィック博士は最近、「過剰な測定をやめる必要がある….」と宣言した。私は、現在使用されているすべての測定基準を50%削減することに賛成です」と述べている30。

これに加えて、医療を主に利益を得るための事業であるかのように扱うことによる精神的コストがある。バーウィックは、「The Toxicity of Pay for Performance」という論文で、このことを見事に表現している。

“成果報酬”は内発的なモチベーションを低下させる。特に医療の現場では、内発的な満足感を得られる可能性のある仕事が多くある。痛みを和らげること、質問に答えること、手先を動かすこと、打ち明けられること、専門的なチームで働くこと、パズルを解くこと、信頼された権威の役割を経験すること、これらは仕事で1日の一部を過ごすのに決して悪い方法ではない。ケアという仕事に対する誇りと喜びは、医療従事者の間で「パフォーマンス」をもたらす多くの動機の一つである。今日、医療のリーダーや臨床家が時間を割いている報酬や料金、診療報酬に関する激しい議論の中で、非金銭的で内発的な報酬が医療の仕事において重要であるという事実を無視したり、疑ったりするのはあまりにも簡単なことである。残念なことに、仕事における内発的な満足感を軽視すると、不意にそれらを低下させてしまうことがある31。

バーウィックの論文は20年以上前に発表された。バーウィックの論文は20年以上前に発表されたものであるが、効果はなかったようである。ペイ・フォー・パフォーマンス(成果報酬)の潮流は、今もなお続いている。

テストケース:再入院の削減

測定方法として最も注目されているのは、退院後30日以内の予定外の再入院に対するメディケアの測定方法であるが、これは測定方法の可能性と問題点の両方を示している。病院への入院には費用がかかるが、その費用を削減することが一つの動機となっている。また、再入院は、患者のケアが不十分なために起こると考えられていたため、入院数が減ればケアが改善されたことになると考えられてた。2009年、メディケアはすべての急性期病院を対象に、退院後30日以内の再入院率を公開することを開始した。30日以内の再入院率は、主要な疾患(心臓発作、心不全、脳卒中、肺炎、慢性閉塞性肺疾患、冠動脈バイパス)と、2つの一般的な外科手術(人工股関節置換術または人工膝関節置換術)の治療を受けた患者を対象としている。(その後、2012年には、メディケアは、実績の公表から、実績に応じた支払いへと移行し、平均よりも高い率の病院には金銭的なペナルティを課すことになった32。実績の公表と、失敗した場合の金銭的なペナルティは、病院にとって、再入院を抑制するための対策や、入院には費用がかかるため、コストを削減するための刺激となった。病院は、退院した患者が再入院しなくて済むように、さらなる対策を講じるようになった。例えば、プライマリ・ケア・プロバイダーとの連携を強化したり、患者が処方された薬を確実に入手できるようにしたりした。成績の悪い病院に課される罰金は、患者が再入院しなくても済むように、より良いケアを提供するように動機付けるためのものであった。

病院の再入院は確かに減少しており、業績評価基準としては成功していると言われている。しかし、その成功はどの程度のものなのであろうか?

報告されている再入院率の低下は、システムを巧みに利用したことが一因となっている。すなわち、病院は再入院患者を正式に入院させる代わりに、「観察状態」にした。観察状態とは、患者が一定期間(最大で数日間)病院に滞在し、入院「許可」ではなく外来サービスとして請求されるものである。あるいは、帰宅した患者が救急外来で治療を受けることもあった。2006年から2013年の間に、メディケア患者のこのような観察入院は96%増加した。つまり、再入院率の低下の約半分は、実際には病院に戻ったものの外来患者として治療を受けた患者によるものだったのである。(さらに複雑なことに、再入院率を低下させた病院は、観察下にある患者の数を増やした病院ではなかったことが後の分析で判明した。) このように、再入院の指標は改善されたが、患者の治療の質は必ずしも改善されなかった。

すべての病院がシステムを不正に利用したわけではない。一部の病院は、再入院を減らすことで実際に患者の予後を改善し、メディケアのコストを削減するために、手順を検証し、改良した。しかし、他の病院は、パフォーマンスを判断する際に、患者を分類するラベルを操作する能力を向上させただけであった33。

弊害は他にもあった。2015年の時点で、報告した病院の約4分の3がメディケアからペナルティを受けている。35 入院を減らすという目標を達成するには、病院が患者を教育し、必要な薬を提供するために行う措置だけでなく、患者の基本的な身体的・精神的健康状態、社会的支援体制、行動など病院がほとんどコントロールできない多くの要因にも左右される。このような要因は、医療指標に共通するもう一つの問題を示唆している。それは、病院が提供する患者の集団は非常に異なっており、その中には病気になりやすく、退院後のケアが不十分な人もいるということである。Pay-for-Performance方式では、「リスク調整」と呼ばれる方法でこれを補おうとする。しかし、リスクの度合いを計算するには、他の指標と同じように、誤測定や操作が必要になる。36 標準化されたテストで生徒の成績が悪いと罰せられる学校のように、最も成功していない病院にペナルティを課すことで、業績評価基準は資源配分の不平等を悪化させることになりかねず、本来改善すべき公衆衛生への貢献にはならない。

バランスシート

現在、ほとんどの医療機関では、特定の処置の結果を改善したり、施設全体の運営を最適化したりするなど、品質向上の目的でパフォーマンス指標を使用している。このようなパフォーマンスの測定基準の内部利用は、病院やその他の医療機関が医療の安全性と有効性を高める上で大きな価値がある。しかし、測定基準は、セントラルラインからの感染を最小限に抑えるための手順のチェックリストのように、組織の医療システムによってほぼ完全にコントロールされる介入や結果に対して最も成功する傾向がある。結果がより広範な要因(医院や病院の外での患者の行動など)に左右される場合は、医療システムの努力や失敗に起因することは難しくなる。ガイジンガー社の集団健康管理の成功は、希望を与えるものである。しかしそれは、診断指標がより大きな組織文化の中で役割を果たしているという状況の中でのことであり、そのような指標は実務家がその職業倫理に沿って開発し、評価するものである。

しかし、金銭的な報酬や評判による報酬など、パフォーマンスに報いるために測定基準を使用することはもっと問題がある。金銭的なインセンティブや公的なランキングに結びついた測定基準に頼るケースが増えている。これらの指標が医療のコストとベネフィットにプラスになっているのか、マイナスになっているのかは、未解決の問題である。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー
error: コンテンツは保護されています !