検査値の「正常範囲」:それは正常でなければ範囲でもない

サイトのご利用には利用規約への同意が必要です

The normal range: it is not normal and it is not a range

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6352401/

要旨

NHS(英国保健医療局)の「Choose Wisely」キャンペーンでは、臨床医と患者の対話を重視している。患者はしばしば検査データを受け取り、自分たちが正常かどうかを知りたがっている。しかし、正常とは何を意味するのであろうか?測定値に対するコンパレータデータは、口語では「正常範囲」と呼ばれている。多くの場合、この範囲外の結果は病気のシグナルであり、健康の範囲内の結果は健康のシグナルであると考えられている。しかし、この範囲は正しくは「基準範囲」と呼ばれている。測定値から得られる臨床リスクは連続的であり、二進法ではない。基準間隔は、個人の結果を解釈するための基準となるポイントを提供するものであり、むしろ正常性そのものを定義するものではない。この記事では、正常性の理論について議論し、それが相対的で状況的なものであることを説明する。正常性は絶対的な状態ではないという概念が、参照間隔の開発に影響を与えた。最後に、基準間隔の使用と解釈を最適化し、それによって患者の理解を深めるための提案を行う。

キーワード:規範性、生物学的変動、平均値


「Choose Wisely」キャンペーンは、エビデンスに基づいた治療レジメンの実践に関する臨床医と患者の間の対話を促進することを目的として、2016年にAcademy of Medical Royal Collegesによって導入された1。患者が答えを求めている基本的な質問は、「私の検査は正常ですか?」

しかし、「正常」とは何を意味するのであろうか?

すべての検査結果には、臨床検査技師が結果を文脈の中に置くのを助けるために、臨床検査室は比較対象となる値を提供する。比較対象となる値はしばしば正常範囲と呼ばれる。この範囲内の結果は色分けされており、例えば、範囲内であれば黒、範囲外であれば赤で表示されることがよくある。このことは、結果には正常か異常かという二項対立があるという概念を強化している。

もし血液の結果が正常であると言うならば、これには多くの異なる性質の推論が適用されることになる。この問題は、1960年代に哲学者エドモンド・マーフィー(Edmond Murphy)によってうまく捉えられた(表1)。

表1 「正常」の解釈 (Murphy, 1966 から修正)

通常の概念 提案された代替案

1 統計的にガウス分布を決定
2 そのクラスを最も代表する平均値、中央値、モード値
3 最もよく遭遇する習慣
4 野生型:生存・繁殖に最も適したタイプ 適者
5 無害な「罰則を伴わない」 無害/無害
6 最も多くの方が志望していたのは、従来
7 そのクラスの中で最も完璧なもの 理想


「正常な」結果には病態生理学的な錯乱がないと仮定した場合、この限界を超えた結果は病状を示すことになる。これは恣意的な二項対立的解釈のように思える。アメリカの精神科医セオドア・ルービンが言うように、「健康は相対的なものであり、絶対的な状態ではないと考えられるかもしれない」のである。健康というものは、国によって、あるいは同じ国でも時期によって、あるいは同じ個人でも年齢によって考え方が異なるかもしれない。

「正常範囲」はどのようにして生まれたのであろうか?まず、いくつかの意味を説明しよう。基準限界は基準区間の上下限であり、基準範囲は2つの値の差を指する。例えば、ナトリウムの基準値の上限を135mmol/L、下限を145mmol/Lとすると、基準範囲は10mmol/Lであるが、基準間隔は135~145mmol/Lとなる。観察値とは、測定(血液検査)によって得られた特定の種類の値を、医学的な判断のために作成したもので、基準値や基準間隔と比較することができる。

1960年代までは、検査室はしばしば分離して作業し、正常限界値を定義するために独自のコンパレータ値を開発していた。方法論的なばらつきを考慮して、異なる患者集団や個々の検査施設に対して複数の「正常範囲」が必要であることが明らかになった。当時の臨床では、患者の結果を不明確に定義された、あるいは少なくとも定義に矛盾がある、いわゆる「正常範囲」と呼ばれる値の範囲と比較することが行われてた。) これは、おそらく「正常」(健康な人を意味する)と思われる人の集団から導き出されたものである。基準間隔の概念は、当時考えられていた正常範囲の概念に欠陥があると感じられたため、1969年にGrasbeckとSarisによって導入された。基準間隔は、正常値というより曖昧な概念に取って代わるために、よく特徴づけられた個人のグループにおける血中分析物濃度の変動を記述するように設計された。その意図は、正常値そのものを定義するのではなく、個人の結果を解釈するための基準となるポイントを持つことであった。正常性は相対的で状況的なものである。母集団の基準間隔は、年齢、民族性、性別などの要因が大きな影響を与えない限り、考慮されない場合がある。したがって、基準間隔は母集団で予想されることの近似値である。この困難さは、重症患者の医療において認識されており、重症患者のための新しい規範的なデータベースの開発が求められている4。

これらの方法の裏付けとなっているのは、しばしば、ガウス分布を用いて95%中間の個体を識別すれば、健康な個体が識別されるという仮定である。ここで適用されている使用と用語には3つの批判がある。空腹時トリグリセリドは、この良い例である。最も一般的なトリグリセリド値(モード)は、人口密度曲線の中点ではなく、片側にあり、分布は右に傾いている(図

図1 歪んだ(非ガウス分布)分布の例としての空腹時トリグリセリド

第二に、基礎となる理論は、中心の95%が生理的に正常であることを前提としていない。95%間隔は、実利主義に基づいており、平均から2SDが適切に平均から離れていると考えられ、FisherがNeymanとPearsonの仮説検証手法を開発したことに由来している5。しかし、中央の90%を使用できない理由はない-そのようなアプローチは偽陽性を増加させるであろうが-または中央の99%-偽陰性の率を増加させるであろうが-。

第三に、我々が「正規分布」と呼んでいるベル型分布は、ある種の誤称である。別の数学者であるカール・ピアソンが「正規分布」という用語を採用するまでは、一般的に「ガウス分布」と呼ばれてたが、これは分布パターンが生活の中でどこにでもあるという事実に言及したものである。この用語は、「正常な」個人を識別する傾向があるために導入されたわけではない6 。例えば、基準間隔の上端にある血中尿素値は、肝機能障害があり、尿素を十分に合成できない個人の重大な腎障害を表している可能性がある。

基準間隔内の結果が「異常」である場合があるのと同様に、基準間隔外の結果が「正常」である場合もある(健康な状態で見られる)。例えば、高齢者の軽度の低ナトリウム血症は必ずしも病気とは限らない。加齢に伴う生理的変化としては、抗利尿ホルモンや心房性ナトリウム利尿ホルモンレベルの上昇、浸透圧刺激に対する反応性の増加などが挙げられる。疾病と健康は二項対立ではなく、動的で相互に関連しており、それらを定義する変数は通常重なり合っている(図3)。

図2 重なりのない2つのガウス分布

図3 重なり合うガウス分布。

このように、患者は個人レベルでは健康であっても、集団レベルでは病気になっている場合もあり、その逆もあることがわかる(図3,4)。

図4 外れ値の検出

検査報告書には、1つの値が単独で記載されることはめったにない。むしろ、U&E、LFT、骨プロファイルなど、検査のパネル全体が要求され、分析され、報告される。検査パネルのうち、1つの検査が異常である可能性はどの程度あるのであろうか?これを検定するために二項分布を使うことができる。統計学では、二項分布には2つの結果しかない:’成功か失敗か’、’正か負か’、’イエスかノーか’である。n個の独立した検定を連続して実行したときの1つの「成功」の確率(p)を決定する二項式は次のようになる。

(1-p)n-1

血液検査の陽性結果(「成功」)の確率は0.05です(母集団の値の5%が正規分布の外にあり、上述のように、この例では異常とみなされるため)。したがって、20の検査のパネルで1つの結果が異常である確率は

(1−0.05)^20−1=0.95^19=0.38

したがって、20の検査のうち1つが異常である確率は38%である。この値はあくまでも指標であり、検査される分析物の独立性を仮定しているが、しばしばそれらは関連している。

基準値はどのようにして意思決定をサポートできるのか? どのように識別できるのであろうか?

観察値からの臨床リスクは連続的であることを説明したので、基準限界が決定限界と混同されないように注意しなければならない。これは情報の伝達方法の違いであり、観察値は提示されているが、臨床医が決定限界または決定限界を超えた場合にどのように対応すべきかの曖昧さが少なくなる。決定限界は、様々な閾値検査設定における検査の感度と特異度に基づいている。その好例が糖化ヘモグロビン(HbA1c)であり、42mmol/molの値は「正常」とみなされ、48mmol/molは特定の分析前基準を満たしていれば、糖尿病の診断と一致する。糖尿病を診断するための決定限界値の代わりに、基準間隔を使用した場合(ここでは人口の5%の外れる人だけが「異常」とみなされる現在糖尿病の診断を受けている多数の個人が「正常」として再分類されるであろう。これは、決定限界を使用して、イングランドの糖尿病の有病率は成人人口の9%と推定されている8が、糖尿病を決定するために代わりに平均(すなわち、ガウス分布の末尾)からHbA1c>2 SDを使用した場合、それは2.5%に低下するからである。

基準間隔と決定限界の違いは、表2にまとめられている(Ceriotti et al 9から修正)。決定限界値は、検査室の報告書でより頻繁に出現している。決定限界は決定をより再現性のあるものにするという利点があるが、特に決定限界の利点が誤った集団に適用された場合には、再現性は必ずしも有用ではない。意思決定限界の普遍性はまた、連続データにカテゴリカルな結果を適用するという考えを定着させているかもしれない。

表2 決定限界と基準区間の特徴(Ceriotti and Henny, 2008より修正

何ができるか?

表1からわかるように、正常は人によって異なる意味を持ち、同じ人でも状況によって異なる意味を持つ。「正常範囲」という表現は役に立たず、不正確である。

情報がなぜ収集されているのかを問う。将来のためのベンチマークのためか、スクリーニングのためか、パネルを完成させるためか、診断調査を行うためか。

調査によって何かの可能性が変わるのか?無差別検査を制限することを考慮するべきである。

可能な限り、観察された値を先行する値と関連付ける。検査値の個人内変動は、通常、個人間変動(すなわち、母集団における変動;図5)よりもはるかに小さい。10 したがって、男性のヘモグロビンが130g/Lであっても、基準間隔(130-180g/L)内であれば、(未測定の)170g/Lから低下していることになるかもしれない。この結果は、臨床病歴に照らして解釈されなければならない。

図5 個人間変動が個人内変動よりも大きい

先行データのグラフ表示(入手可能な場合)は、傾向を特定する上で非常に効果的である(図4)。患者 A の非典型的な結果は、以下に起因する可能性がある。

  • 分析前エラー(サンプルがどのように採取されたか、または検査室に運ばれたか)11
  • 11 分析エラー(検体が検査室でどのように処理されたか)。
  • 測定された変数の個人内変動(その時点までの変動パターンを考えると可能性は低い)。
  • 実際の病理学。これを「臨界差計算」から捉える試みがなされていた。臨界差とは、「患者の真の変化を示す可能性のある患者の連続した検査結果間の最小の差」と定義されており、その計算には、検査室(分析)の変動と被験者内の生物学的変動の詳細が必要である12。

12 この状況では、検査前の確率が推定されていない(つまり、サンプルが理論をテストするために特別に要求されたわけではない)と仮定すると、サンプルは以下のようになるだろう。(1) 上記の例のように、過去のデータとさらなる知見によって補足する(それらが疾患の構成要素を形成している確率を高めたり、下げたりする)。

(2) 繰り返し(分析前のエラーや分析上のエラー、または個人内の変動による二次的な可能性を減少させる)。反復を選択した場合、起こりうる疾患の予想される発生率に適切な間隔で行うべきである。繰り返しの際に観察された値は、基準間隔の中心に近い方にシフトしている可能性がある-「平均への回帰」として知られている現象である。

平均への回帰

これは、異常に大きいまたは小さい測定値が平均に近い測定値に続く傾向がある統計的傾向である13(図6)。この用語は、19世紀後半にフランシス・ガルトンによって、親子の身長の関係を調査した結果として導入された。非常に背の高い両親の子供の身長は、時間の経過とともに人口平均に「退行」(または「逆戻り」)するように(その逆もある)短くなる傾向があった。医学では、この現象が治療の有効性を示唆することがあるが、実際には全く効果がない場合もある。

図6 平均への回帰。繰り返しの場合、平均値から最も遠い値は、平均値に近いところから始まる値よりも変化が大きい傾向にある

結論

基準間隔は患者の結果を文脈化するために非常に有用な手段であるが、その間隔内での結果の「正常性」を自動的に仮定するのは誤りであり、間隔外での異常性を仮定するのは誤りであるのと同じように、その間隔内での結果の「正常性」を自動的に仮定するのは誤りである。正常性は相対的なものであり、状況的なものである。基準となる間隔の性質を理解することで、論理的な判断が可能となり、臨床検査の効果を高めることができる。

主なメッセージ
  • 健康は相対的なものであり、絶対的な状態ではない。
  • 基準間隔は、患者の血液結果の比較ツールとして機能する。疾患があるかどうかの基準ではない。
  • 血液結果には自然な変動が生じることがある。
  • 基準間隔に対する結果の比較は、事前に臨床的に疑われることを考慮して行う必要がある。