自然環境下での睡眠　パイロットスタディ

Contents

概要
1. はじめに
2. 最先端の技術
3. 材料と方法
4. 結果
5. 考察
- 5.1. 研究の限界
- 5.2. 認知的指標と自己報告式睡眠の質指標に関する検討事項
6. 結論

Sleep in the Natural Environment: A Pilot Study

www.ncbi.nlm.nih.gov/pmc/articles/PMC7085707/

2020年3月3日オンライン公開

概要

睡眠の質は、認知機能、生活の質、そして多くの臨床領域における様々な重篤な疾患に直結している。睡眠を評価するための標準的な方法は、病院での宿泊調査であるが、不快感があり、費用も高く、実際の睡眠を代表しているとは言えず、大規模に実施することは困難である。近年、標準的な脳波記録装置の代わりに、睡眠の質を代弁することができる、体動、心拍数、呼吸数などの生理学的データを記録する多数の市販デジタル機器が開発されている。これらの機器から得られる睡眠関連の出力指標には、睡眠段階や総睡眠時間などがあり、これらの様々な生理学的記録を利用した独自のアルゴリズムによって得られる。各機器メーカーは、それぞれ異なる精度を主張し、異なる睡眠の質の特徴を測定しているが、これらの機器が相互にどの程度相関しているのか、また研究の場でどのように機能するのかは、まだ不明である。本研究では、21名の被験者を対象に、自己申告型睡眠指標（SRSM）と4つのセンサー（Fitbit Surge（スマートウォッチ)Withings Aura（マットレスの下に敷くセンサーパッド)Hexoskin（スマートシャツ)Oura Ring（スマートリング））から出力される睡眠指標が、n-backテストやPittsburgh Sleep Quality Index（PSQI）などの既知の認知・心理指標と関連するかどうかを調査した。複数のデバイスに関連する睡眠指標の相関関係を分析した。さらに、これらの睡眠指標と、異なるタイムポイントおよびSRSMにおける認知スコアとの関係を、単変量線形回帰法によって調べた。その結果、睡眠サイクルにおけるデバイス間の睡眠指標の相関はほぼ一様に低かったが、それでも有意であることがわかった（p＜0.05）。認知機能のスコアについては、午後と夕方のタイムポイントにおいて、Withingsのレイテンシーがp=0.016とp=0.013で統計的に有意であることがわかった。SRSMとPSQIや認知機能のスコアとの間には、有意な関連は見られなかった。さらに、Oura Ringの総睡眠時間と効率は、PSQI指標と関連して、それぞれp = 0.004とp = 0.033で統計的に有意であった。これらの知見は、今後のセンサーを用いた睡眠研究の指針となることが期待される。

キーワード：ウェアラブル、バイオセンサー、睡眠、Fitbit、Oura、Hexoskin、Withings、認知機能

1. はじめに

現在、5,000万人から7,000万人のアメリカ人が、睡眠不足に悩まされている[1]。2014年に米国疾病対策予防センターが行った調査によると、アメリカ人の3分の1以上（34.8%）が、定期的な睡眠時間が推奨される1日7時間未満であることがわかった[2]。急激な睡眠不足に対する身体の代償メカニズムは優れているが、慢性的な睡眠の質の低下や睡眠時間の最適化は、糖尿病[3]、代謝異常[4]、心血管疾患[5]、高血圧[6]、肥満[7]、不安・抑うつ[8]など、多くの健康上の悪影響につながる。また、慢性的な睡眠不足は、早死にや労働時間の減少、最適な教育を受けられないなど、社会的にも経済的にも負担が大きく、米国では年間2,806億〜4,110億ドルのコストがかかっている[9]。しかし、睡眠不足の悪影響を媒介する基本的なメカニズムは、まだ解明されていない。健康と睡眠の関係は、多様な要因と複雑な相互作用によって支配されており、個人間でかなりのばらつきがあると考えられる。睡眠に関連する行動には、性別[10]、人種[11]、および民族による顕著な違いがあることがよく知られている[2]。

睡眠不足の原因となる生活習慣や環境因子を理解し、睡眠異常とそれに伴う健康への悪影響を関連付けるためには、睡眠に関する広範な集団レベルの研究が必要であることは明らかである[12]。特に、自然な睡眠環境（自宅など）での個人の睡眠パターンを把握することが重要である。しかし、従来の睡眠研究では、このようなタイプの研究を行うことはできなかった。現在、睡眠研究の「ゴールドスタンダード」となっているのは、脳波、酸素濃度、眼球や脚の動きを記録する睡眠ポリグラフ法（PSG）である。睡眠ポリグラフ法検査では、通常、病院や診療所で参加者の頭皮、顔、脚に不快感を与えるセンサーを装着して寝てもらう。このような研究は、被験者を自然な睡眠環境から遠ざけてしまうため、睡眠の縦断的な評価には適していない。また、初夜効果などの問題もあり、実験室での睡眠研究を現実の環境に適用することは困難である[13]。最近、臨床グレードの家庭用睡眠ポリグラフ法ツールが開発されたことで、実験室環境が睡眠に与える影響を定量化することが可能になった[14]。このような研究では、実験室での睡眠よりも自宅での睡眠の方が良好であることが一般的に確認されているが、これらの知見は普遍的なものではない[15]。

しかし、家庭用の睡眠ポリグラフ法が利用できるようになったとしても、高価で煩雑な単一目的の機器を使用することで、睡眠に影響を与える多様な要因や健康アウトカムとの関係を定量化できるような大規模な集団研究が促進されるとは考えにくい。より使いやすく、軽量で、邪魔にならない睡眠センサーが必要であり、理想的には被験者が既に持っている機器に組み込むことができる。最近、いくつかの企業が、生理的変数、環境変数、活動変数、睡眠変数の高頻度データを受動的に収集する、準臨床グレードの「ウェアラブル」技術を消費者市場向けに開発している[16]。米国食品医薬品局は、これらを一般的なウェルネス製品として分類しており、臨床的な睡眠研究には認可されていない。受動的でリスクが低く、消費者の間で広く普及していることから、これらのデバイスが大規模な睡眠データ収集のための新たな手段となることは明らかである[17]。また，反応時間，実行機能，作業記憶などの認知機能をモニターするモバイルアプリケーション（アプリ）と組み合わせることで，これらの機器を大規模な完全遠隔睡眠研究に利用することも可能である．

本研究では，参加者の自然な環境で，電子的な調査票を用いて睡眠をモニターすることの実現可能性を検討した。具体的には，市販されている4種類のウェアラブル機器のうち，睡眠モニタリング機能を備えたものを1週間にわたって試験的に比較検討した。

Fitbit Surge（スマートウォッチ）
Withings Aura（マットレスの下に敷くセンサーパッド）
Hexoskin（スマートシャツ）
Oura Ring（スマートリング）

の4つのデバイスを，1週間にわたって21名の参加者に装着してもらった。また、睡眠機能と認知機能を関連付ける完全な遠隔研究の実現可能性を評価するために、カスタムメイドのモバイルアプリで一連の評価を行い、参加者の日常的な認知機能を評価した。本研究で比較した4つのデバイスは、これまで睡眠と認知の研究で直接比較されたことはなかった。今回の結果は、民生用のウェアラブル機器を用いた大規模な睡眠研究を設計・実施する上での課題を浮き彫りにするものとなった。

本論文の残りの部分は、以下のように構成されている。セクション2では、最先端の研究を含む関連研究の文献について説明する。セクション3では、参加者の募集プロセス、収集されたすべてのメトリクス（デバイスの出力など)実行された統計的テストなど、本研究で採用された材料と方法を詳細に説明する。セクション4では，すべての評価の結果を詳細に説明する。セクション5では，本研究の意義と限界について議論し，セクション6で最後に結論を述べている。

2. 最先端の技術

この研究は、様々なデバイスと睡眠ポリグラフの比較を利用した過去の研究を基にしている[18,19]。例えば，de Zambottiら[19]は，Ouraリングと睡眠ポリグラフ法を直接比較している．この研究の相関マトリックスでは、異なる睡眠段階での一致率が低く、Ouraの睡眠段階の追跡が問題であることが示されている。しかし、この研究では、Ouraの全睡眠時間（TSD)入眠潜時、入眠後の覚醒の追跡は、これらの指標について睡眠ポリグラフ法と統計的な差がないと結論づけている。この点において、Ouraは睡眠ポリグラフ法に比べて相対的に全睡眠時間を追跡していることがわかった。これは、多くのデバイスが全睡眠時間の追跡に問題を抱えているか、モニター付きの睡眠ラボ以外では被験者がデバイスを正しく装着できないことを示唆している。

これらのデバイスの最大の問題は、実際にどの程度睡眠を反映しているかということである。現在のコンセンサスはまちまちである。例えば，de Zambottiら[20]は，睡眠ポリグラフ法とJawbone UPを比較したところ，全体的にはよく一致していたが，入眠潜時などの特定の睡眠パラメータについては，過大評価や過小評価が見られた。また、睡眠ポリグラフ法とOuraリングを比較した研究では、入眠潜時、総睡眠時間、入眠後の覚醒に差はなかったが、2つの記録方法の間で睡眠段階の特徴に差があることがわかった[19]。Meltzerら[21]は、Fitbit Ultraは、特定の睡眠指標について、睡眠ポリグラフ法と臨床的に比較可能な結果をもたらさないと結論づけている。Montgomery-Downsら[22]は、Fitbitとactigraphによるモニタリングでは、睡眠ポリグラフ法と比較して睡眠と覚醒の状態を一貫して誤認していることを明らかにし、異なる年齢層の睡眠研究にこのようなデバイスを使用することの難しさを強調している。このようなウェアラブルは、睡眠研究に大きな期待が寄せられているが、その実用性に関しては、特に、睡眠自動化機能の精度、検出範囲、追跡信頼性など、さまざまな追加課題がある[23]。さらに、これらのウェアラブルを完全に臨床に導入するには、無作為化比較試験を含む包括的な研究に加えて、医師やコンピュータ、行動、データ科学者などの学際的な意見が必要である[24]。

既存の商用機器は数多く存在するため，それらの機器が特定の生理的パラメータをどの程度正確に捉えているかを判断するだけでなく，それらの機器が互いにどの程度較正されているかを判断することも重要である．このようにして、異なるデバイスを使用しているが同様の結果を測定している研究から得られた知見を、文脈に沿って比較することができる。Murakamiら[25]は、12種類のデバイスの総エネルギー消費量の測定能力をゴールドスタンダードと比較して評価した。その結果、ほとんどのデバイスはゴールドスタンダードと比較して強い相関（0.8以上）を示したが、その精度にはばらつきがあり、エネルギー消費量を大幅に過小評価または過大評価するものもあった。著者らは、ほとんどのウェアラブル機器がエネルギー消費量の有効な定量化を行わないことを示唆した。Xieら[26]は，6つのデバイスと2つのスマートフォンアプリを，様々な活動状態（安静時，ランニング時，睡眠時など）における主要な健康指標（心拍数や歩数など）の測定能力について比較した。その結果、エネルギー消費量を除くすべての健康指標において、デバイスは高い測定精度を有していたが、デバイスによってばらつきがあり、活動状態が異なる特定の指標では、特定のデバイスが他のデバイスよりも優れていることがわかった。睡眠に関しては、ゴールドスタンダードとして使用されたApple Watch 2の出力と比較して、デバイスの全体的な精度が高いことが分かった。Leeら[27]は、関連性の高い研究を行っている。この研究では、1～3日間の睡眠において、合計睡眠時間やベッドで過ごした時間などの主要な睡眠パラメータを取得する能力に関して、合計5つのデバイスと研究用加速度計の自己申告による睡眠との比較を行った。

3. 材料と方法

3.1. 研究設定

研究参加者は、マウントサイナイ医科大学アイカーン校内のハリス・センター・フォー・プレシジョン・ウェルネス（HC）および次世代ヘルスケア研究所の研究室で個別に登録された。研究参加者には、デバイスの返却時に100ドルのギフトカードという金銭的な補償が提供された。参加者は、登録時に研究チームのメンバーと面会し、同意プロセス、オンボーディング、およびベースラインの手順を完了した。残りの研究活動は、参加者とチームの交流を制限しながら、遠隔地で行われた。研究チームは、各研究参加者の参加期間中、電話または電子メールで遠隔地から連絡を取り、質問への回答や技術サポートを行った。本研究は、Mount Sinai Program for the Protection of Human Subjects (IRB #15-01012)により承認された。

3.2. 募集方法

参加者の多様性を確保するため、チラシ、機関内のEメール、ソーシャルメディア、機関関連のウェブサイト、研究と参加者のマッチングを行うウェブサイト、および紹介者など、さまざまな方法で参加者を募集した。

3.3. 対象者および対象外の基準

参加者は、18歳以上で、iPhoneにアクセスでき、モバイルアプリケーションやウェアラブルデバイスのインストールおよび使用に関する基本的な知識を持ち、書面によるインフォームドコンセントを提供し、研究手順に参加する意思と能力がある場合に、本研究に参加することができた。参加者は、色覚異常者、社会的弱者、同意と研究活動への参加を望まない人は、研究に参加する資格がなかった。

3.4. 入社時のアンケート調査

最初の訪問時に、参加者は4つのアンケートに回答するよう促された（補足S1～S4参照）。すべての質問票はSurveyMonkeyを用いて電子的に記入され、その結果は研究チームの暗号化された安全な電子データベースに保存された。

人口統計学的質問票（補足S1）は、基本的な人口統計学的情報を確認するためのものである。

36項目のショートフォーム健康調査（SF-36;補足S2）。SF-36は、身体機能、身体的健康による役割制限、情緒的問題による役割制限、エネルギー／疲労、情緒的幸福、社会的機能、痛み、一般的健康の8つの領域を評価するものである。SF-36は、およそ5～10分で完了する。

Morningness-Eveningness Questionnaire (MEQ; Supplemental S3)は、19問の多肢選択式の質問で、人の概日リズムによって覚醒度がピークに達するタイミングを検出するように設計されている。MEQは約5～10分で終了する。

Pittsburgh Sleep Quality Instrument（PSQI）は、前月の睡眠を評価する9項目の自己評価式質問票である。PSQIは、良好な睡眠者と不良な睡眠者を区別する感度と特異性を持つことが示されている。PSQIでは、数値が大きいほど睡眠状態が悪いことを示する。PSQIの記入には約5～10分かかる。

3.5. テクノロジーのセットアップとテスト

最初のスクリーニング訪問の後、参加者は自分のデバイスをセットアップして、1週間の研究を自由に始めてもらった（図1）。研究チームは，HS#15-00292「Pilot Evaluation Study on Emerging Wearable Technologies」で得られた性能とユーザビリティのデータに基づいて技術を選択した。各被験者には，スマートウォッチ「Fitbit Surge」（Fitbit社製，初代），スマートシャツ「Hexoskin」（Hexoskin社製，男性用，女性用，Classicデバイス），スリープパッド／システム「Withings Aura」（Withings社製，モデル番号「WAS01」），スマートリング「Oura」（Oura社製，初代）の4つの睡眠モニタリングデバイスが割り当てられた。なお、4つのデバイスはフォームファクターが異なるが、これは同時に使用しても干渉しないようにするためである。

図1　試験的に実施した睡眠調査の研究構成とデータ収集

(A) 睡眠試験のモニタリング手順とデータ収集方法の説明図。(B) 1人の被験者の一晩の睡眠状態を4つのデバイスで比較したデータ例。

各機器のセットアップは、参加者のiPhoneに対応するメーカーのモバイルアプリケーションをし、研究チームのカスタムHCアプリケーションをすることで行われた。参加者は、自分で購入してインストールする場合と同様に、各メーカーのソフトウェア利用規約に同意した。その際、参加者が署名した同意書に記載されているように、参加者は、メーカーが参加者の氏名、電子メールアドレス、所在地などの個人を特定できる情報にアクセスできることを認めた。HCアプリは、参加者がメーカーのアプリケーションと研究チームのデータベースとの間でデータを共有することを承認するためのポータルとして機能した。最初のセットアップ期間中、研究チームは参加者と協力して問題を解決し、データベースへの適切なデータ送信を確保した。

3.6. 睡眠モニタリングとデバイス固有のパラメータ

参加者は、7日間の連続したモニタリング期間中に、4種類の睡眠モニターを使用し、毎日評価を行った（図1）。モニターでは、生理的パラメータ（心拍数、心拍変動、呼吸数、体温、体動など)活動パラメータ（1日の歩数など)および睡眠関連パラメータ（各睡眠段階の時間、ベッドに入ってから眠りにつくまでの時間（潜時)全睡眠時間、一晩の起床回数（覚醒回数)睡眠の質（効率）の標準化スコアなど）を測定した。WithingsとOuraはともに、睡眠を次のように段階分けしている。WithingsとOuraは、睡眠を（1）覚醒、（2）軽度、（3）深度、（4）急速眼球運動（REM：図1）に分類している。Hexoskinは、（1）覚醒、（2）ノンレム（NREM)（3）レムの順に睡眠をステージ化する。Fitbitは、睡眠を（1）非常に起きている状態、（2）起きている状態、（3）眠っている状態に分類する。

3.7. 毎日の質問票とn-Backテスト

参加者は，7日間の試験の各日に，HCアプリを使用して，質問票と認知機能の評価を行った。これらには、n-backテストと自己報告式睡眠測定法（SRSM）が含まれる。

3.7.1. n-バックテスト

n-backテスト[28]は、高次認知機能／流動性知能に加えて、ワーキングメモリを評価するものである。参加者は、1日3回（朝、昼、夜)n-backテストを受けるよう促された。各テストでは，目，虫，木，車，鈴，星，ベッド，錨の8つの刺激のうちの1つの画像を含む20個の試行が連続して提示された。このとき，現在の画像のn倍後ろの画像と同じかどうかが問われた（n=1または2）．刺激は，20回の試行のうち，10回が一致し（刺激がn倍後ろの刺激と一致する），10回が不一致となるように選ばれた。参加者は500ミリ秒以内に回答を入力した。応答が入力されなかった場合，その試行は不正解とみなされ，新しい試行が提示された。n-backテストの所要時間は1回あたり約3分で、1日あたりの所要時間は合計10分以下であった。

3.7.2. SRSMs

参加者には、全睡眠時間、潜時（すなわち、入眠までの時間)開始から終了までの睡眠時間（すなわち、全睡眠時間と潜時を足したものを開始から終了までと呼ぶ）の推定値を求めた。参加者は起床時（1～2分）にHCアプリを用いてこれらの指標を電子的に自己申告した。

3.8.n-バックテストの採点

3.8.n-Backテストの採点各試行（すなわち，1日の午前，午後，夕方）において，参加者の応答時間と応答の正しさ／不正解を記録した。反応時間の中央値と正答率の4種類のスコアを，一致する項目と一致しない項目で層別して算出した。すべての反応時間を同じように扱い，参加者が正解した項目と不正解した項目に基づいて分割したり，重み付けをしたりしなかった。各参加者には，反応時間，問題の難易度，正解率からなる独自の得点関数（式（1））に基づいて，認知スコアを与えた。この指標は，n-backの結果に含まれる複数の要素のばらつきを考慮したもので，パフォーマンスをより正確に表すことができる。この指標の式は次のとおりである。

∑（1-反応時間最大反応時間）＊正解＊戻る歩数2n
(1)

3.9. スリープ・ステージングと指標の機器間比較

睡眠ステージングについては、各機器間の相関をエポック毎に比較した。他の3つのデバイスはこの分析に使用されたが、Fitbitは睡眠をステージ別に区分けせず、むしろ「眠っている」か「眠っていない」かを測定しているため、対象外とした。OuraとWithingsは4つの睡眠段階を追跡するが、Hexoskinは3つの段階を追跡する（セクション3.6参照）。したがって、今回の相関分析では、WithingsとOuraのNREM睡眠ステージを1つのカテゴリー（NREM）にまとめた。この変換により、今回の相関分析に使用した3つの睡眠段階は、以下の通りとなった。1）覚醒、（2）NREM、（3）REMである。睡眠段階が順序的であることから、Kendallの順位相関を用いて分析した。デバイス間の相関を比較するために、ピアソン相関を行った。具体的には、全睡眠時間（4つのデバイスすべて）とREM（Oura、Hexoskin、Withings）で、いずれも総秒数で比較した。また、SRSM、特に全睡眠時間とデバイスが生成する全睡眠時間（4つのデバイスすべて）との相関を、参加者一人あたりのすべての夜にわたって評価した。これらのデータの密度プロットでは異常値が見られなかったため、この分析にはピアソンの相関を用いた（図2）。

図2

A）デバイス別の総睡眠時間（全睡眠時間）（単位：秒）と自己申告による推定値（すなわち、自己申告睡眠メトリクス（SRSMs））の相関行列で、p値の有意性を示す（* p < 0.1; ** p < 0.05; *** p < 0.01）。各ポイントは、各参加者の各夜のデータを表す。AおよびBの対角線上にあるプロットは、関心のある睡眠指標（それぞれ全睡眠時間およびREM）の分布を反映している。

B）Oura、Hexoskin、Withingsの各デバイス間のREM睡眠（秒）の相関関係を、p値による有意性表示とともに示した（上図と同じ）。Fitbitは、レム睡眠とノンレム睡眠を追跡していないため、除外した。AおよびBの左下のプロットは、デバイス間の95%信頼区間を含むトレンドラインを示している。

C）Oura、Hexoskin、Withingsの各デバイス間の全体的な睡眠段階（覚醒、NREM、REM）の相関行列（FitbitはNREMとREMを区別していない）とp値の有意差表示（上記と同じ）。

3.10. デバイスデータとPSQIおよびn-Backスコアを関連付ける統計モデル

個々の睡眠機能をPSQIスコアまたはn-backスコアに回帰させる一連の一変量線形モデルを構築した。PSQIは、睡眠の質を追跡するもので、値が高いほど睡眠の質が低いことを示する。睡眠の質の一般的な表現として、各参加者のすべての夜の睡眠における各指標の平均値を用いて、利用可能なすべてのデバイスおよびSRSM（全睡眠時間およびレイテンシー）に対して1回限り報告されたPSQIの一連の単変量線形回帰を行った。これらのデバイス指標には、待ち時間、全睡眠時間（時間)起床（イベント数)効率、レム（時間）が含まれる。これらの分析では、データが不足していたため、1名の参加者が含まれていない。さらに、単変量線形回帰を用いて、デバイスとSRSMのデータに対するn-backスコアの比較を行った。各分析では、各タイムポイント（朝、昼、夜）のn-backスコアを、参加者ごとの各デバイス指標またはSRSM機能の平均値に回帰した。すべての回帰モデルにおいて、各タイムポイントで2日以上のスコアが報告されている参加者のみを分析した。これにより、朝、昼、夜のN-backテストでは、当初の21人の参加者のうち、それぞれ16人、19人、18人が残った。

3.11. 欠損データの分析

装置からの報告と自己報告の各項目の欠測の度合いを、装置の信頼性・品質と参加者のコンプライアンスの指標として分析した。また、試験の進行に伴い、機器側のハードウェアやソフトウェアの新たな進歩により、一部の睡眠機能が更新されたため、欠測データのプロットに含まれない欠測データの列が発生した。

4. 結果

4.1. 調査対象者の概要

表1は、21名の参加者（女性11名、男性10名）で構成された研究集団を示している。年齢の中央値は29歳（範囲：23～41歳）であった。PSQIスコアの中央値は4（範囲：1～12）であった。参加者のうち16名は普通の睡眠者、3名は眠りの浅い睡眠者、2名は非常に眠りの浅い睡眠者と分類された。MEQスコアの中央値は52（範囲：35-73）であった。表1の下部に、SF-36の8つのサブカテゴリーすべてのスコアサマリーを示した。さらに、コホートの人種的内訳は以下の通りであった。白人が17名、アジア人が4名であった。

表1

調査対象者の概要参加者の性別（M/F/O)PSQI（Pittsburgh Sleep Quality Index）による睡眠の質のベースライン評価（値が高いほど眠りが浅いことを示す)年齢、SF-36スコア（8軸による一般的な健康状態の評価)MEQタイム（1日のうちの最適な時間帯）を含む。

4.2. 睡眠段階と測定基準のデバイス間比較

表2は、すべてのデバイスが作成したメトリクスとSRSMの要約統計を示している。全睡眠時間は、すべてのデバイスと被験者自身（すなわち、SRSMの一部）によって報告された。図2Aは、全睡眠時間の相関行列を示している。相関は概して中程度から弱い（すべてのペアワイズ比較でρ＜0.7）が、驚くべきことに、SRSMと機器の推定値との相関は、機器自体の相関と同程度であった。図2Bは、Oura、Hexoskin、WithingsのREM睡眠（秒単位）サイクルの相関を示している（FitbitはREM睡眠の推定値を報告していない）。OuraとWithingsの相関はρ=0.44と最も高く、OuraとHexoskinの相関はρ=0.22と最も低くなっている。図2Cは、Withings、Hexoskin、Ouraの全体的な睡眠段階におけるKendallの順位相関を示している（セクション3.9参照）。これらの評価はすべて、p < 0.05のしきい値で統計的に有意であった。これらの分析によるp値を補足S5で報告する。

表2　デバイスデータとSRSMのサマリーメトリクス

Device	Metric	n	Mean	St. Dev	Min	Pctl (25)	Pctl (75)	Max
Fitbit	Efficiency	129	94.70	15.70	31.00	94.00	97.00	193.00
	全睡眠時間 All	129	7.47	1.47	3.78	6.50	8.43	11.40
	全睡眠時間	129	7.58	1.58	1.78	5.98	7.93	10.75
	Start-End	129	7.58	1.73	3.78	6.50	8.48	15.87
	Wakeups	129	1.60	1.20	0.00	1.00	2.00	8.00
Hexoskin	Efficiency	114	92.40	4.40	70.30	91.10	95.30	97.80
	全睡眠時間	114	6.72	1.31	3.45	5.78	7.81	9.69
	Start-End	135	7.57	1.42	3.93	6.57	8.58	11.43
	REM	123	2.15	0.57	0.69	1.77	2.53	4.12
	Latency	114	0.29	0.26	0.07	0.12	0.38	1.56
Oura	Efficiency	127	89.70	14.40	24.00	84.00	93.00	164.00
	全睡眠時間	128	7.69	1.72	0.42	6.73	8.75	13.48
	Start-End	130	10.67	11.63	4.62	6.97	9.55	117.60
	REM	127	2.17	1.11	0.00	1.29	2.81	6.38
	Deep	127	1.12	0.58	0.00	0.73	1.44	2.58
	Wakeups	127	2.40	1.90	0.00	1.00	4.00	7.00
	Latency	127	0.26	0.25	0.01	0.11	0.30	1.58
Withings	Efficiency	141	84.10	20.50	20.50	74.80	90.10	179.80
	全睡眠時間 All	141	8.99	2.89	0.53	7.45	10.12	27.03
	全睡眠時間	141	6.97	1.75	0.33	5.95	8.15	10.97
	Start-End	141	9.30	4.45	0.42	7.08	9.73	34.55
	REM	141	1.40	0.46	0.00	1.15	1.67	2.63
	Deep	141	1.74	0.58	0.00	1.42	2.15	3.67
	Light	141	3.83	0.98	0.33	3.22	4.45	6.03
	Wakeups	141	2.40	2.60	0.00	0.00	3.00	13.00
	Latency	141	0.32	0.36	0.00	0.08	0.42	2.37
	Wakeup Duration	141	1.38	2.14	0.03	0.53	1.50	17.48
SRSMs	Start-End	122	7.34	1.45	4.50	6.35	8.24	12.33
	全睡眠時間	122	6.91	1.56	3.00	6.00	7.78	15.00
	Latency	122	0.24	0.23	0.02	0.08	0.33	2.00

単位はすべて時間である。ただし、起床は発生回数と効率（単位なし）である。睡眠効率は、ベッドで眠っている時間の割合を示す指標である。全睡眠時間は総睡眠時間で、開始終了時間と似ており、待ち時間やその他の指標を含む同様の機能が利用された。

4.3. PSQI、認知スコア、SRSMとデバイスデータの比較

表3は、PSQIまたは認知スコア（午前、午後、夕方の各時点）を従属変数とし、参加者ごとのデバイス指標の平均値を独立変数とした一連の単変量線形モデルの結果を示している。PSQIの尺度（α=0.05で有意な閾値）で統計的に有意な関連性を示したのは、Oura社の全睡眠時間と睡眠効率の測定値のみであった（いずれもp<0.05）。いずれの場合も、全睡眠時間または睡眠効率の向上は、PSQIスコアの有意な低下と関連していた。PSQIは睡眠の質が悪いと上昇するため、これらの関連は予想される方向にある（より多くの睡眠またはより効率的な睡眠が、PSQIの向上または低下につながる）。Withings latencyは、午後の認知機能スコアと夕方の認知機能スコアでそれぞれp=0.016,p=0.013と統計的に有意であった。SRSMと認知スコアや全体のPSQIとの間には、有意な関連性は認められなかった。

表3　全タイムポイントにおけるPSQI（左）と認知機能スコア（右）に関する複数の単変量線形モデルの結果

PSQI関連モデルでは、独立変数を各参加者のデバイスデータの平均値とし、従属変数をPSQIとした。PSQIの値が高いほど、睡眠の質が悪いことを示しており、正の相関は、睡眠の質が悪いこととの関連を示唆している。認知スコア関連モデルでは、独立変数を各被験者の機器データの平均値とし、従属変数を認知スコアとした。認知スコアに関する一変量回帰のp値をタイムポイントごとに示した。これらの回帰に関連する統計情報については、補足S6～S8　単位は、起床（発生回数）と効率（標準化された指標）を除き、すべて時間である。

注：* p < 0.1; ** p < 0.05; *** p < 0.01.

4.4. 認知機能スコアと参加者のサマリーデータの比較

表4は、認知スコアを参加者のサマリーデータに回帰させた単変量線形モデルの結果である。朝の認知スコアに関しては、SF-36の身体機能サブカテゴリーとの間に有意な関連が見られたが（p=0.014)さらなる分析の結果、これは認知スコアが低いだけでなく身体機能も非常に低い外れ値が存在したためであり、この人物を除外することで有意な関連を取り除くことができた。SF-36の情緒的幸福のサブカテゴリーは、認知スコアとの間に有意な傾向（p = 0.078）が見られたが、これは個々のデータポイントを除外しても頑健であると思われる。その他の特徴は、朝の認知機能スコアと有意に関連しなかった。他のいくつかの特徴は、2つ以上の認知スコアのタイムポイントで統計的に有意（p < 0.05）であり、午後と夕方の認知スコアのタイムポイントで特徴の有意性が一致したことも注目に値する。表4）

表4

この一変量線形モデル集では、参加者のサマリーデータを独立変数とし、認知スコアを従属変数としている。認知スコアのタイムポイントごとの一変量回帰のp値を示している。これらの回帰に関連する統計情報については、補足S9～S11　これらの指標はすべて標準化スコアを表している。

注：* p < 0.1; ** p < 0.05; *** p < 0.01.

4.5. MEQの嗜好性と認知機能テストの回答率の相関関係

睡眠関連指標の欠測率を図3に示する。一般的に、ユーザーのコンプライアンス違反や機器の誤作動により、の多くが欠測となった。朝、昼、夜のテスト結果の回答率を層別化し、参加者のMEQセグメンテーションによって朝、中間、夜に分類したのが図4である。すべての時間帯において、朝を好む参加者の回答率が最も低いことがわかる。さらに、すべてのMEQ区分で午後の回答時間が最も高くなっていることがわかる。

図3　SRSMを含む睡眠の欠損をプロットしたもの

デバイスの様々な設定により、欠落データはデバイス間で非対称となっている。

図4　n-backテストの平均欠落データ

タイムポイント（午前、午後、夕方）およびMEQグループ（早期、中間、後期）別。

5. 考察

本研究の結果は、ウェアラブル機器やモバイルアプリを用いた研究の多くに影響を与えると思われる一般的な知見を反映している。第一に、登録者数が少なかったため、効果を検出する能力が低かった。この規模の研究集団で効果を検出するには、非常に顕著な効果が必要である。また、試験の告知、参加者の登録、試験の完了（機器やアプリの故障、機器の電池切れなどがないこと）にかかる労力は相当なものであった。参加者がすでに所有し、慣れ親しんでいる1～2台のデバイスを用いたシンプルな研究デザインが、大規模な研究を成功させる可能性が最も高いと考えられる。第二に、今回テストした機器にはかなりのばらつきがあり、どの睡眠試験でも機器の選択が結果に影響を与える重要な要因となっている。ある研究デザインにおいてどの装置が「好ましい」かを評価することは不可能であるとしても、このばらつきは、異なる研究間での結果の相互解釈性に影響を与え、メタアナリシスの試みを妨げる。本研究では、全睡眠時間について、先行研究[19]で睡眠ポリグラフ法との強い相関が示されたOuraが、Fitbit（0.51)Hexoskin（0.37)Withings（0.50）と中程度の相関を示したことがわかった。さらに，REMを追跡する3つのデバイスのうち，最大の相関はOuraとWithingsの間の0.44のみであった。最後に、今回のデータセットを用いたすべての統計解析において、欠測値と外れ値の存在が重要な検討事項となった。今回は試験的な研究であったが、これらの問題はすべて、より大規模なウェアラブルデバイスの研究にも当てはまると思われる。

5.1. 研究の限界

この研究にはいくつかの制限があった。まず，精神運動性警戒テストのような他の認知機能評価テストは含まれなかった。さらに、n-backテストは睡眠関連の研究においてワーキングメモリの評価によく用いられるが、本研究がパフォーマンスを評価するために導き出した特定の複合指標は、この点に関してこれまでに検証されていない。また、ストループテストをベースにした色と単語の関連付け課題を行ったが、回答率が低かったため、結果を分析することができなかった。また、市販のセンサーを使用したため、被験者の睡眠機器の出力を完全に遮断することができなかった。参加者には、SRSMの推定値を記録する際に、毎晩の機器の睡眠指標の出力をチェックしないように指示したが、そうすると回答に偏りが生じる可能性があった。本研究の最大の限界は、睡眠メトリクスのゴールドスタンダード、すなわち睡眠ポリグラフ法がないことである。睡眠研究は、睡眠ポリグラフ法の費用が高額であるため、多数の参加者を対象に実施することが極めて困難であることに留意すべきである。しかし将来的には、家庭用の安価な機器を組み合わせて、さまざまなデータを確実に記録し、結果を相互に確認できるようになれば、この分野は大きく発展するだろう。これは、個々のデバイスの測定値と睡眠ポリグラフ法の測定値とのマッピング機能を構築する上で非常に有益であり、その結果、これらのより単純なセンサーが、低コストで、参加者の自宅で睡眠ポリグラフ法の条件を正確に再現することができるようになる。このマッピング機能により、睡眠研究のコストを削減しつつ、参加者の募集を増やすことができる。

5.2. 認知的指標と自己報告式睡眠の質指標に関する検討事項

PSQIは睡眠ポリグラフ法のスクリーニング尺度としては不十分であることが示されている[29]。これは、自己申告による1回限りのPSQI睡眠品質の変動が、デバイスデータの多くでうまく説明されなかった理由を説明しているのかもしれない。しかし、Ouraリングの効率性と睡眠時間の測定値は、統計的に有意に1回限りのPSQIの変動を説明した。これらのOuraのトラッキング指標は、さらなる調査が必要かもしれない。また、トラッキング指標が不十分であったことや参加者数が少なかったことも、PSQIの変動を説明できなかったデバイスデータが多かった理由であることに留意する必要がある。SRSM、特に全睡眠時間に関しては、すべてのデバイス間で低いながらも（範囲：0.31-0.58)有意な相関が見られた（p＜0.05）。

流動性知能の指標としてn-backテストを使用することの証拠は、n-backと他の流動性知能テストとの間に低い相関があることを指摘する批評家もいて、論争の的となっている[30]。N-backテストの結果から得られた認知能力の指標と，参加者のサマリーデータから得られた結果は，統計的に有意な関連性を有していた。これは、より多くのサンプルを用いて調査するためのさらなる研究の方向性を示すものである。最終的には、これらの関係を理解するために、より高い統計的検出力が必要である。最近の研究では，睡眠不足や睡眠不足は，特に感情的なタスクにおいて局所的な障害を引き起こす可能性があることが示された[31]。このことは、流動性知能タスクに加えてウェルビーイングの指標を導入することを示唆しているかもしれない。特に注目すべきは、Withingsの待ち時間で、午後と夕方の認知スコアで統計的に有意であった（p < 0.05）。サンプル数が少なかったため、この結果の重要性は不明であるが、今後の研究では、この結果に基づいて、待ち時間と認知スコアをさらに比較することができればと思う。

MEQを3つのカテゴリー（初期、中期、後期嗜好）に分類して回答率を調べれば、今後の研究計画の参考になるだろう。すべてのMEQグループにおいて、n-backテストの回答率は午後に最も高くなった。このことから、重要な調査は、可能であればこの時間帯に実施すべきであると考えられる。もう1つの注目すべき発見は、「遅い時間帯を好む」参加者は、午前と午後の平均で、n-backテストの回答率が最も高かったことである。この結果は、回答率を上げるためには、遅い時間帯を好まない参加者には、さらなる動機付けが必要であることを示唆している。

6. 結論

本研究では、4種類の睡眠追跡装置の重要な睡眠指標間の相関関係を報告し、その結果を自己報告式のアンケートおよび認知的指標（特にn-back）と関連付けた。参加者の登録とエンゲージメントが困難であったことから、リクルートデザインと参加者エンゲージメントデザインに関する新しいアイデアが生まれた。Apple社のReasearchKitやHealthKitなどの既存のテクノロジーを活用することで、遠隔地からのリクルート（ResearchKitにはe-consent機能が搭載されている）と電子カルテ（EHR）の共有という2つのメリットが得られる。これをさらに、HealthAppに存在する追加のデータストアと組み合わせることで、参加者の適格性スクリーニングを改善することができる[32]。処方されたアンケートや能動的なタスクのデータが欠落していることを考慮して、できるだけ多くの受動的な収集方法の使用を推進している。そのような選択肢の1つとして、スマートミラー[33]がある。これは、データ（例えば、画像）収集のためにスマートフォンを使用するよりも受動的になる。最後に、デバイス間の相関性が弱いことは、エンドユーザーの正確な解釈とデータのポータビリティに新たな課題をもたらす。様々な研究で得られたデバイス固有の知見は、互いにどのような文脈で捉えられるのであろうか。今回の研究結果は、堅牢で正確な結論を得るためには、機器間での睡眠関連指標の標準化が必要であることを示唆していると思う。