Contents

Lecture of Prof. John P.A. Ioannidis “Scientific evidence: reproducible and useful”
- - 0:08
  - 4:27
  - 9:28
  - 13:00
  - 16:58
  - 21:27
  - 26:09
  - 30:46
  - 35:18
  - 40:10
  - 44:10
  - 48:55
  - 53:18

Lecture of Prof. John P.A. Ioannidis “Scientific evidence: reproducible and useful”

ジョンP.A.ヨアニディス

0:08

（ドイツ語）、私が今後3年間でドイツ語を上達させる予定であることが書かれています。それだけでなく、研究のやり方を改善しようとしているこの分野で働いているたくさんの素晴らしい人々から学ぼうとしています。ですから、この講演は英語で行います。

科学は明らかに、ホルモン中毒でサッパリしたセルビア人に起こりうる最高のものです。しかし、研究を行うことは非常に困難なプロセスです。研究は再現性がなく、役に立たないかもしれません。再現性があっても、役に立たないかもしれません。理想的には、再現性と有用性の両方を兼ね備えたものであるべきです。

未解決の問題は、再現性がなくても有用であることはあり得るのかということで、これらの可能性を検討してみました。科学的発見は簡単で、誰もが毎時とは言わないまでも毎日のように新しい発見を待っている。この物語は、しばしばいくつかの衝動と共存しています。ひとつは「急ぎたい」という衝動です。例えば、無作為化試験ではなく、日常的に収集されたデータを使って、データのためのデータを作り、データに金銭的価値を与えるなど、方法論的にずさんなものになります。

現在、地球上で最も高価なものは、おそらくデータだと考えられています。そして重要なのは、重要でない努力のために肉としての再現を避けることです。このような視点は、芸術における美学のサイクルで見られるものと同じだと思います。一方はオリジナルで、偉大な巨匠の作品であれば数百万ドルの価値があります。もう片方がコピーであれば、2ユーロで買って、寝室やトイレなど好きな場所に飾ることができますよね。それには何の価値もありません。それはただのレプリカ、ただの再現なのです。

さて、それは本当でしょうか？少しモデル化して、発見の価値と再現の価値をモデル化してみましょう。これは、発見の価値を表す方程式です。これは、真の陽性から陽性のためのhを引いた値に比例し、あるいはr×ベイズ因子からhを引いた値に相当し、rは研究前の研究成果の確率です。検索して多くの分析を行っている場合、ベイズファクターは、発見データによってもたらされるベイズファクターです。Hは、偽陽性の発見クレームによるマイナスの影響と、真の陽性の発見によるプラスの影響の重みの比率で、かなり分野に依存します。

もし私が、発見できるものがほとんどない分野で仕事をしていたら、行き詰まってしまうでしょう。私は間違ったキャリアを選んでしまったのです。でも、それはそれです。それが自然なのです。もし私が幸運にも発見すべきことがたくさんある分野を選んだとしたら、それもまた幸運でした。しかし、これも自然の摂理です。また、結果の比率はその分野に特有のものであり、分野によって異なることは明らかです。私たちが変えることができるのは、基本的な要素として、私たちが研究調査のパイプラインから得ようとした研究のデータの情報内容です。

4:27

このフレームワークでは、多くの発見は、再現されない限り科学的価値がないかもしれません。より大規模な研究を行い、結果の信頼性を損なうようなバイアスからより確実に保護することで、ベイズ係数を高めることができるかもしれません。しかし、負の値を避けるためには発見の全体的な価値のためには、ベイズ係数がRのh以上である必要があります。そして、様々な科学分野で考えてみると、アプリでは不可能ではないにしても難しいことにすぐに気づくでしょう。また、我々の値、つまり研究前のオッズが実際にはあまり高くない状況に対処することが多いです。よりエキサイティングな分野では、r値が非常に低い場合があります。つまり、成功することは難しいが、到達することは非常に興味深いということです。ですから、科学的妥当性を高めるためにも、さらには、科学的妥当性の最低基準を設定するためにも、再現性が必要なのです。再現性のある研究、複数の研究、複数のアプローチ、またはその両方が必要なのです。

再現性には、人々が全く異なる意味で使用する混乱した用語が使われています。再現性には、それ自体が再現性であり、再現があります。しかし、再現には、正確な再現や概念的な再現など、さまざまな種類があります。再分析や再現性もあります。裏付け、三角測量などがあります。また、文献に出てくる他の用語もあります。これらの用語のほとんどは人気を博しており、人々はさまざまな意味合いで使用しています。これはいくつかの経験的なデータですが、「結果の再現性」という言葉やそれに似た言葉、あるいは科学の主要22分野すべてにおける研究の再現性を見てみると、この用語の使用率は時間の経過とともに増加しています。

しかし、再現性といっても、その意味するところは大きく異なります。大きく分けて、「結果の再現性」「方法の再現性」「推論の再現性」の3つがあります。方法の再現性とは、データ、ソフトウェア、スクリプト、方法論的ツールのことで、これらを組み合わせれば、まったく同じ研究でも、1つの実験や研究から同じ結果を再現できるはずです。私たちが検証しようとしているのは、主に計算上の現象です。結果の再現性は、おそらく多くの人が使っている「他の研究での再現性」という言葉に近いと思います。そこで問題になるのが、まったく同じ研究をするのかということです。全く同じ研究をすることができるだろうか？少しでも逸脱したいのか？少しとは何でしょう？かなり乖離させたいのか？もし大きく逸脱した場合、同じ結果が得られたのか得られなかったのか、その多様性の原因が逸脱にあるのかどうかをどうやって知ることができるのでしょうか？

最後に、推論の再現性とは、同じような強さの知識を主張することであり、逆に、非常に異なる強さや意味合いの知識を主張することもよくあります。ある証拠や研究結果があったとして、それを100人の人に聞いてみると、非常に熱心な人もいれば、もっと懐疑的な人もいますし、時には極端に懐疑的な人もいます。1つのフィードは、1つのサイズがすべてに合うわけではありません。すべての科学に渡って。再現性のある研究が何を意味するかについては、分野ごとに違いがあります。求めている決定論の度合いは何か、収集しているデータの種類に固有の信号対測定誤差比は何か、設計と測定ツールの複雑さ、仮説と実験設計とデータの適合性の近さ、仮説を検証するための統計的・分析的手法、実験結果の典型的な不均質性、再現性や透明性、知識を蓄積する文化があるかどうか、主張やデータの解釈にどのような統計的基準を用いるかなど、分野によって異なる目標があるかもしれません。そして最後に、それは単なる好奇心なのか、それとも応用が利くものなのか、人間の生活に影響を与えているのか、地域社会に影響を与えているのか。

9:28

正しい結論を得られなかった場合、誤った結論の結果はどうなるのでしょうか？科学は、複数の銀河からなる広大な宇宙です。これらの銀河の中には、お互いによくコミュニケーションをとっているものもあれば、非常に離れた場所にあり、もしかしたら一度も手を組んだことがないものもあります。それは、それぞれが異なる方法を使っているということでしょうか？私たちは皆、科学的方法を使っています。

しかし、その宇宙の各銀河は、科学的方法の異なる側面に興味を持ち、科学者のある側面を守ることにもっと熱心かもしれません。他の銀河と比較して、大きなメソッドは、かなり離れた場所にある分野の銀河であっても、共同プロジェクトでコミュニケーションをとることもなければ、会議に参加したこともなければ、プロの学会に参加したこともありません。彼らが直面している問題のいくつかは非常に似ているかもしれません。似ているということは、その解決策も同じか、また似ているのではないかと考えられます。

例えば、神経科学、心理学、認知心理学、あるいは関連する医学分野の多くは、ほとんどが非常に力不足の小規模な研究を行っており、偽陰性、偽陽性、偽陰性の両方において、非常に疑わしい推論につながる可能性があることに悩んでいます。経済学は、科学の世界では何光年も離れていますが、観察経済学に関しては、非常に似たような問題を抱えているようです。非常に複雑な問題を扱う非常に小規模な研究では、信頼性の高い結果を得るための最小限の力さえも得られないことが多いのです。大規模にレプリケーションを採用している分野がある場合、レプリケーション文化を採用する前に主張されていた研究結果はどうなったのか、とさかのぼって質問することができます。

私の経験では、再現文化を採用した分野では、再現文化を採用する前に遭遇した、当初主張していた統計的に有意な効果のほとんどが、偽陽性または実質的に誇張されたものであることがわかりました。このような分野では、再現が風光明媚なものとなりました。

私たちが力を合わせて、大規模なコンソーシアムで大規模なゲノムワイド関連研究を行うことにしたとき、過去にさかのぼって、カンダ遺伝子時代のオリジナルの出版物が、ネイチャーやサイエンスなどの一流専門誌に何万もの論文を掲載していたときの再現率はどうだったかを調べてみたところ、再現率は1.2％でした。

他の多くの分野では、このような再現文化への移行は見られません。遺伝学者があまりにもひどく、どのような仮説を立て、どのような研究対象を選んでいるのかがわからなかったのではないかと考えられます。逆に、栄養疫学はとても賢く、遺伝学者の100倍も賢く、ターゲットを選んでいるとか、他の分野が他の人よりも優れているとか。

13:00

前臨床研究においても、再現革命が起きています。というのも、アカデミック・メディカル・センターがトップジャーナルに掲載した多くの研究成果は、産業界の手で再現するのは非常に難しいようです。産業界では、これらの研究成果をもとに新たな治療法を開発し、市場に投入しようと多額の資金を投じていましたが、それが実現できなかったのです。そのため、前臨床研究の再現性チェックでは、ほとんどのシリーズで成功率がゼロから20 25%となっており、アムジェン社の癌治療薬ターゲットプロジェクトの画期的な研究でも6件または53件しか再現できなかったという、今回のような主張につながっています。

結論としては、がんとの戦いに勝てないのは、様々な要因のせいだとされてきた。この5年間、心理学は多くの反省をし、再現性、再現性の変革を行ってきました。皆さんは、オープン・サイエンス・コラボレーションの活動をご存知でしょう。これらの結果は、非常に異なる方法で読むことができます。しかし、およそ3分の2の割合で、60％またはそれ以上の割合で、当初の主張とその後の再現性チェックが一致していないようでした。そして、その効果の大きさは、平均して元の研究で観察されたものの半分よりも少し小さいものでした。

ここでは、Science誌とNature誌に掲載された論文を対象とした、社会科学全般における再現性への取り組みを紹介しています。これらの雑誌はインパクトの強いトップジャーナルであり、掲載される研究のフィルタリングがうまくいっていて、より信頼性が高いのではないかと思うかもしれませんが、実際には、平均効果サイズは、サイエンスやネイチャーに掲載された元の論文の約半分です。また、2つのグループに分かれているようです。そしてもう一つのグループは、平均して元の効果の約75％が再現性のある研究で見られるというものです。

つまり、何かが存在しているように見えるのですが、平均して元の効果に比べて小さいのです。それは、真の多様性の問題なのでしょうか？お見せしたシリーズの実験を非常に注意深く、できるだけ正確に再現しようとしているにもかかわらず？もちろん、新しい実験は新しい実験ですから、同じものはありません。では、多様性のうちどれだけが本物か？そして、そのうちどれだけがバイアスなのか？元の研究のエラーや偽信号を反映したものはどれくらいあるのでしょうか？

あるいは、再現性のチェックが間違っているのかもしれません。私たちはまだ表面をなぞっているだけだと思います。しかし、多くの研究室で実験を行った結果、貴重なデータが得られました。再現性を高めるための努力を1回だけ行うのではなく、複数のチーム、複数の研究室が結果の再現を試みたところ、再現性は半分と半分、半分は空、半分は満ちているというよく似た結果が得られ、研究室間でかなり一貫した結果が得られました。

つまり、再現性の試みでラボごとに異なる結果が出たからといって、ばらつきのほとんどが説明できるわけではありません、多少のばらつきはあるかもしれません。しかし、主な要因は、一度オリジナルと一致しないと、ほとんどの場合、すべてのラボがオリジナルと一致しないということです。もしオリジナルと一致した場合、ほとんどのラボがオリジナルの主張に一致します。

16:58

アートの例に戻りますが、これがオリジナルです。これはAndrea mundaneum、ルネッサンス期の最も偉大な画家の一人で、キリストの神殿への訪問を描いた作品がGmailのギャラリーにあり、歩いて行ける距離にあります。ですから、オリジナルは本当に素晴らしいです。しかし、Gmailギャラリーでは、モンタナやベッリーニの素晴らしい展覧会が開催されていますが、これはジョヴァンニ・ベッリーニという、ルネッサンス期の素晴らしい画家です。これはベニスにあるオリジナルで、比較のためにベルリンに持ってきたものです。これらを並べて見てみましょう。非常によく似ていますね。そして2人とも芸術の歴史の中で非常に重要であり、影響力を持っています。

実際に何が起こったかというと、ビリーニはマンデラ氏が行ったことをそっくりそのまま再現しようとしたのです。そして、この2つの絵を重ね合わせると、中心となる6人の人物の絵が全く同じになっているのです。では、なぜそうなったのか？まあ、家族的な理由があったのかもしれない。つまり、処女の原型は、モンタナの妻であり、ベッリーニの妹でもあるニコラ・ツィアだったのかもしれません。また、ベッリーニはもう少し追加しているのがわかるかもしれません。完全な再現ではなく、2、3人の人物を追加していますし、家族も追加しているかもしれません。このように、どちらの作品も非常に価値があり、どちらもオリジナルなものです。一方が先に作られ、もう一方が後から作られたとしても、どちらも同等に見られるべきだと思います。芸術は個人主義であり、最も独創的で珍しい創造性を追求するものです。科学では、より客観性が求められるのに、なぜそうならないのでしょうか。

そして、バイアスを発見することは非常に困難です。バイアスに対処する1つの方法は、同じ問題を調べた複数の研究を見て、その結果を比較し、その結果の違いが、バイヤーの特定の操作方法を示唆するパターンと一致するかどうかを確認することです。そこで私たちが行ったのは、次のような作業です。私たちは、あらゆる科学分野でメタ分析が行われたと思われる状況をすべて集めました。

つまり、ある研究が同じ質問を扱うほど似ているので、同じ山にまとめて分析したのです。そして、もしバイアスがこれら17の異なる方法のいずれかで作用しているとしたら、ある研究と別の研究の結果を比較したときに、平均してどのような違いが見られるだろうかと考えました。シグナルを選べばバイアスがかかっているということではありません、特にその種のトピックでは。しかし、何百、何千ものトピックを調べて、何らかの永続的なパターンが見られれば、その分野ではこの種のバイアスが働いているのかもしれません。

小規模研究効果とは、大規模研究に比べて小規模研究の方がより強い効果の大きさを示す傾向があるというもので、社会科学分野では非常によく見られる現象です。生物医学・生物学分野ではよく見られます。しかし、非常に大きなサンプルサイズの観測データを用いて共同で実験を行い、巨大な望遠鏡のデータセットや素粒子物理学で観測された数十億個の粒子の衝突に関するデータを共有することに慣れている物理科学では、この現象は珍しいものです。

バイアスには、すべての科学分野で一貫したものもあれば、より特異なものもあります。そこで問題となるのは、潜在的なバイアスをマッピングして、対応を調整することです。それぞれの科学分野のパフォーマンスを最適化し、同時に複数の分野のパフォーマンスを最適化することができるのでしょうか？

21:27

なぜそれが必要なのか？単なる好奇心からではありません。多くの科学分野において、私たちは本当に科学から実用性を得ることを期待しています。科学は医療において私たちの生活を変えてきました、これは大きな成功でした。特にここ2、3世紀の間に寿命が急速に延びましたが、その成功の一部はおそらく科学の成功に起因しているはずです。

しかし、翻訳はほとんど氷河期のようなペースで進んでいます。臨床研究の最高級品、つまり生物医学文献全体で最も引用されている論文を取り上げ、それぞれ1000以上、時には数千以上の引用を受けている論文を取り上げ、最初の基礎科学的発見からその地点に到達するまでにかかった時間をマッピングしてみると、ここでは赤い縦線で示されていますが、平均して25年かかっています。

一酸化窒素のように、約200年かかったケースもあります。例外もありますが、HIV感染症の3剤併用療法のように、プロテアーゼ阻害剤が合理的なドラッグデザインで開発されてから、無作為化実験や無作為化臨床試験で生存率に大きな効果があるという結果が出るまで、わずか4年しかかかりませんでした。

私はactg 320に参加しました。私は当時NIHにいましたが、大規模な臨床試験で、これまで避けられなかった致死的な病気の死亡率が大幅に減少したことを目の当たりにしたときの興奮は、今でも忘れられません。どうすればこのような成功をより多く得ることができるのか、HIV治療が効果的であるというようなポジティブなストーリーを得るためにはどうすればよいのか、他の多くの状況では何年も何年もかかるのとは対照的に、見た目には非常に良い結果が得られ、大きく引用されたように見える研究であっても、その後に行われたさらに大規模な研究によって反論される可能性があるのです。

これは、高く引用された臨床研究で発見された主張が、さらに優れた大規模な研究によって実際には支持されなかった状況を示しています。ですから、有用な研究が必要なのです。しかし、有用性を得るのは簡単ではありません。それは再現性だけではありません。再現性のある研究、つまりある現象を何度も見ることができる研究はあっても、それを利用することはできないかもしれません。

役に立つ研究かどうかを判断するには、どうすればいいのでしょうか？それには8つのルールがあります。まず、医療や健康の分野で解決すべき問題があるかどうか。対して、私たちは、存在しない、気にする必要のない新しい問題を作り出しているだけではないでしょうか。私たちが作り出す多くの情報は、人々が心配すべきだが、もしかしたら心配すべきではない新しい状況を作り出していることが非常によくあります。私たちはある意味、みんなを病気にしようとしているのかもしれません。

しかし、これが良い戦略なのかどうかはわかりません。コンテキストの配置、これまでの研究に基づいてすでにどれだけのエビデンスがあるのか？そして、本当に新しい研究が必要なのでしょうか？多くの場合、再現が採用されるようになったと言いました。

しかし、あまりにも再現性が高すぎるために、同じ研究が何度も繰り返され、実際には一歩も先に進まないということが蔓延しているように見えることがあります。そのような場合には、同じ研究はまだ必要ないのではないかと思います。

時には、メタ分析が大量に行われることもあります。全く同じデータに対して100以上のメタ分析が行われているトピックもあります。提案されている研究は、十分な情報を提供するのに十分な規模と期間であるか。そして、もし私たちの研究が現実の生活から本当に乖離していたとしても、それは問題ではないのか？

現実の生活に適用できる結論を出すことができるか。私たちは、患者の優先事項に関心を持っているか？患者に何をしてほしいか聞いたことがあるか？患者さんにとって重要なことは何でしょうか？それとも、私たちが恣意的に優先順位を決めてしまい、患者さんが気にしていないということでしょうか？

その研究はお金をかける価値があるのか？評価されることはほとんどないのですか？

莫大な資金を費やしている分野もあれば、おそらく資金不足の分野もあり、彼らの可能性はその資金のために起こっていることとは逆になるでしょう。

26:09

視認性。外科手術の無作為化試験の約3分の1は、患者や参加者の募集に関して何ができるかを予想できなかったために中止されています。

そして最後に、透明性ですが、これは信頼性の問題に戻ります。方法を信頼できますか？データは信頼できるのか？分析は信頼できるのか？検証可能であるか、偏りがないか。経験的な研究によると、ほとんどの臨床的証拠はあまり良い品質ではありません。

そして、ほとんどの臨床的証拠は、おそらく有用ではありません。例えば、コクラン・データベースに登録されている医学全般を対象としたシステマティック・レビューを見てみると、1年半の間に発表された1400件近いシステマティック・レビューのうち、グレード評価（推奨評価、開発、評価）が行われていたのは43％だけで、その他のほとんどは最初からエビデンスがなかったのです。

エビデンスがなければ何を評価するのかというと、グレードです。最初に挙げた主要アウトカムのエビデンスの質が高かったのは13.5%だけで、エビデンスの質が高くても、有意な結果や、この介入は十分に使えるというような介入の好意的な解釈を求めても、そのようなケースは25件しか見つかりませんでした。どうすればこの状況を改善できるでしょうか？

たくさんのアイデアがあり、たくさんの研究方法が試されてきました。そのうちの多くはすでに大きな成功を収めています。問題は、どうすれば成功例を、まだ試していない他の分野にも移植して、同じような運用パターンで利益を得ることができるかということです。また、特定の分野で試みられたものの、まだ少数の研究にとどまっている成功した研究手法を、どのようにして拡大していくか。これは、真の研究成果を得る割合を増やすのに役立つと思われる、12種類の研究慣行です。

これらには、大規模な共同研究、再現の採用、文化、研究、プロトコル、解析コード、データセット、ロードデータ、結果の様々なレベルでの登録、データプロトコル、材料、ソフトウェア、その他のツールの共有、再現性の実践と再現性チェック、対立するスポンサーや著者の封じ込めより適切な統計解析などがあります。また、研究デザインの基準の改善、ピアレビューの改善、研究の報告と普及、デザインと統計の手法とリテラシーに関する科学技術者のトレーニングの改善などが挙げられます。

大規模な共同研究は非常に有用であり、素粒子物理学から宇宙物理学、ゲノミクスに至るまで多くの分野で成果を上げています。小規模なチームが力を合わせていたのが、より大規模なチームやコラボレーションの構造に移行するとき、時にはショックを受けることがあります。私の経験では、このようなコラボレーションを始めようとしたとき、最初に問われるのは、「この分野で古典的なものを再現できるか」ということです。

私が数十年前に遺伝学の共同研究コンソーシアムで研究を始めたときのことを思い出してみてください。そして、古典は再現できないということをコミュニティに納得してもらうためには、特別な努力が必要でした。しかし、この道を歩み続ければ、より信頼性が高く、より一貫性のあるものが見つかるでしょう。そして、より信頼できるものを見つけることができるでしょう。しかし、現場が一変するような過渡期は、ある意味で耐え忍び、生き残らなければならないものです。願わくば、新しい方法でより一貫性のある信号を見つけられれば、それが本当に助けになると思います。

30:46

登録のレベルは様々です。すべての研究が事前に登録されるべきだと主張しているわけではありませんが、探索的な研究はたくさんあります。いくつかのノードは残しておきましたが、これは誰かが再現性を試してみたいと思うかもしれません。研究の一部を登録することを含む他のレベルもあります。1つのレベルはデータセットを登録することで、私はそれを自分の核兵器を説明するように表現しました。

つまり、1兆個のデータポイントがあるということです。そして、私はこの何十億ものP値をあなたに対して打ち出すことができるのです。今夜、私がボタンを押せば、それはデータセット内の危険なコンテンツの量を説明するようなものです。レベル2はプロトコルの登録。レベル3は解析計画の登録ですが、これはプロトコルとは別物と考えています。なぜなら、プロトコルには解析計画がないことが多いからです。

レベル4は、分析計画と道路データの両方を登録することです。そしてレベル5は、オープンなライブストリーミングで、これから行われるすべてのことを他の科学者たちと共有します。翌日にはフィードバックがあり、そのフィードバックに基づいて修正されます。そして、実験が行われ、科学者のコミュニティにフィードバックされ、次のステップに進むためのさらなるフィードバックが得られます。ある程度の計画性がないと、世界最高の科学者が使っている研究デザインであっても、ほとんどどんな結果も得られるのではないかと心配になってきました。そして、それは非常に危険で、ほとんど馬鹿げたことになっています。

私自身の研究でも、私が入手したデータセットでそれを目の当たりにしました。他のデータセットでも同じことが言えるとは思えません。私はこれを「効果の振動」という言葉で表現していますが、これは1つの効果ではなく、効果が振動して大きくなったり小さくなったり、元々の1つの結果とは全く逆の結果になったりすることを意味します。全く同じ質問に対して、全く同じデータセットから反対の結果が得られた場合、私は、ギリシャ・ローマ神話の「見ることができる神」からゲイネス現象という名前を反対方向に変えてしまったのです。

ここでは、アメリカのNational household surveyの一例を紹介します。αトコフェロール・ビタミンDレベルと死亡リスクの関連性について、右端のプロットを見ると、横軸にハザード比、縦軸にマイナスlog10のp値があります。このプロットには100万個のデータポイントが示されています。100万個のデータポイントを得る方法は、潜在的な死亡率に影響を与える可能性のある他の項目が少なくとも19個あるということです。

そのため、それぞれを含めるか含めないか、2つの選択肢があるのです。つまり、2対19の場合、約100万種類のモデルが存在することになります。これらのモデルの70％は、ビタミンEが死亡リスクを減少させると結論づけます。

これらのモデルの30％は、ビタミンEが死亡リスクを増加させると結論づけます。つまり、何らかの事前規定がない限り、何らかのルール、ガイダンス、現場でのコンセンサスがない限り、ビタミンEは死亡リスクを減少させると結論づけられます。

つまり、データを実際に見る前に、データを調査したり弄ったりする前に合意された、何らかの事前仕様がない限り、ほとんどいつでも望むような結果を得ることができるのです。

このように、科学雑誌やニュースなどで、絶えず矛盾した情報が飛び交っているのが、多くの分野で見られることだと思います。ニュースでもそうです。これは、アラスカの全科学文献の中で、ウルトラメトリック・スコアが20位以内に入った論文です。これです。基本的には、1日3杯のコーヒーで、死亡リスクが17％減少するという結論です。私は研究者たちにデータを提供することを公約しています。そして、1日3杯のコーヒーで死亡リスクが17％増加することをお見せします。

35:18

時には、分析モデルが非常に大きな影響力を持ち、無作為化試験のような一見厳密な研究デザインであっても、潜在的な交絡因子の調整を気にする必要がないと思われますが、データを分析する人やデータの分析方法によっては、異なる結果が得られることがあります。

有名なのは329試験で、青年期の大うつ病の治療にパロキセチンとイミプラミンを用いた試験です。これは、2001年に発表された研究です。スミスクラインによるものです。この研究では、どちらの抗うつ剤も非常に有効で、安全であると結論づけられています。そして15年後、独立した研究者が全く同じデータセットを見て、同じ質問をして、これらの抗うつ剤はどちらも効果がなく、深刻な害があると結論づけました。

最初に研究されたのと全く同じ集団で、異なる患者ではなく、全く同じ患者で、全く同じデータセットで、これらの抗うつ剤が思春期の患者にとって本当に素晴らしい介入であることを示したい理由のないチームが分析しただけです。再分析のために元のデータを手に入れることができる機会がどれだけあるでしょうか？

状況は変わりつつあると思います。もし私がこの質問に答えるとしたら、3年前に同じホールで講演をしたときでさえ、私たちは苦労していて、ごく少数の例外を除いて臨床試験の生データをほとんど持っていないと言うでしょう。しかし、この3年の間に、大きな変化がありました。例えば、プラスワンやBMJのようないくつかの雑誌は、臨床試験を発表するためには、ロードデータを誰でも利用できるようにするという方針を採用しています。

そこで私たちは、BMJやpaws medicineに論文を発表したすべての研究者に、この新しい方針に基づいてデータを共有するよう依頼しました。そして、彼らのデータを再解析して、元の論文で取り上げたのと全く同じ結論、同じPicoの同じ臨床的疑問を得たのです。つまり、329試験の経験を複数回繰り返したのですが、データを共有した研究者は約50％、正確には46％で、半分埋まっているか半分空になっているかの違いです。

しかし、5年前の私の経験と比較すると、明らかに改善されています。また、いくつかの分析結果に誤りがあることもわかりました。しかし、そのどれもが、調査全体の結論を完全に無効にしてしまうような、3329件のような驚くべきものではありませんでした。これは厳選されたサンプルであり、このような方針を持つジャーナルからのものであり、共有することを望んでいる調査員からのものであり、彼らが共有したデータです。

願わくば、自分が発表したものとは全く異なる結論を導くようなものを送らないように、最後の最後まで確認したのではないでしょうか。しかし、このようなことができるパラダイムがあることを示しています。効率的に行うことができるのです。このような分析は、非常に短時間でできるものもあります。誰がそんなことをするんだ、時間がかかるじゃないか、という声を聞いたことがありますが、そんなことはありません。計画を立てれば、あっという間にできるのです。

例えば、「Nature」や「Science」に掲載された論文の再現性を高める取り組みです。なぜなら、独立した研究者がすべてを再実行するために実行しなければならない特定の計画、特定のコードがあったからです。メトリックビートのためにベルリンにフルタイムで滞在するトム・ハードウィックとともに、共有するための障害はまだあります。今日はトムも来ています。私たちは、心理学や精神医学の分野で最も影響力があり、最もインパクトがあり、最も引用されている論文の生データを見つけようと分析を行いました。

そこで私たちは、これらの非常に影響力のある論文のために、データアークと呼ばれるものを作ることを目指しました。少しは成功しましたが、期待したほどではありませんでした。これらのデータのいくつかはすでに利用可能で、さらにいくつかのデータセットがデータアークに寄稿されましたが、寄稿されたときのほとんどはこれらのデータは、誰でも自由に使用することができます。

私たちが使用できるようになったのは数回だけですが、少なくとも、人類がセンサーの中で消えてしまったとしても、機能を維持できるように作られたリポジトリに、何らかの形でサルベージすることができます。もし異星人がこの惑星を訪れたとしても、データベースが残っているシステムに出くわすことができるというわけです。それはちょっと言い過ぎかもしれませんね。しかし、それがこのシステムの論理的根拠なのです。

40:10

では、検索できなかった残りの研究の理由は何だったのでしょうか？多くの場合、共有するかどうかの決定は研究者がコントロールできないものでしたが、これはとても心配なことです。これは非常に心配なことです。特に産業界との共同研究では、研究責任者が自分のデータを管理できないことが多いのです。誰かがデータを分析したとしても、信頼関係があるため、実際にはデータを見たことがないということもよくあります。

しかし、4つの事例を紹介しましたが、その信頼契約がそれほど安全に結ばれているとは限りません。法的、法律的、倫理的な問題がある場合もありますし、その言い分も受け入れられます。しかし、新しい研究をデザインする際には、その点を考慮して、データの利用率が最大になるようにする必要があります。

また、特に患者に関連する研究の場合は、データを利用できるかどうかを慎重に検討する必要があることを人々に伝える必要があります。場合によっては、研究者が独自の共有システムを準備していることもありました。2025年前のLancet誌に掲載された古いパラダイムのように、データがシロアリに食われてしまったこともありましたが、それは研究者がリソース不足を正当化したものでした。

そして最後に、データを利用する研究者。何年も前に行われた研究であっても、研究者はまだデータを使用しており、本当に使い終わるまで共有しないのです。非常に影響力のあるデータセットで、研究者が1000本以上の論文を発表したにもかかわらず、まだ使い終わっていないものもたくさんあります。ですから、私は、データセットを使って自分がまだ作業を続けられる境界線を決める必要があると思います。

最近、私たちは『in science』誌に論文を発表しました。そこでは、ゲノミクスやその他の関連分野において、一般に公開されているデータはもっと制限されるべきだということを、多少なりとも示唆しています。また、報酬制度との整合性も図る必要があります。データプロデューサーとデータユーザー、データアナリストの間には緊張関係があります。

時々、Jeff Drazenの言葉を耳にしますが、彼はかつて「データアナリストは研究の寄生虫だ」と言っていました。私は、データアナリストを映画監督のように捉えることができると思っています。脚本家と映画監督が同一人物の場合もありますが、同じである必要はありません。データジェネレーターは、非常に薄いデータのスライスしか作成できないことが多く、分析をしても、その薄いスライスから得られる視点は非常に限られたものになります。

逆に、何百人、何千人ものデータ作成者がいて、その人たちが例えばシーケンス情報などをより大きなデータセットに提供してくれれば、複合的な分析に意味が出てきて、小さな断片や小さなスライスではわからなかったことがわかるようになります。

ですから、私たちはコラボレーションのモデルに到達する必要があります。脚本家がいて、映画の監督がいて、写真撮影を担当した人がいて、俳優を担当した人がいて、サポートスタッフを担当した人がいて、その全員が最終的には映画の見出しになるのです。

44:10

同時に、相反する傾向もあります。再現性やオープン性を高める方向への動きが多く見られます。しかし、他のアプローチも見られます。それは、「今はデータがたくさんあるので、科学的手法を心配する必要はない。共有する必要はなく、ただ迅速に行動し、分析すれば問題ないのです。先日紹介した「セラノス」の話も、ほぼこのような内容でした。同社は自分たちが何をしているのか、何も公表していませんでした。

彼らはただ、私たちは世界を救っていて、それを速いペースで行っていると言っていました。私たちがどのように世界を救っているかを知る必要はありませんが、私たちは世界を救っているのです。実際、セラノスは例外ではありません。人々は、明らかな不正行為があったから例外だと言います。しかし、これはまだ裁判で決まったわけではありません。

しかし、仮にそうだとしても、私たちは最近、健康・医療研究分野で事業を展開しているすべてのユニコーンを調査しました。その結果、多くのユニコーンが、セラノスと同じように、エビデンスの公表や共有を怠っていることがわかりました。詐欺だとは言いませんが、10億ドルを超える評価額の根拠となる証拠の情報が不足しているのです。

しかし、全体としては進歩が見られます。2000年から2014年までの生物医学関連の文献をランダムに抽出したところ、データ共有は非常にまれで、その他の再現性に関する慣行も非常にまれでした。それを2015年から17年にかけて繰り返してみたところ、特にデータ共有については明らかな改善が見られました。

これは、多くのジャーナルがこうした方針を明確に打ち出したこと、専門家集団がその方向に向かったこと、多くの研究助成機関が「これを標準にしたい」と言ったことなどによるものだと考えられます。これは心理学の例ですが、心理学の分野では、減少していた論文の採用率が急速に増加しました。生のデータを報告し、公開している論文の割合は、2015年までのものです。

これは2015年のものです。4%から40%に上昇しています。生物医学文献全体でも、2000年には0％に近かったのが、2017年には25％近くになっていて、かなりの動きが見られます。明らかに増加傾向にあります。透明性を構成する他の要素も改善されています。例えば、資金提供の開示や利益相反の開示は、今世紀初頭には少数派でした。新規性の主張は常に非常によく見られます。論文の冒頭を見ても、「私たちは何か新しいことを言っている」と書かれていることが多いのです。

しかし、再現性を高める努力をしていると主張する論文も見られますが、これも良い兆候だと思います。計算方法の再現性を高めるための努力が行われています。また、データだけでなく、コードやソフトウェアの共有を求めるジャーナルが増えており、実際に共有が行われているかどうかを確認するための手順を踏んでいます。一番簡単なのは、「ソフトウェアはここからアクセスできます」「コードはここからアクセスできます」というリンクをクリックして、エラー表示が出ないことを確認することでしょう。

しかし、もっと時間をかけたければ、完全な再分析評価を行うことができます。透明性と複雑さの間には緊張感があります。人気が出てきたツールの中には、透明性が低下しているものもあると思います。例えば、人工知能の分野では、アプリケーションの面で非常に急速に成長している文献があります。正直なところ、ディープ・ニューラル・ネットワーク・アルゴリズムのような人工知能の手法を、ありきたりのロジスティック回帰と比較した場合、ほとんどのケースで明確で大きな性能向上は見られません。

性能の向上はごくわずかです。しかし、新世代のツールは、複雑性に基づいており、非常に複雑な相互作用や複数の要因間の相互作用をモデル化しようとしていますが、透明性を確保するのはそれほど容易ではありません。このような複雑なモデルの透明性を最大限に高めるにはどうしたらいいのか、そのための努力が必要なのです。

48:55

私たちは、さまざまな手法について人々を教育する必要があります。これは、透明性があり、可能な限り登録された統計解析計画に加えて、多くの論文で横行している読みにくさや数えにくさを解決する必要があるということです。例えば、in vivoの動物実験では、結果の盲検化と無作為化の使用には時間の経過とともにある程度の改善が見られますが、大多数の研究が結果の盲検化と無作為化デザインを採用するという段階に到達するには、まだかなりの道のりがあると思います。

統計戦争が続いています。皆さんも聞いたり読んだり、グーグルやツイッターなどのソーシャルメディアで見たことがあるかもしれませんが、適用すべき統計手法の正確な変換については、おそらく合意が得られていません。学校のメソッドが誤って適用され、誤って解釈されていることには誰もが同意しています。また、P値についても非常に誤解されていると思います。また、統計的有意性とは何かを誤解しています。

代替案は非常に豊富にあります。このような代替案を見て、その都度、最適な目的のために最適な方法を見つけ出すことは素晴らしいことだと思います。対立するステークホルダーや著者の影響を抑えることは、私たちができるもう一つのステップです。

先に述べたように、利益相反の開示については改善が見られます。しかし、無作為化試験、メタ分析、費用対効果分析、ガイドラインなどの微妙なタイプの研究のスポンサーや著者を誰にすべきか、利益を得るスポンサーや、ガイドラインやこれらの研究の内容によって存在が左右される専門家集団に、これらの重要な文書の起草を主導させるべきかなど、大きな問題もあります。

最後に、私の偏見ですが、研究には研究を重ねる必要があり、どうすればより良くなるかを評価するためのメタ・リサーチが必要です。あるアイデアが非常に素晴らしいと思えたとしても、それがうまくいくとは限りません。ですから、どのように実行し、どのように伝え、どのように検証し、どのように評価し、どのように研究に報いるかについての研究が必要なのです。これは、メトリクスとメトリクスBが行っていることであり、世界中の多くのチームが興味を持っていることでもあります。

最後に、報酬制度について少し考えてみたいと思います。というのも、報酬制度は、研究方法を改善するために提案されている変化を実行し、維持するための重要な推進力となるからです。時には、無作為化試験で報酬慣行やインセンティブを研究することもあるでしょう。しかし、場合によっては、非常に複雑で、母集団を定義することさえ難しいことがあります。しかし、例を挙げてモデル化することで、さらなる洞察を得ることができます。

これは、David Grimes氏と共同で作成したモデルの1つで、科学の世界を表す11の方程式があります。科学の世界には、基本的に3つのタイプの研究者がいます。大多数の科学者である勤勉なコホートと、不注意な人たちです。不注意な人がどのくらいいるかについては、さまざまな調査で意見が分かれています。最後に、非常に稀なケースですが、不正行為のような倫理的行動があります。これはおそらく1％以下だと思います。

そこで私たちは、生産量に応じて報酬を与えるモデルを実行しました。勤勉なグループに報酬を与えず、非倫理的な人や不注意な人にペナルティを与えない場合、不注意な人や非倫理的な人は、競争上の優位性を持ちます。もし彼らが、研究がどのように行われるべきかという同じ基準を持った子孫を作れば、資金調達サイクルの数世代後には、勤勉なコホートが減少し始め、非倫理的で不注意なコホートが優位に立つようになるでしょう。

53:18

最高の科学に報酬を与える必要があることは非常に明白だと思いますが、何が最高の科学なのかが大きな問題だと思います。今までの報酬制度のほとんどは、生産性に焦点を当て、より多くの論文を発表した人に報酬を与えてきました。私は生産性には全く問題がありません。私は生産性が高くても構いませんし、「もう発表するな」と言われなければ発表したいのです。

私は大うつ病になってしまい、抗うつ剤があまり効かなくなるかもしれません。だから、それだけはやめてください。しかし、生産性だけでなく、品質、再現性、共有、トランスレーショナル・インパクトにも力を入れる必要があります。これにより、科学研究全体の心拍数を向上させるための最初の心電図を作成することができるのです。

進化が必要なのか、革命が必要なのか、おそらく両方が必要なのでしょう。私たちは、欠陥を改善する機会と、研究手法を分野内や分野間で適用する方法を成長させる機会を見つける必要があります。そして、複数のステークホルダーからの賛同を得る必要があります。

科学に取り組んでいるのは科学者だけではありません。資金提供者、個人投資家、産業界、ジャーナル、編集者、出版社、学会、大学、非営利機関、研究病院と接点を持つ非科学的スタッフ、保険会社、政府、州政府当局、その他様々な方法で科学に関心を持つ人々がいます。私たちは、これらすべての利害関係者の利害を一致させ、より再現性が高く有用性の高い、より良い研究を実現する方法を見つけなければなりません。

結論として、発見と再現は一体化した連続体の一部であり、これらを分離して研究の2クラス、科学者の2クラスを作ろうとするのは間違っていると思います。両者は一体でなければなりません。その連続性とは、うまくいけば信頼性のある、うまくいけば有用な科学的知識を目指すことです。多くの分野の科学的調査の再現性と有用性には、改善の余地があります。現時点では、ここ数年でこれらの指標の多くが改善されてきており、いくつかの動きが見られます。

研究活動の効率性、エビデンスの再現性と有用性を向上させるためには、さまざまな介入が考えられます。私は、透明性、開放性、共有性が助けになると信じていますが、具体的にどうすればよいかの詳細は重要です。だからこそ、私たちはもっと研究に研究を重ねる必要があるのです。今日お見せした実証研究に貢献してくれた多くの同僚に感謝します。また、今日ここに集まってくれた皆さん、そして話を聞いてくれた皆さんにも感謝しています。ありがとうございました、コリン。ありがとうございました。