科学の科学

強調オフ

科学哲学、医学研究・不正

サイトのご利用には利用規約への同意が必要です

Science of science

www.ncbi.nlm.nih.gov/pmc/articles/PMC5949209/

2018年5月13日

概要

背景

研究資金、生産性、共同研究から論文引用や科学者の移動まで、学術的なインプットとアウトプットに関するデジタルデータの利用可能性が高まっていることは、科学の構造と進化を探る上で前例のない機会を提供している。科学の科学(SciSci)は,多様な地理的・時間的スケールにおける科学的主体間の相互作用を定量的に理解することができる.これにより,創造性の基盤となる条件や科学的発見の起源についての洞察が得られ,最終的には科学を加速する可能性のあるツールや政策を開発することを目的としている。この10年間で,SciSciには自然科学者,計算科学者,社会科学者が集まり,ビッグデータを用いた実証分析や生成モデルを開発し,科学やその制度,労働力の展開を捉えている.科学を成功に導く要因をより深く理解することで、環境、社会、技術の問題により効果的に取り組むことができるというのが、SciSciの価値提案である。

進歩

科学は、学者、プロジェクト、論文、アイデアなどが複雑に絡み合い、自己組織化し、進化していくものと言える。この表現により、共同研究ネットワークの研究によって新しい科学分野の出現を特徴づけるパターンが明らかになり、引用ネットワークの研究によってインパクトのある発見の道筋が明らかになった。微視的なモデルでは、引用の蓄積のダイナミクスを追跡し、個々の論文の将来のインパクトを予測することができる。SciSciは、科学者が自らのキャリアと科学の地平線の両方を前進させる際に直面する選択とトレードオフを明らかにした。例えば、研究者はリスクを回避する傾向があり、現在の専門分野に関連したテーマを研究することを好むため、将来の発見の可能性が制限されていることが測定されている。このパターンを打破しようとする人は、よりリスクの高いキャリアを歩むことになるが、大きなブレークスルーを生み出す可能性が高くなる。全体として、最もインパクトのある科学は、従来の先行研究の組み合わせに基づいているが、通常とは異なる組み合わせを特徴としている。最後に、研究の場がチームに移行しつつある中、SciSciはチーム研究のインパクトにますます注目している。その結果、小規模なチームは、古いアイデアやあまり普及していないアイデアを利用した新しいアイデアで科学技術を破壊する傾向があることがわかった。一方、大規模なチームは、最新の人気のあるアイデアを開発する傾向があり、高いインパクトを得ることができるが、往々にして短命に終わってしまう。

今後の展望

SciSciは、科学者、組織、アイデアの間の関係構造を定量的に理解することで、科学的発見の原因となる基本的なメカニズムを特定することを可能にする。これらの学際的なデータに基づいた取り組みは、科学計量学や科学の経済学・社会学などの関連分野からの貢献を補完するものである。SciSciでは、様々な科学分野に適用される長年の普遍的な法則やメカニズムを追求しているが、今後の基本的な課題は、異なる分野や国の間での文化、習慣、嗜好の違いを考慮することである。このような違いは、分野を超えた洞察を理解することを困難にし、関連する科学政策を実施することを難しくしている。各分野に特有の質問、データ、スキルの違いは、個々の研究分野のニーズに合わせてモデル化し、機会を特定する、分野別のSciSci研究からさらなる洞察が得られることを示唆している。

図解入り要旨

科学の複雑さ。科学は、アイデア、学者、論文の拡大・進化するネットワークと見なすことができる。SciSciは、科学の構造とダイナミクスの基礎となる普遍的な法則と領域固有の法則を探索する。

学術論文のデジタルデータの氾濫は、科学の構造と進化を特徴づけるパターンを探る上で、かつてない機会を提供している。科学の科学(SciSci)は、科学の実践そのものを顕微鏡の下に置き、科学的発見、創造性、実践の発端を定量的に理解し、科学の進歩を加速するためのツールや政策を開発することを目的としている。

SciSciの登場には2つの重要な要因がある。1つ目はデータの可用性である。歴史的な最初の引用インデックスであるWoS(Web of Science)に加え、今日では複数のデータソースが利用可能である(Scopus、PubMed、Google Scholar、Microsoft Academic、U.S. Patent and Trademark Office、その他)。これらのソースの中には自由にアクセスできるものもあり,科学者とその研究成果に関する何百万ものデータをカバーし,世界中のあらゆる科学分野の研究を網羅している.第二に、SciSciは、自然科学者、計算科学者、社会科学者の流入と協力により、ビッグデータに基づく能力を開発し、科学、その機関、その労働力の展開を捉えることを目的とした生成モデルの重要なテストを可能にした。

この新興分野の特徴の一つは、分野の垣根を取り払っていることである。SciSciは、複数の分野の知見や理論を統合し、幅広いデータや手法を用いている。サイエンメトリクスからは、大規模なデータソースから科学を測定するという考え方を、科学社会学からは、理論的な概念や社会的なプロセスを、イノベーション研究からは、科学が発明や経済の変化に貢献する経路を探り、特定するという考え方を取り入れている。SciSciは,記述的統計やデータの可視化から,高度な計量経済学的手法,ネットワーク科学的アプローチ,機械学習アルゴリズム,数学的分析,エージェントベースモデリングを含むコンピュータシミュレーションまで,幅広い定量的手法を用いている.SciSciの価値提案は,科学が成功する要因をより深く理解することで,社会的問題により効果的に対処するための科学全体の可能性を高めることができるという仮説に基づいている。

科学者・組織・思想のネットワーク

現代の科学は、社会構造、知識表現、そして自然界の複雑な相互作用によって駆動される、動的な事業システムである。科学的知識は、研究論文、書籍、特許、ソフトウェア、その他の学術的成果物に具現化された概念と関係によって構成され、科学的な分野や広範な領域に組織されている。これらの社会的、概念的、物質的な要素は、情報、アイデア、研究手法、ツール、サンプルなどの公式および非公式の流れを通じてつながっている。このように、科学は複雑で自己組織化された、常に進化するマルチスケールネットワークであると言える。

初期の研究では、科学文献の量が指数関数的に増加していることが発見された(2)。この傾向は、平均して15年の倍加期間で続いている(図 1)。しかし、科学文献の増加と科学的なアイデアの増加を同一視するのは間違っている。技術的にも経済的にも、出版界の変化によって、出版物の生産効率は高まっている。さらに、科学分野の新しい出版物は、知識の個別の分野に集まる傾向がある(3)。タイトルや要旨から抽出したフレーズを用いて科学文献の認知的範囲を測定する大規模なテキスト分析では、科学の概念的領域が時間とともに直線的に拡大することがわかっている。つまり、論文の数が指数関数的に増加するのに対し、アイデアの空間は直線的にしか拡大しない(図1)(4)。

図1 科学の成長

(A) WoSデータベースに索引付けされた科学論文の年間生産量。(B) WoSデータベースに登録されている論文がカバーするアイデアの成長。これは、一定数の論文(4)に含まれるユニークなタイトルフレーズ(概念)をカウントすることで決定した。


論文のタイトルやアブストラクトに含まれる頻出の単語やフレーズは、新しいパラダイムの出現に対応したバーストを経て、引用ネットワークを介して伝播する(5)。ネットワーク科学の手法を引用ネットワークに適用することで、研究者は、互いに頻繁に引用し合う出版物のサブセットで定義されるコミュニティを特定することができる(6)。このようなコミュニティは、特定の問題について共通の立場をとる著者のグループ(7)や、同じ専門分野の研究をしている著者のグループ(8)に対応することが多い。生物医学に焦点を当てた最近の研究では、文献の増加がこれらのコミュニティを強化する様子が示されている(9)。新しい論文が発表されると、科学者、化学物質、病気、方法(ネットワークのノードである「モノ」)の間の関連性(ハイパーエッジ)が追加される。これは、科学者が新しいトピックを選択する際、現在の専門知識や共同研究者の専門知識に直接関連するものを好むことを意味している。このような高密度化は、既存の科学の構造が、将来的に研究される内容を制約する可能性を示唆している。

科学の境界における高密度化は、学際的な探求、融合、革新のシグナルでもある。8つの分野のライフサイクル分析(10)によると、成功した分野では、知識と社会の統合の過程を経て、共同研究ネットワークに巨大な連結要素が生まれ、常連の共著者の大規模なグループに対応するようになる。また、科学者が共著ネットワーク上をランダムウォークして共同研究者を選ぶモデルでは、著者の生産性、分野ごとの著者数、論文や著者の学際性をうまく再現している(11)。

課題選択

科学者はどのようにして取り組むべき研究課題を決めるのであろうか。科学社会学者は、こうした選択は、生産的な伝統とリスクを伴う革新との間の継続的な緊張関係によって形成されるという仮説を長年にわたって立ててきた(12,13)。研究分野の伝統を守っている科学者は、焦点を絞った研究課題を進めるための論文を次々と発表し、生産的であるように見える。しかし、研究課題を絞ってしまうと、その分野の知識を深めるために必要な新しいアイデアを見出す機会が制限されてしまうことがある。例えば、新規化学物質や化学的関係を選択する生物医学者に焦点を当てたケーススタディでは、分野が成熟するにつれて、研究者はますます既存の知識に焦点を当てる傾向があることが示されている(3)。革新的な論文は、保守的な論文よりも高いインパクトをもたらす傾向があるが、リスクの高い革新戦略はまれである。なぜなら、追加の報酬は、論文をまったく発表しなかった場合のリスクを補えないからである。科学的な賞や称賛は、保守的な傾向に抵抗し、探求と驚きに賭けることを促す主要なインセンティブとして機能しているようである(3)。科学者が次に何に取り組むかを決定する要因は数多くあるが、科学者のキャリアに沿った研究テーマの変化を支配する巨視的なパターンは再現性が高く、科学研究と個人のキャリアには高度な規則性があることが証明されている(14)。

科学者の研究課題の選択は、主に彼ら個人のキャリアと、彼らに依存する人々のキャリアに影響を与える。しかし、科学者の集団的な選択は、より広範な科学的発見の方向性を決定する(図2)。保守的な戦略(15)は、個人のキャリアには有効であるが、科学全体にはあまり効果的ではない。このような戦略は、「ファイル・ドロワー問題」(file drawer)(16)によって増幅される。確立された仮説に反する否定的な結果はほとんど発表されないため、発表された研究に体系的な偏りが生じ、弱い事実や時には誤った事実が正統化されてしまう(17)。よりリスクの高い仮説は、何世代にもわたって科学者たちによって検証されてきたかもしれないが、出版されるほど成功したものだけが私たちに知られているのである。この保守的な罠を緩和する方法の一つは、真に未解明の仮説を検証したり、特定の病気を擁護する特別な利益団体を相手にするようなリスクの高いプロジェクトを積極的に後援するよう、資金提供機関に働きかけることだ。米国における生物医学的資源の配分は、疾病の実際の負担よりも、過去の配分や研究に強く相関していることが測定で示されており(18)、生物医学的ニーズと資源との間の体系的なずれが浮き彫りになっている。このような不整合は、既存のパラダイムに縛られた科学者が運営することが多い資金提供機関が、追加のモニタリング、インセンティブ、フィードバックを導入せずに科学の発展に影響を与える可能性に疑問を投げかけている。

図2 集団的発見を加速するための実験の選択

(A) 2010年に出版されたMEDLINEインデックス付きの全論文から推定した、出版可能な新しい化学関係を発見するためのグローバル戦略の平均効率率。このモデルでは、特定の実験の難易度や費用の違いは考慮されていない。グローバルな科学戦略の効率は、MEDLINEで索引付けされた論文に共起する生化学の公開ネットワークの新しい接続に対応する、新しい公開された生化学的関係の数(横軸)に対する平均的な実験の実行数(縦軸)で表される。比較した戦略には、生化学物質のペアをランダムに選ぶ戦略、MEDLINE論文を出版しているすべての科学者から推測されるグローバル(「実際」)戦略、ネットワークの50%と100%を発見するための最適戦略がある。縦軸の値が小さいほど、より効率的な戦略であることを示しており、実際の科学の戦略は、発表されたものを発見するためには最適ではないことを示している。実際の戦略は、化学ネットワークの13%を発見するのに最も適しており、50%の最適戦略は、その50%を発見するのに最も効率的であるが、どちらもネットワーク全体を明らかにする100%の最適戦略には及ばない。(B) 化学的関係の仮想ネットワーク上で図示された実際の推定された探索プロセスで、その戦略を500回シミュレートして平均化したもの。この戦略では、いくつかの「重要な」つながりの強い化学物質に群がっているのに対し、最適な戦略では、科学的可能性の空間全体を探索する際に、はるかに均一で、「群衆に従う」可能性は低い。【(15)より引用

新規性

出版物や特許を分析すると、科学的発見や発明における珍しい組み合わせは、より高い引用率を得る傾向があることが一貫して明らかになっている(3)。学際的な研究は、象徴的な組み換えプロセスである(19)。したがって、学際的な研究の基本である、以前は切り離されていたアイデアやリソースの組み合わせが成功すると、期待に反して、インパクトの強い斬新なアイデアが生まれることがよくある(20)。それにもかかわらず、助成金申請書から得られた証拠によると、新しいアイデアに直面したとき、専門家の評価者は系統的に、真に斬新な(21-23)または学際的な(24)研究提案に低い得点を与えることがわかっている。

最もインパクトのある科学は、主に従来の先行研究の組み合わせに基づいているが、同時に珍しい組み合わせも特徴的である(25-27)。このようなタイプの論文は、高い被引用度を得る確率が2倍になる(26)。つまり、新しい要素と既存の要素をバランスよく組み合わせることが、科学の進歩をうまく受け入れるための最も安全な方法だ

キャリアダイナミクス

個々の研究者のキャリアは、知識の生産と消費を行う巨大な市場の中で展開される(28)。そのため、科学者のキャリアは、個人のインセンティブや限界生産性(努力に対する相対的な利益)(29)だけでなく、組織のインセンティブ(30, 31)や競争(32)の観点からも検討されている。そのためには、高解像度の個人、地理的、時間的メタデータの大規模なリポジトリ(33)を組み合わせて、さまざまな視点から分析できるキャリア・トラジェクトリーの表現を構築する必要がある。例えば、ある研究では、初期の失敗に寛容で長期的な成功に報いる研究費助成制度の方が、短い審査サイクルの助成金よりもインパクトのある論文を生み出す可能性が高いとしている(31)。時間スケールが競合する相互作用するシステムは、複雑系科学の典型的な問題である。科学の多面的な性質は、政策の意図しない結果を浮き彫りにする生成モデルの動機となる。例えば、キャリア成長のモデルでは、テニュアではない(短期)契約が生産性の変動の原因となっており、それがキャリアの突然の死につながることが多いことを示している(29)。

科学分野におけるジェンダーの不平等は、依然として蔓延しており、問題となっている(34)。女性は、論文数(35-37)や共同研究者数(38)、資金調達額(39)が少なく、同程度の能力を持つ男性と比較すると、採用の際にペナルティを受ける(40)。このような格差の原因はまだ明らかになっていない。男性と女性の科学者の間の共同研究パターン(38)や採用率(35)の違いは、生産性の割合やキャリアの長さの本質的な違いで説明できる。一方で、女性に対する偏見がキャリアの非常に早い段階で生じることを実験的に示している。応募者の履歴書に無作為に性別を割り振ったところ、採用委員会は組織的に女性候補者にペナルティを課した(40)。これまでのほとんどの研究は、比較的少数のサンプルを対象としている。科学者のキャリアに関する大規模なデータセットの作成が改善されれば、さまざまな情報源(出版記録、助成金申請書、受賞歴など)からの情報を活用することで、不平等の原因をより深く理解し、政策的解決策を示すモデルを構築することができる。

科学者の移動性は、多様なキャリアの機会を提供するもう一つの重要な要素である。ほとんどの移動性研究は、特に政策変更後の国や地域の頭脳流出と頭脳獲得の定量化に焦点を当てている(41,42)。しかし、多くの科学者の移動に関する縦断的な情報や、移動の意思決定の背景にある理由の説明を得ることが困難であるため、個人の移動とそのキャリアへの影響に関する研究はまだ少ない。出身国を離れた科学者は、移転しなかった科学者よりも引用スコアで上回っているが、これは優秀な科学者により良いキャリアの機会を与えるという選択バイアスに根ざしているのかもしれない(43,44)。さらに、科学者は同じような名声を持つ機関の間を移動する傾向がある(45)。しかし、移動に伴うインパクトの変化を引用数で定量化して調べてみると、科学者がかなり高いランクや低いランクの機関に移動した場合でも、系統的な増減は見られなかった(46)。言い換えれば、インパクトを生み出すのは研究機関ではなく、研究機関を作るのは個々の研究者なのである。

もう1つの重要なキャリア要因は、レピュテーションであり、原稿審査、提案評価、昇進の決定においてジレンマをもたらす。論文の著者のレピュテーション(過去の論文の総被引用数で測定)は、論文発表後の最初の数年間、その論文が集めた被引用数を著しく増加させる(47)。しかし、この最初の段階を過ぎると、インパクトは科学界での受け止め方に左右されるようになる。この発見は、(46)で報告された研究と合わせて、生産的な科学者のキャリアにとって、評判は、才能、勤勉さ、関連性よりも成功の重要な要因ではないことを示唆している。

政策に関連する問題として、創造性と革新性が年齢やキャリアステージに依存するかどうかがある。優れた研究者や革新者を対象とした数十年にわたる研究では、大きなブレークスルーはキャリアの比較的早い段階で起こり、年齢の中央値は35歳であると結論づけられている(48)。一方、最近の研究では、このよく知られた早期発見の傾向は、科学者のキャリアの初期段階で高く、後期になると下がるという生産性で完全に説明できることがわかっている(49)。言い換えれば、イノベーションには年齢によるパターンはないということである。ある学者の最も引用された論文は、出版された時の年齢やキャリアステージに関係なく、その人のどの論文でもよいのである(図3)。また、インパクト進化の確率モデルによると、ブレークスルーは、科学者の能力と可能性の高い問題を選んだ運の組み合わせによってもたらされることが示されている(49)。

図3 科学者としてのキャリアにおけるインパクト

(A) 3人のノーベル物理学賞受賞者の出版記録。横軸はノーベル賞受賞者が最初に論文を発表してからの年数を示し、各円は研究論文に対応し、円の高さはその論文のインパクトを表し、10年後の被引用数であるc10で定量化している。最もインパクトのある論文はオレンジ色の円で示されている。(B) 1万人の科学者について計算した、一連の論文の中で最もインパクトのある論文の出現率のヒストグラム。ヒストグラムが平坦であることから、インパクトのある論文は、科学者が発表した一連の論文のどこにでも、同じ確率で存在しうることがわかる(49)。

チームサイエンス

過去数十年の間に、チームワークへの依存度が高まり、科学のあり方が根本的に変わってきている。1,990万件の研究論文と210万件の特許の著者を調査したところ、科学のあらゆる分野で、ほぼ共通してチームへの移行が見られた(50)(図4)。例えば、1955年には、科学・工学分野のチームが執筆した論文の数は、単独著者とほぼ同じであった。しかし 2013年には、チームで執筆された論文の割合が90%にまで増加している(51)。

図4 チームの規模とインパクト

平均チームサイズは、過去1世紀にわたって着実に増加している。赤い破線の曲線は全論文の平均共著者数を表し、黒い曲線はその分野の平均よりも多く引用された論文のみを考慮している。黒色の曲線は、赤色の破線の曲線よりも全体的に上に位置しており、インパクトのある研究は、小規模なチームよりも大規模なチームによって生み出される可能性が高いことを意味している。各パネルは、WoS で索引付けされた論文の 3 つの主要な分野グループの 1 つに対応している。各パネルは、WoSで索引付けされている論文の3つの主要分野グループ、(A)科学・工学、(B)社会科学、(C)芸術・人文科学に対応している。


現在、理工学分野では、チームで執筆した論文は単独で執筆した論文に比べて 1000 件以上の引用を受ける確率が 6.3 倍高く、この差は自己引用では説明できない(50, 52)。その理由として考えられるのは、チームの方がより斬新なアイデアの組み合わせを思いつくことができたり(26)後に他の人が利用するリソースを生み出すことができることだ(例:ゲノミクス)。測定結果によると、チームは単独の著者に比べて、慣れ親しんだ知識領域に新しい組み合わせを挿入する可能性が38%高いことが分かっており、チームが異なる専門性を結集して知識を効果的に組み合わせ、科学的ブレークスルーを促すことができるという前提が支持されている。共同研究が多いということは、より多くの共著者による知名度が高まることを意味し、共著者はその作品を自分のネットワークに紹介する可能性が高く、その影響力は、チーム内のクレジットを多くの同僚と共有しなければならないという事実を部分的に補うことができる(29)。

大規模チームの研究は、さまざまな分野で平均してより多くの引用を獲得している。研究によると、小規模なチームは新しいアイデアや機会を提供して科学技術を破壊する傾向があり、大規模なチームは既存のものを発展させる傾向がある(53)。したがって、科学の官僚化を抑制するためには、あらゆる規模のチームに資金を提供し、育成することが重要であると考えられる(28)。

チームの規模は拡大しており、10年ごとに平均17%増加している(50, 54)。この傾向は、チーム構成の根本的な変化を裏付けている。科学チームには、小規模で安定した「コア」チームと、大規模でダイナミックに変化する拡張チームがある(55)。ほとんどの分野でチームの規模が大きくなっているのは、拡張チームの拡大が加速しているためである。拡張チームは、小規模なコアチームとして発足し、その後、生産性を軸とした累積的な優位性のプロセスを経て、新たなメンバーを獲得する。サイズは、チームの生存戦略を決定する重要な要素である。小規模なチームは安定したコアを維持することで長く存続するが、大規模なチームはメンバー交代のメカニズムを明示することで長く存続する(56)。

科学が加速し、ますます複雑になるにつれ、知識のフロンティアを拡大するために必要な機器は規模と精度を増していた。これらの道具は、個々の研究者だけでなく、ほとんどの研究機関にとっても手の届かないものとなっている。共同研究は、科学的な利点のために資源をプールするという重要な解決策となっている。世界最大かつ最強の素粒子衝突型加速器であるCERNの大型ハドロン衝突型加速器は、100カ国以上から 1万人以上の科学者とエンジニアを集めたコラボレーションなしでは考えられなかったであろう。しかし、サイズが大きくなると、「ビッグサイエンス」の価値とリスクに影響を与えるトレードオフがある(2)。より大きな問題を解決することは可能かもしれないが、再現性の負担を考えると、初期の努力を重複して行う必要があり、それが現実的にも経済的にも実現不可能な場合がある。

共同研究者は、科学者としてのキャリアに大きな影響を与える。最近の研究(57,58)によると、スター的な共同研究者を失った科学者は、特にその共同研究者が常連の共著者であった場合には、生産性が大幅に低下する。非常に強力な共同研究者が関わった論文は、平均して17%多く引用されており、キャリアパートナーシップの価値を示している(59)。

平均的な研究論文の著者数が増加していることを考えると、誰が最も信用されるべきで、誰が最も信用するのであろうか。科学における信用配分の誤謬の典型的な理論は、マシュー効果(60)であり、共同研究に参加した地位の高い科学者が、その貢献に対して過大な信用を受けるというものである。共同作業における個人のクレジットを適切に配分することは、個々の貢献を容易に区別できないため困難である(61)。しかし、共著者の論文の引用パターンを調べることで、コミュニティが論文の各共著者に割り当てるクレジットの割合を決定することは可能である(62)。

引用の力学

科学における信用の測定可能な単位は、依然として学術的な引用が主流である。ほとんどのインパクト指標が引用に依存していることから(63-66)何世代にもわたって研究者は引用の蓄積のダイナミクスを精査していた。プライス(67)による基礎的な研究から、科学論文の被引用の分布は非常に歪んでいることがわかっている。多くの論文は一度も引用されないが、重要な論文は1万件以上の引用を集めることがある。このような不均等な被引用分布は、科学のダイナミズムの強固な創発的特性であり、論文を機関別に分類した場合も同様である(68)。ある論文の被引用数を、同じ分野、同じ年の論文が集めた平均被引用数で割ると、結果として得られるスコアの分布は、すべての分野で基本的に区別されない(69, 70)(図5A)。つまり、異なる分野で発表された論文のインパクトを、その相対的な被引用度に注目して比較することができるのである。例えば、100の被引用数を集めた数学の論文は、300の被引用数を集めた微生物学の論文よりも高い分野のインパクトを表している。

図5 被引用数の普遍性

(A) 各論文の生の被引用数cを、その分野・年の全論文の平均被引用数c0で割ると、同一分野・同一年に出版された論文の被引用分布は、ほとんどの分野で同じ曲線上にある。破線は対数正規分布によるフィットである。(B) 1964年にPhysical Review誌に掲載された4つの論文の引用履歴。「jump-decay」パターン(青)「delayed peak」(マゼンタ)「一定の被引用数」(緑)「年々増加する被引用数」(赤)という異なるダイナミクスを持つ論文を選択。C)個々の論文の被引用数は、適合性λi、即時性μi、長寿性σiの3つのパラメータによって決定される。B)の各論文の引用履歴を適切な(λ、μ、σ)パラメータでリスケールすることで、4つの論文は1つの普遍的な関数に崩壊する。(77)より引用】。


インパクトのある論文の数を捉えた引用分布の尾部は、引用の蓄積を促すメカニズムに光を当てている。最近の分析では、この尾部はべき乗則に従うことが示されている(71-73)。累乗則の尾部は、ネットワーク科学における優先的付着(75)として知られる累積的優位性プロセス(74)によって生成することができ、ある論文がすでに集められた被引用数に応じて、その論文を引用する確率が高まることを示唆している。このようなモデルには、知識の陳腐化により論文の年齢が上がるにつれて引用確率が低下するといった引用ダイナミクスの特徴が加わることがある(76-79)。また、各論文に固有のフィットネス・パラメータは、科学コミュニティにおけるその論文の魅力を表している(77, 78)。このようなモデルで説明されるパターンから逸脱する論文はごく一部であり、その中には、発表後数十年間はほとんど注目されず、その後突然注目されて引用されるようになった「スリーピング・ビューティー」と呼ばれるものもある(80, 81)。

上記のような生成メカニズムを利用して、個々の論文の被引用ダイナミクスを予測することができる。ある予測モデル(77)では、論文の被引用確率は、過去の被引用数、陳腐化係数、適性パラメータに依存すると仮定している(図5のBとC)。ある論文について、その論文の引用履歴の初期部分にモデルを当てはめることで、3つのモデルパラメータを推定することができる。そして、その論文の長期的なインパクトを推定することができる(77)。他の研究では、ジャーナルのインパクトファクターなど、個々の論文の引用インパクトの予測因子が特定されている(82)。科学者の将来のh-index(83)は正確に予測できることが示唆されている(84)が、科学者のキャリアステージやh-indexの累積的で非減少的な性質を考慮すると、予測力は低下する(85)。このように、科学分野における定量的な評価指標の使用における矛盾を解消することは非常に重要であり、一般的に使用されている統計の生成メカニズムを理解することの重要性を強調している。

今後の展望

科学の世界では普遍的なものが発見されているが、文化、習慣、嗜好などの分野ごとの大きな違いにより、分野を超えた洞察を特定の分野で理解することが難しく、関連する政策を実施することが困難な場合がある。各分野で必要とされる質問、データ、スキルが異なることから、各分野のニーズに合わせてモデル化し、機会を予測する分野別のSciSci研究から、さらなる洞察を得ることができるであろう。若い科学者にとって,SciSciの結果は,過去のパターンに関する実用的な洞察を提供し,各分野における将来の調査の指針となる(Box 1).

ボックス1

SciSciからの教訓

革新と伝統

真に革新的で学際的なアイデアをそのままにしておいても、科学的なインパクトは大きくならない。影響力を高めるためには、斬新なアイデアを既存の知識の文脈の中に置くべきである(26)。

粘り強さ

科学者は、生産性を維持する限り、大発見をするのに年齢を重ねすぎることはない(49)。

コラボレーション

研究はチームで行うようになってきているので、コラボレーションを行うことは有益である。小規模なチームの作品はより破壊的であり、大規模なチームの作品はよりインパクトがある傾向がある(4, 50, 53)。

クレジット

ほとんどのクレジットは、出版物の領域で最も一貫した実績を持つ共著者に与えられる(62)。

資金調達

レビューパネルはイノベーションを認めるものの、最終的にはディスカウントする傾向がある。資金提供機関は、期待される成功だけではなく、革新性を評価するよう査読者に求めるべきである(24)。


SciSciの貢献は、科学者、組織、アイデアの間の関係構造を詳細に理解することであり、基本的な生成プロセスの特定を容易にする重要な出発点となる。これらのデータに基づいた取り組みは、経済学(30)や科学社会学(60,86)などの関連研究領域からの貢献を補完するものである。因果関係の推定はその典型的な例で、反事実的なシナリオをシミュレートするために、計量経済学的なマッチング技術が包括的なデータソースを要求し、活用している(31, 42)。多くの記述的研究は、構造と結果の間に強い関連性があることを明らかにしているが、特定の構造が結果をどの程度「引き起こす」のかについては、まだ調査されていない。実験家との緊密な連携により、SciSciは、モデルや大規模データから発見された因果関係をより正確に特定し、その政策的妥当性を高めることができるようになる。しかし、科学の実験は、SciSciがまだ直面していない最大の課題かもしれない。個人や科学機関の結果を変えるような無作為化比較試験を行うことは、ほとんどが税金によって支えられているため、批判や反発を受けるに違いない(87)。そのため、近い将来、科学研究においては準実験的なアプローチが主流になると予想される。

ほとんどの科学研究は、一次データ源として出版物を重視しており、洞察や発見は、そもそも出版に値するほど成功したアイデアに限られることを意味している。しかし、科学的な試みのほとんどは失敗し、時には大失敗することもある。科学者は成功するよりも失敗することの方が多いのしたがって、あるアイデアがいつ、なぜ、どのようにして失敗するのかを知ることは、科学を理解し、向上させるために不可欠である。このような研究は、再現性の危機に関して意味のあるガイダンスを提供し、ファイルドロワーの問題を説明するのに役立つ。また、創造的活動の全体的なパイプラインを明らかにすることで、人間の想像力についての理解を大幅に深めることができる。

科学はしばしば、引用数という一次元の「通貨」を持つ経済システムのように振る舞う。これは階層的なシステムであり、「金持ちは金持ち」という力学が、新しいアイデア、特に若手科学者や特定の分野で支持されているパラダイムに適合しないアイデアの普及を抑制する。科学は、パフォーマンス指標の数と範囲を広げることで改善することができる。ウェブ(88)やソーシャルメディア(89)の活動や社会的影響(90)をカバーする代替指標の開発は、この点において重要である。他にも、科学者が競合他社と共有する情報(データなど)(91)、科学者が同業者に提供する手助け(92)、同業者の著作物の査読者としての信頼性(93)など、測定可能な次元がある。しかし,膨大な数の指標がある中で,意味のある解釈を行い,誤用を避けるためには,それぞれの指標が何を捉えていて,何を捉えていないのかを理解するために,より多くの作業が必要である。SciSciは、科学におけるパフォーマンス指標を支配するメカニズムをより深く理解するためのモデルを提供することで、本質的な貢献をすることができる。例えば、代替指標(論文数の分布など)を用いた際に観察される経験的パターンのモデルがあれば、引用ベースの指標(94)との関係を探り、操作を認識することができる。

引用ベースの指標を代替指標と統合することで、多元主義が促進され、科学者が様々な方法で成功できるような、生産的な専門性の新たな次元が可能になる。科学は、出版物だけでなく、コミュニケーター、教師、細部にこだわる専門家を必要とする生態系である。私たちは、分野を変えるような斬新な質問をすることができる人と、それに答えることができる人を必要としている。好奇心、創造性、知的交流、特に科学技術の社会的意義や応用についての評価と動機付けが将来的に向上すれば、それは科学にとって有益なことである。より多元的なアプローチは、重複を減らし、科学を社会のために繁栄させることができるであろう(95)。

SciSciが解決しようとしている問題は、科学資金の配分である。現在の査読システムには、偏りや矛盾がある(96)。資金を無作為に分配する方法(97)提案書の作成や審査を必要としない個人主導型の資金提供(31)提案書の審査プロセスをオンラインで公開する方法(98)成果指標によって資金を配分することで人間の審査員を完全に排除する方法(99)科学者のクラウドファンディング(100)など、いくつかの代替案が提案されている。

今後のSciSciの重要な研究分野は、機械学習と人工知能を統合し、機械と心が共に働くようにすることである。機械は人間よりも科学者の視野を広げる可能性があるため、これらの新しいツールは科学に大きな影響を与える。例えば、自動運転車は、既知の運転習慣と人間が認識していなかった情報を、高度な機械学習技術によってうまく組み合わせた結果である。マインド・マシンのパートナーシップは、健康、経済、社会、法律、ビジネスなどの幅広い問題において、エビデンスに基づく意思決定を改善していた(101-103)。マインド・マシン・パートナーシップによって科学はどのように改善されるのか,またどのような取り決めが最も生産的なのか.これらの疑問は、未来の科学を理解する上で役立つことであろう。

この記事が役に立ったら「いいね」をお願いします。
いいね記事一覧はこちら

備考:機械翻訳に伴う誤訳・文章省略があります。
下線、太字強調、改行、注釈や画像の挿入、代替リンク共有などの編集を行っています。
使用翻訳ソフト:DeepL,ChatGPT /文字起こしソフト:Otter 
alzhacker.com をフォロー