IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人神戸大学の特許一覧

特許7470369学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム
<>
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図1
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図2
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図3
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図4
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図5
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図6
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図7
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図8
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図9
  • 特許-学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-10
(45)【発行日】2024-04-18
(54)【発明の名称】学術論文の査読者検索装置、査読者検索方法、及び査読者検索プログラム
(51)【国際特許分類】
   G06F 16/903 20190101AFI20240411BHJP
   G06F 16/28 20190101ALI20240411BHJP
【FI】
G06F16/903
G06F16/28
【請求項の数】 10
(21)【出願番号】P 2020014904
(22)【出願日】2020-01-31
(65)【公開番号】P2021121903
(43)【公開日】2021-08-26
【審査請求日】2023-01-30
(73)【特許権者】
【識別番号】504150450
【氏名又は名称】国立大学法人神戸大学
(74)【代理人】
【識別番号】110000822
【氏名又は名称】弁理士法人グローバル知財
(72)【発明者】
【氏名】幸若 完壮
(72)【発明者】
【氏名】上東 貴志
【審査官】長 由紀子
(56)【参考文献】
【文献】米国特許出願公開第2009/0204469(US,A1)
【文献】特開2002-123652(JP,A)
【文献】中村 洋幸 外4名,ベイジアンフィルタに基づく研究者検索システムの開発 ,電子情報通信学会技術研究報告 Vol.107 No.384 ,日本,社団法人電子情報通信学会 ,2007年12月06日,第107巻 第384号,pp.7-12,NAKAMURA, Hiroyuki,"A Researcher Retrieval System Based on Bayesian Filter",IEICE Technical Report, The Institute of Electronics,Information and Communication Engineers
【文献】Manh CUONG NGUYEN 外3名,論文のメタ情報を利用した研究者の研究履歴の自動生成 ,第3回データ工学と情報マネジメントに関するフォーラム 論文集 [online] ,日本,電子情報通信学会データ工学専門委員会,2011年02月27日,pp.1-7,CUONG NGUYEN, Manh, "Automatic Generation of a Researcher's Research History using Meta Informations of Research Papers", Proceedings of the 3rd Forum on Data Engineering and Information Management
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-958
(57)【特許請求の範囲】
【請求項1】
査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文とが含まれる論文の引用関係を解析し、査読対象論文の関連論文群を抽出する関連論文群抽出部と、
前記関連論文群の中の関連論文の著者を含む査読候補者群を抽出する査読候補者群抽出部と、
前記査読候補者群の各査読候補者について、査読対象論文との間で、関連論文群の中の関連論文に著者として関わっている度合いを関連度として算出する関連度算出部と、
各査読候補者について、少なくとも前記関連度に基づいて、前記査読対象論文の査読者推薦度を出力する査読者推薦度出力部、
を備えることを特徴とする査読対象論文の査読者検索装置。
【請求項2】
前記関連論文群抽出部において、
前記関連論文群は、査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文と、第2の関連論文が引用する論文であって第1の関連論文以外の第3の関連論文とが含まれることを特徴とする請求項1に記載の査読者検索装置。
【請求項3】
前記査読候補者群は、前記関連論文群の著者と、前記関連論文群以外の論文の著者であって前記関連論文群の著者と共同執筆した共同著者とが含まれることを特徴とする請求項1又は2に記載の査読者検索装置。
【請求項4】
前記関連度算出部において、
前記共同著者における前記関連度は、前記関連論文群の中の関連論文の著者との共同著者として多く関わっているほど高い度合いとして算出することを特徴とする請求項に記載の査読者検索装置。
【請求項5】
前記査読者推薦度出力部において、
前記関連度に加えて、
各査読候補者について、研究キャリアの長さと、論文数と総被引用数基づいて、前記査読対象論文の査読者推薦度を出力することを特徴とする請求項1~の何れかに記載の査読者検索装置。
【請求項6】
前記査読者推薦度出力部は、
過去の査読論文と査読者における前記関連度と、査読者の研究キャリアの長さと、査読者の論文数と総被引用数特徴量とし、過去の査読論文と査読者と前記特徴量を用いて機械学習を行った学習モデルを用いて、前記査読対象論文の査読者推薦度を出力することを特徴とする請求項1~の何れかに記載の査読者検索装置。
【請求項7】
前記査読者推薦度出力部は、
前記査読候補者の研究キャリアの長さと前記関連度とを軸とするグラフ上に、査読者の論文数と総被引用数の少なくとも何れかプロットのサイズとして表示し、
前記プロットが選択されたことを検知すると査読候補者に関する情報を表示することを特徴とする請求項1~の何れかに記載の査読者検索装置。
【請求項8】
査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文とが含まれる論文の引用関係を解析し、査読対象論文の関連論文群を抽出する関連論文群抽出ステップと、
前記関連論文群の中の関連論文の著者を含む査読候補者群を抽出する査読候補者群抽出ステップと、
前記査読候補者群の各査読候補者について、査読対象論文との間で、関連論文群の中の関連論文に著者として関わっている度合いを関連度として算出する関連度算出ステップと、
各査読候補者について、少なくとも前記関連度に基づいて、前記査読対象論文の査読者推薦度を出力する査読者推薦度出力ステップ、
を備えることを特徴とする査読対象論文の査読者検索方法。
【請求項9】
前記査読者推薦度出力ステップは、
過去の査読論文と査読者における前記関連度と、査読者の研究キャリアの長さと、査読者の論文数と総被引用数特徴量とし、過去の査読論文と査読者と前記特徴量を用いて機械学習を行った学習モデルを用いて、前記査読対象論文の査読者推薦度を出力することを特徴とする請求項に記載の査読者検索方法。
【請求項10】
請求項又はの査読者検索方法における前記ステップの全てをコンピュータに実行させるための査読対象論文の査読者検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学術論文の査読者として相応しい研究者を検索する技術に関するものである。
【背景技術】
【0002】
近年、学術論文の数が爆発的に増加している。2018年には約840万本の学術論文が発表され、毎年の発表論文数は指数関数的な速度で増加している。過去200年間に発表された論文の約半数は直近15年で発表されたものと言われている。
一方で、研究者は、毎年発表される膨大な数の論文の評価に多大な労力を費やしている。ここで、論文掲載における査読者選定の流れについて説明する。図10に示すとおり、投稿論文は、論文の著者から学術誌などの雑誌の編集者に送られる。編集者は、投稿論文の評価を別の研究者(査読者)の評価をもとに雑誌に掲載するか否かを判断する。この査読者の選定手続きは、まず査読者の候補を複数抽出し、その中から候補者に依頼し確認をとって、査読者を決定することになる。原則として査読者の査読作業は無償である。査読者は、投稿論文の内容について問題がないかを確認し、問題があれば著者に修正等を依頼する。査読者は、編集者へ査読結果を回答し、編集者が論文の掲載可否を決定することになる。編集者の手元には膨大な数の原稿が日常的に送られており、さらに、分野横断的な研究が増加しているため、編集者の専門知識だけでは、論文に関連する研究者を見つけることが困難な状況になっており、効率良く査読者を探索できる仕組みが要望されている。
【0003】
上記問題を解決するため、査読者を検索するための検索エンジンとして、Springer Nature 社のSpringer Reviewer Finder(非特許文献1を参照)や、Elsevier(登録商標)社のElsevier Reviewer Finder(非特許文献2を参照)が知られている。
上記非特許文献1又は2に開示された検索エンジンでは、原稿に含まれる単語からキーワードを特定して同じ単語をキーワードとする文献の著者を推薦する。しかし、キーワードが同じ論文であっても、以下に説明するとおり、必ずしも投稿論文と関連性があるとは限らない。例えば、物理の熱力学に関する論文では「エントロピー」という単語がキーワードになりやすい。しかし、エントロピーは、熱力学の他にも、通信、数学、統計に関する論文でもキーワードとなり得ることがあり、通信、数学、統計に関する論文と、熱力学の論文との関連は必ずしも高いとは言えないのである。そのため、非特許文献1又は2に開示された検索エンジンを用いて投稿論文の査読者を検索した場合には、十分な検索精度が得られないといった問題がある。
【先行技術文献】
【非特許文献】
【0004】
【文献】Springer Nature Reviewer Finder. https://reviewernder.nature.com/ [Accessed 2019/11/14].
【文献】Elsevier Reviewer Finder. https://www.elsevier.com/research-intelligence/resource-library/archived-resource-library-assets/reviewer-finder-factsheet [Accessed 2019/11/14].
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般に、査読者を選ぶ編集者は、投稿論文の中で引用された論文を辿って関連する論文を探し、その関連する論文の著者に査読を依頼することがある。投稿論文の中で引用された論文を引用する他の論文も関連する論文である。しかしながら、関連する論文の著者が投稿論文の技術に深く関与しており、査読者として適任か否かは、当該著者の論文数や研究歴を参酌しながら、また、過去の査読者選定手法を見ながら、編集者が判断することになるため、査読者選定には多大な労力がかかっている。さらに、上述の如く、編集者の手元には膨大な数の原稿が日常的に送られていること、分野横断的な研究が増加し、編集者の専門知識だけでは、論文に関連する研究者を見つけることが困難といった実状がある。
【0006】
かかる状況に鑑みて、本発明は、査読者として相応しい研究者を高精度で推薦可能な検索装置、検索方法及び検索プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上記課題を解決すべく、本発明の査読者検索装置は、査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文とが含まれる論文の引用関係を解析し、査読対象論文の関連論文群を抽出する関連論文群抽出部と、関連論文群の中の関連論文の著者を含む査読候補者群を抽出する査読候補者群抽出部と、査読候補者群の各査読候補者について、査読対象論文との間で、関連論文群の中の関連論文に著者として関わっている度合いを関連度として算出する関連度算出部と、各査読候補者について、少なくとも関連度に基づいて、査読対象論文の査読者推薦度を出力する査読者推薦度出力部を備える。
【0008】
論文において、文献の引用は、著者という人間の判断の結果である。そのため、単語だけでは捉えられない論文の内容に関する関連が、引用という情報には含まれている。このように、引用は論文の内容をもとに人間が判断して行うため、査読候補者の検索に論文の引用を用いることで、キーワードだけでは捉えられない論文の内容的な関連に基づいて査読者を推薦することができる。
【0009】
本発明の査読者検索装置の関連論文群抽出部において、関連論文群は、査読対象論文が引用する第1の関連論文(=査読対象論文が引用する論文)と、第1の関連論文を引用する第2の関連論文とが含まれることが好ましく、更に好ましくは、査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文と、第2の関連論文が引用する論文であって第1の関連論文以外の第3の関連論文とが含まれる。
【0010】
査読対象論文が引用する第1の関連論文は、査読対象論文が引用する論文(査読対象論文の引用論文)であるため、最も関連性が高い論文であるといえる。第1の関連論文を引用する第2の関連論文は、査読対象論文が直接引用する論文ではないが、査読対象論文が引用する論文と同一の論文を引用する論文であるため、関連性が高い論文であるといえる。また、第2の関連論文が引用する論文であって第1の関連論文以外の第3の関連論文についても、同じ第1の関連論文を引用する第2の関連論文が引用する論文であるため、関連性が高い論文であるといえる。
【0011】
本発明の査読者検索装置において、査読候補者群は、関連論文群の著者と、関連論文群以外の論文の著者であって関連論文群の著者と共同執筆した共同著者が含まれることが好ましい。
関連論文群の著者は、当該論文に対する貢献度が高く査読候補者として相応しいと判断される可能性が高いからである。また、関連論文の著者だけでなく、その著者と共著がある研究者についても、ある程度関連する研究をしていると推察されるからである。
【0012】
本発明の査読者検索装置の関連度算出部において、関連論文群の著者における関連度は、関連論文群の中の関連論文に著者として多く関わっているほど高い度合いとして算出する。関連論文群の中の関連論文に著者として多く関わっているほど、査読対象論文に対する多くの知見を有する可能性が高いと考えられるからである。
【0013】
本発明の査読者検索装置の関連度算出部において、共同著者における関連度は、関連論文群の中の関連論文の著者との共同著者として多く関わっているほど高い度合いとして算出する。共同著者は、関連論文群の著者と多く関わっているほど、査読対象論文に対する多くの知見を有する可能性が高いと考えられるからである。
【0014】
本発明の査読者検索装置は、査読者推薦度出力部において、関連度に加えて、各査読候補者について、研究キャリアの長さと、論文数と総被引用数基づいて、査読対象論文の査読者推薦度を出力することが好ましい。
ここで、各査読候補者における論文数とは、査読候補者が既に公表した論文の数のことであり、論文数が多い査読候補者は、研究能力が高く、多くの知見を有する可能性が高いと推察できる。また、総被引用数とは、公表した全ての論文に対して、論文が引用された数の総数のことであり、総被引用数が多い査読候補者は、研究能力が高く、重要性の高い論文を発表している研究者である可能性が高いと推察できる。研究キャリアの長さとは、最初の論文を発表してからの経過年数を指し、経過年数が長いほど、長期に亘って研究を続けており多くの知見を有すると推察できる。
なお、論文数や総被引用数は、関連論文に関するものに限定してもよく、これにより、査読対象論文に関連する研究能力を推し量る物差しとして用いることができる。
【0015】
本発明の査読者検索装置において、査読者推薦度出力部は、過去の査読論文と査読者における関連度と、査読者の研究キャリアの長さと、査読者の論文数と総被引用数特徴量とし、過去の査読論文と査読者と前記特徴量を用いて機械学習を行った学習モデルを用いて、査読対象論文の査読者推薦度を出力することが好ましい。
機械学習においては、具体的には順序学習を用いる。順序学習は、既にあるランキング結果からランキング方法の学習と模倣を行なう手法の総称で、主としてウェブページの検索エンジンに用いられるものである。
【0016】
本発明の査読者検索装置の査読者推薦度出力部は、査読候補者の研究キャリアの長さと関連度とを軸とするグラフ上に、査読者の論文数と総被引用数の少なくとも何れかプロットのサイズとして表示し、プロットが選択されたことを検知すると査読候補者に関する情報を表示する。表示例としては、縦軸に関連度を表示し、横軸に最初の論文を発表してからの経過年数を表示し、執筆論文数をプロットのサイズとしたグラフをディスプレイに表示する。
【0017】
本発明の査読対象論文の査読者検索方法は、下記1)~4)の各ステップを備える。
1)査読対象論文が引用する第1の関連論文と、第1の関連論文を引用する第2の関連論文とが含まれる論文の引用関係を解析し、査読対象論文の関連論文群を抽出する関連論文群抽出ステップ。
2)関連論文群の中の関連論文の著者を含む査読候補者群を抽出する査読候補者群抽出ステップ。
3)査読候補者群の各査読候補者について、査読対象論文との間で、関連論文群の中の関連論文に著者として関わっている度合いを関連度として算出する関連度算出ステップ。
4)各査読候補者について、少なくとも関連度に基づいて、査読対象論文の査読者推薦度を出力する査読者推薦度出力ステップ。
【0018】
本発明の査読者検索方法において、上記4)の査読者推薦度出力ステップは、過去の査読論文と査読者における関連度と、査読者の研究キャリアの長さと、査読者の論文数と総被引用数特徴量とし、過去の査読論文と査読者と前記特徴量を用いて機械学習を行った学習モデルを用いて、査読対象論文の査読者推薦度を出力することが好ましい。
【0019】
本発明の査読者検索プログラムは、上記の何れかの査読者検索方法における各ステップの全てをコンピュータに実行させるものである。
【発明の効果】
【0020】
本発明の査読者検索装置、方法及びプログラムによれば、査読対象論文が引用する論文の引用関係を辿って分析し、関連する文献を特定し、その文献の著者の中から、査読者として相応しい研究者を高精度で推薦できるといった効果がある。
【図面の簡単な説明】
【0021】
図1】査読者検索装置の機能ブロック図
図2】査読者検索方法の概略フロー図
図3】査読対象論文の引用論文と関連論文の引用関係の説明図(実施例1)
図4】関連論文リストの作成フロー図(実施例1)
図5】機械学習の概念図
図6】査読対象論文の引用論文と関連論文の引用関係の説明図(実施例2)
図7】関連論文リストの作成フロー図(実施例2)
図8】検索装置のヒット率を示すグラフ
図9】査読者推薦度の出力イメージ図
図10】論文掲載における査読者選定の流れの説明図
【発明を実施するための最良の形態】
【0022】
以下、本発明の実施形態の一例を、図面を参照しながら詳細に説明していく。なお、本発明の範囲は、以下の実施例や図示例に限定されるものではなく、幾多の変更及び変形が可能である。
【実施例1】
【0023】
図1は、査読者検索装置の機能ブロック図を示している。図1に示すように、査読者検索装置1は、関連論文群抽出部2、査読候補者群抽出部3、関連度算出部4及び査読者推薦度出力部5を備える。
ここで、関連論文群抽出部2は、査読対象論文が引用する論文の引用関係を解析し、査読対象論文の関連論文群を抽出するものである。査読対象論文の関連論文群とは、査読対象論文が引用する論文(第1の関連論文)と、第1の関連論文を引用する他の論文(第2の関連論文)と、第2の関連論文が引用する論文であって査読対象論文が引用する論文(第1の関連論文)以外の論文(第3の関連論文)とが含まれる。関連論文については、後で図3を参照しながら説明する。
【0024】
査読候補者群抽出部3は、関連論文群の中の関連論文の著者を含む査読候補者群を抽出するものである。関連度算出部4は、査読候補者群の各査読候補者について、査読対象論文との関連度を算出するものである。ここで、査読対象論文との関連度(関連度合い)について説明する。関連度には2つの意味合いがあり、関連論文群の著者における場合と、関連論文群の共同著者の場合とで関連度の意味合いが異なる。関連論文群の著者における関連度は、関連論文群の中の関連論文に著者として多く関わっているほど高い度合いとして表れる。関連論文群の中の関連論文に著者として多く関わっているほど、査読対象論文に対する多くの知見を有する可能性が高いからである。一方、関連論文群の共同著者における関連度は、関連論文群の著者と多く関わっているほど高い度合いとして表れる。共同著者は、関連論文群の著者と多く関わっているほど、査読対象論文に対する多くの知見を有する可能性が高いからである。
そして、査読者推薦度出力部5は、各査読候補者について、関連度に基づいて、査読対象論文の査読者推薦度を出力する。
【0025】
図2は、査読者検索方法の概略フロー図を示している。図2に示すように、まず、査読対象論文が引用する論文の引用関係を解析し、査読対象論文の関連論文群を抽出する(ステップS01:関連論文群抽出ステップ)。次に、関連論文群の中の関連論文の著者を含む査読候補者群を抽出する(ステップS02:査読候補者群抽出ステップ)。査読候補者群の各査読候補者について、査読対象論文との関連度を算出する(ステップS03:関連度算出ステップ)。各査読候補者について、関連度に基づいて、査読対象論文の査読者推薦度を出力する(ステップS04:査読者推薦度出力ステップ)。
【0026】
(関連論文の検索について)
査読対象論文の引用関係を解析し、関連論文を抽出する。ここでは、引用関係の解析の方法について一例を説明する。図3は、査読対象論文が引用する論文と関連論文の引用関係の説明図を示している。図3に示すように、例えば、査読対象論文が引用する論文i1は、査読対象論文の技術内容と関連しているといえる(第1の関連論文)。また、論文i1を引用している論文i2も、査読対象論文の技術内容と関連するといえる(第2の関連論文)。さらに、査読対象論文と同様に、第2の関連論文i2が引用する論文であって第1の関連論文i1以外の論文i3(第3の関連論文)も、査読対象論文の技術内容と関連しているといえる。このため、具体的に、以下の手順で文献の引用関係を解析して、3種類の関連論文リストS1 paper、S2 paper、S3 paperを作成する。
【0027】
図4は、関連論文リストの作成フロー図を示している。図4に示すように、まず、関連論文リストS1 paper、S2 paper、S3 paperを空にする(ステップS11)。次に、査読対象論文が引用する論文i1を無作為に一つ選び、関連論文リストS1 paperに加える(ステップS12)。論文i1を引用している論文i2を無作為に一つ選び、関連論文リストS2 paperに加える(ステップS13)。論文i2が引用している論文i3を無作為に一つ選び、関連論文リストS3 paperに加える(ステップS14)。十分な繰り返しを行うまで、再度、S1 paper、S2 paper、S3 paperを空にせずに、ステップS12~S14を繰り返して行う(ステップS15)。
【0028】
ステップS12~S15を複数回繰り返すため、S1 paper、S2 paper、S3 paperそれぞれのリストには同じ論文が複数回登場する。リストに登場しない、あるいは少ない頻度で登場する論文は査読対象の論文と関連が弱いと見做すことができる。一方で、リストに高い頻度で登場する論文は査読対象の論文と関連が強いと見做すことができる。この考え方の下、リスト内の各論文と査読対象の論文の関連度を、各論文がリストに占める割合で与える。
【0029】
なお、実際にはステップS12~S15を何度も繰り返さず、論文の引用関係から関連度を解析的に計算することでもよい。具体的に、査読対象論文i0に対して、ステップS12~S15を繰り返したときに、ある論文iがリストSl paper(l=1,2,3)に占める割合の期待値Xil paperは以下で与えられる。この期待値Xil paper(l=1,2,3)が、ある論文iがS1 paper、S2 paper、S3 paperそれぞれのリストに占める割合になる。
【0030】
【数1】
【0031】
【数2】
【0032】
【数3】
【0033】
ここで、Aabは論文aが論文bを引用している場合には、Aab=1、論文aが論文bを引用していない場合には、Aab=0となる変数とした。また、di outは、論文iが引用している論文数を意味し、di inは、論文iが引用されている論文数、すなわち、論文iを引用している論文数である。Npは全ての論文数である。
例えば、査読対象論文i0が引用している論文数が20である場合、ある論文iがリストS1 paperに占める割合の期待値Xi1 paperは0.05となる。また、論文iを引用している論文数が50である場合、リストS2 paperに占める割合の期待値Xi2 paperは0.001(=0.05/50)となる。
【0034】
(査読候補者の関連度の算出について)
関連論文リストの論文の著者は、査読対象論文と関連する研究を行っていると推察できる。著者の中でも多数の関連論文に著者として関わっている研究者は、そうでない研究者よりも、査読対象論文との関連度が高いと言える。そのため、以下の手順で査読候補者の関連度を算出する。
まず、関連論文リストSl paperの各著者iに対して、著者が執筆した全著書のリストを作成する。著者iの全著書リストにはSl paperに含まれない論文も含まれる。次に、著者iの著書リストに対して、上記式1、式2及び式3で与える論文の期待値Xil paper(l=1,2,3)の平均を計算し、これを著者iについての査読対象論文の関連度とする。すなわち、下記式4の通りとなる。ここで、Bijは、著者iが論文jの著者であればBij=1、そうでなければBij=0となる変数である。また、ki authorは、著者iの著書の総数である。
なお、本実施例では、論文の期待値Xil paper(l=1,2,3)の平均を計算しているが、例えば、査読対象論文が引用する論文の著者の重み付けを大きくすべく、期待値Xi1 paperの重み付けを他の2つとは変えて、重み付け平均を計算することでもよい。
【0035】
【数4】
【0036】
関連論文リストSl paperの論文の著者だけでなく、その著者と共著がある研究者も著者と同様に関連する研究をしていると推察される。そこで、関連論文リストSl paperの論文の著者に加えて、著者と共著がある共同著者を査読候補者に加えることでもよい。この共同著者の関連度について説明する。
まず、関連論文リストSl paperの著者jの全著書リストを作成する。次に、著者jの論文リストに含まれる論文iの関連度を下記式5で計算する。
【0037】
【数5】
【0038】
ここで、Naは全著者数、ki paperは論文iの著者数である。上記式5では、論文iの関連度について、論文iが関連論文リストSl paperに含まれる場合には、式1、式2及び式3で計算した期待値の平均を関連度とする。一方、論文iが関連論文リストSl paperに含まれない場合には、論文の著者の関連度Xj authorの平均で与える。次に、共同著者の関連度を計算する。計算した著者と共同著者の関連度を研究者の関連度とする。
【0039】
(機械学習を行った学習モデルを用いた査読者推薦度の出力について)
前述の関連度の計算では、各著者iに対して3種類の関連度Xi1 author、Xi2 author及びXi3 authorを計算した。ここでは、これらの関連度を1つのスコアにまとめ、査読候補者のランキングを行なう。そのために順序学習を用いる。順序学習は、既にあるランキング結果からランキング方法の学習と模倣を行なう手法の総称で、主としてウェブページの検索エンジンに用いられている機械学習である。例えば、ウェブページの検索エンジンでは、ページの一覧をユーザーに提示する。ユーザーは提示されたページの中からいくつかのページをクリックし所望のページに遷移する。順序学習では、ユーザーは提示されたページをランキングし、順位が高いものをクリックしているとみなす。この考えの下、ユーザーのクリックの履歴とクリックされたページの特徴(キーワード、ページ数、作成日など)のパターンを学習し、ランキングを行なう。
【0040】
査読候補者の検索においては、ユーザーが雑誌の編集者であり、検索対象は研究者である。すなわち、編集者は、査読対象論文に対する研究者の関連性や研究者の特徴(年齢や経験など) をもとに研究者のランキングを行い、ランキングの高い研究者に査読を依頼していると見做すことができる。順序学習法に過去に編集者が行った査読者の依頼履歴データを学習させて、査読対象論文の原稿の査読者の推薦度を出力する。順序学習の入力である研究者の特徴として、前述の関連度の計算において計算した3種類の関連度に加え、研究者が最初の論文を公表してからの経過年数ti(これを学術年齢という)や、研究者の生産性指標である著書数ki author及び総被引用数ciを用いる。
本実施例の査読者検索装置1では、順序学習法の一つであるLambdaMartを用いて学習する。なお、LambdaMartに限らず、別の順序学習法、例えば、RankNetやLambdaRankを用いることでもよい。
【0041】
(実験に使用したデータについて)
機械学習において、教師用データとして使用するデータベースとして、Frontiers社が発行している全ての論文のデータベース(以下では「Frontiers」ともいう)を用いて学習器に学習させた。Frontiersは、11万本を超える論文に関するデータベースであり、原則として査読者の氏名を公表している。
また、論文の引用関係の調査用の論文データベースとして、Microsoft Academic Graph(MAG)を用いた(「Microsoft」は登録商標)。MAGには2019年4月現在で2億本以上の論文の引用関係が記録されている。
【0042】
FrontiersのデータとMAGデータは別々のデータであり、Frontiersのデータに記録されている査読者が、MAGデータに記録されているどの研究者であるかは対応が取れていない。Frontiersは、査読者毎に著書リストを作成しており、著書リスト中の論文は、DOI(Digital Object Identifier)コードを介してMAGデータに記録されている論文と対応が取れている。DOIコードを用いてFrontiersデータの全論文のうち、11万925本(97%)の論文で氏名を公表している9万3722名の査読者が、MAGデータのどの研究者であるかについて確認した。
【0043】
Frontiersのデータを教師データとし、図5に示すように、既知の査読対象論文と関連論文の関連度を算出し、関連度を特徴として学習器に入力させ、査読候補者リストにおける各査読候補者の推薦度を出力させる。そして教師データを用いて、過去に実際に査読者となった正解を与える。機械学習を繰り返し、出力の査読候補者の最も推薦度が高くなるように、機械学習の中で使用する係数を修正していき最適な値に補正する。
【0044】
(実験結果について)
実験では、上述のとおり、上記LambdaMartの訓練にFrontiersの教師データを用いた。また、Frontiersのデータから500本の論文を無作為に抽出し、査読者検索装置に入力した。査読者検索装置は、上述したもの(実施例1の査読者検索装置)に加えて、関連論文群として、図6及び図7に示すように、査読対象論文が引用する第1の関連論文i1と、第1の関連論文を引用する第2の関連論文i2を用いて査読者を検索する査読者検索装置(これを実施例2の査読者検索装置とする)に対して、実験を行った。
実験は、各論文に対して20人の研究者を推薦し、実際の査読者が推薦される確率(ヒット率)を計算することで行った。実施例1、2の査読者検索装置との比較のため、第1の関連論文i1のみを用いた査読者検索装置(比較例1)、Springer Natureが開発したSpringer Reviewer Finderを用いた査読者検索装置(比較例2)に対して、同じ論文を入力し、出力された推薦結果のヒット率を計算した。Springer Reviewer Finderはキーワードに基づく査読者検索エンジンである。
【0045】
図8は、各々の査読者検索装置のヒット率を示すグラフである。図8に示すように、推薦者数がr=1人の場合、実施例1、実施例2、比較例1、比較例2のヒット率は何れも0.01未満である。推薦者数が2人以上の場合(r≧2)、実施例1のヒット率は、実施例2、比較例1及び比較例2のヒット率より高く、1≦r≦20の大半の推薦者数において、実施例1及び実施例2のヒット率は比較例1及び比較例2のヒット率のおおよそ2倍であることが判った。
以上から、実施例1及び実施例2の査読者検索装置1のヒット率は、従来から知られたSpringer Reviewer Finder(比較例2)の約2倍のヒット率を達成し得ることが判った。また実施例1及び実施例2の査読者検索装置1のヒット率の違いから、第1の関連論文i1及び第2の関連論文i2だけでなく、第3の関連論文i3を用いることで、より高いヒット率が得られることが判った。
【0046】
なお、実施例1の査読者検索装置1では、12人推薦したときのヒット率が約0.1である。すなわち、査読候補者を12人推薦したとき、実際の査読者のうち少なくとも1人が推薦される確率は0.1である。これは実用上あまり良いヒット率とはいえないとも言える。しかし、ヒット率の低さは査読を断った研究者の情報秘匿も関係している。具体的に、評価に利用したFrontiersのデータでは査読を実際に受けた人しか記録されていない。そのため、推薦者の中に編集者が査読を依頼した研究者がいたとしても、査読が断られた場合は依頼の有無は記録されないため、ヒット率が低下する。また、氏名の公表に同意しなかった査読者がいる場合もデータとして記録されないため、ヒット率が低下する。
編集者は研究の関連性だけで査読者を選ばない。査読を頼みやすい親しい人に依頼する、又は編集者自身で査読するといった場合もある。そのような場合、研究の関連性とは別の基準で査読者が選ばれているため、実施例1,2の査読者検索装置1では推薦されず、ヒット率の低下につながっているといえる。研究の関連性に基づいて査読者を選んだ論文に限定した場合、ヒット率はより高くなることが推察される。
【0047】
(査読者推薦度の出力について)
図9は、査読者推薦度の出力イメージ図である。図9のグラフにおいて、縦軸は関連度を表しており、高いほど査読対象論文の査読候補者としてより強く推薦されていることを示している。横軸は研究キャリア(学術年齢)であり、最初の論文を発表してからの経過年数を示している。グラフ内のバブル形状のプロットは、査読候補者を示しており、バブルの円の大きさは執筆論文数に比例するように表している。プロットの形状の違いは、著者と同姓同名の査読者は□で表示し、その他は○で表示している。表示されるグラフ中のプロット7を選択すると、査読候補者情報表示エリア8がポップアップウインドウで表示され、査読候補者の詳細情報を確認することができる。
なお、ここでは図示しないが、査読対象論文と関連論文の発表年の時期的関係を色分けしてもよい。かかる場合、例えば、最近発表された論文であることを表すのに特定の色(例えば、赤色)で塗潰しをしてもよい。
図9に示すような表示画面を用いて、ユーザー(図示せず)は、関連度、研究キャリア及び執筆論文数を総合的に勘案して、査読候補者から査読者を選択することが可能である。
【産業上の利用可能性】
【0048】
本発明は、論文の評価に相応しい査読者を推薦する技術として有用である。また、例えば、ある研究者を評価するための外部の評価者の検索や、共同研究を促進するための研究者のマッチングに利用可能である。さらに、学術界における応用に留まらず、例えば、特許文献の引用関係からある特許文献に関連する特許文献や発明者等の検索に利用可能である。
【符号の説明】
【0049】
1 査読者検索装置
2 関連論文群抽出部
3 査読候補者群抽出部
4 関連度算出部
5 査読者推薦度出力部
7 プロット
8 査読候補者情報表示エリア
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10