IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人 川崎学園の特許一覧

特許7338848文章検索システム、文章検索方法及び文章検索プログラム
<>
  • 特許-文章検索システム、文章検索方法及び文章検索プログラム 図1
  • 特許-文章検索システム、文章検索方法及び文章検索プログラム 図2
  • 特許-文章検索システム、文章検索方法及び文章検索プログラム 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-08-28
(45)【発行日】2023-09-05
(54)【発明の名称】文章検索システム、文章検索方法及び文章検索プログラム
(51)【国際特許分類】
   G06F 16/332 20190101AFI20230829BHJP
【FI】
G06F16/332
【請求項の数】 15
(21)【出願番号】P 2019035349
(22)【出願日】2019-02-28
(65)【公開番号】P2020140435
(43)【公開日】2020-09-03
【審査請求日】2022-02-21
(73)【特許権者】
【識別番号】597039984
【氏名又は名称】学校法人 川崎学園
(74)【代理人】
【識別番号】100088904
【弁理士】
【氏名又は名称】庄司 隆
(74)【代理人】
【識別番号】100124453
【弁理士】
【氏名又は名称】資延 由利子
(74)【代理人】
【識別番号】100135208
【弁理士】
【氏名又は名称】大杉 卓也
(72)【発明者】
【氏名】神田 英一郎
(72)【発明者】
【氏名】柏原 直樹
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2019-008779(JP,A)
【文献】江越裕紀 他2名,判例の構造を利用した判例文書検索,情報処理学会研究報告,日本,社団法人情報処理学会,2005年01月28日,Vol.2005,No.11,1-8頁,ISSN 0919-6072,2005-DD-48
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G16H 10/00-80/00
G06Q 10/00-99/00
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
検索要求に適合する文章を検索する情報検索システムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信部、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信部、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示部、
(7)該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部、
並びに、
さらに、2回目のスクリーニング用として、
(3-1)該(7)でユーザが選択した文章を除く文章集合の各文章並びに該(7)で検索要求に適合した文章を追加した該(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部2、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部2、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部2、及び
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示部2、
を含情報検索システム。
【請求項2】
さらに、
(11)前記文章を選択するための検索語を受け付ける検索語受信部、
(12)該検索語を検索語由来の単語ベクトルに変換する検索語由来の単語ベクトル変換部、
(13)前記(3)の各文章由来の単語ベクトルが該検索語由来の単語ベクトルと一致又は類似した場合には、前記(4)の各文章を選択する文章選択部、
を含む請求項1に記載の情報検索システム。
【請求項3】
さらに、
(7-1)前記ユーザによる前記(6-1)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部2、
を含む請求項1又は2に記載の情報検索システム。
【請求項4】
さらに、3回目のスクリーニングとして、
(3-2)前記(7)及び(7-1)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)及び(7-1)で検索要求に適合した文章又は前記(7-1)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部3、
(4-2)(3-2)の該各文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部3、
(5-2)(4-2)の該各文章由来の文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部3、
(6-2)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示部3、
(7-2)該ユーザによる(6-2)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部3、
を含む請求項1~3のいずれか1に記載の情報検索システム。
【請求項5】
さらに、
(8)前記(5)、(5-1)又は(5-2)の各文章の標準偏差、又は、前記(7)、(7-1)又は(7-2)のユーザが選択した各文章の標準偏差を計算する標準偏差計算部、
(9)該標準偏差を提示する標準偏差結果提示部、
を含む請求項1~4のいずれか1に記載の情報検索システム。
【請求項6】
さらに、
(10)各スクリーニング段階での標準偏差を比較する標準偏差比較部、ここで、該標準偏差比較部は、以下のいずれか1以上の助言又は警告機能を有する;
(a)各スクリーニング段階の標準偏差が閾値と比較して低い値で一定している場合、スクリーニングを完了しても良いとの助言をする:
(b)各スクリーニング段階の標準偏差が閾値と比較して高い値で一定している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする:
(c)各スクリーニング段階の標準偏差が下降している場合、スクリーニングを完了しても良いとの助言をする:及び
(d)各スクリーニング段階の標準偏差が上昇している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする、
を含む請求項5に記載の情報検索システム。
【請求項7】
さらに、
(14)複数のユーザの前記(7)で検索要求に適合した文章を提示するユーザ検索結果比較部、
を有する請求項1~6のいずれか1に記載の情報検索システム。
【請求項8】
前記検索要求が臨床疑問である請求項1~7のいずれか1に記載の情報検索システム。
【請求項9】
さらに、以下のいずれかの1以上を有する請求項1~8のいずれか1に記載の情報検索システム。
(1)検索結果のデータを出力する検索結果出力部
(2)ユーザが所望の文献を選択することにより、該文献のデータベースから該文献を入手することができる文章出力部
【請求項10】
検索要求に適合する文章を検索する情報検索システムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信部、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信部、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示部、
(7)該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部、
(8)該(5)の各文章の標準偏差、又は、該(7)のユーザが選択した各文章の標準偏差を計算する標準偏差計算部、
(9)該標準偏差を提示する標準偏差結果提示部、
並びに、
(10)各スクリーニング段階での標準偏差を比較する標準偏差比較部、ここで、該標準偏差比較部は、以下のいずれか1以上の助言又は警告機能を有する;
(a)各スクリーニング段階の標準偏差が閾値と比較して低い値で一定している場合、スクリーニングを完了しても良いとの助言をする:
(b)各スクリーニング段階の標準偏差が閾値と比較して高い値で一定している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする:
(c)各スクリーニング段階の標準偏差が下降している場合、スクリーニングを完了しても良いとの助言をする:及び
(d)各スクリーニング段階の標準偏差が上昇している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする、
を含む情報検索システム。
【請求項11】
さらに、2回目のスクリーニングとして、
(3-1)前記(7)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部2、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部2、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部2、
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示部2、
を含む請求項10に記載の情報検索システム。
【請求項12】
検索要求に適合する文章を検索する情報検索システムを使用した情報検索方法であって、
(1)該情報検索システムが複数の文章を含む文章集合を受け付ける工程、
(2)該情報検索システムがユーザの検索要求を受け付ける工程、
(3)該情報検索システムが該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)該情報検索システムが各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)該情報検索システムが各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該情報検索システムが該文章と該検索要求との間の類似度を提示する工程、
(7)該情報検索システムが該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付ける工程、
並びに、
さらに、2回目のスクリーニング用として、
(3-1)該情報検索システムが該(7)でユーザが選択した文章を除く文章集合の各文章並びに該(7)で検索要求に適合した文章を追加した該(3)の検索要求をそれぞれ単語ベクトルに変換する工程、
(4-1)該情報検索システムが該(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5-1)該情報検索システムが該(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する工程、及び
(6-1)該情報検索システムが該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する工程、
を含む情報検索方法。
【請求項13】
検索要求に適合する文章を検索する情報検索システムを使用した情報検索方法であって、
(1)該情報検索システムが複数の文章を含む文章集合を受け付ける工程、
(2)該情報検索システムがユーザの検索要求を受け付ける工程、
(3)該情報検索システムが該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)該情報検索システムが各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)該情報検索システムが各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該情報検索システムが該文章と該検索要求との間の類似度を提示する工程、
(7)該情報検索システムが該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付ける工程、
(8)該情報検索システムが該(5)の各文章の標準偏差、又は、該(7)のユーザが選択した各文章の標準偏差を計算する工程、
(9)該情報検索システムが該標準偏差を提示する工程、
並びに、
(10)該情報検索システムが各スクリーニング段階での標準偏差を比較する工程、ここで、該工程は、以下のいずれか1以上の助言又は警告をする;
(a)各スクリーニング段階の標準偏差が閾値と比較して低い値で一定している場合、スクリーニングを完了しても良いとの助言をする:
(b)各スクリーニング段階の標準偏差が閾値と比較して高い値で一定している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする:
(c)各スクリーニング段階の標準偏差が下降している場合、スクリーニングを完了しても良いとの助言をする:及び
(d)各スクリーニング段階の標準偏差が上昇している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする、
を含む情報検索方法。
【請求項14】
検索要求に適合する文章を検索するためのプログラムであって、
コンピュータを
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
(7)該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定手段、
並びに、
さらに、2回目のスクリーニング用として、
(3-1)該(7)でユーザが選択した文章を除く文章集合の各文章並びに該(7)で検索要求に適合した文章を追加した該(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、及び
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示手段、
の各種手段として機能させるためのプログラム
【請求項15】
検索要求に適合する文章を検索するためのプログラムであって、
コンピュータを
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
(7)該ユーザによる該(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定手段、
(8)該(5)の各文章の標準偏差、又は、該(7)のユーザが選択した各文章の標準偏差を計算する標準偏差計算手段、
(9)該標準偏差を提示する標準偏差結果提示手段、
並びに、
(10)各スクリーニング段階での標準偏差を比較する標準偏差比較手段、ここで、該標準偏差比較手段は、以下のいずれか1以上の助言又は警告手段を有する;
(a)各スクリーニング段階の標準偏差が閾値と比較して低い値で一定している場合、スクリーニングを完了しても良いとの助言をする:
(b)各スクリーニング段階の標準偏差が閾値と比較して高い値で一定している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする:
(c)各スクリーニング段階の標準偏差が下降している場合、スクリーニングを完了しても良いとの助言をする:及び
(d)各スクリーニング段階の標準偏差が上昇している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする、
の各種手段として機能させるためのプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文章検索システム、文章検索方法及び文章検索プログラムに関し、特に臨床疑問に関する文章検索システム、文章検索方法及び文章検索プログラムに関する。
【背景技術】
【0002】
(臨床疑問に関する従来の問題点)
医学におけるガイドラインでは、臨床疑問(clinical question, CQ)に関係するエビデンス(医学論文)をできるだけ集め、システマティックレビュー(systematic review, SR)を行った後、その結果に基づいてステートメントがまとめられる。
SRの手順は、まず一次スクリーニングとして、(1)CQに関係する論文をMEDLINEなどのデータベースから幅広く集めた文献リストを作成し、(2)そのアブストラクトをもとにCQに関与する論文を選択する。次に、二次スクリーニングとして、選択された論文を読み、基準にあった論文を選択する。その後、選択された各論文の治療効果やバイアスを評価し、エビデンス総体の評価を行う。これまでSRは、主として人の手作業で行われてきた。
一次スクリーニングでは、対象、曝露因子、介入だけでなく、害と不利益を含んだ幅広いアウトカムを拾うため検索式にアウトカムは含めず検索を行う。その結果、リストに挙げられた論文数は、非常に多く、論文の候補は数千になることもある。このリストから、タイトルとアブストラクトに基づいて、CQに関係した論文を選別するには、労力と時間がかかるばかりでなく、見逃してしまう可能が高い。このスクリーニングでの作業が問題となっている。
また、これまで報告されているSRに関係したソフトでは、論文の分類を行うが文献の選択を行うことができないものや、PubMed unique identifier という論文の番号を入力しなくてはならないものがある。これらは、SRの作業の効率化に役立たないため、一般的に使用されていない。
【0003】
(従来の文献検索)
検索語や検索文によって指定されるユーザの検索要求に適合する文献の検出や適合する順に文章を並び替える情報検索方法として、以下が知られている。
【0004】
「TensorFlowを使った機械学習を論文抽出に適用、ヒントは大学入試問題対策の裏ワザ(非特許文献1)」では、システマティックレビューを対象として、テキストマイニングと機械学習を用いて文献のスクリーニングを実施した内容が開示されている。
【0005】
特許文献1では、「コンピュータを用いて生物医学分野におけるキーワードを抽出するシステムであって、生物医学分野における文献データを蓄積した文献データベースと、生物医学分野における用語の基本的カテゴリを示す概念語の入力を受け付ける概念語入力部と、前記文献データ中で、前記入力された概念語と共起する共起語を検索し、その共起件数を計数する共起解析部と、検索された各共起語について、前記概念語との関連の強さを計算し、共起語、その共起件数及び関連の強さを含んだ共起リストを生成する共起リスト作成部と、生成した共起リストに含まれる各共起語について、前記文献データ中で、当該共起語と共起する単語を検索し、その共起件数を計数するキーワード計算部と、前記検索された単語のうち前記共起件数が一定数以上であるものをキーワードとして抽出するキーワード抽出部とを含んだシステム。」を開示している。
【0006】
「N-gram 全文検索と概念検索を融合した文書検索方式の検討(非特許文献2)」は、「文書検索において、文書全体からキーワードの存在を検証する“全文検索”と、文書内容とキーワードとの類似性を検証する“概念検索”とを融合することで、互いの欠点を補完するとともに検索精度の向上を図る技術が開示されている。そして概念検索においては、形態素解析に基づいて文書ベクトルと検索クエリ(検索者が入力した単語,フレーズ,文)ベクトルとの類似性・一致度を計算すること」を開示している。
【0007】
「隣接情報を用いた類似文書検索とリランキング(非特許文献3)」は、「特許調査や文献検索を対象として、クエリ文書(検索者が指定した文書)と意味的に類似した文書を検索する技術」を開示している。
【0008】
「ランキング結果を自由に閲覧するための再ランキングインターフェース(非特許文献4)」は、「様々な検索結果(ランキング結果)をユーザのインターラクションに応じて、すなわち気になった単語を追加選択したり単語の重要度を指定したりすることで、検索結果を再ランキングするためのシステム」を開示している。
【0009】
上記の文献は、いずれも本発明の文章検索方法の特徴的な構成である効率的な文章の絞り込み工程、検索要求に適合した文章の漏れを防止する工程及び検索結果の評価工程を開示又は示唆をしていない。
【先行技術文献】
【特許文献】
【0010】
【文献】特開2008-21028号公報
【非特許文献】
【0011】
【文献】https://www.atmarkit.co.jp/ait/articles/1712/21/news028.html
【文献】亀代泰三 他,情報処理学会第67 回全国大会
【文献】古川修平 他,DEIM Forrum 2009A9-
【文献】山本岳洋 他,WISS 2009
【発明の概要】
【発明が解決しようとする課題】
【0012】
従来の文章検索方法の問題を解決すべく、効率的な文章の絞り込み、検索要求に適合した文章の漏れを防止する及び/又は検索結果の評価が可能な文章検索システムを提供することを課題とする。
【課題を解決するための手段】
【0013】
本発明の文章検索システム等は、以下の構成、工程又は手段を含むことにより、本発明の課題のいずれか1を解決することを見出して本発明を完成した。
【0014】
本発明は以下の通りである。
1.検索要求に適合する文章を検索する情報検索システムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信部、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信部、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示部、
を含む情報検索システム。
2.さらに、
(11)前記文章を選択するための検索語を受け付ける検索語受信部、
(12)該検索語を検索語由来の単語ベクトルに変換する検索語由来の単語ベクトル変換部、
(13)前記(3)の各文章由来の単語ベクトルが該検索語由来の単語ベクトルと一致又は類似した場合には、前記(4)の各文章由来の単語ベクトルに選択する文章選択部、
を含む前項1に記載の情報検索システム。
3.さらに、
(7)前記ユーザによる前記(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部、
を含む前項1又は2に記載の情報検索システム。
4.さらに、2回目のスクリーニングとして、
(3-1)前記(7)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部2、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部2、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部2、
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示部2、
を含む前項3に記載の情報検索システム。
5.さらに、
(7-1)前記ユーザによる前記(6-1)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部2、
を含む前項4に記載の情報検索システム。
6.さらに、3回目のスクリーニングとして、
(3-2)前記(7)及び(7-1)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)及び(7-1)で検索要求に適合した文章又は前記(7-1)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部3、
(4-2)(3-2)の該各文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部3、
(5-2)(4-2)の該各文章由来の文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部3、
(6-2)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示部3
(7-2)該ユーザによる(6-2)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定部3、
を含む前項5に記載の情報検索システム。
7.さらに、
(8)前記(5)、(5-1)又は(5-2)の各文章の標準偏差、又は、前記(7)、(7-1)又は(7-2)のユーザが選択した各文章の標準偏差を計算する標準偏差計算部、
(9)該標準偏差を提示する標準偏差結果提示部、
を含む前項1~6のいずれか1に記載の情報検索システム。
8.さらに、
(10)各スクリーニング段階での標準偏差を比較する標準偏差比較部、
を含む前項7に記載の情報検索システム。
9.検索要求に適合する文章を検索する情報検索システムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信部、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信部、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換部、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換部、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算部、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示部、
(7)該ユーザによる(6)で提示した文章から検索要求に適合する文章の選択結果を受信するユーザ文章判定部、
(8)(6)で提示した文章又は(7)で該検索要求に適合した文章の標準偏差を計算する標準偏差計算部、
(9)該標準偏差を提示する標準偏差結果提示部、
を含む情報検索システム。
10.さらに、
(14)複数のユーザの前記(7)で検索要求に適合した文章を提示するユーザ検索結果比較部、
を有する前項3~9のいずれか1に記載の情報検索システム。
11.前記検索要求が臨床疑問である前項1~10のいずれか1に記載の情報検索システム。
12.さらに、以下のいずれかの1以上を有する前項1~11のいずれか1に記載の情報検索システム
(1)検索結果出力部
(2)文章出力部
13.検索要求に適合する文章を検索する情報検索方法であって、
(1)複数の文章を含む文章集合を受け付ける工程、
(2)ユーザの検索要求を受け付ける工程、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該文章と該検索要求との間の類似度を提示する工程、
を含む情報検索方法。
14.さらに、
(11)前記文章を選択するための検索語を受け付ける工程、
(12)該検索語を検索語由来の単語ベクトルに変換する検索語由来の単語ベクトルに変換する工程、
(13)前記(3)の各文章由来の単語ベクトルが該検索語由来の単語ベクトルと一致又は類似した場合には、前記(4)の各文章由来の単語ベクトルに選択する工程、
を含む前項13に記載の情報検索方法。
15.さらに、
(7)前記ユーザによる前記(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付ける工程、
を含む前項13又は14に記載の情報検索方法。
16.さらに、2回目のスクリーニングとして、
(3-1)前記(7)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する工程、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する工程、
を含む前項15に記載の情報検索方法。
17.さらに、
(7-1)前記ユーザによる前記(6-1)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付ける工程、
を含む前項16に記載の情報検索方法。
18.さらに、3回目のスクリーニングとして、
(3-2)前記(7)及び(7-1)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)及び(7-1)で検索要求に適合した文章又は前記(7-1)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する工程、
(4-2)(3-2)の該各文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5-2)(4-2)の該各文章由来の文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6-2)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する工程、
(7-2)該ユーザによる(6-2)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付ける工程、
を含む前項17に記載の情報検索方法。
19.さらに、
(8)前記(5)、(5-1)又は(5-2)の各文章の標準偏差、又は、前記(7)、(7-1)又は(7-2)のユーザが選択した各文章の標準偏差を計算する工程、
(9)該標準偏差を提示する工程、
を含む前項13~18のいずれか1に記載の情報検索方法。
20.さらに、
(10)各スクリーニング段階での標準偏差を比較する工程、
を含む前項19に記載の情報検索方法。
21.検索要求に適合する文章を検索する情報検索方法であって、
(1)複数の文章を含む文章集合を受け付ける工程、
(2)ユーザの検索要求を受け付ける工程、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該文章と該検索要求との間の類似度を提示する工程、
(7)該ユーザによる(6)で提示した文章から検索要求に適合する文章の選択結果を受信する工程、
(8)(6)で提示した文章又は(7)で該検索要求に適合した文章の標準偏差を計算する工程、
(9)該標準偏差を提示する工程、
を含む情報検索方法。
22.さらに、
(14)複数のユーザの前記(7)で検索要求に適合した文章を提示する工程、
を有する前項15~21のいずれか1に記載の情報検索方法。
23.前記検索要求が臨床疑問である前項13~22のいずれか1に記載の情報検索方法。
24.さらに、以下のいずれかの1以上を有する前項13~23のいずれか1に記載の情報検索方法。
(1)検索結果提示工程
(2)文章出力工程
25.検索要求に適合する文章を検索するプログラムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
を含む情報検索プログラム。
26.さらに、
(11)前記文章を選択するための検索語を受け付ける検索語受信手段、
(12)該検索語を検索語由来の単語ベクトルに変換する検索語由来の単語ベクトル変換手段、
(13)前記(3)の各文章由来の単語ベクトルが該検索語由来の単語ベクトルと一致又は類似した場合には、前記(4)の各文章由来の単語ベクトルに選択する文章選択手段、
を含む前項25に記載の情報検索プログラム。
27.さらに、
(7)前記ユーザによる前記(6)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定手段、
を含む前項25又は26に記載の情報検索プログラム。
28.さらに、2回目のスクリーニングとして、
(3-1)前記(7)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4-1)(3-1)の該文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5-1)(4-1)の該文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6-1)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示手段、
を含む前項27に記載の情報検索プログラム。
29.さらに、
(7-1)前記ユーザによる前記(6-1)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定手段、
を含む前項28に記載の情報検索プログラム。
30.さらに、3回目のスクリーニングとして、
(3-2)前記(7)及び(7-1)でユーザが選択した文章を除く文章集合の各文章並びに前記(7)及び(7-1)で検索要求に適合した文章又は前記(7-1)で検索要求に適合した文章を追加した前記(3)の検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4-2)(3-2)の該各文章由来の単語ベクトル及び該検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5-2)(4-2)の該各文章由来の文章ベクトルと該検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6-2)該文章と該検索要求に適合した文章を追加した検索要求との間の類似度を提示する検索結果提示手段、
(7-2)該ユーザによる(6-2)で提示した文章から検索要求に適合する文章又は適合しない文章の選択結果を受け付けるユーザ文章判定手段、
を含む前項29に記載の情報検索プログラム。
31.さらに、
(8)前記(5)、(5-1)又は(5-2)の各文章の標準偏差、又は、前記(7)、(7-1)又は(7-2)のユーザが選択した各文章の標準偏差を計算する標準偏差計算手段、
(9)該標準偏差を提示する標準偏差結果提示手段、
を含む前項25~30のいずれか1に記載の情報検索プログラム。
32.さらに、
(10)各スクリーニング段階での標準偏差を比較する標準偏差比較手段、
を含む前項31に記載の情報検索プログラム。
33.検索要求に適合する文章を検索するプログラムであって、
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
(7)該ユーザによる(6)で提示した文章から検索要求に適合する文章の選択結果を受信するユーザ文章判定手段、
(8)(6)で提示した文章又は(7)で該検索要求に適合した文章の標準偏差を計算する標準偏差計算手段、
(9)該標準偏差を提示する標準偏差結果提示手段、
を含む情報検索プログラム。
34.さらに、
(14)複数のユーザの前記(7)で検索要求に適合した文章を提示するユーザ検索結果比較手段、
を有する前項27~33のいずれか1に記載の情報検索プログラム。
35.前記検索要求が臨床疑問である前項25~34のいずれか1に記載のプログラム。
36.さらに、以下のいずれかの1以上を有する前項25~35のいずれか1に記載のプログラム。
(1)検索結果出力手段
(2)文章出力手段
【発明の効果】
【0015】
本発明の文章検索システム等は、以下のいずれか1以上の効果を有する。
(1)効率的な文章の絞り込み
(2)検索要求に適合した文章の漏れを防止
(3)検索結果の評価
(4)検索結果の出力
(5)文章の出力
【図面の簡単な説明】
【0016】
図1】本発明の情報検索システムの概要図(矢印は、データの流れを示す)。
図2】本発明の検索要求に適合する文章を検索する情報検索システムの流れ図。
図3】本発明の情報検索システムのユーザ操作画面の例。
【0017】
本発明の検索要求に適合する文章を検索する情報検索システム(情報検索装置を含む)、情報検索方法及び情報検索プログラムは図1及び図2を用いて下記で説明する。なお、本発明の情報検索システムは、図1及び図2の構成に限定されない。また、図1及び図2の構成は、あくまで一例であり、一つの機能をさらに分割し、複数の機能部をまとめて一つの機能部として構成してもよく、さらに一部の機能をインターネット回線を通じて日本国外に設置しても良い。
【0018】
(複数の文章を含む文章集合を受け付ける文章集合受信部)
複数の文章を含む文章集合を受け付ける文章集合受信部1は、ユーザが選択した複数の文章を含む文章集合を各データベースから入手(ダウンロード)できれば、特に限定されない。加えて、文章集合受信部は、公知のプログラミング言語(例、Python等)により文章集合を各文章に分割する。
本発明での「ユーザ」は、本発明のシステムの利用者を意味するが、1人に限定される必要はない。複数のユーザA,B,Cが同じ文章集合を使用して文章を検索することができ、さらに選択した文章を比較評価することができる。
本発明での「文章(文献を含む)」は、複数の文を有すれば特に限定されないが、例えば、論文、学会発表、特許文献、書籍、インターネット情報等を意味する。加えて、文章は、全体だけでなく一部(例、要約等)のみを対象としても良い。
本発明での「文章集合」は、複数の文章を含めば特に限定されないが、例えば、論文データベース(Pubmed)、各国の特許データ(JPO)、学会予稿集、電子ジャーナル、電子書籍、WEBサイト等に収録された電子情報からなる文章の集合を意味する。
【0019】
(ユーザの検索要求を受け付けるユーザ検索要求受信部)
ユーザの検索要求を受け付けるユーザ検索要求受信部2では、ユーザが作成した(指定した)検索要求を受け付ける。これにより、本発明のシステムが検索要求を認識する。
検索要求(クエリ)は、検索文だけでなく、検索語、複数の文章でも良い。例えば、検索文として、臨床疑問を例示することができる。
【0020】
(単語ベクトル変換部)
単語ベクトル変換部3では、文章集合受信部1で受け付けた複数の文章を含む文章集合の一部又は全部並びにユーザ検索要求受信部2で受け付けた検索要求の一部又は全部をそれぞれ単語ベクトルに変換する。単語ベクトル変換部3は、単語列をその単語列の意味を表す単語ベクトルに変換することで、単語の意味を数値化する。単語ベクトル変換部3は、形態素解析部等により生成された単語列を、単語ベクトル列に変換する。
単語ベクトル変換部3は、例えば、既存のPythonパッケージ「genism」、「NaturalLanguage Tool Kit」等を使用してベクトル化する。別例として、Word2Vec[Mikolov13](単語をベクトル化して表現する定量化手法)などを用いて、単語列を単語ベクトル列に変換しても良い。
例えば、単語ベクトルは単語の種類及びその出現数を示すことができる(例、単語が30個の場合は、30次元のベクトルになり、ベクトルの長さが出現数に比例する)。
他の例として、各単語に特徴となるベクトルをそれぞれ与えることも可能である。
【0021】
(文章ベクトル変換部)
文章ベクトル変換部4では、各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更できれば特に限定されない。学習済みのニューラルネットワークは、例えば、文献IDと前後の単語から対象単語を推測するニューラルネットワーク(Doc2Vec)を使用できる。
より詳しくは、文章としてPubmedで検索できる論文の要約を使用する場合は、訓練データとして、Pubmedで検索できる各論文の要約集(文章集合)を使用する。そして、学習の例として、冠詞や代名詞などの頻用される単語や共通して多かった語の上位3%をストップワード辞書として使用して単語を削除する、検索要求に重要な単語又は不適節な単語(特徴語)に重み付をする(TF-IDF)、(MTF-IDF)等を行う。
【0022】
(類似度計算部)
類似度計算部5では、文章ベクトル間又は単語ベクトル間の類似度を計算できれば特に限定されないが、例えば、自体公知の測定方法であるコサイン類似度、ユーグリッド距離、標準化ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、ロジスティック回帰、ピアソンの相関係数、Jaccard係数、Dice係数、Simpson係数等を使用することができる。
【0023】
(類似度を提示する検索結果提示部)
類似度を提示する検索結果提示部6では、各文章と検索要求との間の類似度をユーザ等に提示することができれば特に限定されない。例えば、検索要求との類似度が高い文章順にランキング形式での提示が好ましい。加えて、類似度が高い文章の上位1~50、1~30、1~20等のみを提示しても良い。
また、類似度を提示する検索結果提示部6は類似度の閾値設定部15を含んでも良い。類似度閾値設定部15は、予め設定した閾値以上又は以下の文章を提示することができる。
【0024】
(ユーザ文章判定部)
ユーザ文章判定部7では、類似度を提示する検索結果提示部6で提示された文章から検索要求に適合する文章又は適合しない文章のユーザによる選択結果を受け付ける。これにより、本発明のシステムでは、1回目のスクリーニングで選択された文章(検索要求に適合した文章及び検索要求に適合しなかった文章)を認識する。
【0025】
(2回目のスクリーニング)
本発明のシステムでは、検索要求(SD:SearchDemand)に適合した文章の漏れを防止するために、必要に応じて、2回目のスクリーニングを行う。2回目のスクリーニングの特徴として、ユーザが1回目のスクリーニングで選択した1又は2以上の文章(M1:検索要求に適合した文章MD1、又は検索要求に適合した文章MD1+検索要求に適合しなかった文章NMD1(M1=MD1+NMD1))を除いた文章集合(X-M1)及び1回目のスクリーニングで検索要求に適合した文章(MD1)を追加した検索要求(MD1+SD)を使用する。本発明のシステムの特徴として、1回目のスクリーニングで検索要求に適合した文章(MD1)を追加した検索要求(MD1+SD)を使用することにより、2回目のスクリーニングでは検索要求と類似した文章をユーザに提供することができる。これにより、ユーザが1回目のスクリーニングでは確認していない類似度が高い文章を効率的に選択することができる。
例えば、以下により2回目のスクリーニングを実施することができる。
〇単語ベクトル変換部3-2
1回目のスクリーニングでユーザが選択した文章を除く文章集合の各文章並びに1回目のスクリーニングで検索要求に適合した文章を追加した検索要求をそれぞれ単語ベクトルに変換する。
なお、単語ベクトル変換部3-2は、単語ベクトル変換部3に内蔵されていても良いし、外部に接続されていても良い。
〇文章ベクトル変換部4-2
上記文章由来の単語ベクトル及び1回目のスクリーニングで検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する。
なお、文章ベクトル変換部4-2は、文章ベクトル変換部4に内蔵されていても良いし、外部に接続されていても良い。
〇類似度計算部5-2
上記文章ベクトルと1回目のスクリーニングで検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する。
なお、類似度計算部5-2は、類似度計算部5に内蔵されていても良いし、外部に接続されていても良い。
〇類似度を提示する検索結果提示部6-2
上記文章と1回目のスクリーニングで検索要求に適合した文章を追加した検索要求との間の類似度を提示する。
なお、類似度を提示する検索結果提示部6-2は、類似度を提示する検索結果提示部6に内蔵されていても良いし、外部に接続されていても良い。
〇ユーザ文章判定部7-2
上記に提示した文章から検索要求に適合する文章又は適合しない文章のユーザによる選択結果を受け付ける。
なお、ユーザ文章判定部7-2は、ユーザ文章判定部7内蔵されていても良いし、外部に接続されていても良い。
【0026】
(3回目のスクリーニング)
本発明のシステムでは、検索要求(SD)に適合した文章の漏れを防止するために、必要に応じて、3回目のスクリーニングを行う。3回目のスクリーニングの特徴として、ユーザが1回目のスクリーニングで選択した1又は2以上の文章及び2回目のスクリーニングで選択した1又は2以上の文章(M2:検索要求に適合した文章MD2、又は検索要求に適合した文章MD2+検索要求に適合しなかった文章NMD2(M2=MD2+NMD2))を除いた文章集合(X-M1-M2)並びに1回目及び2回目のスクリーニングで検索要求に適合した文章(MD2)を追加した検索要求(MD1+MD2+SD)又は2回目のスクリーニングで検索要求に適合した文章(MD2)を追加した検索要求(MD2+SD)を使用する。
本発明のシステムの特徴として、好ましくは、1回目及び2回目のスクリーニングで検索要求に適合した文章(MD2)を追加した検索要求(MD1+MD2+SD)を使用することにより、3回目のスクリーニングでは検索要求と類似した文章をユーザに提供することができる。これにより、ユーザが1回目及び2回目又は2回目のスクリーニングでは確認していない類似度が高い文章を効率的に選択することができる。
例えば、以下により3回目のスクリーニングを実施することができる。
〇単語ベクトル変換部3-3
1回目及び2回目のスクリーニングでユーザが選択した文章を除く文章集合の各文章並びに1回目及び2回目のスクリーニングで検索要求に適合した文章又は2回目のスクリーニングで検索要求に適合した文章を追加した検索要求をそれぞれ単語ベクトルに変換する。
なお、単語ベクトル変換部3-3は、単語ベクトル変換部3に内蔵されていても良いし、外部に接続されていても良い。
〇文章ベクトル変換部4-3
上記文章由来の単語ベクトル並びに1回目及び2回目のスクリーニングで検索要求に適合した文章又は2回目のスクリーニングで検索要求に適合した文章を追加した検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する。
なお、文章ベクトル変換部4-3は、文章ベクトル変換部4に内蔵されていても良いし、外部に接続されていても良い。
〇類似度計算部5-3
上記文章ベクトル並びに1回目及び2回目のスクリーニングで検索要求に適合した文章又は2回目のスクリーニングで検索要求に適合した文章を追加した検索要求由来の文章ベクトルとの間の類似度を計算する。
なお、類似度計算部5-3は、類似度計算部5に内蔵されていても良いし、外部に接続されていても良い。
〇類似度を提示する検索結果提示部6-3
上記文章と1回目及び2回目のスクリーニングで検索要求に適合した文章又は2回目のスクリーニングで検索要求に適合した文章を追加した検索要求との間の類似度を提示する。
なお、類似度を提示する検索結果提示部6-3は、類似度を提示する検索結果提示部6に内蔵されていても良いし、外部に接続されていても良い。
〇ユーザ文章判定部7-3
上記に提示した文章から検索要求に適合する又は適合しない文章のユーザによる選択結果を受け付ける。
なお、ユーザ文章判定部7-3は、ユーザ文章判定部7内蔵されていても良いし、外部に接続されていても良い。
【0027】
(4回目以降のスクリーニング)
本発明のシステムの4回目以降のスクリーニングは、上記3回目のスクリーニングと同様に行うことができる。本発明のシステムは、必要に応じて、5回目、6回目、7回目、8回目のスクリーニングを実施することができる。
4回目のスクリーニングの特徴として、ユーザが1回目のスクリーニングで選択した1又は2以上文章、2回目のスクリーニングで選択した1又は2以上文章並びに3回目のスクリーニングで選択した1又は2以上文章(M3:検索要求に適合した文章MD3、又は検索要求に適合した文章MD3+検索要求に適合しなかった文章NMD3、すなわち、M3=MD3+NMD3)を除いた文章集合(X-M1-M2-M3)並びに1回目、2回目及び3回目のスクリーニングで検索要求に適合した文章(MD1+MD2+MD3)、3回目のスクリーニングで検索要求に適合した文章(MD3)、1回目及び3回目のスクリーニングで検索要求に適合した文章(MD1+MD3)又は2回目及び3回目のスクリーニングで検索要求に適合した文章(MD2+MD3)を追加した検索要求(MD1+MD2+MD3+SD、MD3+SD、MD1+MD3+SD又はMD2+MD3+SD)を使用する。
【0028】
(標準偏差計算部)
本発明のシステムでは、検索結果の客観的な評価ために、必要に応じて、標準偏差を算出する。
標準偏差計算部8では、各文章(文献)の標準偏差を算出する。標準偏差は、自体公知の方法を使用することができる。例えば、以下を例示することができるが特に限定されない。
〇1回目のスクリーニング
各文献(全部、一部、類似度上位の文献:X)nと検索要求(SD)との類似度xiを基にして類似度平均xを算出する。該文献の類似度xiと類似度平均xの差分を求め、該差分を2乗し、その総和を算出する。偏差の和S(式1)を各文献数nで割って、分散を算出して、該分散の平方根を算出して標準偏差(式2)とする。
【数1】
【数2】
〇2回目のスクリーニング
文献(ユーザが1回目のスクリーニングで選択した1又は2以上文章を除いた文章集合(X-M1))nと1回目のスクリーニングで検索要求に適合した文章(MD1)を追加した検索要求(MD1+SD)を用いて、上記と同様に標準偏差を算出する。
〇3回目のスクリーニング
文献(X-M1-M2)nと1回目と2回目のスクリーニングで検索要求に適合した文章(MD1+MD2)を追加した検索要求(MD1+MD2+SD)又は2回目のスクリーニングで検索要求に適合した文章(MD2)を追加した検索要求(MD2+SD)を用いて、上記と同様に標準偏差を算出する。
〇4回目のスクリーニング
文献(X-M1-M2-M3)nと1回目、2回目及び3回目のスクリーニングで検索要求に適合した文章(MD1+MD2+MD3)、3回目のスクリーニングで検索要求に適合した文章(MD3)、1回目及び3回目のスクリーニングで検索要求に適合した文章(MD1+MD3)又は2回目及び3回目のスクリーニングで検索要求に適合した文章(MD2+MD3)を追加した検索要求(MD1+MD2+MD3+SD、MD3+SD、MD1+MD3+SD又はMD2+MD3+SD)を用いて、上記と同様に標準偏差を算出する。
【0029】
(標準偏差結果提示部)
標準偏差結果提示部9は、標準偏差計算部8で計算した各スクリーニング段階の標準偏差を提示することができれば特に限定されない。標準偏差結果提示部9は、他の提示部に内蔵されていても良いし、外部に接続されていても良い。
【0030】
(標準偏差比較部)
標準偏差比較部10は、各スクリーニング段階での標準偏差を比較して、例えば、以下のような場合には、ユーザに警告又は助言する機能を有する。
(1)各スクリーニング段階の標準偏差が閾値(ユーザが自由に設定できる設定値)と比較して低い値で一定している場合、スクリーニングを完了しても良いとの助言をする。
(2)各スクリーニング段階の標準偏差が閾値と比較して高い値で一定している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする。
(3)各スクリーニング段階の標準偏差が下降している場合、スクリーニングを完了しても良いとの助言をする。
(4)各スクリーニング段階の標準偏差が上昇している場合、検索要求、選択した文章集合、及び/又は検索語の再設定の警告をする。
【0031】
本発明のシステムでは、効率的な文章の絞り込みのために、必要に応じて、検索語により文章集合から文章を絞り込む。
(検索語受信部)
検索語受信部11では、ユーザが選択した文章集合から文章を絞り込むための検索語を受け付ける。これにより、本発明のシステムは検索語を認識する。なお、検索語は、特に限定されないが、例えば、キーワードを利用することができる。キーワードとして、論文登録番号(例、PMID : PubMed登録番号)、タイトル、発行日、抄録、著者のフルネーム、著者、著者の所属機関、MeSH用語で付与された文献の主題、出版物名(巻、号、ページ、発行日)、言語等を例示することができるが特に限定されない。
【0032】
(検索語由来の単語ベクトル変換部)
検索語由来の単語ベクトル変換部12は、検索語を検索語由来の単語ベクトルに変換する。
検索語由来の単語ベクトル変換部12は、単語ベクトル変換部3に内蔵されていても良いし、外部に接続されていても良い。
【0033】
(文章選択部)
文章選択部13は、各文章由来の単語ベクトルが検索語由来の単語ベクトルと一致又は類似した場合には、以後のスクリーニングに使用するように設定することができる。一致は、単語ベクトルの方向が一致したことを意味し、類似度はコサイン類似度、ユーグリッド距離、標準化ユークリッド距離、マハラノビス距離、マンハッタン距離、チェビシェフ距離、ミンコフスキー距離、ロジスティック回帰、ピアソンの相関係数、Jaccard係数、Dice係数、Simpson係数等から算出できる。なお、一致又は設定した類似度では選択された文章が少ない場合には、設定した類似度の幅を広げることにより選択した文章を増やすことができる。同様に、設定した類似度の幅を狭くすることにより選択した文章を減らすことができる。
【0034】
(ユーザ検索結果比較部)
ユーザ検索結果比較部14は、複数のユーザが検索要求に適合したと判断した文章を提示することができる。例えば、ユーザAとユーザBが同じ文章集合(例、Pubmed)及び同じ検索要求を使用した場合において、一致した文章(論文)と一致していない文章をユーザに提示することができる。これにより、各ユーザは他のユーザの検索結果と比較して最終評価とすることができる。
【0035】
(検索結果出力部)
検索結果出力部16は、検索結果のデータを出力することができる。これにより、ユーザは出力されたデータ(電子データ、例えば、CSVファイル等)を自由に加工することができる。検索結果は、検索要求の類似度順のリストだけでなく、論文名、著者、タイトル名、雑誌名等の各項目のリストも含んでもよい。
【0036】
(文章出力部)
文章出力部17は、ユーザが所望の文献(文章)を選択することにより、該文献のデータベースから該文献を入手(ダウンロード)することができる。
【0037】
本発明のシステムをコンピュータによって実現する場合、装置及びその各部が有する機能の処理内容はプログラムによって記述される。該プログラムは、ハードディスク装置等に格納されており、実行時には必要なプログラムやデータがRAMに読み込まれる。その読み込まれたプログラムがCPUにより実行されることにより、コンピュータ上で各処理内容が実現される。
【0038】
(文章検索方法)
本発明の文章検索方法の工程の概要は以下の通りである。
(1)複数の文章を含む文章集合を受け付ける工程、
(2)ユーザの検索要求を受け付ける工程、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該文章と該検索要求との間の類似度を提示する工程。
本発明の別の文章検索方法の工程の概要は以下の通りである。
(1)複数の文章を含む文章集合を受け付ける工程、
(2)ユーザの検索要求を受け付ける工程、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する工程、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する工程、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する工程、
(6)該文章と該検索要求との間の類似度を提示する工程、
(7)該ユーザによる(6)で提示した文章から検索要求に適合する文章の選択結果を受信する工程、
(8)(6)で提示した文章又は(7)で検索要求に適合した文章の標準偏差を計算する工程、
(9)該標準偏差を提示する工程、
なお、本発明の文章検索方法の用語は、必要に応じて、上記で説明した本発明のシステムの用語を参照することができる。
【0039】
(文章検索プログラム)
本発明の文章検索プログラムの手段の概要は以下の通りである。
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
本発明の別の文章検索プログラムの手段の概要は以下の通りである。
(1)複数の文章を含む文章集合を受け付ける文章集合受信手段、
(2)ユーザの検索要求を受け付けるユーザ検索要求受信手段、
(3)該各文章及び該検索要求をそれぞれ単語ベクトルに変換する単語ベクトル変換手段、
(4)各文章由来の単語ベクトル及び検索要求由来の単語ベクトルをそれぞれ学習済みのニューラルネットワークにより文章ベクトルに変更する文章ベクトル変換手段、
(5)各文章由来の文章ベクトルと検索要求由来の文章ベクトルとの間の類似度を計算する類似度計算手段、
(6)該文章と該検索要求との間の類似度を提示する検索結果提示手段、
(7)該ユーザによる(6)で提示した文章から検索要求に適合する文章の選択結果を受信するユーザ文章判定手段、
(8)(6)で提示した文章又は(7)で検索要求に適合した文章の標準偏差を計算する標準偏差計算手段、
(9)該標準偏差を提示する標準偏差結果提示手段、
なお、本発明の文章検索プログラムの用語は、必要に応じて、上記で説明した本発明のシステムの用語を参照することができる。
【0040】
本発明のシステム、方法及びプログラムにおける各処理は、上記記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明のシステムの各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明のシステムでは、WEBブラウザとWEBサーバーをリンクさせることにより、ユーザはWEBブラウザから必要な入力を行うことにより、本発明のシステムを稼働させるWEBサーバーから検索結果を得ることができる。加えて、本発明のシステムではWEBアプリとして実装することもでき、ユーザはコンピュータ言語の知識がなくても本発明のシステムを利用することができる。例えば、ホストコンピュータが文献検索システムのプログラムを保有しており、ユーザは、ホストコンピュータにアクセスする。
また、本発明の文献検索プログラムをコンピュータにダウンロードして、ユーザがインターネット回線に接続しているコンピュータで検索することもできる。
さらに、本発明のシステムでは、検索結果のファイルをテキストファイルとしてダウンロードすることができる機能を付与しても良い。
【0041】
(本発明のシステム、方法及びプログラムの用途)
本発明のシステム、方法及びプログラムは、上記説明したように、システマティックレビューに適しているので、臨床疑問(特に臨床疑問のガイドライン作成)、臨床研究のガイドライン作成、メタ解析等に好適に利用することができる。しかしながら、他の用途である特許文献検索、論文検索、インターネット情報からの目的の情報の入手、電子書籍検索等にも利用することができる。
【0042】
(ユーザの本発明のシステムのWEBブラウザでの使用例)
ユーザの本発明のシステムのWEBブラウザでの使用例を図2により説明する。
「ログイン画面」によりログインする。必要に応じてユーザ特有のパスワード入力を要求する。
「トップ画面」の「クリニカルクエスチョン」から、評価するCQを選択又は入力する。
「トップ画面」の「新規登録」ボタンを押し、使用する文章集合(例、PubMed)を登録する。
「トップ画面」の「文章集合一覧」から、評価する文章集合としてPubMedを選択して、「シミュレーション開始」ボタンを押す。
「シミュレーション実行画面」からシミュレーション条件(検索要求、又は検索要求及び検索語)を入力し、「シミュレーション実行」ボタンを押す。
「シミュレーション実行画面」のシミュレーション実行結果一覧から、評価する結果を選択して、抽出論文の詳細を確認する。
「シミュレーション実行画面」を確認して、「レビュー開始」ボタンを押す。担当評価又は最終評価を選択する。
「レビュー画面」担当者は各論文アブストラクトを評価し、「保存」、「破棄」又は「保留」ボタンのいずれかを押す。
「レビュー画面」各担当の評価完了後は、担当者2名で最終評価を実施する。評価方法は各担当操作と同じである。
「レビュー画面」全件の最終評価が完了したら、評価状況を「評価完了」に選択する。
「トップ画面」評価済みのPubMedを選択して、「更新」ボタンを押す。
「PubMed更新画面」進捗を「評価完了」にして、「更新」ボタンを押す。
【実施例
【0043】
(本発明のシステムの利用結果)
本システムを使用したCKD(Chronic Didney Disease)ガイドライン作成を従来の方法と比較した。
従来のPubMed+EXCELを用いたCKDガイドライン作成には約1週間必要であった。また、15本の論文を得ることができた。
本発明のシステムのパイロット版を使用してCKDガイドライン作成には2日間で終了した。69本の論文を検索結果として得ることができた。
以上により、本システムは、効率的な文章の絞り込み、検索要求に適合した文章の漏れを防止しかつ検索結果の評価を行うことができることを確認した。
図1
図2
図3