IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パナソニック株式会社の特許一覧 ▶ 三菱電機株式会社の特許一覧 ▶ 富士通株式会社の特許一覧

特許7384614文書検索装置、文書検索方法、及び、コンピュータプログラム
<>
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図1
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図2
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図3
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図4
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図5
  • 特許-文書検索装置、文書検索方法、及び、コンピュータプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-13
(45)【発行日】2023-11-21
(54)【発明の名称】文書検索装置、文書検索方法、及び、コンピュータプログラム
(51)【国際特許分類】
   G06F 16/332 20190101AFI20231114BHJP
   G06F 16/338 20190101ALI20231114BHJP
【FI】
G06F16/332
G06F16/338
【請求項の数】 5
(21)【出願番号】P 2019185186
(22)【出願日】2019-10-08
(65)【公開番号】P2021060851
(43)【公開日】2021-04-15
【審査請求日】2022-09-21
(73)【特許権者】
【識別番号】000005821
【氏名又は名称】パナソニックホールディングス株式会社
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(73)【特許権者】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】110002000
【氏名又は名称】弁理士法人栄光事務所
(72)【発明者】
【氏名】藤田 博史
(72)【発明者】
【氏名】倉知 一晃
(72)【発明者】
【氏名】矢部 秀毅
(72)【発明者】
【氏名】堀池 進矢
(72)【発明者】
【氏名】鈴井 智史
(72)【発明者】
【氏名】戸田 貴博
(72)【発明者】
【氏名】石川 裕介
(72)【発明者】
【氏名】矢野 貴之
(72)【発明者】
【氏名】山岡 睦美
【審査官】三橋 竜太郎
(56)【参考文献】
【文献】特開平06-301732(JP,A)
【文献】特表2009-515249(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースと、
前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースと、
質問文を受信する受信部と、
前記第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、前記第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索する検索部と、
前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付けするランキング部と、
を備え、
前記検索部は、前記質問文に対する、前記第1の文書の前記第1の記載項目の文章の類似度の高い順に、前記第1の文書を順位付けし、前記第2の文書の前記第2の記載項目の文章の類似度の高い順に、前記第2の文書を順位付けし、
前記ランキング部は、前記第1の文書の順位、及び、前記第2の文書の順位に基づいて、前記第1の文書及び前記第2の文書を再度順位付けする、
文書検索装置。
【請求項2】
前記質問文に対する前記第1の記載項目及び前記第2の記載項目の文章の類似度は、前記質問文の特徴を示すベクトルと前記第1の記載項目及び前記第2の記載項目の文章の特徴を示すベクトルとの間のコサイン類似度である、
請求項に記載の文書検索装置。
【請求項3】
前記文書は特許文献であり、
前記第1の記載項目及び前記第2の記載項目は、前記特許文献に対して予め定められている記載項目のうちの何れかである、
請求項1又は2に記載の文書検索装置。
【請求項4】
文書検索装置が、
質問文を受信し、
複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、
前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、
前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付け
前記質問文に対する、前記第1の文書の前記第1の記載項目の文章の類似度の高い順に、前記第1の文書を順位付けし、前記第2の文書の前記第2の記載項目の文章の類似度の高い順に、前記第2の文書を順位付けし、
前記第1の文書の順位、及び、前記第2の文書の順位に基づいて、前記第1の文書及び前記第2の文書を再度順位付けする、
文書検索方法。
【請求項5】
質問文を受信し、
複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、
前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、
前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付け
前記質問文に対する、前記第1の文書の前記第1の記載項目の文章の類似度の高い順に、前記第1の文書を順位付けし、前記第2の文書の前記第2の記載項目の文章の類似度の高い順に、前記第2の文書を順位付けし、
前記第1の文書の順位、及び、前記第2の文書の順位に基づいて、前記第1の文書及び前記第2の文書を再度順位付けする、
ことをコンピュータに実行させる、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、文書検索装置、文書検索方法、及び、コンピュータプログラムに関する。
【背景技術】
【0002】
従来、質問文に対して概念的に類似する文書を検索する概念検索の技術が知られている。特許文献1には、質問文を入力し、例えば、特許文献を構成する記載項目の1つである「要約」を検索対象に指定した場合、当該質問文に対する各特許文献の「要約」の文章の類似度を算出し、「要約」の文章の類似度の高い順に特許文献を並び替え、検索結果として出力することが開示されている。これにより、例えば質問文が「要約」の文章に近しいものであった場合に、「要約」を検索対象に指定したことで「要約」の文章の類似度の高い順に特許文献を並び替えられることから、検索結果の精度が高くなることが多い。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2017-173953号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
文書の各記載項目にどのような文章が記載されるのかに精通している専門的なユーザは、経験から、上記のように質問文の検索対象として適切な記載項目を指定することにより、質問文に適合する文書を効率的に概念検索できるかもしれない。
【0005】
しかしながら、一般的には、ユーザにとって、質問文の検索対象として適切な記載項目を指定することは困難である。
【0006】
本開示は、検索対象の指定がなくともより効果的に概念検索できる技術の提供を目的とする。
【課題を解決するための手段】
【0007】
本開示の一態様に係る文書検索装置は、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースと、前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースと、質問文を受信する受信部と、前記第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、前記第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索する検索部と、前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付けするランキング部と、を備える。
【0008】
本開示の一態様に係る文書検索方法は、文書検索装置が、質問文を受信し、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付けする。
【0009】
本開示の一態様に係るコンピュータプログラムは、質問文を受信し、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベースから、前記質問文と類似する前記第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、前記複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベースから、前記質問文と類似する前記第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、前記第1の文書及び前記第2の文書を、予め定められた規則にしたがって順位付けする、ことをコンピュータに実行させる。
【0010】
本開示の一態様に係るデータベースは、上述した文書検索装置における前記第1のデータベース及び前記第2のデータベースを備える。
【0011】
なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム又は記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
【発明の効果】
【0012】
本開示によれば、検索対象の指定がなくともより効果的に概念検索できる。
【図面の簡単な説明】
【0013】
図1】本実施の形態に係る文書検索装置及び端末の構成例を示すブロック図
図2】本実施の形態に係る文書検索装置が有する機能例を示すブロック図
図3】本実施の形態に係る文書検索装置における処理の手順の例を示すフローチャート
図4】本実施の形態に係る第1の記載項目検索部における処理の手順の例を示すフローチャート
図5】本実施の形態に係る特許文献の概念検索の第1例を説明するための図
図6】本実施の形態に係る特許文献の概念検索の第2例を説明するための図
【発明を実施するための形態】
【0014】
以下、図面を適宜参照して、本開示の実施の形態について、詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明及び実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の記載の主題を限定することは意図されていない。
【0015】
(一実施の形態)
<装置の構成>
図1は、本実施の形態に係る文書検索装置及び端末の構成例を示すブロック図である。
【0016】
文書検索装置100は、通信ネットワークNを通じて、端末200とデータを送受信できる。通信ネットワークNは、例えば、インターネットである。
【0017】
文書検索装置100は、予め格納されている複数の文書の中から、質問文に適合する文書を概念検索するための装置である。文書検索装置100は、文書検索サーバ、文書検索システムといった他の用語に読み替えられてもよい。
【0018】
端末200は、文書検索装置100によって概念検索された質問文に適合する文書を、ユーザに提示する装置である。端末200は、例えば、PC、タブレット、スマートフォンである。
【0019】
次に、文書検索装置100の構成について説明する。文書検索装置100は、メモリ101、ストレージ102、処理部103及び通信部104と、これらの要素101~104を双方向通信可能に接続するバス105とを備える。
【0020】
メモリ101は、文書検索装置100が有する機能に関するコンピュータプログラム及びデータを記憶する。メモリ101は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)又はこれらの組み合わせによって構成される。
【0021】
ストレージ102は、不揮発性記憶媒体であり、文書検索装置100が有する機能に関するコンピュータプログラム及びデータを格納する。ストレージ102は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、及び/又は、フラッシュメモリによって構成される。なお、図1では、ストレージ102は文書検索装置100に内蔵されているが、ストレージ102は文書検索装置100に外付けされてもよい。
【0022】
処理部103は、メモリ101から読み出したコンピュータプログラム及び/又は予め組み込まれた処理を実行し、文書検索装置100が有する機能を実現する。処理部103は、プロセッサ、コントローラ、CPU(Central Processing Unit)、集積回路、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)といった他の用語に読み替えられてもよい。
【0023】
通信部104は、通信ネットワークNを介した他の装置(例えば端末200)とのデータの送受信を制御する。通信部104は、通信装置、通信インタフェース、通信モジュールといった他の用語に読み替えられてもよい。通信部104は、データの送信を制御する送信部104A、及び、データの受信を制御する受信部104Bを含む。
【0024】
次に、端末200の構成について説明する。端末200は、メモリ201、ストレージ202、処理部203、通信部204、入力部205及び表示部206と、これらの要素201~206を双方向通信可能に接続するバス207とを備える。
【0025】
メモリ201は、端末200が有する機能に関するコンピュータプログラム及びデータを記憶する。メモリ201は、例えば、ROM、RAM又はこれらの組み合わせによって構成される。
【0026】
ストレージ202は、不揮発性記憶媒体であり、端末200が有する機能に関するコンピュータプログラム及びデータを格納する。ストレージ202は、例えば、HDD、SSD、及び/又は、フラッシュメモリによって構成される。
【0027】
処理部203は、メモリ201から読み出したコンピュータプログラム及び/又は予め組み込まれた処理を実行し、端末200が有する機能を実現する。処理部203は、プロセッサ、コントローラ、CPU、集積回路、ASIC、PLD、FPGAといった他の用語に読み替えられてもよい。
【0028】
通信部204は、通信ネットワークNを介した他の装置(例えば文書検索装置100)とのデータの送受信を制御する。通信部204は、通信装置、通信インタフェース、通信モジュールといった他の用語に読み替えられてもよい。通信部204は、データの送信を制御する送信部204A、及び、データの受信を制御する受信部204Bを含む。
【0029】
入力部205は、端末200のユーザからの入力を受け付ける。入力部205は、例えば、キーボード、マウス、タッチパネル、ボタン、及び/又は、マイク等によって構成される。
【0030】
表示部206は、文字及び/又は画像等を表示する。表示部206は、例えば、液晶ディスプレイ又は有機ELディスプレイ等によって構成される。
【0031】
<文書検索装置の機能>
図2は、文書検索装置100が有する機能例を示すブロック図である。
【0032】
文書検索装置100は、文書DB(DataBase)121、第1の記載項目DB構築部122A、第2の記載項目DB構築部122B、第1の記載項目DB123A、第2の記載項目DB123B、質問受信部124、質問特徴情報生成部125、第1の記載項目検索部126A、第2の記載項目検索部126B、ランキング部127、及び、結果送信部128を有する。なお、記載項目DB構築部、記載項目DB、及び、記載項目検索部のそれぞれの数は、文書を構成する記載項目の数に応じて増えてよい。
【0033】
文書DB121、第1の記載項目DB123A、及び、第2の記載項目DB123Bは、文書検索装置100のストレージ102に構成される。あるいは、文書DB121、第1の記載項目DB123A、及び、第2の記載項目DB123Bは、文書検索装置100とは異なるデータベース装置(図示せず)に構成されてもよい。この場合、文書検索装置100とデータベース装置とは、所定のケーブル又は通信ネットワークによって接続されてよい。
【0034】
第1の記載項目DB構築部122A、第2の記載項目DB構築部122B、質問受信部124、質問特徴情報生成部125、第1の記載項目検索部126A、第2の記載項目検索部126B、ランキング部127、及び、結果送信部128は、文書検索装置100の処理部103によって実現される。
【0035】
文書DB121は、複数の文書をDBとして管理する。文書には、少なくとも第1の記載項目及び第2の記載項目が含まれる。ただし、文書に含まれる記載項目の数は3以上であってもよい。記載項目は、文書の種別によって予め定められてよい。
【0036】
例えば、文書の種別が「特許文献」の場合、記載項目は、「発明の名称」、「技術分野」、「背景技術」、「先行技術文献」、「発明が解決しようとする課題」、「課題を解決するための手段」、「発明の効果」、「図面の簡単な説明」、「発明を実施するための形態」、「産業上の利用可能性」、「符号の説明」、「特許請求の範囲」、「要約」である。例えば、文書の種別が「論文」の場合、記載項目は、「概要」、「序論」、「方法」、「結果」、「議論」、「結論」である。
【0037】
本実施の形態において、記載項目の単位は、意味のある複数の文章の集まりであり、記載項目によって、記載される内容及び目的が異なり得る。また、それによって、記載項目ごとに文体が異なることもあり、出現する単語の傾向も異なり得る。
【0038】
また、文書DB121は、各文書に対して、文書を一意に識別するための文書IDを対応付けて管理する。文書の種別が「特許文献」の場合、文書IDは、例えば、「公開番号」又は「出願番号」である。
【0039】
第1の記載項目DB構築部122Aは、文書DB121内の各文書から第1の記載項目の文章を抽出し、各文書の第1の記載項目の文章に関するDBである第1の記載項目DB123Aを構築する。例えば、第1の記載項目DB構築部122Aは、各文書から抽出した第1の記載項目の文章の集合体に対する、各文書の第1の記載項目の文章の特徴を算出する。この算出された第1の記載項目の文章の特徴を示す情報を、「第1の記載項目の特徴情報」という。そして、第1の記載項目DB構築部122Aは、この算出された第1の記載項目の特徴情報を、算出元の文書の文書IDと対応付けて、第1の記載項目DB123Aを構築する。すなわち、第1の記載項目DB123Aは、文書IDと第1の記載項目の特徴情報とを対応付けて管理する。
【0040】
ある文書の第1の記載項目の特徴情報は、例えば、第1の記載項目の文章の集合体に含まれるワードの出現頻度及び/又はワードの並び順等に基づいて構成されるベクトル空間における、当該文書の第1の記載項目の文章に含まれるワードの出現頻度及び/又はワードの並び順等に基づいて算出されるベクトルであってよい。このようなベクトルは、例えば、BoW(Bag of Words)、TF-IDF(Term Frequency - Inverse Document Frequency)又はDoc2Vecのような手法によって算出される。
【0041】
第2の記載項目DB構築部122Bは、文書DB121内の各文書から第2の記載項目の文章を抽出し、各文書の第2の記載項目の文章に関するDBである第2の記載項目DB123Bを構築する。例えば、第2の記載項目DB構築部122Bは、上述した第1の記載項目DB構築部122Aと同様の方法によって、第2の記載項目DB123Bを構築する。
【0042】
文書の第2の記載項目の特徴情報は、例えば、第2の記載項目の文章の集合体に含まれるワードの出現頻度及び/又はワードの並び順等に基づいて構成されるベクトル空間における、当該文書の第2の記載項目の文章に含まれるワードの出現頻度及び/又はワードの並び順等に基づいて算出されるベクトルであってよい。
【0043】
ただし、本実施の形態において、文書DB121、第1の記載項目DB構築部122A、及び、第2の記載項目DB構築部122Bは、必須ではない。本実施の形態においては、第1の記載項目DB123A、及び、第2の記載項目DB123Bを有するデータベースがあればよい。
【0044】
質問受信部124は、端末200から質問文220を受信する。そして、質問受信部124は、受信した質問文220を、質問特徴情報生成部125に出力する。なお、質問文220は、端末200のユーザが入力部205を通じて入力したものであってよい。
【0045】
質問特徴情報生成部125は、質問文220の文章の特徴を算出し、質問特徴情報を生成する。質問特徴情報は、例えば、質問文220の文章に含まれるワードの出現頻度及び/又はワードの並び順等に基づいて算出されるベクトルであってよい。質問特徴情報生成部125は、生成した質問特徴情報を、第1の記載項目検索部126A及び第2の記載項目検索部126Bに出力する。なお、第3~第n(nは4以上の整数)の記載項目検索部が存在する場合、質問特徴情報生成部125は、第3~第nの記載項目検索部にも、質問特徴情報を出力してよい。
【0046】
第1の記載項目検索部126Aは、第1の記載項目DB123Aから、質問特徴情報に類似する文書を検索し、取得する。例えば、第1の記載項目検索部126Aは、第1の記載項目DB123Aから、質問特徴情報の示すベクトルと類似度の高いベクトルを有する文書IDを取得する。類似度は、例えば、2つのベクトルの間のコサイン類似度に基づいて算出される。第1の記載項目検索部126Aは、類似度が予め定められた第1の閾値以上である文書IDを取得してもよい。あるいは、第1の記載項目検索部126Aは、類似度の高い順に予め定められた順位まで(例えば1位から100位まで)の文書IDを取得してもよい。そして、第1の記載項目検索部126Aは、取得した文書IDと算出した類似度とを対応付けた第1の検索結果情報を生成し、ランキング部127へ出力する。
【0047】
第2の記載項目検索部126Bは、第2の記載項目DB123Bから、質問特徴情報に類似する文書を検索し、取得する。例えば、第2の記載項目検索部126Bは、上述した第1の記載項目検索部126Aと同様の方法によって、質問特徴情報の示すベクトルと類似度の高いベクトルを有する文書IDを取得する。そして、第2の記載項目検索部126Bは、取得した文書IDと算出した類似度とを対応付けた第2の検索結果情報を生成し、ランキング部127へ出力する。
【0048】
なお、第1の記載項目検索部126Aと第2の記載項目検索部126Bとは、別々でなく、1つの検索部であってもよい。この場合、1つの検索部は、まず第1の記載項目DB123Aから、質問特徴情報に類似する文書を検索し結果を出力し、次に第2の記載項目DB123Bから、質問特徴情報に類似する文書を検索して結果を出力してもよい。
【0049】
ここで、第1の記載項目DB123Aと第2の記載項目DB123Bとは、上述した通り、文章の集合体が異なるため、同じ質問特徴情報で検索したとしても、検索結果が異なり得る。すなわち、第1の検索結果情報と第2の検索結果情報とは異なり得る。例えば、文書の種別が「特許文献」の場合、「課題」、「要約」、「特許請求の範囲」は、それぞれ、特有の書き方及び文体で記載され、出現しやすい単語も大きく異なる。したがって、質問文自体が、「課題」に近い文章なのか、「要約」に近い文章なのか、それとも「特許請求の範囲」に近い文章なのかによって、課題のDBを使用して検索した結果と、要約のDBを使用して検索した結果と、特許請求の範囲のDBを使用して検索した結果とでは、検索の精度が異なり得る。例えば、質問文220が課題に関する文章の場合、課題のDBを使用して検索した結果の精度が高く、質問文220が要約に関する文章の場合、要約のDBを使用して検索した結果の精度が高くなる傾向にある。これは、本実施の形態における記載項目は、任意の文章の集合体ではなく、意味のある文章の集合体であり、その結果、記載項目ごとに記載される文章の特徴が異なるからである。
【0050】
ランキング部127は、第1の検索結果情報及び第2の検索結果情報に含まれる各文書IDを、予め定められた規則にしたがってランキングする。例えば、ランキング部127は、第1の検索結果情報及び第2の検索結果情報に含まれる各文書IDの類似度に基づいて、各文書IDの適合度を算出し、その適合度の高い順に各文書IDをランキングする。あるいは、ランキング部127は、第1の検索結果情報に含まれる各文書IDの類似度の高さの順位と、第2の検索結果情報に含まれる各文書IDの類似度の高さの順位とに基づいて、各文書IDの適合度を算出し、その適合度の高い順に各文書IDをランキングする。そして、ランキング部127は、このように質問文220に対する適合度の高い順に文書IDをランキングしたランキング情報230を生成し、結果送信部128へ出力する。なお、ランキング部127に設定されるランキングの規則は、上述に限られない。ランキング部127には、第1の検索結果情報及び第2の検索結果情報に含まれる類似度、順位又はそれらを組み合わせた様々なランキングの規則を設定できる。
【0051】
結果送信部128は、ランキング情報230を、質問文220に対する検索結果として、端末200へ送信する。端末200は、ランキング情報230を受信し、例えば、ランキング情報230に含まれる各文書IDをランキングの高い順に並べて、表示部206に表示する。
【0052】
このように、本実施の形態によれば、ユーザは、質問文220の検索対象として適切な記載項目を指定することなく、質問文220に対して概念的に適合性の高い文書を効率的に得ることができる。
【0053】
<文書検索装置の処理>
図3は、文書検索装置100における処理の手順の例を示すフローチャートである。
【0054】
ステップS101において、質問受信部124は、端末200から質問文220を受信し、その質問文220を質問特徴情報生成部125へ出力する。なお、質問文220は、ユーザが端末200の入力部205を通じて入力したものであってよい。
【0055】
ステップS102において、質問特徴情報生成部125は、質問文220から、質問特徴情報を生成する。
【0056】
ステップS103において、質問特徴情報生成部125は、生成した質問特徴情報を、第1の記載項目検索部126A及び第2の記載項目検索部126Bへ出力する。
【0057】
ステップS104において、第1の記載項目検索部126Aは、第1の記載項目DB123Aから、質問特徴情報に類似する文書を検索し、その検索結果である第1の検索結果情報を、ランキング部127へ出力する。また、第2の記載項目検索部126Bは、第2の記載項目DB123Bから、質問特徴情報に類似する文書を検索し、その検索結果である第2の検索結果情報を、ランキング部127へ出力する。なお、ステップS104の詳細については後述する(図4参照)。
【0058】
ステップS105において、ランキング部127は、第1の検索結果情報及び第2の検索結果情報から、予め定められた規則に基づいてランキング情報230を生成し、そのランキング情報230を、結果送信部128へ出力する。
【0059】
ステップS106において、結果送信部128は、ランキング情報230を、端末200へ送信する。なお、端末200は、受信したランキング情報230を、質問文220に対する検索結果として、表示部206に表示してもよい。
【0060】
これにより、文書検索装置100は、端末200から送信された質問文220に適合する文書IDとその文書IDの適合度とを含むランキング情報230を、端末200に提供できる。よって、端末200は、ユーザから入力された質問文220に適合する複数の文書IDを、質問文220に対する適合度の高い順に並べて表示できる。
【0061】
<第1の記載項目検索部の処理>
図4は、第1の記載項目検索部126Aにおける処理の手順の例を示すフローチャートである。本フローチャートは、図3のステップS104の詳細に相当する。
【0062】
ステップS201において、第1の記載項目検索部126Aは、第1の記載項目DB123Aの各文書IDについて、当該文書IDに対応付けられている第1の記載項目の特徴情報と質問特徴情報との間の類似度を算出する。
【0063】
ステップS202において、第1の記載項目検索部126Aは、ステップS201で算出した類似度の高い順に、予め定められた順位までの文書IDを、第1の記載項目DB123Aから取得する。
【0064】
ステップS203において、第1の記載項目検索部126Aは、ステップS202で取得した各文書IDと当該文書IDの類似度とを対応付けた第1の検索結果情報を生成し、ランキング部127へ出力する。
【0065】
なお、第2の記載項目検索部126Bにおける処理の手順については、図4の説明の「第1」を「第2」に読み替えればよい。
【0066】
<特許文献の概念検索の第1例>
図5は、本実施の形態に係る特許文献の概念検索の第1例を説明するための図である。次に、図5を参照して、文書の種類が「特許文献」、第1の記載項目が「要約」、第2の記載項目が「特許請求の範囲」、文書IDが「公開番号」の場合における、特許文献の概念検索の第1例を説明する。
【0067】
図5の場合、第1の記載項目DB123Aは、特許文献の「要約」に記載の文章に基づいて構成される。第2の記載項目DB123Bは、特許文献の「特許請求の範囲」に記載の文章に基づいて構成される。
【0068】
第1の記載項目検索部126Aは、質問特徴情報と、第1の記載項目DB123Aにおける各特許文献の「要約」の特徴情報との間の類似度(以下「要約の類似度」という)を算出する。そして、例えば、第1の記載項目検索部126Aは、図5に示すように、第1の記載項目DB123Aから、要約の類似度の高い順に、4つの特許文献A、B、C、Dの公開番号を取得する。そして、第1の記載項目検索部126Aは、図5に示すように、取得した4つの特許文献A、B、C、Dを要約の類似度の高い順に順位付け(又はソート)し、特許文献A、B、C、Dのそれぞれに対して要約の類似度及び公開番号を対応付けた第1の検索結果情報を生成する。
【0069】
第2の記載項目検索部126Bは、質問特徴情報と、第2の記載項目DB123Bにおける各特許文献の「特許請求の範囲」の特徴情報との間の類似度(以下「特許請求の範囲の類似度」という)を算出する。そして、例えば、第2の記載項目検索部126Bは、図5に示すように、第2の記載項目DB123Bから、特許請求の範囲の類似度の高い順に、4つの特許文献A、D、E、Fの公開番号を取得する。そして、第2の記載項目検索部126Bは、図5に示すように、取得した4つの特許文献A、D、E、Fを特許請求の範囲の類似度の高い順に順位付け(又はソート)し、特許文献A、D、E、Fのそれぞれに対して特許請求の範囲の類似度及び公開番号を対応付けた第2の検索結果情報を生成する。
【0070】
ランキング部127は、第1の検索結果情報及び第2の検索結果情報に含まれる特許文献A~Fについて、それぞれ、要約の類似度と特許請求の範囲の類似度との合計(以下「合計類似度」という)を算出する。そして、ランキング部127は、特許文献A~Fを、合計類似度の高い順にランキングする。そして、ランキング部127は、第1位の合計類似度を「100」とした場合の、第2位以下の合計類似度の相対値を、適合度として算出する。そして、ランキング部127は、6つの特許文献A~Fを適合度の高い順にソートし、特許文献A~Fのそれぞれに対して順位及び適合度を対応付けたランキング情報230を生成する。
【0071】
これにより、ランキング情報230を受信した端末200は、質問文220に対する検索結果として、特許文献A~Fを、適合度の高い順にソートして表示できる。すなわち、ユーザは、質問文220に適合する特許文献を効率的に概念検索できる。
【0072】
<特許文献の概念検索の第2例>
図6は、本実施の形態に係る特許文献の概念検索の第2例を説明するための図である。第2例は、第1例と比較して、ランキング部127に設定した順位付けの規則が異なる。以下、図6を参照して、当該第2例について説明する。
【0073】
第1の記載項目検索部126Aは、質問特徴情報と、第1の記載項目DB123Aにおける各特許文献の「要約」の特徴情報との間の類似度(要約の類似度)を算出する。そして、例えば、第1の記載項目検索部126Aは、図6に示すように、第1の記載項目DB123Aから、要約の類似度の高い順に、4つの特許文献A、B、C、Dの公開番号を取得する。そして、第1の記載項目検索部126Aは、図6に示すように、取得した4つの特許文献A、B、C、Dを要約の類似度の高い順に順位付け(又はソート)し、特許文献A、B、C、Dのそれぞれに対して要約の類似度、順位及び公開番号を対応付けた第1の検索結果情報を生成する。
【0074】
第2の記載項目検索部126Bは、質問特徴情報と、第2の記載項目DB123Bにおける各特許文献の「特許請求の範囲」の特徴情報との間の類似度(特許請求の範囲の類似度)を算出する。そして、例えば、第2の記載項目検索部126Bは、図6に示すように、第2の記載項目DB123Bから、特許請求の範囲の類似度の高い順に、4つの特許文献A、D、E、Fの公開番号を取得する。そして、第2の記載項目検索部126Bは、図5に示すように、取得した4つの特許文献A、D、E、Fを特許請求の範囲の類似度の高い順に順位付け(又はソート)し、特許文献A、D、E、Fのそれぞれに対して特許請求の範囲の類似度、順位及び公開番号を対応付けた第2の検索結果情報を生成する。
【0075】
ランキング部127は、第1の検索結果情報に含まれる特許文献A、B、C、Dについて、それぞれ、要約の類似度を順位で除した要約の類似スコアを算出する。また、ランキング部127は、第2の検索結果情報に含まれる特許文献A、D、E、Fについて、それぞれ、特許請求の範囲の類似度を順位で除した特許請求の範囲の類似スコアを算出する。そして、ランキング部127は、特許文献A~Fについて、それぞれ、要約の類似スコアと特許請求の範囲の類似スコアとの合計(以下「合計類似スコア」という)を算出する。そして、ランキング部127は、特許文献A~Fを、合計類似スコアの高い順にランキングする。そして、ランキング部127は、第1位の合計類似スコアを「100」とした場合の、第2位以下の合計類似度の相対値を、適合度として算出する。そして、ランキング部127は、6つの特許文献A~Fを適合度の高い順にソートし、特許文献A~Fのそれぞれに対して順位及び適合度を対応付けたランキング情報230を生成する。
【0076】
これにより、ランキング情報230を受信した端末200は、質問文220に対する検索結果として、特許文献A~Fを、適合度の高い順にソートして表示できる。すなわち、ユーザは、質問文220に適合する特許文献を効率的に概念検索できる。
【0077】
上記の通り、第1例の順位付けの規則が設定されたランキング部127は、各記載項目の検索結果における類似度を合計した合計類似度に基づいて、各特許文献の適合度を算出する。また、第2例の順位付けの規則が設定されたランキング部127は、各記載項目の検索結果における類似度を順位で除して類似スコアを算出し、各記載項目の類似スコアを合計した合計類似スコアに基づいて、各特許文献の適合度を算出する。したがって、第2例の適合度は、記載項目の検索結果での順位の高さに、強い影響を受ける。
【0078】
例えば、ある1つの記載項目の検索結果において顕著に高い類似度及び順位(例えば1位)を得て他の記載項目では検索されなかった特許文献Xと、複数の記載項目の検索結果において普通の類似度及び中間の順位(例えば3位)を得た特許文献Yとが存在する場合、第1例と第2例とでは、次のように異なる場合もある。すなわち、第1例では、特許文献Yの合計類似度(すなわち適合度)の方が、特許文献Xのものよりも大きくなり、第2例では、特許文献Xの合計類似スコア(すなわち適合度)の方が、特許文献Yのものよりも大きくなる場合がある。
【0079】
このように、ランキング部127に設定する順位付けの規則によって、適合度に基づく順位は変化し得る。したがって、文書検索装置100の提供者は、検索対象の文書の特徴に応じて、適切な順位付けの規則をランキング部127に設定してよい。
【0080】
(本開示のまとめ)
本開示の一態様に係る文書検索装置(100)は、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベース(123A)と、当該複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベース(123B)と、質問文(220)を受信する受信部(124)と、第1のデータベース(123A)から、質問文(220)と類似する第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、第2のデータベース(123B)から、質問文(220)と類似する第2の記載項目の文章を含む少なくとも1つの第2の文書を検索する検索部(126A、126B)と、第1の文書及び第2の文書を、予め定められた規則にしたがって順位付けするランキング部(127)と、を備える。
【0081】
これにより、第1のデータベースから検索された質問文に類似する第1の文書と、第2のデータベースから検索された質問文に類似する第2の文書とが、予め定められた規則にしたがって順位付けされるので、ユーザは、質問文に適合するデータベースを検索対象として指定することなく、質問文に適合する文書を効率的に概念検索できる。
【0082】
検索部(126A、126B)は、質問文(220)に対する、第1の文書の第1の記載項目の文章の類似度を算出し、質問文(220)に対する、第2の文書の第2の記載項目の文章の類似度を算出し、ランキング部(127)は、第1の文書の類似度の高さ、及び、第2の文書の類似度の高さに基づいて、第1の文書及び第2の文書を順位付けしてよい。
【0083】
これにより、第1の文書及び第2の文書が、質問文に対する類似度の高い順に、適切に順位付けされるので、ユーザは、質問文に適合する文書をより効率的に概念検索できる。
【0084】
検索部(126A、126B)は、質問文(220)に対する、第1の文書の第1の記載項目の文章の類似度の高い順に、第1の文書を順位付けし、質問文(220)に対する、第2の文書の第2の記載項目の文章の類似度の高い順に、第2の文書を順位付けし、ランキング部(127)は、第1の文書の順位、及び、第2の文書の順位に基づいて、第1の文書及び前記第2の文書を再度順位付けしてよい。
【0085】
これにより、第1の文書及び第2の文書が、質問文に対する類似度の高い順に、適切に順位付けされるので、ユーザは、質問文に適合する文書をより効率的に概念検索できる。
【0086】
質問文(220)に対する記載項目の文章の類似度は、質問文(220)の特徴を示すベクトルと当該記載項目の文章の特徴を示すベクトルとの間のコサイン類似度であってよい。
【0087】
上記文書は特許文献であり、第1の記載項目及び前記第2の記載項目は、特許文献に対して予め定められている記載項目のうちの何れかであってよい。
【0088】
本開示の一態様に係る文書検索方法は、文書検索装置(100)において、質問文(220)を受信し、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベース(123A)から、質問文(220)と類似する第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、当該複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベース(123B)から、質問文(220)と類似する第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、第1の文書及び第2の文書を予め定められた規則にしたがって順位付けする。
【0089】
本開示の一態様に係るコンピュータプログラムは、質問文(220)を受信し、複数の文書のそれぞれに含まれる第1の記載項目の文章に係る第1のデータベース(123A)から、質問文(220)と類似する第1の記載項目の文章を含む少なくとも1つの第1の文書を検索し、当該複数の文書のそれぞれに含まれる第2の記載項目の文章に係る第2のデータベース(123B)から、質問文(220)と類似する第2の記載項目の文章を含む少なくとも1つの第2の文書を検索し、第1の文書及び第2の文書を予め定められた規則にしたがって順位付けする、ことをコンピュータに実行させる。
【0090】
本開示に係るデータベースは、上述した文書検索装置(100)における第1のデータベース(123A)及び第2のデータベース(123B)を備えてよい。この場合、文書検索装置(100)は、第1のデータベース(123A)及び第2のデータベース(123B)を内蔵しなくてもよい。
【0091】
以上、添付図面を参照しながら実施の形態について説明したが、本開示はかかる例に限定されない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても本開示の技術的範囲に属すると了解される。また、発明の趣旨を逸脱しない範囲において、上述した実施の形態における各構成要素を任意に組み合わせてもよい。
【産業上の利用可能性】
【0092】
本開示は、複数の文書の中から所望の文書を検索する装置又はシステムに適用できる。
【符号の説明】
【0093】
100 文書検索装置
101 メモリ
102 ストレージ
103 処理部
104 通信部
104A 送信部
104B 受信部
105 バス
122A 第1の記載項目DB構築部
122B 第2の記載項目DB構築部
123A 第1の記載項目DB
123B 第2の記載項目DB
124 質問受信部
125 質問特徴情報生成部
126A 第1の記載項目検索部
126B 第2の記載項目検索部
127 ランキング部
128 結果送信部
200 端末
201 メモリ
202 ストレージ
203 処理部
204 通信部
204A 送信部
204B 受信部
205 入力部
206 表示部
207 バス
220 質問文
230 ランキング情報
図1
図2
図3
図4
図5
図6