IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7451157情報処理装置、情報処理方法、及びプログラム
<>
  • 特許-情報処理装置、情報処理方法、及びプログラム 図1
  • 特許-情報処理装置、情報処理方法、及びプログラム 図2
  • 特許-情報処理装置、情報処理方法、及びプログラム 図3
  • 特許-情報処理装置、情報処理方法、及びプログラム 図4
  • 特許-情報処理装置、情報処理方法、及びプログラム 図5
  • 特許-情報処理装置、情報処理方法、及びプログラム 図6
  • 特許-情報処理装置、情報処理方法、及びプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-08
(45)【発行日】2024-03-18
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06F 16/33 20190101AFI20240311BHJP
   G06N 3/08 20230101ALI20240311BHJP
【FI】
G06F16/33
G06N3/08
【請求項の数】 20
(21)【出願番号】P 2019221265
(22)【出願日】2019-12-06
(65)【公開番号】P2021092834
(43)【公開日】2021-06-17
【審査請求日】2022-11-09
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】100126240
【弁理士】
【氏名又は名称】阿部 琢磨
(74)【代理人】
【識別番号】100223941
【弁理士】
【氏名又は名称】高橋 佳子
(74)【代理人】
【識別番号】100159695
【弁理士】
【氏名又は名称】中辻 七朗
(74)【代理人】
【識別番号】100172476
【弁理士】
【氏名又は名称】冨田 一史
(74)【代理人】
【識別番号】100126974
【弁理士】
【氏名又は名称】大朋 靖尚
(72)【発明者】
【氏名】角田 修
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】米国特許出願公開第2007/0043702(US,A1)
【文献】米国特許出願公開第2018/0336247(US,A1)
【文献】国際公開第2018/179355(WO,A1)
【文献】特開2013-228933(JP,A)
【文献】特開平10-111876(JP,A)
【文献】特開2012-003550(JP,A)
【文献】中国特許出願公開第110275990(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
文献を検索するための検索式を評価する情報処理装置であって、
関連する文献を検索できた検索式の特徴を示す情報を入力データ及び教師データとして含む学習データを用いた学習により取得された学習モデル評価対象の検索式の特徴を示す情報を第1データとして入力することにより前記学習モデルから出力された第2データを取得し、前記評価対象の検索式を評価するための評価データとして前記第1データと前記第2データが類似する度合いである類似度を取得する評価部を有する
ことを特徴とする情報処理装置。
【請求項2】
前記学習データを用いた学習により前記学習モデルを取得する学習部を有することを特徴とする、請求項1に記載の情報処理装置。
【請求項3】
前記検索式の特徴を示す情報は、前記検索式に含まれる検索項目の数を含むことを特徴とする、請求項1又は2に記載の情報処理装置。
【請求項4】
前記検索項目の数は、前記検索項目の検索条件ごとの検索項目の数を含むことを特徴とする、請求項3に記載の情報処理装置。
【請求項5】
前記検索条件は、文献における検索範囲、文献を特定するための番号、文献を分類するための分類コード、文献に関する日時、文献に関する名称の少なくとも1つを含むことを特徴とする、請求項4に記載の情報処理装置。
【請求項6】
前記検索項目の数は、前記検索式の階層ごとの検索項目の数を含むことを特徴とする、請求項3乃至5のいずれか1項に記載の情報処理装置。
【請求項7】
前記検索式の特徴を示す情報は、前記検索式に含まれる符号の数を含むことを特徴とする、請求項1乃至6のいずれか1項に記載の情報処理装置。
【請求項8】
前記検索式の特徴を示す情報は、前記検索式に含まれる検索項目の検索条件ごとの符号の数を含むことを特徴とする、請求項7に記載の情報処理装置。
【請求項9】
前記検索式の特徴を示す情報は、前記検索式の階層ごとの符号の数を含むことを特徴とする、請求項7又は8に記載の情報処理装置。
【請求項10】
前記学習データは、前記検索式の検索条件が文献における検索範囲である検索項目で指定された前記文献に含まれないキーワードの数、前記検索条件が前記文献を分類するための分類コードである検索項目で指定された前記文献を分類するための分類コードに含まれないキーワードの数のうち少なくとも1つを含むことを特徴とする、請求項1乃至9のいずれか1項に記載の情報処理装置。
【請求項11】
前記評価対象の検索式の特徴を示す情報は、前記評価対象の検索式に含まれる検索項目の数を含むことを特徴とする、請求項1乃至10のいずれか1項に記載の情報処理装置。
【請求項12】
前記検索項目の数は、前記検索項目の検索条件ごとの検索項目の数を含むことを特徴とする、請求項11に記載の情報処理装置。
【請求項13】
前記検索条件は、文献における検索範囲、文献を特定するための番号、文献を分類するための分類コード、文献に関する日時、文献に関する名称の少なくとも1つを含むことを特徴とする、請求項12に記載の情報処理装置。
【請求項14】
前記検索項目の数は、前記評価対象の検索式の階層ごとの検索項目の数を含むことを特徴とする、請求項11乃至13のいずれか1項に記載の情報処理装置。
【請求項15】
前記評価対象の検索式の特徴を示す情報は、前記評価対象の検索式に含まれる符号の数を含むことを特徴とする、請求項乃至14のいずれか1項に記載の情報処理装置。
【請求項16】
前記評価対象の検索式の特徴を示す情報は、前記評価対象の検索式に含まれる検索項目の検索条件ごとの符号の数を含むことを特徴とする、請求項1に記載の情報処理装置。
【請求項17】
前記評価対象の検索式の特徴を示す情報は、前記評価対象の検索式の階層ごとの符号の数を含むことを特徴とする、請求項15又は16に記載の情報処理装置。
【請求項18】
前記第1データ及び前記第2データは、前記検索式の検索条件が文献における検索範囲である検索項目で指定された前記文献に含まれないキーワードの数、前記検索条件が前記文献を分類するための分類コードである検索項目で指定された前記文献を分類するための分類コードに含まれないキーワードの数のうち少なくとも1つを含むことを特徴とする、請求項乃至17のいずれか1項に記載の情報処理装置。
【請求項19】
情報処理装置が実行する、文献を検索するための検索式を評価する情報処理方法であって、
関連する文献を検索できた検索式の特徴を示す情報を入力データ及び教師データとして含む学習データを用いた学習により取得された学習モデル評価対象の検索式の特徴を示す情報を第1データとして入力することにより前記学習モデルから出力された第2データを取得し、前記評価対象の検索式を評価するための評価データとして前記第1データと前記第2データが類似する度合いである類似度を取得する評価工程を有する
ことを特徴とする情報処理方法。
【請求項20】
文献を検索するための検索式を評価する情報処理方法をコンピュータに実行させるプログラムであって、
関連する文献を検索できた検索式の特徴を示す情報を入力データ及び教師データとして含む学習データを用いた学習により取得された学習モデル評価対象の検索式の特徴を示す情報を第1データとして入力することにより前記学習モデルから出力された第2データを取得し、前記評価対象の検索式を評価するための評価データとして前記第1データと前記第2データが類似する度合いである類似度を取得する評価工程を有する
ことを特徴とする情報処理方法をコンピュータに実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
ある対象文献に関連する関連文献を調査するためには、複数の文献が格納されたデータベースの中から対象文献に関連文献を検索する。対象文献に関連する文献を検索するために、検索の条件を規定する検索式を対象文献に応じて作成する必要がある。
【0003】
特許文献1は、形式的には問題ない検索式ではあっても、検索業務を熟知しているユーザーであれば気づくような誤り等を含む検索式を修正する検索式提示システムが開示されている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2018-45575号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
検索式が不適切である場合、関連文献として検索されるべき文献が検索結果から漏れる可能性があり、関連文献が含まれない検索結果の文献を調査することは時間の無駄になる。よって、検索結果の文献を調査する前に、関連文献として検索されるべき文献が検索結果に含まれる検索結果を得ることが可能な検索式であるかを評価することが望まれている。
【0006】
特許文献1においては、検索項目と検索キーワードの関係を知識として有する知識データベースに基づき検索項目の誤りを修正する。しかし、特許文献1に記載の技術では、検索式により、関連文献として検索されるべき文献が含まれる検索結果を得ることができるかという観点では検索式を評価することはできない。
【0007】
そこで、本発明は、関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決する本発明の一側面としての情報処理装置は、文献を検索するための検索式を評価する情報処理装置であって、関連する文献を検索できた検索式の特徴を示す情報を入力データ及び教師データとして含む学習データを用いた学習により取得された学習モデル評価対象の検索式の特徴を示す情報を第1データとして入力することにより前記学習モデルから出力された第2データを取得し、前記評価対象の検索式を評価するための評価データとして前記第1データと前記第2データが類似する度合いである類似度を取得する評価部を有する。
【発明の効果】
【0009】
本発明によれば、関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる情報処理装置、情報処理方法、及びプログラムを提供することができる。
【図面の簡単な説明】
【0010】
図1】情報処理装置の構成を示す図である。
図2】情報処理装置における処理を示す図である。
図3】評価部における学習モデルを示す概略図である。
図4】学習部による学習処理を示すフローチャートである。
図5】評価部による評価処理を示すフローチャートである。
図6】表示装置により表示された画面を示す図である。
図7】複数の情報処理装置からなる構成を示す図である。
【発明を実施するための形態】
【0011】
以下に、本発明の好ましい実施形態について図面を参照して詳細に説明する。各図において、同一の部材については、同一の参照番号を付し、重複する説明は省略する。
【0012】
<第1実施形態>
本実施形態に係る情報処理装置について説明する。ここで、本実施形態では、特許出願に係る文献に関連する特許公報、特許公開公報等の先行技術文献を検索する場合の検索式の評価について説明するが、特許出願に係る文献に限られず、一般の文献の関連文献を検索する場合にも適用可能である。
【0013】
図1は、情報処理装置10の構成を示す図である。処理部101は、OS(Operating System)及び各種アプリケーションプログラムを実行する中央演算処理装置(CPU)ある。また、処理部101は中央演算処理装置に限られず、マイクロプロセッシングユニット(MPU)、グラフィクスプロセッシングユニット(GPU)、特定用途向け集積回路(ASIC)等のプロセッサ又は回路であってもよい。また、処理部101は、デジタルシグナルプロセッサ(DSP)、データフロープロセッサ(DFP)、またはニューラルプロセッシングユニット(NPU)等のプロセッサ又は回路であってもよい。また、処理部101は、それらのプロセッサ又は回路のいずれかの組合せであってもよい。ROM102は、処理部101が実行するプログラムや演算用のパラメータのうちの固定的なデータを格納するメモリである。RAM103は、処理部101の作業領域やデータの一時記憶領域を提供するメモリである。入力部105はマウス、キーボードなどを含む入力装置、表示部106はCRTや液晶ディスプレイなどの表示装置である。また、入力部105及び表示部106は、タッチパネル等の一体型の装置であってもよい。また、入力部105及び表示部106は、コンピュータとは別体の装置として構成されてもよい。記憶部104は、ハードディスク装置、CD、DVD、メモリカード等の記憶装置であり、各種プログラムや各種データ等を記憶する。通信部107は、ネットワークに接続して通信を行う。通信部107は、例えばLANに接続してTCP/IP等の通信プロトコルによるデータ通信を行い、他の通信装置と相互に通信を行う場合に使用される。バス108は、処理部101、ROM102、RAM103、記憶部104、入力部105、表示部106、及び通信部107などの情報処理装置10内の各部に接続して、各部間でデータ通信を行う場合に使用される。例えば、通信部107が、他の通信装置から受信したデータが、バス108を介して記憶部104に送信されて記憶される。
【0014】
また、情報処理装置10は、ワークステーション(WS)、パーソナルコンピュータ(PC)などの据置型のコンピュータでもよいし、ノートPC、スマートフォンなどの携帯型のコンピュータであってもよい。
【0015】
図2は、情報処理装置における処理を示す図である。処理部101は、学習部201、評価部202から構成される。学習部201は、記憶部104から取得した学習データ211を用いた学習により学習モデル213を取得する。
【0016】
ここで、学習データ211は、入力データ221、及び教師データ222として、検索式の特徴を示す情報を含む。また、学習データ211は、入力データ221と教師データ222との複数の組み合わせを含む。また、学習データ211は、関連する文献が含まれた検索結果が得られた検索式に基づき取得される。つまり、学習データ211は、関連する文献が検索できた検索式の特徴を示す情報を含む。
【0017】
次に、検索式の特徴を示す情報について説明する。検索式の特徴を示す情報は、検索式に含まれる検索項目の数を含むことができる。
【0018】
ここで、検索項目について説明する。検索項目は検索式を構成する項目であり、検索式は1又は複数の検索項目を含む。また、検索式が複数の検索項目を含む場合は、検索式において、複数の検索項目が論理和、論理積、又は論理差等の符号で結合され、カッコを用いて検索項目を評価する順序を規定することができる。例えば、検索項目A~Eとし、論理和を表す符号を+、論理積を表す符号を*、論理差を表す符号を#、カッコを()とすると、検索式Expは以下の式(1)のように表される。
Exp=A*(B+C)*(D+(E#F))・・・(1)
【0019】
式(1)における第1項によって、検索項目Aに該当する文献が検索結果として出力される。また、式(1)における第2項によって、検索項目Bに該当する文献又は検索項目Cに該当する文献が検索結果として出力される。また、式(1)における第3項によって、検索項目Cに該当する文献又は検索項目Dに該当する文献から検索項目Eに該当する文献を除外した文献が出力される。そして、式(1)によって、第1項によって出力された文献、第2項によって出力された文献、及び第3項によって出力された文献のすべてに該当する文献が検索結果として出力される。よって、検索式に含まれる検索項目の数は、式(1)の場合には6となる。
【0020】
また、検索式の特徴を示す情報は、検索式に含まれる、検索条件ごとの検索項目の数を含むことができる。ここで、検索項目の検索条件について説明する。各検索項目は、検索条件が定められる。検索条件には、文献における検索範囲が含まれる。例えば、特許文献の場合、検索条件には、全文、書式事項、請求の範囲、明細書などが含まれ、明細書においてキーワードとして指定された文字列が検索条件として定められた検索範囲に含まれる特許文献が検索結果として出力される。
【0021】
また、検索条件には、文献を特定するための番号が含まれる。例えば、特許文献の場合、文献を特定するための番号には、出願番号、公開番号、登録番号などの番号が含まれ、キーワードとして指定された番号に該当する特許文献が検索結果として出力される。また、文献を特定するための番号には、複数の番号、番号の範囲、複数の番号の範囲、及びそれらの組み合わせも含まれることができる。
【0022】
また、検索条件には、文献を分類するための分類コードが含まれる。例えば、特許文献の場合、IPC、FI、Fタームなどの特許分類が含まれ、キーワードとして指定された特許分類に該当する特許文献が検索結果として出力される。また、文献を分類するための分類コードには、複数の分類コード、分類コードの範囲、複数の分類コードの範囲、及びそれらの組み合わせも含まれることができる。
【0023】
また、検索条件には、文献に関する日時が含まれる。例えば、特許文献の場合、文献に関する日時には、出願日、公開日、登録日などの日時が含まれ、キーワードとして指定された日時に該当する特許文献が検索結果として出力される。また、文献に関する日時には、複数の日時、日時の範囲、複数の日時の範囲、及びそれらの組み合わせも含まれることができる。
【0024】
また、検索条件には、文献に関する名称が含まれる。例えば、特許文献の場合、出願人名、発明者名、代理人名などが含まれ、キーワードとして指定された名称に該当する特許文献が検索結果として出力される。また、文献に関する名称には、複数の名称も含まれることができる。また、上述した検索条件は、一例であり上述した検索条件に限られるものではない。
【0025】
例えば、式(1)において、検索項目Aの検索条件が文献における検索範囲であり、検索項目B及びCの検索条件が文献を特定するための番号であり、検索項目D、E、及びFの検索条件が文献を分類するための分類コードであるとする。その場合、検索条件が文献における検索範囲である検索項目の数は1であり、検索条件が文献を特定するための番号である検索項目の数は2であり、検索条件が文献を分類するための分類コードである検索項目の数は3である。
【0026】
また、検索式の特徴を示す情報は、検索式の階層ごとの検索項目の数を含むことができる。ここで、検索式の階層について説明する。上述の通り、検索式にはカッコを含むことができ、カッコによって検索式に含まれる検索項目の階層を定めることができる。例えば、式(1)の場合、検索項目Aは第1階層、検索項目B、C、及びDは第2階層、検索項目E、及びFは第3階層の検索項目となり、第1階層の検索項目の数は1、第2階層の検索項目の数は3、第3階層の検索項目の数は2となる。
【0027】
さらに、検索式の特徴を示す情報は、検索条件ごと、及び検索式の階層ごと検索項目の数を含むことができる。例えば、検索式の特徴を示す情報は、検索条件が文献における検索範囲であり階層が第1階層である検索項目の数を含むことができる。これにより、検索式の特徴を示す情報のデータ量は増加するが、検索式の特徴を示す情報はより詳細に検索式の特徴を表現することができる。
【0028】
また、検索式の特徴を示す情報は、検索式に含まれる符号の数を含むことができる。検索式に含まれる符号の数は、式(1)の場合、論理和を表す符号の数は2、論理積を表す符号の数は2、論理差を表す符号の数は1となる。
【0029】
また、検索式の特徴を示す情報は、検索条件ごとの検索項目に含まれる符号の数を含むことができる。ここで、検索項目に含まれる符号について説明する。上述の通り、1つの検索項目に対して複数のキーワードを指定することができる。また、検索項目に対して複数のキーワードが指定される場合、それぞれのキーワードを論理和、論理積又は論理差などの符号で結合することができる。
【0030】
例えば、検索項目Aに含まれるキーワードをa1~a3、検索項目Bに含まれるキーワードをb1~b4、検索項目Cに含まれるキーワードをc1、c2とすると、検索項目A、B、及びCは、それぞれ以下の式(2)、(3)、及び(4)のように表される。
A=a1+a2+a3・・・(2)
B=b1*b2*b3*b4・・・(3)
C=c1#c2・・・(4)
【0031】
式(2)において、検索項目Aは、a1、a2、及びa3のいずれかに関して検索条件を満たす場合に真となる。また、式(3)において、検索項目Bは、b1、b2、b3、及びb4のすべてに関して検索条件を満たす場合に真となる。また、式(4)において、検索項目Cは、c1に関して検索条件を満たし、c2に関して検索条件を満たさない場合に真となる。例えば、検索項目Aの検索条件が文献における検索範囲である場合、検索条件が文献における検索範囲である検索項目に含まれる論理和の数は3である。また、例えば、検索項目B、及びCの検索条件が文献を特定するための番号である場合、検索条件が文献を特定するための番号である検索項目に含まれる論理積の数は4であり、論理差の数は1である。また、検索項目に含まれる符号は、複数のキーワードが予め定められた文字数内に存在する場合に真となるような近傍検索のための符号であってもよい。
【0032】
また、検索式の特徴を示す情報は、検索式の階層ごとの符号の数を含むことができる。式(1)における第1階層の場合、論理和を表す符号の数は0、論理積を表す符号の数は2、論理差を表す符号の数は0となる。また、式(1)における第2階層の場合、論理和を表す符号の数は2、論理積を表す符号の数は0、論理差を表す符号の数は0となる。式(1)における第3階層の場合、論理和を表す符号の数は0、論理積を表す符号の数は0、論理差を表す符号の数は1となる。
【0033】
さらに、検索式の特徴を示す情報は、検索条件ごと、及び検索式の階層ごと符号の数を含むことができる。例えば、検索式の特徴を示す情報は、検索条件が文献における検索範囲であり階層が第1階層である符号の数を含むことができる。これにより、検索式の特徴を示す情報に含まれる項目の数は増加するが、検索式の特徴を示す情報はより詳細に検索式の特徴を表現することができる。
【0034】
ここで、上述したような検索式の特徴を示す情報を適切にすることにより、検索結果に関連文献が含まれる可能性は高くなる。例えば、論理積を表す符号で結合された検索項目の数が多すぎると検索範囲が狭くなり、検索結果に関連文献が含まれる可能性が低くなるので、論理積を表す符号で結合された検索項目の数を適切にする必要がある。また、論理和を表す符号で結合された検索項目の数が少なすぎると検索範囲が狭くなり、検索結果に関連する文献が含まれる可能性が低くなるので、論理和を表す符号で結合された検索項目の数を適切にする必要がある。また、検索条件ごと、階層ごとの検索項目の数も検索結果に影響がある。また、検索条件ごと、階層ごとの符号の数も検索結果に関連文献が含まれる可能性に影響がある。よって、検索式の特徴を示す情報は、検索結果に関連文献が含まれるかということと相関関係を有する。
【0035】
また、学習モデル213は、ニューラルネットワークにより構成されることができる。図3は、評価部202における学習モデル213を示す図である。ここで、ニューラルネットワークとは、入力層、中間層、出力層といった多層のネットワーク構造を有するモデルである。入力データと教師データとの関係を示す学習データを用いて、誤差逆伝播法等のアルゴリズムでニューラルネットワーク内部の結合重み付け係数等が最適化されることにより、学習モデル213を取得することができる。誤差逆伝播法は、出力データと教師データとの誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
【0036】
また、本実施形態では機械学習の一手法であるオートエンコーダを用いて、検索式を評価するための評価データを求める。オートエンコーダでは、ニューラルネットワークの入力層と出力層を同じ構造とし、検索式の特徴を示す情報を入力すると、検索式の特徴を示す情報が出力される構造とする。また、学習データ211として、関連する文献が含まれた検索結果が得られた検索式に基づき取得された検索式の特徴を示す情報を学習データ211の入力データ221、及び教師データ222として用いる。つまり、適正な検索式の特徴を示す情報を学習データ211の入力データ221、及び教師データ222として用いる。このような学習データ211を用いた学習により取得された学習モデル213に、適正な検索式の特徴を示す情報を入力データ221として入力すると、入力データ221と同様の情報を出力データ214として出力する。一方、学習モデル213に、適正でない検索式の特徴を示す情報を入力データ221として入力すると、入力データ221と異なる情報を出力データ214として出力する。このような特性を利用して、入力データ221と出力データ214を比較することにより、入力された入力データ221を取得した検索式を評価することができる。
【0037】
また、学習データ211は、関連する文献が含まれた検索結果が得られ、かつ検索結果に含まれる文献の数が適正であった検索式に基づき取得されるとよい。このような学習データ211を用いることにより、検索式により検索される検索結果に含まれる文献の数が適正であるかという観点でも検索式を評価することができる。検索結果に含まれる文献の数が多い方が、検索結果に関連文献が含まれる可能性は高くなるが、検索結果に含まれる文献を調査する時間を考慮すると、検索結果に含まれる文献の数は少ない方が望ましい。この場合、検索結果に含まれる文献の数は適正な数として閾値が予め定められ、検索結果に含まれる文献の数がかかる閾値より少ない検索結果が得られた検索式の特徴を示す情報を学習データとして含める。つまり、学習データ211には、関連する文献が検索結果に含まれ、かつ予め定められた閾値より少ない数の文献が含まれた検索結果が得られた検索式の特徴を示す情報を含むとよい。
【0038】
次に、学習部201による学習処理について説明する。図4は、学習部201による学習処理を示すフローチャートである。S401において、学習部201は、記憶部104から学習データ211を取得する。ここで、学習部201は、RAM103や外部の記憶装置に保存された学習データ211を取得してもよい。
【0039】
S402において、学習部201は、学習により学習モデル213を取得する。例えば、学習モデル213がニューラルネットワークにより構成される場合、学習部201は、誤差検出部(不図示)と、更新部(不図示)と、を備えてもよい。誤差検出部は、入力層に入力される入力データ212に応じてニューラルネットワークの出力層から出力される出力データ214と、教師データとの誤差を得る。誤差検出部は、損失関数を用いて、ニューラルネットワークからの出力データ214と教師データとの誤差を計算するようにしてもよい。更新部は、誤差検出部で得られた誤差に基づいて、その誤差が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。
【0040】
S403において、学習部201は、S402で取得した学習モデル213を評価部202に出力する。ここで、学習部201は、学習モデル213を記憶部104に保存し、評価部202は保存された学習モデル213を取得してもよい。また、学習モデル213はRAM103や通信部107を介して外部の記憶装置に保存されてもよい。
【0041】
次に、評価部202による評価処理について説明する。図5は、評価部202による評価処理を示すフローチャートである。S501において、評価部202は、記憶部104から入力データ212を取得する。ここで、評価部202は、RAM103や外部の記憶部104に保存された入力データ212を取得してもよい。また、評価部202は、入力部105を介して入力された入力データ212を取得してもよい。
【0042】
ここで、入力データ212は、評価対象となる検索式(第2の検索式)の特徴を示す情報を含む。詳細については、学習データ211に含まれる入力データ221と同様である。
【0043】
S502において、評価部202は、学習部201から学習モデル213を取得する。ここで、評価部202は、RAM103や外部の記憶装置に保存された学習モデル213を取得してもよい。
【0044】
S503において、評価部202は、S501で取得した入力データ212を、S502で取得した学習モデル213に入力して、学習モデル213から出力される出力データ214を取得する。そして、評価部202は、入力データ212、及び出力データ214に基づき評価データ215を取得する。
【0045】
ここで、評価データ215を取得する方法について説明する。学習モデル213に入力される入力データ212の複数の要素をIDとする。また、学習モデル213から出力される出力データ214の複数の要素をODとする。ここで、iは自然数(i=1、2、3、...、n)であり、入力データ212、及び出力データ214の要素数を表す。ID、及びODは、検索式の特徴を示す情報に含まれる個別のデータに相当する。例えば、ID、及びODは検索式に含まれる検索項目の数とし、ID、ODは、検索条件が文献における検索範囲である検索項目の数とし、ID、ODは、検索条件が文献を特定するための番号である検索項目の数とすることができる。さらに、評価データ215をEDとし、複数の評価データ215のそれぞれをEDとする。
【0046】
例えば、EDとEDは、以下の式(4)、(5)のように表すことができる。
ED=ID-OD ・・・(4)
【0047】
【数1】
【0048】
EDは、n次元ユークリッド空間における2点のユークリッド距離を表している。よって、EDが小さくなるほど入力データ212と出力データ214が類似する度合い(類似度)が大きくなるので検索式の評価は高くなり、EDが大きくなるほど入力データ212と出力データ214との類似度が小さくなるので検索式の評価は低くなる。また、EDは、ユークリッド距離に限られず、マハラノビス距離など2つのベクトルで表される2点の距離やコサイン類似度など2つのベクトルの類似度を示す指標により表わされてもよい。また、EDは正規化された値としてもよい。
【0049】
S504において、評価部202は、S503で取得した評価データ215を表示部106に出力する。ここで、評価部202は、評価データ215を記憶部104に保存し、表示部106は保存された評価データ215を表示してもよい。また、評価データ215はRAM103や通信部107を介して外部の記憶装置に保存されてもよい。
【0050】
表示部106は、評価部202により出力された評価データ215を画面に表示する。図6は、表示装置により表示された画面を示す図である。画面600には、検索式を表示する領域610、検索式の特徴を示す情報を表示する領域620が表示される。領域610には、領域611、領域612、領域613が表示される。領域611には、検索項目ごとの検索条件が表示される。また、領域612には、検索項目ごとのキーワード、及び符号が表示される。また、領域613には、式(1)のような検索式が表示される。また、図6の例では、検索項目A~Dに対応する領域611、及び621が4つずつ表示されているが、領域611、及び621の数については図6の例に限られない。
【0051】
また、領域620には、領域621、領域622、及び領域623が表示される。領域621には、検索式の特徴を示す情報に含まれる個別の項目を示す情報が表示される。例えば、領域621には、検索式に含まれる検索項目の数を示す情報や、検索条件が文献における検索範囲である検索項目の数を示す情報が表示される。
【0052】
また、領域622には、検索式の特徴を示す情報に含まれる個別の項目について入力データ212と出力データ214を比較したデータを示す情報が表示される。例えば、領域622には、式(4)で表されるEDが表示される。また、領域622に表示されるデータが予め定められた閾値を超えた検索式の特徴を示す情報の項目が目立つように、領域621、及び領域622の少なくとも一方に表示される文字の色やフォントなどを変更してもよい。
【0053】
また、領域623には、評価データ215が表示される。例えば、領域623には、式(5)で表されるEDが表示される。また、領域623に表示される評価データ215が予め定められた閾値を超えた場合に、評価データ215が目立つように領域623に表示される文字の色やフォントなどを変更してもよい。
【0054】
また、画面600の領域610において、ユーザーが検索式に関する情報を入力することを可能とし、S501において、評価部202は、画面600の領域610に入力された検索式に関する情報に基づき、入力データ212を取得してもよい。
【0055】
以上、本実施形態の情報処理装置によれば、学習により取得された学習モデルを用いて検索式に関する評価データを取得することができるので、関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる。
【0056】
<第2実施形態>
次に、第2実施形態に係る情報処理装置について説明する。なお、ここで言及しない事項は、第1実施形態に従いうる。本実施形態では、検索式の特徴を示す情報に加えて、それ以外の情報を、学習部201の学習処理に用いられる学習データ211に含まれる入力データ221及び教師データ222として用いる。また、同様に検索式の特徴を示す情報に加えて、それ以外の情報を、評価部202における評価処理に用いられる入力データ212及び出力データ214として用いる。
【0057】
入力データ221及び教師データ222には、検索条件が文献における検索範囲である検索項目で指定された、対象文献に含まれないキーワードの数が含まれることができる。一般に、対象文献に含まれるキーワードのみを用いて検索した場合、類義語を含む関連文献が検索結果に含まれない可能性がある。よって、対象文献に含まれないキーワードの数は、検索結果に関連文献が含まれるかということと相関関係を有する。また、入力データ212及び出力データ214にも同様に、検索条件が文献における検索範囲である検索項目で指定された、対象文献に含まれないキーワードの数が含まれることができる。
【0058】
入力データ221及び教師データ222には、検索条件が文献を分類するための分類コードである検索項目で指定された、対象文献を分類するための分類コードに含まれないキーワードの数が含まれることができる。一般に、対象文献を分類するための分類コードに含まれるキーワードのみを用いて検索した場合、他の分類コードに分類された関連文献が検索結果に含まれない可能性がある。よって、対象文献を分類するための分類コードに含まれないキーワードの数は、検索結果に関連文献が含まれるかということと相関関係を有する。また、入力データ212及び出力データ214にも同様に、文献を分類するための分類コードである検索項目で指定された、対象文献を分類するための分類コードに含まれないキーワードの数が含まれることができる。
【0059】
以上、本実施形態の情報処理装置によれば、学習により取得された学習モデルを用いて検索式に関する評価データを取得することができるので、関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる。また、検索式の特徴を示す情報に加えて、それ以外の情報を学習データ211等として用いるので、より精度よく関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる。
【0060】
<第3実施形態>
次に、第3実施形態に係る情報処理装置について説明する。なお、ここで言及しない事項は、第1実施形態、及び第2実施形態に従いうる。本実施形態では、異なる情報処理装置において学習部201による学習処理と評価部202による評価処理が行われる形態について説明する。本実施形態では、例えば、より高い処理能力が必要な学習処理を据置型のコンピュータで行い、学習処理ほど高い処理能力が必要でない評価処理を携帯型のコンピュータで行うといった形態を実現できる。
【0061】
図7は、複数の情報処理装置からなる構成を示す図である。本実施形態に係る情報処理装置は、第1情報処理装置71と第2情報処理装置72を含む。第1情報処理装置71と第2情報処理装置72は、第1実施形態で説明した情報処理装置10と同様の構成からなる情報処理装置である。また、第1情報処理装置71と第2情報処理装置72は、LANなどのネットワークに接続して、互いの通信部107(図7では不図示)を介してデータの送受信を行うことができる。また、ネットワークは有線によって第1情報処理装置71と第2情報処理装置72を接続するだけでなく、無線LANなどにより無線で第1情報処理装置71と第2情報処理装置72を接続してもよい。
【0062】
第1情報処理装置71における処理部101は、学習部201から構成される。また、第2情報処理装置72における処理部101は、評価部202から構成される。第1情報処理装置71における処理部101は、学習部201により学習処理を行い、取得された学習モデル213に関する情報を第2情報処理装置72に送信する。ここで、学習モデル213に関する情報には、例えば、ニューラルネットワークの構造を定めるパラメータとして、各層のノードの数、中間層の数、ノード間の結合重み付け係数などのデータを含む。
【0063】
第2情報処理装置72における処理部101は、評価部202により評価処理を行い、評価データ215を出力して、記憶部104に保存される。また、評価データ215は、RAM103や通信部107を介して外部の記憶装置に保存されてもよく、表示部106により画面に表示されてもよい。
【0064】
以上、本実施形態の情報処理装置によれば、学習により取得された学習モデルを用いて検索式に関する評価データを取得することができるので、関連文献として検索されるべき文献が含まれる検索結果が得られる検索式であるか評価することができる。また、本実施形態の情報処理装置によれば、より高い処理能力が必要な学習処理を据置型のコンピュータで行い、学習処理ほど高い処理能力が必要でない評価処理を携帯型のコンピュータで行うといった形態を実現できる。
【0065】
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワークまたは記憶媒体を介してシステムまたは装置に供給し、そのシステムまたは装置のコンピュータがプログラムを読出し実行する処理でも実現可能である。コンピュータは、1または複数のプロセッサまたは回路を有し、コンピュータ実行可能命令を読み出し実行するために、分離した複数のコンピュータまたは分離した複数のプロセッサまたは回路のネットワークを含みうる。
【0066】
また、第1実施形態乃至第3実施形態は、単独で実施するだけでなく、第1実施形態乃至第3実施形態のいかなる組合せでも実施することができる。
図1
図2
図3
図4
図5
図6
図7