(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-13
(45)【発行日】2023-02-21
(54)【発明の名称】情報処理システム、情報処理方法及びプログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20230214BHJP
G06Q 50/18 20120101ALI20230214BHJP
【FI】
G06F16/35
G06Q50/18 310
(21)【出願番号】P 2019052292
(22)【出願日】2019-03-20
【審査請求日】2021-10-12
(73)【特許権者】
【識別番号】519099380
【氏名又は名称】常本 俊幸
(74)【代理人】
【識別番号】100217032
【氏名又は名称】常本 俊幸
(74)【代理人】
【識別番号】230117846
【氏名又は名称】長友 隆典
(72)【発明者】
【氏名】常本 俊幸
【審査官】原 秀人
(56)【参考文献】
【文献】国際公開第2013/021696(WO,A1)
【文献】特開2001-084255(JP,A)
【文献】特開2010-186370(JP,A)
【文献】特開2018-200621(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 50/18
(57)【特許請求の範囲】
【請求項1】
検索キーワードのセットと文献との関連性を判定するシステムであって、
文献のテキストデータを取得する手段と、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得する手段と、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析手段と、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成手段と、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システム。
【請求項2】
請求項1に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析手段と、
前記KW係受語存在箇所解析手段によって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成手段と、を備え、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システム。
【請求項3】
請求項1に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析手段と、
前記技術用語分析手段によって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析手段と、
前記技術用語存在箇所解析手段によって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成手段と、を備え、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、文献ごとに、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段と、
を備えたことを特徴とする情報処理システム。
【請求項4】
請求項1に記載の情報処理システムにおいて、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。
【請求項5】
請求項2に記載の情報処理システムにおいて、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。
【請求項6】
請求項3に記載の情報処理システムにおいて、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記上位1番目~上位m番目の技術用語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システム。
【請求項7】
請求項1又は請求項4のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習すること、
を特徴とする情報処理システム。
【請求項8】
請求項2又は請求項5のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとに基づいて、検索キーワードのセットと文献との関連性を判定する分類手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システム。
【請求項9】
請求項3又は請求項6のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システム。
【請求項10】
請求項7に記載の情報処理システムにおいて、
コンピュータに、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定
させるための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。
【請求項11】
請求項8に記載の情報処理システムにおいて、
コンピュータに、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定
させるための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。
【請求項12】
請求項9に記載の情報処理システムにおいて、
コンピュータに、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定
させるための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデル。
【請求項13】
請求項7~9のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理システム。
【請求項14】
請求項7~9のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定する情報処理システムにおいて、
検索キーワードのセットと文献との関連性が高いと判定される順番で判定結果を出力する手段と、
実際にサーチャーが関連性が高いと判断する文献の上位p%の文献が含まれている可能性が高い範囲を区別表示する手段と、
を備えたことを特徴とする情報処理システム。
【請求項15】
検索キーワードのセットと文献との関連性を判定する方法であって、
文献のテキストデータを取得するステップと、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得するステップと、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析ステップと、
前記KW存在箇所解析
ステップによって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成ステップと、を備え、
前記KW空間分布ベクトル生成
ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。
【請求項16】
請求項
15に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析ステップと、
前記KW係受語存在箇所解析ステップによって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成ステップと、を備え、
前記KW係受語空間分布ベクトル
生成ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係又は分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。
【請求項17】
請求項
15に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析ステップと、
前記技術用語分析ステップによって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析ステップと、
前記技術用語存在箇所解析ステップによって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成ステップと、を備え、
前記技術用語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法。
【請求項18】
コンピュー
タに、請求項
15~
17のいずれか1つに記載の情報処理方法を実行
させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、特許文献や論文ないし裁判例などの文献の調査においては、キーワードを選定してデータベースを検索し、ヒットした文献を一つ一つ開いて内容を確認して、キーワードとの関連性を確認していた。
このため、例えば、ヒットした件数が1,000件程度の場合、一つの文献のページ数が数十ページ程度のボリュームがあるので、合計で数万頁もの膨大な分量の文章を確認する必要があった(
図1の(1)参照)。
また、調査を行うオペレータ(以下。「サーチャー」という)が文献を一つ一つ開いて文章を読んで確認するため、長時間の確認作業により集中力が途切れて関連性のある文献を見逃したり、目の疲労が蓄積するなどの弊害もあった。
【0003】
そこで、例えば、特許文献1のように、関連性が高いと考えられる確率であるサーチ確率と、関連性が低くノイズであると考えられる確率であるノイズ確率の2軸の評価軸を用いて特許文献を分類して、特許等の文献調査を効率化するシステムが開発されている。
【0004】
また、例えば、特許文献2では、まず、予め、サーチャーの人手による事前の数百件~数千件の文献数に及ぶ相当量の文献の調査(以下「プレ調査」と呼ぶ)によって、調査対象技術と関連性のある特許文献と関連性が低い特許文献をある程度の数だけ用意している。そのうえで、関連性のある特許文献について関連特許特徴ベクトルを定義すると共に、関連性が低い特許文献について非関連特許特徴ベクトルを定義している。
そして、それぞれの特徴ベクトルの平均ベクトルを算出しておき(ある種のクラスタリング)、別途網羅的に特許文献を格納してある中から、関連性が高い特許文献を検索するために、格納された検索対象の特許文献について検索特許特徴ベクトルを算出し、関連特許特徴ベクトル(又は非関連特許特徴ベクトル)と検索特許特徴ベクトルとの間のCOS尺度(コサイン類似度)等によって、別途保存してある膨大な特許文献の中から、関連性の高い特許を抽出する技術が開発されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特許6453502号公報
【文献】特開2014-112283号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、特許文献1のシステムによっても、あくまで設定したテーマについて、関連性が高いと考えられる確率であるサーチ確率と、関連性が低くノイズであると考えられる確率であるノイズ確率の2軸の評価軸で、対象案件を選択しやすくする処理であって、テーマごとの大まかな分類で関連する特許を抽出できるに留まる。このため、未調査ないし未知のテーマに対して、新たにキーワードを策定して、キーワードを元に検索して、ヒットした文献について、関連性のありそうな文献を抽出するような用途には適していなかった。
【0007】
特許文献2の技術では、予めピックアップしておいた関連特許文献に基づいて、検索式を自動生成して検索したり、関連特許特徴ベクトルを生成して類似度を判定するという手法を用いていた。
このため、予めプレ調査を必要とするものの、データベースに登録してある数万件~百万件という膨大な特許文献の中から、漏れなく関連性のありそうな特許文献を抽出するような用途に適していた。
しかし、予めピックアップしておくべき関連特許文献の数は、20~30件程度は必要になると考えられ、それだけの件数の関連特許文献をピックアップするためには、サーチャーの人手によるプレ調査等によって、所定の検索条件でヒットした数百件~数千件の特許文献の中から、人手によって、調査対象技術と関連性のある特許文献を一つ一つ確認する必要があった。
【0008】
なお、数百件~数千件の特許文献の確認が必要となると想定したのは、一般的に、検索条件でヒットした特許文献の内、関連性があると認められるのは全体の数%であることから、予め数十件の関連する特許文献をピックアップするためには、サーチャーが数百件~数千件もの特許文献の確認が必要であると推定されることによるものである。
【0009】
このように、従来、所定の特許文献が、あるテーマの範疇に含まれるかどうかの判定処理(特許文献1のタイプ)、あるいは、サーチャーが所定のキーワードを元にプレ調査を行い、ある程度の特許等の調査を人手で行った上で、相当数の特許文献等をピックアップしたうえで、ピックアップした複数の特許文献に似ている特許文献を大量のデータベースから漏れなく探すシステム(特許文献2のタイプ)などが知られていた。
しかし、いずれの先行特許文献でも、プレ調査の無い状態で、一から文献調査を行うような場面で、調査対象技術と関連性が高いかどうかを判定する用途には適用できないという課題があった。
【0010】
また、いずれの先行特許文献においても、サーチャーが人手で関連性の高い特許文献等を抽出する際の思考を分析して、情報処理としてどのようなアルゴリズムに置き換えるかについては記載もなく、示唆もされていなかった。
具体的には、いずれの先行技術においても、設定したキーワードと特許文献とがどのような関係にあれば関連性が高いと判定できるかについて分析し、どのような特徴ベクトルを生成して機械学習すれば効率的な文献調査ができるかについては記載も示唆もされていなかった。
【0011】
そこで本願発明では、サーチャーが人手で関連性がありそうな特許文献等を抽出する作業、すなわち、特許等の文献調査における人の思考を分析して、人が気が付いている特徴に加え、人も気が付いていない特徴も含めてベクトル化して、大量のデータで機械学習させることで、文献調査の作業の手法を精緻化するシステムを構築して、文献調査の精度を向上させ、引いては文献調査の工数を飛躍的に削減することを目的とする。
また、付随して、サーチャーが1件の文献等を読み込むのに掛ける時間を増やし、関連性のある文献の中でも特に関連性が高いと判断される文献の選択の精度を向上させることを目的とする。
【0012】
また、本願発明の技術によれば、特許文献だけではなく、論文や裁判例の検索にもそのまま適用でき、これらの検索の精度向上、工数削減も目的とする。
また、日本語の文献のみならず、諸外国の言語で記述された文献であっても同様に適用することを目的とする。
【課題を解決するための手段】
【0013】
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、
検索キーワードのセットと文献との関連性を判定するシステムであって、
文献のテキストデータを取得する手段と、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得する手段と、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析手段と、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成手段と、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価することができる。
【0014】
第2の発明は、
第1の発明に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析手段と、
前記KW係受語存在箇所解析手段によって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成手段と、を備え、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段を備えたこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
【0015】
第3の発明は、
第1の発明に記載の情報処理システムにおいて、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析手段と、
前記技術用語分析手段によって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析手段と、
前記技術用語存在箇所解析手段によって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成手段と、を備え、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、文献ごとに、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する分類手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できるようになる。
【0016】
第4の発明は、第1の発明の分類手段の構成の詳細の一例であって、
第1の発明に記載の情報処理システムにおいて、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワードの相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴マップや、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を評価するための特徴マップを生成し、多面的、総合的な評価ができるようになる。
なお、中間層が2層以上で、全体として3層以上のニューラルネットワークを、一般にディープニューラルネットワークと呼ぶが、本願発明では、ニューラルネットワークにディープニューラルネットワークを含むものとし、特に区別しないで扱うものとする。
【0017】
第5の発明は、第2の発明の分類手段の構成の詳細の一例であって、
第2の発明に記載の情報処理システムにおいて、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及びそれらの係り受け語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴マップに加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができるような特徴マップを生成し、より多面的、総合的な評価ができるようになる。
【0018】
第6の発明は、第3の発明の分類手段の構成の詳細の一例であって、
第3の発明に記載の情報処理システムにおいて、
文献ごとに生成した、前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、検索キーワードのセットと文献との関連性を判定する前記分類手段が、少なくとも3層以上のニューラルネットワークで構成されている場合に、
前記ニューラルネットワークの第1層において、
前記第1段~第n段のKW空間分布ベクトル及び、前記上位1番目~上位m番目の技術用語空間分布ベクトルに対し、それぞれに対応する畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の特徴を抽出した特徴マップを生成する合成手段と、を備え、
前記ニューラルネットワークの第2層以降において、
前層で生成した複数の特徴マップに対し、複数の畳み込みフィルタを用いて、畳み込み処理を行う畳込手段と、
当該畳み込み処理の結果を合成することにより、第1段~第n段のキーワード群のキーワード及び上位1番目~上位m番目の技術用語の相互の位置関係や分布の高次の特徴を抽出した特徴マップを生成する合成手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴マップに加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価するできる特徴マップを生成し、より多面的、総合的な評価ができるようになる。
【0019】
第7の発明は、KW空間分布ベクトルによる分類手段の学習処理の一例であって、
第1の発明又は第4の発明のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習すること、
を特徴とする情報処理システムである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を評価できる学習済み機械学習モデルを生成することができる。
【0020】
第8の発明は、KW空間分布ベクトルとKW係受語空間分布ベクトルによる分類手段の学習処理の一例であって、
請求項2又は請求項5のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとに基づいて、検索キーワードのセットと文献との関連性を判定する分類手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて、文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる学習済み機械学習モデルを生成することができる。
【0021】
第9の発明は、KW空間分布ベクトルと技術用語空間分布ベクトルによる分類手段の学習処理の一例であって、
第3の発明は第6の発明のいずれか1つに記載の情報処理システムにおいて、
検索キーワードのセットと、文献のテキストデータと、当該検索キーワードのセットと文献との関連性を示すラベル値と、を対応付けた学習データセットを取得する手段と、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて、文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新することにより学習処理を行うこと、
を特徴とする情報処理システムである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる学習済み機械学習モデルを生成することができる。
【0022】
第10の発明は、
KW空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第7の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、文献ごとに生成した第1段~第n段のKW空間分布ベクトル、
を含む学習用ベクトルデータである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価するための機械学習モデルを生成することができる。
【0023】
第11の発明は、
KW空間分布ベクトルとKW係受語空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第8の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段の各キーワードの存在箇所に基づいて、前記第1段~第n段のキーワード群ごとに分けて文献ごとに生成した第1段~第n段のKW空間分布ベクトルと、
前記KW係受語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、文献ごとに生成した第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、
を含む学習用ベクトルデータである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させる機械学習モデルを生成することができる。
【0024】
第12の発明は、
KW空間分布ベクトルと技術用語空間分布ベクトルを含む学習データであって、いわゆるデータ構造の発明であり、具体的には、
第9の発明に記載の分類手段の学習処理に用いられる学習用ベクトルデータであって、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、前記第1段~第n段のキーワード群ごとに分けて、文献ごとに生成した第1段~第n段のKW空間分布ベクトルと、
前記技術用語空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて文献ごとに生成した上位1番目~上位m番目の技術用語空間分布ベクトルと、
を含む学習用ベクトルデータである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる機械学習モデルを生成することができる。
【0025】
第13の発明は、
第4の発明又は第7の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第4の発明又は第7の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した前記ラベル値との誤差に基づいて、前記分類手段のパラメータを更新する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価する学習モデルを提供することができる。
【0026】
第14の発明は、
第5の発明又は第8の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第5の発明又は第8の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させる学習モデルを提供することができる。
【0027】
第15の発明は、
第6の発明又は第9の発明において学習処理が進んだ後の学習済みモデルの発明であり、具体的には、
第6の発明又は第9の発明に記載の情報処理システムにおいて、前記学習処理手段によって学習した、検索キーワードのセットと文献との関連性を判定するための学習済みモデルであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記分類手段のパラメータを学習する学習処理手段と、を備え、
前記学習データセットに基づいて文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルとを、前記分類手段に入力し、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新する学習処理によって得られた学習済みモデルである。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できる学習モデルを提供することができる。
【0028】
第16の発明は、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルにおけるパラメータであって、
前記分類手段が出力した、検索キーワードのセットと文献との関連性のスコア値と、前記ラベル値との誤差に基づいて、前記学習処理手段が、前記分類手段のパラメータを更新して得られた学習後のパラメータである。
この構成により、パラメータだけの提供を受けて、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価する学習モデルを生成できる。
【0029】
第17の発明は、
学習済みモデルを利用した判定処理システムの発明であって、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定する情報処理システムである。
【0030】
第18の発明は、
第7~第9の発明のいずれか1つに記載の情報処理システムにおける学習処理によって得られた学習済みモデルを利用して、検索キーワードのセットと文献との関連性を判定する情報処理システムにおいて、
検索キーワードのセットと文献との関連性が高いと判定される順番で判定結果を出力する手段と、
実際にサーチャーが関連性が高いと判断する文献の上位p%の文献が含まれている可能性が高い範囲を区別表示する手段と、
を備えたことを特徴とする情報処理システムである。
この構成により、内部がブラックボックスの機械学習モデルを採用しても、出力結果の信頼性の見通しを立てることができる。
【0031】
第19の発明は、第1の発明に対応する方法の発明であり、
検索キーワードのセットと文献との関連性を判定する方法であって、
文献のテキストデータを取得するステップと、
検索キーワードのセットとして、第1段~第n段のキーワード群のセットで取得するステップと、
文献のテキストデータ中に含まれるキーワードの存在箇所を解析するKW存在箇所解析ステップと、
前記KW存在箇所解析手段によって解析したキーワードの存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成するKW空間分布ベクトル生成ステップと、を備え、
前記KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、第1段~第n段のKW空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルに基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、第1段のキーワード群のキーワードと、第n段のキーワード群のキーワードの相互の位置関係や分布の特徴であって、局所的な相互の位置関係や分布の特徴や、局所的な特徴を複合的に組み合わせた高次の位置関係の特徴を総合的に評価することができる。
【0032】
第20の発明は、第2の発明に対応する方法の発明であり、
第19の発明に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれるキーワードの存在箇所の近傍に存在するキーワードの係り受け語の存在箇所を解析するKW係受語存在箇所解析ステップと、
前記KW係受語存在箇所解析ステップによって解析したキーワードの近傍の係り受け語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示すKW係受語空間分布ベクトルを生成するKW係受語空間分布ベクトル生成ステップと、を備え、
前記KW係受語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記第1段~第n段のキーワード群の各キーワードに対応する係り受け語の存在箇所に基づいて、第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記第1段~第n段のキーワード群に対応する第1段~第n段のKW係受語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係又は分布の特徴、および、前記第1段~第n段のキーワード群の各キーワードとそれに対応する係受語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、キーワード同士の分布の特徴に加え、キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを肯定ないし強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
【0033】
第21の発明は、第3の発明に対応する方法の発明であり、
第19の発明に記載の情報処理方法において、さらに、
文献のテキストデータ中に含まれる技術用語を頻度順に分析する技術用語分析ステップと、
前記技術用語分析ステップによって分析した技術用語の上位1番目~上位m番目までの技術用語の存在箇所を解析する技術用語存在箇所解析ステップと、
前記技術用語存在箇所解析ステップによって解析した技術用語の存在箇所が文献のテキストデータ中にどのように分布しているのかを示す技術用語空間分布ベクトルを生成する技術用語空間分布ベクトル生成ステップと、を備え、
前記技術用語空間分布ベクトル生成ステップにより、文献のテキストデータ中に含まれる、前記上位1番目~上位m番目の技術用語の存在箇所に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルをそれぞれ生成し、
文献ごとに生成した前記第1段~第n段のKW空間分布ベクトルと、前記上位1番目~上位m番目の技術用語空間分布ベクトルと、に基づいて、
前記第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴、および、前記第1段~第n段のキーワード群のキーワードと前記上位1番目~上位m番目の技術用語との相互の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定すること、
を特徴とする情報処理方法である。
この構成により、キーワード同士の分布の特徴に加え、文献中に多く存在する技術用語と、キーワードとの位置関係や分布の特徴をさらに評価することにより、キーワードのセットと文献との関連性をより正確に判定できるようになる。
【0034】
第22の発明は、コンピュータシステムにおいて、第19の発明~第21の発明のいずれか1つに記載の情報処理方法を実行するプログラムである。
【発明の効果】
【0035】
本発明によれば、検索キーワードのセットと文献との関連性を判定する情報処理システム、情報処理方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0036】
【
図1】従来の特許等の文献調査スキームと本願発明の文献調査スキームの相違を示す図である。
【
図2】本願発明のシステム構成の一例を示す図である。
【
図4】辞書やアルゴリズムで実現する場合の全体構成の一例を示す図である。
【
図5】所定の検索条件でヒットしたキーワードの文献中の分布の特徴の概要を示す図である。このうち(1)は、キーワードとの関連性が低い特許文献におけるキーワードの分布の特徴を示したものであり、(2)は、キーワードとの関連性が高い特許文献におけるキーワードの分布の特徴を示したものである。
【
図6】本願発明において、第1段~第n段のキーワード群のセットと、文献のテキストデータに基づいて、KW存在箇所解析手段が文献中に含まれるキーワードの存在箇所を解析し、KW空間分布ベクトル生成手段が、文献のテキストデータ中に含まれる、第1段~第n段のキーワード群の各キーワードの存在箇所に基づいて、存在箇所の特徴を表現する素性ベクトル(第1段~第n段のKW空間分布ベクトル等)を、各段のキーワード群ごとにそれぞれ生成する処理の概要の一例を示す図である。
【
図7】本願発明における分類手段(機械学習モデル)の構成の概要の一例を示す図である。
【
図8】本願発明における分類手段(機械学習モデル)がニューラルネットワークで構成される場合において、第1層と第2層の畳み込み処理の一例を示す図である。
【
図9】本願発明における検索キーワードのセットと文献との関連性を判定する処理の全体を示すフローチャートである。
【
図10】本願発明における分類手段における処理のフローチャートであって、分類手段(機械学習モデル)がニューラルネットワークで構成される場合において、第1層と第2層以降の畳み込み処理のフローチャートの一例を示す図である。
【
図11】本願発明における学習用データ(トレーニング用/テスト用)の一例を示す図である。
【
図12】本願発明における学習処理の設定値および分類手段500の構成の設定値の一例である。
【
図13】本願発明における学習処理の設定値および分類手段500の構成の設定値の一例である。
【
図14】本願発明における学習処理の設定値および分類手段500の構成の設定値の一例である。
【
図15】本願発明における検索キーワードのセットと文献との関連性を判定する処理の性能評価の一例であって、分類手段のパラメータ数やラベルと文献データのセットの数や素性ベクトルの種類数によって、関連性の高い上位3%の文献が含まれているスコアの範囲、および工数削減率を示す図である。
【
図16】本願発明における検索キーワードのセットと文献との関連性を判定する処理の評価結果の表示画面または出力結果の一例である。
【発明を実施するための形態】
【0037】
以下、本発明の実施の形態を図に基づいて説明する。
【0038】
本願発明の実施の形態において、文献調査における情報処理装置について説明する。
【0039】
1.本願発明の全体概要について
図2は、本願発明の実施の形態における情報処理装置1000を含むシステム構成の一例である。
図2において、情報処理装置1000と、1または2以上のユーザー端末3000、3100とが、通信ネットワーク2000を介して接続されている。
【0040】
この形態では、情報処理端末1000で、検索キーワードのセットと文献との関連性の判定処理を行い、ユーザー端末3000、3100において、キーワードの入力や判定結果の画面表示等の出力を行う。
通信ネットワーク2000は、有線、または無線の通信回線であり、例えば、WAN(Wide Area Network)などのインターネット、LAN(Local Area Network)、衛星回線、公衆電話回線等である。
【0041】
情報処理装置1000は、サーバーやクラウドのほか、一定の処理能力のあるコンピュータであればよく、デスクトップパソコン、ノートパソコンなどであっても構わない。
また、図示しないが、情報処理装置1000は、データを処理して各種の処理を行うための中央処理装置(CPU)からなる制御手段、プログラムや各種データを記憶したり処理の途中経過を一時を記憶する記憶手段、文献データや検索キーワード、各種の設定値を取得するための入力手段、判定結果を印刷したり表示するための出力手段、通信ネットワークと通信するための通信手段を備えている。
【0042】
そして、記憶手段に記憶したプログラムは、一時記憶手段などにロードされて、中央処理装置がプログラムの各ステップを実行することにより、後述の解析手段300や分類手段500などの各手段を構成する。
なお、
図2では、モニタ装置を備えているが、モニタ装置はあってもなくても構わない。
【0043】
また、ユーザー端末3000、3100は、通信ネットワーク2000に接続可能な端末であれば良い。例えば、ユーザー端末3000、3100は、デスクトップパソコン、ノートパソコン、スマートフォン、またはスマートウォッチ、VRヘッドセットなどの頭部に装着するゴーグルタイプのヘッドアップディスプレイや眼鏡タイプの端末など、各種の携帯情報端末やPDA (Personal Digital Assistant)であっても良い。
【0044】
また、ユーザー端末3000、3100は、制御手段、記憶手段、入力手段、判定結果を表示したり印刷したりするための出力手段などを、必要に応じて選択的に備えている。
なお、上記の説明では、ネットワークで構成されるシステムを例に説明したが、これに限定されるものではなく、例えば、判定処理を行う情報処理装置1000と、入力操作や判定結果の出力を行う端末3000、3100とが一つの情報処理装置1000に集約された、いわゆるスタンドアローン装置の形態であっても構わない。
【0045】
図3を元に、本願発明の検索キーワードのセットと文献との関連性を判定する判定処理および学習処理の概要を説明する。
図3は、本願発明の実施の形態における情報処理装置1000の全体構成の一例を示す図であって、各処理の機能ブロックを示したものである。
本ブロック図の構成のうち、記号100~500までの機能ブロックは、判定処理および学習処理でも共通であり、判定処理では、文献のテキストデータおよび検索キーワードを取得してスコア出力までであるのに対し、学習処理では、スコア出力とラベル(教師データ)との誤差に基づいて分類手段(機械学習モデル)500のパラメータを更新する処理が追加される点で相違する。
【0046】
なお、機械学習モデルの開発に際しては、(1)素材であるデータの、どのような特徴をどのように抽出して、素材の素性をよく表現できるように、素性ベクトル化するかという「素性エンジニアリング(特徴表現エンジニアリングともいう)」の場面と、(2)畳み込み層やプーリング層の配置や、畳み込みフィルタの構成やチャネル数(種類数)および配置、ニューラルネットワークの段数、フィードフォワード・ネットワークか再帰型ニューラルネットワークのいずれを採用するかといった、どのような構造の分類器(機械学習モデル)を構築するかという「機械学習モデルの構造設計」の場面と、(3)どのような学習データと教師データのセットを用意して、どのような単位(ミニバッチサイズ、エポック数、学習率など)で、どのようなアルゴリズム(勾配降下法、誤差逆伝搬法、ドロップアウト等)を利用して学習するかという「学習処理」の場面とがある。
【0047】
<判定処理>
情報処理装置1000は、特許文献や論文、裁判例などの文献のテキストデータ100と、文献データを検索した検索キーワード200を取得する手段を備えている。文献データは、ネットワーク上の各種サーバーやクラウド、あるいは情報処理システム1000やユーザー端末3000、3100の記憶手段に記憶されているものを利用可能である。
検索キーワードは、例えば、第1段目のキーワード群(例えば、メールor通信文)and第2段目のキーワード群(例えば、迷惑orスパム)and第3段目のキーワード群(例えば、フィルタor分離or検出)and第4段の・・・、のように、同義語や類似する概念をひとまとめにした第1段~第n段のキーワード群を掛け合わせる形で、複数段のキーワード群の組み合わせとして取得することができる。
【0048】
次に、解析手段300が、文献のテキストデータ100を単語等の形態素に分解する形態素解析を行うと共に、解析手段300のKW存在箇所解析手段(図示せず)が、取得した第1段~第n段のキーワード群の各キーワードが文献中に存在している箇所をそれぞれ調べ、第1段~第n段のキーワード群ごとに分けて、キーワードの分布状況解析結果を一時保存する。
そして、素性ベクトル生成手段(空間分布ベクトル生成手段)400は、第1段~第n段のキーワード群ごとにそれぞれ分けて記録したキーワードの分布状況解析結果に基づいて、第1段~第n段のキーワード群ごとに分けて、キーワードの存在箇所や分布の特徴をベクトル化した、各段のキーワードの空間分布ベクトルを、各段ごとに分けてそれぞれ生成する。
なお、素性ベクトル(空間分布ベクトル)とは、文献中の(検索)キーワードやキーワードの係り受け語又は技術用語などの単語の存在箇所や分布の特徴を示すベクトル化された指標をいう。
このため、文献中の(検索)キーワードの存在箇所や分布の特徴を示す場合に「KW空間分布ベクトル」と呼び、キーワードの係り受け語の場合に「KW係受語空間分布ベクトル」、技術用語の場合に「技術用語空間分布ベクトル」と呼ぶこととする。
同様に、素性ベクトル生成手段(空間分布ベクトル生成手段)400は、キーワードの場合に「KW空間分布ベクトル生成手段」、キーワードの係り受け語の場合に「KW係受語空間分布ベクトル生成手段」、技術用語の場合を「技術用語空間分布ベクトル生成手段」と呼ぶこととする。
【0049】
具体的には、素性ベクトル生成手段(KW空間分布ベクトル生成手段)400は、まず、第1段のキーワード群(例えば、メールor通信文)の各キーワードの分布状況解析結果に基づいて、文献中の第1段のキーワード群の各キーワードの存在箇所が、文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成する。
【0050】
次いで、第2段のキーワード群の各キーワードの分布状況解析結果に基づいて、文献中の第2段のキーワード群(例えば、「迷惑orスパム」)の各キーワードの存在箇所が、文献のテキストデータ中にどのように分布しているのかを示すKW空間分布ベクトルを生成する。
以下、同様に、第n段のキーワード群ごとに分けて、各段のKW空間分布ベクトルをそれぞれ生成する。
【0051】
ここで、第1段~第n段のキーワード群ごとに分けて、各段のキーワード空間分布ベクトルをそれぞれ生成するのは、従来技術のように全ての段のキーワードのヒット箇所を含んだ文献ベクトルを作成してしまうと、各段のキーワード同士の近傍の位置関係や分布の特徴をうまく拾い上げることができないので、あえて、各段のキーワード群ごとに、キーワードの存在箇所をベクトル化する趣旨である。なお、キーワード同士が近傍の位置関係にある場合とは、例えば、キーワード同士が同じ段落の中で数単語程度離れている場合や、キーワード同士が前後の段落など段落同士が近接している場合などをいう。
【0052】
より具体的には、第1段のキーワード群(例えば「メールor通信文」)の各キーワードの分布状況を示す第1段のKW空間分布ベクトル、第2段のキーワード群(例えば「迷惑orスパム」)の各キーワードの分布状況を示す第2段のKW空間分布ベクトル、・・・第n段のキーワード群(例えば「フィルタor分離or検出」)の各キーワードの分布状況を示す第n段のKW空間分布ベクトル、のように、各段のキーワード群ごとに分けて、各段のキーワード空間分布ベクトルをそれぞれ生成する。
【0053】
そのうえで、各段のキーワード空間分布ベクトルを所定の畳み込みフィルタで畳み込み処理したり、畳み込み結果を合成することにより、第1段~第n段のキーワード群のキーワード相互の位置関係や分布の特徴、および、それらの特徴を多面的に組み合わせた高次の特徴を順次評価できるニューラルネットワークで構成される分類手段500を構築することができる。
分類手段500は、文献のテキストデータと検索キーワードに基づいて文献ごとに生成したKW空間分布ベクトル、に基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を評価して、検索キーワードのセットと文献との関連性を判定する。
【0054】
<学習処理>
学習が進む前の分類手段500は、十分な精度で判定することができないため、学習処理手段600によって、学習処理(機械学習)を行う。
なお、機械学習とは、データの変化に応じて、分類するためのラインを数学的な処理で求めることをいう。分類するためのラインは、データとの誤差が最小になるように決定(学習)するが、このときに使う関数として、二乗平均などがあり、機械学習では、誤差関数とか損失関数と呼ぶ。機械学習モデルとして(ディープ)ニューラルネットワークを選択した場合、畳み込みフィルタの重みなどのパラメータを、誤差関数が最小になるように更新していく処理を機械学習(トレーニング)という。
【0055】
学習処理手段600は、分類手段500が出力した、検索キーワードのセットと文献との関連性のスコア値と、取得した教師データであるラベル値との誤差に基づいて、勾配降下法、誤差逆伝搬法などの手法に基づいて、分類手段500のパラメータを更新することで学習処理を行う。
より具体的には、学習処理は、
図11に示すような学習用データのセット(DATA1のキーワードのセット、文献1~j、DATA2のキーワードのセットおよび文献1~k)を、情報処理システム1000に入力して、分類手段500の出力したスコア値と、ラベル値(教師データ)との誤差に基づいて、分類手段500のパラメータを更新することで行う。
学習処理は、
図12~
図14のように、一定のまとまった単位で(ミニバッチサイズなど)、パラメータを更新する度合いを定めて(学習率)、所定の回数(エポック数)だけ行う。
なお、学習処理においては、分類手段500の汎化性能やロバスト性能を向上させたり、偏りのある過学習を防ぐためにドロップアウト法を適宜用いて行う。
学習が十分に進んだ分類手段500は、文献のテキストデータと検索キーワードに基づいて文献ごとに生成したKW空間分布ベクトル、に基づいて、第1段~第n段のキーワード群のキーワード相互間の位置関係や分布の特徴を精度よく評価して、検索キーワードのセットと文献との関連性を、一定の精度で判定することができるようになる。
なお、十分な学習(トレーニング)を経た後の分類手段(機械学習モデル)500を「学習済み機械学習モデル」と呼ぶ。
【0056】
なお、検索キーワードのセットと文献との関連性の判定処理は、機械学習をベースとした分類手段500や学習処理手段600で実行するほか、例えば、
図4に示すように、評価用辞書800および、アルゴリズムをベースにした評価処理手段800によっても実現することができる。
この場合、文献のテキストデータ100と検索キーワード200に基づいて、解析手段300が、形態素解析とキーワード分布状況の解析をおこない、素性ベクトル生成手段400がKW空間分布ベクトルを生成するところまでは同じ処理をおこなう。
その後、評価処理手段700が、第1段~第n段のKW空間分布ベクトルどうしの類似度を、数学的距離(ユークリッド距離や内積)、コサイン類似度などに基づいて、検索キーワードのセットと文献との関連性を評価することができる。
【0057】
この態様においても、複数のキーワードの分布状況を含む文献全体の特徴ベクトルを生成して、他の文献の特徴ベクトルと類似度を比較する従来の方式に対し、第1キーワードと第3キーワードの結びつきの評価とか、第2キーワードと第3キーワードの結びつきの評価など、局所的なキーワードの分布の状況も含めて、文献の特徴ベクトルの類似度を評価することができるので、評価の精度を向上させることが可能となる。
【0058】
また、評価用辞書800には、第1キーワードと第2キーワードの数学的距離や第2キーワードと第3キーワードの数学的距離、・・・等がどのような場合に調査対象技術と関連性が高いと判定できるかの指標や、キーワードの分布がどのようになっている場合に類似度が高いかを判定するための指標や、キーワードの分布する範囲が特許文献等のどの項目(課題、解決手段、実施例、効果など)に該当するか、などが記録されている。
【0059】
もっとも、評価用辞書に登録するこれらの指標は、人手で調査結果を多面的に大量に分析したうえで、試行錯誤を経て、ようやくたどり着いた指標として辞書に登録することになるので、多くの工数が掛かるほか、多くのノウハウを必要とする。
これに対し、分類手段500として、機械学習モデルを利用すれば、文献を調査した結果と、その中で関連性に関する正解値(ラベル)を、大量に学習しさえすればよいので、開発工数を低減できるというメリットがある。
【0060】
2.文献調査システムの構築の前提としてのキーワード分布の特徴の分析
図5は、キーワードを設定して、ヒットした文献を調査する際の、キーワードの文献中の分布の特徴を示すものであり、文献調査におけるサーチャーの脳内の思考過程を分析した図である。
このうち(1)は、キーワードとの関連性が低い特許文献におけるキーワードの分布の特徴を示したものであり、(2)は、キーワードとの関連性が高い特許文献におけるキーワードの分布の特徴を示したものである。
なお、できれば、3段以上のキーワードで分析した結果で説明するほうが正確ではあるが、説明の簡便のため、2段のキーワードで分析した結果を用いて説明する。
【0061】
まず、
図5(1)についてみてみると、サーチャーが確認して、キーワードとの関連性が低いと判断した特許文献のキーワード分布の特徴として、同じ項目(例えば「特許請求の範囲」)において、第1段のキーワード(例えば「〇△計算」)と第2段のキーワード(例えば「従業員」)とがセットでヒットしていないという特徴がある。
また、キーワードが文献全体の一部に、しかも、少数ずつしかヒットしていないという特徴がある。
また、比較的重要な課題や解決手段などの項目においてキーワードがヒットしていないという特徴がある。
さらに、〇△計算という技術用語とは異なる、別の技術用語(経費精算)が全体に頻出するという特徴があることがわかる。
【0062】
他方、
図5(2)についてみると、サーチャーが確認して、キーワードとの関連性が高いと判断した特許文献のキーワード分布の特徴として、同じ項目(例えば「課題の解決手段」)において、第1段のキーワード(例えば「〇△計算」)と第2段のキーワード(例えば「従業員」)とがセットでヒットしているという特徴がある。
【0063】
また、他の項目でも、第1段のキーワードと第2段のキーワードとがセットで複数ヒットしているという特徴があることがわかる。
また、第1段のキーワードと第2段のキーワードとがセットでヒットしている箇所がどれも距離が近いという特徴もある。
また、各キーワードがセットで、文献全体に幅広く存在しているという特徴があることがわかる。
なお、図示しないが、あるキーワードが多数ヒットしていても、もう一方のキーワードがほとんどヒットしていない場合には、関連性を低く評価できる特徴になる。
【0064】
さらに、図示はしないが、第3キーワード、第4キーワード、・・・とキーワードの段数が多い場合には、それぞれの段のキーワード同士の組み合わせが多数考えられ、それらの各段と各段のキーワード同士の相互の位置関係や分布の特徴を多数把握できることになる。
より具体的には、例えば、ある段とある段のキーワードのペアがセットで、文献の所定の範囲で局所的に存在したり、文献全体に渡って、ある段とある段のキーワードのペアがセットで存在しているなどの特徴を把握して、キーワードのセットと文献との関連性、すなわち調査対象技術と文献との関連性を評価できることになる。
なお、人手による場合は、かなり離れた場所にあるキーワード同士の位置関係や分布の特徴を認識して分析することは通常行えないが、本願発明の空間分布ベクトルと機械学習を利用した情報処理システムによれば、キーワード同士の局所的ないし広範な範囲の分布の特徴など、多面的な位置関係や分布の特徴を分析して、関連性を評価できる。
【0065】
以上のように、キーワードのセットと文献との関連性(すなわち調査対象技術と文献との関連性)を評価するためには、各段のキーワードの存在箇所や分布の特徴を、各段のキーワードごとに分けてベクトル化することが有効であることがわかる。分けてベクトル化することで、各段の素性ベクトルどうしの局所的な位置関係や分布の特徴および、全体的な分布の特徴を、多面的に分析して評価することが可能となるからである。
このような文献調査におけるサーチャーの脳の思考過程に関する分析結果をベースに、以下、どのような素性ベクトルを策定すればよいか検討する。
【0066】
3.本願発明の素性ベクトルの生成と引き続く機械学習モデルの関係について
素性ベクトルの策定にあたっては、素性ベクトルを入力して分類を行う分類手段(機械学習モデル)の構造と併せて考えるのが合理的である。
そこで、機械学習モデルとして、例えば、一例として、ニューラルネットワーク(ディープニューラルネットワークを含む)の構造を念頭に置いて検討してみる。
ニューラルネットワークでは、複数枚の素性ベクトルの入力に対し、畳み込みフィルタによる畳み込み処理により、当該素性ベクトルの内部的な特徴や、複数の素性ベクトル同士の特徴を抽出して特徴マップ化していくことに着目できる。
【0067】
具体的には、入力層に近い層では、素性ベクトル単独もしくは素性ベクトル同士の局所的な特徴マップが生成され、層が進むにつれ、やや範囲を広げた特徴の抽出や、特徴同士を組み合わせた高次マップが次第に形成され、最終的に、局所的な特徴や、やや広い範囲の特徴の組み合わせ、それらを総合した全体的な特徴に基づいて判定結果を出力するという処理を行う点に着目できる。
【0068】
また、ニューラルネットワークでは、物体認識などで成果を上げているように、入力ベクトルとして画像データとの相性が良いことが知られていることに着目できる。
そしてこの点は、文献調査においても、左脳の論理把握機能を活かして文章を読み込むという側面もあるが、むしろ、ベテランになると、意識的ないし無意識に右脳を使って、ある種の画像処理的にキーワード相互の位置関係や分布の特徴を把握して(ある種のイメージ把握)、キーワードと文献との関連性を評価するので、キーワード相互の位置関係や分布の特徴を画像処理的に評価することが有効であると推察される。
【0069】
なお、機械学習モデルの構造の検討では、主にニューラルネットワークないしディープニューラルネットワークを例に挙げて説明したが、これに限られるわけではなく、ベクトルデータを取り扱う機械学習モデルであれば何でもよく、例えば、教師データあり学習の機械学習モデルとしては、SVM(サポートベクターマシン)、ロジスティック回帰モデル、ベイズ、教師データ無しの機械学習モデルとしては、クラスタリング、K平均法などを選択することもできる。
【0070】
ここで、前述の
図5のキーワード分布の特徴の分析において検討した、文献調査におけるサーチャーの脳の思考過程に関する分析と、各種の機械学習モデルでベクトルデータを入力して取り扱う態様について検討した結果によれば、本願発明の検索キーワードのセットと文献との関連性を判定する際に、文献中に存在する各段のキーワードの存在箇所や分布の特徴をよく表現しつつ、後の機械学習モデルで、所定の段のキーワードと別の段のキーワード同士の位置関係や分布の特徴を評価できるようにするには、各段のキーワードごとに分けて、個別にベクトル化するのが合理的であると考えるに至った。
【0071】
より詳細には、第1段のキーワード群(例えば、〇△処理、〇〇処理)の各キーワードが文献中に存在する箇所をベクトル化し、第2段のキーワード群(例えば、従業員、従業者、社員)の各キーワードが文献中に存在する箇所をベクトル化し、第3段のキーワード群(例えば、査定評価、成績評価)の各キーワードが文献中に存在する箇所をベクトル化し、第4段のキーワード群の・・・のように、各段のキーワードごとに分けて、個別にベクトル化するのが合理的である。
【0072】
また、必須ではないが、例えば、機械学習モデルとしてニューラルネットワークを用いる場合には、ベクトル化する際に、キーワードの存在箇所や分布の特徴を、前述のサーチャーの右脳によるイメージ把握のように、あたかも画像データであるかのようにして取り扱うことが有効であり、縦と横方向の画像データのようなベクトルデータを生成してもよい。
【0073】
4.素性ベクトルの生成処理について
4-1.KW空間分布ベクトルの生成について
次に、
図6に基づいて、素性ベクトル(KW空間分布ベクトル)の生成処理について説明する。
まず、前提として、キーワードは、第1段のキーワード群(例えば「〇△処理、・・・」)と、第2段のキーワード群(例えば「従業員、従業者、社員、・・・」)、第3段のキーワード群(例えば「査定評価、成績評価、・・・」)、第4段・・・、のように、少なくとも2段以上の複数段で構成されていることが望ましいが、これに限定されない。
なお、何段目であるかは、任意に選択でき、どのキーワード群が何段目であるかは、判定性能に影響を与えない。
【0074】
そして、検索条件が、(第1段のキーワード群)AND(第2段のキーワード群)AND(第3のキーワード群)AND・・・のように策定して、この検索条件で、所定の数の文献がヒットしたものを、記憶部に保存している場合を想定する。
また、例えば、第2段のキーワード群(例えば、従業員、従業者、社員)は、似たような概念の類義語で構成されていることが望ましいがこれに限定されない。
ここで、(従業員、従業者、社員)は、(従業員or従業者or社員or)のように、OR条件のセットであることを示している。
なお、別途、類義語の辞書を作成しておき、サーチャーが設定したキーワードに対し、類義語を提示して選択させたり、自動で類義語を、所定の段のキーワード群に加えるようにしてもよい。
【0075】
なお、ある検索条件(キーワードのセット)でヒットした文献について、本願の情報処理システムを用いて、同じ検索条件(キーワードのセット)で関連性を判定する用途が多いことを想定しているので、文献を収集するための検索条件のキーワードのセットと、検索キーワードのセットと文献との関連性を判定するための検索キーワードのセットとが、同じであることが望ましいが、これに限定されず、異なっていても構わない。
本願発明によれば、複数段のキーワードが文献中にどのように分布しているかに基づいて、文献との関連性を判断しているので、所定の文献の集合に対し、所定の検索キーワードのセットを設定し、設定したキーワードのセットと文献との関連性を判断することができるからである。
【0076】
まず、情報処理システムの入力手段が、文献のテキストデータ100と検索キーワード200を取得して、解析手段300が形態素解析を行い、設定したキーワードが文献中に存在している箇所を解析し、文献の項目名や段落情報に基づいて、項目ごとないし段落ごとに、キーワード分布状況解析結果を一時記録する(→
図6の吹き出しの処理1)。
【0077】
次に、素性ベクトル生成手段400が、項目ごとないし段落ごとに纏められたキーワード分布状況解析結果に基づいて、段落ごとに、何単語目であるかを考慮しながら、キーワードの分布状況をベクトル化していく(→
図6の吹き出しの処理2)。
より具体的には、
図6中央から右側に示すように、例えば、「3段落目」に、第2段のキーワード群の「従業員」のキーワードが、段落の先頭から「6単語目」に存在しているので、
図6の右側のCH2(第2KW空間分布ベクトル)の上から「3行目(3段落目に対応)」の「6列目(6単語目に対応)」の箇所のビットを1にする、という工程でベクトル化していく。
【0078】
同様に、例えば、「4段落目」に、第2段のキーワード群の「従業者」のキーワードが、段落の先頭から「9単語目」に存在しているので、
図6の右側のCH2(第2KW空間分布ベクトル)の上から「4行目(4段落目に対応)」の「9列目(9単語目に対応)」の箇所のビットを1にする、という工程でベクトル化していく。
【0079】
なお、第2段のキーワード群では、「従業員」と「従業者」の異なる2つのキーワードがヒットしているが、いずれも第2段目のキーワードであるので、同じ2段目のKW空間分布ベクトルの要素として取り扱っている。
こうして、CH2(第2段目)のキーワードの、第2KW空間分布ベクトルを生成することができる。
同様に、第1段~第n段のKW空間分布ベクトルをそれぞれ生成する(→
図6の吹き出しの処理3)。
【0080】
なお、特許や論文、裁判例等の文献は、文章の長さや単語の数もバラバラであるので、同じ次元数のベクトルにするために、適宜、正規化することが望ましい。
図6では、図の作成の便宜のために、横20(20単語分に相当)×縦100(100段落分に相当)の2000次元のベクトルとしたが、あくまで、一例であって、様々な次元に設定することができる。
特許文献の場合、1~3万文字程度の文章であることが多いので、例えば、各段落の単語数60単語(1単語平均で3文字程度×60単語=約200文字)、段落数で100段落程度に正規化することができるが、他の次元数であっても構わない。
【0081】
なお、KW空間分布ベクトルと呼んだのは、例えば、
図6の右側のように、画像データのように縦横のマス目のベクトルデータとした場合、キーワードの存在箇所や分布の特徴が空間に分布しているように見えることによるものである。
この場合、機械学習モデルとして、畳み込みニューラルネットワークを選択した場合に、畳み込みフィルタの畳み込み処理(行列演算)との親和性が高いというメリットがある。
また、学習処理を、畳み込みフィルタのパラメータを学習することに置き換えることができ、全結合のニューラルネットワークの対概念である、いわゆる疎結合となり、学習データ数の削減や、ロバスト性能、汎化性能を向上させることができるというメリットがある。
そして、複数種類の畳み込みフィルタを用意することで多様なキーワード相互間の位置関係や分布の特徴を抽出して評価できるというメリットもある。
【0082】
すなわち、各段のキーワード同士が、ある段落内に存在する場合と、ある段落とその前後の段落に存在する場合には、キーワード同士がある文脈で関連性をもっていることが多いので(つまりキーワードと文献の関連性が高いことを示す指標となるので)、縦方向と横方向の格子状にベクトル化することで、格子状の畳み込みフィルタを用いて畳み込み処理を行ったときに、キーワード同士の位置関係や分布の特徴を効率よく抽出することが期待できる。
【0083】
また、第1段と第3段のKW空間分布ベクトルの関係を評価したり、第1段と第3段、あるいは第2段と第3段のKW空間分布ベクトルの関係を個別に評価したり、それらの評価の組み合わせを評価したり、あるいは第1段~第n段のKW空間分布ベクトルの関係を総合的に評価するなど、個別的、総合的な判断ができるようになるメリットがある。
そして、畳み込みニューラルネットワークのような機械学習モデルと組み合わせた場合、入力層に近い層では、各段のKW空間分布ベクトル同士の近傍の分布の特徴などの局所的な特徴を抽出し、層が進むにつれ次第にそれらを組み合わせた総合的な特徴を抽出できるようになる。
なお、素性ベクトルは行と列(縦と横)のマス目で構成される画像データ様のベクトルでなくてもよく、キーワードの存在箇所を、単に(0、0、1、0、0、・・・)と0と1のビットで表現する態様であっても構わない。
なお、キーワードが、文献のどの項目の箇所に存在しているかは、先述のように項目によって重要度が異なることから(例えば、特許文献では解決手段や効果の項目は重要項目である等)、このような情報も含めて、ベクトル化することで、評価の精度向上に貢献することになる。
この点、例えば特許文献の場合、項目名とその順序が定められていることに着目できる。すなわち、本願発明の素性ベクトル(空間分布ベクトル)では、段落順にベクトル化されているので、特許文献の項目の位置関係や順番などの情報も含めてベクトル化されていることになり、評価の精度向上に貢献できることになる。
【0084】
4-2.KW係受語空間分布ベクトルの生成について
次に、素性ベクトル(KW係受語空間分布ベクトル)の生成処理について説明する。
解析手段300は、形態素解析を行って文を単語に分かち書きするとともに、名詞や格助詞、助詞、助動詞、動詞、形容詞、形容名詞などの解析を行い、自立語(名詞、動詞、形容詞など)と付属語(助詞、助動詞)からなる文節という単位に分解する。そして、文節が組み合わさって修飾と修飾節の関係(係り受け)の解析を行う。
このような形態素解析、構文解析、係り受け解析を行った結果をもとに、文献のテキストデータからは、前述のKW空間分布ベクトルだけでなく、キーワードの係り受け語の位置や分布を示すKW係受語空間分布ベクトルを生成することもできる。
例えば、予め、否定的な係り受け語として「~ではない」、「とはいえない」、「必ずしも~」などの係り受け語や、積極的に肯定したり強調する係り受け語として「~が効果的である」、「一層~」、「特に」、「大いに」などの形容詞や形容名詞などを係り受け語を辞書に記録しておき、解析手段300が、これらの係り受け語を検出したときに、その分布状況を、キーワードと対になる形で、第n段のKW空間分布ベクトルと対にしてKW係受語空間分布ベクトルを生成して利用してもよい。
キーワードを否定する方向の係り受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として低く評価する方向で作用し、キーワードを積極的に肯定したり強調する受け語がある場合、キーワードの存在箇所や分布の特徴は、特徴として強く評価する方向で作用させることができる。
そこで、肯定的な係り受け語と、否定的な係り受け語などについて、係り受け語の分布状況を空間分布ベクトルとして生成し、KW空間分布ベクトルと併せて、分類手段500に入力することで、係り受け語の存在箇所や分布の状況と、キーワードの存在箇所や分布の状況を、相互に連関させて評価して、キーワードのセットと文献との関連性の判定の精度を向上させることとした。なお、肯定的な係り受け語と、否定的な係り受け語の両方をベクトル化しなくてもよく、たとえば、肯定的な係り受け語だけを空間分布ベクトル化してもよい。
【0085】
4-3.技術用語空間分布ベクトルの生成について
次に、素性ベクトル(技術用語空間分布ベクトル)の生成処理について説明する。
解析手段300が、形態素解析を行って文を単語に分かち書きするとともに、名詞や格助詞、助詞、助動詞、動詞、形容詞、形容名詞などの解析を行い、文献中の技術用語などの単語(名詞)を検出して、発生頻度順にソートすることで、発生頻度の高い順に、それぞれの単語の存在箇所や分布状況に基づいて、上位1番目~上位m番目の技術用語空間分布ベクトルを生成して利用してもよい。
例えば、
図5(1)に示すように、文献中には「経費精算」や「振り込み」という単語が多く含まれているが、このような単語を検出して、頻度順に並べ替える。
なお、特許文献や論文は、一般的に、技術に関する記載が多く、便宜上、このような単語を「技術用語」と呼ぶことにするが、裁判例や契約書などの法律文書の場合、「法律用語」や「人の行為に関する用語」などの単語を含むので、「技術用語」には、「法律用語」などを含んでいても構わない。
【0086】
図5(1)では、例えば、文献中の技術用語である「経費精算」という単語の出現度数が第1番目に高く、その回数が9回であり、「振り込み」という単語の出現度数が第2番目に高く、その回数が5回となっている。
他方、検索用のキーワードの「〇△計算」の単語の出現度数が1、「従業員」の単語の出現度数が1と、大きく相違しており、このような場合には、キーワードのセットと文献との関連性が低いことを推認させる情報として利用することができる。
また、
図5(2)では、文献中の技術用語である「〇△計算」の単語の出現度数が第1番目に高く、その回数が13回であり、「従業員」の単語の出現度数が第2番目に高く、その回数が10回と、上位を占めている。他方、検索用のキーワードには「〇△計算」と「従業員」が含まれており、技術用語の出現頻度とキーワードのセットの出現頻度の相関が高く、キーワードのセットと文献との関連性が高いことを推認させる情報として利用することができる。
そこで、技術用語の分布状況を空間分布ベクトルとして生成し、KW空間分布ベクトルと併せて、分類手段500に入力することで、技術用語の存在箇所や分布の状況と、キーワードの存在箇所や分布の状況を、相互に連関させて評価して、キーワードのセットと文献との関連性の判定の精度を向上させることとした。
【0087】
5.分類手段(機械学習モデル)の構成について
次に、分類手段(機械学習モデル)500の構成の一例について説明する。
図7は、機械学習モデルとして、中間層が2層以上のディープニューラルネットワーク(DNN)を採用した場合の一構成例である。
分類手段(機械学習モデル)500は、特徴抽出を行うための第1層~第J層と、中間層で抽出した特徴に基づいて総合的に分類(判定)を行うための第X層で構成されている。
【0088】
第1層と第2層、第2層と第3層、・・・と第X層の各層間は、畳み込みフィルタによる畳み込み処理および伝達関数を介して接続されている。
伝達関数は活性化関数とも呼ばれるが、非線形のシグモイド関数のほか、線形のReLU(ランプ関数)を用いることで逆方向伝搬の学習処理における勾配消失問題を回避するようにしてもよい。
なお、図示はしないが、畳み込み層において、畳み込み結果をさらに抽象化するためのプーリング処理を行うプーリング層を設けてもよい。
プーリング処理により、キーワード相互間の位置関係のズレの影響を少なくすることができるからである。
【0089】
畳み込みフィルタは、第1層と第2層の間、第2層と第3層の間、第3層と第4層の間、第(n-1)層と第n層との間で、それぞれ異なるサイズのものを採用することができる。
第1層と第2層の間の畳み込みフィルタ(α×α)は、例えば、5×5のサイズでやや広めの範囲のキーワード間の位置関係や分布の特徴を抽出し、第2層と第3層の間の畳み込みフィルタ(β×β)は、1層目で抽出した特徴のうち所定の範囲内の特徴どうしを複数組み合わせた特徴を抽出するので、少しサイズを小さくして4×4ないし3×3とすることができる。もちろん、これ以外のサイズでも構わない。
また、表記の都合により、順次、各層間でβ×βを表記しているが、各層間で異なるサイズを取っても構わない。
畳み込みフィルタの種類数も目標性能に応じて決定することができ、図では一例として20種類としているが、例えば16~32種類程度の種類数にすることで十分な性能が得られるが、これに限定されない。
【0090】
最後の第X層は、例えば、1×1サイズの畳み込みフィルタによる畳み込み層として、これまでの層で生成した特徴マップから総合的な判定を行う層であり、最終的には、ソフトマックス関数などにより確率分布に変換して、文献がキーワードのセットと関連する確率、すなわち文献が調査対象技術と関連する確率を出力する。
説明の簡便のため、例えば、キーワードが3段で構成された場合を例にすると、入力が第1段~第3段のKW空間分布ベクトルの3CHで構成されることになる。
そして、仮に20種類の畳み込みフィルタ数とした場合は、第1層の畳み込み処理で3CH分の畳み込み処理の結果が1枚に合成され、それが20種類分生成されるので、第2層では20枚の畳み込み結果を元に畳み込み処理が行われ、第1段から第3段のキーワードの近傍のヒット箇所の位置関係や分布の特徴を抽出して、近傍の分布の特徴マップを生成する(
図7の吹き出しのステップ1~ステップ2)。
【0091】
第2層では、例えば20種類の畳み込みフィルタを設けた場合、前段の畳み込み結果20枚に対し、20枚で1セットの畳み込みフィルタにより、それぞれ畳み込み処理を行い、その結果を1枚に合成し、それが20種類分生成されるので、次段には20枚の畳み込み結果が生成され、やや離れたキーワードのヒット箇所や分布の特徴の組み合わせなど、前段で生成した特徴同士を複合的に組み合わせた特徴マップを生成する(
図7の吹き出しのステップ3)。
以下順次、同様の処理を各層で行い、層が進むにつれ、局所的な特徴やそれらを複合的に組み合わせた特徴などを含む、より総合的な高次の特徴マップを生成されていき(
図7の吹き出しのステップ4)、最終的な判定結果を出力する。
【0092】
6.特徴マップ形成に関する畳み込み処理について
図8は、第1層で行われる畳み込み処理の詳細を図示したものである。
まず、判定処理を行う際の順方向の伝搬を主に説明し、学習する際の逆方向の伝搬も併せて以下説明する。
6-1.順方向伝搬の処理である判定結果(スコア)の出力処理
第1~第3の3CH分のKW空間分布ベクトルに対し、3CH分の畳み込みフィルタが定義され、各CHに対し、それぞれ畳み込み処理が行われる(
図8の吹き出しの処理1)。
なお、畳み込み処理は、文献データから生成したKW空間分布ベクトルの各要素に対し、畳み込みフィルタを適宜ストライドさせながら、畳み込みフィルタの数値(パラメータ)を行列演算することで行う。畳み込み処理に際しては、適宜、外側を0で埋めて次段の次元数が前段と変化しないようにするパディング処理を行ってもよい。
また、畳み込みフィルタの適用間隔(ストライド)は、1~2程度を採用することができるが、これに限定されない。
【0093】
そして、3CH分の畳み込み処理の結果は1枚に合成される。合成処理は、それぞれの畳み込み結果の単純加算又は単純平均あるいは加重平均、などを選択可能であり、適宜、バイアスを付加して所定の伝達関数を介して出力した結果を利用することができる。
これにより、例えば、CH1のKW空間分布ベクトルに対してCH1用の畳み込みフィルタで畳み込み処理を行っている段階では、形式上、CH1の第1段のキーワード同士の位置関係や分布の特徴を抽出するに留まることになるが、CH1~CH3の第1段~第3段のKW空間分布ベクトルの畳み込み結果を合成することにより、各CH用の畳み込みフィルタを連動して移動させながら畳み込み処理を行ったことと等価になる(
図8の吹き出しの処理2)。
【0094】
換言すると、以上の処理により、第1~第3キーワードの相互の位置関係や分布の特徴を畳み込みフィルタで抽出することと等価になり(
図8の吹き出しの説明1)、以上の処理をベースに後述するような学習処理を行なえば、CH1~CH3のフィルタのパラメータをセットで学習することになり、第1~第3のキーワードの相互の(やや近傍の)位置関係の特徴を拾い上げる畳み込みフィルタとして機能させることが可能になる(
図8の説明2)。
そして、合成結果は、第1段~第3段のキーワード同士の相互の(やや近傍の)位置関係や分布の特徴を抽出した特徴マップとみることができる(
図8の吹き出しの説明3)。
【0095】
以降、畳み込みフィルタの種類を変えて、3CH分で1セット×20種類分の畳み込み処理の合成結果が20枚生成、キーワード同士の様々なパターンの位置関係や分布の特徴を抽出できる特徴マップが複数生成される。
また、図示しないが、第2層以降の畳み込み処理も同様に行われ、局所的ないしそれらを複数組み合わせた多面的な高次の特徴マップが大量に生成されていき、最終層の出力段で、判定結果を生成し、キーワードのセットと文献との関連性の指標であるスコア値を出力する。
以上が、スコア値を出力するまでの順方向伝搬の判定処理である。
【0096】
6-2.逆方向伝搬の学習処理
学習処理の場合もスコア値を出力するところまでは同様であるが、パラメータの更新処理が追加される。パラメータの更新処理は、分類手段の機械学習モデルがニューラルネットワークの場合には、畳み込みフィルタの重み等のパラメータの更新になる。
学習処理手段600は、バッチサイズと呼ばれる一定の数の学習データ(文献データ)毎に、所定の学習率を掛けて、出力結果のスコア値と正解値であるラベル値(教師データ)との誤差に基づいて、分類手段500のパラメータ更新していく。この1回の学習処理をミニバッチと呼び、全ての学習データの学習処理が終えるまでの回数分繰り返す。ここまでの学習処理の単位を1エポックと呼び、学習率を適宜調整しながら、数十から数百回のエポック数だけ繰り返して学習処理を行う(
図12~
図14参照)。
このような学習処理の結果、各段のキーワード同士がどのような位置関係や分布をしている場合に、各段のキーワードのセットと文献との関連性が高いかの判定を正確に行えるような分類手段(学習済みの機械学習モデル)を生成することができる。
【0097】
以上のように、本願発明によれば、文献のカテゴリや検索条件に関わらず、キーワードのセットと文献との関連性が高い場合ないし低い場合には、第1段~第n段のキーワードの相互の位置関係や分布の特徴は一定の傾向を示すという性質を利用して生成した素性ベクトル(空間分布ベクトル)をので、特許文献、論文、裁判例などの文献のカテゴリや、それぞれの技術分類を問わず、キーワードのセットと文献との関連性が高いかの判定を正確に行うことが可能となる。
【0098】
7.全体の処理フローについて
図9は、本願発明の処理の全体フローである。
まず、情報処理システム1000の入力手段は、第1段~第n段のキーワード群の各キーワードをそれぞれ設定した内容を取得する(ステップS1)。
また、入力手段は、所定の検索キーワードによる検索条件でヒットした文献のテキストデータを1件分読み込む(ステップS2)。文献のテキストデータは文献をスキャナでスキャンしたり、写真で撮影した画像データを文字認識した結果であってもよい。
解析手段300は、文献のテキストデータを形態素解析して(ステップS3)、取得した第1段~第n段のキーワード群の各キーワードの存在箇所や分布状況を解析する(ステップS4)。
【0099】
そして、素性ベクトル生成手段400は、解析した結果に基づいて、第1段~第n段のキーワード群ごとに、素性ベクトル(KW空間分布ベクトル)をそれぞれ生成する(ステップS5)。
生成した素性ベクトル(KW空間分布ベクトル)は分類手段(機械学習モデル)500に入力され(ステップS6)、分類手段(機械学習モデル)500は、キーワードのセットと文献との関連性、すなわち調査対象技術との関連性についての評価結果を出力する(ステップS7)。
以上を、全ての文献について繰り返し(ステップS8のNO)、全ての文献について終了すると(ステップS8のYES)、評価結果をスコア順にソートして出力する(ステップS9、S10)。
なお、学習処理は図示しないが、分類手段(機械学習モデル)500が順方向伝搬で出力した評価結果のスコア値と、ラベル(教師データ)との差分を逆方向に伝搬させ、例えば、ニューラルネットワークの場合には誤差逆伝搬法や勾配効果法などによって、ニューラルネットワークの重みやバイアスなどのパラメータを更新することで行う。
【0100】
図10は、分類手段(機械学習モデル)500における第1層~第2層の畳み込み処理の詳細を示すフローチャートである。
まず、処理対象のチャンネル(CH)と、当該CH用の特徴抽出用の畳み込みフィルタをセットする(ステップP1)。
入力データである当該CHのKW空間分布ベクトルに対し、畳み込みフィルタをずらしながら畳み込み処理を行う(ステップP2)(
図8の吹き出しの処理1を参照)。
ここで、畳み込みフィルタをずらす間隔(ストライド)については、通常1をセットするが、学習データ量との関係で多少変えることができ、学習データが十分にないときは大きめに(例えば2)設定しても構わない。
畳み込み結果を保存し(ステップP3)、全てのCHについて同様の畳み込み処理を行う(ステップP4)。
【0101】
次に、CH1~CHnの畳み込み処理の結果を合成して、1枚の畳み込み結果を作成する(ステップP5)。
なお、この畳み込み結果の合成値は、第1段~第n段のキーワード同士の位置関係や分布の特徴マップとなっている。
そして、畳み込みフィルタの種類を更新して、同様の畳み込み処理と合成処理を行う(ステップP6~P7)。
例えば、20種類の畳み込みフィルタを用意した場合、20枚の畳み込み結果の合成結果を得る(ステップP8)。
この20枚の畳み込み結果の合成結果は、学習処理を経た後に、第1段~第n段のキーワード同士の位置関係や分布の特徴マップを20種類用意したことになり、2層目以降で、位置関係と分布の特徴を多面的に評価する基礎となる。
【0102】
なお、以上の説明では、各CHに対し畳み込みフィルタをそれぞれ適用してから畳み込み結果を作成し、その後、各CHの畳み込み結果を合成するようにしたが、処理の順番を変えて、例えば、畳み込みフィルタを1回適用するごとに、CH1~CHnの畳み込み結果を合成し、畳み込みフィルタをずらしながら、1枚の合成結果を得るようにしても構わない。
そして、2層目以降も同様に、畳み込みフィルタをセット(ステップP9)→畳み込み処理(ステップP10~P12)→畳み込み結果の合成(ステップP13)→畳み込みフィルタ種類を更新して(ステップP14~15)、同様の処理を繰り返し、例えば20種類の畳み込みフィルタを用意した場合、20枚の畳み込み結果の合成値を得る(ステップP16)。
3層目以降も同様の処理を繰り返し、第1層で生成した、やや局所的なキーワード同士の位置関係や分布の特徴の特徴マップに対し、層が進むにつれ、前段の特徴を複合的に組み合わせた、より高次の特徴マップを生成していく。
【0103】
8.学習データ
図11は、学習用データの態様を示す図である。
学習データには、トレーニング用の学習データと、学習した後に性能をテストするためのテスト用の学習データがあるが、データ構造はどちらも同様である。例えば、10万件の学習データがあった場合、7万件をトレーニング用、3万件をテスト用に振り分けてもよい。
学習データの構造は、第1段のキーワード(第1KW)~第n段のキーワード(第nKW)、および文献データの文献番号と格納先、サーチャーが判断した文献と各段のキーワード群のキーワードとの関連性の高さを示す正解値であるラベル(教師データ)とを対応付けて記録する構造を有している。
ラベル(教師データ)は、サーチャーが一定の基準に基づいて、キーワードのセットと文献との関連性の程度を数値化した指標である。例えば、キーワードのセットと文献との関連性が非常に高い場合を100、反対に殆ど関係がない場合を0とするなど、0~100点までの範囲の指標としてもよい。
【0104】
なお、サーチャーが複数存在する場合、どうしても個人差が生じ、統一したラベル値に統一できない場合も想定されるが、同じ文献のセットで調査した数値を元に、統計的に数値を調整するようにしてもよいし、ベテランのサーチャーの調査結果の学習データの学習率を高く(あるいはエポック数を多く)、そうでないサーチャーの学習率を低く設定することにより(あるいはエポック数を小さく)、ベテランのサーチャーの調査結果を重視して学習することで補償してもよい。
DATA1、DATA2、・・・は、ある調査対象技術毎に複数存在し、それぞれ前述のデータ構造を有している。各DATAは、通常、数百から数千の文献の集合であり、DATAが100個程度で5~10万件分の文献数になる。
なお、学習データは、データベースの構造のほか、ファイル構造など各種の構成であっても構わない。
また、新たに調査する場合の文献データの場合も、同様のデータ構造を有しており、文献の内容を確認する前であるので、ラベル(教師データ)がNULLとなっているほかは、同様の構成である。
【0105】
9.学習処理の設定値、分類手段の構成の設定値
図12~
図14は、本願発明における学習処理の進行に伴って、分類手段(機械学習モデル)500が出力したキーワードのセットと文献との関連性に関する指標と、予め与えられた正解値であるラベル(教師データ)との誤差がどのように推移するかをテストするための学習処理の設定値および分類手段500の構成の設定値の一例である。
機械学習モデルとしては、一例として、層数が10層のディープニューラルネットワークを選択した場合を想定している。
図12のように、素性ベクトルとして、第1段~第n段(第1~第3ないし第5段程度)のキーワードの空間分布ベクトルのみを用いた場合において、トレーニング用の文献データ数が9,000件にとどまる場合には、エポック数を多めにとっても、誤差はかなり残ってしまうことが想定される。
また、トレーニング時とテスト時で、誤差の数値が離れており、テスト時の誤差も収束せず、分類手段が出力する判定結果の数値の信頼性もあまり期待できないことが想定される。
【0106】
他方、
図13に示すように、素性ベクトルとして、第1段~第n段(第1~第3段ないし第5段程度)のKW空間分布ベクトルのみを用いた場合でも、トレーニング用の文献データ数が90,000件程度ある場合には、エポック数を十分とれば誤差は10%以下まで減少し、トレーニング時とテスト時で、誤差の数値もかなり近くなり、分類手段が出力する判定結果の信頼性もかなり高くなることが期待される。
さらに、
図14に示すように、素性ベクトルとして、第1段~第n段(第1~第3段ないし第5段程度)のKW空間分布ベクトル(第1~第5段程度)に加え、文献中の技術用語の上位1位~第n位(第5位程度)の空間分布ベクトル、または第1段~第n段のキーワードに対する係り受け語の空間分布ベクトルを追加して入力する分類手段を構成した場合には、畳み込みフィルタの種類数を増やす必要があり、学習すべきパラメータ数が増えるため、学習データ数は多めに必要となるが、さらに誤差が小さくなり、分類手段が出力する判定結果の信頼性が高くなることが期待される。
【0107】
10.性能評価の例
図15は、本願発明における検索キーワードのセットと文献との関連性を判定する処理の性能評価の一例であって、分類手段のパラメータ数やラベルと文献データのセットの数や素性ベクトルの種類数によって、関連性の高い上位3%の文献が含まれているスコアの範囲、および工数削減率の一例を示す図である。
図15に示すように、畳み込みフィルタの種類数(パラメータ数に対応)およびトレーニング用の文献データ数に応じて、あるいは素性ベクトルの種類数に応じて、分類手段500の出力するスコア値の精度向上が期待できる。
【0108】
例えば、
図15の1行目のように、文献データ数が9,000件の場合には(
図12参照)、サーチャーが確認して実際にキーワードのセットと文献との関連性が高いと判断できる上位3%の文献が含まれているといえる範囲は、分類手段500が出力したスコア値の上位80%の範囲となっている。
この場合、キーワードでヒットした文献全部の8割を確認しなければ、上位3%の文献をピックアップできない信頼度であることが分かる。すなわち、文献が1000件ヒットしている場合に、200件分の文献を確認しないで済むに留まるから、工数削減効果は20%にすぎない性能といえる。
他方、
図15の3行目に記載するように、トレーニング用の文献データ数が90,000件の場合には(
図13参照)、素性ベクトルがKW空間分布ベクトルだけの場合でも、関連性が高いと判断できる上位3%の文献が含まれているといえる範囲は、出力したスコア値の上位30%で足り、かなり性能が向上している。この場合の、工数削減率は70%となる。
【0109】
以上のサーチャーによる「上位3%の文献が含まれていた範囲」の確認結果は、例えば、技術分野の情報(特許文献の場合はIPC分類等)と関連付けてデータベースに記録しておき、平均値や分散などの統計的手法を介した数値に変換等したうえで、学習済み機械学習モデルの信頼度を示す数値として利用することができる(後述の
図16参照)。
【0110】
11.出力結果の例
図16は、分類手段(機械学習モデル)500が出力したキーワードのセットと文献との関連性の評価結果の表示画面ないし印刷出力等の出力結果の態様の一例を示す図である。
評価結果は、出力したスコア値の高い順にソートされ、第1段~第n段のキーワード群のキーワードのヒット箇所および個数などのほか、文献番号および文献の格納先へのリンク、その他の書誌事項などが出力されている。
右端の項目では、関連性の高い上位3%または5%の文献が含まれている可能性が高い範囲を区別表示している。区別表示は図では網掛けで表示しているが、色、文字列、矢印などで範囲を示していてもよい。
一般に、機械学習モデル、特に深層学習モデルの場合には、判断過程がブラックボックスであるため、出力結果の信頼性が不明であるといわれている。
そこで、本願発明の情報処理システムでは、このようなモデルの出力結果の信頼度を表示するようにした。
【0111】
このように、従来技術の場合は、単語の頻度情報をベースにベクトル化したり、文献全体を特徴ベクトル化するので、第1段のキーワード群のキーワードと第n段のキーワード群のキーワードとの局所的な位置関係や分布の特徴、および、それらを複合的に組み合わせた高次の特徴を評価することができないのに対し、本願発明によれば、それらが可能となる。
そして、様々なキーワードを設定した場合でも、文献の種類やキーワードのカテゴリに関わらず、キーワードのセットと文献との関連性が高い場合や低い場合に、第1段~第n段のキーワードの相互の位置関係や分布の特徴は一定の傾向を示すので、学習データによって一定の学習を経た機械学習モデルによれば、それらに基づいて、キーワードのセットと文献との関連性を精度よく評価できる情報処理システムを提供することができる。
このため、キーワードを選択して文献を調査する際に、初めて、所定のキーワードを選択して調査する場面でも、プレ調査して関連性のある文献を苦労して探すことなく、キーワードを設定して調査開始する最初の段階から、文献調査の工数を大幅に削減することができる。
【産業上の利用可能性】
【0112】
本願発明は、何らかの言語で書かれている文献全般について適用でき、国内外の各種文献の検索処理に利用できる。例えば、日本国内の特許文献、論文、裁判例などのほか、米国や中国など、諸外国の各種文献についても利用できる。
【符号の説明】
【0113】
100 特許文献、論文、裁判例などの文献データ
200 検索キーワード
300 解析手段
400 素性ベクトル生成手段
500 分類手段
600 学習処理手段
700 評価処理手段
800 評価用辞書
1000 情報処理装置
2000 通信ネットワーク
3000 ユーザー端末
3100 ユーザー端末