(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-02-05
(45)【発行日】2024-02-14
(54)【発明の名称】データ処理装置及びデータ処理方法
(51)【国際特許分類】
G06F 16/36 20190101AFI20240206BHJP
【FI】
G06F16/36
(21)【出願番号】P 2023181953
(22)【出願日】2023-10-23
(62)【分割の表示】P 2023175544の分割
【原出願日】2023-10-10
【審査請求日】2023-10-23
【早期審査対象出願】
(73)【特許権者】
【識別番号】507031309
【氏名又は名称】株式会社ポーラ・オルビスホールディングス
(74)【代理人】
【識別番号】110000800
【氏名又は名称】デロイトトーマツ弁理士法人
(72)【発明者】
【氏名】飯田 隆
【審査官】武田 広太郎
(56)【参考文献】
【文献】特開2022-171827(JP,A)
【文献】特開2017-151838(JP,A)
【文献】米国特許出願公開第2021/0081376(US,A1)
【文献】星野 恵以子 ほか,特許調査における検索式自動生成による検索の実験,電気学会研究会資料 情報システム研究会 IS-19-060~073,日本,一般社団法人電気学会,2019年11月09日,37~40頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/36
(57)【特許請求の範囲】
【請求項1】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得部と、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得部と、
前記用語群から前記特徴量データを作成する特徴量データ作成部と、
を備えることを特徴とするデータ処理装置。
【請求項2】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理装置。
【請求項3】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記学習データは、前記第A用語ペアが含まれる前記第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理装置。
【請求項4】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得部と、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得部と、
前記用語群から前記特徴量データを作成する特徴量データ作成部と、
前記特徴量データの前記第B用語ペアに基づき、前記地位概念関係を定義した地位概念データベースを検索することにより、前記ラベルを前記特徴量データに付加したデータである前記学習データを作成する学習データ作成部
と、
を備えることを特徴とするデータ処理装置。
【請求項5】
請求項4に記載のデータ処理装置において、
前記学習データ作成部は、前記学習データを、前記ラベルに加えて、前記用語が含まれる前記
第B特許文献群の請求項のデータを前記特徴量データにさらに付加したデータとして作成することを特徴とするデータ処理装置。
【請求項6】
請求項4に記載のデータ処理装置において、
前記地位概念データ群に含まれる前記第B用語ペア間の前記地位概念関係が、前記地位概念データベースに追加されることを特徴とするデータ処理装置。
【請求項7】
請求項4に記載のデータ処理装置において、
前記学習データでは、前記上位概念を定義した前記ラベルは第1所定値に、前記下位概念を定義した前記ラベルは第2所定値にそれぞれ設定されており、
前記特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力における前記第B用語ペア間の前記地位概念関係を表すラベルの平均値を算出する平均値算出部をさらに備え、
前記出力部は、前記ラベルの前記平均値が所定範囲内にある前記第B用語ペアのデータを前記出力装置に対して出力するためのデータ出力処理を実行することを特徴とするデータ処理装置。
【請求項8】
請求項1~7のいずれかに記載のデータ処理装置において、
前記地位概念データ群作成部は、前記特許文献の番号が前記第B用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群を作成することを特徴とするデータ処理装置。
【請求項9】
請求項1~7のいずれかに記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記第B用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理装置。
【請求項10】
請求項
1に記載のデータ処理装置において、
前記特許文献群取得部は、前記第B特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
前記用語群取得部は、前記第B特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記第B特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記特徴量データ作成部は、前記第2用語群に含まれる前記用語のうち、前記第B特許文献群及び前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記
学習済みモデルに入力したときの当該
学習済みモデルの出力を用いて、前記第2特徴量データの前記第2用語ペアの前記上位概念及び前記下位概念の関係を表す第2地位概念データ群を作成することを特徴とするデータ処理装置。
【請求項11】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得ステップと、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得ステップと、
前記用語群から前記特徴量データを作成する特徴量データ作成ステップと、
がデータ処理装置によって実行されることを特徴とするデータ処理方法。
【請求項12】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理方法。
【請求項13】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記学習データは、前記第A用語ペアが含まれる前記第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理方法。
【請求項14】
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得ステップと、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得ステップと、
前記用語群から前記特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データの前記第B用語ペアに基づき、前記地位概念関係を定義した地位概念データベースを検索することにより、前記ラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップ
と、
がデータ処理装置によって実行されることを特徴とするデータ処理方法。
【請求項15】
請求項14に記載のデータ処理方法において、
前記学習データ作成ステップでは、前記学習データが、前記ラベルに加えて、前記用語が含まれる前記
第B特許文献群の請求項のデータを前記特徴量データにさらに付加したデータとして作成されることを特徴とするデータ処理方法。
【請求項16】
請求項14に記載のデータ処理方法において、
前記地位概念データ群に含まれる前記第B用語ペア間の前記地位概念関係が、前記地位概念データベースに追加されることを特徴とするデータ処理方法。
【請求項17】
請求項14に記載のデータ処理方法において、
前記学習データでは、前記上位概念を定義した前記ラベルは第1所定値に、前記下位概念を定義した前記ラベルは第2所定値にそれぞれ設定されており、
前記特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力における前記第B用語ペア間の前記地位概念関係を表すラベルの平均値を算出する平均値算出ステップが前記データ処理装置によってさらに実行され、
前記出力ステップでは、前記ラベルの前記平均値が所定範囲内にある前記第B用語ペアのデータを前記出力装置に対して出力するためのデータ出力処理が実行されることを特徴とするデータ処理方法。
【請求項18】
請求項11~17のいずれかに記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記特許文献の番号が前記第B用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群が作成されることを特徴とするデータ処理方法。
【請求項19】
請求項11~17のいずれかに記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が、前記第B用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
【請求項20】
請求項
11に記載のデータ処理方法において、
前記特許文献群取得ステップでは、前記第B特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
前記用語群取得ステップでは、前記第B特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記第B特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記特徴量データ作成ステップでは、前記第2用語群に含まれる前記用語のうち、前記第B特許文献群及び前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記
学習済みモデルに入力したときの当該
学習済みモデルの出力を用いて、前記第2特徴量データの前記
第B用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群が作成されることを特徴とするデータ処理方法。
【請求項21】
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、当該所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得部と、
当該非特許文献群をデータマイニングすることにより、当該非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
当該用語群に基づいて、特許文献のデータベースを検索することにより、当該用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
前記用語群に含まれる前記用語のうち、前記特許文献群に含まれる前記用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記予測モデルは、前記特徴量データが入力されたときに、前記用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理装置。
【請求項22】
請求項21に記載のデータ処理装置において、
前記特徴量データの前記用語ペアに基づき、当該用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成部と、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習部と、
をさらに備えることを特徴とするデータ処理装置。
【請求項23】
請求項21又は22に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理装置。
【請求項24】
請求項21又は22に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記特許文献の番号及び前記非特許文献を表すデータの少なくとも一方が前記用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群を作成することを特徴とするデータ処理装置。
【請求項25】
請求項21又は22に記載のデータ処理装置において、
前記非特許文献群取得部は、前記非特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記非特許文献の前記データベースを検索することにより、当該第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群をさらに取得し、
前記用語群取得部は、前記非特許文献群及び前記第2非特許文献群をデータマイニングすることにより、前記非特許文献群及び前記第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記特許文献群取得部は、前記第2用語群に基づいて、前記特許文献の前記データベースを検索することにより、当該第2用語群が含まれる前記特許文献の集合である第2特許文献群を取得し、
前記特徴量データ作成部は、前記第2用語群に含まれる前記用語のうち、前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群を作成することを特徴とするデータ処理装置。
【請求項26】
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、当該所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得ステップと、
当該非特許文献群をデータマイニングすることにより、当該非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
当該用語群に基づいて、特許文献のデータベースを検索することにより、当該用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
前記用語群に含まれる前記用語のうち、前記特許文献群に含まれる前記用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記予測モデルは、前記特徴量データが入力されたときに、前記用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理方法。
【請求項27】
請求項26に記載のデータ処理方法において、
前記特徴量データの前記用語ペアに基づき、当該用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習ステップと、
が前記データ処理装置によってさらに実行されることを特徴とするデータ処理方法。
【請求項28】
請求項26又は27に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が、前記用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
【請求項29】
請求項26又は27に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記特許文献の番号及び前記非特許文献を表すデータの少なくとも一方が前記用語ペアの各々の用語にリンク付けされた状態で、前記地位概念データ群が作成されることを特徴とするデータ処理方法。
【請求項30】
請求項26又は27に記載のデータ処理方法において、
前記非特許文献群取得ステップでは、前記非特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記非特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群がさらに取得され、
前記用語群取得ステップでは、前記非特許文献群及び前記第2非特許文献群をデータマイニングすることにより、前記非特許文献群及び前記第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記特許文献群取得ステップでは、前記第2用語群に基づいて、前記特許文献の前記データベースを検索することにより、当該第2用語群が含まれる前記特許文献の集合である第2特許文献群が取得され、
前記特徴量データ作成ステップでは、前記第2用語群に含まれる前記用語のうち、前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群が作成されることを特徴とするデータ処理方法。
【請求項31】
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、当該所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
当該特許文献群をデータマイニングすることにより、当該特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
前記所定物質に基づき、前記所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、前記用語群から前記基礎用語の集合である基礎用語群を取得する基礎用語群取得部と、
前記基礎用語群に含まれる前記基礎用語と、前記用語群に含まれる前記用語及び前記基礎用語群に含まれる前記基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記予測モデルは、前記特徴量データが入力されたときに、前記選択用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理装置。
【請求項32】
請求項31に記載のデータ処理装置において、
前記特徴量データの前記選択用語ペアに基づき、当該選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成部と、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習部と、
をさらに備えることを特徴とするデータ処理装置。
【請求項33】
請求項31又は32に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記選択用語ペアの選択用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理システム。
【請求項34】
請求項31又は32に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群における前記選択用語ペアの前記基礎用語と当該基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、前記基礎用語に前記製品情報がリンク付けされた状態で前記地位概念データ群を作成することを特徴とするデータ処理システム。
【請求項35】
請求項31又は32に記載のデータ処理装置において、
前記特許文献群取得部は、前記特許文献群に加えて、前記所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
前記用語群取得部は、前記特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記基礎用語群取得部は、前記第2物質に基づき、前記基礎用語データベースを検索することにより、前記第2用語群から前記第2物質の前記基礎用語の集合である第2基礎用語群をさらに取得し、
前記特徴量データ作成部は、前記第2基礎用語群に含まれる前記基礎用語と、前記第2用語群に含まれる第2用語及び前記第2基礎用語群に含まれる前記基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2選択用語ペア間の前記上位概念及び前記下位概念の関係を表す前記地位概念データ群をさらに作成することを特徴とするデータ処理システム。
【請求項36】
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、当該所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
当該特許文献群をデータマイニングすることにより、当該特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
前記所定物質に基づき、前記所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、前記用語群から前記基礎用語の集合である基礎用語群を取得する基礎用語群取得ステップと、
前記基礎用語群に含まれる前記基礎用語と、前記用語群に含まれる前記用語及び前記基礎用語群に含まれる前記基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記予測モデルは、前記特徴量データが入力されたときに、前記選択用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理方法。
【請求項37】
請求項36に記載のデータ処理方法において、
前記特徴量データの前記選択用語ペアに基づき、当該選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習ステップと、
が前記データ処理装置によってさらに実行されることを特徴とするデータ処理方法。
【請求項38】
請求項36又は37に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が前記選択用語ペアの選択用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
【請求項39】
請求項36又は37に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群における前記選択用語ペアの前記基礎用語と当該基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、前記基礎用語に前記製品情報がリンク付けされた状態で前記地位概念データ群が作成されることを特徴とするデータ処理方法。
【請求項40】
請求項36又は37に記載のデータ処理方法において、
前記特許文献群取得ステップでは、前記特許文献群に加えて、前記所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
前記用語群取得ステップでは、前記特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記基礎用語群取得ステップでは、前記第2物質に基づき、前記基礎用語データベースを検索することにより、前記第2用語群から前記第2物質の前記基礎用語の集合である第2基礎用語群がさらに取得され、
前記特徴量データ作成ステップでは、前記第2基礎用語群に含まれる前記基礎用語と、前記第2用語群に含まれる第2用語及び前記第2基礎用語群に含まれる前記基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2選択用語ペア間の前記上位概念及び前記下位概念の関係を表す前記地位概念データ群がさらに作成されることを特徴とするデータ処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特許文献の集合などのデータを処理するデータ処理装置及びデータ処理方法に関する。
【背景技術】
【0002】
従来、特許文献の集合から、テクニカルキーワードの関係を表すドーナッツチャートを作成するデータ処理装置として、非特許文献1に記載されたものが知られている。この手法では、特許文献の集合から、テキストマイニング手法により、テクニカルキーワードが抽出され、抽出されたテクニカルキーワードの出現頻度に基づいてクラスタリングを実施することにより、二層構造のドーナッツチャートが作成される。
【0003】
また、従来、学術文献及び技術文献などの非特許文献の集合から、テクニカルキーワード間の関係を表すツリー図を作成するデータ処理装置として、非特許文献2に記載されたものが知られている。この手法では、非特許文献の集合から、テクニカルキーワードが検索され、その検索結果に基づいてクラスタリングを実施することにより、ツリー図が作成される。
【先行技術文献】
【特許文献】
【0004】
【文献】”テキストマイニングと機械学習による効率的な特許調査”, [online], [令和5年5月18日検索], インターネット<URL:https://www.msi.co.jp/event/file/muc17_501_2.pdf>
【文献】”JDreamUsers Day 2022”, [online], [令和5年5月18日検索], インターネット<URL:https://jdream3.com/seminar/document/jdream_users_day_2022.pdf>
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記非特許文献1のデータ処理装置によれば、以下のような問題がある。すなわち、特許文献における請求項のテクニカルキーワード(以下「用語」という)の場合、2つの用語を比較した際、一方が上位概念の用語で、他方が下位概念の用語である状態が存在することがある。これに対して、非特許文献1の技術によれば、特許文献の集合からドーナッツチャートを作成する際、用語間の上位概念及び下位概念の関係(以下「地位概念関係」という)を区別することなく、出現頻度に基づいてクラスタリングが実行されてしまう。それにより、作成後のドーナッツチャートにおいて、用語間の地位概念関係が適切に分類されていない状態になってしまうことで、ユーザが用語間の地位概念関係を適切に把握できなくなる。
【0006】
本発明は、この課題を解決するためになされたもので、特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第1の目的とする。
【0007】
また、上記非特許文献2のデータ処理装置によれば、非特許文献の集合からツリー図を作成する際、テクニカルキーワード(以下「用語」という)間の地位概念関係を区別することなく、クラスタリングが実行されてしまう。それにより、作成後のツリー図において、用語間の地位概念関係が適切に分類されていない状態になってしまうことで、ユーザが用語間の地位概念関係を適切に把握できなくなる。
【0008】
本発明は、この課題を解決するためになされたもので、非特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第2の目的とする。
【0009】
さらに、上記非特許文献1のように、特許文献の集合から、テキストマイニング手法により、テクニカルキーワードとして所定物質を抽出した場合において、この所定物質の原料、部品及び材質のいずれかを表す用語(以下「基礎用語」という)をさらに抽出し、当該基礎用語間の地位概念関係を適切に分類したデータを作成することが望まれている。
【0010】
本発明は、この課題を解決するためになされたもので、所定物質の基礎用語の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第3の目的とする。
【課題を解決するための手段】
【0011】
上記第1の目的を達成するために、第1の本発明に係るデータ処理装置は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得部と、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群から特徴量データを作成する特徴量データ作成部と、を備えることを特徴とする。
【0012】
上記第1の目的を達成するために、第2の本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得ステップと、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群から特徴量データを作成する特徴量データ作成ステップと、
がデータ処理装置によって実行されることを特徴とする。
【0013】
以上のデータ処理装置又はデータ処理方法によれば、特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルが記憶されている。そして、特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成される。
【0014】
ここで、特徴量データは、第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含んでいることにより、そのような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。なお、本明細書における「特許文献」は、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献に相当する。また、本明細書における「学習が実行された分類モデル」は、モデルパラメータの学習が実行された分類モデルであることを意味する。さらに、第A特許文献群及び第B特許文献群は、同一の特許文献の集合であってもよく、互いに異なる特許文献の集合であってもよいとともに、一部が同一の特許文献の集合であってもよい。また、本明細書における「用語のペア」は、用語自体のペアに限らず、用語を表す記号のペア又は用語を表す番号のペアなども意味する。
【0015】
さらに、所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群が取得され、第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得される。そして、そのような用語群から作成された特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、地位概念データ群が作成される。それにより、地位概念データ群を、特許文献の集合における第B用語ペア間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。
【0016】
前述した第1の目的を達成するために、第1Aの本発明に係るデータ処理装置は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。
【0017】
前述した第1の目的を達成するために、第2Aの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。
【0018】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。また、特徴量データは、第B用語ペアが含まれる第B特許文献群の請求項のデータをさらに含むように構成されている。それにより、学習済みモデルの出力を用いて地位概念データ群を作成した際、地位概念データ群に含まれる用語と請求項をリンク付けることが可能になる。
【0019】
前述した第1の目的を達成するために、第1Bの本発明に係るデータ処理装置は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
学習データは、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。
【0020】
前述した第1の目的を達成するために、第2Bの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
学習データは、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。また、以上のデータ処理装置又はデータ処理方法によれば、学習データが、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることにより、学習済みモデルにおいて高い学習精度を確保することができる。
【0021】
前述した第1の目的を達成するために、第1Cの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得部と、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群から特徴量データを作成する特徴量データ作成部と、
特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データを作成する学習データ作成部と、
を備えることを特徴とする。
【0022】
前述した第1の目的を達成するために、第2Cの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得ステップと、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群から特徴量データを作成する特徴量データ作成ステップと、
特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、がデータ処理装置によって実行されることを特徴とする。
【0023】
以上のデータ処理装置又はデータ処理方法によれば、特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データが作成される。したがって、所定キーワードを変更して学習データを作成し、そのような学習データを用いて分類モデルの学習を繰り返し実行することにより、分類モデルの学習効果をさらに向上させることができる。
【0024】
第1Cの本発明において、学習データ作成部は、学習データを、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成することが好ましい。
【0025】
第2Cの本発明において、学習データ作成ステップでは、学習データが、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成されることが好ましい。
【0026】
以上のデータ処理装置又はデータ処理方法によれば、学習データが、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成される。それにより、学習データによる予測モデルの学習効果をさらに向上させることができる。
【0027】
第1Cの本発明において、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加されることが好ましい。
【0028】
第2Cの本発明において、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加されることが好ましい。
【0029】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加される。その結果、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。
【0030】
第1Cの本発明において、学習データでは、上位概念を定義したラベルは第1所定値に、下位概念を定義したラベルは第2所定値にそれぞれ設定されており、
特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値を算出する平均値算出部をさらに備え、
出力部は、出力部は、ラベルの平均値が所定範囲内にある第B用語ペアのデータを出力装置に対して出力するためのデータ出力処理を実行することが好ましい。
【0031】
第2Cの本発明において、学習データでは、上位概念を定義したラベルは第1所定値に、下位概念を定義したラベルは第2所定値にそれぞれ設定されており、
特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値を算出する平均値算出ステップがデータ処理装置によってさらに実行され、
出力ステップでは、出力ステップでは、ラベルの平均値が所定範囲内にある第B用語ペアのデータを出力装置に対して出力するためのデータ出力処理が実行されることが好ましい。
【0032】
以上のデータ処理装置又はデータ処理方法によれば、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値が算出され、この平均値が所定範囲内にある第B用語ペアのデータが出力装置に対して出力するためのデータ出力処理が実行される。したがって、この所定範囲を予測精度が低いと予想される範囲に設定した場合、そのような予測精度の低い第B用語ペアのデータが出力装置から出力された際、ユーザは、予測精度の低い第B用語ペアのデータを確認することができる。それにより、ユーザは、学習データにおいて、予測精度の低い用語ペアのラベルを自身で付与・修正することができる。さらに、そのようにラベルを付与・修正した学習データを用いて、予測モデルの学習を再実行した場合、予測モデルの予測精度を高めることができる。
【0033】
第1の本発明において、地位概念データ群作成部は、特許文献の番号が第B用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群を作成することが好ましい。
【0034】
第2の本発明において、地位概念データ群作成ステップでは、特許文献の番号が第B用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群が作成されることが好ましい。
【0035】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群における第B用語ペアの各々の用語に対して特許文献の番号がリンク付けされた状態で地位概念データ群が作成される。それにより、ユーザは、地位概念データ群が出力装置から出力された際、第B用語ペアの地位概念関係に加えて、第B用語ペアの各々の用語に対応する特許文献の番号をさらに把握することができる。
【0036】
第1の本発明において、地位概念データ群作成部は、地位概念データ群を、第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。
【0037】
第2の本発明において、地位概念データ群作成ステップでは、地位概念データ群が、第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。
【0038】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して第B用語ペア間の上位概念及び下位概念の関係を容易に把握することができる。
【0039】
第1の本発明において、特許文献群取得部は、第B特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
用語群取得部は、第B特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
特徴量データ作成部は、第2用語群に含まれる用語のうち、第B特許文献群及び第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群を作成することが好ましい。
【0040】
第2の本発明において、特許文献群取得ステップでは、第B特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
用語群取得ステップでは、第B特許文献群及び第2特許文献群をデータマイニングすることにより、第B特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
特徴量データ作成ステップでは、第2用語群に含まれる用語のうち、特許文献群及び第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群が作成されることが好ましい。
【0041】
以上のデータ処理装置又はデータ処理方法によれば、第2特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合として取得される。さらに、第B特許文献群及び第2特許文献群をデータマイニングすることにより、第B特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得される。そして、そのような第2用語群から作成した第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。
【0042】
前述した第2の目的を達成するために、第3の本発明に係るデータ処理装置は、
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得部と、
非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
【0043】
前述した第2の目的を達成するために、第4の本発明に係るデータ処理方法は、
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得ステップと、
非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
【0044】
以上のデータ処理装置又はデータ処理方法によれば、用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データが作成され、特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペアの地位概念関係を定義した地位概念データ群が作成される。ここで、予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることにより、予測モデルの出力は、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、この地位概念データ群を用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。
【0045】
これに加えて、非特許文献のデータベースを検索することにより、非特許文献群が、所定キーワードが含まれる非特許文献の集合として取得され、非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得され、用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群が取得される。それにより、地位概念データ群を、特許文献の集合における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係とを適切に分類したデータとして作成することができる。それにより、このように作成された地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して、特許文献の集合における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係が適切に分類された地位概念データ群を確認することができる。
【0046】
第3の本発明において、
特徴量データの用語ペアに基づき、用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
【0047】
第4の本発明において、
特徴量データの用語ペアに基づき、用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
【0048】
以上のデータ処理システム又はデータ処理方法によれば、特徴量データの用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習が実行される。それにより、特徴量データが予測モデルに入力された際、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測した予測結果が予測モデルから出力されることなる。したがって、そのような予測モデルの出力を用いることにより、特徴量データの用語ペアの地位概念関係を定義した地位概念データ群を適切に作成することができる。
【0049】
第3の本発明において、地位概念データ群作成部は、地位概念データ群を、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。
【0050】
第4の本発明において、地位概念データ群作成ステップでは、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。
【0051】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して用語ペア間の上位概念及び下位概念の関係を容易に把握することができる。
【0052】
第3の本発明において、地位概念データ群作成部は、特許文献の番号及び非特許文献を表すデータの少なくとも一方が用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群を作成することが好ましい。
【0053】
第4の本発明において、地位概念データ群作成ステップでは、特許文献の番号及び非特許文献を表すデータの少なくとも一方が用語ペアの各々の用語にリンク付けされた状態で、地位概念データ群が作成されることが好ましい。
【0054】
以上のデータ処理装置又はデータ処理方法によれば、特許文献の番号及び非特許文献を表すデータの少なくとも一方が地位概念データ群における用語ペアの各々の用語にリンク付けされた状態で地位概念データ群が作成される。ユーザは、出力装置を介して、用語ペアの地位概念関係に加えて、用語ペアの各々の用語に対応する特許文献の番号及び非特許文献を表すデータの少なくとも一方をさらに把握することができる。
【0055】
第3の本発明において、非特許文献群取得部は、非特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群をさらに取得し、
用語群取得部は、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
特許文献群取得部は、第2用語群に基づいて、特許文献のデータベースを検索することにより、第2用語群が含まれる特許文献の集合である第2特許文献群を取得し、
特徴量データ作成部は、第2用語群に含まれる用語のうち、第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群を作成することが好ましい。
【0056】
第4の本発明において、非特許文献群取得ステップでは、非特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群がさらに取得され、
用語群取得ステップでは、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
特許文献群取得ステップでは、第2用語群に基づいて、特許文献のデータベースを検索することにより、第2用語群が含まれる特許文献の集合である第2特許文献群が取得され、
特徴量データ作成ステップでは、第2用語群に含まれる用語のうち、第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群が作成されることが好ましい。
【0057】
以上のデータ処理装置又はデータ処理方法によれば、第2非特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合として取得される。また、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得される。さらに、そのような第2用語群から作成した特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。
【0058】
前述した第3の目的を達成するために、第5の本発明に係るデータ処理装置は、
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群を取得する基礎用語群取得部と、
基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
【0059】
前述した第3の目的を達成するために、第6の本発明に係るデータ処理方法は、
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群を取得する基礎用語群取得ステップと、
基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
【0060】
以上のデータ処理装置又はデータ処理方法によれば、基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データが作成され、特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成され、地位概念データ群を出力装置に対して出力するための出力処理が実行される。ここで、予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることにより、予測モデルの出力は、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を選択用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。
【0061】
これに加えて、所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群が取得され、特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得される。さらに、所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群が取得される。それにより、地位概念データ群を、特許文献の集合における基礎用語間又は基礎用語及び用語の間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。
【0062】
第5の本発明において、特徴量データの選択用語ペアに基づき、選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成部と、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習部と、
をさらに備えることが好ましい。
【0063】
第6の本発明において、
特徴量データの選択用語ペアに基づき、選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
【0064】
以上のデータ処理システム又はデータ処理方法によれば、特徴量データの選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習が実行される。それにより、特徴量データが予測モデルに入力された際、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を適切に予測した予測結果が予測モデルから出力されることなる。したがって、そのような予測モデルの出力を用いることにより、特徴量データの選択用語ペア間の地位概念関係を定義した地位概念データ群を適切に作成することができる。
【0065】
第5の本発明において、地位概念データ群作成部は、地位概念データ群を、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。
【0066】
第6の本発明において、地位概念データ群作成ステップでは、地位概念データ群が選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。
【0067】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して選択用語ペアの選択用語における上位概念及び下位概念の関係を容易に把握することができる。
【0068】
第5の本発明において、地位概念データ群作成部は、地位概念データ群における選択用語ペアの基礎用語と基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、基礎用語に製品情報がリンク付けされた状態で地位概念データ群を作成することが好ましい。
【0069】
第6の本発明において、地位概念データ群作成ステップでは、地位概念データ群における選択用語ペアの基礎用語と基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、基礎用語に製品情報がリンク付けされた状態で地位概念データ群が作成されることが好ましい。
【0070】
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群における選択用語ペアの基礎用語に基礎用語の製品情報がリンク付けされた状態で地位概念データ群が作成される。それにより、ユーザは、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して基礎用語の製品情報を把握することができる。
【0071】
第5の本発明において、
特許文献群取得部は、特許文献群に加えて、所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
用語群取得部は、特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
基礎用語群取得部は、第2物質に基づき、基礎用語データベースを検索することにより、第2用語群から第2物質の基礎用語の集合である第2基礎用語群をさらに取得し、
特徴量データ作成部は、第2基礎用語群に含まれる基礎用語と、第2用語群に含まれる第2用語及び第2基礎用語群に含まれる基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群をさらに作成することが好ましい。
【0072】
第6の本発明において、
特許文献群取得ステップでは、特許文献群に加えて、所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
用語群取得ステップでは、特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
基礎用語群取得ステップでは、第2物質に基づき、基礎用語データベースを検索することにより、第2用語群から第2物質の基礎用語の集合である第2基礎用語群がさらに取得され、
特徴量データ作成ステップでは、第2基礎用語群に含まれる基礎用語と、第2用語群に含まれる第2用語及び第2基礎用語群に含まれる基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群がさらに作成されることが好ましい。
【0073】
以上のデータ処理装置又はデータ処理方法によれば、第2特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合として取得される。また、特許文献群及び第2特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における基礎用語のうち、出現頻度の高い方から順に所定順位までの基礎用語である第2基礎用語群が取得される。さらに、そのような第2基礎用語群から作成した特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した基礎用語を含むように作成することができる。
【図面の簡単な説明】
【0074】
【
図1】本発明の第1実施形態に係るデータ処理装置を示す図である。
【
図2】第1実施形態のデータ処理装置の機能的な構成を示すブロック図である。
【
図10】地位概念データベースの一例を示す図である。
【
図11】地位概念データ群の作成手順の説明図である。
【
図12】地位概念データ群の作成手順の説明図である。
【
図13】地位概念データ群の作成手順の説明図である。
【
図14】地位概念データ群の作成手順の説明図である。
【
図15A】地位概念データ群の一例を示す図である。
【
図15B】地位概念データ群の用語が選択された状態を示す図である。
【
図16】地位概念データ群の他の一例を示す図である。
【
図17】学習済みモデル作成処理を示すフローチャートである。
【
図18】地位概念データ群処理を示すフローチャートである。
【
図19】再設定用データ処理を示すフローチャートである。
【
図20】第2学習済みモデル作成処理を示すフローチャートである。
【
図21】第2地位概念データ群処理を示すフローチャートである。
【
図22】地位概念データ群の変形例を示す図である。
【
図23】第2実施形態のデータ処理装置の機能的な構成を示すブロック図である。
【
図24】学習済みモデル作成処理を示すフローチャートである。
【
図25】地位概念データ群処理を示すフローチャートである。
【
図26】第2学習済みモデル作成処理を示すフローチャートである。
【
図27】第2地位概念データ群処理を示すフローチャートである。
【
図28】第3実施形態のデータ処理装置の機能的な構成を示すブロック図である。
【
図33】地位概念データベースの一例を示す図である。
【
図35】地位概念データ群の表示例を示す図である。
【
図36】地位概念データ群の他の表示例を示す図である。
【
図37】基礎用語番号及び基礎用語の製品名のデータベースの一例を示す図である。
【
図38】学習済みモデル作成処理を示すフローチャートである。
【
図39】地位概念データ群処理を示すフローチャートである。
【
図40】第2学習済みモデル作成処理を示すフローチャートである。
【
図41】第2地位概念データ群処理を示すフローチャートである。
【発明を実施するための形態】
【0075】
以下、図面を参照しながら、本発明の第1実施形態に係るデータ処理装置について説明する。
図1に示すように、本実施形態のデータ処理装置1は、パーソナルコンピュータタイプのものであり、ディスプレイ1a、装置本体1b及び入力インターフェース1cなどを備えている。出力装置としてのディスプレイ1aは、液晶ディスプレイタイプのものであり、各種データが表示される。
【0076】
装置本体1bは、HDDなどのストレージ、プロセッサ及びメモリ(RAM、E2PROM、ROMなど)などを備えている(いずれも図示せず)。この装置本体1bのストレージには、後述する学習処理などを実行するためのアプリケーションソフトがインストールされているとともに、特許文献データベース20及び地位概念データベース21(
図2参照)が記憶されている。
【0077】
これらのデータベース20,21の詳細については後述する。また、入力インターフェース1cは、データ処理装置1を操作するためのキーボード及びマウスなどで構成されている。
【0078】
図2に示すように、データ処理装置1は、特許文献群取得部11、用語群取得部12、特徴量データ作成部13、学習データ作成部14、モデル学習部15、地位概念データ群作成部16、出力部17及び平均値算出部18としての機能を備えている。
【0079】
特許文献群取得部11では、ユーザ(図示せず)による入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1内の特許文献データベース20を検索することにより、特許文献群が取得される。
【0080】
ここで、特許文献データベース20には、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献が多数含まれており、特許文献群は、所定キーワードが請求項に含まれる特許文献の集合として取得される。以下の説明では、所定キーワードが「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」である場合を例にとって説明する。
【0081】
次いで、用語群取得部12では、形態素解析を用いて特許文献群をデータマイニングすることにより、用語群が取得される。この用語群は、特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。本実施形態の場合、
図3に示すように、出現頻度が1番目から5345番目までの用語が取得されるとともに、用語の番号として、KEYW0~KEYW5344がそれぞれ付加された状態となる。
【0082】
次に、特徴量データ作成部13では、特許文献群及び用語群に基づいて、特徴量データが作成される。この特徴量データは、
図4に示すように、特許文献の出願番号と、用語1及び用語2からなる用語ペアと、これらの用語ペアを含む請求項の番号及び請求項の文章とが含まれるように作成される。この
図4は、用語の番号が用語1及び用語2として特徴量データに含まれるように構成した例であるが、用語の番号に代えて、用語自体が用語1及び用語2として特徴量データに含まれるように構成してもよい。この特徴量データは、本出願人が作成したプログラムにより、以下に述べる手法で作成される。なお、本実施形態では、用語ペアが第A用語ペア及び第B用語ペアに相当する。
【0083】
まず、
図5に示す特許文献群のデータ(一部のみを図示)において、請求項に含まれる用語群中の用語(太字で示す文言)をピックアップする。
図5において、理解の容易化のために、ピックアップした用語をA~Hで表記すると、
図6に示す状態となる。例えば、
図6の用語<A>は、
図5の「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」に相当し、用語<B>は、
図5の「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」に相当する。なお、
図5~6などにおいては、理解の容易化のために、請求項の番号が請求項の文章とは別個に表示されている。
【0084】
次いで、
図6に示すデータ群から、特許文献の請求項において用語が1つしか含まれていない請求項を削除することにより、
図7に示すように、2つ以上の用語が特許文献の請求項に含まれているデータ群が作成される。
【0085】
さらに、
図8に示すように、請求項に含まれる2つ以上の用語の組み合わせである用語ペアを「用語1,用語2」としてピックアップすることにより、前述した
図4の特徴量データが作成される。例えば、
図8の出願番号2000-321321の公報の場合、請求項1に含まれている用語がA~Cの3つであることにより、用語ペアは、「A,B」、「B,A」、「B,C」、「C,B」、「A,C」及び「C,A」の6つとなる。
【0086】
そして、学習データ作成部14では、データ処理装置1内の地位概念データベース21を参照することにより、前述した
図4の特徴量データから
図9に示す学習データが作成される。ここで、地位概念データベース21は、
図10に示すように、用語1及び用語2の間の上位概念及び下位概念の関係などを表す地位概念関係を定義したものである。
【0087】
図10において、ラベルの値は、用語ペア間の地位概念関係を表しており、具体的には、ラベルの値が「1」であることは、用語1が用語2の上位概念であることを表している。また、ラベルの値が「0」であることは、用語1が用語2の下位概念であることを表しており、ラベルの値が「2」であることは、用語1と用語2が上位概念及び下位概念の関係にないことを表している。
【0088】
なお、本実施形態では、値1が第1所定値に相当し、値0が第2所定値に相当する。また、第1所定値及び第2所定値は、上記の値に限らず、様々な値に設定可能である。例えば、値10及び値0を第1所定値及び第2所定値にそれぞれ設定してもよく、値100及び値0を第1所定値及び第2所定値にそれぞれ設定してもよい。
【0089】
学習データ作成部14では、以上の地位概念データベース21を参照し、用語ペア間の地位概念関係を表すラベルを特徴量データに付加することにより、前述した
図9の学習データが作成される。
【0090】
次いで、モデル学習部15(モデル記憶部)では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。なお、以下の説明では、学習を実行済みの予測モデルを「学習済みモデル」という。この学習済みモデルは、モデル学習部15に記憶される。
【0091】
次に、地位概念データ群作成部16では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、前述した用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の画像データ(
図15参照)であり、以下に述べる手法により作成される。
【0092】
すなわち、地位概念データ群作成部16では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力のラベルの値に基づいて、用語ペア間の地位概念関係が判定されるとともに、その判定結果に基づいて、用語ペアの用語を上位概念又は下位概念の関係に従って並べることにより、地位概念データ群が作成される。
【0093】
より具体的には、学習済みモデルの出力のラベルの値が「1」又は「0」であるときには、用語ペアの2つの用語が地位概念関係に従って並べられる。一方、学習済みモデルの出力のラベルの値が「2」であるとき、すなわち用語ペアの2つの用語が上位概念又は下位概念の関係にないときには、2つの用語は上位概念又は下位概念の関係で並べられることがない。
【0094】
例えば、前述した
図8の特徴量データにおいて、出願番号2000-321321の請求項2のデータが学習済みモデルに入力された場合、学習済みモデルの出力における用語ペア「A,B」のラベルは、用語Aの方が上位概念であることにより値1となるとともに、用語ペア「B,C」のラベルは、用語Bと用語Cは上位概念又は下位概念の関係にないことにより、値2となる。さらに、用語ペア「C,A」のラベルは、用語Aの方が上位概念であることにより値0となる。
【0095】
それにより、3つの用語A~Cの地位概念データ群は、
図11に示すように、下位概念である用語B、Cが上位概念である用語Aにぶら下がる状態で作成される。ここで、前述した
図5と
図8を参照すると明らかなように、
図11における用語Aは、「ポリオキシエチレンジグリセリン飽和脂肪酸エステル(
図11では「飽和脂肪酸」と表記)」であり、用語Bは、「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル(
図11では「直鎖」と表記)」である。また、用語Cは、「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル(
図11では「分岐」と表記)」である。
【0096】
さらに、前述した
図8の特徴量データにおいて、出願番号2000-321321の請求項3のデータが学習済みモデルに入力された場合、学習済みモデルの出力における用語ペア「B,D」のラベルは、用語Bの方が上位概念であることにより値1となる。それにより、2つの用語B,Dを含む地位概念データ群は、
図12に示すように、下位概念である用語Dが上位概念である用語Bにぶら下がる状態で作成される。前述した
図5と
図8を参照すると明らかなように、この
図12における用語Dは、「ポリオキシエチレンジグリセリンミリスチン酸エステル(
図12では「ミリスチン酸」と表記)」である。
【0097】
また、前述した
図8の特徴量データにおいて、出願番号2017-333333の請求項2,3のデータが学習済みモデルに入力された場合、上記と同じ原理により、
図13に示すように、4つの用語A,C,E,Fの地位概念データ群が作成される。前述した
図5と
図8を参照すると明らかなように、
図13における用語Eは、「ポリオキシエチレンジグリセリンイソパルミチン酸エステル(
図13では「イソパルミチン酸」と表記)」であり、用語Dは、「ポリオキシエチレンジグリセリンイソステアリン酸エステル(
図13では「イソステアリン酸」と表記)」である。
【0098】
さらに、前述した
図8の特徴量データにおいて、出願番号2011-123456の請求項1,2のデータが学習済みモデルに入力された場合、上記と同じ原理により、
図14に示すように、4つの用語B,D,G,Hの地位概念データ群が作成される。前述した
図5と
図8を参照すると明らかなように、
図14における用語Gは、「ポリオキシエチレンジグリセリンモノミリスチン酸エステル(
図14では「モノミリスチン酸」と表記)」であり、用語Hは、「ポリオキシエチレンジグリセリンジミリスチン酸エステル(
図14では「ジミリスチン酸」と表記)」である。
【0099】
以上の処理を継続して実行することにより、
図15に示す地位概念データ群が最終的に作成される。この地位概念データ群は、各用語に対して特許文献の番号がリンクした状態で作成される。この場合、例えば、特許文献の番号としては、特許登録公報が発行されていて登録期間が残っているもの、及び、特許公開公報が発行されていて登録になる可能性が存在するものが各用語に対してリンク付けされるように構成してもよい。
【0100】
そして、以上のように作成された地位概念データ群のデータが出力部17からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、
図15に示す地位概念データ群が表示される。すなわち、用語「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を最上位概念とし、これにぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」及び用語「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル」が表示される。
【0101】
さらに、用語「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」には、これにぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリンミリスチン酸エステル」などが表示され、用語「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル」には、これぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリンイソステアリン酸エステル」などが表示される。
【0102】
このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群のいずれかの用語を選択した場合、その用語を請求項に含む特許文献の番号が表示される。例えば、
図16に示すように、用語「イソステアリン酸」が選択された場合には、用語「ポリオキシエチレンジグリセリンイソステアリン酸エステル」を請求項に含む特許文献の番号(特願2011-111111、特願2012-222222、・・・)が表示される。
【0103】
また、平均値算出部18では、特徴量データを学習済みモデルに入力した際の学習済みモデルの出力に基づき、各用語ペアのラベルの平均値が算出される。この場合、各用語ペアのラベルが「0」又は「1」であるものにおいて、そのラベルの平均値が算出される。
【0104】
そして、出力部17では、以上のように算出された各用語ペアのラベルの平均値において、ラベルの平均値が所定範囲内にある用語ペアのデータがディスプレイ1aに出力される(データ出力処理)。それにより、ユーザは、学習データにおける、ラベルの平均値が所定範囲内にある用語ペアのラベルを把握することができる。この所定範囲は、ユーザにより、予測モデルの予測精度が低く、学習データを修正する必要があると判断できるような値(例えば、0.3~0.7)に設定されている。
【0105】
したがって、ユーザは、学習データにおける、ラベルの平均値が所定範囲内にある用語ペアのラベルに対して、入力インターフェース1cを操作して自身の判断で「0」、「1」又は「2」を付与することにより、修正した学習データを作成することができる。その結果、そのような修正された学習データを用いて、予測モデルの学習を再度、実行した場合、予測モデルの予測精度を向上させることができる。この場合、ユーザは、学習データに加えて又は代えて、地位概念データベース21内のデータの追加又はデータのラベルの修正を実施してもよい。
【0106】
データ処理装置1では、以上の処理が所定キーワードを変更して繰り返し実行されることにより、例えば、
図16に示すような地位概念データ群が作成される。
【0107】
なお、用語群取得部12によって取得された用語群のうち、出現頻度が1~N(Nは整数)番目の用語が所定キーワードに順に設定されることにより、以上の処理が繰り返し実行されるように構成してもよい。その際、所定キーワードの設定は、自動的に設定されるように構成してもよい。
【0108】
また、以上のデータ処理装置1の要素11~17においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、ポリオキシエチレンジグリセリンステアリン酸エステル)が入力された場合、以下に述べるように各種処理が実行される。
【0109】
すなわち、特許文献群取得部11では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1内の特許文献データベース20を検索することにより、第2特許文献群が取得される。
【0110】
次いで、用語群取得部12では、特許文献群及び第2特許文献をデータマイニングすることにより、前述した
図3の用語群と同様に、第2用語群が取得される(図示せず)。この第2用語群は、特許文献群及び第2特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。
【0111】
さらに、特徴量データ作成部13では、特許文献群、第2特許文献群及び用語群に基づいて、前述した
図4の特徴量データと同様に、第2特徴量データが作成される(図示せず)。
【0112】
また、学習データ作成部14では、データ処理装置1内の地位概念データベース21を参照することにより、上記の第2特徴量データから、前述した
図9の学習データと同様に、第2学習データが作成される(図示せず)。
【0113】
次いで、モデル学習部15では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、学習済みモデルの追加学習が実行される。以下、第2学習データを用いた追加学習が実行済みである予測モデルを「第2学習済みモデル」という。
【0114】
さらに、地位概念データ群作成部16では、第2学習済みモデル及び第2特徴量データを用いて、前述した
図15の地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。
【0115】
そして、以上のように作成された第2地位概念データ群のデータが出力部17からディスプレイ1aに出力される。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。この場合、第2地位概念データ群に加えて、地位概念データ群がディスプレイ1aに同時に表示されるように構成してもよい。
【0116】
次に、本実施形態のデータ処理装置1によって実行される各種演算処理について説明する。まず、
図17を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。
【0117】
なお、以下の説明において算出される各種の値は、データ処理装置1のストレージ又はメモリ内に記憶されるものとする。
【0118】
この学習済みモデル作成処理では、まず、特許文献群の取得処理が実行される(
図17/STEP1)。この取得処理では、前述したように、所定キーワードに基づいて、特許文献データベース20を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。
【0119】
次いで、用語群の取得処理が実行される(
図17/STEP2)。この取得処理では、前述したように、特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。
【0120】
次に、特徴量データの作成処理が実行される(
図17/STEP3)。この作成処理では、前述したように、特許文献群及び用語群に基づいて、
図4に示す特徴量データが作成される(特徴量データ作成ステップ)。
【0121】
この特徴量データの作成処理に続けて、学習データの作成処理が実行される(
図17/STEP4)。この作成処理では、前述したように、地位概念データベース21内に存在するデータを用いて、
図4の特徴量データから
図9に示す学習データが作成される(学習データ作成ステップ)。
【0122】
次いで、モデル学習処理が実行される(
図17/STEP5)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。
【0123】
次に、
図18を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0124】
この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(
図18/STEP10)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、
図15に示す地位概念データ群が作成される(地位概念データ群作成ステップ)。
【0125】
次いで、地位概念データ群の表示処理が実行される(
図18/STEP11)。この表示処理では、前述したように、
図15に示す地位概念データ群がディスプレイ1aに表示される(出力ステップ)。
【0126】
次に、
図19を参照しながら、再設定用データ処理について説明する。この再設定用データ処理は、以下に述べるように、ラベルの再設定が必要なデータをディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0127】
この再設定用データ処理では、まず、平均値算出処理が実行される(
図19/STEP20)。この平均値算出処理では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における用語ペアのラベルの平均値が算出される。
【0128】
次いで、再設定用データの作成処理が実行される(
図19/STEP21)。この作成処理では、学習済みモデルの出力における用語ペアのラベルの平均値が前述した所定範囲内にある用語ペアが選択され、これの用語ペア及びラベルの値を含むように、再設定用データが作成される(図示せず)。
【0129】
次に、再設定用データの表示処理が実行される(
図19/STEP22)。この表示処理では、再設定用データがディスプレイ1aに表示される(出力ステップ)。それにより、ユーザは、予測精度の低い用語ペアのデータを確認して、その用語ペアのラベルを修正した学習データを自身で作成することが可能になる。さらに、そのような修正した学習データを用いて、予測モデルの学習を再実行した場合には、学習済みモデルの予測精度を高めることができる。この場合、ユーザは、学習データに加えて又は代えて、データの追加又はデータのラベルの修正を実施してもよい。
【0130】
次に、
図20を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、以下に述べるように、第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。
【0131】
この第2学習済みモデル作成処理では、まず、第2特許文献群の取得処理が実行される(
図20/STEP31)。この取得処理では、前述したように、第2所定キーワードに基づいて、特許文献データベース20を検索することにより、第2特許文献群が取得される(特許文献群取得ステップ)。
【0132】
次いで、第2用語群の取得処理が実行される(
図20/STEP32)。この取得処理では、前述したように、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。
【0133】
次に、第2特徴量データの作成処理が実行される(
図20/STEP33)。この作成処理では、前述したように、特許文献群、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。
【0134】
この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(
図20/STEP34)。この作成処理では、前述したように、地位概念データベース21を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。
【0135】
次いで、第2モデル学習処理が実行される(
図20/STEP35)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。
【0136】
次に、
図21を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0137】
この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(
図21/STEP40)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。
【0138】
次いで、第2地位概念データ群の表示処理が実行される(
図21/STEP41)。この表示処理では、前述したように、第2地位概念データ群がディスプレイ1aに表示される(出力ステップ)。この場合、第2地位概念データ群に加えて、地位概念データ群が同時にディスプレイ1aに表示されるように構成してもよい。
【0139】
以上のように、第1実施形態のデータ処理装置1によれば、特徴量データの用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータとして、学習データが作成され、この学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの用語ペアの上位概念及び下位概念の関係を表す概念データ群が作成される。
【0140】
ここで、特徴量データは、用語群に含まれる用語のうち、特許文献群の請求項に含まれる2つの用語のペアである用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの用語ペアの上位概念及び下位概念の関係を適切に予測したものとなる。
【0141】
したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を用語ペアの上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。これに加えて、特許文献のデータベースを検索することにより、特許文献群が、所定キーワードを請求項に含む特許文献の集合として取得される。それにより、地位概念データ群を、特許文献の集合の請求項における用語間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。
【0142】
さらに、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、用語間の上位概念及び下位概念の関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の用語が選択された際、その用語を請求項に含む特許文献の番号が表示される。それにより、ユーザは、用語ペアの上位概念及び下位概念の関係に加えて、用語ペアの各々の用語が含まれる特許文献の番号をさらに把握することができる。
【0143】
また、再設定用データの作成処理では、再設定用データが、学習済みモデルの出力における用語ペアのラベルの平均値が所定範囲内にある用語ペア及びラベルの値を含むように作成され、ディスプレイ1aに表示される。それにより、ユーザは、予測精度の低い用語ペアのデータを確認して、用語ペアのラベルを修正した学習データを自身で作成したり、地位概念データの内容を追加・修正したりすることができる。さらに、そのような修正した学習データを用いて、予測モデルの学習を再実行した場合には、学習済みモデルの予測精度を高めることができる。
【0144】
一方、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2特許文献群が取得され、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得され、特許文献群、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される。さらに、第2特徴量データから第2学習データが作成され、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成されるとともに、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。
【0145】
なお、第1実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1で構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。
【0146】
また、第1実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。
【0147】
さらに、第1実施形態は、所定キーワードが請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、所定キーワードが特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。
【0148】
一方、第1実施形態は、特許文献番号が特徴量データ及び学習データに含まれるように構成した例であるが、これに変えて、特許文献番号が特徴量データ及び学習データに含まれていないように構成してもよい。その場合には、例えば、請求項と特許文献番号をリンク付けしたデータベースをデータ処理装置内に記憶しておき、地位概念データ群の用語が選択されたときに、特許文献番号を表示するように構成してもよい。
【0149】
また、第1実施形態は、地位概念データ群が
図15に示す2次元の画像データとして作成された例であるが、地位概念データ群は、
図22に示すような3次元形式で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。
【0150】
さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。
【0151】
一方、第1実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。
【0152】
また、第1実施形態は、学習済みモデルとして、モデル学習部15で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。
【0153】
さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1で作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1に送信されて記憶されるように構成してもよい。その場合には、情報処理装置1において、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。
【0154】
一方、第1実施形態の地位概念データ群作成部16において、地位概念データ群が作成される毎に、この地位概念データ群における用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータを
図2の2点鎖線で示すように、地位概念データベース21に追加するように構成してもよい。このように構成した場合、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。
【0155】
また、第1実施形態は、情報処理装置1において、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。
【0156】
さらに、第1実施形態は、学習データ作成部14において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。
【0157】
また、第1実施形態は、所定キーワードとして「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、シリコーン油などを用いてもよい。
【0158】
さらに、第1実施形態は、第2所定キーワードとして、「ポリオキシエチレンジグリセリンステアリン酸エステル」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「ポリオキシアルキレンポリグリセリルエーテル」が所定キーワードである場合には、「ポリオキシエチレンジグリセリルエーテル」を第2所定キーワードとして用いてもよい。
【0159】
また、第1実施形態は、データ処理装置1内に記憶されている特許文献データベース20から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1と演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。
【0160】
さらに、第1実施形態は、データ処理装置1内に記憶されている地位概念データベース21を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1と演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。
【0161】
一方、第1実施形態は、
図10に示す地位概念データベース21を用いた例であるが、本発明の地位概念データベースは、これに限らず、用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、用語1が用語2の上位概念であることを「>」の記号で表し、用語1が用語2の下位概念であることを「<」の記号で表すとともに、用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。
【0162】
また、
図10の地位概念データベース21において、用語1と用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部14において、特徴量データの用語ペアが地位概念データベース21に含まれていないときに、特徴量データの用語ペアにおける用語1と用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。
【0163】
さらに、
図10の地位概念データベース21において、用語1と用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部14において、学習データにおける用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。
【0164】
次に、本発明の第2実施形態に係るデータ処理装置について説明する。本実施形態のデータ処理装置1A(
図23参照)は、
図1のデータ処理装置1と同一のパーソナルコンピュータタイプのものであるので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。
【0165】
本実施形態のデータ処理装置1Aには、非特許文献データベース39、特許文献データベース40及び地位概念データベース41(
図23参照)が記憶されている。これらのデータベース39~41の詳細については後述する。
【0166】
図23に示すように、データ処理装置1Aは、非特許文献群取得部30、用語群取得部31、特許文献群取得部32、特徴量データ作成部33、学習データ作成部34、モデル学習部35、地位概念データ群作成部36及び出力部37としての機能を備えている。
【0167】
まず、非特許文献群取得部30では、ユーザによる入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1A内の非特許文献データベース39を検索することにより、非特許文献群が取得される。
【0168】
ここで、非特許文献データベース39には、学術文献及び技術文献などの文献が多数含まれており、非特許文献群は、所定キーワードが文章又は図表などに含まれる非特許文献の集合として取得される。以下の説明では、所定キーワードが「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」である場合を例にとって説明する。
【0169】
次いで、用語群取得部31では、非特許文献群をデータマイニングすることにより、用語群が取得される。この用語群は、非特許文献群の文章などに含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。
【0170】
次に、特許文献群取得部32では、用語群に基づいて、特許文献データベース40を検索することにより、特許文献群が取得される。この特許文献群は、用語群中の用語が請求項に含まれる特許文献の集合として取得される。
【0171】
さらに、特徴量データ作成部33では、特許文献群及び用語群に基づいて、前述した
図4の特徴量データの作成手法と同じ手法により、特徴量データ(図示せず)が作成される。
【0172】
また、学習データ作成部34では、データ処理装置1A内の地位概念データベース41を参照することにより、学習データが作成される。ここで、地位概念データベース41は、前述した地位概念データベース21と同様に構成されており、学習データは、前述した
図9の学習データと同様に作成される。
【0173】
次いで、モデル学習部35では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。
【0174】
次に、地位概念データ群作成部36では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、図示しないが、前述した
図15の地位概念データ群と同様に作成される。すなわち、地位概念データ群は、用語ペアの用語を上位概念及び下位概念の関係に従うように並べた画像データとして作成される。
【0175】
そして、以上のように作成された地位概念データ群のデータが出力部37からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、地位概念データ群が表示される(図示せず)。
【0176】
このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群のいずれかの用語を選択した場合、図示しないが、その用語を含む非特許文献を表すデータ(非特許文献の名称又は番号)、及び、その用語を請求項に含む特許文献の番号の少なくとも一方が表示される。
【0177】
また、以上のデータ処理装置1Aの要素30~37においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、ポリオキシエチレンジグリセリンステアリン酸エステル)が入力された場合、以下に述べるように各種処理が実行される。
【0178】
すなわち、非特許文献群取得部30では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1A内の非特許文献データベース39を検索することにより、第2非特許文献群が取得される。
【0179】
次いで、用語群取得部31では、非特許文献群及び第2非特許文献をデータマイニングすることにより、第2用語群が取得される(図示せず)。この第2用語群は、非特許文献群及び第2非特許文献群の文章などに含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。
【0180】
次に、特許文献群取得部32では、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。この第2特許文献群は、第2用語群中の用語が請求項に含まれる特許文献の集合として取得される。
【0181】
さらに、特徴量データ作成部33では、第2特許文献群及び第2用語群に基づいて、前述した特徴量データと同様に、第2特徴量データが作成される(図示せず)。
【0182】
また、学習データ作成部34では、地位概念データベース41を参照することにより、上記の第2特徴量データから、前述した学習データと同様に、第2学習データが作成される(図示せず)。
【0183】
次いで、モデル学習部35では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される。それにより、第2学習済みモデルが作成される。
【0184】
さらに、地位概念データ群作成部36では、第2学習済みモデル及び第2特徴量データを用いて、前述した地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。
【0185】
そして、以上のように作成された第2地位概念データ群のデータが出力部17からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。
【0186】
次に、本実施形態のデータ処理装置1Aによって実行される各種演算処理について説明する。まず、
図24を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。
【0187】
この学習済みモデル作成処理では、まず、非特許文献群の取得処理が実行される(
図24/STEP51)。この取得処理では、前述したように、所定キーワードに基づいて、非特許文献データベース39を検索することにより、非特許文献群が取得される(非特許文献群取得ステップ)。
【0188】
次いで、用語群の取得処理が実行される(
図24/STEP52)。この取得処理では、前述したように、非特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。
【0189】
次に、特許文献の取得処理が実行される(
図24/STEP53)。この取得処理では、前述したように、用語群に基づいて、特許文献データベース40を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。
【0190】
次に、特徴量データの作成処理が実行される(
図24/STEP54)。この作成処理では、前述したように、特許文献群及び用語群に基づいて、特徴量データが作成される(特徴量データ作成ステップ)。
【0191】
この特徴量データの作成処理に続けて、学習データの作成処理が実行される(
図24/STEP55)。この作成処理では、前述したように、地位概念データベース41を参照することにより、学習データが作成される(学習データ作成ステップ)。
【0192】
次いで、モデル学習処理が実行される(
図24/STEP56)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。
【0193】
次に、
図25を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0194】
この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(
図25/STEP60)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される(地位概念データ群作成ステップ)。
【0195】
次いで、地位概念データ群の表示処理が実行される(
図25/STEP61)。この表示処理では、図示しないが、前述したように、地位概念データ群がディスプレイ1aに表示される(出力ステップ)。
【0196】
次に、
図26を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、以下に述べるように、第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。
【0197】
この第2学習済みモデル作成処理では、まず、第2非特許文献群の取得処理が実行される(
図26/STEP71)。この取得処理では、前述したように、第2所定キーワードに基づいて、非特許文献データベース39を検索することにより、第2非特許文献群が取得される(非特許文献群取得ステップ)。
【0198】
次いで、第2用語群の取得処理が実行される(
図26/STEP72)。この取得処理では、前述したように、非特許文献及び第2非特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。
【0199】
次に、第2特許文献群の取得処理が実行される(
図26/STEP73)。この取得処理では、前述したように、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。
【0200】
さらに、第2特徴量データの作成処理が実行される(
図26/STEP74)。この作成処理では、前述したように、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。
【0201】
この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(
図26/STEP75)。この作成処理では、前述したように、地位概念データベース41を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。
【0202】
次いで、第2モデル学習処理が実行される(
図26/STEP76)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。
【0203】
次に、
図27を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0204】
この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(
図27/STEP80)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。
【0205】
次いで、第2地位概念データ群の表示処理が実行される(
図27/STEP81)。この表示処理では、前述したように、第2地位概念データ群(図示せず)がディスプレイ1aに表示される(出力ステップ)。この場合、第2地位概念データ群に加えて、地位概念データ群が同時にディスプレイ1aに表示されるように構成してもよい。
【0206】
以上のように、第2実施形態に係るデータ処理装置1Aによれば、特徴量データの用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成される。
【0207】
ここで、特徴量データは、特許文献群の請求項に存在する用語群の用語のペアである用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、この地位概念データ群を用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。
【0208】
これに加えて、非特許文献のデータベースを検索することにより、非特許文献群が、所定キーワードが含まれる非特許文献の集合として取得され、非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得され、用語群に基づいて、特許文献のデータベースを検索することにより、用語群が請求項に含まれる特許文献の集合である特許文献群が取得される。それにより、地位概念データ群を、特許文献の集合の請求項における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係とを適切に分類したデータとして作成することができる。
【0209】
さらに、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、用語間の上位概念及び下位概念の関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の用語が選択された際、その用語を含む非特許文献を表すデータ(非特許文献の名称又は番号)、及び/又は、その用語を請求項に含む特許文献の番号が表示される。それにより、ユーザは、用語ペアの地位概念関係に加えて、用語ペアの各々の用語が含まれる非特許文献を表すデータ、及び/又は、用語ペアの各々の用語が請求項に含まれる特許文献の番号をさらに把握することができる。
【0210】
さらに、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2非特許文献群が取得され、非特許文献群及び第2非特許文献群をデータマイニングすることにより、第2用語群が取得され、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。さらに、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成され、地位概念データベース41を参照することにより、第2特徴量データから第2学習データが作成される。
【0211】
そして、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成され、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。
【0212】
なお、第2実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1Aで構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。
【0213】
また、第2実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。
【0214】
さらに、第2実施形態は、用語群が請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、用語群が特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。
【0215】
また、第2実施形態は、地位概念データ群を
図15と同様の2次元の画像データとした例であるが、地位概念データ群は、前述した
図22と同様の3次元で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。
【0216】
さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。
【0217】
一方、第2実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。
【0218】
また、第2実施形態は、学習済みモデルとして、モデル学習部35で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。
【0219】
さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1Aで作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1Aに送信されるように構成してもよい。その場合には、情報処理装置1Aにおいて、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。
【0220】
一方、第2実施形態の地位概念データ群作成部36において、地位概念データ群が作成される毎に、この地位概念データ群における用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータを
図23の2点鎖線で示すように、地位概念データベース41に追加するように構成してもよい。このように構成した場合、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。
【0221】
また、第2実施形態は、情報処理装置1Aにおいて、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。
【0222】
さらに、第2実施形態は、学習データ作成部34において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。
【0223】
また、第2実施形態は、所定キーワードとして「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、シリコーン油などを用いてもよい。
【0224】
さらに、第2実施形態は、第2所定キーワードとして、「ポリオキシエチレンジグリセリンステアリン酸エステル」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「ポリオキシアルキレンポリグリセリルエーテル」が所定キーワードである場合には、「ポリオキシエチレンジグリセリルエーテル」を第2所定キーワードとして用いてもよい。
【0225】
また、第2実施形態は、データ処理装置1A内に記憶されている非特許文献データベース39から非特許文献群を取得した例であるが、例えば、非特許文献データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の非特許文献データベースから非特許文献群を取得するように構成してもよい。
【0226】
さらに、第2実施形態は、データ処理装置1A内に記憶されている特許文献データベース40から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。
【0227】
一方、第2実施形態は、データ処理装置1A内に記憶されている地位概念データベース41を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。
【0228】
一方、第2実施形態は、前述した地位概念データベース21と同様の地位概念データベース41を用いた例であるが、本発明の地位概念データベースは、これに限らず、用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、用語1が用語2の上位概念であることを「>」の記号で表し、用語1が用語2の下位概念であることを「<」の記号で表すとともに、用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。
【0229】
また、地位概念データベース41において、用語1と用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部34において、特徴量データの用語ペアが地位概念データベース41に含まれていないときに、特徴量データの用語ペアにおける用語1と用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。
【0230】
さらに、地位概念データベース41において、用語1と用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部34において、学習データにおける用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。
【0231】
次に、本発明の第3実施形態に係るデータ処理装置について説明する。本実施形態のデータ処理装置1B(
図28参照)は、
図1のデータ処理装置1と同一のパーソナルコンピュータタイプのものであるので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。
【0232】
本実施形態のデータ処理装置1Bには、特許文献データベース59、基礎用語データベース60及び地位概念データベース61(
図28参照)が記憶されている。これらのデータベース59~61の詳細については後述する。
【0233】
図28に示すように、データ処理装置1Bは、特許文献群取得部50、用語群取得部51、基礎用語群取得部52、特徴量データ作成部53、学習データ作成部54、モデル学習部55、地位概念データ群作成部56及び出力部57としての機能を備えている。
【0234】
まず、特許文献群取得部50では、ユーザによる入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1B内の特許文献データベース59を検索することにより、特許文献群が取得される。
【0235】
ここで、特許文献データベース59には、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献が多数含まれており、特許文献群は、所定キーワードが請求項に含まれる特許文献の集合として取得される。以下の説明では、所定キーワードが「シリコーン油」である場合を例にとって説明する。
【0236】
次いで、用語群取得部51では、特許文献群をデータマイニングすることにより、
図29に示すような用語群が取得される。この用語群は、特許文献群の請求項に含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。
【0237】
次に、基礎用語群取得部52では、基礎用語データベース60を参照することにより、
図30に示す基礎用語群が用語群から取得される。ここで、基礎用語データベース60には、シリコーン油を含む各種物質の原料を表す基礎用語が含まれており、基礎用語群は、基礎用語データベース60に含まれている基礎用語を用語群から抜き出すことによって取得される。
【0238】
さらに、特徴量データ作成部53では、
図31に示す特徴量データが基礎用語群及び用語群から作成される。
図31に示すように、特徴量データは、選択用語1及び選択用語2からなる選択用語ペアを含むように作成される。これらの選択用語ペアは、基礎用語群から抜きだした1つの基礎用語と、基礎用語群から抜きだした他の1つの基礎用語又は用語群から抜きだした1つの用語とを、選択用語1及び選択用語2として組み合わせたものに相当する。なお、
図31のデータでは、出願番号及び請求項のデータの具体的な表示が省略されており、この点は、後述する
図32においても同様である。
【0239】
また、学習データ作成部54では、データ処理装置1B内の地位概念データベース61を用いて、
図31に示す特徴量データから
図32に示す学習データが作成される。ここで、地位概念データベース61は、
図33に示すように、選択用語ペアの間の上位概念及び下位概念の関係などの地位概念関係を定義したものである。
【0240】
図33において、ラベルの値は、選択用語ペア間の地位概念関係を表しており、具体的には、ラベルの値が「1」であることは、選択用語1が選択用語2の上位概念であることを表している。また、ラベルの値が「0」であることは、選択用語1が選択用語2の下位概念であることを表しており、選択用語1と選択用語2が上位概念及び下位概念の関係にないことを表している。
【0241】
学習データ作成部54では、この地位概念データベース61を参照して、
図31の特徴量データに対してラベルを付加することにより、
図32の学習データが作成される。
【0242】
次いで、モデル学習部55では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。
【0243】
次に、地位概念データ群作成部56では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、
図34に示すように、前述した選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の画像データであり、以下に述べる手法により作成される。
【0244】
すなわち、地位概念データ群作成部56では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力のラベルの値に基づいて、選択用語ペア間の地位概念関係が判定されるとともに、その判定結果に基づいて、選択用語ペアを並べることにより、地位概念データ群が作成される。
【0245】
例えば、特徴量データの選択用語1と選択用語2が「シリコーン油」及び「シクロメチコン」の場合には、学習済みモデルの出力が「1」となり、
図34に示すように、上位概念である選択用語「シリコーン油」に下位概念である選択用語「シクロメチコン」がぶら下がる状態で、地位概念データ群が作成される。
【0246】
また、選択用語1と選択用語2が「シクロメチコン」及び「シクロペンタシロキサン」の場合には、学習済みモデルの出力が「1」となり、
図34に示すように、上位概念である選択用語「シクロメチコン」に下位概念である選択用語「シクロペンタシロキサン」がぶら下がる状態で、地位概念データ群が作成される。以上の処理を継続して実行することにより、
図34に示す地位概念データ群が最終的に作成される。
【0247】
そして、以上のように作成された地位概念データ群のデータが出力部57からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、地位概念データ群が
図34に示す状態で表示される。
【0248】
このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群における選択用語のうち、いずれかの基礎用語を選択した場合、その基礎用語の基礎用語番号が表示される。例えば、
図35に示すように、基礎用語「ジメチコン」が選択された場合には、3つの基礎用語番号B002,B003,B004が表示される。
【0249】
これらの基礎用語番号B002~B004は、
図37のデータベースに示すように、基礎用語の製品名とリンク付けされた状態でデータベース化されている。それにより、ユーザは、
図37を参照することによって、基礎用語「ジメチコン」の製品名「シリコーンXXXXX」,「シリコーンKKKKK」,「シリコーンSSSSS」を把握することができる。
【0250】
この場合、基礎用語番号B002~B004がディスプレイ1aに表示されている状態で、基礎用語番号B002~B004のいずれかが選択された際に、選択された基礎用語番号に対応して、
図37に記載されている製品名が表示されるように構成してもよく、
図37のデータベースが別画面でディスプレイ1aに表示されるように構成してもよい。また、地位概念データ群のいずれかの基礎用語が選択された際、基礎用語番号に代えて又は加えて、基礎用語が含まれている特許文献の番号がディスプレイ1aに表示されるように構成してもよい。
【0251】
また、
図36に示すように、基礎用語「シクロメチコン」がクリックされた場合には、下位概念の基礎用語「シクロペンタシロキサン」の基礎用語番号(B001,B003)が表示されるとともに、下位概念の基礎用語「シクロヘキサシロキサン」の基礎用語番号(B009)が表示される。それにより、ユーザは、前述した
図37のデータベースを参照することによって、基礎用語「シクロペンタシロキサン」及び基礎用語「シクロヘキサシロキサン」の製品名を把握することができる。
【0252】
また、以上のデータ処理装置1Bの要素50~57においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、フェニルトリメチコン)が入力された場合、以下に述べるように各種処理が実行される。
【0253】
すなわち、特許文献群取得部50では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1B内の特許文献データベース59を検索することにより、第2特許文献群が取得される。
【0254】
次いで、用語群取得部51では、特許文献群及び第2特許文献をデータマイニングすることにより、第2用語群が取得される(図示せず)。この第2用語群は、特許文献群及び第2特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。
【0255】
次に、基礎用語群取得部52では、基礎用語データベース60を参照し、基礎用語データベース60に含まれている基礎用語を第2用語群から抜き出すことによって、第2基礎用語群が取得される(図示せず)。
【0256】
さらに、特徴量データ作成部53では、第2用語群及び第2基礎用語群に基づいて、前述した
図31の特徴量データと同様に、第2特徴量データが作成される(図示せず)。
【0257】
また、学習データ作成部54では、前述した地位概念データベース61を参照することにより、上記の第2特徴量データから、前述した
図32の学習データと同様に、第2学習データが作成される(図示せず)。
【0258】
次いで、モデル学習部55では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される。以下、第2学習データを用いた学習を実行済みの予測モデルを「第2学習済みモデル」という。
【0259】
さらに、地位概念データ群作成部56では、第2学習済みモデル及び第2特徴量データを用いて、前述した
図34の地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。
【0260】
そして、以上のように作成された第2地位概念データ群のデータが出力部57からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。
【0261】
次に、本実施形態のデータ処理装置1Bによって実行される各種演算処理について説明する。まず、
図38を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。
【0262】
この学習済みモデル作成処理では、まず、特許文献群の取得処理が実行される(
図38/STEP91)。この取得処理では、前述したように、所定キーワードに基づいて、特許文献データベース59を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。
【0263】
次いで、用語群の取得処理が実行される(
図38/STEP92)。この取得処理では、前述したように、特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。
【0264】
次に、基礎用語群の取得処理が実行される(
図38/STEP93)。この取得処理では、前述したように、基礎用語データベース60を参照することにより、基礎用語群が用語群から取得される(基礎用語群取得ステップ)。
【0265】
さらに、特徴量データの作成処理が実行される(
図38/STEP94)。この作成処理では、前述したように、特徴量データが用語群及び基礎用語群から作成される(特徴量データ作成ステップ)。
【0266】
この特徴量データの作成処理に続けて、学習データの作成処理が実行される(
図38/STEP95)。この作成処理では、前述したように、地位概念データベース61を参照することにより、学習データが作成される(学習データ作成ステップ)。
【0267】
次いで、モデル学習処理が実行される(
図38/STEP96)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。
【0268】
次に、
図39を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0269】
この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(
図39/STEP100)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される(地位概念データ群作成ステップ)。
【0270】
次いで、地位概念データ群の表示処理が実行される(
図39/STEP101)。この表示処理では、図示しないが、前述したように、地位概念データ群がディスプレイ1aに表示される(出力ステップ)。
【0271】
次に、
図40を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、前述した第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。
【0272】
この第2学習済みモデル作成処理では、まず、第2特許文献群の取得処理が実行される(
図40/STEP111)。この取得処理では、前述したように、第2所定キーワードに基づいて、特許文献データベース59を検索することにより、第2特許文献群が取得される(特許文献群取得ステップ)。
【0273】
次いで、第2用語群の取得処理が実行される(
図40/STEP112)。この取得処理では、前述したように、特許文献及び第2特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。
【0274】
さらに、第2基礎用語群の取得処理が実行される(
図40/STEP113)。この取得処理では、前述したように、基礎用語データベース60を参照し、基礎用語データベース60に含まれている基礎用語を第2用語群から抜き出すことによって、第2基礎用語群が取得される。
【0275】
次に、第2特徴量データの作成処理が実行される(
図40/STEP114)。この作成処理では、前述したように、第2用語群及び第2基礎用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。
【0276】
この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(
図40/STEP115)。この作成処理では、前述したように、地位概念データベース61を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。
【0277】
次いで、第2モデル学習処理が実行される(
図40/STEP116)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。
【0278】
次に、
図41を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。
【0279】
この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(
図41/STEP120)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。
【0280】
次いで、第2地位概念データ群の表示処理が実行される(
図41/STEP121)。この表示処理では、前述したように、第2地位概念データ群(図示せず)がディスプレイ1aに表示される(出力ステップ)。
【0281】
以上のように、第3実施形態に係るデータ処理装置1Bによれば、特徴量データの選択用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの選択用語ペアの地位概念関係を定義した地位概念データ群が作成される。
【0282】
ここで、特徴量データは、基礎用語群に含まれる基礎用語と、基礎用語群に含まれる他の基礎用語又は用語群に含まれる用語とのペアである選択用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの選択用語ペアの地位概念関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を選択用語ペアの地位概念関係が適切に分類されたデータとして作成することができる。
【0283】
さらに、地位概念データ群が、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、選択用語間の地位概念関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の選択用語における基礎用語がクリックされた際、その基礎用語の製品名とリンク付けされた基礎用語番号が表示される。それにより、ユーザは、選択用語間の地位概念関係に加えて、基礎用語の製品名をさらに把握することができる。
【0284】
一方、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2特許文献群が取得され、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得され、基礎用語データベース60を参照することにより、第2用語群から第2基礎用語群が取得される。さらに、第2用語群及び第2基礎用語群に基づいて、第2特徴量データが作成され、地位概念データベース61を参照することにより、第2特徴量データから第2学習データが作成される。そして、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成されるとともに、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。
【0285】
なお、第3実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1Bで構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。
【0286】
また、第3実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。
【0287】
さらに、第3実施形態は、用語群が請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、用語群が特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。
【0288】
さらに、第3実施形態は、地位概念データ群を
図34に示す2次元の画像データとした例であるが、地位概念データ群は、前述した
図22と同様の3次元で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。
【0289】
さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。
【0290】
また、第3実施形態は、基礎用語として、所定物質の原料を表す用語を用いた例であるが、本発明の基礎用語は、これに限らず、所定物質の原料、部品及び材質のいずれかを表す用語であればよい。例えば、基礎用語として、金属の材質などを用いてもよい。
【0291】
さらに、第3実施形態は、基礎用語の製品情報として、基礎用語の製品名を用いた例であるが、これに代えて、基礎用語の製品情報として、基礎用語の製品番号を用いてもよい。
【0292】
一方、第3実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。
【0293】
また、第3実施形態は、学習済みモデルとして、モデル学習部55で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。
【0294】
さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1Bで作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1Bに送信されるように構成してもよい。その場合には、情報処理装置1Bにおいて、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。
【0295】
一方、第3実施形態の地位概念データ群作成部56において地位概念データ群が作成される毎に、以下に述べるように、基礎用語データベース60及び地位概念データベース61に対して、データの追加を実行してもよい。すなわち、地位概念データ群における選択用語において、その選択用語が基礎用語データベース60に含まれていない場合には、その選択用語が基礎用語データベース60に追加されるように構成してもよい。このように構成した場合、データ量が増加した基礎用語データベース60を用いて、特徴量データが作成されることにより、地位概念データ群のデータ量を増大させることができる。
【0296】
また、地位概念データ群における選択用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータが地位概念データベース61に含まれていない場合には、
図28の2点鎖線で示すように、地位概念データベース61に追加するように構成してもよい。このように構成した場合、データ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。
【0297】
また、第3実施形態は、情報処理装置1Bにおいて、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。
【0298】
さらに、第3実施形態は、学習データ作成部54において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。
【0299】
また、第3実施形態は、所定キーワードとして「シリコーン油」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、バラエキスなどを用いてもよい。
【0300】
さらに、第3実施形態は、第2所定キーワードとして、「フェニルトリメチコン」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「界面活性剤」が所定キーワードである場合には、「粘度調整剤」を第2所定キーワードとして用いてもよい。
【0301】
また、第3実施形態は、データ処理装置1B内に記憶されている特許文献データベース59から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。
【0302】
さらに、第3実施形態は、データ処理装置1B内に記憶されている基礎用語データベース60から基礎用語群を取得した例であるが、例えば、基礎用語データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の基礎用語データベースから基礎用語群を取得するように構成してもよい。
【0303】
一方、第3実施形態は、データ処理装置1B内に記憶されている地位概念データベース61を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。
【0304】
一方、第3実施形態は、
図33に示す地位概念データベース61を用いた例であるが、本発明の地位概念データベースは、これに限らず、選択用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、選択用語1が選択用語2の上位概念であることを「>」の記号で表し、選択用語1が用語2の下位概念であることを「<」の記号で表すとともに、選択用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。
【0305】
また、地位概念データベース61において、選択用語1と選択用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部54において、特徴量データの選択用語ペアが地位概念データベース61に含まれていないときに、特徴量データの選択用語ペアにおける選択用語1と選択用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。
【0306】
さらに、地位概念データベース61において、選択用語1と選択用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部34において、学習データにおける選択用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。
【符号の説明】
【0307】
1 データ処理装置
1a ディスプレイ(出力装置)
11 特許文献群取得部
12 用語群取得部
13 特徴量データ作成部
14 学習データ作成部
15 モデル学習部(モデル記憶部)
16 地位概念データ群作成部
17 出力部
18 平均値算出部
20 特許文献データベース
21 地位概念データベース
1A データ処理装置
30 非特許文献群取得部
31 用語群取得部
32 特許文献群取得部
33 特徴量データ作成部
34 学習データ作成部
35 モデル学習部
36 地位概念データ群作成部
37 出力部
39 非特許文献データベース
40 特許文献データベース
41 地位概念データベース
1B データ処理装置
50 特許文献群取得部
51 用語群取得部
52 基礎用語群取得部
53 特徴量データ作成部
54 学習データ作成部
55 モデル学習部
56 地位概念データ群作成部
57 出力部
59 特許文献データベース
60 基礎用語データベース
61 地位概念データベース
【要約】
【課題】特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理システムなどを提供する。
【解決手段】データ処理装置1では、所定キーワードが含まれる特許文献群が取得され、特許文献群における用語の集合である用語群が取得され、用語ペアなどを含む特徴量データが作成され、地位概念関係を表すラベルを特徴量データに付加したデータである学習データが作成され、学習データを用いて、予測モデルの学習が実行され、特徴量データを学習が終了した予測モデルに入力したときの予測モデルの出力を用いて、地位概念データ群が作成され、地位概念データ群がディスプレイ1aに表示される。
【選択図】
図16