(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023110604
(43)【公開日】2023-08-09
(54)【発明の名称】用語抽出装置、方法、及びプログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20230802BHJP
G06F 40/216 20200101ALI20230802BHJP
【FI】
G06F40/279
G06F40/216
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022012161
(22)【出願日】2022-01-28
(71)【出願人】
【識別番号】521134765
【氏名又は名称】株式会社ニーズエクスプローラ
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】城谷 晃一
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB08
5B091AB11
5B091EA01
(57)【要約】 (修正有)
【課題】新アイディアの創出や動向調査に有用な用語を抽出する用語抽出装置、方法及びプログラムを提供する。
【解決手段】取得部及び抽出部を含む用語抽出装置10において、取得部は、対象文書から抽出された複数の単語の各々について、対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を所定期間に対応する作成又は公開に関する時期の順に並べた対象パターンを取得する。抽出部は、学習用文書から抽出された複数の単語の各々について学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、所定期間に対応する作成又は公開に関する時期の順に並べた学習用パターンと、学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、取得部により取得された対象パターンとに基づいて、対象文書から抽出された複数の単語から、新規用語を抽出する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得する取得部と、
学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する抽出部と、
を含む用語抽出装置。
【請求項2】
前記抽出部は、前記機械学習モデルに基づいて、前記対象文書から抽出された複数の単語の各々についての前記対象パターンのうち、前記新規用語を示すラベルが対応付けられた前記学習用パターンとの類似度が高い順に選択した所定個の前記対象パターンに対応する単語を、前記新規用語として抽出する請求項1に記載の用語抽出装置。
【請求項3】
前記抽出部は、前記学習用パターンと前記対象パターンとで、同一の前記所定期間を対応させて前記類似度を算出する請求項2に記載の用語抽出装置。
【請求項4】
前記抽出部は、前記所定期間を対応させることなく、前記学習用パターンと前記対象パターンとの前記類似度を算出する請求項2に記載の用語抽出装置。
【請求項5】
所定期間を、前記対象文書及び前記学習用文書の公開年毎の期間とする請求項1~請求項4のいずれか1項に記載の用語抽出装置。
【請求項6】
前記抽出部は、前記学習用文書に記載されている内容が属する分野毎の複数の前記機械学習モデルから選択された分野の前記機械学習モデルを用いて、前記新規用語を抽出する請求項1~請求項5のいずれか1項に記載の用語抽出装置。
【請求項7】
前記取得部は、前記対象パターンに対応する単語の品詞をさらに含む前記対象パターンを取得し、
前記抽出部は、前記学習用パターンに対応する単語の品詞をさらに含む前記学習用パターンに基づいて学習された前記機械学習モデルを用いる
請求項1~請求項6のいずれか1項に記載の用語抽出装置。
【請求項8】
前記学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けを学習することにより、前記対象パターンに対応する単語が従来用語か新規用語かを推定するための前記機械学習モデルを生成する学習部をさらに含む請求項1~請求項7のいずれか1項に記載の用語抽出装置。
【請求項9】
前記学習部は、前記抽出部による抽出結果に基づいて、前記機械学習モデルを再学習する請求項8に記載の用語抽出装置。
【請求項10】
取得部が、対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得し、
抽出部が、学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する
用語抽出方法。
【請求項11】
コンピュータを、
対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得する取得部、及び、
学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する抽出部
として機能させるための用語抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、用語抽出装置、用語抽出方法、及び用語抽出プログラムに関する。
【背景技術】
【0002】
従来、特許文献、論文、ニュース記事等の様々な文書から、タスクに応じた特定の用語を抽出する技術が存在する。
【0003】
例えば、文書から固有表現を抽出する情報処理装置が提案されている(特許文献1参照)。この装置は、文章を、少なくとも一文字以上を含む文字列に分割し、ユーザによって入力された複数のクエリに基づいて、分割された文字列毎にスコアを算出し、算出されたスコアに基づいて、文章から固有表現を抽出する。
【0004】
また、例えば、原語の略語候補を取得し、第1の条件及び第2の条件の少なくとも1つを満たす略語候補を出力する略語抽出装置が提案されている(特許文献2参照)。この装置において、第1の条件は、略語候補が、原語に含まれる複数の名詞のうちの2以上の名詞を省略したものでないことであり、第2の条件は、略語候補が、原語に含まれる複数の名詞のうちの最後の名詞を省略したものでないことである。
【0005】
また、例えば、テキストデータから専門用語を抽出する専門用語抽出装置が提案されている(特許文献3参照)。この装置は、文書のテキストデータを取得し、テキストデータから抽出したNグラムのチャンクから体言を認識することで専門用語の候補語を抽出し、抽出された候補語のテキストデータにおける出現頻度をカウントする。また、この装置は、カウントされた候補語の出現頻度と当該候補語が抽出されたNグラムの長さとに基づいて、当該候補語が専門用語に該当するかどうかを判別する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2020-154790号公報
【特許文献2】特開2021-18506号公報
【特許文献3】特開2021-192212号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
例えば、新製品の開発や新企画の立案等、企業における新アイディアの創出や、他社の動向調査の際の新しい動きの調査や、新しい動向の定期的な調査(SDI的な調査)に有用な用語を、文書集合から抽出したい場合がある。このような要求に対して、上記の従来技術では対応することができない。
【0008】
本発明は、上記の点に鑑みてなされたものであり、新アイディアの創出や動向調査に有用な用語を抽出することができる用語抽出装置、方法、及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
開示の技術の第1態様に係る用語抽出装置は、対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得する取得部と、学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する抽出部と、を含んで構成されている。
【0010】
また、開示の技術の第2態様に係る用語抽出方法は、取得部が、対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得し、抽出部が、学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する方法である。
【0011】
また、開示の技術の第3態様に係る用語抽出プログラムは、コンピュータを、対象文書から抽出された複数の単語の各々について、前記対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた対象パターンを取得する取得部、及び、学習用文書から抽出された複数の単語の各々について、前記学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、前記所定期間に対応する前記作成又は公開に関する時期の順に並べた学習用パターンと、前記学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルと、前記取得部により取得された前記対象パターンとに基づいて、前記対象文書から抽出された複数の単語から、新規用語を抽出する抽出部として機能させるためのプログラムである。
【発明の効果】
【0012】
本発明に係る用語抽出装置、方法、及びプログラムによれば、新アイディアの創出や動向調査に有用な用語を抽出することができる。
【図面の簡単な説明】
【0013】
【
図1】用語抽出装置のハードウェア構成を示すブロック図である。
【
図2】用語抽出装置の機能構成の例を示すブロック図である。
【
図6】学習処理の一例を示すフローチャートである。
【
図7】抽出処理の一例を示すフローチャートである。
【
図8】具体例における学習用パターンの一例を示す図である。
【
図9】具体例における対象パターンの一例を示す図である。
【
図10】具体例における新規用語の一例を示す図である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態の一例を、図面を参照しつつ説明する。
【0015】
図1は、本実施形態に係る用語抽出装置10のハードウェア構成を示すブロック図である。
図1に示すように、用語抽出装置10は、CPU(Central Processing Unit)12、メモリ14、記憶装置16、入力装置18、出力装置20、記憶媒体読取装置22、及び通信I/F(Interface)24を有する。各構成は、バス26を介して相互に通信可能に接続されている。
【0016】
記憶装置16には、後述する学習処理及び抽出処理を実行するための用語抽出プログラムが格納されている。CPU12は、中央演算処理ユニットであり、各種プログラムを実行したり、各構成を制御したりする。すなわち、CPU12は、記憶装置16からプログラムを読み出し、メモリ14を作業領域としてプログラムを実行する。CPU12は、記憶装置16に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。
【0017】
メモリ14は、RAM(Random Access Memory)により構成され、作業領域として一時的にプログラム及びデータを記憶する。記憶装置16は、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)等により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。
【0018】
入力装置18は、例えば、キーボードやマウス等の、各種の入力を行うための装置である。出力装置20は、例えば、ディスプレイやプリンタ等の、各種の情報を出力するための装置である。出力装置20として、タッチパネルディスプレイを採用することにより、入力装置18として機能させてもよい。
【0019】
記憶媒体読取装置22は、CD(Compact Disc)-ROM、DVD(Digital Versatile Disc)-ROM、ブルーレイディスク、USB(Universal Serial Bus)メモリ等の各種の記憶媒体に記憶されたデータの読み込みや、記憶媒体に対するデータの書き込み等を行う。通信I/F24は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI又はWi-Fi(登録商標)等の規格が用いられる。
【0020】
次に、本実施形態に係る用語抽出装置10の機能構成について説明する。
【0021】
図2は、用語抽出装置10の機能構成の例を示すブロック図である。
図2に示すように、用語抽出装置10は、機能構成として、学習時に機能する取得部32と、学習部34と、抽出時に機能する取得部38と、抽出部40とを含む。また、用語抽出装置10の所定の記憶領域には、機械学習モデル36が記憶される。各機能構成は、CPU12が記憶装置16に記憶された用語抽出プログラムを読み出し、メモリ14に展開して実行することにより実現される。
【0022】
学習時において、用語抽出装置10には、学習用パターンが入力される。学習用パターンは、
図3に示すように、学習用文書DBに記憶された複数の学習用文書の各々から抽出された複数の単語の各々について、単語が含まれる学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、所定期間に対応する作成又は公開に関する時期の順に並べたパターンである。学習用文書は、特許文献、論文、ニュース記事、webの記載等の様々な文書(テキストデータ)である。学習用文書の作成に関する時期は、例えば、学習用文書に明記されている文書の作成日等としてよい。学習用文書が特許文献の場合、出願日を学習用文書の作成に関する時期としてよい。また、学習用文書の公開に関する時期は、例えば、学習用文書がweb上で公開された日、発行日、学習用文書DBにアクセス可能な状態で格納された日等としてよい。学習用文書が特許文献の場合、公開日を学習用文書の公開に関する時期としてよい。
【0023】
学習用パターンの生成方法について具体的に説明する。例えば、学習用パターンを生成するための生成装置が、学習用文書の各々を形態素解析し、名詞や動詞などの所定の品詞の単語を抽出する。また、生成装置は、予め除外する単語を定めた除外リストに含まれる単語を、抽出した単語から除外するようにしてもよい。また、生成装置は、単語を抽出した学習用文書の作成又は公開に関する時期が含まれる期間(
図3の例では、期間1、期間2、・・・、期間5)毎に、その単語の出現回数を集計する。期間は、例えば、年単位、半年単位、1カ月単位等としてよい。ここでは、期間1、期間2、・・・の順に、学習用文書の作成又は公開に関する時期が古いことを表す。そして、生成装置は、期間毎の単語の出現回数を、期間に対応する作成又は公開に関する時期の順に並べたものを、その単語についての学習用パターンとして生成する。
図3の下図に示すテーブルの例では、各行が1つの単語の学習用パターン(
図3の破線部)に相当する。
【0024】
また、各学習用パターンには、学習用パターンに対応する単語が従来用語か新規用語かを示すラベル(
図3の一点鎖線部)が付与されている。例えば、生成装置は、生成した学習用パターンを表示装置に表示し、人手により付与されたラベルを受け付け、受け付けたラベルを学習用パターンに対応付けて記憶する。人手によるラベル付与は、例えば、学習用パターンに含まれる複数の期間のうち、直近の所定数の期間での出現回数が所定回数以上で、かつそれ以前の期間の出現回数が0の学習用パターンに、新規用語を示すラベル(例えば「1」)、それ以外の学習用パターンに、従来用語を示すラベル(例えば「0」)を付与することにより行われる。
【0025】
取得部32は、用語抽出装置10に入力された、ラベル付きの複数の学習用パターンを取得する。
【0026】
学習部34は、取得部32により取得された学習用パターンと、その学習用パターンに付与されたラベルとの対応付けを学習する。これにより、学習部34は、対象パターン(詳細は後述)に対応する単語が従来用語か新規用語かを推定するための機械学習モデル36を生成する。
【0027】
具体的には、学習部34は、学習用パターンを、期間と出現頻度(出現回数)との組み合わせを要素とするベクトルに変換する。例えば、学習部34は、
図3の下図の1行目の学習用パターンの場合、(1,3196,2,5748,・・・,5,3196)のようなベクトルに変換する。そして、学習部34は、ラベルの種類毎に統合した1以上のベクトルを、機械学習モデル36として生成する。すなわち、新規用語に対応する学習用パターンを示すベクトル、及び従来用語に対応する学習用パターンを示すベクトルが機械学習モデル36として生成される。
【0028】
例えば、学習部34は、ラベルが1である全てのベクトルを平均するなどして新規用語に対応する学習用パターンを示すベクトルを生成してよい。また、同様に、学習部34は、ラベルが0である全てのベクトルを平均するなどして従来用語に対応する学習用パターンを示すベクトルを生成してよい。また、学習部34は、新規用語に対応する学習用パターンを示すベクトル及び従来用語に対応する学習用パターンを示すベクトルのそれぞれを複数生成してもよい。具体的には、学習部34は、ラベル1及び0のそれぞれのベクトルを類似度等に基づいて複数のグループに分類し、グループ毎にベクトルを平均するなどすればよい。また、学習部34は、ベクトルを統合することなく、ラベルが1である全てのベクトルを、新規用語に対応する学習用パターンを示すベクトルとし、ラベルが0である全てのベクトルを、従来用語に対応する学習用パターンを示すベクトルとしてよい。
【0029】
また、学習部34は、生成した複数のベクトルの値を正規化してもよい。これにより、出現頻度の大小による影響を抑制し、期間の経過による出現頻度の変化、すなわち、パターンの形状に着目した学習用パターンを示すベクトルを生成することができる。
【0030】
抽出時において、用語抽出装置10には、対象パターンが入力される。対象パターンは、
図4に示すように、対象文書DBに記憶された複数の対象文書の各々から抽出された複数の単語の各々について、単語が含まれる対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、所定期間に対応する作成又は公開に関する時期の順に並べたパターンである。対象文書は、特許文献、論文、ニュース記事、webの記載等の様々な文書(テキストデータ)であり、新規用語を抽出する対象となる文書である。対象文書の作成又は公開に関する時期の例示は、上述した学習用文書の場合と同様である。また、対象パターンの生成方法は、上述した学習用パターンの生成方法と同様である。なお、対象パターンにはラベルは付与されない。
【0031】
取得部38は、用語抽出装置10に入力された複数の対象パターンを取得する。
【0032】
抽出部40は、学習部34により生成された機械学習モデル36と、取得部38により取得された対象パターンとに基づいて、複数の対象パターンに対応する単語の各々から、新規用語を抽出する。具体的には、抽出部40は、機械学習モデル36に基づいて、複数の対象パターンのうち、新規用語を示すラベルが対応付けられた学習用パターンとの類似度が高い順に選択した所定個の対象パターンに対応する単語を、新規用語として抽出する。
【0033】
より具体的には、
図5に示すように、抽出部40は、各単語に対応する対象パターン(
図5中の破線部)を、上記と同様にベクトル化する。そして、抽出部40は、機械学習モデル36として生成された、新規用語に対応する学習用パターンを示すベクトル、及び従来用語に対応する学習用パターンを示すベクトルの各々と、対象パターンを示すベクトルとの類似度を算出する。類似度は、例えばベクトル間のコサイン類似度等としてよい。新規用語及び従来用語に対応する学習用パターンを示すベクトルがそれぞれ複数存在する場合には、抽出部40は、複数のベクトルの各々と、対象パターンを示すベクトルとの類似度の最大値や平均等を、最終的な類似度として算出してよい。また、抽出部40は、従来用語に対応する学習用パターンを示すベクトルとの類似度と、新規用語に対応する学習用パターンを示すベクトルとの類似度との和が1となるように各類似度を算出してよい。例えば、抽出部40は、
図5に示すように、従来用語に対応する学習用パターンを示すベクトルとの類似度=0.7、新規用語に対応する学習用パターンを示すベクトルとの類似度=0.3の場合、(0.7,0.3)のような類似度の算出結果を出力してよい。
【0034】
抽出部40は、
図5の下図に示すように、新規用語に対応する学習用パターンを示すベクトルとの類似度が所定値以上又は上位所定個までの対象パターンに対応する単語を、新規用語として抽出し、出力する。上記の所定値又は所定個は、新規用語を広く抽出したいか、又は少数に絞って抽出したいかに応じて適宜設定可能である。例えば、新規用語を広めに抽出したい場合、所定値を0.5以下の値として、従来用語に対応する学習用パターンとの類似度の方が高い対象パターンに対応する単語も抽出範囲に含めるようにしてもよい。
【0035】
次に、本実施形態に係る用語抽出装置10の作用について説明する。
【0036】
用語抽出装置10に学習用パターンが入力され、機械学習モデル36の学習が指示されると、用語抽出装置10において、
図6に示す学習処理が実行される。また、用語抽出装置10に対象パターンが入力され、対象パターンからの新規用語の抽出が指示されると、用語抽出装置10において、
図7に示す抽出処理が実行される。以下、学習処理及び抽出処理の各々について説明する。
【0037】
【0038】
ステップS10で、取得部32が、用語抽出装置10に入力された、新規用語又は従来用語を示すラベル付きの学習用パターンを複数取得する。次に、ステップS12で、学習部34が、取得された学習用パターンと、その学習用パターンに付与されたラベルとの対応付けを学習することにより、機械学習モデル36を生成する。学習部34は、生成した機械学習モデル36を所定の記憶領域に記憶し、学習処理は終了する。
【0039】
【0040】
ステップS20で、取得部38が、用語抽出装置10に入力された複数の対象パターンを取得する。次に、ステップS22で、抽出部40が、機械学習モデル36として生成された、新規用語に対応する学習用パターン及び従来用語に対応する学習用パターンの各々と、対象パターンとの類似度を算出する。次に、ステップS24で、抽出部40が、新規用語に対応する学習用パターンとの類似度が上位所定個までの対象パターンに対応する単語を、新規用語として抽出する。抽出部40は、抽出した新規用語を出力し、抽出処理は終了する。
【0041】
以上説明したように、本実施形態に係る用語抽出装置は、対象文書から抽出された複数の単語の各々について、対象文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、所定期間に対応する作成又は公開に関する時期の順に並べた対象パターンを取得する。また、用語抽出装置は、学習用文書から抽出された複数の単語の各々について、学習用文書の作成又は公開に関する時期を基準とした所定期間毎に集計された出現頻度を、所定期間に対応する作成又は公開に関する時期の順に並べた学習用パターンと、学習用パターンに対応する単語が従来用語か新規用語かを示すラベルとの対応付けが学習された機械学習モデルを有する。そして、用語抽出装置は、機械学習モデルと、取得された対象パターンとに基づいて、対象文書から抽出された複数の単語から、新規用語を抽出する。これにより、新アイディアの創出や動向調査に有用な用語を抽出することができる。
【0042】
また、上述したような新規用語を、人が文書を目視して抽出することも可能ではあるが、膨大な単語の中から人手により新規用語を抽出することは、沢山の時間がかかる上、抽出漏れが発生する可能性が高くなる。本実施形態に係る用語抽出装置によれば、人手で新規用語を抽出する場合に比べ、工数を大幅に削減して迅速に新規用語を抽出することができ、かつ人手による抽出漏れも抑制することができ、抽出精度の向上を図ることができる。
【0043】
なお、上記実施形態では、学習処理を実行する機能部と、抽出処理を実行する機能部とが1つのコンピュータに含まれる場合について説明したが、これに限定されず、それぞれ別のコンピュータで実現するようにしてもよい。
【0044】
また、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した学習処理及び抽出処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理及び抽出処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
【0045】
また、上記実施形態では、用語抽出プログラムが記憶装置に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
【0046】
<変形例1>
上記実施形態では、学習用パターンと対象パターンとの類似度を算出する際に、両パターンを示すベクトルに、期間を識別する情報も加えることで、同一の期間を対応させて類似度を算出する場合について説明したが、これに限定されない。例えば、変形例1として、対応させる期間を相対化させて、学習用パターンと対象パターンとの類似度を算出してもよい。具体的には、学習用パターン及び対象パターンの各々を示すベクトルとして、(3196,5748,・・・,3196)のように、出現頻度(出現回数)のみを要素として含むベクトルを算出する。そして、学習用パターンと対象パターンとの類似度を算出する際、ベクトルの要素を1つずつずらしながら類似度を算出し、最も高い類似度を、その学習用パターンと対象パターンとの類似度としてよい。また、1つの学習用パターンから、期間を前後にずらしたり、パターンのピークを平坦にしたりするなどして、予め複数パターンの学習用パターンを生成しておいてもよい。この場合、複数パターンのうち、対象パターンとの類似度が最も高い類似度を、元の学習用パターンと対象パターンとの類似度としてよい。
【0047】
例えば、学習用文書及び対象文書が特許文献等の技術文献であり、学習用文書と対象文書とで関連する会社が異なる場合を想定する。この場合、上記のように、期間を対応させないことで、すなわち期間を相対化させることで、例えば、会社によって普及した時期が異なる技術に関連する用語であっても、パターンの類似に基づいて新規用語として抽出することができる。
【0048】
なお、上記実施形態のように、期間を対応させて学習用パターンと対象パターンとの類似度を算出する場合は、普及時期が明確な分野の用語を抽出する場合には有用である。
【0049】
<変形例2>
変形例2として、学習部は、学習用文書に記載されている内容が属する分野毎の複数の機械学習モデルを生成するようにしてもよい。そして、抽出部は、ユーザにより選択された分野の機械学習モデルを用いて、新規用語を抽出するようにしてもよい。分野は、各文書に関連する技術分野であってもよいし、業種等であってもよい。また、会社別の機械学習モデルを生成してもよい。
【0050】
これにより、例えば、同分野の機械学習モデルを選択することで、同業他社の動向との比較で、自社の新規用語を抽出することができる。また、他分野の機械学習モデルを選択することで、自社の技術においてこれまでに気付いていなかったような新たな知見を得るために有用な新規用語を抽出できる可能性が高まる。
【0051】
<変形例3>
変形例3として、学習用パターン及び対象パターンに、各パターンに対応する単語の品詞を含めてもよい。品詞を含めることで、出現頻度のパターンが学習用パターンと類似しているものの、新規用語としては不適切な単語が抽出される場合を抑制することができる。
【0052】
図8~
図10に、変形例2及び変形例3の具体例に関する図を示す。
図8は、自動車以外の特定の業種・企業の特許文献を学習用文書として生成した学習用パターンの一例を示す図である。
図8において、太枠で示す部分が、ラベル付きの学習用パターンとなる部分である。
図9は、自動車会社の特許文献を対象文書として生成した対象パターンの一例を示す図である。
図9において、太枠で示す部分が、対象パターンとなる部分であり、破線で示す部分が、類似度の算出結果である。類似度(1)は、新規用語に対応する学習用パターンとの類似度、類似度(0)は、従来用語に対応する学習用パターンとの類似度を表している。なお、
図8及び
図9は、出現頻度の集計期間を1年単位とした例である。
図10は、出力される新規用語の一例を示す図である。
【0053】
<変形例4>
変形例4として、学習部は、抽出部による抽出結果に基づいて、機械学習モデルを再学習するようにしてもよい。具体的には、出力された新規用語に、新規用語として不適切な単語が含まれていた場合、学習部は、その単語の対象パターンに、従来技術を示すラベルを付与してラベル付きの学習用パターンとする。そして、学習部は、この学習用パターンを元の学習用パターンに追加して、機械学習モデルを再学習するようにしてよい。
【0054】
<変形例5>
上記実施形態では、学習用パターンとして、新規用語か従来用語かの2値分類を行う場合について説明したが、これに限定されない。変形例5として、多値分類可能な学習用パターンを生成してもよい。学習用文書において、例えば、「機械学習」という単語が2015年頃から出現し、「全固体電池」という単語が2020年頃から出現しているとする。この2つの単語を区別して、新規用語の学習用パターンを生成するようにしてもよい。すなわち、学習部は、以下の学習パターンを生成する。
1.新規用語1の学習パターン(「機械学習」の学習パターン)
2.新規用語2の学習パターン(「全固体電池」の学習パターン)
3.従来用語の学習パターン(1及び2以外)
【符号の説明】
【0055】
10 用語抽出装置
12 CPU
14 メモリ
16 記憶装置
18 入力装置
20 出力装置
22 記憶媒体読取装置
24 通信I/F
26 バス
32 取得部
34 学習部
36 機械学習モデル
38 取得部
40 抽出部