特許7553314 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リクルートの特許一覧

特許7553314推定装置、推定方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】推定装置、推定方法及びプログラム

(51)【国際特許分類】

G06F 40/295 20200101AFI20240910BHJP

【ＦＩ】

G06F40/295

【請求項の数】 5

(21)【出願番号】P 2020172682

(22)【出願日】2020-10-13

(65)【公開番号】P2022064137

(43)【公開日】2022-04-25

【審査請求日】2023-06-13

(73)【特許権者】

【識別番号】518135412

【氏名又は名称】株式会社リクルート

(74)【代理人】

【識別番号】100079108

【弁理士】

【氏名又は名称】稲葉良幸

(74)【代理人】

【識別番号】100109346

【弁理士】

【氏名又は名称】大貫敏史

(74)【代理人】

【識別番号】100117189

【弁理士】

【氏名又は名称】江口昭彦

(74)【代理人】

【識別番号】100134120

【弁理士】

【氏名又は名称】内藤和彦

(74)【代理人】

【識別番号】100139066

【弁理士】

【氏名又は名称】伊藤健太郎

(72)【発明者】

【氏名】塩澤繁

【審査官】成瀬博之

(56)【参考文献】

【文献】米国特許第０７５５５４２８（ＵＳ，Ｂ１）

【文献】特開２０１２－１８５６６６（ＪＰ，Ａ）

【文献】国際公開第２０１２／１１１２２６（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ４０／２０－４０／５８

(57)【特許請求の範囲】

【請求項1】

複数の文章の入力を受け付ける受付部と、
前記複数の文章に含まれる、連続する複数の単語を含む単語群からＮグラムを生成する生成部と、
生成された前記Ｎグラムのうち隣接する２つのＮグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定する推定部と、
前記特定の用語に関する情報を出力する出力部と、
を有し、
前記ＮグラムにおけるＮの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定部は、
Ｎの値をＮの最大値から１つ減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第１閾値以上である隣接する２つのＮグラムが存在しない場合は、Ｎの値を更に１減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Ｎの値が１になるまで繰り返し行い、
隣接する２つのＮグラム間の類似度が前記第１閾値以上であるＮグラムが存在する場合、該隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
推定装置。

【請求項2】

前記複数の文章の各々には、日付を示す情報が含まれており、
前記日付を示す情報に基づいて、前記複数の文章の中から、前記特定の用語を含む文章の数を、所定期間ごとに集計する集計部と、
前記集計部により集計された前記所定期間ごとの前記文章の数に基づいて、前記特定の用語を含む文章の数が増加する、時系列上の変化点を検出する検出部と、を含み、
前記出力部は、前記時系列上の変化点に関する情報を出力する、
請求項１に記載の推定装置。

【請求項3】

前記推定部は、推定した前記特定の用語が複数存在する場合、前記複数の特定の用語の各々の分散表現に基づいて類似度を評価することで、前記特定の用語のグループを推定し、
前記集計部は、前記日付を示す情報に基づいて、前記複数の文章の中から、前記特定の用語のグループのうち、少なくともいずれか１つの特定の用語を含む文章の数を、所定期間ごとに集計し、
前記検出部は、前記集計部により集計された前記所定期間ごとの前記文章の数に基づいて、前記特定の用語のグループのうち少なくともいずれか１つの特定の用語を含む文章の数が増加する、時系列上の変化点を検出する、
請求項２に記載の推定装置。

【請求項4】

推定装置が行う推定方法であって、
推定装置が、複数の文章の入力を受け付けるステップと、
推定装置が、前記複数の文章に含まれる、連続する複数の単語を含む単語群からＮグラムを生成するステップと、
推定装置が、生成された前記Ｎグラムのうち隣接する２つのＮグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定するステップと、
推定装置が、前記特定の用語に関する情報を出力するステップと、を含み、
前記ＮグラムにおけるＮの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定するステップは、
Ｎの値をＮの最大値から１つ減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第１閾値以上である隣接する２つのＮグラムが存在しない場合は、Ｎの値を更に１減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Ｎの値が１になるまで繰り返し行い、
隣接する２つのＮグラム間の類似度が前記第１閾値以上であるＮグラムが存在する場合、該隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
推定方法。

【請求項5】

コンピュータに、
複数の文章の入力を受け付けるステップと、
前記複数の文章に含まれる、連続する複数の単語を含む単語群からＮグラムを生成するステップと、
生成された前記Ｎグラムのうち隣接する２つのＮグラム間の類似度を評価することで、前記複数の文章で用いられる特定の用語を推定するステップと、
推定装置が、前記特定の用語に関する情報を出力するステップと、
を実行させ、
前記ＮグラムにおけるＮの最大値は前記単語群に含まれる複数の単語の数であり、
前記推定するステップは、
Ｎの値をＮの最大値から１つ減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定し、類似度が第１閾値以上である隣接する２つのＮグラムが存在しない場合は、Ｎの値を更に１減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定する処理を、Ｎの値が１になるまで繰り返し行い、
隣接する２つのＮグラム間の類似度が前記第１閾値以上であるＮグラムが存在する場合、該隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語を、前記特定の用語として推定する、
プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、推定装置、推定方法及びプログラムに関する。

【背景技術】

【0002】

現在、研究者が自由に論文を投稿することが可能なサービスが提供されている。研究者は、投稿された論文を自由に閲覧することができ、自身の研究に利用することができる。特許文献１には、ユーザが収集した論文に基づいて、研究に関するユーザの興味を特定することが可能な技術が開示されている。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２００５－３４６２２５号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

投稿される論文の数は膨大であることから、注目されている最新技術をキャッチアップするために、ユーザが全ての論文を確認することは現実的ではない。そこで、最新技術に用いられる技術ワードを用いて論文を検索することで、確認する論文数を絞ることが考えられる。しかしながら、最新技術に用いられる技術ワードは辞書に掲載されておらず、かつユーザ自身も知らないことが多いため、技術ワードで論文を絞ること自体が困難である。なお、このような課題は、論文に限られず、書籍やオンライン文書等のあらゆる文章にも生じ得る。

【0005】

そこで、本発明は、複数の文章を分析することで、複数の文章で用いられる特定の用語を、辞書を利用することなく抽出することを可能とする技術を提供することを目的とする。

【課題を解決するための手段】

【0006】

本発明の一態様に係る推定装置は、複数の文章の入力を受け付ける受付部と、複数の文章に含まれる、連続する複数の単語を含む単語群からＮグラムを生成する生成部と、生成されたＮグラムのうち隣接する２つのＮグラム間の類似度を評価することで、複数の文章で用いられる特定の用語を推定する推定部と、を有する。

【発明の効果】

【0007】

本発明によれば、複数の文章を分析することで、複数の文章で用いられる特定の用語を、辞書を利用することなく抽出することを可能とする技術を提供することができる。

【図面の簡単な説明】

【0008】

【図1】文書分析システムの一例を示す図である。

【図2】分析装置及び端末のハードウェア構成例を示す図である。

【図3】分析装置の機能ブロック構成例を示す図である。

【図4】分析装置が行う処理手順の一例を示すフローチャートである。

【図5】技術ワードを推定する処理の一例を説明するための図である。

【図6】端末に表示される、論文数及び変化点を示すグラフの一例を示す図である。

【発明を実施するための形態】

【0009】

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

【0010】

＜システム構成＞
図１は、文書分析システム１の一例を示す図である。文書分析システム１は、分析装置１０と端末２０とを含む。文書分析システム１に含まれる端末２０の数には制限はない。分析装置１０と端末２０は、無線又は有線の通信ネットワークＮを介して接続され、相互に通信を行うことができる。

【0011】

分析装置１０は、インターネット等に公開されている多数の論文を分析することで、辞書を用いることなく、論文の中で用いられている技術ワード（特定の用語）を推定する。また、分析装置１０は、推定した技術ワードが論文の中で使用される頻度の推移に基づいて、最新技術の流行の兆しを検出する。

【0012】

分析装置１０は、１又は複数の物理的なサーバ等から構成されていてもよいし、ハイパーバイザー（hypervisor）上で動作する仮想的なサーバを用いて構成されていてもよいし、クラウドサーバを用いて構成されていてもよい。

【0013】

端末２０は、分析装置１０による推定結果を表示する装置である。端末２０は、例えば、分析装置１０により推定された最新の技術ワードが論文の中で使用されている頻度の推移を時系列で示したグラフ等を表示する。端末２０は、パーソナルコンピュータ（ＰＣ）、ノートＰＣ、スマートフォン、タブレット端末、携帯電話機、携帯情報端末（ＰＤＡ）等である。

【0014】

＜ハードウェア構成＞
図２は、分析装置１０及び端末２０のハードウェア構成例を示す図である。分析装置１０及び端末２０は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphical processing unit）等のプロセッサ１１、メモリ、ＨＤＤ（Hard Disk Drive）及び／又はＳＳＤ（Solid State Drive）等の記憶装置１２、有線又は無線通信を行う通信ＩＦ（Interface）１３、入力操作を受け付ける入力デバイス１４、及び情報の出力を行う出力デバイス１５を有する。入力デバイス１４は、例えば、キーボード、タッチパネル、マウス及び／又はマイク等である。出力デバイス１５は、例えば、ディスプレイ、タッチパネル及び／又はスピーカ等である。

【0015】

＜機能ブロック構成＞
図３は、分析装置１０の機能ブロック構成例を示す図である。分析装置１０は、記憶部１００と、受付部１０１と、生成部１０２と、推定部１０３と、集計部１０４と、検出部１０５と、学習部１０６とを含む。記憶部１００は、分析装置１０が備える記憶装置１２を用いて実現することができる。また、受付部１０１と、生成部１０２と、推定部１０３と、集計部１０４と、検出部１０５と、学習部１０６とは、分析装置１０のプロセッサ１１が、記憶装置１２に記憶されたプログラムを実行することにより実現することができる。また、当該プログラムは、記憶媒体に格納することができる。当該プログラムを格納した記憶媒体は、コンピュータ読み取り可能な非一時的な記憶媒体（Non-transitory computer readable medium）であってもよい。非一時的な記憶媒体は特に限定されないが、例えば、ＵＳＢメモリ又はＣＤ－ＲＯＭ等の記憶媒体であってもよい。

【0016】

記憶部１００は、論文ＤＢ１１０と、技術ワードの推定に用いられる技術ワード推定用モデルＭ１１０と、類似する技術ワードをグルーピングする際に用いられるグループ推定用モデルＭ１２０とを記憶する。論文ＤＢ１１０は、例えば、インターネット等から取得した論文データを格納するデータベースである。なお、論文ＤＢ１１０は、分析装置１０が備える記憶装置１２に格納されていてもよいし、分析装置１０と通信可能な外部装置に格納されていてもよい。

【0017】

受付部１０１は、分析対象となる複数の論文（複数の文章）の入力を受け付ける。また、受付部１０１は、受け付けた複数の論文を、論文ＤＢ１１０に格納する。受付部１０１が受け付ける複数の論文の各々には、日付を示す情報が含まれている。当該日付を示す情報は、例えば、論文が投稿された年月日や、論文が作成された年月日であってもよい。

【0018】

生成部１０２は、分析対象となる複数の論文から得られる、連続する複数の単語を含む単語群からＮグラム（N-gram）を生成する。

【0019】

本実施形態におけるＮグラムとは、複数の単語を含む文章を、連続したＮ個の単語単位で分割することで生成される文字列である。また、Ｎが１の場合はユニグラム（Uni-gram）、Ｎが２の場合はバイグラム（Bi-gram）、Ｎが３の場合はトリグラム（Tri-gram）、Ｎが４の場合はフォーグラム（Four-gram）、Ｎが５の場合はファイブグラム（Five-gram）、Ｎが６の場合はシックスグラム（Six-gram）などと称する。生成部１０２は、単語群に含まれる単語数をｎとした場合、１～ｎまでの複数のＮグラムを生成する。

【0020】

推定部１０３は、生成されたＮグラムのうち隣接する２つのＮグラム間の類似度を評価することで、分析対象となる複数の論文で用いられる技術ワード（特定の用語）を推定する。また、推定部１０３は、推定した技術ワードが複数存在する場合、複数の技術ワードの各々の分散表現（ベクトル）に基づいて類似度を評価することで、類似する技術ワードをまとめたグループ（技術ワードのグループ）を推定する。

【0021】

集計部１０４は、分析対象となる複数の論文の中から、技術ワードを含む論文の数を所定期間ごとに集計する。また、集計部１０４は、分析対象となる複数の論文の中から、技術ワードのグループのうち、少なくともいずれか１つの技術ワードを含む論文の数を所定期間ごとに集計するようにしてもよい。

【0022】

検出部１０５は、集計部１０４により集計された所定期間ごとの論文の数に基づいて、技術ワードを含む論文の数が増加する、時系列上の変化点を検出する。また、検出部１０５は、集計部１０４により集計された所定期間ごとの論文の数に基づいて、技術ワードのグループのうち少なくともいずれか１つの技術ワードを含む論文の数が増加する、時系列上の変化点を検出するようにしてもよい。

【0023】

学習部１０６は、論文ＤＢ１１０に格納された論文データを用いて、技術ワード推定用モデルＭ１１０及びグループ推定用モデルＭ１２０を学習させる。

【0024】

＜処理手順＞
図４は、分析装置１０が行う処理手順の一例を示すフローチャートである。以下、図４を用いて、分析装置１０が大量の論文データを読み込んで分析を行い、注目されている技術ワードを端末２０の画面に表示するまでの一連の処理手順を説明する。

【0025】

ステップＳ１０で、受付部１０１は、分析対象となる複数の論文の入力を受け付け、論文ＤＢ１１０に格納する。例えば、受付部１０１は、インターネット上で提供されている、研究者が論文を自由に投稿可能なサービスにアクセスし、過去（過去全てでもよいし、過去５年間など一部の期間であってもよい）に投稿された論文をダウンロードして論文ＤＢ１１０に格納するようにしてもよい。また、論文の全てをダウンロードして論文ＤＢ１１０に格納するのではなく、論文の要約（Abstract）部分のみ又は本文のみをダウンロードして論文ＤＢ１１０に格納するようにしてもよい。

【0026】

ステップＳ１１で、生成部１０２は、論文ＤＢ１１０に格納されている論文データのうち、分析対象となる論文に含まれる各文章を、単語に分解する。例えば、生成部１０２は、日本語については形態素解析を行うことで単語に分解し、英語についてはスペースを単語の区切りとして認識する。

【0027】

ステップＳ１２で、生成部１０２は、クレンジング処理を行うことで、不要な文字や単語（例えば冠詞、主語、接続詞、be動詞など）を削除し、技術ワードになり得る単語を残す。このとき、生成部１０２は、文章の中で、削除した文字や単語が存在していた部分で文章を区切り、区切られた部分に含まれる１又は複数の単語を含む単語群を認識できるようにしておく。また、各単語について語幹処理を行うことで、語尾が変化する動詞や形容詞等については語幹のみを残し、語幹以外の部分を消去する。

【0028】

ここで、「In this paper, we propose the simple Generative Adversarial Network model which allows long-range dependency modeling for image generation tasks.」という文章を例に、ステップＳ１１及びステップＳ１２の処理手順について具体例を説明する。

【0029】

まず、生成部１０２は、スペースと句読点（カンマ、ピリオド等）を単語の区切りとして認識することで、文章を単語に分解する。続いて、生成部１０２はクレンジング処理を行い、削除した文字や単語が存在していた部分を認識できるように区切り文字（説明の都合上「:」とする）を挿入する。これにより、生成部１０２は、文字列「paper : propose : simple Generative Adversarial Network model : allow long-range dependency modeling : image generation tasks」を出力する。

【0030】

続いて、生成部１０２は、語幹処理を行うことで語幹のみを残す。これにより、生成部１０２は、文字列「paper : propose : simple Gener Adversar Network model : allow long-range depend model : image gener task」を出力する。

【0031】

ステップＳ１３で、推定部１０３は、技術ワードの推定を行う。ここで、推定部１０３は、ステップＳ１２の処理手順で生成された文章のうち区切り文字で区切られた部分に１単語のみが含まれる部分については、当該１単語を技術ワードとして推定する。例えば、文字列「paper : propose : simple Generative Adversarial Network model : allow long-range dependency modeling : image generation tasks」について、推定部１０３は、「paper」及び「propose」は、技術ワードであると推定する。

【0032】

続いて、推定部１０３は、区切り文字で区切られた部分に複数の単語が含まれる単語群について、各単語が技術ワードなのか、若しくは複数の連続する単語からなる熟語が技術ワードなのかを推定する。まず、生成部１０２は単語群ごとにＮグラムを生成する。

【0033】

以下、単語群「simple Generative Adversarial Network model」のＮグラムを生成する例を説明する。当該単語群には５つの単語が含まれるため、生成部１０２は、１～５までの複数のＮグラムを生成する。具体的には、ユニグラムについては、“simple”、“Generative”、“Adversarial”、“Network”、“model”という５つの文字列を生成する。バイグラムについては、“simple Generative”、“Generative Adversarial”、“Adversarial Network”、“Network model”という４つの文字列を生成する。トリグラムについては、“simple Generative Adversarial”、“Generative Adversarial Network”、“Adversarial Network model”という３つの文字列を生成する。フォーグラムについては、“simple Generative Adversarial Network”、“Generative Adversarial Network model”という２つの文字列を生成する。ファイブグラムについては、“simple Generative Adversarial Network model”という１つの文字列を生成する。

【0034】

続いて、推定部１０３は、生成されたＮグラムを用いて技術ワードを推定する。推定部１０３は、Ｎの値をＮの最大値から１つ減算したＮグラムについて、隣接する２つのＮグラム間（隣接するＮグラムのペアと称してもよい）の類似度が所定閾値（第１閾値）以上であるか否かを判定する。類似度が所定閾値（第１閾値）以上である隣接する２つのＮグラムが存在しない場合は、Ｎの値を更に１減算したＮグラムについて、隣接する２つのＮグラム間の類似度が所定閾値（第１閾値）以上であるか否かを判定する処理を、Ｎの値が１になるまで繰り返し行う。隣接する２つのＮグラム間の類似度が所定閾値（第１閾値）以上であるＮグラムが存在する場合、当該隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語を、技術ワードとして推定する。

【0035】

なお、ユニグラムの場合、「隣接する２つのＮグラム」とは、単語群の中で連続する２つの単語のペアであり、「隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語」とは、当該連続する２つの単語からなる熟語である。バイグラム以上の場合、「隣接する２つのＮグラム」とは、１≦ｐ＜ｎ（ｐは、ｐ＋Ｎ≦ｎを満たす自然数、ｎは単語群に含まれる単語数）としたとき、単語群に含まれる単語のうちｐ番目から（ｐ＋Ｎ－１）番目までの連続する単語からなるＮグラムと、（ｐ＋１）番目から（ｐ＋Ｎ）番目までの連続する単語からなるＮグラムとのペアである。また、「隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語」とは、ｐ番目から（ｐ＋Ｎ）番目までの連続する単語からなるＮグラムの熟語である。

【0036】

例えば、単語群“ＡＢＣＤ”（Ａ～Ｄは単語を意味する）について、バイグラムの場合の「隣接する２つのＮグラム」を求めるとする。この場合、ｎ＝４かつＮ＝２であることから、ｐ＋２≦４を満たすｐの値は１又は２である。なお、ｐ＋Ｎ≦ｎを満たすｐの値が複数存在する場合、推定部１０３は、複数の値の各々について、隣接する２つのＮグラム間の類似度が所定閾値（第１閾値）以上であるか否かを判定する。

【0037】

ｐ＝１とする場合、「隣接する２つのＮグラム」は、１番目から（１＋２－１）番目までの連続する単語と、（１＋１）番目から（１＋２）番目までの連続する単語、つまり、“ＡＢ”と“ＢＣ”になる。また、「隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語」とは、１番目から（１＋２）番目までの連続する単語、つまり、“ＡＢＣ”になる。

【0038】

ｐ＝２とする場合、「隣接する２つのＮグラム」は、２番目から（２＋２－１）番目までの連続する単語と、（２＋１）番目から（２＋２）番目までの連続する単語、つまり、“ＢＣ”と“ＣＤ”になる。また、「隣接する２つのＮグラムに対応する、Ｎの値が１つ大きいＮグラムに含まれる単語を順に組み合わせた熟語」とは、２番目から（２＋２）番目までの連続する単語、つまり、“ＢＣＤ”になる。

【0039】

ここで、推定部１０３は、隣接する２つのＮグラム間の類似度を、入力された２つの単語間の類似度を出力する技術ワード推定用モデルＭ１１０を用いて判定する。技術ワード推定用モデルＭ１１０は、論文ＤＢ１１０に格納されている論文データを用いて予め生成された、単語間の類似度を出力する学習済みモデルである。技術ワード推定用モデルＭ１１０は、例えば、word2vecと呼ばれる技術を用いて生成することが可能である。

【0040】

図３に示すように、本実施形態では、技術ワード推定用モデルＭ１１０には、ユニグラムの単語間の類似度を出力するユニグラムモデルＭ１１１、バイグラムの単語間の類似度を出力するバイグラムモデルＭ１１２、トリグラムの単語間の類似度を出力するトリグラムモデルＭ１１３、フォーグラムの単語間の類似度を出力するフォーグラムモデルＭ１１４が含まれる。なお、技術ワード推定用モデルＭ１１０に含まれる５つのモデルはあくまで一例であり、ファイブグラムモデルやシックスグラムモデルといったように、Ｎの値が更に大きいモデルも含まれていてもよい。

【0041】

ここで、バイグラムモデルＭ１１２の生成方法を説明する。当該モデルは、論文ＤＢ１１０に格納されている論文データの各文章について、ステップＳ１１及びステップＳ１２の処理手順で説明した処理を行い、各文章を２単語ごとに繋いだ文章を作成し、作成した文章をword2vecに学習させることで生成することができる。例えば、学習部１０６は、ステップＳ１１及びステップＳ１２の処理手順により出力された文章「paper propose simple Gener Adversar Network model allow long-range depend model image gener task」が存在する場合、文章「paper_propose propose_simple simple_Gener Gener_Adversari Adversari_Network Network_model model_allow allow_long-range long-range_dependency dependency_modeling modeling_image image_generation generation_task」を生成し、word2vecに学習させる。学習部１０６は、このような処理を、論文ＤＢ１１０に格納されている論文データに含まれる全文章について繰り返し行う。これにより、論文ＤＢ１１０に格納されている論文データに含まれる２単語を繋げたバイグラムについて分散表現（ベクトル）が定められることから、推定部１０３は、学習させたword2vecを用いることで、当該分散表現に基づいて２つのバイグラム間の類似度を評価することが可能になる。なお、word2vecは一例に過ぎず、分散表現に基づいて単語間の類似度を評価する技術であれば、どのような技術を利用することも可能である。

【0042】

図５は、技術ワードを推定する処理の一例を説明するための図である。図５を用いて、推定部１０３が、単語群「simple gener adversarial network model」に存在する技術ワードを推定する場合の例を説明する。まず、推定部１０３は、単語群に含まれる単語数をｎとした場合に、Ｎの値をｎの最大値から１つ減算した値とするＮグラムについて、隣接する２つのＮグラム間の類似度が所定の閾値以上であるか否かを判定する。なお、図５の例では、単語群に５つの単語が含まれるので、ｎの値は５である。

【0043】

まず、推定部１０３は、５から１を引いたフォーグラムについて、フォーグラムモデルＭ１１４を用いて、隣接するフォーグラムのペア、つまり“simple gener adversari network”及び“gener adversari network model”の間の類似度を推定する。類似度が所定閾値（第１閾値）以上である場合、推定部１０３は、これらのフォーグラムのペアの一つ上のファイブグラムの熟語（つまり、simple gener adversari network model）を、技術ワードとして推定する。

【0044】

一方、類似度が所定閾値（第１閾値）未満である場合、推定部１０３は、４から１を引いたトリグラムについて、トリグラムモデルＭ１１３を用いて、隣接するトリグラムのペア、つまり、“simple gener adversari”及び“gener adversari network”の間の類似度、並びに、“gener adversari network”及び“adversari network model”の間の類似度を推定する。

【0045】

もし、“simple gener adversari”及び“gener adversari network”の間の類似度が所定閾値（第１閾値）以上である場合、推定部１０３は、これらのトリグラムのペアの一つ上のフォーグラムの熟語（つまり、simple gener adversari network）を、技術ワードとして推定する。また、“gener adversari network”及び“adversari network model”の間の類似度が所定閾値（第１閾値）以上である場合、推定部１０３は、これらのトリグラムのペアの一つ上のフォーグラムの熟語（つまり、gener adversari network model）を、技術ワードとして推定する。なお、“simple gener adversari”及び“gener adversari network”の間の類似度、並びに、“gener adversari network”及び“adversari network model”の間の類似度の両方が所定閾値（第１閾値）以上である場合、推定部１０３は、類似度が高い方について、これらのトリグラムのペアの一つ上のフォーグラムの熟語を、技術ワードとして推定する。

【0046】

一方、いずれの類似度も所定閾値（第１閾値）未満である場合、推定部１０３は、３から１を引いたバイグラムについて、バイグラムモデルＭ１１２を用いて、隣接するバイグラムのペア、つまり、“simple gener”及び“gener adversari”の間の類似度、“gener adversari”及び“adversari network”の間の類似度、並びに、“adversari network”及び“network model”の間の類似度を推定する。これらの中に、類似度が所定閾値（第１閾値）以上である、隣接するバイグラムのペアが存在する場合、推定部１０３は、当該２つのバイグラムの一つ上のトリグラムの熟語を技術ワードとして推定する。もし、類似度が所定閾値（第１閾値）以上である、隣接するバイグラムのペアが複数存在する場合、推定部１０３は、最も類似度が大きいペアの一つ上のトリグラムの熟語を技術ワードとして推定する。

【0047】

一方、いずれの類似度も所定閾値（第１閾値）未満である場合、推定部１０３は、２から１を引いたユニグラムについて、ユニグラムモデルＭ１１１を用いて、隣接するユニグラムのペア、つまり、“simple”及び“gener”の間の類似度、“gener”及び“adversari”の間の類似度、“adversari”及び“network”の間の類似度、並びに、“network”及び“model”の間の類似度を推定する。これらの中に、類似度が所定閾値（第１閾値）以上である隣接するユニグラムのペアが存在する場合、推定部１０３は、当該ペアの一つ上のバイグラムの熟語を技術ワードとして推定する。もし、類似度が所定閾値（第１閾値）以上であるユニグラムのペアが複数存在する場合、推定部１０３は、最も類似度が大きいペアの一つ上のバイグラムの熟語を技術ワードとして推定する。

【0048】

一方、いずれの類似度も所定閾値（第１閾値）未満である場合、推定部１０３は、全てのユニグラム（つまり、simple, gener, adversari, network, model）を、技術ワードとして推定する。

【0049】

ステップＳ１４で、推定部１０３は、ステップＳ１３の処理手順で推定した技術ワードが複数存在する場合、複数の技術ワードの各々の分散表現（ベクトル）に基づいて類似度を評価することで、類似する技術ワードをまとめたグループ（技術ワードのグループ）を推定する。推定部１０３は、グループ推定用モデルＭ１２０を用いることで、グループの推定を行う。

【0050】

グループ推定用モデルＭ１２０は、例えば、論文ＤＢ１１０に格納されている論文データの各文章について、ステップＳ１２及びステップＳ１３の処理手順を行うとともに、ステップＳ１４の処理手順で推定された熟語の技術ワードについてはアンダーバー等で結合することで一つの文字列になるように変換した文章を用意し、用意した文章をword2vecに学習させることで生成することができる。

【0051】

ここで、グループ推定用モデルＭ１２０の生成例を説明する。なお、ステップＳ１４の処理手順で、“simple gener adversari”が熟語の技術ワードとして推定されたと仮定する。まず、生成部１０２は、ステップＳ１１及びステップＳ１２の処理手順を行うことで、文章「In this paper, we propose the simple Generative Adversarial Network model which allows long-range dependency modeling for image generation tasks.」を、文章「paper propose simple Gener Adversar Network model allow long-range depend model image gener task」に変換する。続いて、生成部１０２は、熟語の技術ワードに含まれる複数の単語をアンダーバーで結合することで、当該熟語が、word2vecにおいて一つの単語として認識されるようにする。具体的には、生成部１０２は、文章「paper propose simple_Gener_Adversari Network model allow long-range depend model image gener task」に変換する。続いて、学習部１０６は、変換された文章を、word2vecに学習させる。これにより、各技術ワードの分散表現（ベクトル）を求めることが可能となるため、２つの技術ワードを入力することで、２つの技術ワード間の類似度を出力することが可能な学習モデルを生成することができる。

【0052】

推定部１０３は、ステップＳ１３の処理手順で推定された全ての技術ワードについて、２つの技術ワード間の類似度を総当たりで推定し、類似度が近い技術ワードの組み合わせを、技術ワードのグループとする。例えば、推定部１０３は、全ての組み合わせにおいて類似度が所定閾値（第２閾値）以上となる技術ワードの組み合わせを、技術ワードのグループとみなすようにしてもよい。例えば、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の４つの単語について、全ての組み合わせにおいて類似度が所定閾値（第２閾値）以上であった場合、推定部１０３は、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の４つの単語を、技術ワードのグループとみなすようにしてもよい。なお、技術ワードのグループを推定する方法はこれに限定されず、他のクラスタリング手法が用いられてもよい。

【0053】

ステップＳ１５で、集計部１０４は、論文ＤＢ１１０に格納されている全論文について、技術ワードのグループのうち少なくともいずれか１つの技術ワードを含む論文の数を、各論文に含まれる日付を示す情報（ここでは投稿日とする）に基づいて、技術ワードのグループごとかつ所定期間ごとに集計する。例えば、“blockchain”、“smart contract”、“bitcoin”及び“ethereum”の４つの単語からなる技術ワードのグループが存在する場合、これらの単語の少なくともいずれか１つを含む論文を検索し、検索された論文に含まれる投稿日を用いて、所定期間（例えば１ヵ月間隔）に論文数を集計する。これにより、例えば、上記技術ワードのグループを含む論文の投稿数は、２０１５年１月は５件、２０１５年２月は７件、２０１５年３月は１０件、２０１５年４月は２０件といったデータを得ることができる。

【0054】

続いて、検出部１０５は、集計部１０４により集計された所定期間ごとの論文の数に基づいて、技術ワードのグループのうち少なくともいずれか１つの技術ワードを含む論文の数が増加する、時系列上の変化点を検出する。検出部１０５は、例えば、Change finder等の既知の変化点検出アルゴリズムを用いることで、時系列上の変化点を検出するようにしてもよいし、月別の論文数の比（例えば前月比２０％上昇）に基づいて時系列上の変化点を検出するようにしてもよい。検出部１０５は、これらに限定されず、どのような方法で変化点を検出するようにしてもよい。

【0055】

図６は、端末２０に表示される、論文数及び変化点を示すグラフの一例を示す図である。図６（ａ）は、ある特定の技術ワードのグループのうち少なくともいずれか１つの技術ワードを含む論文の数の変化を示すグラフである。縦軸は論文投稿数であり、横軸は年月である。図６（ｂ）は、図６（ａ）に示す論文投稿数に基づいて算出された変化点のスコアを示す。図６（ｂ）において、急激にスコアが大きくなる箇所が変化点である。図６（ｂ）によれば、２０１８年６月頃と、２０１８年９月頃に、論文投稿数が大きく変化していることが示されている。

【0056】

以上説明した処理手順において、ステップＳ１４の処理手順は省略されてもよい。技術ワードによっては、必ずしもグループ化する必要が無い場合も想定されるためである。ステップＳ１４の処理手順が省略される場合、ステップＳ１５の処理手順で、集計部１０４は、論文ＤＢ１１０に格納されている全論文について、技術ワードを含む論文の数を、各論文に含まれる日付を示す情報に基づいて、技術ワードごとかつ所定期間ごとに集計するようにしてもよい。また、検出部１０５は、集計部１０４により集計された所定期間ごとの文章の数に基づいて、技術ワードを含む文章の数が増加する、時系列上の変化点を検出するようにしてもよい。

【0057】

＜まとめ＞
以上説明した実施形態によれば、分析装置１０は、分析対象の論文からＮグラムを生成し、隣接するＮグラム間の類似度を評価するようにした。これにより、複数の論文で用いられる最新の技術ワードを、辞書を利用することなく抽出することが可能になる。また、分析装置１０は、類似する技術ワードのグループを推定し、推定した技術ワードのグループのうち少なくともいずれか１つの技術ワードが論文の中で使用される頻度の推移に基づいて、最新技術の流行の兆しを検出するようにした。最新の技術ワードは、名前が一意に定まっていないケースが多々存在するが、類似する技術ワードを考慮して論文数をカウントすることで、最新技術の流行の兆しをより適切に検出することが可能になる。

【0058】

以上説明した実施形態では、分析装置１０が投稿された論文を分析する前提で説明したが、本実施形態はこれに限定されない。本実施形態は、論文に限定されず、様々な文章の分析に適用することが可能である。

【0059】

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

【符号の説明】

【0060】

１…文書分析システム、１０…分析装置、１１…プロセッサ、１２…記憶装置、１３…通信ＩＦ、１４…入力デバイス、１５…出力デバイス、２０…端末、１００…記憶部、１０１…受付部、１０２…生成部、１０３…推定部、１０４…集計部、１０５…検出部、１０６…学習部

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版