特開2024-3634 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人　筑波大学の特許一覧 ▶ 株式会社熊谷組の特許一覧

特開2024-3634文書データセット解析装置及び文書データセット解析方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024003634

(43)【公開日】2024-01-15

(54)【発明の名称】文書データセット解析装置及び文書データセット解析方法

(51)【国際特許分類】

G06F 16/33 20190101AFI20240105BHJP

【ＦＩ】

G06F16/33

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022102911

(22)【出願日】2022-06-27

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り・ウェブサイトのアドレスｈｔｔｐｓ：／／ｐｒｏｃｅｅｄｉｎｇｓ－ｏｆ－ｄｅｉｍ．ｇｉｔｈｕｂ．ｉｏ／ＤＥＩＭ２０２２／ｐａｐｅｒｓ／Ｄ２３－３．ｐｄｆ掲載日令和４年２月１８日・研究集会名第１４回データ工学と情報マネジメントに関するフォーラム開催場所ウェブ開催開催日令和４年２月２８日

【国等の委託研究の成果に係る記載事項】（出願人による申告）平成２８年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業「ＣｙｂｏｒｇＣｒｏｗｄにおける人と計算機の高度連携方式およびミドルウェア」委託研究、産業技術力強化法第１７条の適用を受ける特許出願

(71)【出願人】

【識別番号】504171134

【氏名又は名称】国立大学法人筑波大学

(71)【出願人】

【識別番号】000001317

【氏名又は名称】株式会社熊谷組

(74)【代理人】

【識別番号】110000338

【氏名又は名称】弁理士法人ＨＡＲＡＫＥＮＺＯＷＯＲＬＤＰＡＴＥＮＴ＆ＴＲＡＤＥＭＡＲＫ

(72)【発明者】

【氏名】伊藤寛祥

(72)【発明者】

【氏名】平澤嶺

(72)【発明者】

【氏名】森嶋厚行

(72)【発明者】

【氏名】松原正樹

(72)【発明者】

【氏名】大本晋士郎

(72)【発明者】

【氏名】伊藤達也

(72)【発明者】

【氏名】山田一郎

(72)【発明者】

【氏名】白井公人

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175HB03

(57)【要約】

【課題】２つの文書データセットに共通の特徴、一方の文書データセットに固有の特徴、及び、他方の文書データセットに固有の特徴を、各文書データが有する時間情報を考慮して解析する。
【解決手段】文書データセットＤ１から生成した三次元非負テンソルＴ１を、二次元行列Ｕ１，Ｖ１，Ｗ１に因子分解すると共に、文書データセットＤ２から生成した三次元非負テンソルＴ２を、二次元行列Ｕ１，Ｖ１，Ｗ１に因子分解する。二次元行列Ｕ１は、文書データセットＤ１，Ｄ２に共通のトピックに対応する部分行列Ｕ１ｃと、文書データセットＤ１に固有のトピックに対応する部分行列Ｕ１ｄとにより構成されており、二次元行列Ｕ２は、文書データセットＤ１，Ｄ２とに共通のトピックに対応する部分行列Ｕ２ｃと、文書データセットＤ２に固有のトピックに対応する部分行列Ｕ２ｄと、により構成されている。
【選択図】図３

【特許請求の範囲】

【請求項1】

少なくとも１つのプロセッサを備え、
前記プロセッサは、
時間情報を有する文書データからなる文書データセットＤ１から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ１を生成すると共に、時間情報を有する文書データからなる文書データセットＤ２から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ２を生成する生成処理と、
三次元非負テンソルＸ１を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ１と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ１と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ１とに因子分解すると共に、三次元非負テンソルＸ２を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ２と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ２と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ２とに因子分解する分解処理と、を実行し、
二次元行列Ｕ１は、文書データセットＤ１，Ｄ２に共通のトピックに対応する部分行列Ｕ１ｃと、文書データセットＤ１に固有のトピックに対応する部分行列Ｕ１ｄとにより構成されており、二次元行列Ｕ２は、文書データセットＤ１，Ｄ２とに共通のトピックに対応する部分行列Ｕ２ｃと、文書データセットＤ２に固有のトピックに対応する部分行列Ｕ２ｄと、により構成されている、
ことを特徴とする文書データセット解析装置。

【請求項2】

前記分解処理において、前記プロセッサは、部分行列Ｕ１ｃと部分行列Ｕ２ｃとが類似するほど値が大きくなり、部分行列Ｕ１ｄと部分行列Ｕ２ｄとが類似するほど値が小さくなる損失関数を最小化するように、二次元行列Ｕ１，Ｕ２，Ｖ１，Ｖ２，Ｗ１，Ｗ２の要素の値を決定する、
ことを特徴とする請求項１に記載の文書データセット解析装置。

【請求項3】

前記プロセッサは、文書データセットＤ１，Ｄ２に共通の各トピックについて、単語を部分行列Ｕ１ｃが示す出現頻度順に並べたテーブルＴ１ｃ、文書データセットＤ１に固有の各トピックについて、単語を部分行列Ｕ１ｄが示す出現頻度順に並べたテーブルＴ１ｄ、文書データセットＤ１，Ｄ２に共通の各トピックについて、単語を部分行列Ｕ２ｃが示す出願頻度順に並べたテーブルＴ２ｃ、及び、文書データセットＤ２に固有の各トピックについて、単語を部分行列Ｕ２ｄが示す出現頻度順に並べたテーブルＴ２ｄを出力する出力処理を更に実行する、
ことを特徴とする請求項１に記載の文書データセット解析装置。

【請求項4】

前記プロセッサは、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、行列Ｗ１が示す重みの時間変化を表すグラフＧ１、及び、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、行列Ｗ２が示す重みの時間変化を表すグラフＧ２を出力する出力処理を更に実行する、
ことを特徴とする請求項１に記載の文書データセット解析装置。

【請求項5】

少なくとも１つのプロセッサが、時間情報を有する文書データからなる文書データセットＤ１から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ１を生成すると共に、時間情報を有する文書データからなる文書データセットＤ２から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ２を生成する生成処理と、
前記プロセッサが、三次元非負テンソルＸ１を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ１と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ１と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ１とに因子分解すると共に、三次元非負テンソルＸ２を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ２と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ２と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ２とに因子分解する分解処理と、を含み、
二次元行列Ｕ１は、文書データセットＤ１，Ｄ２に共通のトピックに対応する部分行列Ｕ１ｃと、文書データセットＤ１に固有のトピックに対応する部分行列Ｕ１ｄとにより構成されており、二次元行列Ｕ２は、文書データセットＤ１，Ｄ２とに共通のトピックに対応する部分行列Ｕ２ｃと、文書データセットＤ２に固有のトピックに対応する部分行列Ｕ２ｄと、により構成されている、
ことを特徴とする文書データセット解析方法。

【請求項6】

コンピュータを請求項１～４の何れか一項に記載の文書データセット解析装置として動作させるためのブログラムであって、前記コンピュータに前記各処理を実行させる、
ことを特徴とする文書データセット解析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書データセットを解析する文書データセット解析装置、文書データセット解析方法、及び文書データセット解析プログラムに関する。

【背景技術】

【0002】

文書データからトピックを抽出し、その文書データの内容を把握する技術として、確率モデルに基づくＬＤＡ（Latent Dirichlet Allocation）法が知られている（非特許文献１参照）。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】David M Blei, Andrew Y Ng, and Michael I Jordan. Latent dirichlet allocation. the Journal of machine Learning research, Vol. 3, pp. 993-1022, 2003.

【非特許文献2】Hannah Kim, Jaegul Choo, Jingu Kim, Chandan K. Reddy, and Haesun Park. Simultaneous discovery of common and discriminative topics via joint nonnegative matrix factorization. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’15, p. 567-576, New York, NY, USA, 2015. Association for Computing Machinery.

【発明の概要】

【発明が解決しようとする課題】

【0004】

２つの文書データセットの比較検討においては、２つの文書データセットに共通の特徴、一方の文書データセットに固有の特徴、及び、他方の文書データセットに固有の特徴を知ることが重要である。特に、各文書データが時間情報を有している場合、これら３つの特徴の時間変化を知ることもまた重要である。

【0005】

このような文書データセットの一例として、例えば、出願日や登録日などの時間情報を有する特許文献からなる文書データセットが挙げられる。Ａ社の特許文献からなる文書データセットとＢ社の特許文献からなる文書データセットとの比較においては、これらの３つの特徴の時間変化が、両社の技術トレンドの推移を知るうえで貴重な情報となる。しかしながら、非特許文献１に記載のＬＤＡ法では、このようなニーズに応えることができない。受理日や公開日などの時間情報を有する学術論文、発行日や発刊日などの時間情報を有するニュース記事についても、同様のことが言える。

【0006】

なお、２つの文書データセットを比較する手法として、ジョイントＮＭＦ（Joint Non-negative Matrix Factorization）法が知られている（非特許文献２参照）。しかしながら、ジョイントＮＭＦ法では、文書データが有する時間情報を考慮した解析を行うことができない。したがって、ジョイントＮＭＦでもやはり、十分に上記のニーズに応えることはできない。

【0007】

本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的は、２つの文書データセットに共通の特徴、一方の文書データセットに固有の特徴、及び、他方の文書データセットに固有の特徴を、各文書データが有する時間情報を考慮して解析することが可能な文書データセット解析技術を実現することにある。

【課題を解決するための手段】

【0008】

本発明の態様１に係る文書データセット解析装置は、少なくとも１つのプロセッサを備えている。前記プロセッサは、生成処理と、分解処理とを実行する。

【0009】

ここで、生成処理は、時間情報を有する文書データからなる文書データセットＤ１から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ１を生成すると共に、時間情報を有する文書データからなる文書データセットＤ２から、文書データ、単語、及び時間の次元を持つ三次元非負テンソルであって、各時間に対応する各文書データにおける各単語の出現頻度を要素とする三次元非負テンソルＸ２を生成する処理である。

【0010】

また、分解処理は、三次元非負テンソルＸ１を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ１と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ１と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ１とに因子分解すると共に、三次元非負テンソルＸ２を、トピック及び単語の次元を持つ二次元行列であって、各トピックにおける各単語の出現頻度を要素とする二次元行列Ｕ２と、文書データ及びトピックの次元を持つ二次元行列であって、各文書データにおける各トピックの重みを要素とする二次元行列Ｖ２と、時間及びトピックの次元を持つ二次元行列であって、各時間における各トピックの重みを要素とする二次元行列Ｗ２とに因子分解する処理である。

【0011】

ここで、二次元行列Ｕ１は、文書データセットＤ１，Ｄ２に共通のトピックに対応する部分行列Ｕ１ｃと、文書データセットＤ１に固有のトピックに対応する部分行列Ｕ１ｄとにより構成されており、二次元行列Ｕ２は、文書データセットＤ１，Ｄ２とに共通のトピックに対応する部分行列Ｕ２ｃと、文書データセットＤ２に固有のトピックに対応する部分行列Ｕ２ｄと、により構成されている。

【0012】

上記の構成によれば、文書データセットＤ１，Ｄ２に共通の特徴、文書データセットＤ１に固有の特徴、及び、文書データセットＤ２に固有の特徴を、各文書データが有する時間情報を考慮して解析することができる。具体的には、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、文書データセットＤ１における各単語の出現頻度を示す行列Ｕ１を得ることができる。同様に、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、文書データセットＤ２における各単語の出現頻度を示す行列Ｕ２を得ることができる。また、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、文書データセットＤ１における文書データ毎の重みを示す行列Ｖ１を得ることができる。同様に、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、文書データセットＤ２における文書データ毎の重みを示す行列Ｖ２を得ることができる。また、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、文書データセットＤ１における時間毎の重みを示す行列Ｗ１を得ることができる。同様に、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、文書データセットＤ２における時間毎の重みを示す行列Ｗ２を得ることができる。

【0013】

本発明の態様２に係る文書データセット解析装置においては、本発明の態様１に係る文書データセット解析装置の構成に加えて、以下の構成が採用されている。すなわち、前記分解処理において、前記プロセッサは、部分行列Ｕ１ｃと部分行列Ｕ２ｃとが類似するほど値が大きくなり、部分行列Ｕ１ｄと部分行列Ｕ２ｄとが類似するほど値が小さくなる損失関数を最小化するように、二次元行列Ｕ１，Ｕ２，Ｖ１，Ｖ２，Ｗ１，Ｗ２の要素の値を決定する、という構成が採用されている。

【0014】

上記の構成によれば、二次元行列Ｕ１，Ｕ２，Ｖ１，Ｖ２，Ｗ１，Ｗ２の要素の値を、効率的に決定することができる。

【0015】

本発明の態様３に係る文書データセット解析装置においては、本発明の態様１～２の何れかに係る文書データセット解析装置の構成に加えて、以下の構成が採用されている。すなわち、前記プロセッサは、文書データセットＤ１，Ｄ２に共通の各トピックについて、単語を部分行列Ｕ１ｃが示す出現頻度順に並べたテーブルＴ１ｃ、文書データセットＤ１に固有の各トピックについて、単語を部分行列Ｕ１ｄが示す出現頻度順に並べたテーブルＴ１ｄ、文書データセットＤ１，Ｄ２に共通の各トピックについて、単語を部分行列Ｕ２ｃが示す出願頻度順に並べたテーブルＴ２ｃ、及び、文書データセットＤ２に固有の各トピックについて、単語を部分行列Ｕ２ｄが示す出現頻度順に並べたテーブルＴ２ｄを出力する出力処理を更に実行する、という構成が採用されている。

【0016】

上記の構成によれば、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、文書データセットＤ１における各単語の出現頻度をユーザに知得させることができる。同様に、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、文書データセットＤ２における各単語の出現頻度をユーザに知得させることができる。

【0017】

本発明の態様４に係る文書データセット解析装置においては、本発明の態様１～３の何れかに係る文書データセット解析装置の構成に加えて、以下の構成が採用されている。すなわち、前記プロセッサは、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、行列Ｗ１が示す重みの時間変化を表すグラフＧ１、及び、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、行列Ｗ２が示す重みの時間変化を表すグラフＧ２を出力する出力処理を更に実行する、という構成が採用されている。

【0018】

上記の構成によれば、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ１に固有の各トピックについて、文書データセットＤ１における重みの時間変化をユーザに知得させることができる。同様に、文書データセットＤ１，Ｄ２に共通の各トピック、及び、文書データセットＤ２に固有の各トピックについて、文書データセットＤ２における重みの時間変化をユーザに知得させることができる。

【0019】

本発明の態様５に係る文書データセット解析方法においては、少なくとも１つのプロセッサが実行する生成処理と、前記プロセッサが実行する分解処理と、を含んでいる。

【0020】

【0021】

【0022】

【0023】

上記の構成によれば、本発明の態様１に係る文書データセット解析装置と同様、文書データセットＤ１，Ｄ２に共通の特徴、文書データセットＤ１に固有の特徴、及び、文書データセットＤ２に固有の特徴を、各文書データが有する時間情報を考慮して解析することができるという効果を奏する。

【0024】

本発明の態様６に係る文書データセット解析プログラムは、コンピュータを態様１～４の何れかに係る文書データセット解析装置として動作させるためのプログラムであり、前記コンピュータに前記各処理（生成処理、分解処理、出力処理）を実行させる。

【0025】

【発明の効果】

【0026】

本発明の一態様によれば、２つの文書データセットに共通の特徴、一方の文書データセットに固有の特徴、及び、他方の文書データセットに固有の特徴を、各文書データが有する時間情報を考慮して解析することができる。

【図面の簡単な説明】

【0027】

【図1】本発明の一実施形態に係る文書データセット解析装置の構成を示すブロック図である。

【図2】本発明の一実施形態に係る文書データセット解析方法の流れを示すフロー図である。

【図3】図２に示す文書データセット解析方法により生成される各種データの構造を模式的に示す図である。

【図4】本発明の一実施例を示す図である。（ａ）は、両社に共通のトピック１～９の各々について、部分行列Ｕ１ｃが示す出現頻度順に上位１０個の単語を並べたテーブルを示す。（ｂ）は、Ａ社に固有のトピック１０～１８について、部分行列Ｕ１ｄが示す出現頻度順に上位１０個の単語を並べたテーブルを示す。

【図5】本発明の一実施例を示す図である。（ａ）は、両社に共通のトピック１～９の各々について、部分行列Ｕ２ｃが示す出現頻度順に上位１０個の単語を並べたテーブルを示す。（ｂ）は、Ｂ社に固有のトピック１０～１８について、部分行列Ｕ２ｄが示す出現頻度順に上位１０個の単語を並べたテーブルを示す。

【図6】本発明の一実施例を示す図である。（ａ）は、両社に共通のトピック１～９、及び、Ａ社に固有のトピック１０～１８について、行列Ｗ１が示す重みの時間変化を示す積み上げ折れ線グラフを示す。（ｂ）は、両社に共通のトピック１～９、及び、Ｂ社に固有のトピック１０～１８について、行列Ｗ１が示す重みの時間変化を示す積み上げ折れ線グラフを示す。

【発明を実施するための形態】

【0028】

（文書データセット解析装置の構成）
本発明の一実施形態に係る文書データセット解析装置１の構成について、図１を参照して説明する。図１は、文書データセット解析装置１の構成を示すブロック図である。

【0029】

文書データセット解析装置１は、汎用的なコンピュータを用いて実現されており、図１に示すように、プロセッサ１１と、一次メモリ１２と、二次メモリ１３と、入出力インタフェース１４と、バス１５と、を備えている。プロセッサ１１、一次メモリ１２、二次メモリ１３、及び入出力インタフェース１４は、バス１５を介して相互に接続されている。

【0030】

二次メモリ１３には、文書データセット解析プログラムＰ１と、文書データセットＤ１,Ｄ２と、が格納されている。文書データセット解析プログラムＰ１は、後述する文書データセット解析方法Ｓ１をコンピュータに実行させるためのプログラムである。文書データセットＤ１，Ｄ２は、それぞれ、時間情報を有する複数の文書データの集合である。文書データが有する時間情報は、その文書データに対応する時間を表す情報であればよく、例えば、その文書データが作成された時間を表す情報であってもよいし、その文書データが公開された時間を表す時間情報であってもよい。また、時間情報の精度は、任意であり、年精度であってもよいし、月精度であってもよいし、日精度であってもよいし、それ以上の精度（時精度、分精度、秒精度など）であってもよい。

【0031】

プロセッサ１１は、二次メモリ１３に格納されている文書データセット解析プログラムＰ１を一次メモリ１２上に展開する。そして、プロセッサ１１は、一次メモリ１２上に展開された文書データセット解析プログラムＰ１に含まれる命令に従って、後述する文書データセット解析方法Ｓ１に含まれる各ステップを実行する。この際、プロセッサ１１は、二次メモリ１３に格納された文書データセットＤ１，Ｄ２を参照する。

【0032】

プロセッサ１１として利用可能なデバイスとしては、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphical Processing Unit）などを挙げることができる。また、一次メモリ１２として利用可能なデバイスとしては、例えば、半導体ＲＡＭ（Random Access Memory）を挙げることができる。また、二次メモリ１３として利用可能なデバイスとしては、例えば、ＨＤＤ（Hard Disk Drive）を挙げることができる。

【0033】

入出力インタフェース１４には、入力デバイス及び／又は出力デバイスが接続される。入出力インタフェース１４に接続される入力デバイスとしては、例えば、キーボードが挙げられる。また、入出力インタフェース１４に接続される出力デバイスとしては、例えば、ディスプレイが挙げられる。ディスプレイは、後述する文書データセット解析方法Ｓ１を実行することにより得られる各種画面を出力するために利用される。

【0034】

入出力インタフェース１４として利用可能なインタフェースとしては、例えば、ＰＣＩ（Peripheral Component Interconnect）インタフェースやＵＳＢ（Universal Serial Bus）インタフェースなどを挙げることができる。

【0035】

なお、文書データセット解析プログラムＰ１は、コンピュータ読み取り可能な記録媒体、例えば、一時的でない有形の記録媒体に記録され得る。このような記録媒体としては、上述した二次メモリ１３の他に、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などが挙げられる。

【0036】

（文書データセット解析方法の流れ）
本発明の一実施形態に係る文書データセット解析方法Ｓ１の流れについて、図２及び図３を参照して説明する。図２は、文書データセット解析方法Ｓ１の流れを示すフロー図である。図３は、文書データセット解析方法Ｓ１により生成される各種データの構造を示す模式図である。

【0037】

以下の説明においては、対象とするＲ個の単語のうち、ｒ番目の単語を「単語ｒ」と記載する。また、文書データセットＤ１に含まれるＳ１個の文書データのうち、ｓ番目の文書データを「文書データｓ∈Ｄ１」と記載する。また、文書データセットＤ２に含まれるＳ２個の文書データのうち、ｓ番目の文書データを「文書データｓ∈Ｄ２」と記載する。また、対象とするＴ個の時間のうち、ｔ番目の時間を「時間ｔ」と記載する。

【0038】

文書データセット解析方法Ｓ１は、図２に示すように、生成処理Ｓ１１と、分解処理Ｓ１２と、第１出力処理Ｓ１３と、第２出力処理Ｓ１４と、を含んでいる。生成処理Ｓ１１、分解処理Ｓ１２、第１出力処理Ｓ１３、及び第２出力処理Ｓ１４は、それぞれ、一次メモリ１２上に展開された文書データセット解析プログラムＰ１に含まれる命令に従って、プロセッサ１１が実行する。

【0039】

生成処理Ｓ１１は、文書データセットＤ１から三次元非負テンソルＸ１を生成すると共に、文書データセットＤ２から三次元非負テンソルＸ２を生成する処理である。ここで、三次元非負テンソルＸ１は、単語、文書データ、及び時間の次元を持つ三次元非負テンソルである。三次元非負テンソルＸ１の要素Ｘ１（ｒ，ｓ，ｔ）は、時間ｔに対応する文書データｓ∈Ｄ１における単語ｒの出現頻度（例えば、ｔｆ－ｉｄｆ値）により与えられる。なお、時間ｔに対応する文書データｓが文書データセットＤ１に存在しない場合、要素Ｘ１（ｒ，ｓ，ｔ）は０とする。また、三次元非負テンソルＸ２の要素Ｘ２（ｒ，ｓ，ｔ）は、時間ｔに対応する文書データｓ∈Ｄ２における単語ｒの出現頻度（例えば、ｔｆ－ｉｄｆ値）により与えられる。なお、時間ｔに対応する文書データｓが文書データセットＤ２に存在しない場合、要素Ｘ２（ｒ，ｓ，ｔ）は０とする。

【0040】

分解処理Ｓ１２は、三次元非負テンソルＸ１を２次元行列Ｕ１、Ｖ１、Ｗ１に因子分解すると共に、三次元非負テンソルＸ２を２次元行列Ｕ２、Ｖ２、Ｗ２に因子分解する処理である。ここで、二次元行列Ｕ１及び二次元行列Ｕ２は、それぞれ、トピック及び単語の次元を持つＲ行Ｋ列の二次元行列である。二次元行列Ｕ１の要素Ｕ１（ｒ，ｋ）及び二次元行列Ｕ２の要素Ｕ２（ｒ，ｋ）は、それぞれ、トピックｋにおける単語ｒの出現頻度を表す。また、二次元行列Ｖ１は、文書データ及びトピックの次元を持つＫ行Ｓ１列の二次元行列である。二次元行列Ｖ１の要素Ｖ１（ｓ，ｋ）は、文書データｓ∈Ｄ１におけるトピックｋの重みを表す。また、二次元行列Ｖ２は、文書データ及びトピックの次元を持つＫ行Ｓ２列の二次元行列である。二次元行列Ｖ２の要素Ｖ（ｓ，ｋ）は、文書データｓ∈Ｄ２におけるトピックｋの重みを表す。また、二次元行列Ｗ１及び二次元行列Ｗ２は、それぞれ、時間及びトピックの次元を持つＫ行Ｔ列の二次元行列である。二次元行列Ｗ１の要素Ｗ１（ｔ，ｋ）及び二次元行列Ｗ２の要素Ｗ２（ｔ，ｋ）は、それぞれ、時間ｔにおけるトピックｋの重みを表す。

【0041】

二次元行列Ｕ１は、文書データセットＤ１と文書データセットＤ２とに共通のＫｃ個のトピックに対応するＲ行Ｋｃ列の部分行列Ｕ１ｃと、文書データセットＤ１に固有のＫｄ（＝Ｋ－Ｋｃ）個のトピックに対応するＲ行Ｋｄ列の部分行列Ｕ１ｄと、により構成されている。また、二次元行列Ｕ２は、文書データセットＤ１と文書データセットＤ２とに共通のＫｃ個のトピックに対応するＲ行Ｋｃ列部分行列Ｕ２ｃと、文書データセットＤ２に固有のＫｄ個のトピックに対応するＲ行Ｋｄ列の部分行列Ｕ２ｄと、により構成されている。以下、文書データセットＤ１と文書データセットＤ２とに共通のＫｃ個のトピックのことを、「共通トピック」とも記載する。また、文書データセットＤ１に固有のＫｄ個のトピックのことを、「文書データセットＤ１の固有トピック」とも記載し、文書データセットＤ２に固有のＫｄ個のトピックのことを、「文書データセットＤ２の固有トピック」とも記載する。

【0042】

分解処理Ｓ１２において、プロセッサ１１は、部分行列Ｕ１ｃと部分行列Ｕ２ｃとが類似するほど値が小さくなり、部分行列Ｕ１ｄと部分行列Ｕ２ｄとが類似するほど値が大きくなる損失関数Ｌを最小化するように、二次元行列Ｕ１，Ｕ２，Ｖ１，Ｖ２，Ｗ１，Ｗ２の要素の値を決める。このような損失関数Ｌは、例えば、以下の式により与えられる。

【数1】

【0043】

ここで、||・||_２は、ユークリッドノルムを表し、||・||_Ｆは、フロベニウスノルムを表し、||・||_１は、マンハッタン距離を表す。また、αは、部分行列Ｕ１ｃと部分行列Ｕ２ｃとの類似性の影響度を調節するためのハイパーパラメータであり、βは、部分行列Ｕ１ｄと部分行列Ｕ２ｄとの類似性の影響度を調節するためのハイパーパラメータである。また、損失関数Ｌを最小化する二次元行列Ｕ１，Ｕ２，Ｖ１，Ｖ２，Ｗ１，Ｗ２の要素の値は、以下の正規化条件を満たすように決められる。

【数2】

【0044】

第１出力処理Ｓ１３は、部分行列Ｕ１ｃ，Ｕ１ｄ，Ｕ２ｃ，Ｕ２ｄのそれぞれに対応するテーブルＴ１ｃ，Ｔ１ｄ，Ｔ２ｃ，Ｔ２ｄをディスプレイ等に出力する処理である。ここで、テーブルＴ１ｃは、文書データセットＤ１，Ｄ２の各共通トピックについて、単語を部分行列Ｕ１ｃが示す出現頻度順に並べたテーブルである。テーブルＴ１ｄは、文書データセットＤ１の各固有トピックについて、単語を部分行列Ｕ１ｄが示す出現頻度順に並べたテーブルである。テーブルＴ２ｃは、文書データセットＤ１，Ｄ２の各共通トピックについて、単語を部分行列Ｕ２ｃが示す出現頻度順に並べたテーブルである。テーブルＴ２ｄは、文書データセットＤ１の各固有トピックについて、単語を部分行列Ｕ２ｄが示す出現頻度順に並べたテーブルである。ディスプレイ等に出力されるテーブルＴ１ｃ，Ｔ１ｄ，Ｔ２ｃ，Ｔ２ｄの具体例については、実施例において説明する。

【0045】

第２出力処理Ｓ１４は、行列Ｗ１，Ｗ２のそれぞれに対応するグラフＧ１,Ｇ２をディスプレイ等に出力する処理である。ここで、グラフＧ１は、文書データセットＤ１，Ｄ２の各共通トピック、及び、文書データセットＤ１の各固有トピックについて、行列Ｗ１が示す重みの時間変化を示すグラフである。グラフＧ２は、文書データセットＤ１，Ｄ２の各共通トピック、及び、文書データセットＤ２の各固有トピックについて、行列Ｗ２が示す重みの時間変化を示すグラフである。ディスプレイ等に出力されるグラフＧ１,Ｇ２の具体例については、実施例において説明する。

【0046】

なお、文書データセット解析方法Ｓ１は、行列Ｖ１，Ｖ２のそれぞれに対応するグラフＨ１,Ｈ２をディスプレイ等に出力する第３出力処理を更に含んでいてもよい。ここで、グラフＨ１は、文書データセットＤ１，Ｄ２の各共通トピック、及び、文書データセットＤ１の各固有トピックについて、行列Ｗ１が示す重みの分布（文書データセットＤ１上の分布）を示すグラフである。グラフＨ２は、文書データセットＤ１，Ｄ２の各共通トピック、及び、文書データセットＤ２の各固有トピックについて、行列Ｗ２が示す重みの分布（文書データセットＤ２上の分布）を示すグラフである。

【0047】

（実施例）
発明者らは、２００１年から２０２１年に出願されたＡ社の１６５０件の特許文献からなる文書データセットＤ１、及び、２００１年から２０２１年に出願されたＢ社の１２７７件の特許文献からなる文書データセットＤ２に対して、上述した文書データセット解析方法Ｓ１を実行した。ここで、対象とする単語は、２つ以上の名詞が連結した複合語であって、文書全体における頻度が５以上１０００以下の複合語とした。また、対象とする時間は、出願年とした。対象とする時間の個数Ｔは、Ｔ＝２１であった。また、共通トピックの個数Ｋｃ及び固有トピックの個数Ｋｄは、Ｋｃ＝Ｋｄ＝１０とした。また、損失関数Ｌに含まれるハイパーパラメータα及びβは、α＝β＝１とした。

【0048】

文書データセット解析方法Ｓ１を実行することによって、ディスプレイに出力されたテーブルＴ１ｃ,Ｔ１ｄ，Ｔ２ｃ，Ｔ２ｄを図４及び図５に示す。

【0049】

図４の（ａ）は、両社に共通のトピック１～９の各々について、部分行列Ｕ１ｃが示す出現頻度順に上位１０個の単語を並べたテーブルＴ１ｃを示し、図４の（ｂ）は、Ａ社に固有のトピック１０～１８について、部分行列Ｕ１ｄが示す出現頻度順に上位１０個の単語を並べたテーブルＴ１ｄを示す。これらのテーブルを参照することによって、ユーザは、Ａ社の技術動向のトレンドを示すキーワードを、Ｂ社と共通なトピックとＡ社に固有のトピックとに分けて、それぞれ把握することができる。

【0050】

図５の（ｃ）は、両社に共通のトピック１～９の各々について、部分行列Ｕ２ｃが示す出現頻度順に上位１０個の単語を並べたテーブルＴ２ｃを示し、図５の（ｂ）は、Ｂ社に固有のトピック１０～１８について、部分行列Ｕ２ｄが示す出現頻度順に上位１０個の単語を並べたテーブルＴ２ｄを示す。これらのテーブルを参照することによって、ユーザは、Ｂ社の技術動向のトレンドを示すキーワードを、Ａ社と共通なトピックとＢ社に固有のトピックとに分けて、それぞれ把握することができる。

【0051】

文書データセット解析方法Ｓ１を実行することによって、ディスプレイに出力されたグラフＧ１,Ｇ２を図６に示す。

【0052】

図６の（ａ）は、両社に共通のトピック１～９、及び、Ａ社に固有のトピック１０～１８について、行列Ｗ１が示す重みの時間変化を示す積み上げ折れ線グラフを示す。このグラフを参照することによって、ユーザは、それぞれのトピックの重要性がＡ社において時間と共にどのように変化していくのかを、つぶさに把握することができる。

【0053】

図６の（ｂ）は、両社に共通のトピック１～９、及び、Ｂ社に固有のトピック１０～１８について、行列Ｗ２が示す重みの時間変化を示す積み上げ折れ線グラフを示す。このグラフを参照することによって、ユーザは、それぞれのトピックの重要性がＢ社において時間と共にどのように変化していくのかを、つぶさに把握することができる。

【0054】

（付記事項）
本発明は上述した実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、上述した実施形態に開示された各技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

【符号の説明】

【0055】

１文書データセット解析装置
１１プロセッサ
１２１次メモリ
１３２次メモリ
１４入出力インタフェース
１５バス
Ｓ１文書データセット解析方法
Ｓ１１生成処理
Ｓ１２分解処理
Ｓ１３第１出力処理
Ｓ１４第２出力処理

【図1】