(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6984866
(24)【登録日】2021年11月29日
(45)【発行日】2021年12月22日
(54)【発明の名称】単語概念可視化装置と単語概念可視化方法
(51)【国際特許分類】
G06F 16/248 20190101AFI20211213BHJP
G06F 16/26 20190101ALI20211213BHJP
G06F 16/28 20190101ALI20211213BHJP
G06F 16/338 20190101ALI20211213BHJP
G06F 16/34 20190101ALI20211213BHJP
G06F 40/20 20200101ALI20211213BHJP
G06F 40/205 20200101ALI20211213BHJP
【FI】
G06F16/248
G06F16/26
G06F16/28
G06F16/338
G06F16/34
G06F40/20
G06F40/205
【請求項の数】8
【全頁数】9
(21)【出願番号】特願2017-127777(P2017-127777)
(22)【出願日】2017年6月29日
(65)【公開番号】特開2019-12346(P2019-12346A)
(43)【公開日】2019年1月24日
【審査請求日】2020年6月12日
(73)【特許権者】
【識別番号】301021533
【氏名又は名称】国立研究開発法人産業技術総合研究所
(74)【代理人】
【識別番号】110001243
【氏名又は名称】特許業務法人 谷・阿部特許事務所
(72)【発明者】
【氏名】林 隆介
【審査官】
三橋 竜太郎
(56)【参考文献】
【文献】
特開2006−161403(JP,A)
【文献】
特開2001−092824(JP,A)
【文献】
米国特許出願公開第2015/0186787(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
G06F 40/00−40/40
(57)【特許請求の範囲】
【請求項1】
各ユーザにおいて表象される単語概念の特徴を示す第一の単語特徴量表現を生成すると共に、前記ユーザ全体の標準的な単語概念の特徴を示す第二の単語特徴量表現を生成する単語特徴量表現生成手段と、
前記単語特徴量表現生成手段で生成された前記第一の単語特徴量表現と前記第二の単語特徴量表現との間で有意な相関の有無を調べ、前記第一の単語特徴量表現に基づいて、前記有意な相関があると認められる第三の単語特徴量表現を生成する相関解析手段と、
前記第三の単語特徴量表現を構成する単語特徴量ベクトルと前記第一の単語特徴量表現を構成する単語特徴量ベクトルの距離を前記単語毎に算出する距離算出手段と、
前記距離算出手段により算出された前記距離を表示する表示手段を備えた
単語概念可視化装置。
【請求項2】
前記相関解析手段は、正準相関解析によって前記有意な相関の有無を調べる、
請求項1に記載の単語概念可視化装置。
【請求項3】
前記相関解析手段は、
前記第一の単語特徴量表現から得られる第一の正準相関表現と、前記第二の単語特徴量表現から得られる第二の正準相関表現とを比較する比較手段と、
前記比較の結果に応じて、前記第一の正準相関表現から前記有意な相関があると判定された次元数を有する第三の正準相関表現を生成し、前記第三の正準相関表現を前記第一の単語特徴量表現が有する空間に逆変換することにより前記第三の単語特徴量表現を生成する逆変換手段とを含む、
請求項2に記載の単語概念可視化装置。
【請求項4】
前記単語特徴量表現は、テキストデータ、単語でラベル付けされた画像の類似度判定データ、若しくは前記ユーザの脳活動により得られたデータから特定される、
請求項1に記載の単語概念可視化装置。
【請求項5】
各ユーザにおいて表象される単語概念の特徴を示す第一の単語特徴量表現を生成する第一のステップと、
前記ユーザ全体の標準的な単語概念の特徴を示す第二の単語特徴量表現を生成する第二のステップと、
前記第一の単語特徴量表現と前記第二の単語特徴量表現との間で有意な相関の有無を調べる第三のステップと、
前記第一の単語特徴量表現に基づいて、前記有意な相関があると認められる第三の単語特徴量表現を生成する第四のステップと、
前記第三の単語特徴量表現を構成する単語特徴量ベクトルと前記第一の単語特徴量表現を構成する単語特徴量ベクトルの距離を前記単語毎に算出する第五のステップと、
前記第五のステップで算出された前記距離を表示する第六のステップと
をコンピュータが実行する単語概念可視化方法。
【請求項6】
前記第三のステップでは、正準相関解析により前記有意な相関の有無を調べる、
請求項5に記載の単語概念可視化方法。
【請求項7】
前記第三のステップでは、前記第一の単語特徴量表現から得られる第一の正準相関表現と、前記第二の単語特徴量表現から得られる第二の正準相関表現とを比較することにより前記有意な相関の有無を調べ、
前記第四のステップでは、前記比較の結果に応じて、前記第一の正準相関表現から前記有意な相関があると判定された次元数を有する第三の正準相関表現を生成し、前記第三の正準相関表現を前記第一の単語特徴量表現が有する空間に逆変換することにより前記第三の単語特徴量表現を生成する、
請求項6に記載の単語概念可視化方法。
【請求項8】
前記単語特徴量表現は、テキストデータ、単語でラベル付けされた画像の類似度判定データ、若しくは前記ユーザの脳活動により得られたデータから特定される、
請求項5に記載の単語概念可視化方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザが使用する単語概念の個人差を可視化する技術に関するものである。
【背景技術】
【0002】
これまでに、自然言語処理に関する考案が種々なされてきており、例えば特許文献1には、単語間の意味の類似性を測るための単語間類似度計算装置等が開示されている。
【0003】
また、非特許文献1には、ユーザ別に単語の特徴量表現を取得し、クラスタ解析を行う手法が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−38162号公報
【非特許文献】
【0005】
【非特許文献1】Jayant Jain著、“Project Gutenberg and Word2Vec”、[online]、2016年2月23日、[2017年6月21日検索]、インターネット〈URL: https://jayantj.github.io/posts/project-gutenberg-word2vec〉
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかし、ユーザがどのような単語概念に対して標準とは異なる個性的な表象を行っているのかを可視化する試みはなされていない。
【0007】
本発明は、このような課題に取り組むものであって、ユーザが使用する単語概念の個人差を可視化するための装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明は、各ユーザにおいて表象される単語概念の特徴を示す第一の単語特徴量表現を生成すると共に、ユーザ全体の標準的な単語概念の特徴を示す第二の単語特徴量表現を生成する単語特徴量表現生成手段と、単語特徴量表現生成手段で生成された第一の単語特徴量表現と第二の単語特徴量表現との間で有意な相関の有無を調べ、第一の単語特徴量表現に基づいて、有意な相関があると認められる第三の単語特徴量表現を生成する相関解析手段と、第三の単語特徴量表現を構成する単語特徴量ベクトルと第一の単語特徴量表現を構成する単語特徴量ベクトルの距離を単語毎に算出する距離算出手段と、距離算出手段により算出された距離を表示する表示手段を備えた単語概念可視化装置を提供する。
【0009】
また、上記課題を解決するため、本発明は、各ユーザにおいて表象される単語概念の特徴を示す第一の単語特徴量表現を生成する第一のステップと、ユーザ全体の標準的な単語概念の特徴を示す第二の単語特徴量表現を生成する第二のステップと、第一の単語特徴量表現と第二の単語特徴量表現との間で有意な相関の有無を調べる第三のステップと、第一の単語特徴量表現に基づいて、有意な相関があると認められる第三の単語特徴量表現を生成する第四のステップと、第三の単語特徴量表現を構成する単語特徴量ベクトルと第一の単語特徴量表現を構成する単語特徴量ベクトルの距離を単語毎に算出する第五のステップと、第五のステップで算出された距離を表示する第六のステップとを有する単語概念可視化方法を提供する。
【発明の効果】
【0010】
本発明によれば、ユーザが使用する単語概念の個人差を可視化することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の実施の形態に係る単語概念可視化装置1の構成を示すブロック図である。
【
図2】本発明の実施の形態に係る単語概念可視化方法を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下において、本発明の実施の形態を図面を参照しつつ詳しく説明する。なお、図中同一符号は同一又は相当部分を示す。
【0013】
図1は、本発明の実施の形態に係る単語概念可視化装置1の構成を示すブロック図である。
図1に示されるように、単語概念可視化装置1は、入出力端子9と、入出力端子9に接続されたバス2と、それぞれバス2に接続された単語特徴量表現生成部3、相関解析部4、距離算出部5、記憶部6、表示部7、及び操作部8とを備える。なお、相関解析部4は、後述する比較部と逆変換部を含む。
【0014】
また、記憶部6は、入出力端子9から供給されたデータの他、単語特徴量表現生成部3や相関解析部4、距離算出部5により生成された各データを記憶する。また、表示部7は、操作部8においてユーザにより入力された命令に応じて、記憶部6に記憶されているデータを本装置1の内外のモニタ等(図示していない)へ表示する。
【0015】
図2は、本発明の実施の形態に係る単語概念可視化方法を示すフローチャートである。以下においては、
図1に示された単語概念可視化装置1の動作により本方法を実行する場合について説明するが、本方法は単語概念可視化装置1を用いた場合に限られず広く適用することができる。
【0016】
ステップS1では、単語特徴量表現生成部3が、入出力端子9から供給されるデータ、又は記憶部6に記憶されたデータを対象として、各ユーザにおいて表象される単語概念の特徴を示す第一の単語特徴量表現を生成する。
【0017】
ここで、上記データには、著作物、ソーシャル・ネットワーキング・サービス(SNS)やブログの投稿記事などのテキストデータの他、視覚実験により取得された画像の類似度判断データや、脳波計測や機能的核磁気共鳴画像(fMRI)計測等により取得したユーザの脳活動データが含まれる。
【0018】
また、上記の単語特徴量表現は、単語と対応づけられるセマンティクス(意味や表象概念)をベクトル(word embedding)で表現した構成要素からなる行列であり、上記ベクトルは、例えば、広く知られたワード・トゥ・ベック(word2vec)による自然言語処理により生成される。
【0019】
なお、上記データが画像の類似度判断データの場合は、例えば以下のような方法により、上記の単語特徴量表現を生成することができる。
【0020】
最初に、個別のユーザに様々な画像を提示し、画像間の類似度や非類似度を判定してもらう。次に、それぞれの画像に対し、内容と一致する単語でラベル付けを行うことにより、画像類似度判定結果を単語間の類似度関係に置き換える。そして、多次元尺度構成法(MDS法)を用いて単語間の類似度関係を維持した形で、各単語の多次元ベクトル表現化を行う。
【0021】
また、上記データが脳活動データの場合は、例えば以下のような方法によって、上記の単語特徴量表現を生成することができる。
【0022】
最初に、画像シーケンスや動画といった映像を観察中の各ユーザの脳活動を計測する。次に、映像の各フレームに対し、内容に対応した単語ラベルを割り当てる。次に、当該単語ラベルの出現や消失を、脳活動の時系列データを対象とした線形回帰によって予測する計算を行う。そして、得られた回帰行列の各単語に対応した重みベクトルを、脳における単語特徴量表現とする。
【0023】
次に、ステップS2では、単語特徴量表現生成部3が、ユーザ全体の標準的な単語概念の特徴を示す第二の単語特徴量表現を生成する。本ステップでは、全ユーザのデータを統合して、上記第一の単語特徴量表現の場合と同様な計算方法により、標準としての単語特徴量表現を生成する。
【0024】
なお、上記標準としての単語特徴量表現は、単純に単語間の類似度行列をユーザ間で平均化したのち、多次元尺度構成法(Multi-Dimensional Scaling: MDS法)によって単語特徴量ベクトルを生成してもよい。
【0025】
次に、ステップS3では、相関解析部4の比較部により、上記第一の単語特徴量表現と第二の単語特徴量表現との間で有意な相関の有無を調べる。本ステップでは、各ユーザと上記標準との間において単語概念同士のトポロジーは多くの場合共通であるという前提に立ち、例えば正準相関解析を用いて、統計的に有意な相関のある潜在変数空間において双方の単語特徴量表現を計算する。
【0026】
ここで例えば、相関解析部4に含まれる上記比較部が、第一の単語特徴量表現から得られる第一の正準相関表現と、第二の単語特徴量表現から得られる第二の正準相関表現とを比較することにより、上記有意な相関の有無を調べることができる。
【0027】
次に、ステップS4では、相関解析部4の逆変換部が、上記第一の単語特徴量表現に基づいて、上記の有意な相関があると認められる第三の単語特徴量表現を生成する。
【0028】
ここで例えば、相関解析部4に含まれる上記逆変換部が、比較部による比較結果に応じて、第一の正準相関表現から有意な相関があると判定された次元数を有する第三の正準相関表現を生成し、第三の正準相関表現を第一の単語特徴量表現が有する空間に逆変換することにより第三の単語特徴量表現を生成する。
【0029】
次に、ステップS5では、距離算出部5が、上記第三の単語特徴量表現を構成する単語特徴量ベクトルと上記第一の単語特徴量表現を構成する単語特徴量ベクトルの距離、具体的にはコサイン距離又はユークリッド距離等を単語毎に算出する。
【0030】
そして、ステップS6では、表示部7が、ステップS5で算出された単語毎の距離を表示する。本表示では、例えば、ワードネットなどの語彙辞書に基づくネットワークグラフのノードサイズを各単語の距離、すなわち上記標準からの誤差に応じて変える等のマッピングを行う他、単語別の上記誤差をヒストグラム等で表すようにしてもよい。
【0031】
以上のような本発明の実施の形態に係る単語概念可視化方法の具体例について以下において詳しく説明する。
【0032】
まず、次式(1)で示されるように、注目するn個の単語リストを設定する。
【0034】
次に、上式(1)の各単語w
i(i=1〜n)に対応するm次元の単語特徴量ベクトルを、上記のテキストデータ、画像類似度判定データ、若しくは脳活動データに基づいて、ユーザp人から個別に取得する。
【0035】
次に、ユーザjから取得した単語w
iのm次元単語特徴量ベクトルを、次式(2)で表す。
【0037】
このとき、ユーザjの全単語リストに対する単語特徴量表現M
jは、次式(3)で示される(n×m)行列となる。
【0039】
また、全ユーザの単語特徴量表現M
allも同様に、次式(4)で示される(n×m)行列となる。
【0041】
次に、上記の行列M
jと行列M
allとの間で、正準相関解析を行う。すなわち、正準相関表現U,Tを求めるための変換式(5),(6)において、ベクトル成分u
kとベクトル成分t
kの相関が最大となる変換W
jと変換W
allとを求める。
【0044】
ここで、正準相関解析では、全てのベクトル成分u
kとベクトル成分t
kのペアにおいて統計的に有意な相関を持つわけではない。そこで、既存の統計検定法に基づき、有意な相関がある次元qまでにおける第三の正準相関表現を生成し、この第三の正準相関表現を単語特徴量表現M
jが有する空間に逆変換する。具体的には、全体のデータと相関があるユーザjの単語特徴量表現M’
jを次式(7)のように求める。
【0046】
なお、上式(7)におけるW
−1j,1~qは、逆変換を表す行列であり、行列W
jの1列からq列までを取り出した行列の逆行列によって実装できるほか、[u
1,u
2,…,u
q]から上記行列M
jへの回帰によっても実装可能である。
【0047】
次に、ユーザjの全単語リストに対する単語特徴量表現M
jと全ユーザと相関の高い単語特徴量表現M’
jを行ベクトルごと、すなわち単語ごとに比較する。ここで、単語特徴量表現M’
jを次式(8)のように置く。
【0049】
このとき、各単語w
iに対する特徴量と、全ユーザと相関の高い単語特徴量の距離(誤差)l
j,iを次式(9)により計算する。なお、距離の計算には、コサイン距離を使うことが想定されるが、ユークリッド距離など他の距離尺度を用いてもよい。
【0051】
ここで、このように算出された誤差が大きい場合は、その単語の表現は標準的な表現から乖離したものであり、ユーザの個性が表出されたものといえる。
【0052】
以上より、本発明の実施の形態に係る単語概念可視化装置及び単語概念可視化方法によれば、ユーザが作成したテキストデータ等において、どのような単語概念が標準から外れた独自の表象になっているかを自動的に可視化することができ、ユーザの潜在的な個性若しくは趣向を把握することができる。
【0053】
なお、以上においては、ある一人のユーザの単語概念と全ユーザデータに基づく標準の単語概念の比較により個人差を可視化する装置及び方法を説明したが、これらの装置及び方法は、異なるユーザ間における単語概念の違いを可視化する目的で使用しても良い。
【符号の説明】
【0054】
1 単語概念可視化装置
3 単語特徴量表現生成部
4 相関解析部
5 距離算出部
7 表示部