特許第6649318号(P6649318)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソケッツの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6649318
(24)【登録日】2020年1月20日
(45)【発行日】2020年2月19日
(54)【発明の名称】言語情報分析装置および方法
(51)【国際特許分類】
   G06F 16/35 20190101AFI20200210BHJP
【FI】
   G06F16/35
【請求項の数】8
【全頁数】16
(21)【出願番号】特願2017-106061(P2017-106061)
(22)【出願日】2017年5月30日
(65)【公開番号】特開2018-200650(P2018-200650A)
(43)【公開日】2018年12月20日
【審査請求日】2018年8月1日
(73)【特許権者】
【識別番号】500423444
【氏名又は名称】株式会社ソケッツ
(74)【代理人】
【識別番号】100086531
【弁理士】
【氏名又は名称】澤田 俊夫
(74)【代理人】
【識別番号】110000763
【氏名又は名称】特許業務法人大同特許事務所
(72)【発明者】
【氏名】五十崎 正明
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2015−125570(JP,A)
【文献】 特開2005−122296(JP,A)
【文献】 特開2015−005027(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
分析対象テキストを入力する入力手段と、
上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と、
辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段と、
上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段とを有し、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とする言語情報分析装置。
【請求項2】
上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞の単語からなる請求項記載の言語情報分析装置。
【請求項3】
上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語とする請求項1または2のいずれかに記載の言語情報分析装置。
【請求項4】
上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して1つの単語とする請求項1〜のいずれかに記載の言語情報分析装置。
【請求項5】
上記属性カテゴリは、複数の感情属性カテゴリまたは複数の印象属性カテゴリである請求項1〜のいずれかに記載の言語情報分析装置。
【請求項6】
上記抽出手段は、形態素解析手段および構文解析手段を含む請求項1〜のいずれかに記載の言語情報分析装置。
【請求項7】
入力手段が分析対象テキストを入力するステップと、
抽出手段が、上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出するステップと、
スコア計算手段が、辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段を参照して、上記抽出手段により抽出された上記単語および上記単語組を、上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得し、上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するステップとを有し、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とする言語情報分析方法。
【請求項8】
コンピュータを、
力手段から入力された分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段、
辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた複数の属性カテゴリに関するスコアを記憶する辞書手段、および、
上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた複数の属性カテゴリに関するスコアを所定の規則の下で取得して上記入力された分析対象テキストの上記予め定められた複数の属性カテゴリに関するスコアを計算するスコア計算手段して実行させるために使用されるコンピュータプログラムであって、
上記所定の規則は、
上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しない、
というものであることを特徴とするコンピュータプログラム
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、発話内容やテキスト等の言語情報から当事者の感情・印象等の主観的な属性・特徴を分析する技術に関する。
【背景技術】
【0002】
ユーザは、ネットワーク上の、公開のコミュニティまたはプライベートなコミュニティにおいて、または、特定または非特定の相手との間で、スマートフォン、タブレット、パソコン等のユーザインタフェースを介して、テキストベースで、または音声ベースで、情報のやり取りを行っている。この際、客観的なデータのみでなく、当事者の感情・印象等の主観的な内容を利用することが望まれる。例えば、お客様と音声ベースでやり取りを行う際に、お客様の感情や商品に対する印象を把握できれば大変便利である。また、ネットワーク上の所定の商品に関するユーザのメッセージを集めていわゆるデータマイニングして商品開発に役立てることも望まれる。
【0003】
特許文献1(特公平06−082377号公報)は、単語単位の感情要素を分類して登録した単語辞書を用いて、入力文の感情要素を分析・表示する技術を開示している。特許文献2(特開2015−210700号公報)は、ネットワーク上の商品情報を集め、評価観点に基づいて商品に対する印象を分析することを開示している。特許文献3(特開平06−110920号公報)は、形態素列パターンに主観的属性を割り当てたテーブルを用いて主観的特徴を分析・抽出することを開示している。
【0004】
単語単位、または形態素列パターンという単純な兆候でなく、より複雑な兆候を考慮して、感情や印象等の主観的属性を分析することが望まれる。
【0005】
なお、本発明は、上述の課題により限定的に理解されるべきでなく、その内容は特許請求の範囲に規定され、以下に実施例を用いて詳細に説明される。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特公平06−082377号公報
【特許文献2】特開2015−210700号公報
【特許文献3】特開平06−110920号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
この発明は上述の事情等を考慮してなされたものであり、複雑な兆候を考慮して、感情や印象等の属性を分析する技術を提供すること、その他を、目的としている。
【課題を解決するための手段】
【0008】
この発明によれば、上述の目的を達成するために、特許請求の範囲に記載のとおりの構成を採用している。ここでは、発明を詳細に説明するのに先だって、特許請求の範囲の記載について補充的に説明を行なっておく。
【0009】
この発明によれば、上述の目的を達成するために、言語情報分析装置を:分析対象テキストを入力する入力手段と;上記入力手段から入力された上記分析対象テキストから、単語、および、係り受け関係にある複数の単語からなる単語組を、抽出する抽出手段と;辞書エントリとして登録された、単独の単語および単語組のそれぞれについて予め定められた1または複数の属性カテゴリに関するスコアを記憶する辞書手段と;上記抽出手段により抽出された上記単語および上記単語組を、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組と照合し、照合結果に基づいて、上記辞書手段に上記辞書エントリとして登録された上記単独の単語および上記単語組の上記予め定められた1または複数の属性カテゴリに関するスコアを選択的に取得して上記入力された分析対象テキストの上記予め定められた1または複数の属性カテゴリに関するスコアを計算するスコア計算手段とを含んで構成している。
【0010】
この構成においては、単語のみでなく、係り受け関係にある複数の単語からなる単語組を考慮して分析対象テキストを分析しているので、微妙なニュアンスも正確に分析に反映させることができる。
【0011】
言語情報分析装置は、典型的にはコンピュータシステム(スマートフォン等の携帯端末も含む)で実現される。ネットワークで接続された複数のコンピュータシステムが共同して言語情報分析装置を形成して良い。
【0012】
分析対象の属性は、後述するように、典型的には、感情の属性や、印象の属性であるけれども、これに限定されず、任意の主観的な属性であって良い。
【0013】
入力手段は、音声をテキスト化する機能を有してよい。入力手段は、スマートフォン等のユーザインタフェースであってよく、またネットワークを介して種々のソースから一群のテキストを取得するものであって良い。スコア計算手段から出力されるスコアは、種々の態様で出力することが可能である。例えば、コミュニケーション中の相手ユーザの感情・印象等を色彩や、顔のイラスト、音声等で表示して良く、また、ネットワーク上の多数のテキスト群(例えば所定の商品に関するテキスト)全体に対する種々の感情・印象の属性値データとして提示するものでもよい。
【0014】
この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、上記辞書エントリのいずれかに合致し、さらに、相互に部分的に重複する上記単語または上記単語組がある場合、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。例えば、「将来への希望が見えない」というテキストが入力され、「将来|希望|見えない」(単語組)、「将来|見えない」(単語組)、「将来」(単語、一般化して、「単語組」と呼ぶこともある)、「希望」(単語)、「見えない」(単語)が単語または単語組として抽出され、これら単語、単語組が辞書手段に「不安・怖れ」、「希望」等の感情属性カテゴリに関して辞書エントリとして登録されているときには、その中で単語の数が一番大きな「将来|希望|見えない」を照合単語組として選択し、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
【0015】
また、この構成において、上記スコア計算手段は、上記抽出手段により抽出され、かつ、同一の属性カテゴリに関して登録されている上記辞書エントリのいずれかに合致し、さらに、部分的に重複する上記単語または上記単語組がある場合、上記同一の属性カテゴリに関しては、当該部分的に重複する上記単語または上記単語組のうち、もっとも単語数の大きな単語組についてのみ、スコアを取得し、それ以外の上記単語または上記単語組についてはスコアを取得しなくて良い。上述の例で、「将来への希望が見えない」というテキストが入力され、「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が単語または単語組として抽出され、このうちの「将来|希望|見えない」、「将来|見えない」が辞書手段に「不安・怖れ」の感情属性カテゴリに関して辞書エントリとして登録され、「将来」、「希望」が「希望」の感情属性カテゴリに関して辞書エントリとして登録されているときには、「不安・怖れ」の感情属性カテゴリに関しては、その中で単語の数が一番大きな「将来|希望|見えない」を照合単語組とし、それに割り当てられた属性のスコアに基づいてスコア計算を行って良い。「希望」の感情属性カテゴリについては、「不安・怖れ」の感情属性カテゴリと独立して、「将来」、「希望」からスコア計算を行って良い。代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
【0016】
また、この構成において、上記抽出手段から抽出される上記単語および上記単語組は、名詞、動詞、形容詞、または副詞からなって良いけれども、これに限定されない。名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。
【0017】
また、上記入力手段から入力された上記分析対象テキストが動詞および当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えて単語として良い。
【0018】
また、上記入力手段から入力された上記分析対象テキストが一連の複数の名詞を含む場合、上記複数の名詞を連結して1つの単語として良い。
【0019】
また、この構成において、上記属性は、1または複数の感情属性カテゴリまたは1または複数の印象属性カテゴリ(対象に対する印象)であって良く、感情属性カテゴリおよび印象属性カテゴリの組み合わせであって良い。感情属性カテゴリは、覚醒の程度、感情のバランスを2次元の軸で把握するラッセル円環モデルで規定されるものであって良い。また、感情属性カテゴリは、例えば、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」であって良いけれども、これに限定されない。印象属性カテゴリは、例えば、「直接的好印象」、「認知的好印象」、「情緒的好印象」、「興味・期待」、「直接的悪印象」、「認知的悪印象」、「情緒的悪印象」、「無関心・失望」であって良いけれどもこれに限定されない。
【0020】
この構成において、上記抽出手段は、形態素解析手段および構文解析手段を含んで良い。
【0021】
なお、この発明は装置またはシステムとして実現できるのみでなく、方法としても実現可能である。また、そのような発明の一部をソフトウェアとして構成することができることはもちろんである。またそのようなソフトウェアをコンピュータに実行させるために用いるソフトウェア製品(コンピュータプログラム)もこの発明の技術的な範囲に含まれることも当然である。
【0022】
この発明の上述の側面および他の側面は特許請求の範囲に記載され、以下、実施例等を用いて詳述される。
【発明の効果】
【0023】
この発明によれば、複雑な兆候を考慮して、感情や印象等の属性を分析することができる。
【図面の簡単な説明】
【0024】
図1】この発明の実施例の属性分析装置を全体的に示す機能ブロック図である。
図2】上述実施例の処理を説明するフローチャートである。
図3】上述実施例の感情属性カテゴリの例を説明する図である。
図4】ラッセル円環モデルを説明する図である。
図5】感情属性単語組テーブル例を説明する図である。
図6】長い単語組の選択を説明する図である。
図7】変形例を説明するフローチャートである。
図8】変形例で用いる辞書エントリのID順に頻度を並べた特徴ベクトルの例を示す図である。
図9】印象属性カテゴリの例を説明する図である。
図10】印象属性単語組テーブルを説明する図である。
図11A】サンプル文章1を用いた具体的な処理例を説明する図である。
図11B】サンプル文章1を用いた具体的な処理例を説明する図である。
図11C】サンプル文章1を用いた具体的な処理例を説明する図である。
図11D】サンプル文章1を用いた具体的な処理例を説明する図である。
図11E】サンプル文章1を用いた具体的な処理例を説明する図である。
図11F】サンプル文章1を用いた具体的な処理例を説明する図である。
図11G】サンプル文章1を用いた具体的な処理例を説明する図である。
図11H】サンプル文章1を用いた具体的な処理例を説明する図である。
図12A】サンプル文章2を用いた具体的な処理例を説明する図である。
図12B】サンプル文章2を用いた具体的な処理例を説明する図である。
図12C】サンプル文章2を用いた具体的な処理例を説明する図である。
図12D】サンプル文章2を用いた具体的な処理例を説明する図である。
図12E】サンプル文章2を用いた具体的な処理例を説明する図である。
図12F】サンプル文章2を用いた具体的な処理例を説明する図である。
図12G】サンプル文章2を用いた具体的な処理例を説明する図である。
【発明を実施するための形態】
【0025】
以下、この発明の実施例の属性分析装置について説明する。
【0026】
図1は、この発明の実施例の属性分析装置100の構成を示しており、この図において、属性分析装置100は、入力部10、単語組抽出部11、スコア計算部12、辞書記憶部13、および出力部14を含んで構成されている。属性分析装置100は典型的にはコンピュータシステム200によって構成される。属性分析装置100は、例えば、記録媒体201に記録されたコンピュータプログラムや通信ネットワーク(図示しない)を介して送信されてくるコンピュータプログラムをコンピュータシステム200にインストールすることにより実現される。コンピュータシステム200は、CPU、主メモリ、バス、外部メモリ、種々の入出力インタフェース等を有してなり、パーソナルコンピュータ、スマートフォン、情報家電機器等であって良い。
【0027】
図1の属性分析装置100は、感情属性を分析するものであるけれども、これに限定されない。この実施例では、例えば、図3に示すような、「昂ぶり・興味・驚き」、「希望」、「幸福・愛情」、「好き・嬉しい・楽しい」、「安らぎ・信頼」、「退屈・うんざり」、「悲しみ・哀しみ」、「嫌い・不愉快」、「苛立ち・怒り」、「不安・怖れ」の10個の感情属性カテゴリについてスコアを求めて感情属性の分析を行う。図3の10個の感情属性カテゴリは、図4に示すラッセル(Russell)円環モデルに準拠したものであり、ラッセル円環モデルと同様に感情を平面上に適切に表現することができる。ラッセル円環モデルは、「快−不快」、「覚醒−眠気」の2次元で感情を表現するものである。
【0028】
図1において、入力部10は、分析対象テキストを入力する。分析対象テキストは1センテンスのテキストまたは複数センテンスからなる1まとまりのテキストであって良い。テキストは、テキストとして直接入力されても良いし、音声ベースの入力をテキストに変換したものでも良い。テキストはネットワークを通じて入力部10に供給されて良い。入力部10は分析対象テキストを1センテンスごとに単語組抽出部11に供給する。なお、1センテンスごとでなく、適宜な単位で、テキストを処理しても良い。
【0029】
単語組抽出部11は、テキストが例えば1センテンス入力されるたびに、そのテキスト中に含まれる単語組を抽出するものである。ここで、単語組は、係り受け関係にある複数の単語(形態素ともいう)からなる単語組を厳密には指すけれども、以下では、単一の単語についても1まとめに便宜上単語組と呼ぶことがある。単語組抽出部11は、形態素解析部11A、構文解析部11B、単語組選択部11Cを含む。形態素解析部11Aおよび構文解析部11Bは単語の係り受け関係情報および品詞情報を生成する(図2参照)。単語組選択部11Cは、単語の係り受け関係情報および品詞情報に基づいてテキスト中の単語、および、係り受け関係にある単語からなる単語組から所望のものを選択する。この例では、単語および単語組に含まれる単語を、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを1つの単語として扱って良い。例えば、「将来への希望が見えない」というテキストが入力された場合、「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が単語組として形成される。
【0030】
スコア計算部12は、単語組抽出部11から出力された単語組について、順次に、かつ、適宜に、辞書記憶部13の感情属性単語組テーブルを表引きして、該当する辞書エントリ(登録単語組)がある場合には、対応する属性カテゴリおよびスコアを取り出し、属性カテゴリごとに累積し、すべての属性カテゴリについてスコアの累積が完了したのち、累積スコアをすべての属性カテゴリにわたって、和が「1」になるように正規化する。その他の手法で正規化を行っても良い。スコア計算部12は正規化したすべての属性カテゴリのスコアを出力部14に供給する。複数のセンテンスについてスコアを取得する場合には、各センテンスのスコアを累積したのちに正規化を行って良い。単語組抽出部11から出力される単語組が辞書記憶部13の感情属性単語組テーブルにない場合にはスコアは出力されない。
【0031】
単語組抽出部11から出力され、部分的に重複する複数の単語組(単語を含む)が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合がある。例えば、入力部10が「将来への希望が見えない」というテキストを入力し、単語組抽出部11が「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」を単語組として出力し、これら単語組が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合である。この実施例では、部分的に重複する複数の単語組が辞書記憶部13の感情属性単語組テーブルの辞書エントリとして登録されている場合には、スコア計算部12は最も単語数が大きな単語組(例えば先の例では「将来|希望|見えない」)についてのみ、属性カテゴリおよびスコアを取り出し、その他の単語組(先の例では「将来|見えない」、「将来」、「希望」、「見えない」)については属性カテゴリおよびスコアを取り出さない。この例では、「将来への希望が見えない」という入力テキストに対して、「不安・怖れ」の感情属性カテゴリ、および「1.0」のスコアが取り出される。これを図6に示す。
【0032】
なお、形態素解析部11Aおよび構文解析部11Bによって取得される単語の係り受け関係情報および品詞情報から生成される単語および単語組は単語数が大きい順に辞書記憶部13の辞書エントリと照合することが好ましい。このようにして、単語数の大きな単語組が辞書エントリとして登録されている場合には、その部分要素をなす単語組(単語を含む)については表引きをスキップして処理を省略できる。
【0033】
なお、この例では、単語組抽出部11から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とするように構成しても良い。この場合、先の例では、「不安・怖れ」の感情属性カテゴリについて「将来|希望|見えない」がスコア計算対象の単語組として選択され、「希望」の感情属性カテゴリの属する「将来」、「希望」という単語組も選択されないようになっているけれども、当該代替的な例では、「不安・怖れ」の感情属性カテゴリに属する「将来|希望|見えない」が選択されるとともに、これと独立して「将来」、「希望」が、「希望」の感情属性カテゴリに関してスコア対象の単語組として選択される。この代替的な例では単語組の選択は感情属性カテゴリごとに行う。さらに、代替的には、上位N番目に単語数の大きな単語組を選択して良く、Nを可変できるようにしても良い。
【0034】
また、単語組抽出部11から出力される、部分的に重複する単語組が、所定のグループに含まれる属性カテゴリのいずれかに関して辞書エントリとして登録されている場合に最大単語数の単語組を限定的にスコア計算対象の単語組としてもよい。所定のグループ内の属性カテゴリ以外の属性カテゴリにおいては単語の選択は属性カテゴリごとに独立して行う。
【0035】
出力部14は正規化したスコアを受け取って、スコアに応じた出力を行って良い。出力は、音、色、グラフィック、マーク、アニメーション等で表示してよい。また、属性カテゴリのスコアのうち、上位N番目までの属性カテゴリ、例えば上位1位および2位の属性カテゴリを代表する属性カテゴリとして表示して良い。
【0036】
図5は、辞書記憶部13に記憶されている属性単語組テーブルの一例として感情属性単語組テーブルの例を示す。この例では、「幸福・愛情」、「悲しみ・哀しみ」、「嫌い・不愉快」、、「昂ぶり・興味・驚き」、「退屈・うんざり」、「苛立ち・怒り」、「希望」、「安らぎ・信頼」、「好き・嬉しい・楽しい」のそれぞれについて辞書エントリとなる単語組を登録し、これについてスコアを記録するようにしている。例えば、図5の例では、これに限定されないけれども、「幸福・愛情」の感情属性カテゴリについて「永遠|愛」、「何|愛す」、「胸|ときめく」の単語組が登録され、それぞれについて「0.9526」、「0.9526」、「0.8429」が記憶されている。これらスコアは、感情属性カテゴリに対する感情表現の共起確率をベースに準備されたものである。
【0037】
辞書記憶部13に記憶されている属性単語組テーブルの登録単語組(キーワードともいう。単独の単語および単語の組み合わせを含む)は、例えば、属性カテゴリごとに用意したコーパスをベースにしてトピックモデルを利用したキーワード(代表語)抽出や、TF−IDFを用いたキーワード抽出により属性カテゴリごとの登録単語組を選択して良いけれども、これに限定されない。キーワードを抽出する際には、係り受け関係にある複数の単語(形態素)からなる単語組も1つの単語単位として扱って良い。また、扱う単語として、名詞、動詞、形容詞、または副詞に限定して良い。また、動詞の単語が当該動詞に対して否定を意味する品詞を含む場合、当該動詞を否定形に置き換えたものを1つの単語として扱って良い。
【0038】
属性単語組テーブルは種々のフォーマットで準備することが可能である。図5の感情属性単語組テーブルの例では、感情属性カテゴリごとに登録単語組(キーワードともいう)を付与し、この登録単語組ごとにスコアを記憶する。また、キーワードは同一の感情属性カテゴリごとに単語組をなす単語の数に応じてソートされて良い。もちろん、その他のフォーマットも利用可能であり、例えば、単語組ごとに各属性カテゴリのそれぞれのスコアを要素として含むベクトルを記憶し、単語組を表引きして当該ベクトルを取り出し、各属性カテゴリのスコアを同時に取得できるようにして良い。なお、スコアがゼロの場合、ベクトルの当該要素の値はゼロである。
【0039】
図2は、図1の属性分析装置100の動作を説明するフローチャートである。図2において、入力部10がテキスト入力を行い(ステップS01)、つぎに単語組抽出部11が、形態素解析(ステップS02)、構文解析(ステップS03)を行い、さらに、形態素解析および構文解析で取得した係り受け構成情報、および品詞情報から、実現可能な単語組を抽出する(S04)。
【0040】
スコア計算部12は、単語組抽出部11から供給される単語組について辞書記憶部13の単語組テーブルを参照して属性カテゴリごとにスコアを取り出し(ステップS05)、当該スコアを属性カテゴリごとに累積し、最終的な累積値をすべての属性カテゴリに関して正規化して分析対象テキストに対する属性カテゴリごとのスコアを計算する(S06)。正規化された属性カテゴリごとのスコアは出力部14によって出力される(S07)。
【0041】
図2は、処理フローの例にあわせて、具体的な処理内容の例を一例として示しており、この図において、「将来への希望が見えない」というテキストが入力され、これに基づいて、図示のとおりの係り受け構成情報、および、品詞情報が出力され、これに基づいて実現可能な単語組として「将来|希望|見えない」、「将来|見えない」、「将来」、「希望」、「見えない」が出力される。「不安・怖れ」の感情属性カテゴリに着目すると、「将来|希望|見えない」(スコア=1.0)、「将来|見えない」(スコア=0.9386)が辞書エントリとして登録され(図5)、このうち単語数の大きな、「将来|希望|見えない」のみが抽出される。この結果、「不安・怖れ」の感情属性カテゴリのスコアとして「1.0」が累積される。なお、「将来」、「希望」については、「希望」の属性カテゴリに辞書エントリとして登録されているけれども、「将来」、「希望」は、最も単語数が大きな単語組である「将来|希望|見えない」に部分的に重複しているので、これらのスコアを無視される。この結果、「不安・怖れ」の感情属性カテゴリについて「1.0」のスコアが累積され、他の感情属性カテゴリのスコアはすべて「0」になる。ベクトルとしては[0,0,0,0,0,1,0,0,0,0]で示される。
【0042】
なお、上述のとおり、この例では、単語組抽出部11から出力される、部分的に重複する単語組が、いずれかの属性カテゴリに関して辞書エントリとして登録されている場合に最大単語数の単語組をスコア計算対象の単語組としているけれども、部分的に重複する単語組が同一の属性カテゴリに関して辞書エントリとして登録されている場合のみ最大単語数の単語組を当該同一の属性カテゴリに関してスコア計算対象の単語組とする代替例を採用して良い。この代替例では、「不安・怖れ」の感情属性カテゴリについて「1.0」のスコアが累積され、「希望」の感情属性カテゴリについて「将来」(0.45)、「希望」(0.45)が累積されて「「0.9」のスコアが得られ、ベクトルとしては[0,0,0,0,0.47,0.53,0,0,0,0](正規化後)で示される。
【0043】
つぎに具体的な動作例について説明する。
【0044】
図11Aはサンプル文章1を示し、図11Bはサンプル文書1の構文解析情報および品詞情報を示し、図11Cは抽出された単語組を示す。
【0045】
上述のとおり、単語組は、名詞、動詞、形容詞、副詞に限定して良いけれども、他の品詞の組み合わせを採用してよい。たとえば、名詞、動詞、形容詞、副詞を含む特定の品詞を使用しても良い。名詞、動詞、形容詞に加えて、特定の副詞、接頭詞、感嘆詞を使用するものでも良い。他の任意の態様の品詞の組み合わせを用いて良い。名詞が連続している場合には1つの名詞として連結させる。動詞に関しては、活用を原形にする。この際、対象となる動詞に対して否定を意味する品詞が含まれている場合には、動詞を否定形に置き換える。なお単語組として組み合わせる単語数には制限はない。組み合わせる単語数が多いと、その単語組の意味する内容が特定される確率は高くなるが、テキスト内に出現する確率は低くなる。
【0046】
辞書エントリに付き合わされる単語組の属性カテゴリおよびスコアは図11Dに示すようになる。なお、「途方|暮れる」および「暮れる」(図11D)は部分的に重複するので、スコア計算上、単語数の大きい、「途方|暮れる」のみを参照する。各属性カテゴリのスコアおよび総合スコアの集計結果は図11Eに示すとおりであり、その正規化結果は図11Fのとおりである。入力テキストの感情属性スコアは図11Gのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「哀しみ」が選択され、ユーザに表示されて良い(図11H)。
【0047】
図12Aはサンプル文章2を示し、図12Bはサンプル文書2の構文解析情報および品詞情報を示し、図12Cは抽出された単語組を示す。抽出された単語組のうち、「日々|繰り返し」に部分的に重複する「日々」、「繰り返し」は無視される。また「将来|希望|見えない」に部分的に重複する「将来|見えない」、「将来」、「希望」、「見えない」も無視される。各属性カテゴリのスコアおよび総合スコアの集計結果は図12Dに示すとおりであり、その正規化結果は図12Eのとおりである。入力テキストの感情属性スコアは図12Fのとおりである。また代表的な属性カテゴリとして「不安・怖れ」および「退屈・うんざい」が選択され、ユーザに表示されて良い(図12G)。
【0048】
つぎに変形例について説明する。図7は変形例の処理例を説明する。この変形例では、当初、辞書記憶部13の辞書エントリに登録単語組、属性カテゴリが割り当てられているけれども、スコアは割り当てられておらず、学習によりスコアを決定するようになっている。
【0049】
図7の変形例では、図2の処理例と同様に、分析対象テキスト(学習用テキスト群)を入力し、形態素解析、構文解析を行い、単語組に抽出を行い、単語組リストが生成される(ステップS01、S02、S03、S04)。つぎに単語組リストを辞書記憶部13の感情属性単語組テーブルに突き合わせて、テキスト群中に、属性カテゴリごとの単語組が何個あるかをカウントして特徴ベクトルを形成する(ステップS08、S09)。ここで、特徴ベクトルは、辞書エントリ(登録されている単語組)に任意に付与されたID順に単語組の検出回数を並べたものである。これを図8に示す。つぎに機械学習を行う(S10)。すなわち、複数のテキストに対して、特徴ベクトルと、教師データ(正解となるカテゴリのリスト)を使用して多クラス分類基による機械学習を行う。分類器の例としては、SVM,ランダムフォレスト、ディープラーニングを用いて良いけれども、これに限定されない。学習済みモデルに対して図2と同様にして分析対象データの属性分析を行う(S11)。この例では、特徴ベクトルを入力して、これを辞書記憶部13の辞書エントリのID順に突き合わせて属性カテゴリのスコアを累積して分析結果とすることができる。
【0050】
つぎに他の変形例について説明する。この変形例では、感情属性でなく印象属性を分析するものである。図9はこの変形例で用いる印象属性カテゴリを示す。図9の例では、直接的好印象−直接的悪印象、および、興味・期待−無関心・失望の2軸で対象に対する印象を表す。図10は、この変形例の辞書記憶部13の印象属性単語組テーブルの例を示す。この印象属性単語組テーブルを用いて、先の実施例と同様に入力分析対象テキストに対する属性に関するスコアを算出し、もって、印象属性を分析することができる。なお、図10の印象属性単語組テーブルを図5の感情属性単語組テーブルとともに用いて、印象属性を感情属性とともに分析しても良い。また、感情属性単語組テーブルおよび印象属性単語組テーブルを切り替えて使用して、感情属性および印象属性を切り替えて分析・出力して良い
【0051】
以上で実施例の説明を終了する。
【0052】
なお、この発明は上述の実施例に限定されることなく、その趣旨を逸脱しない範囲で種々変更が可能である。
【符号の説明】
【0053】
10 入力部
11 単語組抽出部
11A 形態素解析部
11B 構文解析部
11C 単語組選択部
12 スコア計算部
13 辞書記憶部
14 出力部
100 属性分析装置
200 コンピュータシステム
201 記録媒体
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図11C
図11D
図11E
図11F
図11G
図11H
図12A
図12B
図12C
図12D
図12E
図12F
図12G