(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2021-12-24
(45)【発行日】2022-01-18
(54)【発明の名称】テキスト分析装置、テキスト分析方法、及び、テキスト分析プログラム
(51)【国際特許分類】
G06F 16/34 20190101AFI20220111BHJP
【FI】
G06F16/34
(21)【出願番号】P 2017242916
(22)【出願日】2017-12-19
【審査請求日】2020-03-25
(73)【特許権者】
【識別番号】309007911
【氏名又は名称】サントリーホールディングス株式会社
(74)【代理人】
【識別番号】110001818
【氏名又は名称】特許業務法人R&C
(72)【発明者】
【氏名】是常 彰宏
(72)【発明者】
【氏名】岩下 仁
(72)【発明者】
【氏名】大野 仁史
(72)【発明者】
【氏名】村林 泰之
(72)【発明者】
【氏名】江澤 毅
(72)【発明者】
【氏名】北山 泰弘
(72)【発明者】
【氏名】塩崎 陽三
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開2010-079657(JP,A)
【文献】特開2005-339419(JP,A)
【文献】再公表特許第2005/029379(JP,A1)
【文献】市村 由美、外3名,テキストマイニング-事例紹介,人工知能学会誌,日本,(社)人工知能学会,2001年03月01日,第16巻,第2号,p.192-200
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
多数のテキストデータを分析するためのテキスト分析装置であって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得部と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定部と、
前記評価判定部の判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成部と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計部と、
前記評価判定部において前記評価対象項目とすべき主語を取得可能な評価対象項目取得部と、を備え、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成部は、前記マップ情報として、前記評価判定部の判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されて
おり、
前記評価判定部は、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計部により集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成部は、前記マップ情報として、前記評価判定部により判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定部の判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定部は、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得部が取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されているテキスト分析装置。
【請求項2】
前記評価対象項目取得部は、利用者から入力された主語を、前記評価判定部において前記評価対象項目とすべき主語として取得可能に構成されている請求項1に記載のテキスト分析装置。
【請求項3】
前記評価判定部は、各評価対象項目に対する評価を指標する評価値を算出し、算出した前記評価値に基づき当該評価対象項目がポジティブであるかネガティブであるかの判定を行うように構成されている請求項1
または2に記載のテキスト分析装置。
【請求項4】
前記マップ情報生成部は、前記評価値順に前記評価対象項目を並べてマッピングするように構成されている請求項
3に記載のテキスト分析装置。
【請求項5】
前記第一~第四部分には、それぞれ前記評価値に応じた配置範囲が定められており、
前記マップ情報生成部は、各評価対象項目を、当該評価対象項目の前記評価値に対応する前記配置範囲内に配置するように構成されている請求項
3又は4に記載のテキスト分析装置。
【請求項6】
前記マップ情報生成部は、前記評価値の大きさに応じて、マッピングする前記評価対象項目の表示形態を変更可能に構成されている請求項
3~5のいずれか一項に記載のテキスト分析装置。
【請求項7】
各語には、これに関連する主語に対する評価を指標する数値が定められており、
前記評価判定部は、前記評価対象項目とする主語に関連する語の集計結果に基づき、各語に対応する数値を用いて、当該主語に対する評価を指標する評価値を算出し、算出した前記評価値に基づき当該主語に対する評価がポジティブであるかネガティブであるかの判定を行うように構成されている請求項
1~6のいずれか一項に記載のテキスト分析装置。
【請求項8】
前記マップ情報生成部は、前記マップ情報として、前記分析用マップにマッピングされた主語とともに、当該主語に関連する語のうち代表的な語を併せて表示可能なものを生成するように構成されている請求項
1~7のいずれか一項に記載のテキスト分析装置。
【請求項9】
前記マップ情報生成部は、前記分析用マップ上でいずれかの前記評価対象項目が指示されたとき、当該評価対象項目についてのテキストデータの一例を表示可能に構成されている請求項1~
8のいずれか一項に記載のテキスト分析装置。
【請求項10】
コンピュータに実行させる、多数のテキストデータを分析するためのテキスト分析方法であって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得工程と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定工程と、
前記評価判定工程での判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成工程と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計工程と、
前記評価判定工程において前記評価対象項目とすべき主語を取得する評価対象項目取得工程と、を備え、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成工程では、前記マップ情報として、前記評価判定工程での判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されて
おり、
前記評価判定工程では、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計工程において集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成工程では、前記マップ情報として、前記評価判定工程において判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定工程における判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定工程では、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得工程において取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されているテキスト分析方法。
【請求項11】
コンピュータに実行させる、多数のテキストデータを分析するためのテキスト分析プログラムであって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得機能と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定機能と、
前記評価判定機能による判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成機能と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計機能と、
前記評価判定機能において前記評価対象項目とすべき主語を取得する評価対象項目取得機能と、を前記コンピュータに実行させ、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成機能では、前記マップ情報として、前記評価判定機能による判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されて
おり、
前記評価判定機能では、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計機能において集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成機能では、前記マップ情報として、前記評価判定機能において判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定機能における判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定機能では、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得機能において取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されているテキスト分析プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、多数のテキストデータを分析するためのテキスト分析装置、テキスト分析方法、及び、テキスト分析プログラムに関する。
に関する。
【背景技術】
【0002】
近年、SNS等にユーザが書き込んだ特定の商品・サービスについての評価に関する記載のあるテキストデータを収集し、その分析結果をマーケティングに用いることが行われている。そして、その手法の一つとして、収集した各テキストデータ中の商品に対する評価がポジティブであるかネガティブであるかを分析することが行われている(例えば特許4451354号公報(特許文献1))。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、商品に対する評価がポジティブであるかネガティブであるかに基づき、商品のどのような部分がその商品の強み(又は弱み)であるかがわかっても、競合商品も同じ部分がユーザにポジティブに評価されている場合には、その部分は競合商品との関係では強みとまではなりにくい。しかし、競合商品との比較において、その商品のどういう部分がユーザをポジティブな評価へと導いているのか(つまり、競合商品との関係での強み)、反対に、どういう部分がユーザをネガティブな評価に導いているのか(つまり、競合商品との関係での弱み)を正確に把握することは難しい。
【0005】
そこで、対象の商品・サービス等の強みや弱みの判断に役立つテキスト分析装置、テキスト分析方法、及び、テキスト分析プログラムが望まれる。
【課題を解決するための手段】
【0006】
本発明に係るテキスト分析装置は、
多数のテキストデータを分析するためのテキスト分析装置であって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得部と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定部と、
前記評価判定部の判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成部と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計部と、
前記評価判定部において前記評価対象項目とすべき主語を取得可能な評価対象項目取得部と、を備え、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成部は、前記マップ情報として、前記評価判定部の判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定部は、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計部により集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成部は、前記マップ情報として、前記評価判定部により判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定部の判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定部は、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得部が取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されている。
【0007】
つまり、上記の分析用マップのうち、第一部分にマッピングされた項目は、分析対象と比較対象との両方がポジティブな評価であるため、分析対象の良い部分ではあっても、比較対象に対する関係では利点とはならない。これに対し、第二部分にマッピングされた項目は、分析対象における評価がポジティブであるものの、比較対象における評価がネガティブであるため、比較対象との関係における分析対象の強みとなっているといえる。また、第四部分にマッピングされた項目は、分析対象と比較対象との両方がネガティブな評価であるため、分析対象の良くない部分ではあっても、比較対象に対する関係では不利な点とはならない。これに対し、第三部分にマッピングされた項目は、分析対象における評価がネガティブであるのに、比較対象における評価がポジティブであるため、比較対象との関係で分析対象の弱みとなっているといえる。したがって、この構成によれば、複数の評価対象項目を上記の分析用マップにマッピングすることにより、各評価対象項目が、比較対象との関係で分析対象の強み又は弱みとなっているかを好適に判断することができる。また、単語の集計によりその後の分析を行い易くできる。さらに、分析者側が全ての評価対象項目を指定する場合、ユーザが評価しているものの分析者側が想定していない項目は分析結果から外れることになるが、これらの構成によれば、予め評価対象項目を定めることなく、テキストデータに含まれている主語を評価対象項目とすることができるので、ユーザが評価しているものの分析者側が想定していない項目も、確度高く分析結果に含めることができる。加えて、テキストデータの数が多いほど、そこに含まれる主語の種類は多くなるが、この構成によれば、出現頻度に応じて評価対象項目とする主語を決定するため、出現頻度の高いより重要度の高い主語に限り評価対象項目とすることが可能になる。また、分析者側が分析結果に含めたい項目について、確実に分析結果に含めることができる。
【0008】
1つの態様として、前記評価対象項目取得部は、利用者から入力された主語を、前記評価判定部において前記評価対象項目とすべき主語として取得可能に構成されていると好適である。
この構成によれば、入力された主語については、出現頻度に関わらず、評価対象項目にできる。
1つの態様として、前記評価判定部は、各評価対象項目に対する評価を指標する評価値を算出し、算出した前記評価値に基づき当該評価対象項目がポジティブであるかネガティブであるかの判定を行うように構成されていると好適である。
【0009】
この構成によれば、評価対象項目についての評価を数値化することにより、ポジティブであるかネガティブであるかを画一的に判断できる。
【0010】
1つの態様として、前記マップ情報生成部は、前記評価値順に前記評価対象項目を並べてマッピングするように構成されていると好適である。
【0011】
1つの態様として、前記第一~第四部分には、それぞれ前記評価値に応じた配置範囲が定められており、前記マップ情報生成部は、各評価対象項目を、当該評価対象項目の前記評価値に対応する前記配置範囲内に配置するように構成されていると好適である。
【0012】
1つの態様として、前記マップ情報生成部は、前記評価値の大きさに応じて、マッピングする前記評価対象項目の表示形態を変更可能に構成されていると好適である。
【0013】
これらの構成によれば、評価対象項目の評価値に応じた表示がなされるので、どの評価対象項目が特に強み・弱みとなるかをわかりやすく判断できる。
【0022】
1つの態様として、各語には、これに関連する主語に対する評価を指標する数値が定められており、前記評価判定部は、前記評価対象項目とする主語に関連する語の集計結果に基づき、各語に対応する数値を用いて、当該主語に対する評価を指標する評価値を算出し、算出した前記評価値に基づき当該主語に対する評価がポジティブであるかネガティブであるかの判定を行うように構成されていると好適である。
【0023】
この構成によれば、評価対象項目とする主語に対する評価を画一的に判断できる。そして、主語に関連する語として、ポジティブなものとネガティブなものとが混在する場合には、当該主語に対する評価がポジティブであるかネガティブであるかの判断が難しくなるが、各語に対応する数値から求められる評価値を用いるから、ポジティブかネガティブかの判断を容易に行える。
【0024】
1つの態様として、前記マップ情報生成部は、前記分析用マップにマッピングされた主語とともに、当該主語に関連する語のうち代表的な語を併せて表示可能に構成されていると好適である。
【0025】
1つの態様として、前記マップ情報生成部は、前記マップ情報として、前記分析用マップにマッピングされた主語とともに、当該主語に関連する語のうち代表的な語を併せて表示可能なものを生成するように構成されていると好適である。
【0026】
これらの構成によれば、評価対象項目に具体的にどういう評価がなされているかを知ることができる。
【0027】
本発明に係るテキスト分析方法は、
コンピュータに実行させる、多数のテキストデータを分析するためのテキスト分析方法であって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得工程と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定工程と、
前記評価判定工程での判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成工程と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計工程と、
前記評価判定工程において前記評価対象項目とすべき主語を取得する評価対象項目取得工程と、を備え、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成工程では、前記マップ情報として、前記評価判定工程での判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定工程では、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計工程において集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成工程では、前記マップ情報として、前記評価判定工程において判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定工程における判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定工程では、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得工程において取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されている。
【0028】
本発明に係るテキスト分析プログラムは、
コンピュータに実行させる、多数のテキストデータを分析するためのテキスト分析プログラムであって、
分析対象に関連するテキストデータである分析対象テキストデータ群と、比較対象に関連するテキストデータである比較対象テキストデータ群と、を取得するテキストデータ群取得機能と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれに基づき、前記分析対象及び前記比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定する評価判定機能と、
前記評価判定機能による判定結果に基づき分析用マップを表示するマップ情報を生成するマップ情報生成機能と、
取得された前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計する単語集計機能と、
前記評価判定機能において前記評価対象項目とすべき主語を取得する評価対象項目取得機能と、を前記コンピュータに実行させ、
前記分析用マップは、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第一部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がポジティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第二部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がポジティブである前記評価対象項目をマッピングする第三部分と、
複数の前記評価対象項目のうち、前記分析対象における評価がネガティブであり、且つ、前記比較対象における評価がネガティブである前記評価対象項目をマッピングする第四部分と、の少なくともいずれかを備えたものであり、
前記マップ情報生成機能では、前記マップ情報として、前記評価判定機能による判定結果に基づき、各評価対象項目を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定機能では、前記分析対象テキストデータ群と前記比較対象テキストデータ群とのそれぞれについて、前記単語集計機能において集計された主語の少なくとも一部を前記評価対象項目とし、前記評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されており、
前記マップ情報生成機能では、前記マップ情報として、前記評価判定機能において判定の行われた主語のうち、前記分析対象テキストデータ群と前記比較対象テキストデータ群とで共通する主語をマッピング対象として、前記評価判定機能における判定結果に基づき、各共通する主語を前記分析用マップの対応する部分にマッピングしたものを生成するように構成されており、
前記評価判定機能では、前記評価対象項目とする主語を出現頻度に応じて決定し、かつ、前記評価対象項目取得機能において取得した主語については、出現頻度に関わらず、前記評価対象項目とするように構成されている。
【0029】
これらの構成によれば、上記した本発明に係るテキスト分析装置によるマップ情報の生成を好適に実現できる。
【図面の簡単な説明】
【0030】
【
図1】本実施形態に係るテキスト分析システムの構成図
【発明を実施するための形態】
【0031】
本発明に係るテキスト分析装置、テキスト分析方法、及び、テキスト分析プログラムの実施形態について、図面を参照して説明する。以下では、本発明に係るテキスト分析装置を、利用者側の端末1からの要求に応じてテキスト分析(いわゆるテキストマイニング)を行うテキスト分析システムに組み込んだ例について説明する。
図1は本実施形態に係るテキスト分析システムを示し、テキスト分析システムは、利用者側の端末1と、ネットワーク3を介して利用者側端末1と通信可能な処理サーバ(テキスト分析装置)2と、からなる。利用者側端末1には専用のアプリケーションが格納されており、利用者は、かかるアプリケーションを介して、いかなる分析を行うかについての指示と分析用のテキストデータを利用者側端末1から処理サーバ2に対して送信できるようになっている。そして、処理サーバ2は、利用者からの要求に応じて多数のテキストデータについてテキスト分析を行い、その結果を利用者側端末1に送信するようになっている。
【0032】
また、処理サーバ2は、目的とするテキスト分析をコンピュータに実行させるための単一の又は複数からなるテキスト分析プログラムを図示しない記憶部に格納しており、図示しないCPU等の処理部により当該テキスト分析プログラムに従う処理が実行されることで、利用者からの指示に応じて順番にテキスト分析を実行可能になっている。具体的には、かかるテキスト分析プログラムに従う処理の実行により、利用者からのテキスト分析の要求(ジョブ)が連続してなされても順番に処理を行えるように、本実施形態に係る処理サーバ2は、
図1に示すように、API部21と、ジョブ情報格納部22と、ファイル格納部23と、ジョブ制御部24と、ジョブ処理部25と、を備えたものとなっている。
【0033】
具体的に説明すると、API部21は、利用者側端末1からの要求を受け付けて処理し、利用者側端末1からの要求や受け付けた分析用のテキストデータをジョブ情報格納部22やファイル格納部23に送るようになっている。また、API部21は、ファイル格納部22に格納された分析結果を利用者側端末1に送信するようになっている。
【0034】
ジョブ情報格納部22は、API部21から送られる利用者側端末1からの要求に基づきジョブ情報を生成して、生成したジョブ情報を格納するようになっている。具体的には、生成されたジョブ情報は、要求を受け付けた順番に格納されるようになっている。
【0035】
ファイル格納部23は、API部21から送られる利用者側端末1から送信される分析用のテキストデータを取得し格納するものである。また、ジョブ制御部24から送られる分析結果も格納するようになっている。
【0036】
ジョブ制御部24は、ジョブ情報格納部22に格納されたジョブ情報の順番に従って、ジョブ処理部25に順次テキスト分析(ジョブ)を実行させるようになっている。また、ジョブ処理部25でのテキスト分析が終了すると、対応するジョブ情報をジョブ情報格納部22から消去するとともに、ジョブ処理部25からの分析結果をファイル格納部23に格納するようになっている。
【0037】
ジョブ処理部25については、詳しくは後述するが、ジョブ制御部24からの指示に応じて順次テキスト分析を行い、テキスト分析が終了すると分析結果をジョブ制御部24に返すようになっている。
【0038】
このように、処理サーバ2は、API部21により利用者側端末1からの要求を受け付けて、ジョブ情報格納部22に順次ジョブ情報を格納し、格納したジョブ情報に基づきジョブ制御部24がジョブ処理部25に順次ジョブを処理させるようになっている。
【0039】
そして、特に、本実施形態のテキスト分析システムでは、分析対象に関連するテキストデータである分析対象テキストデータ群とともに、比較対象に関連するテキストデータである比較対象テキストデータ群も取得して両者についてのテキスト分析を行い、分析対象と比較対象との分析結果を、SWOT(Strengths(強み)、Weaknesses(弱み)、Opportunities(機会)、Threats(脅威))分析の考え方を利用して比較することで、分析対象の強みや弱みの判断を効果的に行えるようになっている。以下では、本実施形態のテキスト分析システムにおける、かかる分析を行うための構成について具体的に説明する。
【0040】
まず、本実施形態のテキスト分析システムにおいて、利用者側端末1では、専用のアプリケーションが、分析対象テキストデータ群とともに比較対象テキストデータ群の入力を求めるようになっている。そして、これに伴い、API部21は、利用者側端末1から、テキスト分析の要求とともに、分析対象テキストデータ群と比較対象テキストデータ群とを取得するようになっている(つまり、API部21はテキストデータ群取得部として機能する)。
【0041】
そして、ジョブ処理部25は、分析対象の強みや弱みの判断を行うべく、
図1に示すように、単語集計部251と、評価判定部252と、マップ情報生成部253と、を備えている。
【0042】
まず、単語集計部251は、取得された分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれについて、各テキストデータに出現する主語と当該主語に関連する語とを抽出して集計するものである。具体的には、単語集計部251は、各テキストデータについて形態素解析を行い、テキストデータを単語ごとに区切る。次に、各単語について品詞分類を行ったうえで、各単語のうち、主語として名詞を抽出するとともに、述語として形容動詞、動詞、形容詞を抽出して、出現回数をカウントする。そして、これを各テキストデータ群の全テキストデータについて行って、主語及び述語の出現回数を集計して、テキストデータ群ごとに、例えば
図2に示すような主語(名詞)及び述語(形容動詞、動詞、形容詞)を出現回数順に並べたリストを作成する。また、このリストとは別に、各主語について、当該主語に関連する語として、当該主語と同一の文又は当該主語の出現する文を含む一定範囲の文章(例えば主語の出現する文とその前後一文からなる文章など)に出現する述語(いわば共起語)を抽出して、全テキストデータにおける各共起語の出現回数を集計するようになっている。なお、集計を行う場合、単語は完全に一致していなくてもよく、近似する単語も同じ単語として集計するようにしてもよい。
【0043】
例えば、単語集計部251は、テキストデータ群に「値段が安い。」、「匂いが好き。」、「カロリーが高い。」といったテキストデータが含まれている場合、このうち「値段」、「匂い」、「カロリー」を主語(名詞)として抽出し、「安い」、「好き」、「高い」を述語(形容詞、形容動詞)として抽出し、各語に対応する出現回数に1を加算するようになっている。また、単語集計部251は、さらに、「値段」とともに現れる「安い」を「値段」の共起語として抽出し、「匂い」とともに現れる「好き」を「匂い」の共起語として抽出し、「カロリー」とともに現れる「高い」を「カロリー」の共起語として抽出し、それぞれその出現回数に1を加算するようになっている。
【0044】
このように、単語集計部251では、各テキストデータ群について、
(1)対象のテキストデータについて形態素解析を行い、テキストデータを単語ごとに区切り、
(2)単語のうち、主語(名詞)及び述語(形容動詞、動詞、形容詞)を抽出して出現回数をカウントし、
(3)各主語について、同一の文又は一定範囲の文章に出現する共起語を抽出して出現回数をカウントする、
という(1)~(3)の工程の処理を、全テキストデータについて繰り返し行うようになっている。これにより、各テキストデータ群について、主語及び述語の出現回数や、各主語の共起語及びその出現回数を集計することができる。
【0045】
次に、評価判定部252は、分析対象及び比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定するものである。
【0046】
具体的には、評価判定部252は、まず、分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれについて、単語集計部251により集計された主語の少なくとも一部を評価対象項目として決定するようになっている。そして、本実施形態では、評価判定部252は、評価対象項目とする主語を出現頻度に応じて決定するように構成されており、例えば、各テキストデータ群について、
図2のリストに基づき、出現回数の多い主語(名詞)から順に、所定数(例えば20個)の主語を評価対象項目として決定する。
【0047】
そして、評価判定部252は、評価対象項目とする主語ごとに、当該主語に関連する語の集計結果に基づき、当該主語に対する評価がポジティブであるかネガティブであるかを判定するように構成されている。具体的には、評価判定部252は、各評価対象項目に対する評価を指標する評価値を算出し、算出した評価値に基づき当該評価対象項目がポジティブであるかネガティブであるかの判定を行うように構成されている。特に、本実施形態では、各述語に、これに関連する主語に対する評価を指標する数値が定められており、評価判定部252は、評価対象項目とする主語に関連する語(即ち共起語)の集計結果に基づき、各共起語に対応する数値を用いて、当該主語に対する評価を指標する評価値を算出し、算出した評価値に基づき当該主語がポジティブであるかネガティブであるかの判定を行うように構成されている。
【0048】
つまり、例えば“素晴らしい”“美味しい”といった語(述語)は、テキスト作成者が、これと関連する主語に対しポジティブな印象を持っている(又はその可能性が高い)ことを示すものであり、反対に、“悪い”“まずい”といった語(述語)は、テキスト作成者が、これと関連する主語に対しネガティブな印象を持っている(又はその可能性が高い)ことを示すものといえる。これに基づけば、各語について、その語がポジティブなものかネガティブなものか、またそのポジティブ/ネガティブの度合いはどの程度のものかといった所定の基準から、各述語について、これに関連する主語に対する評価を指標する数値を定めることができる(例えば感情極性値)。そして、ある主語についての共起語はその主語に関連して用いられている語といえ、その主語の評価を表すものといえる。そのため、ある主語についての共起語の集計結果を用い、ある主語についての全共起語の指標値を積算して当該主語に対する評価を指標する評価値を算出すれば、この評価値は、当該主語が全体的にポジティブに用いられている傾向にあるか、ネガティブに用いられている傾向にあるかを指標するものとなる。そして、例えば、単に評価値が所定の閾値を超えるか否かといった画一的な基準により、当該主語に対する評価がポジティブであるかネガティブであるかを判断できる。
【0049】
このような考えに基づき、評価判定部252では、各述語について、ポジティブなものは+の数値、ネガティブなものは-の数値とし、ポジティブ/ネガティブの度合いが高いと認められる語であるほど絶対値を大きくする、といった基準で指標値を定めてあり、演算対象とする主語についての共起語の集計結果から、当該主語についての全共起語の指標値を積算して当該主語の評価値Vを算出するように構成されている。例えば、ある主語についてn個の共起語が集計されており、各共起語の指標値がそれぞれa1,a2,…anであり、各共起語がそれぞれb1,b2,…bn回出現しているとすると、その主語の評価値VはV=a1×b1+a2×b2+…+an×bnで求めるようになっている。そして、このように求めた評価値Vが+である場合には、当該主語がポジティブに用いられている度合が高いということであり、当該主語に対する評価がポジティブであるといえる。これに対し、評価値Vが-である場合には、当該主語がネガティブに用いられている度合が高いということであり、当該主語に対する評価がネガティブであるといえる。つまり、評価判定部252では、このように評価値Vを求めることにより、評価値Vが+か-かから、当該主語に対する評価がポジティブであるかネガティブであるかを判断するようになっている。
【0050】
そして、評価判定部252は、分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれについて決定された評価対象項目ごとに、上記のように評価値Vを演算して、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判定するようになっている。
【0051】
例えば、評価判定部252は、分析対象テキストデータ群において、単語集計部251により集計された主語の出現回数から、「匂い」という主語の出現回数が多い場合には、「匂い」を分析対象テキストデータ群における評価対象項目の一つとして決定する。そして、単語集計部251により集計された「匂い」の共起語の集計結果において、「好き」、「いい」、「さわやか」、「嫌い」、「悪い」の5つが「匂い」の共起語として集計されているとし、それぞれ評価値がx1~x5で出現回数がy1~y5であるとすると、評価判定部252は、評価対象項目「匂い」の評価値Vを、V=x1×y1+x2×y2+…+x5×y5により算出する。そして、評価判定部252は、得られた評価値Vが+である場合には評価対象項目「匂い」に対する評価がポジティブであるとし、評価値Vが-である場合には評価対象項目「匂い」に対する評価がネガティブであると判定するようになっている。なお、上記の場合、「好き」・「いい」・「さわやか」はポジティブな語といえ、その評価値x1~x3は+の値となっているのに対し、「嫌い」・「悪い」はネガティブな語といえ、その評価値x4,x5は-の値となる。また、「好き」・「いい」・「さわやか」のうち、「さわやか」に比べ「好き」・「いい」はよりポジティブな表現といえ、「好き」・「いい」の評価値の絶対値は「さわやか」の評価値の絶対値に比べ、大きな値となっている。そして、「好き」・「いい」・「さわやか」の出現回数が多いような場合には、「匂い」の評価値Vは+の値となることになり、反対に、「嫌い」・「悪い」の出現回数が多いような場合には、「匂い」の評価値Vは-の値となるといえる。このように、共起語としてポジティブなものとネガティブなものとが混在する場合でも、各語に対応する数値を積算して求められる評価値を用いることで、ポジティブかネガティブかの判断を容易に行えるようになっているといえる。
【0052】
このように、評価判定部252では、各テキストデータ群について、
(i)単語集計部251により集計された主語の出現回数についての集計結果を用いて、出現頻度に応じて評価対象項目とする主語を決定し、
(ii)単語集計部251により集計された各主語の共起語の出現回数についての集計結果を用いて、評価対象項目とする主語ごとに評価値Vを算出し、
(iii)算出した評価値Vに基づき、各評価対象項目に対する評価がポジティブであるかネガティブであるかを判断する、
という(i)~(iii)の工程の処理を行うようになっている。これにより、評価判定部252により、取得された分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれに基づき、分析対象及び比較対象に関する複数の評価対象項目について、各評価対象項目に対する評価がポジティブであるかネガティブであるかが判定されるようになっている。
【0053】
そして、マップ情報生成部253は、評価判定部252の判定結果に基づき分析用マップ4を表示するマップ情報を生成するようになっている。具体的には、マップ情報は、分析用マップ4上に、評価対象項目を判定結果に応じてマッピングしたものを表示するようになっている。そして、分析用マップ4は、分析対象についてのポジティブ/ネガティブ評価を横軸とするとともに比較対象についてのポジティブ/ネガティブ評価を縦軸とする二軸マップであり、二軸の交点の一方側(横軸では図中右側、縦軸では図中上側)では評価がポジティブであり、二軸の交点の他方側(横軸では図中左側、縦軸では図中下側)では評価がネガティブとなるようになっている。これにより、分析用マップ3は、
図3に示すように、
・分析対象における評価がポジティブであり、且つ、比較対象における評価がポジティブである第一部分41
・分析対象における評価がポジティブであり、且つ、比較対象における評価がネガティブである第二部分42
・分析対象における評価がネガティブであり、且つ、比較対象における評価がポジティブである第三部分43
・分析対象における評価がネガティブであり、且つ、比較対象における評価がネガティブである第四部分44
を備えたものとなっている。なお、このうち、第一部分41がSWOT分析におけるStrengths(強み)に当たり、第二部分42がSWOT分析におけるWeaknesses(弱み)に当たり、第三部分43がSWOT分析におけるOpportunities(機会)に当たり、第四部分44がSWOT分析におけるThreats(脅威)に当たるものとなっている。
【0054】
そして、マップ情報生成部253は、マップ情報として、評価判定部252により判定の行われた複数の評価対象項目(主語)のうち、分析対象テキストデータ群と比較対象テキストデータ群とで共通する評価対象項目(主語)をマッピング対象として、評価判定部252の判定結果に基づき、各共通する主語を分析用マップの対応する部分にマッピングしたものを生成するように構成されている。つまり、マップ情報生成部253は、複数の評価対象項目のうち、分析対象における評価がポジティブであり、且つ、比較対象における評価がポジティブである評価対象項目を第一部分41にマッピングし、分析対象における評価がポジティブであり、且つ、比較対象における評価がネガティブである評価対象項目を第二部分42にマッピングし、分析対象における評価がネガティブであり、且つ、比較対象における評価がポジティブである評価対象項目を第三部分43にマッピングし、分析対象における評価がネガティブであり、且つ、比較対象における評価がネガティブである評価対象項目を第四部分44にマッピングするようになっている。
【0055】
このような分析用マップ4に対してマッピングを行うことにより例えば次のことがわかる。まず、第一部分41にマッピングされた評価対象項目は、分析対象と比較対象との両方がポジティブな評価であるため、分析対象の強みではあっても、比較対象に対する関係では強みとまではならないと考えられる。これに対し、第二部分42にマッピングされた項目は、分析対象における評価がポジティブであるものの、比較対象における評価がネガティブであるため、比較対象との関係で分析対象の強みとなっているといえる。また、第四部分44にマッピングされた項目は、分析対象と比較対象との両方がネガティブな評価であるため、分析対象の良くない部分ではあっても、比較対象に対する関係では弱みとまではなっていない。これに対し、第三部分43にマッピングされた項目は、分析対象における評価がネガティブであるのに、比較対象における評価がポジティブであるため、比較対象との関係で分析対象の弱みとなっているといえる。
【0056】
例えば、分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれにおいて「値段」が評価対象項目となっており、それぞれでの評価がともにポジティブ又はネガティブである場合には、評価対象項目「値段」は第一部分41又は第四部分44にマッピングされる。そして、評価対象項目「値段」が第一部分41にマッピングされる場合には、両者の評価がポジティブであるので、分析対象において、「値段」は比較対象との関係で優位に立つ要素とまではなっていないといえる。また、評価対象項目「値段」が第四部分44にマッピングされる場合には、両者の評価がネガティブであるので、「値段」が分析対象にとって弱みとなっているような場合でも、比較対象との関係では後れを取っている要素とまではなっていないといえる。
【0057】
これに対し、例えば、分析対象テキストデータ群と比較対象テキストデータ群とのそれぞれにおいて「匂い」が評価対象項目となっており、それぞれでの評価が異なる(即ち一方での評価がポジティブで、他方での評価がネガティブ)場合には、評価対象項目「匂い」は第二部分42又は第三部分43にマッピングされる。そして、評価対象項目「匂い」が第二部分42にマッピングされる場合には、分析対象の評価がポジティブであるのに対し、比較対象における評価がネガティブであるため、分析対象において、「匂い」は比較対象との関係で優位に立つ要素になっているといえる。また、評価対象項目「匂い」が第三部分43にマッピングされる場合には、分析対象の評価がネガティブであるのに対し、比較対象における評価がポジティブであるため、分析対象において、「匂い」は比較対象との関係で後れを取っている要素になっているといえる。
【0058】
このように、複数の評価対象項目を分析用マップ4にマッピングすることにより、各評価対象項目が消費者にポジティブに評価されているかネガティブに評価されているかだけでなく、ポジティブ又はネガティブと評価されている項目のうち、どの項目が比較対象との関係で分析対象の強み又は弱みとなっているかを判断することが可能となる。
【0059】
さらに、分析対象の強み又は弱みの判断を一層好適に行うべく、マップ情報生成部253は、さらに以下のような構成を採用している。
【0060】
まず、分析マップ4の各部分41~44には、それぞれ評価値に応じた配置範囲が定められており、マップ情報生成部253は、各評価対象項目を、当該評価対象項目の評価値に対応する配置範囲内に配置して、評価値順に評価対象項目を並べてマッピングするように構成されている。これにより、評価対象項目の配置から、各評価対象項目の評価値を具体的に把握できるようになっている。
【0061】
特に、本実施形態では、分析マップ4は、各部分41~44について、分析対象における評価値に応じて横に3段階(例えば大中小とする)、及び、比較対象における評価値に応じて縦に3段階(例えば大中小とする)の3×3の9つに区分され、分析対象における評価値と比較対象における評価値とに応じた配置が設けられており、評価値順に評価対象項目が並べられてマッピングされるようになっている。より詳しくは、分析対象における評価値の絶対値が大きいほど、二軸の交点から左右方向に離れた配置(ポジティブな場合は絶対値が大きいほど
図3中の右側の配置となり、ネガティブな場合は絶対値が大きいほど
図3中の左側の配置)となり、比較対象における評価値の絶対値が大きいほど、二軸の交点から上下方向に離れた配置(ポジティブな場合は絶対値が大きいほど
図3中の上側の配置となり、ネガティブな場合は絶対値が大きいほど
図3中の下側の配置)となるようになっている。これにより、各部分41~44のうち、同じ部分に配置される評価対象項目の中で、分析対象の方が優位に立つのか、比較対象の方が優位に立つのかを把握できるようになっている。
【0062】
これについて説明すると、例えば、分析対象及び比較対象の評価がいずれもポジティブである評価対象項目は第一部分41に配置されるが、そのうち、
図3中で第一部分41の右下に配置された「主語11」は、分析対象の評価値が「大」で、比較対象の評価値が「小」である評価対象項目であり、同じポジティブの評価でも分析対象の方が優位に立つ評価対象項目であることがわかる。反対に、
図3中で第一部分41の左上に配置された「主語5」は、分析対象の評価値が「小」で、比較対象の評価値が「大」である評価対象項目であり、同じポジティブの評価でも比較対象の方が優位に立つ評価対象項目であることがわかる。また、第四部分44に関していえば、例えば「主語18」と「主語24」とは分析対象及び比較対象の評価がいずれもネガティブであるものの、「主語18」は、分析対象の評価値が「中」で比較対象の評価値が「小」である評価対象項目であり、同じネガティブの評価でも比較対象の方が優位に立つ評価対象項目であることがわかる。反対に、「主語25」は、分析対象の評価値が「中」で、比較対象の評価値が「大」である評価対象項目であり、同じネガティブの評価でも分析対象の方が優位に立つ評価対象項目であることがわかる。つまり、二軸の交点を通る傾きが1の線を示す仮想線(分析対象の評価値をx、比較対象の評価値をyとしたときのy=xのグラフ)6を考えると(この仮想線6は、実際に表示されるようにしてもよい)、第一部分41のうち、仮想線6の上側に配置される評価対象項目は比較対象の方が優位に立つ評価対象項目であり、仮想線6の下側に配置される評価対象項目は分析対象の方が優位に立つ評価対象項目であることがわかる。一方、第四部分44のうち、仮想線6の上側に配置される評価対象項目は分析対象の方が優位に立つ評価対象項目であり、仮想線6の下側に配置される評価対象項目は比較対象の方が優位に立つ評価対象項目であることがわかる。このように、本実施形態によれば、評価対象項目の配置から、評価対象項目の中で、分析対象の方が優位に立つのか、比較対象の方が優位に立つのかを把握できるようになっている。
【0063】
なお、マップ情報生成部253は、2以上の評価対象項目を同じ配置にマッピングすべき場合には、一方を隣の位置にずらしてマッピングするようになっている。また、各部分41~44のいずれかに、10個以上の評価対象項目をマッピングすべき場合には、分析対象若しくは比較対象における出現回数、又は、双方の出現回数を合算した値の上位9個をマッピングするようになっている。
【0064】
次に、マップ情報生成部253は、評価値の大きさに応じて、マッピングする評価対象項目の表示形態を変更可能に構成されている。具体的には、本実施形態では、マップ情報生成部252は、分析対象の評価値や比較対象の評価値、又は両者を合算した値の大きさが大きいほど、評価対象項目を大きく表示するようになっている。なお、表示形態を変更する態様はこれに限らず、色を変更するなど適宜変更可能になっている。
【0065】
また、マップ情報生成部253は、
図4に示すように、分析用マップ4にマッピングされた主語(評価対象項目)とともに、当該主語に関連する語(共起語)のうち代表的な語を併せて表示可能に構成されている(なお、
図3では簡単のために省略してある)。具体的には、本実施形態では、一つの主語とともに、上側の部分51に分析対象テキストデータ群で集計された当該主語に対する共起語として代表的なもの(例えば出現回数の上位3つ)が表示され、下側の部分52に比較対象テキストデータ群で集計された当該主語に対する共起語として代表的なもの(例えば出現回数の上位3つ)が表示されるようになっている。
【0066】
さらに、マップ情報生成部253は、
図5に示すように、マップ情報として、分析用マップ4上でいずれかの評価対象項目が指示されたとき、当該評価対象項目についてのテキストデータの一例を表示可能なものを生成するように構成されている。表示されるテキストデータとしては、評価対象項目の共起語のうち、出現回数として上位のものを含むテキストデータが挙げられ、分析対象及び比較対象のそれぞれについて表示するようにしてある。
【0067】
また、マップ情報生成部253は、
図3に示す分析用マップ4のみならず、利用者側端末1からの要求に応じて、
図6に示すような、分析対象についての分析結果と比較対象についての分析結果とを左右に並べて表示する分析用マップ7も生成可能になっている。具体的には、分析用マップ7は、左側が分析対象の分析結果を示し、右側が比較対象の分析結果を示すようになっており、それぞれ上側に評価がポジティブな評価対象項目がマッピングされ、下側に評価がネガティブな評価対象項目がマッピングされるようになっている。また、分析用マップ7では、評価対象項目について共起語としてポジティブなものとネガティブなものとが混在する場合には、ポジティブな共起語のみについて指標値を積算して評価値を求めたものを上側にマッピングし、ネガティブな共起語のみについて指標値を積算して評価値を求めたものを下側にマッピングして、ポジティブな評価とネガティブな評価のそれぞれについてマッピングを行ってもよい。なお、分析マップ4と同様に、分析用マップ7上でいずれかの評価対象項目が指示されたとき、当該評価対象項目についてのテキストデータの一例を表示可能に構成されている。特に、同じ評価対象項目が上側(ポジティブ側)と下側(ネガティブ側)とにマッピングされている場合には、上側下側のいずれか一方の評価対象項目を指示することにより、ポジティブ側とネガティブ側との両方のテキストデータの一例が表示されるようになっている。
【0068】
そして、このようにしてマップ情報生成部253で生成されたマップ情報は、ジョブ処理部25による分析結果として最終的に利用者側端末1へと送られ、利用者が上記の分析用マップ4,7を見ることができるようになる。このように、本実施形態によれば、比較対象との関係における分析対象の強み・弱みを好適に判断できる分析用マップ4が利用者に示されるため、分析対象の強みや弱みの判断を効果的に行える。
【0069】
〔その他の実施形態〕
最後に、本発明に係るテキスト分析装置、テキスト分析方法、及び、テキスト分析プログラムのその他の実施形態について説明する。なお、以下のそれぞれの実施形態で開示される構成は、矛盾が生じない限り、他の実施形態で開示される構成と組み合わせて適用することも可能である。
【0070】
(1)上記の実施形態では、利用者端末1の側で収集した分析用のテキストデータを処理サーバ3側に送信する構成を例として説明した。しかし、本発明の実施形態はこれに限定されず、利用者端末1の側からの要求に応じて、処理サーバ3が、テキストデータ保存用のデータベースサーバなどの他装置から分析用のテキストデータを取得してもいいし、処理サーバ3が分析用のテキストデータを収集するようにしてもよい。
【0071】
(2)上記の実施形態では、評価判定部252は、単語集計部251により集計された主語のうち、出現回数の多い主語(名詞)から順に、所定数の主語を評価対象項目として決定する構成を例に説明した。しかし、本発明の実施形態はこれに限定されず、利用者側端末1の専用のアプリケーションでは、評価判定部252において評価対象項目とすべき主語を入力可能になっており、評価判定部252は、入力された主語については、出現頻度に関わらず、評価対象項目とするように構成してもよい(この場合、API部21が評価判定部252において評価対象項目とすべき主語を取得可能な評価対象項目取得部として機能する)。また、全ての評価対象項目をあらかじめ決めておき、テキスト分析では、収集されたテキストデータに基づいて、予め定めた各評価対象項目に対する評価を判定するようにしてもよい。
【0072】
(3)上記の実施形態では、示した評価判定部252による各評価対象項目に対する評価の判定手法はあくまでも例示であり、その判定手法は適宜変更可能である。例えば、各述語について定める指標値は上記のものに限られず、ポジティブなものを+、ネガティブなものを-といった基準で分けなくてもよい。また、評価対象項目に対する評価を指標する評価値を算出するといった手法を用いなくてもよい。
【0073】
(4)上記の実施形態では、マップ情報生成部253は、第一~第四部分41~44を有する分析用マップ4を用いた構成を例に説明した。しかし、本発明の実施形態はこれに限定されず、分析用マップ4は、第一~第四部分41~44の少なくともいずれか一つを有するものであればよい。
【0074】
(5)その他の構成に関しても、本明細書において開示された実施形態は全ての点で例示であって、本発明の範囲はそれらによって限定されることはないと理解されるべきである。当業者であれば、本発明の趣旨を逸脱しない範囲で、適宜改変が可能であることを容易に理解できるであろう。従って、本発明の趣旨を逸脱しない範囲で改変された別の実施形態も、当然、本発明の範囲に含まれる。
【産業上の利用可能性】
【0075】
本発明は、テキスト分析に利用することができる。
【符号の説明】
【0076】
2 処理サーバ(テキスト分析装置)
21 API部(テキストデータ群取得部)
251 単語集計部
252 評価判定部
253 マップ情報生成部
4 分析用マップ
41 第一部分
42 第二部分
43 第三部分
44 第四部分