特許第6289989号(P6289989)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6289989商品に対するユーザの感情分析装置及びプログラム
<>
  • 特許6289989-商品に対するユーザの感情分析装置及びプログラム 図000002
  • 特許6289989-商品に対するユーザの感情分析装置及びプログラム 図000003
  • 特許6289989-商品に対するユーザの感情分析装置及びプログラム 図000004
  • 特許6289989-商品に対するユーザの感情分析装置及びプログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6289989
(24)【登録日】2018年2月16日
(45)【発行日】2018年3月7日
(54)【発明の名称】商品に対するユーザの感情分析装置及びプログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20180226BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
【請求項の数】13
【全頁数】9
(21)【出願番号】特願2014-92505(P2014-92505)
(22)【出願日】2014年4月28日
(65)【公開番号】特開2015-210700(P2015-210700A)
(43)【公開日】2015年11月24日
【審査請求日】2017年1月19日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【弁理士】
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【弁理士】
【氏名又は名称】永川 行光
(74)【代理人】
【識別番号】100131886
【弁理士】
【氏名又は名称】坂本 隆志
(74)【代理人】
【識別番号】100170667
【弁理士】
【氏名又は名称】前田 浩次
(72)【発明者】
【氏名】エルドマン マイケ
(72)【発明者】
【氏名】石先 広海
(72)【発明者】
【氏名】滝嶋 康弘
【審査官】 齊藤 貴孝
(56)【参考文献】
【文献】 特開2010−079657(JP,A)
【文献】 米国特許出願公開第2012/0278065(US,A1)
【文献】 特開2007−041869(JP,A)
【文献】 特開2013−168043(JP,A)
【文献】 特開2011−180945(JP,A)
【文献】 特開2011−118778(JP,A)
【文献】 特開2010−198142(JP,A)
【文献】 国際公開第2008/075524(WO,A1)
【文献】 特開2007−179276(JP,A)
【文献】 特開2003−157253(JP,A)
【文献】 山本 竜太郎、外2名,ユーザの重視する不満意見と好評意見を考慮した商品推薦システム,第4回データ工学と情報マネジメントに関するフォーラム論文集 (第10回日本データベース学会年次大会),日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2012年 8月30日,p.1−6
【文献】 高山 泰博、外1名,情報利用の有効性の観点からの評価表現の分析,情報処理学会研究報告 2011(平成23)年度(5),日本,一般社団法人情報処理学会,2012年 3月 5日,p.1−6
【文献】 赤木 法生、外4名,レビューページ例からの属性抽出に基づくレビューページ検索,DEWS2006論文集,日本,電子情報通信学会データ工学研究専門委員会,2009年 7月27日,p.1−8
【文献】 長野 伸一、外4名,オントロジを利用したCGM分析サービス,電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2008年 6月23日,第108巻,第119号,p.63−67
【文献】 浅野 久子、外3名,ポータルサービスを支える自然言語処理技術,NTT技術ジャーナル,社団法人電気通信協会,2008年 6月 1日,第20巻,第6号,p.12−15
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
商品名によりデータベース又はネットワーク上のサイトを検索して前記商品名を含む記事を収集し、収集した記事から前記商品名が示す商品についての評価項目を抽出する抽出手段と、
ネットワーク上で公開される、前記商品名及び前記抽出した評価項目を含むメッセージを収集して、前記商品名が示す商品の前記抽出した評価項目についての感情分析を行う分析手段と、
を備えていることを特徴とする感情分析装置。
【請求項2】
前記抽出手段は、前記商品名及び所定の単語をキーワードとしてネットワークを検索することで、前記記事を収集するネットワーク上のサイトを決定することを特徴とする請求項1に記載の感情分析装置。
【請求項3】
前記分析手段は、SNSサービス上で公開されるメッセージを収集することを特徴とする請求項1又は2に記載の感情分析装置。
【請求項4】
前記抽出手段は、収集した記事の抽出した評価項目が含まれる文における、当該抽出した評価項目の位置と、感情を表現する単語の位置との間にある単語数又は文字数に応じて当該抽出した評価項目に順位を付与し、
前記分析手段は、前記抽出手段が抽出した評価項目の内の上位所定数の評価項目について感情分析を行うことを特徴とする請求項1から3のいずれか1項に記載の感情分析装置。
【請求項5】
前記抽出手段は、複数の言語それぞれについて、各言語での商品名によりデータベース又はネットワーク上のサイトを検索して、前記商品名が示す商品の評価項目を言語別に抽出し、
前記分析手段は、前記複数の言語それぞれについて、前記商品名及び前記抽出した評価項目を含むメッセージを収集して、言語別に感情分析を行うことを特徴とする請求項1から4のいずれか1項に記載の感情分析装置。
【請求項6】
言語別の感情分析の結果から、評価項目に重要度を付与する付与手段をさらに備えていることを特徴とする請求項5に記載の感情分析装置。
【請求項7】
前記分析手段は、評価項目について良い印象を有するユーザと悪い印象を有するユーザの比を前記感情分析の結果として求めることを特徴とする請求項6に記載の感情分析装置。
【請求項8】
前記付与手段は、評価項目について良い印象を有するユーザの割合の言語間での差が大きい程、当該評価項目の優先度を高くすることを特徴とする請求項7に記載の感情分析装置。
【請求項9】
前記付与手段は、評価項目について良い印象を有するユーザと悪い印象を有するユーザの比の差が大きい程、当該評価項目の優先度を高くすることを特徴とする請求項7又は8に記載の感情分析装置。
【請求項10】
前記付与手段は、感情分析に使用した評価項目を含むメッセージの数が多い程、当該評価項目の優先度を高くすることを特徴とする請求項7から9のいずれか1項に記載の感情分析装置。
【請求項11】
前記付与手段は、感情分析に使用した評価項目を含むメッセージの数の言語間での差が多い程、当該評価項目の優先度を高くすることを特徴とする請求項7から10のいずれか1項に記載の感情分析装置。
【請求項12】
前記分析手段は、収集したメッセージの内、ネットワーク上のサイトへのアクセス情報を含むメッセージを前記感情分析には使用しないことを特徴とする請求項1から11のいずれか1項に記載の感情分析装置。
【請求項13】
請求項1から12のいずれか1項に記載の感情分析装置としてコンピュータを機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ネットワーク上でユーザが公開する情報を収集して、商品に対するユーザの感情を分析する技術に関する。
【背景技術】
【0002】
近年、商品を購入したユーザが、その商品に関するコメントをインターネット上に公開したりしている。これらコメントは、例えば、商品に関する専用の評価サイトや、ソーシャル・ネットワーキング・サービス(SNS)上で公開されている。なお、評価サイトは、例えば、商品の製造者、販売者、その製品に関する情報を提供する事業者等により運営されている。これらのユーザによる商品に関するコメントは、当該商品の購入を検討している他のユーザや、当該商品の設計者、製造者等にとっては貴重な情報である。
【0003】
これらインターネット上で公開される、商品に対するユーザの感情を表すコメントを分析するため、感情分析技術が用いられている。通常、商品に関するユーザの感情分析においては、商品そのものに好印象を抱いているユーザと、好印象を抱いていないユーザの数が分析される。これに対して、商品全体の評価ではなく、商品に対する評価項目(Feature)毎に、ユーザの感情を分析する、"評価項目ベースの感情分析"が非特許文献1及び2に開示されている。ここで、評価項目とは、例えば、商品がスマートフォンであると、電池寿命や、ディスプレイサイズや、カメラ等であり、商品が車であると、燃費や、外観や、エンジン等である。
【0004】
従来、感情分析技術を利用した商品に対するユーザの感情分析は、評価サイトに公開されているユーザのコメントを分析することにより主に行われてきた。これは、評価サイトがそもそも商品の評価を目的としたものであって、文章もフォーマルな記述であることが多く、よって、書込まれるユーザの文章の解析が容易であり、ユーザがその商品に対して高評価を与えているのか否かの分析が容易でることがその理由である。しかしながら、商品を購入したユーザの内、その評価を評価サイトに書込むユーザより、SNS上でその商品の感想を述べるユーザの方が多い。このため、SNSで配布されたメッセージから商品の感情分析を行う構成を非特許文献3は開示している。また、様々な言語で公開された、ユーザの商品に関するコメントを分析する構成を非特許文献4は開示している。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】B.Liu,L.Zhang,"A Survey of Opinion Mining and Sentiment Analysis",Mining Text Data,2012年
【非特許文献2】N.Naveed,T.Gottron,S.Staab,"Feature Sentiment Diversification of User Generated Reviews:The FREuD Approach",International AAAI Conference on Weblogs and Social Media,ICWSM,2013年
【非特許文献3】S.M.Mohammad,S.Kiritchenko,X.Zhu,"NRC−Canada:Building the State−of−art in Sentiment Analysis of Tweets",International Workshop on Semantic Evaluation Exercises,2013年
【非特許文献4】H.Guo,H.Zhu,Z.Guo,X.Zhang,"OpinionIt:A Text Mining System for Cross−Lingual Opinion Analysis",Proceedings of the ACM international Conference on Information and knowledge management,2010年
【発明の概要】
【発明が解決しようとする課題】
【0006】
非特許文献3は、SNSで配布されたメッセージから商品の感情分析を行う構成を開示しているが、この感情分析は、所謂、"評価項目ベースの感情分析"(Feature Based Sentiment Analysis)ではなく、商品全体に対するユーザの感情分析である。これは、SNSで配布されるメッセージは、商品の評価というよりは、商品に対するユーザの感情を示すものが多く、短く砕けた表現が多用され、よって、評価項目の抽出が困難であるからである。
【0007】
本発明は、評価サイトのみならず、ネットワーク上で公開される、ユーザの商品に関するメッセージから評価項目ベースの感情分析を行える感情分析装置及びプログラムを提供するものである。
【課題を解決するための手段】
【0008】
本発明の一側面によると、感情分析装置は、商品名によりデータベース又はネットワーク上を検索して前記商品名を含む記事を収集し、収集した記事から前記商品名が示す商品についての評価項目を抽出する抽出手段と、ネットワーク上で公開される、前記商品名及び前記抽出した評価項目を含むメッセージを収集して、前記商品名が示す商品の前記抽出した評価項目についての感情分析を行う分析手段と、を備えていることを特徴とする。
【発明の効果】
【0009】
ネットワーク上で公開されるユーザの商品に関するメッセージから評価項目ベースの感情分析を行うことができる。
【図面の簡単な説明】
【0010】
図1】一実施形態によるシステム構成図。
図2】一実施形態による感情分析装置の構成図。
図3】一実施形態による抽出された評価項目の例を示す図。
図4】一実施形態による言語別の感情比率の例を示す図。
【発明を実施するための形態】
【0011】
以下、本発明の例示的な実施形態について図面を参照して説明する。なお、以下の実施形態は例示であり、本発明を実施形態の内容に限定するものではない。また、以下の各図においては、実施形態の説明に必要ではない構成要素については図から省略する。
【0012】
図1は、本実施形態によるシステム構成図である。感情分析装置1は、インターネット2と接続しており、入力された商品の名前(商品名)に基づき、インターネット2の各ウェブサイトにアクセスして、インターネット2上で公開されている当該商品についての記事を収集し、収集した記事から当該商品の評価項目(Feature)を抽出する。さらに、感情分析装置1は、商品名及び抽出した評価項目を含む、SNSのメッセージを収集して評価項目毎の感情分析を行い、評価項目毎に、良い感情を抱いているユーザと悪い感情を抱いているユーザの比率を求める。
【0013】
図2は、感情分析装置1の概略的な構成図である。商品名保持部11は、操作者が商品名を、ある言語、例えば、日本語で入力すると、辞書データ12を使用して、入力された商品名を各言語、例えば、英語に変換する。入力された言語での商品名と、他の言語に変換した商品名は商品名保持部11に保存されると共に、評価項目生成部13に出力される。なお、商品名保持部11は、辞書データ12により商品名を他の言語に変換するのではなく、インターネット2上の翻訳サイトを利用して商品名を他の言語に変換する構成とすることもできる。さらに、商品名については、操作者が直接、使用する各言語での商品名を入力する構成であっても良い。
【0014】
評価項目生成部13は、ネットワーク上の評価サイトにアクセスして、各言語で記載された、商品名についての記事を取得する。なお、アクセスする評価サイトについては、予め評価項目生成部13に設定しておく構成とすることができる。また、例えば、各言語での"商品名"と、同じ言語での"評価"又は"仕様"等、評価サイトに関連する単語をキーワードとして、検索サイトで検索することで、評価サイトを動的に判定する構成とすることもできる。具体的には、日本語の商品名が"あかさ"であり、英語の商品名が"ABC"である商品について、"あかさ"+"評価"で検索サイトを検索して日本語での記事を取得し、"ABC"+"REVIEW"で検索サイトを検索して英語での記事を取得する構成とすることができる。以後の処理は、特に断りのない限り、各言語それぞれについて独立して実行する。
【0015】
まず、評価項目生成部13は、tf−idf、df−idf、LDA(Latent Dirichlet Allocation)といったアルゴリズムを使用して、収集した記事から商品についての評価項目を抽出する。評価サイトは、商品の評価を目的としたものであり、書込まれる記事の文章の構造は、文法に忠実なものが多く、これらアルゴリズムにより商品名と共に良く用いられる単語を判定して評価項目を容易に抽出することができる。その後、評価項目生成部13は、抽出した評価項目に優先順位を付与する。優先順位は、文章中の評価項目の位置と、当該文章に現れる感情表現、例えば、"好き"、"嫌い"、"良い"、"悪い"といった用語との位置関係に基づき判定する。例えば、商品"ABC"の評価項目"Camera"に関し、英語で"The Camera of my ABC is good"との文章がある場合、評価項目"Camera"と、感情表現である"good"との間には、3つの単語が存在するため、距離は、間に存在する単語数に1を加えた4とすることができる。なお、評価項目を示す単語と感情表現を示す単語との間の文字数により距離を判定しても良い。なお、感情表現に対応する単語は、感情表現データベース16に予め保存されている。
【0016】
評価項目生成部13は、収集した各記事の文章を解析し、各評価項目について、スコアsを距離dの逆数の積算値として算出する。つまり、評価項目生成部13は、スコアsをs=s+(1/d)と、各文章に対して積算することで算出する。よって、本実施形態では、感情表現と評価項目の文書中の位置が近い程、スコアsは高くなる。そして、評価項目生成部13は、スコアsの大きい順に、評価項目の順位を付与する。図3は、評価項目生成部13が抽出した評価項目とその順位の例を示している。なお、図3(A)は、日本語の記事から取得した評価項目とその順位の例であり、図3(B)は、英語の記事から取得した評価項目とその順位の例である。図3の例に示す様に、各言語の処理は独立しているため、抽出される評価項目やその順位は言語毎に異なる。評価項目生成部13は、抽出した評価項目の上位所定数のものを、その順位と共にメッセージ収集部14に出力する。なお、上位所定数に制限するのは、処理負荷を考慮したものであり、抽出した評価項目の総てをメッセージ収集部14に出力する構成であっても良い。また、スコアsが所定値より大きい総ての評価項目を、その順位と共にメッセージ収集部14に出力する構成とすることもできる。
【0017】
メッセージ収集部14は、商品名と、評価項目生成部13から入力された評価項目の少なくとも1つを含むメッセージを、ネットワーク上のSNSサイトから収集し、収集したメッセージを分析部15に出力する。分析部15は、メッセージ収集部14が収集したメッセージに対して最初にフィルタ処理を行う。フィルタ処理においては、宣伝等を目的としたメッセージを削除する。例えば、ウェブサイトのURLを含むメッセージは、宣伝目的の可能性が高いため、URLを含むメッセージを削除する。また、感情表現を含まないメッセージについても削除する。
【0018】
その後、分析部15は、各評価項目について、フィルタ後のメッセージから、良い感情表現を含むメッセージ数と、悪い感情表現を含むメッセージの数をそれぞれ集計して、評価項目毎の感情比率を求める。なお、感情表現のそれぞれが、良い感情表現であるのか悪い感情表現であるかについても感情表現データベース16に記録されている。図4は、分析部15が生成する、各評価項目についての感情比率の例である。なお、図4(A)は、日本語で表現されたメッセージに基づいて生成した感情比率の例であり、図4(B)は、英語で表現されたメッセージに基づいて生成した感情比率の例である。なお、感情表現を含むメッセージの判定には、公知の感情分析アルゴリズムを使用できる。
【0019】
最後に、評価項目重要度算出部17は、各言語での評価項目を集約して、各評価項目の重要度を付与する。例えば、日本語と英語により処理を実行し、日本語では、図4(A)に示す"カメラ"、"ディスプレイ"、"電池"の3つの評価項目を取得し、英語では、図4(B)に示す"Battery"(電池)、"Price"(価格)、"Camera"(カメラ)の3つの評価項目を取得したものとする。この場合、重要度を付与する対象となる評価項目は、"カメラ"、"ディスプレイ"、"電池"、"価格"の4つとなる。なお、評価項目の言語間での異同は、辞書データ12を使用して判定する。辞書データ12を使用するのではなく、インターネット2上の翻訳サイトを使用しても良い。また、本実施形態では、分析部15が出力する各言語での評価項目のうち、対応する内容を1つに纏めることで集約し、集約後の評価項目を重要度の付与対象とするが、各言語で共通して存在する評価項目のみを重要度の付与対象としても良い。
【0020】
重要度は、各評価項目について、生起スコア、感情比率スコア、言語間生起差分スコア、言語間感情差分スコアを求め、これら4つのスコアの合計により求める。ある評価項目の生起スコアは、当該評価項目が感情表現と共に含まれていたメッセージの数が大きくなる程高くするスコアである。なお、スコアの生成に使用するメッセージは、分析部15でのフィルタ前のものであっても、フィルタ後のものであっても良い。なお、生起スコアは、例えば、使用した言語数の平均値とすることができる。ここで、メッセージの数が大きくなる程、スコアを高くするのは、メッセージ数が大きい程、当該評価項目に関心を抱いているユーザが多いと考えられるからである。一例として、3つの言語L1、L2、L3を使用し、分析部15によるフィルタ後の言語L1、言語L2及び言語L3のメッセージの内、それぞれ、40%、80%及び0%が評価項目#Aに言及していたものとする。この場合、例えば、(0.4+0.8+0)/3=0.4を評価項目#Aの生起スコアとすることができる。
【0021】
また、ある評価項目の感情比率スコアは、当該評価項目の感情比率がバランスしていないほど、つまり、好印象と悪印象の差が大きい程高くなるスコアである。一例として、3つの言語L1、L2、L3を使用し、評価項目#Aについての言語L1及び言語L2での良い感情比率がそれぞれ80%及び20%であり、言語Cについては、評価項目#Aを評価項目生成部13が出力せず評価されなかったものとする。この場合、例えば、2×(|0.5−0.8|+|0.5−0.2|)/3=0.4を評価項目#Aの感情比率スコアとすることができる。なお、絶対値内は、良い感情の比率がその中心値である0.5とどれだけ乖離しているかを計算するものである。また、言語での平均値を2倍にするのは、各絶対値内の最大値を1にすることが目的、つまり、他のスコアとの重みの調整のためである。しかしながら、重点を置くスコアに応じ、重みは任意の値に設定できる。なお、感情比率がバランスしていないほど、スコアを高くするのは、ユーザの評価が明確であるからである。
【0022】
また、ある評価項目の言語間生起差分スコアは、当該評価項目が感情表現と共に含まれていたメッセージの数の言語間での差が大きくなる程高くするスコアである。一例として、3つの言語L1、L2、L3を使用し、分析部15によるフィルタ後の言語L1、言語L2及び言語L3のメッセージの内、それぞれ、40%、80%及び0%が評価項目#Aに言及していたものとする。この場合、評価項目#Aの言語間生起差分スコアは、評価項目#Aに言及しているメッセージの割合の最大値と最小値の差として求めることができる。つまり、本例では、0.8−0=0.8を評価項目#Aの言語間生起差分スコアとすることができる。メッセージの数の言語間での差が大きくなる程、スコアを高くするのは、言語の違いにより、ユーザの評価が大きく分かれており、言語間での差を評価することは、例えば、マーケティング等に有用な情報となるからである。
【0023】
また、ある評価項目の言語間感情差分スコアは、当該評価項目の感情比率の言語間での差が大きくなる程高くするスコアである。一例として、3つの言語L1、L2、L3を使用し、評価項目#Aについての言語L1及び言語L2での良い感情比率がそれぞれ80%及び20%であり、言語Cについては、評価項目#Aを評価項目生成部13が出力せず評価されなかったものとする。この場合、評価項目#Aの言語間感情差分スコアは、良い感情比率の最大値と最小値の差として求めることができる。つまり、本例では、0.8−0.2=0.6を評価項目#Aの言語間感情差分スコアとすることができる。感情比率の言語間での差が大きくなる程、スコアを高くするのは、言語の違いにより、ユーザの評価が大きく分かれており、言語間での差を評価することは、例えば、マーケティング等に有用な情報となるからである。
【0024】
評価項目重要度算出部17は、評価項目の各スコアの単純な、或いは、重み付き合計値を、当該評価項目の重要度とし、分析部15が生成した感情比率と共に、評価項目の重要度を出力する。この出力は、例えば、インターネット2で公開することができる。また、当該商品の製造者や販売者等に提供される。なお、各スコアを合計する際に、各スコアには異なる重みを適用することができる。さらに、生起スコア、感情比率スコア、言語間生起差分スコア、言語間感情差分スコアの4つを総て使用するのではなく、任意の1つ以上を使用する構成であっても良い。例えば、言語間での評価の違いに重点を置く場合、言語間生起差分スコア、言語間感情差分スコアのみを用いる構成や、言語間生起差分スコア、言語間感情差分スコアのいずれかのみを用いる構成とすることができる。
【0025】
以上、本実施形態では、評価サイトから評価項目を抽出し、抽出した評価項目によりSNS等のメッセージを収集して感情分析を行う。この構成により、SNS等のメッセージを使用した、評価項目ベースの感情分析が可能になる。また、本実施形態では、言語毎に、評価項目ベースの感情分析を行う。これにより、言語間での、評価項目毎の感情の違いを比較することができ、マーケティング等に有用な情報を得ることができる。さらに、本実施形態では、評価項目に重要度を付与する。この重要度は、言語間の感情分析結果が異なるものほど高くする。したがって、この重要度により、言語間で結果が異なる評価項目を特定することができ、マーケティング等に有用な情報を得ることができる。
【0026】
なお、上記実施形態では、インターネット2から情報を収集したが、インターネット以外のネットワークであっても良い。また、上記実施形態において、評価項目生成部13は、インターネット2のサイトから商品名を含む記事を収集したが、例えば、商品名に関する記事を含む、インターネット2とは接続していないデータベースから商品名を含む記事を収集する構成とすることもできる。このデータベースは、例えば、商品に関するアンケートの結果のデータベースとすることができる。また、メールを解析したデータベースとすることができる。
【0027】
なお、本発明による感情分析装置1は、コンピュータを上記感情分析装置1として動作させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。
図1
図2
図3
図4