(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6267611
(24)【登録日】2018年1月5日
(45)【発行日】2018年1月24日
(54)【発明の名称】ネットワーク上のメッセージでの商品名の曖昧さを除去する曖昧性除去装置及びプログラム
(51)【国際特許分類】
G06F 17/30 20060101AFI20180115BHJP
G06F 17/27 20060101ALI20180115BHJP
G06Q 50/10 20120101ALI20180115BHJP
【FI】
G06F17/30 220Z
G06F17/30 170A
G06F17/27 660
G06Q50/10
【請求項の数】13
【全頁数】9
(21)【出願番号】特願2014-189439(P2014-189439)
(22)【出願日】2014年9月17日
(65)【公開番号】特開2016-62270(P2016-62270A)
(43)【公開日】2016年4月25日
【審査請求日】2017年1月17日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100076428
【弁理士】
【氏名又は名称】大塚 康徳
(74)【代理人】
【識別番号】100112508
【弁理士】
【氏名又は名称】高柳 司郎
(74)【代理人】
【識別番号】100115071
【弁理士】
【氏名又は名称】大塚 康弘
(74)【代理人】
【識別番号】100116894
【弁理士】
【氏名又は名称】木村 秀二
(74)【代理人】
【識別番号】100130409
【弁理士】
【氏名又は名称】下山 治
(74)【代理人】
【識別番号】100134175
【弁理士】
【氏名又は名称】永川 行光
(74)【代理人】
【識別番号】100131886
【弁理士】
【氏名又は名称】坂本 隆志
(74)【代理人】
【識別番号】100170667
【弁理士】
【氏名又は名称】前田 浩次
(72)【発明者】
【氏名】エルドマン マイケ
(72)【発明者】
【氏名】服部 元
(72)【発明者】
【氏名】池田 和史
【審査官】
石田 信行
(56)【参考文献】
【文献】
特開2010−134651(JP,A)
【文献】
特表2006−527886(JP,A)
【文献】
特開2011−070541(JP,A)
【文献】
特開2010−061332(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/27
G06Q 50/10
(57)【特許請求の範囲】
【請求項1】
ネットワークから収集した、商品を特定する第1商品名と、前記第1商品名の一部が省略され、複数の前記第1商品名のそれぞれが示す商品の商品群を示す第2商品名を含むメッセージを、前記第1商品名を含む第1メッセージと、前記第1商品名を含まない第2メッセージに分類する手段と、
商品と特徴との関係を示す第1情報を保持する保持手段と、
第2メッセージにおいて言及している特徴と前記第1情報とに基づき、当該第2メッセージで言及している商品が、当該第2メッセージに含まれる前記第2商品名が示す商品群のなかのいずれの商品であるかを判定する第1判定手段と、
を備えていることを特徴とする曖昧性除去装置。
【請求項2】
前記メッセージをネットワークから収集する収集手段をさらに備えていることを特徴とする請求項1に記載の曖昧性除去装置。
【請求項3】
前記収集手段は、SNSサービス上で公開されるメッセージを収集することを特徴とする請求項2に記載の曖昧性除去装置。
【請求項4】
前記第1商品名によりデータベース又はネットワーク上のサイトを検索して前記第1商品名を含む記事を収集し、収集した記事から前記第1商品名が示す商品と特徴との関係を抽出して前記第1情報を生成する第1生成手段をさらに備えていることを特徴とする請求項1から3のいずれか1項に記載の曖昧性除去装置。
【請求項5】
前記第1情報に含まれる商品の特徴は、前記第2商品名が示す商品群の内の、当該商品とは異なる商品に対しては抽出されない特徴であることを特徴とする請求項4に記載の曖昧性除去装置。
【請求項6】
前記保持手段は、前記第2商品名が示す前記商品群と特徴との関係を示す第2情報をさらに保持しており、
前記曖昧性除去装置は、
前記第2情報に含まれる特徴に言及している前記第1メッセージを判定し、判定した前記第1メッセージの数を、判定した前記第1メッセージに含まれる前記第1商品名毎に算出し、前記判定した前記第1メッセージの総数に対する前記算出した前記第1商品名毎の数の割合に基づき、前記第2情報に含まれる特徴に対応する前記商品群の商品を推定する推定手段をさらに備えていることを特徴とする請求項1から5のいずれか1項に記載の曖昧性除去装置。
【請求項7】
前記推定手段は、前記割合が閾値以上となる前記第1商品名に対応する商品が、前記第2情報に含まれる特徴に対応する商品であると推定することを特徴とする請求項6に記載の曖昧性除去装置。
【請求項8】
前記推定手段は、前記第1判定手段によって前記第2商品名が示す商品群のなかのいずれの商品であるかを判定できなかった第2メッセージのうち、前記第2情報に含まれ、かつ、前記推定手段が商品を推定した特徴に言及している第2メッセージについては、前記推定した商品に言及していると判定することを特徴とする請求項7に記載の曖昧性除去装置。
【請求項9】
前記第1商品名によりデータベース又はネットワーク上のサイトを検索して前記第1商品名を含む記事を収集し、収集した記事から前記第1商品名が示す商品に対する特徴を抽出し、抽出した特徴の内、前記第2商品名が示す商品群の内の、当該商品とは異なる商品に対しても抽出された特徴を、前記第2商品名に対する特徴として前記第2情報を生成する第2生成手段をさらに備えていることを特徴とする請求項6から8のいずれか1項に記載の曖昧性除去装置。
【請求項10】
第1メッセージに含まれるキーワードを抽出して、当該第1メッセージに含まれる第1商品名が示す商品のキーワードとし、前記推定手段によって前記第2商品名が示す商品群のなかのいずれの商品であるかを判定できなかった第2メッセージについて、当該第2メッセージで言及している商品が、当該第2メッセージに含まれる前記第2商品名が示す商品群のなかのいずれの商品であるかを、当該第2メッセージに含まれる前記キーワードに基づき判定する第2判定手段をさらに備えていることを特徴とする請求項8に記載の曖昧性除去装置。
【請求項11】
第1メッセージに含まれるキーワードを抽出して、当該第1メッセージに含まれる第1商品名が示す商品のキーワードとし、前記第1判定手段によって前記第2商品名が示す商品群のなかのいずれの商品であるかを判定できなかった第2メッセージについて、当該第2メッセージで言及している商品が、当該第2メッセージに含まれる前記第2商品名が示す商品群のなかのいずれの商品であるかを、当該第2メッセージに含まれる前記キーワードに基づき判定する第2判定手段をさらに備えていることを特徴とする請求項1から5のいずれか1項に記載の曖昧性除去装置。
【請求項12】
前記第2判定手段は、前記第2商品名が示す商品群の各商品それぞれについて、第2メッセージに含まれる、対応するキーワードの数又は割合を求め、求めた数又は割合の最も大きいキーワードに対応する商品が、当該第2メッセージに含まれる前記第2商品名が示す商品であると判定することを特徴とする請求項10又は11に記載の曖昧性除去装置。
【請求項13】
請求項1から12のいずれか1項に記載の曖昧性除去装置としてコンピュータを機能させることを特徴とするプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ネットワーク上のメッセージを収集して、商品に対するユーザの感情を分析する技術に関し、より詳しくは、メッセージ上の商品名の曖昧さを除去する技術に関する。
【背景技術】
【0002】
近年、商品を購入したユーザが、その商品に関するコメントをインターネット上に公開したりしている。これらコメントは、例えば、商品に関する専用の評価サイトや、ソーシャル・ネットワーキング・サービス(SNS)上で公開されている。なお、評価サイトは、例えば、商品の製造者、販売者、その製品に関する情報を提供する事業者等により運営されている。これらのユーザによる商品に関するコメントは、当該商品の購入を検討している他のユーザや、当該商品の設計者、製造者等にとっては貴重な情報である。
【0003】
これらインターネット上で公開される、商品に対するユーザの感情を表すコメントを分析するため、感情分析技術が用いられている。従来、感情分析技術を利用した商品に対するユーザの感情分析は、評価サイトに公開されているユーザのコメントを分析することにより主に行われてきた。これは、評価サイトがそもそも商品の評価を目的としたものであって、文章もフォーマルな記述であることが多く、よって、書込まれるユーザの文章の解析が容易であり、ユーザがその商品に対して高評価を与えているか否かの分析が容易であることがその理由である。しかしながら、商品を購入したユーザの内、その評価を評価サイトに書込むユーザより、SNS上でその商品の感想を述べるユーザの方が多い。このため、SNS上で配布されたメッセージから商品の感情分析を行う構成を非特許文献1は開示している。
【0004】
通常、商品に関するユーザの感情分析においては、商品そのものに好印象を抱いているユーザと、好印象を抱いていないユーザの数が分析される。これに対して、商品全体の評価ではなく、商品の特徴(Feature)毎に、ユーザの感情を分析する、"特徴ベースの感情分析"が非特許文献2に開示されている。ここで、特徴とは、例えば、商品がスマートフォンであると、電池寿命や、ディスプレイサイズや、カメラ等であり、商品が車であると、燃費や、外観や、エンジン等である。
【0005】
なお、商品には、バージョンにより機能や特徴等が異なるものがある。例えば、名前が"A"であるスマートフォンには、そのリリース順にバージョン1、2、3があるものとする。この場合、例えば、バージョン1及び2の色は白と黒のみであるが、バージョン3には、赤、青、黄等、バージョン1及び2より豊富なカラーバリエーションが用意されている場合がある。さらに、バージョン2にのみ指紋認証機能が設けられている様な場合もある。しかしながら、商品に関するSNS上のメッセージにおいては、バージョンについて省略されているものが多く、メッセージ上の商品名"A"のみに基づき感情分析を行うと、種々のバージョンを総合した評価となり、個々のバージョンの評価を行うことはできない。
【0006】
非特許文献3は、ある一般名詞が商品名としても使用されている場合において、メッセージにおける名詞が、一般名詞を指しているのか、商品を指しているのかを判定する方法を開示している。しかしながら、非特許文献3に記載の方法では、商品名のバージョンの違いを判定することはできない。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】S.M.Mohammad,S.Kiritchenko,X.Zhu,"NRC−Canada:Building the State−of−art in Sentiment Analysis of Tweets",International Workshop on Semantic Evaluation Exercises,2013年
【非特許文献2】N.Naveed,T.Gottron,S.Staab,"Feature Sentiment Diversification of User Generated Reviews:The FREuD Approach",International AAAI Conference on Weblogs and Social Media,ICWSM,2013年
【非特許文献3】M.B.Habib,M.van Keulen,"A Generic Open World Named Entity Disambiguation Approach for Tweets", International Conference on Knowledge Discovery and Information Retrieval(KDIR),2013年
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明は、ネットワーク上で公開されるメッセージで言及される商品の曖昧さを除去する曖昧性除去装置及びプログラムを提供するものである。
【課題を解決するための手段】
【0009】
本発明の一側面によると、曖昧性除去装置は、
ネットワークから収集した、商品を特定する第1商品名
と、前記第1商品名の一部が省略され、複数の前記第1商品名のそれぞれが示す商品の商品群を示す第2商品名を含むメッセージ
を、前記第1商品名を含む第1メッセージと、前記第1商品名を含まない第2メッセージに分類する手段と
、商品と特徴との関係を示す第1情報を保持する保持手段と、第2メッセージにおいて言及している特徴と前記第1情報とに基づき、当該第2メッセージで言及している商品が、当該第2メッセージに含まれる前記第2商品名が示す商品群のなかのいずれの商品であるかを判定する第1判定手段と、を備えていることを特徴とする。
【発明の効果】
【0010】
ネットワーク上で公開されるメッセージで言及される商品の曖昧さを除去することができる。
【図面の簡単な説明】
【0011】
【
図3】一実施形態による特徴保持部に保持する情報の例を示す図。
【
図4】一実施形態による類似度判定部での処理の説明図。
【発明を実施するための形態】
【0012】
以下、本発明の例示的な実施形態について図面を参照して説明する。なお、以下の実施形態は例示であり、本発明を実施形態の内容に限定するものではない。また、以下の各図においては、実施形態の説明に必要ではない構成要素については図から省略する。なお、以下の説明において、例えば、バージョン等をも含み、個々の商品を特定可能な商品名を完全商品名と呼び、バージョン等、完全商品名の一部が省略され、よって、複数の商品を含む商品群を特定することになる商品名を簡易商品名と呼ぶものとする。したがって、当然に、完全商品名とは、簡易商品名にバージョン等を示す文字列が追加されたものになる。また、1つの簡易商品名は、その簡易商品名を一部とする、複数の完全商品名の総称でもある。
【0013】
図1は、本実施形態によるシステム構成図である。曖昧性除去装置1は、インターネット2と接続しており、入力された完全商品名に基づき、インターネット2の各ウェブサイトにアクセスして、インターネット2上で公開されている当該完全商品名についての記事を収集する。そして、完全商品名毎の商品の特徴を抽出して保存する。さらに、曖昧性除去装置1は、簡易商品名を含むSNSのメッセージを収集し、完全商品名毎の特徴や、収集したSNSメッセージに基づき、各SNSメッセージに含まれる簡易商品名により言及される商品が、どの完全商品名に対応する商品であるかを判定する。
【0014】
図2は、曖昧性除去装置1の概略的な構成図である。商品名保持部11は、操作者が入力した完全商品名を保持する。特徴抽出部12は、ネットワーク上の評価サイトにアクセスして、完全商品名を含む記事を取得する。なお、アクセスする評価サイトについては、予め特徴抽出部12に設定しておく構成とすることができる。また、例えば、"完全商品名"と、"評価"又は"仕様"等、評価サイトに関連する単語をキーワードとして、検索サイトで検索することで、評価サイトを動的に判定する構成とすることもできる。そして、特徴抽出部12は、tf−idf、df−idf、LDA(Latent Dirichlet Allocation)といったアルゴリズムを使用して、収集した記事から完全商品名で示される商品についての特徴を抽出する。評価サイトは、商品の評価を目的としたものであり、書込まれる記事の文章の構造は、文法に忠実なものが多く、これらアルゴリズムにより完全商品名と共に良く用いられる単語を判定して、商品の特徴を容易に抽出することができる。
【0015】
以下、本実施形態の説明において使用する例を述べる。まず、簡易商品名が"A"であるスマートフォンには、そのリリース順にバージョン1、2、3があるものとする。そして、バージョン1及び2の色は白と黒のみであり、金属フレームが用いられているものとする。一方、バージョン3は赤、青、黄等の豊富なカラーバリエーションが用意されており、そのフレームはプラスチックであるものとする。さらに、バージョン2にのみ指紋認証機能が設けられているものとする。この様な場合、完全商品名"Aバージョン1"の特徴としては、カラー、金属フレーム等が抽出される。また、完全商品名"Aバージョン2"の特徴としては、カラー、指紋認証機能、金属フレーム等が抽出される。一方、完全商品名"Aバージョン3"の特徴としては、カラー、プラスチックフレーム等が抽出される。
【0016】
特徴抽出部12は、完全商品名が示す商品について抽出した特徴が、対応する簡易商品名が示す商品群の他の商品にも存在するか否かについて判定する。例えば、上記例において、カラー、金属フレームは、簡易商品名Aが示す3つの商品の複数の商品の特徴として抽出されているが、指紋認証機能及びプラスチックフレームは、それぞれ、完全商品名"Aバージョン2"及び"Aバージョン3"で示される商品にのみ存在する。この場合、特徴抽出部12は、"Aバージョン2"と"指紋認証機能"を対応付け、"Aバージョン3"と"プラスチックフレーム"を対応付けて特徴保持部18に保存する。一方、抽出された特徴である"カラー"及び"金属フレーム"は、完全商品名で示される商品固有の特徴ではないため、特徴抽出部12は、"カラー"及び"金属フレーム"を、簡易商品名Aに対応づけて特徴保持部18に保存する。
図3(A)及び(B)は、本例において特徴保持部18に保存される情報を示している。
【0017】
メッセージ収集部13は、簡易商品名を含むメッセージを、ネットワーク上のSNSサイトから収集し、収集したメッセージを分類部14に出力する。簡易商品名を含むメッセージには、当然に、完全商品名を含むメッセージも含まれる。分類部14は、メッセージ収集部13が収集したメッセージについて、完全商品名を含む第1メッセージと、そうでない第2メッセージに分類する。第1メッセージは、完全商品名が特定されているので、分類部14は、第1メッセージを曖昧性除去装置1の出力とすると同時に、後述する様に、推定部16及び類似度判定部17において使用するため、これらに出力する。また、分類部14は、第2メッセージを判定部15に出力する。
【0018】
なお、
図2において図示していないが、判定部15、推定部16、類似度判定部17は、特徴保持部18が保持する情報にアクセスできる。
【0019】
判定部15は、特徴部保持部18が保持する特徴と完全商品名との対応関係を示す情報に基づき、第2メッセージに含まれる簡易商品名により言及される商品が、どのバージョンを示しているのかを判定する。例えば、
図3に示す様に、本例では、"Aバージョン2"と"指紋認証機能"が対応付けられて特徴保持部18に保持されているので、収集したある第2メッセージの内容が、「"A"の指紋認証機能は、・・・」であると、ここでの簡易商品名"A"は、バージョン2を示している判定する。しかしながら、ある第2メッセージの内容が、「"A"のカラーは、・・・」であると、ここでの簡易商品名"A"が示すバージョンを特定することはできない。判定部15は、完全商品名の特定ができた第2メッセージについては、判定済メッセージとして、特定した完全商品名と共に曖昧性除去装置1の出力とする。一方、完全商品名の特定ができない第2メッセージについては、未判定メッセージとして推定部16に出力する。
【0020】
推定部16は、まず、簡易商品名に対応付けられた特徴を含む第1メッセージそれぞれについて、完全商品名毎の数と総数を求めて、その割合を判定する。例えば、本例において、簡易商品名に対応付けられた"カラー"を含む第1メッセージが100あり、この100の第1メッセージの内、"Aバージョン1"に言及しているものが5であり、"Aバージョン2"に言及しているものが20であり、"Aバージョン3"に言及しているものが75であると、特徴"カラー"の各完全商品名に対する関連性を"Aバージョン1"が5%、"Aバージョン2"が20%、"Aバージョン3"が75%と算出する。推定部16は、特徴"カラー"に対する完全商品名の関連性が所定の閾値、例えば、70%より高い場合、この特徴は、当該完全商品名についてのものと判定し、当該特徴に言及している第2メッセージの簡易商品名が示す商品のバージョンを特定する。例えば、本例において、"Aバージョン3"の"カラー"に対する関連性は閾値である70%より高いため、カラーに言及している第2メッセージは、バージョン3を示しているものと判定し、曖昧性除去装置1の出力とする。一方、例えば、カラーについての関連性の値が閾値より高いものが無いと、推定部16は、カラーに言及している第2メッセージについてはそのバージョンを特定できないとして、類似度判定部17に出力する。同様に、特徴保持部18が抽出した特徴に言及していない第2メッセージについても類似度判定部17に出力する。
【0021】
類似度判定部17は、まず、第1メッセージそれぞれについて、特徴抽出部12と同様の処理を適用し、完全商品名と共に良く用いられる用語をキーワードとして抽出する。
図4は、類似度判定部17が抽出した、各完全商品名に対するキーワードの例を示している。そして、未判定の第2メッセージそれぞれについて、完全商品名毎に、メッセージ内におけるキーワードの出現比率を求める。例えば、メッセージが50の単語を含み、Aバージョン1のキーワードが2個含まれ、Aバージョン2のキーワードが4個含まれ、Aバージョン3のキーワードが3個含まれている場合、Aバージョン1、Aバージョン2、Aバージョン3の出現比率は、それぞれ、0.04、0.08、0.06となる。類似度判定部15は、この第2メッセージの簡易商品名が言及しているのは、キーワードの出現比率の最も高い完全商品名のバージョン、本例では、バージョン2であると特定し、その第2メッセージを、特定した完全商品名と共に曖昧性除去装置1の出力とする。
【0022】
以上の構成により、完全商品名の一部が省略され、複数の商品群しか特定できないメッセージについて、どの商品に言及しているメッセージであるかを判定することができる。本実施形態の曖昧性除去装置1が出力するメッセージは、完全商品名を特定しているため、この出力を利用して、例えば、商品のバージョン毎の感情分析を行うことができる。
【0023】
なお、上記実施形態では、インターネット2から情報を収集したが、インターネット以外のネットワークであっても良い。また、上記実施形態において、特徴抽出部12は、インターネット2のサイトから商品名を含む記事を収集したが、例えば、商品名に関する記事を含む、インターネット2とは接続していないデータベースから商品名を含む記事を収集する構成とすることもできる。このデータベースは、例えば、商品に関するアンケートの結果のデータベースとすることができる。また、メールを解析したデータベースとすることができる。
【0024】
また、上記実施形態では、推定部16を設けたが、推定部16を設けず、判定部15における未判定の第2メッセージを類似度判定部17に出力する構成とすることもできる。さらに、類似度判定部17では、第2メッセージ内のキーワードの比率により第2メッセージが言及している商品を判定したが、数により行っても良い。
【0025】
なお、本発明による曖昧性除去装置1は、コンピュータを上記曖昧性除去装置1として動作させるプログラムにより実現することができる。これらコンピュータプログラムは、コンピュータが読み取り可能な記憶媒体に記憶されて、又は、ネットワーク経由で配布が可能なものである。