(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-30
(45)【発行日】2022-12-08
(54)【発明の名称】テキスト情報判定装置及びそのプログラム
(51)【国際特許分類】
G06F 16/55 20190101AFI20221201BHJP
【FI】
G06F16/55
(21)【出願番号】P 2018236090
(22)【出願日】2018-12-18
【審査請求日】2021-11-08
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】110001807
【氏名又は名称】弁理士法人磯野国際特許商標事務所
(72)【発明者】
【氏名】武井 友香
(72)【発明者】
【氏名】後藤 淳
(72)【発明者】
【氏名】宮▲崎▼ 太郎
【審査官】原 秀人
(56)【参考文献】
【文献】特開2013-033375(JP,A)
【文献】特開2016-110452(JP,A)
【文献】特開2013-257677(JP,A)
【文献】特開2015-026206(JP,A)
【文献】特開2008-152634(JP,A)
【文献】福原 知宏 外,感情表現と用語のクラスタリングを用いた時系列テキスト集合からの話題検出,2006年度人工知能学会全国大会(第20回)論文集,日本,社団法人人工知能学会,2006年06月07日,pp. 1-3
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
感情極性の変化により、話題性が高いテキスト情報を判定するテキスト情報判定装置であって、
予め設定されたキーワードを含み、かつ、時刻情報が付加された前記テキスト情報が複数入力されるテキスト情報入力手段と、
入力された各テキスト情報の感情極性スコアを算出し、算出した当該感情極性スコアに対応する感情極性ラベルを前記各テキスト情報に付加する感情極性ラベル付加手段と、
予め設定された集計期間において、前記テキスト情報の件数を前記感情極性ラベル毎に集計し、前記テキスト情報の合計件数と前記感情極性ラベル毎の件数との割合を前記感情極性の割合として算出する感情極性割合算出手段と、
前記感情極性の割合の上昇により、前記感情極性のバーストが発生したか否かを判定するバースト判定手段と、
前記感情極性の割合の比較により、前記感情極性の逆転が発生したか否かを判定する逆転判定手段と、
前記バースト及び/又は前記逆転が発生したときの前記感情極性ラベルと前記キーワードと前記集計期間とに該当する前記テキスト情報を、話題性が高い前記テキスト情報として判定するテキスト情報判定手段と、
を備えることを特徴とするテキスト情報判定装置。
【請求項2】
前記感情極性ラベル付加手段は、
学習時、前記テキスト情報に前記感情極性ラベルが予め付加された学習データを用いて、感情分類モデルを学習し、
判定時、前記感情分類モデルにより前記各テキスト情報の感情極性スコアを算出し、前記感情極性スコアが最も高い感情極性ラベルを前記各テキスト情報に付加することを特徴とする請求項1に記載のテキスト情報判定装置。
【請求項3】
前記感情極性ラベル付加手段は、単語毎の前記感情極性スコアが格納された感情極性スコア情報を参照して、前記各テキスト情報の感情極性スコア、及び、前記感情極性スコア情報に含まれる各単語の感情極性スコアを平均した感情極性スコア平均値を算出し、前記感情極性スコア平均値を基準として前記各テキスト情報の感情極性スコアを分類することで、分類した前記感情極性スコアに対応する感情極性ラベルを前記各テキスト情報に付加することを特徴とする請求項1に記載のテキスト情報判定装置。
【請求項4】
前記逆転判定手段は、
前記逆転の判定対象となる2つの感情極性が予め設定され、
前記2つの感情極性の割合が等しくなった場合、前記2つの感情極性の割合の大小が入れ替わった場合、又は、前記2つの感情極性の割合の大小が入れ替わった後、前記2つの感情極性の割合の差分が所定の閾値以上となった場合、前記感情極性の逆転が発生したと判定することを特徴とする請求項1から請求項3の何れか一項に記載のテキスト情報判定装置。
【請求項5】
前記テキスト情報に含まれる単語の出現回数が多い順に、又は、前記感情極性の逆転が発生したあとの前記感情極性の割合の比の最大値に応じて、前記キーワードを設定するキーワード設定手段、をさらに備え、
前記テキスト情報判定手段は、前記バースト及び前記逆転の両方が発生しない場合、前記出現回数が少ないキーワードに切り替えて、話題性が高い前記テキスト情報を判定することを特徴とする請求項1から請求項4の何れか一項に記載のテキスト情報判定装置。
【請求項6】
前記キーワード設定手段は、中立を表す前記感情極性が予め設定され、当該中立の感情極性に属する単語を前記キーワードから削除することを特徴とする請求項5に記載のテキスト情報判定装置。
【請求項7】
前記テキスト情報は、投稿時刻が付加されたソーシャルメディア情報であることを特徴とする請求項1から請求項6の何れか一項に記載のテキスト情報判定装置。
【請求項8】
コンピュータを、請求項1から請求項7の何れか一項に記載のテキスト情報判定装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話題性が高いテキスト情報を判定するテキスト情報判定装置及びそのプログラムに関する。
【背景技術】
【0002】
ソーシャル・ネットワーキング・サービス(SNS:Social Networking Service)が発達したことにより、個人が容易に、リアルタイムで情報を発信することが可能になった。これらSNSのソーシャルビックデータは、有力な情報源となり、社会の風潮や社会問題の把握に活用されている。近年では、SNSに投稿された大量のテキストをいくつかの感情の種類に分類し、その分類結果を利用して株価の動向を予測する手法が提案されている(非特許文献1)。また、SNSで炎上している投稿を検出する手法も提案されている(非特許文献2)。放送局においても、SNSへの投稿を複数人で常時監視し、話題になっている投稿及びその投稿が示す情報(SNS情報)を番組制作に活かす場合がある。
【先行技術文献】
【非特許文献】
【0003】
【文献】「Twitterの多軸的感情情報を利用した株価の予測」、増井佑亮、藤野巖、一般社団法人言語処理学会、言語処理学会第24回年次大会発表論文集、2018年3月
【文献】「Twitterにおける感情分析を用いた炎上の検出と分析」、高橋直樹、檜垣泰彦、一般社団法人電子情報通信学会、電子情報通信学会技術研究報告、2017年3月
【発明の概要】
【発明が解決しようとする課題】
【0004】
話題になっているSNS情報を見つけるために、「リツイート」、「リプライ」、「いいね」などの反響の件数を参考にする場合がある。しかし、実際に反響件数の多いSNS情報を確認してみると、企業の商品やサービスなどの広告に関する投稿が多い。
図9の例では、ある日に投稿されたツイート(登録商標)に多く含まれる単語(キーワード)を出現回数順に示している。
図9に示すように、「クーポンコード」、「誕生日」、「参加者募集」などの単語がSNS情報に多く含まれており、これらのSNS情報を直接番組制作に生かすことは難しい。そこで、反響件数や単語の出現回数だけでなく、話題性が高いSNS情報を正確に判定することが求められている。
【0005】
本発明は、話題性が高いテキスト情報を正確に判定できるテキスト情報判定装置及びそのプログラムを提供することを課題とする。
【課題を解決するための手段】
【0006】
前記した課題に鑑みて、本発明に係るテキスト情報判定装置は、感情極性の変化により、話題性が高いテキスト情報を判定するテキスト情報判定装置であって、テキスト情報入力手段と、感情極性ラベル付加手段と、感情極性割合算出手段と、バースト判定手段と、逆転判定手段と、テキスト情報判定手段と、を備える構成とした。
【0007】
かかるテキスト情報判定装置によれば、テキスト情報入力手段は、予め設定されたキーワードを含み、かつ、時刻情報が付加されたテキスト情報が複数入力される。
感情極性ラベル付加手段は、入力された各テキスト情報の感情極性スコアを算出し、算出した感情極性スコアに対応する感情極性ラベルを各テキスト情報に付加する。
感情極性割合算出手段は、予め設定された集計期間において、テキスト情報の件数を感情極性ラベル毎に集計し、テキスト情報の合計件数と感情極性ラベル毎の件数との割合を感情極性の割合として算出する。
【0008】
バースト判定手段は、感情極性の割合の上昇により、感情極性のバーストが発生したか否かを判定する。
逆転判定手段は、感情極性の割合の比較により、感情極性の逆転が発生したか否かを判定する。
そして、テキスト情報判定手段は、バースト及び/又は逆転が発生したときの感情極性ラベルとキーワードと集計期間とに該当するテキスト情報を、話題性が高いテキスト情報として判定する。
このように、テキスト情報判定装置は、テキスト情報におけるバーストや感情極性の逆転の発生を感情極性の変化として捉え、話題性が高いテキスト情報を判定する。
【0009】
なお、本発明は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を、前記したテキスト情報判定装置として協調動作させるプログラムで実現することもできる。
【発明の効果】
【0010】
本発明によれば、テキスト情報におけるバーストや感情極性の逆転の発生を感情極性の変化として捉えるので、話題性が高いテキスト情報を正確に判定できる。
【図面の簡単な説明】
【0011】
【
図1】実施形態に係るSNS投稿文抽出装置の構成を示すブロック図である。
【
図2】実施形態において、SNS投稿文に付加した感情極性ラベルの一例を説明する説明図である。
【
図3】実施形態において、感情極性の割合の一例を表すテーブルである。
【
図4】実施形態において、感情極性のバーストの一例を表すグラフである。
【
図5】実施形態において、感情極性の逆転の一例を表すグラフである。
【
図6】実施形態に係るSNS投稿文抽出装置の動作を示すフローチャートである。
【
図7】実施例において、感情極性の割合の変化の一例を表すグラフである。
【
図8】実施例において、感情極性の割合の一例を表すテーブルである。
【
図9】SNS投稿文で出現回数が多い単語を表すリストである。
【発明を実施するための形態】
【0012】
(実施形態)
[SNS投稿文抽出装置の概要]
以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
図1を参照し、実施形態に係るSNS投稿文抽出装置(テキスト情報判定手段)1の概要を説明する。
【0013】
SNS投稿文抽出装置1は、感情極性の変化により、話題性が高いSNS投稿文(テキスト情報)を抽出するものである。
図1に示すように、SNS投稿文抽出装置1は、記憶手段10と、キーワード設定手段20と、SNS投稿文収集手段(テキスト情報入力手段)30と、感情分類手段40と、定常値判定手段50と、SNS投稿文抽出手段(テキスト情報判定手段)60とを備える。
【0014】
このSNS投稿文抽出装置1は、SNS投稿文が示す感情極性に着目することで、話題性が高いSNS投稿文を効率的、かつ、正確に抽出する。すなわち、SNS投稿文抽出装置1は、SNS利用者の感情を大きく動かすきっかけとなったSNS投稿文や、世論の変化を生じさせるきっかけとなったSNS投稿文を抽出する。
【0015】
まず、SNS投稿文抽出装置1は、感情分類手段40によって、SNSに投稿されたSNS投稿文の感情極性を判定する。次に、SNS投稿文抽出装置1は、定常値判定手段50によって、それぞれの感情極性の定常的な割合を算出し、感情極性のバーストや感情極性の逆転など、感情極性の変化があるか否かを判定する。感情極性の変化がある場合、SNS投稿文抽出装置1は、SNS投稿文抽出手段60によって、そのSNS投稿文を、世の中で話題になっているSNS投稿文とみなして抽出する
【0016】
なお、感情極性とは、例えば、「○○ランド楽しかったー!!!」のように、サービス、商品又はイベントなどの様々な対象物に対するSNS利用者の感情表現である。例えば、「楽しい」という単語は、SNS投稿文の感情極性を判定する上で重要な語彙となっている。
本実施形態では、ポジティブ、ニュートラル及びネガティブからなる3軸の感情極性が予め設定されている。ポジティブが肯定的な感情極性を表し、ニュートラルが中立的な感情極性を表し、ネガティブが否定的な感情極性を表す。
また、各感情極性には、その感情極性を一意に識別可能な感情極性ラベルが対応する。
【0017】
なお、SNS投稿文(ソーシャルメディア情報)とは、SNSに投稿された投稿単位のテキスト情報である。例えば、SNS投稿文としては、ツイート(登録商標)があげられる。このSNS投稿文には、時刻情報として、SNSに投稿された時刻を表す投稿時刻が付加されている。
【0018】
本実施形態では、感情分類手段40が、2つの動作モードで動作する。動作モードの1つめは、後記する感情分類器(感情分類モデル)を学習する学習モードである。動作モードの2つめは、学習した感情分類器を用いて、話題性が高いSNS投稿文を判定して抽出する抽出モードである。なお、本実施形態では、SNS投稿文抽出装置1のユーザが、2つの動作モードを手動で切り替えることとする。
【0019】
[SNS投稿文抽出装置の構成]
以下、SNS投稿文抽出装置1の構成について、詳細に説明する。
記憶手段10は、感情分類器を記憶するメモリ、ハードディスクなどの記憶装置である。この感情分類器は、学習モードにおいて、後記する感情分類手段40(感情極性ラベル付加手段41)から書き込まれ、抽出モードにおいて、感情分類手段40によって参照される。
【0020】
キーワード設定手段20は、SNS投稿文を収集するためのキーワードを予め設定するものである。本実施形態では、キーワード設定手段20は、1語以上のキーワードを設定することとする。
例えば、キーワード設定手段20は、予め取得した多数のSNS投稿文を形態素解析し、各単語の出現回数をカウントし、出現回数が多い単語をキーワードとして自動的に設定する(
図9参照)。このとき、SNS投稿文抽出装置1のユーザが、図示を省略したキーボード、マウスなどの操作手段を用いて、名詞、動詞、複合語などのキーワードの品詞を任意に指定できる。
また、SNS投稿文抽出装置1のユーザが、操作手段を用いて、任意のキーワードを手動で設定してもよい。
キーワード設定手段20は、設定されたキーワードをSNS投稿文収集手段30に出力する。
【0021】
SNS投稿文収集手段30は、キーワード設定手段20から入力されたキーワードが含まれるSNS投稿文を、所定の収集期間だけ収集するものである。本実施形態では、SNS投稿文収集手段30は、キーワード設定手段20に設定されたキーワードのうち、1語以上が含まれているSNS投稿文を抽出する。ここで、SNS投稿文抽出装置1のユーザが、操作手段を用いて、任意の収集期間を手動で設定する。なお、SNS投稿文抽出装置1のユーザが収集期間を設定しなかった場合、所定の初期値(例えば、10時間)を収集期間としてもよい。
SNS投稿文収集手段30は、収集したSNS投稿文を感情分類手段40に出力する。
【0022】
感情分類手段40は、SNS投稿文収集手段30から入力されたSNS投稿文の感情極性を分類するものであり、感情極性ラベル付加手段41を備える。
【0023】
感情極性ラベル付加手段41は、各SNS投稿文の感情極性スコアを算出し、算出した感情極性スコアに対応する感情極性ラベルを各SNS投稿文に付加するものである。本実施形態では、感情極性ラベル付加手段41は、学習モード及び抽出モードで動作が異なるため、順に説明する。
【0024】
学習モードにおいて、感情極性ラベル付加手段41は、SNS投稿文に予め感情極性ラベルが付加された学習データを用いて、感情分類器を学習する。例えば、感情分類器は、再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)などのニューラルネットワーク、サポートベクターマシン(SVM:Support Vector Machine)、又は、CRF(Conditional Random Fields)などの機械学習モデルで構成する。このとき、感情分類器は、文字単位、形態素単位、又は、単語単位で学習すればよい。この感情分類器を用いれば、感情極性毎に、その感情極性に該当する可能性を表す感情極性スコアを算出できる。
【0025】
抽出モードにおいて、感情極性ラベル付加手段41は、感情分類器により各SNS投稿文の感情極性スコアを算出し、感情極性スコアが最も高い感情極性ラベルを各SNS投稿文に付加する。
【0026】
例えば、感情極性ラベル付加手段41は、SNS投稿文収集手段30から入力された各SNS投稿文を、感情分類器に対応させて、文字単位、形態素単位、又は、単語単位に分割する。次に、感情極性ラベル付加手段41は、分割した各SNS投稿文を感情分類器に入力し、感情極性毎に感情極性スコアを算出する。すなわち、感情極性ラベル付加手段41は、各SNS投稿文について、ポジティブ、ニュートラル及びネガティブの感情極性スコアをそれぞれ算出する。そして、感情極性ラベル付加手段41は、各SNS投稿文について、感情極性スコアが最も高くなる感情極性を求め、その感情極性を示す感情極性ラベルを各SNS投稿文に付加する。
感情極性ラベル付加手段41は、感情極性ラベル及び投稿時刻が付加されているSNS投稿文を定常値判定手段50に出力する。
【0027】
図2には、キーワード「○○ランド」で収集したSNS投稿文の一例を図示した。
図2に示すように、1行目の「○○ランド楽しかった!!!」というSNS投稿文では、ポジティブとニュートラルとネガティブとの3軸の感情極性スコアのうち、ポジティブの感情極性スコア「0.626」が最高スコアであったこととする。この場合、1行目のSNS投稿文は、感情極性ラベルがポジティブになる。
また、2行目の「○○ランド、今日も通常開園」というSNS投稿文では、3軸の感情極性スコアのうち、ニュートラルの感情極性スコア「0.731」が最高スコアであったこととする。この場合、2行目のSNS投稿文は、感情極性ラベルがニュートラルになる。
また、3行目の「○○ランドの食事、すごくまずかった」というSNS投稿文では、3軸の感情極性スコアのうち、ネガティブの感情極性スコア「0.526」が最高スコアであったこととする。この場合、3行目のSNS投稿文は、感情極性ラベルがネガティブになる。
【0028】
図1に戻り、SNS投稿文抽出装置1の構成について、説明を続ける。
定常値判定手段50は、感情極性の割合を定常値として扱って、感情極性の変化を判定するものであり、感情極性割合算出手段51と、バースト判定手段52と、逆転判定手段53とを備える。
【0029】
感情極性割合算出手段51は、予め設定された集計期間において、感情極性ラベル付加手段41から入力されたSNS投稿文の件数を感情極性ラベル毎に集計し、SNS投稿文の合計件数と感情極性ラベル毎の件数との割合を感情極性の割合として算出するものである。すなわち、感情極性割合算出手段51は、感情極性ラベル付加手段41が付加した感情極性ラベル及びSNS投稿文の投稿時刻を元に、所定の集計期間(集計間隔)毎に感情極性の割合を算出する。
感情極性割合算出手段51は、算出した感情極性の割合をバースト判定手段52に出力する。
【0030】
<感情極性の割合>
図3を参照し、感情極性の割合の算出方法について、具体的に説明する。
図3には、感情極性割合算出手段51が算出した感情極性の割合の一例をテーブルとして図示した。ここでは、キーワードが「○○ランド」、収集時間が10時間、集計期間が1時間を一例として説明する。
【0031】
まず、各集計期間でSNS投稿文の件数が異なるため、感情極性割合算出手段51は、集計期間毎にSNS投稿文の合計件数を算出する。前記したように、キーワード「○○ランド」を含む各SNS投稿文には、ポジティブ、ニュートラル又はネガティブの何れかの感情極性ラベルが付加されている。従って、感情極性割合算出手段51は、集計期間毎に各感情極性ラベルが付加されたSNS投稿の件数を集計し、感情極性ラベル毎の件数を求める。さらに、感情極性割合算出手段51は、集計期間毎に、SNS投稿文の合計件数と感情極性ラベル毎に集計したSNS投稿文の件数との割合を算出する。
【0032】
図3において、集計期間が1時間目の場合、SNS投稿文の合計件数が1580件であり、ポジティブのSNS投稿文の件数が452件であり、ネガティブのSNS投稿文の件数が351件であり、ニュートラルのSNS投稿文の件数が777件であることとする。この場合、SNS投稿文の合計件数に対し、ポジティブの感情極性の割合が452/1580≒0.286となり、ネガティブの感情極性の割合が351/1580≒0.222となり、ニュートラルの感情極性の割合が777/1580≒0.492となる。
なお、詳細な説明は省略するが、2時間目以降の集計期間についても同様に感情極性の割合を算出する。
【0033】
バースト判定手段52は、感情極性割合算出手段51が算出した感情極性の割合の上昇により、感情極性のバーストが発生したか否かを判定するものである。なお、バーストとは、ある感情極性の割合が一定時間で急激に増加する現象のことである。
【0034】
本実施形態では、バースト判定手段52は、ニュートラル以外の感情極性、つまり、ポジティブ及びネガティブの感情極性でバーストが発生したか否かを判定する。例えば、バースト判定手段52は、Kleinbergのバースト検知手法を用いて、バーストの発生を判定できる(参考文献1)。
参考文献1:Bursty and Hierarchical Structure in Streams, Kleinberg, J., 2003.
【0035】
<バーストの判定>
図4を参照し、バーストの判定方法を具体的に説明する。
図4には、感情極性のバーストが発生したときのグラフを図示した。ここでは、キーワードが「○○ランド」、収集時間が10時間、集計期間が1時間を一例として説明する。
図4のグラフでは、実線がポジティブの感情極性の割合を表し、破線がネガティブの感情極性の割合を表す。また、
図4では、縦軸が感情極性の割合を表し、横軸が時間(集計期間)を表す。
【0036】
図4に示すように、ポジティブの感情極性の割合が7-8時間目で急激に上昇しており、ポジティブの感情極性でバーストが発生したと考えられる。この場合、バースト判定手段52は、感情極性ラベル「ポジティブ」、キーワード「○○ランド」、及び、集計期間「7-8時間目」でバーストが発生したと判定し、その判定結果をSNS投稿文抽出手段60に出力する。
【0037】
逆転判定手段53は、感情極性割合算出手段51が算出した感情極性の割合の比較により、感情極性の逆転が発生したか否かを判定するものである。本実施形態では、逆転判定手段53は、ニュートラル以外の感情極性、つまり、ポジティブ及びネガティブの感情極性が逆転したか否かを判定する。
【0038】
<感情極性の逆転の判定>
以下、感情極性の逆転の判定方法について、3つの具体例を説明する。
第1の判定方法では、集計期間順にポジティブ及びネガティブの感情極性の割合を比較し、両感情極性の割合が等しくなった場合、その集計期間で感情極性が逆転したと判定する。つまり、第1の判定方法では、以下の式(1)に示すように、ポジティブの感情極性の割合posとネガティブの感情極性の割合negとの差分が0になった集計期間において、感情極性が逆転したと判定する。
pos-neg=0 …式(1)
【0039】
第2の判定方法では、集計期間順にポジティブ及びネガティブの感情極性の割合を比較し、両感情極性の割合の大小が入れ替わった場合、その集計期間で感情極性が逆転したと判定する。このとき、割合が小さい方の感情極性の割合を基準として、割合が大きい方の感情極性の割合との大小を比較する。
【0040】
ある集計期間において、ネガティブの感情極性の割合がポジティブの感情極性の割合より小さい場合を考える。この場合、次の集計期間において、以下の式(2-1)に示すように、ネガティブの感情極性の割合negがポジティブの感情極性の割合posより大きくなった場合、感情極性が逆転したと判定する。
neg>pos …式(2-1)
【0041】
また、ある集計期間において、ポジティブの感情極性の割合がネガティブの感情極性の割合より小さい場合を考える。この場合、次の集計期間において、以下の式(2-2)に示すように、ポジティブの感情極性の割合posがネガティブの感情極性の割合negより大きくなった場合、感情極性が逆転したと判定する。
pos>neg …式(2-2)
【0042】
第3の判定方法では、集計期間順にポジティブ及びネガティブの感情極性の割合を比較し、両感情極性の割合の大小が入れ替わった後、両感情極性の割合の差分が所定の閾値以上となった場合、その集計期間で感情極性が逆転したと判定する。つまり、第3の判定方法では、以下の式(3)に示すように、ポジティブの感情極性の割合posとネガティブの感情極性の割合negとの差分が閾値thを超える集計期間において、感情極性が逆転したと判定する(但し、0<th<1)。
|pos-neg|>th …式(3)
【0043】
この第3の判定方法では、閾値thは、SNS投稿文抽出装置1のユーザが、操作手段を用いて、手動で設定してもよい。
さらに、閾値thは、割合が小さい方の感情極性の割合を基準に自動的に設定してもよい。例えば、ある集計期間において、ポジティブの感情極性の割合posがネガティブの感情極性の割合negより小さい場合を考える。この場合、次の集計期間では、ポジティブの感情極性の割合posに所定の係数xを乗じた値を閾値thとする(但し、0<x<1)。
なお、前記した第1の判定方法~第3の判定方法の何れを用いるかは、SNS投稿文抽出装置1のユーザが任意に設定できる。
【0044】
図5には、感情極性の逆転が発生したときのグラフを図示した。
図5に示すように、7時間目以前では、ポジティブの感情極性の割合が、ネガティブの感情極性の割合よりも大きい状態が続いている。そして、7-8時間目において、ネガティブの感情極性の割合がポジティブの感情極性の割合より大きくなるので、ネガティブの感情極性がポジティブの感情極性を逆転したと考えられる。この場合、逆転判定手段53は、感情極性ラベル「ネガティブ」、キーワード「○○ランド」、及び、集計期間「7-8時間目」で感情極性の逆転が発生したと判定し、その判定結果をSNS投稿文抽出手段60に出力する。
【0045】
図1に戻り、SNS投稿文抽出装置1の構成について、説明を続ける。
SNS投稿文抽出手段60は、バースト及び/又は逆転が発生したときの感情極性ラベルとキーワードと集計期間とに該当するSNS投稿文を、話題性が高いSNS投稿文として判定及び抽出するものである。
【0046】
本実施形態では、SNS投稿文抽出手段60は、バースト判定手段52又は逆転判定手段53の判定結果に該当するSNS投稿を、話題性が高いSNS投稿文として抽出する。具体的には、SNS投稿文抽出手段60は、感情極性ラベル付加手段41が出力した各SNS投稿文のうち、SNS投稿文の投稿時刻が判定結果の集計期間に含まれ、SNS投稿文と判定結果との感情極性ラベルが一致し、判定結果のキーワードが含まれているSNS投稿文を抽出する。すなわち、話題性が高いSNS投稿文とは、感情極性のバースト又は逆転の少なくとも一方が発生したSNS投稿文のことである。当然、話題性が高いSNS投稿文には、バースト及び感情極性の逆転の両方が発生したSNS投稿文が含まれる。
【0047】
ここで、SNS投稿文抽出手段60は、抽出したSNS投稿文を任意の方法で出力できる。例えば、SNS投稿文抽出手段60は、抽出したSNS投稿文をデータファイル又は電子メールで送信できる。この他、SNS投稿文抽出手段60は、抽出したSNS投稿文をディスプレイ装置(不図示)に表示してもよい。
【0048】
また、SNS投稿文抽出手段60は、抽出したSNS投稿文自体、又は、抽出したSNS投稿文の要約を出力してもよい。
抽出したSNS投稿文が大量な場合、抽出した全てのSNS投稿文をSNS投稿文抽出装置1のユーザが確認することが困難である。この場合、SNS投稿文抽出手段60は、話題性が高いSNS投稿文を抽出したときの判定結果(感情極性ラベル、キーワード及び集計期間)を出力してもよい。また、SNS投稿文抽出手段60は、抽出したSNS投稿文のうち、反響数が多いものを出力してもよい。さらに、SNS投稿文抽出手段60は、抽出したSNS投稿文に含まれる各単語をワードクラウド形式で表示してもよい。なお、ワードクラウドとは、出現回数に応じた大きさで単語を表示する手法である。
【0049】
[SNS投稿文抽出装置の動作]
図6を参照し、SNS投稿文抽出装置1の動作(抽出モード)を説明する。
なお、
図6では、学習モードにより感情分類器が予め学習済みであることとして説明する。
【0050】
ステップS1において、キーワード設定手段20は、SNS投稿文を収集するためのキーワードを設定する。例えば、キーワード設定手段20は、SNS投稿文で出現回数が多い単語をキーワードとして自動的に設定する。
ステップS2において、SNS投稿文収集手段30は、ステップS1で設定したキーワードが含まれるSNS投稿文を、所定の収集期間だけ収集する。
【0051】
ステップS3において、感情極性ラベル付加手段41は、各SNS投稿文の感情極性スコアを算出し、算出した感情極性スコアに対応する感情極性ラベルを各SNS投稿文に付加する。すなわち、感情極性ラベル付加手段41は、学習モードで学習済みの感情分類器により各SNS投稿文の感情極性スコアを算出し、感情極性スコアが最も高い感情極性ラベルを各SNS投稿文に付加する。
【0052】
ステップS4において、感情極性割合算出手段51は、集計期間及び感情極性ラベル毎にSNS投稿文の件数を集計し、集計した件数の割合を感情極性の割合として算出する。すなわち、感情極性割合算出手段51は、ステップS3で付加した感情極性ラベル及びSNS投稿文の投稿時刻を元に、感情極性の割合を算出する。
【0053】
ステップS5において、バースト判定手段52は、ステップS4で算出した感情極性の割合の上昇により、感情極性のバーストが発生したか否かを判定する。例えば、バースト判定手段52は、前記したKleinbergのバースト検知手法を用いて、バーストの発生を判定する。
【0054】
ステップS6において、逆転判定手段53は、ステップS4で算出した感情極性の割合の比較により、感情極性の逆転が発生したか否かを判定する。例えば、逆転判定手段53は、前記した第1例~第3例の判定方法により、ポジティブ及びネガティブの感情極性の逆転が発生したか否かを判定する。
【0055】
ステップS7において、SNS投稿文抽出手段60は、感情極性のバースト又は逆転が発生したか否かを判定する。
ここで、感情極性のバースト又は逆転が発生した場合(ステップS7でYes)、SNS投稿文抽出装置1は、ステップS8の処理に進む。
一方、バースト及び感情極性の逆転が発生しない場合(ステップS7でNo)、SNS投稿文抽出装置1は、ステップS9の処理に進む。
【0056】
ステップS8において、SNS投稿文抽出手段60は、感情極性のバースト又は逆転が発生したときの感情極性ラベルとキーワードと集計期間とに該当するSNS投稿文を、話題性が高いSNS投稿文として抽出する。
【0057】
ステップS9において、SNS投稿文抽出手段60は、SNS投稿文の抽出を終了するか否かを判定する。
ここで、SNS投稿文抽出手段60は、全ての集計期間で感情極性のバースト又は逆転の判定を行った場合(ステップS9でYes)、SNS投稿文の抽出を終了すると判定し、ステップS10の処理に進む。
一方、SNS投稿文抽出手段60は、全ての集計期間で感情極性のバースト又は逆転の判定を終えていない場合(ステップS9でNo)、SNS投稿文の抽出を終了しないと判定し、ステップS1の処理に戻る。
【0058】
ステップS10において、SNS投稿文抽出手段60は、ステップS8で抽出したSNS投稿文を出力する。
【0059】
[作用・効果]
以上のように、SNS投稿文抽出装置1は、SNS投稿文におけるバーストや感情極性の逆転の発生を感情極性の変化として捉えるので、話題性が高いSNS投稿文を正確に抽出できる。すなわち、SNS投稿文抽出装置1は、SNS投稿文に対する反響件数だけでなく、SNS投稿文に含まれる感情を考慮することで、SNS閲覧者の感情を動かした情報(話題性が高いSNS投稿文)を抽出できる。さらに、SNS投稿文抽出装置1は、ユーザが任意のキーワードを設定できるので、ユーザのニーズに特化した情報を提出できる。
【0060】
以上、本発明の実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更なども含まれる。
【0061】
(変形例1:感情極性辞書)
前記した実施形態では、感情分類器を学習することとして説明したが、本発明は、これに限定されない。予め学習データを用意することが難しい場合、既知の感情極性辞書(感情極性スコア情報)を利用できる(参考文献2,3)。この感情極性辞書は、単語毎の感情極性ラベル及び感情極性スコアが格納されたものである。
【0062】
この場合、記憶手段には、感情極性辞書を予め記憶させておく。また、感情極性ラベル付加手段は、感情極性辞書に含まれる全単語の感情極性スコアの平均値(感情極性スコア平均値)を算出する。そして、感情極性ラベル付加手段は、感情極性辞書を参照し、SNS投稿文に含まれる各単語の感情極性スコアを算出し、SNS投稿文毎に感情極性スコアを合計する。さらに、感情極性ラベル付加手段は、合計した感情極性スコアをSNS投稿文に含まれる単語数で除算することで、SNS投稿文の感情極性スコアを算出する。さらに、感情極性ラベル付加手段は、感情極性スコア平均値を基準(境界)として、SNS投稿文の感情極性スコアを、ポジティブ又はネガティブを表す2値に分類する。さらに、感情極性ラベル付加手段は、分類した2値に対応する感情極性ラベルを各SNS投稿文に付加する。
【0063】
参考文献2:日本語評価極性辞書、東北大学 乾・岡崎研究室、[online]、[平成30年11月21日検索]、インターネット〈URL:http://www.cl.ecei.tohoku.ac.jp/index.php?Open%20Resources%2FJapanese%20Sentiment%20Polarity%20Dictionary〉
参考文献3:感情極性対応表、高村大他、[online]、[平成30年11月21日検索]、インターネット〈URL:http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html〉
【0064】
なお、参考文献2の感情極性辞書には感情極性スコアが付加されていないので、感情極性に応じた感情極性スコアを手動で設定すればよい。例えば、感情極性がポジティブの場合に感情極性スコアを1とし、感情極性がネガティブの場合に感情極性スコアを-1とする。
【0065】
(変形例2:10軸の感情極性)
前記した実施形態では、感情極性がポジティブ、ニュートラル及びネガティブの3軸であることとして説明したが、本発明は、これに限定されない。例えば、SNS投稿文抽出装置は、10軸の感情極性(喜、怒、哀、怖、恥、好、厭、昂、安、驚)を用いることができる(参考文献4)。この場合、逆転判定手段は、10軸の感情極性のうち、任意の2軸以上の組み合わせで感情極性の逆転を判定すればよい。
参考文献4:感情表現辞典、中村明、株式会社東京堂出版、1993年5月
【0066】
(変形例3:出現回数によるキーワードのランク付け)
本発明では、キーワードを設定する際、キーワードのランク付けを行ってもよい。例えば、キーワード設定手段は、出現回数が多い順にSNS投稿文に含まれる単語をキーワードとしてランク付けを行う。そして、SNS投稿文抽出手段は、バースト及び感情極性の逆転の両方が発生しない場合、低ランクのキーワードに切り替えて、感情極性の割合を再計算し、話題性が高いSNS投稿文を再判定する。これにより、SNS投稿文抽出装置は、話題性が高いSNS投稿文をより正確に抽出できる。
【0067】
(変形例4:感情極性の割合の比の最大値に応じてキーワードのランク付け)
図7に示すように、あるキーワードにおいて、感情極性の逆転が複数回発生することがある。このとき、感情極性の逆転が発生する都度SNS投稿文を抽出すると、抽出するSNS投稿文の数が多くなり過ぎて、SNS投稿文抽出装置のユーザにとって煩雑である。そこで、キーワード設定手段は、感情極性の逆転が発生したあとの感情極性の割合の比の最大値により、キーワードのランク付けを行ってもよい。
【0068】
図8には、あるキーワードを設定した場合における、感情極性の割合の一例をテーブルとして図示した。
図8のステータスは、感情極性の逆転の状態を示している。具体的には、ステータスが「0」の場合、その集計期間で感情極性の逆転が発生していないことを示す。また、ステータスが「1」の場合、ポジティブの感情極性の割合がネガティブの感情極性の割合より上位となる逆転が発生したことを示す。このとき、
図8の比は、逆転したポジティブの感情極性の割合posを逆転されたネガティブの感情極性の割合negで除算した値pos/negとなる。また、ステータスが「2」の場合、ネガティブの感情極性の割合がポジティブの感情極性の割合より上位となる逆転が発生したことを示す。このとき、比は、逆転したネガティブの感情極性の割合negを逆転されたポジティブの感情極性の割合posで除算した値neg/posとなる。
図8のランクは、比の値を1番目から5番目までランク付けした結果である。
図8では、集計期間が14時間目において、あるキーワードにおける比の最大値が2.778となることを示す。
【0069】
キーワード設定手段は、設定した各キーワードについて、前記した手順で感情極性の割合の比の最大値を算出する。そして、キーワード設定手段は、算出した感情極性の割合の比の最大値に応じて、キーワードのランク付けを行えばよい。
【0070】
(変形例5:キーワードの削除)
本発明では、感情極性の変化に寄与しないキーワードを削除してもよい。すなわち、ニュートラルの感情極性の割合が大きくなり、その割合がフラットになる単語を削除する。具体的には、キーワード設定手段は、ニュートラルの感情極性の割合が予め設定した閾値(例えば、90%)以上となる単語をキーワードから削除する。また、キーワード設定手段は、ポジティブ及びネガティブの感情極性の割合が所定の範囲内から変動しない場合、それに該当する単語をキーワードから削除してもよい。これにより、SNS投稿文抽出装置は、そのユーザのニーズが反映された有意義なキーワードを設定し、話題性が高いSNS投稿文をより正確に抽出できる。
【0071】
(その他変形例)
前記した実施形態では、テキスト情報が、SNS投稿文などのソーシャルメディア情報であることとして説明したが、本発明は、これに限定されない。
前記した実施形態では、SNS投稿文抽出装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるCPU、メモリ、ハードディスクなどのハードウェア資源を、前記したSNS投稿文抽出装置として協調動作させるプログラムで実現することもできる。これらのプログラムは、通信回線を介して配布してもよく、CD-ROMやフラッシュメモリなどの記録媒体に書き込んで配布してもよい。
【符号の説明】
【0072】
1 SNS投稿文抽出装置(テキスト情報判定手段)
10 記憶手段
20 キーワード設定手段
30 SNS投稿文収集手段(テキスト情報入力手段)
40 感情分類手段
41 感情極性ラベル付加手段
50 定常値判定手段
51 感情極性割合算出手段
52 バースト判定手段
53 逆転判定手段
60 SNS投稿文抽出手段(テキスト情報判定手段)