(58)【調査した分野】(Int.Cl.,DB名)
前記出力手段は、前記評価表現と前記評価対象とを用いて解析された前記解析対象の文書における評価対象に対する評価を出力することを特徴とする請求項1に記載の情報処理装置。
前記出力手段は、前記評価元文書評価対象抽出手段によって抽出した単語が指示代名詞である場合、前記評価対象抽出手段によって抽出した評価対象を用いて出力を行うことを特徴とする請求項4に記載の情報処理装置。
前記出力手段は、前記評価対象抽出手段によって抽出した評価対象に該当する、前記評価元文書評価対象抽出手段によって抽出した単語がなく、前記評価元文書評価対象抽出手段によって抽出した単語が指示代名詞である場合、前記評価対象抽出手段によって抽出した評価対象を用いて、前記解析対象の文書における評価対象に対する評価を出力することを特徴とする請求項4または5に記載の情報処理装置。
【発明を実施するための形態】
【0014】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の情報処理装置の構成の一例を示す図である。
【0015】
情報処理装置100、および1又は複数の分析者端末110は、ローカルエリアネットワークを介して接続される構成となっている。また、情報処理装置100は、外部ネットワークと接続されており、SNSのサービスを提供するSNSサイト120やその他の外部サイト130に接続可能な構成となっている。
【0016】
情報処理装置100は、分析者端末110から入力された情報に基づき、設定部101において、SNSサイト120から投稿文書等を収集するための収集条件等の設定を行う。
【0017】
設定保存領域102は、SNSサイト120から投稿文書等を収集するための収集条件を保存し、SNS投稿収集部103は、当該収集条件に基づいて、SNSサイト120から投稿文書等を収集し、SNSデータ保存領域104は、投稿文書等を保存する。
【0018】
評価解析部105は、収集した投稿文書等に含まれるリンク(ネットワーク上のリソースを特定するための情報等。例えば、URL。)先のWebページに表示された文書を含めた投稿文書の解析を行い、その解析結果を評価情報保存領域106へ保存する。
【0019】
分析部107は、分析者端末110から入力された情報に基づき、投稿文書等に対する分析方法についての設定を行う。また、情報処理装置100から得られた分析結果を分析者端末110へ表示する。
尚、各機能の詳細については、以後、適宜、説明を行う。
【0020】
以下、
図2を用いて、
図1に示した情報処理装置100,分析者端末110に適用可能な情報処理装置のハードウェア構成について説明する。
【0021】
図2は、
図1に示した情報処理装置100,分析者端末110に適用可能な情報処理装置のハードウェア構成を示すブロック図である。
【0022】
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
【0023】
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
【0024】
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、ディスプレイ(CRT)210等の表示器への表示を制御する。なお、
図2では、CRT210と記載しているが、表示器はCRTだけでなく、液晶ディスプレイ等の他の表示器であってもよい。これらは必要に応じて管理者が使用するものである。
【0025】
207はメモリコントローラで、ブートプログラム,各種のアプリケーション、フォントデータ,ユーザファイル、編集ファイル、各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
【0026】
208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
【0027】
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、CRT210上での表示を可能としている。また、CPU201は、CRT210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0028】
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
【0029】
(第1の実施形態)
次に、
図3に示すフローチャートを参照して、本実施形態の情報処理装置100において定期的に実行される、SNSサイト120に投稿された文書等の収集および解析処理について説明する。
【0030】
ステップS301においてSNS投稿収集部103は、設定保存領域102に保存された収集条件に基づきSNSサイト120から投稿文書等を取得し、SNSデータ保存領域104に取得した投稿文書等を保存する。
【0031】
ステップS302において評価解析部105は、ステップS301で取得した投稿文書等に対し、ステップS304までの繰り返し処理を開始する。
【0032】
ステップS303において評価解析部105は、処理対象である投稿文書等に含まれるリンク(URL)を解析し、解析結果を評価情報保存領域106(
図10参照)に保存する。
【0033】
ステップS304において評価解析部105は、次の投稿がある場合、ステップS302からの処理を実施する。次の投稿がない場合、処理を終了する。
【0034】
本説明において、SNSサイト120の投稿文書等の取得と評価解析処理を同期的に実行するように記述しているが、非同期に実行するように構成しても構わない。
(SNS投稿文書等収集処理)
次に、
図4を用いてSNS投稿収集処理S301の詳細について説明する。
【0035】
図5には、設定保存領域102の構成が示されており、設定保存領域102には、検索条件テーブル501、評価表現テーブル502を備えているが、各テーブルの詳細については、後述する。
【0036】
図6には、SNSデータ保存領域104の構成が示されており、SNSデータ保存領域104には、投稿テーブル601を備えているが、此方のテーブルの詳細についても、後述する。
【0037】
ステップS401においてSNS投稿収集部103は、設定保存領域102における検索条件テーブル501から検索条件を取得する。
【0038】
ステップS402においてSNS投稿収集部103は、ステップS401で取得した検索条件に対し、ステップS405までの繰り返し処理を開始する。
【0039】
ステップS403においてSNS投稿収集部103は、SNSサイト120に対し、処理対象である検索条件を用いて問い合わせを行い、投稿文書等を取得する。
【0040】
ステップS404においてSNS投稿収集部103は、ステップS403で取得した投稿文書等をSNSデータ保存領域104における投稿テーブル601に保存する。
【0041】
ステップS405においてSNS投稿収集部103は、次の検索条件がある場合、ステップS402からの処理を実施する。次の検索条件がない場合、処理を終了する。
【0042】
(具体例)
図7に検索条件テーブル501の具体例を示す。また、
図8には投稿テーブル601の具体例を示す。
【0043】
ステップS401においてSNS投稿収集部103は、
図7に示す検索条件テーブル501から検索条件を取得する。
【0044】
検索条件テーブル501は、検索条件テーブル501に記憶したレコードを一意に識別するためのid、検索条件、及び前回、当該検索条件を用いて検索を行った時刻を登録するための最終取得時刻を含んで構成されている。本処理においても検索処理が済んだ際に、該当する検索条件に対応する最終取得時刻を更新する。
【0045】
ステップS402においてSNS投稿収集部103は、ステップS401で取得した検索条件の最初の検索条件701に対し、ステップS405までの繰り返し処理を開始する。
【0046】
ステップS403においてSNS投稿収集部103は、SNSサイト120に対し、検索条件701を用いて問い合わせを行い、最終取得時刻(2013-07-12 01:02:30)以降に投稿され「KANNON」「kannon」「カンノン」のいずれかの文字列を含む投稿文書等を取得する。
【0047】
ステップS404においてSNS投稿収集部103は、ステップS403で取得した投稿文書等801〜805を
図8に示す投稿テーブル601に保存する。
【0048】
投稿テーブル601は、投稿テーブル601に記憶したレコードを一意に識別するためのid、SNSサイト120から取得した投稿文書等、投稿テーブル601にレコードを記憶した時刻を示す保存時刻を含んで構成されている。
【0049】
ステップS405においてSNS投稿収集部103は、次の検索条件702があるので、ステップS402からの処理を実施する。
【0050】
ステップS402においてSNS投稿収集部103は、検索条件702に対し、ステップS405までの繰り返し処理を開始する。
【0051】
ステップS403においてSNS投稿収集部103は、SNSサイト120に対し、検索条件702を用いて問い合わせを行い、最終取得時刻(2013-07-12 01:05:43)以降に投稿され「NIKKOU」「nikkou」「ニッコウ」のいずれかの文字列を含む投稿文書等を取得する。
【0052】
ステップS404においてSNS投稿収集部103は、ステップS403で取得した投稿文書等806を
図8に示す投稿テーブル601に保存する。
【0053】
ステップS405においてSNS投稿収集部103は、次の検索条件がないので、処理を終了する。
(評価解析処理)
次に
図9を用いて評価解析処理(ステップS303)の詳細について説明する。
【0054】
ステップS901において評価解析部105は、処理対象の投稿文書等からリンク(URL)を取得する。
【0055】
投稿文書等からリンク(URL)を取得するには、正規表現等を用いてもよい。本実施の例では投稿文書等からリンク(URL)を取得しているが、SNSにおいて投稿された投稿文書等が構造化されており、別途リンク(URL)に関する情報が取得できる場合はそちらを用いてもよい。
【0056】
ステップS902において評価解析部105は、ステップS901で取得したリンク(URL)に対し、ステップS907までの繰り返し処理を開始する。
【0057】
ステップS903において評価解析部105は、リンク(URL)先のWebページに表示された文書を外部サイト130から取得する。
【0058】
ステップS904において評価解析部105は、ステップS903で取得した文書から評価対象となりうる文字列を抽出する。
【0059】
評価対象の抽出には正規表現等を用いてもよいし、形態素解析等を用いて単語の属性(例えば、品詞が固有名詞または未知語の場合等)から評価対象を特定してもよいし、予め定めた文字列を登録した辞書を用いることで特定してもよい。
【0060】
更には同一ドメインの文書集合における単語の出現頻度を用いてtf/idfなどの統計的な評価により特定してもよい。また、評価対象の抽出は文書全体を評価してもよいし、一部を評価してもよい。
【0061】
本実施例においては、説明を容易にするため、文書のタイトル(HTML文書のtitle要素)から正規表現などにより英数文字列を抽出することとする。
【0062】
ステップS905において評価解析部105は、ステップS904で取得した評価対象文字列を一時領域に保存する。
【0063】
ステップS906において評価解析部105は、評価表現抽出処理を実施する。詳細は後述する。
【0064】
ステップS907において評価解析部105は、次のリンク(URL)がある場合、ステップS902からの処理を実施する。次のリンク(URL)がない場合、処理を終了する。
(評価表現抽出処理)
次に
図13を用いて評価表現抽出処理S906の詳細について説明する。
【0065】
ステップS1301において評価解析部105は、投稿文書等に対して係り受け解析を行う。
【0066】
投稿文書等にリンク(URL)が複数含まれる場合は、投稿文書等におけるリンク(URL)以外の部分のうち、処理対象となるリンク(URL)の直前の部分のみを処理対象であるリンク(URL)に関連する投稿文書等と見做してもよい。
【0067】
係り受け解析は、一般的な技術であり、文章を単語単位に分解し、単語を文節単位にまとめ、文節どうしの係り受け関係を特定する。係り受け解析の結果の一例を
図12に示す。
図12においては、文章を構成する単語(
図12に示す表記)ごとにID(
図12に示すid)が付与されている。係り受けの関係は、文節が係る先の先頭の単語のID(
図12に示す係り先ID)を、文節の先頭となる単語に対し付与することで表現している。更に係り受け解析では単語の品詞を解析することも可能である。
【0068】
ステップS1302において評価解析部105は、ステップS1301で取得した係り受け解析の結果から評価表現を取得する。
【0069】
尚、評価表現は、設定保存領域102における評価表現テーブル502を用いて特定するが、評価表現テーブル502に単語の表記が登録されていれば、評価表現であると判定する。単語の表記は活用形を考慮して比較されるものとする。
【0070】
評価表現テーブルの一例を
図15に示す。評価表現テーブルには、評価に用いられている文節を示す評価表現、評価表現テーブルにおけるスコア欄は、評価表現の良し悪しを数値で表現したものであり、正の値が良い評価を示し、負の値が悪い評価を示すように適宜設定することが可能である。
【0071】
また、詳細は省略するが、評価表現に接続する助詞・助動詞により評価が反転する場合(「よくない」=「よい」+「ない(否定の助動詞)」)については、スコアの正負を反転されるなどの処理を実施する。
【0072】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現に対し、ステップS1312までの繰り返し処理を開始する。
【0073】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語をすべて取得する。係る単語が評価表現である場合、それ以上遠くにある係る単語は取得しない。
【0074】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語に対し、評価表現に近い位置にある単語から順に、ステップS1309までの繰り返し処理を開始する。
【0075】
ステップS1306において評価解析部105は、対象である係る単語がステップS905で一時領域に保存した評価対象に同一の単語があるか否かを判定し、同一の単語があると判定した場合、ステップS1311に処理を移し、同一の単語がないと判定した場合、ステップS1307に処理を移す。
【0076】
単語表記の近さ(編集距離)や別途用意した辞書などにより、略語や若干の表記の違いを吸収して同一であるか否かと判定するように構成してもよい。
【0077】
ステップS1307において評価解析部105は、対象である係る単語が指示代名詞(「これ」、「こいつ」など)であるか否かを判定し、指示代名詞であると判定した場合は、ステップS1310に処理を移し、指示代名詞でないと判定した場合は、ステップS1308に処理を移す。
【0078】
指示代名詞の判定には、係り受け解析結果の品詞を用いてもよいし、別途辞書などを用意してもよい。
【0079】
ステップS1308において評価解析部105は、対象である係る単語が名詞または名詞に準ずる品詞であるか否かを判定し、名詞または名詞に準ずる品詞であると判定した場合は、ステップS1312に処理を移し、名詞または名詞に準ずる品詞でないと判定した場合は、ステップS1309に処理を移す。
【0080】
全ての評価対象を特定せず分析を行いたい場合は、名詞または名詞に準ずる品詞である場合に処理をステップS1311に処理を移すように構成してもよい。
【0081】
ステップS1309において評価解析部105は、次の係る単語がある場合、ステップS1305からの処理を実施する。次の係る単語がない場合、ステップS1310に処理を移す。
【0082】
ステップS1310において評価解析部105は、ステップS905で一時領域に保存した全ての評価対象文字列を、対象となる評価表現に対する評価対象として取得する。
【0083】
ステップS1311において評価解析部105は、評価表現と評価対象文字列との組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0084】
ステップS1312において評価解析部105は、次の評価表現がある場合、ステップS1303からの処理を実施する。次の評価表現がない場合、処理を終了する。
【0085】
本実施の例においては説明を平易にするため省略したが、評価表現と係る単語の関係において、係る単語に接続する助詞などから格(主格や対象格など)を判定し、より詳細な係り受け関係を利用するように構成してもよい。
【0086】
(具体例)
次に、具体例として、
図8に示した投稿に対して、
図9および
図13を用いて、評価解析処理(ステップS303)および評価表現抽出処理(ステップS906)の処理を実施した場合について説明する。
【0087】
リンク(URL)先のWebページに表示された文書から取得できるタイトル(HTML文書のtitle要素)を
図11に示す。
【0088】
ステップS901において評価解析部105は、投稿文書等801における投稿文書等からリンク807「http://www.jnews.co.jp/2013-0711-kannon.html」を取得する。
【0089】
ステップS902において評価解析部105は、ステップS901で取得したリンク807「http://www.jnews.co.jp/2013-0711-kannon.html」に対し、ステップS907までの繰り返し処理を開始する。
【0090】
ステップS903において評価解析部105は、リンク(URL)先のWebページに表示された文書を「http://www.jnews.co.jp/2013-0711-kannon.html」を用いて外部サイト130から取得する。
【0091】
ステップS904において評価解析部105は、ステップS903で取得した文書のタイトル1101「JNews - カンノンから 32D mk IIを 24日より発売」から評価対象となりうる文字列として「JNews」および「32D mk II」を抽出する。
【0092】
ステップS905において評価解析部105は、ステップS904において抽出した評価対象文字列「JNews」および「32D mk II」を一時領域に保存する。
【0093】
ステップS906において、評価解析部105は、
図13に示す評価表現抽出処理に処理を移す。
【0094】
ステップS1301において評価解析部105は、投稿文書等801に対して係り受け解析を行い、
図12に示す係り受け解析の結果を得る。
【0095】
ステップS1302において評価解析部105は、ステップS1301で取得した係り受け解析の結果から設定保存領域102における評価表現テーブル502を用いて、評価表現「いい」を特定する。
【0096】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現「いい」に対し、ステップS1312までの繰り返し処理を開始する。
【0097】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語として「32D mkII」および「新しい」を取得する。
【0098】
「いい」(id=3)を係り先IDに持つ「32D mkII」(id=2)を係る単語として取得し、更に「32D mkII」を係り先IDに持つ「新しい」(id=1)を取得する。
【0099】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語で評価表現「いい」に近い「32D mkII」に対し、ステップS1309までの繰り返し処理を開始する。
【0100】
ステップS1306において評価解析部105は、係る単語「32D mkII」がステップS905で一時領域に保存した評価対象文字列と同一の単語があるのでステップS1311に処理を移す。
【0101】
ステップS1311において評価解析部105は、評価表現「いい」と評価対象文字列「32D mkII」の組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0102】
ステップS1312において評価解析部105は、次の評価表現がないので評価表現抽出処理を終了し、ステップS907に処理を戻す。
【0103】
ステップS907において評価解析部105は、次のリンク(URL)がないので処理を終了する。
【0104】
更に投稿文書等802について、評価解析処理S303および評価表現抽出処理S906の処理を実施した場合について説明する。
【0105】
ステップS901において評価解析部105は、投稿文書等802における投稿文書等からリンク808「http://www.kannon-shop.co.jp/kannon32dmk2.html」を取得する。
【0106】
ステップS902において評価解析部105は、ステップS901で取得したリンク808「http://www.kannon-shop.co.jp/kannon32dmk2.html」に対し、ステップS907までの繰り返し処理を開始する。
【0107】
ステップS903において評価解析部105は、リンク(URL)先のWebページに表示された文書を「http://www.kannon-shop.co.jp/kannon32dmk2.html」を用いて外部サイト130から取得する。
【0108】
ステップS904において評価解析部105は、ステップS903で取得した文書のタイトル1103「カンノンオンライン :32D mk II」から評価対象となりうる文字列として「32D mk II」を抽出する。
【0109】
ステップS905において評価解析部105は、ステップS904において抽出した評価対象「32D mk II」を一時領域に保存する。
【0110】
ステップS906において評価解析部105は、
図13に示す評価表現抽出処理に処理を移す。
【0111】
ステップS1301において評価解析部105は、投稿文書等802に対して係り受け解析を行い、
図14に示す係り受け解析の結果を得る。
【0112】
ステップS1302において評価解析部105は、ステップS1301で取得した係り受け解析の結果から設定保存領域102における評価表現テーブル502を用いて、評価表現「欲しい」を特定する。
【0113】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現「欲しい」に対し、ステップS1312までの繰り返し処理を開始する。
【0114】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語として「これ」を取得する。
【0115】
「欲しい」(id=2)を係り先IDに持つ「これ」(id=1)を係る単語として取得する。
【0116】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語で評価表現「欲しい」に近い「これ」に対し、ステップS1309までの繰り返し処理を開始する。
【0117】
ステップS1306において評価解析部105は、係る単語「これ」がステップS905で一時領域に保存した評価対象文字列と同一の単語はないので、ステップS1307に処理を移す。
【0118】
ステップS1307において評価解析部105は、係る単語「これ」が指示代名詞であるのでステップS1310に処理を移す。
【0119】
ステップS1310において評価解析部105は、ステップS905で一時領域に保存した評価対象文字列「32D mkII」を評価表現「欲しい」に対する評価対象文字列として取得する。
【0120】
ステップS1311において評価解析部105は、評価表現「欲しい」と評価対象文字列「32D mkII」との組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0121】
ステップS1312において評価解析部105は、次の評価表現がないので評価表現抽出処理を終了し、ステップS907に処理を戻す。
【0122】
ステップS907において評価解析部105は、次のリンク(URL)がないので処理を終了する。
【0123】
以下、投稿文書等803以降に対し同様の処理を行った結果、評価情報テーブル1001は
図16に示した状態を得る。
【0124】
評価情報テーブル1001は、評価情報テーブル1001に記憶したレコードを一意に識別するためのid、評価表現、評価表現にする評価対象文字列、投稿テーブル601のidを示す投稿ID、及び評価スコアを含んで構成されている。
【0125】
(分析部)
分析部107は、分析者端末110からの指示に応じて、評価情報保存領域106における評価情報テーブル1001に保存された情報に基づく分析を行い、分析結果を表示する。
【0126】
図17に、指定された評価対象の評判を分析するアプリケーションの一例を示す。例えば、
図16の結果から評価対象文字列「32D mkII」に関する項目を集計することで、
図17に示す画面を表示することが可能となり、評価対象がSNS上においてどのように評価されているかを容易に把握することが可能となる。
【0127】
本実施形態によれば、評価表現に対し、評価の対象が指示代名詞で表現されていたり、省略されていたりした場合でも、リンク先の情報を用いて特定することが可能となり、製品名など対象が直接表記されていない投稿も含めて分析することが可能となる。
【0128】
尚、第1の実施形態では、ステップS1304からステップS1309までの処理において、評価表現に対する係り受け解析を行い、その結果、得られた各単語について分析を行っているが、この処理を行わずに、ステップS1302において、評価表現を特定し、ステップS1310において、ステップS905で一時領域に保存した評価対象文字列を評価表現に対する評価対象文字列として取得する。
【0129】
そして、ステップS1311において評価解析部105は、評価表現と評価対象文字列との組を評価情報保存領域106における評価情報テーブル1001に保存するといった処理を行うことでも、本発明に係る課題を解決することも可能である。
【0130】
(第2の実施形態)
第1の実施形態とは、評価表現抽出処理(ステップS906)が異なる。次に
図18を用いて第2の実施形態における評価表現抽出処理(ステップS906)の詳細について説明する。
【0131】
設定保存領域102における評価表現テーブル502は「評価属性」に関する情報を持つ点が異なる。設定保存領域102における評価表現テーブル502を拡張した一例を
図19に示す。
ステップS1301〜S1306までの処理は第1の実施形態と同様である。
【0132】
ステップS1307において評価解析部105は、対象である係る単語が指示代名詞(「これ」、「こいつ」など)であるか否かを判定し、指示代名詞であると判定した場合は、ステップS1310に処理を移し、指示代名詞でないと判定した場合は、ステップS1801に処理を移す。
【0133】
ステップS1801において評価解析部105は、対象である係る単語が評価属性であるか否かを判定し、評価属性であると判定した場合は、ステップS1802に処理を移し、評価属性でないと判定した場合は、ステップS1308に処理を移す。
【0134】
評価属性の判定は、対象である評価表現と評価属性との組が、拡張した評価表現テーブル502にあるか否かにより判定する。
【0135】
ステップS1802において評価解析部105は、評価属性を評価表現と関連付ける。関連付けられた評価属性はステップS1311において、評価対象文字列と評価表現との組と一緒に保存される。ステップS1308〜S1312までの処理は第1の実施形態と同様である。
【0136】
(具体例)
次に、第2の実施形態の具体例として、
図8に示した投稿に対して、
図9および
図18を用いて、評価解析処理S303および評価表現抽出処理S906の処理を実施した場合について説明する。
図19に示した拡張した評価表現テーブル502を用いる。
【0137】
投稿文書等801および投稿文書等802に対しては、第1の実施形態と同様の結果となる。
【0138】
ここでは、投稿文書等803について、評価解析処理(ステップS303)および評価表現抽出処理(ステップS906)の処理を実施した場合について説明する。
【0139】
ステップS901において評価解析部105は、投稿文書等803における投稿文書等からリンク809「http://www.kannon.jp/news20130711.html」を取得する。
【0140】
ステップS902において評価解析部105は、ステップS901で取得したリンク809「http://www.kannon.jp/news20130711.html」に対し、ステップS907までの繰り返し処理を開始する。
【0141】
ステップS903において評価解析部105は、リンク(URL)先のWebページに表示された文書を「http://www.kannon.jp/news20130711.html」を用いて外部サイト130から取得する。
【0142】
ステップS904において評価解析部105は、ステップS903で取得した文書のタイトル1102「カンノン :32D mk II 発売のお知らせ」から評価対象となりうる文字列として「32D mk II」を抽出する。
【0143】
ステップS905において評価解析部105は、ステップS904において抽出した評価対象文字列「32D mk II」を一時領域に保存する。
【0144】
ステップS906において評価解析部105は、
図13に示す評価表現抽出処理に処理を移す。
【0145】
ステップS1301において評価解析部105は、投稿文書等803に対して係り受け解析を行い、
図20に示す係り受け解析の結果を得る。
【0146】
ステップS1302において評価解析部105は、ステップS1301で取得した係り受け解析の結果から設定保存領域102における評価表現テーブル502を用いて、評価表現「高い」と「良い(良さ)」を特定する。
【0147】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現「高い」に対し、ステップS1312までの繰り返し処理を開始する。
【0148】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語として「価格」を取得する。
【0149】
「高い」(id=3)を係り先IDに持つ「価格」(id=1)を係る単語として取得する。
【0150】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語「価格」に対し、ステップS1309までの繰り返し処理を開始する。
【0151】
ステップS1306において評価解析部105は、係る単語「価格」が、ステップS905で一時領域に保存した評価対象文字列と同一の単語はないので、ステップS1307に処理を移す。
【0152】
ステップS1307において評価解析部105は、係る単語「価格」が指示代名詞ではないのでステップS1801に処理を移す。
【0153】
ステップS1801において評価解析部105は、
図19に示した拡張した評価表現テーブル502より、係る単語「価格」が評価表現「高い」の評価属性であるのでステップS1802に処理を移す。
【0154】
ステップS1802において評価解析部105は、評価属性「価格」を評価表現「高い」と関連付ける。
【0155】
テップS1309において評価解析部105は、次の係る単語がないので、ステップS1310に処理を移す。
【0156】
ステップS1310において評価解析部105は、ステップS905で一時領域に保存した評価対象文字列「32D mkII」を評価表現「高い」および評価属性「価格」に対する評価対象文字列として取得する。
【0157】
ステップS1311において評価解析部105は、評価表現「高い」、評価属性「価格」及び評価対象文字列「32D mkII」の組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0158】
ステップS1312において評価解析部105は、次の評価表現「良い」があるので、ステップS1303からの処理を実施する。
【0159】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現「良い」に対し、ステップS1312までの繰り返し処理を開始する。
【0160】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語として「画質」を取得する。
【0161】
「良い」(id=7)を係り先IDに持つ「画質」(id=5)を係る単語として取得する。同じく「高い」(id=3)も「良い」(id=7)に係るが、評価表現であるため対象としない。
【0162】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語「画質」に対し、ステップS1309までの繰り返し処理を開始する。
【0163】
ステップS1306において評価解析部105は、係る単語「画質」が、ステップS905で一時領域に保存した評価対象文字列と同一の単語はないので、ステップS1307に処理を移す。
【0164】
ステップS1307において評価解析部105は、係る単語「画質」が指示代名詞ではないのでステップS1801に処理を移す。
【0165】
ステップS1801において評価解析部105は、
図19に示した拡張した評価表現テーブル502より、係る単語「画質」が評価表現「良い」の評価属性であるのでステップS1802に処理を移す。
【0166】
ステップS1802において評価解析部105は、評価属性「画質」を評価表現「良い」と関連付ける。
【0167】
テップS1309において評価解析部105は、次の係る単語がないので、ステップS1310に処理を移す。
【0168】
ステップS1310において評価解析部105は、ステップS905で一時領域に保存した評価対象文字列「32D mkII」を評価表現「良い」および評価属性「画質」に対する評価対象として取得する。
【0169】
ステップS1311において評価解析部105は、評価表現「良い」、評価属性「画質」及び評価対象文字列「32D mkII」の組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0170】
ステップS1312において評価解析部105は、次の評価表現がないので評価表現抽出処理を終了し、ステップS907に処理を戻す。
【0171】
ステップS907において評価解析部105は、次のリンク(URL)がないので処理を終了する。
【0172】
以降、同様の処理を行った結果、評価情報テーブル1001は、
図16に示す状態に評価属性を追加した
図21に示した状態を得る。
【0173】
図22に、指定された評価対象の評判の詳細を分析するアプリケーションの一例を示す。
【0174】
図21に示す結果から評価対象文字列「32D mkII」に対する評価表現「高い」に関する項目を集計すれば、評価表現の属性(評価対象の部分や性質など)を示すことが可能となる。
【0175】
例えば、
図22に示す画面は、評価対象「32D mkII」に対しなされた「高い」という評価の詳細を表示しており、評価対象がSNS上における評価の詳細を容易に把握することが可能となる。
【0176】
(第3の実施形態)
第1の実施形態とは、評価表現抽出処理(ステップS906)が異なる。次に
図23を用いて第3の実施形態における評価表現抽出処理(ステップS906)の詳細について説明する。
【0177】
その他、基本的に第1の実施形態及び第2の実施形態を同様な構成を備えているので、同じ構成については、同一符合を用いて説明を省略する。
【0178】
設定保存領域102におけるシリーズ名テーブル2401を持つ点が異なる。設定保存領域102におけるシリーズ名テーブル2401を拡張した一例を
図24に示す。
ステップS1301〜S1306までの処理は第1の実施形態と同様である。
【0179】
ステップS2301において評価解析部105は、係る単語がシリーズ名であるかをシリーズ名テーブル2401から判定し、かつシリーズ名に対応する評価対象の中から、一時領域に保存されたステップS904で抽出したリンク先文書から抽出した評価対象文字列と一致した評価対象を取得する。
【0180】
ステップS2302において評価解析部105は、ステップS2301で評価対象を特定できれば、ステップS1311に処理を移し、特定できなければステップS1307に処理を移す。
ステップS1307〜S1312までの処理は第1の実施形態と同様である。
(具体例)
【0181】
次に、第3の実施形態の具体例として、
図26に示した投稿に対して、
図9および
図23を用いて、評価解析処理S303および評価表現抽出処理S906の処理を実施した場合について説明する。
図25に示したシリーズ名テーブル2401を用いる。
【0182】
また、リンク(URL)先のWebページに表示された文書から取得できるタイトル(HTML文書のtitle要素)を
図27に示す。
【0183】
ステップS901において評価解析部105は、投稿文書等2601における投稿文書等からリンク2602「http://www.kannon.jp/news20130921.html」を取得する。
【0184】
ステップS902において評価解析部105は、ステップS901で取得したリンク2602「http://www.kannon.jp/news20130921.html」に対し、ステップS907までの繰り返し処理を開始する。
【0185】
ステップS903において評価解析部105は、リンク(URL)先のWebページに表示された文書を「http://www.kannon.jp/news20130921.html」を用いて外部サイト130から取得する。
【0186】
ステップS904において評価解析部105は、ステップS903で取得した文書のタイトル2701「カンノン: Kixs X11発売のお知らせ」から評価対象となりうる文字列として「Kixs X11」を抽出する。
【0187】
ステップS905において評価解析部105は、ステップS904において抽出した評価対象文字列「Kixs X11」を一時領域に保存する。
【0188】
ステップS906において、評価解析部105は、
図23に示す評価表現抽出処理に処理を移す。
【0189】
ステップS1301において評価解析部105は、投稿文書等801に対して係り受け解析を行い、
図28に示す係り受け解析の結果を得る。
【0190】
ステップS1302において評価解析部105は、ステップS1301で取得した係り受け解析の結果から設定保存領域102における評価表現テーブル502を用いて、評価表現「いい」を特定する。
【0191】
ステップS1303において評価解析部105は、ステップS1302で取得した評価表現「いい」に対し、ステップS1312までの繰り返し処理を開始する。
【0192】
ステップS1304において評価解析部105は、係り受け解析結果から、対象である評価表現に係る単語として「Kixs」および「新しい」を取得する。
【0193】
「いい」(id=3)を係り先IDに持つ「Kixs」(id=2)を係る単語として取得し、更に「Kixs」を係り先IDに持つ「新しい」(id=1)を取得する。
【0194】
ステップS1305において評価解析部105は、ステップS1304で取得した係る単語で評価表現「いい」に近い「Kixs」に対し、ステップS1309までの繰り返し処理を開始する。
【0195】
ステップS1306において評価解析部105は、係る単語「Kixs」がステップS905で一時領域に保存した評価対象文字列と同一の単語がないのでステップS2301に処理を移す。
【0196】
ステップS2301において評価解析部105は、係る単語「Kixs」が
図25に示すシリーズ名テーブル2401に登録があるので、シリーズ名と判定し、かつシリーズ名「Kixs」に対応する評価対象2502の中に、一時領域に保存されたステップS904で抽出した「Kixs X11」があるので評価対象として特定する。
【0197】
ステップS2302において評価解析部105は、ステップS2301で評価対象を「Kixs X11」と特定できたので、ステップS1311に処理を移す。
【0198】
ステップS1311において評価解析部105は、評価表現「いい」と評価対象文字列「Kixs X11」の組を評価情報保存領域106における評価情報テーブル1001に保存する。
【0199】
ステップS1312において評価解析部105は、次の評価表現がないので評価表現抽出処理を終了し、ステップS907に処理を戻す。
【0200】
ステップS907において評価解析部105は、次のリンク(URL)がないので処理を終了する。
【0201】
以降の処理については省略するが、本実施形態によれば、評価表現に対し、評価の対象が製品のシリーズ名等が表記されており、特定の製品名が表記されていない場合でも、リンク先の情報を用いて具体的な製品名を特定することが可能となり、製品のシリーズ名しか表記されていない投稿も含めて分析することが可能となる。
【0202】
以上、実施形態を説明したが、本発明によれば、文書解析によって評価分析を行うシステムにおいて、評価対象とする文書のみからでは、当該評価分析を行い難い文書であっても、当該文書に含まれる情報源として付与されるリンク(URL)先の情報等を利用することで、妥当な評価分析を行うことができる。
【0203】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読取り実行することによっても、本発明の目的が達成されることは言うまでもない。
【0204】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることができる。
【0205】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータで稼働しているOS等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0206】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0207】
また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0208】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ,データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステム、あるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。