特開2018-185744 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人電気通信大学の特許一覧

特開2018-185744情報処理装置、情報処理システム、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】特開2018-185744(P2018-185744A)

(43)【公開日】2018年11月22日

(54)【発明の名称】情報処理装置、情報処理システム、情報処理方法及びプログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20181026BHJP

G06Q 30/02 20120101ALI20181026BHJP

【ＦＩ】

G06F17/30 210D

G06F17/30 220Z

G06Q30/02 300

G06F17/30 170A

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

【全頁数】39

(21)【出願番号】特願2017-88575(P2017-88575)

(22)【出願日】2017年4月27日

(71)【出願人】

【識別番号】504133110

【氏名又は名称】国立大学法人電気通信大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】沼尾雅之

(72)【発明者】

【氏名】金兵裕太

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049BB02

(57)【要約】

【課題】情報処理装置が商品等の評判を示す軸を生成することを目的とする。
【解決手段】情報処理装置は、所定の商品又はサービスに対する複数のレビューデータを入力する入力部と、前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出部と、前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出部と、前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング部とを含む。
【選択図】図３

【特許請求の範囲】

【請求項1】

所定の商品又はサービスに対する複数のレビューデータを入力する入力部と、
前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出部と、
前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出部と、
前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング部と
を含む情報処理装置。

【請求項2】

前記評価表現には、
前記商品又は前記サービスに対して、肯定的な表現となる肯定語と、
前記商品又は前記サービスに対して、否定的な表現となる否定語と
が含まれる請求項１に記載の情報処理装置。

【請求項3】

前記レビューデータから前記評価表現が抽出される抽出回数及び前記評価表現と係り受けの関係にある他の評価表現のスコアに基づいて、前記評価表現のスコアを計算する請求項１又は２に記載の情報処理装置。

【請求項4】

前記スコアは、３段階以上を表現できる値である請求項３に記載の情報処理装置。

【請求項5】

前記クラスタリング部は、Ｇａｐ統計量に基づいて、前記クラスタの数を特定する請求項１乃至４のいずれか１項に記載の情報処理装置。

【請求項6】

ｋ−ｍｅｄｏｉｄｓ法に基づいて、複数の前記特徴語から、前記軸の軸名を決定する請求項５に記載の情報処理装置。

【請求項7】

前記複数のレビューデータから前記軸ごとに、前記商品又は前記サービスの特性についての評判を示す評判値を計算する評判分析部を更に含む請求項１乃至６のいずれか１項に記載の情報処理装置。

【請求項8】

１台以上の情報処理装置を有する情報処理システムであって、
所定の商品又はサービスに対する複数のレビューデータを入力する入力部と、
前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出部と、
前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出部と、
前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング部と
を含む情報処理システム。

【請求項9】

情報処理装置が行う情報処理方法であって、
前記情報処理装置が、所定の商品又はサービスに対する複数のレビューデータを入力する入力手順と、
前記情報処理装置が、前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出手順と、
前記情報処理装置が、前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出手順と、
前記情報処理装置が、前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング手順と
を含む情報処理方法。

【請求項10】

コンピュータに情報処理方法を実行させるためのプログラムであって、
前記コンピュータが、所定の商品又はサービスに対する複数のレビューデータを入力する入力手順と、
前記コンピュータが、前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出手順と、
前記コンピュータが、前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出手順と、
前記コンピュータが、前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング手順と
を実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理システム、情報処理方法及びプログラムに関する。

【背景技術】

【0002】

いわゆる口コミサイト、ブログ又はレビューサイト等において、商品又はサービス等（以下単に「商品等」という。）について、購入者等によるレビュー（ｒｅｖｉｅｗ）が投稿される。そして、これらのレビューを解析する技術が知られている。

【0003】

例えば、非特許文献１に開示される技術は、オンラインショッピング等で使用される通販サイトで投稿される多数のレビューから、属性及び意見のペアを抽出する。具体的には、まず、機械学習によって、レビューから、属性を含む文節が抽出される。次に、機械学習によって、レビューから、意見を含む文節が抽出される。そして、抽出された属性及び意見の「係り受け」の関係に基づいて、属性及び意見のペアが抽出される。このようにして、効率良く商品等の評判を把握する方法が知られている。

【0004】

他にも、非特許文献２に開示される技術は、弱教師付きの手法によって、「係り受け」の関係と、相互情報量（ＰｏｉｎｔｗｉｓｅＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）とに基づいて、名詞又は名詞句のカテゴリ分類を行う。このようにして、ユーザがパラメータを設定しなくとも、高精度にレビューを分類することができる方法が知られている。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】"機械学習による商品レビューの属性−意見ペアの抽出"，中野裕介，湯本高行，新居学，上浦尚武著，情報処理学会研究報告ＩＰＳＪＳＩＧＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，Ｖｏｌ．２０１５−ＤＢＳ−１６２Ｎｏ．１４２０１５／１１／２６

【非特許文献2】"新たな弱教師付き型分類手法Ｂａｕｔｅｘｔ"，グェンファムタンタオ，岡部誠，尾内理紀夫，林貴宏，西岡悠平，竹中孝真，森正弥，情報処理学会論文誌Ｖｏｌ．５２Ｎｏ．１２６９−２８３Ｊａｎ．２０１１

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、従来の技術では、複数のレビューを点数で評価するには、商品等の種類ごとに、商品等の特性を考慮して、管理者等があらかじめ軸を設定しなければならない問題がある。

【0007】

本発明は、上記問題点に鑑み提案されたものであり、その目的とするところは、情報処理装置が商品等の評判を示す軸を生成できることにある。

【課題を解決するための手段】

【0008】

上記の課題を解決するため、本発明に係る一実施形態にあっては、
情報処理装置は、
所定の商品又はサービスに対する複数のレビューデータを入力する入力部と、
前記複数のレビューデータに含まれ、前記商品又は前記サービスに対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出部と、
前記評価表現に基づいて、前記複数のレビューデータに含まれ、前記商品又は前記サービスの特徴を示す特徴語を抽出する特徴語抽出部と、
前記特徴語をクラスタに分け、前記クラスタごとに軸を生成するクラスタリング部と
を含む。

【発明の効果】

【0009】

本発明にあっては、情報処理装置が商品等の評判を示す軸を生成できる。

【図面の簡単な説明】

【0010】

【図1】本発明の一実施形態に係る情報処理装置を使用したシステムの全体構成例を示す概略図である。

【図2】本発明の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

【図3】本発明の一実施形態に係る情報処理装置による全体処理例を示すフローチャートである。

【図4】本発明の一実施形態に係る情報処理装置が表示する初期設定用の画面例を示す図である。

【図5】本発明の一実施形態に係る情報処理装置による辞書データの更新例を示すフローチャートである。

【図6】本発明の一実施形態に係る情報処理装置による「係り受け」解析の一例を示す図である。

【図7】本発明の一実施形態に係る情報処理装置による登録語のスコアの計算例を示す図である。

【図8】本発明の一実施形態に係る情報処理装置による登録語のフィルタリング例を示すフローチャートである。

【図9】本発明の一実施形態に係る情報処理装置による特徴語の抽出例を示すフローチャートである。

【図10】本発明の一実施形態に係る情報処理装置による特徴語のフィルタリング例を示すフローチャートである。

【図11】本発明の一実施形態に係る情報処理装置による第５閾値の計算例を示す図である。

【図12】本発明の一実施形態に係る情報処理装置による軸の生成例を示すフローチャートである。

【図13】本発明の一実施形態に係る特徴語と評価表現の「係り受け」を示す行列の一例を示す図である。

【図14】本発明の一実施形態に係る情報処理装置によるＴＦ−ＩＤＦ計算の計算結果例を示す図である。

【図15】本発明の一実施形態に係る情報処理装置によるｋ−ｍｅｄｏｉｄｓ法による代表点の特定例を示す図である。

【図16】本発明の一実施形態に係る情報処理装置による軸の生成例を示す図である。

【図17】本発明の一実施形態に係る情報処理装置による評判分析例を示すフローチャートである。

【図18】本発明の一実施形態に係る情報処理装置による評判分析例を示す図である。

【図19】本発明の一実施形態に係る情報処理装置が表示するレーダーチャートの一例を示す図である。

【図20】本発明の一実施形態に係る情報処理装置が全体処理の対象としたレビューの条件を示す表である。

【図21】本発明の一実施形態に係る情報処理装置が全体処理の対象とした商品及びそれぞれのレビュー数を示す表である。

【図22】本発明の一実施形態に係る情報処理装置が全体処理に用いた設定値を示す表である。

【図23】本発明の一実施形態に係る情報処理装置が全体処理において生成した辞書データを示す表である。

【図24】本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから抽出した評価表現を示す表である。

【図25】本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから抽出した評価表現を示す表である。

【図26】本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから抽出した評価表現を示す表である。

【図27】本発明の一実施形態に係る情報処理装置による全体処理において出現した特徴語の分布を示す図である。

【図28】本発明の一実施形態に係る情報処理装置が全体処理において抽出した特徴語を示す表である。

【図29】本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成した軸を示す表である。

【図30】本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成した軸を示す表である。

【図31】本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成した軸を示す表である。

【図32】本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから抽出及び分配した準特徴語を示す表である。

【図33】本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから抽出及び分配した準特徴語を示す表である。

【図34】本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから抽出及び分配した準特徴語を示す表である。

【図35】本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成した軸及び代表評価表現を示す表である。

【図36】本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成した軸及び代表評価表現を示す表である。

【図37】本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成した軸及び代表評価表現を示す表である。

【図38】本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成したレーダーチャートを示す図である。

【図39】本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成したレーダーチャートを示す図である。

【図40】本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成したレーダーチャートを示す図である。

【図41】本発明の一実施形態に係る情報処理装置の機能構成例を示す機能ブロック図である。

【発明を実施するための形態】

【0011】

以下、本発明の好適な実施形態を例に説明する。

【0012】

＜全体構成例＞
図１は、本発明の一実施形態に係る情報処理装置を使用したシステムの全体構成例を示す概略図である。例えば、情報処理装置の例であるサーバＳＥＲは、図示するように、インターネット等のネットワークＮＴＷに接続される。そして、ネットワークＮＴＷを介してサーバＳＥＲにアクセスすると、様々なユーザが、商品等についてレビューを投稿できるように、管理者ＡＤＭは、サーバＳＥＲを設定する。すなわち、管理者ＡＤＭは、いわゆるレビューサイトをサーバＳＥＲ上に開設し、ネットワークＮＴＷ上で開放する。このようにすると、例えば、ユーザＵＳ１は、端末ＰＣ１に操作を入力して、レビューＲＥ１を投稿できる。同様に、ユーザＵＳ２は、端末ＰＣ２に操作を入力して、レビューＲＥ２を投稿できる。

【0013】

図示するように、レビューは、所定の商品等についての意見、評判、感想又は評価を含む文である。具体的には、図示する例では、ユーザＵＳ１は、「商品Ａ」という製品名の商品を購入し、使用後、「商品Ａ」を使用した感想等を他人に公開するため、レビューＲＥ１をサーバＳＥＲに投稿する。

【0014】

したがって、レビューＲＥ１には、「商品Ａ」の良かった点又は悪かった点等が表現された文が、主にユーザＵＳ１による体験に基づいて、記載される。このようなレビューが、サーバＳＥＲには、レビューデータＤＲＥとなって蓄積される。例えば、レビューデータＤＲＥは、テキストデータ等である。なお、レビューデータＤＲＥには、ユーザ名又は書き込み日時等のデータが含まれてもよい。

【0015】

また、各レビューは、レビューの対象となった商品等と対応付けされる。具体的には、商品等には、各商品等を識別できるＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）等があらかじめ付与される。そして、各レビューは、レビューデータＤＲＥに、ＩＤと一緒に記憶される。したがって、各レビューがどの商品等を対象にした文であるかは、レビューデータＤＲＥに含まれるＩＤを参照すると、特定することができる。

【0016】

以下、図示するようにサーバＳＥＲに蓄積された複数のレビューデータに基づいて、所定の商品について、評判分析を行う場合を例に説明する。

【0017】

＜情報処理装置のハードウェア構成例＞
図２は、本発明の一実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。図示するように、サーバＳＥＲは、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）Ｈ０１と、記憶装置Ｈ０２と、入力装置Ｈ０３と、出力装置Ｈ０４と、ネットワークインタフェースＨ０５とを有するハードウェア構成である。これらのハードウェア資源は、バス（ｂｕｓ）等によって相互に接続される。また、サーバＳＥＲ以外の情報処理装置も、例えば、図示するようなハードウェア構成である。以下、各情報処理装置がすべて図示するハードウェア構成である例で説明するが、情報処理装置のハードウェア構成は、図示するハードウェア構成に限られない。

【0018】

ＣＰＵＨ０１は、情報処理装置が行う処理を実行するための演算を行う演算装置及び情報処理装置が有するハードウェア資源を制御する制御装置の例である。

【0019】

記憶装置Ｈ０２は、例えば、メモリ等の主記憶装置である。なお、記憶装置Ｈ０２は、更にハードディスク等の補助記憶装置を有してもよい。

【0020】

入力装置Ｈ０３は、ユーザによる操作又は外部装置からのコマンド等を入力する装置である。例えば、入力装置Ｈ０３は、キーボード及びコネクタ等である。

【0021】

出力装置Ｈ０４は、ユーザ又は外部装置に対して処理結果等を出力する装置である。例えば、出力装置Ｈ０４は、ディスプレイ及びコネクタ等である。

【0022】

ネットワークインタフェースＨ０５は、ネットワークを介して、有線、無線又はこれらの組み合わせによって、外部装置とデータを入出力するインタフェースである。例えば、ネットワークインタフェースＨ０５は、コネクタ及び処理ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等である。

【0023】

＜全体処理例＞
図３は、本発明の一実施形態に係る情報処理装置による全体処理例を示すフローチャートである。例えば、図１に示すように、レビューが投稿され、複数のレビューデータが集まった後、サーバＳＥＲは、図示するような全体処理を行って、所定の商品又はサービスについての評判を分析する。

【0024】

＜評価表現の初期設定例＞
ステップＳ０１では、サーバＳＥＲは、評価表現を初期設定する。

【0025】

評価表現は、商品等に対する意見、評判、感想又は評価等を示す言葉である。例えば、「良い」又は「満足」等は、商品等に対して肯定的な意見等を示す評価表現（以下「肯定語」という。）の例である。一方で、「つまらない」又は「不満」等は、商品等に対して否定的な意見等を示す評価表現（以下「否定語」という。）の例である。また、評価表現は、肯定語と、否定語とに分けて記憶されるのが望ましい。さらに、各評価表現には、値（以下「スコア」という。）が登録される。

【0026】

例えば、初期設定は、管理者ＡＤＭ等の操作に基づいて行われる。具体的には、初期設定は、例えば、以下のような画面で行われる。

【0027】

図４は、本発明の一実施形態に係る情報処理装置が表示する初期設定用の画面例を示す図である。この例では、評価表現は、「Ｐｏｓｉｔｉｖｅ」の欄に肯定語が設定され、「Ｎｅｇａｔｉｖｅ」の欄に否定語が設定される例である。なお、設定された評価表現は、辞書データＤＤＩに記憶される。

【0028】

図示する例は、肯定語及び否定語に１語ずつ設定する例である。具体的には、図示する例では、「満足」という言葉が、肯定語に設定される例である。一方で、図示する例では、「不満」という言葉が、否定語に設定される例である。このように初期設定されると、辞書データＤＤＩに各言葉が登録される。そのため、以後、サーバＳＥＲは、「満足」という言葉を肯定語と認識し、さらに、「不満」という言葉を否定語と認識できる。

【0029】

なお、初期設定は、図示するような設定に限られず、例えば、複数の言葉を設定してもよい。

【0030】

＜複数のレビューデータの入力例＞
ステップＳ０２では、サーバＳＥＲは、複数のレビューデータＤＲＥを入力する。すなわち、図１に示すように、サーバＳＥＲには、各商品等についてのレビューが、レビューデータＤＲＥとなってあらかじめ蓄積されている。そこで、サーバＳＥＲは、複数のレビューデータＤＲＥを読み出し、各レビューを示す文を読み込む。

【0031】

＜辞書データの更新例＞
ステップＳ０３では、サーバＳＥＲは、辞書データを更新する。例えば、ステップＳ０３は、以下のような処理である。

【0032】

図５は、本発明の一実施形態に係る情報処理装置による辞書データの更新例を示すフローチャートである。

【0033】

以下、図示するような辞書データＤＤＩ１があらかじめステップＳ０１によって設定される例で説明する。具体的には、辞書データＤＤＩ１には、肯定語に、「満足」という言葉が１語登録され、かつ、スコアが「＋０．９０」と設定される例である。さらに、辞書データＤＤＩ１には、否定語に、「不満」という言葉が１語登録され、かつ、スコアが「−０．９５」と設定される例である。

【0034】

以下、スコアが正の値であると、肯定語であり、一方で、スコアが負の値であると、否定語であるとする。また、以下の例では、スコアは、「＋１．００」乃至「−１．００」の範囲であるとする。なお、スコアは、すべての肯定語を「＋１」とし、かつ、すべての否定語を「−１」とする、いわゆる２値でないのが望ましい。すなわち、スコアは、この例のように、３段階以上を表現できる値（以下「連続値」という。）であるのが望ましい。

【0035】

＜レビューデータから１文を抽出する例＞
ステップＳ０３０１では、サーバＳＥＲは、レビューデータＤＲＥから１文を抽出する。以下、図示するように、「商品Ａは、値段が安くて満足です。」という１文がレビューデータＤＲＥから抽出された場合を例に説明する。

【0036】

＜文中から評価表現を検索する例＞
ステップＳ０３０２では、サーバＳＥＲは、文中から評価表現を検索する。すなわち、サーバＳＥＲは、ステップＳ０３０１によって抽出された文に、辞書データＤＤＩ１に登録されている評価表現と同じ言葉が含まれているかを検索する。この例では、ステップＳ０３０１によって抽出された文には、辞書データＤＤＩ１に肯定語として登録されている「満足」という言葉が含まれている。そのため、図示するように、サーバＳＥＲは、「満足」という評価表現を抽出した検索結果を出力する。

【0037】

＜検索された評価表現と「係り受け」の関係にある言葉の抽出例＞
ステップＳ０３０３では、サーバＳＥＲは、検索された評価表現と「係り受け」の関係にある言葉を抽出する。すなわち、サーバＳＥＲは、ステップＳ０３０１によって抽出された文において、ステップＳ０３０２で検索される評価表現と「係り受け」の関係にある言葉を抽出する。例えば、以下のような「係り受け」解析によって、「係り受け」の関係にある言葉が抽出される。

【0038】

図６は、本発明の一実施形態に係る情報処理装置による「係り受け」解析の一例を示す図である。例えば、「商品Ａは、値段が安くて満足です。」の文が解析される対象である例で説明する。

【0039】

まず、「係り受け」解析では、図６（Ａ）に示すように、サーバＳＥＲは、レビューデータＤＲＥから抽出された文を文節で分解する。次に、図６（Ｂ）に示すように、サーバＳＥＲは、構文を解析して、各文節に「係り受け」の関係があるか否かを判断する。この例では、図６（Ｂ）に示すように、「値段が」の文節と、「安くて」の文節とが「係り受け」の関係であると判断され、同様に、「安くて」の文節と、「満足です。」の文節とが「係り受け」の関係であると判断される。したがって、この例では、「安い」という言葉が、「満足」という評価表現に対して順接関係となる。このように、サーバＳＥＲは、肯定語と順接関係となる言葉を肯定語と推定し、抽出する。

【0040】

以下、ステップＳ０３０３によって抽出され、辞書データＤＤＩに登録される候補となる言葉を「登録語」という。つまり、この例では、「安い」という言葉が、登録語となる。

【0041】

＜抽出された回数のカウント例＞
ステップＳ０３０４では、サーバＳＥＲは、抽出された回数をカウントする。すなわち、サーバＳＥＲは、登録語が文から抽出されると、「１回」とカウントし、抽出回数ＤＣＮを記憶する。つまり、他の文でも、評価表現と「係り受け」の関係となる場合が多い登録語は、抽出回数ＤＣＮが大きい値となる。

【0042】

以上のようなステップＳ０３０１乃至ステップＳ０３０４が所定回数繰り返し行われる。なお、所定回数となるループ回数及びループ条件等は、あらかじめ設定される値である。

【0043】

＜登録語のスコアの計算例＞
ステップＳ０３０５では、サーバＳＥＲは、登録語のスコアを計算する。例えば、スコアは、下記（１）式等によって計算される。

【0044】

【数1】

例えば、登録語のそれぞれの抽出値（上記（１）式における「ｅｘｔｒａｃｔ（ｘ）」である。）が「＋０．８」、「＋０．９」及び「＋１．０」であるとすると、上記（１）式は、分子が「（＋０．８）＋（＋０．９）＋（＋１．０）」となり、分母では、絶対値の総和である「（＋０．８）＋（＋０．９）＋（＋１．０）」となる。したがって、この例では、スコアは、上記（１）式に基づいて、「１．０」と計算される。

【0045】

また、上記（１）式における登録語の抽出値（上記（１）式では、「ｅｘｔｒａｃｔ（ｘ）」である。）は、ステップＳ０３０３によって抽出されるごとに、下記（２）式によって算出される値である。

【0046】

【数2】

したがって、ステップＳ０３０３によって抽出されると、上記（２）式に基づいて、サーバＳＥＲは、抽出値を計算する。上記（２）式に示すように、抽出値は、「係り受け」の関係にある評価表現（上記（２）式では、「ｅ」である。）のスコア等に基づいて定まる。

【0047】

また、上記（２）式において、「評価極性の反転」は、「・・・ない」等の言葉（以下「反転子」という。）が文中において評価表現に続けて使われることにより、意味が反転することをいう。具体的には、「満足」という言葉は、肯定語であり、反転子がなければ、肯定的な意味を示す。一方で、「満足できない」等のように、反転子が続くと、この文の全体の意味は、「満足」を反転させた否定的な意味を示す。

【0048】

さらに、反転子は、複数回用いられる場合がある。例えば、反転子が複数回用いられた文は、「満足できなくはない」等である。このような場合には、サーバＳＥＲは、反転子が用いられた回数を数える。奇数回反転子が用いられると、評価極性は、反転する。一方で、偶数回反転子が用いられると、評価極性は、反転しない。このように、反転子が用いられた回数に基づいて、上記（２）式では、「ｒｅｖｅｒｓｅ（Ａ）」の関数に対して、「−１」又は「＋１」の値が返される。

【0049】

同様に、逆接の接続詞等が文に用いられると、反転子が使われるのと同様に、評価極性が反転する場合がある。そこで、上記（２）式では、評価表現と、登録語との関係が、順接関係にあるか逆接関係にあるかを判断する。順接関係にあれば、評価極性は、反転しない。一方で、逆接関係にあると、評価極性は、反転する。このように、順接関係にあるか逆接関係にあるかに基づいて、上記（２）式では、「ｃｏｎｊｕｎｃｔｉｏｎ（ｅ,ｘ）」の関数に対して、「−１」又は「＋１」の値が返される。

【0050】

以上のようなステップＳ０３０５が行われると、例えば、以下のような結果となる。

【0051】

図７は、本発明の一実施形態に係る情報処理装置による登録語のスコアの計算例を示す図である。以下、サーバＳＥＲが図５に示す辞書データＤＤＩ１を使用してスコアを計算する例で説明する。また、以下、図７（Ａ）に示すような文を例に説明する。

【0052】

図７（Ａ）に示す文では、辞書データＤＤＩ１に登録されている「満足」という評価表現が検索される（ステップＳ０３０２）。そして、「係り受け」解析によって、「甘い」という登録語が抽出される（ステップＳ０３０３）。

【0053】

この例では、登録語と「係り受け」の関係にある「満足」という評価表現のスコアが「＋０．９０」であるため、上記（２）式における「ｖａｌｕｅ」は、「＋０．９０」となる。そして、登録語は、評価表現と順接関係であり、文中に反転子がないため、抽出値は、「＋０．９０」となる。さらに、「甘い」という登録語が抽出されるのが初めてであれば、抽出回数は、「１」であるため、「甘い」のスコアは、この時点では、「＋０．９０」と計算される。

【0054】

次に、図７（Ｂ）に示す文が抽出されたとする（ステップＳ０３０１）。図７（Ｂ）に示す文では、辞書データＤＤＩ１に登録されている「不満」という評価表現が検索される（ステップＳ０３０２）。そして、図７（Ａ）と同様に、「係り受け」解析によって、「甘い」という登録語が抽出される（ステップＳ０３０３）。

【0055】

この例では、登録語と「係り受け」の関係にある「不満」という評価表現のスコアが「−０．９５」であるため、上記（２）式における「ｖａｌｕｅ」は、「−０．９５」となる。そして、登録語は、評価表現と順接関係であり、文中に反転子がないため、抽出値は、「−０．９５」となる。

【0056】

なお、登録語は、以前の処理によって既に登録されている場合がある。このような場合には、スコアは、更新されてもよい。例えば、スコアは、下記（３）式で計算された値に更新される。

【0057】

【数3】

なお、上記（３）式において、「α」は、あらかじめ設定される値であって、「０＜α＜１」の範囲で、設定される値である。

【0058】

＜登録語のフィルタリング例＞
ステップＳ０３０６では、サーバＳＥＲは、登録語をフィルタリングするのが望ましい。例えば、ステップＳ０３０６では、以下のような処理が行われる。

【0059】

図８は、本発明の一実施形態に係る情報処理装置による登録語のフィルタリング例を示すフローチャートである。

【0060】

＜新しい登録語があるか否かの判断例＞
ステップＳ３６０１では、サーバＳＥＲは、新しい登録語があるか否かを判断する。すなわち、図５に示す処理によって、以前には辞書データＤＤＩに登録されていなかった登録語が抽出されると、サーバＳＥＲは、新しい登録語があると判断する。

【0061】

次に、新しい登録語があるとサーバＳＥＲが判断すると（ステップＳ３６０１でＹＥＳ）、サーバＳＥＲは、ステップＳ３６０２に進む。一方で、新しい登録語がないとサーバＳＥＲが判断すると（ステップＳ３６０１でＮＯ）、サーバＳＥＲは、登録語をフィルタリングする処理を終了する。

【0062】

＜登録語の抽出回数の読み出し例＞
ステップＳ３６０２では、サーバＳＥＲは、登録語の抽出回数を読み出す。ステップＳ０３０４では、ステップＳ０３０３で抽出されるごとに、抽出回数ＤＣＮがカウントされる。そこで、ステップＳ３６０２では、サーバＳＥＲは、ステップＳ０３０４でカウントされた抽出回数ＤＣＮを読み出す。

【0063】

＜登録語のスコアの読み出し例＞
ステップＳ３６０３では、サーバＳＥＲは、登録語のスコアを読み出す。ステップＳ０３０５では、ステップＳ０３０３で抽出されるごとに、スコアが計算される。そこで、ステップＳ３６０３では、サーバＳＥＲは、ステップＳ０３０５で計算されたスコアを読み出す。

【0064】

＜抽出回数が第１閾値より大きい値であり、かつ、スコアが第２閾値より大きい値であるか否かの判断例＞
ステップＳ３６０４では、サーバＳＥＲは、抽出回数が第１閾値より大きい値であり、かつ、スコアが第２閾値より大きい値であるか否かを判断する。

【0065】

まず、サーバＳＥＲは、ステップＳ３６０２で読み出された抽出回数と、第１閾値とを比較する。なお、第１閾値は、あらかじめ設定される値である。例えば、第１閾値に「１０」が設定されると、抽出回数が「１０」回より大きい値である、すなわち、出現する回数が多い登録語が、抽出回数が第１閾値より大きい値であると判断される。

【0066】

次に、サーバＳＥＲは、ステップＳ３６０３で読み出されたスコアと、第２閾値とを比較する。なお、第２閾値は、あらかじめ設定される値である。例えば、第２閾値に「０．８５」が設定されると、スコアが「０．８５」より大きい値である登録語が、スコアが第２閾値より大きい値であると判断される。

【0067】

そして、抽出回数が第１閾値より大きい値であり、かつ、スコアが第２閾値より大きい値であると（ステップＳ３６０４でＹＥＳ）、サーバＳＥＲは、登録語をフィルタリングする処理を終了する。一方で、抽出回数が第１閾値より大きい値でない、又は、スコアが第２閾値より大きい値でないと（ステップＳ３６０４でＮＯ）、サーバＳＥＲは、ステップＳ３６０５に進む。

【0068】

＜登録語の削除例＞
ステップＳ３６０５では、サーバＳＥＲは、登録語を削除する。すなわち、ステップＳ３６０４によって、スコアが小さい値である、又は、抽出回数が小さい値である登録語は、辞書データＤＤＩから削除される。

【0069】

辞書データＤＤＩには、人間による判断からしてみると、適切でない評価表現、いわゆるノイズとなる言葉が登録される場合が多い。

【0070】

ノイズは、商品等に対する評価等を示す表現ではなく、肯定的でも否定的でもない言葉である。具体的には、レビューにおいて、「使いやすい」、「うるさい」及び「高い」等の表現は、商品等の特性を肯定又は否定して評価する表現であるため、評価表現に適した表現である。一方で、商品等の特性を肯定又は否定する以外の言葉が、ノイズとなる。

【0071】

そこで、辞書データに登録される候補となる登録語には、例えば、図８に示すようなフィルタリング処理が行われるのが望ましい。このようにすると、辞書データに登録されるノイズが少なくなり、サーバＳＥＲは、精度良く評判を分析できる。

【0072】

＜登録語及びスコアを辞書データに追加し、辞書データを更新する例＞
ステップＳ０３０７では、サーバＳＥＲは、登録語及びスコアを辞書データに追加し、辞書データを更新する。例えば、図５に示す例において、ステップＳ０３０３によって、「安い」という登録語が、抽出され、ステップＳ０３０５によって、「＋０．８５」という値のスコアが計算されたとする。なお、「安い」という登録語は、ステップＳ０３０６によるフィルタリングで削除対象としない（ステップＳ３６０４でＮＯ）とされたとする。

【0073】

このような場合には、図示するように、サーバＳＥＲは、辞書データＤＤＩ１に「安い」の登録語と、スコアを追加する。このようにすると、辞書データＤＤＩ１は、更新され、図示する辞書データＤＤＩ２となる。なお、スコアが正の値であるため、「安い」の登録語は、肯定語に登録される例である。

【0074】

＜繰り返すか否かの判断例＞
ステップＳ０３０８では、サーバＳＥＲは、図５に示す処理を繰り返すか否かを判断する。なお、繰り返し回数は、例えば、あらかじめサーバＳＥＲに設定されるとする。したがって、所定の繰り返し回数まで、図５に示す処理を繰り返し行った場合には、サーバＳＥＲは、繰り返さないと判断する。一方で、所定の繰り返し回数まで、図５に示す処理を繰り返し行っていない場合には、サーバＳＥＲは、繰り返すと判断する。

【0075】

次に、繰り返すとサーバＳＥＲが判断すると（ステップＳ０３０８でＹＥＳ）、サーバＳＥＲは、ステップＳ０３０１に進む。一方で、繰り返さないとサーバＳＥＲが判断すると（ステップＳ０３０８でＮＯ）、サーバＳＥＲは、辞書データを更新する処理を終了する。

【0076】

＜特徴語の抽出例＞
ステップＳ０４では、サーバＳＥＲは、特徴語を抽出する。

【0077】

なお、特徴語は、商品等の特徴を示す言葉である。また、特徴語となる言葉は、評判分析における軸に付けられる軸名の候補となる言葉である。そのため、特徴語は、多くのレビューで評価される項目であるのが望ましい。すなわち、特徴語は、商品等の特性等を示し、多くのユーザが商品等において関心のある項目を示す言葉であるのが望ましい。特徴語は、このような性質の言葉であるため、商品等又は商品等のカテゴリごとに異なる言葉となる。例えば、特徴語は、以下のような処理によって抽出される。

【0078】

図９は、本発明の一実施形態に係る情報処理装置による特徴語の抽出例を示すフローチャートである。

【0079】

＜レビューデータから１文を抽出する例＞
ステップＳ０４０１では、サーバＳＥＲは、レビューデータＤＲＥから１文を抽出する。例えば、サーバＳＥＲは、ステップＳ０３０１と同様の処理によってレビューデータから１文を抽出する。

【0080】

＜評価表現と「係り受け」の関係にある特徴語の抽出例＞
ステップＳ０４０２では、サーバＳＥＲは、評価表現と「係り受け」の関係にある特徴語を抽出する。まず、ステップＳ０３０２のように、サーバＳＥＲは、辞書データＤＤＩに基づいて、評価表現を文中から検索する。そして、サーバＳＥＲは、検索した評価表現と「係り受け」の関係にある言葉があると、特徴語として抽出し、特徴語データＤＳＰに記憶する。なお、特徴語データＤＳＰには、ノイズが含まれる場合があるため、特徴語データＤＳＰは、後段で、特徴語のフィルタリング処理（ステップＳ０５）が行われるのが望ましい。

【0081】

＜特徴語の重要度の計算例＞
ステップＳ０４０３では、サーバＳＥＲは、特徴語の重要度を計算する。例えば、サーバＳＥＲは、下記（４）式によって重要度を計算する。

【0082】

【数4】

上記（４）式が示すように、重要度は、文中において、特徴語が抽出される回数（上記（４）式における「ｅｘｔｒａｃｔ_ｎｕｍ（ｙ）」である。）を考慮して計算される値である。すなわち、「係り受け」の関係にあって、多く登場する言葉ほど、特徴語である可能性が高い。したがって、重要度を計算する上で、上記（４）式のように、抽出回数が考慮されるのが望ましい。

【0083】

さらに、上記（４）式が示すように、重要度は、文中において、特徴語が特定の助詞を伴う確率（上記（４）式における「ｒａｔｅ_ｐａｒｔｉｃｌｅ（ｙ）」である。）が高いと、値が高くなる。

【0084】

なお、特定の助詞は、係助詞及び格助詞等である。具体的には、特定の助詞は、「が」、「も」及び「は」等である。このような特定の助詞を伴う言葉は、主語、述語又は目的語である可能性が高い。

【0085】

そして、主語、述語又は目的語となる言葉は、レビューでは、評価の対象となる場合が多い言葉である。このように、抽出された特徴語の前後にある言葉の品詞が考慮されて、重要度が計算されると、主語、述語又は目的語となる言葉が特徴語に抽出されやすくなる。すなわち、特徴語となる言葉は、主語、述語又は目的語となる可能性が高いため、重要度は、上記（４）式のように、特定の助詞を伴う確率等を考慮して計算されるのが望ましい。

【0086】

また、上記（４）式が示すように、重要度は、文中において、特徴語が評価表現と「係り受け」の関係である確率（上記（４）式における「ｒａｔｅ_ＥＥ（ｙ）」である。）が高いと、値が高くなる。評価表現は、形容詞等の名詞を修飾する言葉である場合が多い。したがって、評価表現と「係り受け」の関係にある言葉は、評価表現によって、何らかの評価がされている可能性が高い言葉である。上記（４）式のように、評価表現と「係り受け」の関係となる確率が考慮されて、重要度が計算されると、評価表現と「係り受け」の関係があるように使われる言葉が特徴語に抽出されやすくなる。すなわち、特徴語となる言葉は、評価表現によって評価される可能性が高いため、重要度は、上記（４）式のように、評価表現と「係り受け」の関係となる確率等を考慮して計算されるのが望ましい。

【0087】

なお、重要度は、計算され、特徴語と関連付けして、特徴語データＤＳＰに記憶されるとする。

【0088】

＜特徴語が抽出された回数のカウント例＞
ステップＳ０４０４では、サーバＳＥＲは、特徴語が抽出された回数をカウントする。すなわち、サーバＳＥＲは、特徴語が文から抽出されると、「１回」とカウントし、抽出回数ＤＣ１を記憶する。つまり、他の文でも、評価表現と「係り受け」の関係となる場合が多い特徴語は、抽出回数ＤＣ１が大きい値となる。

【0089】

＜特徴語が格助詞を伴うか否かの判断例＞
ステップＳ０４０５では、サーバＳＥＲは、特徴語が格助詞を伴うか否かを判断する。すなわち、サーバＳＥＲは、抽出された特徴語の前後に格助詞となる言葉があるか否かを判断する。

【0090】

次に、特徴語が格助詞を伴うとサーバＳＥＲが判断すると（ステップＳ０４０５でＹＥＳ）、サーバＳＥＲは、ステップＳ０４０６に進む。一方で、特徴語が格助詞を伴わないとサーバＳＥＲが判断すると（ステップＳ０４０５でＮＯ）、サーバＳＥＲは、ステップＳ０４０７に進む。

【0091】

＜特徴語が格助詞を伴って抽出された回数のカウント例＞
ステップＳ０４０６では、サーバＳＥＲは、特徴語が格助詞を伴って抽出された回数（以下「格助詞回数ＤＣ２」という。）をカウントする。すなわち、ステップＳ０４０５において特徴語が格助詞を伴うと判断されると（ステップＳ０４０５でＹＥＳ）、サーバＳＥＲは、「１回」とカウントし、格助詞回数ＤＣ２を記憶する。

【0092】

＜特徴語が係助詞を伴うか否かの判断例＞
ステップＳ０４０７では、サーバＳＥＲは、特徴語が係助詞を伴うか否かを判断する。すなわち、サーバＳＥＲは、抽出された特徴語の前後に係助詞となる言葉があるか否かを判断する。

【0093】

次に、特徴語が係助詞を伴うとサーバＳＥＲが判断すると（ステップＳ０４０７でＹＥＳ）、サーバＳＥＲは、ステップＳ０４０８に進む。一方で、特徴語が係助詞を伴わないとサーバＳＥＲが判断すると（ステップＳ０４０７でＮＯ）、サーバＳＥＲは、特徴語の抽出処理を終了する。

【0094】

＜特徴語が係助詞を伴って抽出された回数のカウント例＞
ステップＳ０４０８では、サーバＳＥＲは、特徴語が係助詞を伴って抽出された回数（以下「係助詞回数ＤＣ３」という。）をカウントする。すなわち、ステップＳ０４０７において特徴語が係助詞を伴うと判断されると（ステップＳ０４０７でＹＥＳ）、サーバＳＥＲは、「１回」とカウントし、係助詞回数ＤＣ３を記憶する。

【0095】

＜特徴語のフィルタリング例＞
ステップＳ０５では、サーバＳＥＲは、特徴語をフィルタリングする。例えば、特徴語は、以下のような処理によってフィルタリングされる。

【0096】

図１０は、本発明の一実施形態に係る情報処理装置による特徴語のフィルタリング例を示すフローチャートである。

【0097】

＜新しく特徴語が抽出されたか否かの判断例＞
ステップＳ０５０１では、サーバＳＥＲは、新しく特徴語が抽出されたか否かを判断する。例えば、特徴語データＤＳＰに新たに特徴語が追加されると、サーバＳＥＲは、新しく特徴語が抽出されたと判断する。

【0098】

次に、新しく特徴語が抽出されたとサーバＳＥＲが判断すると（ステップＳ０５０１でＹＥＳ）、サーバＳＥＲは、ステップＳ０５０２に進む。一方で、新しく特徴語が抽出されていないとサーバＳＥＲが判断すると（ステップＳ０５０１でＮＯ）、サーバＳＥＲは、特徴語のフィルタリング処理を終了する。

【0099】

＜特徴語が格助詞を伴って抽出された確率及び特徴語が係助詞を伴って抽出された確率の計算例＞
ステップＳ０５０２では、サーバＳＥＲは、特徴語が格助詞を伴って抽出された確率及び特徴語が係助詞を伴って抽出された確率を計算する。

【0100】

まず、特徴語が格助詞を伴って抽出された確率（以下「格助詞確率」という。）は、抽出回数ＤＣ１に対する格助詞回数ＤＣ２の割合を計算すると求まる値である。具体的には、サーバＳＥＲは、「格助詞回数ＤＣ２÷抽出回数ＤＣ１」を計算すると、格助詞確率を求めることができる。

【0101】

同様に、特徴語が係助詞を伴って抽出された確率（以下「係助詞確率」という。）は、抽出回数ＤＣ１に対する係助詞回数ＤＣ３の割合を計算すると求まる値である。具体的には、サーバＳＥＲは、「係助詞回数ＤＣ３÷抽出回数ＤＣ１」を計算すると、係助詞確率を求めることができる。

【0102】

＜格助詞確率が第３閾値より大きい値であり、かつ、係助詞確率が第４閾値より大きい値であるか否かの判断例＞
ステップＳ０５０３では、サーバＳＥＲは、格助詞確率が第３閾値より大きい値であり、かつ、係助詞確率が第４閾値より大きい値であるか否かを判断する。

【0103】

まず、サーバＳＥＲは、ステップＳ０５０２で計算された格助詞確率と、第３閾値とを比較する。なお、第３閾値は、あらかじめ設定される値である。例えば、第３閾値には、「０．１」以上の値が設定される。このような第３閾値であると、「１０パーセント」より高い確率で格助詞を伴う特徴語が、格助詞確率が第３閾値より大きい値であると判断される。

【0104】

次に、サーバＳＥＲは、ステップＳ０５０２で計算された係助詞確率と、第４閾値とを比較する。なお、第４閾値は、あらかじめ設定される値である。例えば、第４閾値には、「０．１」以上の値が設定される。このような第４閾値であると、「１０パーセント」より高い確率で係助詞を伴う特徴語が、係助詞確率が第４閾値より大きい値であると判断される。

【0105】

そして、格助詞確率が第３閾値より大きい値であり、かつ、係助詞確率が第４閾値より大きい値であると（ステップＳ０５０３でＹＥＳ）、サーバＳＥＲは、ステップＳ０５０５に進む。一方で、格助詞確率が第３閾値より大きい値でない、又は、係助詞確率が第４閾値より大きい値でないと（ステップＳ０５０３でＮＯ）、サーバＳＥＲは、ステップＳ０５０４に進む。

【0106】

＜特徴語の削除例＞
ステップＳ０５０４では、サーバＳＥＲは、特徴語を削除する。すなわち、ステップＳ０５０３によって、格助詞確率が小さい値である、又は、係助詞確率が小さい値である特徴語は、特徴語データから削除される。

【0107】

＜特徴語の重要度の読み出し例＞
ステップＳ０５０５では、サーバＳＥＲは、特徴語の重要度を読み出す。すなわち、サーバＳＥＲは、ステップＳ０４０３で計算された重要度を読み出す。

【0108】

＜第５閾値の計算例＞
ステップＳ０５０６では、サーバＳＥＲは、第５閾値を計算して求める。例えば、第５閾値は、以下のように計算される。

【0109】

図１１は、本発明の一実施形態に係る情報処理装置による第５閾値の計算例を示す図である。なお、図では、横軸が、特徴語データに記憶される特徴語を示し、縦軸が、各特徴語の重要度を示す。したがって、図では、横軸において、左から右に向かって、重要度が高い順に特徴語が並べられた状態である。

【0110】

レビューでは、頻繁に評価される言葉は、重要度が高くなる場合が多い。そのため、特徴語及び特徴語の候補となる言葉の集合における重要度の分布は、図示するように、ロングテールで示せる。そして、この分布において、重要度が高い言葉が、特徴語である可能性が高い。そこで、サーバＳＥＲは、図示する分布において、全体のうち、上位「β」パーセントを占める言葉を特徴語であると推定し、それ以外の言葉をノイズと推定する。なお、「β」は、あらかじめ設定される値である。

【0111】

具体的には、まず、サーバＳＥＲは、特徴語データに記憶される特徴語を重要度が高い順に並べ、上位から「β」パーセントとなる特徴語を特定する。そして、サーバＳＥＲは、特定された特徴語の重要度を第５閾値とする。すなわち、サーバＳＥＲは、いわゆる累積密度が「β」パーセントとなる重要度を特定し、第５閾値とする。このようにすると、サーバＳＥＲは、上位「β」パーセントに含まれる重要度が高い言葉であるか否かを第５閾値と重要度を比較することによって判断できる。

【0112】

なお、「β」パーセントに入らない言葉（図では、「β」より右側の部分に該当する。）から、「準特徴語」が抽出されてもよい。「準特徴語」の詳細は、後述する。

【0113】

＜重要度が第５閾値より大きい値か否かの判断例＞
ステップＳ０５０７では、サーバＳＥＲは、重要度が第５閾値より大きい値か否かを判断する。すなわち、サーバＳＥＲは、第５閾値に基づいて、特徴語が図１１に示す分布において、上位に位置する言葉か否かを判断する。

【0114】

そして、重要度が第５閾値より大きい値であると（ステップＳ０５０７でＹＥＳ）、サーバＳＥＲは、特徴語のフィルタリング処理を終了する。一方で、重要度が第５閾値より大きい値でないと（ステップＳ０５０７でＮＯ）、サーバＳＥＲは、ステップＳ０５０８に進む。

【0115】

＜特徴語の削除例＞
ステップＳ０５０８では、サーバＳＥＲは、特徴語を削除する。すなわち、ステップＳ０５０７によって、重要度が小さい値である特徴語は、特徴語データから削除される。

【0116】

なお、格助詞確率及び係助詞確率に基づく判断（ステップＳ０５０２及びステップＳ０５０３等）と、重要度に基づく判断（ステップＳ０５０７等）とは、実行される順序が逆でもよい。ただし、図示するような順序とすると、サーバＳＥＲは、精度良く特徴語をフィルタリングできる。

【0117】

＜軸の生成例＞
ステップＳ０６では、サーバＳＥＲは、軸を生成する。軸は、商品等の評判を示す上で、商品等が有する機能等の評価指標を示す。なお、軸は、「評価軸」等と呼ばれる場合もある。例えば、軸は、以下のような処理によって生成される。

【0118】

図１２は、本発明の一実施形態に係る情報処理装置による軸の生成例を示すフローチャートである。

【0119】

＜特徴語と評価表現の「係り受け」を示す行列の生成例＞
ステップＳ０６０１では、サーバＳＥＲは、特徴語と評価表現の「係り受け」を示す行列を生成する。例えば、行列は、以下のように生成される。

【0120】

図１３は、本発明の一実施形態に係る特徴語と評価表現の「係り受け」を示す行列の一例を示す図である。以下、図示するように、縦方向ｊに、特徴語を並べ、一方で、横方向ｉに、評価表現を並べた行列を例に説明する。

【0121】

この例では、縦方向ｊには、特徴語データＤＳＰに記憶される特徴語が並べられる。そして、各特徴語と「係り受け」の関係があった評価表現が抽出され、横方向ｉに抽出された評価表現が並べられる。次に、行列の各要素には、「係り受け」の関係にあった回数が入力される。

【0122】

具体的には、図示する例では、「値段」という特徴語は、レビューにおいて、「安い」及び「満足」という評価表現と「係り受け」の関係にある言葉である。そして、この例では、「値段」と、「安い」という言葉は、「１０」回「係り受け」の関係にあったので、「１０」の値が行列の要素に入力される。同様に、この例では、「値段」と、「満足」という言葉は、「３」回「係り受け」の関係にあったので、「３」の値が行列の要素に入力される。

【0123】

＜ＴＦ−ＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）計算例＞
ステップＳ０６０２では、サーバＳＥＲは、ＴＦ−ＩＤＦ計算を行う。ＴＦ−ＩＤＦ計算は、言葉が出現する頻度（ＴＦ）と、多くの文に出現する頻度（逆文書頻度、ＩＤＦ）とを指標にする方法であって、各文書における言葉がどれだけ重要であるかを示す尺度を計算する。具体的には、サーバＳＥＲは、下記（５）式によって、ＴＦ−ＩＤＦ計算を行う。

【0124】

【数5】

例えば、上記（５）式に基づいて、図１３に示す行列を計算すると、計算結果は、以下のようになる。

【0125】

図１４は、本発明の一実施形態に係る情報処理装置によるＴＦ−ＩＤＦ計算の計算結果例を示す図である。まず、図示する例では、特徴語は、４種類、すなわち、縦方向ｊに４つの特徴語が抽出されるため、上記（５）式における「Ｆ：特徴語の総数」は、「４」となる。

【0126】

以下、「安い」の評価表現を例に説明する（上記（５）式における評価表現ｅ_ｉとする）。この例では、「安い」という評価表現は、「値段」及び「価格」という２つの特徴語と共起する。したがって、上記（５）式における「Ｆ_ｉ：評価表現ｅ_ｉと共起する特徴語の数」は、「２」となる。

【0127】

次に、「ｎ_ｉ，ｊ：評価表現ｅ_ｉと特徴語ｆ_ｊとが「係り受け」の関係にあった回数」は、図１３に示す「安い」の列から特定される。具体的には、「安い」と、「値段」との「ｎ_ｉ，ｊ」は、「１０」となる。同様に、「安い」と、「価格」との「ｎ_ｉ，ｊ」は、「８」となる。さらに、「安い」と、「音」との「ｎ_ｉ，ｊ」及び「安い」と、「吸引力」との「ｎ_ｉ，ｊ」は、「０」となる。

【0128】

また、上記（５）式における「ｔｆ_ｉ，ｊ：ＴＦ値」の計算での分母である「Σ_ｋｎ_ｋ，ｊ」は、評価表現ごとの「係り受け」の関係にあった回数を合計した値となる。具体的には、図１３に示す例では、「値段」は、「１０＋０＋０＋３＝１３」となる。次に、「価格」は、「８＋０＋０＋５＝１３」となる。また、「音」は、「０＋１０＋０＋０＝１０」となる。さらに、「吸引力」は、「０＋０＋９＋５＝１４」となる。

【0129】

また、図１４に示す例では、ＴＦ−ＩＤＦ値は、特徴語ごとに、ＴＦ−ＩＤＦを合計した値がほぼ「１」となるように正規化した値である。具体的には、図１４では、「値段」のＴＦ−ＩＤＦ値は、合計すると、「０．８８＋０＋０＋０．１１＝０．９９≒１」である。

【0130】

このように、ＴＦ−ＩＤＦ計算を行うと、特徴語と「係り受け」の関係があって、出現する回数の多い評価表現は、数値が高くなりやすい（ＴＦ値）。ただし、どのような特徴語に対しても評価する評価表現は、数値が低くなりやすい（ＩＤＦ値）。

【0131】

この例では、「満足」という評価表現は、どのような特徴語を評価するにも出現することが多い評価表現の例である。具体的には、「満足」は、「値段」、「価格」及び「吸引力」の３つの特徴語に対して、「係り受け」の関係がある。このように、汎用性が高い評価表現は、ＴＦ−ＩＤＦ計算では、値が小さくなる。一方で、「静か」という評価表現は、「音」という特徴語としか「係り受け」の関係がないため、ＴＦ−ＩＤＦ値は、「１．０」のように、値が大きくなる。

【0132】

＜特徴語のクラスタリング例＞
ステップＳ０６０３では、サーバＳＥＲは、特徴語をクラスタリングする。例えば、サーバＳＥＲは、ｋ−ｍｅｄｏｉｄｓ法及びＧａｐ統計量計算によって、特徴語をクラスタリングする。そして、クラスタリングされた各クラスタが、評判分析による軸となる。

【0133】

まず、クラスタ数ｋは、Ｇａｐ統計量を計算して決定する。具体的には、サーバＳＥＲは、例えば、クラスタ数ｋを「ｋ＝１，２，３・・・」の１つずつ増加させていく。そして、サーバＳＥＲは、それぞれのクラスタ数ｋごとに、Ｇａｐ統計量を計算する。

【0134】

Ｇａｐ統計量は、各クラスタにおけるデータの密集度を示す値である。すなわち、Ｇａｐ統計量が高い値であるほど、クラスタ内では、データは、凝集している状態である。そして、サーバＳＥＲは、Ｇａｐ統計量が高くなるクラスタ数ｋを特定する。なお、複数のクラスタ数ｋが特定される場合には、サーバＳＥＲは、最も小さい値のクラスタ数ｋを選択する。

【0135】

Ｇａｐ統計量によって、クラスタ数ｋを特定すると、サーバＳＥＲは、Ｘ−ｍｅａｎｓ法等と比較して、少ない計算コストによって、クラスタ数ｋを特定できる。また、Ｇａｐ統計量によって、クラスタ数ｋを特定すると、サーバＳＥＲは、Ｘ−ｍｅａｎｓ法等と比較して、精度良くクラスタ数ｋを特定できる。さらに、Ｇａｐ統計量によって、クラスタ数ｋを特定すると、サーバＳＥＲは、Ｘ−ｍｅａｎｓ法等と比較して、安定してクラスタ数ｋを特定できる。

【0136】

次に、サーバＳＥＲは、ｋ−ｍｅｄｏｉｄｓ法によって、代表点を特定する。例えば、ｋ−ｍｅｄｏｉｄｓ法によって、以下のように代表点が特定される。

【0137】

図１５は、本発明の一実施形態に係る情報処理装置によるｋ−ｍｅｄｏｉｄｓ法による代表点の特定例を示す図である。まず、図示するように、特徴語が、クラスタＣＬＵにクラスタリングされるとする。したがって、「○」で図示するように、それぞれのクラスタＣＬＵ内には、特徴語が点在する。

【0138】

ｋ−ｍｅｄｏｉｄｓ法は、教師なし学習法の一例である。ｋ−ｍｅｄｏｉｄｓ法では、特徴語となる各データは、他のデータとの距離が計算され、距離の総和が最も小さい値となるデータが特定される。例えば、図示するように、クラスタＣＬＵごとに、１つずつ代表点ＰＲＥが特定される。このように、ｋ−ｍｅｄｏｉｄｓ法が行われると、サーバＳＥＲは、クラスタＣＬＵごとに、中心となる特徴語を代表点ＰＲＥとして特定することができる。

【0139】

また、ｋ−ｍｅｄｏｉｄｓ法であると、ｋ−ｍｅａｎｓ法等と比較して、サーバＳＥＲは、いわゆる外れ値の影響を小さくできる。ｋ−ｍｅａｎｓ法では、平均値が計算されるため、データがない点等が選ばれる可能性が高い。一方で、ｋ−ｍｅｄｏｉｄｓ法では、クラスタＣＬＵ内にあるデータから、代表点ＰＲＥが特定されるため、特徴語の集合にない言葉が選ばれるようなことが防げる。

【0140】

さらに、サーバＳＥＲは、ｋ−ｍｅｄｏｉｄｓ法を用いると、同じような意味の言葉を１つの軸に絞ることができる。具体的には、「値段」及び「価格」等は、どちらも金銭についての言葉である。このような言葉は、別の言葉であっても、どちらも同じような意味で使われることが多い言葉である。そこで、サーバＳＥＲは、ｋ−ｍｅｄｏｉｄｓ法を用いると、同じような意味を示す特徴語のクラスタから、１つの特徴語を選び、言葉の揺らぎを吸収することができる。

【0141】

以上のように、ｋ−ｍｅｄｏｉｄｓ法及びＧａｐ統計量計算を用いると、サーバＳＥＲは、例えば、以下のように、特徴語をクラスタリングして軸を生成することができる。以下、「掃除機」の商品に対するレビューで、図示するような特徴語がステップＳ０４で抽出された場合を例に説明する。

【0142】

図１６は、本発明の一実施形態に係る情報処理装置による軸の生成例を示す図である。

【0143】

図示する例では、図１２に示す処理を行うと、サーバＳＥＲは、３つのクラスタに特徴語をクラスタリングできる。すなわち、この例では、サーバＳＥＲは、「軸１」、「軸２」及び「軸３」の３つの軸を生成することができる。なお、これらの軸とは別に、さらに、総合的な評価を示す「総合評価軸」を加えて、４つの軸としてもよい。以下、「総合評価軸」がある場合を例に説明する。

【0144】

そして、図示するように、ｋ−ｍｅｄｏｉｄｓ法を用いると、各軸において、代表点ＰＲＥとなる特徴語が特定される。そして、代表点ＰＲＥに特定された特徴語が、それぞれの軸名となる。このように、サーバＳＥＲは、軸を生成することができる。

【0145】

このように、ｋ−ｍｅｄｏｉｄｓ法及びＧａｐ統計量計算を用いると、サーバＳＥＲは、多すぎず、少なすぎない軸の数に最適化し、かつ、それぞれの軸に、それぞれの軸名を決定することができる。

【0146】

なお、軸の生成では、サーバＳＥＲは、以下のような計算をして軸を削除してもよい。まず、サーバＳＥＲは、すべての特徴語の重要度を総和した値（以下「全体値」という。）を計算する。次に、サーバＳＥＲは、軸ごとの特徴語の重要度を総和した値（以下「軸値」という。）を計算する。そして、全体値に対する軸値が、所定の値以下であると、サーバＳＥＲは、計算対象とした軸を削除する。なお、所定の値は、あらかじめ設定されるとする。

【0147】

クラスタリングでは、同じような意味を示す特徴語の数が少ない場合、すなわち、データ数がとても少ないクラスタが発生する場合がある。このような場合には、サーバＳＥＲは、データ数がとても少ないクラスタをノイズとし、削除する。

【0148】

重要な商品等の特性、すなわち、軸については、頻繁にレビューされる場合が多い。したがって、重要な軸であると、軸にクラスタリングされた特徴語は、重要度が高くなる場合が多い。したがって、重要度が低い軸を削除すると、サーバＳＥＲは、重要な軸に絞って評判の分析結果を示すことができる。

【0149】

＜準特徴語の分配例＞
軸の生成後、準特徴語が分配されるのが望ましい。

【0150】

ステップＳ０６０４では、サーバＳＥＲは、準特徴語を分配する。まず、準特徴語が分配される場合には、ステップＳ０５０８では、サーバＳＥＲは、対象となる特徴語を削除せず、「準特徴語」として記憶する。そして、サーバＳＥＲは、軸ごとに、各準特徴語のＴＦ−ＩＤＦ値を計算する。このように、ＴＦ−ＩＤＦ値によって、各準特徴語と、軸との距離が定まる。次に、サーバＳＥＲは、ＴＦ−ＩＤＦ値のうち、最も高い値（以下「１番目の値」という。）と、１番目の値の次に高い値（以下「２番目の値」という。）とを選ぶ。続いて、（１番目の値÷２番目の値）が判断値より高い値であるか否かを判断する。なお、判断値は、あらかじめ設定される値である。

【0151】

レビューでは、全体では、出現する頻度が低いが、特定の話題又は特性では、よく使われる言葉がある。このような言葉は、全体としては、出現する頻度が低いため、重要度等が低い値になる可能性が高い。しかし、このような言葉は、ある特性を評価する上では、重要な言葉である場合が多い。そこで、ステップＳ０５０７で重要度が低いと判断されても、このような言葉を削除せず、準特徴語とする。

【0152】

そして、（１番目の値÷２番目の値）は、所定の軸に対してだけ、ＴＦ−ＩＤＦ値が高いか否かを判定するための値である。つまり、ある特性に対するレビューでよく出現する言葉であれば、１番目の値は、高い値となるが、他の特性に対するレビューでは、あまり出現しないため、２番目の値等は、低い値となる場合が多い。そこで、（１番目の値÷２番目の値）が高い値であれば、準特徴語は、ある特性を評価する上では、重要な言葉である可能性が高い。

【0153】

したがって、サーバＳＥＲは、（１番目の値÷２番目の値）が高い値であれば、１番目の値となる軸に、準特徴語を分配する。このようにすると、サーバＳＥＲは、特定の話題又は特性に偏って使われる言葉も特徴語として使用することができる。

【0154】

＜評判分析例＞
ステップＳ０７では、サーバＳＥＲは、評判分析を行う。例えば、評判分析は、以下のように行われる。以下、図１６に示すように、軸が生成され（なお、以下の説明では、「総合評価」軸もあるとする。）、軸ごとに、評判を示す値（以下「評価値」という。）が計算されて、評判分析が行われるとする。

【0155】

図１７は、本発明の一実施形態に係る情報処理装置による評判分析例を示すフローチャートである。

【0156】

＜商品又はサービスの選択例＞
ステップＳ０７０１では、ユーザは、商品等を選択する。一方で、レビューデータには、各レビューが、どの商品等についてのレビューであるかを識別できるＩＤが付されている。そのため、以下の処理で処理対象となるレビューデータは、すべてのレビューデータから、ステップＳ０７０１で選択された商品等と同一の商品等についてのレビューデータに絞られる。

【0157】

＜レビューデータから１文を抽出する例＞
ステップＳ０７０２では、サーバＳＥＲは、レビューデータＤＲＥから１文を抽出する。例えば、サーバＳＥＲは、ステップＳ０３０１と同様の処理によってレビューデータから１文を抽出する。

【0158】

＜「係り受け」解析例＞
ステップＳ０７０３では、サーバＳＥＲは、「係り受け」解析を行う。「係り受け」解析が行われると、サーバＳＥＲは、各文節における「係り受け」の関係と、主節となる文節を把握できる。

【0159】

＜評価表現があるか否かの判断例＞
ステップＳ０７０４では、サーバＳＥＲは、評価表現があるか否かを判断する。具体的には、ステップＳ０７０２によって抽出された文のいずれかに、評価表現となる言葉が含まれると、サーバＳＥＲは、評価表現があると判断する。

【0160】

次に、評価表現があるとサーバＳＥＲが判断すると（ステップＳ０７０４でＹＥＳ）、サーバＳＥＲは、ステップＳ０７０５に進む。一方で、評価表現がないとサーバＳＥＲが判断すると（ステップＳ０７０４でＮＯ）、サーバＳＥＲは、ステップＳ０７０２又はステップＳ０７１２に進む。

【0161】

＜評価表現が主節であるか否かの判断例＞
ステップＳ０７０５では、サーバＳＥＲは、評価表現が主節であるか否かを判断する。すなわち、ステップＳ０７０３による解析等の構文解析が行われると、サーバＳＥＲは、対象となる評価表現が主文の述語であるか否かを判断できる。

【0162】

次に、評価表現が主節であるとサーバＳＥＲが判断すると（ステップＳ０７０５でＹＥＳ）、サーバＳＥＲは、ステップＳ０７０６に進む。一方で、評価表現が主節でないとサーバＳＥＲが判断すると（ステップＳ０７０５でＮＯ）、サーバＳＥＲは、ステップＳ０７０７に進む。

【0163】

＜「総合評価」軸の評価値に評価表現のスコアを加算する例＞
ステップＳ０７０６では、サーバＳＥＲは、「総合評価」軸の評価値に評価表現のスコアを加算する。すなわち、評価表現が主節である場合には、評価表現は、商品等を総合的に評価した結果を示す表現である場合が多い。そこで、サーバＳＥＲは、評価表現が主節である場合には、「総合評価」軸の評価値に、評価表現のスコアを反映させる。

【0164】

＜特徴語と「係り受け」の関係があるか否かの判断例＞
ステップＳ０７０７では、サーバＳＥＲは、評価表現が特徴語と「係り受け」の関係にあるか否かを判断する。

【0165】

次に、評価表現が特徴語と「係り受け」の関係にあるとサーバＳＥＲが判断すると（ステップＳ０７０７でＹＥＳ）、サーバＳＥＲは、ステップＳ０７０８に進む。一方で、評価表現が特徴語と「係り受け」の関係にないとサーバＳＥＲが判断すると（ステップＳ０７０７でＮＯ）、サーバＳＥＲは、ステップＳ０７０９に進む。

【0166】

＜「係り受け」の関係がある特徴語の軸の選択例＞
ステップＳ０７０８では、サーバＳＥＲは、「係り受け」の関係がある特徴語の軸を選択する。すなわち、サーバＳＥＲは、「係り受け」の関係がある特徴語がクラスタリングされた軸を特定する。具体的には、図１６に示す例では、「値段」が「係り受け」の関係がある特徴語とであると、サーバＳＥＲは、「軸１」を選択する。

【0167】

＜代表評価表現であるか否かの判断例＞
ステップＳ０７０９では、サーバＳＥＲは、評価表現が代表評価表現であるか否かを判断する。なお、代表評価表現は、例えば、軸の生成後、軸ごとに決定される。

【0168】

評価表現には、特徴語がなくとも特定の特性を評価できる表現がある。例えば、「安い」という評価表現は、「値段」等の特徴語が伴われなくても、金銭についての評価を示して使用される場合が多い。したがって、このような言葉は、特徴語と「係り受け」の関係がなくとも、特定の軸について評価を示すため、評価表現として評価値に反映されるのが望ましい言葉である。以下、このような言葉を「代表評価表現」という。

【0169】

代表評価表現は、評価表現とは別に決定される。例えば、代表評価表現は、以下のように決定される。まず、ステップＳ０６０３でｋ−ｍｅｄｏｉｄｓ法が行われると、軸ごとに、代表点となる特徴語が特定される。そして、代表点となる特徴語と、各評価表現との間には、ＴＦ−ＩＤＦ値がある。

【0170】

次に、ＴＦ−ＩＤＦ値が所定の閾値（以下「代表評価表現判定値」という。）以上である評価表現があると、サーバＳＥＲは、対象となる評価表現を代表評価表現に決定する。なお、代表評価表現判定値は、あらかじめ設定される。例えば、図１４に示す例では、「静か」という評価表現は、ＴＦ−ＩＤＦ値が高いため、代表評価表現と決定される。同様に、「安い」という評価表現は、ＴＦ−ＩＤＦ値が高いため、代表評価表現と決定される。また、「強い」という評価表現も、ＴＦ−ＩＤＦ値が高いため、代表評価表現と決定される。

【0171】

ステップＳ０７０９では、サーバＳＥＲは、決定された代表評価表現と同一の言葉であると、評価表現が代表評価表現であると判断する。

【0172】

次に、評価表現が代表評価表現であるとサーバＳＥＲが判断すると（ステップＳ０７０９でＹＥＳ）、サーバＳＥＲは、ステップＳ０７１０に進む。一方で、評価表現が代表評価表現でないとサーバＳＥＲが判断すると（ステップＳ０７０９でＮＯ）、サーバＳＥＲは、ステップＳ０７０２又はステップＳ０７１２に進む。

【0173】

＜代表評価表現に対応する軸の選択例＞
ステップＳ０７１０では、サーバＳＥＲは、代表評価表現に対応する軸を選択する。すなわち、サーバＳＥＲは、代表評価表現が決定された軸を特定する。具体的には、上記に示す例では、「静か」が「軸２」の代表評価表現と決定されているため、サーバＳＥＲは、「静か」という代表評価表現がある場合には、「軸２」を選択する。

【0174】

＜選択された軸の評価値に評価表現のスコアを加算する例＞
ステップＳ０７１１では、サーバＳＥＲは、選択された軸の評価値に評価表現のスコアを加算する。すなわち、ステップＳ０７０８又はステップＳ０７１０によって、軸があらかじめ選択される。そして、サーバＳＥＲは、あらかじめ選択される軸の評価値に評価表現のスコアを反映させる。

【0175】

以上のようなステップＳ０７０２乃至ステップＳ０７１１が所定回数繰り返し行われる。そして、所定回数繰り返した後、サーバＳＥＲは、ステップＳ０７１２に進む。一方で、繰り返しの場合には、ステップＳ０７０４、ステップＳ０７０９又はステップＳ０７１１の後、サーバＳＥＲは、ステップＳ０７０２に進む。なお、所定回数となるループ回数及びループ条件等は、あらかじめ設定される値である。

【0176】

＜レーダーチャートへのプロット例＞
ステップＳ０７１２では、サーバＳＥＲは、レーダーチャートへの評価値をプロットする。例えば、サーバＳＥＲは、レーダーチャートによって軸及び評判の解析結果をユーザに表示する。

【0177】

以上のような処理が具体的には以下のように行われる。

【0178】

図１８は、本発明の一実施形態に係る情報処理装置による評判分析例を示す図である。以下、まず、ステップＳ０３によって、図示するような辞書データＤＤＩ３が生成される例であるとする。さらに、ステップＳ０７が図示するような生成結果ＡＸＩであって、それぞれの軸に、図示するように、特徴語がクラスタリングされ、かつ、代表評価表現が決定された例であるとする。

【0179】

また、「掃除機」の商品について、評判分析を行うとする（ステップＳ０７０１）。次に、評判分析において、レビューデータから、「少しうるさいけど吸引力は強いし満足です。」という文（以下「対象文ＳＥＮ」という。）が抽出された例とする（ステップＳ０７０２）。

【0180】

続いて、「係り受け」解析が行われると（ステップＳ０７０３）、対象文ＳＥＮは、図示するような解析結果ＲＥＳとなる。具体的には、サーバＳＥＲは、対象文ＳＥＮにおいて、「少し」と、「うるさい」という言葉は、「係り受け」の関係があると解析する。同様に、「吸引力」と、「強い」という言葉は、「係り受け」の関係があると解析する。また、「満足」という言葉は、対象文ＳＥＮでは、最後の文節に含まれるため、主節にあると解析される。なお、「思う」又は「考える」等の言葉が最後の文節に含まれ場合等では、最後から１つ前の文節が、主節であるとされてもよい。

【0181】

次に、解析結果ＲＥＳに基づいて、ステップＳ０７０４乃至ステップＳ０７１１の処理が繰り返し行われる。まず、辞書データＤＤＩ３に基づいて、「満足」という言葉は、評価表現であると判断される（ステップＳ０７０４でＹＥＳ）。続いて、解析結果ＲＥＳに基づいて、「満足」という言葉は、主節であると判断される（ステップＳ０７０５でＹＥＳ）。したがって、「総合評価」軸が選択され、「総合評価」軸の評価値に、辞書データＤＤＩ３が示す「満足」のスコアである「＋０．９５」が加算される（ステップＳ０７０６）。

【0182】

次に、辞書データＤＤＩ３に基づいて、「強い」という言葉は、評価表現であると判断される（ステップＳ０７０４でＹＥＳ）。続いて、解析結果ＲＥＳに基づいて、「満足」という言葉は、「軸２」にクラスタリングされている「吸引力」という特徴語と「係り受け」の関係があると判断される（ステップＳ０７０７でＹＥＳ）。また、「吸引力」という特徴語が「軸２」にクラスタリングされているため、「軸２」が選択される（ステップＳ０７０８）。したがって、「軸２」が選択され、「軸２」の評価値に、辞書データＤＤＩ３が示す「強い」のスコアである「＋０．９０」が加算される（ステップＳ０７１１）。

【0183】

次に、辞書データＤＤＩ３に基づいて、「うるさい」という言葉は、評価表現であると判断される（ステップＳ０７０４でＹＥＳ）。続いて、解析結果ＲＥＳ及び生成結果ＡＸＩに基づいて、「うるさい」という言葉は、「軸１」に決定されている代表評価表現であると判断される（ステップＳ０７０９でＹＥＳ）。また、「うるさい」という評価表現が「軸１」の代表評価表現に決定されているため、「軸１」が選択される（ステップＳ０７１０）。したがって、「軸１」が選択され、「軸１」の評価値に、辞書データＤＤＩ３が示す「うるさい」のスコアである「−０．９２」が加算される（ステップＳ０７１１）。

【0184】

以上のように評判分析が行われると、サーバＳＥＲは、図示するような評判分析結果ＡＮＳを生成できる。なお、評判分析結果ＡＮＳでは、１つの対象文ＳＥＮのみの評判分析の結果であるため、「レビュー数」は、「１」である。以降、同様に、他の文についても評判分析を行うと、評判分析結果ＡＮＳが示す「評価値」が、ステップＳ０７０７又はステップＳ０７１１によって変化する。以上のような評判分析結果ＡＮＳが得られると、サーバＳＥＲは、例えば、以下のようなレーダーチャート等によって軸及び評判の解析結果をユーザに表示できる。

【0185】

図１９は、本発明の一実施形態に係る情報処理装置が表示するレーダーチャートの一例を示す図である。まず、図示するように、図１８に示す例では、生成結果ＡＸＩに基づいて、サーバＳＥＲは、「軸１」乃至「軸３」となる軸ＡＸ１、軸ＡＸ２及び軸ＡＸ３をレーダーチャート上に表示する。さらに、サーバＳＥＲは、「総合評価」軸となる軸ＡＸＴをレーダーチャート上に表示する。

【0186】

次に、サーバＳＥＲは、評判分析結果ＡＮＳに基づいて、軸ＡＸ１上に「軸１」の評価値をプロットする（ステップＳ０７１２）。同様に、サーバＳＥＲは、評判分析結果ＡＮＳに基づいて、軸ＡＸ２上に「軸２」の評価値をプロットする（ステップＳ０７１２）。さらに、サーバＳＥＲは、評判分析結果ＡＮＳに基づいて、軸ＡＸ３上に「軸３」の評価値をプロットする（ステップＳ０７１２）。さらにまた、サーバＳＥＲは、評判分析結果ＡＮＳに基づいて、軸ＡＸＴ上に「総合評価」軸の評価値をプロットする（ステップＳ０７１２）。

【0187】

以上のようなレーダーチャートが表示されると、ユーザは、サーバＳＥＲが生成した軸を見ることができる。また、評価値に基づいて、商品等の様々な特性が評価された結果が各軸上に表示されるため、ユーザは、商品等が有する機能等が評判の良い機能であるか等を把握することができる。

【0188】

＜実行結果例＞
以下、全体処理を実行した評価実験結果の例を示す。

【0189】

なお、評価実験は、以下のようなレビューを対象とした。

【0190】

図２０は、本発明の一実施形態に係る情報処理装置が全体処理の対象としたレビューの条件を示す表である。図示するような条件下において、投稿されたレビューのレビューデータを全体処理の対象として評価した結果を以下に説明する。まず、この例では、商品及びそれぞれのレビュー数は、以下のようであった。

【0191】

図２１は、本発明の一実施形態に係る情報処理装置が全体処理の対象とした商品及びそれぞれのレビュー数を示す表である。図示するように、以下に示す評価実験結果は、「掃除機」、「スーツ」及び「和菓子」の３カテゴリの商品についてのレビューがあった例である。

【0192】

また、評価実験結果は、以下のような設定によって行われた結果である。

【0193】

図２２は、本発明の一実施形態に係る情報処理装置が全体処理に用いた設定値を示す表である。図示するような設定値が、全体処理が行われる前に、あらかじめ情報処理装置にされて全体処理が実行された結果が以下の通りである。

【0194】

まず、辞書データは、ステップＳ０３によって、以下のように生成された。

【0195】

図２３は、本発明の一実施形態に係る情報処理装置が全体処理において生成した辞書データを示す表である。図示するような数の肯定語及び否定語が、レビューデータより抽出された。具体的には、以下のような評価表現が抽出された。

【0196】

図２４は、本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから抽出した評価表現を示す表である。

【0197】

図２５は、本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから抽出した評価表現を示す表である。

【0198】

図２６は、本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから抽出した評価表現を示す表である。

【0199】

また、特徴語は、以下のように分布した。

【0200】

図２７は、本発明の一実施形態に係る情報処理装置による全体処理において出現した特徴語の分布を示す図である。

【0201】

そして、特徴語は、以下のように抽出された。

【0202】

図２８は、本発明の一実施形態に係る情報処理装置が全体処理において抽出した特徴語を示す表である。

【0203】

続いて、軸は、以下のような評価軸が生成された。

【0204】

図２９は、本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成した軸を示す表である。なお、表における「除去フラグ」は、軸を削除する処理を行った結果である。すなわち、この評価実験では、図３に示すステップＳ０６において、軸を生成する処理の後、重要度が低い軸を削除する処理を行っている。そして、削除対象になるほど、重要度が低いと判断されると、「除去フラグ」には、「Ｔ」が入力される。一方で、削除対象としない場合には、「除去フラグ」には、「Ｆ」が入力される。以下、同様に記載する。

【0205】

図３０は、本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成した軸を示す表である。

【0206】

図３１は、本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成した軸を示す表である。

【0207】

また、準特徴語は、以下のように抽出及び分配された。

【0208】

図３２は、本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから抽出及び分配した準特徴語を示す表である。

【0209】

図３３は、本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから抽出及び分配した準特徴語を示す表である。

【0210】

図３４は、本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから抽出及び分配した準特徴語を示す表である。

【0211】

また、代表評価表現は、以下のように決定された。

【0212】

図３５は、本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成した軸及び代表評価表現を示す表である。

【0213】

図３６は、本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成した軸及び代表評価表現を示す表である。

【0214】

図３７は、本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成した軸及び代表評価表現を示す表である。

【0215】

以上のような結果から、以下のようなレーダーチャートが生成された。

【0216】

図３８は、本発明の一実施形態に係る情報処理装置が全体処理において「掃除機」のレビューデータから生成したレーダーチャートを示す図である。「掃除機」については、全体処理において、図３５に示すように、「評価軸１」乃至「評価軸８」の８つの軸が生成された。したがって、図３８に示すレーダーチャートでは、「モーター音」、「使い勝手」、「吸引力」、「形」、「価格」、「ヘッド」、「ごみ捨て」及び「使い心地」の８つの軸が生成され、各軸上に、それぞれの評判分析結果が表示された。なお、このレーダーチャートでは、総合評価の結果は、「４．０７」及び「１．６４」のように数値で示している。

【0217】

図３９は、本発明の一実施形態に係る情報処理装置が全体処理において「スーツ」のレビューデータから生成したレーダーチャートを示す図である。「スーツ」については、全体処理において、図３６に示すように、「評価軸１」乃至「評価軸７」の７つの軸が生成された。したがって、図３９に示すレーダーチャートでは、「生地」、「質感」、「お値段」、「サイズ展開」、「シルエット」、「質」及び「丈」の７つの軸が生成され、各軸上に、それぞれの評判分析結果が表示された。なお、このレーダーチャートでは、総合評価の結果は、「４．０９」及び「２．６４」のように数値で示している。

【0218】

図４０は、本発明の一実施形態に係る情報処理装置が全体処理において「和菓子」のレビューデータから生成したレーダーチャートを示す図である。「和菓子」については、全体処理において、図３７に示すように、「評価軸１」乃至「評価軸７」の７つの軸が生成された。したがって、図４０に示すレーダーチャートでは、「餡」、「縁起」、「甘さ」、「見た目」、「お値段」、「いちご」及び「生地」の７つの軸が生成され、各軸上に、それぞれの評判分析結果が表示された。なお、このレーダーチャートでは、総合評価の結果は、「３．８０」及び「３．２９」のように数値で示している。

【0219】

図３８乃至図４０では、各カテゴリにおいて、２つの商品について、評判分析を行っている。また、評価値は、「１」乃至「５」の範囲となるように正規化した値である。そして、評価値は、値が大きいと、肯定的である。

【0220】

具体的には、図３８に示すように、「掃除機」のカテゴリでは、「Ｐｒｏｄｕｃｔ１」の商品が、「Ｐｒｏｄｕｃｔ２」の商品より、「使い心地」、「モーター音」及び「ヘッド」といった特性で評判が良いことがわかる。

【0221】

以上のように、情報処理装置は、商品等の評判を示す軸を生成できる。

【0222】

＜機能構成例＞
図４１は、本発明の一実施形態に係る情報処理装置の機能構成例を示す機能ブロック図である。図示するように、サーバＳＥＲは、入力部Ｆ０１と、評価表現抽出部Ｆ０２と、特徴語抽出部Ｆ０３と、クラスタリング部Ｆ０４と、評判分析部Ｆ０５とを含む機能構成である。また、図示するように、サーバＳＥＲは、図示するように、評判分析部Ｆ０５を更に含む機能構成であるのが望ましい。以下、図示する機能構成を例に説明する。

【0223】

入力部Ｆ０１は、商品等に対する複数のレビューデータＤＲＥを入力する入力手順を行う。例えば、入力部Ｆ０１は、入力装置Ｈ０３（図２参照）又はネットワークインタフェースＨ０５（図２参照）等によって実現される。

【0224】

評価表現抽出部Ｆ０２は、複数のレビューデータＤＲＥに含まれ、商品等に対する意見、評判、感想又は評価を示す評価表現を抽出する評価表現抽出手順を行う。例えば、評価表現抽出部Ｆ０２は、ＣＰＵＨ０１（図２参照）等によって実現される。

【0225】

特徴語抽出部Ｆ０３は、評価表現に基づいて、複数のレビューデータＤＲＥに含まれ、商品等の特徴を示す特徴語を抽出する特徴語抽出手順を行う。例えば、特徴語抽出部Ｆ０３は、ＣＰＵＨ０１（図２参照）等によって実現される。

【0226】

クラスタリング部Ｆ０４は、特徴語抽出部Ｆ０３が抽出する特徴語をクラスタに分け、クラスタごとに軸を生成するクラスタリング手順を行う。例えば、クラスタリング部Ｆ０４は、ＣＰＵＨ０１（図２参照）等によって実現される。

【0227】

評判分析部Ｆ０５は、複数のレビューデータＤＲＥから、クラスタリング部Ｆ０４が生成する軸ごとに、商品等の特性についての評判を示す評判値を計算する評判分析手順を行う。例えば、評判分析部Ｆ０５は、ＣＰＵＨ０１（図２参照）等によって実現される。

【0228】

まず、サーバＳＥＲは、入力部Ｆ０１によって、複数のレビューを示す複数のレビューデータＤＲＥを入力する。次に、サーバＳＥＲは、評価表現抽出部Ｆ０２によって、例えば、ステップＳ０３のように、評価表現を抽出し、辞書データＤＤＩを更新して、辞書データＤＤＩを構築する。なお、サーバＳＥＲは、評価表現を例えば、ステップＳ０３０６のようにフィルタリングするのが望ましい。このようにすると、サーバＳＥＲは、複数のレビューデータＤＲＥから、商品等に対する評価等を示す言葉である評価表現を抽出できる。

【0229】

次に、サーバＳＥＲは、特徴語抽出部Ｆ０３によって、複数のレビューデータＤＲＥから、例えば、ステップＳ０４のように、特徴語を抽出し、特徴語データＤＳＰに記憶する。なお、サーバＳＥＲは、特徴語をステップＳ０５のようにフィルタリングするのが望ましい。さらに、サーバＳＥＲは、ステップＳ０６０４のように、準特徴語を分配するのが望ましい。このようにすると、サーバＳＥＲは、複数のレビューデータＤＲＥから、商品等の特性を示す言葉である特徴語を抽出できる。

【0230】

続いて、サーバＳＥＲは、クラスタリング部Ｆ０４によって、ステップＳ０６０３のように、複数の特徴語をクラスタに分ける。このようにすると、サーバＳＥＲは、複数のレビューデータＤＲＥに含まれる特徴語を例えば、図３５乃至図３７のようにクラスタリングできる。このようにすると、サーバＳＥＲは、クラスタごとに、軸を生成できる。以上のような構成であると、あらかじめ管理者等が軸を設定するのではなく、情報処理装置が商品等の評判を示す軸を生成できる。

【0231】

そして、評判分析部Ｆ０５によって評判分析が例えば、ステップＳ０７のように行われると、サーバＳＥＲは、例えば、図１９のように、レーダーチャートによって、商品等の評判をユーザに示すことができる。

【0232】

＜その他の実施形態＞
情報処理装置は、１台の装置でなく、複数の装置で構成されてもよい。すなわち、本発明に係る処理は、１台以上の情報処理装置を有する情報処理システムによって実行されてもよい。そして、情報処理システムは、各処理を並行、分散、冗長、仮想化又はこれらの組み合わせて実行してもよい。

【0233】

なお、本発明に係る各処理の全部又は一部は、アセンブラ等の低水準言語又はオブジェクト指向言語等の高水準言語で記述され、コンピュータに情報処理方法を実行させるためのプログラムによって実現されてもよい。すなわち、プログラムは、情報処理装置又は１以上の情報処理装置を含む情報処理システム等のコンピュータに各処理を実行させるためのコンピュータプログラムである。

【0234】

また、プログラムは、コンピュータが読み取り可能な記録媒体に記録されて頒布することができる。なお、記録媒体は、磁気テープ、フラッシュメモリ、光ディスク、光磁気ディスク又は磁気ディスク等のメディアである。さらに、プログラムは、電気通信回線を通じて頒布することができる。

【0235】

以上、本発明の好適な一実施形態を例に説明した。なお、上記の説明では、特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨及び範囲から逸脱することなく、上記に説明した具体例に、様々な修正及び変更が加えられてもよい。すなわち、具体例の詳細及び添付の図面によって説明した実施形態に、本発明が限定されるものと解釈してはならない。

【符号の説明】

【0236】

ＳＥＲサーバ
ＤＲＥレビューデータ
ＤＤＩ、ＤＤＩ１、ＤＤＩ２、ＤＤＩ３辞書データ
ＤＳＰ特徴語データ
ＣＬＵクラスタ

【図1】