【文献】
阿部 修也,みんなの経験:ブログから抽出したイベントおよびセンチメントのDB化,言語処理学会第15回年次大会発表論文集,言語処理学会,2009年 3月 2日,page 296-299
(58)【調査した分野】(Int.Cl.,DB名)
上記考察文生成手段は、各文に設定された評価軸単位で分類・抽出された文の集合に対して上記の考察ルールを適用し、適用条件にマッチする考察ルールがある場合には対応のテンプレートを当該評価軸に係る考察文として抽出することを特徴とする請求項1または2に記載の感性分析システム。
上記考察文生成手段は、各文に関連付けられた執筆者の属性単位で分類・抽出された文の集合に対して上記の考察ルールを適用し、適用条件にマッチする考察ルールがある場合には対応のテンプレートを当該属性に係る考察文として抽出することを特徴とする請求項1〜3の何れかに記載の感性分析システム。
【発明を実施するための最良の形態】
【0019】
図1は、この発明に係る感性分析システム10の全体構成を示すブロック図であり、文書登録部11と、文書記憶部12と、文書解析部13と、ネガ/ポジ判定部14と、感性辞書記憶部15と、否定表現記憶部16と、主題認定部17と、意図抽出部18と、意図表現記憶部19と、分析結果記憶部20と、分析結果評価部21と、評価軸類似表現記憶部22と、時系列解析部23と、考察ルール記憶部24と、画面生成部25とを備えている。
【0020】
上記の文書登録部11、文書解析部13、ネガ/ポジ判定部14、主題認定部17、意図抽出部18、分析結果評価部21、時系列解析部23及び画面生成部25は、サーバコンピュータのCPUが、OS及びアプリケーションプログラムに従って必要な処理を実行することによって実現される。
また、上記の文書記憶部12、感性辞書記憶部15、否定表現記憶部16、意図表現記憶部19、分析結果記憶部20、評価軸類似表現記憶部22及び考察ルール記憶部24は、サーバコンピュータの外部記憶装置内に設けられている。
【0021】
この感性分析システム10は、Webサーバ26とネットワーク接続されており、Webサーバ26はインターネット27を介して複数のクライアント端末28と接続される。
各クライアント端末28は、OS及びWebブラウザを搭載したPC等よりなる。
【0022】
つぎに、この感性分析システム10の利用方法について説明する。
まずユーザは、クライアント端末28からWebサーバ26にアクセスし、ID及びパスワードを入力してログインした後、サービスメニューから「感性分析サービス」を選択する。
この結果、Webサーバ26からクライアント端末28に対して分析条件指定画面が送信される。
【0023】
図2は、この分析条件指定画面40の一例を示すものであり、分析対象ファイル指定欄41と、評価軸指定欄42とを備えている。
【0024】
まず、分析対象ファイル指定欄41は、ユーザ側で事前に準備した文書ファイルを指定する欄である。すなわち、ユーザが参照ボタン43をクリックすると、クライアント端末28のドライブ構造を示すファイル選択ウィンドウがWebブラウザ上に表示される。これに対しユーザは、特定のドライブ名やその配下のフォルダ名をクリックして展開させ、特定の文書ファイルを指定する。
図においては、「03〜11 アンケート結果.csv」という文書ファイルが指定されている。
【0025】
この文書ファイルには、ユーザである「ABC観光ホテル」の顧客から集めた電子化済みの文書が、複数件格納されている。
各文書は、個々の顧客が記述したアンケートの回答文書に相当し、それぞれ複数の文が含まれている。また各文書には、回答日時や更新日時等の時間情報と、回答者の属性情報(性別、年代、職業、都道府県、郵便番号等)が付加されている。
【0026】
評価軸指定欄42は、分析対象ファイルに含まれた各文に対する分析項目を指定する欄であり、ユーザの属する業界毎に設定された標準の評価軸が、複数列挙されている。
図においては、ユーザIDに関連付けられた業種コードが「ホテル・旅館業界」であるため、「価格」、「料理」、「部屋」、「風呂」、「立地」、「宴会」、「設備」等が表示されている。
これに対しユーザは、不要な評価軸のチェックボックスに入れられたチェックを外すことにより、当該評価軸を分析項目から除外することができる。
【0027】
以上の設定を完了したユーザが、分析開始ボタン44をクリックすると、クライアント端末28からWebサーバ26に対して、感性分析リクエストが送信される。
この際、ユーザが指定した文書ファイルのデータと、ユーザが設定した評価軸の識別コードが、Webサーバ26に送信される。
これを受けたWebサーバ26は、クライアント端末28からアップロードされた文書ファイルや業種コード等のデータを感性分析システム10に送信し、分析を依頼する。
【0028】
以下、
図3のフローチャートに従い、この感性分析システム10における処理手順を説明する。
まず、感性分析システム10の文書登録部11は、Webサーバ26から送信された文書ファイルを、文書記憶部12に格納する(S10)。この文書ファイルには、ユーザが設定した評価軸の識別コード及びユーザの業種コードが関連付けられている。
【0029】
つぎに、文書解析部13が文書記憶部12に格納された文書ファイルを取り出し、当該文書ファイル中の各文書について文書識別コードを付与すると同時に、各文書に含まれる各文について文識別コードを付与する(S11)。
【0030】
つぎに文書解析部13は、文書ファイル中の各文について、形態素解析処理を施す(S12)。
ここで「形態素解析」とは、自然言語で記述された文を、意味を有する最小の言語単位である形態素に分解し、それぞれの品詞を特定する処理をいう。この形態素解析処理は公知技術であり、例えば以下のようなフリーソフトを形態素解析エンジンとして用いることができる。
■MeCab(http://mecab.sourceforge.net/)
■ChaSen(http://chasen.naist.jp/hiki/ChaSen/)
【0031】
つぎに文書解析部13は、形態素に分解された各文について、構文解析処理を施す(S14)。
ここで「構文解析」とは、各文に含まれる文節間の係り受け構造を特定する処理をいう。この構文解析自体も公知技術であり、例えば以下のようなフリーソフトを構文解析エンジンとして用いることができる。
■KNP(http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html)
■CaboCha(http://chasen.org/~taku/software/cabocha/)
【0032】
文書解析部13による処理が完了すると、ネガ/ポジ判定部14によるネガ/ポジ判定処理が実行される(S16)。
以下、
図4のフローチャートに従い、ネガ/ポジ判定処理の具体的な手順について説明する。
【0033】
まずネガ/ポジ判定部14は、感性辞書記憶部15内に格納された各種感性辞書を参照し、各文を構成する形態素または形態素の組合せの中で、感性辞書に登録された感性用語に該当するものを探索する(S16-01)。
【0034】
感性辞書記憶部15には、
図5に示すように、汎用辞書群50と、複数のドメイン別辞書群55が格納されている。また、汎用辞書群50には、単語辞書51、二項関係辞書52、慣用句辞書53、擬態語辞書54の各辞書が含まれている。さらに、各ドメイン別辞書群55には、単語辞書56、二項関係辞書57、擬態語辞書58の各辞書がそれぞれ含まれている。
【0035】
図6は、汎用辞書群50に属する単語辞書51の登録データを例示するものであり、「感性用語」、「読みがな」及び「極性」のデータ項目を備えたレコードが多数格納されている。
ここで「感性用語」のデータ項目には、「おいしい」や「うまい」、「まずい」等、事物に対する肯定/否定(良し悪し)に関する人間の主観的な価値判断を表す名詞や形容詞等が格納されている。また、極性のデータ項目には、当該感性用語の意味内容が肯定的な場合には「+」の符号が、否定的な場合には「−」の符号が設定されている。
【0036】
汎用辞書群50に属する二項関係辞書52にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
ここで「二項関係」とは、例えば「値段が高い」のように、二つの単語が助詞を介して組み合わされることにより、初めて一つの具体的な価値判断が生じる言葉を意味している。
すなわち、「高い」という形容詞は、一般的には肯定的な意味合いを観念させるものであるが、「値段が高い」や「危険性が高い」、「腐食性が高い」のように、主語によっては否定的な意味合いが生じる場合がある。あるいは逆に、「低い」という形容詞は、一般的には否定的な意味合いを観念させるものであるが、「危険性が低い」や「毒性が低い」、「違法性が低い」のように、主語によって肯定的な意味合いが生じる場合がある。
このため二項関係辞書52には、このように二つの単語の組合せによって具体的な価値判断を表すこととなる言葉について、「+」または「−」の極性が付与されている。
【0037】
汎用辞書群50に属する慣用句辞書53にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
具体的には、「馬の耳に念仏(感性用語)/−(極性)」、「雨降って地固まる(感性用語)/+(極性)」、「片腹痛い(感性用語)/−(極性)」、「覆水盆に返らず(感性用語)/−(極性)」、「出藍の誉れ(感性用語)/+(極性)」のように、諺や格言のように価値判断を伴う慣用句が「感性用語」のデータ項目に充填されると共に、各慣用句の意味合いが肯定的なものである場合には「+」が、否定的なものである場合には「−」が「極性」のデータ項目に充填されている。
【0038】
汎用辞書群50に属する擬態語辞書54にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードが多数登録されている。
具体的には、「わくわく(感性用語)/+(極性)」、「ほっこり(感性用語)/+(極性)」、「ざわざわ(感性用語)/−(極性)」、「ぎとぎと(感性用語)/−(極性)」のように、価値判断を伴う擬態語が「感性用語」のデータ項目に充填されると共に、各擬態語の意味合いが肯定的なものである場合には「+」が、否定的なものである場合には「−」が「極性」のデータ項目に充填されている。
【0039】
各ドメイン別辞書群55に属する単語辞書56、二項関係辞書57、擬態語辞書58にも、図示は省略したが、「感性用語」、「読みがな」、「極性」のデータ項目を備えたレコードがそれぞれ多数登録されている。
ただし、各ドメイン別辞書群は、それぞれ特定のカテゴリ(業界、商品分野、サービス分野)毎に用意されており、当該カテゴリに特有の感性用語や極性が登録されている。
【0040】
そして、特定の形態素または形態素の組合せにマッチする感性用語が感性辞書中に存在していた場合、ネガ/ポジ判定部14はその感性用語の極性を表すタグ(<+>または<−>)を当該表現に付与する(S16-02)。
【0041】
この際、例えば文中に「値段が少し高い」という表現があり、二項関係辞書52中に「値段が高い(感性用語)/−(極性)」の登録例が存在した場合に、ネガ/ポジ判定部14は構文解析の処理結果を参照することにより、「値段が少し高い」に対して<−>のタグを付与することができる。
すなわち、文書解析部13による構文解析処理により、当該文中の「値段が」の文節が「高い」の文節に係ることを示す解析データが生成されているため、ネガ/ポジ判定部14はこの解析データに基づき、二項関係辞書52中の「値段が高い」の極性を「値段が少し高い」の表現に適用可能となる。
【0042】
つぎにネガ/ポジ判定部14は、否定表現記憶部16を参照し、各文を構成する形態素または形態素の組合せ中で、否定表現記憶部16に登録された否定表現パターンに合致する表現を探索する(S16-03)。
【0043】
否定表現記憶部16には、図示は省略したが、否定文を作る際に用いられる多数の否定表現パターンが格納されている。例えば、「思えません」、「思えない」、「いえません」、「いえない」、「いえぬ」、「ありません」、「ない」、「感じません」、「感じない」、「考えません」、「考えない」等が該当する。
そして、否定表現記憶部16中に文中の形態素または形態素の組合せにマッチする否定表現パターンが登録されていた場合、ネガ/ポジ判定部14はその表現(形態素または形態素の組合せ)に対して否定表現タグ(<否定>)を付与する(S16-04)。
【0044】
つぎにネガ/ポジ判定部14は、各文に付与された極性タグと否定表現タグとの組合せに独自の文法ルールを適用することにより、文全体が否定的か肯定的かの判定を行う(S16-05)。
そして、「否定的」との判定結果が出た場合、ネガ/ポジ判定部14は当該否定評価文に「<N>(Negative)」のネガ判定タグを付与し、「肯定的」との判定結果が出た場合には、当該肯定評価文に「<P>(Positive)」のポジ判定タグを付与する(S16-06)。
【0045】
例えば、
図7(a)に示すように、「料理は、おいしいと思いました。」という文の場合、「おいしい」の形態素に<+>の極性タグが付与されており、<否定>タグは付与されていないため、ネガ/ポジ判定部14は文全体を「肯定的」と認定し、<P>のポジ判定タグを関連付ける。
【0046】
これに対し、
図7(b)に示すように、「料理は、おいしいとは思いませんでした。」という文の場合、「おいしい」の形態素に<+>の極性タグが付与されているが、それよりも後方に位置する「思いません」の部分に<否定>タグが付与されているため、ネガ/ポジ判定部14は文全体を「否定的」と認定し、<N>のネガ判定タグを関連付ける。
【0047】
また、
図7(c)に示すように、「料理は、まずかったです。」という文の場合、「まずかっ」の形態素に<−>の極性が付与されており、<否定>タグは付与されていないため、ネガ/ポジ判定部14は文全体を「否定的」と認定し、<N>のネガ判定タグを関連付ける。
【0048】
これに対し、
図7(d)に示すように、「料理は、まずくはありませんでした。」という文の場合、「まずく」の形態素に<−>の極性が付与されているが、それよりも後方に位置する「ありません」の部分に<否定>タグが付与されているため、ネガ/ポジ判定部14は文全体を「肯定的」と認定し、<P>のポジ判定タグを関連付ける。
【0049】
ネガ/ポジ判定部14によるネガ/ポジ判定処理が完了すると、主題認定部17による主題認定処理が実行される(
図3のS18)。
ここで「主題認定処理」とは、ネガ/ポジの評価対象を特定する処理を意味する。
【0050】
この主題を特定するため主題認定部17は、まず文中における格要素「〜は」、「〜が」、「〜も」を探索し、これらの助詞が付属している自立語(主格)を主題と認定し、その旨を示す<主題>のタグを付与する。
図7で示した各例文の場合、「料理」が主題に該当する。
【0051】
文によっては、主格が省略されている場合がある。例えば、
図8に示すように、「(1) 部屋が蒸し暑くて寝苦しかった。」の文に続く「(2) しかもかび臭かった。」では、主格が省略されている。このような場合、主題認定部17は前の文の主題である「部屋」を後の文に継承させ、(2)の文の主題として「部屋」を認定する。
【0052】
この主題の継承は、連続する文の間に限定されるものではなく、主格の存在しない文が続いた場合には、次々と継承される。
図8においては、「(3) 静かなのがせめてもの救いだった。」の文にも、(1)の文の「部屋」が主格として継承されている。そして、新たな主格である「料理は」を有する(4)の文が登場した時点で、「部屋」の主題としての継承が停止されている。
【0053】
当該文中に主格が存在せず、かつ、継承すべき主格を備えた先行文が存在しない場合、主題認定部17は当該文中に連体修飾語が含まれているか否かを探索し、連体修飾語を発見した場合にはその修飾先の形態素を主題と認定する。
例えば、「いい香り。」という文の場合、主格が省略されているが、「香り」という名詞(体言)を修飾している連体修飾語「いい(<+>)」が存在しているため、主題認定部17は「香り」を当該文の主題と認定する。
【0054】
主題認定部17による主題認定処理が完了すると、意図抽出部18による意図抽出処理が実行される(
図3のS20)。
ここで「意図」とは、個別の主題に対する発言者(文執筆者)の「良い/悪い」という二元論的な価値判断の他に、当該価値判断の背後に潜む発言目的や思惑、あるいは良し悪しの価値判断から離れた発言者の読み手に対する主張やメッセージなどを含む概念であり、「好評」、「不満」、「意向」、「要望」、「質問」、「予想外」、「興味有り」、「興味無し」等に類型化できる。
【0055】
まず意図抽出部18は、<P>のポジ判定タグが付与された文に対して<好評>の意図類型タグを付与すると共に、<N>のネガ判定タグが付与された文に対して<不満>の意図類型タグを付与する。
【0056】
つぎに、意図抽出部18は意図表現記憶部19を参照して、各文中の表現(形態素または形態素の組合せ)とのマッチングを実行し、<好評>及び<不満>以外の意図類型を抽出する。
すなわち、
図9に示すように、意図表現記憶部19に格納された各レコードは、「意図表現」と「意図類型」のデータ項目を備えている。そこで意図抽出部18は、この意図表現にマッチする表現を各文中において探索し、該当する表現を発見した場合には、対応する意図類型のタグを当該表現に関連付ける。
【0057】
例えば、
図10(a)に示すように、「夕食が粗末なので、もう少し品数を増やして下さい。」という文が与えられた場合、意図抽出部18は「下さい」の文字列が意図表現記憶部19に存在することを探知した後、「下さい」の意図類型である「要望」に対応した<要望>の意図類型タグを当該表現に関連付ける。
因みに、この文については文全体が「否定的」であることを示す<N>のネガ判定タグが付与されているため、<不満>の意図類型タグが重複的に付与されている。
【0058】
また、
図10(b)に示すように、「値段が良心的なのには驚きました。」という文が与えられた場合、意図抽出部18は「驚き」の文字列が意図表現記憶部19に存在することを探知した後、「驚き」に対応した<予想外>の意図類型タグを当該表現に付与する。
この文については、文全体が「肯定的」であることを示す<P>のポジ判定タグが付与されているため、<好評>の意図類型タグも付与されている。
【0059】
また、
図10(c)に示すように、「アクセスが悪いので今度は車にしたい。」という文が与えられた場合、意図抽出部18は「したい」の文字列が意図表現記憶部19に存在することを探知した後、「したい」に対応した<意向>の意図類型タグを当該文に付与する。
この文については、文全体が「否定的」であることを示す<N>のネガ判定タグが付与されているため、<不満>の意図類型タグも付与されている。。
【0060】
さらに、
図10(d)に示すように、「当方の頼み方がいけなかったのでしょうか?」という文が与えられた場合、意図抽出部18は「でしょうか」の文字列が意図表現記憶部19に存在することを探知した後、「でしょうか」に対応した<質問>の意図類型タグを当該文に付与する。
この文の場合、ネガ/ポジの判定結果を示すタグが付与されていないため、他の意図類型タグは付与されていない。
【0061】
分析対象ファイルに含まれる全ての文について意図抽出処理が完了すると、意図抽出部18は、これまでの分析結果を分析結果記憶部20に格納する(
図3のS22)。
ここで「分析結果」とは、各文に対して主題タグや極性タグ、否定表現タグ、ネガ/ポジ判定タグ、意図類型タグを付与した分析結果データが該当する。
【0062】
つぎに、分析結果評価部21によって、分析結果画面が生成される(
図3のS24)。
この分析結果画面は、Webサーバ26を経由してクライアント端末28に送信される(
図3のS26)。
【0063】
図11は、クライアント端末28のWebブラウザ上に表示された分析結果画面60の一例を示すものであり、メイン領域にはネガ/ポジ分析結果を示すネガ/ポジ分布グラフ61が表示されている。
また、サイドバーには、意図抽出結果の件数がツリー状に表示された意図分類チャート62が設けられている。
【0064】
まず、ネガ/ポジ分布グラフ61には、総合、価格、料理、部屋、風呂、立地の評価軸毎に、ポジ、ネガ、中立のパーセンテージが帯グラフによって示されている。
このグラフ61を参照することにより、例えば、「価格」についてはポジ判定の付いた文書の割合がネガ判定の文書の割合よりも多いことから、顧客は価格について概ね満足していることが読み取れる。
これに対し、「部屋」についてはネガ判定の付いた文書の割合が圧倒的に多くなっているため、多くの顧客の不興を買っていることが理解できる。
また、各評価軸の合計値から導かれた「総合」については、ポジとネガの比率が拮抗しているため、全体としては「可もなく不可もなし」という結果を認識することができる。
【0065】
ネガ/ポジ分析結果の見せ方は上記の帯グラフに限定されるものではなく、レーダーチャートや円グラフによってネガ/ポジの割合や数を表示することもできる。
【0066】
意図分類チャート62においては、価格、料理、部屋、風呂、立地の評価軸毎に、該当文の延べ件数が括弧内に表示されている。例えば、「価格」に関しては282件の文が、「料理」に関しては152件の文が関連付けられている。
【0067】
ここでユーザが各評価軸をクリックすると、好評、不満、意向、要望、質問、予想外、興味有り、興味無し、不明の意図類型が展開する。
また、各意図類型には該当の意図類型タグが付与された文の延べ数が括弧内に表示されている。例えば、「価格」配下の「好評」に関しては74件の文が存在しており、同「不満」に関しては121件の文が存在していることが示されている。
「不明」とは、該当の評価軸に係るものではあるが、何れの意図類型タグをも付与されていない文の数を示している。
【0068】
ここでユーザが何れかの意図類型をクリックすると、当該意図類型に含まれる代表意見が複数列挙された代表意見リストが展開する。
例えば、ユーザが評価軸「価格」配下の意図類型「好評」をクリックすると、
図12に示すように、サイドバー中に「料金の安さが魅力。(17)」、「料金が手ごろだし。(12)」、「安いわりには良し。(15)」等の代表意見を列記した代表意見リスト63が展開表示される。
各代表意見の末尾に付記された括弧付きの数字は、当該代表意見に包摂される近似意見の延べ件数を示している。
【0069】
これに対しユーザが何れかの代表意見をマウスポインタで選択すると、メイン領域に当該代表意見及びその近似意見を列記した代表意見の内訳リスト64が表示される。
このリスト64は、文書番号及び解析対象文の表示項目を備えており、解析対象文の表示項目には、各文の中で代表意見と同一または近似した文が表示されている。代表意見と近似意見との関係については、後に詳述する。
ユーザが任意の文の「選択」ボタン65をクリックすると、図示は省略したが、ディスプレイ上に別ウィンドウが起動して、当該代表意見または近似意見を含む文書全体が表示される。これらの文書には、各種情報(極性タグ、否定表現タグ、ネガ/ポジ判定タグ、主題タグ、評価軸、意図類型タグ、属性情報、時間情報等)が付与されている。
【0070】
つぎに、
図13のフローチャートに従い、この分析結果画面60の生成に係る処理手順を説明する。
まず、分析結果評価部21は、当該文書ファイルに関連付けられた評価軸である「価格」、「料理」、「部屋」、「風呂」、「立地」を取得する(S24-01)。
つぎに分析結果評価部21は、評価軸類似表現記憶部22に格納された業界毎の評価軸類似表現辞書を参照し、各評価軸の類似表現(展開語)を特定する(S24-02)。
【0071】
図14は、評価軸類似表現記憶部22に格納されたホテル・旅館業界用の評価軸類似表現辞書の具体例を示している。
例えば、「価格」の評価軸については、「価格」の他に、「料金」、「値段」、「宿泊料」、「宿代」等の類義語や関連語が類似表現として格納されている。これらの類似表現は、一般的な類義語辞書等を参照し、また個々の業界の特性を考慮しつつ、ユーザの属する業界毎に編纂されたものである。
このため、「価格」の評価軸について、「価格」や「料金」、「値段」といった一般的な呼び名の他に、「宿泊料」、「宿代」のようにホテル・旅館業界に特有の呼び名が列記されている。
また、飲食業界に属するユーザに対してサービスを提供する場合には、「宿泊料」や「宿代」の代わりに「飲食代」や「飲み代」等の類似表現が列記された、飲食業界用の評価軸類似表現辞書が適用されることとなる。
【0072】
つぎに分析結果評価部21は、文書ファイルに含まれる各文の「主題」として認定された文字列と、上記の類似表現とをマッチングさせ、該当する文に対応の評価軸を関連付ける(S24-03)。
例えば、
図10(a)の「夕食が粗末なので、もう少し品数を増やして下さい。」という文の場合、主題である「夕食」の文字列が評価軸「料理」の類似表現として登録されているため、分析結果評価部21は「料理」の評価軸識別コードを当該文に関連付ける。
【0073】
また、
図10(b)の「値段が良心的なのには驚きました。」という文の場合、主題である「値段」の文字列が評価軸「価格」の類似表現として登録されているため、分析結果評価部21は「価格」の評価軸識別コードを当該文に関連付ける。
【0074】
また、
図10(c)の「アクセスが悪いので今度は車にしたい。」という文の場合、主題である「アクセス」の文字列が評価軸「立地」の類似表現として登録されているため、分析結果評価部21は「立地」の評価軸識別コードを当該文に関連付ける。
【0075】
これに対し、
図10(d)の「当方の頼み方がいけなかったのでしょうか?」という文の場合、主題である「頼み方」の文字列は何れの評価軸でも類似表現として登録されていないため、分析結果評価部21は「不明」の評価軸識別コードを関連付ける。
【0076】
つぎに分析結果評価部21は、ユーザが選択した複数の評価軸の識別コードが付与された文を文書ファイルから抽出した後、各文に設定されたネガ/ポジ判定タグ<P>及び<N>の数を集計する(S24-04)。
【0077】
例えば、「価格」の評価軸識別コードが付与された文が全部で80個あり、その中で<P>のタグが付された文が45個、<N>のタグが付された文が30個、<P>及び<N>の何れも付与されていない文が5個あった場合、分析結果評価部21は以下の集計結果を生成する。
[評価軸:価格]
<P>(ポジ):45個
<N>(ネガ):30個
(中立):5個
【0078】
また、「料理」の識別コードが付与された文が全部で60個あり、その中で<P>のタグが付された文が18個、<N>のタグが付された文が25個、<P>及び<N>の何れも付与されていない文が17個あった場合、分析結果評価部21は以下の集計結果を生成する。
[評価軸:料理]
<P>(ポジ):18個
<N>(ネガ):25個
(中立):17個
【0079】
つぎに分析結果評価部21は、上記の集計結果を反映させた帯グラフ(ネガ・ポジ分布グラフ61)を生成する(S24-05)。
この際、分析結果評価部21は、各評価軸のポジ数を合計した「総合ポジ数」を算出すると共に、各評価軸のネガ数を合計した「総合ネガ数」、各評価軸の中立数を合計した「総合中立数」を算出し、それぞれの割合を帯グラフの「総合」に反映させる。
【0080】
つぎに分析結果評価部21は、各文に付与された評価軸及び意図類型毎に文の数を集計し、意図分類チャート76を生成する(S24-06)。
【0081】
つぎに分析結果評価部21は、「評価軸×意図類型」単位で文書ファイルから代表意見を抽出する(S24-07)。
このために分析結果評価部21は、まず同じ評価軸及び意図類型を有する文のグループ単位で、同一の感性表現を備えた文を抽出する。
例えば
図15(a)に示すように、評価軸「価格」及び意図類型「不満」を共通にする(1)〜(6)の文が与えられた場合、分析結果評価部21は
図15(b)に示すように、感性表現「高い」を共通にする(1)(2)(5)の3件の文を取り出す。
つぎに分析結果評価部21は、
図15(c)に示すように、(1)(2)(5)の中で最も文字数の少ない(2)の文「明らかに価格が高すぎる。」を3件の文の中の代表意見と認定する。
つぎに分析結果評価部21は、代表意見と評価軸、意図類型、感性表現を共通にする(1)及び(5)の文を、(2)の代表意見に包摂される近似意見と認定し、当該代表意見に関連付ける。また、代表意見及び近似意見の件数の合計である「3」が、当該代表意見の件数として計上される。
【0082】
図示は省略したが、同様の手順に従い、分析結果評価部21は感性表現「ぼったくり」を共通にする(3)及び(6)の文を取り出した後、より文字数の少ない(3)の文「ぼったくりとしか思えません。」を別の代表意見と認定する。
また分析結果評価部21は、(6)の文を(3)の代表意見に包摂される近似意見と認定し、当該代表意見に関連付ける。
【0083】
画面生成部25は、分析結果評価部21から渡されたネガ・ポジ分布グラフ及び意図分類チャートを所定のテンプレートに充填することにより、分析結果画面60を生成する(S24-08)。
この分析結果画面60は、上記の通りWebサーバ26を介してクライアント端末28に送信される。
【0084】
また、Webサーバ26経由でクライアント端末28から特定の評価軸に係る特定の意図類型の選択情報が送信された場合、画面生成部25は分析結果評価部21から渡された代表意見及び各代表意見の件数(代表意見+近似意見の件数)が列記された画面を生成し、Webサーバ26経由でクライアント端末28に送信する。
この結果、
図12に示したように、クライアント端末28のWebブラウザ上には、サイドバーに特定の評価軸及び意図類型に係る代表意見が列記された画面60が表示される。
【0085】
さらに、Webサーバ26経由でクライアント端末28から特定の代表意見の選択情報が送信された場合、画面生成部25は分析結果評価部21から渡された対応の代表意見及び近似意見の具体的な内容が列記された画面を生成し、Webサーバ26経由でクライアント端末28に送信する。
この結果、
図12に示したように、クライアント端末28のWebブラウザ上には、メイン領域に代表意見及び近似意見のリストが配置された画面60が表示される。
【0086】
ユーザが画面60中の「時系列解析結果」ボタン66をクリックすると、分析結果評価部21及び時系列解析部23による時系列解析処理が実行されると共に、その解析結果を反映させた画面が画面生成部25によって生成され、Webサーバ26経由でクライアント端末28に送信される。
【0087】
図16は、この時系列解析結果画面70を示すものであり、画面のメイン領域には縦軸に件数が設定されると共に、横軸に時間が設定された時系列変化グラフ71が表示されている。
また、時系列変化グラフ71中の変化点Pについては、「ネガティブな意見が非常に多く、意見の53%を占めており要注意です。不満意見として『料理の味が落ちた。』が多く出現しています。」という内容の考察文72が明示されている。「変化点」の意義については、後述する。
【0088】
以下、
図17のフローチャートに従い、この時系列解析に係る処理手順を説明する。
まず、Webサーバ26経由でクライアント端末28から時系列解析のリクエストを受信した分析結果評価部21は(S30)、分析結果データに含まれる各文書の時間情報(書き込み日等)に基づいて日毎の文書件数を集計し(S32)、この時系列情報に基づいて時系列変化グラフを生成する(S34)。
つぎに分析結果評価部21は、この日毎の件数情報(時系列情報)を時系列解析部23に渡し、変化点の検出を依頼する。
【0089】
これを受けた時系列解析部23は、所定の時系列解析モデル(アルゴリズム)に上記の時系列情報を投入することにより、変化点を特定する(S36)。
ここで「変化点」とは、複数のランダムな時系列データの集合において、データの基本的な性質が変化した時点を意味し、データの特性に応じて最適な解析モデルが複数用意されている。
図18において、主な時系列解析モデルの特徴を示す。
時系列解析部23は、デフォルトでは「ARIMAモデル」を適用することによって変化点を特定し、分析結果評価部21に返す。
【0090】
これに対し分析結果評価部21は、この変化点に対応した考察文を生成し、上記の通り時系列変化グラフ中に付記する(S38)。この考察文の生成方法については、後に詳述する。
【0091】
画面生成部25は、分析結果評価部21から渡された時系列変化グラフに基づいて時系列解析結果画面70を生成する(S40)。
【0092】
上記の通り、デフォルトでは「全分析結果データ」に対して、「ARIMAモデル」に基づいた時系列解析が実行されるが、ユーザは解析対象期間及び意図類型を限定し、あるいは異なる時系列解析モデルの適用を求めることもできる。
具体的には、サイドバーに用意された期間指定欄73において始期及び周期を選択することで、ユーザは解析対象期間を絞り込む。
またユーザは、対象データ指定欄74において必要な意図類型のチェックボックスにチェックを入れることにより、対象文の意図類型を絞り込む。例えば、「総合」配下の「不満」にチェックを入れると、全評価軸に係る<不満>のタグが付与された文が時系列解析対象として指定されたことになる。これに対し、「価格」配下の「不満」にチェックを入れると、「価格」の評価軸に係る<不満>のタグが付与された文のみが時系列解析対象として指定されたことになる。
さらにユーザは、解析モデル指定欄75において任意の解析モデルを指定することで、適用すべき解析モデルの変更を求めることができる。
【0093】
サイドバーにおける設定を完了したユーザが「再表示」ボタン76をクリックすると、クライアント端末28からWebサーバ26に指定条件データが送信される。
Webサーバ26経由でこの指定条件データを受け取った分析結果評価部21は、指定された条件に合致する分析結果データに基づいて時系列変化グラフを作成すると共に、同データに基づく変化点の特定を時系列解析部23に依頼する。
これを受けた時系列解析部23は、指定された時系列解析モデルに時系列データを投入して新たな変化点を特定し、分析結果評価部21に返す。
分析結果評価部21は、この変化点に係る考察文を生成する。
画面生成部25は、分析結果評価部21から渡された時系列変化グラフ及び考察文に基づいて時系列解析結果画面を生成する。
この時系列解析結果画面は、Webサーバ26経由でクライアント端末28に送信される。
以上の結果、クライアント端末28のWebブラウザ上には、新たな時系列解析結果画面が表示される(図示省略)。
【0094】
ユーザが画面70中の「自動考察結果」ボタン77をクリックすると、分析結果評価部21による考察文生成処理が実行されると共に、その考察文を記述した画面が画面生成部25によって生成され、Webサーバ26経由でクライアント端末28に送信される。
【0095】
図19は、この時系列解析結果画面80を示すものであり、「総合的な考察」、「回答者の属性別考察(1)」、「回答者の属性別考察(2)」、「価格に関する考察」、「料理に関する考察」、「部屋に関する考察」、「風呂に関する考察」等の考察文表示欄81が設けられており、各考察文表示欄81には分析対象文書における記述内容の傾向を、簡潔な言葉で表現した考察文(コメント)が記述されている。
【0096】
例えば、「総合的な考察」として「全般的にポジティブな意見が多く、意見の75%を占めています。好評意見として、『料金が安い』という意見が多くなっています。」が表示されており、これを参照することによってユーザは、文書ファイル全体の傾向を大まかに把握することが可能となる。
【0097】
また「回答者の属性別考察(1)」として、「属性『30代男性』では、ポジティブな意見が非常に多く、意見の62%を占めています。好評意見としては、『アクセスが良い』が多く出現しています。」が表示されており、これを参照することによってユーザは、文書を記述した回答者の属性に特有の評価傾向を把握することが可能となる。
【0098】
また「価格に関する考察」として、「価格に関しては、ポジティブな意見が83%を占めています。好評意見として、『料金が安い』という意見が多くなっています。」が表示されており、これを参照することによってユーザは、「評価軸:価格」に関する評価傾向を大まかに認識することが可能となる。
【0099】
以下において、「価格」に関する考察文の生成に係る処理手順を説明する。
まず分析結果評価部21は、「価格」の評価軸が関連付けられた文の件数と、当該件数中における「不満」、「好評」、「要望」、「予想外」、「質問」、「意向」の意図類型毎の件数を、考察ルール記憶部24に格納された考察ルールに当てはめることにより、考察文を生成する。
【0100】
図20は、考察ルールの一例を示しており、各ルールは「優先度」、「考察名」、「判定条件」、「テンプレート」のデータ項目を備えている。
これに対し分析結果評価部21は、
図21に示すように、優先度の高い順に判定条件と分析対象データとの合致/不合致を調べ、合致した時点で当該ルールのテンプレート中の「比率挿入欄」に具体的な数値(ポジの占めるパーセンテージ)を挿入すると共に、「意見挿入欄」に最多代表意見を挿入し、さらに価格の評価軸に係る枕詞である「価格に関しては」を文頭に挿入することにより、考察文を完成させる。
ここで「最多代表意見」とは、評価軸として「価格」が付与された文の中で、代表意見+近似意見の件数が最も多い代表意見を意味している。
【0101】
他の評価軸に関する考察文を生成する場合も、分析結果評価部21は上記と同様の手順を踏襲することで、当該評価軸固有の考察文を完成させる。
【0102】
総合的な考察文を生成する場合も、分析結果評価部21は基本的には上記と同様の手順を踏む。
すなわち、価格〜立地に亘る全文書件数と、その中に含まれる「不満」、「好評」、「要望」、「予想外」、「質問」、「意向」の意図類型毎の件数を考察ルールに当てはめて、対応のテンプレートを特定した後、具体的な数値を「比率挿入欄」に挿入すると共に、全評価軸を通じて最も頻度の高い「最多意見」を「意見挿入欄」に挿入し、「全般的に」の枕詞を文頭に挿入することにより、考察文を完成させる。
【0103】
つぎに、回答者の属性別の考察文生成処理について説明する。
まず分析結果評価部21は、全分析対象文を各文書に関連付けられた「年代×性別」の属性グループ単位で分類し、それぞれの件数を集計する。
つぎに分析結果評価部21は、
図22に示すように、「年代×性別」単位で考察ルールの判定条件を分析対象文に適用して、判定結果(true/false)を導き出す。
そして、一の属性グループのみに該当する考察ルールのテンプレートが、考察文の雛形として抽出され、必要な数値や文言の挿入を経て考察文が完成される。
【0104】
例えば、考察名「かなり好評」についてみると、「30代男性」の属性グループのみが「判定結果=true」となっているため、対応のテンプレートである「ポジティブな意見が非常に多く、意見の[比率]%を占めており要注目です。好評意見として「[意見]」が多く出現しています。」が取り出された後、「比率挿入欄」及び「最多意見挿入欄」に必要な数値及び代表意見が挿入され、文頭に「属性『30代男性では』」が挿入されることにより、考察文が生成される。
【0105】
また、考察名「質問」についてみると、「30代女性」の属性グループのみが「判定結果=true」となっているため、対応のテンプレートである「『[意見]』という質問が数多く出現しています。」が取り出された後、「最多意見」が挿入され、文頭に「属性『30代女性では』」が挿入されることにより、考察文が生成される。
【0106】
これに対し考察名「要望」の場合には、「20代男性」のみならず「40代女性」の属性グループについても「判定結果=true」となっているため、対応のテンプレートに基づいて属性別考察文が生成されることはない。
【0107】
図22においては、図示の便宜上、20代女性〜40代男性の属性グループのみが示されているが、実際には全ての属性グループについて上記の判定処理が実行され、一の属性グループについてのみ合致する考察ルールのテンプレートに基づいて考察文が生成される。
【0108】
つぎに、
図16に示した時系列解析に際して表示される考察文72の生成方法について説明する。
まず分析結果評価部21は、
図23(a)に示すように、変化点Pを中心にした所定期間(例えば1週間)を着目期間と認定する。
つぎに分析結果評価部21は、着目期間内の分析結果データについて考察ルールを適用する。
同時に分析結果評価部21は、着目期間をも含めた全期間内の分析結果データについて考察ルールを適用する。
そして、着目期間のみに該当する考察ルールのテンプレートに基づいて、考察文を生成する。
【0109】
例えば
図23(b)に示すように、考察名「かなり不満」の考察ルールについてみると、着目期間のみが「true」で全期間は「false」であるため、「ネガティブな意見が多く、意見の[比率]%を占めています。不満意見として『[意見]』という意見が多くなっています。」のテンプレートが引用され、[比率]及び[意見]に具体的な数値や文字列(最多代表意見)が挿入されることによって、考察文が完成される。
【0110】
このように、全期間内の分析結果データに基づく判定結果と着目期間内の分析結果データに基づく判定結果とを比較し、後者のみに適合する考察ルールのテンプレートに基づいて考察文を生成することにより、着目期間に特有の考察文を導くことが可能となる。
このためユーザは、変化点付近においける特異な評価傾向を容易に認識することができる。
【0111】
なお、考察名「不満」に関しても、着目期間のみが「true」で全期間は「false」という判定結果が示されているが、優先度が劣るためこの考察ルールに係るテンプレートが適用されることはない。
【0112】
ユーザは、画面80の「分析結果」ボタン85をクリックすることにより、分析結果画面60に戻ることができる(
図11参照)。
【0113】
上記においては、この発明に係る感性分析システム10を、Webブラウザを搭載したクライアント端末28に各種画面(HTMLファイル)がWebサーバ26経由で送信されるWebシステムとして具体化した例を説明したが、このシステム10を実現するためのコンピュータプログラムをPC等のコンピュータにセットアップした、所謂スタンドアロン型のシステムとして具体化することも当然に可能である。