特許第6104517号(P6104517)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ パロ・アルト・リサーチ・センター・インコーポレーテッドの特許一覧

特許6104517感情分類を向上させるためにSVM学習に用語集知識を組み込むこと
<>
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000021
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000022
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000023
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000024
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000025
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000026
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000027
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000028
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000029
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000030
  • 特許6104517-感情分類を向上させるためにSVM学習に用語集知識を組み込むこと 図000031
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6104517
(24)【登録日】2017年3月10日
(45)【発行日】2017年3月29日
(54)【発明の名称】感情分類を向上させるためにSVM学習に用語集知識を組み込むこと
(51)【国際特許分類】
   G06F 17/30 20060101AFI20170316BHJP
【FI】
   G06F17/30 210D
   G06F17/30 210A
   G06F17/30 220Z
【請求項の数】4
【全頁数】20
(21)【出願番号】特願2012-91937(P2012-91937)
(22)【出願日】2012年4月13日
(65)【公開番号】特開2012-226747(P2012-226747A)
(43)【公開日】2012年11月15日
【審査請求日】2015年4月8日
【審判番号】不服2016-3282(P2016-3282/J1)
【審判請求日】2016年3月3日
(31)【優先権主張番号】13/091,405
(32)【優先日】2011年4月21日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】502096543
【氏名又は名称】パロ・アルト・リサーチ・センター・インコーポレーテッド
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
(74)【代理人】
【識別番号】100079049
【弁理士】
【氏名又は名称】中島 淳
(74)【代理人】
【識別番号】100084995
【弁理士】
【氏名又は名称】加藤 和詳
(72)【発明者】
【氏名】ジ・ファン
(72)【発明者】
【氏名】ビ・チェン
【合議体】
【審判長】 手島 聖治
【審判官】 佐藤 智康
【審判官】 相崎 裕恒
(56)【参考文献】
【文献】 特開2008−140359(JP,A)
【文献】 特開2008−204355(JP,A)
【文献】 飯田 龍、小林 のぞみ、乾 健太郎、松本 裕治、立石 健二、福島 俊一,意見抽出を目的とした機械学習による属性−評価値対同定,情報処理学会研究報告,日本,社団法人情報処理学会,2005年1月12日,Vol.2005、No.1,p.21−28
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20-17/28
(57)【特許請求の範囲】
【請求項1】
内容を感情に関連して分類するための感情分類器のための命令を有する非一時的コピュータ読出可能媒体であって、
前記感情分類器は、
情報の複数の態様のうちの特定の態様に関連するものとして内容を分類するように構成される共に、(i)フィルタリングされた注釈付きの言語資料からの領域依存的な単語および語句の少なくとも一方と、(ii)所定の言語パターンを用いたワールド・ワイド・ウェブの検索及び返信された検索結果をフィルタリングすることを通じて取得された領域依存的な単語および語句の少なくとも一方と、(iii)(i)及び(ii)の少なくとも一つによって得られた前記領域依存的な単語および語句の少なくとも一方で行われる辞書拡張技術を通じて取得された領域依存的な単語および語句の少なくとも一方と、により構成され且つ前記内容の分類を助けるための領域依存的な感情用語集の少なくとも一部分を有する態様分類器と、
前記態様分類器により分類された前記内容を、前記特定の態様に関する肯定的な感情及び前記特定の態様に関する否定的な感情のうちの1つを有するものとして、または、前記特定の態様に関して感情を有していないものとして分類するように構成されていると共に、前記領域依存的な感情用語集の少なくとも一部分を有する極性分類器と、
前記態様分類器によって生成された第1の予想の結果と前記極性分類器によって生成された第2の予想の結果とを受け取りかつ前記第1の予想の結果と前記第2の予想の結果とを統合するように構成された統合器と、
を含み、
前記領域依存的な感情用語集は、前記複数の態様のうちの1つの態様と関連するものとして前記領域依存的な単語および語句の少なくとも一方を分類する第1の用語集と、前記分類された1つの態様に感情を関連付ける第2の用語集と、を含む、
非一時的コピュータ読出可能媒体。
【請求項2】
前記態様分類器が汎用の感情用語集をさらに内蔵する、請求項1に記載の非一時的コピュータ読出可能媒体。
【請求項3】
前記極性分類器が汎用の感情用語集をさらに内蔵する、請求項1に記載の非一時的コピュータ読出可能媒体。
【請求項4】
前記内容は、単語および語句の少なくとも一方を持つ文章で構成されたテキストである、請求項1に記載の非一時的コピュータ読出可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、自動化された分類に関し、さらに詳細には、自動化された感情分類に関し、ここで感情分類とは、情報が特定の話題または題目に関するとき、テキスト形式などの情報の意見または感情を分類するのに役に立つ特定型式のテキスト分類であると考えられている。
【背景技術】
【0002】
感情分析の2つの典型的な方法は用語集検索および機械学習である。用語集検索法は肯定的な言葉と否定的な言葉との用語集から通常始まる。例えば、「美しい」は肯定的な言葉として特定され、「醜い」は否定的な言葉として特定される。テキストの全体的な感情はテキスト内に現れる単語と表現との群の感情により決定される。
【発明の概要】
【発明が解決しようとする課題】
【0003】
包括的な感情用語集は一般的であり、事前トレーニングを必要としないため、感情分析に対して簡単であるが効果的な解決方法を提供できる。したがって、このような用語集の構築に対して注意および努力が払われている。しかしながら、この方法の重要な課題は、多くの単語の極性が領域と文脈とに依存していることである。例えば、「長い」は、「長い電池寿命」では肯定的で、「長いシャッター遅れ」では否定的である。現在の感情用語集は、感情表現のこのような領域感受性と文脈感受性とを捕捉していない。それらの現在の感情用語集は、このような領域と文脈とに依存する感情表現を除外したり、またはインターネットを介してアクセスされるワールド・ワイド・ウェブのような特定の言語資料から収集される統計に基づく全体的な極性傾向で、このような領域と文脈とに依存する感情表現を標識付けしたりする。このような表現を除外することは不十分な適用範囲に通じるが、一方で、極性傾向により、このような表現を単に標識付けするだけでは不十分な精度の原因となる。
【0004】
これらの限界のせいで、感情分析の領域では機械学習法の人気が高まっている。サポート・ベクター・マシン(SVM)を用いるような機械学習法は、単語と表現との極性を決定するのに感情用語集に依存せず、トレーニングデータ内に示される文脈依存性のいくつかを自動的に学習できる。例えば、「長い電池寿命」と「長いシャッター遅れ」とが、トレーニングデータ内でそれぞれ肯定的および否定的と分類されているとき、学習アルゴリズムは「長い」が「電池寿命」という語句と関連している場合は肯定的であり、他方、「長い」が「シャッター遅れ」という語句と関連している場合は否定的であることを学習できる。
【0005】
しかしながら、このような方法の成功はトレーニングデータに強く依存する。感情分析の作業では、データ不足は自然言語の豊かさのせいで、容易には解決できない固有の問題である。特に、人々は同じ感情を表すのに異なる表現を使用する傾向があり、また、同じ文または文書内で自分の感情を繰り返さない傾向がある。したがって、さまざまな対象に関して人々がどのように感情を表現するかを適切に表すトレーニングデータを収集するのは非常に困難である。このデータ不足問題は、感情分類に対して、他のいくつかのテキスト分類作業と比べて比較的低い精度をもたらす結果になる。
【0006】
したがって、感情分析作業に対して機械学習法は用語集検索法よりも一般に性能が優れていることを最近の研究は示しているが、感情用語集により提供される利点と知識とを無視することは最適ではない可能性がある。
【0007】
しかしながら、感情分類を向上させるためにこれらの2つの方法を組み合わすことを扱っている研究はほとんどない。いくつかの研究は語句の文脈極性の特定を向上させるために汎用の感情辞書を用いて検討している。他の2、3の最近の研究が、汎用の感情用語集を機械学習アルゴリズムに組み込むことにより、文書レベルで感情分類の精度を向上できることを示している。これらの仕事のすべてにおいて、汎用の感情用語集は、文脈/領域非依存的な極性を有する単語を含んでいる。本感情分類器システムと方法とは、これらの従来の方法とは異なっている。
【課題を解決するための手段】
【0008】
内容の感情分類のための感情分類器。態様分類器が、情報の特定の態様に関連するものとして内容を分類するように構成されており、態様分類器は領域依存的な感情用語集の少なくとも一部分を内蔵している。その後、極性分類器が、情報の特定の態様に関する肯定的な感情、情報の特定の態様に関する否定的な感情のうちの1つを有するものとして、または情報の特定の態様に関して感情を有していないものとして、態様分類器により分類された内容を分類するように構成されている。また、極性分類器は領域依存的な感情用語集の少なくとも一部分を内蔵している。
【図面の簡単な説明】
【0009】
図1】話題下位用語集と感情下位用語集とを含む2つの下位用語集を有する名前用語集を示す図である。
図2】本願の言語資料フィルタ法を示すフローチャートである。
図3】言語パターンを用いてウェブ検索とフィルタリングとを行うためのプロセスを示すフローチャートである。
図4図3の方法で特定された、いくつかの雑音語を示すグラフである。
図5】領域依存的な用語集の単語および/または語句に極性を提供する方法を示すフローチャートである。
図6】態様分類器と極性分類器とを有する感情分類器を示すブロック図である。
図7図6の感情分類器の動作を示すフローチャートである。
図8】階級に属する点の間の距離を示す説明図である。
図9】領域依存的な用語集の作成プロセスの間の本願のシステムを示す図である。
図10】感情分類器をトレーニング中のプロセスの間の本システムの構造を示す図である。
図11】感情分類器が作動しているときの本システムの構造を示す図である。
【発明を実施するための形態】
【0010】
感情分析の精度を向上させるために事前知識としての感情用語集と、サポート・ベクター・マシン(SVM)のような機械学習法とを組み合わせる感情分類システムおよび方法を開示している。記載のシステムおよび方法は、この学習目的のために領域依存的な感情用語集を生成する。上述の概念を実現する実施された実験の結果は、汎用の領域非依存的な感情用語集と比較して、機械学習法に組み込まれた領域依存的な用語集は、感情分類プロセスにおいて、より大きな精度向上をもたらすことを示している。
【0011】
本明細書に記載の感情分類システム(また本明細書では感情分類器または2レベル感情分類器とも呼ぶ)および方法は、情報の態様に関するきめの細かい感情分析を提供する。
【0012】
本開示では、情報の態様(または本明細書では情報態様とも呼ぶ)は、いくつかある用法の中でも特に、製品の態様(例えば、カメラの態様などの製品態様)、話題の態様(例えば、天気などの話題態様)などを含む一般用語であることが分かる。情報は、単語および/または語句を含むテキスト(すなわち、内容)の形で提供される。
【0013】
以下では、説明のため、感情分類作業は、主としてカメラ批評を分類することに関する。すなわち、カメラ批評における各文に対して、開示された感情分類器は、吟味中の文が任意のカメラ態様(例えば、カメラの電池寿命、カメラにより撮影した写真の品質など)を話題にしているかどうかを予測するように構成されており、文の中で、検討中のカメラ態様を話題にしているとき、感情分類器は関連する感情(例えば、肯定的または否定的な意見など)を特定する。本明細書に記載の実験結果は、本方法により生成される領域依存的な感情用語集を組み込むことにより感情分類作業の精度が大幅に改善されることを示している。
【0014】
上述のように、ほんの2、3の研究だけが、感情分類を向上させるために用語集検索法と機械学習法とを組み合わすことを扱っている。汎用の感情用語集だけを使用する従来の仕事とは異なり、本感情分類器は、感情分類の精度を向上させるために学習機械(例えば、SVM学習など)に、汎用の感情用語集だけではなく、領域依存的な感情用語集も組み込む。領域依存的な感情用語集は、さまざまな話題または領域を示す用語集、および特定の話題または領域に関連する極性を有する単語または語句で構成された用語集を含んでいる。
【0015】
例えば、実施された実験では、「電池」のような単語の第1の用語集と、「すぐに:否定的」および「長い:肯定的」のような単語または語句の第2の用語集と、を含む、「電池寿命」に関する領域依存的な用語集を構築した。第1の用語集は「カメラ電池寿命」の話題のよい指標である単語または語句で構成されており、他方、第2の用語集は「電池寿命」の話題に特有の極性を有する単語または語句で構成されている。例えば、「すぐに」および「長い」は、異なる領域内では否定的および肯定的な感情を伝えない可能性がある。また、領域が異なるとき、「すぐに」および「長い」は正反対の感情を伝えることができる。汎用の感情用語集は小さい精度向上をもたらすだけであるが、領域依存的な用語集(辞書)を組み込めば、感情分類作業の、より大きな改善に通じることを実験結果が示していることはさらに重要である。
【0016】
第2に、文書レベルで感情分類を向上させるために、すなわち、肯定的または否定的のどちらかに全体の文書を分類するために用語集知識を組み込むことの利点を従来の仕事は調査する。これらの仕事と比較して、本感情分類器は、きめが細かい。特に、感情分類は文章レベルで実行され、各文に対して、感情分類器は、文が肯定的か、否定的か、または客観的かを予測するだけでなく、その感情に関連する主要な話題も予測する。実験は、発明者により構築された領域依存的な用語集(辞書)がこれらの作業の両方の改善をもたらすことを証明した。
【0017】
感情用語集の構築に関して、従来の研究は、汎用の辞書を生成することに集中してきた。これらの方法は、手動の方法から、半自動化された、および自動化された方法まで多岐にわたっている。本開示では、領域依存的な感情用語集は、(i)言語資料フィルタリングと、(ii)言語パターンを用いたウェブ検索と、(iii)辞書拡張技術と、の組み合わせを用いて構築される。この構築は詳細に後述される。
【0018】
デジタルカメラの話題を例として用いて領域依存的な用語集を生成するための方法を以下に説明する。しかしながら、この方法はまた他の領域にも適用でき、カメラの話題は単に都合のよい例として提供したに過ぎないことを理解すべきである。
【0019】
上述のように、多くの単語または語句の感情は文脈または領域に依存している。例えば、「長い」は「電池寿命」のカメラ態様と関連している場合には肯定的である。しかしながら、同じ単語が「シャッター遅れ」のカメラ態様と関連している場合には否定的感情を伝える。したがって、関連する感情を決定しようとする場合には、話している話題/領域を知ることは決定的に重要な意味を持つ。
【0020】
この観察に基づいて、その特定の領域に関連する異なる感情を示す特定の領域と表現とを表す両方の表現を含む領域/話題依存的な用語集を構築する。例えば、図1に示すように、領域/話題「カメラ画質」100に関する用語集は2つの下位用語集で構成される。第1の下位用語集102が、デジタルカメラの領域での「画質」の領域/話題のよい指標である像、画像、写真、クローズアップなどの単語および/または語句を含んでいる。もう一方の下位用語集104が、関連する領域/話題がカメラ画質100である場合に肯定的または否定的な感情を伝える単語および/または語句を含んでいる。例えば、この第2の下位用語集104は、写真の品質(すなわち、領域/話題:カメラ画質100)に関連している場合には「くっきりした」および「明りょうな」は肯定的であり、他方、「ピンぼけの」は否定的であることを示すであろう。この目標は、(i)言語資料フィルタリングと、(ii)言語パターンを用いたウェブ検索と、(iii)辞書拡張と、の上述の組み合わせを使用することにより達成される。これらの技術のそれぞれについては、下記の小区分内で詳述する。
【0021】
言語資料フィルタリング法200を図2に示す。最初に、注釈付きのトレーニング言語資料を提供する(202)。関心のある領域/話題に対してトレーニング言語資料が存在していない場合、技術的に公知であるような方法でトレーニング言語資料を構築する必要があるであろう。例えば、カメラ批評を考慮する際、トレーニング言語資料の一部分である各批評に注釈を付けることによりトレーニング言語資料を構築する。さらに詳細には、カメラ態様、およびその文で表現されている関連する感情を用いて、トレーニング言語資料内に含まれる予定のそれぞれの含まれるカメラ批評の各文に注釈を付ける。いったん構築されると(または適切なトレーニング言語資料が既に存在している場合)、この資源を使用して領域依存的な用語集の構築のための基礎を作ることは容易である。
【0022】
次に、各情報態様(例えば、「耐久性」、「画質」などのカメラ態様)に対して、その態様を表現すると分類されたトレーニング文内に現れる内容語および/または語句のすべてを抽出する(204)。抽出された内容語および/または語句は、名詞、動詞、形容詞、副詞、およびそれらの否定形を含んでいる。この抽出された内容から、各情報態様に対する初期の用語集リストを形成する(206)。
【0023】
その後、カメラ態様のそれぞれに対するリスト内の各単語および/または語句に対して、その単語または語句が他の任意のカメラ態様の用語集リスト内にもまた同様に現れるかどうかを確認するために検査する(208)。その単語または語句が他の任意のカメラ態様の用語集リスト内にも現れる場合には、その単語および/または語句を用語集から取り除く(210)。その単語および/または語句が他の任意のリスト上にはない場合には、その単語および/または語句をリスト上に保持する(212)。これらのステップは、単語および/または語句の追加が無くなるまで繰り返す(214)。フィルタリングのこのステップの後に、各カメラ態様に対してトレーニング言語資料内のそのカメラ態様に特有の単語および/または語句だけを含む用語集のリストを取得する(216)。
【0024】
この方法を用いて生成された用語集の品質は一般に非常に高い。例えば、23のカテゴリ(すなわち、22のカメラ態様、および22のカメラ態様のどれも話題にされなかったことを意味する「なし」のカテゴリ)を含む2131の文を有する比較的小さいトレーニング言語資料に基づいて、カメラ態様「耐久性」に関する下記の用語集を生成した。
【0025】
耐久性用語集:[傷をつける、構成する、構築する、揺り動かす、修理する、損傷を与える、こわれやすい、こわれやすくない、がらくたの、丈夫な、より丈夫な、しっかりした、耐久性のある、強靱な、曲がった、硬い、価値がない、堅い、満足のいく、訓練された、防弾の]
【0026】
しかしながら、この方法の欠点は用語集の適用範囲が言語資料の適用範囲に完全に依存するであろうという点であり、感情分析のような作業のために適用範囲が広いトレーニング言語資料に注釈を付けることは、自然言語の豊かさのせいで時間がかかり、高価であり、場合によっては非常に困難をともなう。
【0027】
この欠点は、トレーニング言語資料から取得された初期の領域依存的な用語集を、言語パターンを用いたウェブ検索およびフィルタリングと、辞書拡張とを通じて増補することにより克服される。これらの2つの方法については、次の2つの小区分内で説明する。
【0028】
図3を参照すると、トレーニング言語資料から取得された領域依存的な用語集の適用範囲を向上させるために言語パターンを用いてウェブ検索とフィルタリングとを行うためのフローチャート300を示している。最初に、言語パターンは、関心のある情報態様(例えば、カメラ態様など)に概念的に関連する、より多くの単語および語句を見つけるための検索クエリーとして設計されて(この実施例では、このような2つの言語パターンが設計された)、使用される(302)。カメラ批評例で使用される2つの言語パターンは下記の通りである。
パターン1:「カメラ態様は、*を含んでいる」
パターン2:カメラ態様+「種語および*」
【0029】
これらの2つのパターンでは、「カメラ態様」は「カメラ付属品」および「カメラ価格」のような表現を示している。「種語」は特定のカメラ態様に対する種語を示している。例えば、「安価な」および「高価な」は、カメラ態様価格に対する種語としての役割を果たすことができる。パターン1では、カメラ態様名は正確な検索クエリーの一部分として含まれており、他方、パターン2では、カメラ態様名は検索クエリーに対する文脈としての役割を果たしていることに注目すべきである。
【0030】
情報態様の意味的特徴に応じて、特定のパターンを選択する(例えば、カメラ態様の例では、その態様に概念的に関連する表現を見つけるために2つのパターンのうちの1つを選択する)(304)。例えば、「カメラ付属品は*を含んでいる」は、付属品表現を見つけるのに非常に有効であるが、「カメラ写真+「明りょうな、および*」」は、カメラ写真に関連する表現を見つけるのに向いている。
【0031】
選択された言語パターンを検索エンジンに提供すると、この検索エンジンはその言語パターンをクエリーとしてインターネットに送信して、その結果、検索結果が返信される(306)。例えば、パターン1を使用する場合には、パターン1をクエリーとして検索エンジンに送信する。この一連の実験では、検索エンジンのビング(マイクロソフト社が提供している)を使用したが、他のサーチエンジン(例えば、グーグル(Google)、ヤフー(Yahoo)など)もまた同様に使用してもよいことを理解すべきである。次に、返信された検索結果から関連する単語を抽出する(308)。例えば、パターン1を使用する場合には、検索エンジンが返してきた上位50個の結果の中の「含んでいる(include)」または「含んでいる(includes)」の後に続く単語または語句を抽出する。それぞれの返信された結果において、「含んでいる(include)」または「含んでいる(includes)」の後の第1の文境界に達するまで、「含んでいる(include)」または「含んでいる(includes)」の後に続く単語を抽出する。次のステップは、抽出された単語から(特に)「the」のような一般的なストップワードと、(特に)「with」および「of」のような機能語と、を取り除くことである(310)。最後に、残っている単語を、図2のプロセスで形成された適切な領域依存的な用語集のリストに追加する(312)。この方法を用いて、カメラの例においてカメラ付属品に対する下記の用語集を生成する。
【0032】
付属品用語集:[チップ(chip)、チップ(chips)、ケース、バッグ、カード、ソフトウェア、三脚、ストラップ、ケーブル、適応する、充電器、ポート、記憶装置、フード、コネクタ、キット、付属品、手袋、ベルト、usb、mic、ベルト通し、フラッシュ、プログラム、革、パック、接続する、ベルトで巻かない、ストラップで固定しない、チャック]
【0033】
さらなる実施例として、パターン2を使用する場合には、上位50個の返信された結果の中の単語を抽出する。しかしながら、これらの返信された結果内の雑音を取り除くためには異なるアルゴリズムを使用する。例えば、カメラの画質に概念的に関連する表現を見つけるためには、文脈語として「カメラ写真」を、種語として「明りょうな」を使用する。このパターンは、「明りょうで、くっきりした」と「明りょうで、標準的な」の両方を一致させるであろう。しかしながら、画質について記述するとき、「くっきりした」は一般的に使用されるが、「標準的な」はあまり使用されない。「標準的な」のような雑音語をフィルタリングするために、候補単語のそれぞれをパターン2の新しい種語として使用して、新しいクエリーが返してきた上位50個の結果が元の種語である「明りょうな」を含んでいる場合には、候補単語を保持する。そうでなければ候補単語を破棄する。例えば、実験では、「カメラ写真+「くっきりした、および*」」は「くっきりして、明りょうな」と一致する結果を返すであろうが、他方、「カメラ写真+「標準的な、および*」」は「標準的で、明りょうな」と一致する結果を返さないであろう。この方法を通じて、「くっきりした」を「標準的な」と区別できるとともに、「標準的な」は雑音語と特定される。図4は、上述の実験の間にカメラ写真に概念的に関連する表現を抽出したとき、この方法により特定された雑音語のいくつかを示している(400)。この図4では、白丸で表された単語は雑音と特定され、カメラ画質用語集から取り除かれる。対照的に、黒丸で表された単語は用語集内に保持される。
【0034】
一実施形態では、パターン2を使用するときに領域依存的な用語集を構築するのに使用されるアルゴリズムを、下記のアルゴリズム1:FindingRelatedWordsと特定し、このアルゴリズム1は、アルゴリズム2:HarvestByBingおよびアルゴリズム3:isReversibleと特定されるアルゴリズムを使用する。
【0035】
この方法を用いて、2つの種語「明りょうな」および「ぼやけた」に関連する検索クエリーとしてパターン2を使用することにより、カメラ画質に対する下記の用語集を構築する。
【0036】
写真品質用語集:[明りょうな、くっきりした、色、鮮やかな、京セラ、応答、地味な、安定した、整然とした、生き生きとした、分解する、細部、きめ、無難な、変わりやすい、暗い、明るく陽気な、薄暗い、鮮明な、ピント、模様、曲がった、青色の、湿っぽい、あいまいな、オレンジ色、黄色の、灰色の、ピンぼけの、ぼやける、青緑色の、不明りょうな、粒子が大きい、かすんだ、ぼやけた]
【表1】
【表2】
【表3】
【0037】
汎用の感情用語集を構築する際に辞書内に記録された同意語と反意語とを検索することを通じて拡張することは一般的に使用される方法であるが、この方法は必ずしも領域依存的な用語集を構築するのに適しているとは限らないことが分かった。その理由は、領域依存的な用語集を構築するには概念的に関連する表現を見つける必要があるが、概念的に関連する表現は必ずしも同意語または反意語であるとは限らないためである。例えば、「くっきりした」および「明りょうな」はカメラ画質に概念的に関連しているが、言語的観点から見るとそれらは真の同意語ではない。
【0038】
しかしながら、場合によっては、辞書を使用することは依然として非常に有効である可能性がある。例えば、カメラ価格に対する下記の用語集は、パターン2を用いてウェブ検索とフィルタリングとを通じて構築された。
【0039】
価格用語集:[安価な、最も安い、値引き、宣伝広告、割引券、宣伝する、高価な、価値のある、価値]
【0040】
下記に示すようにWordNet(Fellbaum、1998年)内の「安価な」と「高価な」との同意語を含むことにより、価格用語集をさらに拡張できる。
【0041】
WordNet内の「高価な」の同意語:[高価な、高額の、高額の値札、値段が高い、高価格帯の、値の張る、値の張る、心から獲得された、費用のかかる、値段が高い]
【0042】
WordNet内の「安価な」の同意語:[安価な、費用のかからない、特売価格の、割引価格の、安売りの、安物の、格安の、低価格の、低コストの、低価格帯の、手ごろな価格の、10セント硬貨、ペニー、半ペニー硬貨]
【0043】
この時点までに、領域依存的な用語集の構成が開示され、例えば、異なるカメラ態様に対して領域依存的な用語集がどのように構築されてきたかが説明された。次のステップは、各領域用語集内の肯定的な感情を伝える表現と、否定的な感情を伝える表現とを分離することである。
【0044】
例えば、「画質」に対する下記の下位用語集を構築できることが好ましい。
【0045】
画質の肯定的な用語集:[明りょうな、くっきりした、鮮やかな、地味な、安定した、整然とした、生き生きとした、明るく陽気な、鮮明な]
【0046】
画質の否定的な用語集:[暗い、薄暗い、湿っぽい、あいまいな、灰色の、ピンぼけの、ぼやける、不明りょうな、粒子が大きい、かすんだ、ぼやけた]
【0047】
図5を参照すると、上述のように領域依存的な用語集内の単語および/または語句に対して極性を提供するための方法を説明するフローチャート500を示している(502)。言語資料フィルタリングと、ウェブ検索と、辞書拡張との組み合わせを通じて構築された生成された用語集(例えば、画質用語集など)内の各表現(例えば、単語または語句など)に対して、現在検査中の単語または語句が、(例えば、カメラの画質について)肯定的な意見または否定的な意見を表現すると分類されたトレーニングデータ内にだけ現れるかどうかを確認するために検査する(504)。肯定的な意見を表現すると分類されたトレーニングデータ内にだけ現れる場合には、その表現は画質の肯定的な用語集内に含まれ(506)、他方、否定的な意見を表現すると分類されたトレーニングデータ内にだけ現れる場合には、その表現は画質の否定的な用語集内に含まれる(508)。
【0048】
領域依存的な感情用語集を構築するための本方法を説明したが、次に、感情分類を向上させるためにSVM学習に用語集知識をどのように組み込むかについて説明する。
【0049】
肯定的な領域依存的な下位用語集と、否定的な領域依存的な下位用語集とを含む領域依存的な用語集を生成したが、下記のように感情分類作業を実行するために、本開示は、ここで、領域依存的な用語集内の単語と表現とを機械学習システムに組み込むことについて説明する。カメラについての各批評文に対して、感情分類器は、その文で話題にされているカメラ態様と、そのカメラ態様に関連する感情の両方を予測する必要がある。例えば、下記の批評文に対して、それらを予測する必要がある。
【0050】
(1)それは2個の電池を使用し、それらの2個の電池は4個の電池を使用する私の最後のカメラよりも長くもつ。
【0051】
感情分類器は、この文がカメラの電池寿命について肯定的な意見を表現していることを特定しなければならない。
【0052】
この目標は、2階段分類を実行するために態様分類器602と極性分類器604とを有する図6に示すような2階段感情分類器600を使用することにより達成される。第1の段階では、話題になっている態様(例えば、カメラ態様など)を予測するように感情分類器600のうちの態様分類器602を訓練する。第2の段階では、その態様に関連する感情を予測するように感情分類器600のうちの極性分類器604を訓練する。最後に、2階段予測結果をアグリゲータ(統合器)606内で集約して、最終予測を生成する。
【0053】
両方の段階では、従来の機械学習システム(例えば、SVM学習など)に用語集知識を組み込んでいる。この方法を説明するために、下記の文(2)を使用して図7のフローチャート700に関連して例を示し、このフローチャート700では文(2)はSVMに渡される(702)。
【0054】
(2)ケースが硬いので、カメラを特別によく保護する。
【0055】
従来のSVM学習における特徴語として名詞、動詞、形容詞、および副詞を用いて、単語の下記のベクトルとして、この文を表す(704)。
【0056】
[ケース、硬い、与える、カメラ、特別に、よい、保護]
【0057】
生成された用語集をSVMに組み込む(706)。用語集内にエンコードされた知識のこの組み込みにより、追加の特徴を自動的に生成し、上述の表示に挿入する。
【0058】
例えば、第1の段階の態様分類を実行する場合(708)、カメラ付属品についての領域依存的な用語集には上述の表示内の特徴語「ケース」をリストアップしているため、追加の特徴語「付属品」を挿入して、下記の新しい表示を生成する。
【0059】
[ケース、硬い、与える、カメラ、特別に、よい、保護、付属品]
【0060】
これを行うことにより、文中にカメラ付属品の表現が現れるとき、存在するカメラ態様と「付属品」との可能性を促進する。
【0061】
極性予測(710)の次の段階では、複数の観点の質問応答(MPQA)意見言語資料(例えば、2005年のウィーブ他を参照)から抽出された領域依存的な感情用語集と、汎用の領域非依存的な感情用語集との両方を組み込む。文脈を離れて極めて主観的であるというようにMPQA意見言語資料により示された単語だけを抽出する。
【0062】
例えば、「よい」はMPQA用語集で肯定的な言葉として示されるため、特徴語「肯定的な」を挿入するであろう。さらに、文(2)に対する第1の段階の予測結果が「付属品」であり、またカメラ付属品に関する領域依存的な用語集において「硬い」が肯定的な言葉である場合、以下に示すように第2の段階の極性予測での文(2)に対する最終表示内に余分の特徴語「肯定的な」を生成するであろう。
【0063】
[ケース、硬い、与える、カメラ、特別に、よい、保護、肯定的な、肯定的な]
【0064】
したがって、「付属品」の態様に関して「肯定的な」予測を促進する(したがって、例えば、追加の単語を肯定的な言葉と特定した場合、対応する追加の余分な特徴語「肯定的な」を最終表示内に追加するであろう)。
【0065】
実験は、SVM学習に用語集知識を組み込むことが分類作業に対する精度を大幅に向上させることを示しており、汎用のMPQA感情用語集と比較して、構築された領域依存的な用語集は、より有効である。次項で実験設定と結果とを報告する。
【0066】
実験において実行した感情分析作業は、組み合わせた45元の感情分類作業である。これらの45の階級は、「画質」、「LCD画面」、「電池寿命」、および「顧客サポート」などのカメラ購入に関連する22の態様と、それらの関連する極性値「肯定的な」および「否定的な」と、22の態様のうちのいずれかついてどちらとも言えないという階級と、から導出される。このような階級の例は、「画質:肯定的な」である。目標は、各入力文を45の階級のうちの1つに写像することである。
【0067】
前項で述べたように、作業に対して2段階分類を実行する。すなわち、最終の組み合わされた分類器は2つの分類器で構成される。第1は、23元のカメラ態様分類を実行する態様分類器である。第2は、3元(肯定的な、否定的な、およびどちらとも言えない)の分類を実行する極性分類器である。これらの2つの分類器により生成された予測から最終予測を集約する。
【0068】
分類精度は下記のように定義される。
精度=正確に分類された文の個数/文の総数 (1)
【0069】
実験では、発明者は手作業で分類した2718個の文を使用した。文のすべては、コンピュータ言語協会(ACL)の2007年発行の議事録の、感情分類に対する領域適応の、「ボリウッド(インド映画産業)、大型の携帯用ステレオ、およびミキサー」の中でブリッツァ他により作成された複数領域の感情データセットから無作為に選択したものである。
【0070】
本開示のシステムおよび方法を、用語集知識とSVM学習とを組み合わせるという発想、および用語集知識とただの従来のSVM学習とを組み合わせるという発想と比較してきたが、その理由は、後者が感情分析の文献で報告された最先端のアルゴリズムであるためである。
【0071】
トレーニングおよび試験用の文から、ユニグラム単語特徴として名詞、動詞、形容詞、および副詞を選択した。それらのすべてを、1980年発行の英国図書館研究開発報告書第5587号の技術報告書の「New Models in Probabilistic Information Retriever(確率論的情報検索の新しいモデル)」の中でRijsbergen et al.により記載されているようなポーターステマーを用いて抑制している。次に選択される特徴語にネゲータを取り付ける。また、連結詞と「take(取る)」などの単語とを排除するためにストップワードの小さい集合を使用した。使用したストップワードは連結詞と、take、takes、make、makes、just、still、even、too、much、enough、back、again、far、およびsameとを含んでいた。これらの単語をストップワードとして選択した理由は、それらが頻出し、かつあいまいでもあるために、分類器に悪影響を及ぼしやすいためである。採用されたSVMアルゴリズムは、2001年作成のhttp://www.csie.ntu.edu.tw/cjlin/libsvmで入手できるソフトウェア「LIBSVM:A Library for Support Vector Machines(サポート・ベクター・マシンのライブラリ)」の中でChang et al.により与えられている。線形カーネル形式を使用し、他のすべてのパラメータに対してはデフォルト設定を使用した。
【0072】
4個の実験を実施した。実験1では、用語集知識を組み込んでいない従来のSVMアルゴリズムを使用しており、この実験はSVMと呼ばれる。実験2では、領域非依存的なMPQA意見辞書内にエンコードされた知識のみをSVM学習に組み込んであり、この実験は「MPQA+SVM」と呼ばれる。実験3では、構築された領域依存的な用語集内にエンコードされた知識のみをSVM学習に組み込んであり、この実験は「領域用語集+SVM」と呼ばれる。実験4では、MPQA内にエンコードされた知識と、構築された領域依存的な用語集内にエンコードされた知識との両方をSVM学習に組み込んであり、この実験は「領域用語集+MPQA+SVM」と呼ばれる。実験結果のすべては10重の相互検証に基づいており、それらの実験結果は表1にまとめてある。
【0073】
表1は、領域非依存的なMPQA用語集と、構築された領域依存的な用語集との両方を組み込むことが最もよい総合性能を実現することを示している。これらの2種類の用語集のうちでは、領域依存的な用語集の組み込みが、より有効であり、その理由は、それらが分類精度の改善に最も寄与したためである。我々の方法が実現する改善は、対応のあるt−検定によればp<0.000001で統計的に有意である。
【0074】
【表4】
【0075】
用語集知識とSVM学習とを組み合わせることが、カメラ態様分類に対する精度と、極性分類に対する精度との両方を大幅に改善することを、表2がさらに示している。両方の改善は、対応のあるt−検定によれば、それぞれp<0.000001およびp<0.05で統計的に有意である。
【0076】
【表5】
【0077】
SVM学習に用語集知識を組み込むことが感情分類の精度を改善する実証的証拠を、第3項が提供した。これがなぜ真実であるのかについて理論的証明を以下に提供する。
【0078】
サポート・ベクター・マシンの場合、データ点はp次元ベクトルと見なされ、SVMの戦略は任意の2つの階級の間に最も大きい分離または余裕をもたらす(p−1)次元の超平面を見つけることである。2つの階級の間の余裕が大きければ大きいほど、これらの2つの階級は、より大きく分離できる。記載のシステムと方法とが分類の精度を改善する理由は、感情用語集に基づいて挿入される余分の特徴が、同じ階級に属する点の距離を不変に保ったまま、異なる階級に属する点の間の距離を拡大するためである。以下に証明を示す。
【数1】

【数2】
とが階級Aに属しており、
【数3】

【数4】
とが階級Aと階級Bとに属していると仮定する。
【0079】
実験では、SVMは、データ点の間の距離がそれらの点の間のユークリッド距離で測定される線形カーネルとともに使用される。例えば、
【数5】
の間の距離と、
【数6】
の間の距離とは、下記の
【数7】
と、
【数8】
と、に等しい。
【数9】
【0080】
構築された階級/領域依存的な用語集に従って階級Aに属するすべての点に余分の特徴μを追加し、階級Bに属するすべての点に異なる余分の特徴νを追加するとき、データ点のそれぞれに対して余分な次元が追加される。その後、
【数10】
の間の新しい距離と、
【数11】
の間の新しい距離とが、下記のように計算できる。
【数12】
【0081】
階級A内のすべての点に余分の特徴語μを追加し、階級B内のすべての点に余分の特徴語νを追加した後では、
【数13】
の間の距離は変化せず、他方、
【数14】
の間の距離は拡大されるであろうということは上述の計算から明らかである。
【0082】
要約すれば、図8に示すように、我々の階級/領域依存的な用語集に従って余分の特徴語を挿入した後では、同じ階級(すなわち、階級A(800)または階級B(802))に属する点の間の距離は変化しないが、異なる階級に属する点の間の距離は拡大されるであろう。
【0083】
また、このことは、余分の特徴を追加した後では、より大きいか、または同じ長さの余裕を有するが、一方で、サポートベクトルはより少ないような、より効果的に階級を分離できる超平面を、SVMが見つけることができるということを意味している。これは、分類に対する精度をより高めることにつながる。
【0084】
図9図11を参照すると、本開示の方法を実現するシステム構成を示している。特に、図9図11は、(i)感情分類器に組み込まれる領域依存的な用語集の生成と、(ii)感情分類器のトレーニングと、(iii)インターネット上などの電子形式で、またはその後、間もなくスキャンされて電子形式に取り込まれたり、もしくは他の方法でシステムにより電子的に読み取られたりするプリントアウトした紙の形で、現在存在している可能性がある論文、新聞、ブログ、雑誌を含むが、これらに限らない、さまざまな種類のテキスト文書の感情分析を含む、感情分類器の動作と、を含む感情分類器の開発のさまざまな段階を示している。
【0085】
実施形態では、感情分類システムは、セグメント分類器を構成して訓練し、セグメント分析を実行するのに適したソフトウェアを実行するコンピュータ900または他のデジタル処理装置として具現することが適している。図示のコンピュータ900は、結果を表示するための表示部902と、感情分類器のユーザ制御を容易にするための入力装置(キーボード、マウスなど)904と、を含んでいる。また、コンピュータ900は、適切な相互接続により、インターネット906のほかにローカル・エリア・ネットワーク908、プリンタ910、およびスキャナ912にもまたアクセスするように構成されており、プリンタは感情分類器からの出力と考えてもよい文書のハードコピーをプリントアウトでき、スキャナはハードコピー文書を電子版で操作して感情分析するためにハードコピー文書をスキャンして取り込むように構成されている。
【0086】
ソフトウェアは、磁気ディスク、光ディスク、磁気テープ、フラッシュメモリ、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、または他の記憶媒体上に保存された命令として具現することが適しており、このような命令は感情分析を実行できる感情分類器の開示された構築、トレーニング、および動作を実行するためにコンピュータ900または他のデジタル装置により実行可能である。
【0087】
引き続き図9に注目すると、本願のシステムは、現段階では、注釈付きのデータベース916と、フィルタリングされたインターネット検索結果918と、辞書920とを用いて領域依存的な用語集914を開発するように作動している。領域依存的な用語集を開発し終わった時点で、感情分類器を訓練する。特に、図10に示すように、2段階感情分類器の設計1000は、態様分類器1002と、極性分類器1004とを含んでいる。図示のように、これらの分類器は、感情で分類した領域依存的な用語集1006と、感情で分類した汎用用語集1008との少なくとも一部分を内蔵している。トレーニング動作時には、トレーニングデータベース1010からのデータを、そのデータで作動する感情分類器1000に供給する。態様分類器1002と極性分類器1004との出力は、それらの出力をアグリゲータ(統合器)1012に供給して予測出力1014を生成するようにさらに構成されている。感情分類器1000を訓練し終わった時点で、感情分析を実施する。例えば、図11に示すように、訓練された感情分類器1100は、出力1104を生成するために分析される内容1102を受信する。特に、内容を1文ずつ分析して、現在分析中のテキストの感情に関する予測を出力1104として生成する。
【0088】
感情用語集、特に領域依存的な用語集内にエンコードされた知識を組み込むことにより、きめの細かい感情分析作業に対する精度を大幅に改善できることを示した。また、このような構築が言語資料フィルタリングと、ウェブ検索およびフィルタリングと、辞書拡張と、の組み合わせを含む場合には、カメラ批評の領域用の領域依存的な感情用語集を構築する具体例とともに、領域依存的な感情用語集を構築する方法を説明している。さらに、SVMのような機械学習アルゴリズムに用語集知識を組み込んで、感情学習を向上させるための方法を開発して示した。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11