特許第6237639号(P6237639)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許6237639情報抽出システム、情報抽出方法および情報抽出用プログラム
<>
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000002
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000003
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000004
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000005
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000006
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000007
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000008
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000009
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000010
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000011
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000012
  • 特許6237639-情報抽出システム、情報抽出方法および情報抽出用プログラム 図000013
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6237639
(24)【登録日】2017年11月10日
(45)【発行日】2017年11月29日
(54)【発明の名称】情報抽出システム、情報抽出方法および情報抽出用プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20171120BHJP
【FI】
   G06F17/30 210D
   G06F17/30 170A
   G06F17/30 220Z
【請求項の数】7
【全頁数】18
(21)【出願番号】特願2014-543358(P2014-543358)
(86)(22)【出願日】2013年10月25日
(86)【国際出願番号】JP2013078930
(87)【国際公開番号】WO2014065392
(87)【国際公開日】20140501
【審査請求日】2016年9月15日
(31)【優先権主張番号】特願2012-236688(P2012-236688)
(32)【優先日】2012年10月26日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【弁理士】
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100124154
【弁理士】
【氏名又は名称】下坂 直樹
(72)【発明者】
【氏名】赤峯 享
【審査官】 吉田 誠
(56)【参考文献】
【文献】 特開2006−146567(JP,A)
【文献】 特開2008−204355(JP,A)
【文献】 特開2012−008701(JP,A)
【文献】 国際公開第2008/075524(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
G06F 17/21
(57)【特許請求の範囲】
【請求項1】
文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、
テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、
前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、
前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、
極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、
前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、
前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する統合極性判定手段と、
前記統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段
とを有することを特徴とする情報抽出システム。
【請求項2】
文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、
テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、
前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、
前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、
極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、
前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、
前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する第1統合極性判定手段と、
第1単語列(用言を含む)と、該第1単語列を含み該第1単語列より長い第2単語列があり、前記第1統合極性判定手段による該第1単語列の極性と該第2単語列の極性とが反転する場合、該第2単語列の極性のみを本判定する第2統合極性判定手段と、
前記第2統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段
とを有することを特徴とする情報抽出システム。
【請求項3】
前記テキストは、ブログやインターネット掲示板上の製品/サービス評価、コンタクトセンタへの製品/サービスに対する苦情や要望をテキスト化したものである
ことを特徴とする請求項1または2記載の情報抽出システム。
【請求項4】
前記統合極性判定手段は、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する
ことを特徴とする請求項1記載の情報抽出システム。
【請求項5】
前記第1統合極性判定手段は、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する
ことを特徴とする請求項2記載の情報抽出システム。
【請求項6】
演算装置が、
テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与し、
文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解析の結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出し、
前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定し、
極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定し、
前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計し、
前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定し、
前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する
ことを特徴とする情報抽出方法。
【請求項7】
テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する処理と、
文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解析の結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する処理と、
前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する処理と、
極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する処理と、
前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する処理と、
前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する処理と、
前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する処理と
を演算装置に実行させることを特徴とする情報抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報抽出システム、情報抽出方法および情報抽出用プログラムに関し、特にテキスト集合からポジティブ表現およびネガティブ表現に係る単語列の抽出に用いる情報抽出システム、情報抽出方法および情報抽出用プログラムに関する。
【背景技術】
【0002】
近年、インターネット上の掲示板やコンタクトセンタの応対事例などを通じて、製品/サービスに関する大量のテキスト情報が蓄積されるようになってきている。これらのテキスト情報から、製品/サービスの利用に関するポジティブ表現やネガティブ表現を自動抽出できれば、コンタクトセンタの業務効率の改善に利用できる他、リスク監視やマーケティング等の様々な目的にも応用できる。例えば、インターネット上の掲示板やコンタクトセンタの過去の問い合わせ事例から、「電池がすぐ切れる」等の製品の不具合を表すネガティブ表現を抽出できれば、不具合情報を用いて、網羅性の高いQ&A集を構築することが可能になる。
【0003】
これらのポジティブ表現やネガティブ表現を抽出するためには、その技術的な基盤としてポジティブ表現とネガティブ表現の辞書を構築することが重要となる。しかしながら、ポジティブ表現やネガティブ表現は、多種多様であり、しかも、分野によっても異なる。そのため、辞書の構築・維持を人手で行うのは困難であり、自動構築することが望まれる。例えば、「エラー」という名詞は、「エラーが発生した」ならばネガティブ表現だが、「エラーを抑制した」ポジティブ表現となる。また、動詞の「破壊した」は通常はネガティブ表現であることが多いが、「癌細胞を破壊した」はポジティブ表現となる。
【0004】
このような多種多様な表現を自動抽出するための手法の一例として、テキストから不具合表現を抽出するための手法が特許文献1に示されている。特許文献1では、「突然」、「急に」等の突然性を示す連用修飾表現等と、「きちんと」、「しっかり」等の正常性を示す連用修飾表現を用いて、不具合情報を抽出する。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−232902号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、この特許文献1が開示する関連技術には以下の課題がある。
【0007】
第1は網羅性に係る課題である。関連技術は突然性を示す連用修飾語および正常性を示す連用修飾語との共起性に基づいて不具合表現を抽出するが、テキスト集合において突然性を示す連用修飾語と正常性を示す連用修飾語との共起頻度は限定的である。したがって、それ以外の不具合表現は検出されない。関連技術を応用して、網羅性高く(漏れが少なく)ポジティブ表現およびネガティブ表現を抽出することは困難である。
【0008】
第2は精度に係る課題である。関連技術は、抽出する表現の範囲を考慮していない。たとえば、「癌細胞を破壊した」のような表現から、ポジティブ表現、ネガティブ表現を抽出する場合、「破壊する」は一般にネガティブ表現であることが多く、「癌細胞を破壊する」を誤ってネガティブ表現として抽出する恐れがある。このような、同一の用言を含むが、単語の長さの異なりにより、極性が反転するケースについて、高精度に抽出できない。
【0009】
本発明は上記第1の課題を解決するものであり、ポジティブ表現およびネガティブ表現を網羅性高く抽出できる情報抽出システム、方法およびプログラムを提供することを第1の目的とする。
【0010】
本発明は上記第2の課題を解決するものであり、表現の範囲によって極性が反転するようなケースでも精度良く極性を抽出できる情報抽出システム、方法およびプログラムを提供することを第2の目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決する本発明の一態様は、情報抽出システムであって、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する統合極性判定手段と、前記統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段とを有する。
【0012】
上記課題を解決する本発明の一態様は、情報抽出システムであって、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する第1統合極性判定手段と、第1単語列(用言を含む)と、該第1単語列を含み該第1単語列より長い第2単語列があり、前記第1統合極性判定手段による該第1単語列の極性と該第2単語列の極性とが反転する場合、該第2単語列の極性のみを本判定する第2統合極性判定手段と、前記第2統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段とを有する。
【0013】
上記課題を解決する本発明の一態様は、情報抽出方法であって、演算装置が、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与し、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解析の結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出し、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定し、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定し、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計し、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定し、前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する。
【0014】
上記課題を解決する本発明の一態様は、情報抽出プログラムであって、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する処理と、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解析の結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する処理と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する処理と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する処理と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する処理と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する処理と、前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する処理とを演算装置に実行させる。

【発明の効果】
【0015】
本発明では、ポジティブ表現およびネガティブ表現を網羅性高く抽出できる。
【0016】
また、本発明では、表現の範囲によって極性が反転するようなケースでも精度良く極性を抽出できる。
【図面の簡単な説明】
【0017】
図1】第1実施形態における情報抽出システムの機能ブロック図
図2】第1実施形態における演算装置の処理内容を示す動作フロー図
図3】取得文字列にIDを付した例
図4】言語解析結果の一例
図5】意見・感情辞書の一例
図6】意見・感情単語の検出結果の一例
図7】用言の極性判定結果の一例
図8】集計結果の一例
図9】統合判定結果の一例
図10】第2実施形態における情報抽出システムの機能ブロック図
図11】第2実施形態における演算装置の処理内容を示す動作フロー図
図12】第2実施形態における統合判定結果の一例
【発明を実施するための形態】
【0018】
<第1実施形態>
〜構成〜
本発明の実施の形態の構成について機能ブロック図を参照して詳細に説明する。
【0019】
図1は、本実施形態に係る情報抽出システムの機能ブロック図である。情報抽出システムは、プログラム制御により動作する演算装置1と、情報を記憶する記憶装置2から構成される。
【0020】
演算装置1は、言語解析手段11と、意見・感情単語検出手段12と、用言極性判定手段13と、判定範囲拡張手段14と、判定数集計手段15と、統合極性判定手段16と、表現抽出手段17とを有する。
【0021】
記憶装置2は、意見・感情辞書21と、表現単語列辞書22を有する。
【0022】
言語解析手段11は、入力テキストから任意の文字列を取得し、取得文字列について言語解析を行い、文字列を単語に分割し、単語毎に原型や品詞を付与する。
【0023】
意見・感情単語検出手段12は、言語解析手段11による解析結果の各単語の原型と意見・感情辞書21の意見・感情単語(または単語列、以下同様)とのマッチングをとる。取得文字列において意見・感情単語とマッチする単語を検出すると、意見・感情単語として検出し、さらに、意見・感情辞書21に格納されている絶対極性に係る情報を付与する。ただし、意見・感情単語が否定語(例えば、〜でない)とともに検出された場合は、極性が反転する惧れがあるため、除外してもよい。極性が反転することが明らかな場合は、反転する極性を意見・感情辞書21に格納しておいてもよい。
【0024】
用言極性判定手段13は、意見・感情単語との共起性に基づいて、取得文字列から該意見・感情単語の前後にある用言を検出する。意見・感情単語検出手段12により付与された意見・感情単語の絶対極性に基づいて、用言の極性を判定する。
【0025】
用言とは、自立語のうち、活用があり、単独で述語となりうるもので、事物の動作・存在・性質・状態を叙述するものである。その下位分類として、動詞・形容詞・形容動詞の三品詞がある。
【0026】
具体的な用言の極性判定としては、意見・感情単語との距離、及び、出現数を用いる。例えば、対象とする用言の前後に、絶対ポジティブ表現に係る意見・感情単語および絶対ネガティブ表現に係る意見・感情単語がある場合、より近い意見・感情単語の絶対極性を同じ極性であると判定する。すなわち、用言のより近くに絶対ポジティブ表現に係る意見・感情単語があれば、用言の極性はポジティブであると判定し、用言のより近くに絶対ネガティブ表現に係る意見・感情単語があれば、用言の極性はネガティブであると判定する。用言と意見・感情単語との距離をN単語(例えば10単語)以内限定する。または、同一文、もしくは、前後N文(例えば、前後2文)に限定することも可能である。さらに、絶対ポジティブ表現に係る意見・感情単語との距離と絶対ネガティブ表現に係る意見・感情単語との距離が同じまたは同程度と見なせる(例えば、各距離が6単語と7単語であり、差が1単語である)場合、同一文書中に出現する絶対ポジティブ表現に係る意見・感情単語と絶対ネガティブ表現に係る意見・感情単語の出現数の多寡で判定することもできる。
【0027】
判定範囲拡張手段14は、極性判定範囲を用言極性判定手段13により検出・判定した用言から拡張する。具体的には、用言に、用言の前の1〜N(例えば3)語を連結する。場合によっては、用言の後ろの1〜N語を連結してもよい。これにより、N個の拡張された判定対象単語列ができる。これらの判定対象単語列に用言と同じ極性を付与する。
【0028】
たとえば、「電池がすぐ切れる」という単語列において、言語解析手段11により「電池」、「が」、「すぐ」、「切れる」と単語に分割されて、用言極性判定手段13により用言「切れる」の極性がネガティブと判定される場合、N=3とすると、判定範囲拡張手段14は、拡張された判定対象単語列「すぐ切れる」、「がすぐ切れる」、「電池がすぐ切れる」の極性をネガティブと判定する。
【0029】
言語解析手段11、意見・感情単語検出手段12、用言極性判定手段13、判定範囲拡張手段14は、入力テキストから任意の文字列を取得し、一連の処理を繰り返す。ここでは、この用言および判定対象単語列の極性を判定する一連の処理を単独判定と呼ぶ。同じ判定対象単語列であっても、単独判定結果がポジティブの場合もあれば、ネガティブの場合もある。
【0030】
判定数集計手段15は、単独判定の結果に基づき、テキスト全体に対し、各判定対象単語列(一部、用言(単語)を含む、以下同様)毎にポジティブ判定数およびネガティブ判定数を集計する。
【0031】
統合極性判定手段16は、各判定対象単語列毎のポジティブ判定数とネガティブ判定数に基づき比Nを演算し、例えばN>5の場合をポジティブ表現とし、N<0.2の場合をネガティブ表現と、統合判定する。統合判定は、多数の単独判定結果を統合したものである。
【0032】
表現抽出手段17は、統合極性判定手段16の判定結果に基づいて、ポジティブ表現に係る単語列およびネガティブ表現に係る単語列を抽出し、表現単語列辞書22に出力する。併せてモニターに出力してもよい。
【0033】
意見・感情辞書21は、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語および絶対ネガティブ表現に係る意見・感情単語を格納している。
【0034】
表現単語列辞書22は、情報抽出システムの抽出結果であるポジティブ表現に係る単語列および絶対ネガティブ表現に係る単語列を格納している。
【0035】
〜動作〜
次に、本発明の実施の形態の動作についてフロー図を参照して詳細に説明する。
【0036】
図2は、演算装置1の処理内容を示す動作フロー図である。
【0037】
言語解析手段11は、入力テキストから任意の文字列を取得する(ステップS11)。取得した文字列には、IDを付す。図3は、取得文字列にIDを付した例である。「・・・電池がすぐに切れて困る。・・・・」等の文字列を取得する。
【0038】
言語解析手段11は、取得文字列について形態素解析等の既存技術による言語解析を行い、文字列を単語に分割し、単語毎に原型や品詞を付与する(ステップS12)。図4は、ID=1「・・・電池がすぐに切れて困る。・・・・」の言語解析結果である。「電池がすぐに切れて困る」は、「電池」、「が」、「すぐ」、「切れて」、「困る」という単語に分割され、分割された各単語には、原型と品詞が付与される。
【0039】
意見・感情単語検出手段12は、意見・感情辞書21を参照し、マッチングをとり、取得文字列から意見・感情単語を検出する(ステップS13)。
【0040】
図5は、意見・感情辞書21の一例である。意見感情単語に絶対ポジティブまたは絶対ネガティブの極性が付与されている。例えば、「嬉しい」、「良い」、「美味しい」、「満足する」、「ほっとする」は、その単語が現れる文脈に依存せずに常にポジティブであり、「悪い」、「不満だ」、「不味い」、「困る」、「苦しい」は、その単語が現れる文脈に依存せずに常にネガティブである。「困る」は絶対ネガティブ表現に係る意見・感情単語として意見・感情辞書21に格納されている。
【0041】
言語解析結果である「電池」、「が」、「すぐに」、「切れて」、「困る」の各単語毎にマッチングをとり、意見・感情単語「困る」を検出する。さらに、「困る」に絶対ネガティブの極性を付与する。図6は、意見・感情単語の検出結果の一例である。
【0042】
用言極性判定手段13は、意見・感情単語との共起性に基づいて、用言を検出し、意見・感情単語の絶対極性に基づいて、用言の極性を判定する(ステップS14)。具体的には、意見・感情単語検出手段12により検出されなかった動詞、形容詞、形容動詞を用言として検出する。上記では「切れる」が用言となる。さらに、用言の前後の意見・感情単語「困る」を検出し、意見・感情単語「困る」の絶対極性(絶対ネガティブ)に基づいて、用言「切れる」の極性をネガティブと判定する。図7は、用言の極性判定結果の一例である。
【0043】
判定範囲拡張手段14は、用言の前の1〜N(例えば3)語を連結してなる単語列に拡張して、判定対象単語列の極性を判定する(ステップS15)。N=3の場合、用言「切れる」の前の「すぐ」、「が/すぐ」、「電池/が/すぐに」を連結し、用言「切れる」を判定対象単語列「すぐ切れる」「がすぐ切れる」「電池がすぐ切れる」に拡張する。これらの判定対象単語列全てに用言「切れる」と同じ極性(ネガティブ)を付与する。
【0044】
言語解析手段11、意見・感情単語検出手段12、用言極性判定手段13、判定範囲拡張手段14は、ステップS11の全てのIDにおいてステップS12〜15の一連の処理(単独判定)を繰り返し、全てのIDにおいて単独判定すると、次のステップに移る(ステップS16)。
【0045】
判定数集計手段15は、単独判定の結果に基づき、テキスト全体に対し、各判定対象単語列(一部、用言(単語)を含む、以下同様)毎にポジティブ判定数およびネガティブ判定数を集計する(ステップS17)。図8は、集計結果の一例である。例えば、用言「切れる」は、ポジティブ判定数と10000回、ネガティブ判定数20000回である。すなわち、「電池がすぐ切れる」の様なネガティブ表現に用いられることも多いが、「頭が切れる」の様なポジティブ表現に用いられることもあることを示している。
【0046】
統合極性判定手段16は、各判定対象単語列毎のポジティブ判定数とネガティブ判定数に基づき比Nを演算し、例えばN>5の場合をポジティブ表現とし、N<0.2の場合をネガティブ表現と、統合判定する(ステップS18)。言い換えると、ポジティブ判定数がネガティブ判定数の5倍超ある判定対象単語列はポジティブ表現であり、ネガティブ判定数がポジティブ判定数の5倍超ある判定対象単語列はネガティブ表現である。それ以外は、判定対象から除外する。なお、閾値は適宜設定すればよい。図9は、統合判定結果の一例である。判定対象単語列「頭が切れる」、「癌細胞を破壊する」はポジティブ表現となり、判定対象単語列「電池がすぐ切れる」、「破壊する」はネガティブ表現となる。
【0047】
表現抽出手段17は、統合極性判定手段16の判定結果に基づいて、ポジティブ表現に係る単語列「頭が切れる」、「癌細胞を破壊する」およびネガティブ表現に係る単語列「電池がすぐ切れる」、「破壊する」を抽出し、表現単語列辞書22に出力する(ステップS19)。
【0048】
〜効果〜
本実施形態の第1の効果について説明する。本実施形態では、絶対極性を有する意見・感情単語に基づいて、用言および判定対象単語列の極性を判定している。製品の評価に係るテキストには、必ず意見・感情単語が含まれているため、網羅的に意見・感情単語を検出する結果、ポジティブ表現およびネガティブ表現を網羅性高く抽出できる。
【0049】
本実施形態の第2の効果について説明する。上述の様に、絶対極性を有する意見・感情単語に基づいて、用言および判定対象単語列の極性を判定しているため、精度よく判定できる。さらに、用言に単語を連結してなる単語列に判定範囲を拡張しており、極性を精度よく判定できる。たとえば、図9では、「破壊する」をネガティブ表現と「癌細胞を破壊する」をポジティブ表現として抽出しており、単語の長さの異なりにより極性が反転するケースについても対応できる。また、単独判定を繰り返した後、判定数を集計し、統合判定をおこなうため、単独判定より精度よく判定できる。
【0050】
<第2実施形態>
〜構成〜
図10は、第2実施形態に係る情報抽出システムの機能ブロック図である。第1実施形態が、統合極性判定手段16を有するのに対し、第2実施形態は、第1統合極性判定手段16Aと第2統合極性判定手段16Bとを有する点で相違する。その他の構成は、第1実施形態と共通であり、同じ符号を付している。共通する構成については説明を省略する。
【0051】
第1統合極性判定手段16Aは本判定に先立って仮判定をするが、実質的には、第1実施形態の統合極性判定手段16と同様の構成である。
【0052】
第2統合極性判定手段16Bは、第1単語列(用言を含む)と、第1単語列を含み該第1単語列より長い第2単語列があり、第1統合極性判定手段16Aによる第1単語列の極性と第2単語列の極性とが反転する場合、第2単語列の極性のみを判定する。すなわち、第1単語列を判定対象から除外する。
【0053】
〜動作〜
図11は、第2実施形態に係る演算装置1の処理内容を示す動作フロー図である。第1実施形態が、統合極性判定に係る処理(ステップS18)を有するのに対し、第2実施形態は、第1統合極性判定に係る処理(ステップS18A)と第2統合極性判定に係る処理(ステップS18B)とを有する点で相違する。その他の処理は、第1実施形態と共通であり、同じステップ番号を付している。共通するステップについては説明を省略する。
【0054】
第1統合極性判定に係る処理(ステップS18A)では本判定に先立って仮判定をするが、実質的には、第1実施形態の統合極性判定に係る処理(ステップS18)と同様の処理である。図12は、統合判定結果の一例である。仮判定の結果、判定対象単語列「頭が切れる」、「癌細胞を破壊する」はポジティブ表現として、判定対象単語列「電池がすぐ切れる」、「破壊する」はネガティブ表現となる。
【0055】
ここで、判定対象単語列「癌細胞を破壊する」は用言「破壊する」を含み、用言「破壊する」より長い。また、用言「破壊する」はネガティブ表現であるのに対し、判定対象単語列「癌細胞を破壊する」はポジティブ表現であり、極性が反転する。
【0056】
したがって、第2統合極性判定手段16Bは、より長い判定対象単語列「癌細胞を破壊する」のみを判定対象とし、用言「破壊する」を判定対象から除外する(ステップS18B)。本判定の結果、判定対象単語列「頭が切れる」、「癌細胞を破壊する」はポジティブ表現となり、判定対象単語列「電池がすぐ切れる」はネガティブ表現となる。
【0057】
〜効果〜
第2実施形態は、第1実施形態と共通する構成を有し、第1実施形態と同様の効果を奏する。
【0058】
さらに、追加構成(第2統合極性判定手段16B)により、用言「破壊する」を判定対象から除外する。一般に、単語長が長くなるほど、意味の曖昧さが少なくなり、極性判定の精度が向上する。したがって、第1実施形態より更に精度よく判定できる。
【0059】
<補足>
本願発明の発明者は、下記の点に新たに着目し、本願発明を完成させた。
【0060】
本発明の情報抽出システムが対象にするテキストは、ブログやインターネット掲示板上の製品/サービス評価、コンタクトセンタへの製品/サービスに対する苦情や要望をテキスト化したものなどである。このようなテキストには、必ず製品/サービスに対する顧客の意見・感情を表す単語(または単語列)が含まれている。すなわち、意見・感情単語を網羅的に抽出できる。
【0061】
この様な、意見・感情単語(または単語列)は、文脈によって極性が変化しない絶対ポジティブ表現または絶対ネガティブ表現であることが多い。
【0062】
絶対ポジティブ表現または絶対ネガティブ表現に基づいて、意見・感情単語と共起する用言の極性を精度よく判定できる。さらに、用言に1以上の単語を連結してなる単語列に拡張しても、極性を精度よく判定できる。すなわち、判定対象単語列は文脈によって極性が変化しない。
<付記>
上記実施形態の一部または全部は、下記の様にも記載され得るが、以下に限定されるものではない。
【0063】
本発明は、情報抽出システムであって、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する統合極性判定手段と、前記統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段とを有する。
【0064】
本発明は、情報抽出システムであって、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書と、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する言語解析手段と、前記言語解析手段による解析結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する意見・感情単語検出手段と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する用言極性判定手段と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する判定範囲拡張手段と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する判定数集計手段と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する第1統合極性判定手段と、第1単語列(用言を含む)と、該第1単語列を含み該第1単語列より長い第2単語列があり、前記第1統合極性判定手段による該第1単語列の極性と該第2単語列の極性とが反転する場合、該第2単語列の極性のみを本判定する第2統合極性判定手段と、前記第2統合極性判定手段の判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する表現抽出手段とを有する。
【0065】
本発明の情報抽出システムにおいて、好ましくは、前記テキストは、ブログやインターネット掲示板上の製品/サービス評価、コンタクトセンタへの製品/サービスに対する苦情や要望をテキスト化したものである。
【0066】
本発明の情報抽出システムにおいて、好ましくは、前記統合極性判定手段は、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する。
【0067】
本発明の情報抽出システムにおいて、好ましくは、前記第1統合極性判定手段は、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する。
【0068】
本発明は、情報抽出方法であって、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与し、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出し、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定し、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定し、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計し、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定し、前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する。
【0069】
本発明は、情報抽出方法であって、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与し、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出し、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定し、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定し、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計し、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定し、第1単語列(用言を含む)と、該第1単語列を含み該第1単語列より長い第2単語列があり、仮判定により該第1単語列の極性と該第2単語列の極性とが反転する場合、該第2単語列の極性のみを本判定し、本判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する。
【0070】
本発明の情報抽出方法において、好ましくは、前記テキストは、ブログやインターネット掲示板上の製品/サービス評価、コンタクトセンタへの製品/サービスに対する苦情や要望をテキスト化したものである。
【0071】
本発明の情報抽出方法において、好ましくは、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する。
【0072】
本発明の情報抽出方法において、好ましくは、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する。
【0073】
本発明は、情報抽出プログラムであって、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する処理と、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する処理と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する処理と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する処理と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する処理と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する処理と、前記統合判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する処理とを演算装置に実行させる。
【0074】
本発明は、情報抽出プログラムであって、テキストから任意の文字列を取得し、該文字列について言語解析を行い、該文字列を単語に分割し、単語毎に原型や品詞を付与する処理と、文脈によって極性が変化しない絶対ポジティブ表現に係る意見・感情単語(または単語列)および絶対ネガティブ表現に係る意見・感情単語(または単語列)を格納した意見・感情辞書を参照し、前記言語解結果の各単語の原型と意見・感情辞書の意見・感情単語(または単語列)とのマッチングをとり、前記取得文字列から意見・感情単語(または単語列)を検出する処理と、前記意見・感情単語(または単語列)との共起性に基づいて、該取得文字列から該意見・感情単語(または単語列)の前後にある用言を検出し、該意見・感情単語(または単語列)の絶対極性に基づいて、該用言の極性を判定する処理と、極性判定範囲を、前記用言から、該用言に該用言の前後の1以上の単語を連結してなる単語列に拡張して、極性を判定する処理と、前記テキストに含まれる他の文字列に対し、前記用言および前記拡張された判定対象単語列の極性の単独判定を繰り返し、各判定対象単語列毎にポジティブ判定数およびネガティブ判定数を集計する処理と、前記ポジティブ判定数と前記ネガティブ判定数に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する処理と、第1単語列(用言を含む)と、該第1単語列を含み該第1単語列より長い第2単語列があり、仮判定により該第1単語列の極性と該第2単語列の極性とが反転する場合、該第2単語列の極性のみを本判定する処理と、本判定結果に基づいて、ポジティブ表現に係る単語列(または単語)およびネガティブ表現に係る単語列(または単語)を抽出する処理とを演算装置に実行させる。
【0075】
本発明の情報抽出プログラムにおいて、好ましくは、前記テキストは、ブログやインターネット掲示板上の製品/サービス評価、コンタクトセンタへの製品/サービスに対する苦情や要望をテキスト化したものである。
【0076】
本発明の情報抽出プログラムにおいて、好ましくは、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを統合判定する。
【0077】
本発明の情報抽出プログラムにおいて、好ましくは、前記ポジティブ判定数と前記ネガティブ判定数との比に基づいて、該判定対象単語列がポジティブ表現かネガティブ表現かを仮判定する。
【0078】
本出願は、2012年10月26日に出願された日本出願特願2012−236688号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【符号の説明】
【0079】
1 演算装置
2 記憶装置
11 言語解析手段と、
12 意見・感情単語検出手段
13 用言極性判定手段
14 判定範囲拡張手段
15 判定数集計手段
16 統合極性判定手段
16A 第1統合極性判定手段
16B 第2統合極性判定手段
17 表現抽出手段
21 意見・感情辞書
22 表現単語列辞書
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12