特許第5690300号(P5690300)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コミュニケーションズ株式会社の特許一覧

特許5690300属性抽出装置、属性抽出方法、および属性抽出プログラム
<>
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000002
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000003
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000004
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000005
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000006
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000007
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000008
  • 特許5690300-属性抽出装置、属性抽出方法、および属性抽出プログラム 図000009
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5690300
(24)【登録日】2015年2月6日
(45)【発行日】2015年3月25日
(54)【発明の名称】属性抽出装置、属性抽出方法、および属性抽出プログラム
(51)【国際特許分類】
   G06F 17/30 20060101AFI20150305BHJP
【FI】
   G06F17/30 210A
   G06F17/30 170A
   G06F17/30 340A
【請求項の数】10
【全頁数】12
(21)【出願番号】特願2012-69728(P2012-69728)
(22)【出願日】2012年3月26日
(65)【公開番号】特開2013-200794(P2013-200794A)
(43)【公開日】2013年10月3日
【審査請求日】2014年2月28日
(73)【特許権者】
【識別番号】399035766
【氏名又は名称】エヌ・ティ・ティ・コミュニケーションズ株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100098327
【弁理士】
【氏名又は名称】高松 俊雄
(72)【発明者】
【氏名】浅野 久子
(72)【発明者】
【氏名】原 謙治
(72)【発明者】
【氏名】本間 咲来
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2002−278982(JP,A)
【文献】 特開平02−253371(JP,A)
【文献】 米国特許出願公開第2010/0100607(US,A1)
【文献】 特開2008−140359(JP,A)
【文献】 特開2009−181408(JP,A)
【文献】 特開平06−149887(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
属性抽出装置であって、
ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析手段と、
少なくとも1つの意味属性パタンと、対応する属性分類とが記憶された主辞意味属性抽出パタン記憶手段と、
前記体言系主辞に付与された意味属性が、前記主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致した意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出手段と、を有すること
を特徴とする属性抽出装置。
【請求項2】
請求項1記載の属性抽出装置であって、
前記言語解析手段は、前記言語解析を行う際に、前記テキストデータを単語に分け、各単語に品詞を付与し、
前記単語の品詞と単語の表記に基づいて、前記テキストデータから属性情報を抽出する品詞表記抽出手段と、
品詞と表記の組合せである、少なくとも1つの品詞表記パタンと、対応する属性分類とが記憶された品詞表記抽出パタン記憶手段と、をさらに有し、
前記品詞表記抽出手段は、前記品詞表記抽出パタン記憶手段に記憶されたいずれかの品詞表記パタンに一致するデータまたはデータの一部を、一致した品詞表記パタンに対応する属性分類の属性情報として抽出すること
を特徴とする属性抽出装置。
【請求項3】
請求項1記載の属性抽出装置であって、
前記言語解析手段は、前記テキストデータに含まれる固有表現データを特定し、当該固有表現データに固有表現種別を付与し、
少なくとも1つの固有表現種別パタンと、対応する属性分類とが記憶された固有表現抽出パタン記憶手段と、
前記固有表現データに付与された固有表現種別が、前記固有表現抽出パタン記憶手段に記憶されたいずれかの固有表現種別パタンに一致する場合、当該固有表現データを、一致した固有表現種別に対応する属性分類の属性情報として抽出する固有表現抽出手段を、さらに有すること
を特徴とする属性抽出装置。
【請求項4】
請求項1から3のいずれか1項に記載の属性抽出装置であって、
前記属性情報には、職業、年齢、性別、ロケーションの少なくとも1つが含まれること
を特徴とする属性抽出装置。
【請求項5】
請求項1に記載の属性抽出装置であって、
前記主辞意味属性抽出手段は、職業の属性情報を抽出すること
を特徴とする属性抽出装置。
【請求項6】
請求項3に記載の属性抽出装置であって、
前記品詞表記抽出手段は、年齢、趣味および嗜好の少なくとも1つの属性情報を抽出すること
を特徴とする属性抽出装置。
【請求項7】
請求項1から6のいずれか1項に記載の属性抽出装置であって、
前記テキストデータは、ネットワーク上で公開されるデータであって、当該テキストデータに含まれるユーザプロフィールのユーザが入力し、ネットワーク上で公開される入力テキストデータと対応付けられていること
を特徴とする属性抽出装置。
【請求項8】
請求項7に記載の属性抽出装置であって、
前記テキストデータから抽出される少なくとも1つ属性情報を用いて、前記入力テキストデータを分析する分析手段を、さらに有すること
を特徴とする属性抽出装置。
【請求項9】
属性抽出装置が行う属性抽出方法であって、
ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析ステップと、
前記体言系主辞に付与された意味属性が、主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致する意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出ステップと、を行うこと
を特徴とする属性抽出方法。
【請求項10】
属性抽出装置が実行する属性抽出プログラムであって、
属性抽出装置を、
ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析手段、
少なくとも1つの意味属性パタンと、対応する属性分類とが記憶された主辞意味属性抽出パタン記憶手段、および、
前記体言系主辞に付与された意味属性が、前記主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致した意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出手段、
として機能させるための属性抽出プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストデータを解析し、ユーザの属性情報を抽出する属性抽出装置、属性抽出方法、および属性抽出プログラムに関する。
【背景技術】
【0002】
インターネット上で流通しているテキストデータを、形態素解析等により解析を行い、単語や文節を抽出すること(非特許文献1)、また抽出した単語について当該単語の表記と対応する属性を記述した属性辞書と比較し、分類することが行われている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「テキストからの知識抽出の基盤となる日本語基本解析技術」、NTT技術ジャーナル2008.6、p20-23
【発明の概要】
【発明が解決しようとする課題】
【0004】
抽出した単語が属性辞書に登録された単語と一致する場合には、職業等の属性を確定することができる。しかしながら、属性辞書に登録された単語が、ある属性の一部の場合は、抽出した単語全体を属性情報として取り出すことができない。例えば、属性辞書に「エンジニア(職業)」が登録されている場合、テキストから抽出した単語が「ネットワークエンジニア」であっても、職業として「エンジニア」しか抽出することができない。
【0005】
また、文の構造的にその属性を表さない場合、適切な属性として抽出できなかったり、誤抽出をしてしまう可能性がある。例えば、属性辞書に「エンジニア(職業)」が登録されている場合、テキストから抽出した単語が「インフラエンジニア勉強会主催」であっても、職業として「エンジニア」を誤抽出してしまう。
【0006】
適切な範囲の属性情報を抽出するとともに、誤抽出を防止するために、幅広い表記・単語を登録した属性辞書を作成するが考えられるが、幅広い表記をカバーした属性辞書の作成およびメンテナンスには、非常に大きな負荷を要する。
【0007】
本発明は上記事情に鑑みてなされたものであり、本発明の目的は、テキストデータから適切な範囲の属性情報を抽出するとともに、属性情報の誤抽出を防止する属性抽出装置、属性抽出方法、および属性抽出プログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明は、属性抽出装置であって、ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析手段と、少なくとも1つの意味属性パタンと、対応する属性分類とが記憶された主辞意味属性抽出パタン記憶手段と、前記体言系主辞に付与された意味属性が、前記主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致した意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出手段と、を有する。
【0009】
本発明は、属性抽出装置が行う属性抽出方法であって、ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析ステップと、前記体言系主辞に付与された意味属性が、主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致する意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出ステップと、を行う。
【0010】
本発明は、属性抽出装置が実行する属性抽出プログラムであって、属性抽出装置を、ユーザプロフィールを含むテキストデータを言語解析し、前記テキストデータに含まれる体言系主辞に意味属性を付与する言語解析手段、少なくとも1つの意味属性パタンと、対応する属性分類とが記憶された主辞意味属性抽出パタン記憶手段、および、前記体言系主辞に付与された意味属性が、前記主辞意味属性抽出パタン記憶手段に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致した意味属性パタンに対応する属性分類の属性情報として抽出する主辞意味属性抽出手段、として機能させるための属性抽出プログラムである。
【発明の効果】
【0011】
本発明によれば、テキストデータから適切な範囲の属性情報を抽出するとともに、属性情報の誤抽出を防止する属性抽出装置、属性抽出方法、および属性抽出プログラムを提供することができる。
【図面の簡単な説明】
【0012】
図1】本発明の実施形態に係る属性抽出装置の構成を示す構成図である。
図2】属性抽出部の構成を示すブロック図である。
図3】属性抽出部の処理の具体例を示す図である。
図4】主辞意味属性抽出パタン記憶部の一例を示す図である。
図5】品詞・表記抽出パタン記憶部の一例を示す図である。
図6】固有表現抽出パタン記憶部の一例を示す図である。
図7】属性付クチコミデータおよび集計データの一例を示す図である。
図8】分析結果の一例を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施形態について説明する。
【0014】
図1は、本発明の実施形態に係る属性抽出装置1の構成を示す構成図である。本実施形態の属性抽出装置1は、ネットワーク上に公開される大量のテキストデータを入力し、各テキストデータから抽出されるユーザの属性情報を用いてデータを分析・分類する装置である。
【0015】
本実施形態では、テキストデータとして、ユーザプロフィールが記述されたプロフィールテキスト21と、当該プロフィールテキスト21のユーザが入力したつぶやき、クチコミ、感想などのクチコミテキスト22とが、ペアになって属性抽出装置1に入力される。本実施形態では、ネットワーク上から取得したクチコミテキスト22と、当該クチコミテキスト22を入力したユーザのプロフィールテキスト22とをペアにして属性抽出装置1に入力する。
【0016】
なお、入力されるテキストデータ(プロフィールテキスト21およびクチコミテキスト22)としては、例えばツイッター(twitter)、ブログ(blog)、フェースブック(facebook)などが考えられる。
【0017】
本実施形態の属性抽出装置1は、属性抽出部11と、クチコミ抽出部12と、属性付クチコミ情報記憶部13と、分析部14とを備える。
【0018】
属性抽出部11は、入力されたプロフィールテキスト21を解析し、属性情報を抽出する。なお、属性情報としては、職業、趣味・嗜好、年齢・年代、ロケーションなどが含まれる。
【0019】
図2は、属性抽出部11の構成を示すブロック図である。図示する属性抽出部11は、基本言語解析部101と、主辞意味属性抽出部102と、品詞・表記抽出部103と、固有表現抽出部104と、主辞意味属性抽出パタン記憶部105と、品詞・表記抽出パタン記憶部106と、固有表現抽出パタン記憶部107とを備える。
【0020】
基本言語解析部101は、プロフィールテキスト21が入力されると、当該プロフィールテキスト21を形態素解析、固有表現抽出、係り受け解析等の基本言語解析を行う。形態素解析は、入力されたテキストを単語に分割し、各単語に品詞などの情報を付加する。固有表現抽出は、形態素解析により分割された単語列から人名、地名、組織名等の固有表現データを特定し、特定した固有表現データに固有表現種別(人名、地名、組織名等)を付与する。係り受け解析は、どの文節がどの文節を修飾するか(係るか)を解析する。
【0021】
また、本実施形態の基本言語解析部101は、各単語に意味属性を付与する。意味属性は、あらかじめ定められた分類体系である。例えば、日本語語彙大系(ISBN4-00-130101-6 C3881岩波書店)等を利用してもよい。また、以後の説明で用いる体言系主辞は、文節内で最も文節末に近い体言(品詞が名詞、名詞接尾辞、数詞、助数詞等)である。
【0022】
主辞意味属性抽出部102は、主辞意味属性抽出パタン記憶部105を用いて、プロフィールテキスト21から属性情報を抽出する。すなわち、主辞意味属性抽出部102は、体言系主辞に付与された意味属性が、主辞意味属性抽出パタン記憶部105に記憶されたいずれかの意味属性パタンに一致する場合、当該体言系主辞を含む文節の名詞句を、一致した意味属性パタンに対応する属性分類の属性情報として抽出する。主辞意味属性抽出パタン記憶部105には、少なくとも1つの意味属性パタンと、対応する属性分類(属性種別、属性クラス)とが記憶されている。
【0023】
品詞・表記抽出部103は、品詞・表記抽出パタン記憶部106を参照し、単語の品詞と単語の表記に基づいて属性情報をプロフィールテキスト21から抽出する。すなわち、品詞・表記抽出部103は、品詞・表記抽出パタン記憶部106に記憶されたいずれかの品詞表記パタンに一致するデータまたはデータの一部を、一致した品詞表記パタンに対応する属性分類の属性情報として抽出する。品詞・表記抽出パタン記憶部106には、品詞と表記の組合せである、少なくとも1つの品詞表記パタンと、対応する属性分類とが記憶されている。
【0024】
固有表現抽出部104は、固有表現抽出パタン記憶部107を用いて、プロフィールテキスト21から属性情報を抽出する。すなわち、固有表現抽出部104は、固有表現データに付与された固有表現種別が、固有表現抽出パタン記憶部107に記憶されたいずれかの固有表現パタンに一致する場合、当該固有表現データを、一致した固有表現パタンに対応する属性分類の属性情報として抽出する。固有表現抽出パタン記憶部107には、少なくとも1つの固有表現パタンと、対応する属性分類とが記憶されている。
【0025】
クチコミ抽出部12は、プロフィールテキスト21とペアで入力されるクチコミテキスト22を解析し、クチコミ情報を抽出する。例えば、クチコミ抽出部12は、あらかじめ定めたキーワードに関する評価属性(対象)、評価表現(プロフィールテキスト22に記述された表現(かっこいい、さわやかなど))、極性(好評または不評)などをクチコミ情報として抽出する。
【0026】
属性付クチコミ情報記憶部13には、属性抽出部11が抽出した属性情報と、クチコミ抽出部12が抽出したクチコミ情報とが対応付けて(ペアで)記憶される。ただし、キーワードがひとつも抽出されなかったクチコミテキスト22については、属性付口コミ情報記憶部13に何も記憶しない。
【0027】
分析部14は、属性付クチコミ情報記憶部13に記憶された属性情報およびクチコミ情報を分析する。すなわち、分析部14は、プロフィールテキスト21から抽出される少なくとも1つの属性情報を用いて、クチコミテキスト22から抽出されるクチコミ情報を分析する。図1に示す分析部14は、分析対象属性分析部15と、競合比較分析部16と、属性別トレンド分析部17とを備える。
【0028】
分析対象属性分析部15は、ある分析対象キーワードに対するユーザの属性情報を分析し、分析結果を表示する。例えば、ある分析対象キーワードを含む各クチコミテキスト22に対応する各プロフィールテキスト21の属性情報を分析・集計し(例えば、職業クラス集計、趣味嗜好集計、男女集計など)、それぞれ円グラフ、棒グラフなどで表示する。
【0029】
競合比較属性分析部16は、複数の分析対象キーワードに対するユーザの属性情報を分析し、分析結果を比較表示する。例えば、各分析対象キーワードを含む各クチコミテキスト22に対応する各プロフィールテキスト21の属性情報を分析・集計し(例えば、職業クラス集計、趣味嗜好集計、男女集計など)、円グラフや、棒グラフなどで表示する。
【0030】
属性別トレンド分析部17は、あるユーザ属性に対する分析対象キーワード集計結果を表示する。例えば、性別=「女性」、趣味・嗜好=「音楽」というユーザ属性をもつユーザだけで集計した分析対象キーワードのランキング表示などを行う。
【0031】
上記説明した属性抽出装置1は、例えば、CPUと、メモリと、HDD等の外部記憶装置と、入力装置と、出力装置とを備えた汎用的なコンピュータシステムを用いることができる。このコンピュータシステムにおいて、CPUがメモリ上にロードされた属性抽出装置1用のプログラムを実行することにより、属性抽出装置1の各機能が実現される。また、属性抽出装置1用のプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD−ROMなどのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
【0032】
次に、本実施形態の処理について説明する。
【0033】
図3は、属性抽出部11の属性抽出処理を示すものである。
【0034】
図示する例では、プロフィールテキストとして、「河川エンジニアをやってます。外車好きです。宮沢賢治は全部読みました。」301が、属性抽出部11に入力されるものとする。
【0035】
基本言語解析部101は、入力されたプロフィールテキスト301に対して、基本言語解析を行うことにより、解析結果データ302を出力する(S11)。すなわち、基本言語解析部101は、形態素解析を行い、「/」または「//」で区切った単位で単語に分割し、各単語に対して品詞(不図示)を付与する。また、本実施形態では、形態素解析を行う際に、全ての単語に対して、意味属性(その単語の意味をあらわす分類)を付与する。図示する例では、「エンジニア」という体言系主辞には、「専門技術職」という意味属性が付与される。体言系主辞である「エンジニア」は、「河川/エンジニア/を」の文節の中で最も後方の名詞(または代名詞)である。なお、他の単語にも意味属性が付与されるが、ここでは省略する。
【0036】
また、基本言語解析部101は、固有表現抽出を行うことにより、「宮沢賢治」を人名の固有表現として抽出し、抽出した固有表現データには「(人名(固有表現))」(固有表現種別)が付与される。また、基本言語解析部101は、係り受け解析を行うことにより、形態素解析により「/」で区切られた単語の文節を検出し、文節境界線となる位置に「//」を設定する。基本言語解析部101は、このような言語解析を行うことで、解析結果データ302を出力する。
【0037】
主辞意味属性抽出部102、品詞・表記抽出部103および固有表現抽出部104は、プロフィールテキストの解析結果データ302から、属性情報をそれぞれ抽出する(S21)。
【0038】
主辞意味属性抽出部102は、主辞意味属性抽出パタン記憶部105を用いて属性情報を抽出する。具体的には、主辞意味属性抽出部102は、各体言系主辞について、当該主辞に付与された意味属性と、主辞意味属性抽出パタン記憶部105の各意味属性パタンとを照合し、いずれかの意味属性パタンと一致した体言系主辞については、当該体言系主辞と同一の文節に含まれる名詞句を属性情報として抽出する。図3に示す解析結果データ302の中で体言系主辞は、「エンジニア」、「好き」、「賢治」、「全部」である。
【0039】
図4は、主辞意味属性抽出パタン記憶部105の一例を示す図である。図示する主辞意味属性抽出パタン記憶部105には、属性種別および属性クラス(属性分類)と、意味属性パタンとが対応付けて記憶されている。主辞意味属性抽出部102は、「エンジニア」、「好き」、「賢治」、「全部」のそれぞれに付与された各意味属性と、主辞意味属性抽出パタン記憶部105の意味属性パタンを照合する。この場合、「エンジニア」の意味属性(専門技術職)が主辞意味属性抽出パタン記憶部105の意味属性パタン(専門技術職or技術職)に一致し、他は一致しないものとする。主辞意味属性抽出部102は、一致した「エンジニア」と同一文節に含まれる名詞句の「河川エンジニア」を属性情報(属性値)として抽出する。また、主辞意味属性抽出部102は、抽出した「河川エンジニア」の属性分類として、主辞意味属性抽出パタン記憶部105の一致したデータ(レコード)の属性種別(職業)、属性クラス(専門技術職)を特定する。そして、主辞意味属性抽出部102は、抽出した属性情報(「河川エンジニア」)を、特定した属性分類(「属性種別(職業)、属性クラス(専門技術職)」)ととともに、属性情報として出力する。
【0040】
品詞・表記抽出部103は、品詞・表記抽出パタン記憶部106を用いて属性情報を抽出する。品詞・表記抽出部103は、品詞・表記抽出パタン記憶部106のいずれかの品詞・表記パタンと一致する表現または表現の一部を抽出する。
【0041】
図5は、品詞・表記抽出パタン記憶部106の一例を示す図である。図示する品詞・表記抽出パタン記憶部106には、属性種別と、属性クラスと、品詞・表記パタンとが対応付けて記憶されている。図示する品詞・表記抽出パタン記憶部106では、年齢と、趣味・嗜好と、性別とを抽出する例を挙げている。すなわち、品詞・表記抽出部103は、解析結果データ302の中に、品詞・表記パタンに設定された「品詞=名詞」「表記=好き」と一致する記述がある場合、趣味・嗜好の属性情報であると判別し、名詞の部分を属性情報として抽出する。図3に示す例では、「外車好き」が品詞・表記パタンと一致するため、「外車」を属性情報(属性値)として抽出する。品詞・表記抽出部103は、抽出した「外車」の属性分類として品詞・表記抽出パタン記憶部106の一致した品詞・表記パタンの属性種別(趣味・嗜好)、属性クラス(その他)を特定する。そして、品詞・表記抽出部103は、抽出した属性情報を特定した属性分類ととともに属性情報として出力する。
【0042】
また、品詞・表記抽出部103は、解析結果データ302の中に、品詞・表記パタンに設定された「品詞=数詞」、「品詞=助数詞、表記=才or歳」と一致する記述がある場合、年齢の属性情報であると判別し、当該数詞(例えば、24)を属性情報(属性値)として抽出する。また、品詞・表記抽出部103は、抽出した属性情報の属性分類として品詞・表記抽出パタン記憶部106の一致した品詞・表記パタンの属性種別(年齢)、属性クラス(10代/20代/30代・・)を特定する。なお、属性クラスについては、属性情報から対応する年代を設定する(例えば、24の場合は20代を設定する)。そして、品詞・表記抽出部103は、抽出した属性情報を特定した属性分類ととともに属性情報として出力する。なお、性別の属性情報についても、品詞・表記抽出パタン記憶部106を用いて同様に抽出する。
【0043】
固有表現抽出部104は、固有表現抽出パタン記憶部107を用いて属性情報を抽出する。具体的には、固有表現抽出部104は、解析結果データ302で固有表現として抽出された固有表現データについて、当該データの固有表現種別と、固有表現抽出パタン記憶部107の固有表現パタンとを照合し、マッチした場合に当該固有表現データを属性情報として抽出する。
【0044】
図6に示す例では、解析結果データ302の中で固有表現データは、「宮沢賢治」でその種別は「人名」である。したがって、固有表現抽出部104は、「宮沢賢治」を属性情報(属性値)として抽出し、その属性分類として固有表現抽出パタン記憶部107の一致した固有表現パタンの属性種別(趣味・嗜好)、属性クラス(人名)を特定する。そして、固有表現抽出部104は、抽出した属性情報を特定した属性分類ととともに属性情報として出力する。なお属性種別が「趣味・嗜好」で属性クラス「人工物」(商品名、書籍名など)の属性情報、また、属性種別が「ロケーション」で属性クラス「ロケーション」の属性情報についても、固有表現抽出パタン記憶部107を用いて同様に抽出する。
【0045】
図7(a)は、属性付クチコミ情報記憶部13に記憶される、属性付クチコミデータの一例を示す図である。図示する属性付クチコミデータは、クチコミ基本データ(クチコミID、発信日時、クチコミテキスト)と、プロフィール基本データ(ユーザID、プロフィールテキスト)と、クチコミ抽出結果(分析キーワード、評価属性/評価表現/極性)と、プロフィール抽出結果(抽出された各属性情報の属性種別/属性クラス/属性値)とが対応付けて記憶されている。なお、クチコミ抽出結果は、図1に示すクチコミ情報であって、プロフィール抽出結果は、図1に示す属性情報である。
【0046】
クチコミ抽出部12は、図示するクチコミデータ「新しく出たXX-01ってかっこいいよね!」が入力された場合、当該データを言語解析することで、評価属性(無し)、評価表現(かっこいい)、極性(好評)を、分析キーワード(XX-01)に対する評価・クチコミとして抽出する。
【0047】
図7(b)は、分析部14が図7(a)の属性付クチコミデータを分析・集計したデータ例である。分析部14は、このような集計データを用いて、所望の分析を行い、分析結果を出力する。
図8は、競合比較属性分析部16が分析した競合比較属性の分析結果の一例を示すものである。図示する例では、複数の分析対象キーワード(各コンビニ名称、各デパート名称)を含む各クチコミテキスト22に対応する各プロフィールテキスト21の属性情報(職業)を分析・集計し、分析キーワード毎に棒グラフで表示している。このグラフにより、例えば、デパートとコンビニでは、職業の分布傾向が異なることがみてとれる。具体的には、コンビニは学生が主力で、デパートは専門技術職が主力であること(ただし、デパートAはコンビニ的傾向があること)を把握することができる。このような比較分析により、イベント・キャンペーン効果の測定、ターゲット層の推定などの分析を容易に行うことができる。
【0048】
なお、図8は、競合比較属性の分析結果の一例であるが、図8の1つの棒グラフが、分析対象属性分析部15が分析した分析対象の分析結果の一例を示すものである。また、属性別トレンド分析部17の分析結果(不図示)により、指定した属性情報(およびその他の条件)で、今、何(分析対象キーワード)がはやっているかを分析・集計し、新商品開発等に生かすことができる。例えば、深夜帯に「学生」が多くつぶやくキーワードランキング、「東京」に住む「女性」で「音楽好き」がつぶやくキーワードランキングなどを分析することができる。
【0049】
以上説明した本実施形態では、フリーフォーマットで記載されたプロフィールテキスト(ツイッターやブログなどのユーザプロフィール)から、職業、趣味・嗜好などの属性情報を、適切な範囲で抽出するとともに、属性情報の誤抽出を防止することができる。具体的には、主辞意味属性抽出パタン記憶部105、品詞・表記抽出パタン記憶部106および固有表現抽出パタン記憶部107に登録されていない属性情報(属性値)であっても、適切に抽出することができる。また、抽出した属性情報(属性値)に適切な属性分類を付与することで、誤抽出を防止することができる。
【0050】
また、本実施形態では、フリーフォーマットで記載されたプロフィールテキストから属性情報を自動的に幅広い表現で抽出することができるため、趣味・嗜好の調査を目的としたアンケートを行うことなく、目的の情報を収集することができる。また、プロフィールテキスト(ユーザプロフィール欄等)で、職業や趣味・嗜好のカテゴリ毎に具体的な記入がない場合であっても、所望の属性情報を抽出することができる。
【0051】
また、本実施形態では、クチコミ抽出部12がクチコミテキスト22を解析し、分析キーワードに対する評価・クチコミとして評価属性、評価表現、極性を抽出し、抽出したクチコミ情報を属性情報を用いて分析することで、よりきめ細かいポジネガなどの分析を行うことができる。
【0052】
なお、本発明は上記実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
【符号の説明】
【0053】
1 :属性抽出装置
11:属性抽出部
101:基本言語解析部
102:主辞意味属性抽出部
103:品詞・表記抽出部
104:固有表現抽出部
105:主辞意味属性抽出パタン記憶部
106:品詞・表記抽出パタン記憶部
107:固有表現抽出パタン記憶部
12:クチコミ抽出部
13:属性付クチコミ情報記憶部
14:分析部
15:分析対象属性分析部
16:競合比較属性分析部
17:属性別トレンド分析部
21:プロフィールテキスト
22:クチコミテキスト
図1
図2
図3
図4
図5
図6
図7
図8