特許第5890385号(P5890385)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

<>
  • 特許5890385-データ処理装置、及びデータ処理方法 図000004
  • 特許5890385-データ処理装置、及びデータ処理方法 図000005
  • 特許5890385-データ処理装置、及びデータ処理方法 図000006
  • 特許5890385-データ処理装置、及びデータ処理方法 図000007
  • 特許5890385-データ処理装置、及びデータ処理方法 図000008
  • 特許5890385-データ処理装置、及びデータ処理方法 図000009
  • 特許5890385-データ処理装置、及びデータ処理方法 図000010
  • 特許5890385-データ処理装置、及びデータ処理方法 図000011
  • 特許5890385-データ処理装置、及びデータ処理方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5890385
(24)【登録日】2016年2月26日
(45)【発行日】2016年3月22日
(54)【発明の名称】データ処理装置、及びデータ処理方法
(51)【国際特許分類】
   G06F 17/30 20060101AFI20160308BHJP
【FI】
   G06F17/30 220Z
   G06F17/30 170A
   G06F17/30 210D
   G06F17/30 340A
【請求項の数】10
【全頁数】18
(21)【出願番号】特願2013-264058(P2013-264058)
(22)【出願日】2013年12月20日
(65)【公開番号】特開2015-121858(P2015-121858A)
(43)【公開日】2015年7月2日
【審査請求日】2014年9月12日
【前置審査】
(73)【特許権者】
【識別番号】500257300
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110000637
【氏名又は名称】特許業務法人樹之下知的財産事務所
(72)【発明者】
【氏名】岡本 慎一郎
【審査官】 田中 秀樹
(56)【参考文献】
【文献】 特開2012−073966(JP,A)
【文献】 特開2008−242693(JP,A)
【文献】 特開2006−285418(JP,A)
【文献】 特開2007−018234(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
複数の語句が感情単位で分類された感情分類辞書を取得する辞書取得手段と、
前記感情分類辞書を用い、対象物に対する人の感情を定量化した定量化データを生成するコンテンツ定量化手段と、を備え、
前記辞書取得手段は、複数の対象物に対するテキストベースの評価データに基づいて前記感情分類辞書を生成する辞書生成手段を備え
前記辞書生成手段は、前記評価データから、前記対象物における主要要素と、当該主要要素に対して出現頻度が高くかつ前記評価データにおける前記主要要素の記載位置を中心とした所定範囲内にある複数の前記第一語句と、を形態素解析によって抽出し、前記複数の第一語句のうち、前記主要要素に対する共起度合が前記所定値以上となる前記第一語句を前記第二語句として抽出し、当該第二語句を感情毎に分類する
ことを特徴とするデータ処理装置。
【請求項2】
請求項に記載のデータ処理装置において、
前記形態素解析により抽出された前記第一語句は、人の感情を示す感情表現語句である
ことを特徴とするデータ処理装置。
【請求項3】
請求項1又は請求項に記載のデータ処理装置において、
前記辞書生成手段は、潜在的ディリクレ配分法を用いて、抽出された前記第二語句を感情毎に分類する
ことを特徴とするデータ処理装置。
【請求項4】
請求項1から請求項のいずれかに記載のデータ処理装置において、
前記対象物に対するテキストベースの評価データを取得する評価データ取得手段を備え、
前記コンテンツ定量化手段は、前記対象物に対する評価データ、及び前記感情分類辞書に基づいて前記定量化データを生成する
ことを特徴とするデータ処理装置。
【請求項5】
請求項に記載のデータ処理装置において、
前記コンテンツ定量化手段は、前記対象物に対する前記評価データを形態素解析して抽出された語句を、前記感情分類辞書を用いて感情毎に分類し、分類結果に基づく感情値を前記対象物に関連付けた前記定量化データを生成する
ことを特徴とするデータ処理装置。
【請求項6】
請求項に記載のデータ処理装置において、
前記コンテンツ定量化手段は、前記感情同士の共起関係を前記感情値に関連付けた定量化データを生成する
ことを特徴とするデータ処理装置。
【請求項7】
請求項1から請求項のいずれかに記載のデータ処理装置において、
前記コンテンツ定量化手段により生成された前記定量化データを蓄積するデータ蓄積手段を備える
ことを特徴とするデータ処理装置。
【請求項8】
請求項に記載のデータ処理装置において、
所定の対象物を検索クエリとして取得するクエリ取得手段と、
前記検索クエリとして指定された対象物に対する前記定量化データと類似する定量化データを前記データ蓄積手段から検索し、前記検索された定量化データに対応した対象物を検索結果として返す検索手段と、
を備えることを特徴とするデータ処理装置。
【請求項9】
請求項又は請求項に記載のデータ処理装置において、
所定の対象物に対する前記定量化データの出力要求を取得する要求取得手段と、
前記出力要求として指定された対象物に対する前記定量化データを前記データ蓄積手段から取得して出力する定量化データ出力手段と、
を備えることを特徴とするデータ処理装置。
【請求項10】
コンピュータにより、対象物に対して人が感じる感情を定量化した定量化データを生成するデータ処理方法であって、
前記コンピュータは、
複数の対象物に対するテキストベースの評価データに基づいて、複数の語句が感情単位で分類された感情分類辞書を生成して記憶手段に記憶する工程と、
前記感情分類辞書を前記記憶手段から取得する工程と、
前記感情分類辞書を用いて、前記対象物に対する前記定量化データを生成する工程と、を実施し、
前記感情分類辞書を生成して記憶手段に記憶する工程において、前記評価データから、前記対象物における主要要素と、当該主要要素に対して出現頻度が高くかつ前記評価データにおける前記主要要素の記載位置を中心とした所定範囲内にある複数の前記第一語句と、を形態素解析によって抽出し、前記複数の第一語句のうち、前記主要要素に対する共起度合が前記所定値以上となる前記第一語句を前記第二語句として抽出し、当該第二語句を感情毎に分類する
ことを特徴とするデータ処理方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対象物を感情パラメータに基づいて定量化するデータ処理装置、及びデータ処理方法に関する。
【背景技術】
【0002】
従来、ユーザにコンテンツを配信するコンテンツ配信装置が知られている(例えば、特許文献1参照)。
特許文献1に記載の装置は、ユーザの端末において作者名やタイトル名、カテゴリ等の検索条件が入力され、コンテンツ配信装置に送信する。コンテンツ配信装置は、コンテンツの作者名、タイトル名、カテゴリ等を関連付けたデータベースを有し、入力された作者名やタイトル、カテゴリに合致するコンテンツを抽出してユーザの端末に送信して表示させる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−65841号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記特許文献1のようなコンテンツ配信装置では、作者名やタイトル名、カテゴリ等によるコンテンツの検索は実施できるが、作者名やタイトル名、カテゴリが分かっていなければ目的のコンテンツを検索できない。つまり、例えばあるコンテンツと雰囲気が似ている等、所定のコンテンツに対して人が感じる感情が近いコンテンツを調べたい場合、上記のようなデータベースでは、検索を実施できないという課題がある。
このように、人が感じる感情が似ているコンテンツを検索する場合等、人の感情を軸としたデータ処理が可能な装置が望まれている。
【0005】
本発明は、人の感情を軸としたデータ処理を実施可能なデータ処理装置、及びデータ処理方法を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明のデータ処理装置は、複数の語句が感情単位で分類された感情分類辞書を取得する辞書取得手段と、前記感情分類辞書を用い、対象物に対する人の感情を定量化した定量化データを生成するコンテンツ定量化手段と、を備え、前記辞書取得手段は、複数の対象物に対するテキストベースの評価データに基づいて前記感情分類辞書を生成する辞書生成手段を備え、前記辞書生成手段は、前記評価データから、前記対象物における主要要素と、当該主要要素に対して出現頻度が高くかつ前記評価データにおける前記主要要素の記載位置を中心とした所定範囲内にある複数の前記第一語句と、を形態素解析によって抽出し、前記複数の第一語句のうち、前記主要要素に対する共起度合が前記所定値以上となる前記第一語句を前記第二語句として抽出し、当該第二語句を感情毎に分類することを特徴とする。
【発明の効果】
【0007】
本発明では、上述のような感情分類辞書を用いて、対象物に対する定量化データを生成している。このため、このような人の感情を軸とした定量化データを用いることで、感情を軸として各種データ処理を実施でき、例えば、作者名やコンテンツ名が不明な場合でも、あるコンテンツと、同じ風潮のコンテンツを探す検索処理や、所定のコンテンツに対して人の感じ方をレビューとして表示させる表示処理等の処理を実施できる。
【図面の簡単な説明】
【0008】
図1】本発明の第一実施形態のデータ処理システムの概略構成を示すブロック図。
図2】第一実施形態のデータ処理装置であるサーバ装置の概略構成を示すブロック図。
図3】第一実施形態の感情分類辞書の辞書生成処理を示すフローチャート。
図4】評価データが掲載されたレビュー記事の一例を示す図。
図5】共起ネットワークの一例を示す図。
図6】第一実施形態のコンテンツの定量化処理を示すフローチャート。
図7】第一実施形態におけるコンテンツ検索処理を示すフローチャート。
図8】検索処理により検索されたコンテンツとクエリコンテンツの感情値を比較する図。
図9】第一実施形態におけるコンテンツ定量化データ出力処理を示すフローチャート。
【発明を実施するための形態】
【0009】
[第一実施形態]
以下、本発明に係る第一実施形態について、図面に基づいて説明する。
[全体構成]
図1は、第一実施形態のデータ処理システムの概略構成を示すブロック図である。
図1に示すように、本実施形態のデータ処理システム1は、ユーザ端末10と、本発明のデータ処理装置として機能するサーバ装置20と、を備え、これらのユーザ端末10及びサーバ装置20がネットワーク(例えばインターネット等のWAN(Wide Area Network))を介して通信可能に接続されている。
このデータ処理システム1では、サーバ装置20は、ユーザ端末10から受信した検索クエリに基づき、所定のコンテンツ(本実施形態では、対象物として書籍等のコンテンツを例示する)の雰囲気と類似するコンテンツを検索し、当該検索結果をユーザ端末10に返す。また、データ処理システム1では、サーバ装置20は、ユーザ端末10から、所定のコンテンツの紹介要求を受信した際に、当該コンテンツに対して複数のユーザが感じた感情を定量化したレビューデータを返し、ユーザ端末10から出力(表示)させる。
以下、上記のようなサービスを提供するための具体的な構成及び方法を説明する。
【0010】
[ユーザ端末の構成]
ユーザ端末10は、コンピュータであり、図1に示すように、端末通信部11、入力操作部12、端末記憶部13、端末制御部14、及びディスプレイ15を備えている。
【0011】
端末通信部11は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
入力操作部12は、ユーザ操作による操作信号を端末制御部14に出力する。入力操作部としては、例えば、ディスプレイ15と一体に設けられたタッチパネルや、キーボード、マウス等の入力装置等を例示できる。
【0012】
端末記憶部13は、例えばメモリ、ハードディスク等のデータ記録装置により構成されている。端末記憶部13には、ユーザ端末10を制御するための各種プログラム等が記憶される。
端末制御部14は、CPU(Central Processing Unit)等の演算回路、RAM(Random Access Memory)等の記憶回路により構成され、ユーザ端末10の各部を制御する。端末制御部14は、端末記憶部13等に記憶されているプログラムの中から所定のアプリケーション等のプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。これにより、端末制御部14は、サーバ装置20に対してネットワークを介して通信可能になり、例えば、サーバ装置20が提供する各種サービスの利用や各種データの閲覧が可能となる。
また、端末制御部14は、ユーザの入力操作部12の操作により、検索クエリに基づいた検索要求やコンテンツの紹介要求を生成してサーバ装置20に送信する。これらの検索クエリや紹介要求には、例えば、コンテンツのタイトル名等、コンテンツを特定するコンテンツ特定データが含まれる。
さらに、端末制御部14は、サーバ装置20から送信された各種データをディスプレイ15に表示(出力)させる処理をする。
【0013】
[サーバ装置の構成]
図2は、本実施形態のサーバ装置20を示すブロック図である。
本実施形態のサーバ装置20は、コンピュータであり、通信部21と、記憶部22(記憶手段)と、制御部23と、等を含んで構成されている。
通信部21は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
【0014】
記憶部22は、例えばメモリ、ハードディスク等により構成されたデータ記録装置であり、本発明におけるデータ蓄積手段を構成する。
この記憶部22は、検索装置を制御するための各種プログラムや各種データを記憶する。また、記憶部22には、感情分類辞書、及びコンテンツを感情分類辞書に基づいて定量化した定量化データ等が記録される。
なお、本実施形態では、サーバ装置20の記憶部22がデータ蓄積手段として機能する例を示すが、例えば、ネットワーク上の他の装置にデータ蓄積手段が設けられ、上記定量化データが蓄積されていてもよい。感情分類辞書においても同様であり、ネットワーク上の所定の装置に感情分類辞書が記録されていてもよい。
また、記憶部22には、登場人物辞書が記録されている。この登場人物辞書は、コンテンツと、当該コンテンツに登場する登場人物とを関連付けた辞書である。
【0015】
[記憶部に記憶される感情分類辞書]
感情分類辞書は、コンテンツに対する評価データに基づいて生成される辞書である。表1に、本実施形態の感情分類辞書の一例を示す。
【0016】
【表1】
【0017】
表1に示すように、感情分類辞書には、人の感情を示す感情トピックと、当該感情トピックに関連する語句とが関連付けられた辞書である。ここで、語句は、形容詞や形容動詞等の他、感情を示す名詞や動詞等、人の感情を表す感情表現語句であることが好ましい。
なお、上述のような感情分類辞書の詳細な生成方法は後述する。
【0018】
[定量化データ]
定量化データは、各コンテンツに対して人が感じる感情を、上記感情分類辞書を用いて定量化したデータであり、表2に示すような定量化データベースに各コンテンツに対する定量化データが記録される。
【0019】
【表2】
【0020】
表2において、コンテンツIDは、コンテンツを識別してコンテンツを特定するためのデータである。本実施形態では、コンテンツIDを例示するが、その他、コンテンツを特定するためのデータとして、例えばコンテンツのタイトル名等が用いられてもよい。
感情値は、上記感情トピックに対してそれぞれ設定され、各感情トピックの感情を定量化した値となる。なお、定量化データの詳細な生成方法については後述する。
【0021】
制御部23は、CPU等の演算回路、RAM等の記憶回路により構成され、記憶部22等に記憶されているプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。そして、制御部23は、上記各種処理を実行することで、図2に示すように、評価データ取得手段231、データ解析手段232、辞書取得手段233、定量化手段234、要求取得手段235、検索手段236、及び定量化データ出力手段237等として機能する。
【0022】
評価データ取得手段231は、評価データを取得する。具体的には、評価データ取得手段231は、ネットワークを介して他の装置、例えばSNS(Social Networking Service)を提供する装置や、コンテンツのレビューサイトやブログサイトを公開する装置、Twitter(登録商標)等のリアルタイムでネット上にユーザの発言データを公開する装置等から取得する。つまり、ネットワーク上で閲覧可能な個人のブログやレビュー記事、ユーザの発言(つぶやき)等のテキストベースのデータを取得する。
データ解析手段232は、取得した評価データを形態素解析し、評価データに含まれる語句(第一語句)を抽出する。
【0023】
辞書取得手段233は、評価データから抽出された語句(第一語句)を用いて、表1に示したような感情分類辞書を生成する。
具体的には、辞書取得手段233は、本発明の辞書生成手段として機能する共起判定手段233A及び分類手段233Bを含む。共起判定手段233Aは、抽出された語句(第一語句)同士の共起度合を判定し、共起度合に基づいて共起語句(第二語句)を抽出する。分類手段233Bは、第二語句を感情トピック毎に分類(クラスタリング)する。
【0024】
定量化手段234は、本発明のコンテンツ定量化手段として機能する。この定量化手段234は、記憶部22から感情分類辞書を取得し(読み込み)、コンテンツに対して人が感じる感情や雰囲気を定量化し、定量化データを生成する。
要求取得手段235は、クエリ取得手段として機能し、ユーザ端末10から送信された各種要求を取得する。本実施形態では、一例として、検索クエリを含む検索要求、所定のコンテンツに対する定量化データの出力を要求する出力要求等を例示する。なお、検索クエリとしては、所定のコンテンツを特定するデータ、例えばコンテンツ名等が指定される。
【0025】
検索手段236は、検索要求を受信した際に、検索クエリに指定されたコンテンツと、定量化データの傾向が類似するコンテンツを検索する。
定量化データ出力手段237は、出力要求を受信した際に、指定されたコンテンツの定量化データを読み出し、ユーザ端末10にて表示可能に送信する。
なお、各機能構成の詳細な処理については後述する。
【0026】
[データ処理方法]
次に、上述のようなデータ処理システム1におけるデータ処理方法について、図面に基づいて説明する。
【0027】
(辞書生成処理)
図3は、サーバ装置20における感情分類辞書の生成処理を示すフローチャートである。
サーバ装置20は、コンテンツに対する人の感情を定量化した定量化データを生成するために、まず、感情分類辞書を生成する。
【0028】
これには、サーバ装置20の評価データ取得手段231は、ネットワーク上から複数のコンテンツに対する評価データを取得する(ステップS11)。
このステップS11では、傾向が異なる複数のコンテンツに対する評価データを取得することが好ましい。例えば、コンテンツとして映画を対象にする場合、公開日、監督名、カテゴリ(例えば、恋愛映画、歴史映画、SF映画、アクション映画等)が異なる複数のコンテンツを対象とする。これらのコンテンツは、サーバ装置20の管理者が適宜設定してもよく、例えばコンテンツの紹介サイト等を参照し、新たなコンテンツに関するデータが公開される毎に当該コンテンツ名を取得して評価データの取得対象としてもよい。
【0029】
また、評価データ取得手段231は、評価データの取得として、上記取得対象とされたコンテンツのコンテンツ名をクエリとして、インターネット上から評価データが記載されたレビュー記事やブログ、ユーザの発言等のWebデータを検索する。図4は、評価データが掲載されたレビュー記事の一例を示す図である。
評価データ取得手段231は、図4に示すように検索されたレビュー記事等のWebデータ40を解析し、テキストデータで記載された評価データ41を取得する。Webデータ40から評価データ41の取得方法としては、周知の解析方法を用いることができ、例えば、html(HyperText Markup Language)等のマークアップ言語を解析して、テキスト記載部分を抽出する。
なお、評価データ取得手段231は、各コンテンツに対して複数の評価データを取得することが好ましい。
【0030】
次に、データ解析手段232は、ステップS11において取得した評価データに対して形態素解析を実施し、語句を抽出する(ステップS12)。
この後、辞書取得手段233の共起判定手段233Aは、記憶部22から登場人物辞書を読み出し、ステップS12により抽出された第一語句のうち、コンテンツに登場する登場人物に対して出現頻度が高い感情を表す感情表現語句を抽出する(ステップS13)。このような登場人物は、本発明における主要要素となり、主要要素に対して出現頻度が高い感情表現語句を抽出することは、評価データを生成した作成者の登場人物に対する強い感情を示す語句となる。
具体的には、ステップS13において、共起判定手段233Aは、記憶部22に記憶された登場人物辞書から、コンテンツに対応する登場人物を読み出す。そして、評価データにおける登場人物の記載された記載位置を特定し、当該記載位置と近い位置に出現する感情表現語句を抽出する。例えば、登場人物が記載された一文を特定し、特定された文や、その前後の文から、感情表現語句を抽出する。なお、感情表現語句としては、例えば、形容詞や形容動詞、人の感情を示す名詞や動詞等を例示できるが、特に、特定が容易な形容詞、形容動詞が好ましい。
【0031】
そして、共起判定手段233Aは、抽出された登場人物と、その登場人物に対する感情表現語句との共起度合を算出する(ステップS14)。
このステップS14において、共起判定手段233Aは、登場人物に対する各語句の共起度合として、例えば登場人物に対する語句の共起回数(出現回数)を用いる。なお、共起度合として、登場人物及び語句のJaccard係数を共起度合としてもよい。
なお、ステップS14において、共起判定手段233Aは、図5に示すような共起ネットワーク50を構築してもよい。図5は、共起ネットワーク50の一例を示す図である。
図5において、51は、登場人物であり、52は、登場人物に対して抽出された感情表現語句(第一語句)であり、各語句を結ぶラインにより共起関係を示している。ここで、図5において、ラインの線幅が太いほど共起度合が高いことを意味する。
本実施形態では、複数の評価データに基づいて、上記のような共起度合を判定することで、より精度の高い共起度合を算出することができる。
【0032】
この後、共起判定手段233Aは、登場人物に対する感情表現語句(第一語句)のうち、共起度合が所定値以上となる感情表現語句を第二語句として抽出する(ステップS15)。
図5に示すような共起ネットワーク50を構築する場合では、ラインの線幅が所定値以上となる語句を第二語句として抽出する。
【0033】
次に、辞書取得手段233の分類手段233Bは、ステップS15により抽出された第二語句を感情トピック(クラスタ)毎に分類(クラスタリング)し、各感情トピックに対応する語句を関連付けた感情分類辞書を作成する(ステップS16)。
ここで、分類手段233Bは、抽出された第二語句の分類方法として、LDA(Latent Dirichlet Allocation;潜在的ディリクレ配分法)を用いる。これにより、抽出された第二語句に基づいて、最適な数の感情トピックが算出され、各感情トピックと第二語句との類似度(感情トピックに第二語句が関連する確率)が算出される。したがって、各感情トピックに対して、所定の類似度以上の第二語句を関連付けることで、表1に示すような感情分類辞書を作成できる。
なお、本実施形態では、LDAにより感情トピックやその数を自動的に生成する例を示したが、これに限定されず、感情トピックや、設定する感情トピックの数が予め設定されていてもよい。
【0034】
上述した辞書生成処理の実施タイミングとしては、例えば、サーバ装置20の管理者が指定したタイミングであってもよく、例えば一か月に一回等、周期的に自動で実施されることで、感情分類辞書が随時更新されてもよい。
また、インターネット上の所定のWebデータ(例えばコンテンツレビューサイト等)を監視し、新たなコンテンツに関するデータが公開される毎に感情分類辞書を作成して更新してもよい。
【0035】
(コンテンツ定量化処理)
次に、コンテンツの定量化処理について図面に基づいて説明する。
図6は、サーバ装置20におけるコンテンツ定量化処理を示すフローチャートである。
サーバ装置20は、上記のように生成した感情分類辞書を用いて、コンテンツに対する人の感情を定量化した定量化データを生成する。
【0036】
これには、サーバ装置20の定量化手段234は、定量化データの生成対象であるコンテンツを特定する(ステップS21)。
このステップS21では、コンテンツの特定は、例えばインターネット上の所定のWebデータ(例えばコンテンツレビューサイト等)を監視し、新たなコンテンツに関するデータが公開される毎に当該コンテンツ名を取得してもよく、定期的にWebデータの更新状況を取得し、更新により、新たなコンテンツに関するデータが公開される毎に当該コンテンツ名を取得してもよい。なお、例えばサーバ装置20の管理者が指定したタイミングで、サーバ管理者がコンテンツ名等のコンテンツを特定するデータを入力することで当該コンテンツを特定してもよい。
【0037】
この後、評価データ取得手段231は、ステップS21にて特定したコンテンツに対する評価データを、ネットワーク上から取得する(ステップS22)。
このステップS22では、評価データ取得手段231は、評価データの取得として、上記特定されたコンテンツのコンテンツ名をクエリとして、インターネット上から評価データが記載されたWebデータ(例えばレビュー記事やブログ、ユーザの発言等)を検索する。
そして、評価データ取得手段231は、これらのレビュー記事やブログ、ユーザの発言等を解析し、テキストデータの評価データを取得する。なお、ステップS12と同様、評価データ取得手段231は、コンテンツに対して、複数の評価データを取得することが好ましい。
【0038】
次に、データ解析手段232は、ステップS22において取得した評価データに対して形態素解析を実施し、評価データに含まれる語句を抽出する(ステップS23)。
この後、定量化手段234は、上記辞書生成処理により生成され、記憶部22に記憶された感情分類辞書を読み出し、コンテンツの各感情トピックに対する感情値を取得する(ステップS24)。
具体的には、定量化手段234は、感情分類辞書の各感情トピックに含まれる、ステップS23で抽出された語句の数を感情値として取得する。つまり、感情トピックに含まれる語句ののべ数を感情値とする。例えば、ステップS23において抽出された語句が、「ドキドキ」「ドキドキ」「迫力」であり、上述した表1の感情分類辞書を用いる場合、定量化手段234は、「覚醒(ドキドキ)」との感情トピックに対して、2つの「ドキドキ」、1つの「迫力」との語句が含まれるので、感情トピック「覚醒(ドキドキ)」に対する感情値を「3」とする。
そして、定量化手段234は、ステップS24により、各感情トピックに対する感情値がそれぞれ設定されると、これらの感情トピックに対する感情値、及びコンテンツを特定するコンテンツ特定データ(例えばコンテンツIDやコンテンツ名)を関連付けた定量化データを生成し、記憶部22に記憶する(ステップS25)。
【0039】
(コンテンツ検索処理)
次に、上記のような定量化データを利用したサービスの一例として、コンテンツ検索処理を、図面に基づいて説明する。
図7は、本実施形態におけるコンテンツ検索処理を示すフローチャートである。
ユーザ端末10において、ユーザにより入力操作部12が操作され、検索クエリが入力されると、ユーザ端末10の端末制御部14は、検索クエリを含む検索要求を生成する(ステップS31)。ここで検索クエリとしては、コンテンツを特定するコンテンツ特定データ(例えばコンテンツ名やコンテンツID等)が指定される。また、ユーザ端末10は、検索要求とともに、ユーザ端末10を識別するためのユーザIDを送信する(ステップS32)。
【0040】
サーバ装置20は、要求取得手段235によりユーザ端末10から送信された検索要求を受信すると(ステップS41)、検索手段236によりコンテンツ検索処理を実施させる。
コンテンツ検索処理では、まず、検索手段236は、検索要求に含まれた検索クエリで指定されたコンテンツ(以降、クエリコンテンツと称する場合がある)に対応する定量化データがあるか否かを判定する(ステップS42)。
ステップS42において、「No」と判定された場合、検索手段236は、ユーザ端末10に対して、ディスプレイ15にてクエリコンテンツが見つからない旨を出力させる非該当出力指示を出力する(ステップS43)。
【0041】
ステップS42において、「Yes」と判定された場合、検索手段236は、クエリコンテンツの定量化データを取得する(ステップS44)。
そして、検索手段236は、ステップS44で取得した定量化データと傾向が類似する定量化データを定量化データベースから検索し、そのコンテンツのコンテンツ名及び当該コンテンツの定量化データを取得する(ステップS45)。
この後、検索手段236は、ステップS45にて取得したコンテンツ名及び定量化データをユーザ端末10に返す(ステップS46)。
【0042】
ユーザ端末10の端末制御部14は、サーバ装置20から非該当出力指示を受信したか、検索結果を受信したかを判定する(ステップS33)。ステップS33において、非該当出力指示を受信した場合は、ディスプレイ15に、対応するコンテンツが見つからない旨を表示させる(ステップS34)。
また、ステップS33にて検索結果を受信した場合、検索されたコンテンツ名、及びそのコンテンツの定量化データをディスプレイ15に検索結果として表示させる(ステップS35)。
図8は、クエリコンテンツ、及び検索されたコンテンツにおける定量化データを比較した一例を示す図である。図8の実線は、検索されたコンテンツ、破線はクエリコンテンツを示している。図8に示すように、上記のような検索処理により、クエリコンテンツと各感情値の傾向が類似するコンテンツが検索されることになる。
【0043】
(コンテンツ定量化データ出力処理)
次に、上記のような定量化データを利用したサービスの他の例としてコンテンツ定量化データ出力処理を図面に基づいて説明する。
図9は、本実施形態におけるコンテンツ定量化データ出力処理を示すフローチャートである。
ユーザ端末10において、ユーザにより入力操作部12が操作され、所定のコンテンツに対する定量化データを出力要求が入力されると、端末制御部14は、当該出力要求とユーザIDとをサーバ装置20に送信する(ステップS51)。
【0044】
サーバ装置20は、要求取得手段235によりユーザ端末10から送信された検索要求を受信すると(ステップS61)、定量化データ出力手段237によりコンテンツ定量化データ出力処理を実施させる。
コンテンツ定量化データ出力処理では、まず、定量化データ出力手段237は、出力要求にて指定されたコンテンツに対応する定量化データがあるか否かを判定する(ステップS62)。
ステップS62において、「No」と判定された場合、ステップS43と同様、ユーザ端末10に対して、非該当出力指示を出力する。
ステップS62において、「Yes」と判定され場合、定量化データ出力手段237は、指定されたコンテンツの定量化データを取得し(ステップS63)、ユーザ端末10に返す(ステップS64)。
【0045】
ユーザ端末10の端末制御部14は、サーバ装置20から非該当出力指示を受信したか、定量化データを受信したかを判定する(ステップS52)。ステップS52において、非該当出力指示を受信した場合は、ステップS34と同様、ディスプレイ15に、対応するコンテンツが見つからない旨を表示させる。
また、ステップS52において、指定したコンテンツに対する定量化データを受信した場合、その定量化データをディスプレイ15に表示させる(ステップS53)。
【0046】
[第一実施形態の作用効果]
本実施形態のサーバ装置20の定量化手段234は、複数の語句が感情トピック単位で分類された感情分類辞書を記憶部22から取得し、この感情分類辞書を用いて、コンテンツに対する人の感情を定量化した定量化データを生成する。
すなわち、感情分類辞書には、人の感情を示す語句に対する感情トピックが関連付けられているため、このような辞書を用いることで、コンテンツに対して人がどのような印象を持っているかを解析及び定量化することができる。このような定量化データを用いることで、例えば、上述した検索処理やコンテンツ定量化データ出力処理等、人の感情を軸とした各種情報処理を実施することができる。
【0047】
本実施形態では、辞書取得手段233は、ネットワーク(インターネット)上に公開されている複数のユーザ(評価者)のコンテンツに対する評価データに基づいて、感情分類辞書を生成する。つまり、辞書取得手段233は、コンテンツに対して個々のユーザが感じた感情に基づいて、感情分類辞書を生成する。このように、人の感情を軸として感情分類辞書を生成することで、例えば機械的に語句を分類する場合よりも、人の感情に即した定量化データを生成でき、検索処理等の各種処理における処理精度を向上させることができる。
【0048】
本実施形態では、データ解析手段232が評価データから形態素解析により複数の第一語句を抽出し、辞書取得手段233の共起判定手段233Aは、抽出した第一語句のうち共起度合が所定値以上となる第一語句を第二語句として抽出する。
評価データにおいて、共起度合が高い語句は、評価データを作成した人がコンテンツに対して強い感情を有する語句であり、かつ同じ感情で関連付けられていることが多い。したがって、このような共起度合が高い語句同士を抽出することで、感情トピックに対して適切な語句を関連付けた精度の高い感情分類辞書を生成することができる。
【0049】
本実施形態では、共起判定手段233Aは、評価データにおける主要要素である登場人物と、その登場人物に対する語句を抽出する。このような語句は、評価データを生成した評価者が登場人物に対して強く抱いている感情を示す語句であり、コンテンツに対して評価者が抱くイメージを強く反映した語句である可能性が高い。したがって、これらの語句に基づいて感情分類辞書を作成することで、感情トピックに対して適切な語句を関連付けた精度の高い感情分類辞書を生成することができる。
【0050】
また、この際、共起判定手段233Aは、評価データにおける登場人物が記載された文を特定し、特定された文や、その前後の文から、感情表現語句を抽出する。つまり、登場人物を中心として所定範囲内に記載された語句を抽出している。これにより、登場人物に対する感情を示す語句をより精度よく抽出できる。
【0051】
本実施形態では、評価データから例えば形容詞や形容動詞等の感情表現語句を抽出する。
これにより、感情分類辞書における各感情トピックに対して最適な語句を関連付けさせることができる。
【0052】
本実施形態では、分類手段233Bは、LDAを用いて、抽出された語句を感情トピック毎に分類する。LDAを用いることで、共起判定手段233Aにより抽出された第二語句を自動で最適な感情トピックを最適なクラスタ数で分類することができる。
これにより、辞書生成処理における処理の簡略化及び迅速化を図れ、かつ感情分類辞書の精度向上をも図れる。
【0053】
本実施形態では、定量化手段234は、評価データ取得手段231により取得されたコンテンツに対する評価データと、感情分類辞書とに基づいてコンテンツを定量化する。
つまり、複数のユーザ(評価者)のコンテンツに対する評価データに基づき、コンテンツに対して個々のユーザが感じた感情に基づいて、当該コンテンツの定量化データを生成する。このため、例えば、コンテンツの内容(例えばあらすじ等)に基づいて定量化データを生成するよりも、人の感情評価に基づいた、感情を軸とした適正な定量化データを生成することができる。
【0054】
本実施形態では、定量化手段234により生成された定量化データは記憶部22に蓄積されている。このため、この定量化データを読み出すことで容易に各種処理を実施できる。
【0055】
本実施形態では、コンテンツ(クエリコンテンツ)が指定された検索クエリを含む検索要求を要求取得手段235が受けた際に、検索手段236は、クエリコンテンツの定量化データと類似する定量化データを有するコンテンツを定量化データベースから検索して、ユーザ端末10に返す。
従来、あるクエリコンテンツに対して同じような雰囲気のコンテンツ(人が受ける印象や感情が同じであるコンテンツ)を探す際に、そのコンテンツと同じ作者のコンテンツを検索して表示させたり、コンテンツを購入した他者が他にどのようなコンテンツを購入しているかを検索して表示させたりするサービスは知られている。しかしながらこのような検索サービスでは、検索されたコンテンツが、クエリコンテンツと同じ雰囲気を有しているとは限らない。これに対して、本実施形態では、感情分類辞書に基づいて各コンテンツに対する人の感情を定量化した定量化データを用いるため、クエリコンテンツと雰囲気が似たコンテンツ(クエリコンテンツと同じ感情を抱くことができるコンテンツ)を好適に検索することができる。
【0056】
本実施形態では、コンテンツに対する出力要求を要求取得手段235により取得した際に、定量化データ出力手段237は、そのコンテンツに対する定量化データを取得して、ユーザ端末10に返す。これにより、ユーザ端末10には、コンテンツに対する感情の定量化データが表示される。このように、コンテンツに対して複数の評価者が感じた感情を例えば図8に示すようなレーダーチャート等によって表示させることで、ユーザはコンテンツに対する評価を容易に理解することができる。
【0057】
[第二実施形態]
上述した第一実施形態では、定量化手段234は、1つのコンテンツに対して、複数の評価者からの評価データに基づいた定量化データを生成する。この場合、人によっては、コンテンツに対する感じ方が異なるため、例えば1つのコンテンツに対して「怖い」と感じる評価者のグループ(感情グループ)や、「面白い」と感じる評価者の感情グループとが混在する可能性がある。このように、複数の感情グループが混在する場合、感情トピックを定量化すると、コンテンツの特徴が見えにくく、若しくは、各感情グループの特徴と異なる特徴を示した定量化データになることがある。
【0058】
これに対して、第二実施形態では、上記のような問題を解消するために、定量化手段234は、各コンテンツに対して、感情トピック同士の共起関係を感情値に関連付けた定量化データを生成する。具体的には、定量化手段234は、例えば、クロス集計や、相関分析、多次元分析等の手法を用いて、感情トピック同士の共起関係を求める。
【0059】
このように、定量化データとして、各感情トピックの感情値に加え、感情トピック間の共起関係が関連付けられた定量化データを用いることで、コンテンツに対して複数の感情グループがある場合でも(人によってコンテンツに対する感じ方が異なる場合でも)、コンテンツの特徴が見えやすくなり、かつ、各感情グループのそれぞれの特徴も把握しやすくなる。
例えば、コンテンツに対して「怖い」との感情トピックと、「面白い」との感情トピックとが共起関係である場合、そのコンテンツの定量化データを見ることで、「怖い」と感じる人、「面白い」と感じる人がいることを把握できる。この場合、コンテンツに対して「怖い」「面白い」の双方を同時に感じる場合とは区別することができ、各コンテンツの特徴がより分かりやすい定量化データを提供できる。
【0060】
[変形例]
なお、本発明は、上述した実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
[変形例1]
上記実施形態では、ステップS42にて「No」と判定された場合、サーバ装置20は、非該当出力指示をユーザ端末10に返す例を示したが、これに限定されない。例えば、検索クエリにて指定されたコンテンツに対して、上述したコンテンツ定量化処理を実施してもよい。この場合、ステップS21において特定されるコンテンツを、検索クエリにて指定されたコンテンツとし、ネットワーク上から評価データを取得し、その評価データに基づいてコンテンツを定量化する。
【0061】
[変形例2]
上記実施形態では、ユーザ端末10からの出力要求に基づいてコンテンツの定量化データを表示させる例を示すが、これに限定されない。例えば、コンテンツを紹介する紹介サイト等において、コンテンツに対する定量化データをサーバ装置20から取得して掲載する等、定量化データを利用した様々なサービスに本発明を適用できる。
【0062】
[変形例3]
上記実施形態において、本発明の対象物として、書籍や映画等のコンテンツを例示したが、これに限定されない。対象物としては、ユーザ(評価者)によって評価可能な対象であれば、いかなる対象物であってもよい。例えば、飲食店等の店舗に適用する場合では、店の雰囲気、味の傾向等のグルメレポート記事に基づいて感情分類辞書及び各店舗の定量化データを生成することもできる。この場合、所定店舗名を検索クエリとして入力した場合、同様の雰囲気の店舗を検索することもできる。また、飲食店のレビューサイト等において、これらの定量化データを活用することで、各店舗の傾向を直感的に理解できるサイトを構築することができる等、利用の拡大を図れる。
【0063】
[変形例4]
上記実施形態において、辞書取得手段233は、評価データ取得手段231により取得されたネットワーク上のWebデータから評価データを抽出し、当該評価データに基づいて感情分類辞書を生成したが、これに限定されない。例えば、アンケート等により集計された評価データをサーバ装置20に対して入力することで、入力された評価データに基づいて感情分類辞書を生成してもよい。定量化手段234においても同様であり、評価データの取得先としては、ネットワーク上に公開されている評価データに限定されない。
【0064】
[変形例5]
辞書取得手段233の共起判定手段233Aは、共起度合として、共起回数に基づいて、第二語句として抽出したが、例えば、上述したように、Jaccard係数等に基づいて第二語句を抽出してもよい。
また、精度は低下するが、共起度合に限らず、感情分類辞書を第二語句として抽出してもよい。
【0065】
[変形例6]
上記実施形態において、辞書取得手段233は、登場人物に対して出現頻度が高い語句を抽出する例を示したが、これに限定されない。例えば、コンテンツの作品全体に対する人の感情等を抽出するために、コンテンツ名やコンテンツ制作者等を主要要素とし、これらの主要要素に対する語句を抽出してもよい。
また、主要要素に限らず、感情表現語句を抽出してもよい。例えば、対象物として店舗や商品等、飲食者や商品使用者の評価データを解析する場合では、評価者自身(例えば私等の一人称主語)を主要要素として感情表現語句を抽出してもよい。
【0066】
[変形例7]
分類手段233Bは、LDAにより抽出された第二語句を分類したが、これに限定されない。例えば、語句に対する感情トピックが関連付けられた分類表を予め生成しておき、当該分類表に基づいた分類を実施してもよい。
【0067】
[変形例8]
上記実施形態では、サーバ装置20に評価データ取得手段231、データ解析手段232、辞書取得手段233、定量化手段234が設けられる例を示したが、これに限定されない。例えば、ユーザ端末10の端末制御部14が、端末記憶部13に記憶されたプログラムを読み出し実行することで、上記評価データ取得手段231、データ解析手段232、辞書取得手段233、定量化手段234として機能する構成としてもよい。この場合、ユーザ端末10にインストールされているアプリケーションの定量化データを表示させることもできる。また、インストールされているアプリケーションの定量化データを集計したユーザの嗜好データを判定することも可能となる。このような嗜好データをアプリケーション提供装置や広告配信装置に送信することで、ユーザにとって有益な広告やアプリケーションの紹介を配信することも可能となる。
【0068】
[変形例9]
上記実施形態において、定量化手段234は、各感情トピックに分類された語句の数そのものを感情値として取得したが、これに限定されず、分類結果に基づいたその他の感情値の設定方法を用いてもよい。
例えば、ステップS23で抽出された全語句数に対する、各感情トピックに対して分類された語句数の割合(全体に対する各感情トピックの占有率)や分布度を感情値としてもよい。
また、例えば所定周期毎に、各感情トピックに対して分類された語句数を検出することで、各感情トピックに分類された語句数の推移(変化率)を算出して感情値としてもよい。
【0069】
[変形例10]
辞書取得手段233は、共起判定手段233A及び分類手段233Bを含み、辞書取得手段として機能する例を示したが、これに限定されない。例えば、辞書取得手段233は、ネットワーク上の他の装置から、感情分類辞書を取得してもよい。
【0070】
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
【符号の説明】
【0071】
1…データ処理システム、10…ユーザ端末、20…サーバ装置(データ処理装置)、21…通信部、22…記憶部(記憶手段)、23…制御部、41…評価データ、50…共起ネットワーク、231…評価データ取得手段、232…データ解析手段、233…辞書取得手段233、A…共起判定手段、233B…分類手段、234…定量化手段、235…要求取得手段、236…検索手段、237…定量化データ出力手段。
図1
図2
図3
図4
図5
図6
図7
図8
図9