(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023177648
(43)【公開日】2023-12-14
(54)【発明の名称】興味推定装置、推薦装置及びプログラム
(51)【国際特許分類】
G06F 16/335 20190101AFI20231207BHJP
【FI】
G06F16/335
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022090428
(22)【出願日】2022-06-02
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)発行日(公開日) 令和4年(西暦2022年)3月16日 刊行物 2021年度 映像情報メディア学会研究会 ヒューマンインフォメーション研究会(HI) 講演論文 映情学技報,Vol.46, no.13,HI2022-17,pp.33-35 一般社団法人 映像情報メディア学会 発行( 令和4年3月3日 Web公開(抄録)URL:https://www.ite.or.jp/ken/paper/202203232AKg/ ) <資 料>2021年度 映像情報メディア学会研究会 (HI) 講演論文抄録 <資 料>2021年度 映像情報メディア学会研究会 (HI) 講演論文 (2) 開催日(公開日) 令和4年(西暦2022年)3月23日 集会名、開催場所 2021年度 映像情報メディア学会研究会 ヒューマンインフォメーション研究会(HI) 一般社団法人 映像情報メディア学会 主催 インターネットによる通信を用いたオンライン開催 <資 料>2021年度 映像情報メディア学会研究会 (HI) プログラム
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【弁理士】
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【弁理士】
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【弁理士】
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【弁理士】
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】奥田 誠
(72)【発明者】
【氏名】金子 豊
(72)【発明者】
【氏名】西本 友成
(72)【発明者】
【氏名】星 祐太
(72)【発明者】
【氏名】上村 真利奈
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175HA01
(57)【要約】
【課題】ユーザが興味を持っている単語を精度よく検出する。
【解決手段】興味推定装置は、複数の文書を取得する文書情報取得部と、取得した複数の前記文書から1以上のキーワードを抽出するキーワード抽出部と、抽出されたキーワードについて、前記文書ごとのtf―idf(Term frequency-Inverse document frequency)を算出する算出部と、抽出されたキーワードごとに、算出された前記tf―idfの統計演算をする統計演算部と、前記tf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する興味度算出部と、抽出されたキーワードと、算出された興味度とを対応付けて出力する出力部とを備える。
【選択図】
図6
【特許請求の範囲】
【請求項1】
複数の文書を取得する文書情報取得部と、
取得した複数の前記文書から1以上のキーワードを抽出するキーワード抽出部と、
抽出されたキーワードについて、前記文書ごとのtf―idf(Term frequency-Inverse document frequency)を算出する算出部と、
抽出されたキーワードごとに、算出された前記tf―idfの統計演算をする統計演算部と、
前記tf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する興味度算出部と、
抽出されたキーワードと、算出された興味度とを対応付けて出力する出力部と
を備える興味推定装置。
【請求項2】
前記統計演算部は、抽出された1以上のキーワードそれぞれについて、前記文書ごとに算出された前記tf―idfの最大値を算出し、
前記興味度算出部は、前記統計演算部により算出された最大値を興味度として算出する
請求項1に記載の興味推定装置。
【請求項3】
前記文書とは、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む
請求項1に記載の興味推定装置。
【請求項4】
前記文書とは、ソーシャルネットワーキングサービスにおいて発信された情報を含む
請求項1に記載の興味推定装置。
【請求項5】
映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む文書であって、複数の前記文書を取得する文書情報取得部と、
取得した複数の前記文書を結合し、結合文書を生成する結合部と、
前記結合文書から1以上のキーワードを抽出するキーワード抽出部と、
抽出されたキーワードについて、前記結合文書のtf―idfを算出する算出部と、
算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味度算出部と、
算出された興味度を出力する出力部と
を備える興味推定装置。
【請求項6】
請求項1から請求項4のいずれか一項に記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、興味ベクトルを算出する興味ベクトル算出部と、
算出された前記興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示すスコアを算出するスコア算出部と、
算出された前記スコアに基づいて、類似度が高い文書を推薦文書として特定する特定部と、
特定された前記推薦文書を出力する出力部と
を備える推薦装置。
【請求項7】
請求項1から請求項4のいずれか一項に記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第1興味ベクトルを算出する第1興味ベクトル算出部と、
算出された前記第1興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第1スコアを算出する第1スコア算出部と、
複数の文書を取得する文書情報取得部と、取得した複数の前記文書を結合することにより生成された結合文書から1以上のキーワードを抽出し、抽出されたキーワードについて、前記結合文書のtf―idfを算出し、算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第2興味ベクトルを算出する第2興味ベクトル算出部と、
算出された前記第2興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第2スコアを算出する第2スコア算出部と、
算出された前記第1スコア及び前記第2スコアに基づいて、類似度が高い文書を推薦文書として特定する特定部と、
特定された前記推薦文書を出力する出力部と
を備える推薦装置。
【請求項8】
請求項1から請求項4のいずれか一項に記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第1興味ベクトルを算出する第1興味ベクトル算出部と、
算出された前記第1興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第1スコアを算出する第1スコア算出部と、
算出された前記第1スコアに基づいて、類似度が高い文書を第1推薦文書として特定する第1特定部と、
複数の文書を取得する文書情報取得部と、取得した複数の前記文書を結合することにより生成された結合文書から1以上のキーワードを抽出し、抽出されたキーワードについて、前記結合文書のtf―idfを算出し、算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第2興味ベクトルを算出する第2興味ベクトル算出部と、
算出された前記第2興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第2スコアを算出する第2スコア算出部と、
算出された前記第2スコアに基づいて、類似度が高い文書を第2推薦文書として特定する第2特定部と、
特定された前記第1推薦文書と、前記第2推薦文書とを出力する出力部と
を備える推薦装置。
【請求項9】
コンピュータに、
複数の文書を取得する文書情報取得ステップと、
取得した複数の前記文書から1以上のキーワードを抽出するキーワード抽出ステップと、
抽出されたキーワードについて、前記文書ごとのtf―idfを算出する算出ステップと、
抽出されたキーワードごとに、算出された前記tf―idfの統計演算をする統計演算ステップと、
前記tf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する興味度算出ステップと、
抽出されたキーワードと、算出された興味度とを対応付けて出力する出力ステップと
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、興味推定装置、推薦装置及びプログラムに関する。
【背景技術】
【0002】
従来、ユーザの行動に基づき興味を推定する手法があった。例えばソーシャルメディアの分野においては、ユーザの発信情報に基づきユーザの興味を推定する手法が知られている。また、推定した興味に基づきユーザに他のユーザが発信した情報を提示する手法が活発に研究されている(例えば、非特許文献1を参照)。これらの興味推定手法の一例として、ユーザが発信した情報から得られるtf-idf(Term frequency-Inverse document frequency)を、ユーザ興味度として推定する技術があった(例えば、非特許文献2を参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】F. Zarinkalam et al., “Extracting, Mining, and Predicting User’s Interests from Social Media,” Foundations and Trends(R) in Information Retrieval, vol. 14, no. 5, 2020年.
【非特許文献2】C. Nishioka and A. Scherp, “Profiling vs. Time vs. Content: What does Matter for Top-k Publication Recommendation based on Twitter Profiles,” 2016 IEEE/ACM Joint Conference on Digital Libraries (JCDL), pages 171-180, 2016年.
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述したような従来技術によれば、一定期間にユーザが発信した複数の情報を1つに結合し、他者が発信した情報を別々の文書として捉えてtf-idfを算出し、算出されたtf-idfに基づき興味度を推定する。ユーザは世間で起こっているニュースやイベントに引っ張られて情報を発信することがあるため、推定された興味度が世間で起こっているニュースやイベントに引っ張られたものになる場合があった。また、ユーザは必ずしも一定期間に、興味をもっている単語に関して多数の文書を発信するわけではない。したがって、ユーザの発信頻度が低い場合等、ユーザが興味を持っている単語を精度よく検出できない場合があった。
【0005】
そこで本発明は、ユーザが興味を持っている単語を精度よく検出することが可能な興味推定装置、推薦装置及びプログラムを提供しようとするものである。
【課題を解決するための手段】
【0006】
[1]上記の課題を解決するため、本発明の一態様による興味推定装置は、複数の文書を取得する文書情報取得部と、取得した複数の前記文書から1以上のキーワードを抽出するキーワード抽出部と、抽出されたキーワードについて、前記文書ごとのtf―idf(Term frequency-Inverse document frequency)を算出する算出部と、抽出されたキーワードごとに、算出された前記tf―idfの統計演算をする統計演算部と、前記tf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する興味度算出部と、抽出されたキーワードと、算出された興味度とを対応付けて出力する出力部とを備えるものである。
【0007】
[2]また、本発明の一態様は、上記[1]に記載の興味推定装置において、前記統計演算部は、抽出された1以上のキーワードそれぞれについて、前記文書ごとに算出された前記tf―idfの最大値を算出し、前記興味度算出部は、前記統計演算部により算出された最大値を興味度として算出するものである。
【0008】
[3]また、本発明の一態様は、上記[1]又は[2]に記載の興味推定装置において、前記文書とは、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含むものである。
【0009】
[4]また、本発明の一態様は、上記[1]又は[2]に記載の興味推定装置において、前記文書とは、ソーシャルネットワーキングサービスにおいて発信された情報を含むものである。
【0010】
[5]また、本発明の一態様による興味推定装置は、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識することにより得られるテキストの少なくともいずれかを含む文書であって、複数の前記文書を取得する文書情報取得部と、取得した複数の前記文書を結合し、結合文書を生成する結合部と、前記結合文書から1以上のキーワードを抽出するキーワード抽出部と、抽出されたキーワードについて、前記結合文書のtf―idfを算出する算出部と、算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味度算出部と、算出された興味度を出力する出力部とを備えるものである。
【0011】
[6]また、本発明の一態様による推薦装置は、上記[1]から[4]のいずれかに記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、興味ベクトルを算出する興味ベクトル算出部と、算出された前記興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示すスコアを算出するスコア算出部と、算出された前記スコアに基づいて、類似度が高い文書を推薦文書として特定する特定部と、特定された前記推薦文書を出力する出力部とを備えるものである。
【0012】
[7]また、本発明の一態様による推薦装置は、上記[1]から[4]のいずれかに記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第1興味ベクトルを算出する第1興味ベクトル算出部と、算出された前記第1興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第1スコアを算出する第1スコア算出部と、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む文書であって、複数の前記文書を結合することにより生成された結合文書から1以上のキーワードを抽出し、抽出されたキーワードについて、前記結合文書のtf―idfを算出し、算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第2興味ベクトルを算出する第2興味ベクトル算出部と、算出された前記第2興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第2スコアを算出する第2スコア算出部と、算出された前記第1スコア及び前記第2スコアに基づいて、類似度が高い文書を推薦文書として特定する特定部と、特定された前記推薦文書を出力する出力部とを備えるものである。
【0013】
[8]また、本発明の一態様による推薦装置は、上記[1]から[4]のいずれかに記載の興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第1興味ベクトルを算出する第1興味ベクトル算出部と、算出された前記第1興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第1スコアを算出する第1スコア算出部と、算出された前記第1スコアに基づいて、類似度が高い文書を第1推薦文書として特定する第1特定部と、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む文書であって、複数の前記文書を結合することにより生成された結合文書から1以上のキーワードを抽出し、抽出されたキーワードについて、前記結合文書のtf―idfを算出し、算出された前記tf―idfに基づいて、抽出されたキーワードごとの興味度を算出する興味推定装置により出力された複数のキーワードにそれぞれ応じた複数の前記興味度に基づき、第2興味ベクトルを算出する第2興味ベクトル算出部と、算出された前記第2興味ベクトルに基づき、文書ごとに算出されたベクトルとの類似度を示す第2スコアを算出する第2スコア算出部と、算出された前記第2スコアに基づいて、類似度が高い文書を第2推薦文書として特定する第2特定部と、特定された前記第1推薦文書と、前記第2推薦文書とを出力する出力部とを備えるものである。
【0014】
[9]また、本発明の一態様によるプログラムは、コンピュータに、複数の文書を取得する文書情報取得ステップと、取得した複数の前記文書から1以上のキーワードを抽出するキーワード抽出ステップと、抽出されたキーワードについて、前記文書ごとのtf―idfを算出する算出ステップと、抽出されたキーワードごとに、算出された前記tf―idfの統計演算をする統計演算ステップと、前記tf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する興味度算出ステップと、抽出されたキーワードと、算出された興味度とを対応付けて出力する出力ステップとを実行させるものである。
【発明の効果】
【0015】
本発明によれば、ユーザが興味を持っている単語を精度よく検出することができる。
【図面の簡単な説明】
【0016】
【
図1】第1の実施形態に係る第1の興味推定システムの一例について概略機能構成を示すブロック図である。
【
図2】第1の実施形態に係る興味推定装置の一例について概略機能構成を示すブロック図である。
【
図3】第1の実施形態に係る文書情報の第一の例について説明するための図である。
【
図4】第1の実施形態に係る文書情報の第二の例について説明するための図である。
【
図5】第1の実施形態に係る興味推定装置の内部構成の一例を示すブロック図である。
【
図6】第2の実施形態に係る興味推定装置の一例について概略機能構成を示すブロック図である。
【
図7】第2の実施形態に係る文書情報の第一の例について説明するための図である。
【
図8】第2の実施形態に係る文書情報の第二の例について説明するための図である。
【
図9】第2の実施形態に係る統計演算の一例について説明するための図である。
【
図10】第3の実施形態に係る推薦装置の一例について概略機能構成を示すブロック図である。
【
図11】第3の実施形態に係る推薦装置の変形例について概略機能構成を示すブロック図である。
【
図12】第3の実施形態に係る推薦装置を用いた評価実験の方法について説明するための図である。
【
図13】第3の実施形態に係る推薦装置を用いた評価実験の結果について説明するための図である。
【発明を実施するための形態】
【0017】
[実施形態]
まず、実施形態の前提となる事項を説明する。
【0018】
本実施形態に係る興味推定システム1は、ユーザの行動に基づき、当該ユーザが興味を有している事項を推定する。本実施形態においてユーザとは、スマートフォン、タブレット端末、ノート型パソコン、又はテレビ受像機等の情報処理装置を操作する人物である。当該情報処理装置は、ユーザの操作により、まとまりのある情報を発信する。興味推定システム1は、ユーザにより情報処理装置から発信された情報を取得する。興味推定システム1は、取得した情報に基づきユーザの興味がある事項を推定する。
なお、興味推定システム1は、ユーザによる操作を情報処理装置から直接的に検出することにより情報を取得してもよいし、所定の通信ネットワークを介して情報を取得してもよい。
【0019】
以下の説明において、情報処理装置を介してユーザから発信されたまとまりのある情報を、「文書」と記載する。詳細には、特定のユーザにより発信された情報であるか、又は不特定多数のユーザにより発信された情報かを問わず、いずれかのユーザにより発信された情報を「文書」と記載する。いずれか単一のユーザにより発信された情報を指して「文書」と記載する場合もあるし、複数のユーザにより発信された情報をまとめて「文書」と記載する場合もある。
【0020】
ユーザが興味を有している事項であって興味推定システム1により検出される事項とは、特定の単語(キーワード)により識別される事項である。特定の単語(キーワード)とは、1つの単語から構成されるものであってもよいし、複数の単語から構成されるものであってもよい。以下の説明においては、興味推定システム1により検出されるユーザの興味がある事項が、1つの単語から構成されるものである場合の一例について説明する。
【0021】
[第1の実施形態]
以下、本発明の第1の実施形態について、図面を参照しながら説明する。
【0022】
[興味推定システムの機能構成]
図1は、実施形態に係る第1の興味推定システムの一例について概略機能構成を示すブロック図である。まず、同図を参照しながら、興味推定システム1の概略機能構成について説明する。興味推定システム1は、第1情報処理装置31と、興味推定装置10と、第2情報処理装置32とを備える。第1情報処理装置31、興味推定装置10及び第2情報処理装置32は、それぞれ所定の通信方式により互いに接続される。第1情報処理装置31、興味推定装置10及び第2情報処理装置32は、同一の筐体(例えばスマートフォン、タブレット端末、ノート型パソコン、又はテレビ受像機等の情報処理端末の筐体)内に配置され、コンピュータを用いて各機能を有する装置として実現されてもよい。また、第1情報処理装置31、興味推定装置10及び第2情報処理装置32は、それぞれ異なる筐体内に配置され、イーサネット等の所定の通信ネットワークを介して互いに接続されていてもよい。
【0023】
なお、興味推定システム1は、複数のユーザについての興味を推定してもよいし、単一のユーザについての興味を推定してもよい。興味推定システム1が複数のユーザについての興味を推定する場合、一の興味推定装置10及び一の第2情報処理装置32に、複数の第1情報処理装置31が接続されてもよい。興味推定装置10に複数の第1情報処理装置31が接続される場合、興味推定装置10は、例えば複数のユーザをユーザ固有のユーザ識別情報により識別してもよい。以下の説明においては、説明の簡略化のため、興味推定システム1には一の第1情報処理装置31が接続され、単一のユーザについての興味を推定する場合の一例について説明する。
【0024】
第1情報処理装置31は、ユーザから発信された文書についての情報を取得する。換言すれば、第1情報処理装置31とは、文書情報取得装置である。第1情報処理装置31は、ユーザにより操作される情報処理端末(スマートフォン、タブレット端末、ノート型パソコン、又はテレビ受像機等)に備えられることにより文書についての情報を取得してもよいし、当該情報処理端末と所定の通信方式により互いに接続されることにより文書についての情報を取得してもよい。第1情報処理装置31は、取得した文書についての情報を文書情報DIとして興味推定装置10に出力する。
【0025】
興味推定装置10は、第1情報処理装置31から複数の文書情報DIを取得する。興味推定装置10は、取得した複数の文書情報DIに基づき、ユーザの興味を推定する。興味推定装置10は、ユーザの興味の一例として興味度ILを推定する。興味推定装置10は、推定した興味度ILを第2情報処理装置32に出力する。
【0026】
第2情報処理装置32は、興味推定装置10から興味度ILを取得する。第2情報処理装置32は、取得した興味度ILに基づいた処理を行う。興味度ILに基づいた処理とは、例えば興味度ILを記憶することであってもよい。また、第2情報処理装置32は、不図示の制御部や、外部から取得する不図示の制御信号に応じて、記憶した興味度ILを出力してもよい。第2情報処理装置32は、例えば、興味度ILに基づく情報を、不図示の音声出力装置により音声出力してもよいし、不図示の表示装置に視覚的認識可能なよう表示してもよい。
なお、興味推定システム1が複数のユーザの興味を推定する場合、第2情報処理装置32は、ユーザ識別情報と興味度ILとを互いに対応付けて記憶してもよい。
【0027】
[興味推定装置の機能構成]
図2は、第1の実施形態に係る興味推定装置の一例について概略機能構成を示すブロック図である。同図を参照しながら、興味推定装置10の概略機能構成の一例について説明する。興味推定装置10は、文書情報取得部11と、文書情報記憶部12と、結合部13と、キーワード抽出部14と、tf-idf算出部15と、興味度算出部17と、出力部18とを備える。興味推定装置10は、バスで接続された不図示のCPU(Central Processing Unit)、ROM(Read only memory)又はRAM(Random access memory)等の記憶装置等を備え、興味推定プログラムを実行することによって各部を備える装置として機能する。
【0028】
なお、興味推定装置10の各機能の全てまたは一部は、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field-Programmable Gate Array)等のハードウェアを用いて実現されてもよい。興味推定プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。興味推定プログラムは、電気通信回線を介して送信されてもよい。
【0029】
文書情報取得部11は、第1情報処理装置31から複数の文書情報DIを取得する。ここで、本実施形態における文書の一例として、ソーシャルメディアに投稿された情報が挙げられる。興味推定装置10がソーシャルメディアに投稿された情報を文書として興味推定を行う場合、文書情報DIにはユーザがソーシャルメディアに投稿した情報が含まれる。また、本実施形態における文書の一例として、テレビ等の映像及び音声を含むコンテンツについての情報が挙げられる。映像及び音声を含むコンテンツについての情報とは、具体的には電子番組表(EPG:Electronic Program guide)に含まれる情報や字幕、他者のコメントのことである。なお、電子番組表とは、テレビ等の映像及び音声を含むコンテンツについての概要文、出演者、放送時間及び放送局等が対応付けられた情報である。興味推定装置10がコンテンツ情報を文書として興味推定を行う場合、文書情報DIには、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメントの少なくともいずれかが含まれる。さらには、コンテンツの音声を音声認識処理することにより得られるテキストが含まれていてもよい。すなわち、文書情報取得部11は、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することで得られるテキストの少なくともいずれかを含む文書を取得する。
なお、文書情報取得部11は、過去一定期間に放送された番組の概要文や出演者情報等が記載された電子番組表データと、未来の一定期間に放送予定の番組の概要文や出演者情報等が記載された電子番組表データが文書として入力されてもよい。併せて、ユーザの過去一定期間の番組視聴履歴も入力されてもよい。
【0030】
文書情報記憶部12は、文書情報取得部11により取得された複数の文書情報DIを記憶する。文書情報記憶部12は、文書情報DIと、当該文書情報DIを出力したユーザを識別するユーザ識別情報とを対応付けて記憶してもよい。また、文書情報記憶部12は、文書情報DIと、当該文書情報DIが出力された日時に関する日時情報とを対応付けて記憶してもよい。なお、ユーザ識別情報及び日時情報は、文書情報DIに含まれていてもよい。文書情報記憶部12は、記憶した文書情報DIを結合部13及びtf-idf算出部15に出力する。
文書情報記憶部12は、興味度推定の対象となるユーザにより発信された文書に加えて、他のユーザにより発信された文書についての情報を記憶していてもよい。文書情報記憶部12は、他のユーザにより発信された文書についての情報を結合部13及びtf-idf算出部15に出力する。
【0031】
結合部13は文書情報記憶部12から複数の文書情報DIを取得する。結合部13は、取得した複数の文書情報DIに含まれる複数の文書を結合し、結合文書を生成する。結合部13により結合される文書は、過去n日間(nは1以上の自然数)における文書であってもよい。nは任意に設定される値であって、例えば7日間等であってもよい。文書がソーシャルメディアに投稿された情報である場合、結合文書とは、すなわちユーザが過去n日間に投稿した全情報を結合した文書である。また、文書が映像・音声コンテンツについての情報である場合、結合文書とは、すなわちユーザが過去n日間に視聴した全コンテンツに関する情報を結合した文書である。さらに、結合文13により結合される文書は、過去m個(mは1以上の自然数)の文書であってもよい。文書がソーシャルメディアに投稿された情報である場合、結合文書とは、ユーザが過去に投稿した情報のうち、最新のm個の情報を結合した文書である。また、文書が映像・音声コンテンツに関連した情報の場合、結合文書とは、ユーザが過去に視聴した全コンテンツのうち、最新のm個のコンテンツに関する情報を結合した文書である。結合部13は、結合文書に関する情報を結合文書情報CDIとしてキーワード抽出部14に出力する。
【0032】
キーワード抽出部14は、結合部13から結合文書情報CDIを取得する。キーワード抽出部14は、取得した結合文書情報CDIに含まれる結合文書から1以上のキーワードを抽出する。キーワード抽出部14は、既知のキーワード抽出アルゴリズムにより結合文書から1以上のキーワードを抽出する。キーワード抽出部14は、抽出したキーワードに関する情報をキーワード情報KIとしてtf-idf算出部15に出力する。
キーワードの抽出は、具体的には形態素解析により行われてもよい。既知の形態素解析エンジンの一例としては、オープンソースの「MeCab」を例示することができる。また、MeCab実行時に用いる分かち書き辞書の一例として、「mecab―ipadic―NEologd」を例示することができる。「mecab―ipadic―NEologd」は、新語や固有表現に強いという特徴を有している。
【0033】
tf-idf算出部15は、キーワード抽出部14からキーワード情報KIを取得する。また、tf-idf算出部15は、文書情報記憶部12から文書情報DIを取得する。tf-idf算出部15は、取得したキーワード情報KI及び文書情報DIに基づき、抽出されたキーワードについて、結合文書のtf―idf(term frequency - inverse document frequency)を算出する。tf-idf算出部15は、算出したtf―idfを含む情報を算出結果情報CRIとして興味度算出部17に出力する。
なお、tf-idf算出部15を単に算出部と記載する場合がある。
【0034】
ここで、tf-idfの算出の一例について説明する。一例として、文書がテレビの電子番組表である場合におけるtf-idfの算出の一例について説明する。
まず、tf-idf算出部15は、単語頻度tfwi,dvを算出する。ユーザが視聴したテレビ番組の概要文や出演者等、電子番組表に記載された情報を文書dvとし、キーワード抽出部14により抽出されたキーワードを単語wiとすると、単語頻度tfwi,dvは、下の式(1)で示される。
【0035】
【0036】
このとき、nwi,dvは文書dvにおける単語wiの出現頻度を示す。また、Σjnwi,dvは文書dvにおける全単語の出現頻度の和を示す。すなわち、単語頻度tfwi,dvは、文書dvにおける単語wiの出現頻度を、文書dvにおける全単語の出現頻度の和で割った値ということもできる。
【0037】
次に、tf-idf算出部15は、逆文書頻度idfwiを算出する。総文書数|D|とすると、逆文書頻度idfwiは、下の式(2)で示される。
【0038】
【0039】
このとき、|{d:d∋wi}|は、単語wiを含む文書の数を示す。具体的には、|{d:d∋wi}|は、単語wiをテレビ番組の概要文等に含むテレビ番組の数を示す。逆文書頻度idfとは、総文書数|D|を、単語wiを含む文書の数で割り、更に対数をとった値であるということもできる。
【0040】
最後に、tf-idf算出部15は、算出した単語頻度tfwi,dvと、逆文書頻度idfとに基づき、tf-idfを算出する。tf-idfは、単語頻度tfwi,dvと、逆文書頻度idfとを乗じることにより算出される。tf-idf算出部15は、算出したtf-idfを、算出結果情報CRIとして出力する。
なお、上述した手法では、tf-idf算出部15は、ユーザが視聴した複数のテレビ番組に関する情報を1つの文書dvとして捉え、視聴しなかった番組の、電子番組表内の情報をそれぞれ別々の文書として捉えているともいうことができる。
【0041】
興味度算出部17は、tf-idf算出部15から算出結果情報CRIを取得する。興味度算出部17は、取得した算出結果情報CRIに含まれるtf―idfに基づいて、抽出されたキーワードごとの興味度intを算出する。ユーザvの単語wiに対する興味度intUni,wi,vは、例えば、下の式(3)で示される。
【0042】
【0043】
すなわち、本実施形態において興味度算出部17は、算出されたtf-idfを加工せず、そのまま興味度intUni,wi,vとして算出する。興味度算出部17は、算出した興味度intUni,wi,vを、興味度ILとして出力する。
なお、興味度算出部17は、算出されたtf-idfに基づいて、重み付けを行う等の所定の演算を行うことにより、興味度intUni,wi,vを算出してもよい。
【0044】
出力部18は、算出された興味度ILを第2情報処理装置32に対して出力する。なお、出力部18は、抽出されたキーワードと、算出された興味度ILとを対応付けて第2情報処理装置32に対して出力してもよい。
【0045】
[文書情報]
次に、
図3及び
図4を参照しながら、本実施形態における文書情報DIの一例について説明する。なお、本実施形態における文書情報DIとは、ユーザから発信される情報を広く含み、以下に説明する実施形態に限定されるものではない。
【0046】
図3は、第1の実施形態に係る文書情報の第一の例について説明するための図である。同図を参照しながら、興味推定装置10がソーシャルメディアに投稿された情報を文書として興味推定を行う場合における一例について説明する。興味推定装置10がソーシャルメディアに投稿された情報を文書として興味推定を行う場合における文書情報DIを、文書情報DI1と記載する。
文書情報DI1は、複数の投稿情報POを含む。投稿情報POとは、ユーザによりソーシャルメディアに投稿されたまとまりのある文書である。同図には、投稿情報POとして投稿情報PO11、投稿情報PO12、…、投稿情報PO1n(nは1以上の自然数)が含まれる場合の一例を記載する。
【0047】
投稿情報POは、ある時間に投稿された情報である。複数の投稿情報POは、それぞれ異なる時刻に投稿されたものであってもよい。投稿情報POには、例えば文字情報が含まれる。投稿情報POには、文字情報に加えて、又は代えて、画像情報や位置情報等が含まれていてもよい。また、投稿情報POに含まれる文字情報には、1つの又は複数のキーワードKWが含まれる。キーワードKWは、キーワード抽出部14により所定のキーワード抽出アルゴリズムを用いて抽出される。
【0048】
なお、
図3に示す文書情報DI1は、文書情報DI1に含まれる要素を概念的に説明したものである。ユーザにより用いられるスマートフォン、タブレット端末又はノート型パソコン、又はテレビ受像機等の情報処理装置は、文書情報DI1に示すような表示画面を表示してもよい。ユーザにより用いられる情報処理装置により文書情報DI1に示すような表示画面を表示する場合、複数の投稿情報POは、画面スクロール等のユーザの操作により表示が切り替えられてもよい。
【0049】
図4は、第1の実施形態に係る文書情報の第二の例について説明するための図である。同図を参照しながら、興味推定装置10が電子番組表を文書として興味推定を行う場合における一例について説明する。興味推定装置10が電子番組表を文書として興味推定を行う場合における文書情報DIを、文書情報DI2と記載する。なお、以下の説明においては、映像及び音声を含むコンテンツの一例としてテレビ番組の電子番組表について説明する。
【0050】
文書情報DI2は例えばテレビ受像機から取得される。文書情報DI2は、複数の番組情報PRを含む。番組情報PRとは、テレビ番組の放送に関する情報である。番組情報PRには当該番組が放送される放送時刻、当該番組を放送する放送局、当該番組の概要文、当該番組に出演する出演者に関する情報、当該番組の字幕情報、当該番組に対する他者のコメント等が広く含まれる。同図には一例として、番組情報PRとして20時及び21時の時間帯における第1放送局、第2放送局、…、及び第n放送局(nは1以上の自然数)の放送番組の情報が表示されている。
【0051】
具体的には、第1放送局が20時から21時の間に放映するテレビ番組についての情報は番組情報PR211であり、21時から22時の間に放映するテレビ番組についての情報は番組情報PR212である。また、第2放送局が20時から21時の間に放映するテレビ番組についての情報は番組情報PR221であり、21時から22時の間に放映するテレビ番組についての情報は番組情報PR222である。…。また、第n放送局が20時から21時の間に放映するテレビ番組についての情報は番組情報PR2n1であり、21時から22時の間に放映するテレビ番組についての情報は番組情報PR2n2である。
【0052】
1つの番組情報PRには、1つの又は複数のキーワードKWが含まれる。キーワードKWは、番組の概要文、当該番組に出演する出演者に関する情報、当該番組の字幕情報、当該番組に対する他者のコメント等のいずれの情報に含まれていてもよい。キーワードKWは、キーワード抽出部14により所定のキーワード抽出アルゴリズムを用いて抽出される。
【0053】
なお、
図4に示す文書情報DI2は、文書情報DI2に含まれる要素を概念的に説明したものである。ユーザにより用いられるスマートフォン、タブレット端末又はノート型パソコン、又はテレビ受像機等の情報処理装置は、文書情報DI2に示すような表示画面を表示してもよい。ユーザにより用いられる情報処理装置により文書情報DI2に示すような表示画面を表示する場合、複数の番組情報PRは、スクロールやリモートコントローラによる操作等のユーザの操作により表示が切り替えられてもよい。
【0054】
[興味推定装置の内部構成]
図5は、第1の実施形態に係る興味推定装置の内部構成の一例を示すブロック図である興味推定装置10の少なくとも一部の機能は、コンピュータを用いて実現され得る。図示するように、そのコンピュータは、中央処理装置901と、RAM902と、入出力ポート903と、入出力デバイス904や905等と、バス906と、を含んで構成される。コンピュータ自体は、既存技術を用いて実現可能である。中央処理装置901は、RAM902等から読み込んだプログラムに含まれる命令を実行する。中央処理装置901は、各命令にしたがって、RAM902にデータを書き込んだり、RAM902からデータを読み出したり、算術演算や論理演算を行ったりする。RAM902は、データやプログラムを記憶する。RAM902に含まれる各要素は、アドレスを持ち、アドレスを用いてアクセスされ得るものである。なお、RAMは、「ランダムアクセスメモリー」の略である。入出力ポート903は、中央処理装置901が外部の入出力デバイス等とデータのやり取りを行うためのポートである。入出力デバイス904や905は、入出力デバイスである。入出力デバイス904や905は、入出力ポート903を介して中央処理装置901との間でデータをやりとりする。バス906は、コンピュータ内部で使用される共通の通信路である。例えば、中央処理装置901は、バス906を介してRAM902のデータを読んだり書いたりする。また、例えば、中央処理装置901は、バス906を介して入出力ポートにアクセスする。
【0055】
[第1の実施形態のまとめ]
以上説明した実施形態によれば、興味推定装置10は、文書情報取得部11を備えることにより文書情報DIからを取得し、結合部13を備えることにより複数の文書から結合文書を生成し、キーワード抽出部14を備えることにより結合文書から1以上のキーワードを抽出し、tf-idf算出部15を備えることにより抽出されたキーワードについて結合文書のtf―idfを算出し、興味度算出部17を備えることにより算出されたtf―idfに基づいて抽出されたキーワードごとの興味度を算出し、出力部18を備えることにより算出された興味度を出力する。また、本実施形態において文書とは、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む。すなわち、本実施形態において文書とは、電子番組表を含む。したがって、興味推定装置10によれば、ユーザの視聴履歴や電子番組表に基づいて、当該ユーザが興味を有している単語を検出することができる。
【0056】
[第2の実施形態]
次に、第2の実施形態について説明する。まず、第2の実施形態が解決しようとする課題の概要について説明する。まず、電子番組表を文書として興味推定を行う場合の課題について説明する。第1の実施形態に係る興味推定装置10によれば、ユーザが興味を持つ単語に関連した番組の放送頻度が高い場合には上述した式(3)により適切な興味度intを得ることができる。ここで、興味推定装置10によれば、他者が発信した情報に応じて興味度が算出される。一方、ユーザが強い興味を持つ番組は必ずしも頻繁に放送されるわけではない。したがって、放送頻度に応じて興味度が変動してしまい、例えばユーザが強い興味を持つ番組の放送頻度が低い場合、興味度が低く算出されてしまう場合があった。
【0057】
次に、ソーシャルメディアに投稿された情報を文書として興味推定を行う場合の課題について説明する。ソーシャルメディアのユーザは世間で起こっているニュースやイベントに引っ張られて情報を発信することも多い。また、ユーザは必ずしも一定期間に興味をもっている単語に関して多数の文書を発信するわけではない。したがって、第1の実施形態に係る興味推定装置10によれば、例えユーザが興味を持っている単語であっても、ユーザの発信頻度によっては当該単語の興味度が低くなってしまうという欠点があった。
【0058】
このような課題を解決するため、第2の実施形態に係る興味推定装置10Aは、ユーザの発信頻度や、番組の放送頻度が少ない場合であっても、精度よく興味度を推定することを目的とする。具体的には、興味推定装置10Aは、放送頻度が低い番組内の単語や、世間で起こっているニュースやイベントとは無関係な単語に対する興味度が強調されるような演算により興味度を算出する。より具体的には、興味推定装置10Aは、ユーザが発信する文書情報DI内の情報(番組情報PRや投稿情報PO等)を別々の文書として捉え、さらに視聴しなかった番組や他者が発信した情報をそれぞれ別々の文書として捉え、演算を行う。
【0059】
図6は、第2の実施形態に係る興味推定装置の一例について概略機能構成を示すブロック図である。同図を参照しながら、第2の実施形態に係る興味推定装置10Aの概略機能構成について説明する。興味推定装置10Aは、結合部13を備えておらず、統計演算部16を備える点において興味推定装置10とは異なる。興味推定装置10Aの説明において、興味推定装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0060】
興味推定装置10Aは結合部13を備えないため、キーワード抽出部14は、取得した複数の文書それぞれから1以上のキーワードを抽出する。
また、興味推定装置10Aは結合部13を備えないため、tf-idf算出部15は、キーワード抽出部14により抽出されたキーワードについて、文書ごとのtf―idfを算出する。
【0061】
ここで、第2の実施形態におけるtf―idfの算出の一例について具体的に説明する。文書dvkにおける単語wiの単語頻度tfwi,dvkは、下の式(4)で示される。
【0062】
【0063】
このとき、nは文書dvkにおける単語wiの出現頻度を示す。また、Σnは文書dvkにおける全単語の出現頻度の和を示す。すなわち、単語頻度tfwi,dvkは、文書dvにおける単語wiの出現頻度を、文書dvにおける全単語の出現頻度の和で割った値ということもできる。
【0064】
統計演算部16は、キーワード抽出部14により抽出されたキーワードごとに、tf-idf算出部15により算出されたtf―idfに基づく所定の統計演算をする。具体的には、統計演算部16は、文書ごとに算出されたtf―idfに基づく所定の統計演算をすることにより、キーワードごとに統計演算結果を算出する。統計演算部16は、統計演算結果を含む情報を統計演算情報SOIとして興味度算出部17に出力する。
【0065】
所定の統計演算の一例としては、文書ごとに算出されたtf―idfの値のうち、キーワードごとに最大値を求めることであってもよい。すなわち統計演算部16は、抽出された1以上のキーワードそれぞれについて、文書ごとに算出されたtf―idfの最大値を算出してもよい。所定の統計演算が最大値を求めることである場合、興味度算出部17は、統計演算部16により算出された最大値を興味度として算出する。すなわち、第2の実施形態におけるユーザvの単語wiに対する興味度intは、例えば、下の式(5)のように記載することができる。
【0066】
【0067】
次に、
図7及び
図8を参照しながら、第2の実施形態における文書情報DIの一例について説明する。
図7を参照しながら説明する一例は、
図3を参照しながら説明した文書情報DI1の変形例である。
図8を参照しながら説明する一例は、
図4を参照しながら説明した文書情報DI2の変形例である。
【0068】
図7は、第2の実施形態に係る文書情報の第一の例について説明するための図である。同図を参照しながら、興味推定装置10Aがソーシャルメディアに投稿された情報を文書として興味推定を行う場合における一例について説明する。換言すれば、本一例において文書とは、ユーザによりソーシャルメディア(ソーシャルネットワーキングサービス)において発信された情報を含む。興味推定装置10Aがソーシャルメディアに投稿された情報を文書として興味推定を行う場合における文書情報DIを、文書情報DI3と記載する。
【0069】
ユーザにより投稿された複数の投稿情報POを投稿情報群POGとすると、投稿情報群POGには、複数の文書情報DI3が含まれる。1つの文書情報DI3には、1つの投稿情報POが含まれる。同図には、文書情報DI3として文書情報DI3-1、文書情報DI3-2、…、文書情報DI3-n(nは1以上の自然数)が含まれる場合の一例を記載する。文書情報DI3-1には投稿情報POとして投稿情報PO31が含まれ、文書情報DI3-2には投稿情報POとして投稿情報PO32が含まれ、…、文書情報DI3-nには投稿情報POとして投稿情報PO3nが含まれる。
【0070】
図8は、第2の実施形態に係る文書情報の第二の例について説明するための図である。同図を参照しながら、興味推定装置10Aが電子番組表を文書として興味推定を行う場合における一例について説明する。換言すれば、本一例において文書とは、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む。興味推定装置10Aが電子番組表を文書として興味推定を行う場合における文書情報DIを、文書情報DI4と記載する。なお、以下の説明においては、映像及び音声を含むコンテンツの一例としてテレビ番組の電子番組表について説明する。
【0071】
電子番組表EPGには、複数の文書情報DI4が含まれる。1つの文書情報DI4には、1つの番組情報PRが含まれる。同図には、文書情報DI4として文書情報DI4-11、文書情報DI4-21、…、文書情報DI4-n1及び文書情報DI4-12、文書情報DI4-22、…、文書情報DI4-n2が含まれる場合の一例を記載する。文書情報DI4-11には番組情報PRとして番組情報PR411が含まれ、文書情報DI4-21には番組情報PRとして番組情報PR421が含まれ、文書情報DI4-n1には番組情報PRとして番組情報PR4n1が含まれ、文書情報DI4-12には番組情報PRとして番組情報PR412が含まれ、文書情報DI4-22には番組情報PRとして番組情報PR422が含まれ、文書情報DI4-n2には番組情報PRとして番組情報PR4n2が含まれる。
【0072】
図9は、第2の実施形態に係る統計演算の一例について説明するための図である。同図を参照しながら、統計演算部16がtf-idfの最大値を求めることにより統計演算結果を算出する場合の一例について説明する。
【0073】
同図には、第1文書、第2文書及び第3文書に基づき興味度を算出する場合の一例を示す。第1キーワード、第2キーワード及び第3キーワードは、第1文書、第2文書及び第3文書から抽出されたキーワードである。第1キーワード、第2キーワード及び第3キーワードは、それぞれの文書から抽出される必要はなく、いずれの文書から抽出されてもよい。tf-idf算出部15は、それぞれの文書と、それぞれのキーワードの全ての組み合わせについて、例えば上述した式(4)に基づきtf-idfを算出する。また、統計演算部16及び興味度算出部17は、算出されたtf-idfと上述した式(5)に基づき興味度intを算出する。
【0074】
具体的には、第1キーワード及び第1文書に基づいて算出されたtf-idfは3.8であり、第1キーワード及び第2文書に基づいて算出されたtf-idfは0であり、第1キーワード及び第3文書に基づいて算出されたtf-idfは2.5である。この場合、第1キーワードについての興味度は最大値である3.8となる。
また、第2キーワード及び第1文書に基づいて算出されたtf-idfは4.6であり、第2キーワード及び第2文書に基づいて算出されたtf-idfは4.1であり、第2キーワード及び第3文書に基づいて算出されたtf-idfは2.5である。この場合、第2キーワードについての興味度は最大値である4.6となる。
また、第3キーワード及び第1文書に基づいて算出されたtf-idfは0であり、第3キーワード及び第2文書に基づいて算出されたtf-idfは0.2であり、第3キーワード及び第3文書に基づいて算出されたtf-idfは6.1である。この場合、第3キーワードについての興味度は最大値である6.1となる。
【0075】
図9を参照しながら説明した一例からも明らかなように、tf-idfの和を取れば第2キーワードの興味度が最も大きくなるところ、本実施形態によれば、最大値を興味度としているため、第3キーワードの興味度が高くなる。すなわち、第2の実施形態に係る興味推定装置10Aによれば、それぞれの文書のtf-idfの和が大きいか否かに関わらず、それぞれの文書のtf-idfの大きさに応じて興味度が算出される。よって、第2実施形態によれば、ユーザの発信頻度や視聴頻度に依存せず、興味度を算出することができる。
【0076】
[第2の実施形態のまとめ]
以上説明した実施形態によれば、興味推定装置10Aは、文書情報取得部11を備えることにより複数の文書を取得し、キーワード抽出部14を備えることにより取得した複数の文書から1以上のキーワードを抽出し、tf-idf算出部15を備えることにより抽出されたキーワードについて文書ごとのtf―idfを算出し、統計演算部16を備えることにより抽出されたキーワードごとに算出されたtf―idfの統計演算をし、興味度算出部17を備えることによりtf―idfが統計演算された結果に基づいて、抽出されたキーワードごとの興味度を算出する。すなわち、本実施形態によれば、興味推定装置10Aは、ユーザが発信する複数の文書をそれぞれ別々の文書として捉え、視聴しなかった番組や他者が発信した情報をそれぞれ別々の文書として捉えることによりtf―idfを算出し、算出されたtf―idfに基づいた統計演算をすることにより興味度を算出する。したがって、興味推定装置10Aによれば、統計演算に応じて、ユーザの発信頻度や番組の放送頻度に依存しない興味度を算出することができる。よって、本実施形態によれば、ユーザの発信頻度や番組の放送頻度が低い場合であっても、ユーザが興味を持っている単語を精度よく検出することができる。
【0077】
また、上述した実施形態によれば、興味推定装置10Aにおいて、統計演算部16は、抽出された1以上のキーワードそれぞれについて、文書ごとに算出されたtf―idfの最大値を算出し、興味度算出部17は、統計演算部16により算出されたtf―idfの最大値を興味度として算出する。したがって、本実施形態によれば、最大値に基づいて興味度を算出するため、ユーザの発信頻度や番組の放送頻度が低い場合であっても、ユーザが興味を持っている単語を精度よく検出することができる。
【0078】
また、上述した実施形態によれば、興味推定装置10Aにおいて、文書とは、映像及び音声を含むコンテンツに付随する概要文、出演者情報、字幕、他者のコメント、コンテンツの音声を音声認識処理することにより得られるテキストの少なくともいずれかを含む。したがって、本実施形態によれば、興味推定装置10Aは、電子番組表に基づいてユーザの興味度を算出することができる。
【0079】
また、上述した実施形態によれば、興味推定装置10Aにおいて、文書とは、ソーシャルネットワーキングサービスにおいて発信された情報を含む。したがって、興味推定装置10Aは、ユーザがソーシャルネットワーキングサービスにおいて発信した情報に基づいてユーザの興味度を算出することができる。
【0080】
[第3の実施形態]
次に、第3の実施形態について説明する。第3の実施形態に係る推薦装置20は、第1の実施形態に係る興味推定装置10又は第2の実施形態に係る興味推定装置10Aの少なくとも一方を用いて算出されたキーワードごとの興味度に基づき、推薦すべき文書を特定する。推薦装置20は特定した文書に基づきユーザに推薦を行う。文書に基づいた推薦とは、文書に基づく商品またはサービス等を推薦することであってもよい。例えば、文書に基づく推薦とは、文書に関連する商品(すなわち、ユーザが興味を有しており、購買可能性のある商品)を推薦すること等であってもよい。以下の説明においては、文書に基づく推薦が、ユーザの興味度に基づいた放送番組を推薦することである場合の一例について説明する。
【0081】
図10は、第3の実施形態に係る推薦装置の一例について概略機能構成を示すブロック図である。同図を参照しながら、推薦装置20の概略機能構成の一例について説明する。推薦装置20は、興味推定装置10又は興味推定装置10Aのいずれかにより算出された興味度に基づいた推薦を行う。以下の説明においては、一例として興味推定装置10により算出された興味度に基づいた推薦を行う場合の一例について説明する。推薦装置20は、興味ベクトル算出部21と、スコア算出部22と、特定部23と、出力部24と、tf-idfベクトル算出部25とを備える。
【0082】
興味推定装置10には、過去一定期間に放送された番組の概要文や出演者情報等が記載された電子番組表データと未来の一定期間に放送予定の番組の概要文や出演者情報等が記載された電子番組表データが文書として入力される。さらには、ユーザの過去一定期間の番組視聴履歴も入力される。興味推定装置10はユーザの各キーワードに対する興味度を出力する。さらには、未来の一定期間に放送予定のそれぞれの番組について、概要文や出演者情報等が記載された電子番組表データを文書として扱い、それぞれについて各キーワードに対するtf-idfを出力する。
興味ベクトル算出部21は、興味推定装置10から複数の興味度ILとtf-idfを取得する。複数の興味度ILとは、興味推定装置10により推定されたキーワードに応じた興味度である。興味ベクトル算出部21は、取得した複数の興味度ILに基づき、興味ベクトルIVを算出する。換言すれば、興味ベクトル算出部21は、興味推定装置10により出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき、興味ベクトルIVを算出する。興味ベクトルIVは、興味推定装置10により推定された複数のキーワードの興味度に基づき算出される。興味度ベクトルIVは、例えばキーワードの数に応じた次元数を有し、キーワードに応じた興味度ILに基づいて決定される。興味ベクトル算出部21は、算出した興味度ベクトルIVをスコア算出部22に出力する。
tf-idfベクトル算出部25は、未来の一定期間に放送予定の番組に対して得られた各キーワードに対するtf-idfに基づき、tf-idfベクトルTIVを算出する。具体的には、tf-idfベクトル算出部25は、興味推定装置10からtf-idf算出部15により算出された結果である算出結果情報CRIを取得し、取得したtf-idfに基づき、tf-idfベクトルTIVを算出する。tf-idfベクトル算出部25は、算出したtf-idfベクトルTIVをスコア算出部22に出力する。
【0083】
スコア算出部22は、興味ベクトル算出部21により算出された興味ベクトルIVと未来に放送予定の番組のtf-idfベクトルに基づいたスコアを算出する。スコア算出部22は、例えば、取得した興味度ベクトルIVと未来に放送予定の番組のtf-idfベクトルとのコサイン類似度を算出し、算出した類似度をスコアとして算出してもよい。すなわち、スコア算出部22は、算出された興味ベクトルIVに基づき、推薦候補である文書ごとに算出されたベクトルとの類似度を示すスコアを算出する。スコア算出部22は、推薦する対象となる複数の文書とのコサイン類似度を算出することにより、複数のスコアを算出する。スコア算出部22は、算出した複数のスコアをスコア情報SIとして特定部23に出力する。
【0084】
特定部23は、スコア算出部22からスコア情報SIを取得する。特定部23は、スコア算出部22により算出された複数のスコアに基づいて、推薦文書を特定する。特定部23は、例えば興味度ベクトルIVと最も類似する文書を推薦文書として特定する。特定部23は、特定した推薦文書を含む情報を、推薦情報RIとして出力する。
出力部24は、特定部23から推薦情報RIを取得する。出力部24は、取得した推薦情報RIに含まれる推薦文書を出力する。出力部24は、例えば不図示の表示部に推薦文書を表示させることにより推薦キーワードを出力してもよい。また、出力部24は、例えば不図示の音声出力部に推薦文書を読み上げさせることにより推薦文書を出力してもよい。
【0085】
図11は、第3の実施形態に係る推薦装置の変形例について概略機能構成を示すブロック図である。同図を参照しながら、第3の実施形態の変形例に係る推薦装置20Aの概略機能構成の一例について説明する。推薦装置20Aは、興味推定装置10及び興味推定装置10Aによりそれぞれ算出された興味度に基づいた推薦を行う点において、推薦装置20とは異なる。推薦装置20Aは、第1興味ベクトル算出部21Aと、第1スコア算出部22Aと、第1tf-idfベクトル算出部25Aと、第2興味ベクトル算出部21Bと、第2スコア算出部22Bと、第2tf-idfベクトル算出部25Bと、特定部23Aと、出力部24とを備える。興味推定装置10Aの説明において、興味推定装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0086】
第1興味ベクトル算出部21Aは、興味推定装置10から第1の興味度IL1を取得する。第1の興味度IL1とは、興味推定装置10により推定されたキーワードごとの興味度である。第1興味ベクトル算出部21Aは、興味推定装置10により出力されたキーワードごとの興味度に基づき、1の第1興味ベクトルIV1を算出する。換言すれば、第1興味ベクトル算出部21Aは、興味推定装置10により出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき、第1興味ベクトルIV1を算出する。第1興味ベクトル算出部21Aは、算出した第1興味度ベクトルIV1を第1スコア算出部22Aに出力する。
第1tf-idfベクトル算出部25Aは、未来の一定期間に放送予定の番組に対して得られた各キーワードに対するtf-idfに基づき、第1tf-idfベクトルTIV1を算出する。具体的には、第1tf-idfベクトル算出部25Aは、興味推定装置10からtf-idf算出部15により算出された結果である第1算出結果情報CRI1を取得し、取得したtf-idfに基づき、第1tf-idfベクトルTIV1を算出する。第1tf-idfベクトル算出部25Aは、算出した第1tf-idfベクトルTIV1を第1スコア算出部22Aに出力する。
第1スコア算出部22Aは、算出された第1興味ベクトルIV1と、第1tf-idfベクトル算出部25Aにより算出された推薦候補の文書のtf-idfベクトルである第1tf-idfベクトルTIV1の類似度を示す第1スコアを算出する。スコア算出部22は、算出した第1スコアを第1スコア情報SI1として特定部23Aに出力する。
【0087】
第2興味ベクトル算出部21Bは、興味推定装置10Aから第2の興味度IL2を取得する。第2の興味度IL2とは、興味推定装置10Aにより推定されたキーワードごとの興味度である。第2興味ベクトル算出部21Bは、興味推定装置10Aにより出力されたキーワードごとの興味度に基づき、1の第2興味ベクトルIV2を算出する。換言すれば、第2興味ベクトル算出部21Bは、興味推定装置10Aにより出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき、第2興味ベクトルIV2を算出する。第2興味ベクトル算出部21Bは、算出した第2興味度ベクトルIV2を第2スコア算出部22Bに出力する。
第2tf-idfベクトル算出部25Bは、未来の一定期間に放送予定の番組に対して得られた各キーワードに対するtf-idfに基づき、第2tf-idfベクトルTIV2を算出する。具体的には、第2tf-idfベクトル算出部25Bは、興味推定装置10Aからtf-idf算出部15により算出された結果である第2算出結果情報CRI2を取得し、取得したtf-idfに基づき、第2tf-idfベクトルTIV2を算出する。第2tf-idfベクトル算出部25Bは、算出した第2tf-idfベクトルTIV2を第2スコア算出部22Bに出力する。
第2スコア算出部22Bは、算出された第2興味ベクトルIV2と、第1tf-idfベクトル算出部25Aにより算出された推薦候補の文書のtf-idfベクトルである第1tf-idfベクトルTIV1の類似度を示す第2スコアを算出する。第2スコア算出部22Bは、算出した第2スコアを第2スコア情報SI2として特定部23Aに出力する。
【0088】
特定部23Aは、第1スコア算出部22Aから第1スコア情報SI1を取得し、第2スコア算出部22Bから第2スコア情報SI2を取得する。特定部23Aは、算出された第1スコアSI1及び第2スコアSI2に基づいて、推薦文書を特定する。具体的には、特定部23Aは、算出された第1スコアSI1及び第2スコアSI2に基づいて、類似度が高い文書を推薦文書として特定してもよい。特定部23は、特定した推薦文書を含む情報を、推薦情報RIとして出力する。
【0089】
すなわち、第3の実施形態の変形例によれば、興味推定装置10により推定された興味度及び興味推定装置10Aにより推定された興味度のそれぞれについて、興味ベクトルを算出し、算出されたそれぞれの興味度ベクトルに基づき、推薦文書を特定する。ここで、興味推定装置10によれば、ユーザにより発信された頻度が高いキーワードの興味度が高くなり、興味推定装置10Aによれば、ユーザにより発信された頻度が低いキーワードでも興味度が高くなる。したがって、推薦装置20Aによれば、双方の興味推定装置10により推定された興味度に基づいた推薦を行うことができる。
【0090】
なお、推薦装置20Aは、興味推定装置10により推定された興味度に基づいた推薦文書及び興味推定装置10Aにより推定された興味度に基づく推薦文書の双方を出力してもよい。この場合、特定部23Aは、不図示の第1特定部23A1と、不図示の第2特定部23A2とを有していてもよい。第1特定部23A1は、算出された第1スコアSI1に基づいて類似度が高い文書を第1推薦文書として特定する。第2特定部23A2は、算出された第2スコアSI2に基づいて類似度が高い文書を第2推薦文書として特定する。出力部24は、第1特定部23A1により特定された第1推薦文書と、第2特定部23A2により特定された第2推薦文書の双方を出力する。
【0091】
[評価実験]
次に、
図12及び
図13を参照しながら、上述した推薦装置20Aを用いた場合における評価実験の手法と結果について説明する。評価実験では、過去のある対象期間においてユーザが視聴した放送番組に基づいて、興味推定装置10及び興味推定装置10Aにより推定した興味度を用いて番組推薦を行い、当該対象期間経過後に実際にユーザが視聴した放送番組と、推薦装置20Aにより推薦された放送番組とを比較することにより、評価を行った。評価実験の対象とした視聴者数は5名であり、評価期間は2016年1月1日から2017年1月8日までとした。
なお、以下の説明においては、興味推定装置10を用いた手法を第1手法と記載し、興味推定装置10Aを用いた手法を第2手法と記載する場合がある。
【0092】
図12は、第3の実施形態に係る推薦装置を用いた評価実験の方法について説明するための図である。まず、同図を参照しながら評価実験の方法について説明する。同図に記載された1から14の数字は日付を示す。すなわち同図には2016年1月1日から14日までの日にちが示されている。本評価実験では学習期間を7日間とする。学習期間とは、興味推定装置10及び興味推定装置10Aが興味推定のために用いる文書をユーザから取得するための期間である。また、本評価実験では学習期間の翌日をテスト日とする。テスト日とは、学習期間に取得された文書に基づいて興味度の推定を行う日である。テスト日には、学習期間に取得された文書、学習期間のユーザの番組視聴履歴、テスト期間に取得された文書に基づき、興味推定装置10及び興味推定装置10Aによりユーザの各キーワードに対する興味度が算出される。また、テスト日には、算出された興味度に基づき、推薦装置20Aにより推薦文書(すなわち、本評価実験においては放送番組)が算出される。
【0093】
ここで、本評価実験では過去の情報を用いているため、推薦装置20により推薦された放送番組と、実際にユーザが視聴した放送番組とが一致するか否かを比較することにより評価を行うことができる。本評価実験では、スコアが大きかった上位10番組が実際に視聴された割合により評価を行った。
【0094】
学習期間と、対応するテスト日とをまとめて、ウィンドウとも記載する。2016年1月1日から8日までのウィンドウをウィンドウW1と記載する。上述した方法によりウィンドウW1におけるスコアが算出されると、ウィンドウを1日ずらして、次のウィンドウにおけるスコアが算出される。具体的には、2016年1月2日から9日までのウィンドウW2、2016年1月3日から10日までのウィンドウW3、…、2016年12月31日から2017年1月7日までのウィンドウW365についてそれぞれスコアが算出される。
【0095】
図13は、第3の実施形態に係る推薦装置を用いた評価実験の結果について説明するための図である。同図を参照しながら、
図12を参照しながら説明した方法により行われた実験の結果について説明する。同図には、視聴者1から視聴者5について実験を行った結果を示す。視聴者1は、59才の女性である。視聴者2は、31才の女性である。視聴者3は、36才の男性である。視聴者4は、52才の男性である。視聴者5は、25才の男性である。
【0096】
図13には、視聴者1から視聴者5について実験を行った結果を示す。具体的には、視聴者1から視聴者5それぞれについて、チャンスレベル、第1手法による結果、第2手法による結果、及び興味度上位10単語の類似度(Jaccard係数)を示す。同図に示す値は、
図12を参照しながら説明した方法により得られた365個のウィンドウの平均値を示す。
【0097】
チャンスレベルとは、視聴者が実際に視聴した番組数を、放送番組数で割った値である。視聴者が実際に視聴した番組数は視聴者によって異なるが、放送番組数は各視聴者共通である。第1手法による結果とは、第1手法により算出された興味度に基づいた結果である。第2手法による結果とは、第2手法により算出された興味度に基づいた結果である。さらに、第1手法により算出された興味度上位10単語と第2手法により算出された興味度上位10単語の類似度をJaccard係数で示した。Jaccard係数とは、集合間の類似度であり、1に近いほど2つの集合が類似していることを示し、0に近いほど2つの集合が類似していないことを示す。
【0098】
図13に示すように、視聴者1のチャンスレベルは“0.056”であり、第1手法による結果は“0.226”であり、第2手法による結果は“0.221”であり、Jaccard係数は“0.143”である。視聴者2のチャンスレベルは“0.028”であり、第1手法による結果は“0.104”であり、第2手法による結果は“0.106”であり、Jaccard係数は“0.566”である。視聴者3のチャンスレベルは“0.029”であり、第1手法による結果は“0.141”であり、第2手法による結果は“0.114”であり、Jaccard係数は“0.366”である。視聴者4のチャンスレベルは“0.093”であり、第1手法による結果は“0.312”であり、第2手法による結果は“0.397”であり、Jaccard係数は“0.063”である。
【0099】
第1手法による結果及び第2手法による結果のいずれを見ても、チャンスレベルを大きく上回る推薦精度であることが分かる。また、5人中3人の視聴者(視聴者2、視聴者4及び視聴者5)については、第1手法より第2手法の方がより高い推薦精度が得られた。また、第1手法により得られた興味度上位10単語と第2手法により得られた興味度上位10単語の類似度は低く、それぞれ性質の異なる興味度が得られたことが分かる。
【0100】
[第3の実施形態のまとめ]
以上説明した実施形態によれば、推薦装置20は、興味ベクトル算出部21を備えることにより興味推定装置10又は興味推定装置10Aにより出力された複数のキーワードにそれぞれ応じた複数の興味度と各推薦文書のtf-idfに基づき、それぞれ興味ベクトルとtf-idfベクトルを生成し、スコア算出部22を備えることにより生成されたユーザの興味ベクトルと推薦候補文書のtf-idfベクトルに基づき類似度を示す推薦候補文書のスコアを算出し、特定部23を備えることにより算出されたスコアに基づいて類似度が高い文書を推薦文書として特定し、出力部24を備えることにより特定部23により特定された推薦文書を出力する。すなわち、推薦装置20によれば、興味推定装置10又は興味推定装置10Aにより出力されたキーワードごとの興味度に基づき、ユーザが興味を有している文書を推薦する。したがって、本実施形態によれば、推薦装置20は、ユーザの興味度に基づいた推薦を行うことができる。
【0101】
また、上述した実施形態によれば、推薦装置20Aは、第1興味ベクトル算出部21Aを備えることにより興味推定装置10により出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき第1興味ベクトルを算出し、第1tf-idfベクトル算出部25Aを備えることによりtf-idfベクトルを生成し、第1スコア算出部22Aを備えることにより算出された第1興味ベクトルとtf-idfベクトルとに基づき類似度を示す推薦候補文書の第1スコアを算出し、第2興味ベクトル算出部21Bを備えることにより興味推定装置10Aにより出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき第2興味ベクトルを算出し、第2tf-idfベクトル算出部25Bを備えることによりtf-idfベクトルを生成し、第2スコア算出部22Bを備えることにより算出された第2興味ベクトルとtf-idfベクトルとに基づき類似度を示す第2スコアを算出し、特定部23Aを備えることにより算出された第1スコア及び第2スコアに基づいて、類似度が高い文書を推薦文書として特定し、出力部24を備えることにより特定された推薦文書を出力する。すなわち、推薦装置20Aによれば、興味推定装置10により出力されたキーワードごとの興味度に基づき推薦された文書と、興味推定装置10Aにより出力されたキーワードごとの興味度に基づき推薦された文書との双方に基づいた推薦を行う。
ここで、興味推定装置10による第1手法は、ユーザが興味を持つキーワードに関連した文書が高頻度に発行される場合の推薦に向いており、番組推薦に応用される場合はユーザがニュース番組や天気予報のような毎日放送される番組に興味を持つ場合に効果を発揮する。一方、興味推定装置10Aによる第2手法は、ユーザが興味を持つキーワードに関連した文書の発行頻度が低い場合の推薦に向いており、番組推薦に応用される場合はユーザがドラマなど週に1回しか放送されない番組に興味を持つ場合に効果を発揮する。本実施形態によれば、推薦装置20Aは第1手法により推薦された文書と、第2手法により推薦された文書の双方に基づいて、精度よくユーザが興味を有している番組を推薦することができる。
【0102】
また、上述した実施形態によれば、推薦装置20Aは、第1興味ベクトル算出部21Aを備えることにより興味推定装置10により出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき第1興味ベクトルを算出し、第1tf-idfベクトル算出部25Aを備えることによりtf-idfベクトルを生成し、第1スコア算出部22Aを備えることにより算出された第1興味ベクトルとtf-idfベクトルとに基づき類似度を示す推薦候補文書の第1スコアを算出し、第1特定部23A1を備えることにより算出された第1スコアに基づいて類似度が高い文書を第1推薦文書として特定し、第2興味ベクトル算出部21Bを備えることにより興味推定装置10Aにより出力された複数のキーワードにそれぞれ応じた複数の興味度に基づき第2興味ベクトルを算出し、第2tf-idfベクトル算出部25Bを備えることによりtf-idfベクトルを生成し、第2スコア算出部22Bを備えることにより算出された第2興味ベクトルとtf-idfベクトルとに基づき類似度を示す第2スコアを算出し、第2特定部23A2を備えることにより算出された第2スコアに基づいて類似度が高い文書を第2推薦文書として特定し、出力部24を備えることにより特定された第1推薦文書と第2推薦文書とを出力する。すなわち、推薦装置20Aによれば、興味推定装置10により出力されたキーワードごとの興味度に基づき推薦された文書と、興味推定装置10Aにより出力されたキーワードごとの興味度に基づき推薦された文書との双方を出力する。
よって、本実施形態によれば、推薦装置20Aは第1手法により推薦された文書と、第2手法により推薦された文書の双方をユーザに推薦することができるため、精度よくユーザが興味を有している番組を推薦することができる。
【0103】
なお、上述した実施形態における興味推定装置10及び推薦装置20が備える各部の機能全体あるいはその一部は、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0104】
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0105】
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。また、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0106】
1 興味推定システム
10 興味推定装置
11 文書情報取得部
12 文書情報記憶部
13 結合部
14 キーワード抽出部
15 tf-idf算出部
16 統計演算部
17 興味度算出部
18 出力部
20 推薦装置
21 興味ベクトル算出部
22 スコア算出部
23 特定部
24 出力部
31 第1情報処理装置
32 第2情報処理装置
DI 文書情報
CDI 結合文書情報
KI キーワード情報
CRI 算出結果情報
SOI 統計演算情報
IL 興味度
PO 投稿情報
PR 番組情報