特許第5952711号(P5952711)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許5952711予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
<>
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000002
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000003
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000004
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000005
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000006
  • 特許5952711-予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5952711
(24)【登録日】2016年6月17日
(45)【発行日】2016年7月13日
(54)【発明の名称】予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
(51)【国際特許分類】
   G06Q 50/00 20120101AFI20160630BHJP
   G06F 17/30 20060101ALI20160630BHJP
【FI】
   G06Q50/00 300
   G06F17/30 210A
   G06F17/30 220Z
   G06F17/30 350C
【請求項の数】11
【全頁数】15
(21)【出願番号】特願2012-234600(P2012-234600)
(22)【出願日】2012年10月24日
(65)【公開番号】特開2014-85862(P2014-85862A)
(43)【公開日】2014年5月12日
【審査請求日】2015年8月4日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】池田 和史
(72)【発明者】
【氏名】服部 元
(72)【発明者】
【氏名】小野 智弘
【審査官】 山内 裕史
(56)【参考文献】
【文献】 特開2011−081491(JP,A)
【文献】 特開2010−061321(JP,A)
【文献】 特開2005−216202(JP,A)
【文献】 国際公開第2009/060722(WO,A1)
【文献】 国際公開第2010/035455(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 − 99/00
G06F 17/30
(57)【特許請求の範囲】
【請求項1】
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする予測サーバ。
【請求項2】
前記サイトサーバは、ブログサイトサーバであって、
前記予測サーバは、
前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことを特徴とする請求項1に記載の予測サーバ。
【請求項3】
当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、前記サイトサーバ自体がコンテンツ公開機能も備えており、
当該予測サーバは、
多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記サイトサーバを用いて検索する学習対象コメント検索手段と、
前記予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
を有し、
前記判定時間検索手段は、前記クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索する
ことを特徴とする請求項1又は2に記載の予測サーバ。
【請求項4】
前記学習対象コメント検索手段は、
全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する、又は、
前記クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する
ことを特徴とする請求項3に記載の予測サーバ。
【請求項5】
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する
ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
【請求項6】
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する
ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
【請求項7】
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する
ことを特徴とする請求項1から4のいずれか1項に記載の予測サーバ。
【請求項8】
複数の予測対象コンテンツについて、前記コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有する
ことを特徴とする請求項1から7のいずれか1項に記載の予測サーバ。
【請求項9】
前記判定時間検索手段は、前記学習情報記憶手段における各単位時間のコメント数の推移状態(時間的変化)と、前記予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することを特徴とする請求項1から8のいずれか1項に記載の予測サーバ。
【請求項10】
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
前記サーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。
【請求項11】
複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
前記予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
前記予測サーバは、
前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第1のステップと、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶から検索する第2のステップと、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第3のステップと
を実行することを特徴とする予測サーバのコメント数予測方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。
【背景技術】
【0002】
近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。
【0003】
一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。
【0004】
従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある(例えば非特許文献1参照)。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。
【0005】
また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある(例えば非特許文献2参照)。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率(ツイートの内容の肯定的内容/否定的内容)と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的(ポジティブ)なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的(ネガティブ)なコメントが多い映画ほど、興行収入が少なくなると予測される。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】NECビッグローブ、「ついっぷるトレンド」、[online]、[平成24年8月27日検索]、インターネット<URL:http://tr.twipple.jp/>
【非特許文献2】Sitaram Asur and Bernardo A.Huberman, HP Labs, “Predicting the Future With SocialMedia”, Proc. Of the 2010 IEEE/WIC/ACM InternationalConference on Web Intelligence and Intelligent Agent Technology (WI-IAT '10),vol. 1, pp. 492-499
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。
【0008】
非特許文献2に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。
【0009】
そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。
【0011】
本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことも好ましい。
【0012】
本発明の予測サーバにおける他の実施形態によれば、
当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、サイトサーバ自体がコンテンツ公開機能も備えており、
当該予測サーバは、
多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、サイトサーバを用いて検索する学習対象コメント検索手段と、
予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
を有し、
判定時間検索手段は、クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索することも好ましい。
【0013】
本発明の予測サーバにおける他の実施形態によれば、
学習対象コメント検索手段は、
全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索する、又は、
クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索することも好ましい。
【0014】
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出することも好ましい。
【0015】
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出することも好ましい。
【0016】
本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出することも好ましい。
【0017】
本発明の予測サーバにおける他の実施形態によれば、
複数の予測対象コンテンツについて、コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有することも好ましい。
【0018】
本発明の予測サーバにおける他の実施形態によれば、
判定時間検索手段は、学習情報記憶手段における各単位時間のコメント数の推移状態(時間的変化)と、予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。
【0019】
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。
【0020】
本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
予測サーバは、
サイトサーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第1のステップと、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶から検索する第2のステップと、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第3のステップと
実行することを特徴とする。
【発明の効果】
【0021】
本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。
【図面の簡単な説明】
【0022】
図1】本発明におけるシステム構成図である。
図2】本発明における予測サーバの機能構成図である。
図3】予測サーバの学習記憶部に記憶された情報を表す説明図である。
図4】予測サーバの判定時間判定部における処理を表す説明図である。
図5】予測サーバのランキング公開部における処理を表す説明図である。
図6】本発明における予測サーバの学習部の機能構成図である。
【発明を実施するための形態】
【0023】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0024】
図1は、本発明におけるシステム構成図である。
【0025】
図1によれば、コンテンツ公開サーバ3が、インターネットに接続されている。コンテンツ公開サーバ3は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Webページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。
【0026】
また、図1によれば、ブログサイトサーバ2が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ2は、例えばtwitter(登録商標)サイトであってもよい。
【0027】
尚、以下では、ブログサイトサーバ2とコンテンツ公開サーバ3とが別々にインターネットに設置されているものとして説明する(図1参照)が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube(登録商標)のようなサイトサーバがある。
【0028】
端末4は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ3及びブログサイトサーバ2にアクセスすることができる。不特定多数のユーザは、端末4を用いて、コンテンツ公開サーバ3によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ2へコメント文章を投稿し、他人のコメント文章も閲覧することができる。
【0029】
本発明によれば、予測サーバ1が、インターネットに更に接続されており、コンテンツ公開サーバ3及びブログサイトサーバ2と通信することができる。本発明における予測サーバ1は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末4から予測サーバ1へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。
【0030】
図2は、本発明における予測サーバの機能構成図である。
【0031】
図2によれば、予測サーバ1は、通信インタフェース部10と、予測対象キーワード抽出部11と、予測対象コメント検索部12と、学習情報記憶部13と、判定時間検索部14と、コメント数予測部15と、ランキング公開部16と、学習部17とを有する。通信インタフェース部10以外のこれら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
【0032】
[予測対象キーワード抽出部11]
予測対象キーワード抽出部11は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Webページであってもよいし、URL(Uniform Resource Locator)のみであってもよい。URLのみである場合、予測対象キーワード抽出部11は、そのURLに基づくWebページを、コンテンツ公開サーバ3から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。
【0033】
次に、予測対象キーワード抽出部11は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
【0034】
次に、予測対象キーワード抽出部11は、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的な単語を、キーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
【0035】
例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「[日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子]ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、<7月23日(月)11時30分配信>」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのURLそのものを、キーワードとして抽出するものであってもよい。
【0036】
[予測対象コメント検索部12]
予測対象コメント検索部12は、抽出されたキーワード群をキーとして、ブログサイトサーバ2から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
>投稿者ID: xxxyyy
>属性:30代、男性、会社員、スポーツ
>フォロワー数:200人
>内容:ようやった!日本、42年ぶり優勝=米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
>投稿時刻:7月23日(月)12時30分
【0037】
予測対象コメント検索部12は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態(グラフ化された履歴情報)は、判定時間検索部14へ出力される。
【0038】
尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部11は必須の構成要素とはならない。また、予測対象コメント検索部12は、抽出されたキーワード群をキーとしてブログサイトサーバ2から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。
【0039】
[学習情報記憶部13]
学習情報記憶部13は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶する。
【0040】
図3は、予測サーバの学習記憶部に記憶された情報を表す説明図である。
【0041】
図3によれば、コンテンツ毎に、横軸の時間経過に応じた、縦軸のコメント数のグラフが記憶されている。図3によれば、3つのコンテンツA,B,Cについてグラフが表されている。例えば、図3のコンテンツAによれば、野球の日本の優勝の記事における推移状態が表されている。これによって、コンテンツ毎に、単位時間(例えば4時間)毎のコメント数が記憶されている。
【0042】
[判定時間検索部14]
判定時間検索部14は、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態となるコンテンツを、学習情報記憶部13から検索する。
【0043】
図4は、予測サーバの判定時間判定部における処理を表す説明図である。
【0044】
図4(a)によれば、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態が表されている。例えば現在時刻9:00に、予測対象コンテンツに対する将来的なコメント数を予測したいとする。現在時刻から遡った一定時間(例えば24時間や8時間など)における推移状態を、判定時間範囲とする。図4(a)によれば、現在時刻9:00から遡って8時間を判定時間範囲としている。
【0045】
図4(b)によれば、学習情報記憶部13に蓄積されたコンテンツ毎の推移状態の中で、予測対象コンテンツの判定時間範囲に類似する推移状態とっているコンテンツを検索する。図4(b)によれば、コンテンツAの前半部分の8時間分の推移状態が、予測対象コンテンツの推移状態に類似している。
【0046】
判定時間検索部14は、学習情報記憶部13における各単位時間のコメント数の推移状態(時間的変化)と、予測対象コンテンツにおける判定時間範囲のコメント数の(時間的変化)推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。回帰モデルとしては、代表的に最小2乗法がある。最小二乗法とは、測定で得られた数値の組を、適当なモデルから想定される特定の関数(1次関数、対数曲線など)を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とする係数を決定することをいう。即ち、本発明によれば、予測対象コンテンツの推移状態に対して相関が強い推移状態のコンテンツを、学習情報記憶部13から検索する。
【0047】
このような推移状態(コメント数の時間的変化)の比較は、回帰モデルに限られず、ポアソン分布を用いることもできる。回帰モデルとしては、前述した最小二乗法に限られず、SVR(Support Vector Regression)を用いることもできる。また、感染症の流行モデル(SIRモデル)を用いることもできる。
【0048】
[コメント数予測部15]
コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数を、当該予測対象コンテンツにおける将来的なコメント数として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向(推移状態)と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。
【0049】
図4(c)によれば、コンテンツAの判定時間範囲以後の予測時間範囲の推移状態が、予測対象コンテンツの予測時間範囲の推移状態となるであろうと予測されている。
【0050】
[ランキング公開部16]
ランキング公開部16は、複数の予測対象コンテンツについて、コメント数予測部15によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。
【0051】
図5は、予測サーバのランキング公開部における処理を表す説明図である。
【0052】
図5によれば、現在時刻から見て、将来的にコメント数が増加するであろう1位から5位までのランキング形式で、コンテンツが表されている。例えば1位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第4位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。
【0053】
[学習部17]
学習部17は、ブログサイトサーバ2及びコンテンツ公開サーバ3と通信することによって、学習情報記憶部13へ記憶させるべき学習情報を生成する。
【0054】
図6は、本発明における予測サーバの学習部の機能構成図である。
【0055】
図6によれば、学習部17は、コンテンツクラスタリング部171と、学習対象コメント検索部172と、クラスタ検索部173とを有する。
【0056】
コンテンツクラスタリング部141は、多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングする。クラスタリングには、例えばk-meansのような方法が用いられ、互いに類似するコンテンツ同士が同一のクラスとなる。これによって、学習情報記憶部13は、複数のコンテンツを含むクラスタとして記憶する。
【0057】
また、クラスタリングには、文章間の類似度を導出するコサイン類似度を用いて、所定閾値以上類似する1つのコンテンツ群を導出するものであってもよい。コサイン類似度とは、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度を算出する方法である。コサイン類似度は、そのまま、ベクトル同士の成す角度の近さを表現するため、三角関数のコサインのように、1に近ければ類似しており、0に近ければ非類似と判定することできる。一般には、TF−IDFの値が用いられる。
【0058】
クラスタ検索部142は、予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索する。
【0059】
学習対象コメント検索部143は、各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。ここで、学習対象コメント検索部143は、以下のいずれか一方の方法で、コンテンツ毎のコメント数を収集することができる。
(1)全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。これは、学習情報記憶部13に、多数のコンテンツの学習情報を静的に記憶しておく。
(2)クラスタ検索部142によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ2を用いて検索する。これは、クラスタ検索部142の結果に基づいて学習対象コメント検索部143が動的に動作する。
【0060】
そして、判定時間検索部14は、クラスタ検索部142によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、判定時間範囲のコメント数の推移状態となるコンテンツを検索する。これによって、予測対象コンテンツの内容に比較的類似したコンテンツ群の中から、推移状態が類似するコンテンツを検索することができる。
【0061】
また、図6によれば、予測サーバ1は、学習部17と共に、ポジネガ判定部18と、プロフィール情報抽出部19とを更に有する。
【0062】
ポジネガ判定部144は、各コメントのテキストから、その内容が肯定的か又は否定的かを判定する。
【0063】
この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:ポジ比率RAP+ネガ比率RAN
コンテンツBに対する判定時間範囲のコメント:ポジ比率RBP+ネガ比率RBN
コンテンツCに対する判定時間範囲のコメント:ポジ比率RCP+ネガ比率RCN
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
肯定的なコメント数=ポジ比率RAP×予測時間範囲のコメント数
否定的なコメント数=ネガ比率RAN×予測時間範囲のコメント数
【0064】
プロフィール情報抽出部145は、各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出する。
【0065】
この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:男性比率RAM+女性比率RAF
コンテンツBに対する判定時間範囲のコメント:男性比率RBM+女性比率RBF
コンテンツCに対する判定時間範囲のコメント:男性比率RCM+女性比率RCF
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
男性のコメント数=男性比率RAM×予測時間範囲のコメント数
女性のコメント数=女性比率RAF×予測時間範囲のコメント数
【0066】
また、ポジネガ判定部18及びプロフィール情報抽出部19の両方を用いることも好ましい。この場合、学習情報記憶部13は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶する。
コンテンツAに対する判定時間範囲のコメント:ポジ比率RAP+ネガ比率RAN
:男性比率RAM+女性比率RAF
コンテンツBに対する判定時間範囲のコメント:ポジ比率RBP+ネガ比率RBN
:男性比率RBM+女性比率RBF
コンテンツCに対する判定時間範囲のコメント:ポジ比率RCP+ネガ比率RCN
:男性比率RCM+女性比率RCF
また、コメント数予測部15は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する。
コンテンツAの将来的な予測時間範囲のコメントについて
肯定的な男性のコメント数=
ポジ比率RAP×男性比率RAM×予測時間範囲のコメント数
否定的な女性のコメント数=
ネガ比率RAF×女性比率RAF×予測時間範囲のコメント数
・・・・・・
【0067】
以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。
【0068】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0069】
1 予測サーバ
10 通信インタフェース部
11 予測対象キーワード抽出部
12 予測対象コメント検索部
13 学習情報記憶部
14 判定時間検索部
15 コメント数予測部
16 ランキング公開部
17 学習部
171 コンテンツクラスタリング部
172 クラスタ検索部
173 学習対象コメント検索部
18 ポジネガ判定部
19 プロフィール情報抽出部
2 ブログサイトサーバ
3 コンテンツ公開サーバ
4 端末
図1
図2
図3
図4
図5
図6