特許5952711 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＫＤＤＩ株式会社の特許一覧

特許5952711予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5952711

(24)【登録日】2016年6月17日

(45)【発行日】2016年7月13日

(54)【発明の名称】予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法

(51)【国際特許分類】

G06Q 50/00 20120101AFI20160630BHJP

G06F 17/30 20060101ALI20160630BHJP

【ＦＩ】

G06Q50/00 300

G06F17/30 210A

G06F17/30 220Z

G06F17/30 350C

【請求項の数】11

【全頁数】15

(21)【出願番号】特願2012-234600(P2012-234600)

(22)【出願日】2012年10月24日

(65)【公開番号】特開2014-85862(P2014-85862A)

(43)【公開日】2014年5月12日

【審査請求日】2015年8月4日

(73)【特許権者】

【識別番号】000208891

【氏名又は名称】ＫＤＤＩ株式会社

(74)【代理人】

【識別番号】100135068

【弁理士】

【氏名又は名称】早原茂樹

(72)【発明者】

【氏名】池田和史

(72)【発明者】

【氏名】服部元

(72)【発明者】

【氏名】小野智弘

【審査官】山内裕史

(56)【参考文献】

【文献】特開２０１１−０８１４９１（ＪＰ，Ａ）

【文献】特開２０１０−０６１３２１（ＪＰ，Ａ）

【文献】特開２００５−２１６２０２（ＪＰ，Ａ）

【文献】国際公開第２００９／０６０７２２（ＷＯ，Ａ１）

【文献】国際公開第２０１０／０３５４５５（ＷＯ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｑ１０／００ − ９９／００

Ｇ０６Ｆ１７／３０

(57)【特許請求の範囲】

【請求項1】

複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする予測サーバ。

【請求項2】

前記サイトサーバは、ブログサイトサーバであって、
前記予測サーバは、
前記予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
前記予測対象コメント検索手段は、前記予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、前記ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことを特徴とする請求項１に記載の予測サーバ。

【請求項3】

当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、前記サイトサーバ自体がコンテンツ公開機能も備えており、
当該予測サーバは、
多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記サイトサーバを用いて検索する学習対象コメント検索手段と、
前記予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
を有し、
前記判定時間検索手段は、前記クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索する
ことを特徴とする請求項１又は２に記載の予測サーバ。

【請求項4】

前記学習対象コメント検索手段は、
全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する、又は、
前記クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、前記ブログサイトサーバを用いて検索する
ことを特徴とする請求項３に記載の予測サーバ。

【請求項5】

各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する
ことを特徴とする請求項１から４のいずれか１項に記載の予測サーバ。

【請求項6】

各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する
ことを特徴とする請求項１から４のいずれか１項に記載の予測サーバ。

【請求項7】

各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
を更に有し、
前記学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
前記コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、前記ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する
ことを特徴とする請求項１から４のいずれか１項に記載の予測サーバ。

【請求項8】

複数の予測対象コンテンツについて、前記コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有する
ことを特徴とする請求項１から７のいずれか１項に記載の予測サーバ。

【請求項9】

前記判定時間検索手段は、前記学習情報記憶手段における各単位時間のコメント数の推移状態（時間的変化）と、前記予測対象コンテンツにおける判定時間範囲のコメント数の（時間的変化）推移状態とを、回帰モデルを用いて類似度を導出することを特徴とする請求項１から８のいずれか１項に記載の予測サーバ。

【請求項10】

複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
前記サーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とするサーバ用の予測プログラム。

【請求項11】

複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
前記予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
前記予測サーバは、
前記サイトサーバから取得された、前記予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第１のステップと、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、前記学習情報記憶部から検索する第２のステップと、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第３のステップと
を実行することを特徴とする予測サーバのコメント数予測方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、予測対象となるコンテンツに対する、不特定多数のユーザの興味の傾向を分析する技術に関する。

【背景技術】

【0002】

近年、インターネットを介して、不特定多数の第三者に対して、様々なコンテンツが公開されている。公開コンテンツは、例えば、ニュース記事や、Ｗｅｂページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツのような各種のメディアコンテンツであって、不特定多数の第三者からアクセス可能なコンテンツをいう。

【0003】

一方で、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)（例えばtwitter（登録商標））のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。このようなコメント文章は、共通の話題に対して議論されている場合も多い。このような共通の話題としては、前述したような不特定多数の第三者に対して配信される公開コンテンツがある。

【0004】

従来、このような公開コンテンツに関連するコメント文章を検索し、そのコメント数に応じて、コンテンツのランキング形式を公開する技術がある（例えば非特許文献１参照）。この技術によれば、多数投稿されているコメントの中からキーワードを抽出し、twitterで盛り上がっている話題やトレンドをリアルタイムに分析し、そのランキングををユーザに明示する。

【0005】

また、具体的なサービス技術として、例えば映画の関するtwitter上のコメント数や内容に基づいて、当該映画の興行収入を予測する技術もある（例えば非特許文献２参照）。具体的に予測に用いる情報として、映画の公開前のツイート数及びポジネガ比率（ツイートの内容の肯定的内容／否定的内容）と、公開後のツイート数及びポジネガ比率とを用いる。ツイート数が多く且つ肯定的（ポジティブ）なコメントが多い映画ほど、興行収入が多くなると予測される。一方で、ツイート数が少なく且つ否定的（ネガティブ）なコメントが多い映画ほど、興行収入が少なくなると予測される。

【先行技術文献】

【非特許文献】

【0006】

【非特許文献1】ＮＥＣビッグローブ、「ついっぷるトレンド」、[online]、［平成２４年８月２７日検索］、インターネット＜URL:http://tr.twipple.jp/＞

【非特許文献2】Sitaram Asur and Bernardo A.Huberman, HP Labs, “Predicting the Future With SocialMedia”, Proc. Of the 2010 IEEE/WIC/ACM InternationalConference on Web Intelligence and Intelligent Agent Technology (WI-IAT '10),vol. 1, pp. 492-499

【発明の概要】

【発明が解決しようとする課題】

【0007】

非特許文献１に記載された技術によれば、現在時刻で、不特定多数のユーザが興味を持っているコンテンツを特定することができる。しかしながら、将来的に、不特定多数のユーザが興味を持つであろうコンテンツまで特定することはできない。

【0008】

非特許文献２に記載された技術によれば、映画のように比較的限定された予測対象コンテンツを対象としているために、将来的に、不特定多数のユーザがどの程度興味を持つかは比較的高精度に予測することができる。しかしながら、この技術を用いても、例えばニュース記事のように、発信される数が多く且つその内容も多様となるコンテンツを予測対象とした場合、予測精度が十分に得られにくい。その理由としては、コンテンツの多様な内容に対する、コメントの内容の傾向に相違にあることに基づく。また、特に時事的なニュース記事に対するコメントは量的に多くなり、特定の予測対象コンテンツに対する将来的なコメント数の傾向まで検出することは難しい。

【0009】

そこで、本発明は、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる予測サーバ、プログラム及び方法を提供することを目的とする。

【課題を解決するための手段】

【0010】

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
を有することを特徴とする。

【0011】

本発明の予測サーバにおける他の実施形態によれば、
サイトサーバは、ブログサイトサーバであって、
予測サーバは、
予測対象コンテンツに含まれるキーワード群を抽出する予測対象キーワード抽出手段を更に有し、
予測対象コメント検索手段は、予測対象キーワード抽出手段によって抽出されたキーワード群をキーとして、ブログサイトサーバから複数のコメントを検索し、時間経過に応じた各単位時間のコメント数を計数する
ことも好ましい。

【0012】

本発明の予測サーバにおける他の実施形態によれば、
当該予測サーバが、不特定多数の第三者に対してコンテンツを公開するコンテンツ公開サーバと更に通信可能であるか、又は、サイトサーバ自体がコンテンツ公開機能も備えており、
当該予測サーバは、
多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングするコンテンツクラスタリング手段と、
各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、サイトサーバを用いて検索する学習対象コメント検索手段と、
予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索するクラスタ検索手段と
を有し、
判定時間検索手段は、クラスタ検索手段によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを検索することも好ましい。

【0013】

本発明の予測サーバにおける他の実施形態によれば、
学習対象コメント検索手段は、
全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索する、又は、
クラスタ検索手段によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバを用いて検索することも好ましい。

【0014】

本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出することも好ましい。

【0015】

本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出することも好ましい。

【0016】

本発明の予測サーバにおける他の実施形態によれば、
各コメントのテキストから、その内容が肯定的か又は否定的かを判定するポジネガ判定手段と、
各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出するプロフィール情報抽出手段と
を更に有し、
学習情報記憶手段は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶し、
コメント数予測手段は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出することも好ましい。

【0017】

本発明の予測サーバにおける他の実施形態によれば、
複数の予測対象コンテンツについて、コメント数予測手段によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開するランキング公開手段を更に有することも好ましい。

【0018】

本発明の予測サーバにおける他の実施形態によれば、
判定時間検索手段は、学習情報記憶手段における各単位時間のコメント数の推移状態（時間的変化）と、予測対象コンテンツにおける判定時間範囲のコメント数の（時間的変化）推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。

【0019】

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測するサーバに搭載されたコンピュータを機能させる予測プログラムであって、
コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶手段と、
サーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する予測対象コメント検索手段と、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶手段から検索する判定時間検索手段と、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出するコメント数予測手段と
してコンピュータを機能させることを特徴とする。

【0020】

本発明によれば、複数の投稿者間でテキストのコメントを発信し合うサイトサーバと通信可能であり、予測対象コンテンツにおける将来的なコメント数を予測する予測サーバのコメント数予測方法であって、
予測サーバは、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶した学習情報記憶部を有し、
予測サーバは、
サイトサーバから取得された、予測対象コンテンツに対応するコメントについて、時間経過に応じた各単位時間のコメント数を計数する第１のステップと、
計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態のコンテンツを、学習情報記憶部から検索する第２のステップと、
検索されたコンテンツに対応する判定時間後のコメント数の推移状態を、当該予測対象コンテンツにおける将来的なコメント数の推移状態として導出する第３のステップと
を実行することを特徴とする。

【発明の効果】

【0021】

本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。

【図面の簡単な説明】

【0022】

【図1】本発明におけるシステム構成図である。

【図2】本発明における予測サーバの機能構成図である。

【図3】予測サーバの学習記憶部に記憶された情報を表す説明図である。

【図4】予測サーバの判定時間判定部における処理を表す説明図である。

【図5】予測サーバのランキング公開部における処理を表す説明図である。

【図6】本発明における予測サーバの学習部の機能構成図である。

【発明を実施するための形態】

【0023】

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

【0024】

図１は、本発明におけるシステム構成図である。

【0025】

図１によれば、コンテンツ公開サーバ３が、インターネットに接続されている。コンテンツ公開サーバ３は、不特定多数の第三者に向けて公開コンテンツを配信する。公開コンテンツは、様々なメディアコンテンツであって、例えばニュース記事、Ｗｅｂページ、音楽コンテンツ、電子書籍、テレビ放送コンテンツであってもよい。

【0026】

また、図１によれば、ブログサイトサーバ２が、インターネットに更に接続されており、複数の投稿者間でテキストのコメントを発信し合うことができる。ブログサイトサーバ２は、例えばtwitter（登録商標）サイトであってもよい。

【0027】

尚、以下では、ブログサイトサーバ２とコンテンツ公開サーバ３とが別々にインターネットに設置されているものとして説明する（図１参照）が、これら機能が一体となったサイトサーバであってもよい。このようなサイトサーバの場合、コンテンツ毎にコメントが対応付けて公開されている。例えばYouTube（登録商標）のようなサイトサーバがある。

【0028】

端末４は、パーソナルコンピュータ、携帯端末、スマートフォン、テレビ等であって、コンテンツ公開サーバ３及びブログサイトサーバ２にアクセスすることができる。不特定多数のユーザは、端末４を用いて、コンテンツ公開サーバ３によって公開されるコンテンツを閲覧しながら、ブログサイトサーバ２へコメント文章を投稿し、他人のコメント文章も閲覧することができる。

【0029】

本発明によれば、予測サーバ１が、インターネットに更に接続されており、コンテンツ公開サーバ３及びブログサイトサーバ２と通信することができる。本発明における予測サーバ１は、予測対象コンテンツにおける将来的なコメント数を予測することができる。これによって、ユーザは、端末４から予測サーバ１へアクセスすることによって、将来的に注目されるであろうコンテンツを知ることができる。

【0030】

図２は、本発明における予測サーバの機能構成図である。

【0031】

図２によれば、予測サーバ１は、通信インタフェース部１０と、予測対象キーワード抽出部１１と、予測対象コメント検索部１２と、学習情報記憶部１３と、判定時間検索部１４と、コメント数予測部１５と、ランキング公開部１６と、学習部１７とを有する。通信インタフェース部１０以外のこれら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。

【0032】

［予測対象キーワード抽出部１１］
予測対象キーワード抽出部１１は、キーとなる予測対象コンテンツを入力し、当該予測対象コンテンツに含まれるキーワード群を抽出する。予測対象コンテンツは、Ｗｅｂページであってもよいし、ＵＲＬ(Uniform Resource Locator)のみであってもよい。ＵＲＬのみである場合、予測対象キーワード抽出部１１は、そのＵＲＬに基づくＷｅｂページを、コンテンツ公開サーバ３から取得する。これらコンテンツには、少なくともテキストが含まれていることを前提とする。

【0033】

次に、予測対象キーワード抽出部１１は、コンテンツに含まれるテキストから形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。

【0034】

次に、予測対象キーワード抽出部１１は、ＴＦ−ＩＤＦ（Term Frequency - Inverse Document Frequency：単語の出現頻度−逆出現頻度）によって特徴的な単語を、キーワードとして抽出する。ＴＦ−ＩＤＦとは、各単語に重みを付けて、クエリから文章をベクトル空間で表し、文章とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。

【0035】

例えば、予測対象コンテンツとして、以下のようなニュース記事があったとする。
「［日本、42年ぶり優勝＝米国の8連覇を阻む―ソフトボール女子］ソフトボールの女子世界選手権最終日は22日、カナダ・ホワイトホースで行われ、日本は決勝で8連覇を目指した米国を延長十回、2―1で破り、＜7月23日(月)11時30分配信＞」
このニュース記事から、例えば以下のようなキーワード群が抽出される。
「優勝」「連覇」「ソフトボール」
勿論、予測対象コンテンツのＵＲＬそのものを、キーワードとして抽出するものであってもよい。

【0036】

［予測対象コメント検索部１２］
予測対象コメント検索部１２は、抽出されたキーワード群をキーとして、ブログサイトサーバ２から複数のコメントを検索する。前述のキーワード群をキーとして、例えば以下のようなコメントが検索される。
＞投稿者ID: xxxyyy
＞属性:30代、男性、会社員、スポーツ
＞フォロワー数:200人
＞内容：ようやった！日本、42年ぶり優勝＝米国の8連覇を阻む―ソフトボール女子
http://www.news.jp/xxx
＞投稿時刻：7月23日(月)12時30分

【0037】

予測対象コメント検索部１２は、予測対象コンテンツに関連する多数のコメントを検索する。そして、当該予測対象コンテンツについて、時間経過に応じた各単位時間のコメント数を計数する。経過時間に応じたコメント数の推移状態（グラフ化された履歴情報）は、判定時間検索部１４へ出力される。

【0038】

尚、当該予測サーバが、ブログサイトサーバの機能とコンテンツ公開サーバの機能とが一体となったサイトサーバと通信可能である場合、予測対象キーワード抽出部１１は必須の構成要素とはならない。また、予測対象コメント検索部１２は、抽出されたキーワード群をキーとしてブログサイトサーバ２から複数のコメントを検索する必要もない。一体化されたサイトサーバが既に、コンテンツ毎に対応付けてコメント群を発信しているためである。

【0039】

［学習情報記憶部１３］
学習情報記憶部１３は、コンテンツ毎に、時間経過に応じた各単位時間のコメント数の推移状態を、学習情報として予め記憶する。

【0040】

図３は、予測サーバの学習記憶部に記憶された情報を表す説明図である。

【0041】

図３によれば、コンテンツ毎に、横軸の時間経過に応じた、縦軸のコメント数のグラフが記憶されている。図３によれば、３つのコンテンツＡ，Ｂ，Ｃについてグラフが表されている。例えば、図３のコンテンツＡによれば、野球の日本の優勝の記事における推移状態が表されている。これによって、コンテンツ毎に、単位時間（例えば４時間）毎のコメント数が記憶されている。

【0042】

［判定時間検索部１４］
判定時間検索部１４は、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態に類似する、コメント数の推移状態となるコンテンツを、学習情報記憶部１３から検索する。

【0043】

図４は、予測サーバの判定時間判定部における処理を表す説明図である。

【0044】

図４（ａ）によれば、予測対象コンテンツについて計数された各単位時間のコメント数の推移状態が表されている。例えば現在時刻９：００に、予測対象コンテンツに対する将来的なコメント数を予測したいとする。現在時刻から遡った一定時間（例えば２４時間や８時間など）における推移状態を、判定時間範囲とする。図４（ａ）によれば、現在時刻９：００から遡って８時間を判定時間範囲としている。

【0045】

図４（ｂ）によれば、学習情報記憶部１３に蓄積されたコンテンツ毎の推移状態の中で、予測対象コンテンツの判定時間範囲に類似する推移状態とっているコンテンツを検索する。図４（ｂ）によれば、コンテンツＡの前半部分の８時間分の推移状態が、予測対象コンテンツの推移状態に類似している。

【0046】

判定時間検索部１４は、学習情報記憶部１３における各単位時間のコメント数の推移状態（時間的変化）と、予測対象コンテンツにおける判定時間範囲のコメント数の（時間的変化）推移状態とを、回帰モデルを用いて類似度を導出することも好ましい。回帰モデルとしては、代表的に最小２乗法がある。最小二乗法とは、測定で得られた数値の組を、適当なモデルから想定される特定の関数（１次関数、対数曲線など）を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とする係数を決定することをいう。即ち、本発明によれば、予測対象コンテンツの推移状態に対して相関が強い推移状態のコンテンツを、学習情報記憶部１３から検索する。

【0047】

このような推移状態（コメント数の時間的変化）の比較は、回帰モデルに限られず、ポアソン分布を用いることもできる。回帰モデルとしては、前述した最小二乗法に限られず、ＳＶＲ(Support Vector Regression)を用いることもできる。また、感染症の流行モデル（ＳＩＲモデル）を用いることもできる。

【0048】

［コメント数予測部１５］
コメント数予測部１５は、検索されたコンテンツに対応する予測時間範囲のコメント数を、当該予測対象コンテンツにおける将来的なコメント数として導出する。このように、予測対象コンテンツの過去から現在までのコメント数の傾向（推移状態）と、過去に収集された他の多数のコンテンツの推移状態と比較することによって、今後のコメント数の増減の傾向を予測することができる。

【0049】

図４（ｃ）によれば、コンテンツＡの判定時間範囲以後の予測時間範囲の推移状態が、予測対象コンテンツの予測時間範囲の推移状態となるであろうと予測されている。

【0050】

［ランキング公開部１６］
ランキング公開部１６は、複数の予測対象コンテンツについて、コメント数予測部１５によって導出された将来的なコメント数が多いコンテンツから順にソートしたランキング情報を、ページ情報としてクライアントへ公開する。この場合、複数の予測対象コンテンツは、ユーザによって選択されたものであってもよいし、予測サーバの運営事業者によった予め選択されたものであってもよい。例えば、ユーザは、現在それほど注目されていないけれども、その後、コメント数が急増するようなコンテンツを知ることができる。

【0051】

図５は、予測サーバのランキング公開部における処理を表す説明図である。

【0052】

図５によれば、現在時刻から見て、将来的にコメント数が増加するであろう１位から５位までのランキング形式で、コンテンツが表されている。例えば１位のコンテンツについては、現在時刻であってもコメント数が多いが、今後更に増加することが予想される。また、例えば第４位のコンテンツについては、現在時刻ではコメント数はそれほど多くは無いが、今後急増することが予想される。このように、ユーザは、ランキング形式のページを閲覧することによって、将来的にコメント数が増加するであろうコンテンツを知ることができる。即ち、ユーザは、ネット上でまだ大きな話題になっていないコンテンツを、先行して知ることができる。

【0053】

［学習部１７］
学習部１７は、ブログサイトサーバ２及びコンテンツ公開サーバ３と通信することによって、学習情報記憶部１３へ記憶させるべき学習情報を生成する。

【0054】

図６は、本発明における予測サーバの学習部の機能構成図である。

【0055】

図６によれば、学習部１７は、コンテンツクラスタリング部１７１と、学習対象コメント検索部１７２と、クラスタ検索部１７３とを有する。

【0056】

コンテンツクラスタリング部１４１は、多数のコンテンツを、各コンテンツに含まれるキーワード群の類似度に基づいてクラスタリングする。クラスタリングには、例えばk-meansのような方法が用いられ、互いに類似するコンテンツ同士が同一のクラスとなる。これによって、学習情報記憶部１３は、複数のコンテンツを含むクラスタとして記憶する。

【0057】

また、クラスタリングには、文章間の類似度を導出するコサイン類似度を用いて、所定閾値以上類似する１つのコンテンツ群を導出するものであってもよい。コサイン類似度とは、ベクトル空間モデルにおいて、文書同士を比較する際に用いられる類似度を算出する方法である。コサイン類似度は、そのまま、ベクトル同士の成す角度の近さを表現するため、三角関数のコサインのように、１に近ければ類似しており、０に近ければ非類似と判定することできる。一般には、ＴＦ−ＩＤＦの値が用いられる。

【0058】

クラスタ検索部１４２は、予測対象コンテンツから抽出されたキーワード群に類似するキーワード群を含むクラスタを検索する。

【0059】

学習対象コメント検索部１４３は、各クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ２を用いて検索する。ここで、学習対象コメント検索部１４３は、以下のいずれか一方の方法で、コンテンツ毎のコメント数を収集することができる。
（１）全てのクラスタに含まれるコンテンツ毎に、予め、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ２を用いて検索する。これは、学習情報記憶部１３に、多数のコンテンツの学習情報を静的に記憶しておく。
（２）クラスタ検索部１４２によって検索された当該クラスタに含まれるコンテンツ毎に、時間経過に応じた各単位時間のコメント数を、ブログサイトサーバ２を用いて検索する。これは、クラスタ検索部１４２の結果に基づいて学習対象コメント検索部１４３が動的に動作する。

【0060】

そして、判定時間検索部１４は、クラスタ検索部１４２によって検索されたクラスタに含まれるコンテンツの中から、各単位時間のコメント数の推移状態に類似する、判定時間範囲のコメント数の推移状態となるコンテンツを検索する。これによって、予測対象コンテンツの内容に比較的類似したコンテンツ群の中から、推移状態が類似するコンテンツを検索することができる。

【0061】

また、図６によれば、予測サーバ１は、学習部１７と共に、ポジネガ判定部１８と、プロフィール情報抽出部１９とを更に有する。

【0062】

ポジネガ判定部１４４は、各コメントのテキストから、その内容が肯定的か又は否定的かを判定する。

【0063】

この場合、学習情報記憶部１３は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける肯定的又は否定的なポジネガ比率も記憶する。
コンテンツＡに対する判定時間範囲のコメント：ポジ比率Ｒ_ＡＰ＋ネガ比率Ｒ_ＡＮ
コンテンツＢに対する判定時間範囲のコメント：ポジ比率Ｒ_ＢＰ＋ネガ比率Ｒ_ＢＮ
コンテンツＣに対する判定時間範囲のコメント：ポジ比率Ｒ_ＣＰ＋ネガ比率Ｒ_ＣＮ
また、コメント数予測部１５は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ比率を乗算することによって、当該予測対象コンテンツにおける将来的に肯定的コメント数又は否定的コメント数を導出する。
コンテンツＡの将来的な予測時間範囲のコメントについて
肯定的なコメント数＝ポジ比率Ｒ_ＡＰ×予測時間範囲のコメント数
否定的なコメント数＝ネガ比率Ｒ_ＡＮ×予測時間範囲のコメント数

【0064】

プロフィール情報抽出部１４５は、各コメントのテキストから、当該コメントを投稿したユーザのプロフィールに関する属性情報を抽出する。

【0065】

この場合、学習情報記憶部１３は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける属性種別に応じた属性比率も記憶する。
コンテンツＡに対する判定時間範囲のコメント：男性比率Ｒ_ＡＭ＋女性比率Ｒ_ＡＦ
コンテンツＢに対する判定時間範囲のコメント：男性比率Ｒ_ＢＭ＋女性比率Ｒ_ＢＦ
コンテンツＣに対する判定時間範囲のコメント：男性比率Ｒ_ＣＭ＋女性比率Ｒ_ＣＦ
また、コメント数予測部１５は、検索されたコンテンツに対応する予測時間範囲のコメント数に、属性比率を乗算することによって、当該予測対象コンテンツにおける将来的な属性種別毎のコメント数を導出する。
コンテンツＡの将来的な予測時間範囲のコメントについて
男性のコメント数＝男性比率Ｒ_ＡＭ×予測時間範囲のコメント数
女性のコメント数＝女性比率Ｒ_ＡＦ×予測時間範囲のコメント数

【0066】

また、ポジネガ判定部１８及びプロフィール情報抽出部１９の両方を用いることも好ましい。この場合、学習情報記憶部１３は、判定時間範囲における時間経過に応じた各単位時間のコメント数と共に、全てのコメントにおける「肯定的又は否定的」及び「属性種別」の組み合わせに応じたポジネガ属性比率も記憶する。
コンテンツＡに対する判定時間範囲のコメント：ポジ比率Ｒ_ＡＰ＋ネガ比率Ｒ_ＡＮ
：男性比率Ｒ_ＡＭ＋女性比率Ｒ_ＡＦ
コンテンツＢに対する判定時間範囲のコメント：ポジ比率Ｒ_ＢＰ＋ネガ比率Ｒ_ＢＮ
：男性比率Ｒ_ＢＭ＋女性比率Ｒ_ＢＦ
コンテンツＣに対する判定時間範囲のコメント：ポジ比率Ｒ_ＣＰ＋ネガ比率Ｒ_ＣＮ
：男性比率Ｒ_ＣＭ＋女性比率Ｒ_ＣＦ
また、コメント数予測部１５は、検索されたコンテンツに対応する予測時間範囲のコメント数に、ポジネガ属性比率を乗算することによって、当該予測対象コンテンツにおける将来的なポジネガ属性種別毎のコメント数を導出する。
コンテンツＡの将来的な予測時間範囲のコメントについて
肯定的な男性のコメント数＝
ポジ比率Ｒ_ＡＰ×男性比率Ｒ_ＡＭ×予測時間範囲のコメント数
否定的な女性のコメント数＝
ネガ比率Ｒ_ＡＦ×女性比率Ｒ_ＡＦ×予測時間範囲のコメント数
・・・・・・

【0067】

以上、詳細に説明したように、本発明の予測サーバ、プログラム及び方法によれば、一般的なニュース記事のような予測対象コンテンツであっても、将来的なコメント数を予測することによって、不特定多数のユーザにおける将来的な興味の傾向を分析することができる。

【0068】

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

【符号の説明】

【0069】

１予測サーバ
１０通信インタフェース部
１１予測対象キーワード抽出部
１２予測対象コメント検索部
１３学習情報記憶部
１４判定時間検索部
１５コメント数予測部
１６ランキング公開部
１７学習部
１７１コンテンツクラスタリング部
１７２クラスタ検索部
１７３学習対象コメント検索部
１８ポジネガ判定部
１９プロフィール情報抽出部
２ブログサイトサーバ
３コンテンツ公開サーバ
４端末

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

特許第5952711号(P5952711)IP Force 特許公報掲載プロジェクト 2022.1.31 β版