(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024166719
(43)【公開日】2024-11-29
(54)【発明の名称】情報処理装置、情報処理方法および情報処理プログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20241122BHJP
H04N 21/80 20110101ALI20241122BHJP
H04N 21/23 20110101ALI20241122BHJP
【FI】
G06F16/35
H04N21/80
H04N21/23
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2023083022
(22)【出願日】2023-05-19
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 令和5年2月27日 https://www.yahoo.co.jp/
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】佐藤 充
【テーマコード(参考)】
5B175
5C164
【Fターム(参考)】
5B175DA01
5B175FA03
5C164FA12
5C164GA06
5C164MB11P
5C164SB06P
5C164SB31S
5C164SD12S
(57)【要約】 (修正有)
【課題】投稿コンテンツを効率よく分類する情報処理装置、情報処理方法及び情報処理プログラムを提供する。
【解決手段】クラウドシステムやサーバによって実現され、ニュースサイト等の各種メディアサイトを運営する情報処理装置において、制御部は、抽出部と、評価部と、変換部と、分類部と、を備える。抽出部は、ユーザUによって投稿された投稿コンテンツS1のうち、所定期間内に投稿された投稿コンテンツから所定数のキーワードをそれぞれ抽出しS2、評価部は、各キーワードの品詞を特定し、特定した品詞の組み合わせと、品詞パターン辞書に登録された品詞パターンとを比較しS3、変換部は、抽出部が抽出したキーワードの組み合わせを投稿コンテンツ毎にベクトルへ変換しS4、分類部は、変換部が変換したベクトルの類似性に基づいてクラスタリングし、投稿コンテンツを分類するS5。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された前記投稿コンテンツから所定数のキーワードをそれぞれ抽出する抽出部と、
前記抽出部により抽出された前記キーワードの組み合わせを前記投稿コンテンツごとにベクトルへ変換する変換部と、
前記変換部により変換された前記ベクトルの類似性に基づいて、前記投稿コンテンツを分類する分類部と
を備えることを特徴とする情報処理装置。
【請求項2】
前記分類部により分類された各カテゴリのトピック名を前記ベクトルに基づいて生成する生成部
を備える請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、
カテゴリにおける前記ベクトルの重心に基づいて前記トピック名を生成すること
を特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記抽出部により抽出された前記キーワードの組み合わせを品詞の組み合わせに基づいて評価する評価部
を備え、
前記分類部は、
前記評価部による評価が所定の閾値を超える前記キーワードの組み合わせの前記ベクトルを用いて、前記投稿コンテンツを分類すること
を特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記評価部は、
ユーザによって使用された複数ワードの検索クエリにおける品詞の組み合わせの傾向に基づいて、前記キーワードの組み合わせを評価すること
を特徴とする請求項4に記載の情報処理装置。
【請求項6】
前記評価部は、
ユーザによって使用された複数ワードの検索クエリにおける品詞の順序と、前記キーワードの組み合わせにおける品詞の順序とを比較し、前記キーワードの組み合わせを評価すること
を特徴とする請求項5に記載の情報処理装置。
【請求項7】
前記変換部は、
前記評価部による評価が最も高い前記キーワードの組み合わせを抽出して、前記ベクトルへ変換し、
前記分類部は、
前記変換部により抽出された前記キーワードの組み合わせの前記ベクトルを用いて、前記投稿コンテンツを分類すること
を特徴とする請求項4に記載の情報処理装置。
【請求項8】
コンピュータが実行する情報処理方法であって、
ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された前記投稿コンテンツから所定数のキーワードをそれぞれ抽出する抽出工程と、
前記抽出工程により抽出された前記キーワードの組み合わせを前記投稿コンテンツごとにベクトルへ変換する変換工程と、
前記変換工程により変換された前記ベクトルの類似性に基づいて、前記投稿コンテンツを分類する分類工程と
を含むことを特徴とする情報処理方法。
【請求項9】
ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された前記投稿コンテンツから所定数のキーワードをそれぞれ抽出する抽出手順と、
前記抽出手順により抽出された前記キーワードの組み合わせを前記投稿コンテンツごとにベクトルへ変換する変換手順と、
前記変換手順により変換された前記ベクトルの類似性に基づいて、前記投稿コンテンツを分類する分類手順と
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法および情報処理プログラムに関する。
【背景技術】
【0002】
従来、各種コンテンツを提供するサービスがある。例えば、かかるサービスでは、マイクロブログやSNS(Social Networking Service)などユーザによって投稿された各種コンテンツが提供される場合がある。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術では、ユーザによって投稿された投稿コンテンツを効率よく分類するうえで改善の余地があった。
【0005】
本発明は、上記に鑑みてなされたものであって、投稿コンテンツを効率よく分類することができる情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決し、目的を達成するために、本発明に係る情報処理装置は、ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された前記投稿コンテンツから所定数のキーワードを抽出する抽出部と、前記抽出部により抽出された前記キーワードの組み合わせをベクトルへ変換する変換部と、前記変換部により変換された前記ベクトルの類似性に基づいて、前記投稿コンテンツを各カテゴリへ分類する分類部とを備える。
【発明の効果】
【0007】
本発明によれば、投稿コンテンツを効率よく分類することができる。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の一例を示す図である。
【
図2】
図2は、実施形態に係るコンテンツの一例を示す図である。
【
図3】
図3は、実施形態に係る情報処理装置の構成例を示すブロック図である。
【
図4】
図4は、実施形態に係るコンテンツ記憶部に格納される情報の一例を示す図である。
【
図5】
図5は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。
【
図6】
図6は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法および情報処理プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法および情報処理プログラムが限定されるものではない。
【0010】
[実施形態]
〔1.情報処理〕
まず、
図1を用いて、実施形態に係る情報処理の一例について説明する。
図1は、実施形態に係る情報処理の一例を示す図である。なお、実施形態に係る情報処理は、
図1に示す情報処理装置1によって実現される。
【0011】
図1に示す情報処理装置1は、ニュースサイト等の各種メディアサイトを運営する情報処理装置である。なお、情報処理装置1は、例えば、クラウドシステムやサーバによって実現される。
【0012】
図1に示すユーザ端末100は、ユーザUが所有する端末装置である。例えば、ユーザUは、ユーザ端末100を操作し、各種メディアサイトを通じてユーザUに対して、ニュース記事等を提供する。なお、
図1では、ユーザ端末100がスマートフォンである場合を例示しているが、ユーザ端末100は、PC(Personal computer)など、その他の機器であってもよい。
【0013】
図1に示すSNSサーバ200は、各種SNS(Social Networking Service)を運営するサーバ装置である。例えば、SNSサーバ200によって運営されるSNSの一部の記事(コンテンツ)は、情報処理装置1が運営する各種メディアサイトへ掲載される。
【0014】
SNSには、各ユーザによってコンテンツが随時投稿されるため、タイムリーなコンテンツが投稿される。そのため、情報処理装置1は、ニュースサイト等にSNSを利用したコンテンツを掲載することで、タイムリーな記事を掲載することもできる。
【0015】
一方で、ニュースサイト等に投稿コンテンツに関する記事を掲載するにあたり、各投稿コンテンツをトピックごとに分類することが求められる。例えば、1つの分類手法として、Word2Vec等の手法を用いて、投稿コンテンツをベクトル化し、ベクトル間の距離に応じて、クラスタリングする手法が考えられる。
【0016】
しかしながら、上述の手法においては、投稿コンテンツに含まれるすべてのテキストをベクトル化するため、ベクトル化に要する処理負荷の増大や、ベクトル化の精度によっては、投稿コンテンツが適切なベクトルへ変換されず、適切に分類できないおそれがある。
【0017】
そこで、本実施形態では、投稿コンテンツからキーワードを抽出し、抽出したキーワードをベクトルへ変換することとした。さらに、本実施形態では、抽出した各キーワードの組み合わせを評価したうえで、ベクトル化を行うことで、投稿コンテンツを精度よく分類することもできる。
【0018】
具体的には、
図1に示すように、情報処理装置1は、SNSサーバ200から投稿コンテンツを取得する(ステップS1)。例えば、情報処理装置1は、SNSサーバ200に所定時間内に投稿された投稿コンテンツを取得する。例えば、情報処理装置1は、SNSに投稿された投稿コンテンツを所定の周期でリアルタイムに取得し、後述する処理を経て、例えば、
図2に示すコンテンツ等をユーザ端末100へ提供する。
【0019】
つづいて、情報処理装置1は、各投稿コンテンツから所定数のキーワードをそれぞれ抽出する(ステップS2)。例えば、情報処理装置1が抽出するキーワードは、投稿コンテンツに含まれる特徴語である。
図1に示す例では、1つの投稿コンテンツから「東京湾」、「花火大会」、「中継」、「三尺玉」等のキーワードを抽出した場合を示している。
【0020】
つづいて、情報処理装置1は、抽出したキーワードをランダムに組み合わせて、キーワードの各組み合わせを評価する(ステップS3)。例えば、情報処理装置1は、各組み合わせに含まれるキーワードの品詞の組み合わせを評価する。ここで、キーワードをランダムに組み合わせた場合、組み合わせによっては元となる投稿コンテンツの内容の解釈が困難となる。
【0021】
本実施形態では、ユーザが検索を行う際に利用する検索クエリに着目し、検索クエリを模倣して、各キーワードの組み合わせを評価する。具体的には、ユーザが複数のキーワードを組み合わせて検索する場合、各キーワードの組み合わせは、ユーザが欲しい内容を集約した情報と捉えることができる。
【0022】
すなわち、ユーザによる複数ワードの検索クエリと傾向が近しいキーワードの組み合わせは、投稿コンテンツの内容を端的に表現したキーワードの組み合わせである可能性が高い。そのため、情報処理装置1は、ユーザが使用した複数ワードの検索クエリの傾向を辞書化し、各キーワードの組み合わせと比較することにより、各キーワードの組み合わせを評価する。
【0023】
より詳しくは、ユーザが使用した3ワードの検索クエリにおける品詞の組み合わせを基に作成された品詞パターン辞書を用いて、キーワードの組み合わせを評価する。品詞パターン辞書は、ユーザによって使用された3ワードによる検索クエリの品詞パターンの傾向を辞書化したデータである。
【0024】
一例として、3ワードによる検索クエリの品詞パターンが「固有名詞、一般名詞、サ変名詞」で利用される傾向が強い場合、品詞パターン辞書は「固有名詞、一般名詞、サ変名詞」で構成されるキーワードの組み合わせの評価が高くなるように構成される。
【0025】
つづいて、情報処理装置1は、各キーワードの組み合わせを評価し終えると、最も評価が高いキーワードの組み合わせをベクトル化する(ステップS3)。
図1では、「F1、F2、F3」で構成されるキーワードの組み合わせの評価Sc1が最も高く、かかる組み合わせをベクトルV1へ変換した場合を示している。
【0026】
これにより、情報処理装置1は、投稿コンテンツの内容を捉えたキーワードの組み合わせのみをベクトル化することになる。なお、キーワードの組み合わせのベクトル化は、各キーワードをそれぞれWord2Vec等の任意の手法によりベクトルへと変換し、これらのベクトルの和を算出することで行われる。
【0027】
そして、情報処理装置1は、ステップS2~ステップS4の処理をステップS1で取得した各投稿コンテンツに対し行う。そして、情報処理装置1は、各投稿コンテンツに起因するベクトルを用いてクラスタリング(分類)を行う(ステップS5)。なお、クラスタリングは、各ベクトル間の距離に基づいて、各ベクトルを分類することで行われる。
【0028】
図1に示す例では、ベクトルV1に対応する投稿コンテンツが花火大会のカテゴリ(トピック)に分類され、ベクトルV20に対応する投稿コンテンツがウクライナのカテゴリに分類される場合を示している。なお、後述するように、情報処理装置1は、各カテゴリのカテゴリ名を生成することも可能である。
【0029】
このように、情報処理装置1は、キーワードの組み合わせをベクトル化し、クラスタリングすることによって、各投稿コンテンツを適切に分類することが可能となる。その後、情報処理装置1は、コンテンツを生成し、ユーザ端末100に対して提供する(ステップS6)。
【0030】
図2は、情報処理装置1が提供するコンテンツの一例を示す図である。
図2に示すように、コンテンツは、各カテゴリ(
図2に示す「アニメ・マンガ」、「IT」、「アイドル」等に対応)のキーワードを含むワードクラウドである。
【0031】
情報処理装置1は、クラスタリングによって分類した1つのトピックから複数のキーワードをそれぞれ抽出し、抽出したキーワードを含むワードクラウドを提供する。
図2に示す例において、「トルコ、シリア、地震」、「社会、同性婚、指摘」等の塊それぞれが1つのトピックから抽出されたキーワードであることを示している。
【0032】
また、ワードクラウドにおいて、表示面積、フォントサイズは、各トピックの注目度に応じて決定される。ここでの注目度は、例えば、各トピックにおける投稿コンテンツの投稿数である。すなわち、投稿数が多いカテゴリほど、表示面積やフォントサイズが大きく表示されることになる。なお、注目度に応じて実際にはフォントの色も変更され、注目度が高いトピックほど、強調色が用いられる。
【0033】
また、ユーザがワードクラウドに表示される各キーワードを選択した場合、情報処理装置1は、選択されたキーワードのトピックに属する投稿コンテンツをユーザに対して提供する。
【0034】
このように、ワードクラウド上に1トピックに対して複数のキーワードを表示することで、ユーザに対し、各トピックの内容を容易に把握させることができる。
【0035】
〔2.情報処理装置〕
次に、
図3を用いて、実施形態に係る情報処理装置1の構成例について説明する。
図3は、実施形態に係る情報処理装置1の構成例を示すブロック図である。
図3に示すように、情報処理装置1は、通信部2と、記憶部3と、制御部4とを備える。なお、情報処理装置1は、情報処理装置1を利用する管理者などから各種操作を受け付ける入力部(例えば、キーボードやマウスなど)や、各種情報を表示するための表示部(例えば、液晶ディスプレイなど)を有してもよい。
【0036】
通信部2は、例えば、NIC(Network Interface Card)などによって実現される。通信部2は、4G(4th Generation)または5G(5th Generation)などの通信ネットワークと有線または無線で接続され、通信ネットワークを介して、ユーザ端末100、SNSサーバ200などの各々との間で情報の送受信を行う。
【0037】
記憶部3は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。記憶部3は、コンテンツ記憶部31と、辞書情報記憶部32とを有する。
【0038】
コンテンツ記憶部31は、投稿コンテンツを記憶する。投稿コンテンツは、SNSサーバ200に各ユーザから投稿されたコンテンツである。
図4は、実施形態に係るコンテンツ記憶部31に格納される情報の一例を示す図である。
【0039】
図4に示すように、コンテンツ記憶部31は、「ID」、「本体」、「キーワード群」、「ベクトル」、「カテゴリ」等の項目の情報を互いに対応付けて記憶する。「ID」項目には、各投稿コンテンツを識別するための識別子が格納される。「本体」項目には、対応するIDによって識別される投稿コンテンツそのもののデータが格納される。なお、本体は、テキスト、画像、動画等を含む。
【0040】
「キーワード群」項目には、対応するIDによって識別される投稿コンテンツ本体に含まれるキーワード群が格納される。例えば、キーワード群は、投稿コンテンツに含まれる特徴語である。
【0041】
「ベクトル」項目には、対応するIDによって識別される投稿コンテンツを示すベクトルが格納される。上述のように、ベクトルは、投稿コンテンツから抽出されたキーワードの組み合わせのうち、最も評価の高い組み合わせをベクトルしたものである。
【0042】
「カテゴリ」項目には、対応するIDによって識別される投稿コンテンツのカテゴリが格納される。カテゴリは、対応するベクトルを基にクラスタリング等の分類手法によって分類される。
【0043】
図3の説明に戻り、辞書情報記憶部32について説明する。辞書情報記憶部32は、辞書情報を記憶する。辞書情報は、上述の品詞パターン辞書に関する情報である。品詞パターン辞書は、ユーザによって使用された複数ワードの検索クエリにおける品詞パターンを辞書化したデータである。例えば、品詞パターン辞書は、検索サーバ等から取得した各検索クエリを基に生成される。
【0044】
つづいて、制御部4について説明する。制御部4は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって、情報処理装置1内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部4は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現される。
【0045】
図3に示すように、制御部4は、取得部41と、抽出部42と、評価部43と、変換部44と、分類部45と、生成部46と、提供部47とを備え、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部4の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部4が有する各処理部の接続関係は、
図3に示した接続関係に限られず、他の接続関係であってもよい。
【0046】
取得部41は、SNSサーバ200から投稿コンテンツを取得する。例えば、取得部41は、SNSサーバ200から周期内に投稿された投稿コンテンツを周期毎に取得し、コンテンツ記憶部31に登録する。
【0047】
この際、取得部41は、すべての投稿コンテンツを取得するようにしてもよく、例えば、SNSにおける現在のトレンド等に関する投稿コンテンツのみを取得するようにしてもよい。この場合、取得部41は、トレンド入りしたキーワードやハッシュタグを含む投稿コンテンツを取得する。すなわち、取得部41は、リアルタイムで注目されているコンテンツを取得するようにしてもよい。
【0048】
抽出部42は、ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された投稿コンテンツから所定数のキーワードを抽出する。まず、抽出部42は、各コンテンツのテキストから特徴語をすべて抽出し、コンテンツ記憶部31のキーワード群に登録する。なお、特徴語の抽出については、例えば、特徴語の辞書に登録されたキーワードを投稿コンテンツのテキストから抽出することで行うことができる。
【0049】
つづいて、抽出部42は、抽出したキーワードから所定数(例えば、3ワード)の組み合わせを抽出する。たとえば、抽出部42は、抽出したキーワードを総当たり的に組み合わせることで、各キーワードの組み合わせを抽出する。
【0050】
この際、抽出部42は、文章中における各キーワードの出現順序を変更せずに、各キーワードの組み合わせを抽出する。すなわち、抽出部42は、文章中のキーワードの出願順序を保持した状態で、各キーワードの組み合わせを抽出する。例えば、「A、B、C、D」の順序で4つのキーワードを含む文章から、「A、B、C」、「A、B、D」、「A、C、D」および「B、C、D」の計4つのキーワードの組み合わせを抽出することになる。
【0051】
評価部43は、抽出部42により各投稿コンテンツから抽出されたキーワードの組み合わせを品詞の組み合わせに基づいて評価する。具体的には、評価部43は、各キーワードの組み合わせにおける品詞パターンと、辞書情報記憶部32に記憶された品詞パターン辞書との比較により、各キーワードの組み合わせを評価する。
【0052】
まず、評価部43は、各キーワードの品詞を特定し、特定した品詞の組み合わせと、品詞パターン辞書に登録された品詞パターンとを比較する。この際、評価部43は、品詞の順序を考慮して、各キーワードの組み合わせを評価することになる。また、評価部43は、例えば、品詞の種別ごとに重み付けして評価を行うようにしてもよい。例えば、評価部43は、固有名詞については他の品詞に比べて高く評価する。また、例えば、評価部43は、ユーザの属性ごとに生成された複数の品詞パターン辞書を用いて、各キーワードの組み合わせを評価するようにしてもよい。
【0053】
そして、評価部43は、各キーワードの組み合わせのうち、最もスコアが高いキーワードの組み合わせを変換部44へ渡す。すなわち、評価部43は、3ワードにおける品詞の組み合わせのスタイルの良さをスコアとして算出し、最もスコアが高いキーワードの組み合わせを後段の処理へ渡すことになる。これにより、ユーザによる検索クエリに用いられる品詞の傾向に近いキーワードの組み合わせ、すなわち、ユーザが検索クエリとして使用する可能性が高いキーワードの組み合わせを抽出することができる。
【0054】
なお、評価部43は、各キーワードの組み合わせを評価した結果、最も高いスコアが閾値以下であれば、対応する投稿コンテンツについては後段の処理を中止するようにしてもよい。
【0055】
変換部44は、抽出部42により抽出されたキーワードの組み合わせをベクトルへ変換する。変換部44は、評価部43による評価が最も高いキーワードの組み合わせをベクトルへと変換する。変換部44は、各キーワードをそれぞれWord2VecやTransfomer等を用いてそれぞれベクトルへと変換し、これらの和をキーワードの組み合わせのベクトルとする。
【0056】
分類部45は、変換部44により変換されたベクトルの類似性に基づいて、投稿コンテンツを各カテゴリへ分類する。分類部45は、各ベクトルを距離に応じて、クラスタリングを行うことで、各ベクトルに対応する投稿コンテンツを分類する。つまり、分類部45は、距離が近いベクトル同士を同じカテゴリに分類し、距離が離れているベクトル同士を異なるカテゴリに分類することになる。なお、分類部45は、各カテゴリへの分類の結果、類似するカテゴリ同士(例えば、重心の距離が近いカテゴリ同士)を統合するようにしてもよい。
【0057】
例えば、各カテゴリには、それぞれ共通のトピックに関するコンテンツとなる。このように、投稿コンテンツそのものではなく、投稿コンテンツから抽出したキーワードの組み合わせをベクトル化し、クラスタリングを行うことで、投稿コンテンツをそのままベクトル化する場合に比べて、容易かつ、精度よく投稿コンテンツを分類することができる。
【0058】
生成部46は、分類部45により分類された各カテゴリのカテゴリ名を生成する。例えば、生成部46は、各カテゴリのセントロイド(重心)をテキストへと変換し、各カテゴリのカテゴリ名として生成する。
【0059】
この際、生成部46は、例えば、各カテゴリのセントロイドに近い複数ワード(例えば、3単語)をカテゴリ名とするようにしてもよい。また、この際、生成部46は、カテゴリ名となる3単語について品詞パターン辞書を用いて評価し、スコアが閾値を超える場合に、かかる3単語をカテゴリ名とするようにしてもよい。
【0060】
これにより、生成部46は、各カテゴリをユーザが複数ワードで検索する際に、検索クエリとして利用する可能性が高い品詞の組み合わせのカテゴリ名を生成することができる。
【0061】
提供部47は、ユーザ端末100に対して各種コンテンツを提供する。例えば、提供部47は、ユーザ端末100に対して例えば、
図2に示したようなワードクラウドを提供する。例えば、ワードクラウドは、リアルタイムで注目されている各カテゴリの内容をテキストで表現したものである。
【0062】
提供部47は、各カテゴリの3単語のカテゴリ名を、各カテゴリの注目度に応じてフォントサイズ、色、大きさ等を設定し、画像内に配置したワードクラウドを生成し、提供先となるユーザ端末100へ提供(送信)する。
【0063】
例えば、注目度は、各トピックの投稿数に対応し、投稿数が多いほど、注目度が高くなる。なお、注目度については、例えば、提供先となるユーザの興味関心に応じて調整するようにしてもよい。すなわち、ユーザが興味を示すカテゴリについては注目度を高くするようにしてもよい。
【0064】
〔3.処理フロー〕
次に、
図5を用いて、実施形態に係る情報処理装置1が実行する処理手順について説明する。
図5は、実施形態に係る分類処理の処理手順の一例を示すフローチャートである。なお、以下に示す処理は、情報処理装置1によって所定の周期で繰り返し実行される。
【0065】
図5に示すように、情報処理装置1は、まず、所定期間に投稿された投稿コンテンツを取得する(ステップS101)。つづいて、情報処理装置1は、各投稿コンテンツからそれぞれキーワードを抽出する(ステップS102)。
【0066】
つづいて、情報処理装置1は、品詞パターン辞書を用いて、抽出したキーワードの組み合わせを評価する(ステップS103)。次に、情報処理装置1は、スコアが最も高いキーワードの組み合わせをベクトル化する(ステップS104)。
【0067】
つづいて、情報処理装置1は、ベクトルをクラスタリングすることで、投稿コンテンツを分類する(ステップS105)。そして、情報処理装置1は、カテゴリごとにトピック名を生成し(ステップS106)、処理を終了する。
【0068】
〔4.変形例〕
上述した実施形態では、情報処理装置1が、SNSに投稿された投稿コンテンツを分類する場合について説明したが、これに限定されるものではない。投稿コンテンツについてはテキストを含むコンテンツであれば、その他のコンテンツ(例えば、ニュース記事)であってもよい。また、投稿コンテンツは、例えば、任意の投稿に対して行われたリプライであってもよい。また、投稿コンテンツは、音声データをAI等により文字起こした文章を含むようにしてもよい。すなわち、各メディアに投稿された音声や動画を投稿コンテンツと見做すようにしてもよい。
【0069】
〔5.効果〕
実施形態に係る情報処理装置1は、ユーザによって投稿された投稿コンテンツのうち、所定期間内に投稿された投稿コンテンツから所定数のキーワードをそれぞれ抽出する抽出部42と、抽出部42により抽出されたキーワードの組み合わせを投稿コンテンツごとにベクトルへ変換する変換部44と、変換部44により変換されたベクトルの類似性に基づいて、投稿コンテンツを各カテゴリへ分類する分類部45とを備える。
【0070】
また、実施形態に係る情報処理装置1は、分類部45により分類された各カテゴリのトピック名を生成する生成部46を備える。また、生成部46は、カテゴリの重心に基づいてトピック名を生成する。
【0071】
また、実施形態に係る情報処理装置1は、抽出部42により抽出されたキーワードの組み合わせを品詞の組み合わせに基づいて評価する評価部43を備え、変換部44は、評価部43による評価結果が所定の閾値を超えるキーワードの組み合わせをベクトルへ変換する。
【0072】
また、評価部43は、ユーザによって使用された複数ワードの検索クエリにおける品詞の組み合わせの傾向に基づいて、キーワードの組み合わせを評価する。また、評価部43は、ユーザによって使用された複数ワードの検索クエリにおける品詞の順序と、キーワードの組み合わせにおける品詞の順序とを比較し、キーワードの組み合わせを評価する。
【0073】
上述した各処理のいずれかもしくは組合せにより、本願に係る情報処理装置は、投稿コンテンツを適切に分類することができる。
【0074】
〔6.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置1は、例えば
図6に示すような構成のコンピュータ1000によって実現される。
図6は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0075】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0076】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワーク(通信ネットワーク)Nを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
【0077】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置(
図6では、出力装置および入力装置を総称して「入出力装置」と記載する)を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0078】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0079】
例えば、コンピュータ1000が実施形態に係る情報処理装置として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部4の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0080】
〔7.その他〕
以上、本願の実施形態を説明したが、これら実施形態の内容により本発明が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
【0081】
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0082】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。
【0083】
例えば、上述した情報処理装置は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティング等で呼び出して実現するなど、構成は柔軟に変更できる。
【0084】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0085】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0086】
1 情報処理装置
2 通信部
3 記憶部
4 制御部
31 コンテンツ記憶部
32 辞書情報記憶部
41 取得部
42 抽出部
43 評価部
44 変換部
45 分類部
46 生成部
47 提供部
100 ユーザ端末