(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024011604
(43)【公開日】2024-01-25
(54)【発明の名称】情報処理装置、情報処理方法、および情報処理プログラム
(51)【国際特許分類】
G06F 16/33 20190101AFI20240118BHJP
G06F 16/35 20190101ALI20240118BHJP
【FI】
G06F16/33
G06F16/35
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022113754
(22)【出願日】2022-07-15
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】小川 知紘
(72)【発明者】
【氏名】森 琢郎
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175GB04
(57)【要約】
【課題】特定のキーワードとの関係において意外性のあるワードを抽出することができる情報処理装置、情報処理方法、および情報処理プログラムを提供すること。
【解決手段】本願に係る情報処理装置は、カテゴリ抽出部と、ワード抽出部と、情報出力部とを備える。カテゴリ抽出部は、特定ワードが含まれる投稿コンテンツのカテゴリを抽出する。ワード抽出部は、カテゴリ抽出部によって抽出されたカテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出する。情報出力部は、ワード抽出部によって抽出された対象ワードを含む情報を出力する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
特定ワードが含まれる投稿コンテンツのカテゴリを抽出するカテゴリ抽出部と、
前記カテゴリ抽出部によって抽出されたカテゴリの投稿コンテンツのうち前記特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出するワード抽出部と、
前記ワード抽出部によって抽出された前記対象ワードを含む情報を出力する情報出力部と、を備える
ことを特徴とする情報処理装置。
【請求項2】
前記カテゴリ抽出部は、
前記特定ワードが含まれる投稿コンテンツのカテゴリのうち前記特定ワードを含む投稿コンテンツの数が多い順または比率が高い順に予め定められた数のカテゴリを抽出する
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記情報出力部は、
前記ワード抽出部によって抽出された前記対象ワードを前記特定ワードとの類似度が高い順に並べたリストを含む情報を出力する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記情報出力部は、
前記カテゴリ抽出部によって抽出されたカテゴリの投稿コンテンツのうち前記特定ワードが含まれない投稿コンテンツに含まれる数が多い順に前記対象ワードを並べたリストを含む情報を出力する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項5】
前記情報出力部は、
前記ワード抽出部によって抽出された前記対象ワードと前記特定ワードとを含む文章の情報を出力する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項6】
前記投稿コンテンツは、
カテゴリ毎に質問と回答とを受け付けるオンラインサービスに投稿された質問のコンテンツである
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項7】
前記カテゴリ抽出部は、
前記特定ワードが含まれる投稿コンテンツのカテゴリのうち特定カテゴリを抽出対象から除外する
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項8】
コンピュータが実行する情報処理方法であって、
特定ワードが含まれる投稿コンテンツのカテゴリを抽出するカテゴリ抽出工程と、
前記カテゴリ抽出工程によって抽出されたカテゴリの投稿コンテンツのうち前記特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出するワード抽出工程と、
前記ワード抽出工程によって抽出された前記対象ワードを含む情報を出力する情報出力工程と、を含む
ことを特徴とする情報処理方法。
【請求項9】
特定ワードが含まれる投稿コンテンツのカテゴリを抽出するカテゴリ抽出手順と、
前記カテゴリ抽出手順によって抽出されたカテゴリの投稿コンテンツのうち前記特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出するワード抽出手順と、
前記ワード抽出手順によって抽出された前記対象ワードを含む情報を出力する情報出力手順と、をコンピュータに実行させる
ことを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
従来、文章を含むコンテンツからワードを抽出する自然言語処理が知られている。例えば、特許文献1には、ドキュメントを複数のカテゴリのうちの1以上のカテゴリに分類し、ドキュメントから抽出された1以上のワードの各々について、上述した1以上のカテゴリ内での各々の出現頻度に基づいて、カテゴリ内で出現頻度が低いワードをカテゴリ内での意外性の高いワードとして抽出する技術が開示されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記従来技術では、カテゴリ内での出現頻度が低いワードをカテゴリ内での意外性の高いワードとして抽出するものの、特定ワードとの関係において意外性のあるワードを抽出することが難しい場合がある。
【0005】
本願は、上記に鑑みてなされたものであって、特定のキーワードとの関係において意外性のあるワードを抽出することができる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、カテゴリ抽出部と、ワード抽出部と、情報出力部とを備える。カテゴリ抽出部は、特定ワードが含まれる投稿コンテンツのカテゴリを抽出する。ワード抽出部は、カテゴリ抽出部によって抽出されたカテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出する。情報出力部は、ワード抽出部によって抽出された対象ワードを含む情報を出力する。
【発明の効果】
【0007】
実施形態の一態様によれば、特定のキーワードとの関係において意外性のあるワードを抽出することができるという効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理の一例を示す図である。
【
図2】
図2は、実施形態に係る情報処理システムの構成の一例を示す図である。
【
図3】
図3は、実施形態に係る情報処理装置の構成の一例を示す図である。
【
図4】
図4は、実施形態に係るユーザ情報記憶部に記憶されるユーザ情報テーブルの一例を示す図である。
【
図5】
図5は、実施形態に係るコンテンツ記憶部に記憶されるコンテンツテーブルの一例を示す図である。
【
図6】
図6は、実施形態に係る情報処理装置の情報出力部が対象ワードに関する情報として出力するリスト情報の一例を示す図である。
【
図7】
図7は、実施形態に係る情報処理装置の情報出力部が対象ワードに関する情報として出力する文書情報の一例を示す図である。
【
図8】
図8は、実施形態に係る情報処理装置の処理部による情報処理の一例を示すフローチャートである。
【
図9】
図9は、実施形態に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法、および情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法、および情報処理プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
〔1.情報処理の一例〕
まず、
図1を用いて、実施形態に係る情報処理の一例について説明する。
図1は、実施形態に係る情報処理の一例を示す図である。
【0011】
図1に示すように、実施形態に係る情報処理装置1は、複数の投稿コンテンツを含む投稿コンテンツ群を記憶している。投稿コンテンツは、不図示の端末装置などから投稿されたコンテンツであり、例えば、Q&Aのコンテンツ、口コミのコンテンツ、またはニュースのコンテンツなどであるが、投稿されたコンテンツであればよく、かかる例に限定されない。
【0012】
Q&Aのコンテンツは、カテゴリ毎に質問と回答とを受け付けるオンラインサービスに投稿された質問のコンテンツや回答のコンテンツである。口コミのコンテンツは、例えば、口コミ対象に対して口コミを受け付けるオンラインサービスに投稿された口コミのコンテンツである。口コミ対象は、例えば、商品やサービスなどの取引対象などであり、カテゴリ毎に分類される。
【0013】
情報処理装置1は、特定ワードの入力を受け付ける受付処理を行う(ステップS1)。特定ワードは、情報処理装置1のユーザによって入力されるワードであり、例えば、情報処理装置1のユーザが意外性の関係を知りたいワードである。情報処理装置1のユーザは、「化粧水」との関係で意外性のあるワードを知りたい場合、特定ワードとして「化粧水」を情報処理装置1に入力する。
【0014】
情報処理装置1は、特定ワードの入力を受け付けると、特定ワードが含まれる投稿コンテンツのカテゴリである該当カテゴリを抽出するカテゴリ抽出処理を行う(ステップS2)。情報処理装置1は、例えば、特定ワードが含まれる投稿コンテンツを該当コンテンツとして抽出し、抽出した該当コンテンツのカテゴリのうち1以上のカテゴリを該当カテゴリとして抽出する。
【0015】
情報処理装置1は、例えば、抽出した該当コンテンツのカテゴリのうち該当コンテンツの数が多い順または比率が高い順に予め定められた数のカテゴリを該当カテゴリとして抽出する。カテゴリにおける該当コンテンツの比率は、カテゴリにおけるコンテンツの数に対する該当コンテンツの数の比である。
【0016】
例えば、カテゴリに含まれるコンテンツの数がNaであり、カテゴリに含まれる該当コンテンツの数がNbである場合、カテゴリにおける該当コンテンツの比率Rは、例えば、R=Nb/Naで表される。また、予め定められた数は、例えば、2以上の数であるが、1であってもよい。
【0017】
例えば、予め定められた数が3であり、特定ワード「化粧水」を含むコンテンツの数が多い順または比率が多い順に上位3つのカテゴリが、カテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」であるとする。この場合、情報処理装置1は、該当カテゴリとして、カテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」を抽出する。
【0018】
投稿コンテンツのカテゴリは、階層構造で規定されており、投稿コンテンツのカテゴリの大きさは、階層構造における上層のカテゴリほど大きく、階層構造における下層のカテゴリほど小さい。情報処理装置1は、例えば、最下層のカテゴリから該当カテゴリを抽出する。例えば、上述したカテゴリ「スキンケア」、カテゴリ「ニキビケア」、カテゴリ「メイク、コスメ」は最下層のカテゴリである。
【0019】
カテゴリ「スキンケア」およびカテゴリ「メイク、コスメ」の直上層のカテゴリは、カテゴリ「コスメ、美容」であり、カテゴリ「コスメ、美容」の直上層のカテゴリは、カテゴリ「健康、美容、ファッション」である。また、カテゴリ「ニキビケア」の直上層のカテゴリは、カテゴリ「健康、病気、病院」であり、カテゴリ「健康、病気、病院」の直上層のカテゴリは、カテゴリ「健康、美容、ファッション」である。
【0020】
また、情報処理装置1は、最下層のカテゴリよりも上層のカテゴリから該当カテゴリを抽出することもできる。また、情報処理装置1は、上層のカテゴリの指定を情報処理装置1のユーザから受け付け、受け付けた上層のカテゴリの下層のカテゴリから該当カテゴリを抽出することもできる。
【0021】
また、情報処理装置1は、特定ワードに加えて、該当カテゴリとして抽出するカテゴリの階層の入力を情報処理装置1のユーザから受け付けることもできる。この場合、情報処理装置1は、情報処理装置1のユーザから受け付けた階層のカテゴリから該当カテゴリを抽出する。このように、該当カテゴリとして抽出するカテゴリの階層は予め定められていてもよく、情報処理装置1のユーザによって指定されてもよい。
【0022】
また、情報処理装置1は、特定ワードが含まれる投稿コンテンツのカテゴリのうち特定カテゴリを抽出対象から除外することができる。特定カテゴリは、例えば、特定ワードに対して予め設定されたカテゴリ、または情報処理装置1のユーザによって入力されたカテゴリである。
【0023】
つづいて、情報処理装置1は、ステップS2で抽出した該当カテゴリに含まれる投稿コンテンツのうち特定ワードが含まれない投稿コンテンツである対象コンテンツに含まれるワードを対象ワードとして抽出するワード抽出処理を行う(ステップS3)。情報処理装置1は、例えば、対象コンテンツを形態素解析によって複数の形態素に分割し、分解した複数の形態素に含まれる特定の品詞(例えば、名詞など)を対象ワードとして抽出する。これにより、情報処理装置1は、特定ワードとの関係で意外性のあるワードを対象ワードとして抽出することができる。
【0024】
例えば、特定ワードが「化粧水」であり、該当カテゴリがカテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」であるとする。この場合、情報処理装置1は、カテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」のいずれかに含まれる投稿コンテンツのうち特定ワード「化粧水」を含まない投稿コンテンツを対象コンテンツとして抽出する。そして、情報処理装置1は、対象コンテンツに含まれるワードを対象ワードとして抽出する。
【0025】
つづいて、情報処理装置1は、ステップS3で抽出された対象ワードを含む対象ワード情報を生成し、生成した対象ワード情報を出力する(ステップS4)。例えば、情報処理装置1は、ステップS3で抽出された対象ワードを所定の規則に従って並べた対象ワードリストを含むリスト情報を対象ワード情報として生成して出力する。
【0026】
例えば、情報処理装置1は、ステップS3で抽出された対象ワードを特定ワードとの類似度が高い順に並べた対象ワードリストを含むリスト情報を対象ワード情報として生成したり、対象コンテンツに含まれる数が多い順に対象ワードを並べたリストである対象ワードリストを含むリスト情報を対象ワード情報として生成したりすることができる。
【0027】
リスト情報は、該当カテゴリが複数である場合、該当カテゴリ毎の対象ワードリストであるが、複数の該当カテゴリに対して1つの対象ワードリストであってもよい。また、リスト情報には、特定ワードが含まれるが、特定ワードが含まれなくてもよい。
【0028】
また、情報処理装置1は、ステップS3で抽出された対象ワードとステップS1で受け付けた特定ワードとを含む文章の情報である文書情報を対象ワード情報として生成することもできる。例えば、情報処理装置1は、該当コンテンツにおいて該当コンテンツに含まれる複数のワードのうち特定ワード以外の一部のワードを対象ワードに置き換えることによって、対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することができる。
【0029】
また、情報処理装置1は、例えば、予め定められた雛形文章に含まれる第1ワードを特定ワードに置き換え且つ雛形文章に含まれる第2ワードを対象ワードに置き換えることによって、対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することもできる。
【0030】
また、情報処理装置1は、自然言語処理技術を用いて対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することもできる。例えば、情報処理装置1は、キーワードから文章を対象ワード情報として生成することができる自然言語処理モデルを用いて対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成する。自然言語処理モデルは、例えば、公知のBERT(Bidirectional Encoder Representations from Transformers)またはGPT-3(Generative Pre-Training-3)などを用いたモデルである。
【0031】
このように、情報処理装置1は、特定ワードが含まれる投稿コンテンツのカテゴリを抽出し、抽出したカテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出する。これにより、情報処理装置1は、特定ワードとの関係で意外性のあるワードを対象ワードの情報として抽出することができる。
【0032】
以下、このような処理を行う情報処理装置1を含む情報処理システムの構成などについて、詳細に説明する。
【0033】
〔2.情報処理システムの構成〕
図2は、実施形態に係る情報処理システムの構成の一例を示す図である。
図2に示すように、実施形態に係る情報処理システム100は、情報処理装置1と、複数の端末装置2と、端末装置3とを含む。
【0034】
情報処理装置1、複数の端末装置2、および端末装置3は、ネットワークNを介して、有線または無線により互いに通信可能に接続される。なお、
図2に示す情報処理システム100には、情報処理装置1が複数含まれてもよい。ネットワークNは、例えば、LAN(Local Area Network)や、インターネットなどのWAN(Wide Area Network)である。
【0035】
情報処理装置1は、各ユーザの端末装置2,3と連携し、オンラインで各種の情報を各ユーザに提供する情報処理装置であり、例えば、1以上のサーバまたはクラウドシステムなどにより実現される。
【0036】
情報処理装置1は、例えば、Q&Aサイト、口コミサイト、ニュースサイト、ショッピングサイト、オークションサイト、フリーマーケットサイト、飲食店紹介サイト、またはSNSサイトなどによるオンラインサービスを提供する。
【0037】
端末装置2は、情報処理装置1が提供する投稿コンテンツを投稿するユーザUAの端末装置であり、端末装置3は、情報処理装置1が提供する対象ワード提供サービスを利用するユーザUBの端末装置である。
【0038】
ユーザUAは端末装置2を操作することで、端末装置2から情報処理装置1に対して投稿コンテンツを送信させる。投稿コンテンツは、情報処理装置1が提供するオンラインサービスにコンテンツであり、複数のカテゴリのうち対応するカテゴリに分類される。投稿コンテンツのカテゴリは、ユーザUAによって指定されたカテゴリまたは投稿コンテンツに含まれるワードによって情報処理装置1によって分類されるカテゴリである。
【0039】
例えば、Q&Aサイトでは、質問コンテンツや回答コンテンツであり、口コミサイトでは、口コミコンテンツであり、ニュースサイトでは、ニュースコンテンツである。また、投稿コンテンツは、ショッピングサイト、オークションサイト、またはフリーマーケットサイトでは、取引対象の売買を行うためのコンテンツ(例えば、購入ページ)などである。
【0040】
端末装置2,3は、例えば、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット端末、スマートフォン、携帯電話機、またはPDA(Personal Digital Assistant)などである。複数の端末装置2は、互いに異なるユーザUAによって操作され、端末装置3は、ユーザUBによって操作される。なお、端末装置2,3は、上述した例に限定されず、例えば、スマートウォッチまたはウェアラブルデバイス(Wearable Device)などであってもよい。
【0041】
また、端末装置2,3は、LTE(Long Term Evolution)、4G(4th Generation)、5G(5th Generation:第5世代移動通信システム)などの無線通信網や、Bluetooth(登録商標)、無線LANなどの近距離無線通信を介してネットワークNに接続し、情報処理装置1と通信することができる。
【0042】
〔3.情報処理装置1の構成〕
以下、情報処理装置1が有する機能構成の一例について説明する。
図3は、実施形態に係る情報処理装置1の構成の一例を示す図である。
図3に示すように、情報処理装置1は、通信部10と、記憶部11と、処理部12とを有する。
【0043】
〔3.1.通信部10〕
通信部10は、例えば、NIC(Network Interface Card)などによって実現される。そして、通信部10は、ネットワークNと有線または無線で接続され、他の各種装置との間で情報の送受信を行う。例えば、通信部10は、端末装置2,3との間でネットワークNを介して情報の送受信を行う。
【0044】
〔3.2.記憶部11〕
記憶部11は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、ハードディスク、光ディスクなどの記憶装置によって実現される。また、記憶部11は、ユーザ情報記憶部20と、コンテンツ記憶部21とを有する。
【0045】
〔3.2.1.ユーザ情報記憶部20〕
ユーザ情報記憶部20は、ユーザUA,UBに関する各種の情報を記憶する。
図4は、実施形態に係るユーザ情報記憶部20に記憶されるユーザ情報テーブルの一例を示す図である。
図4に示す例では、ユーザ情報記憶部20に記憶されるユーザ情報テーブルは、「ユーザID」、「属性情報」、および「履歴情報」といった項目の情報を含む。
【0046】
「ユーザID」は、ユーザUA,UBを識別する識別子である。「属性情報」は、「ユーザID」に対応付けられたユーザUA,UBの属性に関する属性情報である。ユーザUA,UBの属性は、例えば、デモグラフィック属性、サイコグラフィック属性などである。デモグラフィック属性は、人口統計学的属性であり、例えば、年齢、性別、職業、居住地、年収、家族構成などである。サイコグラフィック属性は、心理学的属性であり、例えば、ライフスタイル、価値観、興味関心などである。
【0047】
「履歴情報」は、「ユーザID」に対応付けられたユーザUA,UBのサービスの利用履歴などの情報を含む履歴情報であり、例えば、ユーザUA,UBの検索履歴情報、ユーザUA,UBの閲覧履歴情報、およびユーザUA,UBの決済履歴情報などを含む。
【0048】
ユーザUA,UBの検索履歴情報は、例えば、検索サイトでのウェブコンテンツの検索履歴の情報、各種のウェブサイトでの検索履歴の情報などである。ユーザUA,UBの閲覧履歴情報は、ユーザUA,UBのウェブコンテンツの閲覧履歴の情報である。
【0049】
ユーザUA,UBの決済履歴情報には、ユーザUA,UBが決済サービスを用いてオンライン、実店舗、または実施設などにおいて購入した商品に関する購入履歴情報、ユーザUA,UBが決済サービスを用いてオンライン、実店舗、実施設などにおいて有料で利用したサービスに関するサービス利用履歴情報などが含まれる。
【0050】
購入履歴情報には、ユーザUA,UBが購入した商品の情報、購入費用の情報、購入日時、購入店舗の情報などが含まれる。サービス利用履歴情報には、ユーザUA,UBが利用したサービスの情報、利用費用の情報、利用日時、利用店舗の情報などが含まれる。
【0051】
なお、ユーザ情報記憶部20に記憶される情報は、上記に限らず、目的に応じて種々の情報を含んでいてもよい。例えば、ユーザ情報記憶部20に記憶される情報は、ユーザUA,UBのコンテキストの履歴を示す情報などを含んでいてもよい。
【0052】
〔3.2.2.コンテンツ記憶部21〕
コンテンツ記憶部21は、コンテンツに関する情報を記憶する。
図5は、実施形態に係るコンテンツ記憶部21に記憶されるコンテンツテーブルの一例を示す図である。
図5に示した例では、コンテンツ記憶部21に記憶されるコンテンツテーブルは、「コンテンツID」、「コンテンツ」、および「カテゴリ」といった項目の情報を有する。
【0053】
「コンテンツID」は、投稿コンテンツを識別する識別子である。「コンテンツ」は、「コンテンツID」に対応付けられた投稿コンテンツの情報である。投稿コンテンツは、Q&Aサイト、口コミサイト、ニュースサイト、ショッピングサイト、オークションサイト、フリーマーケットサイト、飲食店紹介サイト、およびSNSサイトなどの1以上のサイトによるオンラインサービスの投稿コンテンツである。
【0054】
「カテゴリ」は、投稿コンテンツが属するカテゴリを示す情報である。投稿コンテンツのカテゴリは、例えば、階層構造で規定されており、投稿コンテンツのカテゴリの大きさは、階層構造における上層のカテゴリほど大きく、階層構造における下層のカテゴリほど小さい。
【0055】
例えば、最上層のカテゴリは、カテゴリ「健康、美容、ファッション」、カテゴリ「暮らしと生活ガイド」、カテゴリ「エンターテインメントと趣味」などである。最上層カテゴリ「健康、美容、ファッション」の直下層のカテゴリは、カテゴリ「コスメ、美容」やカテゴリ「健康、病気、病院」などである。
【0056】
また、カテゴリ「コスメ、美容」の直下層のカテゴリは、カテゴリ「スキンケア」、カテゴリ「メイク、コスメ」、カテゴリ「ヘアスタイル」などである。また、カテゴリ「健康、病気、病院」の直下層のカテゴリは、カテゴリ「ニキビケア」、カテゴリ「デンタルケア」、「目の病気」などである。
【0057】
図5では、コンテンツID「C1」のコンテンツは、コンテンツCNT1であり、カテゴリは、カテゴリC
A1であり、コンテンツID「C2」のコンテンツは、コンテンツCNT2であり、カテゴリは、カテゴリC
B3である。また、コンテンツID「C3」のコンテンツは、コンテンツCNT3であり、カテゴリは、カテゴリC
D2である。
【0058】
なお、図示していないが、コンテンツ記憶部21には、投稿コンテンツが投稿されるサイトの情報なども含まれる。また、
図5に示した例では、コンテンツなどを「コンテンツCNT1」などの抽象的な符号を含む文字列で表現したが、コンテンツなどは、例えば、具体的な数値および具体的な文字列などの各種情報を含むファイル形式のデータ、またはかかるデータの格納場所を示す情報である。コンテンツなどは、上記形式以外の情報であってもよい。また、コンテンツ記憶部21は、上記に限らず、目的に応じて種々の情報を記憶してもよい。
【0059】
〔3.3.処理部12〕
処理部12は、コントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのプロセッサによって、情報処理装置1内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例)がRAMを作業領域として実行されることにより実現される。また、処理部12は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路により実現される。
【0060】
図3に示すように、処理部12は、取得部30と、受付部31と、提供部32と、カテゴリ抽出部33と、ワード抽出部34と、情報生成部35と、情報出力部36とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、処理部12の内部構成は、
図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0061】
〔3.3.1.取得部30〕
取得部30は、各種情報を取得する。取得部30は、記憶部11から各種の情報を取得する。取得部30は、ユーザ情報記憶部20およびコンテンツ記憶部21などから各種の情報を取得する。
【0062】
取得部30は、通信部10を介して、外部の情報処理装置から各種情報を受信する。取得部30は、端末装置2から各種情報を受信する。例えば、取得部30は、端末装置2からユーザUAの情報を取得し、取得したユーザUAの情報をユーザ情報記憶部20に記憶させてユーザ情報テーブルを更新する。また、取得部30は、端末装置2やその他の外部装置から投稿コンテンツを取得し、取得した投稿コンテンツをコンテンツ記憶部21に記憶させてコンテンツテーブルを更新する。
【0063】
〔3.3.2.受付部31〕
受付部31は、各種要求を受け付ける。受付部31は、外部の情報処理装置から各種要求を受け付ける。受付部31は、通信部10を介して、外部の情報処理装置から各種要求を示す情報を受信する。例えば、受付部31は、端末装置2,3から要求を受け付ける。
【0064】
例えば、受付部31は、端末装置2からの投稿要求や閲覧要求などを受け付ける。投稿要求には、投稿コンテンツなどの情報が含まれており、受付部31は、端末装置2からの投稿要求が受け付けた場合、投稿要求に含まれる投稿コンテンツなどの情報をコンテンツ記憶部21のコンテンツテーブルに追加する。
【0065】
受付部31は、例えば、対象ワード情報要求を端末装置2や端末装置3から受け付ける。対象ワード情報要求には、例えば、ユーザUBのユーザIDおよび特定ワードなどの情報を含む。また、対象ワード情報要求は、さらに、指定サイト、指定コンテンツ種別、指定カテゴリ、および除外カテゴリなどの情報が含まれてもよい。指定カテゴリは、該当カテゴリの抽出範囲となるカテゴリであり、除外カテゴリは、該当カテゴリとして抽出されないカテゴリである。
【0066】
〔3.3.3.提供部32〕
提供部32は、端末装置2,3のユーザUA,UBに各種のオンラインサービスを提供する。提供部32によって提供されるオンラインサービスは、例えば、Q&Aサイト、口コミサイト、ニュースサイト、ショッピングサイト、オークションサイト、フリーマーケットサイト、飲食店紹介サイト、およびSNSサイトなどの1以上のサイトによるオンラインサービスである。
【0067】
例えば、提供部32は、受付部31によって端末装置2からの閲覧要求が受け付けられた場合、閲覧要求に対応する投稿コンテンツであって取得部30によって取得された投稿コンテンツを端末装置2に通信部10およびネットワークNを介して送信する。
【0068】
〔3.3.4.カテゴリ抽出部33〕
カテゴリ抽出部33は、受付部31によって対象ワード情報要求が受け付けられた場合、対象ワード情報要求に含まれる特定ワードを取得し、取得した特定ワードが含まれる投稿コンテンツのカテゴリを該当カテゴリとして抽出する。
【0069】
カテゴリ抽出部33は、例えば、特定ワードが含まれる投稿コンテンツを該当コンテンツとして抽出し、抽出した該当コンテンツが含まれるカテゴリを該当カテゴリとして抽出する。
【0070】
カテゴリ抽出部33は、対象ワード情報要求に指定サイト、指定コンテンツ種別、および指定カテゴリの情報が含まれている場合、対象ワード情報要求に含まれる指定サイト、指定コンテンツ種別、および指定カテゴリの情報に基づいて、該当カテゴリを抽出する。
【0071】
具体的には、カテゴリ抽出部33は、指定サイトの指定カテゴリに含まれる投稿コンテンツのうち指定コンテンツ種別の投稿コンテンツを該当コンテンツとして抽出し、指定サイトの指定カテゴリのうち、該当コンテンツが含まれるカテゴリを該当カテゴリとして抽出する。
【0072】
また、カテゴリ抽出部33は、対象ワード情報要求に除外サイトの情報が含まれている場合、特定ワードが含まれる投稿コンテンツのカテゴリのうち除外カテゴリを除くカテゴリを該当カテゴリとして抽出する。除外カテゴリは、予め設定されたカテゴリの一例である。
【0073】
例えば、指定サイトがQ&Aサイトであり、指定コンテンツ種別が「質問」であり、指定カテゴリがカテゴリ「コスメ、美容」であり、除外カテゴリがカテゴリ「ネイルケア」およびカテゴリ「美容整形」であるとする。そして、カテゴリ「コスメ、美容」の下層のカテゴリが、カテゴリ「メイク、コスメ」、カテゴリ「スキンケア」、カテゴリ「香水」、カテゴリ「エステ、脱毛」、カテゴリ「ヘアケア」、カテゴリ「ヘアスタイル」、カテゴリ「ネイルケア」、カテゴリ「美容整形」であるとする。
【0074】
この場合、カテゴリ抽出部33は、Q&Aサイトのカテゴリ「コスメ、美容」に含まれる質問の投稿コンテンツを該当コンテンツとして抽出する。そして、カテゴリ抽出部33は、カテゴリ「コスメ、美容」の下層のカテゴリのうち該当コンテンツが含まれるカテゴリであって、除外カテゴリであるカテゴリ「ネイルケア」およびカテゴリ「美容整形」以外のカテゴリを該当カテゴリとして抽出する。
【0075】
なお、カテゴリ抽出部33は、対象ワード情報要求に指定サイト、指定コンテンツ種別、指定カテゴリ、および除外カテゴリの情報が含まれていない場合、予め定められた指定サイト、指定コンテンツ種別、指定カテゴリ、および除外カテゴリのうちの少なくとも1以上の情報に基づいて、該当カテゴリを抽出することもできる。
【0076】
例えば、カテゴリ抽出部33は、特定ワードと除外カテゴリとを特定ワード毎に関連付けた除外カテゴリテーブルを有していてもよく、この場合、対象ワード情報要求に含まれる特定ワードに関連付けられた除外カテゴリを除外カテゴリテーブルから抽出する。
【0077】
カテゴリ抽出部33は、例えば、抽出した該当コンテンツのカテゴリのうち該当コンテンツの数が多い順または比率が高い順に予め定められた数のカテゴリを該当カテゴリとして抽出する。カテゴリにおける該当コンテンツの比率は、カテゴリにおけるコンテンツの数に対する該当コンテンツの数の比である。
【0078】
例えば、カテゴリに含まれるコンテンツの数がNaであり、カテゴリに含まれる該当コンテンツの数がNbである場合、カテゴリにおける該当コンテンツの比率Rは、例えば、R=Nb/Naで表される。また、予め定められた数は、例えば、2以上の数であるが、1であってもよい。
【0079】
例えば、予め定められた数が3であり、特定ワード「化粧水」を含むコンテンツの数が多い順または比率が多い順に上位3つのカテゴリが、カテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」であるとする。この場合、カテゴリ抽出部33は、該当カテゴリとして、カテゴリ「スキンケア」、およびカテゴリ「ニキビケア」、カテゴリ「メイク、コスメ」を抽出する。
【0080】
また、カテゴリ抽出部33は、最下層のカテゴリよりも上層のカテゴリから該当カテゴリを抽出することもできる。また、カテゴリ抽出部33は、特定ワードに加えて、該当カテゴリとして抽出するカテゴリの階層の入力をユーザUBから受け付けることもできる。この場合、カテゴリ抽出部33は、ユーザUBから受け付けた階層のカテゴリから該当カテゴリを抽出する。このように、該当カテゴリとして抽出するカテゴリの階層は予め定められていてもよく、ユーザUBによって指定されてもよい。
【0081】
〔3.3.5.ワード抽出部34〕
ワード抽出部34は、カテゴリ抽出部33によって抽出された該当カテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出する。
【0082】
例えば、ワード抽出部34は、カテゴリ抽出部33によって抽出された該当カテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツを対象コンテンツとして抽出する。そして、ワード抽出部34は、対象コンテンツに含まれるワードを対象ワードとして抽出する。
【0083】
例えば、特定ワードが「化粧水」であり、該当カテゴリがカテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」であるとする。この場合、ワード抽出部34は、カテゴリ「スキンケア」、カテゴリ「ニキビケア」、およびカテゴリ「メイク、コスメ」のいずれかに含まれる複数の投稿コンテンツのうち特定ワード「化粧水」を含まない投稿コンテンツを対象コンテンツとして抽出する。そして、ワード抽出部34は、対象コンテンツに含まれるワードを対象ワードとして抽出する。
【0084】
ワード抽出部34は、例えば、対象コンテンツを形態素解析によって複数の形態素に分割し、分解した複数の形態素に含まれる特定の品詞(例えば、名詞など)を対象ワードとして抽出する。なお、ワード抽出部34は、例えば、複数のワードを含むワードリストを有し、対象コンテンツに含まれるワードのうちワードリストに含まれるワードを対象ワードとして抽出することもできる。
【0085】
〔3.3.6.情報生成部35〕
情報生成部35は、ワード抽出部34によって抽出された対象ワードを含む対象ワード情報を生成する。
【0086】
例えば、情報生成部35は、ワード抽出部34によって抽出された対象ワードを並べたリストである対象ワードリストを含むリスト情報を対象ワード情報として生成する。リスト情報は、該当カテゴリが複数である場合、該当カテゴリ毎の対象ワードリストであるが、複数の該当カテゴリに対して1つの対象ワードリストであってもよい。また、リスト情報には、特定ワードが含まれるが、特定ワードが含まれなくてもよい。
【0087】
例えば、情報生成部35は、ワード抽出部34によって抽出された対象ワードを特定ワードとの類似度が高い順に並べた対象ワードリストを含むリスト情報を対象ワード情報として生成する。また、情報生成部35は、対象コンテンツに含まれる数が多い順に対象ワードを並べたリストである対象ワードリストを含むリスト情報を対象ワード情報として生成することもできる。
【0088】
情報生成部35は、例えば、複数の投稿コンテンツに含まれる単語または語句などのワードを、W2V(Word2Vec)などのように意味が類似するワードを類似するベクトルへと変換する変換モデルを用いて、例えば、分散表現などのようなベクトルに変換する。そして、情報生成部35は、対象ワードのベクトルと特定ワードのベクトルとのコサイン類似度を対象ワードと特定ワードとの類似度として算出する。なお、情報生成部35は、例えば、ワードとベクトルとをワード毎に対応付けた変換テーブルを用いて、対象ワードのベクトルを特定することもできる。
【0089】
また、情報生成部35は、ワード抽出部34によって抽出された対象ワードと受付部31によって受け付けられた対象ワード情報要求に含まれる特定ワードとを含む文章の情報である文章情報を対象ワード情報として生成する。
【0090】
例えば、情報生成部35は、該当コンテンツにおいて該当コンテンツに含まれる複数のワードのうち特定ワード以外の一部のワードを対象ワードに置き換えることによって、対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することができる。
【0091】
また、情報生成部35は、例えば、予め定められた雛形文章に含まれる第1ワードを特定ワードに置き換え且つ雛形文章に含まれる第2ワードを対象ワードに置き換えることによって、対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することもできる。
【0092】
また、情報生成部35は、自然言語処理技術を用いて対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することもできる。例えば、情報生成部35は、キーワードから文章情報を対象ワード情報として生成することができる自然言語処理モデルを用いて対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成する。自然言語処理モデルは、例えば、公知のBERTまたはGPT-3などを用いたモデルである。
【0093】
情報生成部35は、例えば、ワード抽出部34によって抽出された対象ワードのうち2以上の対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することができる。2以上の対象ワードはワード抽出部34によって抽出された対象ワードのうちランダムに選択された対象ワードまたは所定の規則に基づいて選択された対象ワードである。
【0094】
また、情報生成部35は、ワード抽出部34によって抽出された対象ワードのうちユーザUBによって選択された1以上の対象ワードと特定ワードとを含む文章情報を対象ワード情報として生成することもできる。
【0095】
〔3.3.7.情報出力部36〕
情報出力部36は、ワード抽出部34によって抽出された対象ワードに関する情報を出力する。例えば、情報出力部36は、受付部31によって受け付けた対象ワード情報要求を送信した端末装置3に対し、通信部10およびネットワークNを介して、ワード抽出部34によって抽出された対象ワードに関する情報を送信する。
【0096】
情報出力部36は、受付部31によって受け付けた対象ワード情報要求を送信した端末装置3に対し、通信部10およびネットワークNを介して、情報生成部35によって生成された対象ワード情報を対象ワードに関する情報として送信する。
【0097】
例えば、情報出力部36は、ワード抽出部34によって抽出された対象ワードを特定ワードとの類似度が高い順に並べた対象ワードリストを含むリスト情報を対象ワードに関する情報として出力したり、対象コンテンツに含まれる数が多い順に対象ワードを並べたリストである対象ワードリストを含むリスト情報を対象ワードに関する情報として出力したりすることができる。
【0098】
また、情報出力部36は、ワード抽出部34によって抽出された対象ワードと受付部31によって受け付けられた対象ワード情報要求に含まれる特定ワードとを含む文章情報を対象ワードに関する情報として出力することもできる。
【0099】
図6は、実施形態に係る情報処理装置1の情報出力部36が対象ワードに関する情報として出力するリスト情報の一例を示す図である。
図6に示すリスト情報は、対象ワードが「化粧水」であり、コサイン類似度が0.5以上の対象ワードがコサイン類似度の高い順にカテゴリ毎に並べられたリストの情報を含む。
【0100】
例えば、
図6に示すリスト情報では、該当カテゴリ「スキンケア」における対象ワードのリストとして、「クレンジングジェル」、「シャワージェル」、「トレーニング」、「麦茶」、および「遠赤外線」が各々対象ワードとして並べられている対象ワードリストが示される。
【0101】
また、該当カテゴリ「ニキビケア」における対象ワードのリストとして、「二の腕」、「カビ」、「ウェルヘッドスキン」、「マスク」、および「太もも」が各々対象ワードとして並べられている対象ワードリストが示される。また、該当カテゴリ「メイク、コスメ」における対象ワードリストには、対象ワードが含まれておらず、コサイン類似度が0.5以上の対象ワードがないことが示されている。
【0102】
このように、リスト情報では、特定ワードとの類似度が高いワードであるが特定ワードが含まれる投稿コンテンツには出現しないワードである複数の対象ワードが示されている。これにより、ユーザUBは、投稿コンテンツにおいて特定ワードとの関係で意外性のあるワードを把握することができる。
【0103】
また、リスト情報は、上述したように、特定ワードとの類似度が高い順に対象ワードが並べられた情報に代えて、特定ワードが含まれない投稿コンテンツに含まれる数が多い順に対象ワードが並べられた情報であってもよい。この場合においても、ユーザUBは、投稿コンテンツにおいて特定ワードとの関係で意外性のあるワードを把握することができる。
【0104】
図7は、実施形態に係る情報処理装置1の情報出力部36が対象ワードに関する情報として出力する文書情報の一例を示す図である。
図7に示す文章情報は、特定ワードが「化粧水」であり、対象ワードが「遠赤外線」である場合の文章情報である。
【0105】
図7に示す文章情報には、タイトル「遠赤外線をカットする化粧水?」および本文「遠赤外線をカットしてくれる化粧水が注目されている。遠赤外線は肌の奥まで届き、コラーゲンやエラスチンを破壊してしまう。そのため、遠赤外線を吸収する成分を配合した化粧水が注目されている。」が含まれている。
【0106】
このように、文書情報は、特定ワードと対象ワードとが含まれる文章の情報を含むことから、ユーザUBは、例えば、特定ワードと対象ワードとの関係において新たな知見を得ることができ、例えば、新たな開発のアイデアや記事のアイデアを想起することができる。
【0107】
〔4.処理手順〕
次に、実施形態に係る情報処理装置1の処理部12による情報処理の手順について説明する。
図8は、実施形態に係る情報処理装置1の処理部12による情報処理の一例を示すフローチャートである。
図8に示す処理は、端末装置3からの対象ワード情報要求が処理部12によって受け付けられた場合に行われる処理である。
【0108】
図8に示すように、情報処理装置1の処理部12は、端末装置3からの対象ワード情報要求を受け付けると、受け付けた対象ワード情報要求で特定される特定ワード投稿コンテンツである該当コンテンツを抽出する(ステップS20)。
【0109】
つづいて、処理部12は、ステップS20で抽出した該当コンテンツが含まれるカテゴリを該当カテゴリとして抽出する(ステップS21)。そして、処理部12は、ステップS21で抽出した該当カテゴリに含まれる複数の投稿コンテンツのうち特定ワードが含まれない投稿コンテンツを対象コンテンツとして抽出する(ステップS22)。
【0110】
つづいて、処理部12は、ステップS22で抽出した対象コンテンツに含まれるワードを対象ワードとして抽出する(ステップS23)。そして、処理部12は、ステップS23で抽出した対象ワードに関する情報である対象ワード情報を生成し(ステップS24)、生成した対象ワード情報を出力して(ステップS25)、
図8に示す処理を終了する。
【0111】
〔5.変形例〕
上述した例では、情報生成部35は、リスト情報として、対象ワードを特定ワードとの類似度が高い順に並べたリストを含む情報と対象コンテンツに含まれる数が多い順に対象ワードを並べたリストを含む情報とのいずれかを出力するが、かかる例に限定されない。
【0112】
例えば、情報生成部35は、特定ワードとの類似度と対象コンテンツに含まれる数とを重み付け加算した値が高い順に対象ワードを並べた対象ワードリストを含む情報をリスト情報として生成することができる。
【0113】
また、対象ワード情報要求には、投稿コンテンツを投稿したユーザUAの情報を指定するユーザ指定情報が含まれていてもよい。この場合、カテゴリ抽出部33は、ユーザ指定情報で指定された情報を有するユーザUAが投稿した投稿コンテンツの中から該当コンテンツおよび対象コンテンツの少なくとも一方を抽出する。ユーザ指定情報は、ユーザUAの属性情報および履歴情報に含まれる1以上の情報を指定する情報であり、例えば、ユーザUAの性別と年代を指定する情報である。
【0114】
また、カテゴリ抽出部33は、対象ワード情報要求に含まれるユーザIDのユーザUBの情報と一致または類似する情報を有するユーザUAが投稿した投稿コンテンツの中から該当コンテンツおよび対象コンテンツの少なくとも一方を抽出することもできる。
【0115】
また、情報出力部36は、上述した複数の対象ワードに関する情報のうち、対象ワード情報要求に含まれるユーザIDのユーザUBの情報に応じた対象ワードに関する情報を出力することもできる。
【0116】
〔6.ハードウェア構成〕
上述してきた実施形態に係る情報処理装置1は、例えば
図9に示すような構成のコンピュータ80によって実現される。
図9は、実施形態に係る情報処理装置1の機能を実現するコンピュータ80の一例を示すハードウェア構成図である。コンピュータ80は、CPU81、RAM82、ROM(Read Only Memory)83、HDD(Hard Disk Drive)84、通信インターフェイス(I/F)85、入出力インターフェイス(I/F)86、およびメディアインターフェイス(I/F)87を有する。
【0117】
CPU81は、ROM83またはHDD84に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM83は、コンピュータ80の起動時にCPU81によって実行されるブートプログラムや、コンピュータ80のハードウェアに依存するプログラムなどを記憶する。
【0118】
HDD84は、CPU81によって実行されるプログラム、および、かかるプログラムによって使用されるデータなどを記憶する。通信インターフェイス85は、ネットワークN(
図2参照)を介して他の機器からデータを受信してCPU81へ送り、CPU81が生成したデータを、ネットワークNを介して他の機器へ送信する。
【0119】
CPU81は、入出力インターフェイス86を介して、ディスプレイやプリンタなどの出力装置、および、キーボードまたはマウスなどの入力装置を制御する。CPU81は、入出力インターフェイス86を介して、入力装置からデータを取得する。また、CPU81は、入出力インターフェイス86を介して生成したデータを出力装置へ出力する。
【0120】
メディアインターフェイス87は、記録媒体88に記憶されたプログラムまたはデータを読み取り、RAM82を介してCPU81に提供する。CPU81は、かかるプログラムを、メディアインターフェイス87を介して記録媒体88からRAM82上にロードし、ロードしたプログラムを実行する。記録媒体88は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)などの光学記録媒体、MO(Magneto-Optical disk)などの光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリなどである。
【0121】
例えば、コンピュータ80が実施形態に係る情報処理装置1として機能する場合、コンピュータ80のCPU81は、RAM82上にロードされたプログラムを実行することにより、処理部12の機能を実現する。また、HDD84には、記憶部11内のデータが記憶される。コンピュータ80のCPU81は、これらのプログラムを記録媒体88から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0122】
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0123】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0124】
例えば、上述した情報処理装置1は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットホームなどをAPIやネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
【0125】
また、上述してきた実施形態および変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0126】
〔8.効果〕
上述してきたように、実施形態に係る情報処理装置1は、カテゴリ抽出部33と、ワード抽出部34と、情報出力部36とを備える。カテゴリ抽出部33は、特定ワードが含まれる投稿コンテンツのカテゴリを抽出する。ワード抽出部34は、カテゴリ抽出部33によって抽出されたカテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれるワードを対象ワードとして抽出する。情報出力部36は、ワード抽出部34によって抽出された対象ワードを含む情報を出力する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを抽出することができる。
【0127】
また、カテゴリ抽出部33は、特定ワードが含まれる投稿コンテンツのカテゴリのうち特定ワードを含む投稿コンテンツの数が多い順または比率が高い順に予め定められた数のカテゴリを抽出する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを適切に抽出することができる。
【0128】
また、情報出力部36は、ワード抽出部34によって抽出された対象ワードを特定ワードとの類似度が高い順に並べたリストを含む情報を出力する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを適切に抽出することができる。
【0129】
また、情報出力部36は、カテゴリ抽出部33によって抽出されたカテゴリの投稿コンテンツのうち特定ワードが含まれない投稿コンテンツに含まれる数が多い順に対象ワードを並べたリストを含む情報を出力する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを適切に抽出することができる。
【0130】
また、情報出力部36は、ワード抽出部34によって抽出された対象ワードと特定ワードとを含む文章の情報を出力する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを含む文章を提供することができる。
【0131】
また、投稿コンテンツは、カテゴリ毎に質問と回答とを受け付けるオンラインサービスに投稿された質問のコンテンツである。れにより、情報処理装置1は、質問のコンテンツにおいて特定のキーワードとの関係において意外性のあるワードを適切に抽出することができる。
【0132】
また、カテゴリ抽出部33は、特定ワードが含まれる投稿コンテンツのカテゴリのうち特定カテゴリを抽出対象から除外する。これにより、情報処理装置1は、特定のキーワードとの関係において意外性のあるワードを適切に抽出することができる。
【0133】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0134】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0135】
1 情報処理装置
2,3 端末装置
10 通信部
11 記憶部
12 処理部
20 ユーザ情報記憶部
21 コンテンツ記憶部
30 取得部
31 受付部
32 提供部
33 カテゴリ抽出部
34 ワード抽出部
35 情報生成部
36 情報出力部
100 情報処理システム