(58)【調査した分野】(Int.Cl.,DB名)
前記順位決定部は、前記第2コンテンツが前記判定部により有名人ではないと判定された人名の人物を誹謗または中傷する表現を含む場合、前記第2コンテンツを掲載対象から除外する、
請求項1または2に記載の情報処理装置。
前記判定部は、検索サーバにより出力された検索ログに含まれる、前記第2コンテンツから抽出された人名に対する検索履歴の件数が、第3閾値以上である場合、前記第2コンテンツから抽出された人名が有名人であると判定する、
請求項4または5に記載の情報処理装置。
【発明を実施するための形態】
【0009】
<1.第1実施形態>
以下、図面を参照し、本発明の情報処理装置、情報処理方法、およびプログラムの実施形態について説明する。情報処理装置は、ユーザにより要求されたコンテンツと共に、第三者により投稿されたこのコンテンツに対する意見、感想等を示すコメントを合わせて提供する。情報処理装置は、第三者により投稿されたコメントの内、一般人に関する情報を含むコメントの掲載順位を下げるか、あるいは削除した上で、ユーザに提供する。
【0010】
本実施形態におけるコンテンツには、コメント投稿機能が実装された任意のサイトが含まれる。コンテンツには、例えば、ニュースサイト、オークションサイト、質問サイト等が含まれる。その他、コンテンツには、ミニブログ等のソーシャルネットワークサービス(SNS)において投稿されたメッセージ等も含まれる。
【0011】
図1は、本実施形態におけるサービス提供装置1(情報処理装置)の利用環境を示す図である。サービス提供装置1は、ネットワークNWを介して、一以上の端末装置Tと接続され、このネットワークNWを介して互いに通信する。ネットワークNWは、例えば、WAN(Wide Area Network)やLAN(Local Area Network)、インターネット、専用回線、無線基地局、プロバイダなどを含む。
【0012】
[端末装置]
端末装置Tは、サービス提供装置1により提供されるサービスを利用するユーザによって操作される。端末装置Tは、例えば、パーソナルコンピュータ、スマートフォンなどの携帯電話やタブレット端末、PDA(Personal Digital Assistant)などのコンピュータ装置である。端末装置Tは、ユーザの操作に基づいて、サービス提供装置1により提供されるサービスを要求するリクエストを送信し、リクエストに応じたサービスに関する情報をサービス提供装置1から受信して表示する。
【0013】
[サービス提供装置]
サービス提供装置1は、ユーザにより要求されたコンテンツ(第1コンテンツ)と共に、第三者により投稿されたこのコンテンツに対するコメント(第2コンテンツ)を合わせて提供するコンピュータ装置である。サービス提供装置1により提供されるコンテンツには、例えば、ブラウザによって参照されるウェブサイトの他、アプリケーションプログラムによって参照されるアプリページが含まれる。以下においては、サービス提供装置1により提供されるコンテンツが、ブラウザによって参照されるウェブサイトであり、ウェブサイトがニュースサイトである場合を例に挙げて説明する。
【0014】
サービス提供装置1は、例えば、通信部10と、コンテンツ取得部12と、人名抽出部14(抽出部)と、有名人判定部16(判定部)と、順位決定部18と、ページ生成部20と、コンテンツ情報記憶部22と、有名人リスト記憶部24と、有名人リスト生成部26とを備える。サービス提供装置1に含まれる各機能部は、複数の装置に分散されてもよい。例えば、有名人判定部16と他の機能部とは別体の装置によって実現されてもよい。
【0015】
通信部10は、ネットワークNWを介して、端末装置T等と通信する。通信部10は、例えば、NIC等の通信インターフェースを含む。
【0016】
コンテンツ取得部12は、ユーザにより要求されたニュースサイトの記事情報22Aと、この記事情報に対して投稿されたコメント情報22Bとを、コンテンツ情報記憶部22から取得する。
【0017】
人名抽出部14は、コンテンツ取得部12により取得された記事情報22Aの文字列に含まれる人名を「有名人」として抽出する。本実施形態において「有名人」とは、ある程度以上、世間に人名が認知された人物を言う。「有名人」とは、例えば、世間一般に広く発信することを目的としてメディアにより提供された情報(例えば、ニュース記事)に登場する人物である。「有名人」には、例えば、政治家、芸能人、スポーツ選手、文化人等が含まれる。また、人名抽出部14は、コンテンツ取得部12により取得されたコメント情報22Bに含まれる少なくとも1つのコメントの文字列に含まれる人名を抽出する。
【0018】
人名抽出部14は、形態素解析や、固有表現抽出等の手法を用いることで、記事情報22Aの文字列およびコメントの文字列から人名を抽出する。人名抽出部14は、例えば、形態素解析による固有表現抽出技術を適用することにより、記事情報22Aの文字列およびコメントの文字列から人名を抽出する。固有表現抽出技術は、形態素解析により、所定の用語が接尾語や接頭語になっているか、また所定の用語の共起性などに応じて用語の類型の判定などを行う技術である。人名抽出部14は、例えば、記事情報22Aの文字列を形態素解析し、「・・・さん」、「・・・氏」、「・・・総理」等の役職を伴う用語等、人名を示唆する所定の接尾語や接頭語を伴う形態素に基づいて人名を抽出する。また、文字列に含まれる「名詞」+「助詞」等の所定の文法的な法則を持つ表現に基づいて、人名を抽出してもよい。
【0019】
有名人判定部16は、コンテンツ取得部12により取得されたコメント情報22Bに含まれる少なくとも1つのコメントの文字列に含まれる人名が、有名人であるか否かを判定する。換言すると、有名人判定部16は、コメントの文字列に含まれる人名として、有名人ではない一般人に関する人名(個人情報)が含まれているか否かを判定する。有名人判定部16は、人名抽出部14によりコメントの各々の文字列から抽出された人名が、記事情報22Aの文字列から抽出された有名人と同じであるか否かを判定する。有名人判定部16は、コメントの各々の文字列から抽出した人名が、記事情報22Aの文字列から抽出された有名人と同じであると判定した場合、コメントの各々の文字列から抽出した人名が有名人であると判定する。
【0020】
また、有名人判定部16は、人名抽出部14によりコメント情報22Bに含まれるコメントの各々から抽出された人名が、有名人リスト記憶部24に記憶された有名人リスト24Aに含まれるか否かを判定する。このような判定を行うことで、有名人判定部16は、コメントの各々から抽出された人名が、このコメントに対応するニュース記事には含まれてはいないものの、一般的に有名人と認知されている人名であるか否かを判定することができる。有名人判定部16は、コメントの各々から抽出された人名が、有名人リスト記憶部24に記憶された有名人リスト24Aに含まれると判定した場合、コメントの各々から抽出した人名が有名人であると判定する。有名人判定部16は、コメントの各々から抽出された人名が、記事情報22Aの文字列から抽出された有名人と同じではなく、有名人リスト24Aに含まれないと判定した場合、コメントの各々から抽出された人名が有名人ではない、すなわち、一般人であると判定する。
【0021】
尚、有名人リスト24Aに人名ごとのニュース記事への掲載回数の情報が含まれている場合には、有名人判定部16は、この掲載回数に閾値(第1閾値)を設定し、この閾値以上の掲載回数の人名のみを有名人と判定するようにしてもよい。
【0022】
順位決定部18は、有名人判定部16による判定結果に基づいて、コメントの掲載順位を決定する。順位決定部18は、一般人に関する情報が含まれているコメントは下位に表示し、有名人に関するコメントが上位に表示されるようにコメントの掲載順位を決定する。また、順位決定部18は、一般人に関する情報が含まれているコメントであって、且つ、一般人を誹謗、中傷するような表現を含むコメントについては掲載対象から除外する。順位決定部18は、例えば、誹謗、中傷表現が定義された誹謗中傷表現リストを参照し、コメント内にこの誹謗中傷表現リストに定義された表現が含まれている場合、このコメントは誹謗、中傷表現を含むと判定してよい。
【0023】
ページ生成部20は、コンテンツ取得部12により取得された記事情報22Aと、コメント情報22Bに含まれるコメントとを含むウェブページを生成し、端末装置Tに送信する。このウェブページ内において、コメント情報22Bに含まれるコメントは、順位決定部18により決定された掲載順位で掲載される。
【0024】
コンテンツ情報記憶部22は、例えば、ニュース記事を示す記事情報22Aと、ニュース記事に対するコメントを示すコメント情報22Bとを記憶する。記事情報22Aは、ニュース記事の配信担当者等の操作に基づいて適宜更新されるか、あるいは、日次等の所定のタイミングで実施されるバッチ処理により更新されてよい。コメント情報22Bは、ニュースサイトに対するユーザによるコメントの投稿処理に基づいて適宜更新されてよい。
【0025】
有名人リスト記憶部24は、例えば、有名人の人名がリスト化された情報である有名人リスト24Aを記憶する。有名人リスト24Aは、コンテンツ情報記憶部22に記憶された記事情報22Aから人名を抽出したものをリスト化したものである。
【0026】
有名人リスト生成部26は、コンテンツ情報記憶部22に記憶された記事情報22A(複数のニュース記事)から人名を抽出して有名人リストを生成し、有名人リスト記憶部24に記憶させる。有名人リスト生成部26は、日次、週次、月次等の所定のタイミングで実施されるバッチ処理により、上記の有名人リストを生成してよい。
【0027】
サービス提供装置1の各機能部は、例えば、CPU(Central Processing Unit)等のハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)等のハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。
【0028】
コンテンツ情報記憶部22および有名人リスト記憶部24の各々は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ、またはこれらのうち複数が組み合わされたハイブリッド型記憶装置等により実現される。コンテンツ情報記憶部22および有名人リスト記憶部24は、同一の装置により実現されてもよい。また、コンテンツ情報記憶部22および有名人リスト記憶部24の各々の一部または全部は、NASや外部のストレージサーバ等、サービス提供装置1がアクセス可能な外部装置であってもよい。
【0029】
[サービス提供装置の処理]
以下、サービス提供装置1の処理について説明する。
図2は、本実施形態におけるサービス提供装置1の処理の一例を示すフローチャートである。まず、サービス提供装置1は、ユーザの操作に基づいて端末装置Tにより送信されたニュースサイトを要求するリクエストを受信する(S101)。
【0030】
次に、サービス提供装置1は、要求されたニュースサイトの記事情報と、この記事情報に対して投稿されたコメント情報とを、コンテンツ情報記憶部22から取得する(S103)。
【0031】
次に、サービス提供装置1は、取得した記事情報の文字列に含まれる人名を有名人として抽出し、取得したコメント情報に含まれるコメントの文字列に含まれる人名を抽出する(S105)。人名抽出部14は、形態素解析や、固有表現抽出等の手法を用いることで、記事情報の文字列に含まれる人名およびコメントの文字列に含まれる人名を抽出する。
【0032】
図3は、コンテンツ情報記憶部22に記憶された記事情報22Aの一例を示す図である。
図4は、コンテンツ情報記憶部22に記憶されたコメント情報22Bの一例を示す図である。記事情報22Aは、例えば、記事を識別する記事IDと、記事のタイトルと、記事の本文とを含む。コメント情報22Bは、例えば、記事を識別する記事IDと、コメントとを含む。
【0033】
サービス提供装置1は、記事ID「A1」の記事を要求するリクエストを受信した場合、コンテンツ情報記憶部22から、タイトル「歌番組 Aさん熱唱で、瞬間最高視聴率50%を達成」と、本文「2017年12月某日に放送されました歌番組の瞬間最高視聴率が発表されました。Aさんが熱唱する場面で50%をマークしました。続いて、Bさんが登場した場面で40%をマークしました。・・・」とを取得する。
【0034】
また、サービス提供装置1は、記事ID「A1」に対するコメントとして、「Aさんの今後の活躍に期待したいです。」と、「同級生のEさんの歌は最高でした。もう一度会いたいです。」と、「Bさんの歌、本当に最高でした。」と、「Fさんにも出演してほしかったです。残念。」と、「Gさんは最低です。騙されました。」とを取得する。
【0035】
次に、サービス提供装置1は、取得した記事情報A1である、タイトル「歌番組 Aさん熱唱で、瞬間最高視聴率50%を達成」と、本文「2017年12月某日に放送されました歌番組の瞬間最高視聴率が発表されました。Aさんが熱唱する場面で50%をマークしました。続いて、Bさんが登場した場面で40%をマークしました。・・・」との中から、「A」および「B」を有名人として抽出する。また、サービス提供装置1は、取得した上記のコメントから「A」、「E」、「B」、「F」、および「G」を人名として抽出する。
【0036】
次に、サービス提供装置1は、取得したコメント情報に含まれるコメントの各々の文字列に含まれる人名が有名人であるか否かを判定し、判定結果に基づいて、コメントの掲載順位を決定する(S107)。サービス提供装置1は、一般人に関する情報が含まれているコメントは下位に表示し、有名人に関するコメントが上位に表示されるようにコメントの掲載順位を決定する。また、サービス提供装置1は、一般人に関する情報が含まれているコメントであって、一般人を誹謗、中傷するような表現を含むコメントについては掲載対象から除外する。
【0037】
図5は、本実施形態におけるサービス提供装置1の有名人判別および掲載順位決定動作の一例を示すフローチャートである。まず、サービス提供装置1は、抽出したコメントの内、一つのコメントを選択する(S201)。次に、サービス提供装置1は、選択したコメント内に人名が含まれるか否かを判定する(S203)。
【0038】
サービス提供装置1は、選択したコメント内に人名が含まれると判定した場合、この人名が、記事情報A1から抽出した有名人と同じであるか否かを判定する(S205)。サービス提供装置1は、選択したコメント内に含まれる人名が、記事情報A1から抽出した有名人と同じではないと判定した場合、選択したコメント内に含まれる人名が、有名人リスト記憶部24に記憶された有名人リスト24Aに含まれるか否かを判定する(S207)。
【0039】
図6は、有名人リスト記憶部24に記憶された有名人リスト24Aの一例を示す図である。有名人リスト24Aは、例えば、人名と、各人名がニュース記事に掲載された回数を示す掲載回数とを含む。
【0040】
例えば、サービス提供装置1は、取得したコメントの内、「Aさんの今後の活躍に期待したいです。」に含まれる人名「A」と、「Bさんの歌、本当に最高でした。」に含まれる人名「B」とについては、記事情報A1から抽出した有名人「A」および「B」と同じであると判定する。また、サービス提供装置1は、取得したコメントの内、「Fさんにも出演してほしかったです。残念。」に含まれる人名「F」は、有名人リスト24Aに含まれると判定する。
【0041】
尚、有名人リスト24Aに含まれる人名の内、掲載回数が所定の閾値(例えば、3000回)以上の人名のみを有名人と判定する場合、サービス提供装置1は、取得したコメントの内、「Fさんにも出演してほしかったです。残念。」に含まれる人名「F」については、掲載回数が「2569」であり、閾値未満であるため、有名人ではないと判定する。
【0042】
サービス提供装置1は、選択したコメント内に含まれる人名が、有名人リスト24Aに含まれていないと判定した場合、このコメントに誹謗、中傷表現が含まれるか否かを判定する(S209)。サービス提供装置1は、選択したコメントに誹謗、中傷表現が含まれていないと判定した場合、このコメントの掲載順位を下位に決定する(S209)。一方、サービス提供装置1は、選択したコメントに誹謗、中傷表現が含まれていると判定した場合、このコメントを掲載対象から除外する(S211)。
【0043】
例えば、サービス提供装置1は、取得したコメントの内、「同級生のEさんの歌は最高でした。もう一度会いたいです。」に含まれる人名「E」については、記事情報A1から抽出した有名人と同じではなく、有名人リスト24Aにも含まれていないため、有名人ではないと判定し、このコメントの掲載順位を下位に決定する。一方、サービス提供装置1は、「Gさんは最低です。騙されました。」に含まれる人名「G」については、有名人ではないと判定し、且つ、誹謗、中傷表現が含まれると判定し、このコメントを掲載対象から除外する。
【0044】
サービス提供装置1は、選択したコメント内に人名が含まれないと判定した場合(S203)、選択したコメント内に含まれる人名が記事情報から抽出した有名人と同じであると判定した場合(S205)、選択したコメント内に含まれる人名が有名人リスト24Aに含まれていると判定した場合(S207)、コメントの掲載順位を下位に決定した場合(S211)、あるいは、コメントを掲載対象から除外した場合(S213)、取得した全コメントに対する処理が完了した否かを判定する(S215)。
【0045】
サービス提供装置1は、抽出した全コメントに対する処理が完了していないと判定した場合、未処理のコメントを選択し、上記の処理を繰り返す。一方、サービス提供装置1は、抽出した全コメントに対する処理が完了したと判定した場合、本フローチャートの処理を終了する。
【0046】
尚、サービス提供装置1は、選択したコメント内に含まれる人名が有名人であると判定した場合であっても、この有名人を、誹謗、中傷するようなコメントについては掲載順位を下げる、あるいは掲載対象から除外するようにしてもよい。
【0047】
サービス提供装置1は、取得した記事情報22Aと、コメント情報に含まれる各コメントとを含むウェブページを生成し、端末装置Tに送信する(S109)。このウェブページにおいて、コメントは上記の掲載順位決定処理により決定された掲載順位で掲載される。
【0048】
図7は、ウェブページP1の一例を示す図である。ウェブページP1は、例えば、記事情報A1と、4つのコメントC1からC4を含む。この4つのコメントC1からC4において、一般人に関する情報を含むコメント「同級生のEさんの歌は最高でした。もう一度会いたいです。」は掲載順位が下位に設定されている。また、一般人を誹謗、中傷する内容を含むコメント「Gさんは最低です。騙されました。」については掲載対象から除外されている。以上により、本フローチャートの処理を終了する。
【0049】
尚、
図8に示すように、有名人リスト記憶部24に記憶された有名人リスト24Bは、所定の期間ごとに集計された掲載回数の情報を含んでも良い。このように掲載回数を期間ごとに分けて集計して直近の掲載回数を重視するようにすることで、昔は有名人であったが現在は有名人ではなくなった人物(例えば、引退したスポーツ選手、芸能人、政治家等)が、いつまでも有名人と判定されることを防ぐことができる。例えば、サービス提供装置1は、直近1年間の掲載回数のみを判断基準として利用したり、あるいは、直近の閲覧回数の重要度が高くなるように重み係数を設定して掲載回数を算出して閾値(第2閾値)と比較することで、より正確な有名人判定を行うことができる。
【0050】
以上説明した第1実施形態のサービス提供装置1によれば、不適切なコメントの掲載順位を下げる、あるいは掲載対象から除外することで、不適切なコメントが閲覧される機会を自動的に低減させることが可能である。
【0051】
<2.第2実施形態>
以下、第2実施形態について説明する。第1実施形態と比較して、第2実施形態のサービス提供装置1は、検索サービスを提供する検索サーバの検索ログを予め取得しておき、有名人リストと検索ログとの両方を用いて有名人判定を行う点が異なる。このため、構成などについては第1実施形態で説明した図および関連する記載を援用し、詳細な説明を省略する。
【0052】
図9は、本実施形態におけるサービス提供装置1の利用環境を示す図である。サービス提供装置1は、ネットワークNWを介して、端末装置Tに加えて、検索サーバ3にも接続されている。サービス提供装置1は、日次、週次等の所定のタイミングで検索サーバ3により出力された検索ログLを取得し、例えば、有名人リスト記憶部24に記憶させる。
【0053】
有名人判定部16は、コメント情報22Bから抽出された人名が、有名人であるか否かの判定を行う際に、有名人リスト記憶部24に記憶された有名人リスト24A(人名、掲載回数)に加えて、検索ログLを利用する。有名人判定部16は、コメント情報22Bから抽出された人名が、有名人リスト記憶部24に記憶されおり、且つ、この人名の掲載回数が所定の閾値以上であるという条件と、検索ログL内においてこの人名に対する検索履歴の件数が所定の閾値(第3閾値)以上であるという条件と、の両方が満たされる場合に、この人名が有名人であると判定する。このような判定を行うことで、有名人判定部16は、有名人であるか否かの判定をより正確に行うことが可能である。
【0054】
以上説明した第2実施形態のサービス提供装置1によれば、不適切なコメントの掲載順位を下げる、あるいは掲載対象から除外することで、不適切なコメントが閲覧される機会を自動的に低減させることが可能である。また、有名人リストと検索ログとの両方を用いて有名人判定を行うことで、有名人であるか否かの判定をより正確に行うことが可能である。
【0055】
尚、人名が掲載されたニュース記事内の場所に応じて、有名人か否かの判定方法を変えるようにしてもよい。例えば、ニュース記事のタイトルに含まれる人名は極めて有名度の高い人物であることが想定される。また、ニュース記事の本文の上位に記載された人名についても有名度の高い人であることが想定される。このため、サービス提供装置1は、掲載回数の閾値を用いて有名人か否かの判定を行う場合であっても、ニュース記事内のタイトルへの掲載履歴のある人名等の有名度が高い人名であることが想定されるものについては、閾値の判定結果にかかわらず、有名人と判定するようにしてもよい。あるいは、ニュース記事のタイトルに掲載された人名については、掲載回数を1回とカウントせずに、例えば、その10倍である10回とカウントするようにしてもよい。これにより、ニュース記事のタイトルに掲載された人名については有名人と判定されやすくすることができる。
【0056】
一方、ニュース記事の下方にのみ掲載された人名の有名度はさほど高くない場合がある。この場合、ニュース記事の下方にのみ掲載された人名については、掲載回数を1回とカウントせずに、例えば、その半分である0.5回とカウントするようにしてもよい。これにより、ニュース記事の下方にのみ掲載された人名にのみ掲載された人名については、有名人であると判定されにくくすることができる。
【0057】
また、ニュース記事内に掲載された人名の数に応じて、掲載回数のカウント方法を変えるようにしてもよい。例えば、1つのニュース記事内に人名が1個のみが含まれる場合、この人名は極めて有名度の高い人物であることが想定される。一方、1つのニュース記事内に人名が10個含まれる場合、これらの人名の各々の有名度はさほど高くない場合がある。このため、1つのニュース記事内に人名が1個のみの場合は掲載回数を1回とカウントし、1つのニュース記事内に人名が10個の場合は各人名の掲載回数を1/10である0.1回とカウントするようにしてもよい。
【0058】
また、上記の実施形態では、単純に、掲載回数のみに基づいて有名人か否かの判定を行う例について説明した。しかしながら、TF−IDF等の解析手法を用いて、コンテンツにおける人名の掲載回数と、ニュース記事間におけう人名の掲載の偏り状況等を考慮して、有名人か否かの判定を行うようにしてもよい。
【0059】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。