特許第6625087号(P6625087)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧
特許6625087違法コンテンツ探索装置及び違法コンテンツ探索方法
<>
  • 特許6625087-違法コンテンツ探索装置及び違法コンテンツ探索方法 図000003
  • 特許6625087-違法コンテンツ探索装置及び違法コンテンツ探索方法 図000004
  • 特許6625087-違法コンテンツ探索装置及び違法コンテンツ探索方法 図000005
  • 特許6625087-違法コンテンツ探索装置及び違法コンテンツ探索方法 図000006
  • 特許6625087-違法コンテンツ探索装置及び違法コンテンツ探索方法 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6625087
(24)【登録日】2019年12月6日
(45)【発行日】2019年12月25日
(54)【発明の名称】違法コンテンツ探索装置及び違法コンテンツ探索方法
(51)【国際特許分類】
   G06F 16/2452 20190101AFI20191216BHJP
   G06F 16/2455 20190101ALI20191216BHJP
   G06F 16/28 20190101ALI20191216BHJP
   G06F 16/903 20190101ALI20191216BHJP
【FI】
   G06F16/2452
   G06F16/2455
   G06F16/28
   G06F16/903
【請求項の数】7
【全頁数】17
(21)【出願番号】特願2017-79198(P2017-79198)
(22)【出願日】2017年4月12日
(65)【公開番号】特開2018-180910(P2018-180910A)
(43)【公開日】2018年11月15日
【審査請求日】2018年8月6日
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】100153017
【弁理士】
【氏名又は名称】大倉 昭人
(72)【発明者】
【氏名】武藤 博子
(72)【発明者】
【氏名】北原 亮
(72)【発明者】
【氏名】川西 隆仁
(72)【発明者】
【氏名】吉岡 理
【審査官】 三橋 竜太郎
(56)【参考文献】
【文献】 特開2003−050822(JP,A)
【文献】 特開2000−331012(JP,A)
【文献】 特開2009−217661(JP,A)
【文献】 特開2015−197905(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00−16/958
(57)【特許請求の範囲】
【請求項1】
非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、
前記違法コンテンツに用いられることが想定される違法語句を出力する違法語句モデルを、学習データに基づき生成する違法語句モデル生成部と、
照合元のコンテンツの正規タイトルに含まれる語句に対して、前記違法語句モデルを用いて出力された違法語句を含む検索クエリを生成する検索クエリ生成部と、
前記検索クエリ生成部により生成された前記検索クエリに基づきネットワーク上を検索して、前記検索により得られた候補コンテンツを一意に識別するための識別情報を取得し、前記候補コンテンツに付随するプロフィールを取得するコンテンツプロフィール取得・推定部と、
前記コンテンツプロフィール取得・推定部により推定されたプロフィールに基づき、前記候補コンテンツごとの優先度を計算する照合優先度計算部と、
前記照合優先度計算部により計算された優先度順に、前記識別情報で識別される前記候補コンテンツを取得し、該取得した候補コンテンツと前記照合元のコンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを照合するコンテンツDL・照合部と、
前記コンテンツDL・照合部の照合によって前記照合元のコンテンツに合致した前記違法コンテンツのタイトルを新たな学習データとして前記違法語句モデルを更新する違法語句モデル更新部と、
前記違法コンテンツの前記タイトル又は投稿ユーザを含む学習データに基づいて生成された、投稿されたコンテンツが前記違法コンテンツである確度を前記タイトルごとに示すタイトル違法確度、又は前記投稿されたコンテンツが前記違法コンテンツである確度を前記投稿ユーザごとに示す投稿ユーザ違法確度を含むプロフィールを出力するプロフィール推定モデルと、
を備え、
前記コンテンツプロフィール取得・推定部は、プロフィール推定モデルを用いて、前記タイトル違法確度又は前記投稿ユーザ違法確度を含むプロフィールを取得し、
前記照合優先度計算部は、タイトル違法確度、又は投稿ユーザ違法確度を含むプロフィールに基づいて、前記優先度を計算することを特徴とする違法コンテンツ探索装置。
【請求項2】
請求項1に記載の違法コンテンツ探索装置において、
前記検索クエリ生成部は、検索クエリ生成規則を用いて、前記正規タイトルに含まれる語句と同一又は類似の意味内容を有する、前記語句とは異なる表記の語句を含む検索クエリを生成することを特徴とする違法コンテンツ探索装置。
【請求項3】
請求項2に記載の違法コンテンツ探索装置において、
前記検索クエリ生成規則は、任意の語句と、前記語句を漢字変換した語句、前記語句を仮名変換した語句、前記語句をローマ字変換した語句および前記語句の表記ゆれを含む語句の少なくとも1つとの対応を示すことを特徴とする違法コンテンツ探索装置。
【請求項4】
請求項1に記載の違法コンテンツ探索装置において、
前記検索クエリ生成部は、検索クエリ生成規則を用いて、前記照合元のコンテンツに付随するメタ情報を含む検索クエリを生成することを特徴とする違法コンテンツ探索装置。
【請求項5】
請求項4に記載の違法コンテンツ探索装置において、
前記メタ情報は、前記照合元のコンテンツに登場するキャラクターの名称を含み、
前記検索クエリ生成部は、前記キャラクターの名称を含む前記検索クエリを生成することを特徴とする違法コンテンツ探索装置。
【請求項6】
請求項1から5のいずれか一項に記載の違法コンテンツ探索装置において、
前記違法コンテンツとして探索されたコンテンツのタイトルに違法を示すラベルを付与して、前記学習データに追加する違法語句モデル更新部をさらに含むことを特徴とする違法コンテンツ探索装置。
【請求項7】
非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、
前記違法コンテンツに用いられることが想定される違法語句を出力する違法語句モデルを、学習データに基づき生成するステップと、
合元のコンテンツの正規タイトルに含まれる語句に対して、前記違法語句モデルを用いて出力された違法語句を含む検索クエリを生成するステップと、
前記検索クエリに基づきネットワーク上を検索して、前記検索により得られた候補コンテンツを一意に識別するための識別情報を取得し、前記候補コンテンツに付随するプロフィールを取得するステップと、
前記取得されたプロフィールに基づき、前記候補コンテンツごとの優先度を計算するステップと、
前記優先度順に、前記識別情報で識別される前記候補コンテンツを取得し、該取得した候補コンテンツと前記照合元のコンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを照合するステップと、
前記照合によって前記照合元のコンテンツに合致した前記違法コンテンツのタイトルを新たな学習データとして前記違法語句モデルを更新するステップと、を含み、
前記プロフィールを取得するステップは、前記違法コンテンツの前記タイトル又は投稿ユーザを含む学習データに基づいて生成された、投稿されたコンテンツが前記違法コンテンツである確度を前記タイトルごとに示すタイトル違法確度、又は前記投稿されたコンテンツが前記違法コンテンツである確度を前記投稿ユーザごとに示す投稿ユーザ違法確度を含むプロフィールを出力するプロフィール推定モデルを用いて、前記タイトル違法確度又は前記投稿ユーザ違法確度を含むプロフィールを取得するステップを含み
前記優先度を計算するステップは、タイトル違法確度、又は投稿ユーザ違法確度を含むプロフィールに基づいて、前記優先度を計算するステップを含むことを特徴とする違法コンテンツ探索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、違法コンテンツ探索装置及び違法コンテンツ探索方法に関する。
【背景技術】
【0002】
近年、通信ネットワーク技術の発展、及びスマートフォン、PC(Personal Computer)等に代表される通信端末装置の進歩に伴い、動画等のコンテンツをアップロード及びダウンロード可能なコンテンツ配信サイトが多数、開設されている。この種のコンテンツ配信サイトにおいては、ユーザはコンテンツを手軽にアップロードできるため、コンテンツ配信サイトにアップロードされるコンテンツ数が年々増加している。このようなコンテンツ配信サイトでは、コンテンツの権利を有さない非権利者によりコンテンツがアップロードされることが問題となっている。そのため、非権利者によりアップロードされた違法コンテンツを探索する手法が求められている。
【0003】
多数のコンテンツがアップロードされているコンテンツ配信サイトからコンテンツを探索する手法としては種々の手法が知られている。例えば、非特許文献1には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザが入力したクエリと関連のある単語の集合を取得し、ユーザが入力したクエリだけでなく、ユーザが入力したクエリと関連があるとして取得した単語をクエリとして検索を実行する手法が記載されている。
【0004】
また、非特許文献2には、単語間の因果関係、上位下位関係、属性関係などを規定した単語間関係辞書を用いて、ユーザに選択されたコンテンツの概要文と、他のコンテンツの概要文との類似性を評価し、類似性の高いコンテンツを、ユーザによって選択されたコンテンツに関連するコンテンツとして提示する手法が記載されている。
【0005】
また、非特許文献3には、コンテンツに対する意見を収集するために、Twitter(登録商標)に登録されているコンテンツ名を含むツイートが投稿されてから、所定時間内に投稿された同じコンテンツ名を含むツイート(隣接ツイート群)を収集し、隣接ツイート群内で共起頻度の高い単語を関連する単語として抽出し、該関連する単語をクエリとしてツイートを検索する手法が記載されている。
【0006】
また、非特許文献4には、通信ネットワークを介してアクセスされ得る多数のサイトから有害サイトを探す手法が知られている。この手法では、有害サイトのHTML(Hyper Text Markup Language)に含まれる文字列をSVM(Support Vector Machine)により統計的に学習し、該学習に基づいて抽出された文字列をHTMLに含むサイトを有害サイトとして判定する。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】宮崎太郎、外6名、「単語間関係辞書を用いたテレビ番組検索」、言語処理学会 第22年次大会 発表論文集、平成28年3月、p.917−920
【非特許文献2】山田一郎、外4名、「ランダムウォークを利用した番組類似性評価」、情報処理学会研究報告、Vol.2012−ML−207、No.12,2012年7月27日
【非特許文献3】中澤昌美、外3名、「番組視聴者と番組中の話題変化を考慮した番組関連ツイート収集手法の提案」、情報・システム講演論文集1、2013年電子情報通信学会総合大会、2013年3月19日
【非特許文献4】池田和史、外5名、「HTML要素に基づく有害サイト検出方法」、情報処理学会論文誌、Vol.52、No.8、P.2474−2483
【発明の概要】
【発明が解決しようとする課題】
【0008】
上述した非特許文献1〜4では、ユーザの入力あるいは選択に応じた検索クエリと意味的に関連のある単語を取得し、取得した関連のある単語も検索クエリとすることで、ユーザが所望するコンテンツと関連のあるコンテンツが抽出される可能性が高くなった。しかしながら、非特許文献1〜4に記載の手法では、違法コンテンツを適切に探索することができないことがある。違法コンテンツを投稿する非権利者は、該違法コンテンツが探索されるのを回避しつつも、正規のコンテンツとの関連性を閲覧者に認識させるようなタイトルを違法コンテンツに付与することがある。この場合、非特許文献1〜3に記載されているような、上位下位関係、因果関係などの単語間の意味的な関連性を用いて得られた検索クエリを用いて検索しても、違法コンテンツを抽出することができないことがある。
【0009】
したがって、かかる点に鑑みてなされた本発明の目的は、違法コンテンツの探索漏れが生じる可能性を低減する違法コンテンツ探索装置及び違法コンテンツ探索方法を提供することにある。
【課題を解決するための手段】
【0010】
上記の課題を解決するため、本発明に係る違法コンテンツ探索装置は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置であって、前記違法コンテンツに用いられることが想定される違法語句を出力する違法語句モデルを、学習データに基づき生成する違法語句モデル生成部と、照合元のコンテンツの正規タイトルに含まれる語句に対して、前記違法語句モデル生成部により生成された違法語句モデルを用いて出力された違法語句を含む検索クエリを生成する検索クエリ生成部と、前記検索クエリ生成部により生成された前記検索クエリに基づき前記ネットワーク上を検索して、前記検索により得られた候補コンテンツを一意に識別するための識別情報を取得し、前記候補コンテンツに付随するプロフィールを取得するコンテンツプロフィール取得・推定部と、前記コンテンツプロフィール取得・推定部により推定されたプロフィールに基づき、前記候補コンテンツごとの優先度を計算する照合優先度計算部と、前記照合優先度計算部により計算された優先度順に、前記識別情報で識別される前記候補コンテンツを取得し、該取得した候補コンテンツと前記照合元のコンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを照合するコンテンツDL・照合部と、前記コンテンツDL・照合部の照合によって前記照合元のコンテンツに合致した前記違法コンテンツのタイトルを新たな学習データとして前記違法語句モデルを更新する違法語句モデル更新部と、
前記違法コンテンツの前記タイトル又は投稿ユーザを含む学習データに基づいて生成された、投稿されたコンテンツが前記違法コンテンツである確度を前記タイトルごとに示すタイトル違法確度、又は前記投稿されたコンテンツが前記違法コンテンツである確度を前記投稿ユーザごとに示す投稿ユーザ違法確度を含むプロフィールを出力するプロフィール推定モデルと、を備え、前記コンテンツプロフィール取得・推定部は、プロフィール推定モデルを用いて、前記タイトル違法確度又は前記投稿ユーザ違法確度を含むプロフィールを取得し、前記照合優先度計算部は、タイトル違法確度、又は投稿ユーザ違法確度を含むプロフィールに基づいて、前記優先度を計算することを特徴とする。
【0011】
また、本発明に係る違法コンテンツ探索方法は、非権利者により投稿された違法コンテンツを探索する違法コンテンツ探索装置が実行する違法コンテンツ探索方法であって、前記違法コンテンツに用いられることが想定される違法語句を出力する違法語句モデルを、学習データに基づき生成するステップと、照合元のコンテンツの正規タイトルに含まれる語句に対して、前記違法語句モデルを用いて出力された違法語句を含む検索クエリを生成するステップと、前記検索クエリに基づき前記ネットワーク上を検索して、前記検索により得られた候補コンテンツを一意に識別するための識別情報を取得し、前記候補コンテンツに付随するプロフィールを取得するステップと、前記取得されたプロフィールに基づき、前記候補コンテンツごとの優先度を計算するステップと、前記優先度順に、前記識別情報で識別される前記候補コンテンツを取得し、該取得した候補コンテンツと前記照合元のコンテンツとを照合して、前記取得した候補コンテンツが前記違法コンテンツであるか否かを照合するステップと、前記照合によって前記照合元のコンテンツに合致した前記違法コンテンツのタイトルを新たな学習データとして前記違法語句モデルを更新するステップと、を含み、前記プロフィールを取得するステップは、前記違法コンテンツの前記タイトル又は投稿ユーザを含む学習データに基づいて生成された、投稿されたコンテンツが前記違法コンテンツである確度を前記タイトルごとに示すタイトル違法確度、又は前記投稿されたコンテンツが前記違法コンテンツである確度を前記投稿ユーザごとに示す投稿ユーザ違法確度を含むプロフィールを出力するプロフィール推定モデルを用いて、前記タイトル違法確度又は前記投稿ユーザ違法確度を含むプロフィールを取得するステップを含み、前記優先度を計算するステップは、タイトル違法確度、又は投稿ユーザ違法確度を含むプロフィールに基づいて、前記優先度を計算するステップを含むことを特徴とする。
【発明の効果】
【0012】
本発明によれば、違法コンテンツの探索漏れが生じる可能性を低減することができる。
【図面の簡単な説明】
【0013】
図1】本実施形態に係る違法コンテンツ探索装置の構成例を示す機能ブロック図である。
図2】検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの例を示す図である。
図3】検索クエリ生成規則と該検索クエリ生成規則に従って生成された検索クエリの他の例を示す図である。
図4】コンテンツのタイトル及びプロフィールの例を示す図である。
図5】本実施形態に係るコンテンツ探索方法の一例を示すフローチャートである。
【発明を実施するための形態】
【0014】
まず、図1を参照して、本発明の本実施形態の機能構成について説明する。図1は、本実施形態に係る違法コンテンツ探索装置1の機能ブロック図である。
【0015】
図1に示すように、違法コンテンツ探索装置1は、違法語句モデル生成部11と、違法語句モデル記憶部12と、検索クエリ生成規則記憶部13と、検索クエリ生成部14と、照合候補取得部15と、プロフィール推定モデル生成部16と、プロフィール推定モデル記憶部17と、コンテンツプロフィール取得・推定部18と、例外コンテンツ除去部19と、照合優先度計算部20と、照合パラメータ設定部23と、コンテンツDL(Download:ダウンロード)・照合部24と、違法語句モデル更新部25と、プロフィール推定モデル更新部26とを備える。
【0016】
違法コンテンツ探索装置1は、照合元のコンテンツの正規タイトル及びメタ情報に基づいて、インターネット上のコンテンツ取得元に記憶されている違法コンテンツを探索する。違法コンテンツは、非権利者によって投稿されたコンテンツである。メタ情報は、照合元の(正規)コンテンツに付随する属性情報であって、例えば、サブタイトル、コンテンツに登場する出演者、キャラクターの名称、放送回番号、放送日時、出演者、略称、コンテンツのジャンルを含む。
【0017】
コンテンツ取得元は、インターネット上に存在する、コンテンツが投稿されているサイト(例えば、コンテンツ投稿サイト、違法コンテンツのURL(Uniform Resource Locator)をまとめたサイト等)のことである。コンテンツ取得元は、投稿ユーザの要求に基づいて通信端末からのコンテンツの投稿を受け付け、投稿されたコンテンツを記憶する。また、コンテンツ取得元は、ユーザの要求に基づいて、記憶しているコンテンツを通信端末にダウンロードさせる。なお、コンテンツ取得元は、例えば、コンテンツ投稿サイトなどを管理するサーバ装置、複数台のサーバによって構成される分散システム、クラウドサービスなどである。また、「投稿する」とは、コンテンツをアップロードし、記憶させることである。また、「投稿ユーザ」とは、コンテンツ取得元を利用するユーザのうちコンテンツを投稿するユーザである。
【0018】
違法語句モデル生成部11は、違法又は非違法を示すラベルが付与されたコンテンツのタイトルを学習データとする機械学習によって違法語句モデルを生成する。違法語句モデルは、任意の語句に対して、違法コンテンツに用いられることが想定される違法語句を出力するモデルである。
【0019】
違法語句モデル記憶部12は、違法語句モデル生成部11によって生成された違法語句モデルを記憶する。
【0020】
検索クエリ生成規則記憶部13は、違法コンテンツをコンテンツ取得元から探索するための検索クエリを、照合元のコンテンツ(正規コンテンツ)の正規タイトルから生成するための規則である検索クエリ生成規則を記憶する。上述したように、違法コンテンツが権利者から発見されるのを回避しつつも、正規コンテンツとの関連性をユーザに認識させるために、違法コンテンツのタイトルは、例えば、正規コンテンツの正規タイトルの全部あるいは一部が、仮名変換、漢字変換、ローマ字又は略称などの類似の語句に変換され(言い換えられ)たものであることがある。検索クエリ生成規則は、コンテンツのタイトルに含まれる語句から、上述したような言い換えに得られる語句を生成する規則である。なお、上述したような言い換えは、例えば、Word2Vec等の言語処理手法を用いて出力することができる。また、検索クエリ生成規則は、コンテンツのタイトルに含まれる語句の表記揺れを含む語句を生成する規則である。検索クエリ生成規則記憶部13は、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)ごとに異なる傾向をもつ検索クエリ生成規則に基づいて語句を生成してもよい。
【0021】
検索クエリ生成規則は、任意の語句を、例えば、仮名変換、ローマ字変換、漢字変換することという規則である。また、検索クエリ生成規則は、任意の語句を外国語へ翻訳するという規則である。また、検索クエリ生成規則は、任意の語句が表記ゆれした語句に変換するという規則である。
【0022】
検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、並びに該コンテンツの正規タイトル及びメタ情報を入力する。
【0023】
検索クエリ生成部14は、違法語句モデル記憶部12に記憶されている違法語句モデル、検索クエリ生成規則記憶部13に記憶されている検索クエリ生成規則を用いて、正規タイトルに関連する違法語句を含む検索クエリを生成する。
【0024】
具体的には、検索クエリ生成部14は、正規タイトルに基づいて、上述の違法語句モデルから算出される確率値が閾値以上となる違法語句を含む検索クエリを生成する。また、検索クエリ生成部14は、正規タイトルに含まれる語句と同一又は類似の意味内容を有する、異なる表記の語句を含む検索クエリを生成する。例えば、検索クエリ生成部14は、上述の検索クエリ生成規則に従って正規タイトルに含まれる語句を仮名変換、漢字変換、又はローマ字変換することによって検索クエリを生成する。
【0025】
【0026】
また、検索クエリ生成部14は、入力した正規タイトルを検索クエリとして生成してもよい。
【0027】
また、検索クエリ生成部14は、メタ情報を含む検索クエリを生成することができる。検索クエリ生成部14は、検索クエリ生成規則を用いて、正規タイトル及びメタ情報の1つ以上を含む、例えば「タイトル サブタイトル」、「タイトル 日付」、「タイトル 放送回番号」、「出演者」、「略称 日付」等を検索クエリとして生成する。図3に示す例では、検索クエリ生成部14は、例えば、正規タイトルが「火曜ドラマ『トリオ』」であり、検索クエリ生成規則が、話数表記(1)である場合、「トリオ 1話」という検索クエリを生成する。
【0028】
また、検索クエリ生成部14は、違法語句モデル又は検索クエリ生成規則を用いて、コンテンツのジャンル(動画の場合、ドラマ、アニメ、映画等)よる傾向に応じて正規タイトルを言い換えた語句を検索クエリとして生成することができる。
【0029】
検索クエリ生成部14は、上述のように生成した検索クエリを照合候補取得部15に出力する。
【0030】
照合候補取得部15は、検索クエリ生成部14によって出力された検索クエリに基づいて、通信ネットワーク上のコンテンツ取得元を検索して、検索クエリに合致するコンテンツを、違法コンテンツの可能性がある候補コンテンツとして、該候補コンテンツの識別情報をコンテンツ取得元から取得する。識別情報は、候補コンテンツを一意に識別するための情報であり、例えば、インターネット上でのコンテンツのアドレス、すなわちURLなどである。また、照合候補取得部15は、検索クエリに合致するコンテンツのタイトル及びコンテンツに付随するプロフィール(付随プロフィール)をコンテンツ取得元から取得する。ここで、照合候補取得部15が取得するプロフィールは、図4に示すコンテンツ長、投稿時刻、投稿ユーザ名等を含む。
【0031】
具体的には、照合候補取得部15は、検索クエリ生成部14から出力された検索クエリにより、コンテンツ取得元にコンテンツ群の中から検索クエリを含むタイトルを有する1つ以上のコンテンツを抽出させる。そして、照合候補取得部15は、コンテンツ取得元によって抽出されたコンテンツのうち、一定数のコンテンツを候補コンテンツとして、それぞれの識別情報、タイトル、及び付随プロフィールを取得する。例えば、照合候補取得部15は、検索クエリとの合致度が高いとして抽出されたコンテンツのうち、上位一定数のコンテンツそれぞれの識別情報、タイトル、及び付随プロフィールを取得する。
【0032】
また、コンテンツ取得元の中には、検索クエリを用いた検索により抽出されたコンテンツだけでなく、検索クエリを用いた検索により抽出されたコンテンツとの関連性が高い関連コンテンツ(例えば、視聴するユーザ層が同じコンテンツなど)を1つ以上、抽出し、抽出された関連コンテンツのタイトル、サムネイル、付随プロフィール等を提示する機能を有するものがある。このような場合、照合候補取得部15は、コンテンツ取得元により抽出された関連コンテンツを候補コンテンツとし、該候補コンテンツの識別情報、タイトル及び付随プロフィールを取得してもよい。このとき、照合候補取得部15は、関連コンテンツの、検索クエリによって抽出されたコンテンツとの関連度合いを示す関連度を取得してもよい。
【0033】
また、照合候補取得部15は、コンテンツ取得元に新たに記憶されたコンテンツ(新着コンテンツ)を上位一定数、抽出させてもよい。この場合、更に、照合候補取得部15は、新着コンテンツを候補コンテンツとして、該候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する。新着コンテンツは、例えば、照合候補取得部15がコンテンツを取得するタイミングを基準として、該基準の所定の時間前から該基準までの間に、コンテンツ取得元に投稿されたコンテンツである。これにより、照合候補取得部15は、検索クエリに基づいて取得したコンテンツ、関連コンテンツだけでは取得しきれないコンテンツに違法コンテンツが含まれている場合に、違法コンテンツを漏れなく探索することができる。
【0034】
照合候補取得部15が取得する候補コンテンツの数は、コンテンツ取得元及びコンテンツに応じた設定パラメータとして、リスト形式等で予め設定された適切な数である。例えば、特定のジャンル(ドラマ、アニメ等)について違法コンテンツが多く投稿される傾向が強いコンテンツ取得元が存在する場合、照合候補取得部15は、当該コンテンツ取得元からは、特定のジャンルの候補コンテンツを他のジャンルの候補コンテンツより多く取得する。また、照合候補取得部15は、違法コンテンツの投稿率が高い投稿ユーザに係るコンテンツを、他の投稿ユーザに係るコンテンツより多く取得してもよい。これにより、候補コンテンツで識別されるコンテンツに違法コンテンツが含まれる可能性を高めることができる。
【0035】
照合候補取得部15は、コンテンツ取得元から取得した、候補コンテンツの識別情報、タイトル、及び付随プロフィールをコンテンツプロフィール取得・推定部18に出力する。
【0036】
プロフィール推定モデル生成部16は、コンテンツのタイトル、及び該コンテンツに付随する付随プロフィールに基づき、該コンテンツに関する統計的な情報である統計プロフィールを出力するプロフィール推定モデルを生成する。プロフィール推定モデルは、タイトルと違法性との対応、付随プロフィールと違法性との対応をそれぞれ示すモデルである。
【0037】
具体的には、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度をタイトルごとに示すタイトル違法確度を学習し、タイトルとタイトル違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。プロフィール推定モデル生成部16は、各クラスに分類される確度を算出できる統計モデル(SVM、ナイーブベイズ等)を用いた学習によってプロフィール推定モデルを生成することが望ましい。クラス分類は、違法/非違法の2値分類、コンテンツタイトル(複数)と非違法等との多値分類のどちらでもよい。なお、プロフィール推定モデルを生成する具体的な手法は、既知の任意の手法とすることができる。例えば、「言語処理のための機械学習入門(奥村学監修、高村大也著、コロナ社、p101−117)」にその手法の一例が記載されている。この方法では、学習データとなるテキストを形態素解析し、含有される単語を抽出して学習を行っているが、形態素解析を行わずにテキストを文字列として学習に用いることも可能である。
【0038】
また、プロフィール推定モデル生成部16は、投稿されたコンテンツが違法コンテンツである確度を投稿ユーザごとに示す投稿ユーザ違法確度を学習し、該投稿ユーザと投稿ユーザ違法確度との対応を示す統計モデルをプロフィール推定モデルとして生成する。投稿ユーザ違法確度は、過去に各投稿ユーザによって投稿されたコンテンツの違法性に基づいて推定される。具体的には、プロフィール推定モデル生成部16は、投稿ユーザが過去に投稿したコンテンツにおける違法確度の高いタイトルを有するコンテンツの含有率、コンテンツ自体の削除率等の特徴量と、投稿ユーザの違法確度との対応を示す違法確度学習データに基づいてプロフィール推定モデルを作成する。
【0039】
プロフィール推定モデル記憶部17は、プロフィール推定モデル生成部16によって生成されたプロフィール推定モデルを記憶する。
【0040】
コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに基づいて、候補コンテンツの統計プロフィールを取得する。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツの統計プロフィールは、コンテンツの内容に関する情報及び投稿ユーザに関する情報である。コンテンツプロフィール取得・推定部18によって取得される候補コンテンツのプロフィールは、図4に示すように、上述のコンテンツ長、投稿時刻、投稿ユーザ名、に加えてタイトルの違法確度、投稿ユーザの違法確度、投稿ユーザが投稿したコンテンツの削除率、ユーザ種別、投稿ユーザの編集傾向種別(画像編集あり)、投稿ユーザの編集傾向種別(音声編集あり)を含む。これらのプロフィールのうち、追って詳細に説明する、プロフィール推定モデルを用いて推定されるタイトルの違法確度、及び投稿ユーザの違法確度を統計プロフィールという。
【0041】
ユーザ種別は、コンテンツの投稿ユーザが、上述した照合元のコンテンツを生成した(もしくは権利をもつ)正規ユーザであるか否かを示す種別である。ユーザ種別は、予め作成された正規ユーザリスト等に基づいて決定される。編集傾向種別は、コンテンツに対して施された編集、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無を示す種別である。編集傾向種別は、少なくとも一部の投稿ユーザについて予め作成された、該投稿ユーザの編集傾向種別のリストに基づいて決定される。
【0042】
具体的には、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された付随プロフィールに含まれるコンテンツ長及び投稿時刻を候補コンテンツのコンテンツ長及び投稿時刻として取得する。
【0043】
また、コンテンツプロフィール取得・推定部18は、予めメモリに記憶された正規ユーザリストに基づいて、照合候補取得部15から出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザのユーザ種別を推定する。具体的には、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれている場合、該投稿ユーザのユーザ種別が正規であると推定する。また、コンテンツプロフィール取得・推定部18は、投稿ユーザが、正規ユーザリストに含まれていない場合、該投稿ユーザのユーザ種別が非正規であると推定する。
【0044】
また、コンテンツプロフィール取得・推定部18は、編集傾向種別リストに基づいて、照合候補取得部15によって出力された付随プロフィールに含まれる投稿ユーザに基づいて該投稿ユーザの編集傾向種別を推定する。編集傾向種別リストは、予めメモリに記憶されているリストであって、投稿ユーザと、編集傾向種別との対応を示すリストである。編集傾向種別は、該投稿ユーザに係るコンテンツについて多く行われた編集方式の種別である。種別には、例えば、カットによる編集、時間伸縮、PinP等の特殊処理の有無等が含まれる。コンテンツプロフィール取得・推定部18は、推定した編集方式を編集傾向種別として取得する。
【0045】
また、コンテンツプロフィール取得・推定部18は、照合候補取得部15によって出力された候補コンテンツのタイトル及び投稿ユーザ名に基づいてそれぞれタイトル違法確度又は投稿ユーザ違法確度をプロフィール推定モデル記憶部17に記憶されているプロフィール推定モデルに基づいて推定する。なお、以降の説明では、コンテンツプロフィール推定部18によって取得又は推定された付随プロフィール及び統計プロフィール、並びにコンテンツプロフィール推定部18によって各種リストを用いて推定されたプロフィールを単に「プロフィール」ということがある。
【0046】
さらに、コンテンツプロフィール取得・推定部18は、上述のように取得又は推定したプロフィールを識別情報及びタイトルとともに例外コンテンツ除去部19に出力する。
【0047】
例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18から出力されたプロフィールに基づいて、違法コンテンツの候補から除去する例外コンテンツを決定する。具体的には、例外コンテンツ除去部19は、コンテンツプロフィール取得・推定部18によって取得されたプロフィールが所定の条件を満たす場合、該プロフィールに対応する候補コンテンツを例外コンテンツとして除去する。所定の条件は、例えば、プロフィールに含まれるユーザ種別が正規であることとしてもよい。また、所定の条件は、例えば、付随プロフィールに含まれる投稿時刻が照合元のコンテンツの公開時刻より前であることとしてもよいし、付随プロフィールに含まれるコンテンツ長が所定の長さ(例えば、数秒程度)より短いこととしてもよい。所定の条件はこれらに限られず、候補コンテンツが違法コンテンツでない可能性が高いことを示す任意の条件とすることができる。
【0048】
例外コンテンツ除去部19は、除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールを照合優先度計算部20に出力する。
【0049】
照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった候補コンテンツの識別情報、タイトル、及びプロフィールに基づいて、後述する照合処理における優先度を計算する。
【0050】
具体的には、照合優先度計算部20は、候補コンテンツの違法確度に基づいて、優先度計算モデルを用いて優先度を計算する。
【0051】
まず、照合優先度計算部20は、候補コンテンツのタイトルを示す文字列と、照合元のコンテンツのタイトルを示す文字列との編集距離を計算する。編集距離は、2つの文字列がどの程度異なっているかを示す距離の一種であり、1文字の挿入・削除・置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。すなわち、編集距離が小さいほど、候補コンテンツのタイトルを示す文字列と照合元のコンテンツのタイトルを示す文字列とは関連性が高いことを示している。また、照合優先度計算部20は、照合元のコンテンツのタイトルを示す文字列の代わりに、例えば、照合元のコンテンツのメタ情報に含まれる、該照合元のコンテンツに登場するキャラクターの名称、出演者名、サブタイトル等の文字列と、候補コンテンツのタイトルを示す文字列との編集距離を計算してもよい。
【0052】
また、照合優先度計算部20は、編集距離が所定の値より小さいタイトルに係る候補コンテンツの識別情報、タイトル、及びプロフィールを抽出する。
【0053】
また、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離との両方に基づいて関連性を判定してもよい。例えば、照合優先度計算部20は、候補コンテンツのタイトルについての編集距離と、人物の名前についての編集距離とにそれぞれ重み付けしたうえで足し合わせたスコアを計算してもよい。この場合、照合優先度計算部20は、所定の値より小さいスコアに係る候補コンテンツを抽出する。
【0054】
上述のように、照合候補取得部15は、検索クエリに基づいて抽出されたコンテンツ、該コンテンツの関連コンテンツの他に、新着コンテンツを含めた幅広い範囲の候補コンテンツの識別情報を取得する。これにより、識別情報で識別される候補コンテンツには、照合元のコンテンツと関連性の低いコンテンツが多く含有されている可能性がある。そこで、照合優先度計算部20が、編集距離の小さい、すなわち関連性の高いと見込まれる候補コンテンツのみを照合の対象として抽出することにより、後述する照合に係る処理負荷を軽減することが可能となる。
【0055】
照合優先度計算部20は、編集距離に基づいて候補コンテンツを抽出すると、抽出された候補コンテンツのタイトル違法確度に基づいて優先度を決定する。このとき、候補コンテンツのタイトル違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれるタイトル違法確度が用いられる。また、照合優先度計算部20は、抽出された候補コンテンツのタイトル違法確度に代えて、投稿ユーザ違法確度を用いて優先度を決定してもよい。候補コンテンツの投稿ユーザ違法確度として、コンテンツプロフィール取得・推定部18によって推定されたプロフィールに含まれる投稿ユーザ違法確度が用いられる。また、照合優先度計算部20は、タイトル違法確度及び投稿ユーザ違法確度の両方に基づいて優先度を決定してもよい。例えば、照合優先度計算部20は、タイトル違法確度と投稿ユーザ違法確度とのそれぞれに重み付けをした値の和を優先度とすることができる。また、照合優先度計算部20は、先に計算された編集距離と、各違法確度との組合せにより優先度を決定してもよい。
【0056】
さらに、照合優先度計算部20は、照合優先度計算部20が計算した優先度を、該優先度に係る候補コンテンツの識別情報、タイトル、及びプロフィールとともにコンテンツDL・照合部24に出力する。
【0057】
照合パラメータ設定部23は、予め記憶された設定パラメータのリストを用いて、候補コンテンツの特徴に基づいて、照合の処理で用いられる照合用パラメータを設定する。照合とは、候補コンテンツと照合元のコンテンツとが合致するか否かを判定することである。設定パラメータは、例えば、フレーム長、照合手法である。フレーム長は、照合処理における照合の基本単位となるフレームの長さである。照合手法には、音声によって照合を行う手法、画像によって照合を行う手法等が含まれる。
【0058】
照合手法として、既知の任意の手法を用いることができる。例えば、「音楽や映像を特定するメディア指紋技術とその応用(川西隆仁、他、The Japan Society for Industrial and Applied Mathematics、応用数理 21(4)、P.289−292、2011年12月22日」にその手法の一例が記載されている。
【0059】
設定パラメータリストは、候補コンテンツのプロフィール又はプロフィールの組合せに対応して、適切な設定が記載されているリストである。設定パラメータリストで用いられる候補コンテンツのプロフィールは、照合の精度が確保される程度に必要とされるフレーム長を推定するためのものであって、例えば、ジャンルである。候補コンテンツのジャンルがスポーツのマッシュアップコンテンツである場合、該候補コンテンツは、数秒程度の短い動画を編集して構成される。このため、設定パラメータリストにおいて、例えば、スポーツのマッシュアップコンテンツというジャンルに対応して、短いフレーム長(例えば2秒から3秒程度)という設定が記載されている。これにより、コンテンツDL・照合部24が、設定された短いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを検出することができる。
【0060】
一方、候補コンテンツのジャンルがドラマや映画である場合、コンテンツ長は数十分から数時間程度の長さである。このため、設定パラメータリストにおいて、例えば、ドラマ又は映画というジャンルに対応して、長いフレーム長(例えば5分程度)という設定が記載されている。これにより、コンテンツDL・照合部24は、設定された長いフレーム長で照合処理を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
【0061】
また、設定パラメータリストで用いられる候補コンテンツのプロフィールは、例えば、編集手法であってもよい。編集手法は、コンテンツに対して行われた編集の手法であり、例えば、画像のなかに画像を埋め込むPinP、時間伸縮等が含まれる。照合パラメータ設定部23は、候補コンテンツの編集手法を、コンテンツプロフィール取得・推定部18が取得した投稿ユーザの編集傾向種別としてもよい。
【0062】
例えば、候補コンテンツの編集手法がPinPであり、異なる画像の中に照合元のコンテンツの画像と同様の画像が埋め込まれている場合、候補コンテンツは画像全体として照合元のコンテンツと異なると認識される。そのため、画像による照合によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、PinPという編集手法に対応して、音声による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、音声による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
【0063】
また、例えば、候補コンテンツの編集手法が時間伸縮である場合、候補コンテンツの音声は、編集前の音声とは抽出される特徴量が大きく異なる。そのため、候補コンテンツが正規コンテンツを時間伸縮したものである場合、音声による照合処理によって、候補コンテンツが照合元のコンテンツとの一致度が高いとは判定されにくい。このため、設定パラメータリストにおいて、例えば、時間伸縮という編集手法に対応して、画像による照合という設定が記載されている。これにより、コンテンツDL・照合部24は、画像による照合を行い、照合元のコンテンツに合致している候補コンテンツを正確に検出することができる。
【0064】
コンテンツDL・照合部24は、照合優先度計算部20によって計算された優先度が高い順に、候補コンテンツをコンテンツ取得元からダウンロードする。そして、コンテンツDL・照合部24は、ダウンロードした候補コンテンツを、照合パラメータ設定部23による設定に従い、照合元のコンテンツと照合することによって、候補コンテンツが照合元のコンテンツに合致するか否かを判定する。コンテンツDL・照合部24は、照合元のコンテンツに合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。
【0065】
また、コンテンツDL・照合部24は、コンテンツのコンテンツ長が長い場合、優先度が高い候補コンテンツから順にダウンロードし、ダウンロードしたコンテンツから順に照合することによって、効率的に違法コンテンツを探索することが可能である。
【0066】
また、コンテンツDL・照合部24は、コンテンツ長が長い候補コンテンツ(例えば数十分〜数時間の動画コンテンツ等)をダウンロードするとともに、並行してダウンロードされた部分から照合を開始してもよい。この場合、コンテンツDL・照合部24は、候補コンテンツと照合元のコンテンツとが合致したとき、候補コンテンツの残り時間のダウンロードを中止する。コンテンツDL・照合部24は、合致した候補コンテンツを違法コンテンツとして、該違法コンテンツの識別情報を出力する。そして、コンテンツDL・照合部24は、次に優先度の高い候補コンテンツのダウンロードおよび照合を行う。これにより、コンテンツDL・照合部24によって、1つの候補コンテンツの照合に要する時間を短縮させる、すなわち、単位時間あたりに照合される候補コンテンツの数を増加させることができる。
【0067】
また、コンテンツDL・照合部24は、違法コンテンツのタイトルを、違法を示すラベルとともに違法語句モデル更新部25に出力する。また、コンテンツDL・照合部24は、違法コンテンツのプロフィールを、違法を示すラベルとともにプロフィール推定モデル更新部26に出力する。
【0068】
違法語句モデル更新部25は、コンテンツDL・照合部24から出力された違法コンテンツのタイトルに基づいて違法語句モデルを更新する。具体的には、違法語句モデル更新部25は、違法コンテンツのタイトルを新たな学習データとした機械学習により、違法語句モデル生成部11に違法語句モデルを更新させる。これにより、違法語句モデルの精度が高まることが期待される。
【0069】
プロフィール推定モデル更新部26は、コンテンツDL・照合部24から出力された違法コンテンツのプロフィールに基づいてプロフィール推定モデルを更新する。具体的には、プロフィール推定モデル更新部26は、違法コンテンツのプロフィールを新たな学習データとした機械学習により、プロフィール推定モデル生成部16にプロフィール推定モデルを更新させる。これにより、プロフィール推定モデルの精度が高まることが期待される。
【0070】
続いて、本実施形態における違法コンテンツ探索装置1が実行するコンテンツ探索方法について図5に示すフローチャートを参照して説明する。図5は、コンテンツ探索方法の一例を示すフローチャートである。
【0071】
まず、検索クエリ生成部14は、違法コンテンツ探索装置1のオペレータの操作に基づいて照合元のコンテンツ、タイトル、及びメタ情報を入力する(ステップS1)。
【0072】
ステップS1で照合元のコンテンツ、タイトル及びメタ情報が入力されると、検索クエリ生成部14は、違法語句モデル、検索クエリ生成規則を用いて検索クエリを生成する(ステップS2)。
【0073】
ステップS2で検索クエリが生成されると、照合候補取得部15は、検索クエリに基づいて、コンテンツ取得元に該検索クエリに対応する候補コンテンツを抽出させ、抽出された候補コンテンツの識別情報、タイトル、及び付随プロフィールを取得する(ステップS3)。
【0074】
ステップS3で識別情報、タイトル、及び付随プロフィールが取得されると、コンテンツプロフィール取得・推定部18は、取得された付随プロフィールに基づいて、候補コンテンツのプロフィールをさらに取得又は推定する(ステップS4)。
【0075】
ステップS4でプロフィールが取得又は推定されると、例外コンテンツ除去部19は、取得されたプロフィールに基づいて、該プロフィールが所定の条件を満たす候補コンテンツを違法コンテンツの候補から除去する(ステップS5)。
【0076】
ステップS5で例外コンテンツの識別情報が除去されると、照合優先度計算部20は、例外コンテンツ除去部19によって除去されなかった各識別情報で識別される候補コンテンツのタイトル及びプロフィールに基づいて、各候補コンテンツの優先度を計算する(ステップS6)。
【0077】
ステップS6で各候補コンテンツの優先度が計算されると、コンテンツDL・照合部24は、優先度が高い順に候補コンテンツをコンテンツ取得元からダウンロードし、ダウンロードされた候補コンテンツを、ステップS1で入力された照合元のコンテンツと照合する(ステップS7)。
【0078】
なお、上述した違法コンテンツ探索装置1として機能させるためにコンピュータを好適に用いることができ、そのようなコンピュータは、違法コンテンツ探索装置1の各機能を実現する処理内容を記述したプログラムを該コンピュータのデータベースに格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
【0079】
また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD−ROMやDVD−ROMなどの記録媒体であってもよい。
【0080】
以上説明したように、本実施形態によれば、違法コンテンツ探索装置1は、学習データに基づき、当該語句に関連する違法語句を出力する違法語句モデルを生成する。そして、違法コンテンツ探索装置1は、照合元のコンテンツの正規タイトルに含まれる語句に関連する違法語句を含む検索クエリを生成する。このため、非権利者が、正規のコンテンツのタイトルと直接的には関連性の低いようにみえるタイトルを違法コンテンツに付与しても、違法コンテンツのタイトルを学習した学習データを用いて生成された違法語句モデルにより違法コンテンツをもらさずに抽出することができる。したがって、通信ネットワーク上の膨大なコンテンツをダウンロードして照合処理を行う前に、コンテンツのタイトルにより照合処理の対象とするコンテンツを適切に抽出することができる。すなわち、利用者は効率的に違法コンテンツを探索することが可能となる。
【0081】
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
【符号の説明】
【0082】
1 違法コンテンツ探索装置
11 違法語句モデル生成部
12 違法語句モデル記憶部
13 検索クエリ生成規則記憶部
14 検索クエリ生成部
15 照合候補取得部
16 プロフィール推定モデル生成部
17 プロフィール推定モデル記憶部
18 コンテンツプロフィール取得・推定部
19 例外コンテンツ除去部
20 照合優先度計算部
23 照合パラメータ設定部
24 コンテンツDL・照合部
25 違法語句モデル更新部
26 プロフィール推定モデル更新部
図1
図2
図3
図4
図5