特表2024-542867 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ９２１９－１５６８ケベックインコーポレイテッドの特許一覧

特表2024-542867メディアコンテンツのデジタル指紋採取のためのシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6A
6B
6C
7
8
9A
9B
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-15

(54)【発明の名称】メディアコンテンツのデジタル指紋採取のためのシステムおよび方法

(51)【国際特許分類】

H04N 21/8358 20110101AFI20241108BHJP

H04N 21/266 20110101ALI20241108BHJP

G06T 7/00 20170101ALI20241108BHJP

G06V 10/40 20220101ALI20241108BHJP

【ＦＩ】

H04N21/8358

H04N21/266

G06T7/00 660A

G06V10/40

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024549581

(86)(22)【出願日】2022-11-07

(85)【翻訳文提出日】2024-07-05

(86)【国際出願番号】 IB2022000669

(87)【国際公開番号】W WO2023079367

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】63/276,883

(32)【優先日】2021-11-08

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/576,666

(32)【優先日】2022-01-14

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】524173589

【氏名又は名称】９２１９－１５６８ケベックインコーポレイテッド

(74)【代理人】

【識別番号】100103610

【弁理士】

【氏名又は名称】▲吉▼田和彦

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100119013

【弁理士】

【氏名又は名称】山崎一夫

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(74)【代理人】

【識別番号】100139712

【弁理士】

【氏名又は名称】那須威夫

(74)【代理人】

【識別番号】100141553

【弁理士】

【氏名又は名称】鈴木信彦

(72)【発明者】

【氏名】ヒルマンボーシェーヌオリヴィエ

(72)【発明者】

【氏名】シャプローベルトラン

(72)【発明者】

【氏名】プリートジョーダン

(72)【発明者】

【氏名】マテオスペレスホセマリア

【テーマコード（参考）】

5C164

5L096

【Ｆターム（参考）】

5C164MB35P

5C164SB31S

5C164SB41S

5C164SC01P

5C164SD12S

5C164YA21

5L096BA15

5L096BA16

5L096EA03

5L096FA23

5L096GA51

5L096JA03

(57)【要約】

メディアコンテンツのデジタル指紋採取のためのシステム、方法、およびコンピュータ可読ストレージ媒体。システムは、メディアコンテンツを正規化して、標準的な形式に前処理し、その後、メディアの画像、音声、および／またはビデオの側面の指紋を生成することによって、デジタル指紋採取を実行する。これらの指紋は、機械学習と結合された知覚ハッシュなどの１つまたは複数の技術を使用して生成された数学的ベクトルである。新しいコンテンツの指紋が生成された後に、システムは、それらの指紋を既知のコンテンツの指紋と比較し、新しいコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。

【特許請求の範囲】

【請求項1】

コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、
少なくとも１つのプロセッサによって、前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
前記少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、
前記少なくとも１つのプロセッサによって、前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第２のベクトルを含む、作成することと、
前記少なくとも１つのプロセッサによって、前記キーフレームに基づいてキーフレーム指紋を作成することと、
前記少なくとも１つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記少なくとも１つのプロセッサによって、前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記少なくとも１つのプロセッサによって、前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記少なくとも１つのプロセッサによって、前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも１つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む、方法。

【請求項2】

前記ビデオ比較が、前記個別のセグメント内で、前記ビデオ指紋と前記比較メディアファイルの前記前に識別されたビデオ指紋との間のビデオの類似性の予め定められたしきい値レベルを満たす個別のビデオセグメントを識別し、
前記音声比較が、前記個別のセグメント内で、前記音声指紋と前記比較メディアファイルの前記前に識別された音声指紋との間の音声の類似性の予め定められたしきい値レベルを満たす個別の音声セグメントを識別し、
前記キーフレーム比較が、前記キーフレームと前記比較メディアファイルの前記前に識別されたキーフレームとの間のキーフレームの類似性の予め定められたしきい値レベルを満たす個別のキーフレームを識別する、請求項１に記載の方法。

【請求項3】

前記メディアファイルの前記前処理が、前記ビデオの前記変更されたコピー、および前記音声の前記変更されたコピーを作成し、前記ビデオ内の前記キーフレームを識別するための並列プロセスを含む、請求項１に記載の方法。

【請求項4】

前記ビデオ比較、前記音声比較、および前記キーフレーム比較の前記実行が並列に発生する、請求項１に記載の方法。

【請求項5】

前記ビデオの前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも１つのプロセッサによって、前記ビデオのフレームレートを予め定められたフレームレートに変更すること、
前記少なくとも１つのプロセッサによって、前記ビデオの解像度を予め定められた解像度に変更すること、および
前記少なくとも１つのプロセッサによって、前記ビデオの少なくとも１つの側面から帯を除去すること
のうちの少なくとも１つを実行することを含む、請求項１に記載の方法。

【請求項6】

前記音声の前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも１つのプロセッサによって実行される高速フーリエ変換によって、前記音声を周波数領域に変換し、周波数領域の音声を生成することと、
前記少なくとも１つのプロセッサによって、前記周波数領域の音声から、
第１の予め定められた周波数を超える音、
第１の予め定められたデシベルを超える音、
第２の予め定められた周波数未満の音、および
第２の予め定められたデシベル未満の音
のうちの少なくとも１つをフィルタリングして除去することと
を含む、請求項１に記載の方法。

【請求項7】

前記ビデオ内の前記キーフレームを生成する前記メディアファイルの前記前処理が、
前記少なくとも１つのプロセッサによって、キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、
前記少なくとも１つのプロセッサによって、ビデオのセグメント内の第１のフレームをキーフレームとして識別することと、
前記ビデオの長さにわたって、
前記少なくとも１つのプロセッサによって、前記第１のフレームを前記キーフレームに追加すること、
前記少なくとも１つのプロセッサによって、前記第１のフレームと後続のフレームの間で前記予め定められた量のエントロピーが検出されるまで、前記第１のフレームから後のフレームを順次に比較すること、および
前記少なくとも１つのプロセッサによって、前記後続のフレームを前記第１のフレームとして識別すること
を繰り返し、
前記キーフレームを生成することと
を含む、請求項１に記載の方法。

【請求項8】

前記ビデオ比較に基づいて、前記少なくとも１つのプロセッサによって、ＭＡＳＳ（Ｍｕｅｅｎの類似性検索アルゴリズム）を使用して前記ビデオの前記変更されたコピーの第２のビデオ指紋を作成することと、
前記少なくとも１つのプロセッサによって、前記比較メディアファイルの前に識別された第２のビデオ指紋との前記第２のビデオ指紋の第２のビデオ比較を実行することと
をさらに含み、前記比較メディアファイルの前記前に識別された第２のビデオ指紋が、ＭＡＳＳを使用して生成されており、
前記メディアファイルが禁止されたコンテンツを含んでいることを前記決定することが、前記第２のビデオ比較にさらに基づく、請求項１に記載の方法。

【請求項9】

前記ビデオ指紋の前記作成が、
前記少なくとも１つのプロセッサによって、前記変更されたビデオ内の顔を検出することと、
前記少なくとも１つのプロセッサによって、前記変更されたビデオから前記顔を切り取ることと、
前記知覚ハッシュアルゴリズムを実行する前記少なくとも１つのプロセッサによって、前記顔の顔紋を作成することとをさらに含み、
前記ビデオ指紋が前記顔紋をさらに含み、
前記ビデオ比較が、
前記顔紋を既知の顔紋と比較することと、
前記既知の顔紋内で一致を検出しなかったときに、前記既知の顔紋を格納しているデータベース内に前記顔紋を格納することとをさらに含む、請求項１に記載の方法。

【請求項10】

前記音声比較、前記ビデオ比較、および前記キーフレーム比較が、
前記比較メディアファイルの前記前に識別された音声指紋の連続する下位部分、前記比較メディアファイルの前記前に識別されたビデオ指紋の連続する下位部分、または前記比較メディアファイルの前記前に識別されたキーフレーム指紋の連続する下位部分との、
前記音声指紋の連続する下位部分、前記ビデオ指紋の連続する下位部分、または前記キーフレーム指紋の連続する下位部分の比較をそれぞれ含む、請求項１に記載の方法。

【請求項11】

少なくとも１つのプロセッサと、
命令を格納している非一過性コンピュータ可読ストレージ媒体とを備え、前記命令が、前記少なくとも１つのプロセッサによって実行された場合に、前記少なくとも１つのプロセッサに、
ビデオおよび音声を含んでいるメディアファイルを受信することと、
前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、
前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第２のベクトルを含む、作成することと、
前記キーフレームに基づいてキーフレーム指紋を作成することと、
比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも１つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む動作を実行させる、システム。

【請求項12】

【請求項13】

前記メディアファイルの前記前処理が、前記ビデオの前記変更されたコピー、および前記音声の前記変更されたコピーを作成し、前記ビデオ内の前記キーフレームを識別するための並列プロセスを含む、請求項１１に記載のシステム。

【請求項14】

前記ビデオ比較、前記音声比較、および前記キーフレーム比較の前記実行が並列に発生する、請求項１１に記載のシステム。

【請求項15】

前記ビデオの前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記ビデオのフレームレートを予め定められたフレームレートに変更すること、
前記ビデオの解像度を予め定められた解像度に変更すること、および
前記ビデオの少なくとも１つの側面から帯を除去すること
のうちの少なくとも１つを実行することを含む、請求項１１に記載のシステム。

【請求項16】

前記音声の前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも１つのプロセッサによって実行される高速フーリエ変換によって、前記音声を周波数領域に変換し、周波数領域の音声を生成することと、
前記周波数領域の音声から、
第１の予め定められた周波数を超える音、
第１の予め定められたデシベルを超える音、
第２の予め定められた周波数未満の音、および
第２の予め定められたデシベル未満の音
のうちの少なくとも１つをフィルタリングして除去することと
を含む、請求項１１に記載のシステム。

【請求項17】

前記ビデオ内の前記キーフレームを生成する前記メディアファイルの前記前処理が、
キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、
ビデオのセグメント内の第１のフレームをキーフレームとして識別することと、
前記ビデオの長さにわたって、
前記キーフレームを前記複数のキーフレームに追加すること、
前記第１のフレームと後続のフレームの間で前記予め定められた量のエントロピーが検出されるまで、前記第１のフレームから後のフレームを順次に比較すること、および
前記後続のフレームを前記第１のフレームとして識別すること
を繰り返し、
前記キーフレームを生成することと
を含む、請求項１１に記載のシステム。

【請求項18】

前記非一過性コンピュータ可読ストレージ媒体に追加の命令が格納されており、前記命令が、前記少なくとも１つのプロセッサによって実行された場合に、前記少なくとも１つのプロセッサに、
前記ビデオ比較に基づいて、ＭＡＳＳ（Ｍｕｅｅｎの類似性検索アルゴリズム）を使用して前記ビデオの前記変更されたコピーの第２のビデオ指紋を作成することと、
前記比較メディアファイルの前に識別された第２のビデオ指紋との前記第２のビデオ指紋の第２のビデオ比較を実行することと
を含む動作を実行させ、前記比較メディアファイルの前記前に識別された第２のビデオ指紋が、ＭＡＳＳを使用して生成されており、
前記メディアファイルが禁止されたコンテンツを含んでいることを前記決定することが、前記第２のビデオ比較にさらに基づく、請求項１１に記載のシステム。

【請求項19】

前記ビデオ指紋の前記作成が、
前記変更されたビデオ内の顔を検出することと、
前記変更されたビデオから前記顔を切り取ることと、
前記知覚ハッシュアルゴリズムを実行することによって、前記顔の顔紋を作成することとをさらに含み、
前記ビデオ指紋が前記顔紋をさらに含み、
前記ビデオ比較が、
前記顔紋を既知の顔紋と比較することと、
前記既知の顔紋内で一致を検出しなかったときに、前記既知の顔紋を格納しているデータベース内に前記顔紋を格納することとをさらに含む、請求項１１に記載のシステム。

【請求項20】

命令を格納している非一過性コンピュータ可読ストレージ媒体であって、前記命令が、少なくとも１つのプロセッサによって実行された場合に、前記少なくとも１つのプロセッサに、
ビデオおよび音声を含んでいるメディアファイルを受信することと、
前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、
前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第２のベクトルを含む、作成することと、
前記キーフレームに基づいてキーフレーム指紋を作成することと、
比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも１つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む動作を実行させる、非一過性コンピュータ可読ストレージ媒体。

【請求項21】

コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、
少なくとも１つのプロセッサによって、前記メディアファイルを前処理し、前処理されたビデオおよび前処理された音声を含んでいる前処理されたメディアファイルを生成することと、
前記少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前記前処理されたビデオの第１のビデオ指紋を作成し、前記前処理された音声の音声指紋を作成し、前記前処理されたビデオ内のキーフレームを使用して前記前処理されたビデオの第２のビデオ指紋を作成することと、
前記第１のビデオ指紋、前記第２のビデオ指紋、および前記音声指紋を既知の指紋と比較して、比較結果を得ることと、
前記少なくとも１つのプロセッサによって、前記比較に基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む、方法。

【発明の詳細な説明】

【技術分野】

【0001】

優先権
本出願は、２０２１年１１月８日に出願された米国特許仮出願第６３／２７６，８８３号、および２０２１年１１月８日に出願された米国特許仮出願第６３／２７６，８８３号に対する優先権も主張する２０２２年１月１４日に出願された米国特許非仮出願第１７／５７６，６６６号に対する優先権を主張し、これらのすべての内容は、全体として参照によって本明細書に組み込まれている。

【0002】

本開示は、メディアコンテンツのデジタル指紋採取（ｄｉｇｉｔａｌｆｉｎｇｅｒｐｒｉｎｔｉｎｇ）に関連しており、より詳細には、音声指紋および映像指紋の組み合わせを使用する、著作権のあるメディアコンテンツおよび／または他の禁止されたコンテンツの検出に関連している。

【背景技術】

【0003】

ウェブサイトのユーザが配布のためにコンテンツをアップロードできるオンラインメディアプラットフォーム、特に、ビデオ共有プラットフォーム（ＶＰＳ：ＶｉｄｅｏＳｈａｒｉｎｇＰｌａｔｆｏｒｍｓ）のホストにとって、アップロードされたコンテンツが規則、法律、および／または規制に従っていることを保証するのは、困難な問題である。多くのそのようなウェブサイトの場合、１分間にアップロードされたコンテンツの量を、個別の検閲者が１か月で再検討するのは不可能である。著作権侵害またはコンテンツ違反についてコンテンツをチェックするために、さらなる再検討のためのフラグをコンテンツに立てるさまざまな形態の自動フィルタリングが使用され得る。しかし、そのような自動フィルタリングは、多くの場合、不正確であり、フィルタリングプロセスがどの程度厳しく構成されるかに応じて、多過ぎる誤検出および／または検出漏れをもたらす。ファイルハッシュなどの多くのコンテンツ指紋の解決策は、再エンコーディング、切り詰め、および／またはメタデータ変更によって、容易に回避され得る。加えて、既知のコンテンツの数が増えるにつれて、新しいコンテンツが著作権を有しておらず、他の禁止されたコンテンツを含んでいないということを保証するために必要とされる比較の数も増えるため、そのような自動フィルタリングは、過剰な計算を容易に引き起こす可能性がある。

【発明の概要】

【0004】

本開示のさらなる特徴および利点は、以下の説明において示され、説明から一部分において理解され、または本明細書において開示された原理の実践によって学習され得る。本開示の特徴および利点は、添付の特許請求の範囲において特に指摘される手段および組み合わせを用いて実現され、獲得され得る。本開示のこれらおよび他の特徴は、以下の説明および添付の特許請求の範囲から、より完全に明らかになり、または本明細書において示された原理の実践によって学習され得る。

【0005】

説明された技術的問題に対する技術的解決策を提供するシステム、方法、および非一過性コンピュータ可読ストレージ媒体が開示される。本明細書において開示された概念を実行するための方法は、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも１つのプロセッサによって、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、少なくとも１つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第２のベクトルを含む、作成することと、少なくとも１つのプロセッサによって、キーフレームに基づいてキーフレーム指紋（ｋｅｙｆｒａｍｅｆｉｎｇｅｒｐｒｉｎｔ）を作成することと、少なくとも１つのプロセッサによって、比較メディアファイル（ｃｏｍｐａｒｉｓｏｎｍｅｄｉａｆｉｌｅ）の前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、少なくとも１つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも１つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含むことができる。

【0006】

本明細書において開示された概念を実行するように構成されたシステムは、少なくとも１つのプロセッサと、命令を格納している非一過性コンピュータ可読ストレージ媒体とを含むことができ、これらの命令は、少なくとも１つのプロセッサによって実行された場合、少なくとも１つのプロセッサに、ビデオおよび音声を含んでいるメディアファイルを受信することと、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第２のベクトルを含む、作成することと、キーフレームに基づいてキーフレーム指紋を作成することと、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも１つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含む動作を実行させる。

【0007】

本明細書において開示されるように構成された非一過性コンピュータ可読ストレージ媒体は、命令を格納することができ、これらの命令は、コンピューティングデバイスによって実行された場合、コンピューティングデバイスに、ビデオおよび音声を含んでいるメディアファイルを受信することと、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第２のベクトルを含む、作成することと、キーフレームに基づいてキーフレーム指紋を作成することと、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも１つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含む動作を実行させる。

【図面の簡単な説明】

【0008】

【図1】例示的なシステムの実施形態を示す図である。

【図2】既知の指紋を新しい指紋と比較する例を示す図である。

【図3】ビデオを前処理してビデオ指紋を作成する例を示す図である。

【図4】キーフレーム指紋を作成する例を示す図である。

【図5】ビデオのセグメントを前処理する例を示す図である。

【図6A】音声指紋の比較の例を示す図である。

【図6B】ビデオ指紋の比較の例を示す図である。

【図6C】キーフレーム指紋の比較の例を示す図である。

【図7】指紋の比較の例を示す図である。

【図8】一致する部分を表示している第１の例示的なユーザインターフェイスを示す図である。

【図9A】一致する部分を表示している第２の例示的なユーザインターフェイスを示す図である。

【図9B】一致する部分を表示している第３の例示的なユーザインターフェイスを示す図である。

【図10】例示的なシステムアーキテクチャを示す図である。

【図11】例示的な方法の実施形態を示す図である。

【図12】例示的なコンピュータシステムを示す図である。

【発明を実施するための形態】

【0009】

以下では、本開示のさまざまな実施形態が詳細に説明される。特定の実施が説明されるが、この説明が単に例示の目的で行われるということが理解されるべきである。本開示の思想および範囲から逸脱することなく、他のコンポーネントおよび構成が使用されてよい。

【0010】

上記の技術的問題への１つの例示的で非限定的な実用的応用は、メディアがオンラインプラットフォームにアップロードされるときに、アップロードされたメディアコンテンツの「指紋」を既知のコンテンツの格納された指紋と比較することであり、既知のコンテンツは、著作権を有しており、および／または禁止されたコンテンツ（児童ポルノ、同意のないメディアなど）としてすでに識別されている。禁止されたコンテンツは、本明細書において定義されるとき、著作権のあるメディア、未成年の性的コンテンツのビデオまたは画像、同意なしで取得されたビデオまたは画像などを含む、メディアファイルの所有者またはアップロード者が共有することを法的に許可されていない任意のコンテンツを含むことができる。禁止されたコンテンツを識別するための全体的プロセスは、次のように要約され得る。（１）すべての映像（画像および／またはビデオ）の提出および音声の提出を共通形式に前処理する（メディアファイルの提出の変更されたコピーを生成する）、（２）コンテンツが固有の元に戻せない量に変換されるように、共通形式のビデオおよび音声の提出の指紋を採取する、（３）コンテンツが保護されるべきである場合、指紋を、類似する要素を素早く見つけるために使用され得るデータベース（ＡＮＮＤＢ（ＡｐｐｒｏｘｉｍａｔｅＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＤａｔａｂａｓｅ：近似最近隣データベース）など、ただしこれに限定されない）に格納する、（４）データベース内の一致するか、または極めて類似するコンテンツを識別し、一致の第２の検証を任意に実行し、一致をユーザに報告する。

【0011】

その後、著作権のある素材も、他の禁止された素材も含んでいないメディアコンテンツのみが、メディアプラットフォームに格納されることを許可される。指紋は、メディアコンテンツのシーン、セグメント、クリップ、および／または下位部分の（例えば、ビデオコンテンツと一体になっている）抽象的な元に戻せない表現である。例えば、ビデオおよび音は事象（ビデオの場合は画像、音声の場合は波形）のシーケンスであるため、メディアコンテンツのビデオおよび音声の部分の両方に対して指紋のシーケンスが計算される。この照合ステップの間に、次にこのシーケンスが、前に処理されたメディアコンテンツの既知の指紋と比較され得る。システムは、多くの指紋採取エンジンをサポートし、保護プロセスまたはスキャンプロセス中に、複数の種類の指紋を計算することを引き起こすことができる。コンテンツの項目またはサブ項目ごとのこの大量の指紋は、スキャンプロセスのその後の段階において照合エンジンによって行われる決定の信頼度および精度を向上させる。

【0012】

コンテンツ適合性プロセス内の開示された指紋採取方法およびシステムの役割について検討する。最初に、新しいコンテンツのアップロードが格納され、多くのデバイス（ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ：パーソナルコンピュータ）、モバイルなど）をサポートするために、異なるファイル形式にエンコードされる。これらのアップロードおよびその後のエンコードされたファイルは、ローカルに格納されることが可能であり、許可されていない人員またはシステムによってアクセスできないようにすることができる。この時点で、アップロード／エンコードプロセスは、ファイルを異なるゲート／システムに通し、これらのゲート／システムは、適合性チームによる再検討の前に、コンテンツをスキャンして結果を報告することができる。本明細書に記載された指紋採取方法およびシステムは、単独で、または他のゲートシステムと組み合わせて使用され得る多くのゲートシステムのうちの１つであり、コンテンツが配布されることを許可することができるか、またはコンテンツの配布を禁止することができる適合性チームに、結果を提供することができる。

【0013】

例えば、ＶＳＰのエンコーダは、画像であるかビデオであるかにかかわらず、すべてのアップロードをシステムに送信することができる。システムがコンテンツを受信した後に、システム内の異なる指紋採取および照合エンジンに送信される前に、コンテンツの形式を標準化するために、コンテンツが前処理され得る。この時点で、ＶＳＰエンコーダは、再検討プロセスに沿ってコンテンツを移動する前に、システムによってコンテンツがスキャンされるまで待機する。システムがコンテンツをスキャンした後に、システムは、応答と共にエンコーダをコールバックする。ビデオの場合、次の３つの種類の応答の可能性がある。
・一致：１つまたは複数のビデオが、アップロードされたビデオに一致しており、システムは、この一致が正確であることを確信している。
・疑わしい：１つまたは複数のビデオが、アップロードされたビデオに一致しており、システムは、この一致が正確であるかどうかを確信していない。
・一致なし：アップロードされたビデオに一致するビデオがない。

【0014】

一致または疑わしいという応答が返された場合、ビデオは、適合性チームによって疑わしい一致が再検討される分離した待ち行列に移動される。画像の場合のプロセスは、同様であることができるが、上で説明されたような３つの異なる応答の代わりに、保護されたカタログに一致する可能性が最も高い画像に関して、異なるエンジンによって複数の距離指標が提供され得る。応答が距離指標であるため、この指標が低いほど、カタログ内の画像が一致である可能性がより高い。一致を引き起こすのに十分なほど距離指標が低い場合、画像は、適合性チームによって疑わしい一致が再検討される分離した待ち行列に移動される。

【0015】

本明細書において開示された指紋採取システムは、ＶＳＰによって統合される自立型コンポーネントであることができ、そのため、あらゆる依存関係を防ぐことができる。言い換えると、システムは、ＶＳＰから完全に切り離されることが可能であり、したがって、ソフトウェアの依存関係もフレームワークの依存関係も伴わずに、パートナーによって容易に統合され得る。本明細書においてさらに説明されるように、特に明示的に説明されない限り、「システム」は、１つまたは複数の指紋採取エンジンを含んでいるスタンドアロン指紋採取システム、または１つまたは複数の指紋採取エンジンを含んでいる指紋採取システムを含むＶＳＰアップロードおよび適合性システムのどちらかのことを指している。

【0016】

システムによってコンテンツが受信された場合、コンテンツを指紋に変換する前に、コンテンツは、最初に前処理されて標準化される。標準化の一部として、コンテンツが（動画などにおいて）音声およびビデオを両方とも含む場合、標準化される前に、音声およびビデオの部分が分離され得る。一部の状況および構成では、コンテンツが映像のみ（画像、ＧＩＦ、または音声のないビデオ）または音声のみであってよいということに注意する。コンテンツが前処理されて標準化された後に、並列プロセスが、処理されたコンテンツを取り込み、変換を処理されたコンテンツに適用し、さまざまな指紋を作成することができる。

【0017】

音声の前処理の例として、音声信号が未加工のＷＡＶ（または他の音声形式）ファイルに抽出されることが可能であり、（ステレオ音声が存在する場合）両方のチャネルが、単一のモノラル音声ファイルにマージされ得る。ある振幅しきい値を下回るすべての信号は、ノイズと見なされて除去される。例えば、正確な照合を妨げるバックグラウンド干渉を除去するために、音声トラックにノイズゲート（－９０ｄＢ）が適用され得る。無音自体は情報を構成しないため、トラックの無音部分も除去され得る。音声サンプルレートが共通のサンプルレートに標準化されることが可能であり、共通のサンプルレートは、前処理が開始される前に予め定められる。次に、結果として得られた音声信号がダウンサンプリングされて、ディスクに格納され得る。

【0018】

ビデオトラックは、同様の前処理手順を通る。例えば、すべての入力ファイルがＲｘＣ（ｒｏｗｓｘｃｏｌｕｍｎｓ：行×列）の固定解像度および毎秒Ｎ個のフレームにダウンサンプリングされることが可能であり、この変更されたファイルがディスクに格納され得る。これによって、パイプライン内の次のステップのために、非常に大きいビデオファイル（４Ｋ形式など）のサイズが大幅に縮小されることも保証する。加えて、一様な背景色（縦長のビデオに現れる黒色の帯など）が検出されて除去される。背景が除去される場合、変更されたビデオもディスクに保存され、次の前処理ステップに渡される。

【0019】

映像コンテンツ（画像またはＧＩＦなど）の前処理の他の種類も実行され得る。画像は、フレームのシーケンスとして扱われ、静的画像（例えば、ＪＰＥＧファイル）は、１つのフレームのみを含むと見なされ、一方、ＧＩＦアニメーションは、Ｎ個のフレームを含むと見なされる。ビデオのようなシーケンスとして画像を使用して、パイプラインの下流のすべてのその後の動作が一般化され得る。

【0020】

画像の前処理ステップは、次のステップを含むことができる。画像内のフレームごとに、単一の色から成る背景の帯が検出されて除去される。次に、すべてのフレームが個別のファイル（ＰＮＧファイルなど）として保存され、結果として得られたファイルの集合が前方へパイプラインに渡される。含まれ得る他のステップは、解像度が減らされ得ること、サブミットされた各画像が、一致の可能性を増やすために反転および回転され得る派生画像を生成すること、および／または横長もしくは縦長への自動修正である。

【0021】

コンテンツが処理された後に、指紋採取エンジン（コンピュータプロセッサ実行可能コード／アルゴリズム）が、コンテンツの画像、ビデオ、および／または音声の側面に使用可能になる。これらの個別のエンジンは、指紋をデータベースに格納された既知の指紋と比較する１つまたは複数のメディアに固有のエンジンを使用して、コンテンツの数学的表現（「指紋」）を作成することができる。既知の指紋は、著作権のある素材および／または保護されたコンテンツに対応することができる。画像、ビデオ、および音声の指紋エンジンの例が提供されるが、これらのエンジンが例示であり、システムが、当業者に知られている他の種類の指紋エンジンを含むことができるということに注意する。

【0022】

画像に関しては、画像を、保護されたコンテンツカタログと比較され得る指紋に変換するために、さまざまな例示的な種類の指紋採取エンジンが使用可能である。システムの特定の構成および再検討中のコンテンツに基づく必要性に応じて、システムが単一の画像指紋採取エンジン、複数の画像指紋採取エンジンを（直列または並列に）使用するか、または画像指紋採取エンジンを使用しないことができるように、画像指紋採取エンジンの任意の組み合わせがシステムによってデプロイされ得る。画像情報をハッシュする目的は、元に戻せない、データベースにおいて検索可能な方法で画像のコンテンツを圧縮する数値表現を取得することである。同時に、ハッシュ（指紋）は、拡大縮小、明るさ、コントラスト、色の変更、透かしの追加または除去などの、画像コンテンツの変更に対して（ある程度まで）耐性がある必要がある。いわゆる知覚ハッシュは、これらの望ましい特性を有する。

【0023】

第１の例示的な画像指紋採取エンジンは、差分ハッシュまたは「ｄＨａｓｈ」を使用する。このハッシュの背後にある考え方は、画像が最初にグレースケールに変換され、次に、８×９グリッドに減らされることであり、このグリッド内のすべてのセル（新しいピクセル）は、その画像領域上に含まれる元の画像内のピクセルの平均グレーレベル値を含む。この８×９グリッドは、１つの列を除くすべての例で重複する２つの８×８グリッド（左グリッド（Ｌ）および右グリッド（Ｒ））であることができる。システムは、次に、すべてのグリッド内のセルごとにグレーレベル値を比較し、Ｌ＞Ｒである（左グリッド内のセルが、右グリッド内のセルより大きいグレーレベル値を有する）場合、１を書き留め、またはＲ＞＝Ｌである場合、０を書き留めることができる。これによって、入力画像のＬ／Ｒの比較に基づいて６４ビットハッシュを作成する。画像が（ＧＩＦ内またはビデオセグメント内などに）複数のフレームを含んでいた場合、この動作は、画像内のすべてのフレームに対して実行される。

【0024】

取り込み時に、この６４ビットハッシュ（またはハッシュ）が生成され、その後、ＡＮＮＤＢに格納される。

【0025】

照会時に、照会されているフレームのハッシュが、ＡＮＮＤＢ内に存在する前に格納されたハッシュ／指紋と照合される。画像はわずかに異なることがあるため、正確な一致は必要とされず、そのため妥当な既定のしきい値（最大でＮビットまでの差異）が、一致が存在するかどうかを判定することができる。また、画像の変更に対する追加の保護として、ミラー反転された形態および回転された形態の両方での照会された画像のハッシュが、照会され得る。

【0026】

第１の画像指紋採取エンジンは、単純でありながら効果的であるが、システムは、第２の画像指紋エンジンを使用することもでき、第２の画像指紋エンジンでは、類似する画像が類似する出力を有するような方法で画像を変換し、映像コンテンツが変更されている場合でも映像コンテンツを照合するのを支援するように、深層知覚ハッシャー（ＤＰＨ：ＤｅｅｐＰｅｒｃｅｐｔｕａｌＨａｓｈｅｒ）と呼ばれる畳み込みニューラルネットワーク（ＣＮＮ：ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）がトレーニングされる。ＤＰＨモデルの入力は、画像またはビデオフレームであり、このモデルの出力は、１２８ビット浮動小数（１２８ｆｌｏａｔｓ）のベクトルなどのＮ次元埋め込みである。速度のために、保護されるコンテンツの種類に関連する主題に固有の画像に対して、ＭｏｂｉｌｅＮｅｔＶ２のようなより小さいＣＮＮアーキテクチャがトレーニングされ得る。

【0027】

ＤＰＨ畳み込みニューラルネットワークのトレーニングはトリプレット損失関数を使用し、その各トレーニングステップで、ＤＰＨモデルが、（１）トレーニング画像、（２）ランダムに変換された（例えば、切り取られた、パディングされた、回転された、反転された、わずかな色の変更などの）トレーニング画像、および（３）同じランダムな変換を伴う別の画像の埋め込みを出力する。次に、ＤＰＨモデルは、トレーニング画像とその変換の間の埋め込みが他の画像より近くなるべきであるということを学習する。最良の結果を得るために、他の画像は、トレーニング画像に類似するべきであり、前述の知覚ハッシュによって決定され得る。このトレーニングステップは、損失スコアが水平状態に達するまで、数千個の画像にわたって複数回繰り返される。水平状態に達したときに、ＤＰＨ畳み込みニューラルネットワークは、トレーニングされたと見なされ得る。

【0028】

ＤＰＨエンジンを使用することによって指紋／ハッシュを取得し、ベクトル形成としても知られている埋め込みを得るために、単に画像がＤＰＨモデルに通される。保護された画像の埋め込みは、ＡＮＮＤＢに格納される。ＤＰＨを使用して任意の照会画像が埋め込まれることが可能であり、距離しきい値を下回る一致を見つけるために、結果として得られた指紋がＡＮＮＤＢに対して検索される。距離は、例えば、２つの指紋間のハミング距離または任意の他の種類の距離測定であることができる。指紋間の追加の非限定的で例示的な距離測定は、加重相関距離（ｗｅｉｇｈｔｅｄｃｏｒｒｅｌａｔｉｏｎｄｉｓｔａｎｃｅ）、二次形式距離、ハウスドルフ距離などを含むことができる。

【0029】

ビデオ指紋採取に関しては、ビデオが画像のシーケンスであるため、ビデオ指紋採取エンジンは、静的画像に使用される指紋採取エンジンに極めて類似している。第１の例では、ビデオファイルが毎秒Ｒ個のフレームにダウンサンプリングされているが、すべてのフレームがハッシュされる場合、ファイルごとに多過ぎるハッシュが存在する可能性がある。したがって、システムは、移動ウィンドウを使用して、Ｓ秒の領域内のフレームの平均値を計算し、画像に関して上で説明された同じ８×９システムを使用してこの平均フレームをハッシュすることができ、その後、Ｍ秒前方に移動する。ＭおよびＳは、領域間にある程度の重複が存在するように選択される。このようにして、１時間の動画でさえ数百個のハッシュしか生み出さず、数百万個の動画が取り込まれている場合でも、データベースのサイズが扱いやすくなる。

【0030】

前処理段階で背景の帯が検出されて除去された場合、（帯を含む）元のビデオファイルのハッシュも計算され得る。システムは、ミラー反転されたビデオのハッシュも計算することができ、これらのハッシュは、一致を確立するための照会時にのみ使用される。

【0031】

取り込み時に、ハッシュがＡＮＮＤＢに追加される。この動作では、（ミラー反転されたビデオのハッシュではなく）直接ハッシュのみが使用される。

【0032】

照会時に、最も多くの一致を有するビデオを取得するために、直接ハッシュおよびミラー反転されたハッシュがＡＮＮＤＢに対して照会される。一致がある程度の時間的コヒーレンスを有することを確認する（例えば、一致がタイムライン全体に散在していないこと、同じ時間的瞬間に属していないことなどの確認する）ために、これらの候補は、第２の段階の間に確認される。ノイズの多い候補が除去された後に、フィルタリングされた一致が返される。ハッシュの２つのセット（変更されていないファイルのハッシュの１つのセット、背景が除去されたファイルのハッシュの別のセット）が受信された場合、２つの照会が実行され、集約動作がユーザにとって透過的になるように、それらの結果が集約される。

【0033】

一部の構成では、ウィンドウの長さＳは、５秒または１０秒の長さなどに予め定められる。他の構成では、システムは、分析されているファイルのサイズに基づいて変わることができるウィンドウの長さを使用する。

【0034】

システムは、例えば秒単位で、重複パラメータを定義することもでき、つまり、各ウィンドウは、ある秒数だけ前のウィンドウと重複する。予め定められた長さのウィンドウ内のすべてのフレームを使用して、平均フレームが作成される。ウィンドウごとにセグメント指紋が生成され、システムは、構成された秒数だけ前のウィンドウと重複する方法でウィンドウを移動し、読み取るべきフレームが残されなくなるまで続行する。

【0035】

別の例示的なビデオ指紋採取エンジンは、ビデオファイルの「深層知覚ハッシュ（ＤｅｅｐＰｅｒｃｅｐｔｕａｌＨａｓｈ）」に類似するプロセスを使用することができる。効率のために、ビデオのすべてのフレームがＤＰＨモデルに埋め込まれ得るわけではない。「キーフレーム」と呼ばれる選ばれたフレームがビデオから抽出され、ＤＰＨモデルに埋め込まれる。グレースケールフレームの二乗平均平方根誤差として測定された各フレーム内のコントラストが計算されることが可能であり、Ｓ秒のスライドウィンドウ内の最も目立つコントラストを有するフレームが、キーフレームとして選択され得る。例えば、スライドウィンドウが５秒の長さである場合、システムは、各フレームのコントラストの量を計算し、次に、最高の量のコントラストを有するそのウィンドウ内のフレームをキーフレームとして選択することができる。その後、システムは、スライドウィンドウを移動し、キーフレームの識別を続行することができる。

【0036】

キーフレームの埋め込みは、（１）保護のためにＡＮＮＤＢに格納されるか、または（２）一致を見つけるためにＡＮＮＤＢに対して照会され得る。照会後のキーフレームの一致が保護されたビデオに明確に属する場合、このビデオの一致が報告される。際立ったビデオがなく、一致があまり明確でない場合、一致したビデオは候補と見なされ、時系列整列（下のＭＡＳＳの説明を参照）を使用する追加の一致確認ステップに送られ得る。一部の構成では、同じＤＰＨモデルが画像およびビデオに使用されるため、要求された場合に、画像（ビデオ）からの埋め込みが、ビデオ（画像）の保護された埋め込みに対して検索され得る。

【0037】

上ではグレースケールコントラストに基づいてキーフレームを識別する例が提供されたが、ＤＰＨアルゴリズムによって分析されるキーフレームの識別は、当業者に知られている任意の方法で実現され得る。キーフレームが識別され得るさらなる例示的な方法は、次の手順を含む。（１）フレームと前のフレームの間の差異、およびフレーム内の色の変化に基づいて各フレームにスコアを付ける。例えば、システムは、ビデオのセグメント／特定の下位部分内のフレームを受け取り、それらのフレームを時間Ｔ（例えば、Ｔ＝５秒）のバケットにグループ化し、各バケット内のスコアが高い上位Ｎ個のフレームをキーフレームとして選ぶことができる。（２）ビデオのフレームを処理して、フレーム間の予め定められた量のコントラストが検出された時間を決定する。例えば、システムは、最初のキーフレームと後続のフレームの間のコントラストの量がコントラストの予め定められた量を有するまで、ビデオ内の最初のキーフレームと、各後続のフレームとを比較することができる。後続のフレーム内でコントラストの予め定められた量が検出された後に、その後続のフレームは、次のキーフレームとして識別され、プロセスは、ビデオの残りの部分全体を通じて続行することができる。他の構成では、コントラストの予め定められた量が検出されるまで、期間ｔごとにコントラストの測定結果が受け取られるように、時間に基づいてコントラストが決定され得る。例えば、システムは、コントラストのしきい値量が検出されるまで、毎秒コントラストを測定することができる。（３）ビデオ圧縮内には、ＪＰＧまたはＢＭＰ画像ファイルのような完全な画像を含むＩフレーム（イントラコード化ピクチャ）、前のフレームからの画像内の変化のみを保持するＰフレーム（予測ピクチャ）、および現在のフレームと、先行するフレームおよび後続のフレームの両方との間の差異を使用してコンテンツを指定するＢフレーム（双方向予測ピクチャ）が存在する。一部の構成では、システムは、Ｉフレームをキーフレームとして識別することができる。

【0038】

ビデオ指紋採取の第３の例は、やはりコントラストに依存する。前述したように、フレーム間の予め定められた量のコントラストが検出された時間を決定するためにビデオのフレーム、および、それらの時点を識別する。しかし、この例では、システムは、十分なコントラストが検出された時点に基づいて指紋を生成する。生成された指紋は、システムがビデオ間のコントラストの時間的変化を、やはり特定のセグメントに関連付けられた値のリストである得られた指紋と比較することを可能にし、各値は、コントラストのそれらの時点が検出された時間を示す。

【0039】

生成され得る別の映像指紋は、人ごとに固有であり、元に戻せない顔紋（顔埋め込みとしても知られている）である。顔は、マルチタスクカスケード畳み込みニューラルネットワーク（ＭＴＣＮＮ：Ｍｕｌｔｉ－ＴａｓｋＣａｓｃａｄｅｄＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）を使用して画像およびビデオフレーム内で検出され得る。顔は明確である必要があるため、顔検出は元のコンテンツファイルに対して実行される。検出から、角度スコアを計算して、顔がより正面に配置されているか、または側面を見せているかを判定するために、顔ランドマークが使用され得る。検出された顔は、切り取られて、複数の埋め込みモデルおよび表情モデルに通される。埋め込みモデルは、顔の異なるデータセットに対してそれぞれトレーニングされ、通常は５１２ビット浮動小数ベクトル（５１２ｆｌｏａｔｖｅｃｔｏｒ）である、人に固有の埋め込みをそれぞれ出力する。表情モデルは、異なる顔のジェスチャー（例えば、幸福、驚き、悲しみ、怒り）を伴う顔に対してトレーニングされ、特定の顔のジェスチャーの各々の確率を出力する。例えば、モデル内に８つのジェスチャーが存在する場合、出力は、８つの異なる確率になる。

【0040】

画像内の顔が検出され、埋め込みモデルおよび表情モデルに通される。保護されたコンテンツに関して、顔の埋め込み、表情の確率、および角度スコアが格納される（実際の顔の切り取りは保持されない）。保護された顔の埋め込みは、対応するＡＮＮＤＢに格納されるのが好ましいが、他の種類データベースが使用されてもよい。照会では、画像内の顔が検出され、埋め込みが抽出され、それらの埋め込みが、保護されたＡＮＮＤＢ内で検索される。距離しきい値以内で検出されたそれらの顔は、一致と見なされる。第２の検証として、一致する顔は、類似する表情および角度スコアも有する必要がある。

【0041】

顔を含むビデオ内には多くのフレームが存在する可能性があるため、ビデオ内の顔の照合は、画像とわずかに異なる。Ｎ秒ごとにビデオのフレームが抽出され、顔検出、埋め込み、および表情モデルが、各フレームに対して実行される。保護されたコンテンツに関して、すべての埋め込みを格納するにはあまりにも多くの顔が存在するため、フィルタリングが必要とされる。埋め込みモデルごとに決定された類似性しきい値に基づいて、類似する顔がクラスタ化されることが可能であり、その後、「照合可能性」スコアに基づいて、各クラスタ内の最良の顔が選択され得る。この照合可能性スコアは、顔がミラー反転された自分自身にどの程度良く一致するかを予測し、正確に照合され得る顔のみを維持することにおいて重要である。次に、最良の顔に関連付けられたデータが格納され、埋め込みが、対応するＡＮＮＤＢ内で維持される（実際の顔の切り取りは維持されない）。

【0042】

照会では、取り込みでの顔より多くのビデオ内の顔が維持されることが可能であり、それぞれＡＮＮＤＢ内で検索され得る。画像と同様に、距離しきい値以内で検出された顔は一致と見なされ、これらの一致は、二次検証に合格するために、類似する表情および角度スコアを有する必要がある。同じ顔モデルが画像およびビデオに使用されるため、画像（ビデオ）からの埋め込みが、ビデオ（画像）の保護された埋め込みに対して検索され得る。

【0043】

ビデオ指紋が（ビデオのセグメント／下位部分／キーフレームに対応する画像指紋のリストまたは配列の形態で）生成された後に、システムは、ビデオ指紋を、データベースに格納された既知のビデオ指紋と比較することができる。

【0044】

音声指紋を計算することに関しては、音声コンテンツが空気圧の変化に対応する極めて短時間の値のシーケンスであり、小さい知覚不可能な変化でさえ、これらの値を大幅に変更することができるため、音声指紋を計算することは、ビデオまたは画像より複雑である可能性がある。このような制限を回避するために、システムは、前処理中にノイズゲートを使用して、ある音量を超える、および／または下回るノイズを除去することができる。この前処理は、非常に高い周波数および非常に低い周波数を除去することもできる。音声コンテンツのスペクトログラムを抽出するために、高速フーリエ変換（ＦＦＴ：Ｆａｓｔ－ＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）が適用され得る。したがって、音声指紋採取アルゴリズムの基本的ステップは、次のとおりであることができる。
（１）音声信号のスペクトログラムを計算する。
（２）ある距離だけ分離された、最高の振幅のスペクトルピークを見つける。ファイルがほとんど無音である場合に少な過ぎるハッシュを生成すること、または多数の音声活動が存在する場合に多過ぎるハッシュを生成することを防ぐために、ファイル内の全体的音声レベルに基づいて、振幅フィルタリングが動的に実行され得る。前処理プロセスを開始する前に、（全体的音声レベルを決定するための）音声活動のしきい値が予め定められ得る。

【0045】

システムは、例えば、ピーク検出アルゴリズムを使用して、振幅ピークを抽出することができ、それらのピークの位置は、ハッシュ関数への入力として機能することができ、このハッシュ関数の出力が音声指紋である（ハッシュ関数は、バイトの配列を小さい一意の識別子に変換する一方向数学関数である）。

【0046】

画像および／またはビデオの分析において使用される知覚ハッシュ関数とは異なり、音声ハッシュ／指紋は、出力間の類似性のレベルを提供せず、つまり、正確な一致を検索することのみに使用され得る。この問題に対処するために、２つの態様が使用され得る。第一に、予め定められた方法で音声を一貫して前処理する（すなわち、一貫性のあるノイズゲート、周波数のフィルタリングなどを使用する）ことによって、分析されている音声が前に識別された音声と同じ方法で分析されることを保証する。第二に、システムは、予め定められた長さを有する音声トラックの特定のセグメント／下位部分を分析する。５秒の音声クリップのハッシュ出力が３秒のクリップのハッシュ出力と比較される場合、音声照合は機能しない。これに対応するために、システムは、音声コンテンツの予め定められた設定持続時間を利用することができる。必要に応じて、システムは、音声コンテンツが必要とされるフォーマット規格を満たすことを保証するために、前処理中に音声エンコーディングを調整することができる。

【0047】

音声指紋採取の結果は、音声トラック全体の下位部分／セグメントのハッシュされた音声指紋のリストまたは配列で構成された音声指紋である。

【0048】

前述の音声ステップの前処理の後に、スペクトルピークの対を生成することによって、音声指紋が作成され得る。ピークは、時間および周波数の位置（ｔ、ｆ）によって定義される。２つのピークＰ１、Ｐ２が（ｔ１，ｆ１）、（ｔ２，ｆ２）によって定義され、Ｐ２はＰ１より時間的に後に発生する。ハッシュ（指紋としても知られている）が、（ｆ１，ｆ２，ｔ２－ｔ１）によって定義される。システムは、ｔ１を、指紋がファイルに現れる時間として格納することもできる。これをさらに簡略化するために、初期トリプレット（ｆ１，ｆ２，ｔ２－ｔ１）が単一の整数としてエンコードされ得る。

【0049】

取り込み時に、指紋がデータベースに格納され、データベースはキー値データベースであるのが好ましいが、他の選択肢も可能である。ここでは、正確な一致が必要とされるため、ＡＮＮＤＢは必要とされない。

【0050】

照会時に、入力音声の指紋がＤＢに対して照会され、一致の数が数えられる。十分な一致を有するコンテンツ／動画は、候補と見なされ、照会アルゴリズムの第２の段階への入力になる。この第２の段階は、一致が時間的コヒーレンスを有し、連続的シーケンスを形成することを確認することによって、候補が有効であるかどうかをチェックする。正しい候補が妥当性を確認された後に、アルゴリズムは、それらの候補を可能性のある禁止されたコンテンツのリストとしてユーザに返すか、または一致する動画が検出されなかった場合、何も返さない。

【0051】

一部の構成では、代替の音声指紋採取方法が使用され、音声の変更に対してより堅牢である音声クワッドハッシュ（ａｕｄｉｏｑｕａｄｈａｓｈｅｓ）を生成することができる。そのような構成では、前処理された音声信号からスペクトログラムが計算され、最大振幅の点が選択される。次に、それらのピークのうちの２つ（Ａ－左下、Ｂ－右上）が長方形の向かい合った角にあり、別の２つ（Ｃ，Ｄ）が内側に配置されなければならないという条件で、４つのグループ内のピークが選択される。点Ａの（ｘ，ｙ）座標が（０，０）として設定され、Ｂが（１，１）として設定され、ＣおよびＤの座標がＡおよびＢに基づいて正規化されて、Ｃ’およびＤ’を作る。このようにして、ＣおよびＤの（ｘ，ｙ）値が、範囲（０，１）内に厳密に含まれる。これらの４つのデータ点（ｘ＿Ｃ’，ｙ＿Ｃ’，ｘ＿Ｄ’，ｙ＿Ｄ’）が、１つの音声クワッドハッシュを形成する。

【0052】

ファイルごとに、毎秒最大でＲ個のハッシュを含む小さいセット（「基準」ハッシュ）、および毎秒最大でＱ個（Ｑ＞＞Ｒ）のハッシュを含むより大きいセット（「照会」ハッシュ）という、音声クワッドハッシュの２つのセットが生成される。また、スペクトログラムピークが選択される方法を制御するパラメータは、基準ハッシュと照会ハッシュの間でわずかに変わることができる。これの背後にある考え方は、両方のハッシュセット間の小さい差異が、この方法を音声の変更に対して堅牢にするということである。

【0053】

取り込み時に、基準ハッシュがＡＮＮＤＢに追加される。照会時に、次の２つの逐次的動作を実行する。（１）入力動画の基準ハッシュを含む（フラグが立てられるべきすべてのクリップの基準ハッシュを含んでいる）基準ＤＢを使用してＡＮＮ照会を実行し、可能性のある候補のリストを与える。（２）次に、候補からの基準ハッシュおよび入力動画の照会ハッシュのサンプルを使用して、選択された候補ごとに確認アルゴリズムを実行する。そのような確認は、任意の適切な比較アルゴリズムによって実行され得る。

【0054】

前述のプロセスによって１つのコンテンツの画像、ビデオ、および／または音声トラックが処理されて指紋採取された後に、それらの指紋がシステムのデータベース内に格納される。この時点で、コンテンツが破棄され、システムのインフラストラクチャから除去され得る。しかし、次にシステムは、照合エンジンを使用して、保護されたカタログ（著作権のある素材および／または他の禁止されたコンテンツ）と新たにアップロードされたコンテンツの間で指紋を比較する。

【0055】

入力内の小さい変化が、結果として得られるハッシュ値に対する大きい変化をもたらす古典的ハッシュ関数とは逆に、知覚ハッシュは、入力がわずかに変化する場合に、わずかにしか変化しない。そのため、ビデオ／画像指紋は、知覚ハッシュをビデオの画像またはセグメントに対応する高次元ベクトルとして考慮することによって、画像が既知のビデオ／画像指紋とのある程度の類似性の範囲内にあるかどうかを判定することができる。ベクトルが互いに近い距離にある場合、それらのベクトルは、類似するコンテンツを表す可能性が高い。したがって、照会ごとに、特定の対象の画像／ビデオ指紋に最も近い一致を見つけるために、高速な最近隣データベースが使用される。同様のプロセスが音声トラックに使用されることが可能であり、このプロセスでは、一致の多くの候補が識別され、一致の可能性が最も高い候補をランク付けするために、その後、さらに処理されて比較される。

【0056】

システムへの照会が実行されるたびに、コンテンツがダウンロードされ、前処理され、指紋採取され、保護されたカタログを含んでいるデータベースに対して照会される。最も可能性が高い指紋がコンテンツ（ビデオ、画像、または音声）別にグループ化されることが可能であり、指紋の結果と照会の間で、重複が計算されることが可能であり、重複は秒単位であるのが好ましいが、他の指標も可能である。例えば、ビデオ指紋および音声指紋の重複に基づいて、システムは、２つのコンテンツ間の３００秒（５分）の重複を計算することができる。これらの指標および重複は、重複の時間量（秒）に従ってすべての一致するコンテンツがランク付けされる、要約応答に変換され得る。他の構成では、このランク付けは、類似性のパーセンテージまたは他の類似性指標に基づくことができる。言い換えると、ビデオがアップロードされ、複数の保護されたビデオを照合する場合、最長の一致する（連続的または非連続的）長さを有するビデオが、降順でインテグレータに返され得る。一部の構成では、このリストは、ユーザインターフェイス（ＵＩ：ＵｓｅｒＩｎｔｅｒｆａｃｅ）を介してユーザに提示されることが可能であり、ユーザは、元のコンテンツと一致するコンテンツの間の比較を再検討し、新しいコンテンツがデータベースに追加されて配布に使用可能になるべきかどうかを判定することができる。他の構成では、しきい値量（５０％など）を超える類似性のレベルを有する任意のコンテンツが、自動的に除去され得る。

【0057】

新しい１つのコンテンツが（禁止されたコンテンツに対応するかどうかにかかわらず）検出された場合、指紋がコンテンツのシステムカタログに自動的に追加され得る（注意：このコンテンツはシステムに保存されず、指紋のみがシステムに保存される）。新しい１つのコンテンツが既知の禁止されたコンテンツに対応する（例えば、著作権のある素材、アダルトコンテンツ、同意のないコンテンツなどを含む）ということが決定された場合、指紋がシステムカタログに追加されるだけでなく、この新しいコンテンツを照合するすべての前の照会が通知を受け、かつ／または除去される。例えば、数週間前にビデオがＶＳＰまたはソーシャルメディアプラットフォームパートナーにアップロードされており、何週間か後に類似するビデオが保護される場合、システムによって元のアップロード／照会が通知を受ける。この機能は、システムインテグレータへのコールバックを介して実施される。

【0058】

一部の構成では、ビデオ指紋の類似性に基づいて、コンテンツが禁止されたコンテンツであるように見える場合、システムは、キーフレームを選択するために作成されたコントラスト信号に対して時系列整列を使用して追加の確認を引き起こすことができる。このコントラスト信号は、ビデオの元に戻せない１次元時系列であることができる。ＭＡＳＳ（Ｍｕｅｅｎ’ｓａｌｇｏｒｉｔｈｍｆｏｒｓｉｍｉｌａｒｉｔｙｓｅａｒｃｈ：Ｍｕｅｅｎの類似性検索アルゴリズム）およびＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ：動的時間ワープ）を使用して、特定の時系列が候補時系列と比較され得る。ＭＡＳＳは、時系列を周波数領域内に変換し、周波数間のユークリッド距離を計算することによって、２つの時系列を整列する。ＤＴＷは、１つの時系列を別の時系列にマッピングするための最良の方法を見つけ出す。ＭＡＳＳおよびＤＴＷはそれぞれ、候補が一致するかどうかを判定するために使用される距離測定結果を生み出す。特に、ＭＡＳＳおよびＤＴＷは、特定の照会された時系列のより小さいチャンクを候補時系列に整列し、次に、これらの整列が、（１）距離しきい値以内にあるかどうか、および（２）チャンクが一続きの整列を形成するかどうかを判定する。チャンクサイズを変えることによって、時系列が適切に整列するということの確認の追加の層を可能にする。言い換えると、ＭＡＳＳおよびＤＴＷアルゴリズムは、音声またはビデオの特定のセグメントが既知のセグメントにどの程度幾何学的に類似するかを計算し、照会から長い時系列のサブシーケンスまでの距離のすべてを生成することができる。しかし、そのような整列は、計算的に高価であり、すべての保護されたビデオに対して実行され得ず、候補サブセットに対してだけ実行され得る。

【0059】

ＭＡＳＳを実行することにおける計算コストのため、ＭＡＳＳが実行される場合、システムフローの例は次のとおりであることができる。（１）コンテンツを受信する、（２）ビデオおよび音声コンテンツを分離する、（３）ビデオおよび音声コンテンツを前処理する、（４）前処理されたビデオおよび音声コンテンツの指紋を生成する、（５）ビデオまたは音声が既知の禁止されたコンテンツとの類似性のしきい値レベルを超えているということを決定する、（６）しきい値を超えていることに基づいて、ビデオまたは音声に対するＭＡＳＳアルゴリズムの実行を開始する、および（７）ＭＡＳＳ距離の結果を受信する。特定のセグメントに対して予め定められたＭＡＳＳ距離が計算されるときに、そのセグメントが一致しないと見なされる場合、ＭＡＳＳに他の類似性の結果が提示され得る。

【0060】

１つの例では、時系列整列（ＭＡＳＳおよび／またはＤＴＷ）は、ビデオの一致候補のコントラスト信号に対して実行される。しかし、音声の一致を確認するために、モノラル音声信号に対して同じ整列方法が実行され得る。

【0061】

指紋が生成された後に、システムは、前に格納された指紋との一致を識別しようとすることができる。画像またはＧＩＦの場合、すべての照合アルゴリズム（基本的なハッシュ、ＤＰＨ、顔検出）は、並列に実行することができ、照合アルゴリズムのすべてからの結果が、一致が検出されたかどうかを判定するために使用され得る。

【0062】

動画（またはビデオデータおよび音声データを両方とも含んでいる他のコンテンツ）用の照合論理は、もう少し複雑である。一方では、ビデオフレームからの一致および音声信号からの一致が望ましい。音声情報のみまたはビデオ情報のみを含む一致は、正しいことがあるが、手動で再検討されなければならない一致の数を減らすために、さらなる確認を必要とすることがある。また、ＭＡＳＳおよびＤＴＷは、計算的に高価であり、ＤＢ内の１つ１つのビデオに対して実行され得ない。これらの問題に対する１つの可能性のある手法は次のとおりである。（１）基本的なビデオハッシュ、基本的な音声ハッシュ、音声クワッド、およびキーフレームの照会を並列に実行する、（２）同じ動画上で基本的なビデオハッシュ、および基本的な音声ハッシュまたは音声クワッドのうちの１つが一致する場合、これが一致と見なされる。一致が全く存在せず、キーフレームも低い一致カウントをもたらす場合、この動画は問題がないと宣言される。ビデオ信号のみの一致、または音声信号のみの一致が存在するか、あるいはどちらにも一致が存在しないが、ＤＰＨのキーフレームが高い一致カウントを返す場合、確認のために、候補がＭＡＳＳおよびＤＴＷ時系列整列に送信される。ＭＡＳＳの出力およびＤＴＷの出力が両方とも整列する場合、一致が宣言される。そうでない場合、ファイルは疑わしく、手動で再検討されなければならない。

【0063】

前述したように、生成されたビデオ指紋および音声指紋は、セグメントまたは下位部分の指紋のリストまたは配列であることができるため、単一のセグメントの指紋に対して一致を識別することは、誤検出をもたらす可能性がある。照合を改善するために、システムは、それらのセグメントの指紋の連続的な一続きの一致を探すことができる。例えば、ビデオ指紋の一連のセグメントが、セグメントの指紋として「Ａ」、「Ｂ」、「Ｃ」、および「Ｄ」をそれぞれが含み、ＡＢＣＤという指紋をもたらす場合、システムは、指紋の全体（ＡＢＣＤ）（単一のセグメントの指紋を取り除くか、または置き換えることによって妨害され得る）および／または指紋の一部（例えば、ＡＢＣまたはＢＣＤ）（妨害するのがより困難である）のいずれかの連続的な一続きを探すことができる。これによって、特定のセグメントの前または後にさらにコンテンツが追加された場合でも、禁止されたコンテンツが依然として発見可能な状態で、ビデオが照合されることも保証する。

【0064】

システムを全体的に説明したが、ここで本開示は、各図に示された例について説明する。図１は、例示的なシステム１００の実施形態を示している。図に示されているように、メディアファイル１０２がシステム１００にアップロードされ、このメディアファイルが前処理される（１０４）。例えば、メディアファイルが、音声成分およびビデオ成分を両方とも含んでいる動画である場合、前処理は、音声の場合、ノイズゲートを介して音声をフィルタリングすること、さまざまな高周波数および／または低周波数を除去すること、エンコーディングが一般的な／望ましい形式に一致することを保証することなどを含むことができる。ビデオの前処理の例は、ビデオから帯を除去すること、色を除去する／色をグレースケールに変更すること、エンコーディングを一般的な／望ましい形式に変更することなどを含むことができる。次に、システム１００は、前処理されたビデオ１０６に対して知覚ハッシュ１１２を実行し、ビデオ指紋であるビデオハッシュ１１６を生成する。システム１００は、前処理された音声１０８に対してもハッシュ１１４を実行し、音声指紋である音声ハッシュ１１８を生成する。この例では、システム１００は、前処理されたビデオ内からキーフレーム１１０も識別しており、システムは、キーフレーム１１０に対して知覚ハッシュ１２６（ＤＰＨ埋め込みなど）を実行し、キーフレーム指紋であるキーフレームハッシュ１２８を生成する。

【0065】

次に、システム１００は、ビデオハッシュ１１６、音声ハッシュ１１８、およびキーフレームハッシュ１２８を既知のコンテンツの指紋１２０とそれぞれ比較する（１３０、１３２、１３４）。一部の構成では、これらの比較１３０、１３２、１３４は同時に発生することができ、一方、他の構成では、比較１３０、１３２、１３４は順次に発生することができる。例えば、既知の（ビデオ）指紋１２０が、新たに生成されたビデオ指紋紋１１６と比較されるのと同時に、既知の（音声）指紋１２０が、新たに生成された音声指紋１１８と比較され得る。代替として、新たに生成されたビデオ指紋紋１１６との既知の（ビデオ）指紋１２０の比較１３０が完了するまで、既知の（キーフレーム）指紋１２０が、新たに生成されたキーフレーム指紋１２８と比較されなくてよい。一部の構成では、指紋の比較のこの逐次的プロセスは、最初の指紋の比較によって決定されている類似性のしきい値レベルに依存することができる。例えば、キーフレーム比較１３４は、ビデオ比較１３０および／または音声比較１３２が最初に完了し、可能性がある禁止されたコンテンツが検出されたことを示さない限り、発生しなくてよい。

【0066】

比較１３０、１３２、１３４が完了した後に、システム１００は、比較１３０、１３２、１３４に基づいてコンテンツをフィルタリングする（１２２）ことができる。例えば、比較１３０、１３２、１３４が、新たに提示されたメディアファイル１０２が既知の著作権のあるファイルに１００％類似しているということを示す場合、システムは、メディアファイル１０２を直ちに除去し、かつ／またはメディアファイル１０２をアップロードしようとしているユーザに、そのユーザが所有していないアップロード中の著作権のある素材が禁止されている（したがって、禁止されたコンテンツである）という通知を提供することができる。比較１３０、１３２、１３４が、メディアファイル１０２が未成年の性的コンテンツなどの他の禁止されたコンテンツを含む可能性があるということを示しているが、比較１３０、１３２、１３４が完全に明白でない場合、フィルタ１２２は、人間によるコンテンツの再検討を要求することができる。比較１３０、１３２、１３４が、コンテンツが新しいということを示す場合、システムは、指紋１１６、１１８、１２８をデータベースに保存することができ、指紋１１６、１１８、１２８は、今後のメディアファイルを検査する際に使用され得る。比較１３０、１３２、１３４が完了し、フィルタリングプロセス１２２が、コンテンツを著作権または内容の理由のために禁止されているとして識別しなかった後に、システム１００は、コンテンツ１０２のアップロードの準備ができているという指示１２４をＶＳＰに提供することができ、またはシステム１００がコンテンツ１２４をアップロードするように構成されている場合は、アップロードし始めることができる。

【0067】

図２は、既知の指紋を新しい指紋と比較する例を示している。図に示されているように、動画２０８が、前に登録／指紋採取された動画２０２と比較されている。前に登録された動画２０２の各々は、埋め込み（前述したように、数学的ベクトル）にハッシュ／指紋採取／変換されており、それらの指紋は、ＡＮＮＤＢと呼ばれるＡＮＮＤＢ２０６に格納される。

【0068】

新しい動画２０８の受信時に、システムは、新しい動画のハッシュ／埋め込み／指紋２１０を生成し、指紋２１０を照会としてＡＮＮＤＢ２０６にサブミットする。指紋２１０は、既知の動画２０２およびコンテンツの指紋２０４と比較される。比較が明確な一致を明らかにしなかった場合、新しい動画２０８は候補検証２１２に進むことができ、候補検証２１２では、新しい動画２０８に関する追加情報が必要とされてよい。加えて、新しい動画２０８の指紋２１０が、ＡＮＮＤＢ２０６に格納されている既知の指紋２０４との正確な一致でない限り、新しい指紋２１０は、今後のコンテンツのアップロードに対する比較のために、ＡＮＮＤＢ２０６に格納され得る。

【0069】

図３は、ビデオを前処理してビデオ指紋を作成する例を示している。一部の構成では、さまざまなステップの順序または含有は変更され得る。適用可能な場合、同じプロセスまたはわずかに変更されたプロセスが、個別の画像にも適用され得る。

【0070】

システムがビデオコンテンツ３０４を受信した場合、ビデオコンテンツ３０４は、減らされたフレームレートおよび解像度に正規化され得る。この正規化は、ビデオコンテンツ３０４をグレースケール３０２に変換することであることができる。指紋を生成する前のコンテンツのこのサンプリングは、コンテンツ項目間の一貫性を保証する。次に、システムは、ビデオの長さを検出し、切れ目のない色の帯／ブロック３０６を含むビデオ内の部分を識別する（帯／ブロック３０６は、必ずしも示されているような黒色である必要はない）。帯は、必ずしも画像コンテンツの水平方向の側面に存在する必要もなく、コンテンツの垂直方向（上部または下部に）に、コンテンツの片側のみに（上部、下部、左、または右だけに）、またはこれらの任意の組み合わせで、配置されることも可能である。システムは、ブロックの対応する座標を識別し、ブロックが存在している各フレームのブロック切り取り、帯を含まない画像／コンテンツ３０８を生成する。

【0071】

次に、残りのコンテンツがグリッド３１０に分割される。図に示されているように、グリッドは８×９であるが、他の構成では、異なる数のセルが可能である。セルの数に関して、システムが８×９グリッドをビデオコンテンツに使用する予定である場合、すべてのビデオコンテンツが８×９グリッドを使用して評価される必要があるように、適切な一致を保証するために、指紋採取の事例間の一貫性が極めて重要である。

【0072】

前述したように、８×９グリッド内の各セルは、その画像領域上に含まれる元の画像３０８内のピクセルの平均グレーレベル値を含む。この８×９グリッド３１０は、１つの列を除くすべての例で重複する２つの８×８グリッド（左グリッド（Ｌ）および右グリッド（Ｒ））であることができる。システムは、次に、すべてのグリッド内のセルごとにグレーレベル値を比較し、Ｌ＞Ｒである（左グリッド内のセルが、右グリッド内のセルより大きいグレーレベル値を有する）場合、１を書き留め、またはＲ＞－Ｌである場合、０を書き留めることができる。これによって、入力画像のＬ／Ｒの比較に基づいて６４ビットハッシュを作成する。画像が（ＧＩＦ（ＧｒａｐｈｉｃｓＩｎｔｅｒｃｈａｎｇｅＦｏｒｍａｔ：画像交換フォーマット）内またはビデオセグメント内などに）複数のフレームを含んでいた場合、この動作は、画像内のすべてのフレームに対して実行される。

【0073】

取り込み時に、この６４ビットハッシュ（またはハッシュ）が生成され、その後、ＡＮＮＤＢに格納される。例として、指紋の最初の値は、８×８の比較の８×８グリッドの左上のセル［１，１］に対応し、２番目の値は、すぐ右側のセル［１，２］であり、３番目の値は、その右側［１，３］である、などであり、９番目の値は、２番目の行の最初のセル［２，１］である、などとなる。このようにして、最終的に、この画像、またはビデオセグメント内の平均化されたフレームの指紋を構成する６４ビットの長さの数値（浮動小数）が得られる。他の構成では、本開示の範囲内に依然としてありながら、セルから指紋が形成される方法、または指紋内のビットの数が変わることができるということに、注意する。

【0074】

図４は、キーフレーム指紋を作成する例を示している。この例では、ビデオは一連のフレーム４０２を含んでいる。システムは、一連のフレーム４０２から特殊なフレーム（キーフレーム４０４）を識別し、深層学習を使用してキーフレーム４０４を圧縮することができる。システムは、図に示されているように、キーフレーム４０４を抽出し、次に、前述したように深層知覚ハッシュ４０６アルゴリズムを使用して、１２８ビット浮動小数の埋め込み（指紋）４０８を作成することができる。

【0075】

一部の構成では、キーフレーム４０４は、システムによって次のように抽出され得る。（１）フレームと前のフレームの間の差異、およびフレーム内の色の変化に基づいて各フレームにスコアを付ける、（２）フレームを時間Ｔ（例えば、Ｔ＝５秒のウィンドウ）のバケットにグループ化し、各バケット内のスコアが高い上位Ｎ個のフレームをキーフレームとして選ぶ（例えば、単一のキーフレーム４０４の場合、Ｎ＝１を使用する）。キーフレーム４０４が抽出された後に、一部の構成では、システムは、キーフレーム４０４をより小さい埋め込み（１２８ビットの埋め込み４０８の場合、６４ビット浮動小数など）にさらに圧縮することができる。

【0076】

図５は、ビデオ５０８のセグメント５１０を前処理する例を示している。図に示されているように、セグメント５１０内の一連のフレーム５０２が受信され、システムは、図４で説明されたキーフレームの識別を実行する前に、フレームを正規化することができる。フレームがサイズ、色に関して正規化された（グレースケールに変換された、などの）後に、システムは、フレーム５０２間のグレースケールコントラストを計算し（５０４）、フレームのコントラスト差５０６を生成することができる。コントラスト差５０６は、前述したように、セグメント５１０の指紋を計算するために使用され得る。

【0077】

図６Ａは、音声指紋の比較の例６０２を示している。この図は、例えば、システムによって評価されているコンテンツが複数の他のファイル６０４とどのように比較されるかを見るためにユーザが使用できるユーザインターフェイス（ＵＩ）の一部である。この例では、音声指紋は、「ファイル９」の行の黒色の線６１４で示されている、「ファイル９」との８８．０４％の類似性を有する。他の比較されたファイルとの顕著な類似性は示されていない。ユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。一部の構成では、類似性がそれほど正確でない場合、ユーザインターフェイスは、異なる色調を使用して特定のセクションの類似性のレベルを示すことができる。

【0078】

例えば、図６Ｂは、ビデオ指紋の比較の例６０６を示している。図６Ａと同様に、この図は、コンテンツ評価プロセスの間に使用されるＵＩの一部であることができる。この例では、右側に帯６１６があり、２つのコンテンツ間の類似性のレベルが色のグラデーションによって示され得ることを示している。黒色の実線６１８によって示されているように、「ファイル９」がまだ高レベルの類似性を示しているが、この場合、高度な類似性を有する２つの不連続な部分６２０を含んでいるファイル４、および単一の切れ目のない部分を含んでいるが、より低いレベルの類似性（明るいグレーで示されている）を有するファイル１４６２２などの、他のファイル６０８のうちの一致するセグメントを含んでいる複数の他のコンテンツも存在する。やはりユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。

【0079】

図６Ｃは、図６Ａで音声比較が示され、図６Ｂでビデオ比較が示された同じコンテンツに関して、キーフレーム指紋比較６１０の例を示している。しかし、図に示されているように、キーフレーム指紋比較は、検討中のファイル６１２のどれとも、類似性を明らかにしていない。やはりユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。

【0080】

図７は、指紋の比較の例を示している。図に示されているように、サブミットされたビデオコンテンツ部分は、異なるセグメント７０２、７０４、７０６に関連付けられたフレームを含んでいる。システムは、セグメントごとに平均値を計算し、平均１７０８、平均２７１０、および平均３７１２を生成する。これらの平均化されたフレーム７０８、７１０、７１２の各々が、知覚ハッシュアルゴリズム７１４にそれぞれサブミットされ、結果として、セグメント７０２に対応するセグメントの指紋「ＡＢＣＤ」７１６、セグメント７０４に対応するセグメントの指紋「ＡＢＣＥ」７１８、およびセグメント７０６に対応するセグメントの指紋「ＸＢＣＥ」７２０をもたらす。

【0081】

ビデオコンテンツの完全な指紋７２２が、個別のセグメントの指紋のリストとして示されており、「ＡＢＣＤ」の直後に「ＡＢＣＥ」が続き、その後に「ＸＢＣＥ」が続いている。システムは、一連のセグメントの指紋７２４を、他の既知の指紋７２６、７２８、７３０と比較する。図に示されているように、指紋（１）７２６は、一連のセグメントに関して１００％の一致７３２を有しており、つまり各セグメントの指紋７１６、７１８、７２０が、サブミットされたビデオコンテンツ内と同じ（この場合は連続的な）時間的順序で指紋７２６内に存在している。指紋（２）７２８も、サブミットされたビデオコンテンツと同じセグメントの指紋および同じ時間的順序で、１００％の一致７３４を有している。しかし一致は、指紋（１）７２６と同じビデオ内の時間的位置ではなく、代わりに一致は、既知のコンテンツ内でより早い（一連のセグメントの指紋に先行するより少ないドットによって示されている）。このような一致は、例えば、ビデオの一部が第２の指紋７２８に関連付けられたビデオから削除されている場合に発生する可能性がある。指紋（３）７３０は、セグメントの指紋「ＡＢＣＤ」および「ＡＢＣＥ」を含んでいるが、後続のセグメントの指紋として、わずかに異なるセグメントの指紋「ＺＢＣＥ」を含んでいる。したがって、システムは、サブミットされたビデオコンテンツとこの指紋７３０の間に、８０％の一致７３６を割り当てた。システムは、一致する類似性７３２、７３４、７３６に関する通知を適合性再検討チームに提供することができ、かつ／または検出された類似性に基づいてコンテンツを禁止することに関する決定を行うことができる。

【0082】

図８は、異なる種類の指紋の比較に関して、アップロードされたコンテンツと既知のコンテンツの間の一致する部分を表示する第１の例示的なユーザインターフェイス（ＵＩ）８１０を示している。この例では、ユーザインターフェイス８１０は、音声指紋の比較８０２、ビデオ指紋の比較８０４、ＭＡＳＳの比較８０６、およびキーフレーム指紋の比較８０８に関連付けられた部分を含んでいる。図に示されているように、アップロードされたコンテンツと既知のコンテンツの間で一致している（８１２）音声８０２、ビデオ８０４、およびキーフレーム８０８の比較の部分が存在する。ＵＩ８１０を介して比較８０２、８０４、８０６、８０８を再検討しているユーザは、評価中のコンテンツが禁止されたコンテンツを含むかどうかを判定することにおいて、各一致するセクションを調べることができる。

【0083】

図９Ａは、一致する部分９２２を表示する第２の例示的なユーザインターフェイス９００を示している。このＵＩ内で、ユーザは、調査中のコンテンツに関する正確な一致９０２であるコンテンツ、疑わしいコンテンツなどをフィルタリングすることができる。同様にユーザは、エンジンの種類９０４（例えば、音声指紋の比較に基づいて一致するコンテンツのみ、および／またはビデオ指紋の比較に基づいて一致するコンテンツのみ）、しきい値量９０６に基づいて、一致するコンテンツをフィルタリングすることができ、ｘ％を超える一致を有する結果のみが表示される（ユーザが、しきい値ｘを設定することができる）。ＵＩは、比較されたコンテンツをランク付けすることができ、最も類似する一致９１０が最初に表示され、２番目に最も類似する一致９１２が２番目に表示される、などとなる。示された構成では、ユーザは、調べられているコンテンツおよび既知のコンテンツのアニメーション化されたビデオ比較９０８を見るための選択肢を有することができる。ＵＩは、メタデータ（タイトル、アップロードしているユーザの名前、識別トークン、アップロード日など）、および異なる比較９２２の一致する部分／セグメントを表示することもできる。例えば、図８に示されたＵＩに類似するチャートがここに含まれることが可能であり、このチャートは、音声、ビデオ、ＭＡＳＳ、キーフレーム、および／または他の比較に関して、既知のコンテンツに一致するコンテンツの部分の表示をユーザに提供する。このＵＩは、既知のコンテンツのどのくらいが再検討中のコンテンツに一致するかを識別するパーセンテージ量を表示し、「応答をコピーする」、「一致を確認する」、「一致を却下する」などの選択肢をユーザに提供することもできる。

【0084】

図９Ｂは、一致する部分を表示する第３の例示的なユーザインターフェイスを示している。一部の構成では、この第３の例は、図９Ａに示された第２の例の続きであることができる。ここでも、異なる比較９２２が、「応答をコピーする」９１６、「一致を確認する」９１８、および「一致を却下する」９２０などのユーザの選択肢があるように表示される。しかしこの場合、１つの一致するビデオ９１４のみが存在している。

【0085】

図１０は、例示的なシステムアーキテクチャを示している。図に示されているように、「インテグレータ」１００２（任意のＶＳＰまたはサードパーティアプリケーションなど）によって、保護要求および照会要求が「ロードバランサ」１００４に送信される。ロードバランサは、要求を、「ＡＰＩエンドポイント」として機能するウェブサーバ１００６のクラスタにリダイレクトする。これらのウェブサーバは、要求の妥当性を確認し、その後、「コンピューティングノード」１０１０に配布される「事象待ち行列」１００８を介して送信する。次に、「処理クラスタ」１０１２は、ストレージクラスタに格納されている「指紋」１０１８を使用して、アップロードされたコンテンツを照合しようとする。保護要求または照会要求が完了した後に、「コールバック」１０１６を使用してデータがインテグレータ１００２に返信される。

【0086】

システムインフラストラクチャが常に動作したままであることを確認するために、インフラストラクチャ指標が継続的に監視され得る（１０１４）。インフラストラクチャ指標が常態から外れ、エラーが発生していることを示す場合、適切な人員に通知するための警告が引き起こされ得る。定期的な間隔で、または事象が即時性のしきい値レベルを満たすたびに、保護要求、照会要求、およびシステム性能に関する報告１０２０が提供され得る。

【0087】

すべての計算リソースおよびストレージリソースは、高度に拡張可能であり、大量のコンテンツおよび指紋採取活動をサポートすることができる。すべてのシステムは、継続的にバックアップされることが可能であり、大きなインフラストラクチャインシデントが発生した場合に、障害回復戦略を使用して、あらゆるデータ損失を防ぐことができる。

【0088】

図１１は、例えばコンピュータシステムによって実行され得る、例示的な方法の実施形態を示している。図に示されているように、この方法は、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと（１１０２）、少なくとも１つのプロセッサによって、メディアファイルを前処理することと（１１０４）、ビデオの変更されたコピー（１１０６）、音声の変更されたコピー（１１０８）、およびビデオ内のキーフレーム（１１１０）を生成することとを含むことができる。次に、システムは、少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することができ、ビデオ指紋は、ビデオの変更されたコピーの個別のセグメントの第１のベクトルを含む（１１１２）。同様に、システムは、少なくとも１つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋が、ビデオの変更されたコピーの個別のセグメントの第２のベクトルを含む、作成することと（１１１４）、少なくとも１つのプロセッサによって、キーフレームに基づいてキーフレーム指紋を作成することと（１１１６）を行うことができる。

【0089】

指紋が作成された状態で、システムは、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較（１１１８）、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較（１１２０）、および比較メディアファイルの前に識別されたキーフレームとのキーフレームのキーフレーム比較（１１２２）を実行することができる。比較メディアファイルは、例えば、現在のメディアファイルが比較されている別の画像、動画、または他のメディアコンテンツであることができる。通常、比較メディアファイルは、指紋（音声、ビデオ、画像、キーフレームなど）がすでに生成されて保存されているように、すでに分析されている。これらの前に識別された音声指紋、ビデオ指紋、およびキーフレーム指紋は、その後、分析されているメディアファイルの指紋との各比較に使用され得る。次に、システムは、少なくとも１つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも１つに基づいて、メディアファイルが禁止されたコンテンツを含んでいるということを決定することができる（１１２４）。禁止されたコンテンツは、著作権のあるメディア、未成年の性的コンテンツのビデオまたは画像、同意なしで取得されたビデオまたは画像などを含む、メディアファイルの所有者またはアップロード者が共有することを法的に許可されていない任意のコンテンツを含むことができる。

【0090】

例示された方法は、他の構成では、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも１つのプロセッサによって、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第１のベクトルを含む、作成することと、少なくとも１つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第２のベクトルを含む、作成することと、少なくとも１つのプロセッサによって、キーフレームに基づいてキーフレーム指紋を作成することと、ビデオ比較に基づいて、少なくとも１つのプロセッサによって、ＭＡＳＳ（Ｍｕｅｅｎの類似性検索アルゴリズム）およびＤＴＷ（動的時間ワープ）のうちの少なくとも１つを使用してビデオの変更されたコピーの第２のビデオ指紋を作成することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別されたキーフレームとのキーフレームのキーフレーム比較を実行することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別された第２のビデオ指紋との第２のビデオ指紋の第２のビデオ比較を実行することであって、比較メディアファイルの前に識別された第２のビデオ指紋が、ＭＡＳＳおよびＤＴＷのうちの少なくとも１つを使用して生成されている、実行することと、少なくとも１つのプロセッサによって、ビデオ比較、音声比較、キーフレーム比較、および第２のビデオ比較のうちの少なくとも１つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。

【0091】

例示された方法の別の代替のバージョンは、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、コンピュータシステムの少なくとも１つのプロセッサによって、メディアファイルのビデオ指紋、音声指紋、およびキーフレーム指紋を作成することと、少なくとも１つのプロセッサによって、前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも１つのプロセッサによって、前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも１つのプロセッサによって、前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、少なくとも１つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも１つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。

【0092】

例示された方法のさらに別の代替のバージョンは、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも１つのプロセッサによって、メディアファイルを前処理し、前処理されたビデオおよび前処理された音声を含んでいる前処理されたメディアファイルを生成することと、少なくとも１つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前処理されたビデオの第１のビデオ指紋を作成し、前処理された音声の音声指紋を作成し、前処理されたビデオ内のキーフレームを使用して前処理されたビデオの第２のビデオ指紋を作成することと、第１のビデオ指紋、第２のビデオ指紋、および音声指紋を既知の指紋と比較して、比較結果を得ることと、少なくとも１つのプロセッサによって、この比較に基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。

【0093】

画像分析（または他の映像メディア）に使用されている構成では、上で開示されたように、前処理、指紋採取、および比較が調整され得る。

【0094】

一部の構成では、ビデオ比較は、個別のセグメント内で、ビデオ指紋と比較メディアファイルの前に識別されたビデオ指紋との間のビデオの類似性の予め定められたしきい値レベルを満たす個別のビデオセグメントを識別し、音声比較は、個別のセグメント内で、音声指紋と比較メディアファイルの前に識別された音声指紋との間の音声の類似性の予め定められたしきい値レベルを満たす個別の音声セグメントを識別し、キーフレーム比較は、キーフレームと比較メディアファイルの前に識別されたキーフレームとの間のキーフレームの類似性の予め定められたしきい値レベルを満たす個別のキーフレームを識別する。

【0095】

一部の構成では、メディアファイルの前処理は、ビデオの変更されたコピー、および音声の変更されたコピーを作成し、ビデオ内のキーフレームを識別するための並列プロセスを含むことができる。

【0096】

一部の構成では、ビデオ比較、音声比較、およびキーフレーム比較の実行は、並列に発生する。

【0097】

一部の構成では、ビデオの変更されたコピーを生成するメディアファイルの前処理は、少なくとも１つのプロセッサによって、ビデオのフレームレートを予め定められたフレームレートに変更すること、少なくとも１つのプロセッサによって、ビデオの解像度を予め定められた解像度に変更すること、および少なくとも１つのプロセッサによって、ビデオの少なくとも１つの側面から帯を除去することのうちの少なくとも１つを実行することを含むことができる。

【0098】

一部の構成では、音声の変更されたコピーを生成するメディアファイルの前処理は、少なくとも１つのプロセッサによって実行される高速フーリエ変換によって、音声を周波数領域に変換し、周波数領域の音声を生成することと、少なくとも１つのプロセッサによって、周波数領域の音声から、第１の予め定められた周波数を超える音、第１の予め定められたデシベルを超える音、第２の予め定められた周波数未満の音、および第２の予め定められたデシベル未満の音のうちの少なくとも１つをフィルタリングして除去することとを含むことができる。

【0099】

一部の構成では、ビデオ内のキーフレームを生成するメディアファイルの前処理は、少なくとも１つのプロセッサによって、キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、少なくとも１つのプロセッサによって、ビデオのセグメント内の第１のフレームをキーフレームとして識別することと、ビデオの長さにわたって、少なくとも１つのプロセッサによって、このキーフレームを複数のキーフレームに追加すること、少なくとも１つのプロセッサによって、このキーフレームと後続のフレームの間で予め定められた量のエントロピーが検出されるまで、このキーフレームから後のフレームを順次に比較すること、および少なくとも１つのプロセッサによって、後続のフレームを第１のキーフレームとして識別することを繰り返し、キーフレームを生成することとを含むことができる。

【0100】

一部の構成では、例示された方法は、ビデオ比較に基づいて、少なくとも１つのプロセッサによって、ＭＡＳＳ（Ｍｕｅｅｎの類似性検索アルゴリズム）を使用してビデオの変更されたコピーの第２のビデオ指紋を作成することと、少なくとも１つのプロセッサによって、比較メディアファイルの前に識別された第２のビデオ指紋との第２のビデオ指紋の第２のビデオ比較を実行することとをさらに含むことができ、比較メディアファイルの前に識別された第２のビデオ指紋が、ＭＡＳＳを使用して生成されており、メディアファイルが禁止されたコンテンツを含んでいることを決定することが、第２のビデオ比較にさらに基づく。

【0101】

一部の構成では、ビデオ指紋の作成は、少なくとも１つのプロセッサによって、変更されたビデオ内の顔を検出することと、少なくとも１つのプロセッサによって、変更されたビデオから顔を切り取ることと、知覚ハッシュアルゴリズムを実行する少なくとも１つのプロセッサによって、顔の顔紋を作成することとをさらに含むことができ、ビデオ指紋は顔紋をさらに含み、ビデオ比較は、顔紋を既知の顔紋と比較することと、既知の顔紋内で一致を検出しなかったときに、既知の顔紋を格納しているデータベース内に顔紋を格納することとをさらに含む。

【0102】

一部の構成では、音声比較、ビデオ比較、およびキーフレーム比較は、比較メディアファイルの前に識別された音声指紋の連続する下位部分、比較メディアファイルの前に識別されたビデオ指紋の連続する下位部分、または比較メディアファイルの前に識別されたキーフレーム指紋の連続する下位部分との、音声指紋の連続する下位部分、ビデオ指紋の連続する下位部分、またはキーフレーム指紋の連続する下位部分の比較をそれぞれ含む。

【0103】

図１２を参照すると、例示的なシステムは、処理ユニット（ＣＰＵまたはプロセッサ）１２２０と、読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）１２４０およびランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）１２５０などのシステムメモリ１２３０を含むさまざまなシステムコンポーネントをプロセッサ１２２０に結合するシステムバス１２１０とを含んでいる、汎用コンピューティングデバイス１２００を含む。システム１２００は、プロセッサ１２２０に直接接続されたか、ごく接近して接続されたか、またはプロセッサ１２２０の一部として統合された、高速メモリのキャッシュを含むことができる。システム１２００は、プロセッサ１２２０による高速なアクセスのために、データをメモリ１２３０および／またはストレージデバイス１２６０からキャッシュにコピーする。このようにして、キャッシュは、性能向上を実現し、データを待機している間のプロセッサ１２２０の遅延を防ぐ。これらのおよび他のモジュールは、さまざまなアクションを実行するためにプロセッサ１２２０を制御するか、または制御するように構成され得る。他のシステムメモリ１２３０も使用可能であってよい。メモリ１２３０は、異なる性能特性を有する複数の異なる種類のメモリを含むことができる。本開示が２つ以上のプロセッサ１２２０を含むコンピューティングデバイス１２００上で、あるいはより大きい処理能力を提供するように一緒にネットワーク化されたコンピューティングデバイスのグループまたはクラスタ上で動作してよいということが理解され得る。プロセッサ１２２０は、任意の汎用プロセッサおよびハードウェアモジュール、またはプロセッサ１２２０を制御するように構成された、ストレージデバイス１２６０に格納されたモジュール１１２６２、モジュール２１２６４、およびモジュール３１２６６などのソフトウェアモジュールに加えて、ソフトウェア命令が実際のプロセッサ設計に組み込まれる専用プロセッサを含むことができる。プロセッサ１２２０は、基本的に、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含んでいる完全に自己完結型のコンピューティングシステムであってよい。マルチコアプロセッサは、対称または非対称であってよい。

【0104】

システムバス１２１０は、メモリバスまたはメモリコントローラ、ペリフェラルバス、およびさまざまなバスアーキテクチャのいずれかを使用するローカルバスを含む、複数の種類のバス構造のいずれかであってよい。ＲＯＭ１２４０などに格納された基本入出力（ＢＩＯＳ：ｂａｓｉｃｉｎｐｕｔ／ｏｕｔｐｕｔｓｙｓｔｅｍ）は、起動中などにコンピューティングデバイス１２００内の要素間で情報を転送するのに役立つ基本的なルーチンを提供してよい。コンピューティングデバイス１２００は、ハードディスクドライブ、磁気ディスクドライブ、光ディスクドライブ、テープドライブなどのストレージデバイス１２６０をさらに含む。ストレージデバイス１２６０は、プロセッサ１２２０を制御するためのソフトウェアモジュール１２６２、１２６４、１２６６を含むことができる。他のハードウェアモジュールまたはソフトウェアモジュールが企図される。ストレージデバイス１２６０は、ドライブインターフェイスによってシステムバス１２１０に接続される。ドライブおよび関連するコンピュータ可読ストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピューティングデバイス１２００の他のデータの不揮発性ストレージを提供する。１つの態様では、特定の機能を実行するハードウェアモジュールは、機能を実行するために、プロセッサ１２２０、バス１２１０、ディスプレイ１２７０などの必要なハードウェアコンポーネントに関連して、有形のコンピュータ可読ストレージ媒体に格納されたソフトウェアコンポーネントを含む。別の態様では、システムは、プロセッサと、命令を格納するためのコンピュータ可読ストレージ媒体とを使用することができ、これらの命令は、プロセッサによって実行された場合に、プロセッサに方法または他の特定のアクションを実行させる。デバイス１２００が、小型ハンドヘルドコンピューティングデバイス、デスクトップコンピュータ、またはコンピュータサーバであるかどうかなどのデバイスの種類に応じて、基本的なコンポーネントおよび適切な変形が企図される。

【0105】

本明細書に記載された実施形態例はハードディスク１２６０を採用するが、例示的な動作環境では、磁気カセット、フラッシュメモリカード、デジタルバーサタイルディスク、カートリッジ、ランダムアクセスメモリ（ＲＡＭ）１２５０、および読み取り専用メモリ（ＲＯＭ）１２４０などの、コンピュータによってアクセス可能なデータを格納することができる他の種類コンピュータ可読媒体が使用されてもよい。有形のコンピュータ可読ストレージ媒体、コンピュータ可読ストレージデバイス、またはコンピュータ可読メモリデバイスは、一過性の波、エネルギー、キャリア信号、電磁波、および信号自体などの媒体を明示的に除外する。

【0106】

コンピューティングデバイス１２００とのユーザの対話を可能にするために、入力デバイス１２９０は、発話のためのマイクロホン、ジェスチャーまたはグラフィカルな入力のためのタッチ式スクリーン、キーボード、マウス、動作入力、発話などの、任意の数の入力メカニズムを表す。出力デバイス１２７０は、当業者に知られている複数の出力メカニズムのうちの１つまたは複数であることもできる。場合によっては、マルチモーダルシステムが、ユーザが複数の種類の入力を提供してコンピューティングデバイス１２００と通信することを可能にする。通信インターフェイス１２８０は、通常、ユーザ入力およびシステム出力を制御および管理する。いずれかの特定のハードウェア構成での動作に対する制限はなく、したがって、本明細書の基本的な特徴は、開発されるときに、改良されたハードウェアまたはファームウェア構成のために容易に置換され得る。

【0107】

「Ｘ、Ｙ、およびＺのうちの少なくとも１つ」、「Ｘ、Ｙ、またはＺのうちの少なくとも１つ」、「Ｘ、Ｙ、およびＺのうちの少なくとも１つまたは複数」、「Ｘ、Ｙ、またはＺのうちの少なくとも１つまたは複数」、または「Ｘ、Ｙ、および／またはＺのうちの少なくとも１つ」などの言語の使用は、単一の項目（例えば、Ｘだけ、またはＹだけ、またはＺだけ）および複数の項目（例えば、｛ＸおよびＹ｝、｛ＸおよびＺ｝、｛ＹおよびＺ｝、または｛Ｘ、Ｙ、およびＺ｝）の両方を含むよう意図されている。「のうちの少なくとも１つ」という語句および同様の語句は、各可能性のある項目が存在しなければならないという要件を伝えるよう意図されていないが、各可能性のある項目は存在してもよい。

【0108】

前述のさまざまな実施形態は、単に例として提供されており、本開示の範囲を制限すると解釈されるべきではない。本明細書において例示されて説明された実施形態例および応用に従わずに、本開示の思想および範囲から逸脱することなく、本明細書に記載された原理に対してさまざまな修正および変更が行われてよい。

【図1】