(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-15
(54)【発明の名称】メディアコンテンツのデジタル指紋採取のためのシステムおよび方法
(51)【国際特許分類】
H04N 21/8358 20110101AFI20241108BHJP
H04N 21/266 20110101ALI20241108BHJP
G06T 7/00 20170101ALI20241108BHJP
G06V 10/40 20220101ALI20241108BHJP
【FI】
H04N21/8358
H04N21/266
G06T7/00 660A
G06V10/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024549581
(86)(22)【出願日】2022-11-07
(85)【翻訳文提出日】2024-07-05
(86)【国際出願番号】 IB2022000669
(87)【国際公開番号】W WO2023079367
(87)【国際公開日】2023-05-11
(32)【優先日】2021-11-08
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】524173589
【氏名又は名称】9219-1568 ケベック インコーポレイテッド
(74)【代理人】
【識別番号】100103610
【氏名又は名称】▲吉▼田 和彦
(74)【代理人】
【識別番号】100109070
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100119013
【氏名又は名称】山崎 一夫
(74)【代理人】
【識別番号】100067013
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100120525
【氏名又は名称】近藤 直樹
(74)【代理人】
【識別番号】100139712
【氏名又は名称】那須 威夫
(74)【代理人】
【識別番号】100141553
【氏名又は名称】鈴木 信彦
(72)【発明者】
【氏名】ヒルマン ボーシェーヌ オリヴィエ
(72)【発明者】
【氏名】シャプロー ベルトラン
(72)【発明者】
【氏名】プリート ジョーダン
(72)【発明者】
【氏名】マテオス ペレス ホセ マリア
【テーマコード(参考)】
5C164
5L096
【Fターム(参考)】
5C164MB35P
5C164SB31S
5C164SB41S
5C164SC01P
5C164SD12S
5C164YA21
5L096BA15
5L096BA16
5L096EA03
5L096FA23
5L096GA51
5L096JA03
(57)【要約】
メディアコンテンツのデジタル指紋採取のためのシステム、方法、およびコンピュータ可読ストレージ媒体。システムは、メディアコンテンツを正規化して、標準的な形式に前処理し、その後、メディアの画像、音声、および/またはビデオの側面の指紋を生成することによって、デジタル指紋採取を実行する。これらの指紋は、機械学習と結合された知覚ハッシュなどの1つまたは複数の技術を使用して生成された数学的ベクトルである。新しいコンテンツの指紋が生成された後に、システムは、それらの指紋を既知のコンテンツの指紋と比較し、新しいコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。
【特許請求の範囲】
【請求項1】
コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、
少なくとも1つのプロセッサによって、前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
前記少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、
前記少なくとも1つのプロセッサによって、前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第2のベクトルを含む、作成することと、
前記少なくとも1つのプロセッサによって、前記キーフレームに基づいてキーフレーム指紋を作成することと、
前記少なくとも1つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記少なくとも1つのプロセッサによって、前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記少なくとも1つのプロセッサによって、前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記少なくとも1つのプロセッサによって、前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも1つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む、方法。
【請求項2】
前記ビデオ比較が、前記個別のセグメント内で、前記ビデオ指紋と前記比較メディアファイルの前記前に識別されたビデオ指紋との間のビデオの類似性の予め定められたしきい値レベルを満たす個別のビデオセグメントを識別し、
前記音声比較が、前記個別のセグメント内で、前記音声指紋と前記比較メディアファイルの前記前に識別された音声指紋との間の音声の類似性の予め定められたしきい値レベルを満たす個別の音声セグメントを識別し、
前記キーフレーム比較が、前記キーフレームと前記比較メディアファイルの前記前に識別されたキーフレームとの間のキーフレームの類似性の予め定められたしきい値レベルを満たす個別のキーフレームを識別する、請求項1に記載の方法。
【請求項3】
前記メディアファイルの前記前処理が、前記ビデオの前記変更されたコピー、および前記音声の前記変更されたコピーを作成し、前記ビデオ内の前記キーフレームを識別するための並列プロセスを含む、請求項1に記載の方法。
【請求項4】
前記ビデオ比較、前記音声比較、および前記キーフレーム比較の前記実行が並列に発生する、請求項1に記載の方法。
【請求項5】
前記ビデオの前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも1つのプロセッサによって、前記ビデオのフレームレートを予め定められたフレームレートに変更すること、
前記少なくとも1つのプロセッサによって、前記ビデオの解像度を予め定められた解像度に変更すること、および
前記少なくとも1つのプロセッサによって、前記ビデオの少なくとも1つの側面から帯を除去すること
のうちの少なくとも1つを実行することを含む、請求項1に記載の方法。
【請求項6】
前記音声の前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも1つのプロセッサによって実行される高速フーリエ変換によって、前記音声を周波数領域に変換し、周波数領域の音声を生成することと、
前記少なくとも1つのプロセッサによって、前記周波数領域の音声から、
第1の予め定められた周波数を超える音、
第1の予め定められたデシベルを超える音、
第2の予め定められた周波数未満の音、および
第2の予め定められたデシベル未満の音
のうちの少なくとも1つをフィルタリングして除去することと
を含む、請求項1に記載の方法。
【請求項7】
前記ビデオ内の前記キーフレームを生成する前記メディアファイルの前記前処理が、
前記少なくとも1つのプロセッサによって、キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、
前記少なくとも1つのプロセッサによって、ビデオのセグメント内の第1のフレームをキーフレームとして識別することと、
前記ビデオの長さにわたって、
前記少なくとも1つのプロセッサによって、前記第1のフレームを前記キーフレームに追加すること、
前記少なくとも1つのプロセッサによって、前記第1のフレームと後続のフレームの間で前記予め定められた量のエントロピーが検出されるまで、前記第1のフレームから後のフレームを順次に比較すること、および
前記少なくとも1つのプロセッサによって、前記後続のフレームを前記第1のフレームとして識別すること
を繰り返し、
前記キーフレームを生成することと
を含む、請求項1に記載の方法。
【請求項8】
前記ビデオ比較に基づいて、前記少なくとも1つのプロセッサによって、MASS(Mueenの類似性検索アルゴリズム)を使用して前記ビデオの前記変更されたコピーの第2のビデオ指紋を作成することと、
前記少なくとも1つのプロセッサによって、前記比較メディアファイルの前に識別された第2のビデオ指紋との前記第2のビデオ指紋の第2のビデオ比較を実行することと
をさらに含み、前記比較メディアファイルの前記前に識別された第2のビデオ指紋が、MASSを使用して生成されており、
前記メディアファイルが禁止されたコンテンツを含んでいることを前記決定することが、前記第2のビデオ比較にさらに基づく、請求項1に記載の方法。
【請求項9】
前記ビデオ指紋の前記作成が、
前記少なくとも1つのプロセッサによって、前記変更されたビデオ内の顔を検出することと、
前記少なくとも1つのプロセッサによって、前記変更されたビデオから前記顔を切り取ることと、
前記知覚ハッシュアルゴリズムを実行する前記少なくとも1つのプロセッサによって、前記顔の顔紋を作成することとをさらに含み、
前記ビデオ指紋が前記顔紋をさらに含み、
前記ビデオ比較が、
前記顔紋を既知の顔紋と比較することと、
前記既知の顔紋内で一致を検出しなかったときに、前記既知の顔紋を格納しているデータベース内に前記顔紋を格納することとをさらに含む、請求項1に記載の方法。
【請求項10】
前記音声比較、前記ビデオ比較、および前記キーフレーム比較が、
前記比較メディアファイルの前記前に識別された音声指紋の連続する下位部分、前記比較メディアファイルの前記前に識別されたビデオ指紋の連続する下位部分、または前記比較メディアファイルの前記前に識別されたキーフレーム指紋の連続する下位部分との、
前記音声指紋の連続する下位部分、前記ビデオ指紋の連続する下位部分、または前記キーフレーム指紋の連続する下位部分の比較をそれぞれ含む、請求項1に記載の方法。
【請求項11】
少なくとも1つのプロセッサと、
命令を格納している非一過性コンピュータ可読ストレージ媒体とを備え、前記命令が、前記少なくとも1つのプロセッサによって実行された場合に、前記少なくとも1つのプロセッサに、
ビデオおよび音声を含んでいるメディアファイルを受信することと、
前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、
前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第2のベクトルを含む、作成することと、
前記キーフレームに基づいてキーフレーム指紋を作成することと、
比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも1つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む動作を実行させる、システム。
【請求項12】
前記ビデオ比較が、前記個別のセグメント内で、前記ビデオ指紋と前記比較メディアファイルの前記前に識別されたビデオ指紋との間のビデオの類似性の予め定められたしきい値レベルを満たす個別のビデオセグメントを識別し、
前記音声比較が、前記個別のセグメント内で、前記音声指紋と前記比較メディアファイルの前記前に識別された音声指紋との間の音声の類似性の予め定められたしきい値レベルを満たす個別の音声セグメントを識別し、
前記キーフレーム比較が、前記キーフレームと前記比較メディアファイルの前記前に識別されたキーフレームとの間のキーフレームの類似性の予め定められたしきい値レベルを満たす個別のキーフレームを識別する、請求項11に記載のシステム。
【請求項13】
前記メディアファイルの前記前処理が、前記ビデオの前記変更されたコピー、および前記音声の前記変更されたコピーを作成し、前記ビデオ内の前記キーフレームを識別するための並列プロセスを含む、請求項11に記載のシステム。
【請求項14】
前記ビデオ比較、前記音声比較、および前記キーフレーム比較の前記実行が並列に発生する、請求項11に記載のシステム。
【請求項15】
前記ビデオの前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記ビデオのフレームレートを予め定められたフレームレートに変更すること、
前記ビデオの解像度を予め定められた解像度に変更すること、および
前記ビデオの少なくとも1つの側面から帯を除去すること
のうちの少なくとも1つを実行することを含む、請求項11に記載のシステム。
【請求項16】
前記音声の前記変更されたコピーを生成する前記メディアファイルの前記前処理が、
前記少なくとも1つのプロセッサによって実行される高速フーリエ変換によって、前記音声を周波数領域に変換し、周波数領域の音声を生成することと、
前記周波数領域の音声から、
第1の予め定められた周波数を超える音、
第1の予め定められたデシベルを超える音、
第2の予め定められた周波数未満の音、および
第2の予め定められたデシベル未満の音
のうちの少なくとも1つをフィルタリングして除去することと
を含む、請求項11に記載のシステム。
【請求項17】
前記ビデオ内の前記キーフレームを生成する前記メディアファイルの前記前処理が、
キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、
ビデオのセグメント内の第1のフレームをキーフレームとして識別することと、
前記ビデオの長さにわたって、
前記キーフレームを前記複数のキーフレームに追加すること、
前記第1のフレームと後続のフレームの間で前記予め定められた量のエントロピーが検出されるまで、前記第1のフレームから後のフレームを順次に比較すること、および
前記後続のフレームを前記第1のフレームとして識別すること
を繰り返し、
前記キーフレームを生成することと
を含む、請求項11に記載のシステム。
【請求項18】
前記非一過性コンピュータ可読ストレージ媒体に追加の命令が格納されており、前記命令が、前記少なくとも1つのプロセッサによって実行された場合に、前記少なくとも1つのプロセッサに、
前記ビデオ比較に基づいて、MASS(Mueenの類似性検索アルゴリズム)を使用して前記ビデオの前記変更されたコピーの第2のビデオ指紋を作成することと、
前記比較メディアファイルの前に識別された第2のビデオ指紋との前記第2のビデオ指紋の第2のビデオ比較を実行することと
を含む動作を実行させ、前記比較メディアファイルの前記前に識別された第2のビデオ指紋が、MASSを使用して生成されており、
前記メディアファイルが禁止されたコンテンツを含んでいることを前記決定することが、前記第2のビデオ比較にさらに基づく、請求項11に記載のシステム。
【請求項19】
前記ビデオ指紋の前記作成が、
前記変更されたビデオ内の顔を検出することと、
前記変更されたビデオから前記顔を切り取ることと、
前記知覚ハッシュアルゴリズムを実行することによって、前記顔の顔紋を作成することとをさらに含み、
前記ビデオ指紋が前記顔紋をさらに含み、
前記ビデオ比較が、
前記顔紋を既知の顔紋と比較することと、
前記既知の顔紋内で一致を検出しなかったときに、前記既知の顔紋を格納しているデータベース内に前記顔紋を格納することとをさらに含む、請求項11に記載のシステム。
【請求項20】
命令を格納している非一過性コンピュータ可読ストレージ媒体であって、前記命令が、少なくとも1つのプロセッサによって実行された場合に、前記少なくとも1つのプロセッサに、
ビデオおよび音声を含んでいるメディアファイルを受信することと、
前記メディアファイルを前処理し、
前記ビデオの変更されたコピー、
前記音声の変更されたコピー、および
前記ビデオ内のキーフレーム
を生成することと、
知覚ハッシュアルゴリズムを使用して前記ビデオの前記変更されたコピーのビデオ指紋を作成することであって、前記ビデオ指紋が前記ビデオの前記変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、
前記音声の前記変更されたコピーの音声指紋を作成することであって、前記音声指紋が前記ビデオの前記変更されたコピーの前記個別のセグメントの第2のベクトルを含む、作成することと、
前記キーフレームに基づいてキーフレーム指紋を作成することと、
比較メディアファイルの前に識別されたビデオ指紋との前記ビデオ指紋のビデオ比較を実行することと、
前記比較メディアファイルの前に識別された音声指紋との前記音声指紋の音声比較を実行することと、
前記比較メディアファイルの前に識別されたキーフレーム指紋との前記キーフレーム指紋のキーフレーム比較を実行することと、
前記ビデオ比較、前記音声比較、および前記キーフレーム比較のうちの少なくとも1つに基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む動作を実行させる、非一過性コンピュータ可読ストレージ媒体。
【請求項21】
コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、
少なくとも1つのプロセッサによって、前記メディアファイルを前処理し、前処理されたビデオおよび前処理された音声を含んでいる前処理されたメディアファイルを生成することと、
前記少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前記前処理されたビデオの第1のビデオ指紋を作成し、前記前処理された音声の音声指紋を作成し、前記前処理されたビデオ内のキーフレームを使用して前記前処理されたビデオの第2のビデオ指紋を作成することと、
前記第1のビデオ指紋、前記第2のビデオ指紋、および前記音声指紋を既知の指紋と比較して、比較結果を得ることと、
前記少なくとも1つのプロセッサによって、前記比較に基づいて前記メディアファイルが禁止されたコンテンツを含んでいるということを決定することと
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
優先権
本出願は、2021年11月8日に出願された米国特許仮出願第63/276,883号、および2021年11月8日に出願された米国特許仮出願第63/276,883号に対する優先権も主張する2022年1月14日に出願された米国特許非仮出願第17/576,666号に対する優先権を主張し、これらのすべての内容は、全体として参照によって本明細書に組み込まれている。
【0002】
本開示は、メディアコンテンツのデジタル指紋採取(digital fingerprinting)に関連しており、より詳細には、音声指紋および映像指紋の組み合わせを使用する、著作権のあるメディアコンテンツおよび/または他の禁止されたコンテンツの検出に関連している。
【背景技術】
【0003】
ウェブサイトのユーザが配布のためにコンテンツをアップロードできるオンラインメディアプラットフォーム、特に、ビデオ共有プラットフォーム(VPS:Video Sharing Platforms)のホストにとって、アップロードされたコンテンツが規則、法律、および/または規制に従っていることを保証するのは、困難な問題である。多くのそのようなウェブサイトの場合、1分間にアップロードされたコンテンツの量を、個別の検閲者が1か月で再検討するのは不可能である。著作権侵害またはコンテンツ違反についてコンテンツをチェックするために、さらなる再検討のためのフラグをコンテンツに立てるさまざまな形態の自動フィルタリングが使用され得る。しかし、そのような自動フィルタリングは、多くの場合、不正確であり、フィルタリングプロセスがどの程度厳しく構成されるかに応じて、多過ぎる誤検出および/または検出漏れをもたらす。ファイルハッシュなどの多くのコンテンツ指紋の解決策は、再エンコーディング、切り詰め、および/またはメタデータ変更によって、容易に回避され得る。加えて、既知のコンテンツの数が増えるにつれて、新しいコンテンツが著作権を有しておらず、他の禁止されたコンテンツを含んでいないということを保証するために必要とされる比較の数も増えるため、そのような自動フィルタリングは、過剰な計算を容易に引き起こす可能性がある。
【発明の概要】
【0004】
本開示のさらなる特徴および利点は、以下の説明において示され、説明から一部分において理解され、または本明細書において開示された原理の実践によって学習され得る。本開示の特徴および利点は、添付の特許請求の範囲において特に指摘される手段および組み合わせを用いて実現され、獲得され得る。本開示のこれらおよび他の特徴は、以下の説明および添付の特許請求の範囲から、より完全に明らかになり、または本明細書において示された原理の実践によって学習され得る。
【0005】
説明された技術的問題に対する技術的解決策を提供するシステム、方法、および非一過性コンピュータ可読ストレージ媒体が開示される。本明細書において開示された概念を実行するための方法は、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも1つのプロセッサによって、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、少なくとも1つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第2のベクトルを含む、作成することと、少なくとも1つのプロセッサによって、キーフレームに基づいてキーフレーム指紋(keyframe fingerprint)を作成することと、少なくとも1つのプロセッサによって、比較メディアファイル(comparison media file)の前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、少なくとも1つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも1つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含むことができる。
【0006】
本明細書において開示された概念を実行するように構成されたシステムは、少なくとも1つのプロセッサと、命令を格納している非一過性コンピュータ可読ストレージ媒体とを含むことができ、これらの命令は、少なくとも1つのプロセッサによって実行された場合、少なくとも1つのプロセッサに、ビデオおよび音声を含んでいるメディアファイルを受信することと、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第2のベクトルを含む、作成することと、キーフレームに基づいてキーフレーム指紋を作成することと、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも1つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含む動作を実行させる。
【0007】
本明細書において開示されるように構成された非一過性コンピュータ可読ストレージ媒体は、命令を格納することができ、これらの命令は、コンピューティングデバイスによって実行された場合、コンピューティングデバイスに、ビデオおよび音声を含んでいるメディアファイルを受信することと、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第2のベクトルを含む、作成することと、キーフレームに基づいてキーフレーム指紋を作成することと、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、比較メディアファイルの前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも1つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとを含む動作を実行させる。
【図面の簡単な説明】
【0008】
【
図1】例示的なシステムの実施形態を示す図である。
【
図2】既知の指紋を新しい指紋と比較する例を示す図である。
【
図3】ビデオを前処理してビデオ指紋を作成する例を示す図である。
【
図4】キーフレーム指紋を作成する例を示す図である。
【
図5】ビデオのセグメントを前処理する例を示す図である。
【
図6C】キーフレーム指紋の比較の例を示す図である。
【
図8】一致する部分を表示している第1の例示的なユーザインターフェイスを示す図である。
【
図9A】一致する部分を表示している第2の例示的なユーザインターフェイスを示す図である。
【
図9B】一致する部分を表示している第3の例示的なユーザインターフェイスを示す図である。
【
図10】例示的なシステムアーキテクチャを示す図である。
【
図12】例示的なコンピュータシステムを示す図である。
【発明を実施するための形態】
【0009】
以下では、本開示のさまざまな実施形態が詳細に説明される。特定の実施が説明されるが、この説明が単に例示の目的で行われるということが理解されるべきである。本開示の思想および範囲から逸脱することなく、他のコンポーネントおよび構成が使用されてよい。
【0010】
上記の技術的問題への1つの例示的で非限定的な実用的応用は、メディアがオンラインプラットフォームにアップロードされるときに、アップロードされたメディアコンテンツの「指紋」を既知のコンテンツの格納された指紋と比較することであり、既知のコンテンツは、著作権を有しており、および/または禁止されたコンテンツ(児童ポルノ、同意のないメディアなど)としてすでに識別されている。禁止されたコンテンツは、本明細書において定義されるとき、著作権のあるメディア、未成年の性的コンテンツのビデオまたは画像、同意なしで取得されたビデオまたは画像などを含む、メディアファイルの所有者またはアップロード者が共有することを法的に許可されていない任意のコンテンツを含むことができる。禁止されたコンテンツを識別するための全体的プロセスは、次のように要約され得る。(1)すべての映像(画像および/またはビデオ)の提出および音声の提出を共通形式に前処理する(メディアファイルの提出の変更されたコピーを生成する)、(2)コンテンツが固有の元に戻せない量に変換されるように、共通形式のビデオおよび音声の提出の指紋を採取する、(3)コンテンツが保護されるべきである場合、指紋を、類似する要素を素早く見つけるために使用され得るデータベース(ANN DB(Approximate Nearest Neighbor Database:近似最近隣データベース)など、ただしこれに限定されない)に格納する、(4)データベース内の一致するか、または極めて類似するコンテンツを識別し、一致の第2の検証を任意に実行し、一致をユーザに報告する。
【0011】
その後、著作権のある素材も、他の禁止された素材も含んでいないメディアコンテンツのみが、メディアプラットフォームに格納されることを許可される。指紋は、メディアコンテンツのシーン、セグメント、クリップ、および/または下位部分の(例えば、ビデオコンテンツと一体になっている)抽象的な元に戻せない表現である。例えば、ビデオおよび音は事象(ビデオの場合は画像、音声の場合は波形)のシーケンスであるため、メディアコンテンツのビデオおよび音声の部分の両方に対して指紋のシーケンスが計算される。この照合ステップの間に、次にこのシーケンスが、前に処理されたメディアコンテンツの既知の指紋と比較され得る。システムは、多くの指紋採取エンジンをサポートし、保護プロセスまたはスキャンプロセス中に、複数の種類の指紋を計算することを引き起こすことができる。コンテンツの項目またはサブ項目ごとのこの大量の指紋は、スキャンプロセスのその後の段階において照合エンジンによって行われる決定の信頼度および精度を向上させる。
【0012】
コンテンツ適合性プロセス内の開示された指紋採取方法およびシステムの役割について検討する。最初に、新しいコンテンツのアップロードが格納され、多くのデバイス(PC(Personal Computer:パーソナルコンピュータ)、モバイルなど)をサポートするために、異なるファイル形式にエンコードされる。これらのアップロードおよびその後のエンコードされたファイルは、ローカルに格納されることが可能であり、許可されていない人員またはシステムによってアクセスできないようにすることができる。この時点で、アップロード/エンコードプロセスは、ファイルを異なるゲート/システムに通し、これらのゲート/システムは、適合性チームによる再検討の前に、コンテンツをスキャンして結果を報告することができる。本明細書に記載された指紋採取方法およびシステムは、単独で、または他のゲートシステムと組み合わせて使用され得る多くのゲートシステムのうちの1つであり、コンテンツが配布されることを許可することができるか、またはコンテンツの配布を禁止することができる適合性チームに、結果を提供することができる。
【0013】
例えば、VSPのエンコーダは、画像であるかビデオであるかにかかわらず、すべてのアップロードをシステムに送信することができる。システムがコンテンツを受信した後に、システム内の異なる指紋採取および照合エンジンに送信される前に、コンテンツの形式を標準化するために、コンテンツが前処理され得る。この時点で、VSPエンコーダは、再検討プロセスに沿ってコンテンツを移動する前に、システムによってコンテンツがスキャンされるまで待機する。システムがコンテンツをスキャンした後に、システムは、応答と共にエンコーダをコールバックする。ビデオの場合、次の3つの種類の応答の可能性がある。
・一致:1つまたは複数のビデオが、アップロードされたビデオに一致しており、システムは、この一致が正確であることを確信している。
・疑わしい:1つまたは複数のビデオが、アップロードされたビデオに一致しており、システムは、この一致が正確であるかどうかを確信していない。
・一致なし:アップロードされたビデオに一致するビデオがない。
【0014】
一致または疑わしいという応答が返された場合、ビデオは、適合性チームによって疑わしい一致が再検討される分離した待ち行列に移動される。画像の場合のプロセスは、同様であることができるが、上で説明されたような3つの異なる応答の代わりに、保護されたカタログに一致する可能性が最も高い画像に関して、異なるエンジンによって複数の距離指標が提供され得る。応答が距離指標であるため、この指標が低いほど、カタログ内の画像が一致である可能性がより高い。一致を引き起こすのに十分なほど距離指標が低い場合、画像は、適合性チームによって疑わしい一致が再検討される分離した待ち行列に移動される。
【0015】
本明細書において開示された指紋採取システムは、VSPによって統合される自立型コンポーネントであることができ、そのため、あらゆる依存関係を防ぐことができる。言い換えると、システムは、VSPから完全に切り離されることが可能であり、したがって、ソフトウェアの依存関係もフレームワークの依存関係も伴わずに、パートナーによって容易に統合され得る。本明細書においてさらに説明されるように、特に明示的に説明されない限り、「システム」は、1つまたは複数の指紋採取エンジンを含んでいるスタンドアロン指紋採取システム、または1つまたは複数の指紋採取エンジンを含んでいる指紋採取システムを含むVSPアップロードおよび適合性システムのどちらかのことを指している。
【0016】
システムによってコンテンツが受信された場合、コンテンツを指紋に変換する前に、コンテンツは、最初に前処理されて標準化される。標準化の一部として、コンテンツが(動画などにおいて)音声およびビデオを両方とも含む場合、標準化される前に、音声およびビデオの部分が分離され得る。一部の状況および構成では、コンテンツが映像のみ(画像、GIF、または音声のないビデオ)または音声のみであってよいということに注意する。コンテンツが前処理されて標準化された後に、並列プロセスが、処理されたコンテンツを取り込み、変換を処理されたコンテンツに適用し、さまざまな指紋を作成することができる。
【0017】
音声の前処理の例として、音声信号が未加工のWAV(または他の音声形式)ファイルに抽出されることが可能であり、(ステレオ音声が存在する場合)両方のチャネルが、単一のモノラル音声ファイルにマージされ得る。ある振幅しきい値を下回るすべての信号は、ノイズと見なされて除去される。例えば、正確な照合を妨げるバックグラウンド干渉を除去するために、音声トラックにノイズゲート(-90dB)が適用され得る。無音自体は情報を構成しないため、トラックの無音部分も除去され得る。音声サンプルレートが共通のサンプルレートに標準化されることが可能であり、共通のサンプルレートは、前処理が開始される前に予め定められる。次に、結果として得られた音声信号がダウンサンプリングされて、ディスクに格納され得る。
【0018】
ビデオトラックは、同様の前処理手順を通る。例えば、すべての入力ファイルがRxC(rows x columns:行×列)の固定解像度および毎秒N個のフレームにダウンサンプリングされることが可能であり、この変更されたファイルがディスクに格納され得る。これによって、パイプライン内の次のステップのために、非常に大きいビデオファイル(4K形式など)のサイズが大幅に縮小されることも保証する。加えて、一様な背景色(縦長のビデオに現れる黒色の帯など)が検出されて除去される。背景が除去される場合、変更されたビデオもディスクに保存され、次の前処理ステップに渡される。
【0019】
映像コンテンツ(画像またはGIFなど)の前処理の他の種類も実行され得る。画像は、フレームのシーケンスとして扱われ、静的画像(例えば、JPEGファイル)は、1つのフレームのみを含むと見なされ、一方、GIFアニメーションは、N個のフレームを含むと見なされる。ビデオのようなシーケンスとして画像を使用して、パイプラインの下流のすべてのその後の動作が一般化され得る。
【0020】
画像の前処理ステップは、次のステップを含むことができる。画像内のフレームごとに、単一の色から成る背景の帯が検出されて除去される。次に、すべてのフレームが個別のファイル(PNGファイルなど)として保存され、結果として得られたファイルの集合が前方へパイプラインに渡される。含まれ得る他のステップは、解像度が減らされ得ること、サブミットされた各画像が、一致の可能性を増やすために反転および回転され得る派生画像を生成すること、および/または横長もしくは縦長への自動修正である。
【0021】
コンテンツが処理された後に、指紋採取エンジン(コンピュータプロセッサ実行可能コード/アルゴリズム)が、コンテンツの画像、ビデオ、および/または音声の側面に使用可能になる。これらの個別のエンジンは、指紋をデータベースに格納された既知の指紋と比較する1つまたは複数のメディアに固有のエンジンを使用して、コンテンツの数学的表現(「指紋」)を作成することができる。既知の指紋は、著作権のある素材および/または保護されたコンテンツに対応することができる。画像、ビデオ、および音声の指紋エンジンの例が提供されるが、これらのエンジンが例示であり、システムが、当業者に知られている他の種類の指紋エンジンを含むことができるということに注意する。
【0022】
画像に関しては、画像を、保護されたコンテンツカタログと比較され得る指紋に変換するために、さまざまな例示的な種類の指紋採取エンジンが使用可能である。システムの特定の構成および再検討中のコンテンツに基づく必要性に応じて、システムが単一の画像指紋採取エンジン、複数の画像指紋採取エンジンを(直列または並列に)使用するか、または画像指紋採取エンジンを使用しないことができるように、画像指紋採取エンジンの任意の組み合わせがシステムによってデプロイされ得る。画像情報をハッシュする目的は、元に戻せない、データベースにおいて検索可能な方法で画像のコンテンツを圧縮する数値表現を取得することである。同時に、ハッシュ(指紋)は、拡大縮小、明るさ、コントラスト、色の変更、透かしの追加または除去などの、画像コンテンツの変更に対して(ある程度まで)耐性がある必要がある。いわゆる知覚ハッシュは、これらの望ましい特性を有する。
【0023】
第1の例示的な画像指紋採取エンジンは、差分ハッシュまたは「dHash」を使用する。このハッシュの背後にある考え方は、画像が最初にグレースケールに変換され、次に、8×9グリッドに減らされることであり、このグリッド内のすべてのセル(新しいピクセル)は、その画像領域上に含まれる元の画像内のピクセルの平均グレーレベル値を含む。この8×9グリッドは、1つの列を除くすべての例で重複する2つの8×8グリッド(左グリッド(L)および右グリッド(R))であることができる。システムは、次に、すべてのグリッド内のセルごとにグレーレベル値を比較し、L>Rである(左グリッド内のセルが、右グリッド内のセルより大きいグレーレベル値を有する)場合、1を書き留め、またはR>=Lである場合、0を書き留めることができる。これによって、入力画像のL/Rの比較に基づいて64ビットハッシュを作成する。画像が(GIF内またはビデオセグメント内などに)複数のフレームを含んでいた場合、この動作は、画像内のすべてのフレームに対して実行される。
【0024】
取り込み時に、この64ビットハッシュ(またはハッシュ)が生成され、その後、ANN DBに格納される。
【0025】
照会時に、照会されているフレームのハッシュが、ANN DB内に存在する前に格納されたハッシュ/指紋と照合される。画像はわずかに異なることがあるため、正確な一致は必要とされず、そのため妥当な既定のしきい値(最大でNビットまでの差異)が、一致が存在するかどうかを判定することができる。また、画像の変更に対する追加の保護として、ミラー反転された形態および回転された形態の両方での照会された画像のハッシュが、照会され得る。
【0026】
第1の画像指紋採取エンジンは、単純でありながら効果的であるが、システムは、第2の画像指紋エンジンを使用することもでき、第2の画像指紋エンジンでは、類似する画像が類似する出力を有するような方法で画像を変換し、映像コンテンツが変更されている場合でも映像コンテンツを照合するのを支援するように、深層知覚ハッシャー(DPH:Deep Perceptual Hasher)と呼ばれる畳み込みニューラルネットワーク(CNN:convolutional neural network)がトレーニングされる。DPHモデルの入力は、画像またはビデオフレームであり、このモデルの出力は、128ビット浮動小数(128 floats)のベクトルなどのN次元埋め込みである。速度のために、保護されるコンテンツの種類に関連する主題に固有の画像に対して、MobileNetV2のようなより小さいCNNアーキテクチャがトレーニングされ得る。
【0027】
DPH畳み込みニューラルネットワークのトレーニングはトリプレット損失関数を使用し、その各トレーニングステップで、DPHモデルが、(1)トレーニング画像、(2)ランダムに変換された(例えば、切り取られた、パディングされた、回転された、反転された、わずかな色の変更などの)トレーニング画像、および(3)同じランダムな変換を伴う別の画像の埋め込みを出力する。次に、DPHモデルは、トレーニング画像とその変換の間の埋め込みが他の画像より近くなるべきであるということを学習する。最良の結果を得るために、他の画像は、トレーニング画像に類似するべきであり、前述の知覚ハッシュによって決定され得る。このトレーニングステップは、損失スコアが水平状態に達するまで、数千個の画像にわたって複数回繰り返される。水平状態に達したときに、DPH畳み込みニューラルネットワークは、トレーニングされたと見なされ得る。
【0028】
DPHエンジンを使用することによって指紋/ハッシュを取得し、ベクトル形成としても知られている埋め込みを得るために、単に画像がDPHモデルに通される。保護された画像の埋め込みは、ANN DBに格納される。DPHを使用して任意の照会画像が埋め込まれることが可能であり、距離しきい値を下回る一致を見つけるために、結果として得られた指紋がANN DBに対して検索される。距離は、例えば、2つの指紋間のハミング距離または任意の他の種類の距離測定であることができる。指紋間の追加の非限定的で例示的な距離測定は、加重相関距離(weighted correlation distance)、二次形式距離、ハウスドルフ距離などを含むことができる。
【0029】
ビデオ指紋採取に関しては、ビデオが画像のシーケンスであるため、ビデオ指紋採取エンジンは、静的画像に使用される指紋採取エンジンに極めて類似している。第1の例では、ビデオファイルが毎秒R個のフレームにダウンサンプリングされているが、すべてのフレームがハッシュされる場合、ファイルごとに多過ぎるハッシュが存在する可能性がある。したがって、システムは、移動ウィンドウを使用して、S秒の領域内のフレームの平均値を計算し、画像に関して上で説明された同じ8×9システムを使用してこの平均フレームをハッシュすることができ、その後、M秒前方に移動する。MおよびSは、領域間にある程度の重複が存在するように選択される。このようにして、1時間の動画でさえ数百個のハッシュしか生み出さず、数百万個の動画が取り込まれている場合でも、データベースのサイズが扱いやすくなる。
【0030】
前処理段階で背景の帯が検出されて除去された場合、(帯を含む)元のビデオファイルのハッシュも計算され得る。システムは、ミラー反転されたビデオのハッシュも計算することができ、これらのハッシュは、一致を確立するための照会時にのみ使用される。
【0031】
取り込み時に、ハッシュがANN DBに追加される。この動作では、(ミラー反転されたビデオのハッシュではなく)直接ハッシュのみが使用される。
【0032】
照会時に、最も多くの一致を有するビデオを取得するために、直接ハッシュおよびミラー反転されたハッシュがANN DBに対して照会される。一致がある程度の時間的コヒーレンスを有することを確認する(例えば、一致がタイムライン全体に散在していないこと、同じ時間的瞬間に属していないことなどの確認する)ために、これらの候補は、第2の段階の間に確認される。ノイズの多い候補が除去された後に、フィルタリングされた一致が返される。ハッシュの2つのセット(変更されていないファイルのハッシュの1つのセット、背景が除去されたファイルのハッシュの別のセット)が受信された場合、2つの照会が実行され、集約動作がユーザにとって透過的になるように、それらの結果が集約される。
【0033】
一部の構成では、ウィンドウの長さSは、5秒または10秒の長さなどに予め定められる。他の構成では、システムは、分析されているファイルのサイズに基づいて変わることができるウィンドウの長さを使用する。
【0034】
システムは、例えば秒単位で、重複パラメータを定義することもでき、つまり、各ウィンドウは、ある秒数だけ前のウィンドウと重複する。予め定められた長さのウィンドウ内のすべてのフレームを使用して、平均フレームが作成される。ウィンドウごとにセグメント指紋が生成され、システムは、構成された秒数だけ前のウィンドウと重複する方法でウィンドウを移動し、読み取るべきフレームが残されなくなるまで続行する。
【0035】
別の例示的なビデオ指紋採取エンジンは、ビデオファイルの「深層知覚ハッシュ(Deep Perceptual Hash)」に類似するプロセスを使用することができる。効率のために、ビデオのすべてのフレームがDPHモデルに埋め込まれ得るわけではない。「キーフレーム」と呼ばれる選ばれたフレームがビデオから抽出され、DPHモデルに埋め込まれる。グレースケールフレームの二乗平均平方根誤差として測定された各フレーム内のコントラストが計算されることが可能であり、S秒のスライドウィンドウ内の最も目立つコントラストを有するフレームが、キーフレームとして選択され得る。例えば、スライドウィンドウが5秒の長さである場合、システムは、各フレームのコントラストの量を計算し、次に、最高の量のコントラストを有するそのウィンドウ内のフレームをキーフレームとして選択することができる。その後、システムは、スライドウィンドウを移動し、キーフレームの識別を続行することができる。
【0036】
キーフレームの埋め込みは、(1)保護のためにANN DBに格納されるか、または(2)一致を見つけるためにANN DBに対して照会され得る。照会後のキーフレームの一致が保護されたビデオに明確に属する場合、このビデオの一致が報告される。際立ったビデオがなく、一致があまり明確でない場合、一致したビデオは候補と見なされ、時系列整列(下のMASSの説明を参照)を使用する追加の一致確認ステップに送られ得る。一部の構成では、同じDPHモデルが画像およびビデオに使用されるため、要求された場合に、画像(ビデオ)からの埋め込みが、ビデオ(画像)の保護された埋め込みに対して検索され得る。
【0037】
上ではグレースケールコントラストに基づいてキーフレームを識別する例が提供されたが、DPHアルゴリズムによって分析されるキーフレームの識別は、当業者に知られている任意の方法で実現され得る。キーフレームが識別され得るさらなる例示的な方法は、次の手順を含む。(1)フレームと前のフレームの間の差異、およびフレーム内の色の変化に基づいて各フレームにスコアを付ける。例えば、システムは、ビデオのセグメント/特定の下位部分内のフレームを受け取り、それらのフレームを時間T(例えば、T=5秒)のバケットにグループ化し、各バケット内のスコアが高い上位N個のフレームをキーフレームとして選ぶことができる。(2)ビデオのフレームを処理して、フレーム間の予め定められた量のコントラストが検出された時間を決定する。例えば、システムは、最初のキーフレームと後続のフレームの間のコントラストの量がコントラストの予め定められた量を有するまで、ビデオ内の最初のキーフレームと、各後続のフレームとを比較することができる。後続のフレーム内でコントラストの予め定められた量が検出された後に、その後続のフレームは、次のキーフレームとして識別され、プロセスは、ビデオの残りの部分全体を通じて続行することができる。他の構成では、コントラストの予め定められた量が検出されるまで、期間tごとにコントラストの測定結果が受け取られるように、時間に基づいてコントラストが決定され得る。例えば、システムは、コントラストのしきい値量が検出されるまで、毎秒コントラストを測定することができる。(3)ビデオ圧縮内には、JPGまたはBMP画像ファイルのような完全な画像を含むIフレーム(イントラコード化ピクチャ)、前のフレームからの画像内の変化のみを保持するPフレーム(予測ピクチャ)、および現在のフレームと、先行するフレームおよび後続のフレームの両方との間の差異を使用してコンテンツを指定するBフレーム(双方向予測ピクチャ)が存在する。一部の構成では、システムは、Iフレームをキーフレームとして識別することができる。
【0038】
ビデオ指紋採取の第3の例は、やはりコントラストに依存する。前述したように、フレーム間の予め定められた量のコントラストが検出された時間を決定するためにビデオのフレーム、および、それらの時点を識別する。しかし、この例では、システムは、十分なコントラストが検出された時点に基づいて指紋を生成する。生成された指紋は、システムがビデオ間のコントラストの時間的変化を、やはり特定のセグメントに関連付けられた値のリストである得られた指紋と比較することを可能にし、各値は、コントラストのそれらの時点が検出された時間を示す。
【0039】
生成され得る別の映像指紋は、人ごとに固有であり、元に戻せない顔紋(顔埋め込みとしても知られている)である。顔は、マルチタスクカスケード畳み込みニューラルネットワーク(MTCNN:Multi-Task Cascaded Convolutional Neural Network)を使用して画像およびビデオフレーム内で検出され得る。顔は明確である必要があるため、顔検出は元のコンテンツファイルに対して実行される。検出から、角度スコアを計算して、顔がより正面に配置されているか、または側面を見せているかを判定するために、顔ランドマークが使用され得る。検出された顔は、切り取られて、複数の埋め込みモデルおよび表情モデルに通される。埋め込みモデルは、顔の異なるデータセットに対してそれぞれトレーニングされ、通常は512ビット浮動小数ベクトル(512 float vector)である、人に固有の埋め込みをそれぞれ出力する。表情モデルは、異なる顔のジェスチャー(例えば、幸福、驚き、悲しみ、怒り)を伴う顔に対してトレーニングされ、特定の顔のジェスチャーの各々の確率を出力する。例えば、モデル内に8つのジェスチャーが存在する場合、出力は、8つの異なる確率になる。
【0040】
画像内の顔が検出され、埋め込みモデルおよび表情モデルに通される。保護されたコンテンツに関して、顔の埋め込み、表情の確率、および角度スコアが格納される(実際の顔の切り取りは保持されない)。保護された顔の埋め込みは、対応するANN DBに格納されるのが好ましいが、他の種類データベースが使用されてもよい。照会では、画像内の顔が検出され、埋め込みが抽出され、それらの埋め込みが、保護されたANN DB内で検索される。距離しきい値以内で検出されたそれらの顔は、一致と見なされる。第2の検証として、一致する顔は、類似する表情および角度スコアも有する必要がある。
【0041】
顔を含むビデオ内には多くのフレームが存在する可能性があるため、ビデオ内の顔の照合は、画像とわずかに異なる。N秒ごとにビデオのフレームが抽出され、顔検出、埋め込み、および表情モデルが、各フレームに対して実行される。保護されたコンテンツに関して、すべての埋め込みを格納するにはあまりにも多くの顔が存在するため、フィルタリングが必要とされる。埋め込みモデルごとに決定された類似性しきい値に基づいて、類似する顔がクラスタ化されることが可能であり、その後、「照合可能性」スコアに基づいて、各クラスタ内の最良の顔が選択され得る。この照合可能性スコアは、顔がミラー反転された自分自身にどの程度良く一致するかを予測し、正確に照合され得る顔のみを維持することにおいて重要である。次に、最良の顔に関連付けられたデータが格納され、埋め込みが、対応するANN DB内で維持される(実際の顔の切り取りは維持されない)。
【0042】
照会では、取り込みでの顔より多くのビデオ内の顔が維持されることが可能であり、それぞれANN DB内で検索され得る。画像と同様に、距離しきい値以内で検出された顔は一致と見なされ、これらの一致は、二次検証に合格するために、類似する表情および角度スコアを有する必要がある。同じ顔モデルが画像およびビデオに使用されるため、画像(ビデオ)からの埋め込みが、ビデオ(画像)の保護された埋め込みに対して検索され得る。
【0043】
ビデオ指紋が(ビデオのセグメント/下位部分/キーフレームに対応する画像指紋のリストまたは配列の形態で)生成された後に、システムは、ビデオ指紋を、データベースに格納された既知のビデオ指紋と比較することができる。
【0044】
音声指紋を計算することに関しては、音声コンテンツが空気圧の変化に対応する極めて短時間の値のシーケンスであり、小さい知覚不可能な変化でさえ、これらの値を大幅に変更することができるため、音声指紋を計算することは、ビデオまたは画像より複雑である可能性がある。このような制限を回避するために、システムは、前処理中にノイズゲートを使用して、ある音量を超える、および/または下回るノイズを除去することができる。この前処理は、非常に高い周波数および非常に低い周波数を除去することもできる。音声コンテンツのスペクトログラムを抽出するために、高速フーリエ変換(FFT:Fast-Fourier Transform)が適用され得る。したがって、音声指紋採取アルゴリズムの基本的ステップは、次のとおりであることができる。
(1)音声信号のスペクトログラムを計算する。
(2)ある距離だけ分離された、最高の振幅のスペクトルピークを見つける。ファイルがほとんど無音である場合に少な過ぎるハッシュを生成すること、または多数の音声活動が存在する場合に多過ぎるハッシュを生成することを防ぐために、ファイル内の全体的音声レベルに基づいて、振幅フィルタリングが動的に実行され得る。前処理プロセスを開始する前に、(全体的音声レベルを決定するための)音声活動のしきい値が予め定められ得る。
【0045】
システムは、例えば、ピーク検出アルゴリズムを使用して、振幅ピークを抽出することができ、それらのピークの位置は、ハッシュ関数への入力として機能することができ、このハッシュ関数の出力が音声指紋である(ハッシュ関数は、バイトの配列を小さい一意の識別子に変換する一方向数学関数である)。
【0046】
画像および/またはビデオの分析において使用される知覚ハッシュ関数とは異なり、音声ハッシュ/指紋は、出力間の類似性のレベルを提供せず、つまり、正確な一致を検索することのみに使用され得る。この問題に対処するために、2つの態様が使用され得る。第一に、予め定められた方法で音声を一貫して前処理する(すなわち、一貫性のあるノイズゲート、周波数のフィルタリングなどを使用する)ことによって、分析されている音声が前に識別された音声と同じ方法で分析されることを保証する。第二に、システムは、予め定められた長さを有する音声トラックの特定のセグメント/下位部分を分析する。5秒の音声クリップのハッシュ出力が3秒のクリップのハッシュ出力と比較される場合、音声照合は機能しない。これに対応するために、システムは、音声コンテンツの予め定められた設定持続時間を利用することができる。必要に応じて、システムは、音声コンテンツが必要とされるフォーマット規格を満たすことを保証するために、前処理中に音声エンコーディングを調整することができる。
【0047】
音声指紋採取の結果は、音声トラック全体の下位部分/セグメントのハッシュされた音声指紋のリストまたは配列で構成された音声指紋である。
【0048】
前述の音声ステップの前処理の後に、スペクトルピークの対を生成することによって、音声指紋が作成され得る。ピークは、時間および周波数の位置(t、f)によって定義される。2つのピークP1、P2が(t1,f1)、(t2,f2)によって定義され、P2はP1より時間的に後に発生する。ハッシュ(指紋としても知られている)が、(f1,f2,t2-t1)によって定義される。システムは、t1を、指紋がファイルに現れる時間として格納することもできる。これをさらに簡略化するために、初期トリプレット(f1,f2,t2-t1)が単一の整数としてエンコードされ得る。
【0049】
取り込み時に、指紋がデータベースに格納され、データベースはキー値データベースであるのが好ましいが、他の選択肢も可能である。ここでは、正確な一致が必要とされるため、ANN DBは必要とされない。
【0050】
照会時に、入力音声の指紋がDBに対して照会され、一致の数が数えられる。十分な一致を有するコンテンツ/動画は、候補と見なされ、照会アルゴリズムの第2の段階への入力になる。この第2の段階は、一致が時間的コヒーレンスを有し、連続的シーケンスを形成することを確認することによって、候補が有効であるかどうかをチェックする。正しい候補が妥当性を確認された後に、アルゴリズムは、それらの候補を可能性のある禁止されたコンテンツのリストとしてユーザに返すか、または一致する動画が検出されなかった場合、何も返さない。
【0051】
一部の構成では、代替の音声指紋採取方法が使用され、音声の変更に対してより堅牢である音声クワッドハッシュ(audio quad hashes)を生成することができる。そのような構成では、前処理された音声信号からスペクトログラムが計算され、最大振幅の点が選択される。次に、それらのピークのうちの2つ(A-左下、B-右上)が長方形の向かい合った角にあり、別の2つ(C,D)が内側に配置されなければならないという条件で、4つのグループ内のピークが選択される。点Aの(x,y)座標が(0,0)として設定され、Bが(1,1)として設定され、CおよびDの座標がAおよびBに基づいて正規化されて、C’およびD’を作る。このようにして、CおよびDの(x,y)値が、範囲(0,1)内に厳密に含まれる。これらの4つのデータ点(x_C’,y_C’,x_D’,y_D’)が、1つの音声クワッドハッシュを形成する。
【0052】
ファイルごとに、毎秒最大でR個のハッシュを含む小さいセット(「基準」ハッシュ)、および毎秒最大でQ個(Q>>R)のハッシュを含むより大きいセット(「照会」ハッシュ)という、音声クワッドハッシュの2つのセットが生成される。また、スペクトログラムピークが選択される方法を制御するパラメータは、基準ハッシュと照会ハッシュの間でわずかに変わることができる。これの背後にある考え方は、両方のハッシュセット間の小さい差異が、この方法を音声の変更に対して堅牢にするということである。
【0053】
取り込み時に、基準ハッシュがANN DBに追加される。照会時に、次の2つの逐次的動作を実行する。(1)入力動画の基準ハッシュを含む(フラグが立てられるべきすべてのクリップの基準ハッシュを含んでいる)基準DBを使用してANN照会を実行し、可能性のある候補のリストを与える。(2)次に、候補からの基準ハッシュおよび入力動画の照会ハッシュのサンプルを使用して、選択された候補ごとに確認アルゴリズムを実行する。そのような確認は、任意の適切な比較アルゴリズムによって実行され得る。
【0054】
前述のプロセスによって1つのコンテンツの画像、ビデオ、および/または音声トラックが処理されて指紋採取された後に、それらの指紋がシステムのデータベース内に格納される。この時点で、コンテンツが破棄され、システムのインフラストラクチャから除去され得る。しかし、次にシステムは、照合エンジンを使用して、保護されたカタログ(著作権のある素材および/または他の禁止されたコンテンツ)と新たにアップロードされたコンテンツの間で指紋を比較する。
【0055】
入力内の小さい変化が、結果として得られるハッシュ値に対する大きい変化をもたらす古典的ハッシュ関数とは逆に、知覚ハッシュは、入力がわずかに変化する場合に、わずかにしか変化しない。そのため、ビデオ/画像指紋は、知覚ハッシュをビデオの画像またはセグメントに対応する高次元ベクトルとして考慮することによって、画像が既知のビデオ/画像指紋とのある程度の類似性の範囲内にあるかどうかを判定することができる。ベクトルが互いに近い距離にある場合、それらのベクトルは、類似するコンテンツを表す可能性が高い。したがって、照会ごとに、特定の対象の画像/ビデオ指紋に最も近い一致を見つけるために、高速な最近隣データベースが使用される。同様のプロセスが音声トラックに使用されることが可能であり、このプロセスでは、一致の多くの候補が識別され、一致の可能性が最も高い候補をランク付けするために、その後、さらに処理されて比較される。
【0056】
システムへの照会が実行されるたびに、コンテンツがダウンロードされ、前処理され、指紋採取され、保護されたカタログを含んでいるデータベースに対して照会される。最も可能性が高い指紋がコンテンツ(ビデオ、画像、または音声)別にグループ化されることが可能であり、指紋の結果と照会の間で、重複が計算されることが可能であり、重複は秒単位であるのが好ましいが、他の指標も可能である。例えば、ビデオ指紋および音声指紋の重複に基づいて、システムは、2つのコンテンツ間の300秒(5分)の重複を計算することができる。これらの指標および重複は、重複の時間量(秒)に従ってすべての一致するコンテンツがランク付けされる、要約応答に変換され得る。他の構成では、このランク付けは、類似性のパーセンテージまたは他の類似性指標に基づくことができる。言い換えると、ビデオがアップロードされ、複数の保護されたビデオを照合する場合、最長の一致する(連続的または非連続的)長さを有するビデオが、降順でインテグレータに返され得る。一部の構成では、このリストは、ユーザインターフェイス(UI:User Interface)を介してユーザに提示されることが可能であり、ユーザは、元のコンテンツと一致するコンテンツの間の比較を再検討し、新しいコンテンツがデータベースに追加されて配布に使用可能になるべきかどうかを判定することができる。他の構成では、しきい値量(50%など)を超える類似性のレベルを有する任意のコンテンツが、自動的に除去され得る。
【0057】
新しい1つのコンテンツが(禁止されたコンテンツに対応するかどうかにかかわらず)検出された場合、指紋がコンテンツのシステムカタログに自動的に追加され得る(注意:このコンテンツはシステムに保存されず、指紋のみがシステムに保存される)。新しい1つのコンテンツが既知の禁止されたコンテンツに対応する(例えば、著作権のある素材、アダルトコンテンツ、同意のないコンテンツなどを含む)ということが決定された場合、指紋がシステムカタログに追加されるだけでなく、この新しいコンテンツを照合するすべての前の照会が通知を受け、かつ/または除去される。例えば、数週間前にビデオがVSPまたはソーシャルメディアプラットフォームパートナーにアップロードされており、何週間か後に類似するビデオが保護される場合、システムによって元のアップロード/照会が通知を受ける。この機能は、システムインテグレータへのコールバックを介して実施される。
【0058】
一部の構成では、ビデオ指紋の類似性に基づいて、コンテンツが禁止されたコンテンツであるように見える場合、システムは、キーフレームを選択するために作成されたコントラスト信号に対して時系列整列を使用して追加の確認を引き起こすことができる。このコントラスト信号は、ビデオの元に戻せない1次元時系列であることができる。MASS(Mueen’s algorithm for similarity search:Mueenの類似性検索アルゴリズム)およびDTW(dynamic time warping:動的時間ワープ)を使用して、特定の時系列が候補時系列と比較され得る。MASSは、時系列を周波数領域内に変換し、周波数間のユークリッド距離を計算することによって、2つの時系列を整列する。DTWは、1つの時系列を別の時系列にマッピングするための最良の方法を見つけ出す。MASSおよびDTWはそれぞれ、候補が一致するかどうかを判定するために使用される距離測定結果を生み出す。特に、MASSおよびDTWは、特定の照会された時系列のより小さいチャンクを候補時系列に整列し、次に、これらの整列が、(1)距離しきい値以内にあるかどうか、および(2)チャンクが一続きの整列を形成するかどうかを判定する。チャンクサイズを変えることによって、時系列が適切に整列するということの確認の追加の層を可能にする。言い換えると、MASSおよびDTWアルゴリズムは、音声またはビデオの特定のセグメントが既知のセグメントにどの程度幾何学的に類似するかを計算し、照会から長い時系列のサブシーケンスまでの距離のすべてを生成することができる。しかし、そのような整列は、計算的に高価であり、すべての保護されたビデオに対して実行され得ず、候補サブセットに対してだけ実行され得る。
【0059】
MASSを実行することにおける計算コストのため、MASSが実行される場合、システムフローの例は次のとおりであることができる。(1)コンテンツを受信する、(2)ビデオおよび音声コンテンツを分離する、(3)ビデオおよび音声コンテンツを前処理する、(4)前処理されたビデオおよび音声コンテンツの指紋を生成する、(5)ビデオまたは音声が既知の禁止されたコンテンツとの類似性のしきい値レベルを超えているということを決定する、(6)しきい値を超えていることに基づいて、ビデオまたは音声に対するMASSアルゴリズムの実行を開始する、および(7)MASS距離の結果を受信する。特定のセグメントに対して予め定められたMASS距離が計算されるときに、そのセグメントが一致しないと見なされる場合、MASSに他の類似性の結果が提示され得る。
【0060】
1つの例では、時系列整列(MASSおよび/またはDTW)は、ビデオの一致候補のコントラスト信号に対して実行される。しかし、音声の一致を確認するために、モノラル音声信号に対して同じ整列方法が実行され得る。
【0061】
指紋が生成された後に、システムは、前に格納された指紋との一致を識別しようとすることができる。画像またはGIFの場合、すべての照合アルゴリズム(基本的なハッシュ、DPH、顔検出)は、並列に実行することができ、照合アルゴリズムのすべてからの結果が、一致が検出されたかどうかを判定するために使用され得る。
【0062】
動画(またはビデオデータおよび音声データを両方とも含んでいる他のコンテンツ)用の照合論理は、もう少し複雑である。一方では、ビデオフレームからの一致および音声信号からの一致が望ましい。音声情報のみまたはビデオ情報のみを含む一致は、正しいことがあるが、手動で再検討されなければならない一致の数を減らすために、さらなる確認を必要とすることがある。また、MASSおよびDTWは、計算的に高価であり、DB内の1つ1つのビデオに対して実行され得ない。これらの問題に対する1つの可能性のある手法は次のとおりである。(1)基本的なビデオハッシュ、基本的な音声ハッシュ、音声クワッド、およびキーフレームの照会を並列に実行する、(2)同じ動画上で基本的なビデオハッシュ、および基本的な音声ハッシュまたは音声クワッドのうちの1つが一致する場合、これが一致と見なされる。一致が全く存在せず、キーフレームも低い一致カウントをもたらす場合、この動画は問題がないと宣言される。ビデオ信号のみの一致、または音声信号のみの一致が存在するか、あるいはどちらにも一致が存在しないが、DPHのキーフレームが高い一致カウントを返す場合、確認のために、候補がMASSおよびDTW時系列整列に送信される。MASSの出力およびDTWの出力が両方とも整列する場合、一致が宣言される。そうでない場合、ファイルは疑わしく、手動で再検討されなければならない。
【0063】
前述したように、生成されたビデオ指紋および音声指紋は、セグメントまたは下位部分の指紋のリストまたは配列であることができるため、単一のセグメントの指紋に対して一致を識別することは、誤検出をもたらす可能性がある。照合を改善するために、システムは、それらのセグメントの指紋の連続的な一続きの一致を探すことができる。例えば、ビデオ指紋の一連のセグメントが、セグメントの指紋として「A」、「B」、「C」、および「D」をそれぞれが含み、ABCDという指紋をもたらす場合、システムは、指紋の全体(ABCD)(単一のセグメントの指紋を取り除くか、または置き換えることによって妨害され得る)および/または指紋の一部(例えば、ABCまたはBCD)(妨害するのがより困難である)のいずれかの連続的な一続きを探すことができる。これによって、特定のセグメントの前または後にさらにコンテンツが追加された場合でも、禁止されたコンテンツが依然として発見可能な状態で、ビデオが照合されることも保証する。
【0064】
システムを全体的に説明したが、ここで本開示は、各図に示された例について説明する。
図1は、例示的なシステム100の実施形態を示している。図に示されているように、メディアファイル102がシステム100にアップロードされ、このメディアファイルが前処理される(104)。例えば、メディアファイルが、音声成分およびビデオ成分を両方とも含んでいる動画である場合、前処理は、音声の場合、ノイズゲートを介して音声をフィルタリングすること、さまざまな高周波数および/または低周波数を除去すること、エンコーディングが一般的な/望ましい形式に一致することを保証することなどを含むことができる。ビデオの前処理の例は、ビデオから帯を除去すること、色を除去する/色をグレースケールに変更すること、エンコーディングを一般的な/望ましい形式に変更することなどを含むことができる。次に、システム100は、前処理されたビデオ106に対して知覚ハッシュ112を実行し、ビデオ指紋であるビデオハッシュ116を生成する。システム100は、前処理された音声108に対してもハッシュ114を実行し、音声指紋である音声ハッシュ118を生成する。この例では、システム100は、前処理されたビデオ内からキーフレーム110も識別しており、システムは、キーフレーム110に対して知覚ハッシュ126(DPH埋め込みなど)を実行し、キーフレーム指紋であるキーフレームハッシュ128を生成する。
【0065】
次に、システム100は、ビデオハッシュ116、音声ハッシュ118、およびキーフレームハッシュ128を既知のコンテンツの指紋120とそれぞれ比較する(130、132、134)。一部の構成では、これらの比較130、132、134は同時に発生することができ、一方、他の構成では、比較130、132、134は順次に発生することができる。例えば、既知の(ビデオ)指紋120が、新たに生成されたビデオ指紋紋116と比較されるのと同時に、既知の(音声)指紋120が、新たに生成された音声指紋118と比較され得る。代替として、新たに生成されたビデオ指紋紋116との既知の(ビデオ)指紋120の比較130が完了するまで、既知の(キーフレーム)指紋120が、新たに生成されたキーフレーム指紋128と比較されなくてよい。一部の構成では、指紋の比較のこの逐次的プロセスは、最初の指紋の比較によって決定されている類似性のしきい値レベルに依存することができる。例えば、キーフレーム比較134は、ビデオ比較130および/または音声比較132が最初に完了し、可能性がある禁止されたコンテンツが検出されたことを示さない限り、発生しなくてよい。
【0066】
比較130、132、134が完了した後に、システム100は、比較130、132、134に基づいてコンテンツをフィルタリングする(122)ことができる。例えば、比較130、132、134が、新たに提示されたメディアファイル102が既知の著作権のあるファイルに100%類似しているということを示す場合、システムは、メディアファイル102を直ちに除去し、かつ/またはメディアファイル102をアップロードしようとしているユーザに、そのユーザが所有していないアップロード中の著作権のある素材が禁止されている(したがって、禁止されたコンテンツである)という通知を提供することができる。比較130、132、134が、メディアファイル102が未成年の性的コンテンツなどの他の禁止されたコンテンツを含む可能性があるということを示しているが、比較130、132、134が完全に明白でない場合、フィルタ122は、人間によるコンテンツの再検討を要求することができる。比較130、132、134が、コンテンツが新しいということを示す場合、システムは、指紋116、118、128をデータベースに保存することができ、指紋116、118、128は、今後のメディアファイルを検査する際に使用され得る。比較130、132、134が完了し、フィルタリングプロセス122が、コンテンツを著作権または内容の理由のために禁止されているとして識別しなかった後に、システム100は、コンテンツ102のアップロードの準備ができているという指示124をVSPに提供することができ、またはシステム100がコンテンツ124をアップロードするように構成されている場合は、アップロードし始めることができる。
【0067】
図2は、既知の指紋を新しい指紋と比較する例を示している。図に示されているように、動画208が、前に登録/指紋採取された動画202と比較されている。前に登録された動画202の各々は、埋め込み(前述したように、数学的ベクトル)にハッシュ/指紋採取/変換されており、それらの指紋は、ANN DBと呼ばれるANN DB206に格納される。
【0068】
新しい動画208の受信時に、システムは、新しい動画のハッシュ/埋め込み/指紋210を生成し、指紋210を照会としてANN DB206にサブミットする。指紋210は、既知の動画202およびコンテンツの指紋204と比較される。比較が明確な一致を明らかにしなかった場合、新しい動画208は候補検証212に進むことができ、候補検証212では、新しい動画208に関する追加情報が必要とされてよい。加えて、新しい動画208の指紋210が、ANN DB206に格納されている既知の指紋204との正確な一致でない限り、新しい指紋210は、今後のコンテンツのアップロードに対する比較のために、ANN DB206に格納され得る。
【0069】
図3は、ビデオを前処理してビデオ指紋を作成する例を示している。一部の構成では、さまざまなステップの順序または含有は変更され得る。適用可能な場合、同じプロセスまたはわずかに変更されたプロセスが、個別の画像にも適用され得る。
【0070】
システムがビデオコンテンツ304を受信した場合、ビデオコンテンツ304は、減らされたフレームレートおよび解像度に正規化され得る。この正規化は、ビデオコンテンツ304をグレースケール302に変換することであることができる。指紋を生成する前のコンテンツのこのサンプリングは、コンテンツ項目間の一貫性を保証する。次に、システムは、ビデオの長さを検出し、切れ目のない色の帯/ブロック306を含むビデオ内の部分を識別する(帯/ブロック306は、必ずしも示されているような黒色である必要はない)。帯は、必ずしも画像コンテンツの水平方向の側面に存在する必要もなく、コンテンツの垂直方向(上部または下部に)に、コンテンツの片側のみに(上部、下部、左、または右だけに)、またはこれらの任意の組み合わせで、配置されることも可能である。システムは、ブロックの対応する座標を識別し、ブロックが存在している各フレームのブロック切り取り、帯を含まない画像/コンテンツ308を生成する。
【0071】
次に、残りのコンテンツがグリッド310に分割される。図に示されているように、グリッドは8×9であるが、他の構成では、異なる数のセルが可能である。セルの数に関して、システムが8×9グリッドをビデオコンテンツに使用する予定である場合、すべてのビデオコンテンツが8×9グリッドを使用して評価される必要があるように、適切な一致を保証するために、指紋採取の事例間の一貫性が極めて重要である。
【0072】
前述したように、8×9グリッド内の各セルは、その画像領域上に含まれる元の画像308内のピクセルの平均グレーレベル値を含む。この8×9グリッド310は、1つの列を除くすべての例で重複する2つの8×8グリッド(左グリッド(L)および右グリッド(R))であることができる。システムは、次に、すべてのグリッド内のセルごとにグレーレベル値を比較し、L>Rである(左グリッド内のセルが、右グリッド内のセルより大きいグレーレベル値を有する)場合、1を書き留め、またはR>-Lである場合、0を書き留めることができる。これによって、入力画像のL/Rの比較に基づいて64ビットハッシュを作成する。画像が(GIF(Graphics Interchange Format:画像交換フォーマット)内またはビデオセグメント内などに)複数のフレームを含んでいた場合、この動作は、画像内のすべてのフレームに対して実行される。
【0073】
取り込み時に、この64ビットハッシュ(またはハッシュ)が生成され、その後、ANN DBに格納される。例として、指紋の最初の値は、8×8の比較の8×8グリッドの左上のセル[1,1]に対応し、2番目の値は、すぐ右側のセル[1,2]であり、3番目の値は、その右側[1,3]である、などであり、9番目の値は、2番目の行の最初のセル[2,1]である、などとなる。このようにして、最終的に、この画像、またはビデオセグメント内の平均化されたフレームの指紋を構成する64ビットの長さの数値(浮動小数)が得られる。他の構成では、本開示の範囲内に依然としてありながら、セルから指紋が形成される方法、または指紋内のビットの数が変わることができるということに、注意する。
【0074】
図4は、キーフレーム指紋を作成する例を示している。この例では、ビデオは一連のフレーム402を含んでいる。システムは、一連のフレーム402から特殊なフレーム(キーフレーム404)を識別し、深層学習を使用してキーフレーム404を圧縮することができる。システムは、図に示されているように、キーフレーム404を抽出し、次に、前述したように深層知覚ハッシュ406アルゴリズムを使用して、128ビット浮動小数の埋め込み(指紋)408を作成することができる。
【0075】
一部の構成では、キーフレーム404は、システムによって次のように抽出され得る。(1)フレームと前のフレームの間の差異、およびフレーム内の色の変化に基づいて各フレームにスコアを付ける、(2)フレームを時間T(例えば、T=5秒のウィンドウ)のバケットにグループ化し、各バケット内のスコアが高い上位N個のフレームをキーフレームとして選ぶ(例えば、単一のキーフレーム404の場合、N=1を使用する)。キーフレーム404が抽出された後に、一部の構成では、システムは、キーフレーム404をより小さい埋め込み(128ビットの埋め込み408の場合、64ビット浮動小数など)にさらに圧縮することができる。
【0076】
図5は、ビデオ508のセグメント510を前処理する例を示している。図に示されているように、セグメント510内の一連のフレーム502が受信され、システムは、
図4で説明されたキーフレームの識別を実行する前に、フレームを正規化することができる。フレームがサイズ、色に関して正規化された(グレースケールに変換された、などの)後に、システムは、フレーム502間のグレースケールコントラストを計算し(504)、フレームのコントラスト差506を生成することができる。コントラスト差506は、前述したように、セグメント510の指紋を計算するために使用され得る。
【0077】
図6Aは、音声指紋の比較の例602を示している。この図は、例えば、システムによって評価されているコンテンツが複数の他のファイル604とどのように比較されるかを見るためにユーザが使用できるユーザインターフェイス(UI)の一部である。この例では、音声指紋は、「ファイル9」の行の黒色の線614で示されている、「ファイル9」との88.04%の類似性を有する。他の比較されたファイルとの顕著な類似性は示されていない。ユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。一部の構成では、類似性がそれほど正確でない場合、ユーザインターフェイスは、異なる色調を使用して特定のセクションの類似性のレベルを示すことができる。
【0078】
例えば、
図6Bは、ビデオ指紋の比較の例606を示している。
図6Aと同様に、この図は、コンテンツ評価プロセスの間に使用されるUIの一部であることができる。この例では、右側に帯616があり、2つのコンテンツ間の類似性のレベルが色のグラデーションによって示され得ることを示している。黒色の実線618によって示されているように、「ファイル9」がまだ高レベルの類似性を示しているが、この場合、高度な類似性を有する2つの不連続な部分620を含んでいるファイル4、および単一の切れ目のない部分を含んでいるが、より低いレベルの類似性(明るいグレーで示されている)を有するファイル14 622などの、他のファイル608のうちの一致するセグメントを含んでいる複数の他のコンテンツも存在する。やはりユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。
【0079】
図6Cは、
図6Aで音声比較が示され、
図6Bでビデオ比較が示された同じコンテンツに関して、キーフレーム指紋比較610の例を示している。しかし、図に示されているように、キーフレーム指紋比較は、検討中のファイル612のどれとも、類似性を明らかにしていない。やはりユーザは、この情報を使用して、評価中のコンテンツが禁止されたコンテンツを含んでいるかどうかを判定することができる。
【0080】
図7は、指紋の比較の例を示している。図に示されているように、サブミットされたビデオコンテンツ部分は、異なるセグメント702、704、706に関連付けられたフレームを含んでいる。システムは、セグメントごとに平均値を計算し、平均1 708、平均2 710、および平均3 712を生成する。これらの平均化されたフレーム708、710、712の各々が、知覚ハッシュアルゴリズム714にそれぞれサブミットされ、結果として、セグメント702に対応するセグメントの指紋「ABCD」716、セグメント704に対応するセグメントの指紋「ABCE」718、およびセグメント706に対応するセグメントの指紋「XBCE」720をもたらす。
【0081】
ビデオコンテンツの完全な指紋722が、個別のセグメントの指紋のリストとして示されており、「ABCD」の直後に「ABCE」が続き、その後に「XBCE」が続いている。システムは、一連のセグメントの指紋724を、他の既知の指紋726、728、730と比較する。図に示されているように、指紋(1)726は、一連のセグメントに関して100%の一致732を有しており、つまり各セグメントの指紋716、718、720が、サブミットされたビデオコンテンツ内と同じ(この場合は連続的な)時間的順序で指紋726内に存在している。指紋(2)728も、サブミットされたビデオコンテンツと同じセグメントの指紋および同じ時間的順序で、100%の一致734を有している。しかし一致は、指紋(1)726と同じビデオ内の時間的位置ではなく、代わりに一致は、既知のコンテンツ内でより早い(一連のセグメントの指紋に先行するより少ないドットによって示されている)。このような一致は、例えば、ビデオの一部が第2の指紋728に関連付けられたビデオから削除されている場合に発生する可能性がある。指紋(3)730は、セグメントの指紋「ABCD」および「ABCE」を含んでいるが、後続のセグメントの指紋として、わずかに異なるセグメントの指紋「ZBCE」を含んでいる。したがって、システムは、サブミットされたビデオコンテンツとこの指紋730の間に、80%の一致736を割り当てた。システムは、一致する類似性732、734、736に関する通知を適合性再検討チームに提供することができ、かつ/または検出された類似性に基づいてコンテンツを禁止することに関する決定を行うことができる。
【0082】
図8は、異なる種類の指紋の比較に関して、アップロードされたコンテンツと既知のコンテンツの間の一致する部分を表示する第1の例示的なユーザインターフェイス(UI)810を示している。この例では、ユーザインターフェイス810は、音声指紋の比較802、ビデオ指紋の比較804、MASSの比較806、およびキーフレーム指紋の比較808に関連付けられた部分を含んでいる。図に示されているように、アップロードされたコンテンツと既知のコンテンツの間で一致している(812)音声802、ビデオ804、およびキーフレーム808の比較の部分が存在する。UI810を介して比較802、804、806、808を再検討しているユーザは、評価中のコンテンツが禁止されたコンテンツを含むかどうかを判定することにおいて、各一致するセクションを調べることができる。
【0083】
図9Aは、一致する部分922を表示する第2の例示的なユーザインターフェイス900を示している。このUI内で、ユーザは、調査中のコンテンツに関する正確な一致902であるコンテンツ、疑わしいコンテンツなどをフィルタリングすることができる。同様にユーザは、エンジンの種類904(例えば、音声指紋の比較に基づいて一致するコンテンツのみ、および/またはビデオ指紋の比較に基づいて一致するコンテンツのみ)、しきい値量906に基づいて、一致するコンテンツをフィルタリングすることができ、x%を超える一致を有する結果のみが表示される(ユーザが、しきい値xを設定することができる)。UIは、比較されたコンテンツをランク付けすることができ、最も類似する一致910が最初に表示され、2番目に最も類似する一致912が2番目に表示される、などとなる。示された構成では、ユーザは、調べられているコンテンツおよび既知のコンテンツのアニメーション化されたビデオ比較908を見るための選択肢を有することができる。UIは、メタデータ(タイトル、アップロードしているユーザの名前、識別トークン、アップロード日など)、および異なる比較922の一致する部分/セグメントを表示することもできる。例えば、
図8に示されたUIに類似するチャートがここに含まれることが可能であり、このチャートは、音声、ビデオ、MASS、キーフレーム、および/または他の比較に関して、既知のコンテンツに一致するコンテンツの部分の表示をユーザに提供する。このUIは、既知のコンテンツのどのくらいが再検討中のコンテンツに一致するかを識別するパーセンテージ量を表示し、「応答をコピーする」、「一致を確認する」、「一致を却下する」などの選択肢をユーザに提供することもできる。
【0084】
図9Bは、一致する部分を表示する第3の例示的なユーザインターフェイスを示している。一部の構成では、この第3の例は、
図9Aに示された第2の例の続きであることができる。ここでも、異なる比較922が、「応答をコピーする」916、「一致を確認する」918、および「一致を却下する」920などのユーザの選択肢があるように表示される。しかしこの場合、1つの一致するビデオ914のみが存在している。
【0085】
図10は、例示的なシステムアーキテクチャを示している。図に示されているように、「インテグレータ」1002(任意のVSPまたはサードパーティアプリケーションなど)によって、保護要求および照会要求が「ロードバランサ」1004に送信される。ロードバランサは、要求を、「APIエンドポイント」として機能するウェブサーバ1006のクラスタにリダイレクトする。これらのウェブサーバは、要求の妥当性を確認し、その後、「コンピューティングノード」1010に配布される「事象待ち行列」1008を介して送信する。次に、「処理クラスタ」1012は、ストレージクラスタに格納されている「指紋」1018を使用して、アップロードされたコンテンツを照合しようとする。保護要求または照会要求が完了した後に、「コールバック」1016を使用してデータがインテグレータ1002に返信される。
【0086】
システムインフラストラクチャが常に動作したままであることを確認するために、インフラストラクチャ指標が継続的に監視され得る(1014)。インフラストラクチャ指標が常態から外れ、エラーが発生していることを示す場合、適切な人員に通知するための警告が引き起こされ得る。定期的な間隔で、または事象が即時性のしきい値レベルを満たすたびに、保護要求、照会要求、およびシステム性能に関する報告1020が提供され得る。
【0087】
すべての計算リソースおよびストレージリソースは、高度に拡張可能であり、大量のコンテンツおよび指紋採取活動をサポートすることができる。すべてのシステムは、継続的にバックアップされることが可能であり、大きなインフラストラクチャインシデントが発生した場合に、障害回復戦略を使用して、あらゆるデータ損失を防ぐことができる。
【0088】
図11は、例えばコンピュータシステムによって実行され得る、例示的な方法の実施形態を示している。図に示されているように、この方法は、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと(1102)、少なくとも1つのプロセッサによって、メディアファイルを前処理することと(1104)、ビデオの変更されたコピー(1106)、音声の変更されたコピー(1108)、およびビデオ内のキーフレーム(1110)を生成することとを含むことができる。次に、システムは、少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することができ、ビデオ指紋は、ビデオの変更されたコピーの個別のセグメントの第1のベクトルを含む(1112)。同様に、システムは、少なくとも1つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋が、ビデオの変更されたコピーの個別のセグメントの第2のベクトルを含む、作成することと(1114)、少なくとも1つのプロセッサによって、キーフレームに基づいてキーフレーム指紋を作成することと(1116)を行うことができる。
【0089】
指紋が作成された状態で、システムは、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較(1118)、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較(1120)、および比較メディアファイルの前に識別されたキーフレームとのキーフレームのキーフレーム比較(1122)を実行することができる。比較メディアファイルは、例えば、現在のメディアファイルが比較されている別の画像、動画、または他のメディアコンテンツであることができる。通常、比較メディアファイルは、指紋(音声、ビデオ、画像、キーフレームなど)がすでに生成されて保存されているように、すでに分析されている。これらの前に識別された音声指紋、ビデオ指紋、およびキーフレーム指紋は、その後、分析されているメディアファイルの指紋との各比較に使用され得る。次に、システムは、少なくとも1つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも1つに基づいて、メディアファイルが禁止されたコンテンツを含んでいるということを決定することができる(1124)。禁止されたコンテンツは、著作権のあるメディア、未成年の性的コンテンツのビデオまたは画像、同意なしで取得されたビデオまたは画像などを含む、メディアファイルの所有者またはアップロード者が共有することを法的に許可されていない任意のコンテンツを含むことができる。
【0090】
例示された方法は、他の構成では、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも1つのプロセッサによって、メディアファイルを前処理し、ビデオの変更されたコピー、音声の変更されたコピー、およびビデオ内のキーフレームを生成することと、少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用してビデオの変更されたコピーのビデオ指紋を作成することであって、ビデオ指紋がビデオの変更されたコピーの個別のセグメントの第1のベクトルを含む、作成することと、少なくとも1つのプロセッサによって、音声の変更されたコピーの音声指紋を作成することであって、音声指紋がビデオの変更されたコピーの個別のセグメントの第2のベクトルを含む、作成することと、少なくとも1つのプロセッサによって、キーフレームに基づいてキーフレーム指紋を作成することと、ビデオ比較に基づいて、少なくとも1つのプロセッサによって、MASS(Mueenの類似性検索アルゴリズム)およびDTW(動的時間ワープ)のうちの少なくとも1つを使用してビデオの変更されたコピーの第2のビデオ指紋を作成することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別されたキーフレームとのキーフレームのキーフレーム比較を実行することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別された第2のビデオ指紋との第2のビデオ指紋の第2のビデオ比較を実行することであって、比較メディアファイルの前に識別された第2のビデオ指紋が、MASSおよびDTWのうちの少なくとも1つを使用して生成されている、実行することと、少なくとも1つのプロセッサによって、ビデオ比較、音声比較、キーフレーム比較、および第2のビデオ比較のうちの少なくとも1つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。
【0091】
例示された方法の別の代替のバージョンは、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、コンピュータシステムの少なくとも1つのプロセッサによって、メディアファイルのビデオ指紋、音声指紋、およびキーフレーム指紋を作成することと、少なくとも1つのプロセッサによって、前に識別されたビデオ指紋とのビデオ指紋のビデオ比較を実行することと、少なくとも1つのプロセッサによって、前に識別された音声指紋との音声指紋の音声比較を実行することと、少なくとも1つのプロセッサによって、前に識別されたキーフレーム指紋とのキーフレーム指紋のキーフレーム比較を実行することと、少なくとも1つのプロセッサによって、ビデオ比較、音声比較、およびキーフレーム比較のうちの少なくとも1つに基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。
【0092】
例示された方法のさらに別の代替のバージョンは、コンピュータシステムで、ビデオおよび音声を含んでいるメディアファイルを受信することと、少なくとも1つのプロセッサによって、メディアファイルを前処理し、前処理されたビデオおよび前処理された音声を含んでいる前処理されたメディアファイルを生成することと、少なくとも1つのプロセッサによって、知覚ハッシュアルゴリズムを使用して前処理されたビデオの第1のビデオ指紋を作成し、前処理された音声の音声指紋を作成し、前処理されたビデオ内のキーフレームを使用して前処理されたビデオの第2のビデオ指紋を作成することと、第1のビデオ指紋、第2のビデオ指紋、および音声指紋を既知の指紋と比較して、比較結果を得ることと、少なくとも1つのプロセッサによって、この比較に基づいてメディアファイルが禁止されたコンテンツを含んでいるということを決定することとであることができる。
【0093】
画像分析(または他の映像メディア)に使用されている構成では、上で開示されたように、前処理、指紋採取、および比較が調整され得る。
【0094】
一部の構成では、ビデオ比較は、個別のセグメント内で、ビデオ指紋と比較メディアファイルの前に識別されたビデオ指紋との間のビデオの類似性の予め定められたしきい値レベルを満たす個別のビデオセグメントを識別し、音声比較は、個別のセグメント内で、音声指紋と比較メディアファイルの前に識別された音声指紋との間の音声の類似性の予め定められたしきい値レベルを満たす個別の音声セグメントを識別し、キーフレーム比較は、キーフレームと比較メディアファイルの前に識別されたキーフレームとの間のキーフレームの類似性の予め定められたしきい値レベルを満たす個別のキーフレームを識別する。
【0095】
一部の構成では、メディアファイルの前処理は、ビデオの変更されたコピー、および音声の変更されたコピーを作成し、ビデオ内のキーフレームを識別するための並列プロセスを含むことができる。
【0096】
一部の構成では、ビデオ比較、音声比較、およびキーフレーム比較の実行は、並列に発生する。
【0097】
一部の構成では、ビデオの変更されたコピーを生成するメディアファイルの前処理は、少なくとも1つのプロセッサによって、ビデオのフレームレートを予め定められたフレームレートに変更すること、少なくとも1つのプロセッサによって、ビデオの解像度を予め定められた解像度に変更すること、および少なくとも1つのプロセッサによって、ビデオの少なくとも1つの側面から帯を除去することのうちの少なくとも1つを実行することを含むことができる。
【0098】
一部の構成では、音声の変更されたコピーを生成するメディアファイルの前処理は、少なくとも1つのプロセッサによって実行される高速フーリエ変換によって、音声を周波数領域に変換し、周波数領域の音声を生成することと、少なくとも1つのプロセッサによって、周波数領域の音声から、第1の予め定められた周波数を超える音、第1の予め定められたデシベルを超える音、第2の予め定められた周波数未満の音、および第2の予め定められたデシベル未満の音のうちの少なくとも1つをフィルタリングして除去することとを含むことができる。
【0099】
一部の構成では、ビデオ内のキーフレームを生成するメディアファイルの前処理は、少なくとも1つのプロセッサによって、キーフレーム間に存在するべき予め定められた量のエントロピーを識別することと、少なくとも1つのプロセッサによって、ビデオのセグメント内の第1のフレームをキーフレームとして識別することと、ビデオの長さにわたって、少なくとも1つのプロセッサによって、このキーフレームを複数のキーフレームに追加すること、少なくとも1つのプロセッサによって、このキーフレームと後続のフレームの間で予め定められた量のエントロピーが検出されるまで、このキーフレームから後のフレームを順次に比較すること、および少なくとも1つのプロセッサによって、後続のフレームを第1のキーフレームとして識別することを繰り返し、キーフレームを生成することとを含むことができる。
【0100】
一部の構成では、例示された方法は、ビデオ比較に基づいて、少なくとも1つのプロセッサによって、MASS(Mueenの類似性検索アルゴリズム)を使用してビデオの変更されたコピーの第2のビデオ指紋を作成することと、少なくとも1つのプロセッサによって、比較メディアファイルの前に識別された第2のビデオ指紋との第2のビデオ指紋の第2のビデオ比較を実行することとをさらに含むことができ、比較メディアファイルの前に識別された第2のビデオ指紋が、MASSを使用して生成されており、メディアファイルが禁止されたコンテンツを含んでいることを決定することが、第2のビデオ比較にさらに基づく。
【0101】
一部の構成では、ビデオ指紋の作成は、少なくとも1つのプロセッサによって、変更されたビデオ内の顔を検出することと、少なくとも1つのプロセッサによって、変更されたビデオから顔を切り取ることと、知覚ハッシュアルゴリズムを実行する少なくとも1つのプロセッサによって、顔の顔紋を作成することとをさらに含むことができ、ビデオ指紋は顔紋をさらに含み、ビデオ比較は、顔紋を既知の顔紋と比較することと、既知の顔紋内で一致を検出しなかったときに、既知の顔紋を格納しているデータベース内に顔紋を格納することとをさらに含む。
【0102】
一部の構成では、音声比較、ビデオ比較、およびキーフレーム比較は、比較メディアファイルの前に識別された音声指紋の連続する下位部分、比較メディアファイルの前に識別されたビデオ指紋の連続する下位部分、または比較メディアファイルの前に識別されたキーフレーム指紋の連続する下位部分との、音声指紋の連続する下位部分、ビデオ指紋の連続する下位部分、またはキーフレーム指紋の連続する下位部分の比較をそれぞれ含む。
【0103】
図12を参照すると、例示的なシステムは、処理ユニット(CPUまたはプロセッサ)1220と、読み取り専用メモリ(ROM:read-only memory)1240およびランダムアクセスメモリ(RAM:random access memory)1250などのシステムメモリ1230を含むさまざまなシステムコンポーネントをプロセッサ1220に結合するシステムバス1210とを含んでいる、汎用コンピューティングデバイス1200を含む。システム1200は、プロセッサ1220に直接接続されたか、ごく接近して接続されたか、またはプロセッサ1220の一部として統合された、高速メモリのキャッシュを含むことができる。システム1200は、プロセッサ1220による高速なアクセスのために、データをメモリ1230および/またはストレージデバイス1260からキャッシュにコピーする。このようにして、キャッシュは、性能向上を実現し、データを待機している間のプロセッサ1220の遅延を防ぐ。これらのおよび他のモジュールは、さまざまなアクションを実行するためにプロセッサ1220を制御するか、または制御するように構成され得る。他のシステムメモリ1230も使用可能であってよい。メモリ1230は、異なる性能特性を有する複数の異なる種類のメモリを含むことができる。本開示が2つ以上のプロセッサ1220を含むコンピューティングデバイス1200上で、あるいはより大きい処理能力を提供するように一緒にネットワーク化されたコンピューティングデバイスのグループまたはクラスタ上で動作してよいということが理解され得る。プロセッサ1220は、任意の汎用プロセッサおよびハードウェアモジュール、またはプロセッサ1220を制御するように構成された、ストレージデバイス1260に格納されたモジュール1 1262、モジュール2 1264、およびモジュール3 1266などのソフトウェアモジュールに加えて、ソフトウェア命令が実際のプロセッサ設計に組み込まれる専用プロセッサを含むことができる。プロセッサ1220は、基本的に、複数のコアまたはプロセッサ、バス、メモリコントローラ、キャッシュなどを含んでいる完全に自己完結型のコンピューティングシステムであってよい。マルチコアプロセッサは、対称または非対称であってよい。
【0104】
システムバス1210は、メモリバスまたはメモリコントローラ、ペリフェラルバス、およびさまざまなバスアーキテクチャのいずれかを使用するローカルバスを含む、複数の種類のバス構造のいずれかであってよい。ROM1240などに格納された基本入出力(BIOS:basic input/output system)は、起動中などにコンピューティングデバイス1200内の要素間で情報を転送するのに役立つ基本的なルーチンを提供してよい。コンピューティングデバイス1200は、ハードディスクドライブ、磁気ディスクドライブ、光ディスクドライブ、テープドライブなどのストレージデバイス1260をさらに含む。ストレージデバイス1260は、プロセッサ1220を制御するためのソフトウェアモジュール1262、1264、1266を含むことができる。他のハードウェアモジュールまたはソフトウェアモジュールが企図される。ストレージデバイス1260は、ドライブインターフェイスによってシステムバス1210に接続される。ドライブおよび関連するコンピュータ可読ストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびコンピューティングデバイス1200の他のデータの不揮発性ストレージを提供する。1つの態様では、特定の機能を実行するハードウェアモジュールは、機能を実行するために、プロセッサ1220、バス1210、ディスプレイ1270などの必要なハードウェアコンポーネントに関連して、有形のコンピュータ可読ストレージ媒体に格納されたソフトウェアコンポーネントを含む。別の態様では、システムは、プロセッサと、命令を格納するためのコンピュータ可読ストレージ媒体とを使用することができ、これらの命令は、プロセッサによって実行された場合に、プロセッサに方法または他の特定のアクションを実行させる。デバイス1200が、小型ハンドヘルドコンピューティングデバイス、デスクトップコンピュータ、またはコンピュータサーバであるかどうかなどのデバイスの種類に応じて、基本的なコンポーネントおよび適切な変形が企図される。
【0105】
本明細書に記載された実施形態例はハードディスク1260を採用するが、例示的な動作環境では、磁気カセット、フラッシュメモリカード、デジタルバーサタイルディスク、カートリッジ、ランダムアクセスメモリ(RAM)1250、および読み取り専用メモリ(ROM)1240などの、コンピュータによってアクセス可能なデータを格納することができる他の種類コンピュータ可読媒体が使用されてもよい。有形のコンピュータ可読ストレージ媒体、コンピュータ可読ストレージデバイス、またはコンピュータ可読メモリデバイスは、一過性の波、エネルギー、キャリア信号、電磁波、および信号自体などの媒体を明示的に除外する。
【0106】
コンピューティングデバイス1200とのユーザの対話を可能にするために、入力デバイス1290は、発話のためのマイクロホン、ジェスチャーまたはグラフィカルな入力のためのタッチ式スクリーン、キーボード、マウス、動作入力、発話などの、任意の数の入力メカニズムを表す。出力デバイス1270は、当業者に知られている複数の出力メカニズムのうちの1つまたは複数であることもできる。場合によっては、マルチモーダルシステムが、ユーザが複数の種類の入力を提供してコンピューティングデバイス1200と通信することを可能にする。通信インターフェイス1280は、通常、ユーザ入力およびシステム出力を制御および管理する。いずれかの特定のハードウェア構成での動作に対する制限はなく、したがって、本明細書の基本的な特徴は、開発されるときに、改良されたハードウェアまたはファームウェア構成のために容易に置換され得る。
【0107】
「X、Y、およびZのうちの少なくとも1つ」、「X、Y、またはZのうちの少なくとも1つ」、「X、Y、およびZのうちの少なくとも1つまたは複数」、「X、Y、またはZのうちの少なくとも1つまたは複数」、または「X、Y、および/またはZのうちの少なくとも1つ」などの言語の使用は、単一の項目(例えば、Xだけ、またはYだけ、またはZだけ)および複数の項目(例えば、{XおよびY}、{XおよびZ}、{YおよびZ}、または{X、Y、およびZ})の両方を含むよう意図されている。「のうちの少なくとも1つ」という語句および同様の語句は、各可能性のある項目が存在しなければならないという要件を伝えるよう意図されていないが、各可能性のある項目は存在してもよい。
【0108】
前述のさまざまな実施形態は、単に例として提供されており、本開示の範囲を制限すると解釈されるべきではない。本明細書において例示されて説明された実施形態例および応用に従わずに、本開示の思想および範囲から逸脱することなく、本明細書に記載された原理に対してさまざまな修正および変更が行われてよい。
【国際調査報告】