(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-20
(54)【発明の名称】フェイクビデオの検出
(51)【国際特許分類】
G06T 7/00 20170101AFI20221213BHJP
G06T 7/20 20170101ALI20221213BHJP
G10L 25/30 20130101ALI20221213BHJP
G10L 25/57 20130101ALI20221213BHJP
【FI】
G06T7/00 660A
G06T7/20 300B
G10L25/30
G10L25/57
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022523639
(86)(22)【出願日】2020-10-13
(85)【翻訳文提出日】2022-05-18
(86)【国際出願番号】 US2020055349
(87)【国際公開番号】W WO2021080815
(87)【国際公開日】2021-04-29
(32)【優先日】2019-10-21
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-10-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】イエ、シャオヨン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA02
5L096DA02
5L096HA02
5L096HA09
5L096HA11
5L096JA11
5L096JA18
5L096KA04
(57)【要約】
ビデオ(212)が、元のビデオ(200)から派生し、改変されたフェイクビデオであるかどうかの検出は、ビデオの1つまたは複数のフレームの画像分析(306)と、周波数領域分析(310)の両方を使用して実施される。分析は、ニューラルネットワークを使用して実施され得る(302)。
【選択図】
図1
【特許請求の範囲】
【請求項1】
システムであって、
画像を受信し、前記画像内の顔の、または前記画像の前記顔と背景との間の、または両方の少なくとも1つのテクスチャの不規則性が前記画像に存在するかどうかを判断するための少なくとも顔検出モジュールと、
前記画像を受信するための少なくとも第1のニューラルネットワークと、
前記画像を受信し、少なくとも第2のニューラルネットワークにスペクトルを出力するための少なくとも1つの離散フーリエ変換(DFT)と、
前記顔検出モジュール、前記第1のニューラルネットワーク、及び前記第2のニューラルネットワークによって出力された特徴にアクセスして、前記画像が元の画像から改変されているかどうかを判断し、それを表す出力を提供するための少なくとも検出モジュールと
を備える、システム。
【請求項2】
前記テクスチャの不規則性がチェッカーボードパターンを含む、請求項1に記載のシステム。
【請求項3】
前記検出モジュールが、前記スペクトルの少なくとも1つの不規則性を検出することによって、前記画像が少なくとも部分的に元の画像から改変されていると判断する、請求項1に記載のシステム。
【請求項4】
前記スペクトルの前記不規則性が、前記元の画像の対応する領域よりも明るい明るさの少なくとも1つの領域を含む、請求項3に記載のシステム。
【請求項5】
前記明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項4に記載のシステム。
【請求項6】
前記スペクトルの前記不規則性が複数の明るさの領域を含む、請求項3に記載のシステム。
【請求項7】
前記複数の明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項6に記載のシステム。
【請求項8】
前記顔検出モジュールが、前記画像が前記元の画像から改変されていることを示す、前記画像内の顔の照明の不規則性を示す特徴ベクトルを出力するために構成される、請求項1に記載のシステム。
【請求項9】
方法であって、
画像内の顔の少なくとも1つの照明の不規則性、または前記画像内の少なくとも1つのテクスチャの不規則性、または両方を示す特徴ベクトルを出力するために、前記顔検出モジュールを介して前記画像を処理することと、
周波数領域内の前記画像の少なくとも1つの不規則性を示す特徴ベクトルを出力するために、少なくとも1つの離散フーリエ変換(DFT)及び少なくとも1つニューラルネットワークを介して前記画像を処理することと、
前記特徴ベクトルに基づいて、前記画像が少なくとも部分的に元の画像から改変されている旨の表示を返すことと
を含む、方法。
【請求項10】
前記テクスチャの不規則性が、前記画像内の顔のテクスチャの不規則性、または前記画像の前記顔と背景との間のテクスチャの不規則性、または両方を含む、請求項9に記載のシステム。
【請求項11】
前記テクスチャの不規則性がチェッカーボードパターンを含む、請求項9に記載の方法。
【請求項12】
前記周波数領域内の前記画像の前記不規則性が、前記元の画像の対応する領域よりも明るい少なくとも1つの明るさの領域を含む、請求項9に記載の方法。
【請求項13】
前記明るさの領域が、前記周波数領域内の前記画像の周辺に沿って位置する、請求項12に記載の方法。
【請求項14】
前記周波数領域の前記不規則性が複数の明るさの領域を含む、請求項9に記載の方法。
【請求項15】
前記複数の明るさの領域が、周波数領域内の前記画像の周辺に沿って位置する、請求項14に記載の方法。
【請求項16】
前記画像が前記元の画像から改変されていることを示す、前記画像内の顔の照明の不規則性を示す特徴ベクトルを出力することを含む、請求項9に記載の方法。
【請求項17】
システムであって、
ビデオフレームのシーケンスを受信し、前記ビデオフレームに示される人の顔の動きが自然な動きを示すかどうかを表す特徴ベクトルを出力するための少なくとも受信モジュールと、
前記ビデオフレームのシーケンスの画像がビデオフレームの元のシーケンスの画像から改変されているかどうかを判断するために、前記受信モジュールによって出力される特徴ベクトルにアクセスするための、及びそれを表す出力を提供するための少なくとも検出モジュールと
を備える、システム。
【請求項18】
前記ビデオフレームのシーケンスに示される前記人の顔の前記動きが、前記人が話している間の動きを含む、請求項17に記載のシステム。
【請求項19】
前記ビデオフレームのシーケンスに示される前記人の顔の前記動きが、前記人の唇の動きを含む、請求項17に記載のシステム。
【請求項20】
前記ビデオフレームのシーケンスに関連する音声を受信するために構成され、スペクトルを出力するために構成された少なくとも1つの周波数変換と、
前記スペクトルを受信し、前記音声を表す音声特徴ベクトルを出力するために構成された少なくとも1つのニューラルネットワークと、
前記音声特徴ベクトルを受信し、それに基づいて、前記音声が元の音声から改変されていることに関する表示を出力するために構成された、自然な人間の発話特性を学習するようにトレーニングされた少なくとも1つの分析モジュールと
をさらに備える、請求項17に記載のシステム。
【請求項21】
少なくとも1つの音声特徴ベクトルが、ケーデンス、ピッチパターン、トーンパターン、強調の少なくとも1つを表す、請求項20に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、一般に、コンピュータ技術に必然的に根差し、具体的な技術的改善をもたらす、技術的に独創的で非定型的な解決策に関する。
【背景技術】
【0002】
本明細書で理解されるように、深層学習アルゴリズムと組み合わされた最新のデジタル画像処理は、ある人物のビデオ画像を別の人物の画像に改変する、または人物のビデオを、その人物の声で、その人物が実際には決して話さなかった言葉を話すように改変する、興味深くかつ面白いが、潜在的に邪悪な能力を示す。このような機能は気軽に使用できるが、その機能はまた、あたかもその人物が侮辱的なことを話しているかのように見せることで、個人の名誉を毀損するために使用される可能性がある。したがって、ビデオが本物であるのか、それとも機械学習によって生成されたフェイクであるのかを判断するための技法が本明細書に提供される。
【発明の概要】
【0003】
したがって、システムは、画像を受信し、画像内の顔の、または画像の顔と背景との間の、または両方の少なくとも1つのテクスチャの不規則性が画像に存在するかどうかを判断するための少なくとも顔検出モジュールを含む。システムはまた、画像を受信するための少なくとも第1のニューラルネットワーク、画像を受信し、少なくとも第2のニューラルネットワークにスペクトルを出力するための少なくとも1つの離散フーリエ変換(DFT)、及び顔検出モジュール、第1のニューラルネットワーク、及び第2のニューラルネットワークによって出力された特徴にアクセスして、画像が元の画像から改変されているかどうかを判断し、それを表す出力を提供するための少なくとも検出モジュールを含む。
【0004】
テクスチャの不規則性は、チェッカーボードパターンを含み得る。
【0005】
検出モジュールは、スペクトルの少なくとも1つの不規則性を検出することによって、画像が少なくとも部分的に元の画像から改変されていると判断し得る。
【0006】
スペクトルの不規則性は、元の画像の対応する領域よりも明るい明るさの少なくとも1つの領域を含み得る。明るさの領域は、周波数領域内の画像の周辺に沿って位置する場合がある。実際、スペクトルの不規則性は、周波数領域内の画像の周辺に沿って位置する複数の明るさの領域を含み得る。
【0007】
顔検出モジュールは、画像が元の画像から改変されていることを示す、画像内の顔の照明の不規則性を示す特徴ベクトルを出力するために構成され得る。
【0008】
別の態様では、方法は、画像内の顔の少なくとも1つの照明の不規則性、または画像内の少なくとも1つのテクスチャの不規則性、または両方を示す特徴ベクトルを出力するために、顔検出モジュールを介して画像を処理することを含む。方法はまた、周波数領域内の画像の少なくとも1つの不規則性を示す特徴ベクトルを出力するために、少なくとも1つの離散フーリエ変換(DFT)及び少なくとも1つのニューラルネットワークを介して画像を処理すること、及び特徴ベクトルに基づいて、画像が少なくとも部分的に元の画像から改変されている旨の表示を返すことを含む。
【0009】
別の態様では、装置は、画像検出モジュールを介して画像を処理して、空間領域内の画像に不規則性が存在するかどうかを判断するために、少なくとも1つのプロセッサによって実行可能な命令を備えた少なくとも1つのコンピュータ記憶媒体を含む。命令は、画像を周波数領域に変換するために、及び周波数領域内の画像を処理して、周波数領域内に不規則性が存在するかどうかを判断するために実行可能である。命令は、画像に不規則性が存在すると判断したことに少なくとも部分的に基づいて、画像が元の画像からデジタル的に改変されている旨の表示を出力するために実行可能である。
【0010】
画像が元の画像からデジタル的に改変されている旨の表示は、周波数領域内の不規則性または空間領域内の不規則性のどちらか1つを決定したことに応えて出力され得る。または、画像が元の画像からデジタル的に改変されている旨の表示は、周波数領域の不規則性と空間領域の不規則性の両方が画像内に存在すると判断したことに応えてだけ、出力されてもよい。
【0011】
本出願の詳細は、その構造及び動作の両方に関して、添付図面を参照して最もよく理解することができ、図面中、同様の参照番号は同様の部分を指す。
【図面の簡単な説明】
【0012】
【
図1】本原理に従った例を含む例示的なシステムのブロック図である。
【
図2】本物のビデオ及び本物のビデオから派生したフェイクビデオを示す概略図である
【
図3】画像処理及び周波数領域解析の両方を使用するフェイクビデオを検出するための例示的なロジックのフローチャートである。
【
図4】
図3で使用されているニューラルネットワークをトレーニングするための例示的なロジックのフローチャートである
【
図5】本物のビデオフレーム及び対応するフェイクビデオフレームの図を示しており、偽のフレームのアーティファクトを示している。
【
図6】
図3のロジックを実行するための例示的なニューラルネットワークアーキテクチャのブロック図である。
【
図7】ビデオシーケンス分析を使用してフェイクビデオを検出するための例示的なロジックのフローチャートである。
【
図8】
図7のロジックを実行するための例示的なニューラルネットワークアーキテクチャのブロック図である。
【
図9】フェイクビデオ生成に対処するためにブロックチェーン技術を使用するための例示的なロジックのフローチャートである。
【
図10】インターネットサービスプロバイダ(ISP)/配信業者がビデオを公の場から削除できるように、ISPまたは配信者にフェイクビデオを報告するための例示的なユーザーインターフェース(UI)のスクリーンショットである。
【
図11】ビデオに埋め込まれた検証ハッシュとともにビデオを記録、またはアップロード、またはダウンロードするための例示的なロジックのフローチャートである。
【
図12】真正性の検証のためにハッシュが使用される
図11で記録またはアクセスされたビデオを再生するための例示的なロジックのフローチャートである。
【
図13】以前の原理を使用したハイブリッドロジックの例示的なロジックのフローチャートである。
【
図14】2セットの本物の画像と改変された画像の例示的な照明アーティファクトを示す。
【
図15】画像内の例示的な敵対的生成ネットワーク(GAN)アーティファクトまたは不規則性を示す。
【
図16】本物の画像及び改変された画像を使用して、別のGAN関連のアーティファクトまたは不規則性を示す。
【発明を実施するための形態】
【0013】
本開示は、概して、限定するものではないが、コンピュータゲームネットワーク及びスタンドアロンコンピュータシミュレーションシステム等のコンピュータシミュレーションネットワーク等の家電製品(CE)デバイスの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るようにネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、Sony PlayStation(登録商標)等のゲームコンソールまたはMicrosoftもしくはNintendoもしくは他の製造者によって作成されたゲームコンソール、仮想現実(VR)ヘッドセット、拡張現実(AR)ヘッドセット、ポータブルテレビ(例えば、スマートテレビ、インターネット対応テレビ)、ラップトップ及びタブレットコンピュータ等のポータブルコンピュータ、ならびにスマートフォン及び下記に説明される追加例を含む他のモバイルデバイスを含む、1つまたは複数のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータの一部は、例として、Linux(登録商標)オペレーティングシステム、Microsoftのオペレーティングシステム、もしくはUnix(登録商標)オペレーティングシステム、またはApple ComputerもしくはGoogleによって製造されたオペレーティングシステムを使用し得る。これらの動作環境は、下記に説明されるインターネットサーバによってホストされるウェブサイトにアクセスできる、MicrosoftもしくはGoogleもしくはMozillaによって作成されたブラウザ、または他のブラウザプログラム等、1つまたは複数のブラウジングプログラムを実行するために使用され得る。また、本原理に従った動作環境を使用して、1つまたは複数のコンピュータゲームプログラムを実行し得る。
【0014】
サーバ及び/またはゲートウェイは、インターネット等のネットワークを介してデータを受信及び送信するサーバを構成する命令を実行する1つまたは複数のプロセッサを含み得る。または、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続できる。サーバまたはコントローラは、Sony PlayStation(登録商標)等のゲームコンソール、パーソナルコンピュータ等によってインスタンス化され得る。
【0015】
クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的のために及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含み得る。1つまたは複数のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイト等のセキュアコミュニティを提供する方法を実施する装置を形成してよい。
【0016】
本明細書で使用される場合、命令は、システムにおいて情報を処理するためにコンピュータにより実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアで実施され、システムのコンポーネントにより実行される任意の種類のプログラム化されたステップを含み得る。
【0017】
プロセッサは、アドレス線、データ線、及び制御線等の各種の線、ならびにレジスタ及びシフトレジスタによってロジックを実行できる、従来の任意の汎用シングルチッププロセッサまたは汎用マルチチッププロセッサであり得る。
【0018】
本明細書でフローチャート及びユーザーインタフェースによって記述されるソフトウェアモジュールは、様々なサブルーチン、手順等を含み得る。本開示を限定することなく、特定のモジュールによって実行されるように規定されたロジックは、他のソフトウェアモジュールに再分配すること、及び/または単一のモジュールにまとめて集約すること、及び/または共有可能ライブラリで利用できるようにすることが可能である。
【0019】
本明細書に記載された本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、実例となるコンポーネント、ブロック、モジュール、回路、及びステップは、それらの機能性の観点から説明される。
【0020】
さらに上記に指摘したものについて、下記に説明される論理ブロック、モジュール、及び回路は、汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)もしくは特定用途向け集積回路(ASIC)等の他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェアコンポーネント、または本明細書に説明される機能を行うように設計されたそれらのいずれかの組み合わせによって実装できるまたは行うことができる。プロセッサは、コントローラもしくは状態機械、またはコンピューティングデバイスの組み合わせによって実装することができる。
【0021】
以下で説明される機能及び方法は、ソフトウェアにおいて実装されるとき、限定ではないが、Java(登録商標)、C#、またはC++等の適切な言語において記述することができ、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、コンパクトディスクリードオンリメモリ(CD-ROM)、またはデジタル多用途ディスク(DVD)等の他の光ディスクストレージ、磁気ディスクストレージもしくは着脱可能サムドライブ等を含む他の磁気記憶装置等のコンピュータ可読記憶媒体に記憶することができ、またはそれらを通して伝送することができる。接続は、コンピュータ可読媒体を確立し得る。このような接続は、例として、光ファイバ、同軸ワイヤ、デジタル加入者回線(DSL)、及びツイストペアワイヤを含む有線ケーブルを含み得る。このような接続には、赤外線及び無線を含む無線通信接続が含まれ得る。
【0022】
ある実施形態に含まれるコンポーネントを、他の実施形態において任意の適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び/または図に描かれる様々なコンポーネントのいずれも、組み合わされてもよく、交換されてもよく、または他の実施形態から除外されてもよい。
【0023】
「A、B、及びCの少なくとも1つを有するシステム」(同様に「A、B、またはCの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、Aを単独で、Bを単独で、Cを単独で、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、及び/またはA、B、及びCを一緒に有するシステム等を含む。
【0024】
ここで具体的に
図1を参照すると、例示的なシステム10が示されており、このシステムは、本原理による、上で述べられかつ以下に詳述される、例示的なデバイスの1つまたは複数を含み得る。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、TVチューナ(同等にTVを制御するセットトップボックス)を備えたインターネット対応TV等の、ただしこれに限定されないオーディオビデオデバイス(AVD)12といった家電製品(CE)デバイスである。しかし、AVD12は、代わりに、電気器具または家庭用品、例えば、コンピュータ制御でインターネット対応の冷蔵庫、洗濯機、または乾燥機であってよい。代わりに、AVD12は、また、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、例えば、コンピュータ制御型インターネット対応時計、コンピュータ制御型インターネット対応ブレスレット、他のコンピュータ制御型インターネット対応デバイス等のウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイス等のコンピュータ制御型でインターネット対応のインプラント可能なデバイス等であってよい。それにも関わらず、ADV12は、本原理を実施する(例えば、本原理を実施するように他のCEデバイスと通信し、本明細書に説明されるロジックを実行し、本明細書に説明されるいずれかの他の機能及び/または動作を行う)ように構成されることを理解されたい。
【0025】
したがって、このような原理を実施するために、AVD12は、
図1に示されるコンポーネントの一部または全てによって確立できる。例えば、AVD12は、1つまたは複数のディスプレイ14を含むことができ、ディスプレイ14は、高解像度または「4K」もしくはそれ以上の超高解像度フラットスクリーンによって実装されてよく、ディスプレイをタッチしてユーザー入力信号を受信するためにタッチ対応であってよい。AVD12は、本原理に従って音声を出力するための1つまたは複数のスピーカ16、及び、例えば、AVD12を制御するために可聴コマンドをAVD12に入力するための、例えば、音声受信機/マイクロホン等の少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12はまた、1つまたは複数のプロセッサ24等の制御の下、インターネット、WAN、LAN等の少なくとも1つのネットワーク22を通じて通信するための1つまたは複数のネットワークインタフェース20を含み得る。また、グラフィックプロセッサ24Aを含み得る。したがって、インタフェース20は、限定ではないが、Wi-Fi送受信機であり得、Wi-Fi送受信機は、限定するものではないが、メッシュネットワーク送受信機等の無線コンピュータネットワークインタフェースの例である。プロセッサ24は、例えば、ディスプレイ14を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明されるAVD12の他の要素を含む、本原理を実施するようにAVD12を制御することを理解されたい。さらに、ネットワークインタフェース20は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi送受信機等の他の適切なインタフェースであってよいことに留意されたい。
【0026】
上記に加えて、AVD12はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続する高解像度マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通してAVD12からユーザーに音声を提示するためにAVD12にヘッドフォンを接続するためのヘッドフォンポート等の1つまたは複数の入力ポート26を含み得る。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルまたは衛星ソース26aに有線でまたは無線で接続されてよい。したがって、ソース26aは、例えば、別個のもしくは統合されたセットトップボックス、または衛星受信機であってよい。または、ソース26aは、以下に詳述されるチャネル割り当て目的でユーザーが好みと見なし得るコンテンツを含むゲームコンソールまたはディスクプレイヤであってよい。ソース26aは、ゲームコンソールとして実装されるとき、CEデバイス44に関連して以下で説明される構成要素のいくつかまたは全てを含み得る。
【0027】
AVD12は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージ等の1つまたは複数のコンピュータメモリ28を含んでよく、これらのメモリは、場合によっては、スタンドアロンデバイスとしてAVDのシャーシ内で、またはAVDプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス(PVR)もしくはビデオディスクプレイヤとして、または取り外し可能メモリ媒体として具現化されてよい。また、いくつかの実施形態では、AVD12は、限定するものではないが、少なくとも1つの衛星もしくは携帯電話の中継塔から地理的位置情報を受信し、情報をプロセッサ24に提供し、及び/またはAVD12がプロセッサ24と併せて配置される高度を判断するように構成される、携帯電話受信機、GPS受信機、及び/または高度計30等の位置受信機または場所受信機を含むことができる。しかしながら、例えば、3つの次元全てにおいて、例えば、AVD12の場所を決定するために、本原理に従って、携帯電話受信機、GPS受信機、及び/または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。
【0028】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、例えば、熱探知カメラ、ウェブカメラ等のデジタルカメラ、及び/またはAVD12に組み込まれ、本原理に従って写真/画像及び/またはビデオを収集するようにプロセッサ24によって制御可能なカメラであってもよい1つまたは複数のカメラ32を含み得る。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術を各々使用して、他のデバイスと通信するためのBluetooth送受信機34及び他のNFC要素36であってよい。例示的なNFC要素は、無線周波数識別(RFID)要素であってもよい。
【0029】
さらにまた、AVD12は、プロセッサ24に入力を提供する1つまたは複数の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するため)等)を含み得る。AVD12は、プロセッサ24への入力を提供するOTA(無線)TV放送を受信するための無線TV放送ポート38を含み得る。上記に加えて、AVD12はまた、赤外線データ協会(IRDA)デバイス等の赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。AVD12に給電するためのバッテリ(図示せず)が備えられてよい。
【0030】
さらに
図1を参照して、AVD12に加えて、システム10は、1つまたは複数の他のCEデバイスタイプを含んでもよい。一例では、第1のCEデバイス44は、AVD12に直接送信されるコマンドを介して及び/または後述のサーバを通じて、コンピュータゲームの音声及びビデオをAVD12に送信するために使用され得る一方、第2のCEデバイス46は第1のCEデバイス44と同様のコンポーネントを含み得る。示される例では、第2のCEデバイス46は、示されたようにプレーヤ47によって装着されるVRヘッドセットとして構成され得る。図示の例では、2つのCEデバイス44、46のみが示されるが、より少ないまたはより多くのデバイスが使用されてよいことを理解されたい。例えば、以下の原理は、ゲームコンソールによって1つまたは複数のAVD12に供給されるコンピュータゲームのプレイ中に互いと通信するそれぞれのヘッドセットをした複数のプレーヤ47を説明する。
【0031】
示される例では、本原理を示すために、3つのデバイス12、44、46は全て、例えば家庭のエンターテインメントネットワークのメンバーであること、または少なくとも、住宅等の場所において相互に近接して存在していることが想定される。しかし、本原理は、他に明確に主張されない限り、破線48によって示される特定の場所に限定されない。
【0032】
例示的な非限定的な第1のCEデバイス44は、上述のデバイス、例えば、ポータブル無線ラップトップコンピュータまたはノートブックコンピュータまたはゲームコントローラのいずれか1つによって確立されてもよく、したがって、以下で説明される1つまたは複数のコンポーネントを有してもよい。第1のCEデバイス44は、例えば、AV再生コマンド及び一時停止コマンドをAVD12に発行するためのリモコン装置(RC)であってよく、またはタブレットコンピュータ、有線もしくは無線リンクを介してAVD12及び/またはゲームコンソールと通信するゲームコントローラ、パーソナルコンピュータ、無線電話等のより高性能のデバイスであってよい。
【0033】
したがって、第1のCEデバイス44は、ディスプレイをタッチしてユーザー入力信号を受信するためにタッチ対応であってよい1つまたは複数のディスプレイ50を含み得る。第1のCEデバイス44は、本原理に従って音声を出力するための1つまたは複数のスピーカ52、及び、例えば、デバイス44を制御するために可聴コマンドを第1のCEデバイス44に入力するための、例えば、音声受信機/マイクロホン等の少なくとも1つの追加入力デバイス54を含み得る。例示的な第1のCEデバイス44はまた、1つまたは複数のCEデバイスプロセッサ58の制御の下、ネットワーク22を通じて通信するための1つまたは複数のネットワークインタフェース56を含み得る。また、グラフィックプロセッサ58Aを含み得る。したがって、インタフェース56は、限定ではないが、Wi-Fi送受信機であり得、Wi-Fi送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ58は、例えば、ディスプレイ50を、画像を提示するように制御することや、そこから入力を受信すること等の本明細書に説明される第1のCEデバイス44の他の要素を含む、本原理を実施するように第1のCEデバイス44を制御することを理解されたい。さらに、ネットワークインタフェース56は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi送受信機等の他の適切なインタフェースであってよいことに留意されたい。
【0034】
上記に加えて、第1のCEデバイス44はまた、例えば、別のCEデバイスに(例えば、有線接続を使用して)物理的に接続するHDMIポートもしくはUSBポート、及び/またはヘッドフォンを通して第1のCEデバイス44からユーザーに音声を提示するために第1のCEデバイス44にヘッドフォンを接続するためのヘッドフォンポート等の1つまたは複数の入力ポート60を含み得る。第1のCEデバイス44は、さらに、ディスクベースストレージまたはソリッドステートストレージ等の1つまたは複数の有形コンピュータ可読記憶媒体62を含み得る。また、いくつかの実施形態では、第1のCEデバイス44は、限定するものではないが、例えば、三角測量を使用して、少なくとも1つの衛星及び/または携帯電話の基地局から地理的位置情報を受信し、情報をCEデバイスプロセッサ58に提供し、及び/または第1のCEデバイス44がCEデバイスプロセッサ58と併せて配置される高度を判断するように構成される、携帯電話受信機及び/またはGPS受信機、及び/または高度計64等の位置受信機または場所受信機を含むことができる。しかしながら、例えば、3つの次元全てにおいて、例えば、第1のCEデバイス44の場所を決定するために、本原理に従って、携帯電話及び/またはGPS受信機及び/または高度計以外の別の適切な位置受信機が使用され得ることを理解されたい。
【0035】
第1のCEデバイス44の説明を続けると、いくつかの実施形態では、第1のCEデバイス44は、例えば、熱探知カメラ、ウェブカメラ等のデジタルカメラ、及び/または第1のCEデバイス44に組み込まれ、本原理に従って写真/画像及び/またはビデオを収集するようにCEデバイスプロセッサ58によって制御可能なカメラであってもよい1つまたは複数のカメラ66を含み得る。また、第1のCEデバイス44に含まれるのは、Bluetooth及び/または近距離無線通信(NFC)技術を各々使用して、他のデバイスと通信するためのBluetooth送受信機68及び他のNFC要素70であってよい。例示のNFC要素は、無線周波数識別(RFID)要素であってもよい。
【0036】
さらにまた、第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する1つまたは複数の補助センサ72(例えば、加速度計、ジャイロスコープ、サイクロメータ等の運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するため)等)を含み得る。第1のCEデバイス44は、CEデバイスプロセッサ58に入力を提供する、例えば、1つまたは複数の気候センサ74(例えば、気圧計、湿度センサ、風センサ、光センサ、温度センサ等)及び/または1つまたは複数の生体認証センサ76等のさらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第1のCEデバイス44は、赤外線(IR)送信機及び/またはIR受信機、及び/または赤外線データ協会(IRDA)デバイス等のIR送受信機78も含み得ることに留意されたい。第1のCEデバイス44に給電するためのバッテリ(図示せず)が備えられてよい。CEデバイス44は、前述の通信モード及び関連コンポーネントのうちのいずれかを介して、AVD12と通信し得る。
【0037】
第2のCEデバイス46は、CEデバイス44について示したコンポーネントの一部または全てを含み得る。CEデバイスの一方または両方のいずれかは、1つまたは複数のバッテリによって供電され得る。
【0038】
ここで、上述の少なくとも1つのサーバ80を参照すると、サーバ80は、少なくとも1つのサーバプロセッサ82と、ディスクベースストレージまたはソリッドステートストレージ等の少なくとも1つの有形コンピュータ可読記憶媒体84と、サーバプロセッサ82の制御の下、ネットワーク22を通じて
図1の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を容易にし得る少なくとも1つのネットワークインタフェース86とを含む。ネットワークインタフェース86は、例えば、有線もしくは無線のモデムもしくはルータ、Wi-Fi送受信機、または、例えば、無線テレフォニ送受信機等の他の適切なインタフェースであり得ることに留意されたい。
【0039】
したがって、いくつかの実施形態では、サーバ80は、インターネットサーバまたはサーバ「ファーム」全体であってもよく、「クラウド」機能を含んでもよく、「クラウド」機能を実行してもよく、その結果、システム10のデバイスは、例えば、ネットワークゲーミングアプリケーションについての例示的な実施形態においてサーバ80を介して「クラウド」環境にアクセスすることができる。または、サーバ80は、
図1に示す他のデバイスと同じ部屋かまたはその近くにある1つまたは複数のゲームコンソールまたは他のコンピュータによって実装されてもよい。
【0040】
本明細書における方法は、プロセッサ、適切に構成された特定用途向け集積回路(ASIC)もしくはフィールドプログラマブルゲートアレイ(FPGA)モジュール、または当業者によって認識される任意の他の便利な方式によって実行されるソフトウェア命令として実装されてよい。使用される場合、ソフトウェア命令は、CD ROMまたはフラッシュドライブ等の非一時的デバイスで具現化されてよい。代わりに、ソフトウェアコード命令は、無線信号もしくは光信号等の一時的構成で、またはインターネットを通したダウンロードを介して具現化されてよい。
【0041】
ここで
図2~
図6を参照すると、画像が「フェイク」であるかどうか、つまり元の画像からデジタル的に改変されているかどうかを判断するための第1の技法が示されている。
図2では、可聴の言葉206を話している、顔204を有する人の、ディスプレイ202に提示され得る元の画像200が示されている。画像200は、ビデオストリームからのIフレーム等の画像であってよく、ビデオストリームのフレームの一部または全ては、本明細書に開示されるように処理され得る。
【0042】
限定するものではないが、キーボード等の入力デバイス210を用いてコンピュータ208を操作する人は、画像及び/または音声を改変して、改変された可聴の言葉214を話していると描かれる可能性のある人の改変された画像212を生成し得る。本原理は、改変された画像212が実際にオリジナル200から改変されていることを検出することを対象とする。
【0043】
図3は、第1の技法で実行され得るロジックを示し、一方、
図6は、
図3のロジックを具現化し得る例示的なアーキテクチャを示す。ブロック300で開始すると、画像が受信される。画像は、畳み込みNN(CNN)等の第1のニューラルネットワーク(NN)を介して画像を処理することによって、ブロック302で直接分析することができる。第1のNNは、ブロック304で画像を表す特徴ベクトルを出力する。
【0044】
また、ブロック306で、画像は、顔及び/または画像の背景の、本明細書では不規則性とも呼ぶアーティファクト、及び画像内の照明の不規則性がないか分析するために顔認識モジュールに入力され得る。1つまたは複数のNNを使用し得る顔認識モジュールは、特徴ベクトルをブロック304に出力する。
【0045】
例として、画像(空間領域)内の顔の不規則性は、チェッカーボードのような外観を有する小さい領域を含む場合があり、デジタル改変に起因する解像度のぼやけを示す。
【0046】
さらに、画像は、例えば、周波数領域内の画像の不規則性を検出するためにCNN等の別のNNを用いてブロック310で分析される周波数スペクトルを出力する離散フーリエ変換(DFT)を使用して、ブロック308で周波数流域に変換され得る。スペクトルを表す特徴ベクトルは、ブロック304に提供される。
【0047】
例として、周波数領域の不規則性は、周波数領域内の画像のグラフィック表現の周辺に沿った1つまたは複数の輝点を含み得る。
【0048】
決定ひし形312に移動すると、1つまたは複数のNNを含む場合がある検出モジュールが、ブロック304からの特徴ベクトルを分析して、1つまたは複数の不規則性が空間領域及び/または周波数領域に存在するかどうかを判断する。不規則性が存在しない場合、プロセスは状態314で終了してよいが、いくつかの実施態様では、任意の領域に任意の不規則性が存在する場合、ブロック316で、画像がフェイクである旨の表示が返されてよい。他の実施態様では、ブロック316で、不規則性が空間領域内に存在する、及び不規則性が周波数領域に存在する両方の場合にだけ、画像がフェイクである旨の表示が返されてよい。
【0049】
図4を簡略に参照すると、本明細書に説明するNNをトレーニングするためのプロセスが示されている。ブロック400で開始すると、グラウンドトゥルースの元の改変されていない画像がNNに入力される。また、グラウンドトゥルースの改変された、つまりフェイクの画像もブロック402でNNに入力される。フェイク画像は、設計者によって、グラウンドトゥルースの元の画像から「ディープフェイク」技術を使用して生成され得る。NNは、例えば、周波数領域と空間領域の両方について上述した任意のまたは例示的な不規則性を使用して分析を開始するようにプログラムされ得る。NNは、ブロック404でグラウンドトゥルース入力に関してトレーニングされる。その後、ブロック404でNNのトレーニングを改良するために強化学習が適用され得る。
【0050】
図5は、例示的な空間領域及び周波数領域の不規則性を示す。元の画像500は、元の空間領域502及び元の周波数領域504に示されている。元の画像500の改変された画像506は、510に示される改変された空間領域画像508及び改変された周波数領域を有する。
【0051】
示されるように、改変された空間領域画像508内の領域512は、514で拡大され、示されるチェッカーボードパターンを有する。元の画像と改変された画像との間に、照明の不規則性が存在する場合もある。
【0052】
1つまたは複数の周波数領域の不規則性516はまた、周波数領域510内の画像の表現において検出され得る。周波数領域の不規則性516は、示されるように、周波数領域のグラフィック描写の端縁または周辺に沿って輝点を含む場合がある。示されている例では、側面ごとに2つの輝点が存在し、周波数領域における画像改変により生じた不規則性を示している。
【0053】
図6は、
図3のロジックを具現化するために使用され得る例示的なアーキテクチャを示している。改変についてテストされる画像600は、モジュール602のニューラルネットワーク(NN)604で画像の照明の不規則性、及び606で顔の解像度/不規則性チェックを検出するために空間領域の画像を分析する顔検出モジュール602に入力される。顔検出モジュール602は、画像認識原理を使用し得、1つまたは複数のNNによって具現化され得る。
【0054】
また、画像600は、追加の規則を使用した直接的な分析のために、CNNである場合があるNN608に直接入力され得る。NN608が、画像の特徴ベクトルを抽出することに留意されたい。また、NN604は画像処理を実行し、十分なトレーニングデータがない場合に特に有利である。ただし、NN604、608は単一のNNによって実装される場合がある。
【0055】
さらに、画像600は、周波数領域で画像600を表すスペクトル612を出力する離散フーリエ変換(DFT)610によって処理される。スペクトル612は、スペクトルを分析するためにCNN614に送られる。
【0056】
顔認識モジュール602(照明の不規則性チェック604及び顔の解像度/アーティファクトチェック606を含む)、ならびにCNN608及び614は、空間領域と周波数領域の両方で画像600を表す特徴ベクトルのグループ616を生成する。長短期モジュール(LSTM)等のリカレントNN(RNN)等の1つまたは複数のNNによって実装され得る検出モジュール618は、特徴ベクトルを分析して、本明細書に提案される原理に従って、画像600が元の画像からのデジタル改変を含むかどうかを確認する。画像600がデジタル改変を含む場合、620で、画像600がフェイクである可能性がある旨の表示が生成される。
【0057】
図7は、改変されたビデオを検出するための第2の技法を示し、
図8は、
図7のロジックを具現化するための例示的なアーキテクチャを示している。ビデオクリップまたはビデオフレームの他のシーケンス等のビデオシーケンスは、ブロック700で、NNに入力される。シーケンスは、NNを使用してブロック702で分析され、NNは、704でビデオシーケンスを表す特徴ベクトルを出力する。
【0058】
ビデオシーケンスを分析する際に、NNは、例えば発話中の自然な人間の顔の動きのパターンを学習するようにトレーニングされ得る。本明細書で理解されるように、ビデオシーケンスが改変されるとき、改変者は、例えば唇の動きの自然なパターンを正確にモデル化し得ないため、わずかに不自然な動きのパターンがフェイクビデオシーケンスでNNによって検出され得る。
【0059】
また、ビデオシーケンスと関連付けられた音声は、ブロック706で周波数変換に入力される。周波数変換706によって出力されるスペクトルは、スペクトルの分析のためにブロック708でNNに提供されて、ブロック704に、音声を表す特徴ベクトルを出力する。
【0060】
付随する音声を分析する際に、NNは、ケーデンス、トーン、ピッチパターン、及び強調等の自然な人間の発話特性を学習するようにトレーニングされ得る。本明細書で理解されるように、声の音声等の音声が改変されるとき、改変者は、人間の発話の自然なパターンを正確にモデル化し得ない。したがって、不自然なケーデンスまたはトーンまたはピッチ等のわずかに不自然な発話のパターンは、フェイク音声シーケンスでNNによって検出され得る。トレーニングは
図4に示す線に沿って達成され得、元のグラウンドトゥルース音声から派生したグラウンドトゥルース音声及びフェイクグラウンドトゥルース音声が、トレーニングセットとして使用される。
【0061】
特徴セット704は、特徴ベクトルを分析して、決定ひし形712で、入力されたビデオシーケンス及び/または付随する音声がオリジナルから改変されているかどうかを検出するためにRNN710等のNNに提供され得る。異常または不規則性が見つからない場合、プロセスは、状態714で終了し得るが、不規則性が検出された場合、ブロック716で、ビデオシーケンスが改変された可能性がある旨の表示が出力される。
【0062】
いくつかの実施形態では、音声またはビデオのどちらかでなんらかの不規則性が検出された場合、フェイクの表示がブロック716で出力される。他の実施形態では、音声とビデオの両方で不規則性が検出された場合にのみ、フェイクの表示がブロック716で出力される。
【0063】
図8は、
図7のロジックを具現化するために使用できるアーキテクチャを示している。ビデオシーケンス800は、CNN等のNN802に入力されて、そこから特徴ベクトル804を抽出する。また、発話806等の音声は、周波数領域で、そこから特徴ベクトルを抽出するためにCNN等のNN810によって分析される音声の表現を生成するために短時間フーリエ変換(STFT)等の周波数変換808に入力される。LSTM等のRNN等のNN212は、本明細書に説明する原理に従って特徴ベクトルを分析して、ブロック814で、ビデオシーケンス800及び音声806のあらゆる不規則性を検出する。状態816は、入力がフェイクである可能性がある旨の表示の出力を示す。
【0064】
ここで
図9に目を向けると、ブロックチェーン技術及び/またはデジタルフィンガープリント技術を使用してフェイクビデオ生成に対処するための第3の技法が示されている。一般に、ビデオのハッシュ/署名は、例えば、ウェブブラウザを使用してスマートフォンまたは他の記録デバイス等の画像化デバイスに組み込まれ得る、またはハードウェアに符号化され得る。デジタルフィンガープリントは、ビデオ全体またはサブトラックのデータのビットから生成できるため、ビデオコンテンツが変更されると、フィンガープリントも変化する。デジタルフィンガープリントは、ビデオがどこで及びいつ最初に作成されたのかの場所及びタイムスタンプ等のメタデータとともに生成できる。ビデオを再配信しようとするたびに、配信業者はブロックチェーン上の元のブロックからの許可を要求する必要があり、新しい(コピーされた)ビデオの新しいブロックが拘束されるため、元のビデオ及びブロックチェーン上の任意のノードまでたどることが容易になる。ビデオを再度アップロードする前に、ビデオのフィンガープリントを元のフィンガープリントと照合して、追加しようとするビデオが操作されているかどうかを判断できる。
【0065】
例えば、ビデオウェブサイトにはビデオフィンガープリント検出器が組み込まれ得るため、ビデオがアップロード/ダウンロードされるたびに、ビデオは記録され、スタンプが付けられる。フィンガープリントが元のビデオフィンガーポイントに一致しないことに基づいて、ビデオがフェイクと分類された場合、ビデオはチェーン全体でこのようなものとして記録され得る。これはウイルス対策ソフトウェアをエミュレートするが、この場合、全てのユーザーが同時に保護される。
【0066】
ブロック900で開始すると、元の(「本物の」)ビデオはビデオのハッシュとともにビデオブロックチェーンに追加され、そのハッシュはデジタルフィンガープリントとして機能し得、通常、ビデオのピクセル値またはエンコード情報または他の画像に依存する値に基づいている。ビデオをコピーする要求はブロック902で受信される場合があり、要求はブロック904で許可される場合がある。
【0067】
ブロック906に移動すると、元のビデオのコピーである新しいビデオを追加してブロックチェーンに戻す要求が受信される場合がある。要求には、有効であるために、新しいビデオに対するハッシュ(フィンガープリント)が伴う場合がある。決定ひし形908に進むと、ブロックチェーンに追加しようとするビデオのハッシュは、ビデオのコピー元であった、元のビデオのハッシュと比較され、ハッシュが一致する場合、新しいビデオはブロック910でブロックチェーンに追加されてよい。
【0068】
他方、決定ひし形908で、ハッシュが一致しないと判断された場合、ロジックはブロック912に移動して、新しいビデオをブロックチェーンに追加することを拒否するか、またはそれを、新しいビデオがオリジナルから改変されているため、フェイクである場合がある旨の表示とともにブロックチェーンに追加し得る。所望される場合、改変されたビデオは、ブロックチェーンからアクセス不可、またはそれ以外の場合ブロック914で再生不可にされ得る。
【0069】
さらに、改変されたビデオが検出されると、ロジックはブロック916に移動して、インターネットサービスプロバイダ(ISP)または新しい改変されたビデオの他の配信業者に、ビデオが実際に元のビデオからデジタル的に改変されているため、新しい(改変された)ビデオを公けの場から削除するかどうかを決定するために調べられる必要があることを報告し得る。
図10で説明する。
【0070】
示されるように、ユーザーインタフェース(UI)1000は、
図9のロジックを実行する、及び/または
図9のロジックを実行するデバイスからの情報を受信するデバイスのディスプレイ1002に提示されてよい。UI1000は、フェイクビデオが検出された可能性がある旨のプロンプト1004を含んでよい。UI1000はまた、ユーザーが、識別情報とともにフェイクの存在を配信業者または他の機関に報告することを可能にするためにセレクタ1006を含み得る。
【0071】
図11及び
図12は、追加のフィンガープリントロジックを示している。
図11のブロック1100で開始すると、新しい元のビデオの作成に従って、及び/またはビデオのアップロードもしくはダウンロード時に、ビデオの少なくとも一部のフレーム、及びいくつかの実施形態では、ビデオの全てのフレームについて、ハッシュはフレーム内で実行される。ブロック1002に進むと、ハッシュは次に、その派生元のフレームに埋め込まれる。
【0072】
例では、ビデオフレームのハッシュは、それが肉眼では検出できず、ビデオフレーム全体で均一に分散され得るように、ビデオフレームにステガノグラフィ的に埋め込まれ得る。例えば、ステガノグラフィハッシュの各個のピクセルは、それがつねに固定位置にあるため、または場所がフレームのためのビデオメタデータに含まれている(あらゆるフレームが異なることを可能にする)ためのどちらかで、既知の場所にある場合がある。この場所を知っていることによって、ハッシュを表すピクセルをハッシュされるビデオから除外することが可能になる。言い換えれば、元のハッシュは、ステガノグラフィ的にではなく改変されたピクセルからのみ作成される。この場所はまた、ハッシュを表しているピクセルが、ハッシュに影響を与えるであろうように圧縮または改変されないことを保証するために、ビデオ圧縮アルゴリズムによって使用され得る。
【0073】
図12は、ビデオ再生ソフトウェアがこのプロセスを逆にするであろうことを示している。ブロック1200で開始すると、ステガノグラフィ的に埋め込まれたハッシュがビデオフレームから抽出される。ブロック1202に移動すると、ビデオフレームの残りのピクセルがハッシュされる。決定ひし形1204に進むと、新たなハッシュが、フレームから抽出されたハッシュと比較される。それらが一致する場合、フレームは元のソースビデオから改変されていないため、ロジックはブロック1206に移動して、そのように示し、所望される場合(全てのフレームまたは少なくとも閾値数のフレームが一致すると仮定して)ブロックチェーンにビデオを追加する。ハッシュが一致しない場合、ロジックはブロック1208に移動して、(例えば)改変されたフレームの周りの赤い境界線または強調表示により、表示されているビデオがオリジナルから改変されていることを示す。フレームの改変された部分にも輪郭を付けてよい。
【0074】
この同じ検証プロセスは、フェイクを検出し、積極的にフェイクが公開されるのを防ぐか、またはビデオに警告を付加するバックエンドサーバ上で実行され得る。
【0075】
任意の悪意のある当時者が任意の意味のある方法でソースビデオを改変すると、フレームは異なるようにハッシュする、及び/または埋め込まれたステガノグラフィハッシュが破損するであろう。この活動の両端に誠実な当事者がいる限り、ビデオの改変は検出可能である。
【0076】
図13は、上記の原理を組み合わせたハイブリッド技法が使用され得ることを示す。ブロック1300は、周波数領域分析と組み合わせた画像処理/ビデオシーケンシングの両方とも、ビデオのアーティファクト/不規則性を特定するために使用され得ることを示している。ブロック1302は、ビデオのアーティファクト/不規則性を特定するために、発話処理が上記技法のいずれかと組み合わせて使用され得ることをさらに示す。ブロック1304は、ビデオのアーティファクト/不規則性の識別が、元の(本物の)ビデオ、及び改変されているそのコピー(フェイク)を追跡するためにブロックチェーン技術と組み合わされ得ることを示す。
【0077】
図14~
図16は、図中で「フェイク」画像とラベルが付けられた、改変された画像に現れる可能性のあるアーティファクトまたは不規則性の追加の例を示す。
図14の第1の本物の画像1400は、領域1404で、照明が、第1の本物の画像1400の対応する領域においてよりも明るく見える対応する改変された画像1402を生成するために改変されている。同様に、第2の本物の画像1406は、顔の領域1410での照明が、本物の画像1406よりも明るく見える改変された画像1408を生成するために改変されている。改変された画像1402、1408の解像度はまた、対応する本物の画像1400、1406の解像度よりも低く、NNが、照明の不規則性と解像度の減少のどちらかまたは両方に基づいて改変された画像を区別することを学習できることを意味する。
【0078】
図15は、小さい領域1502で、改変された画像1500を生成するために実行された敵対的生成ネットワーク(GAN)アップサンプリングのために、画像の不規則性またはアーティファクトが存在する、改変された画像1500を示す。領域1502の分解
図1504に示されるように、GAN不規則性は、均一ではない無地の主題(示されている例では、様々な度合いの陰影のある草)が元の画像に現れる、画像の領域の均一に無地の色を含み得る。
【0079】
図16は、本物の画像1600、及び別の人の顔を、本物の画像1600内の対象の顔に重ね合わせることによって本物の画像1600から派生した改変された画像1602を示す。1604に示されるように、この重ね合わせによって、頭部または体の残りの部分に対する顔のずれ、この場合、頭部が示されている角度に対する鼻のずれが生じる。
【0080】
いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことを理解されたい。
【国際調査報告】