IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディズニー エンタープライゼス インコーポレイテッドの特許一覧

特表2023-510156セキュアコンテンツ処理パイプライン
<>
  • 特表-セキュアコンテンツ処理パイプライン 図1
  • 特表-セキュアコンテンツ処理パイプライン 図2
  • 特表-セキュアコンテンツ処理パイプライン 図3
  • 特表-セキュアコンテンツ処理パイプライン 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-13
(54)【発明の名称】セキュアコンテンツ処理パイプライン
(51)【国際特許分類】
   G06F 21/55 20130101AFI20230306BHJP
   G06F 21/57 20130101ALI20230306BHJP
   G06F 21/10 20130101ALI20230306BHJP
   G06N 3/0475 20230101ALI20230306BHJP
【FI】
G06F21/55
G06F21/57 370
G06F21/10
G06N3/0475
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022538985
(86)(22)【出願日】2021-01-04
(85)【翻訳文提出日】2022-07-28
(86)【国際出願番号】 US2021012093
(87)【国際公開番号】W WO2021150362
(87)【国際公開日】2021-07-29
(31)【優先権主張番号】16/748,509
(32)【優先日】2020-01-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】504399716
【氏名又は名称】ディズニー エンタープライゼス インコーポレイテッド
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100211395
【弁理士】
【氏名又は名称】鈴木 裕貴
(72)【発明者】
【氏名】ミケル エンジェル ファッレ ジュウ
(72)【発明者】
【氏名】エドワード シー ドレイク
(72)【発明者】
【氏名】アンソニー エム アッカルド
(72)【発明者】
【氏名】マーク アラナ
(57)【要約】
コンテンツ処理パイプラインをセキュアにするためのシステムは、ハードウェアプロセッサと、ソフトウェアコードを格納しているメモリとを有するコンピューティングプラットフォームを含む。ハードウェアプロセッサは、ソフトウェアコードを実行し、悪意のあるニューラルネットワークの1つ又は複数のニューロンを活性化するように構成されている合成されたテスト画像をコンテンツストリームに挿入し、コンテンツストリームを入力ストリームとしてパイプラインの第1処理ノードに提供し、処理後のテスト画像を含む出力ストリームを受信する。ハードウェアプロセッサは、ソフトウェアコードをさらに実行し、出力内の処理後のテスト画像を、合成されたテスト画像に対応する期待画像と比較し、出力内の処理後のテスト画像が期待画像と一致するとき、パイプラインの少なくとも一部分がセキュアであると検証する。
【選択図】図3
【特許請求の範囲】
【請求項1】
複数の処理ノードを含むコンテンツ処理パイプラインのデータセキュリティを確保するように構成されているシステムであって、
ハードウェアプロセッサ及びシステムメモリを含むコンピューティングプラットフォームと、
前記システムメモリに格納されているソフトウェアコードとを含み、
前記ハードウェアプロセッサは、前記ソフトウェアコードを実行し、
合成されたテスト画像をコンテンツストリームに挿入することであって、前記合成されたテスト画像は、悪意のあるニューラルネットワークの1つ又は複数のニューロンを活性化するように構成されている、前記挿入することと、
前記合成されたテスト画像を含む前記コンテンツストリームを、入力ストリームとして、前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの第1処理ノードに提供することと、
前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第1処理ノード又は第2処理ノードの一方から出力ストリームを受信することであって、前記出力ストリームは、処理後のテスト画像を含む、前記受信することと、
前記受信された出力ストリーム内の前記処理後のテスト画像を、前記合成されたテスト画像に対応する期待画像と比較することと、
前記受信された出力ストリーム内の前記処理後のテスト画像が前記期待画像と一致するとき、前記コンテンツ処理パイプラインの少なくとも一部分がセキュアであると検証することと、
によって前記コンテンツ処理パイプラインの少なくとも一部分のセキュリティアセスメントを生成するように構成されている、システム。
【請求項2】
前記受信された出力ストリームは、前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第2処理ノードからのものであり、前記第2処理ノードは、前記コンテンツ処理パイプラインの最終処理ノードであり、前記コンテンツ処理パイプラインの全体は、前記受信された出力ストリーム内の前記合成されたテスト画像が前記期待画像と一致するとき、セキュアであると検証される、請求項1に記載のシステム。
【請求項3】
前記ソフトウェアコードは、前記合成されたテスト画像を生成するために訓練されたニューラルネットワーク(NN)を含み、前記ハードウェアプロセッサは、前記ソフトウェアコードをさらに実行し、前記NNを使用して前記合成されたテスト画像を生成するように構成されている、請求項1に記載のシステム。
【請求項4】
前記NNは、敵対的生成ネットワーク(GAN)を含む、請求項3に記載のシステム。
【請求項5】
前記GANは、前記悪意のあるニューラルネットワークをモデル化するように構成されているディスクリミネータを含む、請求項4に記載のシステム。
【請求項6】
前記GANは、ディープフェイクニューラルネットワークをモデル化するように構成されているディスクリミネータを含む、請求項4に記載のシステム。
【請求項7】
前記コンテンツ処理パイプラインの前記複数の処理ノードは、画像処理デバイスを含む、請求項1に記載のシステム。
【請求項8】
前記ハードウェアプロセッサは、前記ソフトウェアコードを実行し、前記セキュリティアセスメントを自動的に生成するように構成されている、請求項1に記載のシステム。
【請求項9】
ハードウェアプロセッサと、複数の処理ノードを含むコンテンツ処理パイプラインの少なくとも一部分のセキュリティアセスメントを生成するためのソフトウェアコードを格納しているシステムメモリとを有するコンピューティングプラットフォームを含むシステムによる使用のための方法であって、
前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、合成されたテスト画像をテスト画像としてコンテンツストリームに挿入することであって、前記合成されたテスト画像は、悪意のあるニューラルネットワークの1つ又は複数のニューロンを活性化するように構成されている、前記挿入することと、
前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、前記合成されたテスト画像を含む前記コンテンツストリームを入力ストリームとして前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの第1処理ノードに提供することと、
前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第1処理ノード又は第2処理ノードの一方から出力ストリームを受信することであって、前記出力ストリームは、処理後のテスト画像を含む、前記受信することと、
前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、前記受信された出力ストリーム内の前記処理後のテスト画像を、前記合成されたテスト画像に対応する期待画像と比較することと、
前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、前記受信された出力ストリーム内の前記処理後のテスト画像が前記期待画像と一致するとき、前記コンテンツ処理パイプラインの少なくとも前記一部分がセキュアであると検証することと、
を含む、方法。
【請求項10】
前記受信された出力ストリームは、前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第2処理ノードからのものであり、前記第2処理ノードは、前記コンテンツ処理パイプラインの最終処理ノードであり、前記コンテンツ処理パイプラインの全体は、前記受信された出力ストリーム内の前記合成されたテスト画像が前記期待画像と一致するとき、セキュアであると検証される、請求項9に記載の方法。
【請求項11】
前記ソフトウェアコードは、前記合成されたテスト画像を生成するために訓練されたニューラルネットワーク(NN)を含み、前記方法は、前記ハードウェアプロセッサによって実行される前記ソフトウェアコードによって、前記NNを使用して前記合成されたテスト画像を生成することをさらに含む、請求項9に記載の方法。
【請求項12】
前記NNは、敵対的生成ネットワーク(GAN)を含む、請求項11に記載の方法。
【請求項13】
前記GANは、前記悪意のあるニューラルネットワークをモデル化するように構成されているディスクリミネータを含む、請求項12に記載の方法。
【請求項14】
前記GANは、ディープフェイクニューラルネットワークをモデル化するように構成されているディスクリミネータを含む、請求項12に記載の方法。
【請求項15】
前記コンテンツ処理パイプラインの前記複数の処理ノードは、画像処理デバイスを含む、請求項9に記載の方法。
【請求項16】
前記ハードウェアプロセッサは、前記ソフトウェアコードを実行し、前記セキュリティアセスメントを自動的に生成するように構成されている、請求項9に記載の方法。
【請求項17】
ハードウェアプロセッサによって実行されたときに方法をインスタンス化する命令を格納しているコンピュータ読み取り可能な非一時的媒体であって、前記方法は、
合成されたテスト画像を、テスト画像として、コンテンツストリームに挿入することであって、前記合成されたテスト画像は、悪意のあるニューラルネットワークの1つ又は複数のニューロンを活性化するように構成されている、前記挿入することと、
前記合成されたテスト画像を含む前記コンテンツストリームを、入力ストリームとして、コンテンツ処理パイプラインの複数の処理ノードのうちの第1処理ノードに提供することと、
前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第1処理ノード又は第2処理ノードの一方から出力ストリームを受信することであって、前記出力ストリームは、処理後のテスト画像を含む、前記受信することと、
前記受信された出力ストリーム内の前記処理後のテスト画像を、前記合成されたテスト画像に対応する期待画像と比較することと、
前記受信された出力ストリーム内の前記処理後のテスト画像が前記期待画像と一致するとき、前記コンテンツ処理パイプラインの少なくとも一部分がセキュアであると検証することと、
を含む、コンピュータ読み取り可能な非一時的媒体。
【請求項18】
前記受信された出力ストリームは、前記コンテンツ処理パイプラインの前記複数の処理ノードのうちの前記第2処理ノードからのものであり、前記第2処理ノードは、前記コンテンツ処理パイプラインの最終処理ノードであり、前記コンテンツ処理パイプラインの全体は、前記受信された出力ストリーム内の前記合成されたテスト画像が前記期待画像と一致するとき、セキュアであると検証される、請求項17に記載のコンピュータ読み取り可能な非一時的媒体。
【請求項19】
前記コンピュータ読み取り可能な非一時的媒体は、前記合成されたテスト画像を生成するために訓練されたニューラルネットワーク(NN)を格納し、前記方法は、前記NNを使用して前記合成されたテスト画像を生成することをさらに含む、請求項17に記載のコンピュータ読み取り可能な非一時的媒体。
【請求項20】
前記NNは、前記悪意のあるニューラルネットワークをモデル化するように構成されているディスクリミネータを含む敵対的生成ネットワーク(GAN)を含む、請求項19に記載のコンピュータ読み取り可能な非一時的媒体。
【発明の詳細な説明】
【背景技術】
【0001】
機械学習の進歩は、本物のようだが人物の画像又は音声から偽装された再現物の作成を可能にし、それはその作成のためにディープ人工ニューラルネットワークを使用することに起因して、「ディープフェイク」として知られている。ディープフェイクは、画像又は音声が使用される本人の同意なしに作成され、本人が実際には言っていないこと又はやっていないことを、言ったり或いはやったりするように見せかけ得る。その結果、ディープフェイクの加工デジタルコンテンツは、誤報を広めるために悪意を持って使用され得る。
【0002】
エンターテインメント及びニュースの配信にデジタルコンテンツが広く親しまれていることにより、デジタルコンテンツの処理パイプラインのデータセキュリティを確保することは、そのデジタルコンテンツの作成者、所有者、配信者のいずれにも極めて重要である。しかしながら、機械学習モデルが改良し続けるにつれて、ディープフェイクを生成することができ、コンテンツ処理パイプラインの1つ又は複数の処理ノードに導入されたマルウェアの検出は、困難であり続けるであろう。その結果、コンテンツ処理パイプラインのセキュリティをアセスメントするためのロバストで信頼できるソリューションがない場合、わずかに加工された、或いは実質的に偽のデジタルコンテンツが、不注意に放送され、或いは契約上の合意又は規制制限に違反して配信され、それによってコンテンツの所有者及び/又は配信者が潜在的に法的危険にさらされ得る。
【発明の概要】
【0003】
コンテンツ処理パイプラインをセキュアにするためのシステム及び方法が、実質的に、少なくとも1つの図に関連して示され、且つ/或いは説明されることによって、そして、特許請求の範囲に、より完全に明記されることによって、提供される。
【図面の簡単な説明】
【0004】
図1図1は、一実装形態において、コンテンツ処理パイプラインをセキュアにするための例示的なシステムのダイアグラムを示す。
図2図2は、一実装形態において、コンテンツ処理パイプラインのセキュリティをアセスメントする際の使用に適した例示的な合成されたテスト画像を示す。
図3図3は、一実装形態において、図1に示されるシステムによる使用に適した例示的なソフトウェアコードを示す。
図4図4は、一実装形態において、コンテンツ処理パイプラインをセキュアにするための例示的な方法を提示するフローチャートを示す。
【発明を実施するための形態】
【0005】
以下の説明は、本開示における実装形態に関する具体的な情報を含む。当業者は、本開示が本明細書で具体的に議論されるものとは異なる方法で実装され得ることを認識するであろう。本願の図面及び添付の詳細な説明は、単に例示的な実装形態を対象とする。特段の記載がない限り、図中の同様の或いは対応する要素は、同様の或いは対応する参照数字によって示され得る。さらに、本願の図面及び図示は一般的に、縮尺通りではなく、実際の相対的な寸法に対応することを目的としない。
【0006】
本願は、従来技術の難点及び欠陥を克服する、コンテンツ処理パイプラインをセキュアにするためのシステム及び方法を開示する。悪意のあるニューラルネットワークの1つ又は複数のニューロンを活性化するように構成されている合成されたテスト画像を、コンテンツ処理パイプラインへの入力ストリームとして提供されるコンテンツストリームに挿入することによって、本セキュリティソリューションは、有利には、悪意のあるニューラルネットワークがパイプラインに存在するときに、悪意のあるニューラルネットワークの検出を可能にする。さらに、パイプラインの1つ又は複数のコンテンツ処理ノードから受信された出力ストリームに含まれる合成されたテスト画像を、合成されたテスト画像に対応する期待画像と比較することによって、本ソリューションは、悪意のあるニューラルネットワークによって感染されたパイプラインの1つ又は複数のノードの識別を可能にする。
【0007】
いくつかの実装形態では、本セキュリティソリューションは、実質的に自動化されたシステムによる実質的に自動化されたプロセスとして実行されてもよいことに留意されたい。さらに、本願で使用されるように、用語「自動化」、「自動化された」、及び「自動化する」は、システム管理者などの、人間のユーザの参加を必要としないシステム及びプロセスを指すことに留意されたい。いくつかの実装形態では、人間のシステムオペレータ又は管理者が、自動化されたシステムによって、且つ本明細書で説明された自動化された方法に従って生成されたセキュリティアセスメントをレビューしてもよいが、その人間の関与は任意である。したがって、本願で説明された方法は、開示された自動化されたシステムのハードウェア処理コンポーネントの制御下で実行されてもよい。
【0008】
また、本願で定義されるように、人工ニューラルネットワーク(ANN)としても知られている、ニューラルネットワーク(NN)は、観測されたデータのパターン又は学習された表現が、入力と出力との間の関係をマッピングする高度に結合された計算層を使用して処理される、機械学習のフレームワークの一種であることに留意されたい。「ディープニューラルネットワーク」は、深層学習の観点から、入力層と出力層との間に複数の隠れ層を利用するニューラルネットワークを指す場合があり、生データで明示的に定義されていない特徴に基づいて学習することを可能にする。そのように、NNの様々な形態は、過去の例又は「訓練データ」に基づいて新しいデータについての予測を行うために使用され得る。様々な実装形態では、NNは、画像処理又は自然言語処理を実行するために利用されてもよい。
【0009】
図1は、一実装形態において、コンテンツ処理パイプラインをセキュアにするための例示的なシステムのダイアグラムを示す。図1に示されるように、システム100は、ハードウェアプロセッサ104と、非一時的記憶デバイスとして実装されているシステムメモリ106と、任意のディスプレイ108とを有するコンピューティングプラットフォーム102を含む。例示的な本実装形態において、システムメモリ106は、任意のNN112を含むソフトウェアコード110とともに、コンテンツストリーム128を提供するコンテンツライブラリ144、及び1つ又は複数の合成されたテスト画像124(以下、「(1つ又は複数の)テスト画像124」)を含む画像データベース126を格納する。
【0010】
図3によって示され、以下に説明されるように、ソフトウェアコード110が任意のNN112(図3におけるNN312)を含むいくつかの実装形態では、NN112は、ディープフェイクNNなどの、悪意のあるニューラルネットワーク(以下、「悪意のあるNN」)をモデル化するように構成されているディスクリミネータを含む敵対的生成ネットワーク(GAN)として実装されてもよいことに留意されたい。それらの実装形態では、NN112は、合成されたテスト画像124を生成するために使用されてもよく、合成されたテスト画像124は、その後、画像データベース126上に格納され、画像データベース126から取得されてもよい。
【0011】
さらに、図1に示されるように、システム100は、訓練プラットフォーム140と、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cを含むコンテンツ処理パイプライン150とともに、通信ネットワーク120と、ディスプレイ138を含むユーザシステム130を利用するシステム管理者又は他のユーザ132(以下、「ユーザ132」)とを含む使用環境内で実装される。さらに、図1は、通信ネットワーク120を介して、訓練プラットフォーム140と、コンテンツ処理パイプライン150と、ユーザシステム130とを、システム100と通信可能に結合するネットワーク通信リンク122を示す。
【0012】
さらに、図1は、コンテンツ処理パイプライン150の第1処理ノード152aへの入力ストリーム148とともに、コンテンツ処理パイプライン150の第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cのそれぞれからの出力ストリーム154、156、及び158としてシステム100によって受信された処理済みコンテンツストリームを示す。また、図1には、システム100によって生成された、コンテンツ処理パイプライン150の少なくともいくつかの部分のセキュリティアセスメント164が示される。
【0013】
図1は、コンテンツ処理パイプライン150を、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cによって表される3つの処理ノードを含むものとして描写しているが、その表現は、単に例示的なものである。他の実装形態では、コンテンツ処理パイプライン150は、わずか1つの処理ノードを含んでもよく、或いはそれよりも多い処理ノードを含んでもよく、或いは3つよりも多い処理ノードを含んでもよい。したがって、いくつかの実装形態では、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cのうちの任意の1つが、コンテンツ処理パイプライン150の第1処理ノードであってもよいだけでなく、最終処理ノードであってもよく、他の実装形態では、中間処理ノード152bが、第1処理ノード152aと最終処理ノード152cとを結ぶ複数の処理ノードを含んでもよい。
【0014】
第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cは、様々な画像処理デバイスのうちの任意の1つとして実装され得ることに留意されたい。すなわち、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cのうちの1つ又は複数は、いくつかの例を挙げると、デジタルカメラ、ビデオ編集ワークステーション、デスクトップ、ラップトップ、又はタブレットコンピュータ、スマートフォン、又はクラウドベースのデータ記憶サービスデバイスの形態をとってもよい。
【0015】
より詳細に以下で説明されるように、ソフトウェアコード110は、コンピューティングプラットフォーム102のハードウェアプロセッサ104によって実行されるとき、合成されたテスト画像124を使用してコンテンツ処理パイプライン150の少なくとも一部分のセキュリティアセスメント164を生成するように構成されている。概念的な明確さのために、本願は、ソフトウェアコード110、画像データベース126、及びコンテンツライブラリ144を、システムメモリ106に格納されているものとして言及するが、より一般的には、システムメモリ106は、任意のコンピュータ読み取り可能な非一時的記憶媒体の形態をとってもよい。
【0016】
本願で使用されるような、表現「コンピュータ読み取り可能な非一時的記憶媒体」は、コンピューティングプラットフォーム102のハードウェアプロセッサ104に命令を提供する搬送波又は他の一時的な信号を除く、任意の媒体を指す。したがって、コンピュータ読み取り可能な非一時的記憶媒体は、例えば、揮発性媒体及び不揮発性媒体などの、様々なタイプの媒体に対応してもよい。揮発性媒体は、ダイナミックランダムアクセスメモリ(ダイナミックRAM)などの、動的メモリを含んでもよく、不揮発性メモリは、光学、磁気、又は静電記憶デバイスを含んでもよい。コンピュータ読み取り可能な非一時的媒体の一般的な形態は、例えば、光ディスク、RAM、プログラマブルリードオンリーメモリ(PROM)、消去可能なPROM(EPROM)、及びFLASHメモリを含む。
【0017】
さらに、図1は、訓練プラットフォーム140及びユーザシステム130を、システム100から遠隔のコンピュータプラットフォームとして描写しているが、その表現も単に例示的なものである。より一般的には、システム100は、例えば、コンピュータサーバなどの、1つ又は複数のコンピューティングプラットフォームを含んでもよく、例えば、クラウドベースのシステムなどの、相互的に結ばれているが分散されたシステムを形成してもよい。その結果、ハードウェアプロセッサ104及びシステムメモリ106は、システム100内の分散されたプロセッサ及びメモリリソースに対応してもよく、訓練プラットフォーム140は、システム100のコンポーネントであってもよく、或いはシステムメモリ106に格納されているソフトウェアモジュールとして実装されてもよい。さらに、いくつかの実装形態では、ユーザシステム130は、システム100の要素として含まれてもよい。
【0018】
一実装形態では、システム100のコンピューティングプラットフォーム102は、例えば、インターネットなどのパケット交換ネットワークを介してアクセス可能な、1つ又は複数のウェブサーバに対応してもよい。代替的に、コンピューティングプラットフォーム102は、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)をサポートする、或いは別のタイプの限定的な配信又はプライベートネットワークに含まれる、1つ又は複数のコンピュータサーバに対応してもよい。
【0019】
図1において、ユーザシステム130は、デスクトップコンピュータとして示されているが、その表現も単に例として提供されることに留意されたい。より一般的には、ユーザシステム130は、ユーザインターフェースを提供し、通信ネットワーク120への接続をサポートし、本明細書においてユーザシステム130に起因する機能性を実装するのに十分なデータ処理能力を実装する任意の適切なシステムであってもよい。例えば、他の実装形態では、ユーザシステム130は、例えば、ラップトップコンピュータ、タブレットコンピュータ、又はスマートフォンの形態をとってもよい。
【0020】
また、様々な実装形態では、ディスプレイ108は、コンピューティングプラットフォーム102と物理的に統合されてもよく、或いはコンピューティングプラットフォーム102と通信可能に結合されているが物理的に分離されてもよいことに留意されたい。さらに、ユーザシステム130のディスプレイ138は、ユーザシステム130と物理的に統合されてもよく、或いはユーザシステム130と通信可能に結合されているが物理的に分離されてもよい。例えば、ユーザシステム130がスマートフォン、ラップトップコンピュータ、又はタブレットコンピュータとして実装される場合、ディスプレイ138は典型的には、ユーザシステム130と統合されることとなる。対照的に、ユーザシステム130がデスクトップコンピュータとして実装される場合、ディスプレイ138は、コンピュータタワーの形態のユーザシステム130から分離されたモニタの形態をとってもよい。システム100のディスプレイ108及びユーザシステム130のディスプレイ138は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、又は信号から光への物理的変換を実行する任意の他の適切なディスプレイスクリーンとして実装されてもよい。
【0021】
図2は、一実装形態において、コンテンツ処理パイプラインのセキュリティをアセスメントする際の使用に適した例示的な合成されたテスト画像224を示す。図2に示されるように、合成されたテスト画像224は、人間の観察者には認識できない「無意味な」画像である。しかしながら、合成されたテスト画像224は、よく知られている、広く利用可能な訓練データセット及びアーキテクチャを使用して完全に訓練された悪意のあるNNによって、或いはそれらのデータセット及びアーキテクチャの1つを用いて最初に訓練されたニューラルネット上で微調整された悪意のあるNNによって認識可能なオブジェクトと間違われるように構成されており、それによって、悪意のあるNNに、合成されたテスト画像224に実際に描写されていないオブジェクトの「幻覚を起こ」させる。本願の目的のために定義されるように、NN内の1つ又は複数のニューロンのスコアが、合成されたテスト画像224に応答して実質的に最大化されるとき、悪意のあるNNは、「幻覚を起こす」と特徴付けられることに留意されたい。
【0022】
例えば、合成されたテスト画像224aは、人間の観察者には任意の特定のオブジェクトとして認識できないにもかかわらず、悪意のあるNNに、その画像に描写されたパターンを木として識別させるように構成されている。同様に、例として、合成されたテスト画像224bは、悪意のあるNNに、人間の幻覚を起こさせるように構成されており、合成されたテスト画像224cは、悪意のあるNNに、自転車の幻覚を起こさせるように構成されており、合成されたテスト画像224dは、悪意のあるNNに、自動車の幻覚を起こさせるように構成されている。
【0023】
合成されたテスト画像224は、概して、図1における(1つ又は複数の)合成されたテスト画像124に対応する。その結果、(1つ又は複数の)合成されたテスト画像124は、本開示によって合成されたテスト画像224に起因する任意の特性を共有することができ、その逆も同様であり得る。したがって、合成されたテスト画像224と同様に、(1つ又は複数の)合成されたテスト画像124は、(1つ又は複数の)合成されたテスト画像124の人間の観察者には認識できないが、それにもかかわらず、悪意のあるNNによって1つ又は複数の認識可能なオブジェクトとして識別されるように構成されている。深層学習の最先端技術は、人間には全く認識できないが、最先端技術のNNが認識可能なオブジェクトであるとほぼ完全に信じて疑わない画像を生成、すなわち、合成することが可能であることを示す。
【0024】
その結果、(1つ又は複数の)合成されたテスト画像124/224は、いわゆる「中間者」攻撃を検出し、阻止するために使用され得る。中間者攻撃は、コンテンツ処理パイプライン150内のデータ通信の傍受の結果として起こり得る。代替的に、中間者攻撃は、例えばカメラのファームウェアの更新又はクラウドにおけるセキュリティ侵害に起因して、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cのうちの1つ又は複数に対するファームウェアの更新中にインストールされたマルウェアの結果として発生し得る。
【0025】
ディープフェイクを生成するように構成されている悪意のあるNNに、代わりに幻覚を起こさせるであろう合成されたテスト画像124/224のタイプは、悪意のあるNNのアーキテクチャとともに、その訓練に使用されるデータセットに依存することとなる。本コンテンツ処理パイプラインのセキュリティソリューションは、例えば、ImageNet又は「Labeled Faces in the Wild」を用いて訓練された、ResNet、you only look once(YOLO)、及びVisual Geometry Group(VGG)アーキテクチャなどの、一般的に使用される訓練データセットに基づいて訓練された最も良く知られているNNアーキテクチャを騙すように構成されている1つ又は複数の合成されたテスト画像を利用する。その結果、(1つ又は複数の)合成されたテスト画像124/224は、悪意のあるNNの1つ又は複数のニューロンを活性化するように構成されている。
【0026】
例えば、ディープフェイクのNNとして構成されている悪意のあるNNが、(1つ又は複数の)合成されたテスト画像124/224を、例えば、合成されたテスト画像224bなどの、顔を含むと解釈する場合、典型的には、合成されたテスト画像を予期せぬ方法で変換することとなる。パイプラインの少なくとも一部分による処理後にコンテンツ処理パイプライン150への入力として供給される合成されたテスト画像を、合成されたテスト画像に対応する期待画像と比較することによって、本セキュリティソリューションは、悪意のあるNNを使用する中間者攻撃の検出を可能にする。
【0027】
図3は、一実装形態において、図1におけるシステム100による使用に適した例示的なソフトウェアコード310を示す。図3に示されるように、ソフトウェアコード310は、訓練モジュール314と、NN312と、画像挿入モジュール316と、セキュリティアセスメントモジュール318とを含む。さらに、図3は、訓練データ342と、コンテンツストリーム328と、1つ又は複数の合成されたテスト画像324(以下、「(1つ又は複数の)テスト画像324」)と、図1におけるコンテンツ処理パイプライン150への入力ストリーム348と、コンテンツ処理パイプライン150から受信された出力ストリーム354、356、及び358とを示す。また、図3には、コンテンツ処理パイプライン150の少なくとも一部分による処理後の(1つ又は複数の)合成されたテスト画像324(以下、「(1つ又は複数の)処理後の(post-processed)テスト画像360」)と、(1つ又は複数の)合成されたテスト画像324にそれぞれ対応する1つ又は複数の期待画像362(以下、「(1つ又は複数の)期待画像362」)と、セキュリティアセスメント364とが示される。
【0028】
NN312と、コンテンツストリーム328と、コンテンツ処理パイプライン150への入力ストリーム348と、コンテンツ処理パイプライン150から受信された出力ストリーム354、356、及び358と、セキュリティアセスメント364とを含むソフトウェアコード310はそれぞれ、概して、図1における、NN112と、コンテンツストリーム128と、入力ストリーム148と、出力ストリーム154、156、及び158と、セキュリティアセスメント164とを含むソフトウェアコード110と対応している。すなわち、ソフトウェアコード110と、NN112と、コンテンツストリーム128と、入力ストリーム148と、出力ストリーム154、156、及び158と、セキュリティアセスメント164とは、本開示によってそれぞれのソフトウェアコード310と、NN312と、コンテンツストリーム328と、入力ストリーム348と、出力ストリーム354、356、及び358と、セキュリティアセスメント364とに起因する任意の特性を共有することができ、その逆も同様であり得る。したがって、図1には明示的に示されていないが、ソフトウェアコード110は、訓練モジュール314、画像挿入モジュール316、及びセキュリティアセスメントモジュール318とともに、任意のNN112/312の各々に対応する機能を含んでもよい。
【0029】
さらに、図3における(1つ又は複数の)合成されたテスト画像324は、概して、図1及び図2における(1つ又は複数の)合成されたテスト画像124/224に対応する。言い換えれば、(1つ又は複数の)合成されたテスト画像324は、本開示によって(1つ又は複数の)合成されたテスト画像124/224に起因する任意の特性を共有することができ、その逆も同様であり得る。したがって、(1つ又は複数の)合成されたテスト画像124/224と同様に、(1つ又は複数の)合成されたテスト画像324は、人間の観察者には認識できないが、それにもかかわらず、合成されたテスト画像を認識可能なオブジェクトとして識別することによって、悪意のあるNNに幻覚を起こさせるように構成されていてもよい。
【0030】
ソフトウェアコード110/310を含むシステム100の機能性は、図4を、図1図2、及び図3と組み合わせて参照することによってさらに説明される。図4は、一実装形態において、コンテンツ処理パイプラインをセキュアにするための例示的な方法を提示するフローチャート470を示す。図4に概説された方法に関して、本願における発明的特徴の議論を不明瞭にしないために、特定の詳細及び特徴がフローチャート470から省かれていることに留意されたい。
【0031】
予備的事項として、概念的な明確化のために、コンテンツ処理パイプライン150の2つの例示的な実装形態が、より詳細に本明細書で説明される。しかしながら、本願で開示される特定の実装形態の詳細は、単に例であり、いかなる形でも本発明的概念の範囲を限定するものとして解釈されるものではないことが強調される。
【0032】
例えば、一実装形態では、コンテンツ処理パイプライン150は、6つのノード、すなわち、第1処理ノード152a、4つの中間処理ノード152b、及び最終処理ノード152cを含んでもよい。そのような一実装形態では、第1処理ノード152aは、ビデオカメラを含むモバイルユニットであってもよい。第1処理ノード152aによって生成されたコンテンツは、ビデオトランスコーダの形態の中間処理ノード152bに転送され、中間処理ノード152bは、コンテンツを分割し、パッケージ化するように構成されているセグメンタの形態の別の中間処理ノード152bにトランスコードされたビデオを出力してもよい。セグメンタによって出力されたコンテンツは、ビデオ制作設備の形態の別の中間処理ノード152bに転送されてもよく、そこで、色補正システムの形態の別の中間処理ノード152bによって処理される。最後に、最終処理ノード152cは、コンテンツに追加のテキスト及び/又はグラフィックオーバーレイを追加し、コンテンツをビデオコンテンツの消費者である視聴者に放送してもよい。
【0033】
代替的に、別の実装形態では、第1処理ノード152aは、テレビスタジオ内のグリーンスクリーンステージのビデオをキャプチャするカメラであってもよい。第1処理ノード152aによって生成されたコンテンツは、ビデオトランスコーダの形態の中間処理ノード152bに転送され、中間処理ノード152bは、トランスコードされたビデオを、ビデオコンテンツのプレビジュアライゼーション(previsualization)のためのオンラインアプリケーションの形態の別の中間処理ノード152bに転送してもよい。その後、プレビジュアライズされたビデオコンテンツは、色補正システムの形態の別の中間処理ノード152bに転送され、次いで、ユーザ132が消費者への配信に先立ってビデオコンテンツをプレビューすることを可能にする再生システム又はデバイスの形態の最終処理ノード152cに転送されてもよい。
【0034】
いくつかの実装形態では、コンテンツ処理パイプライン150は、コンテンツ処理パイプライン150の他の処理ノードによるオリジナルのコンテンツの処理に先立ってそのオリジナルのコンテンツを作成するように構成されている処理ノード、例えば、第1処理ノード152aを含んでもよいことに留意されたい。しかしながら、他の実装形態では、コンテンツ処理パイプライン150は、コンテンツ処理パイプライン150の外部で、例えば、モバイルビデオ撮影デバイスを使用する許可された現地レポータなどの、第三者のコンテンツ作成者によって、或いは、例えば、スマートフォン動画又は静止画カメラを使用してキャプチャされた画像を提示するアマチュアユーザから作成されたコンテンツを受信してもよい。
【0035】
ここで、図4を、図1図2、及び図3と組み合わせて参照すると、フローチャート470は、(1つ又は複数の)合成されたテスト画像124/224/324を、コンテンツストリーム128/328に挿入する(アクション471)ことから開始し、ここで、(1つ又は複数の)合成されたテスト画像124/224/324は、悪意のあるNNの1つ又は複数のニューロンを活性化するように構成されている。コンテンツストリーム128/328は、例えば、一連のデジタル写真、又はビデオクリップを含むデジタルコンテンツストリームであってもよい。(1つ又は複数の)合成されたテスト画像124/224/324は、コンテンツストリーム128/328の先頭又は末尾に付加されることによって、或いはコンテンツストリーム128/328の写真画像又はビデオフレームの間に挿入されることによって、コンテンツストリーム128/328に挿入されてもよい。一実装形態では、コンテンツストリーム128/328に含まれるコンテンツのハッシュ値がコンテンツストリーム128/328に埋め込まれ、或いは付加されるとき、(1つ又は複数の)合成されたテスト画像124/224/324は、コンテンツストリーム128/328に挿入されてもよい。(1つ又は複数の)合成されたテスト画像124/224/324は、ハードウェアプロセッサ104によって実行され、画像挿入モジュール316を使用して、ソフトウェアコード110/310によってコンテンツストリーム128/328に挿入されてもよい。
【0036】
いくつかの実装形態では、ソフトウェアコード110/310は、画像データベース126から、(1つ又は複数の)以前に生成された合成されたテスト画像124/224/324を取得してもよいことに留意されたい。しかしながら、他の実装形態では、ソフトウェアコード110/310は、任意のNN112/312を含んでもよい。それらの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、NN112/312を使用して(1つ又は複数の)合成されたテスト画像124/224/324を生成してもよい。例えば、いくつかの実装形態では、NN112/312は、ランダム画像への変更を生成するために使用されるジェネレータ313を含むGANであってもよく、ターゲットの悪意のあるNNアーキテクチャのモデルとして実装されるディスクリミネータ315を含んでもよい。
【0037】
NN112/312が(1つ又は複数の)合成されたテスト画像124/224/324を生成するために使用される実装形態では、NN112/312は、アクション471に先立って訓練されなければならない。NN112/312は、訓練プラットフォーム140、訓練データ342、及びソフトウェアコード110/310の訓練モジュール314を使用して訓練され得る。訓練の目的は、人間の観察者には認識できないが、ターゲットである悪意のあるNNによって認識可能なオブジェクトとして識別される可能性があるテスト画像を合成することである。
【0038】
訓練中、NN112/312のディスクリミネータ315は、ジェネレータ313によって出力された合成されたテスト画像を見て、それが認識可能なオブジェクトをもっともらしく描写しているかどうかを判定し得る。訓練中の学習プロセスの検証は、ユーザシステム130を利用し、(1つ又は複数の)合成されたテスト画像124/224/324を評価し得る、ユーザ132によって実行されてもよい。しかしながら、いくつかの実装形態では、学習の検証は、ディスクリミネータ315を使用して自動化されたプロセスとして実行されてもよい。訓練が完了すると、NN112/312を含むソフトウェアコード110/310は、自動化されたプロセスで利用され、(1つ又は複数の)合成されたテスト画像124/224/324を生成してもよい。
【0039】
いくつかの実装形態では、単一の合成されたテスト画像124/224/324は、アクション471においてコンテンツストリーム128/328に挿入されてもよい。しかしながら、他の実装形態では、複数の合成されたテスト画像124/224/324を、コンテンツストリーム128/328に挿入することが有利であり、或いは望ましい場合がある。例えば、任意の1つの合成されたテスト画像124/224/324が、悪意のあるNNを活性化し、幻覚を起こさせる場合があり、或いはそうでない場合があるので、複数の合成されたテスト画像124/224/324の挿入は、コンテンツ処理パイプライン150における悪意のあるNNの存在が検出される可能性を増加させる。複数の合成されたテスト画像124/224/324がコンテンツストリーム128/328に挿入されるとき、それらの合成されたテスト画像124/224/324は、例えば、コンテンツストリーム128/328の先頭で一緒にグループ化されてもよく、或いはコンテンツストリーム128/328の全体にわたって分散されてもよい。
【0040】
フローチャート470は、続いて、(1つ又は複数の)合成されたテスト画像124/224/324を含むコンテンツストリーム128/328を、入力ストリーム148/348として、コンテンツ処理パイプライン150の第1処理ノード152aに提供する(アクション472)。図1によって示されるように、入力ストリーム148/348は、通信ネットワーク120及びネットワーク通信リンク122を介して、第1処理ノード152aに送信されることによって、コンテンツ処理パイプライン150の第1処理ノード152aに提供されてもよい。アクション472は、ハードウェアプロセッサ104によって実行され、ソフトウェアコード110/310によって実行されてもよい。いくつかの実装形態では、(1つ又は複数の)合成されたテスト画像124/224/324を含む入力ストリーム148/348は、例えば1日に1回、又は数時間ごとなど、定期的にコンテンツ処理パイプライン150に提供されてもよい。
【0041】
フローチャート470は、続いて、コンテンツ処理パイプライン150の少なくとも一部分による(1つ又は複数の)合成されたテスト画像124/224/324を含む入力ストリーム148/348の処理後、コンテンツ処理パイプライン150の第1処理ノード152a又は第2処理ノード152bの一方から出力ストリームを受信し(アクション473)、ここで、出力ストリームは、(1つ又は複数の)処理後のテスト画像360を含む。いくつかの実装形態では、システム100は、第1処理ノード152aのセキュリティアセスメント164/364を単独で生成してもよい。それらの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、アクション473において、通信ネットワーク120及びネットワーク通信リンク122を介して、第1処理ノード152aから出力ストリーム154/354を受信してもよい。
【0042】
他の実装形態では、システム100は、第1処理ノード152a、及び1つ又は複数の中間処理ノード152bのセキュリティアセスメント164/364を生成してもよい。それらの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、アクション473において、通信ネットワーク120及びネットワーク通信リンク122を介して、1つ又は複数の中間処理ノード152bに含まれる第2処理ノードから出力ストリーム156/356を受信してもよい。
【0043】
さらに他の実装形態では、システム100は、コンテンツ処理パイプライン150の全体のセキュリティアセスメント164/364を生成してもよい。より包括的なそれらの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、アクション473において、通信ネットワーク120及びネットワーク通信リンク122を介して、最終処理ノード152cから出力ストリーム158/358を受信してもよい。アクション473は、ハードウェアプロセッサ104によって実行され、ソフトウェアコード110/310によって実行されてもよい。
【0044】
フローチャート470は、続いて、受信された出力ストリーム内の(1つ又は複数の)処理後のテスト画像360を、(1つ又は複数の)合成されたテスト画像124/224/324にそれぞれ対応する(1つ又は複数の)期待画像362と比較する(アクション474)。(1つ又は複数の)期待画像362は、(1つ又は複数の)合成されたテスト画像124/224/324と実質的に同一であってもよく、或いはコンテンツ処理パイプライン150の1つ又は複数の処理ノードによって実行される処理によって課せられる予測可能な変換によって変更された(1つ又は複数の)合成されたテスト画像124/224/324であってもよい。(1つ又は複数の)処理後のテスト画像360と、(1つ又は複数の)期待画像362との比較は、ハードウェアプロセッサ104によって実行され、セキュリティアセスメントモジュール318を使用して、ソフトウェアコード110/310によって実行されてもよい。
【0045】
いくつかの実装形態では、図4に示されるように、フローチャート470は、(1つ又は複数の)処理後のテスト画像360が、(1つ又は複数の)期待画像362と一致するとき、セキュリティに関してアセスメントされたコンテンツ処理パイプライン150の少なくとも一部分がセキュアであると検証する(アクション475a)ことで終了し得る。上述のように、悪意のあるNNがアセスメントされるコンテンツ処理パイプライン150の部分に存在するユースケースでは、悪意のあるNNによる(1つ又は複数の)合成されたテスト画像124/224/324の加工は、(1つ又は複数の)期待画像362に存在しない予期せぬ特徴を有する(1つ又は複数の)処理後のテスト画像360をもたらすこととなる。その結果、(1つ又は複数の)処理後のテスト画像360と、(1つ又は複数の)期待画像362との間の一致は、有利には、アクション471、472、473、474、及び475aにおいてアセスメントされたコンテンツ処理パイプライン150の部分内に悪意のあるNNが存在しないことを立証し、それによってパイプラインのその部分におけるデータのセキュリティが検証される。
【0046】
アクション471において単一の合成されたテスト画像124/224/324がコンテンツストリーム128/328に挿入される実装形態では、単一の処理後のテスト画像360が単一の期待画像362と比較される。しかしながら、複数の合成されたテスト画像124/224/324がコンテンツストリーム128/328に挿入される実装形態では、複数の処理後のテスト画像360の各々が、対応する1つの期待画像362と比較される。それらの後者の実装形態では、アクション471、472、473、及び474(以下、「アクション471から474」)においてアセスメントされるコンテンツパイプラインの部分の検証は、処理後のテスト画像360の各々がそのそれぞれの期待画像362と一致することを要求してもよい。
【0047】
いくつかの実装形態では、全体として、コンテンツ処理パイプライン150のセキュリティをアセスメントすることが有利であり、或いは望ましい場合がある。例えば、出力ストリーム158/358が、アクション473においてコンテンツ処理パイプライン150の最終処理ノード152cから受信される場合、コンテンツ処理パイプライン150の全体は、(1つ又は複数の)処理後のテスト画像360が期待画像362に一致するとき、セキュアであると検証され得る。しかしながら、他の実装形態では、各処理ノードのセキュリティを個別にアセスメントすることによって、コンテンツ処理パイプラインのセキュリティをアセスメントすることが有利であり、或いは望ましい場合がある。それらの後者の実装形態では、例えば、アクション471から474は、第1処理ノード152a、中間処理ノード152b、及び最終処理ノード152cの各々に関して実行されてもよい。
【0048】
逆に、(1つ又は複数の)処理後のテスト画像360が、(1つ又は複数の)期待画像362と一致しない場合、フローチャート470によって概説された方法は、コンテンツ処理パイプライン150の少なくとも1つの処理ノード上の悪意のあるNNの存在の可能性を有利に検出する。それらの状況では、アクション471、472、473、及び474は、アクション473において受信された出力ストリームを提供するコンテンツ処理パイプライン150の部分の各処理ノードに関して、或いはそれらの処理ノードのサブセットに関して反復され得る(アクション475b)。例えば、(1つ又は複数の)合成されたテスト画像124/224/324を含む入力ストリーム148/348が、第1処理ノード152aに提供され、最終処理ノード152cから受信された出力ストリーム158/358に含まれる(1つ又は複数の)処理後のテスト画像360が、(1つ又は複数の)期待画像362と一致しない場合、入力ストリーム148/348は、第1処理ノード152aに新たに提供されてもよいが、この時、中間処理ノード152bから受信された出力ストリーム156/356に含まれる(1つ又は複数の)処理後のテスト画像360は、(1つ又は複数の)期待画像362と比較され得る。出力ストリーム156/356に含まれる(1つ又は複数の)処理後のテスト画像360が、(1つ又は複数の)期待画像362と一致するが、出力ストリーム158/358に含まれる(1つ又は複数の)処理後のテスト画像360が一致しない場合、第1処理ノード152a及び中間処理ノード152bはセキュアであると検証され、悪意のあるNNによって実行された画像の加工は、最終処理ノード152cに孤立されていると有利に識別され得る。
【0049】
いくつかの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、フローチャート470において概説されたアクションを実行し、人間の関与が省略され得る自動化されたプロセスにおいて、セキュリティアセスメント164/364を生成してもよいことに留意されたい。すなわち、それらの実装形態では、システム100は、セキュリティアセスメント164/364を自動的に生成するように構成されている。さらに、いくつかの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310をさらに実行し、システム100のディスプレイ108上にセキュリティアセスメント164/464をレンダリングしてもよい。代替的に、いくつかの実装形態では、ハードウェアプロセッサ104は、ソフトウェアコード110/310を実行し、通信ネットワーク120及びネットワーク通信リンク122を介して、セキュリティアセスメント164/364をユーザシステム130に送信し、ユーザシステム130のディスプレイ138上にレンダリングしてもよい。
【0050】
このように、本願は、従来技術の難点及び欠陥を克服する、コンテンツ処理パイプラインをセキュアにするためのシステム及び方法を開示する。上述のように、悪意のあるNNの1つ又は複数のニューロンを活性化するように構成されている合成されたテスト画像を、コンテンツ処理パイプラインへの入力ストリームとして提供されるコンテンツストリームに挿入することによって、本セキュリティソリューションは、有利には、悪意のあるNNがパイプラインに存在するときに、悪意のあるNNの検出を可能にする。さらに、パイプラインの1つ又は複数のコンテンツ処理ノードから受信された出力ストリームに含まれる合成されたテスト画像を、合成されたテスト画像に対応する期待画像と比較することによって、本ソリューションは、悪意のあるNNによって感染されたパイプラインの1つ又は複数のノードの識別を可能にする。
【0051】
以上の説明から、様々な技術が、本願で説明された概念を実装するために、それらの概念の範囲から逸脱することなく、使用され得ることは明らかである。さらに、概念は、特定の実装形態を具体的に参照して説明されてきたが、当業者は、それらの概念の範囲から逸脱することなく、形態及び詳細において変更が加えられ得ることを認識するであろう。そのように、説明された実装形態は、全ての点で例示的であり、制限的でないとみなされるべきである。また、本願は、本明細書で説明された特定の実装形態に限定されるものではなく、本開示の範囲から逸脱することなく多くの再構成、変更、及び置換が可能であることを理解されるべきである。
図1
図2
図3
図4
【国際調査報告】