(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-02
(45)【発行日】2023-10-11
(54)【発明の名称】自動運転における機能テスト方法に基づくセマンティックな敵対的生成
(51)【国際特許分類】
G06T 7/00 20170101AFI20231003BHJP
G06N 3/04 20230101ALI20231003BHJP
G06N 3/08 20230101ALI20231003BHJP
【FI】
G06T7/00 350C
G06N3/04
G06N3/08
【外国語出願】
(21)【出願番号】P 2021076261
(22)【出願日】2021-04-28
【審査請求日】2021-04-28
(32)【優先日】2020-04-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100135633
【氏名又は名称】二宮 浩康
(74)【代理人】
【識別番号】100162880
【氏名又は名称】上島 類
(72)【発明者】
【氏名】アクセル ヴェント
(72)【発明者】
【氏名】リャン ゴウ
(72)【発明者】
【氏名】リンカン ヅォウ
(72)【発明者】
【氏名】リウ レン
【審査官】山田 辰美
(56)【参考文献】
【文献】国際公開第2018/203555(WO,A1)
【文献】特開2019-087181(JP,A)
【文献】米国特許出願公開第2020/0065560(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06N 3/04
G06N 3/08
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オブジェクトから画像情報を取得するように構成されたカメラと、
前記カメラと通信するプロセッサと、
を備えるシステムであって、
前記プロセッサは、
前記画像情報を含む入力データを受信し、
変分オートエンコーダを介して前記入力データを符号化し、
前記入力データの属性を定義する潜在変数を取得し、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得し、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す前記平均シフトを出力する、
ようにプログラミングされており、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、システム。
【請求項2】
前記平均シフトの出力は、生成器に送信され、前記平均シフトに応じて、前記生成器は、追加の敵対的ノイズを生成するように構成されている、請求項1に記載のシステム。
【請求項3】
前記システムは、さらに、前記比較の勾配評価に関連付けられた平均変位ベクトルを出力するように構成されている、請求項1に記載のシステム。
【請求項4】
前記敵対的ノイズは、第2の入力画像を含む、請求項1に記載のシステム。
【請求項5】
前記変分オートエンコーダは、ニューラルネットワークエンコーダである、請求項1に記載のシステム。
【請求項6】
前記入力データは、前記カメラから取得されるビデオ情報を含む、請求項1に記載のシステム。
【請求項7】
プロセッサを備える装置であって、
前記プロセッサは、
少なくともオブジェクトの画像を含む入力データを受信し、
変分オートエンコーダを介して前記入力データを符号化し、
前記入力データの属性を定義する潜在変数を取得し、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得し、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す前記平均シフトを出力する、
ようにプログラミングされており、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、装置。
【請求項8】
前記テスト結果は、数値を含む、請求項7に記載の装置。
【請求項9】
前記平均シフトの出力は、追加の敵対的ノイズを生成するために送信される、請求項7に記載の装置。
【請求項10】
前記プロセッサは、さらに、第1のシーケンスにおいて第1の潜在変数及び第2の潜在変数の残差を比較し、第2のシーケンスにおいて前記第1の潜在変数と前記第2の潜在変数との間の残差を比較するようにプログラミングされている、請求項7に記載の装置。
【請求項11】
前記変分オートエンコーダは、ニューラルネットワークエンコーダである、請求項7に記載の装置。
【請求項12】
前記敵対的ノイズは、第2の入力画像を含み、前記第2の入力画像は、少なくとも前記オブジェクトの前記画像を含む前記入力データに対する変更を含む、請求項7に記載の装置。
【請求項13】
命令を含むコンピュータプログラムであって、
当該命令は、コンピュータによって実行されるときに、前記コンピュータに、
少なくともオブジェクトの画像を含む入力データを受信させ、
変分オートエンコーダを介して前記入力データを符号化させ、
前記入力データの属性を定義する潜在変数を取得させ、敵対的ノイズを用いて識別された問題を解決するように、少なくとも前記潜在変数及び前記敵対的ノイズを利用して前記入力データの一連の再構築を生成させ、潜在空間における平均シフトの少なくとも前記入力データと前記再構築との比較を利用して前記入力データと前記一連の再構築との間の残差を取得させ、
前記比較に基づき前記敵対的ノイズと比較される前記入力データのテスト結果を示す平均シフトを出力させる、
ためのものであり、
前記敵対的ノイズは、前記入力データの輝度、色又はコントラストを変更する、コンピュータプログラム。
【請求項14】
前記入力データは、前記コンピュータと通信するカメラから受信される画像を含む、請求項13に記載のコンピュータプログラム。
【請求項15】
前記変分オートエンコーダは、ニューラルネットワークを含む、請求項13に記載のコンピュータプログラム。
【請求項16】
前記入力データは、複数の画像のデータセットを含む、請求項13に記載のコンピュータプログラム。
【請求項17】
前記コンピュータプログラムは、追加の各シーケンスの間に単一の潜在変数を更新するための命令をさらに含む、請求項13に記載のコンピュータプログラム。
【請求項18】
前記敵対的ノイズは、第2の入力画像を含み、前記第2の入力画像は、少なくとも
前記オブジェクトの前記画像を含む前記入力データに対する変更を含む、請求項13に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自律動作と、自動運転において収集される入力画像を含む入力画像のテストとに関する。
【背景技術】
【0002】
背景
ロバスト性及び潜在的な脆弱性を理解することは、特に安全性が極めて重要な用途、例えば自動運転における、ディープニューラルネットワーク(DNN)モデルに対する機能テストでの重要なタスクである。近年、DNNに基づくモデルは、コンピュータビジョンの分野における精度、例えば、画像分類、対象物検出、セマンティックセグメンテーションなどに関して重要な性能を示している。これらのモジュールは、通常、自動運転における知覚システムとしてのコアコンポーネントであるものとしてよい。従って、このようなモデルに対する全機能テストが、自動運転におけるモデルの採用にとって極めて重要である。
【発明の概要】
【課題を解決するための手段】
【0003】
概要
第1の実施形態によれば、システムは、オブジェクトから画像情報を取得するように構成されたカメラを含む。システムは、カメラと通信するプロセッサであって、画像情報を含む入力データを受信し、エンコーダを介して入力データを符号化し、入力データの属性を定義する潜在変数を取得し、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得し、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力するようにプログラミングされたプロセッサも含む。
【0004】
第2の実施形態によれば、装置は、少なくともオブジェクトの画像を含む入力データを受信し、エンコーダを介して入力データを符号化し、入力データの属性を定義する潜在変数を取得し、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成し、潜在空間における平均シフトを学習するために少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得し、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力するようにプログラミングされたプロセッサを含む。
【0005】
第3の実施形態によれば、コンピュータプログラム製品は、コンピュータによって実行されるときに、コンピュータに、入力データを受信させ、エンコーダを介して入力データを符号化させ、入力データの属性を定義する潜在変数を取得させ、少なくとも潜在変数及び敵対的ノイズを利用して入力データの一連の再構築を生成させ、潜在空間における平均シフトの少なくとも入力と再構築との比較を利用して入力データと一連の再構築との間の残差を取得させ、当該比較に基づき敵対的ノイズと比較される入力のテスト結果を示す平均シフトを出力させるための命令を格納する。
【図面の簡単な説明】
【0006】
【
図1】システムを実現するためのデータアノテーションシステム100を示す図である。
【
図2】セマンティックな敵対的訓練システム200の実施形態を示す図である。
【
図3】ブラックボックスクエリに限定されたセマンティックな敵対的学習システム300を示す図である。
【
図4】disentangledな(解きほぐされた)表現を用いた、生成器の事前訓練プロセスを含むシステムを示す図である。
【
図5B】学習された敵対的サンプルを用いて元画像をクラスタリングした図である。
【
図5C】学習された敵対的入力と元の入力との間のピクセル値の差をクラスタリングした図である。
【発明を実施するための形態】
【0007】
詳細な説明
ここで、本開示の実施形態を説明する。ただし、開示された実施形態は例示に過ぎず、他の実施形態は種々の選択的な形態を取ることができるということを理解されたい。図面は、一定の縮尺であるとは限らない。いくつかの特徴は、強調して又は最小限に特定のコンポーネントの詳細を示すことができる。従って、本明細書に開示された具体的な構造上及び機能的な詳細は、限定と解釈されるべきではなく、単に実施形態の種々の使用を当業者に教示するための代表的な基準と解釈されるべきである。当業者であれば理解するように、図面のいずれか1つを参照して図示及び説明する種々の特徴を、他の1つ以上の図面に図示した特徴と組み合わせて、明示的に図示又は説明していない実施形態を提供することができる。図示した特徴の組合せにより、典型的な用途の代表となる実施形態を提供する。しかしながら、特定の用途又は実現形態には、本開示の教示と一致する特徴の種々の組合せ及び変形形態が望まれ得る。
【0008】
強力な敵対的攻撃方法は、ロバストなディープニューラルネットワーク(DNN)を構築する方法を理解し、防御技術を徹底的にテストするために必須である。バニラDNNと種々の防御技術によって生成されたDNNとの両方を破ることができるブラックボックスの敵対的攻撃アルゴリズムが、有用となる可能性がある。標的となるDNNへの無害な入力のための「最適な」敵対的サンプルを探索する代わりに、入力を中心とする小さい領域にわたる確率密度分布を見出すことを1つの解決手段とすることができ、これにより、DNNの内部層又は重みにアクセスする必要なしに、この分布から抽出されたサンプルが敵対的サンプルである可能性が高くなる。敵対的訓練により、最良の防御技術のうちの1つが残存し、敵対的サンプルは、プレーンなDNNを横断する場合ほどには防御されたDNNを横断して転移することができなくなる。
【0009】
ロバスト性及び潜在的な脆弱性を理解することは、特に安全性が極めて重要な用途、例えば自動運転における、ディープニューラルネットワーク(DNN)モデルに対する機能テストでの重要なタスクである。近年、DNNに基づくモデルは、コンピュータビジョンの分野における精度、例えば、画像分類、対象物検出、セマンティックセグメンテーションなどに関して重要な性能を示している。これらのモジュールは、通常、自動運転における知覚システムとしてのコアコンポーネントであるものとしてよい。従って、このようなモデルに対する全機能テストが、自動運転におけるモデルの採用にとって極めて重要である。
【0010】
敵対的攻撃に関する近年の進歩には、DNNモデルの機能テストのためのいくつかの大きな可能性がある。機能テストにおける1つの課題は、DNNモデルの潜在的な脆弱性を良好に掩護すること及び明らかにすることにより、テストケースを十分に収集又は生成する方法である。敵対的サンプル学習は、DNNモデルから取得された勾配情報を用いて敵対的空間を探索することにより、エンドツーエンドソリューションを有する機会を提供する。モデル勾配からのいくらかのノイズを加えることにより、分類器を欺いてパンダをテナガザルとして誤分類させ得るモデルにおいては、DNNモデルは、モデルが既に良好な性能を有するテストケースに対して敵対的なテストケースを重点的に取り扱うことができる。
【0011】
DNNモデルに対する機能テストを敵対的攻撃学習に適用することは、重要なタスクである。敵対的攻撃方法を主流に組み込むには、いくつかの課題がある。第一に、多くの敵対的攻撃方法は、セマンティクスを用いた例を生成しない。これらの方法は、人間が知覚し得ないほどの最小限のノイズを加えることにより目標モデルに誤りを加え、生成された敵対的サンプルが人間にとっては元画像と同様に見えるようにすることを意図している。従って、これらのノイズは、人間がDNNモデルの弱点を理解し得るような物理的意味又はセマンティクスを有していない。第二に、攻撃方法の主要な部分は、敵対的サンプルを生成するために、目標モデルのアーキテクチャ及びパラメータの詳細を知る、即ち、ホワイトボックスアプローチを行う必要がある。このホワイトボックスアプローチは、機能テストへの適用が制限されている。というのも、これらの詳細を取得して多数のモデルをテストするには高額のコストを要するからである。いくつかのブラックボックスに基づくアプローチが提案されているが、このアプローチも非セマンティックな敵対的サンプルのみにしか適用されていない。そのうえ、モデルの敵対的景観を明らかにするメカニズム又は方法は存在しない。例えば、現行の方法においては、学習された敵対的サンプルの共通パターンが何であるのかは知られていない。これらのパターンが説明可能であり、方法を改善するために有用となるかどうかについては、明らかではないことがある。以下に示す、対象物検出モデルに対するブラックボックスクエリに限定された、機能テスト方法に基づくセマンティックな敵対的生成によって、このような課題に取り組むことができる。
【0012】
図1は、システムを実現するためのデータアノテーションシステム100を描写している。データアノテーションシステム100は、少なくとも1つのコンピューティングシステム102を含み得る。コンピューティングシステム102は、少なくとも1つのプロセッサ104を含み得る。プロセッサ104は、メモリユニット108に動作可能に接続されている。プロセッサ104は、1つ以上の集積回路を含み得る。集積回路は、中央処理装置(CPU)106の機能を実装する。CPU106は、命令セット、例えば、x86、ARM、Power又はMIPSの命令セットファミリのうちの1つを実装する市販入手可能な処理装置であるものとしてよい。動作中に、CPU106は、メモリユニット108から取り出されて、格納されたプログラム命令を実行することができる。格納されたプログラム命令は、CPU106の動作を制御して本明細書に記載した動作を実施するためのソフトウェアを含み得る。いくつかの実施例においては、プロセッサ104は、CPU106、メモリユニット108、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積デバイスに組み込んだシステム・オン・チップ(SoC)であるものとしてよい。コンピューティングシステム102は、動作の種々の様態を管理するためのオペレーティングシステムを実装しているものとしてよい。
【0013】
メモリユニット108は、命令及びデータを格納するための揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、コンピューティングシステム102の動作が不活性である場合、又は、コンピューティングシステム102が電力を喪失している場合に、データを保持するソリッドステートメモリ、例えば、NAND型フラッシュメモリ、光磁気記憶媒体又は任意の他の適当なデータ記憶装置を含み得る。揮発性メモリは、プログラム命令及びデータを格納するスタティック及びダイナミックランダムアクセスメモリ(RAM)を含み得る。例えば、メモリユニット108は、機械学習モデル110又は機械学習アルゴリズム、機械学習モデル110のための訓練データセット112、生ソースデータセット115を格納することができる。
【0014】
コンピューティングシステム102は、ネットワークインタフェースデバイス122を含み得る。ネットワークインタフェースデバイス122は、外部システム及び外部デバイスとの通信を提供するように構成されている。例えば、ネットワークインタフェースデバイス122は、米国電気電子学会(IEEE)802.11規格ファミリにより定義されているような、有線及び/又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス122は、セルラネットワーク(例えば、3G、4G、5G)を用いて通信するためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス122は、さらに、外部ネットワーク124又はクラウドへの通信インタフェースを提供するように構成されているものとしてよい。
【0015】
外部ネットワーク124は、ワールド・ワイド・ウェブ又はインタネットと称され得る。外部ネットワーク124は、コンピューティングデバイス間の標準通信プロトコルを確立することができる。外部ネットワーク124は、情報及びデータを、コンピューティングデバイスとネットワークとの間において容易に交換させることができる。1つ以上のサーバ130は、外部ネットワーク124と通信することができる。
【0016】
コンピューティングシステム102は、入出力(I/O)インタフェース120を含み得る。I/Oインタフェース120は、デジタル入出力及び/又はアナログ入出力を供給するように構成されているものとしてよい。I/Oインタフェース120は、外部デバイス(例えば、ユニバーサルシリアルバス(USB)インタフェース)を用いて通信するための追加のシリアルインタフェースを含み得る。
【0017】
コンピューティングシステム102は、マンマシンインタフェース(HMI)デバイス118を含み得る。HMIデバイス118は、システム100が制御入力を受信し得るようにする任意のデバイスを含み得る。入力デバイスの例としては、ヒューマンインタフェース入力デバイス、例えば、キーボード、マウス、タッチパネル、音声入力デバイス及び他の類似のデバイスが挙げられる。コンピューティングシステム102は、表示デバイス132を含み得る。コンピューティングシステム102は、グラフィックス及びテキスト情報を表示デバイス132に出力するためのハードウェア及びソフトウェアを含み得る。表示デバイス132は、ユーザ又はオペレータに情報を表示するための電子ディスプレイスクリーン、プロジェクタ、プリンタ又は他の適当なデバイスを含み得る。コンピューティングシステム102は、さらに、リモートHMIデバイス及びリモート表示デバイスを用いてネットワークインタフェースデバイス122を介したインタラクションを可能にするように構成されているものとしてよい。
【0018】
システム100は、1つ又は複数のコンピューティングシステムを使用するように実装されているものとしてよい。実施例は、説明している特徴の総てを実装する単一のコンピューティングシステム102を描写しているが、互いに通信し合うマルチコンピューティングユニットによって、種々の特徴及び機能を個別化して実装し得ることを意図している。選択された特定のシステム構造は、種々の要因に依存し得る。
【0019】
システム100は、機械学習アルゴリズム110を実装しているものとしてよく、機械学習アルゴリズム110は、生ソースデータセット115を分析するように構成されている。生ソースデータセット115は、生の又は処理されていないセンサデータを含み得る。このセンサデータは、機械学習システム用の入力データセットを意味し得る。生ソースデータセット115は、ビデオ、ビデオセグメント、画像、テキストに基づく情報、及び、生の又は部分的に処理されたセンサデータ(例えば、オブジェクトのレーダマップ)を含み得る。いくつかの実施例においては、機械学習アルゴリズム110は、予め定められた機能を実施するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、ビデオ画像内の歩行者を識別するように構成されているものとしてよい。
【0020】
システム100は、機械学習アルゴリズム110用の訓練データセット112を格納することができる。訓練データセット112は、機械学習アルゴリズム110を訓練するための、事前に構築されたデータのセットを表し得る。訓練データセット112は、機械学習アルゴリズム110がニューラルネットワークアルゴリズムに関連付けられた重み付け係数を学習するために使用することができる。訓練データセット112は、対応する成果又は結果を有するソースデータのセットを含むことがあり、当該成果又は結果を、機械学習アルゴリズム110が学習プロセスを介して複製しようと試みる。本実施例においては、訓練データセット112は、歩行者を含むソース動画像及び歩行者を含まないソース動画像並びに対応するプレゼンス情報及び位置情報を含み得る。ソース動画像は、歩行者を識別する種々のシナリオを含み得る。
【0021】
機械学習アルゴリズム110を学習モードにおいて動作させ、訓練データセット112を入力として使用することができる。機械学習アルゴリズム110は、訓練データセット112からのデータを使用して、多数の反復にわたって実行可能である。それぞれの反復により、機械学習アルゴリズム110は、得られた結果に基づき内部の重み付け係数を更新することができる。例えば、機械学習アルゴリズム110は、出力された結果(例えば、アノテーション、潜在変数、敵対的ノイズなど)を訓練データセット112内に含まれる結果と比較することができる。訓練データセット112は予測された結果を含むので、機械学習アルゴリズム110は、性能が許容可能となる時点を特定することができる。機械学習アルゴリズム110が予め定められた性能レベル(例えば、訓練データセット112に関連付けられた成果との100%の一致)を達成した後、訓練データセット112内に存在しないデータを使用して、機械学習アルゴリズム110を実行することができる。訓練された機械学習アルゴリズム110は、新たなデータセットを適用して注釈付きデータを生成することができる。
【0022】
機械学習アルゴリズム110は、生ソースデータ115に含まれる特定の特徴を識別するように構成されているものとしてよい。生ソースデータ115は、アノテーション結果が望まれる複数のインスタンス又は入力データセットを含み得る。例えば、機械学習アルゴリズム110は、ビデオ画像内の歩行者の存在を識別して発生セグメントに注釈を付けるように構成されているものとしてよい。機械学習アルゴリズム110は、生ソースデータ115を処理して特定の特徴の存在を識別するようにプログラミングすることができる。機械学習アルゴリズム110は、生ソースデータ115に含まれる特徴を予め定められた特徴(例えば、歩行者)として識別するように構成されているものとしてよい。生ソースデータ115は、種々のソースから導出することができる。例えば、生ソースデータ115は、機械学習システムによって収集された実際の入力データであるものとしてよい。生ソースデータ115は、システムをテストするために生成された機械であるものとしてよい。一例として、生ソースデータ115は、カメラから取得された生ビデオ画像を含み得る。
【0023】
当該実施例においては、機械学習アルゴリズム110は、生ソースデータ115を処理して画像表現の指示を出力することができる。出力は、拡張された画像表現も含み得る。機械学習アルゴリズム110は、それぞれの生成された出力に対する信頼水準又は確信度を生成することができる。例えば、予め定められた高信頼度閾値を超過する信頼値は、機械学習アルゴリズム110によって、識別された特徴が特定の特徴に対応することが確実であることを示すことができる。低信頼度閾値に満たない信頼値は、機械学習アルゴリズム110が、特定の特徴が存在することについてのいくらかの不確実性を有することを示すことができる。
【0024】
図2は、セマンティックな敵対的訓練システム200の実施形態を開示している。一実施例においては、交通信号機の検出問題を利用することができる。高水準で、システムは先ず、アプローチに基づくdisentangledな表現の学習、例えば、変分オートエンコーダ(VAE)を用いてセマンティックな敵対的生成器を学習し、その後、目標モデルをテストするためにセマンティクスを用いて敵対的サンプルを生成することができる。敵対的サンプル及びテスト結果は、要約されて報告され得る。データソース入力は、オブジェクト画像201(例えば、交通信号機を伴う運転シーン)を含むことがあり、また、データソース入力は、例えば、セマンティックな敵対的学習コンポーネント203のようなコンポーネント、セマンティックな敵対的生成及びテスト205、並びに、セマンティックな敵対的報告207を含む。このように、セマンティックな敵対的訓練システム200は、自動運転シナリオにおいて利用することができる。
【0025】
セマンティックな敵対的学習コンポーネント203は、disentangledな表現の学習アプローチ、例えば、(以下において
図3に示すような)VAE、βVAEなどを用いてセマンティックな敵対的生成器を学習することができる。このコンポーネントは、先ず、disentangledな表現を用いて生成器を訓練し、その後、事前訓練された生成器の潜在空間におけるそれぞれの訓練データ用の敵対的平均シフトの分布を学習することができる。平均シフトを生成器に注入することにより、システムは、敵対的サンプルを生成することができる。これらの敵対的サンプルは、その後、後続の訓練に利用することができる。従って、典型的に識別されるオブジェクトを、敵対的ノイズを加えることによりシミュレートして、システムがどのように識別を予測し得るかを確認することができる。敵対的ノイズは、画像、オブジェクト又はビデオ、例えば、コントラスト、背景色、輝度などの種々の属性において変化し得る。
【0026】
システムは、disentangledな表現を用いて生成器を事前訓練することができる。システムは、解釈可能な潜在表象を用いて画像生成器を学習することを試みることができる。システムは、その後、このような例が有するセマンティックな変化について解釈することができる。disentangledな表現モデル、例えばVAEを、一実施形態において採用することができる。以下において
図4に示すように、VAEモデルは、disentangledな潜在空間を学習し、その後、潜在空間から新たな画像を生成することができる。これらの潜在次元の望ましい特性は、これらが有し得るセマンティクスである。例えば、1つの次元は、交通信号機の色変化を捕捉することができ、他の次元は、オブジェクトの種々の回転又は他の特性を表すことができる。
【0027】
敵対的生成器の学習コンポーネントは、事前訓練された生成器の潜在空間における平均シフトの分布を学習することができ、平均シフトは、目標モデルに誤りを加える画像を生成することができる。従って、システムは、システムに誤りを加えることによりシステムを良好に訓練することを意図的に試みることができる。従って、システムは、目標モデルへのクエリに限定されたブラックボックス法を利用することができる。典型的なシステムの代わりに、画像空間における小さいノイズを探索することができ、システムは、潜在空間における平均シフトを学習することを試みることができる。
【0028】
図3は、ブラックボックスクエリに限定されたセマンティックな敵対的学習システム300を開示している。特定の入力画像301にとって、その目的は、この画像に対する平均変位ベクトルを学習して、モデルに誤りを加える敵対的画像を生成することであり得る。従って、誤りが発生すると、システムは、現行の検出方法の弱点を学習することができる。
図3に示すように、特定の入力画像301にとって、その目的は、この画像に対する平均変位ベクトルを学習して、モデルに誤りを加える敵対的画像を生成することとすることができる。プロセスは、先ず、VAEを用いて画像を平均ベクトルに符号化することができ、次いで、最小平均を用いてランダムな変位ベクトルを開始する。その後、システムは、データサンプルのセットを現在の平均変位ベクトルの周囲に摂動させ、これらのセットを使用して新たなテスト画像を生成することができる。次に、目標モデルにこれらのテスト画像を供給し、システムは、テストスコアを取得することができる。これらのテストスコア309は、勾配311を評価するために使用することができ、この勾配311は、典型的なSGD(確率的勾配降下法)アプローチとして、変位ベクトルの平均を更新するために使用される。敵対的サンプルが見出されたとき、又は、クエリバジェットの限界が満たされたときに、このプロセスは停止する。
【0029】
入力301を、disentangledな表現の敵対的生成器303に供給することができる。入力301は、画像又はビデオなどであるものとしてよい。生成器303は、次いで、生成されたオブジェクト305を出力することができる。生成器303は、入力301の種々の属性を変化させることができる。生成されたオブジェクト305を、ブラックボックス検出器307に供給することができる。テスト結果309を出力することができ、このテスト結果309は後で勾配評価311に使用される。生成器303における属性の変動に沿ったテストスコア309の変化を使用して、平均変位ベクトルを更新するために利用される勾配を評価する。勾配評価は、テスト結果309におけるテストスコアの変動と生成器303における属性の変動との比によって近似させることができる。勾配投影313を平均シフト315に供給することができ、この平均シフト315自体は、生成器303に供給される。
【0030】
システムは、事前訓練されたVAEの生成器と敵対的平均シフトとを用いて入力画像に対する敵対的サンプルを生成することができる。システムは、入力画像の符号化された平均潜在ベクトルに平均変位ベクトルを加え、次いで、この加算の結果をデコーダに通過させて、敵対的サンプルを生成することができる。システムは、学習されたセマンティックな敵対的サンプルを用いて目標モデルのロバスト性をセマンティクスによって集約させて定量化することができる。システムを利用して、敵対的サンプルの総ての平均変位ベクトル315をクラスタリングし、敵対的パターンを視覚的に集約させることができる。クラスタリング結果は、セマンティックな含意を有する。というのも、平均ベクトルがdisentangledな表現の学習を用いたセマンティクスを含むからである。
【0031】
平均シフト315を利用して、特定の敵対的ノイズを用いて検出された問題における弱点を識別することができる。例えば、システムは、敵対的ノイズが輝度を調整する場合に、システムが入力画像に対する輝度における変化を伴うという問題を識別することが可能であり得る。システムは、次いで、このような結果をシステムに供給することができる、即ち、図示したように、平均シフト315の出力間の結果が生成器303に供給される。従って、システムは、これらの特定の敵対的ノイズを重点的に取り扱い、改良することができる。
【0032】
図4に示したように、システム400は、disentangledな表現を用いた、生成器の事前訓練プロセスを含み得る。disentangledな表現は、例えばVAEを利用することができる。入力401(例えば、交通信号機の画像)を、VAE403に供給することができる。入力401は、あらゆる種類のデータ入力、例えば、画像又はビデオを含み得る。VAE403は、1番目のパスでエンコーダを含み得る。2番目のパス、3番目のパス、N番目のパスまでを含むマルチパスが存在するものとしてもよい。潜在変数を順次に更新して、入力データと、各フォワードパスを通じて事前に更新された潜在変数からの再構築との間の残差を学習することができる。ネットワークは、disentangledなセマンティックベクトル
【数1】
として再構築を出力することができる。VAEは、gΦとすることができるエンコーダネットワークと、fθと定義されるデコーダとを含み得る。
【0033】
VAE403のデコーダは、各中間ステップ
【数2】
を出力することができ、これらに対応する残差(Δ
1,...,Δ
10)を出力することができる。この結果により、デコーダの出力及び残差が協働して、各ステップにおいて学習されたdisentangledな係数を捕捉及び出力し得ることを示すことができる。例えば、各ステップにおける係数は、X位置、Y位置、大きさ、回転+形状、及び、形状、色、記号、向き、背景などであるものとしてよい。一実施例においては、再構築された画像のX位置が、第1のステップ中に生成される。第2のステップにおいて、X位置及びY位置の両方を生成することができる。このプロセスを継続して、各ステップでデコーダの出力及び残差が、学習された潜在的な符号化に従って画像を変形させることができる。
【0034】
「残差学習」メカニズムは、同一(又は類似の)エンコーダgΦ及びデコーダfθを備えたフォワードパスdから構成されるものとしてよい。潜在変数は、入力データと蓄積された再構築との間の残差の符号化から順次にサンプリングすることができる。各ステップにおいて、加えられた潜在変数は、現在の残差から学習された分布に追従することができる一方、事前の潜在変数は、対応する残差から学習された同様の分布に追従することができる。
【0035】
VAE403は、disentangledな表現405を出力することができる。disentangledな表現405は、元の入力401を変更したdisentangledなセマンティックベクトル407を有し得る。例えば、disentangledなセマンティックベクトル407は、画像の属性(例えば、潜在変数)を変更し得るので、画像によって表されたオブジェクトが変更されたように見える。disentangledなセマンティックベクトル407は、色に対する変化を含み得る。例えば、VAEは、1つの領域において青信号を示すのではなく、画像を変更して赤信号を出力し得る。disentangledなセマンティックベクトル407は、オブジェクトを表すために利用される記号に対する変化を含み得る。例えば、VAEは、信号灯の代わりとして丸を示すのではなく、画像を変更して信号灯としての記号、例えば矢印を出力し得る。他の実施例においては、disentangledなセマンティックベクトル407は、交通信号機の向きにおける変化を含み得る。さらに他の実施例においては、disentangledなセマンティックベクトル407は、背景色における変化を含み得る。
【0036】
図5Aは、元画像をクラスタリングした図である。
図5Bは、学習された敵対的サンプルを用いて元画像をクラスタリングした図である。従って、敵対的サンプルは、画像に関連付けられた異なる属性を有することができる。このような属性は、色、記号、向き、背景などを含み得る。
図5Cは、学習された敵対的入力と元の入力との間のピクセル値の差をクラスタリングした図である。クラスタの底部のピクセルと、図の右下のピクセルとは、変化量を示すことができ、より大きい差分値を有し得る。
【0037】
図5Aは、2つのコンポーネントを用いたt-SNEによるクラスタリング結果を示しており、2D平面における複数の画像を視覚化している。左側のクラスタリング結果は、元画像を示しており、右側のクラスタリング結果は、対応する敵対的生成を示している。
図5Aの画像は、容易に検出及び分類し得る元画像であるものとしてよい。システムは、元画像の上部に敵対的サンプルを加えることができる。
図5Bにおいては、システムは、元画像の上部に敵対的サンプルを視覚化することができる。
図5Cは、敵対的画像と元画像との間のピクセル値の差を視覚化している。
【0038】
図は、敵対的画像に対するパターンにおける変化を示すことができる(輝度は、変化量を示す、即ち、より明るいピクセルは、より大きい差分値を有する)。即ち、左側のクラスタは、元画像に由来する信号灯の、多くの緑色のピクセルの除去を示すことができ、右上のクラスタは、黄色のピクセルを減少させ、底部の2つのクラスタは、交通信号機の輪郭の除去を示すことができる。
【0039】
システムは、ロバスト性のモデルを、敵対的サンプルが要求する変化量にわたる敵対的サンプルのスコアの低下の比として(例えば、テスト結果として)利用することにより、以下に示すようにロバスト性を定量化することが可能であり得る。
【0040】
M_rbt=|Zm_org-Zm_gen|/|S_org-S_adv|
【0041】
|S_org-S_adv|は、スコアの差であり、|Zm_org-Zm_gen|は、平均ベクトルL1の距離である。この測定は、モデル性能を減少させるためにどの程度の操作労力が必要とされるかを示すことができる。システムは、各クラスタに対するロバスト性を測定することもでき、ひいては、モデルが異なるパターンによって攻撃されるとき、モデルがどの程度ロバストであるかを理解することができる。攻撃パターンを理解し、セマンティックな潜在空間における変化、即ち、Zm_org-Zm_genによって説明することができる。例えば、大きい変化を伴う潜在次元は、特定の色を減少させる又はオブジェクトの輪郭を変化させるものと解釈することができる。
【0042】
本明細書に開示するプロセス、方法又はアルゴリズムは、任意の既存のプログラマブル電子制御ユニット又は専用の電子制御ユニットを含み得る処理装置、コントローラ又はコンピュータに伝送可能であるものとしてよく又はこれらによって実現されるものとしてよい。同様に、プロセス、方法又はアルゴリズムを、コントローラ又はコンピュータによって実行可能なデータ及び命令として、書込み不可能な記憶媒体、例えば、ROMデバイスに恒久的に格納される情報と、書込み可能な記憶媒体、例えば、フレキシブルディスク、磁気テープ、CD、RAMデバイス及び他の光磁気媒体に変更可能に格納される情報とを含むがこれらに限定されるものではない多くの形態において格納することができる。プロセス、方法又はアルゴリズムは、ソフトウェアを実行し得るオブジェクトとして実装することもできる。選択的に、プロセス、方法又はアルゴリズムを、全体的に又は部分的に、適当なハードウェアコンポーネント、例えば、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、状態機械、コントローラ、又は、他のハードウェアコンポーネント若しくはハードウェアデバイス、又は、ハードウェアコンポーネントとソフトウェアコンポーネントとファームウェアコンポーネントとの組合せを用いて、具現化することができる。
【0043】
例示的な実施形態を上記において説明したが、これらの実施形態は、特許請求の範囲によって包含される、考えられる総ての形態を説明することを意図していない。明細書において使用する語句は、限定のためではなく説明のための語句であり、本開示の趣旨及び範囲から逸脱せずに種々の変更を行い得ることを理解されたい。上記で説明したように、種々の実施形態の特徴を組み合わせて、明示的に説明又は図示され得ない本発明のさらなる実施形態を形成するものとしてもよい。1つ以上の所望の特性に関して、他の実施形態又は従来技術の実現形態に比較して利点を提供するものとして又は好ましいものとして、種々の実施形態を説明したが、所望の全体的なシステム属性を達成するために1つ以上の特徴又は特性を妥結することもあり、このことは特定の用途及び実現形態に依存することを、当業者は認識する。これらの属性は、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、パッケージング、大きさ、保守容易性、重量、製造可能性、組立容易性などを含み得るが、これらに限定されるものではない。このように、1つ以上の特性に関して、ある実施形態が他の実施形態又は従来技術の実現形態よりも望ましいものではないと記載されている箇所においては、これらの実施形態は、本開示の範囲を逸脱するものではなく、特定の用途について望ましいものであり得る。