(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023044674
(43)【公開日】2023-03-30
(54)【発明の名称】自律運転における可動オブジェクトについての深層学習モデルを診断及び改善するための視覚的分析システム
(51)【国際特許分類】
G06T 7/00 20170101AFI20230323BHJP
【FI】
G06T7/00 650B
【審査請求】未請求
【請求項の数】20
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022148246
(22)【出願日】2022-09-16
(31)【優先権主張番号】17/477,680
(32)【優先日】2021-09-17
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390023711
【氏名又は名称】ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング
【氏名又は名称原語表記】ROBERT BOSCH GMBH
【住所又は居所原語表記】Stuttgart, Germany
(74)【代理人】
【識別番号】100114890
【弁理士】
【氏名又は名称】アインゼル・フェリックス=ラインハルト
(74)【代理人】
【識別番号】100098501
【弁理士】
【氏名又は名称】森田 拓
(74)【代理人】
【識別番号】100116403
【弁理士】
【氏名又は名称】前川 純一
(74)【代理人】
【識別番号】100134315
【弁理士】
【氏名又は名称】永島 秀郎
(74)【代理人】
【識別番号】100162880
【弁理士】
【氏名又は名称】上島 類
(72)【発明者】
【氏名】リャン ゴウ
(72)【発明者】
【氏名】リンカン ヅォウ
(72)【発明者】
【氏名】リウ レン
(72)【発明者】
【氏名】ウェンビン フー
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096BA04
5L096CA04
5L096CA25
5L096DA01
5L096FA69
5L096HA11
5L096JA11
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
【課題】自律運転用のオブジェクト検出機械学習モデルを診断するシステム及び方法の実施形態を本明細書に開示する。
【解決手段】車両内又は車両上に取り付けられたカメラから、シーンを示す入力画像が受け取られる。シーン内の可動オブジェクトの空間分布が、コンテキストアウェア空間表現機械学習モデルを使用して導出される。空間敵対的機械学習モデルを利用して、元の入力画像内に存在しない未観測のオブジェクトがシーン内に生成される。オブジェクト検出機械学習モデルを失敗させるために、当該空間敵対的機械学習モデルを介して、未観測のオブジェクトが種々異なる位置へ移動される。インタラクティブユーザインタフェースによって、ユーザは、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能を分析することができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
自律運転用のオブジェクト検出機械学習モデルを診断するためのコンピュータ実装された方法であって、前記コンピュータ実装された方法は、
カメラからシーンを示す入力画像を受け取るステップと、
コンテキストアウェア空間表現機械学習モデルを利用して、シーン内の可動オブジェクトの空間分布を導出するステップと、
空間敵対的機械学習モデルを利用して、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成するステップと、
前記オブジェクト検出機械学習モデルを失敗させるために、前記空間敵対的機械学習モデルを介して、前記未観測のオブジェクトを種々異なる位置へ移動させるステップと、
前記未観測のオブジェクトを含まないシーン及び前記未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、インタラクティブユーザインタフェースを出力するステップと、
を含む、コンピュータ実装された方法。
【請求項2】
前記導出するステップは、
前記可動オブジェクトの座標を潜在空間内へ符号化するステップと、
前記座標をデコーダにより再構成するステップと、
を含む、請求項1に記載のコンピュータ実装された方法。
【請求項3】
前記方法は、前記シーンのセマンティックマスクを生成するステップをさらに含み、前記セマンティックマスクは、前記可動オブジェクトの空間分布が前記セマンティックマスクに基づくように、前記導出するステップのための入力として使用される、請求項2に記載のコンピュータ実装された方法。
【請求項4】
前記可動オブジェクトの座標は、前記可動オブジェクトに関連付けられたバウンディングボックスの座標である、請求項3に記載のコンピュータ実装された方法。
【請求項5】
前記バウンディングボックスの座標は、前記セマンティックマスク内のピクセルのセマンティッククラスラベルに基づいて調整された潜在ベクトルへと符号化される、請求項4に記載のコンピュータ実装された方法。
【請求項6】
前記生成するステップは、
(i)前記シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングするステップと、
(ii)類似のバウンディングボックス座標を有するオブジェクトをメモリから取り出すステップと、
(iii)前記オブジェクトを前記バウンディングボックス内に配置するステップと、
を含む、請求項1に記載のコンピュータ実装された方法。
【請求項7】
前記方法は、ポアソン混合を利用して前記オブジェクトを前記シーンに混合するステップをさらに含む、請求項6に記載のコンピュータ実装された方法。
【請求項8】
前記移動させるステップは、前記未観測のオブジェクトの空間潜在表現を摂動させることを含む、請求項1に記載のコンピュータ実装された方法。
【請求項9】
前記移動させるステップは、最大のレートで低下する前記オブジェクト検出機械学習モデルの性能に対応する潜在空間内の勾配方向を見出すステップを含む、請求項8に記載のコンピュータ実装された方法。
【請求項10】
前記インタラクティブユーザインタフェースは、前記オブジェクトのグラウンドトゥルースクラス及び前記オブジェクトの対応する予測クラスに関する前記オブジェクト検出機械学習モデルの性能を示すテーブルを含む、請求項1に記載のコンピュータ実装された方法。
【請求項11】
ヒューマンインザループによる自律運転用のオブジェクト検出機械学習モデルを診断するシステムであって、
ユーザインタフェースと、
カメラから受け取られた車両外部のシーンを示す入力画像を記憶するメモリであって、前記シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令をさらに記憶し、かつ、未観測のオブジェクトを生成して前記シーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令をさらに記憶したメモリと、
前記メモリに通信可能に結合されたプロセッサであって、
前記シーンのセマンティックマスクをセマンティックセグメンテーションによって生成し、
前記コンテキストアウェア空間表現機械学習モデルを利用して、前記セマンティックマスクに基づいて前記シーン内の可動オブジェクトの空間分布を特定し、
前記空間敵対的機械学習モデルを利用して、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成し、
前記オブジェクト検出機械学習モデルを失敗させるために、前記空間敵対的機械学習モデルを利用して、前記未観測のオブジェクトを種々異なる位置へ移動させ、
前記未観測のオブジェクトを含まないシーン及び前記未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、前記ユーザインタフェース上に視覚的分析を出力する
ようにプログラミングされたプロセッサと、
を備えるシステム。
【請求項12】
前記プロセッサは、前記可動オブジェクトの座標を潜在空間内へ符号化し、前記座標をデコーダにより再構成して前記可動オブジェクトの空間分布を特定するようにさらにプログラミングされている、請求項11に記載のシステム。
【請求項13】
前記可動オブジェクトの座標は、前記可動オブジェクトに関連付けられたバウンディングボックスの座標である、請求項12に記載のシステム。
【請求項14】
前記バウンディングボックスの座標は、前記セマンティックマスク内のピクセルのセマンティッククラスラベルに基づいて調整された潜在ベクトルへと符号化される、請求項13に記載のシステム。
【請求項15】
前記プロセッサは、
前記シーンの一部の潜在空間座標をサンプリングして、バウンディングボックスをマッピングし、
前記メモリから、類似のバウンディングボックス座標を有するオブジェクトを取り出し、
前記オブジェクトを前記バウンディングボックス内に配置する
ようにさらにプログラミングされている、請求項11に記載のシステム。
【請求項16】
前記プロセッサは、ポアソン混合を利用して前記オブジェクトを前記シーンに混合するようにさらにプログラミングされている、請求項15に記載のシステム。
【請求項17】
前記プロセッサは、前記未観測のオブジェクトの空間潜在表現を摂動させるようにさらにプログラミングされている、請求項11に記載のシステム。
【請求項18】
前記プロセッサは、前記オブジェクト検出機械学習モデルの低下する性能に対応する潜在空間内の勾配方向を特定するようにさらにプログラミングされている、請求項17に記載のシステム。
【請求項19】
前記プロセッサは、前記ユーザインタフェース上に、前記オブジェクトのグラウンドトゥルースクラス及び前記オブジェクトの対応する予測クラスに関するオブジェクト検出機械学習モデルの性能を表すテーブルを表示するようにさらにプログラミングされている、請求項11に記載のシステム。
【請求項20】
(i)カメラから受け取られた車両外部のシーンを示す入力画像、(ii)前記入力画像に関連付けられたセマンティックマスク、(iii)前記シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令、及び、(iv)未観測のオブジェクトを生成して前記シーン内に挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令を記憶したメモリと、
前記メモリと通信する1つ又は複数のプロセッサであって、
前記コンテキストアウェア空間表現機械学習モデルを介して、前記シーン内の可動オブジェクトの座標を潜在空間内へ符号化し、前記座標をデコーダにより再構成して前記可動オブジェクトの空間分布を特定し、
前記空間敵対的機械学習モデルを介して、(i)前記シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、(ii)前記メモリから類似のバウンディングボックス座標を有するオブジェクトを取り出し、(iii)前記オブジェクトを前記バウンディングボックス内に配置することにより、前記入力画像内に存在しない未観測のオブジェクトを前記シーン内に生成し、
前記空間敵対的機械学習モデルを介して、オブジェクト検出機械学習モデルを失敗させるために、試行の際に、前記空間敵対的機械学習モデルを利用して前記未観測のオブジェクトを種々異なる位置へ移動させ、
未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関する前記オブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力する
ようにプログラミングされたプロセッサと、
を備えるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、自律運転における可動オブジェクトについての深層学習モデルを診断及び改善するための視覚的分析システムに関する。
【背景技術】
【0002】
背景
自律運転によって、車両は、自身の環境を検出することができ、人間による入力をほとんど又は全く用いずに安全に移動することができる。多くのシステムが自律運転を可能にしている。このようなシステムの1つが、セマンティックセグメンテーションである。セマンティックセグメンテーションには、車両内又は車両上に取り付けられたカメラからの画像を取得して、入力画像をピクセルレベルで意味論的に有意な複数の領域へ区分することと、各領域に歩行者、乗用車、道路などのセマンティックラベルを割り当てることとが含まれる。
【発明の概要】
【発明が解決しようとする課題】
【0003】
深層畳み込みニューラルネットワーク(CNN)は、オブジェクト検出及びセマンティックセグメンテーションを含む自律運転用の認識システムにおいてますます重要な役割を果たすようになってきている。CNNの性能は優れているものの、安全上の懸念から、自律型車両への配備の前にモデルの精度及びロバストネスについての徹底的な評価が必要である。一方では、モデルの精度は、モデルが失敗する傾向を示し得る時点及び原因を完全に理解するために、オブジェクトに関して、多数のセマンティッククラス及びデータソースを用いて分析されるべきである。他方では、未観測の運転シーンに対するモデルのロバストネスを改善するためには、モデルの潜在的な脆弱性を識別及び理解することがきわめて重要である。
【課題を解決するための手段】
【0004】
概要
一実施形態によれば、自律運転用のオブジェクト検出機械学習モデルを診断するためのコンピュータ実装された方法が提供される。コンピュータ実装された方法は、カメラからシーンを示す入力画像を受け取るステップと、コンテキストアウェア空間表現機械学習モデルを利用して、シーン内の可動オブジェクトの空間分布を導出するステップと、空間敵対的機械学習モデルを利用して、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するステップと、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを介して、未観測のオブジェクトを種々異なる位置へ移動させるステップと、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、インタラクティブユーザインタフェースを出力するステップと、を含む。
【0005】
一実施形態によれば、ヒューマンインザループによる自律運転用のオブジェクト検出機械学習モデルを診断するシステムが提供される。システムは、ユーザインタフェースを含む。システムは、カメラから受け取られた車両外部のシーンを示す入力画像を記憶するメモリであって、シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令をさらに記憶し、かつ、未観測のオブジェクトを生成してシーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令をさらに記憶したメモリを含む。システムは、メモリに通信可能に結合されたプロセッサであって、シーンのセマンティックマスクをセマンティックセグメンテーションによって生成し、コンテキストアウェア空間表現機械学習モデルを利用して、セマンティックマスクに基づいてシーン内の可動オブジェクトの空間分布を特定し、空間敵対的機械学習モデルを利用して、入力画像内に存在しない未観測のオブジェクトをシーン内に生成し、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを利用して、未観測のオブジェクトを種々異なる位置へ移動させ、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力するようにプログラミングされたプロセッサを備える。
【0006】
一実施形態によれば、システムは、(i)カメラから受け取られた車両外部のシーンを示す入力画像、(ii)当該入力画像に関連付けられたセマンティックマスク、(iii)シーン内のオブジェクトの空間情報を特定するように構成されたコンテキストアウェア空間表現機械学習モデルに対応するプログラム命令、及び、(iv)未観測のオブジェクトを生成してシーン内へ挿入するように構成された空間敵対的機械学習モデルに対応するプログラム命令を記憶したメモリを備える。システムは、メモリと通信し、コンテキストアウェア空間表現機械学習モデルを介して、シーン内の可動オブジェクトの座標を潜在空間内へ符号化し、座標をデコーダにより再構成して可動オブジェクトの空間分布を特定するようにプログラミングされた1つ又は複数のプロセッサを備える。1つ又は複数のプロセッサは、さらに、空間敵対的機械学習モデルを介して、(i)シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、(ii)メモリから類似のバウンディングボックス座標を有するオブジェクトを取り出し、(iii)当該オブジェクトをバウンディングボックス内に配置することにより、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するようにプログラミングされている。1つ又は複数のプロセッサは、さらに、オブジェクト検出機械学習モデルを失敗させるために、空間敵対的機械学習モデルを介して、試行の際に、空間敵対的機械学習モデルを利用して未観測のオブジェクトを種々異なる位置へ移動させるようにプログラミングされている。1つ又は複数のプロセッサは、さらに、未観測のオブジェクトを含まないシーン及び未観測のオブジェクトを含むシーンに関するオブジェクト検出機械学習モデルの性能をユーザが分析できるように、ユーザインタフェース上に視覚的分析を出力するようにプログラミングされている。
【図面の簡単な説明】
【0007】
【
図1】一実施形態による、視覚的分析ツール及びその基礎となる機械学習モデルを実施するシステムの概略図である。
【
図2】一実施形態による、入力画像から予測マスクを生成する機械学習モデルの概略図である。
【
図3】一実施形態による、可動オブジェクトに関するセマンティックセグメンテーションモデルの精度及びロバストネスを診断及び改善するように構成されたシステムの概略図である。
【
図4】一実施形態によるコンテキストアウェア空間表現機械学習モデルの概略図である。
【
図5】一実施形態による空間敵対的機械学習モデルの概略図である。
【
図6】一実施形態による、ユーザインタフェース上にMatrixScapeビュー又は領域を出力するように構成されたシステムの概略図である。
【
図7】一実施形態による、ユーザインタフェース上に可視のMatrixScapeビューの一例としての市街地運転シーンのためのセマンティックセグメンテーションモデルの性能景観図である。
【
図8】2つのデータセットの比較、即ち、このケースにおいてはトレーニングデータセット又はオリジナルデータセットと敵対的データセットとの比較のブロックビューであり、それぞれのブロックは、一実施形態によれば、ブロックによって表現された画像の観測のために拡張可能である。
【
図9】本明細書に開示するプロセッサによって実装される方法又はアルゴリズムのフローチャートである。
【発明を実施するための形態】
【0008】
詳細な説明
本開示の実施形態を本明細書において説明する。ただし、開示する実施形態は単なる例であり、他の実施形態として様々な代替形態を取り得ることを理解されたい。各図面は必ずしも縮尺通りに描かれておらず、いくつかの特徴は、特定の構成要素の詳細を示すために、誇張し又は縮小したところがある。従って、本明細書に開示する特定の構造的及び機能的詳細は、限定として解釈されるべきではなく、むしろ実施形態の様々な利用を当業者に教示するための単なる代表的な基礎として解釈されるべきである。当業者には理解されるように、図面のいずれか1つを参照して図示及び説明する様々な特徴は、1つ又は複数の他の図面に示されている特徴と組み合わせて、明示的に図示又は説明されない実施形態を構成することができる。図示の特徴の組合せにより、典型的な用途のための代表的な実施形態が提供される。なお、本開示の教示と一致する特徴の様々な組合せ及び修正は、特定の用途又は実施にとって望ましいものであり得る。
【0009】
自律運転車両は、適当な決定を行うために運転シーンを認識及び理解する必要がある。セマンティックセグメンテーションは、運転領域を認識して歩行者、乗用車及びその他などの道路上の重要なオブジェクトを検出するために、自律運転システムにおいて一般的に使用されている。セマンティックセグメンテーションは、種々の技術により(即ち、画像技術だけでなく)使用することができるが、本開示においては、(例えば、車両内又は車両上に取り付けられたカメラから取得された)画像をピクセルレベルで意味論的に有意な複数の領域に分割し、各セグメントをクラス(例えば、道路、歩行者、車両、乗用車、建物など)に分類する、画像データのセマンティックセグメンテーションに焦点を当てている。
図1は、動作中のセマンティックセグメンテーションの例を示している。入力画像は1つ以上の機械学習モデルに供給され、当該機械学習モデルにより予測マスクが出力される。予測マスクとは、入力画像内において観測された様々な項目を複数のセグメントに分割し、各セグメントをクラスに分類するための画像である。同様のクラスは、同様の色又は陰影により着色又は陰影付けすることができる。セマンティックセグメンテーションにより、自律運転車両システムは、車両が運転安全性のために制御可能となるように、車両の周囲にあるオブジェクトをより良好に理解することができる。
【0010】
自律運転用の現在の視覚的分析ソリューションは、主にオブジェクト検出に焦点を当てており、セマンティックセグメンテーションモデルは、この分野においてはあまり研究されていない。セマンティックセグメンテーションモデルが重要なオブジェクトを検出できなかった時点及び原因を評価及び診断することは困難である。通常、テストすべき大量のデータセットが存在するので、特にシーンコンテキストに関連して失敗のケースを迅速に識別し、これらの失敗の根本的な原因を診断することは困難である。例えば、歩行者がコンテキスト内においてトラフィックコーンに似た色の衣服を着ているために、セマンティックセグメンテーションモデルによって見落とされることがある。さらに、開放領域及び歩道の歩行者など、オブジェクトが通常のコンテキスト内にある場合には、モデルもその大部分を観測することができるが、以前に観測したことのないコンテキスト依存性の位置も存在することがあり、例えば、トラックとポストとの間にいる人物は、セマンティックセグメンテーションモデルによって検出されないことがあり得る。こうした潜在的なリスクを明らかにし、これらのエッジケースに対するオブジェクト検出器の空間的ロバストネスを評価することは困難である。
【0011】
深層畳み込みネットワーク(CNN)は、自律運転用の認識システム、例えばオブジェクト検出及びセマンティックセグメンテーションにおいてますます重要な役割を果たすようになってきている。CNNの性能は優れているものの、安全上の懸念から、自律型車両への配備の前にCNNの徹底的な評価が必要であり、このために、複雑なCNNの挙動を分析、解釈及び理解すべく、視覚的分析が広く使用されている。CNNを解析するために、主にモデルの解釈及び診断に焦点を当てた視覚的分析のアプローチがいくつか提案されてきた。モデル解釈の目的は、ニューロン及び特徴マップを直接的に視覚化することにより、又は、説明可能な代替モデル(例えば、線形モデル)を利用することにより、CNNのブラックボックスを開放することである。モデル診断においては、モデルの予測結果を要約して比較し、潜在的な脆弱性を分析することによって、モデルの性能を評価及び理解することに焦点が当てられている。
【0012】
本明細書に開示する実施形態においては、システムは、まず、与えられた運転シーンから、位置、サイズ及びアスペクト比などの、オブジェクトのコンテキストアウェア空間表現を学習する。当該空間表現によって、システムは、(1)種々異なる運転シーンにおけるオブジェクトの空間情報(例えば、可能な位置、サイズ及びアスペクト比)の分布を推定し、(2)オブジェクトの空間情報に関するモデルの性能を要約及び解釈し、(3)シーンのコンテキストを考慮して、運転シーン内へ新たなオブジェクトを適当に挿入することによって、新たなテストケースを生成することができる。この場合、実施形態においては、システムはまた、敵対的学習を使用して、学習された空間表現内のオブジェクトの位置及びサイズを摂動させ又は変更することによって、未観測のテスト例を効率的に生成する。次に、視覚的分析システムが、自然データ及び敵対的データの双方にわたるモデルの性能を視覚化及び分析し、モデルの精度及び空間的ロバストネスを改善するための行動可能な洞察を導出する。これらのことは全て、人間が操作可能なインタラクティブ視覚的分析システムにおいて行われる。
【0013】
より具体的には、図面を参照しながら後にさらに説明するように、自律運転における臨界的なオブジェクトの検出のためのセマンティックセグメンテーションモデルを評価し、解釈し、改善する視覚的分析システムを以下に開示する。視覚分析システムは、与えられたシーンにおける可動オブジェクトの空間分布を学習するために、コンテキストアウェア表現学習(
図4)を使用する。モデルは、バウンディングボックス座標を低次元の潜在空間内へ符号化し、デコーダによりボックスを再構成することによって、空間情報を学習する。システムはまた、条件入力としてセマンティックマスクを使用して、空間分布を強制的にシーンコンテキストに依存させる。このように、潜在次元は、可動オブジェクトの解釈可能な空間分布を捕捉するものである。このことは、オブジェクトに関する情報、例えば、オブジェクトの位置(例えば、左から右へ、又は、近から遠へ)の視覚的な理解を支援する視覚ツールをユーザに提供することに役立つ。これはまた、オブジェクトの全体的な性能の解釈にも役立つ。以下において説明するように、当該システムは、1つのコンテキスト内の種々の位置において未観測のオブジェクトを生成してモデルのロバストネスをテストするための空間敵対的機械学習モデル(
図5)も含む。運転シーンが与えられると、システムは、別の可動オブジェクトを生成して、その位置の小さい有意の変更により、検出器を失敗させることができる。これは、空間的な潜在空間からオブジェクトの可能な位置をサンプリングすることによって行うことができる。当該位置は、与えられたシーンマスク上において調整される。検出器が失敗し得る新たな位置が生成されるように、潜在次元を変更することができる。敵対的勾配推定がこれを達成することができる。潜在次元にわたる最小変更量は、空間的なロバストネスを示すことができる。オリジナルデータ及び生成された敵対的データを用いて、視覚的分析システムは、人間がセマンティックセグメンテーションモデルを分析及び改善できるように、ユーザインタフェースを生成することができる(
図6乃至
図8)。これらの図面については、以下において、より詳細に説明する。
【0014】
図1には、本明細書に開示するシステムを実施することが可能であって、これを実施するように構成された全体的なシステム100が示されており、当該システムには、視覚的分析ツール及びその基礎となる機械学習モデルが含まれている。システム100は、少なくとも1つのコンピューティングシステム102を含み得る。コンピューティングシステム102は、メモリユニット108又はメモリに動作可能に接続された少なくとも1つのプロセッサ104を含み得る。プロセッサ104は、中央処理ユニット(CPU)106の機能を実装した1つ又は複数の集積回路を含み得る。CPU106は、例えば、x86、ARM、Power又はMIPS命令セットファミリなどのうちの1つの命令セットを実装した市販入手可能な処理ユニットであり得る。動作中に、CPU106は、メモリユニット108に記憶されそこから取り出されたプログラム命令を実行することができる。記憶されたプログラム命令は、本明細書に記載の動作を実行するためにCPU106の動作を制御するソフトウェアを含み得る。いくつかの例においては、プロセッサ104は、CPU106、メモリユニット108、ネットワークインタフェース及び入出力インタフェースの機能を単一の集積装置に集積したシステムオンチップ(SoC)であるものとしてよい。コンピューティングシステム102は、様々な態様の動作を管理するオペレーティングシステムを実装することができる。
【0015】
メモリユニット108は、命令及びデータを記憶する揮発性メモリ及び不揮発性メモリを含み得る。不揮発性メモリは、ソリッドステートメモリ、例えばNANDフラッシュメモリ、磁気記憶媒体及び光学記憶媒体、又は、コンピューティングシステム102が非アクティブ状態のとき又は電力を喪失したときにデータを保持する任意の他の適当なデータストレージデバイスを含み得る。揮発性メモリは、プログラム命令及びデータを記憶するスタティックランダムアクセスメモリ及びダイナミックランダムアクセスメモリ(RAM)を含み得る。例えば、メモリユニット108は、機械学習モデル110又はアルゴリズム、機械学習モデル110のためのトレーニングデータセット112、及び、ローソースデータセット115を記憶し得る。
【0016】
コンピューティングシステム102は、外部のシステム及びデバイスとの通信を提供するように構成されたネットワークインタフェースデバイス122を含み得る。例えば、ネットワークインタフェースデバイス122は、IEEE(Institute of Electrical and Electronics Engineers)802.11規格ファミリによって規定されている有線及び/又は無線のイーサネットインタフェースを含み得る。ネットワークインタフェースデバイス122は、セルラネットワーク(例えば、3G、4G、5G)と通信するためのセルラ通信インタフェースを含み得る。ネットワークインタフェースデバイス122は、さらに、外部ネットワーク124又はクラウドへの通信インタフェースを提供するように構成され得る。
【0017】
外部ネットワーク124は、ワールドワイドウェブ又はインターネットと称され得る。外部ネットワーク124は、コンピューティングデバイス間における標準的な通信プロトコルを確立することができる。外部ネットワーク124は、コンピューティングデバイスとネットワークとの間における情報及びデータの容易な交換を可能にし得る。1つ以上のサーバ130が外部ネットワーク124と通信することができる。1つ以上のサーバ130は、本明細書に開示するシステムを実施するように構成されたメモリ及びプロセッサを有し得る。
【0018】
コンピューティングシステム102は、デジタル及び/又はアナログの入力及び出力を提供するように構成される入出力(I/O)インタフェース120を含み得る。I/Oインタフェース120は、外部デバイスと通信するための付加的なシリアルインタフェース(例えば、ユニバーサルシリアルバス(USB)インタフェース)を備えるものとすることができる。
【0019】
コンピューティングシステム102は、システム100が制御入力を受け取ることを可能にする任意のデバイスを含み得るマンマシンインタフェース(HMI)デバイス118を含み得る。入力デバイスの例として、キーボード、マウス、タッチスクリーン、音声入力デバイス、及び、他の同様のデバイスのようなヒューマンインタフェースを含み得る。コンピューティングシステム102は、ディスプレイデバイス132を含み得る。コンピューティングシステム102は、グラフィックス情報及びテキスト情報をディスプレイデバイス132に出力するためのハードウェア及びソフトウェアを含み得るものである。ディスプレイデバイス132は、電子ディスプレイスクリーン、プロジェクタ、プリンタ、又は、ユーザ若しくはオペレータに情報を表示するための他の適当なデバイスを含み得るものであり、ユーザがヒューマンインザループのオペレータとして行動することにより、視覚分析システムを介して機械学習モデルが相互作用によって診断される。さらに、コンピューティングシステム102は、ネットワークインタフェースデバイス122を介したリモートHMI及びリモートディスプレイデバイスとの間の相互作用を可能にするように構成されるものとしてよい。HMI118及びディスプレイ132は、集合的にユーザインタフェース(例えば、分析システムに対する視覚的コンポーネント)をユーザに提供することができ、これにより、人間であるユーザとプロセッサ104との相互作用が可能となる。
【0020】
システム100は、1つ又は複数のコンピューティングシステムを使用して実装され得るものである。この例は、説明する特徴の全てを実現した単一のコンピューティングシステム102を示しているが、様々な特徴及び機能が相互に通信する複数のコンピューティングユニットに分離されて実現され得ることが意図されている。選択された特定のシステムアーキテクチャは、種々の要因に依存し得るものであり、
図1に示したシステムは、単なる一例である。
【0021】
システム100は、ローソースデータセット115を分析するように構成された機械学習アルゴリズム110を実装し得る。ローソースデータセット115は、ローセンサデータ若しくは未処理のセンサデータ、又は、機械学習システムのための入力データセットを表現することのできる画像データを含み得る。ローソースデータセット115は、動画像、動画像セグメント、静止画像、テキストに基づく情報、及び、ローセンサデータ又は部分的に処理されたセンサデータ(例えば、オブジェクトのレーダマップ)を含み得る。いくつかの例においては、機械学習アルゴリズム110は、所定の機能を実行するように設計されたニューラルネットワークアルゴリズムであるものとしてよい。例えば、ニューラルネットワークアルゴリズムは、自動車用途において、画像又は画像列(例えば、動画像)内の項目(例えば、歩行者、標識、建物、空、道路など)を識別し、さらにはこうした項目のラベルも含まれるように画像に注釈を付すべく構成することが可能である。機械学習アルゴリズム110は、これらの機能を実行する(例えば)CNNに依拠し得るものであり又はこれを含み得るものである。
【0022】
コンピュータシステム100は、機械学習アルゴリズム110に対するトレーニングデータセット112を記憶することができる。トレーニングデータセット112は、機械学習アルゴリズム110をトレーニングするための、以前に構築されたデータセットを表現し得る。トレーニングデータセット112は、ニューラルネットワークアルゴリズムに関連付けられた重み係数を学習するために、機械学習アルゴリズム110によって使用可能である。トレーニングデータセット112は、機械学習アルゴリズム110が学習プロセスを介して複製を試みた対応する成果又は結果を有するソースデータのセットを含み得る。この例においては、トレーニングデータセット112は、シーン内の項目を有する又は有さないソース静止画像又はソース動画像並びに対応する項目の有無情報及び位置情報を有する又は有さないソース静止画像又はソース動画像を含むものとしてよい。
【0023】
機械学習アルゴリズム110は、トレーニングデータセット112を入力として使用する学習モードで動作させることができる。機械学習アルゴリズム110は、トレーニングデータセット112からのデータを使用して、複数回の反復にわたって実行され得る。それぞれの反復により、機械学習アルゴリズム110は、達成された結果に基づいて内部重み付け係数を更新することができる。例えば、機械学習アルゴリズム110は、出力結果(例えば、注釈、潜在変数、敵対的ノイズなど)を、トレーニングデータセット112に含まれているものと比較することができる。トレーニングデータセット112は、予期された結果を含むものであるので、機械学習アルゴリズム110は、性能が許容可能である時点を決定することができる。機械学習アルゴリズム110が所定の性能レベル(例えば、トレーニングデータセット112に関連付けられた成果との100%の一致)を達成した後、機械学習アルゴリズム110は、トレーニングデータセット112内に存在しないデータを使用して実行され得る。トレーニング済みの機械学習アルゴリズム110は、注釈付きデータの生成のために、新たなデータセットに適用され得る。
【0024】
図3は、可動オブジェクトに関するセマンティックセグメンテーションモデルの精度及びロバストネスを診断及び改善するように構成された視覚的分析システム300の概観を提供している。一般に、システム300は、インタラクティブ視覚的分析システムを生成するためにコンテキストアウェア空間敵対的機械学習モデルと空間敵対的機械学習モデルとの双方を含む。システム300は、302においてオリジナルデータを使用し、このオリジナルデータは、検出されたオブジェクト上に配置されるグラウンドトゥルースのバウンディングボックスと、本明細書に記載する方法に従ってオリジナルデータから作成される対応するマスクとを含む。システム300は、与えられたシーンにおける可動オブジェクトの空間分布を学習するために、コンテキストアウェア表現学習モデル304を使用する。システム300は、モデルのロバストネスをテストするためにコンテキスト内の種々異なる位置(例えば、敵対的データ308)に未観測のオブジェクトを生成する、空間敵対的機械学習モデル306も使用する。オリジナルデータ302及び生成された敵対的データ308を用いて、システム300は、システム300全体に関してユーザがヒューマンインザループによるセマンティックセグメンテーションモデルを分析及び改善することができるようにするインタラクティブ視覚的分析ユーザインタフェース310を生成する。コンテキストアウェア空間敵対的機械学習モデル304、空間敵対的機械学習モデル306及びインタラクティブ視覚的分析ユーザインタフェース310のそれぞれについては、以下において詳細に説明する。
【0025】
コンテキストアウェア空間敵対的機械学習モデル304は、
図4により詳細に示されている。コンテキストアウェア空間敵対的機械学習モデル304は、まず(例えば、エンコーダを介して)バウンディングボックス座標を低次元の潜在空間内へ符号化し、次いで、デコーダを用いてボックスを再構成することによって、空間情報を学習する。特に、モデル304は、与えられた運転シーンを条件として、可動オブジェクトの空間情報(位置、サイズ及びアスペクト比など)の潜在表現を抽出するように構成されている。条件付き可変オートエンコーダ(CVAE)は、2つの主要なコンポーネント、即ち、エンコーダe
θ及びデコーダd
φを含み、コンテキストアウェア空間表現学習を実行するように構成されており、ここで、θ及びφは、それぞれのディープニューラルネットワークの重みである。運転シーンにおいてオブジェクトが与えられた場合、そのバウンディングボックス
【数1】
が、エンコーダを介して、運転シーンのグラウンドトゥルースセグメンテーション(例えば、各ピクセル位置にセマンティッククラスラベルを有するマスク)m
iを条件として、潜在ベクトルz
i402へと符号化される。次いで、当該潜在ベクトルz
iが、同様にセマンティックセグメンテーションマスクm
iを条件とするデコーダd
φを使用して、再構成されたバウンディングボックス
【数2】
へとマッピングされる。従って、条件入力m
iによって、モデルにコンテキストアウェア空間表現を学習させることができる。換言すれば、セマンティックマスクが、空間分布を強制的にシーンコンテキストに依存させる条件入力として使用される。このように、潜在次元は、可動オブジェクトの解釈可能な空間分布を捕捉するものである。
【0026】
一実施形態においては、CVAEは、2つの損失を用いて訓練され、再構成損失l
r及び潜在損失l
lを含む。再構成損失を用いて入力バウンディングボックスb
iと再構成バウンディングボックス
【数3】
との差が測定され、この差に対して、b
iと
【数4】
との平均絶対誤差が、
【数5】
として特定される。潜在損失は、近似された事後分布とガウシアンの事前分布との間のカルバック‐ライブラー情報量D
KLであり得る。トレーナは、β‐VAEを用いて潜在表現を解膠する(disentangle)ことができ、これは、再構成損失l
rと重みβを有する潜在損失l
lとを組み合わせたもの、即ち、l=l
r+βl
lである。実験により見出された実施形態においては、βを2e-3に設定して、再構成の精度と潜在表現の解膠とを平衡化することができた。
【0027】
訓練後、エンコーダ及びデコーダは、データの要約及び生成に使用することができる。エンコーダによって、各バウンディングボックスを、運転シーンに対するその空間情報、例えば、位置及びサイズを捕捉する潜在ベクトル402へとマッピングすることができる。潜在ベクトルの次元も、左から右へ、近から遠へ、小から大へといった意味論的意味を有している。これは、インタラクティブ視覚的分析ユーザインタフェース310の内部に又はその一部として設けられ得る一例として312に示されており、ここで、y軸は、オブジェクトがどの程度近いか又は遠いかの第1の潜在次元であるものとしてよく、x軸は、左から右への第2の潜在次元であるものとしてよい。潜在ベクトルは、オブジェクトの空間情報に関するセマンティックセグメンテーションモデルの性能を要約するために使用される。潜在空間から引き出されたサンプルが与えられると、デコーダは、与えられた運転シーンにおけるオブジェクトの可能な位置及びサイズ(例えば、マスク404内に示されているバウンディングボックス)を生成することができ、この位置及びサイズが、ロバストネスのテストのための敵対例の生成をガイドするために使用される。
【0028】
図3に戻ると、空間敵対的機械学習モデル306に関して、空間敵対的機械学習モデル306の目標は、次の通りである。即ち、運転シーンが与えられたとき、セマンティックセグメンテーションモデルのロバストネスをテスト及び改善する目的で、学習された空間表現に基づいて、その位置における敵対例の変更によって検出器を失敗させるための別の可動オブジェクトを生成することができる。敵対例は、2つのステップ、即ち、(1)意味論的に一貫した方式により新たなオブジェクトを運転シーン内へ適当に挿入するステップと、(2)シーン内のオブジェクトの空間変換(例えば、位置及びサイズ)を調整して敵対的学習を介してターゲットモデルを欺くために潜在表現を摂動させるステップとによって生成することができる。これらの2つのステップは、空間敵対的機械学習モデル306のより詳細なビューである
図5に示されている。特に、第1のステップ(例えば、オブジェクト挿入502)は、学習された空間潜在空間をサンプリングして新たなオブジェクトを挿入することにより、オブジェクトのコンテキストアウェア可能位置を取得することを含む。第2のステップ(例えば、空間敵対的学習504)は、敵対的学習を用いた潜在空間の検索によってモデルを失敗させるためにオブジェクトの位置及びサイズを摂動させることを含む。
【0029】
オブジェクト挿入502に関して、システムは、運転シーンが与えられると、敵対的検索のために新たなオブジェクトをシーンに適当に挿入する。既存のオブジェクトについては、不要なアーチファクトの発生を回避するために、シーン内における変更又は移動は行われない。挿入されたオブジェクトをシーンセマンティクスに適合させる(例えば、歩行者は空に配置すべきでない)ために、学習された空間表現が活用されて、可能な位置がサンプリングされる。例えば、ステップ502において示されているように、まず、サンプルziが潜在空間から引き出されて、デコーダdφとターゲット運転シーンxiのセマンティックセグメンテーションマスクmiとを用いて、バウンディングボックスbiへとマッピングされる。次いで、(例えば、本明細書において説明しているメモリに記憶されている)全てのトレーニングデータが探索され、生成されたボックスbiを含む最も類似したバウンディングボックスを有するオブジェクトが見出されて、取り出されたオブジェクトがバウンディングボックスbiに適合するようにスケーリング及び平行移動される。類似のバウンディングボックスを有するオブジェクトを選択する理由は、スケーリング及び平行移動後にオブジェクトの忠実度を維持するためである。新たなオブジェクトを運転シーンにシームレスに混合するために、ポアソン混合を使用して、オブジェクトの色及び照明を周囲のコンテキストに一致させることができる。その一方では、境界アーチファクトを軽減するために、ガウシアンぼかしをオブジェクトの境界に適用することができる。
【0030】
空間敵対的学習504に関して、これは、シーン内に挿入されたオブジェクトを適当にかつ効率的に移動させ、これにより、全体的なオブジェクト検出機械学習モデルによるオブジェクトの正確な検出を失敗させるために行われる。当該アイデアは、挿入されたオブジェクトの空間潜在表現を摂動させて、このオブジェクトを移動させてターゲットモデルを欺かせるための最速の手段を見出すことにある。具体的には、一実施形態において、バウンディングボックスbi内にオブジェクトoiが配置された運転シーンxiが与えられると、モデルfが変換されたオブジェクトのセグメンテーションの正確な予測に失敗するように、オブジェクトの配置のための新たなバウンディングボックスb’iを探索することによって、敵対例が生成される。モデルが失敗するかどうかを判定するために、変換されたオブジェクトo’iを含む新たなシーンx’iを評価し、新たなセマンティックセグメンテーションマスクm’iとの比較を行う。次に、変換されたオブジェクトo’iのモデル性能が計算され、モデル性能閾値と比較されて、モデル性能がモデル性能閾値より小さい場合、モデルが失敗したものとされる。
【0031】
新たなバウンディングボックスb’iが運転シーンに関して意味論的に有意であることを保証するために、システムは、バウンディングボックスを直接的に操作することに代えて、潜在空間において敵対的検索を実行することができる。敵対例を生成する最小変化を伴う潜在ベクトルz’iを見出すために、システムは、セマンティックセグメンテーションモデルのアーキテクチャを明示的に既知とすることを必要としないように、ブラックボックス付加法を採用することができる。まず、勾配推定アプローチが自然進化ストラテジと共に使用されて、モデルの性能を最も速いペースで低下させる潜在空間内の勾配方向が見出される。次いで、モデル性能が閾値よりも小さくなるまで、予め定められたステップサイズで潜在ベクトルziを勾配方向に沿って反復して移動させることができる。オブジェクトを移動させている間に、オブジェクトを運転シーンに混合するためには、ガウシアンぼかしを適用するだけでよい。なぜなら、焦点は、ポアソン混合によって生じる色ずれの箇所にではなく、オブジェクトの空間情報の変化によって引き起こされるモデルの性能の変化箇所に配置されるべきだからである。
【0032】
敵対例を用いることにより、システムは、ターゲットモデルのロバストネスを解釈することができる。このために、空間的なロバストネススコアsriが、各潜在次元の標準偏差によって正規化された潜在ベクトルziとz’iとの間の平均絶対誤差、即ち、sri=|zi-z’i|/|zstd|として、各オブジェクトoiに対して定義される。当該スコアは、モデルを失敗させるために必要な潜在空間における変化量を捕捉するものである。
【0033】
データ前処理(例えば、表現及び敵対的学習)の後、システムは、オリジナルデータ(即ち、トレーニング、検証及びテストのデータ)及び敵対的データを、モデルの予測と共に収集して、ユーザに提供される視覚的分析システムのユーザインタフェースを駆動することができる。具体的には、各オブジェクトに対して、その空間情報(例えば、バウンディングボックス、サイズ、潜在表現)が抽出され、性能メトリック(例えば、モデル性能、グラウンドトゥルースクラス、及び、予測クラス)が抽出される。一実施形態においては、オブジェクトの各ピクセルがそれぞれ異なるクラスとして予測可能となり、これに対して、オブジェクトの予測クラスはピクセルの最大数を有するクラスとして定義される。敵対的学習のため、攻撃パターンを分析すべく、ロバストネス及び勾配方向を抽出することができる。
【0034】
図3に戻ると、オリジナルデータ302及び生成された敵対的データ308を用いて、システムは、HMIデバイス118、ディスプレイ132などを介して、視覚的分析システムのユーザインタフェース310をユーザに提示することができる。
図3に示されているユーザインタフェース310は、ユーザインタフェースがユーザの画面上にどのように表示され得るかについての概観又は概略図である。一般に、相互作用及びユーザによる閲覧のための3つの領域、即ち、以下に詳述する要約領域320、MatrixScape領域322及び運転シーン領域324が存在する。これらの領域の各々は、ディスプレイ132上の単一のウィンドウ上若しくはペイン上に提供することができ、又は、各領域を移動若しくは最小化して、各領域がユーザインタフェース上に表示される時点及び位置をユーザがカスタマイズできるようにすることができる。
【0035】
要約領域320は、データ構成及びオブジェクトの主要なプロパティの統計の要約を含む。示されているデータには、データスプリット、インスタンスクラス及び関心モデルを含む、データの基本的構成が含まれ得る。さらに、棒グラフを使用して、開発されたオブジェクトのサイズ(上段のグラフ)、モデル性能(中段のグラフ)、モデルのロバストネス(下段のグラフ)といったオブジェクトの主要なプロパティのヒストグラムが示されている。要約領域320は、モデルの性能の概観を提供し、ユーザがMatrixScape領域322における詳細な分析のためにデータをフィルタリングすることを可能にする。例えば、ユーザは、要約領域内の様々なインスタンスクラス(例えば、歩行者、乗用車、トラック、バス、鉄道車両、建物など)を選択することができ、MatrixScape領域322内に表示されたデータを相互作用により更新する。また、ユーザは、オブジェクトサイズ、モデル性能及び/又はロバストネスの範囲を制限することにより、データのさらなるフィルタリングのために、当該棒グラフをブラッシュオンすることができる。
【0036】
MatrixScape領域322は、
図6乃至
図7により詳細に示されている。MatrixScape領域322は、データ属性の種々の態様(
図6、領域a)からの多数のオブジェクトの性能景観を種々の詳細レベル(
図6、領域b及び領域c)において示している。当該ビューは、ユーザが種々のセマンティッククラス、データソース及びモデルバージョンにわたってモデルの性能を比較することによりデータの関心サブセットを識別すること、並びに、コンテキスト内におけるオブジェクトの空間情報に対するモデルの性能を理解することを支援するように設計されている。
【0037】
図6には、一実施形態による、MatrixScape領域322の設計の概略図が示されている。異なるカテゴリ属性に基づいて、それぞれ異なるタイプの属性(a)を有するオブジェクトがまずグループ化され、ブロック(b)の行列として視覚化される。当該オブジェクトを複数のグループに区分して、グラウンドトゥルースクラス/予測クラス、データソース、又は、モデルバージョンなどの、ユーザが選択したカテゴリ属性に関するオブジェクトの性能の概観を提供することができる。例えば、グラウンドトゥルースクラス(例えば、歩行者、乗用車など)及び予測クラスに基づいてオブジェクトがグループ化される間に、ユーザは、モデル性能の混同行列のビュー(b1)を得ることができ、ここで、各ブロックのサイズは、内部のオブジェクトの数を表現し、色は、当該オブジェクトの平均モデル性能又はロバストネススコアを表現する。ユーザは、データソース又はモデルによってグラウンドトゥルースクラスを編成するデータ/モデル比較(b2)において、種々のデータソース又はモデルバージョンにわたってモデルの性能を比較することができる。また、ユーザは、唯一のカテゴリ属性に基づいてオブジェクトをグループ化し、データ分布を視覚化することもできる(b3)。例えば、(b3)に示されているように、グラウンドトゥルースクラスに基づいてオブジェクトをグループ化することにより、オブジェクトクラスの分布を取得することができる。
【0038】
行列内の関心データブロックが識別された後、ユーザは、より詳細なビューのために任意のいずれかのボックスを強調表示又は選択することができる。
図6は、ユーザが所定のグラウンドトゥルースクラス及び所定の予測クラスのモデル性能を表現した混同行列の右下のボックス(b1)を選択した例を示している。結果がMatrixScapeビューとなり、より詳細なビューが得られる(c)。詳細図に示されているオブジェクトは、学習された潜在表現、サイズ、モデル性能などの数値属性(c1)に基づいてビンへと集約される。(b)のブロックビューと同様に、ユーザは、オブジェクトを集約するために数値属性を変化させることができる。例えば、ユーザは、潜在次元のうちの2つを選択し、これらの次元についてのオブジェクトの潜在表現を使用してオブジェクトを集約することができる。集約後、各ビンに対して代表的なオブジェクトを選択し、種々の視覚エンコーディング又は表現、例えばモデル性能又はロバストネス(c3)、画像パッチ(c3)及びセマンティックセグメンテーションパッチ(c4)を使用して当該オブジェクトを視覚化することによって、モデル性能の空間パターンを視覚化することができる。ユーザは、各ビンの代表的なオブジェクトをどのように選択するかを定義することができる。また、1つの数値属性のみが用いられる場合、選択属性のデータ分布をブロックごとに(例えば、ヒストグラムにおいて)視覚化することができる(c5)。
【0039】
図7は、MatrixScapeビューの例としての市街地運転シーンに関するセマンティックセグメンテーションモデルの性能景観ビューの例を示している。ブロックビュー(a)は、オブジェクトのグラウンドトゥルース及び予測クラスに基づく混同行列として編成されている。この実施例において、クラス(グラウンドトゥルース及び予測の双方)には、乗用車、歩行者、自転車、ライダ、モータサイクル、トラック、バス、建物、鉄道車両、植生、道路、フェンス、ポール、歩道、交通標識、壁、地形、交通信号機、及び、空が含まれる。もちろん、本明細書に開示しているシステムにより、異なるクラス、より多くのクラス又はより少ないクラスも利用可能である。各ブロックのサイズは、当該ブロック内のオブジェクトの数を表現しており、色は、当該オブジェクトの平均モデル性能又はロバストネススコアを表現している。この実施例においては、ユーザは、歩行者のグラウンドトゥルースクラスと歩行者の予測クラスとを比較するボックスを選択している。当該ボックスを選択することによって、ユーザには、詳細ビュー(b)において視覚化されている個々のオブジェクトの性能景観が提供され得る。この実施例においては、オブジェクトは、その空間分布の視覚化及び要約が可能となるように、学習された空間表現の2つの次元に基づいて集約されている。例えば、第1の次元(潜在次元1)は歩行者の水平方向位置を表現しており、他の次元(潜在次元3)は歩行者から車両までの距離を表現している。それぞれ異なる視覚エンコーディングを用いてオブジェクトを、例えば性能スコア(bに示されている)として視覚化することができ、ここで、各色は、その潜在次元におけるモデル性能、画像パッチ(c)及びセマンティックセグメンテーションパッチ(d)を表現しており、これにより、ユーザがモデル性能の空間パターンを理解しやすくなる。ユーザは、(b)に示されている性能スコア行列内の任意のブロック上においてホバリングしたり又はこれを選択したりすることができ、ユーザインタフェースは、オブジェクトが検出された画像のストリートビューを、オブジェクト周囲のバウンディングボックスと共に出力することができる。これにより、ユーザは、(b)に示されている行列内の種々のボックスをクリックするのみで、得られたこれらの性能スコアを形成した実際の画像を容易に観察することができる。潜在次元(左から右へ、及び、近から遠へ)と検出されたオブジェクトの実際の位置との間の相関は、
図7においては、選択された様々な画像によって示されている。
【0040】
ユーザによるブロックビュー内のデータグループの比較を支援するために、行及び列を、これらに含まれるオブジェクトの総数又はブロック内のオブジェクトの数の分散に基づいてランク付けすることができる。例えば、
図8は、2つのデータセットに対する歩行者検出のためのモデル性能のブロック図を示しており、ここで、各行は、データセット(例えば、訓練データセット/オリジナルデータセット及び敵対的データセット)を表現しており、各列は、歩行者の予測クラスを表現している。当該列は、オリジナルデータセットと敵対的データセットとの間の差に基づいてランク付けされ、これにより、ユーザは、2つのデータセットが最大効率で異なっているクラスを識別することができる。
【0041】
この例示された実施例において、歩行者のセグメンテーションに関するモデル性能を調査するために、ユーザは、
図8のブロックビュー(a)から、敵対的データが、ライダ、植生、建物、ポール及びフェンスなどのオリジナルデータ/訓練データと比較して、特定のクラスとして誤って分類されたより多くの歩行者を有することを見て取ることができる。敵対的データにおけるこれらの個々のブロックをズーム又は選択し、(b)に示されているようにグラウンドトゥルースセグメンテーションを視覚化することによって、ユーザは、誤った分類のほとんどが歩行者と周囲のコンテキストとの相互作用によって引き起こされたことを理解することができる。例えば、建物、ポール及びフェンスの前に歩行者が配置されており、モデルが失敗するに至っている。これらのクラスと相互作用する歩行者に関するモデル性能を改善するために、これらのクラスと相互作用するより多くの歩行者を生成して、モデルの再訓練のために使用することができる。
【0042】
図9には、本明細書において開示しているメモリに記憶された画像、機械学習モデルプログラム命令などにアクセスすることにより、本明細書において記載しているプロセッサによって実装可能なフローチャートが示されている。902において、入力画像がメモリから取り出される。入力画像は、カメラにより撮影されたロー画像、及び/又は、入力画像から導出された関連する予測マスク(例えば、
図2を参照)であるものとしてよい。904において、プロセッサがシーン内の可動オブジェクトの空間分布を導出する。これは、コンテキストアウェア空間表現機械学習モデル304を利用して行うことができる。このように、プロセッサは、可動オブジェクトの座標を潜在空間内へ符号化し、座標をデコーダにより再構成するようにプログラミングすることができる(例えば、
図4を参照)。可動オブジェクトの座標は、セマンティックマスクにおけるオブジェクト周囲に配置された、可動オブジェクトに関連付けられたバウンディングボックスの座標であるものとしてよい。906において、プロセッサは、入力画像内に存在しない未観測のオブジェクトをシーン内に生成するようにプログラミングされている。換言すれば、カメラによって観測された入力画像内に示されていない新たなオブジェクトを画像内に挿入する。このことは、空間敵対的機械学習モデル306を利用して実行され得る。このように、プロセッサは、シーンの一部の潜在空間座標をサンプリングしてバウンディングボックスをマッピングし、同様のバウンディングボックス座標を有するオブジェクトをメモリから取り出し、このオブジェクトをバウンディングボックス内に配置するようにプログラミングされ得る(例えば、
図5を参照)。当該プロセッサは、910において、オブジェクト検出機械学習モデルを失敗させる試行において、未観測のオブジェクトを種々異なる位置へ移動させるようにプログラミングされている。これは、空間敵対的機械学習モデルを利用して、未観測のオブジェクトの空間潜在表現を摂動させ、オブジェクト検出機械学習モデルの敵対的性能に対応する潜在空間内の勾配方向を見出すことによって行われ得る。換言すれば、新たなオブジェクトは、オブジェクト検出機械学習モデルがこの新たなオブジェクトをプロパティによって識別及び分類することが困難である位置へと移動される。910において、プロセッサは、インタラクティブユーザインタフェースを出力することができるが、その例は、
図6乃至
図8に示されており、これらを参照して説明されている。
【0043】
例示的な実施形態を上述したが、これらの実施形態は、特許請求の範囲に包含される全ての可能な形態を説明することを意図するものではない。本明細書において使用している用語は、限定ではなく説明のための語であり、本開示の精神及び範囲から逸脱することなく様々な変更が可能であることが理解される。前述したように、様々な実施形態の特徴を組み合わせて、明示的には説明又は図示されていないことがある本発明のさらなる実施形態を構成することができる。様々な実施形態を、1つ又は複数の所望の特性に関して、他の実施形態又は従来技術の実現形態を上回る利点を提供するものとして又はこれらよりも好ましいものとして説明したところがあるが、当業者には、特定の用途及び実現形態に応じて、望ましい全体的なシステム属性を得るために、1つ又は複数の特徴又は特性について妥協を甘受し得ることが認識される。こうした属性には、以下に限定されるものではないが、コスト、強度、耐久性、ライフサイクルコスト、市場性、外観、包装、サイズ、保守、重量、製造、組立ての容易さなどが含まれ得る。従って、任意の実施形態が他の実施形態又は従来技術の実施よりも1つ又は複数の特徴に関して望ましくないと説明した箇所についても、これらの実施形態が本開示の範囲外にあるというわけではなく、特定の用途にとっては望ましいものであることもある。
【外国語明細書】