(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024117086
(43)【公開日】2024-08-28
(54)【発明の名称】ドメイン適応ニューラルネットワークを訓練する方法、及び関連付けられるデバイス
(51)【国際特許分類】
G06V 10/82 20220101AFI20240821BHJP
G06T 7/00 20170101ALI20240821BHJP
G06N 3/096 20230101ALI20240821BHJP
G06N 3/0455 20230101ALI20240821BHJP
【FI】
G06V10/82
G06T7/00 350C
G06N3/096
G06N3/0455
【審査請求】有
【請求項の数】17
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024021893
(22)【出願日】2024-02-16
(31)【優先権主張番号】23157035.9
(32)【優先日】2023-02-16
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(71)【出願人】
【識別番号】508374139
【氏名又は名称】エー・テー・ハー・チューリッヒ
【氏名又は名称原語表記】ETH ZUERICH
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100092624
【弁理士】
【氏名又は名称】鶴田 準一
(74)【代理人】
【識別番号】100147555
【弁理士】
【氏名又は名称】伊藤 公一
(74)【代理人】
【識別番号】100123593
【弁理士】
【氏名又は名称】関根 宣夫
(74)【代理人】
【識別番号】100133835
【弁理士】
【氏名又は名称】河野 努
(72)【発明者】
【氏名】ウィム アブルー
(72)【発明者】
【氏名】クリストス サカリディス
(72)【発明者】
【氏名】フィッシャー ユー
(72)【発明者】
【氏名】ルク ファン ホール
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096FA23
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
【課題】画像のセマンティックセグメンテーションを生成するように構成されたドメイン適応ニューラルネットワークを訓練するコンピュータ実装方法を提供すること。
【解決手段】本方法は、ソースドメインに属する少なくとも1つのラベル付きソース画像、ソースドメインと異なるターゲットドメインに属する少なくとも1つのラベルなしターゲット画像、少なくとも1つの定型化ソース画像、及び少なくとも1つの定型化ターゲット画像をニューラルネットワークに入力することと、所与の画像から生成される特徴と所与の画像の少なくとも1つの定型化バージョンから生成される特徴との差にペナルティを与える損失関数を最小化することによってニューラルネットワークを訓練することと、を含む。
【選択図】
図6
【特許請求の範囲】
【請求項1】
ニューラルネットワークを訓練するコンピュータ実装方法であって、前記方法は、
ソースドメインに属する少なくとも1つのラベル付きソース画像(IS)、前記ソースドメインと異なるターゲットドメインに属する少なくとも1つのラベルなしターゲット画像(IT)、少なくとも1つの定型化ソース画像(IS→T)、及び少なくとも1つの定型化ターゲット画像(IT→S)を前記ニューラルネットワークに入力することと、
前記ラベル付きソース画像(IS)から生成される特徴(φ(IS))と前記少なくとも1つの定型化ソース画像(IS→T)から生成される特徴(φ(IS→T))との差にペナルティを与え、及び/又は前記少なくとも1つのターゲット画像(IT)から生成される特徴(φ(IT))と前記少なくとも1つの定型化ターゲット画像(IT→S)から生成される特徴(φ(IT→S))との差にペナルティを与える損失関数(LCISS)を最小化することによって前記ニューラルネットワークを訓練することと、
を含む、コンピュータ実装方法。
【請求項2】
前記少なくとも1つのラベル付きソース画像(IS)及び前記少なくとも1つのラベルなしターゲット画像(IT)は、異なる照明条件及び/又は気象条件下で取り込まれる、請求項1に記載の方法。
【請求項3】
前記少なくとも1つの定型化ソース画像(IS→T)は、前記ソース画像(IS)に対して定型化方法を適用することによって生成され、前記定型化方法は、前記ソース画像(IS)の構造コンテンツを維持し、前記少なくとも1つの定型化ソース画像(IS→T)は、前記ターゲットドメインに属する画像の様式を有する、請求項1又は2に記載の方法。
【請求項4】
前記少なくとも1つの定型化ターゲット画像(IT→S)は、前記ターゲット画像(IT)に対して定型化方法を適用することによって生成され、前記定型化方法は、前記ターゲット画像(IT)の構造コンテンツを維持し、前記少なくとも1つの定型化ターゲット画像(IT→S)は、前記ソースドメインに属する画像の様式を有する、請求項1又は2に記載の方法。
【請求項5】
前記ニューラルネットワークは、中間の特徴を生成するように構成されたエンコーダ(φ)を備え、前記損失関数(LCISS)の最小化は、前記エンコーダに対して、照明条件及び/又は気象条件に対して不変である中間の特徴(φ(I)、φ(I’))を生成するように促す、請求項1又は2に記載の方法。
【請求項6】
前記損失関数(L
CISS)は、
前記少なくとも1つのラベル付きソース画像(I
S)から生成される特徴(φ(I
S))と前記少なくとも1つの定型化ソース画像(I
S→T)から生成される特徴(φ(I
S→T))との前記差にペナルティを与える第1の特徴不変損失、
前記少なくとも1つのターゲット画像(I
T)から生成される特徴(φ(I
T))と前記少なくとも1つの定型化ターゲット画像(I
T→S)から生成される特徴(φ(I
T→S))との前記差にペナルティを与える第2の特徴不変損失、
前記ソース画像I
SのラベルのセットY
Sを有する、前記ラベル付きソース画像(I
S)についての前記訓練されたニューラルネットワークの出力における交差エントロピー誤差L
CE(F、I
S、Y
S)、及び
前記ターゲット画像I
Tの擬似ラベルのセット
【数1】
を有する、前記ターゲット画像(I
T)についての前記訓練されたニューラルネットワークの出力における交差エントロピー誤差
【数2】
の合計に対応する、請求項1又は2に記載の方法。
【請求項7】
前記第1及び第2の特徴不変損失は、前記ソース画像(I
S)及び前記ターゲット画像(I
T)の中の画像であるIと、Iの定型化バージョンであるI’と、φ(I)、φ(I’)∈R
D×M×Nを用いてボトルネック層によって生成される前記特徴であるφ(I)及びφ(I’)と、フロベニウスノルムである||・||
Fと、チャネル数であるDと、特徴マップの空間次元であるM及びNと、を有する、
【数3】
として定められる、請求項6に記載の方法。
【請求項8】
前記ソース画像(IS)に対して定型化方法を適用することによって前記少なくとも1つの定型化ソース画像(IS→T)を生成することと、前記ターゲット画像(IT)に対して前記定型化方法を適用することによって前記少なくとも1つの定型化ターゲット画像(IT→S)を生成することと、を更に含む、請求項1又は2に記載の方法。
【請求項9】
前記ソース画像(I
S)に対して前記定型化方法を適用することは、
前記ソース画像(I
S)に対してフーリエ変換(F)を適用してソース画像位相F
P(I
S)及びソース画像振幅F
A(I
S)を取得することと、
前記少なくとも1つのターゲット画像(I
T)に対してフーリエ変換(F)を適用してターゲット画像振幅F
A(I
T)を取得することと、
-前記ソース画像振幅F
A(I
S)の低周波数部分を前記ターゲット画像振幅F
A(I
T)の低周波数部分に置き換えることと、
マスクであるM
βを有する
【数4】
のように逆フーリエ変換F
-1を適用することによって前記少なくとも1つの定型化ソース画像(I
S→T)を生成することと、
を含む、請求項8に記載の方法。
【請求項10】
請求項1又は2に記載の方法によって訓練される、ニューラルネットワーク。
【請求項11】
少なくとも1つのプロセッサと、請求項1又は2に記載のニューラルネットワークを訓練する前記方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイス。
【請求項12】
電子デバイスによる実行時に、請求項1又は2に記載のニューラルネットワークを訓練する前記方法を前記電子デバイスに実行させる、コンピュータプログラム。
【請求項13】
コンピュータによって読み取り可能であって、請求項1又は2に記載のニューラルネットワークを訓練する前記方法を実行する命令を含むコンピュータプログラムが記録された、記録媒体。
【請求項14】
入力画像のセマンティックセグメンテーションを生成するコンピュータ実装方法であって、前記方法は、
請求項1又は2に記載の方法を行うことによって訓練されるニューラルネットワークを取得することと、
前記取得されたニューラルネットワークを使用して前記入力画像のセマンティックセグメンテーションを生成することと、
を含む、コンピュータ実装方法。
【請求項15】
少なくとも1つのプロセッサと、請求項14に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイス。
【請求項16】
電子デバイスによる実行時に、請求項14に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を前記電子デバイスに実行させる、コンピュータプログラム。
【請求項17】
コンピュータによって読み取り可能であって、請求項14に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を実行する命令を含むコンピュータプログラムが記録された、記録媒体。
【発明の詳細な説明】
【背景技術】
【0001】
1.本発明の分野
本開示は、コンピュータビジョンの分野に関する。より正確には、本開示は、異なるドメインに属する画像のセマンティックセグメンテーションを生成することが可能であり得るニューラルネットワークに関する。
【0002】
2.関連技術の説明
機械学習技術は典型的に、信頼できる性能を得るために、所与のドメインに関連付けられた莫大な量のラベル付きデータを必要とする。しかしながら、新しいドメインに対応する大きいデータセットの収集及びアノテーションは、非常に費用がかかり、時間を要し、エラーが起きやすい。更に、一部のドメインでは、充分な訓練データが利用可能ではない。そして、あるドメインのデータセットに対して訓練されるモデルは、「ドメインシフト」により、別のドメインのデータに対してテストされる場合に乏しい結果を提供する。
【0003】
しかしながら、大量のデータがたまたま、検討されているものに関連する別のドメインに対して利用可能であることもよくある。したがって、あるドメインのサンプルに対して訓練される学習モデルを適応させて、別のドメインのサンプルに対してタスクを適用することは有利である。
【0004】
ドメイン適応(DA)は、1つ以上のドメイン(「ソースドメイン」と名付けられる)のサンプルを用いて訓練され、次いで、異なっているが関連するドメイン(「ターゲットドメイン」と名付けられる)のサンプルに対してタスクを適用するように構成されたモデルのケースを検討することによって当該問題に対処する学習タスクである。ドメイン適応の目的は、最初に所与のドメインのサンプルに対して訓練されるが、次いで、当該所与のドメインに関連する別のドメインのサンプルを処理するように適応したモデルを提供することによって、典型的に学習モデルの性能を低下させるソースドメインとターゲットドメインとの間のシフトに対処することである。ドメイン適応は典型的に、特定のタイプの転移学習と見なされ、ここで、ソースドメイン及びターゲットドメインのデータ分布は異なっているが、ソースドメイン及びターゲットドメインのラベル空間は同じである。
【0005】
ソースドメインからのサンプルのみを検討することによってターゲットドメインのサンプルを処理するようにモデルを適応させることは、存在するドメインシフトが小さい場合であっても、乏しい性能につながる。これに対処するために、教師なしドメイン適応(UDA)技術は、ソースドメインからのラベル付きサンプル及びターゲットドメインからのラベルなしサンプルを処理する。UDA技術は、セマンティックセグメンテーションに対して特に有用であって、セマンティックセグメンテーションでは、学習モデルは、莫大な量の手動のラベル付きデータを必要とし、これは、ピクセルごとのラベリングが必要とされるため、取得するのに費用がかかる。セマンティックセグメンテーションは、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てるタスクとして定められる。典型的に、ソースドメインに対する最初の教師あり訓練は、ラベルが利用可能でないターゲットドメインに対しても信頼できる性能を達成することを目的とする教師なし学習法によってターゲットドメインに適応する。
【0006】
当該技術は特に、これらの合成データと現実世界データとの間のギャップを埋めるように適応する。実際、コンピュータグラフィックス分野は、大量の注釈付き合成データを生成し、当該大量の注釈付き合成データは、最終的に現実世界データの処理専用のモデルを訓練するために使用され得る。次いで、UDA技術は、現実世界の訓練データに必要である、時間を要し且つ非常に費用がかかる手動のラベリングを回避することを可能にする。
【0007】
しかしながら、合成対現実の適応において検証されるほとんどの特徴レベル適応方法は、通常対悪条件レベル適応においてわずかな利得を提供する。
【0008】
したがって、通常条件を表すデータを用いて訓練されるが、悪条件を表すデータを処理することを意図したセマンティックセグメンテーションモデルの分野において改善の余地がある。
【発明の概要】
【0009】
このために、本発明はまず、画像のセマンティックセグメンテーションを生成するようにドメイン適応ニューラルネットワークを訓練するコンピュータ実装方法を提供し、方法は、
ソースドメインに属する少なくとも1つのラベル付きソース画像、ソースドメインと異なるターゲットドメインに属する少なくとも1つのラベルなしターゲット画像、少なくとも1つの定型化ソース画像、及び少なくとも1つの定型化ターゲット画像をニューラルネットワーク(F)に入力することと、
少なくとも1つのラベル付きソース画像から生成される特徴と少なくとも1つの定型化ソース画像から生成される特徴との差にペナルティを与える損失関数、及び/又は少なくとも1つのターゲット画像から生成される特徴と少なくとも1つの定型化ターゲット画像から生成される特徴との差にペナルティを与える損失関数を最小化することによってニューラルネットワークを訓練することと、を含む。
【0010】
したがって、上述の方法は、(「ソースドメイン」と名付けられる)所与のドメインに属するラベル付き画像、及び(「ターゲットドメイン」と名付けられる)別のドメインに属するラベルなし画像を用いてニューラルネットワークを訓練する方法を提案する。ソース画像及び少なくとも1つの定型化ソース画像はラベル付きであるが、ターゲット画像及び少なくとも1つの定型化ターゲット画像はラベルなしである。
【0011】
しかしながら、ニューラルネットワークに入力されるソース画像及び少なくとも1つの定型化ソース画像が、同じ視点における同じシーンを示し、且つ少なくとも1つのターゲット画像及び少なくとも1つの定型化ターゲット画像が、同じ視点における別の単一のシーンを示すという条件下で、ニューラルネットワークの訓練が行われる。
【0012】
本明細書で、「視点」は、シーンの画像を取得するために使用されるカメラに対する視点に対応する。
【0013】
ソース画像及びターゲット画像は、それらのコンテンツ及び様式において異なっている、すなわち、それらは、異なる照明条件及び/又は気象条件で取り込まれたシーンを表す。例では、ソース画像は、通常の条件下(例えば、昼間、空が明るい青空のとき、約20000ルクス)で取り込まれたシーン画像で構成されたソースドメインに属し、少なくとも1つのターゲット画像は、悪条件下(例えば、照度が1ルクスよりも下であるか又は霧がかかった気象である夜間)で取り込まれたシーン画像のバッチで構成されたターゲットドメインに属する。
【0014】
本明細書で、「通常の条件」は、降水がないか又は雪が地面を覆っていない、すなわち、良好な視認性をもたらす昼間及び明るい気象の組合せとして定められる。一方、「悪条件」は、場合により、降水及び/若しくは地面を覆っている雪、並びに/又は好ましくない光度を伴う、すなわち、乏しい視認性をもたらす「悪天候」を含む。
【0015】
以下で更に詳述されるように、少なくとも1つの定型化ソース画像は、ターゲット画像の様式をソース画像にマッピングすることによって生成される。このように、ソース画像及び少なくとも1つの定型化ソース画像は、同様の構造コンテンツを有し、少なくとも1つの定型化ソース画像は、ターゲットドメインに属する画像の様式を有する。換言すれば、上記方法では、様式情報のみが、少なくとも1つの定型化ソース画像を生成するようにターゲット画像から活用される。次いで、訓練は、ソース画像及び少なくとも1つの定型化ソース画像から抽出される特徴間の距離を低減しようとし、両方の画像が同様の構造コンテンツを有するため、ニューラルネットワークは、これらの入力画像の様式に対して不変である特徴表現を生成するように促される。
【0016】
同様に、少なくとも1つの定型化ターゲット画像は、ソース画像の様式をターゲット画像にマッピングすることによって生成される。このように、ターゲット画像及び少なくとも1つの定型化ターゲット画像は、同様の構造コンテンツを有し、少なくとも1つの定型化ターゲット画像は、ソースドメインに属する画像の様式を有する。換言すれば、上記方法では、様式情報のみが、少なくとも1つの定型化ターゲット画像を生成するようにソース画像から活用される。訓練はまた、ターゲット画像から抽出される特徴と少なくとも1つの定型化ターゲット画像に関する特徴との間の距離を低減しようとし、両方の画像が同様の構造コンテンツを有するため、ニューラルネットワークは、これらの入力画像の様式に対して不変である特徴表現を生成するように促される。
【0017】
ニューラルネットワークは、入力画像のセマンティックセグメンテーションを生成するように訓練される。セマンティックセグメンテーションの目的は、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てることである。セマンティックセグメンテーションは、画像分類では単一のラベルがシーン全体に割り当てられるという点で、画像分類と異なっている。当該ラベルは、シーンにおける支配的なオブジェクトを示す。セマンティックセグメンテーションはまた、オブジェクト検出ではオブジェクトがバウンディングボックスによって識別されてラベルが各ボックスに割り当てられるという点で、オブジェクト検出と異なっている。
【0018】
入力画像のセマンティックセグメンテーションは、様々なオブジェクトに対応する領域にクラスタリングされる画像、及びそのセマンティックコンテンツを表すカテゴリでラベル付けされる構造をもたらす。
【0019】
オブジェクトの「カテゴリ」は、オブジェクト検出又はセマンティックセグメンテーションの分野における当業者によって通常行われるように、オブジェクトのタイプ又はクラスと称され得る。一例として、カテゴリは、道路上で観測されるシーンにおいて典型的に存在するオブジェクトのカテゴリのリストから選択され得る。例えば、カテゴリは、車、歩行者、自転車に乗っている人、バス、トラックなどを備えるリスト内で選択され得る。カテゴリはまた、より正確に定められ得る(例えば、車について、セダン、コンパクトカーなどを考慮することが可能である)。
【0020】
ニューラルネットワークの訓練は、反復して行われ得る。そのケースでは、複数のソース画像及び複数のターゲット画像は、異なるシーンを表し、各々が、異なる構造コンテンツを有する。次いで、複数の定型化ソース画像及び定型化ターゲット画像が生成され、訓練ステップが反復して適用される。
【0021】
ニューラルネットワークは、画像から抽出される特徴間の差にペナルティを与える損失関数を最小化することによって訓練される。当該差は、距離として表され得、(バッチ訓練のケースでは)複数の距離が計算された後、確率的勾配降下法又は任意の他の好適な訓練アルゴリズム若しくは確率的勾配降下法の変形体が使用され得る。確率的勾配降下法は、ニューラルネットワークの重みを適応させるために使用され得る。本発明に係る訓練方法は、損失関数を最小化すること、例えば、この損失を逆伝播させることを含む。
【0022】
特定の実装態様では、ラベル付きソース画像及び少なくとも1つのラベルなしターゲット画像は、異なる照明条件及び/又は気象条件下で取り込まれる。
【0023】
特定の実装態様では、少なくとも1つの定型化ソース画像は、ソース画像に対して定型化方法を適用することによって生成され、定型化方法は、ソース画像の構造コンテンツを維持し、少なくとも1つの定型化ソース画像は、ターゲットドメインに属する画像の様式を有する。
【0024】
特定の実装態様では、少なくとも1つの定型化ターゲット画像は、ターゲット画像に対して定型化方法を適用することによって生成され、定型化方法は、ターゲット画像の構造コンテンツを維持し、少なくとも1つの定型化ターゲット画像は、ソースドメインに属する画像の様式を有する。
【0025】
特定の実装態様では、ニューラルネットワークは、中間の特徴を生成するように構成されたエンコーダを備え、損失関数を最小化するステップは、エンコーダに対して、照明条件及び/又は気象条件に対して不変である中間の特徴を生成するように促す。
【0026】
特定の実装態様では、ソース画像のラベルは、ソース画像のセマンティックセグメンテーション予測の教師用にグラウンドトゥルースとして使用される。
【0027】
特定の実装態様では、ニューラルネットワークは、生成された特徴を「セマンティッククラス」又は「カテゴリ」にパースするように構成されたデコーダを更に備える。
【0028】
前述のように、「カテゴリ」の概念は、オブジェクト検出又はセマンティックセグメンテーションの分野における当業者によって通常行われるように、オブジェクトのタイプ又はクラスと称され得る。
【0029】
特定の実装態様では、損失関数は、
少なくとも1つのラベル付きソース画像から生成される特徴と少なくとも1つの定型化ソース画像から生成される特徴との差にペナルティを与える第1の特徴不変損失であって、上記少なくとも1つの定型化ソース画像は、前述のラベル付きソース画像と同じ構造コンテンツを備える、第1の特徴不変損失、
少なくとも1つのターゲット画像から生成される特徴と少なくとも1つの定型化ターゲット画像から生成される特徴との差にペナルティを与える第2の特徴不変損失であって、上記少なくとも1つの定型化ターゲット画像は、前述のターゲット画像と同じ構造コンテンツを備える、第2の特徴不変損失、
ソース画像I
SのラベルのセットY
Sを有する、ラベル付きソース画像についての訓練されたニューラルネットワークの出力における交差エントロピー誤差L
CE(F、I
S、Y
S)、及び
-ターゲット画像I
Tの擬似ラベルのセット
【数1】
を有する、ターゲット画像についての訓練されたニューラルネットワークの出力における交差エントロピー誤差
【数2】
の合計に対応する。
【0030】
特定の実装態様では、第1及び第2の特徴不変損失は、ソース画像及びターゲット画像の中の画像であるIと、Iの定型化バージョンであるI’と、φ(I)、φ(I’)∈R
D×M×Nを用いてボトルネック層によって生成される特徴であるφ(I)及びφ(I’)と、フロベニウスノルムである||・||
Fと、チャネル数であるDと、特徴マップの空間次元であるM及びNと、を有する、
【数3】
として定められる。
【0031】
特定の実装態様では、方法は、ソース画像に対して定型化方法を適用することによって少なくとも1つの定型化ソース画像を生成することと、ターゲット画像に対して定型化方法を適用することによって少なくとも1つの定型化ターゲット画像を生成することと、を更に含む。
【0032】
特定の実装態様では、ソース画像に対して定型化方法を適用することは、
ソース画像に対してフーリエ変換を適用してソース画像位相F
P(I
S)及びソース画像振幅F
A(I
S)を取得することと、
少なくとも1つのターゲット画像に対してフーリエ変換を適用してターゲット画像振幅F
A(I
T)を取得することと、
ソース画像振幅F
A(I
S)の低周波数部分をターゲット画像振幅F
A(I
T)の低周波数部分に置き換えることと、
マスクであるM
βを有する
【数4】
のように逆フーリエ変換F
-1を適用することによって少なくとも1つの定型化ソース画像を生成することと、
を含む。
【0033】
本発明はまた、本発明に係る方法によって訓練されるニューラルネットワークに関する。
【0034】
第3の態様によれば、本発明は、少なくとも1つのプロセッサと、上述の方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイスに関する。
【0035】
第4の態様によれば、本発明は、入力画像のセマンティックセグメンテーションを生成するコンピュータ実装方法に関し、方法は、
上述のニューラルネットワークを訓練する方法を行うことによって訓練されるニューラルネットワークを取得することと、
取得されたニューラルネットワークを使用して入力画像のセマンティックセグメンテーションを生成することと、を含む。
【0036】
前述のように、入力画像のセマンティックセグメンテーションを生成することは、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てることを目的とする。
【0037】
第5の態様によれば、本発明は、少なくとも1つのプロセッサと、上述のセマンティックセグメンテーションを生成する方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイスに関する。
【0038】
第6の態様によれば、本発明は、ニューラルネットワークを訓練する方法を実装するように構成された電子デバイスと、入力画像のセマンティックセグメンテーションを生成する方法を実装するように構成された電子デバイスと、を備えるシステムに関する。
【0039】
本発明の実施形態はまた、プログラムに及び、当該プログラムは、コンピュータ若しくはプロセッサにおいて実行されると、コンピュータ若しくはプロセッサに上述の方法を実行させるか、又はプログラム可能なデバイスにロードされると、当該デバイスを上述のデバイスとなるようにする。プログラムは、それ自体で提供され得るか、又はキャリア媒体で搭載され得る。キャリア媒体は、記憶若しくは記録媒体であり得るか、又は信号などの送信媒体であり得る。本発明を具現化するプログラムは、一時的又は非一時的であり得る。
【図面の簡単な説明】
【0040】
本発明の好ましい実施形態の特徴、利点、並びに技術的及び産業的な重要性は、添付図面を参照して以下に記載され、当該添付図面では、同様の符号は同様の要素を示す。
【0041】
【
図1】ニューラルネットワークを訓練する方法を実装するように構成された電子デバイス(10A)の特定の実装態様を示す図である。
【
図2】入力画像のセマンティックセグメンテーションを生成するように構成された電子デバイス(10B)の特定の実装態様を示す図である。
【
図3】
図1によって示される電子デバイス(10A)のハードウェアアーキテクチャの例を示す図である。
【
図4】
図2によって示される電子デバイス(10B)のハードウェアアーキテクチャの例を示す図である。
【
図5】
図1によって示される電子デバイス(10A)の機能表現を示す図である。
【
図6】本発明の特定の実装態様に係る、ニューラルネットワークを訓練する方法のフローチャートである。
【
図7】本発明の特定の実装態様に係る、入力画像のセマンティックセグメンテーションを生成する方法のフローチャートである。
【
図8】都市景観データセット、及び対応関係を伴う悪条件データセット(ACDC)を使用して、「通常対悪ドメイン適応」シナリオについて
図1の電子デバイス(10A)を用いて得られた定性的な結果を示す図である。
【発明を実施するための形態】
【0042】
本発明の目的について、添付図面に示され以下の明細書に記載される特定のデバイス及びプロセスは、本開示の主題の単なる好ましい実施形態又は態様であることを理解されたい。したがって、本明細書に開示される実施形態又は態様に関連する特定の寸法及び他の物理的特徴は、特に示されていない限り、限定的なものと見なされるべきではない。
【0043】
本明細書で使用される態様、構成要素、要素、モジュール、エンティティ、ステップ、機能、命令、及び/又は同種のものは、特に明示的に記載されていない限り、重要又は必須であると解釈されるべきではない。また、本明細書で使用される冠詞「a」及び「an」は、1つ以上の事項を含むことを意図したものであり、「1つ以上」及び「少なくとも1つ」と交換可能に使用され得る。1つの事項のみを意図したものである場合、「1つ」という用語又は同様の用語が使用される。また、本明細書で使用される用語「有する(has)」、「有する(have)」、「有している(having)」、又は同種のものは、オープンエンドの用語であることを意図したものである。更に、「~に基づいて」というフレーズは、特に明示的に述べられていない限り、「~に少なくとも部分的に基づいて」を意味することを意図したものである。
【0044】
図1は、ニューラルネットワークを訓練する方法を実装するように構成された電子デバイス10Aの特定の実装態様を示す。
【0045】
図2は、入力画像のセマンティックセグメンテーションを生成するように構成された電子デバイス10Bの特定の実装態様を示す。
【0046】
残りの説明は、より具体的には、入力画像のセマンティックセグメンテーションを提供するためのニューラルネットワークの訓練を目的とする。考慮されるニューラルネットワークの性質(畳み込み、パーセプトロン、オートエンコーダ、リカレントなど)が何であっても、特に、任意のディープニューラルネットワークについて、依然、本発明は適用可能である。
【0047】
加えて、セマンティックセグメンテーションモデルに入力され得る画像(「入力画像」とも名付けられる)の種類又はコンテンツに対して限定が付与されることはなく、入力画像に基づいて出力され得るセマンティックセグメンテーションの種類に対して限定が付与されることはない(すなわち、クラス又は「カテゴリ」の性質は、本発明の限定的な因子ではない。具体的には、当該画像は、例えば、自律車両によって取り込まれるピクセルレベルのセマンティックアノテーションを有する都市シーンの画像を含み得る。
【0048】
因みに、セマンティックセグメンテーションは依然、画像分類又はオブジェクト検出のようなより単純な問題と比較した場合に、自動的な視覚的理解において困難且つ複雑なタスクであって、実際、画像分類では、単一のラベルは、入力画像によって取り込まれるシーンにおいて支配的なオブジェクトを指す入力画像全体に割り当てられ、オブジェクト検出では、オブジェクトは、2Dバウンディングボックスによって識別され、ラベルは、各ボックスに割り当てられる。一方、セマンティックセグメンテーションでは、入力画像の各ピクセルは、そのセマンティックコンテンツに対応するラベルに割り当てられる。
【0049】
電子デバイス10Aは、画像のセマンティックセグメンテーションの精度を改善できるようにニューラルネットワーク(F)を訓練するように構成されている。次いで、訓練されたニューラルネットワークは、入力画像のセマンティックセグメンテーションを生成する方法を実装する電子デバイス10Bの入力として使用される。上記方法は、以下で「セマンティックセグメンテーション方法」と称される。ここで、ニューラルネットワークが本発明に従って改善(又は「適応」)されていない場合よりも正確なセマンティックセグメンテーション結果を得ることに対して、「セマンティックセグメンテーションの精度の改善」によって言及される。
【0050】
図3は、
図1によって示される電子デバイス10Aのハードウェアアーキテクチャの例を示す。
【0051】
電子デバイス10Aは、コンピュータのハードウェアアーキテクチャを有する。
図3に示されるように、電子デバイス10Aは、プロセッサ1を備える。単一のプロセッサ1として示されているが、2つ以上のプロセッサが、電子デバイス10Aの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。概して、プロセッサ1は、命令を実行しデータを操作して、本開示に記載されるように電子デバイス10Aの動作、並びに任意のアルゴリズム、方法、機能、プロセス、フロー、及び手順を行う。
【0052】
電子デバイス10Aはまた、通信手段5を備え、通信手段5は、当該電子デバイス10Aに対して通信可能に接続された別の電子デバイスと通信するために、例えば、複数のラベル付きソース画像及び複数のターゲット画像を記憶したデータベースに接続するために、電子デバイス10Aによって使用され、ここで、複数のうちの各ソース画像は、少なくとも1つのターゲット画像に関連付けられる。概して、通信手段5は、無線ネットワークと通信するように動作可能であって、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せでエンコードされるロジックを備える。より具体的には、通信手段5は、通信と関連付けられる1つ以上の通信プロトコルをサポートするソフトウェアを備え得、その結果、無線ネットワーク又はインターフェースのハードウェアは、示された電子デバイスの内外で物理的な信号を通信するように動作可能である。
【0053】
図3で単一の通信手段5として示されているが、2つ以上の通信手段が、システムの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。電子デバイス10Aはまた、ランダムアクセスメモリ2と、リードオンリーメモリ3と、不揮発性メモリ4と、を備える。
【0054】
電子デバイス10Aの不揮発性メモリ4は、本発明に係る、ニューラルネットワークを訓練する方法を実行する命令を含む、本発明に従ったコンピュータプログラムPROG_IMPを記憶する。
【0055】
プログラムPROG_IMPは、電子デバイス10Aの機能モジュールを定め、当該機能モジュールは、電子デバイス10Aの前述の要素1~5に基づいているか、又はそれらを制御し、特に、
ソースドメインに属する少なくとも1つのラベル付きソース画像(IS)、ソースドメインと異なるターゲットドメインに属する少なくとも1つのラベルなしターゲット画像(IT)、少なくとも1つの定型化ソース画像(IS→T)、及び少なくとも1つの定型化ターゲット画像(IT→S)をニューラルネットワーク(F)に入力するように構成されたモジュールMOD_OB_IMGと、
少なくとも1つのラベル付きソース画像(IS)から生成される特徴(φ(IS))と少なくとも1つの定型化ソース画像(IS→T)から生成される特徴(φ(IS→T))との差にペナルティを与える損失関数(LCISS)、及び/又は少なくとも1つのターゲット画像(IT)から生成される特徴(φ(IT))と少なくとも1つの定型化ターゲット画像(IT→S)から生成される特徴(φ(IT→S))との差にペナルティを与える損失関数(LCISS)を最小化することによってニューラルネットワーク(F)を訓練するように構成されたモジュールMOD_IMPと、を備える。
【0056】
上述の異なる機能モジュールは、単一の電子デバイス(10A)の一部であり得るか、又はシステムに属する複数の電子デバイスに分散され得る。
【0057】
図4は、
図2によって示される電子デバイス10Bのハードウェアアーキテクチャの例を示す。
【0058】
電子デバイス10Bは、コンピュータのハードウェアアーキテクチャを有する。
図4に示されるように、電子デバイス10Bは、プロセッサ1を備える。単一のプロセッサ1として示されているが、2つ以上のプロセッサが、電子デバイス10Bの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。概して、プロセッサ1は、命令を実行しデータを操作して、本開示に記載されるように電子デバイス10Bの動作、並びに任意のアルゴリズム、方法、機能、プロセス、フロー、及び手順を行う。
【0059】
電子デバイス10Bはまた、通信手段5を備え、通信手段5は、当該電子デバイス10Bに対して通信可能に接続された別の電子デバイスと通信するために、例えば、前述のニューラルネットワークを訓練する方法に従って一度訓練されたニューラルネットワークを受信するように電子デバイス10Aに接続するために、電子デバイス10Bによって使用される。
【0060】
概して、通信手段5は、無線ネットワークと通信するように動作可能であって、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せでエンコードされるロジックを備える。より具体的には、通信手段5は、通信と関連付けられる1つ以上の通信プロトコルをサポートするソフトウェアを備え得、その結果、無線ネットワーク又はインターフェースのハードウェアは、示されたシステムの内外で物理的な信号を通信するように動作可能である。
【0061】
図4で単一の通信手段5として示されているが、2つ以上の通信手段が、電子デバイス10Bの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。電子デバイス10Bはまた、ランダムアクセスメモリ2と、リードオンリーメモリ3と、不揮発性メモリ4と、を備える。
【0062】
電子デバイス10Bの不揮発性メモリ4は、本発明に係る、入力画像のセマンティックセグメンテーションを生成する方法を実行する命令を含む、本発明に従ったコンピュータプログラムPROG_GENを記憶する。
【0063】
プログラムPROG_GENは、電子デバイス10Bの機能モジュールを定め、当該機能モジュールは、電子デバイス10Aの前述の要素1~5に基づいているか、又はそれらを制御し、特に、
本発明に係る、ニューラルネットワーク(F)を訓練する方法を行うことによって生成されるニューラルネットワーク(F)を取得するように構成されたモジュールMOD_OB_Fと、
取得されたニューラルネットワーク(F)を使用して入力画像のセマンティックセグメンテーションを生成するように構成されたモジュールMOD_GENと、を備える。
【0064】
上述の異なる機能モジュールは、単一の電子デバイス(10B)の一部であり得るか、又はシステムに属する複数の電子デバイスに分散され得る。
【0065】
図5は、
図1によって示される電子デバイス10Aの機能表現を示す。
【0066】
前述のように、電子デバイス10Aは、いくつかの関連ドメインに属する画像を処理するようにニューラルネットワークを訓練する方法を実装する。したがって、電子デバイス10Aは、同じシーンの画像のペアのエンコードされた特徴間の差にペナルティを与えることによって表現を学習し、ペアの画像の一方は、他方の「定型化バージョン」である。
【0067】
より正確には、電子デバイス10Aは、2つの特徴マップ間の差にペナルティを与える特徴不変損失を用いて2つの画像から抽出される特徴を整合させるように構成されている。直観的には、セマンティックセグメンテーションネットワークのエンコーダは、シーンの様式に不変である特徴を出力すべきであって、その結果、デコーダはその後、同じシーンの異なるバージョンについて同一の出力を生成することができ、これは、これらのバージョンのグラウンドトゥルースセマンティックも同一であるためである。
【0068】
そのために、
図5によって示されるように、ソースドメインに属するラベル付きソース画像I
S及びターゲットドメインに属するラベルなしターゲット画像I
Tは、ニューラルネットワークFに入力される。ラベル付きソース画像I
S及びターゲット画像I
Tは、異なるシーンを表し、各々は、異なる照明条件及び/又は気象条件下で取り込まれる。「ラベル付きソース画像」は、ピクセルのセマンティックコンテンツを表すラベルに関連付けられるピクセルを有する画像を指す。特定のケースでは、ラベル付きソース画像は、当該画像の各ピクセルがラベルに関連付けられる画像を指し得る。
【0069】
「定型化関数」gは、定型化ソース画像IS→Tを生成するように、ソース画像ISに対して適用され、ターゲット画像ITも入力に取り込む。当該「定型化関数」gはまた、定型化ターゲット画像IT→Sを生成するように、ソース画像ISを入力として更に取り込むことによってターゲット画像ITに対して適用される。次いで、定型化ソース画像IS→T及び定型化ターゲット画像IT→Sはまた、ニューラルネットワークFに入力される。
【0070】
更に以下で記載されるように、ソース画像ISに対して適用される定型化関数gは、ソース画像IS及び定型化ソース画像IS→Tが同様の構造コンテンツを有し、且つ少なくとも1つの定型化ソース画像がターゲットドメインに属する画像の様式を有するような定型化ソース画像IS→Tの生成を可能にする。換言すれば、当該定型化方法は、ソース画像ISの構造コンテンツを維持する。同様に、ターゲット画像ITに対して適用される定型化関数gは、ターゲット画像IT及び定型化ターゲット画像IT→Sが同様の構造コンテンツを有し、且つ定型化ターゲット画像IT→Sがソースドメインに属する画像の様式を有するような定型化ターゲット画像IT→Sの生成を可能にする。
【0071】
次いで、「エンコーダ」φとも名付けられる表現の基幹は、画像IS、IT、IS→T、及びIT→Sから「特徴表現」φ(IS)、φ(IT)、φ(IS→T)、及びφ(IT→S)を生成する。これらの特徴表現は、「特徴マップ」と称されることもある。エンコーダは、全畳み込みエンコーダである方がよい。そのケースでは、ボトルネック層の出力に対応する表現φ(.)∈RD*M*Nが生成され、ここで、Dは、特徴マップのチャネル次元(すなわち、チャネル数)に対応し、M及びNは、特徴マップの2つの空間次元(すなわち、それぞれ、特徴マップの行数及び列数)である。
【0072】
ニューラルネットワークは、ソース画像ISと定型化ソース画像IS→Tとの差にペナルティを与える特徴不変損失を最小化することによって、別のドメインに属する画像のセマンティックセグメンテーションの精度を改善できるように訓練される。そのために、特徴φ(IS)及びφ(IS→T)は、特徴不変損失モジュールLINVに供給され、特徴不変損失モジュールLINVは、LINV(F、IS、IS→T)と名付けられる特徴不変損失を生成する。ソース画像IS及び定型化ソース画像IS→Tは、同様の構造コンテンツを有するが、それらの様式に関してのみ異なっており、関数LINVの最小化は、エンコーダφに対して、入力画像の様式から独立した特徴表現を生成するように促す。特定の方法において、これは、特徴φ(IS)及びφ(IS→T)間の距離を最小化することによって実装され得る。
【0073】
ニューラルネットワークはまた、ターゲット画像ITと定型化ターゲット画像IT→Sとの差にペナルティを与える特徴不変損失LINVを最小化することによって訓練される。そのために、特徴φ(IT)及びφ(IT→S)は、特徴不変損失モジュールLINVに供給され、特徴不変損失モジュールLINVは、LINV(F、IT、IT→S)と名付けられる特徴不変損失を生成する。ターゲット画像IT及び定型化ターゲット画像IT→Sは、同様の構造コンテンツを有するが、それらの様式に関してのみ異なっており、関数LINVの最小化は、エンコーダφに対して、入力画像の様式から独立した特徴表現を生成するように促す。特定の方法において、これは、特徴φ(IT)及びφ(IT→S)間の距離を最小化することによって実装され得る。
【0074】
次いで、ソース画像ISの処理(又はエンコード)に起因する特徴φ(IS)、及びソース画像ITの処理(又はエンコード)に起因する特徴φ(IT)は、共有のデコーダωに供給される。このデコーダωは、ソフトマックス予測及びそれぞれの交差エントロピー誤差を計算するように構成されている。
【0075】
より正確には、デコーダωは、交差エントロピー誤差モジュールL
CEに供給される、ソース画像I
Sに関連付けられるソフトマックス出力F(I
S)を生成する。この交差エントロピー誤差モジュールL
CEは、ソース画像I
SのラベルのセットY
Sを有する交差エントロピー誤差L
CE(F、I
S、Y
S)を生成するように構成されている。同様に、デコーダωは、交差エントロピー誤差モジュールL
CEに供給される、ターゲット画像I
Tに関連付けられるソフトマックス出力F(I
T)を生成する。この交差エントロピー誤差モジュールL
CEは、ターゲット画像I
Tの擬似ラベルのセット
【数5】
を有する交差エントロピー誤差
【数6】
を生成するように構成されている。
【0076】
特徴不変損失LINV(.)及び交差エントロピー誤差LCE(.)に関する更なる詳細は、以下で提供される。
【0077】
図6は、本発明の特定の実装態様に係る、ニューラルネットワークを訓練する方法のフローチャートである。
【0078】
ニューラルネットワークを訓練する方法は、ソースドメインに属する少なくとも1つのラベル付きソース画像(IS)を取得し、ソースドメインと異なるターゲットドメインに属する少なくとも1つのラベルなしターゲット画像(IT)を取得し、少なくとも1つの定型化ソース画像(IS→T)を取得し、少なくとも1つの定型化ターゲット画像(IT→S)を取得するステップS100を含む。このステップは、電子デバイス10AのモジュールMOD_OB_IMGによって実装され得る。
【0079】
このステップS100は、少なくとも1つのソース画像(IS)及び少なくとも1つのラベルなしターゲット画像(IT)を取得するサブステップS110を含む。典型的に、複数のソース画像(IS)及びターゲット画像(IT)が取得されるが、簡略化のために、次に1つのソース画像(IS)及び1つのターゲット画像(IT)のみが取得されるケースを考慮する。
【0080】
ソース画像(IS)及びターゲット画像(IT)の各々は、複数のセットの画像を備えるデータセットを記憶したデータベースD’にアクセスすることによって取得され得、各セットは、1つ又はいくつかのソース画像ISと、1つ又はいくつかのターゲット画像ITと、を備える。ソース画像(IS)及びターゲット画像(IT)は、異なる照明条件及び/又は気象条件下で取り込まれる異なるシーンを表す。電子デバイス10A及びデータベースD’は、電気通信ネットワークを介して有線接続又は無線接続を使用して接続され得る。
【0081】
ステップS100は、ソース画像(IS)及びターゲット画像(IT)の定型化バージョンを生成するサブステップS120を更に備える。
【0082】
より正確には、当該サブステップS120の目的は、所与の画像及び定型化画像が同様の構造コンテンツを有し、且つ定型化画像が所与のドメインと異なるドメインに属する画像の様式を有するように、所与のドメインに属する所与の画像の定型化バージョンを生成することである。そのようにして、2つのドメインは、ピクセルレベルで「整合」され、所与の画像のセマンティックは、定型化画像を生成するときに維持される。したがって、所与の画像のセマンティックアノテーションは、定型化画像のセマンティックセグメンテーションの予測の教師用にグラウンドトゥルースとして使用され得る。
【0083】
特定の実装態様では、軽量の浅いマッピングは、画像の定型化バージョンを生成するために適用される。「軽量の浅いマッピング」は、その場で定型化を行う(例えば、当該ステップS120)利点を提供し、全体的なアーキテクチャに対して、不必要な更なる複雑性を導入しない。
【0084】
より正式には、定型化ソース画像IS→Tは、IS→T=g(IS、IT)として、それぞれの定型化ターゲット画像は、IT→S=g(IT、IS)として計算され得る。
【0085】
IS→T及びIT→Sを生成するために使用される定型化マッピング関数gは同じである。
【0086】
本発明の方法は、定型化のために使用される正確なマッピングgに対してアグノスティックであるが、特定の実装態様では、フーリエドメイン適応(FDA)ベースの方法が適用される。FDAベースの方法は、一方の低周波数スペクトルを他方のものと交換することによってソース分布とターゲット分布との間の不一致を低減する。FDAベースの方法を用いて定型化ソース画像I
S→Tを生成するために、電子デバイス10Aは、
【数7】
を実装し、F
-1は逆フーリエ変換であって、M
βはマスクであって、F
A(I
T)はターゲット画像振幅であって、F
A(I
S)はソース画像振幅であって、F
P(I
S)はソース画像位相である。
【0087】
より正確には、電子デバイス10Aは、以下のステップを実装する。
ソース画像(I
S)に対してフーリエ変換(F)を適用してソース画像位相F
P(I
S)及びソース画像振幅F
A(I
S)を取得するステップ、
ターゲット画像(I
T)に対してフーリエ変換(F)を適用してターゲット画像振幅F
A(I
T)を取得するステップ、
ソース画像振幅F
A(I
S)の低周波数部分をターゲット画像振幅F
A(I
T)の低周波数部分に置き換えるステップ、及び
M
βが理想的なローパスフィルタに対応するマスクである
【数8】
のように逆フーリエ変換F
-1を適用することによって少なくとも1つの定型化ソース画像(I
S→T)を生成するステップ。
【0088】
次いで、ISの修正スペクトル表現(その位相成分は変更されていない)は、画像IS→Tにマッピングし戻され、その構造コンテンツは、ISと同じであるが、ターゲットドメインに属する画像の様式になっている。
【0089】
当業者は、FDAベースの方法に関する更なる詳細について、2020年6月のIEEE/CVF Conference on Computer Vision and Pattern RecognitionにおけるYanchao Yang及びStefano Soattoによる論文「Fourier Domain Adaptation for Semantic Segmentation」を参照し得る。
【0090】
当該技術分野のFDAベースの方法との主な違いは、本発明のニューラルネットワークを訓練する方法では、ソースドメインに属する画像及びターゲットドメインに属する画像の両方が、2つのドメインにわたってニューラルネットワーク(F)によって生成される特徴の不変性を促すように処理され、したがって、特徴レベルで2つのドメインをより充分に整合させ、これにより、ドメイン適応が改善されることである。
【0091】
ステップS100は、ラベル付きソース画像(IS)、ターゲット画像(IT)、定型化ソース画像(IS→T)、及び定型化ターゲット画像(IT→S)を、訓練されたニューラルネットワーク(F)に入力するサブステップS130を更に含む。
【0092】
ニューラルネットワークを訓練する方法は、ラベル付きソース画像(IS)から生成される特徴(φ(IS))と少なくとも1つの定型化ソース画像(IS→T)から生成される特徴(φ(IS→T))との差にペナルティを与える損失関数(LCISS)、及び/又は少なくとも1つのターゲット画像(IT)から生成される特徴(φ(IT))と少なくとも1つの定型化ターゲット画像(IT→S)から生成される特徴(φ(IT→S))との差にペナルティを与える損失関数(LCISS)を最小化することによってニューラルネットワーク(F)を訓練するステップS200を更に含む。このステップは、電子デバイス10AのモジュールMOD_IMPによって実装され得る。
【0093】
より正確には、ステップS200は、サブステップS220、S230、S240、及びS250を含む。前述のように、ニューラルネットワーク(F)は、エンコーダ及びデコーダで構成されている。サブステップS220で、ニューラルネットワーク(F)は、画像IS、IT、IS→T、及びIT→Sからの「表現」φ(IS)、φ(IT)、φ(IS→T)、及びφ(IT→S)とも名付けられる特徴マップを生成する。
【0094】
エンコーダは、全畳み込みエンコーダである方がよい。そのケースでは、ボトルネック層の出力に対応する表現φ(.)∈RD*M*Nが生成され、ここで、Dは、特徴マップのチャネル次元(すなわち、チャネル数)に対応し、M及びNは、特徴マップの2つの空間次元(すなわち、それぞれ、特徴マップの行数及び列数)である。
【0095】
サブステップS230で、特徴不変損失LINV(F、IS、IS→T)及びLINV(F、IT、IT→S)が計算される。
【0096】
典型的な交差エントロピー誤差ではなく、特定の特徴不変損失を使用することで、ISとIS→tとの間及びItとIt→Sとの間それぞれの共有のセマンティックコンテンツに関して、ニューラルネットワーク(F)に対してより強力な制約を課す利点が提供される。
【0097】
サブステップS220で生成される特徴表現は理想的には、入力画像の特定の様式又は視覚的な条件に対して不変である方がよく、デコーダは、当該特徴をパースしてセマンティッククラスを出力するのに集中して、入力画像の特定の様式から更に抽象化する必要をなくすことが可能になる。
【0098】
したがって、ニューラルネットワーク(F)は、所与の画像から生成される特徴と当該所与の画像の定型化バージョンから生成される特徴との差にペナルティを与える特徴不変損失関数LINV(.)を最小化することによって訓練される。
【0099】
より正式には、Fをエンコーダφ及びデコーダωの合成、次いで
【数9】
として考慮することにする。I及びI’を同じ次元の2つの入力画像とし、φ(I)、φ(I’)をφ(I)、φ(I’)∈R
D×M×Nであるようなエンコーダによって生成される特徴とし、ここで、Dは、特徴マップのチャネル次元(すなわち、チャネル数)に対応し、M及びNは、特徴マップの2つの空間次元(すなわち、それぞれ、特徴マップの行数及び列数)である。
【0100】
特徴不変損失は、以下のように表され得る。
【数10】
ここで、||・||
Fは、フロベニウスノルムである。
【0101】
ステップS230に戻り、特徴不変損失関数は、画像のペア(IS、IS→T)及び(IT、IT→S)に対して、各ペアからの特徴を整合させるために適用され、特徴不変損失LINV(F、IS、IS→T)及びLINV(F、IT、IT→S)が計算される。
【0102】
次いで、ニューラルネットワーク(F)を訓練する方法は、ソース画像ISに関連付けられるソフトマックス出力F(IS)及びターゲット画像ITに関連付けられるソフトマックス出力F(IT)を生成するステップS240を含む。
【0103】
ステップS250で、ソフトマックス出力F(I
S)は、交差エントロピー誤差L
CE(F、I
S、Y
S)を生成する交差エントロピー誤差モジュールL
CEに供給され、ソフトマックス出力F(I
T)も、ターゲット画像I
Tの擬似ラベルのセット
【数11】
を有する交差エントロピー誤差
【数12】
を生成する交差エントロピー誤差モジュールL
CEに供給される。
【0104】
特定の実装態様では、ターゲット画像ITの擬似ラベルは、信頼重み付け擬似ラベルを伴うDAFormer[12]の教師-学生自己訓練フレームワークを適用することによって決定される。
【0105】
より正式には、セマンティックラベルYが、C×H×Wテンソルでワンホットエンコードされる(one-hot-encoded)場合、画像Iについてのネットワークのソフトマックス出力F(I)に関連付けられる交差エントロピー誤差L
CE(.)は、以下のように定められる。
【数13】
【0106】
次いで、結果として生じる2つの特徴不変損失L
INV(F、I
S、I
S→T)及びL
INV(F、I
T、I
T→S)は、交差エントロピー誤差L
CE(F、I
S、Y
S)及び
【数14】
と組み合わされ、結果として生じる損失L
CISSは、以下のように表される。
【数15】
ここで、λ
S及びλ
tは、調整可能なハイパーパラメータである。
【0107】
ステップS260で、ニューラルネットワーク(F)は、結果として生じる当該損失関数LCISSを最小化することによって訓練される。確率的勾配降下法又は任意の他の好適な訓練アルゴリズム若しくは確率的勾配降下法の変形体が使用され得る。確率的勾配降下法は、ニューラルネットワークの重みを適応させるために使用され得る。本発明に係る訓練方法は、当該損失関数LCISSを最小化すること、例えば、この損失を逆伝播させることを含む。
【0108】
図7は、本発明の特定の実装態様に係る、入力画像のセマンティックセグメンテーションを生成する方法のフローチャートである。この方法は、
図2によって示される電子デバイス10Bによって実装される。
【0109】
図7に示されるように、入力画像のセマンティックセグメンテーションを生成する方法は、入力画像を取得する第1のステップS300を含む。この入力画像は、ターゲットドメインに属し得る、すなわち、この入力画像は、悪条件下で取り込まれるシーンを表し得る。
【0110】
入力画像のセマンティックセグメンテーションを生成する方法は、前述のニューラルネットワークを訓練する方法を行うことによって生成される、訓練されたニューラルネットワーク(F)を取得するステップS400を更に含む。このステップは、電子デバイス10BのモジュールMOD_OB_Fによって実装され得る。
【0111】
特定の実装態様では、「訓練されたニューラルネットワークを取得すること」は、この電子デバイス10Bによって、前述のニューラルネットワークを訓練する方法を適用することを含む。
【0112】
変形体では、電子デバイス10Aは、ニューラルネットワークを訓練する方法を実装し、ドメイン適応ニューラルネットワーク、例えば、悪条件下で取り込まれる画像に対しても信頼できる性能を達成するニューラルネットワークを生成する。次いで、「訓練されたニューラルネットワークを取得する」ステップは、「電子デバイス10Aによって生成された訓練されたニューラルネットワークを電子デバイス10Bによって受信すること」を含む。そのケースでは、電子デバイス10A及び電子デバイス10Bは、電気通信ネットワークを介して有線接続又は無線接続を使用して接続され得る。
【0113】
入力画像のセマンティックセグメンテーションを生成する方法は、ステップS400で取得されたニューラルネットワーク(F)を使用して入力画像のセマンティックセグメンテーションを生成するステップS500を更に含む。このステップは、電子デバイス10BのモジュールMOD_GENによって実装され得る。
【0114】
図8は、都市景観データセット、及び対応関係を伴う悪条件データセット(ACDC)を使用して、「通常対悪ドメイン適応」シナリオについて
図1の電子デバイス(10A)を用いて得られた定性的な結果を示す。
【0115】
実装態様の詳細
【0116】
ニューラルネットワークを訓練する方法のデフォルトの実装態様は、HRDA[13]に基づいている。セマンティックセグメンテーションネットワークは、SegFormer[42]によるMiT-B5エンコーダと、コンテキスト認識特徴融合デコーダ[12]と、を備える。
【0117】
また、このアーキテクチャを使用するいくつかの先のUDA方法と直接比較するために、ResNet-101基幹[9]を伴うDeepLabv2[3]アーキテクチャを用いて方法を実装した。デフォルトのHRDAベースの実装態様について、信頼重み付け擬似ラベルを伴うDAFormer[12]の教師-学生自己訓練フレームワーク、レアクラスサンプリング、及びDACS[34]に従うターゲットデータ拡張に従っており、エンコーダについての6×10-5の学習率及びデコーダについての6×10-4の学習率、線形学習率ウォームアップ、並びにサイズB=2のミニバッチを用いて、AdamWオプティマイザ[21]を使用し、各々が各ミニバッチの2つのサンプルのうちの1つを処理する2つのTitan RTX GPUにおいて訓練した。
【0118】
HRDAのデフォルトの構成及びパラメータを、そのマルチ解像度セットアップに関して適用した。画像を定型化するFDAベースの方法を適用する際、フーリエスペクトルの低周波数帯域の帯域幅パラメータとしてβ=0.01を使用した。特徴不変損失の重みに関するデフォルトの値を、CISSのデフォルトのHRDAベースの実装態様についてλS=200及びλt=100に設定し、代替的なDeepLabv2ベースの実装態様についてλS=λt=10に設定した。
【0119】
データセット
【0120】
ニューラルネットワークを訓練する方法は、典型的な合成対現実のシナリオのような構造レベルシフトではなく、シーンにおけるオブジェクトの様式及びテクスチャに影響を与える条件レベルドメインシフトについて調整されるため、実験は、通常対悪視覚条件からのドメイン適応及び一般化の設定に焦点を当てている。
【0121】
実験においてラベル付きソースドメインセットとしてデータセット都市景観[6]を使用した。都市景観は、通常の条件下で中央ヨーロッパのいくつかの都市において取り込まれ、運転シーンにおける19個の一般的なクラスのセットに対する高品質のピクセルレベルセマンティックアノテーションを含む、都会の運転シーンの大きいデータセットである。当該データセットは、2975個の画像を有する訓練セット、500個の画像を有する検証セット、及び1525個の画像を有するテストセットで構成されている。本実験においてUDA方法を訓練するとき、都市景観の訓練セットからのみソース画像をサンプリングした。加えて、通常対悪UDAについて悪条件ドメインをモデル化するラベルなしターゲットドメインセットとしてデータセットACDC[31]を使用した。ACDCは、4つの一般的な悪条件、すなわち、夜、霧、雨、及び雪で均等に分配された、運転シーンの4006個の画像で構成されている。当該画像は、都市景観と同じセットの19個のクラスについて高品質のセマンティックアノテーションを特徴付ける。その訓練セット、検証セット、及びテストセットはそれぞれ、1600個、406個、2000個の画像を含む。
【0122】
そして、ドメイン一般化についてターゲットセットとしてBDD100K[44]を使用した。特に、まず、変動する視覚条件下で取り込まれた1000個の画像を含むBDD100Kの10000画像セマンティックセグメンテーションサブセットの検証セットに対してゼロショットテストを行った。次いで、BDD100K-night[30]、正確なセグメンテーションラベルを伴う87個の夜間画像を有するBDD100Kの分割を使用した。
【0123】
都市景観→ACDCにおける最先端の教師なしドメイン適応及び一般化方法の比較。
【0124】
都市景観は、ソースドメインとして機能し、全4つの悪条件を含む全ACDCは、ターゲットドメインとして機能する。
【0125】
本発明の方法、CISSは、全ての競合する方法、ドメイン適応及びドメイン一般化のもの両方よりも著しく優れた性能であり、次善の方法から主なmIoUメトリックで4%の差を有する。更に、本発明の方法は、19個の個々のクラスのうち11個において最善のIoUを達成し、道路、歩道、及び車などの運転認識に重大なクラスにおいて優れている。DeepLabv2アーキテクチャを使用する方法に焦点を当てて、CISS-DeepLabv2も、それらの中で最高の性能を有し、本方法の利点が、異なるUDAアーキテクチャにわたって一般的であることを示している。
【0126】
図8は、都市景観→ACDCにおける定性的な結果を示し、例えば、ソースドメインとして都市景観データセットを用い、ターゲットドメインとしてACDCデータセットを用いて本発明の方法で訓練され、次いで、ACDCデータセットにおいてテスト/検証されるニューラルネットワークによって提供される定性的な結果を示す。
【0127】
列Aは、ACDCデータセットに属する4つの異なる画像を含み、列Bは、それらのグラウンドトゥルースアノテーションに対応し、列Cは、HRDA方法を適用したときのセマンティックセグメンテーション結果に対応し、列Dは、本発明のニューラルネットワークを訓練する方法を適用したときの結果に対応する。
【0128】
一番上の雪画像において、本発明の方法は、空、道路、及び歩道を正確に取り込んでいる一方、HRDAは、歩道及び空の両方を道路と誤分類している。第2の行の夜間画像において、本発明の方法は上手く、左の歩道における非常に暗い2人の歩行者のうちの1人をセグメント化し、その近くの2台のオートバイを検出しているが、HRDAは完全に、歩行者を植物と間違え、オートバイを車と間違えている。一番下の雨画像において、HRDAは、道路上の2つの交通信号灯の緑の反射を交通信号灯として間違ってセグメント化しているが、本発明の方法は正しく、当該反射を道路に割り当て、また、はるかに正確に右の歩道をセグメント化している。
【0129】
参考
【0130】
[3]Chen&Al.のDeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs.IEEE Transactions on Pattern Analysis and Machine Intelligence、40(4):834-848、2018年。
【0131】
[6]Cordts&Al.のThe Cityscapes dataset for semantic urban scene understanding.The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、2016年。
【0132】
[9]He&Al.のDeep residual learning for image recognition.The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、2016年6月。
【0133】
[12]Hoyer&Al.のDAFormer: Improving network architectures and training strategies for domain-adaptive semantic segmentation. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、2022年。
【0134】
[13]Hoyer&Al.のHRDA: Context-aware high-resolution domain-adaptive semantic segmentation. The European Conference on Computer Vision (ECCV)、2022年
【0135】
[21]Loshchilov&Al.のDecoupled weight decay regularization.ICLR、2018年。
【0136】
[30]Sakaridis&Al.のMap-guided curriculum domain adaptation and uncertainty-aware evaluation for semantic nighttime image segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence、2020年
【0137】
[34]Tranheden&Al.のDACS: Domain adaptation via crossdomain mixed sampling. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)、2021年。
【0138】
[42]Xie&Al.のSegFormer: Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems、2021年。
【0139】
[44]Yu&Al.のBDD100K: A diverse driving dataset for heterogeneous multitask learning. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、2020年6月。
【外国語明細書】