特開2024-117086 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ トヨタ自動車株式会社の特許一覧 ▶ エー・テー・ハー・チューリッヒの特許一覧

特開2024-117086ドメイン適応ニューラルネットワークを訓練する方法、及び関連付けられるデバイス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024117086

(43)【公開日】2024-08-28

(54)【発明の名称】ドメイン適応ニューラルネットワークを訓練する方法、及び関連付けられるデバイス

(51)【国際特許分類】

G06V 10/82 20220101AFI20240821BHJP

G06T 7/00 20170101ALI20240821BHJP

G06N 3/096 20230101ALI20240821BHJP

G06N 3/0455 20230101ALI20240821BHJP

【ＦＩ】

G06V10/82

G06T7/00 350C

G06N3/096

G06N3/0455

【審査請求】有

【請求項の数】17

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024021893

(22)【出願日】2024-02-16

(31)【優先権主張番号】23157035.9

(32)【優先日】2023-02-16

(33)【優先権主張国・地域又は機関】EP

(71)【出願人】

【識別番号】000003207

【氏名又は名称】トヨタ自動車株式会社

(71)【出願人】

【識別番号】508374139

【氏名又は名称】エー・テー・ハー・チューリッヒ

【氏名又は名称原語表記】ＥＴＨＺＵＥＲＩＣＨ

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100147555

【弁理士】

【氏名又は名称】伊藤公一

(74)【代理人】

【識別番号】100123593

【弁理士】

【氏名又は名称】関根宣夫

(74)【代理人】

【識別番号】100133835

【弁理士】

【氏名又は名称】河野努

(72)【発明者】

【氏名】ウィムアブルー

(72)【発明者】

【氏名】クリストスサカリディス

(72)【発明者】

【氏名】フィッシャーユー

(72)【発明者】

【氏名】ルクファンホール

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096FA23

5L096HA11

5L096JA03

5L096KA04

(57)【要約】

【課題】画像のセマンティックセグメンテーションを生成するように構成されたドメイン適応ニューラルネットワークを訓練するコンピュータ実装方法を提供すること。
【解決手段】本方法は、ソースドメインに属する少なくとも１つのラベル付きソース画像、ソースドメインと異なるターゲットドメインに属する少なくとも１つのラベルなしターゲット画像、少なくとも１つの定型化ソース画像、及び少なくとも１つの定型化ターゲット画像をニューラルネットワークに入力することと、所与の画像から生成される特徴と所与の画像の少なくとも１つの定型化バージョンから生成される特徴との差にペナルティを与える損失関数を最小化することによってニューラルネットワークを訓練することと、を含む。
【選択図】図６

【特許請求の範囲】

【請求項1】

ニューラルネットワークを訓練するコンピュータ実装方法であって、前記方法は、
ソースドメインに属する少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）、前記ソースドメインと異なるターゲットドメインに属する少なくとも１つのラベルなしターゲット画像（Ｉ_Ｔ）、少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）、及び少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）を前記ニューラルネットワークに入力することと、
前記ラベル付きソース画像（Ｉ_Ｓ）から生成される特徴（φ（Ｉ_Ｓ））と前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）から生成される特徴（φ（Ｉ_Ｓ→Ｔ））との差にペナルティを与え、及び／又は前記少なくとも１つのターゲット画像（Ｉ_Ｔ）から生成される特徴（φ（Ｉ_Ｔ））と前記少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）から生成される特徴（φ（Ｉ_Ｔ→Ｓ））との差にペナルティを与える損失関数（Ｌ_ＣＩＳＳ）を最小化することによって前記ニューラルネットワークを訓練することと、
を含む、コンピュータ実装方法。

【請求項2】

前記少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）及び前記少なくとも１つのラベルなしターゲット画像（Ｉ_Ｔ）は、異なる照明条件及び／又は気象条件下で取り込まれる、請求項１に記載の方法。

【請求項3】

前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）は、前記ソース画像（Ｉ_Ｓ）に対して定型化方法を適用することによって生成され、前記定型化方法は、前記ソース画像（Ｉ_Ｓ）の構造コンテンツを維持し、前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）は、前記ターゲットドメインに属する画像の様式を有する、請求項１又は２に記載の方法。

【請求項4】

前記少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）は、前記ターゲット画像（Ｉ_Ｔ）に対して定型化方法を適用することによって生成され、前記定型化方法は、前記ターゲット画像（Ｉ_Ｔ）の構造コンテンツを維持し、前記少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）は、前記ソースドメインに属する画像の様式を有する、請求項１又は２に記載の方法。

【請求項5】

前記ニューラルネットワークは、中間の特徴を生成するように構成されたエンコーダ（φ）を備え、前記損失関数（Ｌ_ＣＩＳＳ）の最小化は、前記エンコーダに対して、照明条件及び／又は気象条件に対して不変である中間の特徴（φ（Ｉ）、φ（Ｉ’））を生成するように促す、請求項１又は２に記載の方法。

【請求項6】

前記損失関数（Ｌ_ＣＩＳＳ）は、
前記少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）から生成される特徴（φ（Ｉ_Ｓ））と前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）から生成される特徴（φ（Ｉ_Ｓ→Ｔ））との前記差にペナルティを与える第１の特徴不変損失、
前記少なくとも１つのターゲット画像（Ｉ_Ｔ）から生成される特徴（φ（Ｉ_Ｔ））と前記少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）から生成される特徴（φ（Ｉ_Ｔ→Ｓ））との前記差にペナルティを与える第２の特徴不変損失、
前記ソース画像Ｉ_ＳのラベルのセットＹ_Ｓを有する、前記ラベル付きソース画像（Ｉ_Ｓ）についての前記訓練されたニューラルネットワークの出力における交差エントロピー誤差Ｌ_ＣＥ（Ｆ、Ｉ_Ｓ、Ｙ_Ｓ）、及び
前記ターゲット画像Ｉ_Ｔの擬似ラベルのセット

【数1】

を有する、前記ターゲット画像（Ｉ_Ｔ）についての前記訓練されたニューラルネットワークの出力における交差エントロピー誤差

【数2】

の合計に対応する、請求項１又は２に記載の方法。

【請求項7】

前記第１及び第２の特徴不変損失は、前記ソース画像（Ｉ_Ｓ）及び前記ターゲット画像（Ｉ_Ｔ）の中の画像であるＩと、Ｉの定型化バージョンであるＩ’と、φ（Ｉ）、φ（Ｉ’）∈Ｒ^{Ｄ×Ｍ×Ｎ}を用いてボトルネック層によって生成される前記特徴であるφ（Ｉ）及びφ（Ｉ’）と、フロベニウスノルムである｜｜・｜｜_Ｆと、チャネル数であるＤと、特徴マップの空間次元であるＭ及びＮと、を有する、

【数3】

として定められる、請求項６に記載の方法。

【請求項8】

前記ソース画像（Ｉ_Ｓ）に対して定型化方法を適用することによって前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）を生成することと、前記ターゲット画像（Ｉ_Ｔ）に対して前記定型化方法を適用することによって前記少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）を生成することと、を更に含む、請求項１又は２に記載の方法。

【請求項9】

前記ソース画像（Ｉ_Ｓ）に対して前記定型化方法を適用することは、
前記ソース画像（Ｉ_Ｓ）に対してフーリエ変換（Ｆ）を適用してソース画像位相Ｆ^Ｐ（Ｉ_Ｓ）及びソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）を取得することと、
前記少なくとも１つのターゲット画像（Ｉ_Ｔ）に対してフーリエ変換（Ｆ）を適用してターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）を取得することと、
－前記ソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）の低周波数部分を前記ターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）の低周波数部分に置き換えることと、
マスクであるＭ_βを有する

【数4】

のように逆フーリエ変換Ｆ^－１を適用することによって前記少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）を生成することと、
を含む、請求項８に記載の方法。

【請求項10】

請求項１又は２に記載の方法によって訓練される、ニューラルネットワーク。

【請求項11】

少なくとも１つのプロセッサと、請求項１又は２に記載のニューラルネットワークを訓練する前記方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイス。

【請求項12】

電子デバイスによる実行時に、請求項１又は２に記載のニューラルネットワークを訓練する前記方法を前記電子デバイスに実行させる、コンピュータプログラム。

【請求項13】

コンピュータによって読み取り可能であって、請求項１又は２に記載のニューラルネットワークを訓練する前記方法を実行する命令を含むコンピュータプログラムが記録された、記録媒体。

【請求項14】

入力画像のセマンティックセグメンテーションを生成するコンピュータ実装方法であって、前記方法は、
請求項１又は２に記載の方法を行うことによって訓練されるニューラルネットワークを取得することと、
前記取得されたニューラルネットワークを使用して前記入力画像のセマンティックセグメンテーションを生成することと、
を含む、コンピュータ実装方法。

【請求項15】

少なくとも１つのプロセッサと、請求項１４に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイス。

【請求項16】

電子デバイスによる実行時に、請求項１４に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を前記電子デバイスに実行させる、コンピュータプログラム。

【請求項17】

コンピュータによって読み取り可能であって、請求項１４に記載の入力画像のセマンティックセグメンテーションを生成する前記方法を実行する命令を含むコンピュータプログラムが記録された、記録媒体。

【発明の詳細な説明】

【背景技術】

【0001】

１．本発明の分野
本開示は、コンピュータビジョンの分野に関する。より正確には、本開示は、異なるドメインに属する画像のセマンティックセグメンテーションを生成することが可能であり得るニューラルネットワークに関する。

【0002】

２．関連技術の説明
機械学習技術は典型的に、信頼できる性能を得るために、所与のドメインに関連付けられた莫大な量のラベル付きデータを必要とする。しかしながら、新しいドメインに対応する大きいデータセットの収集及びアノテーションは、非常に費用がかかり、時間を要し、エラーが起きやすい。更に、一部のドメインでは、充分な訓練データが利用可能ではない。そして、あるドメインのデータセットに対して訓練されるモデルは、「ドメインシフト」により、別のドメインのデータに対してテストされる場合に乏しい結果を提供する。

【0003】

しかしながら、大量のデータがたまたま、検討されているものに関連する別のドメインに対して利用可能であることもよくある。したがって、あるドメインのサンプルに対して訓練される学習モデルを適応させて、別のドメインのサンプルに対してタスクを適用することは有利である。

【0004】

ドメイン適応（ＤＡ）は、１つ以上のドメイン（「ソースドメイン」と名付けられる）のサンプルを用いて訓練され、次いで、異なっているが関連するドメイン（「ターゲットドメイン」と名付けられる）のサンプルに対してタスクを適用するように構成されたモデルのケースを検討することによって当該問題に対処する学習タスクである。ドメイン適応の目的は、最初に所与のドメインのサンプルに対して訓練されるが、次いで、当該所与のドメインに関連する別のドメインのサンプルを処理するように適応したモデルを提供することによって、典型的に学習モデルの性能を低下させるソースドメインとターゲットドメインとの間のシフトに対処することである。ドメイン適応は典型的に、特定のタイプの転移学習と見なされ、ここで、ソースドメイン及びターゲットドメインのデータ分布は異なっているが、ソースドメイン及びターゲットドメインのラベル空間は同じである。

【0005】

ソースドメインからのサンプルのみを検討することによってターゲットドメインのサンプルを処理するようにモデルを適応させることは、存在するドメインシフトが小さい場合であっても、乏しい性能につながる。これに対処するために、教師なしドメイン適応（ＵＤＡ）技術は、ソースドメインからのラベル付きサンプル及びターゲットドメインからのラベルなしサンプルを処理する。ＵＤＡ技術は、セマンティックセグメンテーションに対して特に有用であって、セマンティックセグメンテーションでは、学習モデルは、莫大な量の手動のラベル付きデータを必要とし、これは、ピクセルごとのラベリングが必要とされるため、取得するのに費用がかかる。セマンティックセグメンテーションは、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てるタスクとして定められる。典型的に、ソースドメインに対する最初の教師あり訓練は、ラベルが利用可能でないターゲットドメインに対しても信頼できる性能を達成することを目的とする教師なし学習法によってターゲットドメインに適応する。

【0006】

当該技術は特に、これらの合成データと現実世界データとの間のギャップを埋めるように適応する。実際、コンピュータグラフィックス分野は、大量の注釈付き合成データを生成し、当該大量の注釈付き合成データは、最終的に現実世界データの処理専用のモデルを訓練するために使用され得る。次いで、ＵＤＡ技術は、現実世界の訓練データに必要である、時間を要し且つ非常に費用がかかる手動のラベリングを回避することを可能にする。

【0007】

しかしながら、合成対現実の適応において検証されるほとんどの特徴レベル適応方法は、通常対悪条件レベル適応においてわずかな利得を提供する。

【0008】

したがって、通常条件を表すデータを用いて訓練されるが、悪条件を表すデータを処理することを意図したセマンティックセグメンテーションモデルの分野において改善の余地がある。

【発明の概要】

【0009】

このために、本発明はまず、画像のセマンティックセグメンテーションを生成するようにドメイン適応ニューラルネットワークを訓練するコンピュータ実装方法を提供し、方法は、
ソースドメインに属する少なくとも１つのラベル付きソース画像、ソースドメインと異なるターゲットドメインに属する少なくとも１つのラベルなしターゲット画像、少なくとも１つの定型化ソース画像、及び少なくとも１つの定型化ターゲット画像をニューラルネットワーク（Ｆ）に入力することと、
少なくとも１つのラベル付きソース画像から生成される特徴と少なくとも１つの定型化ソース画像から生成される特徴との差にペナルティを与える損失関数、及び／又は少なくとも１つのターゲット画像から生成される特徴と少なくとも１つの定型化ターゲット画像から生成される特徴との差にペナルティを与える損失関数を最小化することによってニューラルネットワークを訓練することと、を含む。

【0010】

したがって、上述の方法は、（「ソースドメイン」と名付けられる）所与のドメインに属するラベル付き画像、及び（「ターゲットドメイン」と名付けられる）別のドメインに属するラベルなし画像を用いてニューラルネットワークを訓練する方法を提案する。ソース画像及び少なくとも１つの定型化ソース画像はラベル付きであるが、ターゲット画像及び少なくとも１つの定型化ターゲット画像はラベルなしである。

【0011】

しかしながら、ニューラルネットワークに入力されるソース画像及び少なくとも１つの定型化ソース画像が、同じ視点における同じシーンを示し、且つ少なくとも１つのターゲット画像及び少なくとも１つの定型化ターゲット画像が、同じ視点における別の単一のシーンを示すという条件下で、ニューラルネットワークの訓練が行われる。

【0012】

本明細書で、「視点」は、シーンの画像を取得するために使用されるカメラに対する視点に対応する。

【0013】

ソース画像及びターゲット画像は、それらのコンテンツ及び様式において異なっている、すなわち、それらは、異なる照明条件及び／又は気象条件で取り込まれたシーンを表す。例では、ソース画像は、通常の条件下（例えば、昼間、空が明るい青空のとき、約２００００ルクス）で取り込まれたシーン画像で構成されたソースドメインに属し、少なくとも１つのターゲット画像は、悪条件下（例えば、照度が１ルクスよりも下であるか又は霧がかかった気象である夜間）で取り込まれたシーン画像のバッチで構成されたターゲットドメインに属する。

【0014】

本明細書で、「通常の条件」は、降水がないか又は雪が地面を覆っていない、すなわち、良好な視認性をもたらす昼間及び明るい気象の組合せとして定められる。一方、「悪条件」は、場合により、降水及び／若しくは地面を覆っている雪、並びに／又は好ましくない光度を伴う、すなわち、乏しい視認性をもたらす「悪天候」を含む。

【0015】

以下で更に詳述されるように、少なくとも１つの定型化ソース画像は、ターゲット画像の様式をソース画像にマッピングすることによって生成される。このように、ソース画像及び少なくとも１つの定型化ソース画像は、同様の構造コンテンツを有し、少なくとも１つの定型化ソース画像は、ターゲットドメインに属する画像の様式を有する。換言すれば、上記方法では、様式情報のみが、少なくとも１つの定型化ソース画像を生成するようにターゲット画像から活用される。次いで、訓練は、ソース画像及び少なくとも１つの定型化ソース画像から抽出される特徴間の距離を低減しようとし、両方の画像が同様の構造コンテンツを有するため、ニューラルネットワークは、これらの入力画像の様式に対して不変である特徴表現を生成するように促される。

【0016】

同様に、少なくとも１つの定型化ターゲット画像は、ソース画像の様式をターゲット画像にマッピングすることによって生成される。このように、ターゲット画像及び少なくとも１つの定型化ターゲット画像は、同様の構造コンテンツを有し、少なくとも１つの定型化ターゲット画像は、ソースドメインに属する画像の様式を有する。換言すれば、上記方法では、様式情報のみが、少なくとも１つの定型化ターゲット画像を生成するようにソース画像から活用される。訓練はまた、ターゲット画像から抽出される特徴と少なくとも１つの定型化ターゲット画像に関する特徴との間の距離を低減しようとし、両方の画像が同様の構造コンテンツを有するため、ニューラルネットワークは、これらの入力画像の様式に対して不変である特徴表現を生成するように促される。

【0017】

ニューラルネットワークは、入力画像のセマンティックセグメンテーションを生成するように訓練される。セマンティックセグメンテーションの目的は、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てることである。セマンティックセグメンテーションは、画像分類では単一のラベルがシーン全体に割り当てられるという点で、画像分類と異なっている。当該ラベルは、シーンにおける支配的なオブジェクトを示す。セマンティックセグメンテーションはまた、オブジェクト検出ではオブジェクトがバウンディングボックスによって識別されてラベルが各ボックスに割り当てられるという点で、オブジェクト検出と異なっている。

【0018】

入力画像のセマンティックセグメンテーションは、様々なオブジェクトに対応する領域にクラスタリングされる画像、及びそのセマンティックコンテンツを表すカテゴリでラベル付けされる構造をもたらす。

【0019】

オブジェクトの「カテゴリ」は、オブジェクト検出又はセマンティックセグメンテーションの分野における当業者によって通常行われるように、オブジェクトのタイプ又はクラスと称され得る。一例として、カテゴリは、道路上で観測されるシーンにおいて典型的に存在するオブジェクトのカテゴリのリストから選択され得る。例えば、カテゴリは、車、歩行者、自転車に乗っている人、バス、トラックなどを備えるリスト内で選択され得る。カテゴリはまた、より正確に定められ得る（例えば、車について、セダン、コンパクトカーなどを考慮することが可能である）。

【0020】

ニューラルネットワークの訓練は、反復して行われ得る。そのケースでは、複数のソース画像及び複数のターゲット画像は、異なるシーンを表し、各々が、異なる構造コンテンツを有する。次いで、複数の定型化ソース画像及び定型化ターゲット画像が生成され、訓練ステップが反復して適用される。

【0021】

ニューラルネットワークは、画像から抽出される特徴間の差にペナルティを与える損失関数を最小化することによって訓練される。当該差は、距離として表され得、（バッチ訓練のケースでは）複数の距離が計算された後、確率的勾配降下法又は任意の他の好適な訓練アルゴリズム若しくは確率的勾配降下法の変形体が使用され得る。確率的勾配降下法は、ニューラルネットワークの重みを適応させるために使用され得る。本発明に係る訓練方法は、損失関数を最小化すること、例えば、この損失を逆伝播させることを含む。

【0022】

特定の実装態様では、ラベル付きソース画像及び少なくとも１つのラベルなしターゲット画像は、異なる照明条件及び／又は気象条件下で取り込まれる。

【0023】

特定の実装態様では、少なくとも１つの定型化ソース画像は、ソース画像に対して定型化方法を適用することによって生成され、定型化方法は、ソース画像の構造コンテンツを維持し、少なくとも１つの定型化ソース画像は、ターゲットドメインに属する画像の様式を有する。

【0024】

特定の実装態様では、少なくとも１つの定型化ターゲット画像は、ターゲット画像に対して定型化方法を適用することによって生成され、定型化方法は、ターゲット画像の構造コンテンツを維持し、少なくとも１つの定型化ターゲット画像は、ソースドメインに属する画像の様式を有する。

【0025】

特定の実装態様では、ニューラルネットワークは、中間の特徴を生成するように構成されたエンコーダを備え、損失関数を最小化するステップは、エンコーダに対して、照明条件及び／又は気象条件に対して不変である中間の特徴を生成するように促す。

【0026】

特定の実装態様では、ソース画像のラベルは、ソース画像のセマンティックセグメンテーション予測の教師用にグラウンドトゥルースとして使用される。

【0027】

特定の実装態様では、ニューラルネットワークは、生成された特徴を「セマンティッククラス」又は「カテゴリ」にパースするように構成されたデコーダを更に備える。

【0028】

前述のように、「カテゴリ」の概念は、オブジェクト検出又はセマンティックセグメンテーションの分野における当業者によって通常行われるように、オブジェクトのタイプ又はクラスと称され得る。

【0029】

特定の実装態様では、損失関数は、
少なくとも１つのラベル付きソース画像から生成される特徴と少なくとも１つの定型化ソース画像から生成される特徴との差にペナルティを与える第１の特徴不変損失であって、上記少なくとも１つの定型化ソース画像は、前述のラベル付きソース画像と同じ構造コンテンツを備える、第１の特徴不変損失、
少なくとも１つのターゲット画像から生成される特徴と少なくとも１つの定型化ターゲット画像から生成される特徴との差にペナルティを与える第２の特徴不変損失であって、上記少なくとも１つの定型化ターゲット画像は、前述のターゲット画像と同じ構造コンテンツを備える、第２の特徴不変損失、
ソース画像Ｉ_ＳのラベルのセットＹ_Ｓを有する、ラベル付きソース画像についての訓練されたニューラルネットワークの出力における交差エントロピー誤差Ｌ_ＣＥ（Ｆ、Ｉ_Ｓ、Ｙ_Ｓ）、及び
－ターゲット画像Ｉ_Ｔの擬似ラベルのセット

【数1】

を有する、ターゲット画像についての訓練されたニューラルネットワークの出力における交差エントロピー誤差

【数2】

の合計に対応する。

【0030】

特定の実装態様では、第１及び第２の特徴不変損失は、ソース画像及びターゲット画像の中の画像であるＩと、Ｉの定型化バージョンであるＩ’と、φ（Ｉ）、φ（Ｉ’）∈Ｒ^{Ｄ×Ｍ×Ｎ}を用いてボトルネック層によって生成される特徴であるφ（Ｉ）及びφ（Ｉ’）と、フロベニウスノルムである｜｜・｜｜_Ｆと、チャネル数であるＤと、特徴マップの空間次元であるＭ及びＮと、を有する、

【数3】

として定められる。

【0031】

特定の実装態様では、方法は、ソース画像に対して定型化方法を適用することによって少なくとも１つの定型化ソース画像を生成することと、ターゲット画像に対して定型化方法を適用することによって少なくとも１つの定型化ターゲット画像を生成することと、を更に含む。

【0032】

特定の実装態様では、ソース画像に対して定型化方法を適用することは、
ソース画像に対してフーリエ変換を適用してソース画像位相Ｆ^Ｐ（Ｉ_Ｓ）及びソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）を取得することと、
少なくとも１つのターゲット画像に対してフーリエ変換を適用してターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）を取得することと、
ソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）の低周波数部分をターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）の低周波数部分に置き換えることと、
マスクであるＭ_βを有する

【数4】

のように逆フーリエ変換Ｆ^－１を適用することによって少なくとも１つの定型化ソース画像を生成することと、
を含む。

【0033】

本発明はまた、本発明に係る方法によって訓練されるニューラルネットワークに関する。

【0034】

第３の態様によれば、本発明は、少なくとも１つのプロセッサと、上述の方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイスに関する。

【0035】

第４の態様によれば、本発明は、入力画像のセマンティックセグメンテーションを生成するコンピュータ実装方法に関し、方法は、
上述のニューラルネットワークを訓練する方法を行うことによって訓練されるニューラルネットワークを取得することと、
取得されたニューラルネットワークを使用して入力画像のセマンティックセグメンテーションを生成することと、を含む。

【0036】

前述のように、入力画像のセマンティックセグメンテーションを生成することは、入力画像の各ピクセルに対して、そのセマンティックコンテンツを表すラベルを割り当てることを目的とする。

【0037】

第５の態様によれば、本発明は、少なくとも１つのプロセッサと、上述のセマンティックセグメンテーションを生成する方法を実装するプログラムが記憶されたメモリと、を備える、電子デバイスに関する。

【0038】

第６の態様によれば、本発明は、ニューラルネットワークを訓練する方法を実装するように構成された電子デバイスと、入力画像のセマンティックセグメンテーションを生成する方法を実装するように構成された電子デバイスと、を備えるシステムに関する。

【0039】

本発明の実施形態はまた、プログラムに及び、当該プログラムは、コンピュータ若しくはプロセッサにおいて実行されると、コンピュータ若しくはプロセッサに上述の方法を実行させるか、又はプログラム可能なデバイスにロードされると、当該デバイスを上述のデバイスとなるようにする。プログラムは、それ自体で提供され得るか、又はキャリア媒体で搭載され得る。キャリア媒体は、記憶若しくは記録媒体であり得るか、又は信号などの送信媒体であり得る。本発明を具現化するプログラムは、一時的又は非一時的であり得る。

【図面の簡単な説明】

【0040】

本発明の好ましい実施形態の特徴、利点、並びに技術的及び産業的な重要性は、添付図面を参照して以下に記載され、当該添付図面では、同様の符号は同様の要素を示す。

【0041】

【図1】ニューラルネットワークを訓練する方法を実装するように構成された電子デバイス（１０Ａ）の特定の実装態様を示す図である。

【図2】入力画像のセマンティックセグメンテーションを生成するように構成された電子デバイス（１０Ｂ）の特定の実装態様を示す図である。

【図3】図１によって示される電子デバイス（１０Ａ）のハードウェアアーキテクチャの例を示す図である。

【図4】図２によって示される電子デバイス（１０Ｂ）のハードウェアアーキテクチャの例を示す図である。

【図5】図１によって示される電子デバイス（１０Ａ）の機能表現を示す図である。

【図6】本発明の特定の実装態様に係る、ニューラルネットワークを訓練する方法のフローチャートである。

【図7】本発明の特定の実装態様に係る、入力画像のセマンティックセグメンテーションを生成する方法のフローチャートである。

【図8】都市景観データセット、及び対応関係を伴う悪条件データセット（ＡＣＤＣ）を使用して、「通常対悪ドメイン適応」シナリオについて図１の電子デバイス（１０Ａ）を用いて得られた定性的な結果を示す図である。

【発明を実施するための形態】

【0042】

本発明の目的について、添付図面に示され以下の明細書に記載される特定のデバイス及びプロセスは、本開示の主題の単なる好ましい実施形態又は態様であることを理解されたい。したがって、本明細書に開示される実施形態又は態様に関連する特定の寸法及び他の物理的特徴は、特に示されていない限り、限定的なものと見なされるべきではない。

【0043】

本明細書で使用される態様、構成要素、要素、モジュール、エンティティ、ステップ、機能、命令、及び／又は同種のものは、特に明示的に記載されていない限り、重要又は必須であると解釈されるべきではない。また、本明細書で使用される冠詞「ａ」及び「ａｎ」は、１つ以上の事項を含むことを意図したものであり、「１つ以上」及び「少なくとも１つ」と交換可能に使用され得る。１つの事項のみを意図したものである場合、「１つ」という用語又は同様の用語が使用される。また、本明細書で使用される用語「有する（ｈａｓ）」、「有する（ｈａｖｅ）」、「有している（ｈａｖｉｎｇ）」、又は同種のものは、オープンエンドの用語であることを意図したものである。更に、「～に基づいて」というフレーズは、特に明示的に述べられていない限り、「～に少なくとも部分的に基づいて」を意味することを意図したものである。

【0044】

図１は、ニューラルネットワークを訓練する方法を実装するように構成された電子デバイス１０Ａの特定の実装態様を示す。

【0045】

図２は、入力画像のセマンティックセグメンテーションを生成するように構成された電子デバイス１０Ｂの特定の実装態様を示す。

【0046】

残りの説明は、より具体的には、入力画像のセマンティックセグメンテーションを提供するためのニューラルネットワークの訓練を目的とする。考慮されるニューラルネットワークの性質（畳み込み、パーセプトロン、オートエンコーダ、リカレントなど）が何であっても、特に、任意のディープニューラルネットワークについて、依然、本発明は適用可能である。

【0047】

加えて、セマンティックセグメンテーションモデルに入力され得る画像（「入力画像」とも名付けられる）の種類又はコンテンツに対して限定が付与されることはなく、入力画像に基づいて出力され得るセマンティックセグメンテーションの種類に対して限定が付与されることはない（すなわち、クラス又は「カテゴリ」の性質は、本発明の限定的な因子ではない。具体的には、当該画像は、例えば、自律車両によって取り込まれるピクセルレベルのセマンティックアノテーションを有する都市シーンの画像を含み得る。

【0048】

因みに、セマンティックセグメンテーションは依然、画像分類又はオブジェクト検出のようなより単純な問題と比較した場合に、自動的な視覚的理解において困難且つ複雑なタスクであって、実際、画像分類では、単一のラベルは、入力画像によって取り込まれるシーンにおいて支配的なオブジェクトを指す入力画像全体に割り当てられ、オブジェクト検出では、オブジェクトは、２Ｄバウンディングボックスによって識別され、ラベルは、各ボックスに割り当てられる。一方、セマンティックセグメンテーションでは、入力画像の各ピクセルは、そのセマンティックコンテンツに対応するラベルに割り当てられる。

【0049】

電子デバイス１０Ａは、画像のセマンティックセグメンテーションの精度を改善できるようにニューラルネットワーク（Ｆ）を訓練するように構成されている。次いで、訓練されたニューラルネットワークは、入力画像のセマンティックセグメンテーションを生成する方法を実装する電子デバイス１０Ｂの入力として使用される。上記方法は、以下で「セマンティックセグメンテーション方法」と称される。ここで、ニューラルネットワークが本発明に従って改善（又は「適応」）されていない場合よりも正確なセマンティックセグメンテーション結果を得ることに対して、「セマンティックセグメンテーションの精度の改善」によって言及される。

【0050】

図３は、図１によって示される電子デバイス１０Ａのハードウェアアーキテクチャの例を示す。

【0051】

電子デバイス１０Ａは、コンピュータのハードウェアアーキテクチャを有する。図３に示されるように、電子デバイス１０Ａは、プロセッサ１を備える。単一のプロセッサ１として示されているが、２つ以上のプロセッサが、電子デバイス１０Ａの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。概して、プロセッサ１は、命令を実行しデータを操作して、本開示に記載されるように電子デバイス１０Ａの動作、並びに任意のアルゴリズム、方法、機能、プロセス、フロー、及び手順を行う。

【0052】

電子デバイス１０Ａはまた、通信手段５を備え、通信手段５は、当該電子デバイス１０Ａに対して通信可能に接続された別の電子デバイスと通信するために、例えば、複数のラベル付きソース画像及び複数のターゲット画像を記憶したデータベースに接続するために、電子デバイス１０Ａによって使用され、ここで、複数のうちの各ソース画像は、少なくとも１つのターゲット画像に関連付けられる。概して、通信手段５は、無線ネットワークと通信するように動作可能であって、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せでエンコードされるロジックを備える。より具体的には、通信手段５は、通信と関連付けられる１つ以上の通信プロトコルをサポートするソフトウェアを備え得、その結果、無線ネットワーク又はインターフェースのハードウェアは、示された電子デバイスの内外で物理的な信号を通信するように動作可能である。

【0053】

図３で単一の通信手段５として示されているが、２つ以上の通信手段が、システムの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。電子デバイス１０Ａはまた、ランダムアクセスメモリ２と、リードオンリーメモリ３と、不揮発性メモリ４と、を備える。

【0054】

電子デバイス１０Ａの不揮発性メモリ４は、本発明に係る、ニューラルネットワークを訓練する方法を実行する命令を含む、本発明に従ったコンピュータプログラムＰＲＯＧ＿ＩＭＰを記憶する。

【0055】

プログラムＰＲＯＧ＿ＩＭＰは、電子デバイス１０Ａの機能モジュールを定め、当該機能モジュールは、電子デバイス１０Ａの前述の要素１～５に基づいているか、又はそれらを制御し、特に、
ソースドメインに属する少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）、ソースドメインと異なるターゲットドメインに属する少なくとも１つのラベルなしターゲット画像（Ｉ_Ｔ）、少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）、及び少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）をニューラルネットワーク（Ｆ）に入力するように構成されたモジュールＭＯＤ＿ＯＢ＿ＩＭＧと、
少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）から生成される特徴（φ（Ｉ_Ｓ））と少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）から生成される特徴（φ（Ｉ_Ｓ→Ｔ））との差にペナルティを与える損失関数（Ｌ_ＣＩＳＳ）、及び／又は少なくとも１つのターゲット画像（Ｉ_Ｔ）から生成される特徴（φ（Ｉ_Ｔ））と少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）から生成される特徴（φ（Ｉ_Ｔ→Ｓ））との差にペナルティを与える損失関数（Ｌ_ＣＩＳＳ）を最小化することによってニューラルネットワーク（Ｆ）を訓練するように構成されたモジュールＭＯＤ＿ＩＭＰと、を備える。

【0056】

上述の異なる機能モジュールは、単一の電子デバイス（１０Ａ）の一部であり得るか、又はシステムに属する複数の電子デバイスに分散され得る。

【0057】

図４は、図２によって示される電子デバイス１０Ｂのハードウェアアーキテクチャの例を示す。

【0058】

電子デバイス１０Ｂは、コンピュータのハードウェアアーキテクチャを有する。図４に示されるように、電子デバイス１０Ｂは、プロセッサ１を備える。単一のプロセッサ１として示されているが、２つ以上のプロセッサが、電子デバイス１０Ｂの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。概して、プロセッサ１は、命令を実行しデータを操作して、本開示に記載されるように電子デバイス１０Ｂの動作、並びに任意のアルゴリズム、方法、機能、プロセス、フロー、及び手順を行う。

【0059】

電子デバイス１０Ｂはまた、通信手段５を備え、通信手段５は、当該電子デバイス１０Ｂに対して通信可能に接続された別の電子デバイスと通信するために、例えば、前述のニューラルネットワークを訓練する方法に従って一度訓練されたニューラルネットワークを受信するように電子デバイス１０Ａに接続するために、電子デバイス１０Ｂによって使用される。

【0060】

概して、通信手段５は、無線ネットワークと通信するように動作可能であって、ソフトウェア、ハードウェア、又はソフトウェア及びハードウェアの組合せでエンコードされるロジックを備える。より具体的には、通信手段５は、通信と関連付けられる１つ以上の通信プロトコルをサポートするソフトウェアを備え得、その結果、無線ネットワーク又はインターフェースのハードウェアは、示されたシステムの内外で物理的な信号を通信するように動作可能である。

【0061】

図４で単一の通信手段５として示されているが、２つ以上の通信手段が、電子デバイス１０Ｂの特定の要求、要望、又は特定の実装態様に従って使用されてもよい。電子デバイス１０Ｂはまた、ランダムアクセスメモリ２と、リードオンリーメモリ３と、不揮発性メモリ４と、を備える。

【0062】

電子デバイス１０Ｂの不揮発性メモリ４は、本発明に係る、入力画像のセマンティックセグメンテーションを生成する方法を実行する命令を含む、本発明に従ったコンピュータプログラムＰＲＯＧ＿ＧＥＮを記憶する。

【0063】

プログラムＰＲＯＧ＿ＧＥＮは、電子デバイス１０Ｂの機能モジュールを定め、当該機能モジュールは、電子デバイス１０Ａの前述の要素１～５に基づいているか、又はそれらを制御し、特に、
本発明に係る、ニューラルネットワーク（Ｆ）を訓練する方法を行うことによって生成されるニューラルネットワーク（Ｆ）を取得するように構成されたモジュールＭＯＤ＿ＯＢ＿Ｆと、
取得されたニューラルネットワーク（Ｆ）を使用して入力画像のセマンティックセグメンテーションを生成するように構成されたモジュールＭＯＤ＿ＧＥＮと、を備える。

【0064】

上述の異なる機能モジュールは、単一の電子デバイス（１０Ｂ）の一部であり得るか、又はシステムに属する複数の電子デバイスに分散され得る。

【0065】

図５は、図１によって示される電子デバイス１０Ａの機能表現を示す。

【0066】

前述のように、電子デバイス１０Ａは、いくつかの関連ドメインに属する画像を処理するようにニューラルネットワークを訓練する方法を実装する。したがって、電子デバイス１０Ａは、同じシーンの画像のペアのエンコードされた特徴間の差にペナルティを与えることによって表現を学習し、ペアの画像の一方は、他方の「定型化バージョン」である。

【0067】

より正確には、電子デバイス１０Ａは、２つの特徴マップ間の差にペナルティを与える特徴不変損失を用いて２つの画像から抽出される特徴を整合させるように構成されている。直観的には、セマンティックセグメンテーションネットワークのエンコーダは、シーンの様式に不変である特徴を出力すべきであって、その結果、デコーダはその後、同じシーンの異なるバージョンについて同一の出力を生成することができ、これは、これらのバージョンのグラウンドトゥルースセマンティックも同一であるためである。

【0068】

そのために、図５によって示されるように、ソースドメインに属するラベル付きソース画像Ｉ_Ｓ及びターゲットドメインに属するラベルなしターゲット画像Ｉ_Ｔは、ニューラルネットワークＦに入力される。ラベル付きソース画像Ｉ_Ｓ及びターゲット画像Ｉ_Ｔは、異なるシーンを表し、各々は、異なる照明条件及び／又は気象条件下で取り込まれる。「ラベル付きソース画像」は、ピクセルのセマンティックコンテンツを表すラベルに関連付けられるピクセルを有する画像を指す。特定のケースでは、ラベル付きソース画像は、当該画像の各ピクセルがラベルに関連付けられる画像を指し得る。

【0069】

「定型化関数」ｇは、定型化ソース画像Ｉ_Ｓ→Ｔを生成するように、ソース画像Ｉ_Ｓに対して適用され、ターゲット画像Ｉ_Ｔも入力に取り込む。当該「定型化関数」ｇはまた、定型化ターゲット画像Ｉ_Ｔ→Ｓを生成するように、ソース画像Ｉ_Ｓを入力として更に取り込むことによってターゲット画像Ｉ_Ｔに対して適用される。次いで、定型化ソース画像Ｉ_Ｓ→Ｔ及び定型化ターゲット画像Ｉ_Ｔ→Ｓはまた、ニューラルネットワークＦに入力される。

【0070】

更に以下で記載されるように、ソース画像Ｉ_Ｓに対して適用される定型化関数ｇは、ソース画像Ｉ_Ｓ及び定型化ソース画像Ｉ_Ｓ→Ｔが同様の構造コンテンツを有し、且つ少なくとも１つの定型化ソース画像がターゲットドメインに属する画像の様式を有するような定型化ソース画像Ｉ_Ｓ→Ｔの生成を可能にする。換言すれば、当該定型化方法は、ソース画像Ｉ_Ｓの構造コンテンツを維持する。同様に、ターゲット画像Ｉ_Ｔに対して適用される定型化関数ｇは、ターゲット画像Ｉ_Ｔ及び定型化ターゲット画像Ｉ_Ｔ→Ｓが同様の構造コンテンツを有し、且つ定型化ターゲット画像Ｉ_Ｔ→Ｓがソースドメインに属する画像の様式を有するような定型化ターゲット画像Ｉ_Ｔ→Ｓの生成を可能にする。

【0071】

次いで、「エンコーダ」φとも名付けられる表現の基幹は、画像Ｉ_Ｓ、Ｉ_Ｔ、Ｉ_Ｓ→Ｔ、及びＩ_Ｔ→Ｓから「特徴表現」φ（Ｉ_Ｓ）、φ（Ｉ_Ｔ）、φ（Ｉ_Ｓ→Ｔ）、及びφ（Ｉ_Ｔ→Ｓ）を生成する。これらの特徴表現は、「特徴マップ」と称されることもある。エンコーダは、全畳み込みエンコーダである方がよい。そのケースでは、ボトルネック層の出力に対応する表現φ（．）∈Ｒ^{Ｄ＊Ｍ＊Ｎ}が生成され、ここで、Ｄは、特徴マップのチャネル次元（すなわち、チャネル数）に対応し、Ｍ及びＮは、特徴マップの２つの空間次元（すなわち、それぞれ、特徴マップの行数及び列数）である。

【0072】

ニューラルネットワークは、ソース画像Ｉ_Ｓと定型化ソース画像Ｉ_Ｓ→Ｔとの差にペナルティを与える特徴不変損失を最小化することによって、別のドメインに属する画像のセマンティックセグメンテーションの精度を改善できるように訓練される。そのために、特徴φ（Ｉ_Ｓ）及びφ（Ｉ_Ｓ→Ｔ）は、特徴不変損失モジュールＬ_ＩＮＶに供給され、特徴不変損失モジュールＬ_ＩＮＶは、Ｌ_ＩＮＶ（Ｆ、Ｉ_Ｓ、Ｉ_Ｓ→Ｔ）と名付けられる特徴不変損失を生成する。ソース画像Ｉ_Ｓ及び定型化ソース画像Ｉ_Ｓ→Ｔは、同様の構造コンテンツを有するが、それらの様式に関してのみ異なっており、関数Ｌ_ＩＮＶの最小化は、エンコーダφに対して、入力画像の様式から独立した特徴表現を生成するように促す。特定の方法において、これは、特徴φ（Ｉ_Ｓ）及びφ（Ｉ_Ｓ→Ｔ）間の距離を最小化することによって実装され得る。

【0073】

ニューラルネットワークはまた、ターゲット画像Ｉ_Ｔと定型化ターゲット画像Ｉ_Ｔ→Ｓとの差にペナルティを与える特徴不変損失Ｌ_ＩＮＶを最小化することによって訓練される。そのために、特徴φ（Ｉ_Ｔ）及びφ（Ｉ_Ｔ→Ｓ）は、特徴不変損失モジュールＬ_ＩＮＶに供給され、特徴不変損失モジュールＬ_ＩＮＶは、Ｌ_ＩＮＶ（Ｆ、Ｉ_Ｔ、Ｉ_Ｔ→Ｓ）と名付けられる特徴不変損失を生成する。ターゲット画像Ｉ_Ｔ及び定型化ターゲット画像Ｉ_Ｔ→Ｓは、同様の構造コンテンツを有するが、それらの様式に関してのみ異なっており、関数Ｌ_ＩＮＶの最小化は、エンコーダφに対して、入力画像の様式から独立した特徴表現を生成するように促す。特定の方法において、これは、特徴φ（Ｉ_Ｔ）及びφ（Ｉ_Ｔ→Ｓ）間の距離を最小化することによって実装され得る。

【0074】

次いで、ソース画像Ｉ_Ｓの処理（又はエンコード）に起因する特徴φ（Ｉ_Ｓ）、及びソース画像Ｉ_Ｔの処理（又はエンコード）に起因する特徴φ（Ｉ_Ｔ）は、共有のデコーダωに供給される。このデコーダωは、ソフトマックス予測及びそれぞれの交差エントロピー誤差を計算するように構成されている。

【0075】

より正確には、デコーダωは、交差エントロピー誤差モジュールＬ_ＣＥに供給される、ソース画像Ｉ_Ｓに関連付けられるソフトマックス出力Ｆ（Ｉ_Ｓ）を生成する。この交差エントロピー誤差モジュールＬ_ＣＥは、ソース画像Ｉ_ＳのラベルのセットＹ_Ｓを有する交差エントロピー誤差Ｌ_ＣＥ（Ｆ、Ｉ_Ｓ、Ｙ_Ｓ）を生成するように構成されている。同様に、デコーダωは、交差エントロピー誤差モジュールＬ_ＣＥに供給される、ターゲット画像Ｉ_Ｔに関連付けられるソフトマックス出力Ｆ（Ｉ_Ｔ）を生成する。この交差エントロピー誤差モジュールＬ_ＣＥは、ターゲット画像Ｉ_Ｔの擬似ラベルのセット

【数5】

を有する交差エントロピー誤差

【数6】

を生成するように構成されている。

【0076】

特徴不変損失Ｌ_ＩＮＶ（．）及び交差エントロピー誤差Ｌ_ＣＥ（．）に関する更なる詳細は、以下で提供される。

【0077】

図６は、本発明の特定の実装態様に係る、ニューラルネットワークを訓練する方法のフローチャートである。

【0078】

ニューラルネットワークを訓練する方法は、ソースドメインに属する少なくとも１つのラベル付きソース画像（Ｉ_Ｓ）を取得し、ソースドメインと異なるターゲットドメインに属する少なくとも１つのラベルなしターゲット画像（Ｉ_Ｔ）を取得し、少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）を取得し、少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）を取得するステップＳ１００を含む。このステップは、電子デバイス１０ＡのモジュールＭＯＤ＿ＯＢ＿ＩＭＧによって実装され得る。

【0079】

このステップＳ１００は、少なくとも１つのソース画像（Ｉ_Ｓ）及び少なくとも１つのラベルなしターゲット画像（Ｉ_Ｔ）を取得するサブステップＳ１１０を含む。典型的に、複数のソース画像（Ｉ_Ｓ）及びターゲット画像（Ｉ_Ｔ）が取得されるが、簡略化のために、次に１つのソース画像（Ｉ_Ｓ）及び１つのターゲット画像（Ｉ_Ｔ）のみが取得されるケースを考慮する。

【0080】

ソース画像（Ｉ_Ｓ）及びターゲット画像（Ｉ_Ｔ）の各々は、複数のセットの画像を備えるデータセットを記憶したデータベースＤ’にアクセスすることによって取得され得、各セットは、１つ又はいくつかのソース画像Ｉ_Ｓと、１つ又はいくつかのターゲット画像Ｉ_Ｔと、を備える。ソース画像（Ｉ_Ｓ）及びターゲット画像（Ｉ_Ｔ）は、異なる照明条件及び／又は気象条件下で取り込まれる異なるシーンを表す。電子デバイス１０Ａ及びデータベースＤ’は、電気通信ネットワークを介して有線接続又は無線接続を使用して接続され得る。

【0081】

ステップＳ１００は、ソース画像（Ｉ_Ｓ）及びターゲット画像（Ｉ_Ｔ）の定型化バージョンを生成するサブステップＳ１２０を更に備える。

【0082】

より正確には、当該サブステップＳ１２０の目的は、所与の画像及び定型化画像が同様の構造コンテンツを有し、且つ定型化画像が所与のドメインと異なるドメインに属する画像の様式を有するように、所与のドメインに属する所与の画像の定型化バージョンを生成することである。そのようにして、２つのドメインは、ピクセルレベルで「整合」され、所与の画像のセマンティックは、定型化画像を生成するときに維持される。したがって、所与の画像のセマンティックアノテーションは、定型化画像のセマンティックセグメンテーションの予測の教師用にグラウンドトゥルースとして使用され得る。

【0083】

特定の実装態様では、軽量の浅いマッピングは、画像の定型化バージョンを生成するために適用される。「軽量の浅いマッピング」は、その場で定型化を行う（例えば、当該ステップＳ１２０）利点を提供し、全体的なアーキテクチャに対して、不必要な更なる複雑性を導入しない。

【0084】

より正式には、定型化ソース画像Ｉ_Ｓ→Ｔは、Ｉ_Ｓ→Ｔ＝ｇ（Ｉ_Ｓ、Ｉ_Ｔ）として、それぞれの定型化ターゲット画像は、Ｉ_Ｔ→Ｓ＝ｇ（Ｉ_Ｔ、Ｉ_Ｓ）として計算され得る。

【0085】

Ｉ_Ｓ→Ｔ及びＩ_Ｔ→Ｓを生成するために使用される定型化マッピング関数ｇは同じである。

【0086】

本発明の方法は、定型化のために使用される正確なマッピングｇに対してアグノスティックであるが、特定の実装態様では、フーリエドメイン適応（ＦＤＡ）ベースの方法が適用される。ＦＤＡベースの方法は、一方の低周波数スペクトルを他方のものと交換することによってソース分布とターゲット分布との間の不一致を低減する。ＦＤＡベースの方法を用いて定型化ソース画像Ｉ_Ｓ→Ｔを生成するために、電子デバイス１０Ａは、

【数7】

を実装し、Ｆ^－１は逆フーリエ変換であって、Ｍ_βはマスクであって、Ｆ^Ａ（Ｉ_Ｔ）はターゲット画像振幅であって、Ｆ^Ａ（Ｉ_Ｓ）はソース画像振幅であって、Ｆ^Ｐ（Ｉ_Ｓ）はソース画像位相である。

【0087】

より正確には、電子デバイス１０Ａは、以下のステップを実装する。
ソース画像（Ｉ_Ｓ）に対してフーリエ変換（Ｆ）を適用してソース画像位相Ｆ^Ｐ（Ｉ_Ｓ）及びソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）を取得するステップ、
ターゲット画像（Ｉ_Ｔ）に対してフーリエ変換（Ｆ）を適用してターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）を取得するステップ、
ソース画像振幅Ｆ^Ａ（Ｉ_Ｓ）の低周波数部分をターゲット画像振幅Ｆ^Ａ（Ｉ_Ｔ）の低周波数部分に置き換えるステップ、及び
Ｍ_βが理想的なローパスフィルタに対応するマスクである

【数8】

のように逆フーリエ変換Ｆ^－１を適用することによって少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）を生成するステップ。

【0088】

次いで、Ｉ_Ｓの修正スペクトル表現（その位相成分は変更されていない）は、画像Ｉ_Ｓ→Ｔにマッピングし戻され、その構造コンテンツは、Ｉ_Ｓと同じであるが、ターゲットドメインに属する画像の様式になっている。

【0089】

当業者は、ＦＤＡベースの方法に関する更なる詳細について、２０２０年６月のＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎにおけるＹａｎｃｈａｏＹａｎｇ及びＳｔｅｆａｎｏＳｏａｔｔｏによる論文「ＦｏｕｒｉｅｒＤｏｍａｉｎＡｄａｐｔａｔｉｏｎｆｏｒＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ」を参照し得る。

【0090】

当該技術分野のＦＤＡベースの方法との主な違いは、本発明のニューラルネットワークを訓練する方法では、ソースドメインに属する画像及びターゲットドメインに属する画像の両方が、２つのドメインにわたってニューラルネットワーク（Ｆ）によって生成される特徴の不変性を促すように処理され、したがって、特徴レベルで２つのドメインをより充分に整合させ、これにより、ドメイン適応が改善されることである。

【0091】

ステップＳ１００は、ラベル付きソース画像（Ｉ_Ｓ）、ターゲット画像（Ｉ_Ｔ）、定型化ソース画像（Ｉ_Ｓ→Ｔ）、及び定型化ターゲット画像（Ｉ_Ｔ→Ｓ）を、訓練されたニューラルネットワーク（Ｆ）に入力するサブステップＳ１３０を更に含む。

【0092】

ニューラルネットワークを訓練する方法は、ラベル付きソース画像（Ｉ_Ｓ）から生成される特徴（φ（Ｉ_Ｓ））と少なくとも１つの定型化ソース画像（Ｉ_Ｓ→Ｔ）から生成される特徴（φ（Ｉ_Ｓ→Ｔ））との差にペナルティを与える損失関数（Ｌ_ＣＩＳＳ）、及び／又は少なくとも１つのターゲット画像（Ｉ_Ｔ）から生成される特徴（φ（Ｉ_Ｔ））と少なくとも１つの定型化ターゲット画像（Ｉ_Ｔ→Ｓ）から生成される特徴（φ（Ｉ_Ｔ→Ｓ））との差にペナルティを与える損失関数（Ｌ_ＣＩＳＳ）を最小化することによってニューラルネットワーク（Ｆ）を訓練するステップＳ２００を更に含む。このステップは、電子デバイス１０ＡのモジュールＭＯＤ＿ＩＭＰによって実装され得る。

【0093】

より正確には、ステップＳ２００は、サブステップＳ２２０、Ｓ２３０、Ｓ２４０、及びＳ２５０を含む。前述のように、ニューラルネットワーク（Ｆ）は、エンコーダ及びデコーダで構成されている。サブステップＳ２２０で、ニューラルネットワーク（Ｆ）は、画像Ｉ_Ｓ、Ｉ_Ｔ、Ｉ_Ｓ→Ｔ、及びＩ_Ｔ→Ｓからの「表現」φ（Ｉ_Ｓ）、φ（Ｉ_Ｔ）、φ（Ｉ_Ｓ→Ｔ）、及びφ（Ｉ_Ｔ→Ｓ）とも名付けられる特徴マップを生成する。

【0094】

エンコーダは、全畳み込みエンコーダである方がよい。そのケースでは、ボトルネック層の出力に対応する表現φ（．）∈Ｒ^{Ｄ＊Ｍ＊Ｎ}が生成され、ここで、Ｄは、特徴マップのチャネル次元（すなわち、チャネル数）に対応し、Ｍ及びＮは、特徴マップの２つの空間次元（すなわち、それぞれ、特徴マップの行数及び列数）である。

【0095】

サブステップＳ２３０で、特徴不変損失Ｌ_ＩＮＶ（Ｆ、Ｉ_Ｓ、Ｉ_Ｓ→Ｔ）及びＬ_ＩＮＶ（Ｆ、Ｉ_Ｔ、Ｉ_Ｔ→Ｓ）が計算される。

【0096】

典型的な交差エントロピー誤差ではなく、特定の特徴不変損失を使用することで、Ｉ_ＳとＩ_Ｓ→ｔとの間及びＩ_ｔとＩ_ｔ→Ｓとの間それぞれの共有のセマンティックコンテンツに関して、ニューラルネットワーク（Ｆ）に対してより強力な制約を課す利点が提供される。

【0097】

サブステップＳ２２０で生成される特徴表現は理想的には、入力画像の特定の様式又は視覚的な条件に対して不変である方がよく、デコーダは、当該特徴をパースしてセマンティッククラスを出力するのに集中して、入力画像の特定の様式から更に抽象化する必要をなくすことが可能になる。

【0098】

したがって、ニューラルネットワーク（Ｆ）は、所与の画像から生成される特徴と当該所与の画像の定型化バージョンから生成される特徴との差にペナルティを与える特徴不変損失関数Ｌ_ＩＮＶ（．）を最小化することによって訓練される。

【0099】

より正式には、Ｆをエンコーダφ及びデコーダωの合成、次いで

【数9】

として考慮することにする。Ｉ及びＩ’を同じ次元の２つの入力画像とし、φ（Ｉ）、φ（Ｉ’）をφ（Ｉ）、φ（Ｉ’）∈Ｒ^{Ｄ×Ｍ×Ｎ}であるようなエンコーダによって生成される特徴とし、ここで、Ｄは、特徴マップのチャネル次元（すなわち、チャネル数）に対応し、Ｍ及びＮは、特徴マップの２つの空間次元（すなわち、それぞれ、特徴マップの行数及び列数）である。

【0100】

特徴不変損失は、以下のように表され得る。

【数10】

ここで、｜｜・｜｜_Ｆは、フロベニウスノルムである。

【0101】

ステップＳ２３０に戻り、特徴不変損失関数は、画像のペア（Ｉ_Ｓ、Ｉ_Ｓ→Ｔ）及び（Ｉ_Ｔ、Ｉ_Ｔ→Ｓ）に対して、各ペアからの特徴を整合させるために適用され、特徴不変損失Ｌ_ＩＮＶ（Ｆ、Ｉ_Ｓ、Ｉ_Ｓ→Ｔ）及びＬ_ＩＮＶ（Ｆ、Ｉ_Ｔ、Ｉ_Ｔ→Ｓ）が計算される。

【0102】

次いで、ニューラルネットワーク（Ｆ）を訓練する方法は、ソース画像Ｉ_Ｓに関連付けられるソフトマックス出力Ｆ（Ｉ_Ｓ）及びターゲット画像Ｉ_Ｔに関連付けられるソフトマックス出力Ｆ（Ｉ_Ｔ）を生成するステップＳ２４０を含む。

【0103】

ステップＳ２５０で、ソフトマックス出力Ｆ（Ｉ_Ｓ）は、交差エントロピー誤差Ｌ_ＣＥ（Ｆ、Ｉ_Ｓ、Ｙ_Ｓ）を生成する交差エントロピー誤差モジュールＬ_ＣＥに供給され、ソフトマックス出力Ｆ（Ｉ_Ｔ）も、ターゲット画像Ｉ_Ｔの擬似ラベルのセット

【数11】

を有する交差エントロピー誤差

【数12】

を生成する交差エントロピー誤差モジュールＬ_ＣＥに供給される。

【0104】

特定の実装態様では、ターゲット画像Ｉ_Ｔの擬似ラベルは、信頼重み付け擬似ラベルを伴うＤＡＦｏｒｍｅｒ［１２］の教師－学生自己訓練フレームワークを適用することによって決定される。

【0105】

より正式には、セマンティックラベルＹが、Ｃ×Ｈ×Ｗテンソルでワンホットエンコードされる（ｏｎｅ－ｈｏｔ－ｅｎｃｏｄｅｄ）場合、画像Ｉについてのネットワークのソフトマックス出力Ｆ（Ｉ）に関連付けられる交差エントロピー誤差Ｌ_ＣＥ（．）は、以下のように定められる。

【数13】

【0106】

次いで、結果として生じる２つの特徴不変損失Ｌ_ＩＮＶ（Ｆ、Ｉ_Ｓ、Ｉ_Ｓ→Ｔ）及びＬ_ＩＮＶ（Ｆ、Ｉ_Ｔ、Ｉ_Ｔ→Ｓ）は、交差エントロピー誤差Ｌ_ＣＥ（Ｆ、Ｉ_Ｓ、Ｙ_Ｓ）及び

【数14】

と組み合わされ、結果として生じる損失Ｌ_ＣＩＳＳは、以下のように表される。

【数15】

ここで、λ_Ｓ及びλ_ｔは、調整可能なハイパーパラメータである。

【0107】

ステップＳ２６０で、ニューラルネットワーク（Ｆ）は、結果として生じる当該損失関数Ｌ_ＣＩＳＳを最小化することによって訓練される。確率的勾配降下法又は任意の他の好適な訓練アルゴリズム若しくは確率的勾配降下法の変形体が使用され得る。確率的勾配降下法は、ニューラルネットワークの重みを適応させるために使用され得る。本発明に係る訓練方法は、当該損失関数Ｌ_ＣＩＳＳを最小化すること、例えば、この損失を逆伝播させることを含む。

【0108】

図７は、本発明の特定の実装態様に係る、入力画像のセマンティックセグメンテーションを生成する方法のフローチャートである。この方法は、図２によって示される電子デバイス１０Ｂによって実装される。

【0109】

図７に示されるように、入力画像のセマンティックセグメンテーションを生成する方法は、入力画像を取得する第１のステップＳ３００を含む。この入力画像は、ターゲットドメインに属し得る、すなわち、この入力画像は、悪条件下で取り込まれるシーンを表し得る。

【0110】

入力画像のセマンティックセグメンテーションを生成する方法は、前述のニューラルネットワークを訓練する方法を行うことによって生成される、訓練されたニューラルネットワーク（Ｆ）を取得するステップＳ４００を更に含む。このステップは、電子デバイス１０ＢのモジュールＭＯＤ＿ＯＢ＿Ｆによって実装され得る。

【0111】

特定の実装態様では、「訓練されたニューラルネットワークを取得すること」は、この電子デバイス１０Ｂによって、前述のニューラルネットワークを訓練する方法を適用することを含む。

【0112】

変形体では、電子デバイス１０Ａは、ニューラルネットワークを訓練する方法を実装し、ドメイン適応ニューラルネットワーク、例えば、悪条件下で取り込まれる画像に対しても信頼できる性能を達成するニューラルネットワークを生成する。次いで、「訓練されたニューラルネットワークを取得する」ステップは、「電子デバイス１０Ａによって生成された訓練されたニューラルネットワークを電子デバイス１０Ｂによって受信すること」を含む。そのケースでは、電子デバイス１０Ａ及び電子デバイス１０Ｂは、電気通信ネットワークを介して有線接続又は無線接続を使用して接続され得る。

【0113】

入力画像のセマンティックセグメンテーションを生成する方法は、ステップＳ４００で取得されたニューラルネットワーク（Ｆ）を使用して入力画像のセマンティックセグメンテーションを生成するステップＳ５００を更に含む。このステップは、電子デバイス１０ＢのモジュールＭＯＤ＿ＧＥＮによって実装され得る。

【0114】

図８は、都市景観データセット、及び対応関係を伴う悪条件データセット（ＡＣＤＣ）を使用して、「通常対悪ドメイン適応」シナリオについて図１の電子デバイス（１０Ａ）を用いて得られた定性的な結果を示す。

【0115】

実装態様の詳細

【0116】

ニューラルネットワークを訓練する方法のデフォルトの実装態様は、ＨＲＤＡ［１３］に基づいている。セマンティックセグメンテーションネットワークは、ＳｅｇＦｏｒｍｅｒ［４２］によるＭｉＴ－Ｂ５エンコーダと、コンテキスト認識特徴融合デコーダ［１２］と、を備える。

【0117】

また、このアーキテクチャを使用するいくつかの先のＵＤＡ方法と直接比較するために、ＲｅｓＮｅｔ－１０１基幹［９］を伴うＤｅｅｐＬａｂｖ２［３］アーキテクチャを用いて方法を実装した。デフォルトのＨＲＤＡベースの実装態様について、信頼重み付け擬似ラベルを伴うＤＡＦｏｒｍｅｒ［１２］の教師－学生自己訓練フレームワーク、レアクラスサンプリング、及びＤＡＣＳ［３４］に従うターゲットデータ拡張に従っており、エンコーダについての６×１０^－５の学習率及びデコーダについての６×１０^－４の学習率、線形学習率ウォームアップ、並びにサイズＢ＝２のミニバッチを用いて、ＡｄａｍＷオプティマイザ［２１］を使用し、各々が各ミニバッチの２つのサンプルのうちの１つを処理する２つのＴｉｔａｎＲＴＸＧＰＵにおいて訓練した。

【0118】

ＨＲＤＡのデフォルトの構成及びパラメータを、そのマルチ解像度セットアップに関して適用した。画像を定型化するＦＤＡベースの方法を適用する際、フーリエスペクトルの低周波数帯域の帯域幅パラメータとしてβ＝０．０１を使用した。特徴不変損失の重みに関するデフォルトの値を、ＣＩＳＳのデフォルトのＨＲＤＡベースの実装態様についてλ_Ｓ＝２００及びλ_ｔ＝１００に設定し、代替的なＤｅｅｐＬａｂｖ２ベースの実装態様についてλ_Ｓ＝λ_ｔ＝１０に設定した。

【0119】

データセット

【0120】

ニューラルネットワークを訓練する方法は、典型的な合成対現実のシナリオのような構造レベルシフトではなく、シーンにおけるオブジェクトの様式及びテクスチャに影響を与える条件レベルドメインシフトについて調整されるため、実験は、通常対悪視覚条件からのドメイン適応及び一般化の設定に焦点を当てている。

【0121】

実験においてラベル付きソースドメインセットとしてデータセット都市景観［６］を使用した。都市景観は、通常の条件下で中央ヨーロッパのいくつかの都市において取り込まれ、運転シーンにおける１９個の一般的なクラスのセットに対する高品質のピクセルレベルセマンティックアノテーションを含む、都会の運転シーンの大きいデータセットである。当該データセットは、２９７５個の画像を有する訓練セット、５００個の画像を有する検証セット、及び１５２５個の画像を有するテストセットで構成されている。本実験においてＵＤＡ方法を訓練するとき、都市景観の訓練セットからのみソース画像をサンプリングした。加えて、通常対悪ＵＤＡについて悪条件ドメインをモデル化するラベルなしターゲットドメインセットとしてデータセットＡＣＤＣ［３１］を使用した。ＡＣＤＣは、４つの一般的な悪条件、すなわち、夜、霧、雨、及び雪で均等に分配された、運転シーンの４００６個の画像で構成されている。当該画像は、都市景観と同じセットの１９個のクラスについて高品質のセマンティックアノテーションを特徴付ける。その訓練セット、検証セット、及びテストセットはそれぞれ、１６００個、４０６個、２０００個の画像を含む。

【0122】

そして、ドメイン一般化についてターゲットセットとしてＢＤＤ１００Ｋ［４４］を使用した。特に、まず、変動する視覚条件下で取り込まれた１０００個の画像を含むＢＤＤ１００Ｋの１００００画像セマンティックセグメンテーションサブセットの検証セットに対してゼロショットテストを行った。次いで、ＢＤＤ１００Ｋ－ｎｉｇｈｔ［３０］、正確なセグメンテーションラベルを伴う８７個の夜間画像を有するＢＤＤ１００Ｋの分割を使用した。

【0123】

都市景観→ＡＣＤＣにおける最先端の教師なしドメイン適応及び一般化方法の比較。

【0124】

都市景観は、ソースドメインとして機能し、全４つの悪条件を含む全ＡＣＤＣは、ターゲットドメインとして機能する。

【0125】

本発明の方法、ＣＩＳＳは、全ての競合する方法、ドメイン適応及びドメイン一般化のもの両方よりも著しく優れた性能であり、次善の方法から主なｍＩｏＵメトリックで４％の差を有する。更に、本発明の方法は、１９個の個々のクラスのうち１１個において最善のＩｏＵを達成し、道路、歩道、及び車などの運転認識に重大なクラスにおいて優れている。ＤｅｅｐＬａｂｖ２アーキテクチャを使用する方法に焦点を当てて、ＣＩＳＳ－ＤｅｅｐＬａｂｖ２も、それらの中で最高の性能を有し、本方法の利点が、異なるＵＤＡアーキテクチャにわたって一般的であることを示している。

【0126】

図８は、都市景観→ＡＣＤＣにおける定性的な結果を示し、例えば、ソースドメインとして都市景観データセットを用い、ターゲットドメインとしてＡＣＤＣデータセットを用いて本発明の方法で訓練され、次いで、ＡＣＤＣデータセットにおいてテスト／検証されるニューラルネットワークによって提供される定性的な結果を示す。

【0127】

列Ａは、ＡＣＤＣデータセットに属する４つの異なる画像を含み、列Ｂは、それらのグラウンドトゥルースアノテーションに対応し、列Ｃは、ＨＲＤＡ方法を適用したときのセマンティックセグメンテーション結果に対応し、列Ｄは、本発明のニューラルネットワークを訓練する方法を適用したときの結果に対応する。

【0128】

一番上の雪画像において、本発明の方法は、空、道路、及び歩道を正確に取り込んでいる一方、ＨＲＤＡは、歩道及び空の両方を道路と誤分類している。第２の行の夜間画像において、本発明の方法は上手く、左の歩道における非常に暗い２人の歩行者のうちの１人をセグメント化し、その近くの２台のオートバイを検出しているが、ＨＲＤＡは完全に、歩行者を植物と間違え、オートバイを車と間違えている。一番下の雨画像において、ＨＲＤＡは、道路上の２つの交通信号灯の緑の反射を交通信号灯として間違ってセグメント化しているが、本発明の方法は正しく、当該反射を道路に割り当て、また、はるかに正確に右の歩道をセグメント化している。

【0129】

参考

【0130】

［３］Ｃｈｅｎ＆Ａｌ．のＤｅｅｐＬａｂ：Ｓｅｍａｎｔｉｃｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｓ，ａｔｒｏｕｓｃｏｎｖｏｌｕｔｉｏｎ，ａｎｄｆｕｌｌｙｃｏｎｎｅｃｔｅｄＣＲＦｓ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、４０（４）：８３４－８４８、２０１８年。

【0131】

［６］Ｃｏｒｄｔｓ＆Ａｌ．のＴｈｅＣｉｔｙｓｃａｐｅｓｄａｔａｓｅｔｆｏｒｓｅｍａｎｔｉｃｕｒｂａｎｓｃｅｎｅｕｎｄｅｒｓｔａｎｄｉｎｇ．ＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０１６年。

【0132】

［９］Ｈｅ＆Ａｌ．のＤｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ．ＴｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０１６年６月。

【0133】

［１２］Ｈｏｙｅｒ＆Ａｌ．のＤＡＦｏｒｍｅｒ：Ｉｍｐｒｏｖｉｎｇｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅｓａｎｄｔｒａｉｎｉｎｇｓｔｒａｔｅｇｉｅｓｆｏｒｄｏｍａｉｎ－ａｄａｐｔｉｖｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０２２年。

【0134】

［１３］Ｈｏｙｅｒ＆Ａｌ．のＨＲＤＡ：Ｃｏｎｔｅｘｔ－ａｗａｒｅｈｉｇｈ－ｒｅｓｏｌｕｔｉｏｎｄｏｍａｉｎ－ａｄａｐｔｉｖｅｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎ．ＴｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＥＣＣＶ）、２０２２年

【0135】

［２１］Ｌｏｓｈｃｈｉｌｏｖ＆Ａｌ．のＤｅｃｏｕｐｌｅｄｗｅｉｇｈｔｄｅｃａｙｒｅｇｕｌａｒｉｚａｔｉｏｎ．ＩＣＬＲ、２０１８年。

【0136】

［３０］Ｓａｋａｒｉｄｉｓ＆Ａｌ．のＭａｐ－ｇｕｉｄｅｄｃｕｒｒｉｃｕｌｕｍｄｏｍａｉｎａｄａｐｔａｔｉｏｎａｎｄｕｎｃｅｒｔａｉｎｔｙ－ａｗａｒｅｅｖａｌｕａｔｉｏｎｆｏｒｓｅｍａｎｔｉｃｎｉｇｈｔｔｉｍｅｉｍａｇｅｓｅｇｍｅｎｔａｔｉｏｎ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ、２０２０年

【0137】

［３４］Ｔｒａｎｈｅｄｅｎ＆Ａｌ．のＤＡＣＳ：Ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｖｉａｃｒｏｓｓｄｏｍａｉｎｍｉｘｅｄｓａｍｐｌｉｎｇ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ／ＣＶＦＷｉｎｔｅｒＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（ＷＡＣＶ）、２０２１年。

【0138】

［４２］Ｘｉｅ＆Ａｌ．のＳｅｇＦｏｒｍｅｒ：Ｓｉｍｐｌｅａｎｄｅｆｆｉｃｉｅｎｔｄｅｓｉｇｎｆｏｒｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｔｒａｎｓｆｏｒｍｅｒｓ．ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ、２０２１年。

【0139】

［４４］Ｙｕ＆Ａｌ．のＢＤＤ１００Ｋ：Ａｄｉｖｅｒｓｅｄｒｉｖｉｎｇｄａｔａｓｅｔｆｏｒｈｅｔｅｒｏｇｅｎｅｏｕｓｍｕｌｔｉｔａｓｋｌｅａｒｎｉｎｇ．ＩＥＥＥ／ＣＶＦＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）、２０２０年６月。

【図1】