(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024081142
(43)【公開日】2024-06-17
(54)【発明の名称】ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体
(51)【国際特許分類】
G06T 7/00 20170101AFI20240610BHJP
G06T 7/11 20170101ALI20240610BHJP
G06V 10/82 20220101ALI20240610BHJP
【FI】
G06T7/00 350C
G06T7/11
G06V10/82
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023203484
(22)【出願日】2023-11-30
(31)【優先権主張番号】202211548103.2
(32)【優先日】2022-12-05
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ワン・ジエ
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】フォン・チョン
(72)【発明者】
【氏名】孫 俊
(72)【発明者】
【氏名】大川 佳寛
(72)【発明者】
【氏名】横田 泰斗
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA06
5L096CA02
5L096DA02
5L096FA02
5L096GA34
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体を提供する。
【解決手段】画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部並びに識別部を含むドメイン適応型ニューラルネットワークは、ソースドメイン昼間画像、夜間画像を含む、ラベル付きのソースドメイン画像を使用して第1の分割部に対して教師あり訓練を実行し、該ラベル付きの画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行し、識別部が、第1の分割部により生成された分割結果がソースドメイン画像に基づいて生成されたものである確率を決定し、敵対的訓練された第1の分割部のパラメータを使用して第2の分割部を初期化し、該ラベル付きの画像及びラベルなしのターゲットドメイン夜間画像を使用して、第2の分割部に対し教師あり訓練を実行する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記方法は、
ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を含む、方法。
【請求項2】
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、請求項1に記載の方法。
【請求項3】
前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第1の分割部に対して教師あり訓練を実行する、請求項1に記載の方法。
【請求項4】
訓練された第1の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第1の確率マップを生成するステップであって、前記第1の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第1の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第2の確率マップを生成するステップであって、前記第2の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第1の確率マップ及び前記第2の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、請求項1に記載の方法。
【請求項5】
前記第1の確率マップに基づいて第1のエントロピーマップを生成するステップと、
前記第2の確率マップに基づいて第2のエントロピーマップを生成するステップと、
前記識別部が前記第1のエントロピーマップ及び前記第2のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、請求項4に記載の方法。
【請求項6】
敵対的訓練された第1の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第1のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第2のエントロピーマップとは、互いに類似する、請求項5に記載の方法。
【請求項7】
ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第2の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第2の分割部に対して教師あり訓練を実行するステップ、をさらに含む、請求項1に記載の方法。
【請求項8】
前記第2の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第3の確率マップを生成するステップであって、前記第3の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第3の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、をさらに含む、請求項7に記載の方法。
【請求項9】
ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記装置は、
プログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置。
【請求項10】
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項1乃至8の何れかに記載のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に、ドメイン適応(domain adaptation)に関し、具体的には、ドメイン適応型ニューラルネットワークを訓練する方法及び装置、並びに対応するコンピュータ読み取り可能な媒体に関する。
【背景技術】
【0002】
教師なしドメイン適応とは、ラベル付きのソースドメインデータを使用して訓練されたモデルをラベルなしのターゲットドメインに転移すると共に、ターゲットドメインでの該モデルの性能を可能な限り維持することを意味する。ソースドメインとターゲットドメインとの間にデータ分布の差異があり、且つターゲットドメインにラベル付きデータが不足しているため、ソースドメインデータを用いて訓練されたモデルは、ターゲットドメインに適用される際の性能が低下する場合が多い。教師なしドメイン適応の訓練(トレーニング)プロセスは、ソースドメインのラベル付きデータとターゲットドメインのラベルなしデータの両方を利用することで、ドメインの差異による影響を効果的に軽減し、モデルの堅牢性を向上させることができる。
【0003】
一方、画像のセマンティックセグメンテーション(意味的分割)は、コンピュータビジョンにおいて重要なタスクであり、画像を画素レベルで認識すること、即ち、画像における各画素が属するオブジェクトのクラス(カテゴリ)(例えば、空、川、建物、人物など)をラベル付けすることである。特に、夜間画像のセマンティックセグメンテーションは、昼間画像のセマンティックセグメンテーションと同様に重要であり、例えば自動運転などの分野に幅広く応用されている。しかし、夜間画像は、照明が不足し、ラベル付けが困難であるため、夜間画像のセマンティックセグメンテーションはより挑戦的なタスクである。夜間画像のセグメンテーションを解決するための1つの考え方は、教師なしドメイン適応アルゴリズムを利用して、昼間画像についてのセグメンテーションモデルを夜間画像セットに転移することであり、このプロセスでは、ラベル付きの夜間画像データを使用する必要がない。現在の教師なしドメイン適応型のセマンティックセグメンテーション手法は、画像の場所又はシーンの転移、合成画像から実画像への転移などのみを考慮する場合が多く、場所の変化及び照明の変化を同時に考慮する研究は比較的に少ない。
【0004】
また、夜間画像の教師なしドメイン適応型のセマンティックセグメンテーションについて、現在の研究は主に2つの種類に分けられる。1つは、夕方画像を昼間画像と夜間画像との間の中間データとして利用し、昼間画像から夕方画像を介して夜間画像への段階的に転移させる。もう1つは、昼間画像と夜間画像との間のスタイル転移に注目している。従来方法は、良好な結果を達成しているが、例えば、追加的な夕方画像データ又はターゲットドメインの昼間と夜間の画像ペアが必要となるなどの欠点もある。また、昼間画像を夜間画像に変換し、或いは夜間画像を昼間画像に変換する方法もあり、これらの方法の性能は変換された画像の品質により制限される。
【発明の概要】
【発明が解決しようとする課題】
【0005】
昼間画像を用いて訓練されたソースドメインモデルがターゲットドメインの夜間シーンに適応しにくい理由の1つは、ソースドメインモデルが夜間のシーンの知識に乏しいことである。従って、本開示は、照明に堅牢性を有するソースドメインモデルを訓練することを提案する。具体的には、ソースドメインモデルを訓練するために、様々な照明条件(昼間、夜間)におけるソースドメイン画像データを追加する。また、本開示は、訓練済みのソースドメインモデルをターゲットドメインに転移するために、2段階の教師なしドメイン適応方法を提案する。ここで、第1の段階において、敵対的訓練に基づくドメインアライメントを行い、第2の段階において、アライメントモデルに基づく自己訓練(自己学習)を行うことによって、安定、且つ効率的な性能向上を実現する。
【課題を解決するための手段】
【0006】
本開示の1つの態様では、コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記方法は、ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を含む、方法を提供する。
【0007】
本開示のもう1つの態様では、ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記装置は、プログラムが記憶されたメモリと、1つ又は複数のプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することで、ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置を提供する。
【0008】
本開示のもう1つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体を提供する。
【図面の簡単な説明】
【0009】
【
図1】ソースドメイン画像及びターゲットドメイン画像の画像例を示す図である。
【
図2】本開示に係るドメイン適応の全体的なスキームを示す概略図である。
【
図3】
図2における第2のステップの詳細な処理を示す概略図である。
【
図4】本開示に係るドメイン適応型ニューラルネットワークの訓練方法を示すフローチャートである。
【
図5】本開示に係るドメイン適応型ニューラルネットワークの訓練装置のモジュールを示すブロック図である。
【
図6】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0010】
図1は、ソースドメイン画像及びターゲットドメイン画像の画像例を示す図である。ソースドメイン画像は、同一の川のシーンの昼間画像及び夜間画像を含み、ここで、夜間画像の明るい部分は遠くの町のライトである。ターゲットドメイン画像は、別の川のシーンの夜間画像を含む。なお、本開示は、これらの例示的な画像に限定されず、他のシーンの画像に適用されてもよい。
【0011】
また、
図1は、ソースドメイン画像のラベルを示しており、該ラベルは、ソースドメイン画像を手動でラベル付けされたものである。
図1では、ラベル画像がグレースケール画像として示されているが、画像のセマンティックセグメンテーションの分野の当業者にとって周知のように、該ラベル画像において、異なるオブジェクトクラスを表す画像部分が異なる色でマーキングされてもよい。例えば、
図1に示すラベルでは、川を示す部分を青色でマーキングし、木を示す部分を緑色でマーキングし、橋を示す部分を茶色でマーキングしてもよい。
【0012】
図2は、本開示に係るドメイン適応の全体的なスキームを示す概略図である。このスキームは、2つのステップを含み、第1のステップにおいて、ソースドメイン画像を使用して訓練を行い、照明条件にロバストなソースドメインモデルを取得し、第2のステップにおいて、取得されたソースドメインモデルをターゲットドメインに転移する。
【0013】
より具体的には、第1のステップにおいて、ソースドメイン昼間画像及びソースドメイン夜間画像、並びにこれらに対応するラベルを使用して第1の分割部Seg1(
図3に示す)に対して教師あり訓練を実行し、ここで、該第1の分割部Seg1は、画像のセマンティックセグメンテーションを実行する。この教師あり訓練の損失関数は、以下の数式(1)に示すように、交差エントロピー損失関数を使用してもよい。
【0014】
【数1】
ここで、x
sは昼間画像と夜間画像とを含むソースドメイン画像を表し、N
sはソースドメイン画像の数を表し、H、Wは画像の高さと幅をそれぞれ表し、y
sはn番目の画像における画素mの真のラベルを表し、p
sは第1の分割部Seg1により予測された画素mが各クラスに属する確率を表す。
【0015】
特に、上記の説明では、ソースドメイン昼間画像及びソースドメイン夜間画像のそれぞれに対して手動でラベル付けし、それぞれのラベルを取得すると仮定する。別の態様として、ソースドメイン昼間画像のみに対して手動でラベル付けしてラベルを取得し、ソースドメイン昼間画像のラベルをソースドメイン夜間画像のラベルとして再利用してもよい。これは、通常、同一のシーンの同一の日の昼間と夜間との間の変化が少なく、例えば画像における川の水位の変化が少ないからである。ラベルを再利用することによって、手動でのラベル付けのコストを低減させることができると共に、ソースドメインモデルの汎化性を明らかに向上させることができる。
【0016】
昼間画像のラベルを夜間画像のラベルとして再利用する場合、教師あり訓練の損失関数は、以下の数式(2)のようになる。
【0017】
【数2】
ここで、x
sはソースドメイン昼間画像を表し、x
suはソースドメイン夜間画像を表し、y
sはソースドメイン昼間画像x
sの真のラベルを表す。y
suはソースドメイン夜間画像x
suのラベルを表し、ソースドメイン昼間画像x
sのラベルと同一のラベルに設定される。
【0018】
また、
図2に示すように、第1のステップにおいて第1の分割部Seg1に対する教師あり訓練を終了した後、第2のステップにおいて訓練後の第1の分割部Seg1をターゲットドメインに転移する。以下は、
図3を参照しながら第2のステップの処理を詳細に説明する。
【0019】
図3に示すように、訓練後の第1の分割部Seg1をターゲットドメインに転移するプロセスは、2つの段階を含む。第1の段階において、ラベル付きのソースドメイン画像(昼間画像と夜間画像)及びラベルなしのターゲットドメイン画像(具体的には、ターゲットドメイン夜間画像)を使用して、訓練後の第1の分割部Seg1及び識別部Dに対して敵対的訓練を実行する。
【0020】
具体的には、第1の分割部Seg1は、入力されたソースドメイン画像又はターゲットドメイン画像のいずれに対してもセマンティックセグメンテーションを実行する。第1の分割部Seg1は、ラベル付きのソースドメイン画像について、ソースドメイン確率マップを出力し、該ソースドメイン確率マップは、ソースドメイン画像における各画素が各クラスに属する確率を示す。第1の分割部Seg1は、ラベルなしのターゲットドメイン夜間画像について、ターゲットドメイン確率マップを出力し、該ターゲットドメイン確率マップは、ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す。また、ソースドメイン確率マップでは、各画素について最大の確率値のみが保存されるため、確率マップのサイズをH*W*KからH*Wに減少させることができる。ここで、H、Wは画像の高さ及び幅をそれぞれ表し、Kはクラスの数を表す。ターゲットドメイン確率マップに対しても同様の処理を行ってもよい。次元削減されたソースドメイン確率マップ(「第1の確率マップ」と称される)と次元削減されたターゲットドメイン確率マップ(「第2の確率マップ」と称される)は、識別部Dに入力されてもよい。
【0021】
識別部Dは、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定する。言い換えれば、識別部Dは、第1の分割部Seg1が現在処理している画像がソースドメイン画像であるか否かを識別し、処理している画像がソースドメイン画像である可能性を出力する。
【0022】
第1の分割部Seg1及び識別部Dに対して敵対的訓練を実行する。具体的には、識別部Dは、確率マップの実際の由来をできるだけ識別し、一方、第1の分割部Seg1は、識別部Dを混乱させるために、ソースドメイン画像とターゲットドメイン画像について類似する確率マップをできるだけ生成する。このように、敵対的訓練により、第1の分割部Seg1がソースドメイン画像とターゲットドメイン画像について類似する確率マップを出力することができ、領域の差異の分割結果への影響を低減させることができる。
【0023】
好ましい態様では、さらに、第1の確率マップに基づいて第1のエントロピーマップを生成し、第2の確率マップに基づいて第2のエントロピーマップを生成する。I=‐Plog(P)に従ってエントロピーマップを生成してもよく、ここで、Pは確率を表し、Iはエントロピーを表す。そして、識別部Dは、第1のエントロピーマップ及び第2のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定する。
【0024】
敵対的訓練では、識別部Dを訓練するための損失関数は、以下の数式(3)に示す。
【0025】
【数3】
ここで、N
s及びN
tは、それぞれ、ソースドメイン画像及びターゲットドメイン画像の数を表し、D()は、識別部Dが出力する確率を表し、I
s、I
tは、それぞれ、ソースドメイン画像及びターゲットドメイン画像について予測されたエントロピーマップを表す。l
s、l
tは、それぞれ、ソースドメイン及びターゲットドメインのドメインラベルを表し、例えば、l
s=1,l
t=0。また、λ
1及びλ
2は、ソースドメインとターゲットドメインのバランスを取るためのハイパーパラメータであり、例えば両方とも0.5に設定されてもよい。
【0026】
敵対的訓練では、第1の分割部Seg1を訓練するための敵対的損失関数は、以下の数式(4)に示す。
【0027】
【数4】
ここで、I
nはターゲットドメイン画像について予測されたエントロピーマップを表し、N
tはターゲットドメイン画像の数を表し、l
sはソースドメインのドメインラベルを表し、例えばl
s=1。
【0028】
以上をまとめると、第1の段階における総損失関数は、以下の数式(5)に示す。
【0029】
【数5】
ここで、L
s
seg及びL
su
segは、それぞれ、第1の分割部Seg1がソースドメイン昼間画像及びソースドメイン夜間画像について分割予測を行うための分割損失関数を表す。
【0030】
第1の段階の訓練の後、第1の分割部Seg1により、ソースドメイン画像とターゲットドメイン画像についての類似する確率マップ(又はエントロピーマップ)を取得することができるため、2つのドメインの出力のアライメントを実現することができる。
【0031】
そして、
図3に示すように、第2の段階において、第1の段階において訓練された第1の分割部Seg1のパラメータを使用して第2の分割部Seg2を初期化し、その後、ラベル付きのソースドメイン画像(昼間画像と夜間画像)とラベルなしのターゲットドメイン夜間画像とを使用して、初期化された第2の分割部Seg2に対して教師あり訓練を実行する。この教師あり訓練では、入力されたソースドメイン画像について、ソースドメイン画像の真のラベルを使用し、入力されたターゲットドメイン画像について、擬似ラベルを使用する。
【0032】
本開示では、ターゲットドメイン画像について第2の分割部Seg2により生成された分割予測結果を、該ターゲットドメイン画像の擬似ラベルとして使用する。具体的には、第2の分割部Seg2は、ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第3の確率マップを生成し、該第3の確率マップは、ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す。そして、第3の確率マップに基づいて、各画素について、最大確率に対応するクラスを、対応する画素が属するクラスとして決定する。これによって、該ターゲットドメイン夜間画像の擬似ラベルを取得することができる。
【0033】
ターゲットドメイン画像についての擬似ラベルを使用した教師あり学習では、以下の数式(6)に示すように、交差エントロピー損失関数を損失関数として使用してもよい。
【0034】
【数6】
ここで、x
tはターゲットドメイン画像を表し、N
tはターゲットドメイン画像の数を表し、H、Wは画像の高さ及び幅をそれぞれ表し、
(外1)
はn番目のターゲットドメイン画像における画素mの擬似ラベルを表し、p
tは第2の分割部Seg2により予測された画素mが各クラスに属する確率を表す。
【0035】
第2の段階における総損失関数は、以下の数式(7)に示す。
【0036】
【数7】
ここで、L
s
seg及びL
su
segは、それぞれ、第2の分割部Seg2がソースドメイン昼間画像及びソースドメイン夜間画像について分割予測するための分割損失関数を表す。
【0037】
図4は、本開示に係るドメイン適応型ニューラルネットワークの訓練方法を示すフローチャートであり、
図5は、本開示に係るドメイン適応型ニューラルネットワークの訓練装置のモジュールを示すブロック図である。
【0038】
本開示に係るドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部Seg1及び第2の分割部Seg2を含み、識別部Dを含む。
図4に示すように、ステップS410において、ラベル付きのソースドメイン昼間画像とソースドメイン夜間画像を使用して第1の分割部Seg1に対して教師あり訓練を実行する。この訓練において使用される損失関数は、数式(1)又は(2)に示す。この訓練によれば、照明条件にロバストなソースドメインモデルを取得することができる。このステップは、
図5における第1の分割部訓練モジュール510により実行されてもよい。
【0039】
ステップS420において、ラベル付きのソースドメイン昼間画像及びソースドメイン夜間画像、並びにラベルなしのターゲットドメイン夜間画像を使用して、識別部D及びステップS410において訓練された第1の分割部Seg1に対して敵対的訓練を実行する。この訓練において使用される損失関数は、数式(3)~(5)に示す。この敵対的訓練によれば、第1の分割部Seg1によりソースドメイン画像とターゲットドメイン画像についての類似する確率マップ(エントロピーマップ)を取得することができるため、2つのドメインの出力のアライメントを実現することができる。このステップは、
図5における敵対的訓練モジュール520により実行されてもよい。
【0040】
ステップS430において、ステップS420において敵対的訓練された第1の分割部Seg1のパラメータを使用して第2の分割部Seg2を初期化する。このステップは、
図5における初期化モジュール530により実行されてもよい。
【0041】
ステップS440において、ラベル付きのソースドメイン昼間画像及びソースドメイン夜間画像、並びにラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部Seg2に対して教師あり訓練を実行する。この訓練において使用される損失関数は、数式(6)及び(7)に示す。このステップは、
図5における第2の分割部訓練モジュール540により実行されてもよい。
【0042】
ステップS440の訓練が完了すると、訓練済みの第2の分割部Seg2を使用して、実際に処理するソースドメイン画像又はターゲットドメイン画像に対してセマンティックセグメンテーションを実行してもよい。特に、実際のターゲットドメイン夜間画像を処理するために適用される場合、本開示は、ターゲットドメイン画像とソースドメイン画像との間にシーン及び照明条件の両方に差異がある場合、教師なしのドメイン適応のセマンティックセグメンテーションの問題点を解決することができる。
【0043】
以下の表1は、本開示に係る方法により訓練されたモデルと他のモデルとの性能の比較を示す。表1では、「Source -d」は、ラベル付きソースドメイン昼間画像セットのみを使用して訓練されたソースドメインモデルを表し、ベースラインモデルとされる。「モデル -1」は、本開示に係るソースドメイン昼間画像セット及びソースドメイン夜間画像セットを使用して訓練されたソースドメインモデルであり、
図2に示す第1のステップにより得られたモデルに対応する。「ST」は、従来の自己訓練手法により得られたモデルを表し、「Adv」は、従来の敵対的訓練手法により得られたモデルを表す。「モデル -2」は、本開示に係る
図2に示す第2のステップの後に得られたモデルである。「Target」は、ターゲットドメイン画像のラベル(例えば、手動でラベル付けされたラベル)のみを使用して訓練されたターゲットドメインモデルを表す。
【0044】
【表1】
表1から分かるように、ソースドメイン画像のみを使用して訓練された「Source -d」は、ソースドメイン画像テストセットに適用された場合、性能が他のモデルよりも優れていたが、ターゲットドメイン画像テストセットに適用された場合、性能が著しく低下した。ターゲットドメイン画像のみを使用して訓練された「Target」は、ターゲットドメイン画像テストセットに適用された場合、性能が他のモデルよりも優れていたが、ソースドメイン画像テストセットに適用された場合、性能が著しく低下した。
【0045】
本開示に係る「モデル -1」は、ベースラインモデル「Source -d」と比較して、ターゲットドメインでの性能が著しく向上し、ソースドメインでの性能も大体維持されている。また、従来の訓練方法を用いたモデル「ST」及び「Adv」と比較して、本開示に係る「モデル -2」のターゲットドメインでの性能がさらに向上した。
【0046】
以上のことから、本開示に係る「モデル -2」は、他のモデルと比較して、ソースドメイン及びターゲットドメインの両方で比較的に高い性能を達成することができ、その総合的な性能が最も良いため、このモデルは、ソースドメイン又はターゲットドメインの何れかに実際に構成された場合、良好なセマンティックセグメンテーション効果を達成することができる。
【0047】
以上は、実施形態を参照しながら本開示の技術的な解決手段を詳細に説明した。本開示は、異なる照明条件でのソースドメイン画像を使用して、照明にロバスト性を有するソースドメインモデルを訓練し、その後、2段階の教師なしドメイン適応方法によりソースドメインモデルをターゲットドメインに転移することによって、モデルの安定、且つ効率的な性能向上を実現することができる。
【0048】
以上は具体的な実施例を参照しながら本開示の実施形態を説明した。上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ(RAM)に書き込まれ、プロセッサ(例えばCPU)により実行されることで、本明細書で説明された各処理を実現する。
【0049】
図6は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。このコンピュータハードウェアは、ドメイン適応型ニューラルネットワークを訓練する装置の一例である。また、本開示に係るドメイン適応型ニューラルネットワークは、このコンピュータハードウェアに基づいて実現されてもよい。
【0050】
図6に示すように、コンピュータ600では、中央処理装置(CPU)601、読み出し専用メモリ(ROM)602及びランダムアクセスメモリ(RAM)603がバス604により相互に接続されている。
【0051】
入力/出力インターフェース605は、バス604にさらに接続されている。入力/出力インターフェース605には、キーボード、マウス、マイクロフォンなどにより構成された入力部606、ディスプレイ、スピーカなどにより構成された出力部607、ハードディスク、不揮発性メモリなどにより構成された記憶部608、ネットワークインターフェースカード(ローカルエリアネットワーク(LAN)カード、モデムなど)により構成された通信部609、及び取り外し可能な媒体611をドライブするドライバ610が接続されている。取り外し可能な媒体611は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。
【0052】
上記の構成を有するコンピュータにおいて、CPU601は、記憶部608に記憶されているプログラムを、入力/出力インターフェース605及びバス604を介してRAM603にロードし、プログラムを実行することにより、上記の方法を実行する。
【0053】
コンピュータ(CPU601)により実行されるプログラムは、パッケージ媒体である取り外し可能な媒体611に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)などを含む)、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ(CPU601)により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。
【0054】
取り外し可能な媒体611がドライバ610にインストールされると、プログラムは、入力/出力インターフェース605を介して記憶部608にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部609で受信され、記憶部608にインストールされる。或いは、プログラムは、ROM602又は記憶部608に予めインストールされてもよい。
【0055】
コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて(例えば呼び出しの時に)処理を実行するプログラムであってもよい。
【0056】
本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、1つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。
【0057】
本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。
【0058】
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記方法は、
ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を含む、方法。
(付記2)
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、付記1に記載の方法。
(付記3)
前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第1の分割部に対して教師あり訓練を実行する、付記1に記載の方法。
(付記4)
訓練された第1の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第1の確率マップを生成するステップであって、前記第1の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第1の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第2の確率マップを生成するステップであって、前記第2の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第1の確率マップ及び前記第2の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、付記1に記載の方法。
(付記5)
前記第1の確率マップに基づいて第1のエントロピーマップを生成するステップと、
前記第2の確率マップに基づいて第2のエントロピーマップを生成するステップと、
前記識別部が前記第1のエントロピーマップ及び前記第2のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、付記4に記載の方法。
(付記6)
敵対的訓練された第1の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第1のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第2のエントロピーマップとは、互いに類似する、付記5に記載の方法。
(付記7)
ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第2の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第2の分割部に対して教師あり訓練を実行するステップ、をさらに含む、付記1に記載の方法。
(付記8)
前記第2の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第3の確率マップを生成するステップであって、前記第3の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第3の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、をさらに含む、付記7に記載の方法。
(付記9)
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンの同一の日の画像である、付記2に記載の方法。
(付記10)
ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第1の分割部及び第2の分割部と、識別部とを含み、前記装置は、
プログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
ラベル付きのソースドメイン画像を使用して前記第1の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第1の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第1の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第1の分割部のパラメータを使用して前記第2の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第2の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置。
(付記11)
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、付記10に記載の装置。
(付記12)
前記プロセッサは、前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第1の分割部に対して教師あり訓練を実行するように構成される、付記10に記載の装置。
(付記13)
前記プロセッサは、
訓練された第1の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第1の確率マップを生成するステップであって、前記第1の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第1の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第2の確率マップを生成するステップであって、前記第2の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第1の確率マップ及び前記第2の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、を実行するように構成される、付記10に記載の装置。
(付記14)
前記プロセッサは、
前記第1の確率マップに基づいて第1のエントロピーマップを生成するステップと、
前記第2の確率マップに基づいて第2のエントロピーマップを生成するステップと、
前記識別部が前記第1のエントロピーマップ及び前記第2のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、を実行するように構成される、付記13に記載の装置。
(付記15)
敵対的訓練された第1の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第1のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第2のエントロピーマップとは、互いに類似する、付記14に記載の装置。
(付記16)
前記プロセッサは、ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第2の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第2の分割部に対して教師あり訓練を実行するステップ、を実行するように構成される、付記10に記載の装置。
(付記17)
前記プロセッサは、
前記第2の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第3の確率マップを生成するステップであって、前記第3の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第3の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、を実行するように構成される、付記16に記載の装置。
(付記18)
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンの同一の日の画像である、付記11に記載の装置。
(付記19)
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記1乃至9の何れかに記載のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体。