特開2024-81142 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-81142ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024081142

(43)【公開日】2024-06-17

(54)【発明の名称】ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体

(51)【国際特許分類】

G06T 7/00 20170101AFI20240610BHJP

G06T 7/11 20170101ALI20240610BHJP

G06V 10/82 20220101ALI20240610BHJP

【ＦＩ】

G06T7/00 350C

G06T7/11

G06V10/82

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023203484

(22)【出願日】2023-11-30

(31)【優先権主張番号】202211548103.2

(32)【優先日】2022-12-05

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】ワン・ジエ

(72)【発明者】

【氏名】ジョオン・チャオリアン

(72)【発明者】

【氏名】フォン・チョン

(72)【発明者】

【氏名】孫俊

(72)【発明者】

【氏名】大川佳寛

(72)【発明者】

【氏名】横田泰斗

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA02

5L096AA06

5L096CA02

5L096DA02

5L096FA02

5L096GA34

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】ドメイン適応型ニューラルネットワークを訓練する方法、装置及び記憶媒体を提供する。
【解決手段】画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部並びに識別部を含むドメイン適応型ニューラルネットワークは、ソースドメイン昼間画像、夜間画像を含む、ラベル付きのソースドメイン画像を使用して第１の分割部に対して教師あり訓練を実行し、該ラベル付きの画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行し、識別部が、第１の分割部により生成された分割結果がソースドメイン画像に基づいて生成されたものである確率を決定し、敵対的訓練された第１の分割部のパラメータを使用して第２の分割部を初期化し、該ラベル付きの画像及びラベルなしのターゲットドメイン夜間画像を使用して、第２の分割部に対し教師あり訓練を実行する。
【選択図】図４

【特許請求の範囲】

【請求項1】

コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記方法は、
ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を含む、方法。

【請求項2】

前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、請求項１に記載の方法。

【請求項3】

前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第１の分割部に対して教師あり訓練を実行する、請求項１に記載の方法。

【請求項4】

訓練された第１の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第１の確率マップを生成するステップであって、前記第１の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第１の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第２の確率マップを生成するステップであって、前記第２の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第１の確率マップ及び前記第２の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、請求項１に記載の方法。

【請求項5】

前記第１の確率マップに基づいて第１のエントロピーマップを生成するステップと、
前記第２の確率マップに基づいて第２のエントロピーマップを生成するステップと、
前記識別部が前記第１のエントロピーマップ及び前記第２のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、請求項４に記載の方法。

【請求項6】

敵対的訓練された第１の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第１のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第２のエントロピーマップとは、互いに類似する、請求項５に記載の方法。

【請求項7】

ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第２の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第２の分割部に対して教師あり訓練を実行するステップ、をさらに含む、請求項１に記載の方法。

【請求項8】

前記第２の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第３の確率マップを生成するステップであって、前記第３の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第３の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、をさらに含む、請求項７に記載の方法。

【請求項9】

ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記装置は、
プログラムが記憶されたメモリと、
１つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置。

【請求項10】

プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項１乃至８の何れかに記載のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般的に、ドメイン適応（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎ）に関し、具体的には、ドメイン適応型ニューラルネットワークを訓練する方法及び装置、並びに対応するコンピュータ読み取り可能な媒体に関する。

【背景技術】

【0002】

教師なしドメイン適応とは、ラベル付きのソースドメインデータを使用して訓練されたモデルをラベルなしのターゲットドメインに転移すると共に、ターゲットドメインでの該モデルの性能を可能な限り維持することを意味する。ソースドメインとターゲットドメインとの間にデータ分布の差異があり、且つターゲットドメインにラベル付きデータが不足しているため、ソースドメインデータを用いて訓練されたモデルは、ターゲットドメインに適用される際の性能が低下する場合が多い。教師なしドメイン適応の訓練（トレーニング）プロセスは、ソースドメインのラベル付きデータとターゲットドメインのラベルなしデータの両方を利用することで、ドメインの差異による影響を効果的に軽減し、モデルの堅牢性を向上させることができる。

【0003】

一方、画像のセマンティックセグメンテーション（意味的分割）は、コンピュータビジョンにおいて重要なタスクであり、画像を画素レベルで認識すること、即ち、画像における各画素が属するオブジェクトのクラス（カテゴリ）（例えば、空、川、建物、人物など）をラベル付けすることである。特に、夜間画像のセマンティックセグメンテーションは、昼間画像のセマンティックセグメンテーションと同様に重要であり、例えば自動運転などの分野に幅広く応用されている。しかし、夜間画像は、照明が不足し、ラベル付けが困難であるため、夜間画像のセマンティックセグメンテーションはより挑戦的なタスクである。夜間画像のセグメンテーションを解決するための１つの考え方は、教師なしドメイン適応アルゴリズムを利用して、昼間画像についてのセグメンテーションモデルを夜間画像セットに転移することであり、このプロセスでは、ラベル付きの夜間画像データを使用する必要がない。現在の教師なしドメイン適応型のセマンティックセグメンテーション手法は、画像の場所又はシーンの転移、合成画像から実画像への転移などのみを考慮する場合が多く、場所の変化及び照明の変化を同時に考慮する研究は比較的に少ない。

【0004】

また、夜間画像の教師なしドメイン適応型のセマンティックセグメンテーションについて、現在の研究は主に２つの種類に分けられる。１つは、夕方画像を昼間画像と夜間画像との間の中間データとして利用し、昼間画像から夕方画像を介して夜間画像への段階的に転移させる。もう１つは、昼間画像と夜間画像との間のスタイル転移に注目している。従来方法は、良好な結果を達成しているが、例えば、追加的な夕方画像データ又はターゲットドメインの昼間と夜間の画像ペアが必要となるなどの欠点もある。また、昼間画像を夜間画像に変換し、或いは夜間画像を昼間画像に変換する方法もあり、これらの方法の性能は変換された画像の品質により制限される。

【発明の概要】

【発明が解決しようとする課題】

【0005】

昼間画像を用いて訓練されたソースドメインモデルがターゲットドメインの夜間シーンに適応しにくい理由の１つは、ソースドメインモデルが夜間のシーンの知識に乏しいことである。従って、本開示は、照明に堅牢性を有するソースドメインモデルを訓練することを提案する。具体的には、ソースドメインモデルを訓練するために、様々な照明条件（昼間、夜間）におけるソースドメイン画像データを追加する。また、本開示は、訓練済みのソースドメインモデルをターゲットドメインに転移するために、２段階の教師なしドメイン適応方法を提案する。ここで、第１の段階において、敵対的訓練に基づくドメインアライメントを行い、第２の段階において、アライメントモデルに基づく自己訓練（自己学習）を行うことによって、安定、且つ効率的な性能向上を実現する。

【課題を解決するための手段】

【0006】

本開示の１つの態様では、コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記方法は、ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を含む、方法を提供する。

【0007】

本開示のもう１つの態様では、ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記装置は、プログラムが記憶されたメモリと、１つ又は複数のプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することで、ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置を提供する。

【0008】

本開示のもう１つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体を提供する。

【図面の簡単な説明】

【0009】

【図1】ソースドメイン画像及びターゲットドメイン画像の画像例を示す図である。

【図2】本開示に係るドメイン適応の全体的なスキームを示す概略図である。

【図3】図２における第２のステップの詳細な処理を示す概略図である。

【図4】本開示に係るドメイン適応型ニューラルネットワークの訓練方法を示すフローチャートである。

【図5】本開示に係るドメイン適応型ニューラルネットワークの訓練装置のモジュールを示すブロック図である。

【図6】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。

【発明を実施するための形態】

【0010】

図１は、ソースドメイン画像及びターゲットドメイン画像の画像例を示す図である。ソースドメイン画像は、同一の川のシーンの昼間画像及び夜間画像を含み、ここで、夜間画像の明るい部分は遠くの町のライトである。ターゲットドメイン画像は、別の川のシーンの夜間画像を含む。なお、本開示は、これらの例示的な画像に限定されず、他のシーンの画像に適用されてもよい。

【0011】

また、図１は、ソースドメイン画像のラベルを示しており、該ラベルは、ソースドメイン画像を手動でラベル付けされたものである。図１では、ラベル画像がグレースケール画像として示されているが、画像のセマンティックセグメンテーションの分野の当業者にとって周知のように、該ラベル画像において、異なるオブジェクトクラスを表す画像部分が異なる色でマーキングされてもよい。例えば、図１に示すラベルでは、川を示す部分を青色でマーキングし、木を示す部分を緑色でマーキングし、橋を示す部分を茶色でマーキングしてもよい。

【0012】

図２は、本開示に係るドメイン適応の全体的なスキームを示す概略図である。このスキームは、２つのステップを含み、第１のステップにおいて、ソースドメイン画像を使用して訓練を行い、照明条件にロバストなソースドメインモデルを取得し、第２のステップにおいて、取得されたソースドメインモデルをターゲットドメインに転移する。

【0013】

より具体的には、第１のステップにおいて、ソースドメイン昼間画像及びソースドメイン夜間画像、並びにこれらに対応するラベルを使用して第１の分割部Ｓｅｇ１（図３に示す）に対して教師あり訓練を実行し、ここで、該第１の分割部Ｓｅｇ１は、画像のセマンティックセグメンテーションを実行する。この教師あり訓練の損失関数は、以下の数式（１）に示すように、交差エントロピー損失関数を使用してもよい。

【0014】

【数1】

ここで、ｘ_ｓは昼間画像と夜間画像とを含むソースドメイン画像を表し、Ｎ_ｓはソースドメイン画像の数を表し、Ｈ、Ｗは画像の高さと幅をそれぞれ表し、ｙ_ｓはｎ番目の画像における画素ｍの真のラベルを表し、ｐ_ｓは第１の分割部Ｓｅｇ１により予測された画素ｍが各クラスに属する確率を表す。

【0015】

特に、上記の説明では、ソースドメイン昼間画像及びソースドメイン夜間画像のそれぞれに対して手動でラベル付けし、それぞれのラベルを取得すると仮定する。別の態様として、ソースドメイン昼間画像のみに対して手動でラベル付けしてラベルを取得し、ソースドメイン昼間画像のラベルをソースドメイン夜間画像のラベルとして再利用してもよい。これは、通常、同一のシーンの同一の日の昼間と夜間との間の変化が少なく、例えば画像における川の水位の変化が少ないからである。ラベルを再利用することによって、手動でのラベル付けのコストを低減させることができると共に、ソースドメインモデルの汎化性を明らかに向上させることができる。

【0016】

昼間画像のラベルを夜間画像のラベルとして再利用する場合、教師あり訓練の損失関数は、以下の数式（２）のようになる。

【0017】

【数2】

ここで、ｘ_ｓはソースドメイン昼間画像を表し、ｘ_ｓｕはソースドメイン夜間画像を表し、ｙ_ｓはソースドメイン昼間画像ｘ_ｓの真のラベルを表す。ｙ_ｓｕはソースドメイン夜間画像ｘ_ｓｕのラベルを表し、ソースドメイン昼間画像ｘ_ｓのラベルと同一のラベルに設定される。

【0018】

また、図２に示すように、第１のステップにおいて第１の分割部Ｓｅｇ１に対する教師あり訓練を終了した後、第２のステップにおいて訓練後の第１の分割部Ｓｅｇ１をターゲットドメインに転移する。以下は、図３を参照しながら第２のステップの処理を詳細に説明する。

【0019】

図３に示すように、訓練後の第１の分割部Ｓｅｇ１をターゲットドメインに転移するプロセスは、２つの段階を含む。第１の段階において、ラベル付きのソースドメイン画像（昼間画像と夜間画像）及びラベルなしのターゲットドメイン画像（具体的には、ターゲットドメイン夜間画像）を使用して、訓練後の第１の分割部Ｓｅｇ１及び識別部Ｄに対して敵対的訓練を実行する。

【0020】

具体的には、第１の分割部Ｓｅｇ１は、入力されたソースドメイン画像又はターゲットドメイン画像のいずれに対してもセマンティックセグメンテーションを実行する。第１の分割部Ｓｅｇ１は、ラベル付きのソースドメイン画像について、ソースドメイン確率マップを出力し、該ソースドメイン確率マップは、ソースドメイン画像における各画素が各クラスに属する確率を示す。第１の分割部Ｓｅｇ１は、ラベルなしのターゲットドメイン夜間画像について、ターゲットドメイン確率マップを出力し、該ターゲットドメイン確率マップは、ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す。また、ソースドメイン確率マップでは、各画素について最大の確率値のみが保存されるため、確率マップのサイズをＨ＊Ｗ＊ＫからＨ＊Ｗに減少させることができる。ここで、Ｈ、Ｗは画像の高さ及び幅をそれぞれ表し、Ｋはクラスの数を表す。ターゲットドメイン確率マップに対しても同様の処理を行ってもよい。次元削減されたソースドメイン確率マップ（「第１の確率マップ」と称される）と次元削減されたターゲットドメイン確率マップ（「第２の確率マップ」と称される）は、識別部Ｄに入力されてもよい。

【0021】

識別部Ｄは、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定する。言い換えれば、識別部Ｄは、第１の分割部Ｓｅｇ１が現在処理している画像がソースドメイン画像であるか否かを識別し、処理している画像がソースドメイン画像である可能性を出力する。

【0022】

第１の分割部Ｓｅｇ１及び識別部Ｄに対して敵対的訓練を実行する。具体的には、識別部Ｄは、確率マップの実際の由来をできるだけ識別し、一方、第１の分割部Ｓｅｇ１は、識別部Ｄを混乱させるために、ソースドメイン画像とターゲットドメイン画像について類似する確率マップをできるだけ生成する。このように、敵対的訓練により、第１の分割部Ｓｅｇ１がソースドメイン画像とターゲットドメイン画像について類似する確率マップを出力することができ、領域の差異の分割結果への影響を低減させることができる。

【0023】

好ましい態様では、さらに、第１の確率マップに基づいて第１のエントロピーマップを生成し、第２の確率マップに基づいて第２のエントロピーマップを生成する。Ｉ＝‐Ｐｌｏｇ（Ｐ）に従ってエントロピーマップを生成してもよく、ここで、Ｐは確率を表し、Ｉはエントロピーを表す。そして、識別部Ｄは、第１のエントロピーマップ及び第２のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定する。

【0024】

敵対的訓練では、識別部Ｄを訓練するための損失関数は、以下の数式（３）に示す。

【0025】

【数3】

ここで、Ｎ_ｓ及びＮ_ｔは、それぞれ、ソースドメイン画像及びターゲットドメイン画像の数を表し、Ｄ（）は、識別部Ｄが出力する確率を表し、Ｉ_ｓ、Ｉ_ｔは、それぞれ、ソースドメイン画像及びターゲットドメイン画像について予測されたエントロピーマップを表す。ｌ^ｓ、ｌ^ｔは、それぞれ、ソースドメイン及びターゲットドメインのドメインラベルを表し、例えば、ｌ^ｓ＝１，ｌ^ｔ＝０。また、λ_１及びλ_２は、ソースドメインとターゲットドメインのバランスを取るためのハイパーパラメータであり、例えば両方とも０．５に設定されてもよい。

【0026】

敵対的訓練では、第１の分割部Ｓｅｇ１を訓練するための敵対的損失関数は、以下の数式（４）に示す。

【0027】

【数4】

ここで、Ｉ_ｎはターゲットドメイン画像について予測されたエントロピーマップを表し、Ｎ_ｔはターゲットドメイン画像の数を表し、ｌ^ｓはソースドメインのドメインラベルを表し、例えばｌ^ｓ＝１。

【0028】

以上をまとめると、第１の段階における総損失関数は、以下の数式（５）に示す。

【0029】

【数5】

ここで、Ｌ_ｓ ^ｓｅｇ及びＬ_ｓｕ ^ｓｅｇは、それぞれ、第１の分割部Ｓｅｇ１がソースドメイン昼間画像及びソースドメイン夜間画像について分割予測を行うための分割損失関数を表す。

【0030】

第１の段階の訓練の後、第１の分割部Ｓｅｇ１により、ソースドメイン画像とターゲットドメイン画像についての類似する確率マップ（又はエントロピーマップ）を取得することができるため、２つのドメインの出力のアライメントを実現することができる。

【0031】

そして、図３に示すように、第２の段階において、第１の段階において訓練された第１の分割部Ｓｅｇ１のパラメータを使用して第２の分割部Ｓｅｇ２を初期化し、その後、ラベル付きのソースドメイン画像（昼間画像と夜間画像）とラベルなしのターゲットドメイン夜間画像とを使用して、初期化された第２の分割部Ｓｅｇ２に対して教師あり訓練を実行する。この教師あり訓練では、入力されたソースドメイン画像について、ソースドメイン画像の真のラベルを使用し、入力されたターゲットドメイン画像について、擬似ラベルを使用する。

【0032】

本開示では、ターゲットドメイン画像について第２の分割部Ｓｅｇ２により生成された分割予測結果を、該ターゲットドメイン画像の擬似ラベルとして使用する。具体的には、第２の分割部Ｓｅｇ２は、ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第３の確率マップを生成し、該第３の確率マップは、ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す。そして、第３の確率マップに基づいて、各画素について、最大確率に対応するクラスを、対応する画素が属するクラスとして決定する。これによって、該ターゲットドメイン夜間画像の擬似ラベルを取得することができる。

【0033】

ターゲットドメイン画像についての擬似ラベルを使用した教師あり学習では、以下の数式（６）に示すように、交差エントロピー損失関数を損失関数として使用してもよい。

【0034】

【数6】

ここで、ｘ_ｔはターゲットドメイン画像を表し、Ｎ_ｔはターゲットドメイン画像の数を表し、Ｈ、Ｗは画像の高さ及び幅をそれぞれ表し、
（外１）

はｎ番目のターゲットドメイン画像における画素ｍの擬似ラベルを表し、ｐ_ｔは第２の分割部Ｓｅｇ２により予測された画素ｍが各クラスに属する確率を表す。

【0035】

第２の段階における総損失関数は、以下の数式（７）に示す。

【0036】

【数7】

ここで、Ｌ_ｓ ^ｓｅｇ及びＬ_ｓｕ ^ｓｅｇは、それぞれ、第２の分割部Ｓｅｇ２がソースドメイン昼間画像及びソースドメイン夜間画像について分割予測するための分割損失関数を表す。

【0037】

図４は、本開示に係るドメイン適応型ニューラルネットワークの訓練方法を示すフローチャートであり、図５は、本開示に係るドメイン適応型ニューラルネットワークの訓練装置のモジュールを示すブロック図である。

【0038】

本開示に係るドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部Ｓｅｇ１及び第２の分割部Ｓｅｇ２を含み、識別部Ｄを含む。図４に示すように、ステップＳ４１０において、ラベル付きのソースドメイン昼間画像とソースドメイン夜間画像を使用して第１の分割部Ｓｅｇ１に対して教師あり訓練を実行する。この訓練において使用される損失関数は、数式（１）又は（２）に示す。この訓練によれば、照明条件にロバストなソースドメインモデルを取得することができる。このステップは、図５における第１の分割部訓練モジュール５１０により実行されてもよい。

【0039】

ステップＳ４２０において、ラベル付きのソースドメイン昼間画像及びソースドメイン夜間画像、並びにラベルなしのターゲットドメイン夜間画像を使用して、識別部Ｄ及びステップＳ４１０において訓練された第１の分割部Ｓｅｇ１に対して敵対的訓練を実行する。この訓練において使用される損失関数は、数式（３）～（５）に示す。この敵対的訓練によれば、第１の分割部Ｓｅｇ１によりソースドメイン画像とターゲットドメイン画像についての類似する確率マップ（エントロピーマップ）を取得することができるため、２つのドメインの出力のアライメントを実現することができる。このステップは、図５における敵対的訓練モジュール５２０により実行されてもよい。

【0040】

ステップＳ４３０において、ステップＳ４２０において敵対的訓練された第１の分割部Ｓｅｇ１のパラメータを使用して第２の分割部Ｓｅｇ２を初期化する。このステップは、図５における初期化モジュール５３０により実行されてもよい。

【0041】

ステップＳ４４０において、ラベル付きのソースドメイン昼間画像及びソースドメイン夜間画像、並びにラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部Ｓｅｇ２に対して教師あり訓練を実行する。この訓練において使用される損失関数は、数式（６）及び（７）に示す。このステップは、図５における第２の分割部訓練モジュール５４０により実行されてもよい。

【0042】

ステップＳ４４０の訓練が完了すると、訓練済みの第２の分割部Ｓｅｇ２を使用して、実際に処理するソースドメイン画像又はターゲットドメイン画像に対してセマンティックセグメンテーションを実行してもよい。特に、実際のターゲットドメイン夜間画像を処理するために適用される場合、本開示は、ターゲットドメイン画像とソースドメイン画像との間にシーン及び照明条件の両方に差異がある場合、教師なしのドメイン適応のセマンティックセグメンテーションの問題点を解決することができる。

【0043】

以下の表１は、本開示に係る方法により訓練されたモデルと他のモデルとの性能の比較を示す。表１では、「Ｓｏｕｒｃｅ－ｄ」は、ラベル付きソースドメイン昼間画像セットのみを使用して訓練されたソースドメインモデルを表し、ベースラインモデルとされる。「モデル－１」は、本開示に係るソースドメイン昼間画像セット及びソースドメイン夜間画像セットを使用して訓練されたソースドメインモデルであり、図２に示す第１のステップにより得られたモデルに対応する。「ＳＴ」は、従来の自己訓練手法により得られたモデルを表し、「Ａｄｖ」は、従来の敵対的訓練手法により得られたモデルを表す。「モデル－２」は、本開示に係る図２に示す第２のステップの後に得られたモデルである。「Ｔａｒｇｅｔ」は、ターゲットドメイン画像のラベル（例えば、手動でラベル付けされたラベル）のみを使用して訓練されたターゲットドメインモデルを表す。

【0044】

【表1】

表１から分かるように、ソースドメイン画像のみを使用して訓練された「Ｓｏｕｒｃｅ－ｄ」は、ソースドメイン画像テストセットに適用された場合、性能が他のモデルよりも優れていたが、ターゲットドメイン画像テストセットに適用された場合、性能が著しく低下した。ターゲットドメイン画像のみを使用して訓練された「Ｔａｒｇｅｔ」は、ターゲットドメイン画像テストセットに適用された場合、性能が他のモデルよりも優れていたが、ソースドメイン画像テストセットに適用された場合、性能が著しく低下した。

【0045】

本開示に係る「モデル－１」は、ベースラインモデル「Ｓｏｕｒｃｅ－ｄ」と比較して、ターゲットドメインでの性能が著しく向上し、ソースドメインでの性能も大体維持されている。また、従来の訓練方法を用いたモデル「ＳＴ」及び「Ａｄｖ」と比較して、本開示に係る「モデル－２」のターゲットドメインでの性能がさらに向上した。

【0046】

以上のことから、本開示に係る「モデル－２」は、他のモデルと比較して、ソースドメイン及びターゲットドメインの両方で比較的に高い性能を達成することができ、その総合的な性能が最も良いため、このモデルは、ソースドメイン又はターゲットドメインの何れかに実際に構成された場合、良好なセマンティックセグメンテーション効果を達成することができる。

【0047】

以上は、実施形態を参照しながら本開示の技術的な解決手段を詳細に説明した。本開示は、異なる照明条件でのソースドメイン画像を使用して、照明にロバスト性を有するソースドメインモデルを訓練し、その後、２段階の教師なしドメイン適応方法によりソースドメインモデルをターゲットドメインに転移することによって、モデルの安定、且つ効率的な性能向上を実現することができる。

【0048】

以上は具体的な実施例を参照しながら本開示の実施形態を説明した。上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ（ＲＡＭ）に書き込まれ、プロセッサ（例えばＣＰＵ）により実行されることで、本明細書で説明された各処理を実現する。

【0049】

図６は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。このコンピュータハードウェアは、ドメイン適応型ニューラルネットワークを訓練する装置の一例である。また、本開示に係るドメイン適応型ニューラルネットワークは、このコンピュータハードウェアに基づいて実現されてもよい。

【0050】

図６に示すように、コンピュータ６００では、中央処理装置（ＣＰＵ）６０１、読み出し専用メモリ（ＲＯＭ）６０２及びランダムアクセスメモリ（ＲＡＭ）６０３がバス６０４により相互に接続されている。

【0051】

入力／出力インターフェース６０５は、バス６０４にさらに接続されている。入力／出力インターフェース６０５には、キーボード、マウス、マイクロフォンなどにより構成された入力部６０６、ディスプレイ、スピーカなどにより構成された出力部６０７、ハードディスク、不揮発性メモリなどにより構成された記憶部６０８、ネットワークインターフェースカード（ローカルエリアネットワーク（ＬＡＮ）カード、モデムなど）により構成された通信部６０９、及び取り外し可能な媒体６１１をドライブするドライバ６１０が接続されている。取り外し可能な媒体６１１は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。

【0052】

上記の構成を有するコンピュータにおいて、ＣＰＵ６０１は、記憶部６０８に記憶されているプログラムを、入力／出力インターフェース６０５及びバス６０４を介してＲＡＭ６０３にロードし、プログラムを実行することにより、上記の方法を実行する。

【0053】

コンピュータ（ＣＰＵ６０１）により実行されるプログラムは、パッケージ媒体である取り外し可能な媒体６１１に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク（フロッピーディスクを含む）、光ディスク（コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）などを含む）、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ（ＣＰＵ６０１）により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。

【0054】

取り外し可能な媒体６１１がドライバ６１０にインストールされると、プログラムは、入力／出力インターフェース６０５を介して記憶部６０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部６０９で受信され、記憶部６０８にインストールされる。或いは、プログラムは、ＲＯＭ６０２又は記憶部６０８に予めインストールされてもよい。

【0055】

コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて（例えば呼び出しの時に）処理を実行するプログラムであってもよい。

【0056】

本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、１つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。

【0057】

本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。

【0058】

また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
（付記１）
コンピュータが実行する、ドメイン適応型ニューラルネットワークを訓練する方法であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記方法は、
ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を含む、方法。
（付記２）
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、付記１に記載の方法。
（付記３）
前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第１の分割部に対して教師あり訓練を実行する、付記１に記載の方法。
（付記４）
訓練された第１の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第１の確率マップを生成するステップであって、前記第１の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第１の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第２の確率マップを生成するステップであって、前記第２の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第１の確率マップ及び前記第２の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、付記１に記載の方法。
（付記５）
前記第１の確率マップに基づいて第１のエントロピーマップを生成するステップと、
前記第２の確率マップに基づいて第２のエントロピーマップを生成するステップと、
前記識別部が前記第１のエントロピーマップ及び前記第２のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、をさらに含む、付記４に記載の方法。
（付記６）
敵対的訓練された第１の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第１のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第２のエントロピーマップとは、互いに類似する、付記５に記載の方法。
（付記７）
ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第２の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第２の分割部に対して教師あり訓練を実行するステップ、をさらに含む、付記１に記載の方法。
（付記８）
前記第２の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第３の確率マップを生成するステップであって、前記第３の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第３の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、をさらに含む、付記７に記載の方法。
（付記９）
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンの同一の日の画像である、付記２に記載の方法。
（付記１０）
ドメイン適応型ニューラルネットワークを訓練する装置であって、前記ドメイン適応型ニューラルネットワークは、画像に対してセマンティックセグメンテーションを実行するための第１の分割部及び第２の分割部と、識別部とを含み、前記装置は、
プログラムが記憶されたメモリと、
１つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
ラベル付きのソースドメイン画像を使用して前記第１の分割部に対して教師あり訓練を実行するステップであって、前記ラベル付きのソースドメイン画像は、ソースドメイン昼間画像及びソースドメイン夜間画像を含む、ステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、訓練された第１の分割部及び識別部に対して敵対的訓練を実行するステップであって、前記識別部は、訓練された第１の分割部により生成された分割結果を受信し、分割結果が前記ソースドメイン画像に基づいて生成されたものである確率を決定する、ステップと、
敵対的訓練された第１の分割部のパラメータを使用して前記第２の分割部を初期化するステップと、
ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン夜間画像を使用して、初期化された第２の分割部に対して教師あり訓練を実行するステップと、を実行するように構成される、装置。
（付記１１）
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンに対応し、
前記ソースドメイン昼間画像のラベルは、手動でラベル付けされたものであり、前記ソースドメイン昼間画像のラベルは、前記ソースドメイン夜間画像のラベルとして再利用される、付記１０に記載の装置。
（付記１２）
前記プロセッサは、前記ソースドメイン昼間画像及び前記ソースドメイン夜間画像を使用して、交差エントロピー損失関数に基づいて前記第１の分割部に対して教師あり訓練を実行するように構成される、付記１０に記載の装置。
（付記１３）
前記プロセッサは、
訓練された第１の分割部がラベル付きのソースドメイン画像に対してセマンティックセグメンテーションを実行し、第１の確率マップを生成するステップであって、前記第１の確率マップは、前記ソースドメイン画像における各画素がそれぞれ複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
訓練された第１の分割部がラベルなしのターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第２の確率マップを生成するステップであって、前記第２の確率マップは、前記ターゲットドメイン夜間画像における各画素がそれぞれ前記複数の所定のクラスに属する複数の確率のうちの最大確率を示す、ステップと、
前記識別部が前記第１の確率マップ及び前記第２の確率マップを受信し、現在受信した確率マップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、を実行するように構成される、付記１０に記載の装置。
（付記１４）
前記プロセッサは、
前記第１の確率マップに基づいて第１のエントロピーマップを生成するステップと、
前記第２の確率マップに基づいて第２のエントロピーマップを生成するステップと、
前記識別部が前記第１のエントロピーマップ及び前記第２のエントロピーマップを受信し、現在受信したエントロピーマップがソースドメイン画像に基づいて生成されたものである確率を決定するステップと、を実行するように構成される、付記１３に記載の装置。
（付記１５）
敵対的訓練された第１の分割部がソースドメイン画像に対してセマンティックセグメンテーションを実行して得られた第１のエントロピーマップと、前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行して得られた第２のエントロピーマップとは、互いに類似する、付記１４に記載の装置。
（付記１６）
前記プロセッサは、ラベル付きのソースドメイン画像のラベル、及び前記ターゲットドメイン夜間画像について前記第２の分割部により生成された擬似ラベルを使用して、交差エントロピー損失関数に基づいて前記第２の分割部に対して教師あり訓練を実行するステップ、を実行するように構成される、付記１０に記載の装置。
（付記１７）
前記プロセッサは、
前記第２の分割部が前記ターゲットドメイン夜間画像に対してセマンティックセグメンテーションを実行し、第３の確率マップを生成するステップであって、前記第３の確率マップは、前記ターゲットドメイン夜間画像における各画素が各クラスに属する確率を示す、ステップと、
前記第３の確率マップに基づいて、各画素について、最大確率に対応するクラスを、該画素が属するクラスとして決定し、前記ターゲットドメイン夜間画像の擬似ラベルを取得するステップと、を実行するように構成される、付記１６に記載の装置。
（付記１８）
前記ソースドメイン昼間画像と前記ソースドメイン夜間画像とは、同一のシーンの同一の日の画像である、付記１１に記載の装置。
（付記１９）
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記１乃至９の何れかに記載のドメイン適応型ニューラルネットワークを訓練する方法を実行させる、記憶媒体。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版