特開2024-125219 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-125219ニューラルネットワークのドメイン適応訓練の方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024125219

(43)【公開日】2024-09-13

(54)【発明の名称】ニューラルネットワークのドメイン適応訓練の方法及び装置

(51)【国際特許分類】

G06T 7/00 20170101AFI20240906BHJP

G06V 10/82 20220101ALI20240906BHJP

【ＦＩ】

G06T7/00 350C

G06V10/82

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024031457

(22)【出願日】2024-03-01

(31)【優先権主張番号】202310204379.7

(32)【優先日】2023-03-03

(33)【優先権主張国・地域又は機関】CN

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(72)【発明者】

【氏名】ジョオン・チャオリアン

(72)【発明者】

【氏名】フォン・チョン

(72)【発明者】

【氏名】ワン・ジエ

(72)【発明者】

【氏名】孫俊

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096FA18

5L096HA11

5L096KA04

(57)【要約】（修正有）

【課題】ニューラルネットワークのドメイン適応訓練の方法及び装置を提供する。
【解決手段】方法は、ソースドメイン（以下ソース）画像について複数サイズのソースドメイン、ターゲットドメイン（以下ターゲット）のアンカーボックス特徴を抽出しＳ４１０、ソース、ターゲット画像に対応するアンカーボックスについてオブジェクト検出の予測値を生成しＳ４２０、各サイズについて、該サイズを有するソースとターゲットのアンカーボックス特徴を、複数のクラスに対応する複数の特徴集合へ分類しＳ４３０、Ｓ４４０、クラス内距離を最小化し、且つクラス間距離を最大化するドメイン間の特徴アライメントを実行しＳ４５０、他のソース及びターゲット画像の受信するＳ４６０。そして、ステップＳ４１０～Ｓ４６０を繰り返し実行して、ソース、ターゲット画像の予測損失関数、特徴アライメント損失関数を用いてニューラルネットワークを訓練する。
【選択図】図４

【特許請求の範囲】

【請求項1】

オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、
（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、
ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法。

【請求項2】

（ｅ’）前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに含み、
ステップ（ａ）乃至（ｅ）、（ｅ’）及び（ｆ）を繰り返し実行する、請求項１に記載の方法。

【請求項3】

信頼度閾値及びユニオン交差（ＩＯＵ）閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成する、請求項２に記載の方法。

【請求項4】

ステップ（ｄ）において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
ステップ（ｅ’）において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定する、請求項２に記載の方法。

【請求項5】

ステップ（ｃ）は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ（ｄ）は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、請求項１に記載の方法。

【請求項6】

ステップ（ｃ）において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ（ｄ）において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに含み、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、請求項１に記載の方法。

【請求項7】

ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式

【数1】

に従って前記特徴アライメント損失関数Ｌ_Ａを構築し、
ここで、ｘ_Ｓはソースドメインアンカーボックス特徴を表し、ｘ_Ｔはターゲットドメインアンカーボックス特徴を表し、Ｏ_ｔはターゲットドメインアンカーボックス特徴の集合を表し、ｄ（ｘ_ｓ，ｘ_ｔ）はソースドメインアンカーボックス特徴ｘ_Ｓとターゲットドメインアンカーボックス特徴ｘ_Ｔとのユークリッド距離の二乗を表し、
（外１）

、
（外２）

、ｙ_ｓはソースドメインアンカーボックス特徴ｘ_ｓのクラスラベルであり、ｋはターゲット
ドメインアンカーボックス特徴ｘ_ｔのクラスラベルであり、ｍ及びｍ_２はハイパーパラメー
タである、請求項１に記載の方法。

【請求項8】

抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してＬ２正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ（ｃ）～（ｆ）を実行するステップ、をさらに含む、請求項１に記載の方法。

【請求項9】

オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、
プログラムが記憶されたメモリと、
１つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、
前記プロセッサは、ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置。

【請求項10】

プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項１乃至８の何れかに記載のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、一般的に、ドメイン適応（ｄｏｍａｉｎａｄａｐｔａｔｉｏｎ）に関し、具体的には、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法及び装置に関する。

【背景技術】

【0002】

教師なしドメイン適応とは、ラベル付けされたソースドメインデータを使用して訓練されたモデルをラベル付けされていないターゲットドメインデータに転移すると共に、該モデルのターゲットドメインでの性能を可能な限り維持することを意味する。ソースドメインとターゲットドメインとの間にデータの偏差があり、且つターゲットドメインデータにラベルがないため、ソースドメインデータを用いて訓練されたモデルは、ターゲットドメインでの性能が低下する場合が多い。教師なしドメイン適応の訓練（トレーニング）プロセスは、ソースドメインのラベル付きデータとターゲットドメインのラベルなしデータの両方を利用することで、ドメインの差異を効果的に軽減し、モデルの堅牢性を向上させることができる。

【0003】

現在、様々な教師なしドメイン適応の方法が提案されている。これらの方法は、自己訓練（ｓｅｌｆ－ｔｒａｉｎｉｎｇ）又は敵対的訓練によりドメイン不変特徴（ｄｏｍａｉｎｉｎｖａｒｉａｎｔｆｅａｔｕｒｅｓ）を学習し、データ偏差の問題を解決し、モデルのターゲットドメインでの性能を向上させる。しかし、オブジェクト検出のための従来の教師なし領域適応方法は、以下の問題がある。

【0004】

・ほとんどの自己訓練方法は、静的な擬似ラベルに基づくものであるため、訓練プロセスの進行につれて擬似ラベルの品質を向上させることができない。

【0005】

・ほとんどの従来の方法は、特徴分布のアライメント、特に画像レベルの大域特徴分布のアライメントを実現しているが、クラスレベルの特徴アライメントを効果的に実現することができない。

【0006】

・最も重要なことは、従来の方法では、異なるサイズの特徴に対して個別にアライメントを行っていないことである。異なるサイズの特徴には多様な詳細情報が含まれているため、大きいオブジェクトの特徴と小さいオブジェクトの特徴とに対してアライメントを行うと、大きいオブジェクトの特徴情報が失われ、最終的なパフォーマンスに影響してしまう。従来方法の一例として、ＹＯＬＯｖ５は、画像における各ターゲットのサイズの差異を考慮せずに、異なるサイズのオブジェクトに対して特徴を抽出し、敵対的学習の手法を用いて特徴分布のアライメントを実現する。

【発明の概要】

【発明が解決しようとする課題】

【0007】

従来の教師なしドメイン適応方法の上記の問題のうちの１つ又は複数を解決するために、本開示は、オブジェクト検出を実行するためのニューラルネットワークについての新たな教師なしドメイン適応訓練方法を提供する。

【課題を解決するための手段】

【0008】

本開示の１つの態様では、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、前記複数のサイズのうちの各サイズについて、（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法を提供する。

【0009】

本開示のもう１つの態様では、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、プログラムが記憶されたメモリと、１つ又は複数のプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することで、（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、前記複数のサイズのうちの各サイズについて、（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、前記プロセッサは、ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置を提供する。

【0010】

本開示のもう１つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体を提供する。

【図面の簡単な説明】

【0011】

【図1】本開示に係るドメイン間のマルチサイズのアンカーボックス特徴のアライメントを示す概略図である。

【図2】本開示に係るドメイン間のアンカーボックス特徴のアライメントの具体的なプロセスを示す概略図である。

【図3】本開示に係るオブジェクト検出ニューラルネットワークの訓練を示す概略図である。

【図4】本開示に係るニューラルネットワークのドメイン適応訓練方法を示すフローチャートである。

【図5】本開示に係るニューラルネットワーク及び訓練装置のモジュールを示すブロック図である。

【図6】様々なドメイン適応モデルの訓練安定性を示す図である。

【図7】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。

【発明を実施するための形態】

【0012】

本開示に係る教師なしドメイン適応方法は、アンカーボックス（ａｎｃｈｏｒ）に基づくオブジェクト検出ニューラルネットワーク、例えば、ＹＯＬＯｖＸ（Ｘ＝１，２，３，４，５）、Ｙｏｌａｃｔ、Ｙｏｌａｃｔ＋＋、Ｆａｓｔｅｒ－ＲＣＮＮなどに適用することができる。アンカーボックスとは、画像を固定のサイズ又は固定のアスペクト比で分割して得られた各領域を意味し、オブジェクト検出の先験的なボックスとされる。画像における異なるサイズのオブジェクトを検出するために、複数種類の固定サイズ又は複数種類の固定アスペクト比で画像を分割して、複数種類のサイズのアンカーボックスを取得してもよい。画像全体のラベルに基づいて、各アンカーボックスのラベルを計算してもよい。アンカーボックスのラベルは、該アンカーボックスが背景であるか否か、該アンカーボックスに対応するオブジェクトが属するクラス、及びオブジェクトの位置情報などを示してもよい。

【0013】

本開示は、従来のオブジェクト検出のフレームワークにマルチサイズのアンカーボックス特徴のアライメントモジュールを追加する。以下は、図１を参照しながら、本開示に係るドメイン間のマルチサイズのアンカーボックス特徴のアライメントを説明する。

【0014】

図１に示すように、アンカーボックスに基づく物体検出フレームワークは、通常、バックボーンネットワーク（ｂａｃｋｂｏｎｅ）１１０、ネックネットワーク（ｎｅｃｋ）１２０を含み、好ましくは、ヘッドネットワーク（ｈｅａｄ）（不図示）を含む。ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン画像の両方がバックボーンネットワークに入力され、バックボーンネットワーク１１０は、入力された画像全体について大域特徴を抽出する。画像における異なるサイズのオブジェクト（物体）を検出するために、ソースドメイン画像及びターゲットドメイン画像は、複数のサイズのアンカーボックスに分割されている。ネックネットワーク１２０は、ソースドメイン画像の大域特徴から様々なサイズのソースドメインアンカーボックスの特徴を抽出し、ターゲットドメイン画像の大域特徴から様々なサイズのターゲットドメインアンカーボックスの特徴を抽出する。図１は、「小アンカーボックス特徴」、「中アンカーボックス特徴」、「大アンカーボックス特徴」を概略的に示しており、各サイズのアンカーボックス特徴は、対応するサイズを有する複数のアンカーボックスに対応する複数の特徴を含む。一例として、図１における小アンカーボックス、中アンカーボックス、大アンカーボックス特徴は、ＹＯＬＯｖ５フレームワークの第１８の層、第２１の層、及び第２４の層から出力されたアンカーボックス特徴にそれぞれ対応してもよい。

【0015】

また、ヘッドネットワーク（不図示）は、ネックネットワーク１２０により抽出されたソースドメインアンカーボックスの特徴に基づいて、ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックスの特徴に基づいて、ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成してもよい。ヘッドネットワークにより生成された予測値は、例えば、該アンカーボックスが前景又は背景である確率、該アンカーボックスに対応するオブジェクトがクラスに属する確率、バウンディングボックス（ｂｏｕｎｄｉｎｇｂｏｘ）についての予測値などを含んでもよい。ここで、バウンディングボックスは、アンカーボックスの位置及びサイズを示す。

【0016】

図１に示すように、大、中、小の３つのサイズの各サイズのアンカーボックス特徴について、ドメイン間の特徴アライメントを行う。以下は、小アンカーボックス特徴を一例として、図２を参照しながら、ドメイン間のアンカーボックス特徴のアライメントの具体的なプロセスを説明する。なお、他のサイズのアンカーボックス特徴についても同様な特徴アライメント処理を実行する。

【0017】

図２に示すように、ネックネットワーク１２０により抽出されたソースドメイン画像及びターゲットドメイン画像の小アンカーボックス特徴が入力される。好ましくは、特徴ベクトルの大きさ（ｍａｇｎｉｔｕｄｅ）が１になるように、入力された小アンカーボックス特徴に対してＬ２正則化を行ってもよい。

【0018】

次に、ソースドメイン画像の既知のラベルに基づいて、ソースドメイン画像の複数のアンカーボックス特徴（図示される「ソースドメインアンカーボックス特徴空間」）を、複数のクラスにそれぞれ対応する複数のソースドメインアンカーボックス特徴集合に分類する。図２は、ソースドメインアンカーボックス特徴空間におけるアンカーボックス特徴が複数の集合に分類されることを概略的に示しており、各集合は、例えば、背景、歩行者、乗用車などのクラスのうちの１つに対応してもよい。

【0019】

ターゲットドメインアンカーボックス特徴空間におけるアンカーボックス特徴について、まず、ターゲットドメイン画像の擬似ラベルに基づいて、各アンカーボックス特徴についてクラス及び位置情報に関する擬似ラベルを設定する。本開示では、動的自己訓練方法を用いてターゲットドメイン画像の擬似ラベルを取得し（後述する）、例えば擬似ラベルデータベースに記憶する。ターゲットドメイン画像の擬似ラベルは、該ターゲットドメイン画像における全ての検出すべきオブジェクトのクラス及び位置情報を示す。

【0020】

具体的には、ターゲットドメイン画像における各アンカーボックスによりカバーされる領域と、該ターゲットドメイン画像の擬似ラベルに含まれる各検出すべきオブジェクトのカバー領域とのユニオン交差（ＩＯＵ）を算出する。算出されたＩＯＵが所定の閾値よりも大きい場合、該検出すべきオブジェクトの擬似ラベルを該アンカーボックス特徴の擬似ラベルに設定する。以下の数式（１）に従ってユニオン交差を計算してもよい。

【0021】

【数1】

ターゲットドメインアンカーボックス特徴空間における各アンカーボックス特徴について擬似ラベルが設定された後、ソースドメインアンカーボックス特徴についての処理と同様に、これらのアンカーボックス特徴を複数のクラスにそれぞれ対応する複数の集合に分類してもよい。

【0022】

本開示では、以下の状況を考えている。前に入力されたソースドメイン又はターゲットドメインの画像データには、あるクラスに対応するアンカーボックス特徴があるが、現在の入力された画像データには、該クラスに対応するアンカーボックス特徴がない。このようなクラスが欠落している問題を鑑み、擬似ラベルのクラスが誤っている問題を回避するために、本開示は、得られたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴の各集合について移動平均クラス中心を計算し、算出された移動平均クラス中心を対応する集合に追加する。図２は、各集合に追加された移動平均クラス中心をそれぞれ中実の円形及び三角形で概略的に示している。

【0023】

以下の数式（２）～（５）に従って移動平均クラス中心を計算してもよい。

【0024】

【数2】

【0025】

【数3】

【0026】

【数4】

【0027】

【数5】

ここで、ｘ_Ｓはソースドメイン画像におけるアンカーボックス特徴を表し、ｘ_Ｔはターゲットドメイン画像におけるアンカーボックス特徴を表し、Ｏ_Ｓ ^ｋはｋ番目のクラスに対応するソースドメインアンカーボックス特徴集合を表し、Ｏ_Ｔ ^ｋはｋ番目のクラスに対応するターゲットドメインアンカーボックス特徴集合を表し、Ｃ_Ｓ（ｔ） ^ｋ及びＣ_Ｔ（ｔ） ^ｋは現在の反復において算出されたｋ番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合のクラス中心をそれぞれ表し、Ｃ_Ｓ＿Ｐ ^ｋ及びＣ_Ｔ＿Ｐ ^ｋは前の反復において算出されたｋ番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合の移動平均クラス中心をそれぞれ表し、Ｃ_Ｓ ^ｋ及びＣ_Ｔ ^ｋは現在の反復において算出されたｋ番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合の移動平均クラス中心をそれぞれ表し、θは移動平均係数を表す。

【0028】

数式（４）及び数式（５）に示すように、移動平均クラス中心を計算する際に、直前の反復において算出された対応するクラスの移動平均クラス中心を使用し、現在の反復において最終的に得られた移動平均クラス中心Ｃ_Ｓ ^ｋ及びＣ_Ｔ ^ｋを対応する集合に追加しているため、現在の入力された画像データに直前の反復におけるあるクラスに対応するアンカーボックス特徴が欠落している場合であっても、今回の反復において得られた結果に該クラスに対応する特徴集合が欠落することはない。例えば、図２に示すように、現在のターゲットドメインアンカーボックス特徴空間におけるアンカーボックス特徴が４つのクラス（「歩行者」クラスがない）に対応する４つの集合に分類されている場合、移動平均クラス中心を追加することによって、５つのクラス（「歩行者」クラスを含む）に対応する５つの集合を取得してもよい。ここで、「歩行者」のクラスに対応する特徴セットは、直前の反復において算出された「歩行者」のクラスの移動平均クラス中心により形成される。

【0029】

また、図２に示すように、ソースドメインアンカーボックス特徴空間におけるアンカーボックス特徴は、５つのクラスに対応する５つの集合に分類され、各集合に含まれるアンカーボックス特徴は互いに異なり、或いは大きく異なる。ターゲットドメインアンカーボックス特徴空間についても同様である。各クラス間の特徴の不均衡の問題を軽減するために、本開示では、アンダーサンプリング（ｕｎｄｅｒｓａｍｐｌｉｎｇ）により、各ソースドメインアンカーボックス特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限し、各ターゲットドメインアンカーボックス特徴集合に含まれるターゲットアンカーボックス特徴の数を所定値以内に制限する。一例として、１つ又は複数のアンカーボックス特徴をランダムに削除することによって、各集合におけるアンカーボックス特徴の数を制限してもよい。また、ソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合について、同様な特徴の数の上限を設定してもよい。例えば、図２には、特徴の数を３つに制限するように、「乗用車」クラスに対応するソースドメインアンカーボックス特徴集合におけるアンカーボックス特徴の一部を削除することが概略的に示されている。

【0030】

各クラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合を取得した後、ドメイン間の特徴アライメントを行ってもよい。本開示では、同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによって特徴アライメントを実行する。

【0031】

具体的には、本開示では、改良されたｄ－ＳＮＥ方法を用いて特徴アライメントを実行する。ｄ－ＳＮＥ方法は、ＸｕＸ，ＺｈｏｕＸ，ＶｅｎｋａｔｅｓａｎＲらの論文「ｄ－ＳＮＥ：Ｄｏｍａｉｎａｄａｐｔａｔｉｏｎｕｓｉｎｇｓｔｏｃｈａｓｔｉｃｎｅｉｇｈｂｏｒｈｏｏｄｅｍｂｅｄｄｉｎｇ」（ＩＥＥＥ／ＣＶＦＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）会議論文集、２０１９年、第２４９７～２５０６頁）に紹介されている。この方法は、現時点で最も優れた性能を有する、サンプルポイント（例えば画像における物体）に基づく特徴アライメント方法である。ｄ－ＳＮＥ方法では、以下の数式（６）に示す損失関数を使用して、ドメイン間のクラス内の最大距離を最小化し、且つドメイン間のクラス間の最小距離を最大化することによって、サンプルポイントに基づく特徴レベルのアライメントを達成する。

【0032】

【数6】

ここで、ｄ（ｘ_ｓ，ｘ_ｔ）はソースドメインアンカーボックス特徴ｘ_ｓ及びターゲットドメインアンカーボックス特徴ｘ_ｔの特徴空間におけるユークリッド距離の二乗を表し、
（外１）

、
（外２）

、ｙ_ｓはｘ_ｓのクラスラベルであり、ｋはｘ_ｔのクラスラベルである。

【0033】

通常、計算効率を高めるために、以下の数式（７）に示すｄ－ＳＮＥ損失関数を使用する。

【0034】

【数7】

ここで、ｍは所定のマージン値（ｍａｒｇｉｎ）である。

【0035】

しかし、上記のｄ－ＳＮＥ損失関数は、単に最大のクラス内距離と最小のクラス間距離との相対的な差分を増大させるだけであり、絶対的な最小のクラス間距離を最大化するものではない。従って、本開示は、以下の数式（８）で示されるように、改良された損失関数Ｌ_Ａを提案する。

【0036】

【数8】

数式（７）と比べて、数式（８）には、
（外３）

という項が追加されている。ここで、ｍ_２は他の所定のマージン値である。この項は、絶対的な最小のクラス間距離を最大化するために使用される。１つの追加的なハイパーパラメータｍ_２を必要とするが、本開示に係る損失関数Ｌ_Ａは、異なるクラスに対応する特徴をより良好に分離することができる。

【0037】

以下は、図３を参照しながら、本開示に係るオブジェクト検出ニューラルネットワークの訓練方法を詳細に説明する。図３に示すように、オブジェクト検出ニューラルネットワーク３００にソースドメイン画像Ｘ_Ｓ及びターゲットドメイン画像Ｘ_Ｔが入力され、オブジェクト検出ニューラルネットワーク３００は、入力された画像について、異なるサイズを有するアンカーボックス特徴を抽出し、抽出された特徴に基づいて、ソースドメイン及びターゲットドメインのそれぞれについてのオブジェクト検出予測結果Ｐ_Ｓ及びＰ_Ｔを生成する。ソースドメイン画像Ｘ_ＳはラベルＹ_Ｓを有するため、ラベルＹ_Ｓ及び予測結果Ｐ_Ｓに基づいて、ソースドメイン画像についての検出損失Ｌ_Ｓを計算することができる。検出損失Ｌ_Ｓは、分類損失Ｌ_{ｃｌｓ＿ｓ}及び位置損失Ｌ_{ｌｏｃ＿ｓ}を含んでもよい。一例として、分類損失Ｌ_{ｃｌｓ＿ｓ}は、交差エントロピー損失関数を含んでもよく、位置損失Ｌ_{ｌｏｃ＿ｓ}は、Ｌ１、Ｌ２又はｓｍｏｏｔｈＬ１損失関数を含んでもよい。

【0038】

ラベルなしのターゲットドメイン画像Ｘ_Ｔについて、予測結果Ｐ_Ｔ及び予め生成された擬似ラベル（例えば、擬似ラベルデータベースに記憶される）に基づいて、ターゲットドメイン画像についての検出損失Ｌ_Ｔを計算してもよい。検出損失Ｌ_Ｔは、分類損失Ｌ_{ｃｌｓ＿ｔ}及び位置損失Ｌ_{ｌｏｃ＿ｔ}を含んでもよい。一例として、分類損失Ｌ_{ｃｌｓ＿ｔ}は、交差エントロピー損失関数を含んでもよく、位置損失Ｌ_{ｌｏｃ＿ｔ}は、Ｌ１、Ｌ２又はｓｍｏｏｔｈＬ１損失関数を含んでもよい。

【0039】

従って、本開示に係る訓練における総損失関数Ｌは、以下の数式（９）で表されてもよい。

【0040】

【数9】

ここで、Ｌ_Ｓはソースドメイン画像についての検出損失関数を表し、Ｌ_Ｔはターゲットドメイン画像についての検出損失関数を表し、Ｌ_Ａはアンカーボックス特徴アライメント損失関数を表し、α_１、α_２及びα_３は対応する損失関数に適用される重み付け係数を表す。

【0041】

一方、図３は、動的自己訓練によりターゲットドメイン画像の擬似ラベルを生成することも示している。図３に示すように、現在の入力されたターゲットドメイン画像Ｘ_Ｔについて、予測結果Ｐ_Ｔ、所定の信頼度閾値及びＩＯＵ閾値に基づいて、非極大値抑制（ＮＭＳ：Ｎｏｎ－ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）アルゴリズムを用いて、該ターゲットドメイン画像Ｘ_Ｔの擬似ラベルを生成する。

【0042】

具体的には、以下のステップを実行することによってＮＭＳアルゴリズムを実行してもよい。

【0043】

まず、現在入力されたターゲットドメイン画像における前景（即ちオブジェクト）として予測された全てのアンカーボックスを信頼度の高い順にソートする。信頼度は、該アンカーボックスがオブジェクトに対応する予測確率を意味する。そして、信頼度が所定の閾値よりも低いアンカーボックスを削除し、残ったアンカーボックスが第１の集合を形成する。

【0044】

次に、第１の集合から信頼度が最も高いアンカーボックスを選択して第２の集合に追加し、第１の集合から、選択されたアンカーボックスのカバー領域とのＩＯＵが所定の閾値よりも大きいアンカーボックスを削除する。このステップは、第１の集合が空になるまで繰り返し実行される。この際に、第２の集合に含まれるボックスアンカーボックス及びその予測結果は、現在入力されたターゲットドメイン画像Ｘ_Ｔの擬似ラベルとされてもよい。

【0045】

以前に記憶された擬似ラベルを更新するように、現在入力されたターゲットドメイン画像Ｘ_Ｔについて擬似ラベルが生成された後、該擬似ラベルを擬似ラベルデータベースに記憶してもよい。特に、更新後の擬似ラベルは、後で入力される（例えば、訓練の次のラウンドで入力された）該ターゲットドメイン画像Ｘ_Ｔについて、検出損失Ｌ_Ｔ（図３に示すように）を計算し、各クラスに対応するターゲットドメインアンカーボックス特徴集合（図２に示すように）を決定するために使用される。現在入力されたターゲットドメイン画像Ｘ_Ｔについての検出損失Ｌ_Ｔを計算する際に使用される擬似ラベルは、依然として擬似ラベルデータベースから読み出された以前に記憶された擬似ラベルである。

【0046】

図４は、本開示に係るニューラルネットワークのドメイン適応訓練方法を示すフローチャートであり、図５は、本開示に係るニューラルネットワーク及び訓練装置のモジュールを示すブロック図である。

【0047】

図４に示すように、ステップＳ４１０において、ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて該複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出する。このステップは、図５に示すニューラルネットワークにおける特徴抽出部５１０により実行されてもよい。

【0048】

ステップＳ４２０において、抽出されたソースドメインアンカーボックス特徴に基づいて、ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成する。同様に、抽出されたターゲットドメインアンカーボックス特徴に基づいて、ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成する。このステップは、図５に示すニューラルネットワークにおけるオブジェクト検出部５２０により実行されてもよい。

【0049】

次に、ステップＳ４３０において、該複数のサイズのうちの各サイズのアンカーボックス特徴（例えば、小アンカーボックス特徴）について、ソースドメイン画像のラベルに基づいて、該サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類する。同様に、ステップＳ４４０において、ターゲットドメイン画像の擬似ラベルに基づいて、該サイズを有する複数のターゲットドメインアンカーボックス特徴を、該複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類する。ステップＳ４３０及びＳ４４０は、図５における特徴分類部５３０により実行されてもよい。

【0050】

次に、ステップＳ４５０において、同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、ドメイン間の特徴アライメントを実行する。このステップは、図５における特徴アライメント部により実行されてもよい。

【0051】

ステップＳ４６０において、ラベル付きの次のソースドメイン画像及びラベルなしの次のターゲットドメイン画像を受信し、方法はステップＳ４１０に戻る。

【0052】

ステップＳ４１０～Ｓ４６０を繰り返し実行することによって、ソースドメイン画像についての予測損失関数Ｌ_Ｓ、ターゲットドメイン画像についての予測損失関数Ｌ_Ｔ及び特徴アライメント損失関数Ｌ_Ａ基づいてニューラルネットワークを訓練する。訓練プロセスは、図５における訓練部５５０により制御されてもよい。

【0053】

なお、本開示の訓練方法は、必ずしも図４に示される順序で実行される必要がない。例えば、ステップＳ４３０とＳ４４０は同時に実行されてもよい。また、ステップＳ４３０～Ｓ４５０は、各サイズのアンカーボックス特徴について順次実行されてもよいし、各サイズのアンカーボックス特徴について並列に実行されてもよい。

【0054】

表１は、本開示に係る方法に従って訓練されたニューラルネットワークと、従来の方法に従って訓練されたモデルとの性能の比較を示す。テスト画像は道路画像であり、２つのターゲットドメイン（昼間画像と夜間画像）についてテストを行い、平均精度（ＭｅａｎＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ：ｍＡＰ）を評価指標として用いた。表１において、ソースドメインモデルは、ソースドメイン画像データ及びそのラベルを用いて訓練されたモデルを表す。該モデルは、ソースドメインテストセットでは最高の性能（９９．８）を達成しているが、ターゲットドメインテストセット（昼間、夜間）では性能が大幅に低下している（７７．６、４８．６）。ターゲットドメインモデルは、ターゲットドメイン画像データ及びそのラベルを用いて訓練されたモデルを表す。このモデルの性能は、ターゲットドメインで達成可能な性能の上限を表す。残りの４つのモデルは、教師なしドメイン適応方法を用いて訓練されたモデルであり、ソースドメイン画像データ及びそのラベルと、ターゲットドメイン画像データ（ラベルを有しない）とを用いて訓練されたモデルである。表１から分かるように、本開示に係る方法（即ち、動的自己訓練＋マルチサイズアンカーボックス特徴アライメント）により訓練されたモデルは、両方のターゲットドメインテストセットでは最良の性能を達成した。また、動的自己訓練方法は、静的自己訓練方法に比べてより良い性能を取得することができるため、動的自己訓練と組み合わせる場合、ドメイン間マルチサイズアンカーボックス特徴アライメント方法は、性能をさらに向上させることができる。

【0055】

【表1】

教師なしドメイン適応方法では、ターゲットドメインの検証セットが不足しているため、ターゲットドメインの検証セットを使用して最良の性能のモデルを選択することができない。この場合、訓練の安定性が重要である。訓練の安定性とは、訓練プロセスにおけるモデルの性能が安定的に向上し、最後の反復において得られたモデルの性能が訓練プロセス全体において達成されたモデルの最良の性能と略同一であることを意味する。図６は、表１における４つの教師なしドメイン適応モデルに対する訓練の安定性を示す。ここで、横軸は、訓練のエポック数（ｅｐｏｃｈ）を表し、縦軸は、ｍＡＰ＠０．５、即ち、ＩｏＵが０．５に設定された場合のｍＡＰを表す。図６の（ａ）は、昼間のターゲットドメインテストセットでの大きなオブジェクト検出に基づくものであり、（ｂ）は、夜間のターゲットドメインテストセットでの大きなオブジェクト検出に基づくものである。図６から分かるように、本開示に係るモデル（即ち、動的自己訓練＋マルチサイズアンカーボックス特徴アライメント）は良好な訓練安定性を有する。

【0056】

以上は、具体的な実施形態を参照しながら、本開示に係る教師なしドメイン適応訓練方法を説明した。該方法は、以下の特徴を有する。

【0057】

（１）複数のサイズのアンカーボックスの特徴アライメントを行う。異なるサイズのアンカーボックス特徴は異なる豊富さの細部を含むため、同一のサイズのソースドメインアンカーボックス特徴とターゲットドメインアンカーボックス特徴とに対してアライメントを行うことは、細部情報を失うことはない。

【0058】

（２）動的自己訓練を行う。訓練プロセスにおいてターゲットドメイン画像の擬似ラベルを常に更新することによって、擬似ラベルの品質を高めることができる。

【0059】

（３）特徴分布アライメント方法を採用ことではなく、高品質の擬似ラベルに基づいてアンカーボックス特徴をポイントごとにアライメントを行う。同一のクラスのアンカーボックス特徴間の距離を縮小すると共に、異なるクラスのアンカーボックス特徴間の距離を拡大することができる。

【0060】

（４）各クラスの移動平均クラス中心を用いることで、欠落したクラス及び擬似ラベルのうちの誤ったラベルによる悪影響を軽減することができる。

【0061】

（５）アンダーサンプリングを行う。特定のクラスのアンカーボックス特徴に対してアンダーサンプリングを行うことによって、各クラス間のアンカーボックス特徴の不均衡の問題を軽減することができる。

【0062】

上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ（ＲＡＭ）に書き込まれ、プロセッサ（例えばＣＰＵ）により実行されることで、本明細書で説明された各処理を実現する。

【0063】

図７は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。該コンピュータのハードウェアは、本開示に係るオブジェクト検出ニューラルネットワークを訓練する装置の一例である。また、本開示に係るニューラルネットワークも該コンピュータハードウェアに基づいて実現されてもよい。

【0064】

図７に示すように、コンピュータ７００では、中央処理装置（ＣＰＵ）７０１、読み出し専用メモリ（ＲＯＭ）７０２及びランダムアクセスメモリ（ＲＡＭ）７０３がバス７０４により相互に接続されている。

【0065】

入力／出力インターフェース７０５は、バス７０４にさらに接続されている。入力／出力インターフェース７０５には、キーボード、マウス、マイクロフォンなどにより構成された入力部７０６、ディスプレイ、スピーカなどにより構成された出力部７０７、ハードディスク、不揮発性メモリなどにより構成された記憶部７０８、ネットワークインターフェースカード（ローカルエリアネットワーク（ＬＡＮ）カード、モデムなど）により構成された通信部７０９、及び取り外し可能な媒体７１１をドライブするドライバ７１０が接続されている。取り外し可能な媒体７１１は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。

【0066】

上記の構成を有するコンピュータにおいて、ＣＰＵ７０１は、記憶部７０８に記憶されているプログラムを、入力／出力インターフェース７０５及びバス７０４を介してＲＡＭ７０３にロードし、プログラムを実行することにより、上記の方法を実行する。

【0067】

コンピュータ（ＣＰＵ７０１）により実行されるプログラムは、パッケージ媒体である取り外し可能な媒体７１１に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク（フロッピーディスクを含む）、光ディスク（コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、デジタルバーサタイルディスク（ＤＶＤ）などを含む）、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ（ＣＰＵ７０１）により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。

【0068】

取り外し可能な媒体７１１がドライバ７１０にインストールされると、プログラムは、入力／出力インターフェース７０５を介して記憶部７０８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部７０９で受信され、記憶部７０８にインストールされる。或いは、プログラムは、ＲＯＭ７０２又は記憶部７０８に予めインストールされてもよい。

【0069】

コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて（例えば呼び出しの時に）処理を実行するプログラムであってもよい。

【0070】

本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、１つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。

【0071】

本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。

【0072】

また、本開示は、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
（付記１）
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、
（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、
ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法。
（付記２）
（ｅ’）前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに含み、
ステップ（ａ）乃至（ｅ）、（ｅ’）及び（ｆ）を繰り返し実行する、付記１に記載の方法。
（付記３）
信頼度閾値及びユニオン交差（ＩＯＵ）閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成する、付記２に記載の方法。
（付記４）
ステップ（ｄ）において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
ステップ（ｅ’）において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定する、付記２に記載の方法。
（付記５）
ステップ（ｃ）は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ（ｄ）は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、付記１に記載の方法。
（付記６）
ステップ（ｃ）において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ（ｄ）において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに含み、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、付記１に記載の方法。
（付記７）
ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式

【0073】

【数10】

、
（外５）

、ｙ_ｓはソースドメインアンカーボックス特徴ｘ_ｓのクラスラベルであり、ｋはターゲットドメインアンカーボックス特徴ｘ_ｔのクラスラベルであり、ｍ及びｍ_２はハイパーパラメータである、付記１に記載の方法。
（付記８）
抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してＬ２正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ（ｃ）～（ｆ）を実行するステップ、をさらに含む、付記１に記載の方法。
（付記９）
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、
プログラムが記憶されたメモリと、
１つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
（ａ）ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
（ｂ）抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
（ｃ）前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
（ｄ）前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
（ｅ）同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
（ｆ）ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、
前記プロセッサは、ステップ（ａ）乃至（ｆ）を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置。
（付記１０）
前記プロセッサは、
（ｅ’）前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに実行するように構成され、
ステップ（ａ）乃至（ｅ）、（ｅ’）及び（ｆ）を繰り返し実行する、付記９に記載の装置。
（付記１１）
前記プロセッサは、信頼度閾値及びユニオン交差（ＩＯＵ）閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成するように構成される、付記１０に記載の装置。
（付記１２）
ステップ（ｄ）において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
前記プロセッサは、ステップ（ｅ’）において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定するように構成される、付記１０に記載の装置。
（付記１３）
ステップ（ｃ）は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ（ｄ）は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、付記９に記載の装置。
（付記１４）
前記プロセッサは、
ステップ（ｃ）において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ（ｄ）において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに実行するように構成され、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ（ｅ）を実行する、付記９に記載の装置。
（付記１５）
ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式

【0074】

【数11】

、
（外７）

、ｙ_ｓはソースドメインアンカーボックス特徴ｘ_ｓのクラスラベルであり、ｋはターゲットドメインアンカーボックス特徴ｘ_ｔのクラスラベルであり、ｍ及びｍ_２はハイパーパラメータである、付記９に記載の装置。
（付記１６）
前記プロセッサは、抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してＬ２正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ（ｃ）～（ｆ）を実行するステップ、をさらに実行するように構成される、付記９に記載の装置。
（付記１７）
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記１乃至８の何れかに記載のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体。

【図1】