(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024125219
(43)【公開日】2024-09-13
(54)【発明の名称】ニューラルネットワークのドメイン適応訓練の方法及び装置
(51)【国際特許分類】
G06T 7/00 20170101AFI20240906BHJP
G06V 10/82 20220101ALI20240906BHJP
【FI】
G06T7/00 350C
G06V10/82
【審査請求】未請求
【請求項の数】10
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024031457
(22)【出願日】2024-03-01
(31)【優先権主張番号】202310204379.7
(32)【優先日】2023-03-03
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】000005223
【氏名又は名称】富士通株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】ジョオン・チャオリアン
(72)【発明者】
【氏名】フォン・チョン
(72)【発明者】
【氏名】ワン・ジエ
(72)【発明者】
【氏名】孫 俊
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096FA18
5L096HA11
5L096KA04
(57)【要約】 (修正有)
【課題】ニューラルネットワークのドメイン適応訓練の方法及び装置を提供する。
【解決手段】方法は、ソースドメイン(以下ソース)画像について複数サイズのソースドメイン、ターゲットドメイン(以下ターゲット)のアンカーボックス特徴を抽出しS410、ソース、ターゲット画像に対応するアンカーボックスについてオブジェクト検出の予測値を生成しS420、各サイズについて、該サイズを有するソースとターゲットのアンカーボックス特徴を、複数のクラスに対応する複数の特徴集合へ分類しS430、S440、クラス内距離を最小化し、且つクラス間距離を最大化するドメイン間の特徴アライメントを実行しS450、他のソース及びターゲット画像の受信するS460。そして、ステップS410~S460を繰り返し実行して、ソース、ターゲット画像の予測損失関数、特徴アライメント損失関数を用いてニューラルネットワークを訓練する。
【選択図】
図4
【特許請求の範囲】
【請求項1】
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、
(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、
ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法。
【請求項2】
(e’)前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに含み、
ステップ(a)乃至(e)、(e’)及び(f)を繰り返し実行する、請求項1に記載の方法。
【請求項3】
信頼度閾値及びユニオン交差(IOU)閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成する、請求項2に記載の方法。
【請求項4】
ステップ(d)において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
ステップ(e’)において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定する、請求項2に記載の方法。
【請求項5】
ステップ(c)は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ(d)は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、請求項1に記載の方法。
【請求項6】
ステップ(c)において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ(d)において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに含み、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、請求項1に記載の方法。
【請求項7】
ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式
【数1】
に従って前記特徴アライメント損失関数L
Aを構築し、
ここで、x
Sはソースドメインアンカーボックス特徴を表し、x
Tはターゲットドメインアンカーボックス特徴を表し、O
tはターゲットドメインアンカーボックス特徴の集合を表し、d(x
s,x
t)はソースドメインアンカーボックス特徴x
Sとターゲットドメインアンカーボックス特徴x
Tとのユークリッド距離の二乗を表し、
(外1)
、
(外2)
、y
sはソースドメインアンカーボックス特徴x
sのクラスラベルであり、kはターゲット
ドメインアンカーボックス特徴x
tのクラスラベルであり、m及びm
2はハイパーパラメー
タである、請求項1に記載の方法。
【請求項8】
抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してL2正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ(c)~(f)を実行するステップ、をさらに含む、請求項1に記載の方法。
【請求項9】
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、
プログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、
前記プロセッサは、ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置。
【請求項10】
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに請求項1乃至8の何れかに記載のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に、ドメイン適応(domain adaptation)に関し、具体的には、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法及び装置に関する。
【背景技術】
【0002】
教師なしドメイン適応とは、ラベル付けされたソースドメインデータを使用して訓練されたモデルをラベル付けされていないターゲットドメインデータに転移すると共に、該モデルのターゲットドメインでの性能を可能な限り維持することを意味する。ソースドメインとターゲットドメインとの間にデータの偏差があり、且つターゲットドメインデータにラベルがないため、ソースドメインデータを用いて訓練されたモデルは、ターゲットドメインでの性能が低下する場合が多い。教師なしドメイン適応の訓練(トレーニング)プロセスは、ソースドメインのラベル付きデータとターゲットドメインのラベルなしデータの両方を利用することで、ドメインの差異を効果的に軽減し、モデルの堅牢性を向上させることができる。
【0003】
現在、様々な教師なしドメイン適応の方法が提案されている。これらの方法は、自己訓練(self-training)又は敵対的訓練によりドメイン不変特徴(domain invariant features)を学習し、データ偏差の問題を解決し、モデルのターゲットドメインでの性能を向上させる。しかし、オブジェクト検出のための従来の教師なし領域適応方法は、以下の問題がある。
【0004】
・ほとんどの自己訓練方法は、静的な擬似ラベルに基づくものであるため、訓練プロセスの進行につれて擬似ラベルの品質を向上させることができない。
【0005】
・ほとんどの従来の方法は、特徴分布のアライメント、特に画像レベルの大域特徴分布のアライメントを実現しているが、クラスレベルの特徴アライメントを効果的に実現することができない。
【0006】
・最も重要なことは、従来の方法では、異なるサイズの特徴に対して個別にアライメントを行っていないことである。異なるサイズの特徴には多様な詳細情報が含まれているため、大きいオブジェクトの特徴と小さいオブジェクトの特徴とに対してアライメントを行うと、大きいオブジェクトの特徴情報が失われ、最終的なパフォーマンスに影響してしまう。従来方法の一例として、YOLOv5は、画像における各ターゲットのサイズの差異を考慮せずに、異なるサイズのオブジェクトに対して特徴を抽出し、敵対的学習の手法を用いて特徴分布のアライメントを実現する。
【発明の概要】
【発明が解決しようとする課題】
【0007】
従来の教師なしドメイン適応方法の上記の問題のうちの1つ又は複数を解決するために、本開示は、オブジェクト検出を実行するためのニューラルネットワークについての新たな教師なしドメイン適応訓練方法を提供する。
【課題を解決するための手段】
【0008】
本開示の1つの態様では、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、前記複数のサイズのうちの各サイズについて、(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法を提供する。
【0009】
本開示のもう1つの態様では、オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、プログラムが記憶されたメモリと、1つ又は複数のプロセッサと、を含み、前記プロセッサは、前記プログラムを実行することで、(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、前記複数のサイズのうちの各サイズについて、(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、前記プロセッサは、ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置を提供する。
【0010】
本開示のもう1つの態様では、プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに上記のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体を提供する。
【図面の簡単な説明】
【0011】
【
図1】本開示に係るドメイン間のマルチサイズのアンカーボックス特徴のアライメントを示す概略図である。
【
図2】本開示に係るドメイン間のアンカーボックス特徴のアライメントの具体的なプロセスを示す概略図である。
【
図3】本開示に係るオブジェクト検出ニューラルネットワークの訓練を示す概略図である。
【
図4】本開示に係るニューラルネットワークのドメイン適応訓練方法を示すフローチャートである。
【
図5】本開示に係るニューラルネットワーク及び訓練装置のモジュールを示すブロック図である。
【
図6】様々なドメイン適応モデルの訓練安定性を示す図である。
【
図7】本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。
【発明を実施するための形態】
【0012】
本開示に係る教師なしドメイン適応方法は、アンカーボックス(anchor)に基づくオブジェクト検出ニューラルネットワーク、例えば、YOLOvX(X=1,2,3,4,5)、Yolact、Yolact++、Faster-RCNNなどに適用することができる。アンカーボックスとは、画像を固定のサイズ又は固定のアスペクト比で分割して得られた各領域を意味し、オブジェクト検出の先験的なボックスとされる。画像における異なるサイズのオブジェクトを検出するために、複数種類の固定サイズ又は複数種類の固定アスペクト比で画像を分割して、複数種類のサイズのアンカーボックスを取得してもよい。画像全体のラベルに基づいて、各アンカーボックスのラベルを計算してもよい。アンカーボックスのラベルは、該アンカーボックスが背景であるか否か、該アンカーボックスに対応するオブジェクトが属するクラス、及びオブジェクトの位置情報などを示してもよい。
【0013】
本開示は、従来のオブジェクト検出のフレームワークにマルチサイズのアンカーボックス特徴のアライメントモジュールを追加する。以下は、
図1を参照しながら、本開示に係るドメイン間のマルチサイズのアンカーボックス特徴のアライメントを説明する。
【0014】
図1に示すように、アンカーボックスに基づく物体検出フレームワークは、通常、バックボーンネットワーク(backbone)110、ネックネットワーク(neck)120を含み、好ましくは、ヘッドネットワーク(head)(不図示)を含む。ラベル付きのソースドメイン画像及びラベルなしのターゲットドメイン画像の両方がバックボーンネットワークに入力され、バックボーンネットワーク110は、入力された画像全体について大域特徴を抽出する。画像における異なるサイズのオブジェクト(物体)を検出するために、ソースドメイン画像及びターゲットドメイン画像は、複数のサイズのアンカーボックスに分割されている。ネックネットワーク120は、ソースドメイン画像の大域特徴から様々なサイズのソースドメインアンカーボックスの特徴を抽出し、ターゲットドメイン画像の大域特徴から様々なサイズのターゲットドメインアンカーボックスの特徴を抽出する。
図1は、「小アンカーボックス特徴」、「中アンカーボックス特徴」、「大アンカーボックス特徴」を概略的に示しており、各サイズのアンカーボックス特徴は、対応するサイズを有する複数のアンカーボックスに対応する複数の特徴を含む。一例として、
図1における小アンカーボックス、中アンカーボックス、大アンカーボックス特徴は、YOLOv5フレームワークの第18の層、第21の層、及び第24の層から出力されたアンカーボックス特徴にそれぞれ対応してもよい。
【0015】
また、ヘッドネットワーク(不図示)は、ネックネットワーク120により抽出されたソースドメインアンカーボックスの特徴に基づいて、ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックスの特徴に基づいて、ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成してもよい。ヘッドネットワークにより生成された予測値は、例えば、該アンカーボックスが前景又は背景である確率、該アンカーボックスに対応するオブジェクトがクラスに属する確率、バウンディングボックス(bounding box)についての予測値などを含んでもよい。ここで、バウンディングボックスは、アンカーボックスの位置及びサイズを示す。
【0016】
図1に示すように、大、中、小の3つのサイズの各サイズのアンカーボックス特徴について、ドメイン間の特徴アライメントを行う。以下は、小アンカーボックス特徴を一例として、
図2を参照しながら、ドメイン間のアンカーボックス特徴のアライメントの具体的なプロセスを説明する。なお、他のサイズのアンカーボックス特徴についても同様な特徴アライメント処理を実行する。
【0017】
図2に示すように、ネックネットワーク120により抽出されたソースドメイン画像及びターゲットドメイン画像の小アンカーボックス特徴が入力される。好ましくは、特徴ベクトルの大きさ(magnitude)が1になるように、入力された小アンカーボックス特徴に対してL2正則化を行ってもよい。
【0018】
次に、ソースドメイン画像の既知のラベルに基づいて、ソースドメイン画像の複数のアンカーボックス特徴(図示される「ソースドメインアンカーボックス特徴空間」)を、複数のクラスにそれぞれ対応する複数のソースドメインアンカーボックス特徴集合に分類する。
図2は、ソースドメインアンカーボックス特徴空間におけるアンカーボックス特徴が複数の集合に分類されることを概略的に示しており、各集合は、例えば、背景、歩行者、乗用車などのクラスのうちの1つに対応してもよい。
【0019】
ターゲットドメインアンカーボックス特徴空間におけるアンカーボックス特徴について、まず、ターゲットドメイン画像の擬似ラベルに基づいて、各アンカーボックス特徴についてクラス及び位置情報に関する擬似ラベルを設定する。本開示では、動的自己訓練方法を用いてターゲットドメイン画像の擬似ラベルを取得し(後述する)、例えば擬似ラベルデータベースに記憶する。ターゲットドメイン画像の擬似ラベルは、該ターゲットドメイン画像における全ての検出すべきオブジェクトのクラス及び位置情報を示す。
【0020】
具体的には、ターゲットドメイン画像における各アンカーボックスによりカバーされる領域と、該ターゲットドメイン画像の擬似ラベルに含まれる各検出すべきオブジェクトのカバー領域とのユニオン交差(IOU)を算出する。算出されたIOUが所定の閾値よりも大きい場合、該検出すべきオブジェクトの擬似ラベルを該アンカーボックス特徴の擬似ラベルに設定する。以下の数式(1)に従ってユニオン交差を計算してもよい。
【0021】
【数1】
ターゲットドメインアンカーボックス特徴空間における各アンカーボックス特徴について擬似ラベルが設定された後、ソースドメインアンカーボックス特徴についての処理と同様に、これらのアンカーボックス特徴を複数のクラスにそれぞれ対応する複数の集合に分類してもよい。
【0022】
本開示では、以下の状況を考えている。前に入力されたソースドメイン又はターゲットドメインの画像データには、あるクラスに対応するアンカーボックス特徴があるが、現在の入力された画像データには、該クラスに対応するアンカーボックス特徴がない。このようなクラスが欠落している問題を鑑み、擬似ラベルのクラスが誤っている問題を回避するために、本開示は、得られたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴の各集合について移動平均クラス中心を計算し、算出された移動平均クラス中心を対応する集合に追加する。
図2は、各集合に追加された移動平均クラス中心をそれぞれ中実の円形及び三角形で概略的に示している。
【0023】
以下の数式(2)~(5)に従って移動平均クラス中心を計算してもよい。
【0024】
【0025】
【0026】
【0027】
【数5】
ここで、x
Sはソースドメイン画像におけるアンカーボックス特徴を表し、x
Tはターゲットドメイン画像におけるアンカーボックス特徴を表し、O
S
kはk番目のクラスに対応するソースドメインアンカーボックス特徴集合を表し、O
T
kはk番目のクラスに対応するターゲットドメインアンカーボックス特徴集合を表し、C
S(t)
k及びC
T(t)
kは現在の反復において算出されたk番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合のクラス中心をそれぞれ表し、C
S_P
k及びC
T_P
kは前の反復において算出されたk番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合の移動平均クラス中心をそれぞれ表し、C
S
k及びC
T
kは現在の反復において算出されたk番目のクラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合の移動平均クラス中心をそれぞれ表し、θは移動平均係数を表す。
【0028】
数式(4)及び数式(5)に示すように、移動平均クラス中心を計算する際に、直前の反復において算出された対応するクラスの移動平均クラス中心を使用し、現在の反復において最終的に得られた移動平均クラス中心C
S
k及びC
T
kを対応する集合に追加しているため、現在の入力された画像データに直前の反復におけるあるクラスに対応するアンカーボックス特徴が欠落している場合であっても、今回の反復において得られた結果に該クラスに対応する特徴集合が欠落することはない。例えば、
図2に示すように、現在のターゲットドメインアンカーボックス特徴空間におけるアンカーボックス特徴が4つのクラス(「歩行者」クラスがない)に対応する4つの集合に分類されている場合、移動平均クラス中心を追加することによって、5つのクラス(「歩行者」クラスを含む)に対応する5つの集合を取得してもよい。ここで、「歩行者」のクラスに対応する特徴セットは、直前の反復において算出された「歩行者」のクラスの移動平均クラス中心により形成される。
【0029】
また、
図2に示すように、ソースドメインアンカーボックス特徴空間におけるアンカーボックス特徴は、5つのクラスに対応する5つの集合に分類され、各集合に含まれるアンカーボックス特徴は互いに異なり、或いは大きく異なる。ターゲットドメインアンカーボックス特徴空間についても同様である。各クラス間の特徴の不均衡の問題を軽減するために、本開示では、アンダーサンプリング(undersampling)により、各ソースドメインアンカーボックス特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限し、各ターゲットドメインアンカーボックス特徴集合に含まれるターゲットアンカーボックス特徴の数を所定値以内に制限する。一例として、1つ又は複数のアンカーボックス特徴をランダムに削除することによって、各集合におけるアンカーボックス特徴の数を制限してもよい。また、ソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合について、同様な特徴の数の上限を設定してもよい。例えば、
図2には、特徴の数を3つに制限するように、「乗用車」クラスに対応するソースドメインアンカーボックス特徴集合におけるアンカーボックス特徴の一部を削除することが概略的に示されている。
【0030】
各クラスに対応するソースドメインアンカーボックス特徴集合及びターゲットドメインアンカーボックス特徴集合を取得した後、ドメイン間の特徴アライメントを行ってもよい。本開示では、同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによって特徴アライメントを実行する。
【0031】
具体的には、本開示では、改良されたd-SNE方法を用いて特徴アライメントを実行する。d-SNE方法は、Xu X, Zhou X, Venkatesan Rらの論文「d-SNE:Domain adaptation using stochastic neighborhood embedding」(IEEE/CVF Computer Vision and Pattern Recognition(CVPR)会議論文集、2019年、第2497~2506頁)に紹介されている。この方法は、現時点で最も優れた性能を有する、サンプルポイント(例えば画像における物体)に基づく特徴アライメント方法である。d-SNE方法では、以下の数式(6)に示す損失関数を使用して、ドメイン間のクラス内の最大距離を最小化し、且つドメイン間のクラス間の最小距離を最大化することによって、サンプルポイントに基づく特徴レベルのアライメントを達成する。
【0032】
【数6】
ここで、d(x
s,x
t)はソースドメインアンカーボックス特徴x
s及びターゲットドメインアンカーボックス特徴x
tの特徴空間におけるユークリッド距離の二乗を表し、
(外1)
、
(外2)
、y
sはx
sのクラスラベルであり、kはx
tのクラスラベルである。
【0033】
通常、計算効率を高めるために、以下の数式(7)に示すd-SNE損失関数を使用する。
【0034】
【数7】
ここで、mは所定のマージン値(margin)である。
【0035】
しかし、上記のd-SNE損失関数は、単に最大のクラス内距離と最小のクラス間距離との相対的な差分を増大させるだけであり、絶対的な最小のクラス間距離を最大化するものではない。従って、本開示は、以下の数式(8)で示されるように、改良された損失関数LAを提案する。
【0036】
【数8】
数式(7)と比べて、数式(8)には、
(外3)
という項が追加されている。ここで、m
2は他の所定のマージン値である。この項は、絶対的な最小のクラス間距離を最大化するために使用される。1つの追加的なハイパーパラメータm
2を必要とするが、本開示に係る損失関数L
Aは、異なるクラスに対応する特徴をより良好に分離することができる。
【0037】
以下は、
図3を参照しながら、本開示に係るオブジェクト検出ニューラルネットワークの訓練方法を詳細に説明する。
図3に示すように、オブジェクト検出ニューラルネットワーク300にソースドメイン画像X
S及びターゲットドメイン画像X
Tが入力され、オブジェクト検出ニューラルネットワーク300は、入力された画像について、異なるサイズを有するアンカーボックス特徴を抽出し、抽出された特徴に基づいて、ソースドメイン及びターゲットドメインのそれぞれについてのオブジェクト検出予測結果P
S及びP
Tを生成する。ソースドメイン画像X
SはラベルY
Sを有するため、ラベルY
S及び予測結果P
Sに基づいて、ソースドメイン画像についての検出損失L
Sを計算することができる。検出損失L
Sは、分類損失L
cls_s及び位置損失L
loc_sを含んでもよい。一例として、分類損失L
cls_sは、交差エントロピー損失関数を含んでもよく、位置損失L
loc_sは、L1、L2又はsmooth L1損失関数を含んでもよい。
【0038】
ラベルなしのターゲットドメイン画像XTについて、予測結果PT及び予め生成された擬似ラベル(例えば、擬似ラベルデータベースに記憶される)に基づいて、ターゲットドメイン画像についての検出損失LTを計算してもよい。検出損失LTは、分類損失Lcls_t及び位置損失Lloc_tを含んでもよい。一例として、分類損失Lcls_tは、交差エントロピー損失関数を含んでもよく、位置損失Lloc_tは、L1、L2又はsmooth L1損失関数を含んでもよい。
【0039】
従って、本開示に係る訓練における総損失関数Lは、以下の数式(9)で表されてもよい。
【0040】
【数9】
ここで、L
Sはソースドメイン画像についての検出損失関数を表し、L
Tはターゲットドメイン画像についての検出損失関数を表し、L
Aはアンカーボックス特徴アライメント損失関数を表し、α
1、α
2及びα
3は対応する損失関数に適用される重み付け係数を表す。
【0041】
一方、
図3は、動的自己訓練によりターゲットドメイン画像の擬似ラベルを生成することも示している。
図3に示すように、現在の入力されたターゲットドメイン画像X
Tについて、予測結果P
T、所定の信頼度閾値及びIOU閾値に基づいて、非極大値抑制(NMS:Non-Maximum Suppression)アルゴリズムを用いて、該ターゲットドメイン画像X
Tの擬似ラベルを生成する。
【0042】
具体的には、以下のステップを実行することによってNMSアルゴリズムを実行してもよい。
【0043】
まず、現在入力されたターゲットドメイン画像における前景(即ちオブジェクト)として予測された全てのアンカーボックスを信頼度の高い順にソートする。信頼度は、該アンカーボックスがオブジェクトに対応する予測確率を意味する。そして、信頼度が所定の閾値よりも低いアンカーボックスを削除し、残ったアンカーボックスが第1の集合を形成する。
【0044】
次に、第1の集合から信頼度が最も高いアンカーボックスを選択して第2の集合に追加し、第1の集合から、選択されたアンカーボックスのカバー領域とのIOUが所定の閾値よりも大きいアンカーボックスを削除する。このステップは、第1の集合が空になるまで繰り返し実行される。この際に、第2の集合に含まれるボックスアンカーボックス及びその予測結果は、現在入力されたターゲットドメイン画像XTの擬似ラベルとされてもよい。
【0045】
以前に記憶された擬似ラベルを更新するように、現在入力されたターゲットドメイン画像X
Tについて擬似ラベルが生成された後、該擬似ラベルを擬似ラベルデータベースに記憶してもよい。特に、更新後の擬似ラベルは、後で入力される(例えば、訓練の次のラウンドで入力された)該ターゲットドメイン画像X
Tについて、検出損失L
T(
図3に示すように)を計算し、各クラスに対応するターゲットドメインアンカーボックス特徴集合(
図2に示すように)を決定するために使用される。現在入力されたターゲットドメイン画像X
Tについての検出損失L
Tを計算する際に使用される擬似ラベルは、依然として擬似ラベルデータベースから読み出された以前に記憶された擬似ラベルである。
【0046】
図4は、本開示に係るニューラルネットワークのドメイン適応訓練方法を示すフローチャートであり、
図5は、本開示に係るニューラルネットワーク及び訓練装置のモジュールを示すブロック図である。
【0047】
図4に示すように、ステップS410において、ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて該複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出する。このステップは、
図5に示すニューラルネットワークにおける特徴抽出部510により実行されてもよい。
【0048】
ステップS420において、抽出されたソースドメインアンカーボックス特徴に基づいて、ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成する。同様に、抽出されたターゲットドメインアンカーボックス特徴に基づいて、ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成する。このステップは、
図5に示すニューラルネットワークにおけるオブジェクト検出部520により実行されてもよい。
【0049】
次に、ステップS430において、該複数のサイズのうちの各サイズのアンカーボックス特徴(例えば、小アンカーボックス特徴)について、ソースドメイン画像のラベルに基づいて、該サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類する。同様に、ステップS440において、ターゲットドメイン画像の擬似ラベルに基づいて、該サイズを有する複数のターゲットドメインアンカーボックス特徴を、該複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類する。ステップS430及びS440は、
図5における特徴分類部530により実行されてもよい。
【0050】
次に、ステップS450において、同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、ドメイン間の特徴アライメントを実行する。このステップは、
図5における特徴アライメント部により実行されてもよい。
【0051】
ステップS460において、ラベル付きの次のソースドメイン画像及びラベルなしの次のターゲットドメイン画像を受信し、方法はステップS410に戻る。
【0052】
ステップS410~S460を繰り返し実行することによって、ソースドメイン画像についての予測損失関数L
S、ターゲットドメイン画像についての予測損失関数L
T及び特徴アライメント損失関数L
A基づいてニューラルネットワークを訓練する。訓練プロセスは、
図5における訓練部550により制御されてもよい。
【0053】
なお、本開示の訓練方法は、必ずしも
図4に示される順序で実行される必要がない。例えば、ステップS430とS440は同時に実行されてもよい。また、ステップS430~S450は、各サイズのアンカーボックス特徴について順次実行されてもよいし、各サイズのアンカーボックス特徴について並列に実行されてもよい。
【0054】
表1は、本開示に係る方法に従って訓練されたニューラルネットワークと、従来の方法に従って訓練されたモデルとの性能の比較を示す。テスト画像は道路画像であり、2つのターゲットドメイン(昼間画像と夜間画像)についてテストを行い、平均精度(Mean Average Precision:mAP)を評価指標として用いた。表1において、ソースドメインモデルは、ソースドメイン画像データ及びそのラベルを用いて訓練されたモデルを表す。該モデルは、ソースドメインテストセットでは最高の性能(99.8)を達成しているが、ターゲットドメインテストセット(昼間、夜間)では性能が大幅に低下している(77.6、48.6)。ターゲットドメインモデルは、ターゲットドメイン画像データ及びそのラベルを用いて訓練されたモデルを表す。このモデルの性能は、ターゲットドメインで達成可能な性能の上限を表す。残りの4つのモデルは、教師なしドメイン適応方法を用いて訓練されたモデルであり、ソースドメイン画像データ及びそのラベルと、ターゲットドメイン画像データ(ラベルを有しない)とを用いて訓練されたモデルである。表1から分かるように、本開示に係る方法(即ち、動的自己訓練+マルチサイズアンカーボックス特徴アライメント)により訓練されたモデルは、両方のターゲットドメインテストセットでは最良の性能を達成した。また、動的自己訓練方法は、静的自己訓練方法に比べてより良い性能を取得することができるため、動的自己訓練と組み合わせる場合、ドメイン間マルチサイズアンカーボックス特徴アライメント方法は、性能をさらに向上させることができる。
【0055】
【表1】
教師なしドメイン適応方法では、ターゲットドメインの検証セットが不足しているため、ターゲットドメインの検証セットを使用して最良の性能のモデルを選択することができない。この場合、訓練の安定性が重要である。訓練の安定性とは、訓練プロセスにおけるモデルの性能が安定的に向上し、最後の反復において得られたモデルの性能が訓練プロセス全体において達成されたモデルの最良の性能と略同一であることを意味する。
図6は、表1における4つの教師なしドメイン適応モデルに対する訓練の安定性を示す。ここで、横軸は、訓練のエポック数(epoch)を表し、縦軸は、mAP@0.5、即ち、IoUが0.5に設定された場合のmAPを表す。
図6の(a)は、昼間のターゲットドメインテストセットでの大きなオブジェクト検出に基づくものであり、(b)は、夜間のターゲットドメインテストセットでの大きなオブジェクト検出に基づくものである。
図6から分かるように、本開示に係るモデル(即ち、動的自己訓練+マルチサイズアンカーボックス特徴アライメント)は良好な訓練安定性を有する。
【0056】
以上は、具体的な実施形態を参照しながら、本開示に係る教師なしドメイン適応訓練方法を説明した。該方法は、以下の特徴を有する。
【0057】
(1)複数のサイズのアンカーボックスの特徴アライメントを行う。異なるサイズのアンカーボックス特徴は異なる豊富さの細部を含むため、同一のサイズのソースドメインアンカーボックス特徴とターゲットドメインアンカーボックス特徴とに対してアライメントを行うことは、細部情報を失うことはない。
【0058】
(2)動的自己訓練を行う。訓練プロセスにおいてターゲットドメイン画像の擬似ラベルを常に更新することによって、擬似ラベルの品質を高めることができる。
【0059】
(3)特徴分布アライメント方法を採用ことではなく、高品質の擬似ラベルに基づいてアンカーボックス特徴をポイントごとにアライメントを行う。同一のクラスのアンカーボックス特徴間の距離を縮小すると共に、異なるクラスのアンカーボックス特徴間の距離を拡大することができる。
【0060】
(4)各クラスの移動平均クラス中心を用いることで、欠落したクラス及び擬似ラベルのうちの誤ったラベルによる悪影響を軽減することができる。
【0061】
(5)アンダーサンプリングを行う。特定のクラスのアンカーボックス特徴に対してアンダーサンプリングを行うことによって、各クラス間のアンカーボックス特徴の不均衡の問題を軽減することができる。
【0062】
上記の実施例に係る方法は、ソフトウェア、ハードウェア、又はソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアに含まれるプログラムは、装置の内部又は外部に設置された記憶媒体に予め記憶されてもよい。一例として、実行中に、これらのプログラムはランダムアクセスメモリ(RAM)に書き込まれ、プロセッサ(例えばCPU)により実行されることで、本明細書で説明された各処理を実現する。
【0063】
図7は、本開示を実現可能なコンピュータのハードウェアの例示的な構成を示すブロック図である。該コンピュータのハードウェアは、本開示に係るオブジェクト検出ニューラルネットワークを訓練する装置の一例である。また、本開示に係るニューラルネットワークも該コンピュータハードウェアに基づいて実現されてもよい。
【0064】
図7に示すように、コンピュータ700では、中央処理装置(CPU)701、読み出し専用メモリ(ROM)702及びランダムアクセスメモリ(RAM)703がバス704により相互に接続されている。
【0065】
入力/出力インターフェース705は、バス704にさらに接続されている。入力/出力インターフェース705には、キーボード、マウス、マイクロフォンなどにより構成された入力部706、ディスプレイ、スピーカなどにより構成された出力部707、ハードディスク、不揮発性メモリなどにより構成された記憶部708、ネットワークインターフェースカード(ローカルエリアネットワーク(LAN)カード、モデムなど)により構成された通信部709、及び取り外し可能な媒体711をドライブするドライバ710が接続されている。取り外し可能な媒体711は、例えば磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリである。
【0066】
上記の構成を有するコンピュータにおいて、CPU701は、記憶部708に記憶されているプログラムを、入力/出力インターフェース705及びバス704を介してRAM703にロードし、プログラムを実行することにより、上記の方法を実行する。
【0067】
コンピュータ(CPU701)により実行されるプログラムは、パッケージ媒体である取り外し可能な媒体711に記録されてもよい。該パッケージ媒体は、例えば磁気ディスク(フロッピーディスクを含む)、光ディスク(コンパクトディスクリードオンリーメモリ(CD-ROM)、デジタルバーサタイルディスク(DVD)などを含む)、光磁気ディスク、又は半導体メモリにより形成される。また、コンピュータ(CPU701)により実行されるプログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送の有線又は無線の伝送媒体を介して提供されてもよい。
【0068】
取り外し可能な媒体711がドライバ710にインストールされると、プログラムは、入力/出力インターフェース705を介して記憶部708にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して通信部709で受信され、記憶部708にインストールされる。或いは、プログラムは、ROM702又は記憶部708に予めインストールされてもよい。
【0069】
コンピュータにより実行されるプログラムは、本明細書で説明する順序に従って処理を実行するプログラムであってもよいし、処理を並列的に実行し、或いは必要に応じて(例えば呼び出しの時に)処理を実行するプログラムであってもよい。
【0070】
本明細書で説明されている装置又はユニットは論理的なものであり、物理的な装置又はエンティティに限定されない。例えば、本明細書で説明されている各ユニットの機能は複数の物理エンティティにより実現されてもよいし、本明細書で説明される複数のユニットの機能は単一の物理エンティティにより実現されてもよい。また、1つの実施例で説明される特徴、構成要素、要素、ステップなどは、該実施例に限定されず、例えば、他の実施例に適用されてもよく、例えば他の実施例の特定の特徴、構成要素、要素、ステップなどの代わりに用いてもよいし、それと組み合わせてもよい。
【0071】
本開示の範囲は、本明細書に記載の具体的な実施例に限定されない。当業者により理解できるように、設計要求及び他の要因に応じて、本開示の原理及び要旨から逸脱することなく、本明細書の実施例に対して様々な修正又は変更を行ってもよい。本開示の範囲は、添付の特許請求の範囲及びその均等物により制限される。
【0072】
また、本開示は、上述の各実施例を含む実施形態に関し、更に以下の付記を開示するが、これらの付記に限定されない。
(付記1)
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法であって、
(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を含み、
ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練する、方法。
(付記2)
(e’)前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに含み、
ステップ(a)乃至(e)、(e’)及び(f)を繰り返し実行する、付記1に記載の方法。
(付記3)
信頼度閾値及びユニオン交差(IOU)閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成する、付記2に記載の方法。
(付記4)
ステップ(d)において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
ステップ(e’)において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定する、付記2に記載の方法。
(付記5)
ステップ(c)は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ(d)は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、付記1に記載の方法。
(付記6)
ステップ(c)において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ(d)において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに含み、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、付記1に記載の方法。
(付記7)
ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式
【0073】
【数10】
に従って前記特徴アライメント損失関数L
Aを構築し、
ここで、x
Sはソースドメインアンカーボックス特徴を表し、x
Tはターゲットドメインアンカーボックス特徴を表し、O
tはターゲットドメインアンカーボックス特徴の集合を表し、d(x
s,x
t)はソースドメインアンカーボックス特徴x
Sとターゲットドメインアンカーボックス特徴x
Tとのユークリッド距離の二乗を表し、
(外4)
、
(外5)
、y
sはソースドメインアンカーボックス特徴x
sのクラスラベルであり、kはターゲットドメインアンカーボックス特徴x
tのクラスラベルであり、m及びm
2はハイパーパラメータである、付記1に記載の方法。
(付記8)
抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してL2正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ(c)~(f)を実行するステップ、をさらに含む、付記1に記載の方法。
(付記9)
オブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の装置であって、
プログラムが記憶されたメモリと、
1つ又は複数のプロセッサと、を含み、
前記プロセッサは、前記プログラムを実行することで、
(a)ラベル付きのソースドメイン画像に基づいて複数のサイズの複数のソースドメインアンカーボックス特徴を抽出し、ラベルなしのターゲットドメイン画像に基づいて前記複数のサイズの複数のターゲットドメインアンカーボックス特徴を抽出するステップと、
(b)抽出されたソースドメインアンカーボックス特徴に基づいて、前記ソースドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成し、抽出されたターゲットドメインアンカーボックス特徴に基づいて、前記ターゲットドメイン画像における対応するアンカーボックスについてオブジェクト検出の予測値を生成するステップと、
前記複数のサイズのうちの各サイズについて、
(c)前記ソースドメイン画像のラベルに基づいて、前記サイズを有する複数のソースドメインアンカーボックス特徴を、オブジェクトの複数のクラスにそれぞれ対応する複数のソースドメイン特徴集合に分類するステップと、
(d)前記ターゲットドメイン画像の擬似ラベルに基づいて、前記サイズを有する複数のターゲットドメインアンカーボックス特徴を、前記複数のクラスにそれぞれ対応する複数のターゲットドメイン特徴集合に分類するステップと、
(e)同一のクラスに対応するソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴とターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴との間の距離が小さくなるように、クラス内の距離を最小化し、且つクラス間の距離を最大化することによってドメイン間の特徴アライメントを実行するステップと、
(f)ラベル付きの他のソースドメイン画像及びラベルなしの他のターゲットドメイン画像を受信するステップと、を実行するように構成され、
前記プロセッサは、ステップ(a)乃至(f)を繰り返し実行することによって、ソースドメイン画像についての予測損失関数、ターゲットドメイン画像についての予測損失関数及び特徴アライメント損失関数を用いて前記ニューラルネットワークを訓練するように構成される、装置。
(付記10)
前記プロセッサは、
(e’)前記ターゲットドメイン画像の各アンカーボックスについて生成されたオブジェクト検出の予測値に基づいて、前記ターゲットドメイン画像の擬似ラベルを生成するステップ、をさらに実行するように構成され、
ステップ(a)乃至(e)、(e’)及び(f)を繰り返し実行する、付記9に記載の装置。
(付記11)
前記プロセッサは、信頼度閾値及びユニオン交差(IOU)閾値に基づいて、非極大値抑制アルゴリズムを用いて、各アンカーボックスの前記予測値から前記ターゲットドメイン画像の前記擬似ラベルを生成するように構成される、付記10に記載の装置。
(付記12)
ステップ(d)において使用される擬似ラベルは、前の処理において前記ターゲットドメイン画像について生成されたものであり、
前記プロセッサは、ステップ(e’)において生成された前記ターゲットドメイン画像の擬似ラベルを用いて、前に生成された前記ターゲットドメイン画像の擬似ラベルを更新し、後の処理において、更新後の擬似ラベルに基づいて前記ターゲットドメイン画像について前記ターゲットドメイン特徴集合を決定するように構成される、付記10に記載の装置。
(付記13)
ステップ(c)は、各ソースドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するソースドメイン特徴集合に追加するステップ、をさらに含み、
ステップ(d)は、各ターゲットドメイン特徴集合の移動平均クラス中心を計算し、算出された移動平均クラス中心を対応するターゲットドメイン特徴集合に追加するステップ、をさらに含み、
移動平均クラス中心が追加されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、付記9に記載の装置。
(付記14)
前記プロセッサは、
ステップ(c)において生成された各ソースドメイン特徴集合に含まれるソースドメインアンカーボックス特徴の数を所定値以内に制限するステップと、
ステップ(d)において生成された各ターゲットドメイン特徴集合に含まれるターゲットドメインアンカーボックス特徴の数を前記所定値以内に制限するステップと、をさらに実行するように構成され、
アンカーボックス特徴の数が制限されたソースドメイン特徴集合及びターゲットドメイン特徴集合に基づいてステップ(e)を実行する、付記9に記載の装置。
(付記15)
ソースドメイン画像のラベルに基づいてソースドメイン画像についての予測損失関数を構築し、ターゲットドメイン画像の擬似ラベルに基づいてターゲットドメイン画像についての予測損失関数を構築し、
数式
【0074】
【数11】
に従って前記特徴アライメント損失関数L
Aを構築し、
ここで、x
Sはソースドメインアンカーボックス特徴を表し、x
Tはターゲットドメインアンカーボックス特徴を表し、O
tはターゲットドメインアンカーボックス特徴の集合を表し、d(x
s,x
t)はソースドメインアンカーボックス特徴x
Sとターゲットドメインアンカーボックス特徴x
Tとのユークリッド距離の二乗を表し、
(外6)
、
(外7)
、y
sはソースドメインアンカーボックス特徴x
sのクラスラベルであり、kはターゲットドメインアンカーボックス特徴x
tのクラスラベルであり、m及びm
2はハイパーパラメータである、付記9に記載の装置。
(付記16)
前記プロセッサは、抽出されたソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に対してL2正則化をそれぞれ行い、正則化後のソースドメインアンカーボックス特徴及びターゲットドメインアンカーボックス特徴に基づいてステップ(c)~(f)を実行するステップ、をさらに実行するように構成される、付記9に記載の装置。
(付記17)
プログラムが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、前記プログラムがコンピュータにより実行される際に、前記コンピュータに付記1乃至8の何れかに記載のオブジェクト検出を実行するためのニューラルネットワークの教師なしドメイン適応訓練の方法を実行させる、記憶媒体。
【外国語明細書】