(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-08
(54)【発明の名称】トレーニング装置、分類装置、トレーニング方法、および分類方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20241031BHJP
【FI】
G06T7/00 300F
G06T7/00 350B
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024529952
(86)(22)【出願日】2021-11-30
(85)【翻訳文提出日】2024-05-21
(86)【国際出願番号】 JP2021043739
(87)【国際公開番号】W WO2023100215
(87)【国際公開日】2023-06-08
(81)【指定国・地域】
(71)【出願人】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103090
【氏名又は名称】岩壁 冬樹
(74)【代理人】
【識別番号】100124501
【氏名又は名称】塩川 誠人
(72)【発明者】
【氏名】タイ サンジョン
(72)【発明者】
【氏名】戸田 真人
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096HA09
5L096JA11
5L096KA04
(57)【要約】
特徴抽出部は、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出する。剛体変換部は、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成する。再照明部は、変換された構造特徴と変換パラメータとを参照して、変換パラメータで示されるビューで抽出される構造特徴に近似するように、新規ビューの特徴を生成する。クラス予測部は、ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測値を予測する。更新部は、特徴抽出部と再照明部とクラス予測部とのうちの少なくとも1つを更新する。
【特許請求の範囲】
【請求項1】
入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出する1つ以上の特徴抽出手段と、
変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成する剛体変換手段と、
前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成する1つ以上の再照明手段と、
前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行う1つ以上のクラス予測手段と、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する更新手段とを備える
トレーニング装置。
【請求項2】
前記更新手段は、以下の1つ以上の事項を参照して更新処理を実行する
請求項1記載のトレーニング装置。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【請求項3】
前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グルーピング損失、および前記変換損失を参照して、マージ損失を計算するマージ損失計算手段を備え、
前記更新手段は、前記マージ損失が収束していない場合に、1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
請求項2記載のトレーニング装置。
【請求項4】
ソースドメインクラス予測値、ソースドメインの新規ビューの特徴のソースドメインクラス予測値、およびソースドメインクラスラベルデータを参照して、前記ソースドメイン分類損失を計算し、前記ターゲットドメインクラス予測値、変換後の構造特徴のターゲットドメインクラス予測値、およびターゲットドメインクラスラベルデータを参照して、前記ターゲットドメイン分類損失を計算する分類損失計算手段を備える
請求項3記載のトレーニング装置。
【請求項5】
前記ソースドメイン構造特徴、変換後の前記ソースドメイン構造特徴、前記ターゲットドメイン構造特徴、変換後の前記ターゲットドメイン構造特徴から、同じクラスラベルを共有する特徴量を含むクラスグループを生成するグルーピング手段と、
前記グルーピング手段が生成したクラスグループを参照して、前記グルーピング損失を計算するグルーピング損失計算手段とを備える
請求項3または請求項4記載のトレーニング装置。
【請求項6】
前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴のうちの1つ以上の特徴を参照して、前記変換損失を計算する変換損失計算手段を備える
請求項3から請求項5のいずれかに記載のトレーニング装置。
【請求項7】
ターゲットドメインをソースドメインに整合させるためのドメイン整合処理を実行するドメイン整合手段と、
ソースドメインと前記ターゲットドメインとの間の距離に応じてドメイン整合損失を計算するドメイン整合損失計算手段とを備え、
前記マージ損失計算手段は、前記ドメイン整合損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記ドメイン整合手段を更新する
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項8】
最終的な分類目標に加えて副次的な目標も満足させるための補助タスクソルバと、
補助損失を計算する補助損失計算手段とを備え、
前記マージ損失計算手段は、前記補助損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記補助タスクソルバを更新する
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項9】
ソースドメイン特徴のマップにおける縁領域をマスクする構造特徴マスク手段と、
新規ビューの特徴のマップにおける縁領域をマスクする変換特徴マスク手段とを備える
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項10】
入力画像データから構造特徴を抽出する特徴抽出手段と、
特徴量からクラス予測値を予測するクラス予測手段とを備え、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている
分類装置。
【請求項11】
1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出し、
1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成し、
1つ以上の再照明手段を使用して、前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成し、
1つ以上のクラス予測手段を使用して、前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行い、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
トレーニング方法。
【請求項12】
更新処理を実行するときに、以下の1つ以上の事項を参照して、1つ以上の特徴抽出手段、1つ以上の再照明手段、および1つ以上のクラス予測手段の少なくとも1つを更新する
請求項11記載のトレーニング方法。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【請求項13】
前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グルーピング損失、および前記変換損失を参照して、マージ損失を計算し、
前記マージ損失が収束していない場合に、1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
請求項12記載のトレーニング方法。
【請求項14】
特徴抽出手段を使用して、入力画像データから構造特徴を抽出し、
クラス予測手段を使用して、特徴量からクラス予測値を予測し、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている
分類方法。
【請求項15】
トレーニングプログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記トレーニングプログラムは、コンピュータに、
1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出させ、
1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成させ、
1つ以上の再照明手段を使用して、前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成させ、
1つ以上のクラス予測手段を使用して、前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行わせ、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新させる。
【請求項16】
前記トレーニングプログラムは、コンピュータに、
更新処理を実行するときに、以下の1つ以上の事項を参照して、1つ以上の特徴抽出手段、1つ以上の再照明手段、および1つ以上のクラス予測手段の少なくとも1つを更新させる
請求項15記載のコンピュータ読み取り可能な記録媒体。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【請求項17】
分類プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記分類プログラムは、コンピュータに、
特徴抽出手段を使用して、入力画像データから構造特徴を抽出させ、
クラス予測手段を使用して、特徴量からクラス予測値を予測させ、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、トレーニング装置、分類装置、トレーニング方法、および分類方法に関する。
【背景技術】
【0002】
ニューラルネットワークは、膨大な数のパラメータを学習するために、大量のラベル付きデータを必要とする。大量のラベル付きデータを収集するには、費用と時間がかかる。その問題を解決するために、別のドメインの知識を新しいターゲットドメインに移すことが考えられる(例えば、非特許文献1参照)。
【0003】
分類器を例にすると、「ターゲットドメイン」は、分類器が対象とするドメインである。本明細書では、ターゲットドメインは、一例として、実際のSAR(Synthetic Aperture Radar)画像のセットである。別のドメインを「ソースドメイン」と呼ぶ。ソースドメインは、一例として、SAR画像化メカニズムに基づいてシミュレータが自動生成した模擬画像のセットである。しかし、ソースドメインの画像は、他の方法で取得することもできる。例えば、ソースドメインの画像は、数年前に得られた実際のSAR画像のセットでもよい。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Xiang Xu et al., "d-SNE: Domain Adaptation using Stochastic Neighborhood Embedding", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019
【発明の概要】
【発明が解決しようとする課題】
【0005】
d-SNEの使用により、ソースドメインにおける知識を、ターゲットドメインに転送することが可能になる。対象物をクラス1またはクラス2に分類する分類器を例にする。d-SNEによって、ターゲットドメインの画像における対象物は、ソースドメインの画像における同じカテゴリの対象物の特徴に基づいて、分類されうる。
【0006】
ソースドメインからターゲットドメインへ知識を安全に転送するには、ドメインギャップとクラス内分散という解決すべき2つの課題がある。まず、異なるドメインは、通常、データ収集条件の違いによって、画像解像度などの特性が異なる。このような特性の違いは、ドメインギャップを引き起こす。また、同じドメイン内でも、撮影角度の違いや照明条件などの他の要因によって、同じカテゴリから収集された対象物の画像が大きく異なって見えることがある。これがクラス内分散を引き起こす。未解決のいずれかの課題は、分類器が、テスト段階以降において、未だ扱われていないターゲットドメインの要因を持つ新しいターゲットドメインの画像を分類できなくなる原因となる。
【0007】
d-SNEは、ドメインギャップを縮小する際にクラス内分散を考慮しないため、上記の2つの課題を同時に解決することができない。一例として、画像解像度の違いによるドメインギャップを想定し、画像撮影角度の違いによるクラス内分散を想定する。ニューラルネットワークに基づく分類器は、ソースドメインの画像とターゲットドメインの画像の両方を用いて学習されることによって、ドメインギャップを小さくすることができる。しかし、トレーニング段階で利用可能なターゲットドメインの画像が非常に限られている場合、ソースドメインの画像には存在するがターゲットドメインのトレーニング画像には存在しない要因については、ドメインギャップを適切に最小化することができない。例えば、トレーニング段階では、ターゲットドメインには、クラス1の対象物の画像と、1つまたは2つの撮影角度で撮影されたクラス2の対象物の画像が少数しか含まれていない一方で、ソースドメインには、クラス1の対象物の画像と、様々な撮影角度で撮影されたクラス2の対象物の画像が多数含まれている可能性がある。この場合、ソースドメインには存在するがターゲットドメインには存在しない角度で撮影された画像間のドメインギャップを適切に減らすことができない。テスト段階では、少数のターゲットドメインの学習画像でカバーされていない、未だ扱われていない撮影角度でのターゲットドメインの対象物の画像は、正しく分類されない。これは、それらの撮影角度におけるドメインギャップが最小化されないため、それらの撮影角度において、ソースドメインからターゲットドメインに知識を安全に伝達することができないからである。d-SNEでは、ドメインギャップを最小化する際に、ターゲットドメインの学習画像で使用されている1つまたは2つの角度以外の角度で撮影された画像によるクラス内分散は考慮されない。
【0008】
その結果、未だ扱われていないターゲットドメインの要因を持つ新しい画像を、分類器がどのクラスに分類すべきかを決定することが困難になる。要因の例として、画像の撮影角度が想定される。また、照明条件など、クラス内分散に寄与する他の要因であってもよい。要因の違いが存在する場合、同じカテゴリの画像であっても撮影角度が異なれば、抽出される特徴量は互いに異なる。クラス内分散の最も単純な定義は、同じカテゴリからの特徴量の母平均からの偏差の二乗とすることができる。クラス内分散は、同じカテゴリの画像から抽出された特徴量間の、より複雑な分散として表現することもできる。
【0009】
ドメインギャップは、ドメインA(この例では、ターゲットドメイン)とドメインB(この例では、ソースドメイン)との間のデータ分布または特性の違いを意味する。例えば、収集されたデータセットはそれぞれ異なる特徴を持つ。特性の一例として、画像の解像度が想定される。特性は、異なるイメージセンサや異なるオブジェクトの背景など、ドメインギャップに寄与する可能性のある他のものでもよい。
【0010】
特性の違いが存在する場合、ドメインAに属する画像から抽出された平均的な特徴とドメインBに属する画像から抽出された平均的な特徴とは相違する。ドメインギャップの簡単な定義は、双方の平均値の間の距離として表現しうる。また、ドメインギャップは、異なるドメインのデータ分布間の、より複雑な距離として表現されうる。より具体的には、ドメインギャップは、最大平均不一致としても表すことができる。
【0011】
本発明の目的は、新たな要因が存在する対象領域において、その新たな要因が分類器によるターゲットドメインの学習データでは見たことがないものであっても、分類器が正しく分類することができるトレーニング装置、分類装置、トレーニング方法、および分類方法を提供することである。
【課題を解決するための手段】
【0012】
一態様のトレーニング装置は、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出する1つ以上の特徴抽出手段と、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成する剛体変換手段と、変換された構造特徴と変換パラメータとを参照して、変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成する1つ以上の再照明手段と、ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行う1つ以上のクラス予測手段と、ソースドメインのクラス予測値およびソースドメインの正解クラスラベルを参照して計算されたソースドメイン分類損失、ターゲットドメインのクラス予測値およびターゲットドメインの正解クラスラベルを参照して計算されたターゲットドメイン分類損失、ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴を参照して計算される変換損失、ならびにソースドメイン構造特徴、ソースドメインの新しいビューの特徴、ターゲットドメインの構造的特徴およびターゲットドメインの新規ビューの特徴を参照して計算されるグルーピング損失、から計算されるマージ損失を参照して、1つ以上の特徴抽出手段と、1つ以上の再照明手段と、1つ以上のクラス予測手段とのうちの少なくとも1つを更新する更新手段とを含む。
【0013】
一態様の分類装置は、入力画像データから構造特徴を抽出する特徴抽出手段と、特徴量からクラス予測値を予測するクラス予測手段とを備え、特徴抽出手段とクラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている。
【0014】
一態様のトレーニング方法は、1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出し、1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成し、1つ以上の再照明手段を使用して、変換された構造特徴と変換パラメータとを参照して、変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成し、1つ以上のクラス予測手段を使用して、ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行い、ソースドメインのクラス予測値およびソースドメインの正解クラスラベルを参照して計算されたソースドメイン分類損失、ターゲットドメインのクラス予測値およびターゲットドメインの正解クラスラベルを参照して計算されたターゲットドメイン分類損失、ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴を参照して計算される変換損失、ならびにソースドメイン構造特徴、ソースドメインの新しいビューの特徴、ターゲットドメインの構造的特徴およびターゲットドメインの新規ビューの特徴を参照して計算されるグルーピング損失、から計算されるマージ損失を参照して、1つ以上の特徴抽出手段と、1つ以上の再照明手段と、1つ以上のクラス予測手段とのうちの少なくとも1つを更新する。
【0015】
一態様の分類方法は、特徴抽出手段によって、入力画像データから構造特徴を抽出し、クラス予測手段によって、特徴量からクラス予測値を予測し、特徴抽出手段とクラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている。
【0016】
一態様のトレーニングプログラムは、コンピュータに、1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出させ、1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成させ、1つ以上の再照明手段を使用して、変換された構造特徴と変換パラメータとを参照して、変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成させ、1つ以上のクラス予測手段を使用して、ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行わせ、ソースドメインのクラス予測値およびソースドメインの正解クラスラベルを参照して計算されたソースドメイン分類損失、ターゲットドメインのクラス予測値およびターゲットドメインの正解クラスラベルを参照して計算されたターゲットドメイン分類損失、ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴を参照して計算される変換損失、ならびにソースドメイン構造特徴、ソースドメインの新しいビューの特徴、ターゲットドメインの構造的特徴およびターゲットドメインの新規ビューの特徴を参照して計算されるグルーピング損失、から計算されるマージ損失を参照して、1つ以上の特徴抽出手段と、1つ以上の再照明手段と、1つ以上のクラス予測手段とのうちの少なくとも1つを更新させる。
【0017】
一態様の分類プログラムは、コンピュータに、特徴抽出手段を使用して、入力画像データから構造特徴を抽出させ、クラス予測手段を使用して、特徴量からクラス予測値を予測させ、特徴抽出手段とクラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている。
【発明の効果】
【0018】
本発明によれば、分類器が、ターゲットドメインの学習データでは見たことがない要因があっても、その新たな要因が存在するターゲットドメインにおける対象物を正しく分類できるようになる。
【図面の簡単な説明】
【0019】
【
図1】第1の実施形態のトレーニング装置の構成例を示すブロック図である。
【
図2】第2の実施形態の分類装置の構成例を示すブロック図である。
【
図3】構造特徴および構造変換を説明するための説明図である。
【
図5】第3の実施形態のトレーニング装置の構成例を示すブロック図である。
【
図6】ターゲットドメインおよびソースドメインの入力データを説明するための説明図である。
【
図7】クロスドメイン位置合わせを説明するための説明図である。
【
図8】第3の実施形態のトレーニング装置の動作を示すフローチャートである。
【
図9】第4の実施形態の分類装置の構成例を示すブロック図である。
【
図10】第5の実施形態のトレーニング装置の構成例を示すブロック図である。
【
図11】第5の実施形態のトレーニング装置の動作を示すフローチャートである。
【
図12】第6の実施形態のトレーニング装置の構成例を示すブロック図である。
【
図13】第6の実施形態のトレーニング装置の動作を示すフローチャートである。
【
図14】第7の実施形態のトレーニング装置の構成例を示すブロック図である。
【
図15】第7の実施形態のトレーニング装置の動作を示すフローチャートである。
【
図16】CPUを有するコンピュータの一例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態を図面を参照して説明する。以下に説明する各実施形態では、画像として、SAR画像が想定される。しかし、画像は、SAR画像に限定されない。一例として、ソースドメインおよびターゲットドメインの画像は、例えば、スマートフォンで撮影された画像など、光学的な画像であってもよい。
【0021】
実施形態1.
図1は、第1の実施形態のトレーニング装置の構成例を示すブロック図である。
【0022】
図1に示すトレーニング装置10は、特徴抽出部11と、剛体変換部12と、再照明部13と、クラス予測部14と、更新部15とを備える。
図1には、1つの特徴抽出部11と、1つの剛体変換部12と、1つの再照明部13と、1つのクラス予測部14とが示されているが、複数の特徴抽出部11、剛体変換部12、再照明部13、クラス予測部14が設けられてもよい。
【0023】
特徴抽出部11は、入力されたソースドメインの画像データからソースドメインの構造を考慮した特徴(structural features)を抽出し、入力されたターゲットドメインの画像データからターゲットドメインの構造を考慮した特徴を抽出する。
【0024】
剛体変換部12は、構造特徴を変換パラメータを参照して変換することによって、構造的に変換された特徴を生成する。変換された構造特徴を、「変換された構造特徴(transformed structural features)」ということがある。
【0025】
再照明部13は、変換された構造特徴と変換パラメータとを参照して、新規ビューにおける入力画像データから抽出された構造特徴に近似するように、変換パラメータで示される新規ビューの特徴を生成する。
【0026】
クラス予測部14は、構造特徴からクラス予測を行う。
【0027】
更新部15は、1つ以上の特徴抽出部11のうちの少なくとも1つ、1つ以上の再照明部13のうちの少なくとも1つ、および、1つ以上のクラス予測部14のうちの少なくとも1つを更新する。更新に際して、更新部15は、以下の(1)~(4)の1つ以上を参照する。
【0028】
(1)ソースドメインクラスの予測値とソースドメイン正解クラスラベルとを参照して計算されたソースドメイン分類損失、
(2)ターゲットドメインクラスの予測値とターゲットドメイン正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
(3)ソースドメインの構造特徴、ソースドメインの新規ビュー特徴、ターゲットドメインの構造特徴、および、ターゲットドメインの新規ビュー特徴と関連する各機能の対応するクラスラベルから少なくとも1つ以上の特徴を参照して計算されたグルーピング損失、
(4)ソースドメインの構造特徴、ソースドメインの新規ビューの特徴、ターゲットドメインの構造特徴、およびターゲットドメインの新規ビュー特徴から少なくとも1つ以上の特徴を参照して計算された変換損失。
【0029】
次に、
図3および
図4を参照して、「構造特徴」および「構造特徴の変換」を説明する。
図3および
図4は、構造特徴および構造特徴の変換を説明するための説明図である。
【0030】
図3および
図4に示す例では、構造特徴抽出機能110は、眺め(ビュー)Aの画像500から対象物12Aの特徴点Paを抽出する。特徴点Paは、特徴PAを形成する。構造特徴抽出機能110は、眺めBの画像600から対象物12Bの特徴点Pbを抽出する。特徴点Pbは、特徴PBを形成する。一例として、特徴PA,PBは、3次元構造の特徴である。なお、構造特徴抽出機能110は、特徴抽出部11によって実現される。例えば、画像500および画像600は、ソースドメインに属する。対象物12A,12Bは、2次元平面に投影され、それぞれ、画像500,600を形成する。
図3および
図4に示す例では、対象物は、車両である。
【0031】
剛体変換部12と再照明部13とで構成される特徴変換器は、構造特徴変換を行う。具体的には、構造特徴変換は、眺めAにおける構造特徴を、眺めBにおける構造特徴に変換する。
【0032】
特徴点a1,a2は、隠れていて眺めAの画像500から復元できないとする。つまり、特徴点a1,a2以外の特徴点Paは復元可能である。また、特徴点b1~b5は、隠れていて眺めBの画像600から復元できないとする。つまり、特徴点b1~b5以外の特徴点Pbは復元可能である。
図3において、1つの特徴点Paにのみ符号が付されいるが、特徴点a1,a2以外の全ての特徴点Paは復元可能な特徴点である。また、1つの特徴点Pbにのみ符号が付されているが、特徴点b1~b5以外の全ての特徴点Pbは復元可能な特徴点である。
【0033】
剛体変換部12は、対象物12Aの方向が対象物12Bと同じ方向に向くように、全ての特徴点Paをz軸に沿って時計回りに回転させる。一例として、
図4では、60°が例示されている。剛体変換によって、特徴点Pa’が得られる。以下、剛体変換部12によるこの操作を、ビュー変更ということがある。剛体変換部12が、対象物12Aの方向が対象物12Bと同じ方向に向くように特徴点Paを回転させることは一例である。剛体変換部12は、任意の方向に対象物を移動させることができ、かつ、任意の角度で対象物を回転させることができる。具体的には、剛体変換部12は、例えば、入力される変換パラメータに従って剛体変換を行う。
【0034】
再照明部13は、剛体変換部12から受け取った変換パラメータと同じ変換パラメータに基づいて特徴点Pa’を修正し、変換特徴点Pa’’を生成する。変換特徴点Pa’’は、
図3に示すように眺めAにおける画像500から抽出できなかった
図4に示すような特徴点a1,a2を復元する。さらに、再照明部13は、
図4に一例として示した特徴点である各点の強度や色などの特性がビュー変更後にどのように変化すべきかを決定する。変換特徴点Pa’’は、上記の新規ビュー特徴に対応する。再照明部は、このような変換を、マッチング損失を最小にすることによって実行するように学習される。マッチング損失は、
図4に示すように、今や眺めBの変換特徴点Pa’’と、眺めBの画像600から抽出されるが変換されていない特徴点Pbとの差である。
【0035】
ソースドメイン内の多数の画像ペアを参照することにより、剛体変換部と再照明部とは、任意の入力ビューでの特徴を変換することによって、所望の眺めでの新規ビュー特徴を好適に出力でき、また、所望の眺めでの新規ビュー特徴は、変換を行わずに所望の眺めでの画像から直接抽出された特徴と非常に類似する。ここで、画像500および画像600は、ソースドメインからの画像である。構造的な知識は、ターゲットドメインの画像に対して構造特徴抽出部、剛体変換部および再照明部を適用することによって、ソースドメインからターゲットドメインに転送される。ターゲットドメインの構造特徴を変換することによって、ターゲットドメインでは利用できなかった新規ビューでの変換特徴点を作成できる。
【0036】
[本実施形態の技術的効果]
ソースドメインに属するデータは、ターゲットドメインに属するデータと比較して、データサイズが大きい。さらに、ソースドメインに属するデータは、ターゲットドメインに属するデータと比較して、より多くのラベル付きデータを含んでいる。「ラベル付きデータ」は、例えば、「正解ラベル」でラベル付けされたデータである。ラベル付きデータは、トレーニング装置によって、教師付き学習のためにも、半教師付き学習のためにも使用することができる。本実施形態では、外部データセット(すなわち、ソースドメイン)からの構造的知識をターゲットドメインに転送することにより、限られた数のターゲットドメインのデータだけでなく、外部データセットの豊富なデータを用いて、ターゲットドメインにおける一般的なデータに対する分類器を学習することが可能になる。その結果、分類の精度が向上する。
【0037】
実施形態2.
図2は、第2の実施形態の分類装置の構成例を示すブロック図である。
【0038】
図2に示す分類装置60は、特徴抽出部61とクラス予測部64とを備える。
【0039】
特徴抽出部61は、入力画像データから構造特徴を抽出する。クラス予測部64は、構造特徴からクラス予測値を予測する。特徴抽出部61とクラス予測部64とのうちの少なくとも一方は、トレーニング装置10によって、剛体変換部12と再照明部13を用いて構造特徴が変換して得られた新規ビューの特徴を参照して学習されている。
【0040】
[本実施形態の技術的効果]
本実施形態では、分類装置60は、例えば、撮影角度のバリエーションが限られたターゲットドメインの学習画像がある場合でも、好ましい分類処理を行うことができる。
【0041】
以下、具体的な実施形態を説明する。
【0042】
実施形態3.
[トレーニング装置の構成]
図5は、第3の実施形態のトレーニング装置の構成例を示すブロック図である。
【0043】
図5に示すトレーニング装置103は、第1特徴抽出部111と、第2特徴抽出部112と、第1剛体変換部121と、第2剛体変換部122と、第1再照明部131と、第2再照明部132と、第1クラス予測部141と、第2クラス予測部142と、更新部150とを備える。
【0044】
図5および他の図において、一方向性の矢印が用いられているが、一方向性の矢印は、データの流れを端的に表すためのものであって、双方向性を排除する意図はない。
【0045】
第1特徴抽出部111と第2特徴抽出部112とは、それぞれ、
図1に示された特徴抽出部11に対応する。第1剛体変換部121と第2剛体変換部122とは、それぞれ、
図1に示された剛体変換部12に対応する。第1再照明部131と第2再照明部132とは、それぞれ、
図1に示された再照明部13に対応する。第1クラス予測部141と第2クラス予測部142とは、それぞれ、
図1に示されたクラス予測部14に対応する。
【0046】
[特徴抽出部]
第1特徴抽出部111と第2特徴抽出部112とを、単一のセクションとして構成することができる。第1剛体変換部121と第2剛体変換部122とを、単一のセクションとして構成することができる。第1再照明部131と第2再照明部132とを、単一のセクションとして構成することができる。第1クラス予測部141と第2クラス予測部142とを、単一のセクションとして構成することができる。
【0047】
更新部150は、分類損失計算部151と、グルーピング部152と、グルーピング損失計算部153と、変換損失計算部154と、マージ損失計算部155と、モデル更新部156とを含む。
【0048】
第1特徴抽出部111には、ソースドメインに属する入力画像データ(ソースドメインの画像データ)I
Sが入力される。一例として、入力画像データI
Sは、複数の領域を有する画像であってもよい。また、他の例として、入力画像データI
Sは、
図6における左側に記載されているような画像のバッチであってもよい。
図6における左側に示す例では、入力画像データI
Sは、それぞれが物体を表す4つの画像(I
S1、I
S2、I
S3、I
S4)を含んでいる。
図6における左側に示された画像のバッチは、シミュレーションによって得られた画像の集まりである。しかし、ソースドメインの画像は様々な方法で得ることができる。例えば、既存のデータベースから取得することもできる。オンライン上には、科学的利用のために無料または有料で提供されている既存のデータセットが数多く存在する。
【0049】
画像IS1と画像IS2との関係は以下の通りである。画像IS2は、画像IS1とは異なる角度で撮影されている。一例として、画像IS2は、画像IS1とは異なる撮影角度で撮影された画像であるものの画像IS1と同じ被写体を含む画像、または画像IS1と同じクラスカテゴリの別の被写体を含む画像であってもよい。また、画像IS1とIS2とは、同時に撮影されてもよいし、異なるタイミングで撮影されてもよい。
【0050】
同様に、画像IS4は、画像IS3とは異なる角度を有している。一例として、画像IS4は、画像IS3とは異なる撮影角度で撮影された画像であるものの画像IS3と同じ被写体を含む画像、または画像IS3と同じクラスカテゴリの別の被写体を含む画像であってもよい。また、画像IS3と画像IS4とは、同時に撮影されてもよいし、異なるタイミングで撮影されてもよい。
【0051】
第1特徴抽出部111は、入力されたソースドメインの画像データISから、ソースドメインにおける特徴(ソースドメイン構造特徴)すなわちソースドメイン特徴量XSを抽出する。具体的には、第1特徴抽出部111は、ソースドメインに属する画像における対象物の特徴を、ソースドメイン特徴量として抽出する。第1特徴抽出部111によって抽出された特徴量(特徴)XSは、第1剛体変換部121、第1クラス予測部141、グルーピング部152、および変換損失計算部154に供給される。
【0052】
例えば、第1特徴抽出部111は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第1特徴抽出部111の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0053】
ソースドメイン特徴量XSは、ベクトルの形で表現されていてもよい。具体的には、一例として、XSは、以下のようなベクトルとして表現されてもよい。ただし、特徴量は、ベクトル以外の形式で表現されてもよい。
【0054】
XS = [xs1, xs2, xs3, xs4] ・・・(式1)
【0055】
XSは4つの成分を持ち、それぞれの入力画像(IS1、IS2、IS3、IS4)に対応する。なお、特徴量はベクトルで表すことができるので、特徴量を特徴量ベクトルと呼ぶことがある。
【0056】
第2特徴抽出部112には、ターゲットドメインに属する入力画像データ(ターゲットドメインの画像データ)I
Tが入力される。一例として、入力画像データI
Tは、複数の領域を有する画像であってもよい。また、他の例として、入力画像データI
Tは、
図6の右側に記載されているような画像のバッチであってもよい。
図6の右側に示す例では、入力画像データI
Tは、それぞれが物体を表す4つの画像(I
T1、I
T2、I
T3、I
T4)を含んでいる。
【0057】
画像IT1と画像IT2との関係は以下の通りである。画像IT2は、画像IT1とは異なる角度で撮影されている。一例として、画像IT2は、
画像IT1とは異なる撮影角度で撮影された画像であるものの画像IT1と同じ被写体を含む画像、または画像IT1と同じクラスカテゴリの別の被写体を含む画像であってもよい。また、画像IT1とIT2とは、同時に撮影されてもよいし、異なるタイミングで撮影されてもよい。
【0058】
同様に、画像IT4は、画像IT3とは異なる角度を有している。一例として、画像IT4は、画像IT3とは異なる撮影角度で撮影された画像であるものの画像IT3と同じ被写体を含む画像、または画像IT3と同じクラスカテゴリの別の被写体を含む画像であってもよい。また、画像IT3と画像IT4とは、同時に撮影されてもよいし、異なるタイミングで撮影されてもよい。
【0059】
第2特徴抽出部112は、入力されたターゲットドメインの画像データITから、ターゲットドメインにおける特徴すなわち特徴量(ターゲットドメイン特徴量)XTを抽出する。具体的には、第2特徴抽出部112は、ターゲットスドメインに属する画像における対象物の特徴を、ターゲットドメイン特徴量として抽出する。第2特徴抽出部112によって抽出された特徴量(特徴)XTは、第2剛体変換部122、第2クラス予測部142、グルーピング部152、および変換損失計算部154に供給される。
【0060】
例えば、第2特徴抽出部112は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第2特徴抽出部112の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0061】
ターゲットドメイン特徴量XTは、ベクトルの形で表現されていてもよい。具体的には、一例として、XTは、以下のようなベクトルとして表現されてもよい。ただし、特徴量は、ベクトル以外の形式で表現されてもよい。
【0062】
XT = [xT1, xT2, xT3, xT4] ・・・(式2)
【0063】
XTは4つの成分を持ち、それぞれの入力画像(IT1、IT2、IT3、IT4)に対応する。なお、特徴量はベクトルで表すことができるので、特徴量を特徴量ベクトルと呼ぶことがある。
【0064】
[剛体変換部]
第1剛体変換部121には、構造変換パラメータΘSが入力され、第1特徴抽出部111からソースドメイン特徴量XSが入力される。第1剛体変換部121は、ソースドメイン特徴量XSに対して剛体変換を施す。
【0065】
一例として、構造特徴量が3次元位置(例えば、座標)で表される場合、構造変換パラメータΘSは、回転軸の方向と回転角度の情報を含む。この場合、第1剛体変換部121は、以下の演算を実行することによって剛体変換を行う。
【0066】
【0067】
式3において、x、y、zは、変換前の座標を示す。x’、y’、z’は、変換後の座標を示す。θは、回転角度を示す。式3の行列は、z軸を中心に物体を回転させる。しかし、実施形態では、式3-2または式3-3に示すように、x軸またはy軸の周りに対象物を回転させることが可能である。
【0068】
他の例として、構造特徴量がボクセルで表される場合、構造変換パラメータΘSは、回転軸の方向と回転角度の情報を含む。この場合、第1剛体変換部121は、各ボクセルを回転角度だけ回転させることによって剛体変換を行う。
【0069】
上記の例に限られず、種々の剛体変換方法が適用可能である。すなわち、第1剛体変換部121は、任意の剛体変換方法によって剛体変換を実行しうる。第1剛体変換部121は、変換された構造特徴を得る。
【0070】
第2剛体変換部122には、構造変換パラメータΘTが入力され、第2特徴抽出部112からターゲットドメイン特徴量XTが入力される。第2剛体変換部122は、ターゲットドメイン特徴量XTに対して剛体変換を施す。
【0071】
ターゲットドメイン特徴量XTを修正するときに、第2剛体変換部122は、第1剛体変換部121と同様に動作して、剛体変換を実行する。したがって、第2剛体変換部122は、第1剛体変換部121と同様に、変換された構造特徴を得ることができる。
【0072】
[再照明部]
第1再照明部131には、構造変換パラメータΘSが入力される。また、第1再照明部131には、第1剛体変換部121から、変換された構造特徴が入力される。第1再照明部131は、第1剛体変換部121からの変換された構造特徴を修正する。
【0073】
第1再照明部131は、各空間位置における、明るさ、RGBカラー、標準などの特性を計算する。構造特徴が3D点群の場合には、すべてのx,y,z座標が1つの空間位置となり、構造特徴がボクセルの集合の場合には、各ボクセルが1つの空間位置になる。また、各点またはボクセルのプロパティの新しい値は、変換パラメータ、プロパティの元の値、および点またはボクセルの新しい位置に依存する。新しい値は、変換後の特徴点の構造特徴(変換後のソースドメイン構造特徴)に相当する。元の値は、変換前の特徴点の構造特徴に相当する。
【0074】
第1再照明部131は、上記の操作によって、ある眺めでの構造特徴に基づいて、他の眺めからの画像から抽出されたかのような構造特徴を得ることができる。
【0075】
例えば、第1再照明部131は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第1再照明部131の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0076】
第2再照明部132には、構造変換パラメータΘTが入力される。また、第2再照明部132には、第2剛体変換部122から、変換された構造特徴が入力される。第2再照明部132は、第2剛体変換部122からの変換された構造特徴を修正する。
【0077】
第2再照明部132は、各空間位置における、明るさ、RGBカラー、標準などの特性を計算する。構造特徴が3D点群の場合には、すべてのx,y,z座標が1つの空間位置となり、構造特徴がボクセルの集合の場合には、各ボクセルが1つの空間位置になる。また、各点またはボクセルのプロパティの新しい値は、変換パラメータ、プロパティの元の値、および点またはボクセルの新しい位置に依存する。新しい値は、変換後の特徴点の構造特徴(変換後のターゲットドメイン構造特徴)に相当する。元の値は、変換前の特徴点の構造特徴に相当する。
【0078】
第2再照明部132は、上記の操作によって、ある眺めでの構造特徴に基づいて、他の眺めからの画像から抽出されたかのような構造特徴を得ることができる。
【0079】
例えば、第2再照明部132は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第2再照明部132の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0080】
[クラス予測部]
第1クラス予測部141は、第1特徴量抽出部111によって抽出されたソースドメイン特徴量XSと、第1再照明部131によって生成された変換後の特徴量(変換後のソースドメイン特徴量)X’Sとから、ソースドメインクラス予測値を予測する。
【0081】
具体的には、第1クラス予測部141は、ソースドメイン特徴量XSからソースドメインクラス予測値(クラス確率)PSを予測し、変換後のソースドメイン特徴量X’Sから変換後のソースドメインクラス予測値(クラス確率)CPSを予測する。
【0082】
例えば、第1クラス予測部141は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第1クラス予測部141の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0083】
変換後のソースドメインクラス予測値CPSとソースドメインクラス予測値PSとは、分類損失計算部151に供給される。
【0084】
例えば、第1クラス予測部141は、ソースドメイン特徴ベクトルXSの各成分をある閾値と比較して、ソースドメインクラス予測値PSを決定し、変換後のソースドメイン特徴ベクトルX’Sの各成分を同じ閾値または別の閾値と比較して、変換後のソースドメインクラス予測値CPSを決定する。
【0085】
具体的な例として、式1で示されるソースドメイン特徴ベクトルXSと、変換後のソースドメイン特徴ベクトルX’Sとから、第1クラス予測部141は、ソースドメインクラス予測値PSとソースドメインクラス予測値CPSとを、以下のように出力してもよい。
【0086】
PS = [0, 0, 1, 1] ・・・(式4)
CPS = [0, 0, 1, 1] ・・・(式5)
【0087】
PSは4つの成分を持ち、それらはソースドメイン特徴ベクトルXSの各成分に対応する。同様に、CPSは4つの成分を持ち、それらは変換後のソースドメイン特徴ベクトルX’Sのそれぞれの成分に対応する。なお、予測値はベクトルで表現することができるので、予測値を予測ベクトルと呼ぶこともある。
【0088】
第2クラス予測部142は、第2特徴量抽出部112によって抽出されたターゲットドメイン特徴量XTと、第2再照明部132によって生成された変換後の特徴量(変換後のターゲットドメイン特徴量)X’Tとから、ターゲットドメインクラス予測値を予測する。
【0089】
具体的には、第2クラス予測部142は、ターゲットドメイン特徴量XTからターゲットドメインクラス予測値(クラス確率)PTを予測し、変換後のターゲットドメイン特徴量X’Tから変換後のターゲットドメインクラス予測値(クラス確率)CPTを予測する。
【0090】
例えば、第2クラス予測部142は、畳み込みニューラルネットワーク(CNN)であってもよいし、リカレントニューラルネットワーク(RNN)であってもよいし、その他のニューラルネットワークや特徴量抽出器のいずれであってもよい。しかし、第2クラス予測部142の特定の構成は、本実施形態および以下の実施形態を限定しない。
【0091】
変換後のターゲットドメインクラス予測値CPTとターゲットドメインクラス予測値PTとは、分類損失計算部151に供給される。
【0092】
例えば、第2クラス予測部142は、ターゲットドメイン特徴ベクトルXTの各成分をある閾値と比較して、ターゲットドメインクラス予測値PTを決定し、変換後のターゲットドメイン特徴ベクトルX’Tの各成分を閾値または別の閾値と比較して、変換後のターゲットドメインクラス予測値CPTを決定する。
【0093】
具体的な例として、式2で示されるターゲットドメイン特徴ベクトルXTと、変換後のターゲットドメイン特徴ベクトルX’Tとから、第2クラス予測部142は、ターゲットドメインクラス予測値PTとターゲットドメインクラス予測値CPTとを、以下のように出力してもよい。
【0094】
PT = [0, 0, 1, 0] ・・・(式6)
CPT = [1, 0, 1, 0] ・・・(式7)
【0095】
PTは4つの成分を持ち、それらはターゲットドメイン特徴ベクトルXTの各成分に対応する。同様に、CPTは4つの成分を持ち、
【0096】
[分類損失計算部]
分類損失計算部151は、ソースドメインクラス予測値PSと変換後の予測値CPSのソースドメインクラス予測値とソースドメインクラスラベルデータYSを参照して、ソースドメイン分類損失(Loss_classification_S)を計算する。
【0097】
具体的には、分類損失計算部151は、ソースドメインクラス予測値PS、変換後の特徴量CPSのソースドメインクラス予測値、およびソースドメインクラスラベルデータYSを参照して、ソースドメイン分類損失を計算する。例えば、分類損失計算部151は、PSとYSとの間の不一致の度合い、CPSとYSとの間の不一致の度合いに応じて、ソースドメインの分類損失を計算する。
【0098】
具体的な例として、PSが式4で与えられ、CPSが式5で与えられ、YSが以下の式8で与えられる場合を考える。
【0099】
YS = [0, 0, 1, 1] ・・・(式8)
【0100】
分類損失計算部151は、PSの全ての成分がYSのそれぞれの対応する成分と一致し、CPSの全ての成分がYSのそれぞれの対応する成分と一致することから、ソースドメインの分類損失を以下のように計算する。
【0101】
Loss_classification_S = 0 ・・・(式9)
【0102】
また、分類損失計算部151は、ターゲットドメインクラス予測値PTと変換後の予測値CPTのターゲットドメインクラス予測値とターゲットドメインクラスラベルデータYTを参照して、ターゲットドメイン分類損失(Loss_classification_T)を計算する。
【0103】
具体的には、分類損失計算部151は、ターゲットドメインクラス予測値PS、変換後の特徴量CPSのターゲットドメインクラス予測値、およびターゲットドメインクラスラベルデータYSを参照して、ターゲットドメイン分類損失を計算する。
【0104】
具体的な例として、PTが式6で与えられ、CPTが式7で与えられ、YTが以下の式10で与えられる場合を考える。
【0105】
YT = [0, 0, 1, 1] ・・・(式10)
【0106】
分類損失計算部151は、PTの第4成分とYTの第4成分が一致せず、CPTの第1成分および第4成分がY
Tの対応する成分と一致しないため、以下のように対象領域の分類損失を計算する。
【0107】
Loss_classification_T = 3 ・・・(式11)
【0108】
[グルーピング部]
グルーピング部152は、ソースドメイン特徴量XS、変換後のソースドメイン特徴量X’S、ターゲットドメイン特徴量XT、変換後のターゲットドメイン特徴量X’Tから、同じクラスラベルを共有する特徴量を含むクラスグループを生成して出力する。
【0109】
クラスグループを、Gr0およびGr1とすると、Gr0は、特徴量が同じクラスラベル0を共有するクラスグループである。Gr1は、特徴量が同じクラスラベル1を共有するクラスグループである。
【0110】
[グルーピング損失計算部]
グルーピング損失計算部153は、グルーピング部152が生成したクラスグループを参照して、グルーピング損失(Loss_grouping)を計算する。
【0111】
例えば、グルーピング損失計算部153は、同一クラスの特徴量を参照して決定されたクラス内メトリクスと、異なるクラスの特徴量を参照して決定されたクラス間メトリクスとに基づいて、グルーピング損失を計算する。
【0112】
具体例として、グルーピング損失計算部153は、以下の式を用いてグルーピング損失を計算する。
【0113】
【0114】
この式は、クラス内距離の最大値とクラス間距離の最小値の差の平均値に、すべてのクラスグループGrのマージンを加えた値を計算する。各クラスグループgについて、最大クラス内距離は、グループg内の任意の2つの特徴値間の最大距離として計算され、最小クラス間距離は、一方の特徴値がグループgのものであり、他方の特徴値が異なるグループのものである任意の2つの特徴値間の最小距離として計算される。マージンは、各クラスグループにおけるクラス内距離の最大値とクラス間距離の最小値の差の許容最小値を示す。平均は、まずすべてのクラスグループの距離差にマージンを加えた値の合計をとり、その合計をクラスグループの数で割ることによって計算される。
【0115】
具体的には、式12によるグルーピング損失(Loss_grouping)の計算は、以下のように表すことができる。
【0116】
グルーピング損失計算部153は、まず、各クラスグループにおいて、特徴空間内で互いに最も離れている特徴値のペアを見つける。このようなペアは、クラス内ペアと呼ばれてもよい。各クラスのクラス内ペアの特徴量間の最大距離は、式12の「特徴量空間におけるクラス内距離の最大値」に相当する。
【0117】
グルーピング損失計算部153は、特徴量空間において、各クラスグループについて、互いに異なるクラスに属し、かつ互いに最も近い特徴量のペアを見つける。このようなペアは、クラス間ペアと呼ばれることがある。クラス間ペアの特徴量間の距離の最小値は、式12の「特徴量空間におけるクラス間距離の最小値」に相当する。
【0118】
そして、グルーピング損失計算部153は、各クラスグループについて、特徴空間におけるクラス内距離の最大値から特徴空間におけるクラス間距離の最小値を減算する。なお、グルーピング損失は、クラスグループ内の2つの特徴の間の距離または類似性を計算するための任意の方法によって計算されてもよい。例えば、グルーピング損失は、L1ノルム、L2ノルム、コサイン類似度、または、学習などを必要とする他の指標であってもよい。
【0119】
グルーピング損失計算部153は、マージンを加えてもよい。マージンを加えるとは、特徴空間におけるクラス内距離の最大値が特徴空間におけるクラス間距離の最小値よりも、少なくともある値だけ小さくしたいということである(例えば、マージン=1とすると、各クラスグループについて、特徴空間におけるクラス内距離の最大値が特徴空間におけるクラス間距離の最小値よりも1単位以上小さくなるようにする。)。
【0120】
なお、グルーピング損失計算部153は、各クラスグループについて上記の計算を行った後、すべてのクラスグループに亘る総和を取ってもよい。
【0121】
次に、グルーピング損失計算部153は、総和の結果を全クラスグループの数で割る。全てのクラスグループの数は、式12においてgで表される。
【0122】
なお、例えば、実特徴量と変換後の特徴量とで別々にグルーピング損失を求めてもよい。「実」は、第1剛体変換部121、第1再照明部131、第2剛体変換部122および第2再照明部132を経由しない実特徴量を参照して計算されたグループ化損失を意味する。「変換」は、第1剛体変換部121、第1再照明部131、第2剛体変換部122および第2再照明部132が生成した変換特徴量を参照して実特徴量から計算されたグルーピング損失を意味する。
【0123】
換言すれば、グルーピング損失計算部53は、XSとXTの組合からの特徴量に基づいて実特徴量のグルーピング損失を計算してもよい。グルーピング損失計算部53は、X’SとX’Tの組合からの特徴量に基づいて変換特徴量の別のグルーピング損失を計算してもよい(変換特徴量のみを含む)。
【0124】
あるいは、グループ損失は、望ましくない特徴が特定の条件に基づいてフィルタリングされた後に計算されてもよい。条件は、第1クラス予測部141および第2クラス予測部142によって与えられる予測の正しさに依存してもよいし、第1クラス予測部141および第2クラス予測部142によって与えられる予測の信頼度に依存してもよい。
【0125】
[変換損失計算部]
変換損失計算部154は、ソースドメイン特徴量XS、変換後のソースドメイン特徴量X’S、ターゲットドメイン特徴量XT、および変換後のターゲットドメイン特徴量X’Tを参照して、変換損失(Loss_conversion)を計算する。
【0126】
変換損失計算部154は、ソースドメイン特徴量XSと対応する変換後のソースドメイン特徴量X’Sとの間の差、およびターゲットドメイン特徴量XTと対応する変換後のターゲットドメイン特徴量X’Tとの間の差に基づいて、変換損失を計算する。
【0127】
例えば、変換損失計算部154は、下記の式に基づいて変換損失を計算する。
【0128】
【0129】
式13において、xS1, xS2, xS3, xS4は、それぞれ、ソースドメイン特徴量である。xS1とxS2'とは、同じ眺めからのものである。xS2とxS1'とは、同じ眺めからのものである。xS3とxS4'とは、同じ眺めからのものである。xS4とxS3'とは、同じ眺めからのものである。xT1, xT2, xT3, xT4は、それぞれ、ターゲットドメイン特徴量である。xT1とxT2'とは、同じ眺めからのものである。xT2とxT1'とは、同じ眺めからのものである。xT3とxT4'とは、同じ眺めからのものである。xT4とxT3'とは、同じ眺めからのものである。式13において、同一ビューの特徴量と同一ドメインにおける特徴量の差分を合計し、変換ロス(Loss_conversion)が算出される。
【0130】
[マージ損失計算部]
マージ損失計算部155は、ソースドメイン分類損失(Loss_classification_S)、ターゲットドメイン分類損失(Loss_classification_T)、グルーピング損失(Loss_grouping)、および変換損失(Loss_conversion)を参照して、マージ損失(Loss_merge)を計算する。
【0131】
例えば、マージ損失計算部155は、次のようにしてマージ損失を計算する。
【0132】
Loss_merge = αLoss_classification_S + βLoss_classification_T + γLoss_grouping + δLoss_conversion ・・・(式14)
【0133】
式14において、α、β、γ、δは、重み係数である。重みは、学習の進捗状況に応じて変化してもよい。例えば、初期の学習反復では、分類損失の重みが大きく、その後、学習反復数の増加に伴って重みが減衰する。また、学習が必要な重みであってもよい。
【0134】
[モデル更新部]
モデル更新部156は、マージ損失が収束したか否かを判断する。マージ損失が収束している場合、モデル更新部156は、モデルパラメータを記憶媒体に出力する。マージ損失が収束していない場合、モデル更新部156は、マージ損失計算部155で計算されたマージ損失を参照して、第1特徴抽出部111、第2特徴抽出部112、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142のモデルパラメータを更新する。
【0135】
例えば、モデル更新部156は、マージ損失が減少するように、モデルパラメータを更新する。一例として、モデル更新部156は、勾配バックプロパゲーション法に従ってモデルパラメータを更新する。
【0136】
モデル更新部156によって更新されたモデルパラメータは、第1特徴抽出部111、第2特徴抽出部112、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142に供給される。
【0137】
[本実施形態の技術的効果]
本実施形態では、モデル更新部156は、ソースドメイン分類損失とターゲットドメイン分類損失と変換損失に加えて、グルーピング損失を参照して、モデルパラメータを更新する。したがって、第3の実施形態では、ソースドメインの特徴とターゲットドメインの特徴は、好ましくは互いに重なり合い、一方で、異なるクラスに属する特徴は、好ましくは、特徴空間において各クラスごとに分離される。
【0138】
図7は、本実施形態で実現されるクロスドメイン位置合わせを模式的に示す説明図である。トレーニング装置では、グルーピング損失がマージ損失に含まれているため、学習が進むにつれて、
図7に示すように、ソースドメインの特徴とターゲットドメインの特徴は好ましくは互いに重なり合い、一方で、異なるクラスに属する特徴は、好ましくは特徴空間においてクラスごとに分離される。すなわち、本実施形態例では、特徴空間におけるクロスドメイン位置合わせが適切に実現される。
【0139】
その結果、対象ドメインのラベル付きデータが少ない場合でも、第2特徴抽出部112および第2クラス予測部142が適切に学習される。
【0140】
さらに、第1剛体変換部121は、構造変換パラメータΘSに従って、ソースドメイン特徴量XSを修正する。そして、第1再照明部131は、第1剛体変換部121による変換された構造特徴に基づいて、変換後のソースドメイン特徴量X’Sを生成する。第2剛体変換部122は、構造変換パラメータΘTに従って、ターゲットドメイン特徴量XTを修正する。そして、第2再照明部132は、第2剛体変換部122による変換された構造特徴に基づいて、変換後のターゲットドメイン特徴量X’Tを生成する。
【0141】
第1再照明部131は、ある眺めでの構造特徴に基づいて、構造変換パラメータで示される他の眺めからの画像から抽出されたかのような構造特徴を得ることができる。第2再照明部132は、ある眺めでの構造特徴に基づいて、構造変換パラメータで示される他の眺めからの画像から抽出されたかのような構造特徴を得ることができる。
【0142】
したがって、第1クラス予測部141および第2クラス予測部142が、様々な撮影角度に対して適切なクラス予測を行うことができるように学習することができる。
【0143】
[トレーニング装置の動作]
次に、
図8のフローチャートを参照して、トレーニング装置103の動作を説明する。
【0144】
トレーニング装置103は、初期モデルパラメータを受け取る(ステップS100)。初期モデルパラメータは、第1特徴量抽出部111、第2特徴量抽出部112、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142の初期モデルパラメータを含む。受け取った初期モデルパラメータは、第1特徴量抽出部111、第2特徴量抽出部112、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142に供給される。
【0145】
トレーニング装置103は、入力されたソースドメインデータを受け取る。すなわち、トレーニング装置103は、ソースドメインの画像データISと、画像データISに関連付けられたソースドメインのクラスラベルデータYSとを受け取る(ステップS101A)。
【0146】
第1剛体変換部121は、ソースドメイン構造変換パラメータΘSを受け取る(ステップS102A)。
【0147】
第1特徴量抽出部111は、ソースドメインの画像データISからソースドメイン特徴量XSを抽出する(ステップS111)。
【0148】
第1剛体変換部121は、構造変換パラメータΘSに基づいて、ソースドメイン特徴量(ソースドメイン構造特徴)XSに対して剛体変換を施す(ステップS121)。第1再照明部131は、構造変換パラメータΘTに基づいて、第1剛体変換部121からの変換された構造特徴を修正する(ステップS131)。
【0149】
第1クラス予測部141は、ソースドメイン特徴量XSからソースドメインクラス予測値(確率)PSを予測する(ステップS141)。
【0150】
トレーニング装置103は、入力されたターゲットドメインデータを受け取る。すなわち、トレーニング装置103は、ターゲットドメインの画像データITと、画像データITに関連付けられたターゲットドメインのクラスラベルデータYTとを受け取る(ステップS101B)。
【0151】
第2剛体変換部122は、ターゲットドメイン構造変換パラメータΘTを受け取る(ステップS102B)。
【0152】
第2特徴量抽出部112は、ターゲットンの画像データITからターゲットドメイン特徴量XTを抽出する(ステップS112)。
【0153】
第2剛体変換部122は、構造変換パラメータΘTに基づいて、ターゲットドメイン特徴量XSに対して剛体変換を施す(ステップS122)。第1再照明部131は、構造変換パラメータΘTに基づいて、第2剛体変換部122からの変換された構造特徴を修正する(ステップS132)。
【0154】
第2クラス予測部142は、ターゲットドメイン特徴量XTからターゲットスドメインクラス予測値(確率)PTを予測する(ステップS142)。
【0155】
分類損失計算部151は、変換後のソースドメイン特徴量CPSのソースドメインクラス予測値PSと、ソースドメインクラスラベルデータYSとを参照して、ソースドメイン分類損失(Loss_classification_S)を計算する(ステップS151)。また、分類損失計算部151は、ターゲットドメインクラス予測値PTと、変換後のターゲットドメイン特徴量CPTのターゲットドメインクラス予測値と、ターゲットドメインクラスラベルデータYTとを参照して、ターゲットドメイン分類損失(Loss_classification_T)を計算する(ステップS151)。
【0156】
グルーピング部142は、ソースドメイン構造特徴(ソースドメイン特徴量)XS、変換されたソースドメイン特徴量X’S、ターゲットドメイン構造特徴(ターゲットドメイン特徴量)XT、変換されたターゲットドメイン特徴量X’Tから、各クラスグループが同じクラスラベルを共有する特徴量を含むクラスグループを生成して出力する(ステップS152)。
【0157】
グルーピング損失計算部153は、グルーピング部152が生成したクラスグループを参照して、グルーピング損失(Loss_grouping)を計算する(ステップS153)。変換損失計算部154は、ソースドメイン特徴量XS、変換されたソースドメイン特徴量X’S、ターゲットドメイン特徴量XT、および変換されたターゲットドメイン特徴量X’Tを参照して、変換損失を計算する(ステップS154)。
【0158】
マージ損失計算部155は、ソースドメイン分類損失(Loss_classification_S)、ターゲットドメイン分類損失(Loss_classification_T)、グルーピング損失(Loss_grouping)、および、変換損失(Loss_conversion)を参照して、マージ損失(Loss_merge)を計算する(ステップS155)。マージ損失計算部155は、例えば、式14を用いてマージ損失を計算する。
【0159】
モデル更新部156は、マージ損失が収束したか否かを判定する(ステップS156)。合算された損失が収束している場合(ステップS156でYes)、処理はステップS158に進む。合算した損失が収束していない場合(ステップS156でNo)、処理はステップS157に進む。なお、モデル更新部156は、例えば、マージ損失を所定の閾値と比較して、マージ損失が収束したか否かを判定する
【0160】
モデル更新部156は、マージ損失計算部155によって計算されたマージ損失を参照して、第1特徴抽出部111、第2特徴抽出部11b、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142のモデルパラメータを更新する(ステップS157)。
【0161】
モデル更新部156は、第1特徴抽出部111、第2特徴抽出部11b、第1再照明部131、第2再照明部132、第1クラス予測部141、および第2クラス予測部142のモデルパラメータを記憶媒体(
図5において図示せず)に格納する。
【0162】
なお、ステップS151、ステップS152およびS153の処理と、ステップS154の処理との実行順序は、任意である。それらは、どのような順序で実行されてもよい。また、ステップS151、ステップS152およびS153の処理と、ステップS154の処理とが同時に実行されてもよい。
【0163】
実施形態4.
[トレーニング装置の構成]
図9は、第4の実施形態の分類装置の構成例を示すブロック図である。
【0164】
図9に示す分類装置70は、特徴抽出部61と剛体変換部62と再照明部63とクラス予測部64とを備える。特徴抽出部61およびクラス予測部64は、第2の実施形態におけるそれらと同じである。
【0165】
剛体変換部62は、
図5に示された第2剛体変換部122と同様に、ターゲットドメイン特徴量X
Tに対して剛体変換を施す。再照明部63は、第2再照明部132と同様に、ある眺めでの構造特徴に基づいて、他の眺めからの画像から抽出されたかのような構造特徴を得ることができる。
【0166】
剛体変換部62は、第2剛体変換部122と同様に動作する。すなわち、剛体変換部62は、ターゲットドメイン特徴量XTに対して剛体変換を施す。再照明部63は、第2再照明部132と同様に動作する。すなわち、再照明部63は、剛体変換部62からの変換された構造特徴を修正する。
【0167】
[本実施形態の技術的効果]
本実施形態では、分類装置70は、例えば、撮影角度のバリエーションが限られた学習画像がある場合でも、様々な撮影角度を持つ入力画像に対して適切なクラス予測を行う。ことができる。
【0168】
実施形態5.
[トレーニング装置の構成]
図10は、第5の実施形態のトレーニング装置の構成例を示すブロック図である。
図10に示すトレーニング装置104は、
図5に示された第3の実施形態のトレーニング装置103に、ドメイン整合(alignment)部211とドメイン整合損失計算部212とが追加された構成である。ただし、本実施形態では、マージ損失計算部155は、ドメイン整合損失もマージする。ドメイン整合(ドメイン位置合わせ)には様々なオプションを利用可能である。ドメイン整合部211は、ソースドメインとターゲットドメインとの間の最大平均不一致度(MMD)を計算するためのカーネルを選択するように実装することができ、ドメイン整合損失計算部212は、損失としてMMDを計算する。他の例として、ドメイン整合部211をドメイン判別部として実装し、ドメイン整合損失計算部212をドメイン混同(domain confusion)損失計算部として実装することも可能である。ここで、後者の実施例を以下に説明する。
【0169】
ドメイン整合部211は、ターゲットドメインとソースドメインとを整合するためのドメイン整合処理を行う。例えば、ドメイン整合部211は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、他のニューラルネットワーク、または特徴抽出器であってもよい。ただし、ドメイン整合部211の具体的な構成は、本実施形態および以下の実施形態に限定されない。
【0170】
例えば、ドメイン判別部としてのドメイン整合部211は、特徴量がソースドメインからのものであるかターゲットドメインからのものであるかを示すドメイン予測を行う。ドメイン整合部211は、第1特徴量抽出部111によって抽出されたソースドメイン特徴量XSと、第2特徴量抽出部112によって抽出されたターゲットドメイン特徴量XTとを受け取る。そして、ドメイン整合部211は、どのドメインに属するかに関する他の情報を参照することなく、ソースドメイン特徴量XSとターゲットドメイン特徴量XTとを識別する識別処理を行う。例えば、判別処理において、ドメイン整合部211は、各特徴について、その特徴がソースドメインからのものである確率を算出し、その特徴がターゲットドメインからのものである確率を算出し、確率の高い方のドメインラベルを特徴の予測ドメインラベルとして割り当てる。そして、判別処理の結果を出力する。なお、変換された特徴が判別処理に関与することも可能である。
【0171】
ソースドメイン特徴量XSに対する識別結果をDPSとする。ターゲットドメイン特徴量XTに対する識別結果をDPTとする。
【0172】
ドメイン整合損失計算部212は、ソースドメインとターゲットドメインとの間の距離(例えば、MMD)に応じてドメイン整合損失を計算する。ドメイン整合損失計算部212がドメイン混同損失計算部として動作する場合、ドメイン整合損失計算部212は、DPSとソースドメインラベルデータDSとの不一致の度合い、およびDPTとターゲットドメインラベルデータDTとの不一致の度合いに応じて、ドメイン整合損失を計算することもできる。不一致の度合いは、例えば、2値交差エントロピー誤差関数を用いて計算される。ドメイン整合損失計算部212は、例えば、双方の不一致の度合いの和をドメイン整合損失とする。
【0173】
本実施形態では、マージ損失計算部155は、以下のようにドメイン整合損失を計算する。
【0174】
Loss_merge = αLoss_classification_S + βLoss_classification_T + γLoss_grouping +δLoss_conversion - τLoss_domain_alignment ・・・(式15)
【0175】
式15において、Loss_domain_alignmentは、ドメイン整合損失を示す。τは、重み係数である。なお、ドメイン整合損失の前の符号はマイナスである。これは、モデル更新部156が、抽出された特徴量がドメイン整合部211による識別結果の精度を低下させる可能性があるように、第1特徴量抽出部111および第2特徴量抽出部112のモデルパラメータを更新することを意味する。換言すれば、モデル更新部156は、抽出された特徴量がドメイン整合部211を混同させる可能性があるように、第1特徴量抽出部111および第2特徴量抽出部112のモデルパラメータを更新する。
【0176】
学習時に、トレーニング装置104は、以下の処理を行う。まず、トレーニング装置104は、ドメイン整合部211が、ある特徴がソースドメインからのものであるか、ターゲットドメインからのものであるかを識別できるように、ドメイン整合部211を学習する。次に、トレーニング装置104は、学習したドメイン整合部211を混同させる可能性のある特徴量を抽出するように、第1特徴量抽出部111および第2特徴量抽出部112を学習する。トレーニング装置104は、以上の処理を繰り返す。
【0177】
なお、本実施形態では、ソースドメインとターゲットドメインの間のドメインギャップはさらに最小化される。すなわち、構造的知識を、ソースドメインからターゲットドメインに、より正確に伝達することができる。
【0178】
[トレーニング装置の動作]
次に、
図11のフローチャートを参照して、トレーニング装置104の動作を説明する。ステップS100~S154の処理およびステップSS156~S158の処理は、
図8に示された第3の実施形態のトレーニング装置104の動作と同じである。
【0179】
本実施形態では、ステップS211で、ドメイン整合部211は、判別処理を含む上述のドメイン整合処理を実行する。ドメイン整合損失計算部212は、ステップS212において、ドメイン整合部211による整合処理の結果に基づいて、ドメイン整合損失を計算する。
【0180】
ステップS155Bで、マージ損失計算部155は、ソースドメイン分類損失(Loss_classification_S)、ターゲットドメイン分類損失(Loss_classification_T)、グルーピング損失(Loss_grouping)、変換損失(Loss_conversion)および、ドメイン整合損失(Loss_domain_alignment)を参照して、マージ損失(Loss_merge)を計算する。マージ損失計算部155は、例えば、式15を用いてマージ損失を計算する。
【0181】
[本実施形態の技術的効果]
「ドメイン混同」(domain confusion)という手法導入されることによって、ソースドメイン、ターゲットドメイン、ターゲットドメインの特徴から生成された変換後のターゲットドメインの特徴である変換後のターゲット間のドメインギャップを小さくすることができる。
【0182】
実施形態6.
[トレーニング装置の構成]
図12は、第6の実施形態のトレーニング装置の構成例を示すブロック図である。
図12に示すトレーニング装置105は、
図5に示された第3の実施形態のトレーニング装置103に、補助タスクソルバ311と補助タスクソルバ312と補助損失計算部321と補助損失計算部322とが追加された構成である。ただし、本実施形態では、マージ損失計算部155は、補助損失もマージする。
【0183】
機械学習では、画像から抽出した特徴量の質がモデルの性能に大きく影響するので、最終的な分類目標だけでなく、副次的な目標も満足させることによって、より質の高い特徴を抽出できるようにすることが望ましい。
【0184】
本実施形態では、副次的な目標も満足させるための補助タスクを導入する。補助タスクソルバ311および補助タスクソルバ312は、補助タスクを解決する。補助タスクとして、種々のものが適用可能である。
【0185】
オプション1.
第1のオプションでは、画像から抽出された特徴が与えられると、その特徴から元の画像を復元することができる画像復元タスクが、補助タスクとして想定される。補助損失計算部321,322は、特徴量を入力とし、その特徴量から再構成された画像を出力する復号ニューラルネットワークで実現可能である。入力画像と再構成画像の間のピクセル単位の強度差を計算します。損失を最小化すると、再構成画像は入力画像とほぼ同じになる。つまり、画像から抽出された特徴は、わずかな情報しか失われていない、元の画像をうまく圧縮したものだということになる。
【0186】
具体的には、
図12に示すように、ソースドメイン構造特徴X
Sが第1特徴抽出部111から補助タスクソルバ311に入力される。変換後のソースドメイン構造特徴X
’Sが第1再照明部131から補助タスクソルバ311に入力される。
【0187】
補助タスクソルバ311は、入力画像データ(ソースドメインの画像データ)ISを参照して、ソースドメイン特徴量XSと変換後のソースドメイン構造特徴X’Sから再構成画像を作成する。例えば、補助タスクソルバ311は、第1の特徴抽出部111からのソースドメイン特徴量xS1と、第1再照明部131からの変換後のソースドメイン特徴xS2'とから、2つの再構成画像を生成する。補助タスクソルバ311によって生成された2つの再構成画像は、ソースドメインの特徴xS1が抽出された画像と非常によく似ている。特徴xS1とxS2'とは、同じ眺めにある。
【0188】
補助ラベルデータY’Sが補助損失計算部321に入力される。補助ラベルデータY’Sは、補助損失を計算するために用いられる。本オプションでは、補助ラベルデータY’Sは、入力画像である。補助損失計算部321は、補助ラベルデータY’Sと再構成画像との差分を計算して、補助損失としてのソースドメイン再構成損失(Loss_reconstruction_S)を得る。
【0189】
図12に示すように、ターゲットドメイン構造特徴X
Tが第2特徴抽出部112から補助タスクソルバ312に入力される。変換後のターゲットドメイン構造特徴X
’Tが第2再照明部132から補助タスクソルバ312に入力される。
【0190】
補助タスクソルバ312は、入力画像データ(ターゲットドメインの画像データ)ITを参照して、ターゲットドメイン特徴量XTと変換後のターゲットドメイン構造特徴X’Tから再構成画像を作成する。例えば、補助タスクソルバ312は、第2の特徴抽出部112からのターゲットドメイン特徴量xT1と、第2再照明部132からの変換後のターゲットドメイン特徴xT2'とから、2つの再構成画像を生成する。補助タスクソルバ312によって生成された2つの再構成画像は、ターゲットドメインの特徴xT1が抽出された画像と非常によく似ている。特徴xT1とxT2'とは、同じ眺めにある。
【0191】
補助ラベルデータY’Tが補助損失計算部322に入力される。補助ラベルデータY’Tは、補助損失を計算するために用いられる。本オプションでは、補助ラベルデータY’Tは、入力画像である。補助損失計算部322は、補助ラベルデータY’Tと再構成画像との差分を計算して、補助損失としてのターゲットドメイン再構成損失(Loss_reconstruction_T)を得る。
【0192】
本オプションでは、マージ損失計算部155は、以下のように補助損失を計算する。式16において、ηおよびξは、重み係数である。
【0193】
Loss_merge = αLoss_classification_S + βLoss_classification_T + γLoss_grouping +δLoss_conversion + ηLoss_reconstruction_S + ξLoss_reconstruction_T ・・・(式16)
【0194】
オプション2.
第2のオプションでは、画像から抽出された特徴が与えられると、その特徴量から画像の角度を推定することができる角度推定タスクが、補助タスクとして想定される。補助タスクソルバ321,322は、特徴量を入力とし、[-π,π]([-180゜,180゜])内の角度値を出力する角度推定ニューラルネットワークで実現可能である。
【0195】
具体的には、
図12に示すように、ソースドメイン構造特徴X
Sが第1特徴抽出部111から補助タスクソルバ311に入力される。変換後のソースドメイン構造特徴X
’Sが第1再照明部131から補助タスクソルバ311に入力される。
【0196】
補助タスクソルバ311は、ソースドメイン構造特徴XSと変換後のソースドメイン構造特徴X’Sとからソースドメイン角度予測値を予測する。
【0197】
補助ラベルデータY’Sが補助損失計算部321に入力される。補助ラベルデータY’Sは、補助損失を計算するために用いられる。本オプションでは、補助ラベルデータY’Sは、入力画像の真の角度である。補助損失計算部321は、ソースドメイン角度予測値と真の角度との差分を計算して、補助損失としてのソースドメイン角度予測損失(Loss_angle_prediction_S)を得る。
【0198】
補助損失(角度予測損失)が最小になると、推定された角度は、入力画像の真の角度とほぼ同じになる。これは、画像から抽出された特徴量が、入力画像のクラスの手がかりに加えて、角度の手がかりを持っていることを意味している。このように、より情報量の多い特徴を持つことで、最終的な目標である分類作業を容易にし、分類精度を向上させることができる。
【0199】
図12に示すように、ターゲットドメイン構造特徴X
Tが第2特徴抽出部112から補助タスクソルバ312に入力される。変換後のターゲットドメイン構造特徴X
’Tが第2再照明部132から補助タスクソルバ312に入力される。
【0200】
補助タスクソルバ312は、ターゲットドメイン構造特徴XTと変換後のターゲットドメイン構造特徴X’Tとからターゲットドメイン角度予測値を予測する。
【0201】
補助ラベルデータY’Tが補助損失計算部322に入力される。補助ラベルデータY’Tは、補助損失を計算するために用いられる。本オプションでは、補助ラベルデータY’Tは、入力画像の真の角度である。補助損失計算部322は、ターゲットドメイン角度予測値と真の角度との差分を計算して、補助損失としてのターゲットドメイン角度予測損失(Loss_angle_prediction_T)を得る。
【0202】
本オプションでは、マージ損失計算部155は、以下のように補助損失を計算する。式17において、η’およびξ’は、重み係数である。
【0203】
Loss_merge = αLoss_classification_S + βLoss_classification_T + γLoss_grouping +δLoss_conversion + η'Loss_angle_prediction_S + ξ'Loss_angle_prediction_T ・・・(式17)
【0204】
オプション3.
第3のオプションでは、変換されたドメインと変換されていないドメインが与えられたときに、ドメインギャップを最小化する変換混同(conversion confusion)タスクが、補助タスクとして想定される。
【0205】
本オプションでの「変換混同」の概念は、上記の第5の実施形態における「ドメイン混同」とほぼ同じである。「変換混同」は、「変換判別モジュール」が、変換されたドメインからの特徴と変換されていないドメインからの特徴とを区別するのに非常に優れていると考えられる。ここで、変換されたドメインは、ソースドメインから変換されたとターゲットドメインから変換された特徴とで構成され、変換されていないドメインは、ソースドメインからの変換されていない特徴とターゲットドメインからの変換されていない特徴とで構成される。しかし、本オプションでは、意図的に、「特徴抽出モジュール」が学習される。特徴抽出モジュールは、強力な「変換判別モジュール」でも変換されたドメインか変換されていないドメインかを判別できないほど混ざり合った特徴を抽出する。こうすることで、変換されたドメインと変換されていないドメインとのドメインギャップが最小化される。
【0206】
具体的には、
図12に示すように、ソースドメイン構造特徴X
Sが第1特徴抽出部111から補助タスクソルバ311に入力される。変換後のソースドメイン構造特徴X
’Sが第1再照明部131から補助タスクソルバ311に入力される。
【0207】
補助タスクソルバ311は、ソースドメイン構造特徴XSを変換するかしないかの判断を行う。具体的には、補助タスクソルバ311は、各特徴について、第1剛体変換部121および第1再照明部131によって変換された確率と、変換されていない確率とを計算し、確率の高い方の変換ラベルを予測値として使用する。
【0208】
補助ラベルデータY’Sが補助損失計算部321に入力される。補助ラベルデータY’Sは、補助損失を計算するために用いられる。本オプションでは、補助ラベルデータY’Sは、各特徴に対して、正解変換ラベルデータとして、「変換されたドメイン」または「変換されたドメイン」のいずれかである。補助損失計算部321は、補助ラベルデータY’Sを使用して、予測された変換ラベルと正解データの変換ラベルの対応関係を計算することによって、補助損失としての変換混同損失(Loss_conversion_confusion_S)を得る。変換混同損失を最適化することによって、変換されたドメインと変換されていないドメインとのギャップが最小化される。
【0209】
補助損失(変換混同損失)は、変換予測の正しさである。例えば、予測値は["non-converted", "converted"]であり、正解データラベルは["non-converted", "converted"]である。したがって、補助損失=1(精度=100%)である。しかし、この損失を最小限することが望まれる。つまり、予測が間違っていてほしいということが要望される。
【0210】
図12に示すように、ターゲットドメイン構造特徴X
Tが第2特徴抽出部112から補助タスクソルバ312に入力される。変換後のソースドメイン構造特徴X
’Tが第2再照明部132から補助タスクソルバ312に入力される。
【0211】
補助タスクソルバ312は、ターゲットドメイン構造特徴XTを変換するかしないかの判断を行う。具体的には、補助タスクソルバ312は、各特徴について、第2剛体変換部122および第1再照明部132によって変換された確率と、変換されていない確率とを計算し、確率の高い方の変換ラベルを予測値として使用する。
【0212】
補助ラベルデータY’Tが補助損失計算部322に入力される。補助ラベルデータY’Tは補助損失の計算に使用される。本オプションでは、補助ラベルデータY’Tは、各特徴に対して、正解変換ラベルデータとして、「変換されたドメイン」または「変換されていないドメイン」のいずれかである。補助損失計算部322は、補助ラベルデータY’Tを使用して、予測された変換ラベルと正解データの変換ラベルの対応関係を計算することによって、補助損失としての変換混同損失(Loss_conversion_confusion_T)を得る。
【0213】
本オプションでは、マージ損失計算部155は、以下のように変換損失を計算する。式18において、η’’およびξ’は、重み係数である。
【0214】
Loss_merge = αLoss_classification_S + βLoss_classification_T + γLoss_grouping +δLoss_conversion + η''Loss_conversion_confusion_S + ξ'Loss_conversion_confusion_T ・・・(式18)
【0215】
オプション1~3によれば、最終的な分類目標だけでなく副次的な目標も満足されるので、より質の高い特徴を抽出できる。
【0216】
[トレーニング装置の動作]
次に、
図13のフローチャートを参照して、トレーニング装置105の動作を説明する。ステップS100~S154の処理およびステップSS156~S158の処理は、
図8に示された第3の実施形態のトレーニング装置104の動作と同じである。なお、
図13に示す動作は、主として、上記のオプション1およびオプション2に着目した場合の動作である。
【0217】
ステップS311で、補助タスクソルバ311,312は、補助データを作成する。オプション1では、補助データは、再構成画像である。オプション2では、補助データは、角度予測値である。
【0218】
ステップS312で、補助損失計算部321,322は、補助損失を計算する。オプション1では、補助損失は、ソースドメイン再構成損失およびターゲットドメイン再構成損失である。オプション2では、補助損失は、ソースドメイン角度予測損失およびターゲットドメイン角度予測損失である。
【0219】
オプション3では、ステップS311で、補助タスクソルバ311,312は、構造特徴XS,XTを変換するかしないかの判断を行う。補助損失計算部321,322は、変換混同損失を計算する。
【0220】
ステップS155Cで、マージ損失計算部155は、ソースドメイン分類損失(Loss_classification_S)、ターゲットドメイン分類損失(Loss_classification_T)、グルーピング損失(Loss_grouping)、変換損失(Loss_conversion)および、補助損失を参照して、マージ損失(Loss_merge)を計算する。マージ損失計算部155は、例えば、式16、式17または式18を用いてマージ損失を計算する。
【0221】
実施形態7.
図14は、第7の実施形態のトレーニング装置の構成例を示すブロック図である。
図10に示すトレーニング装置104は、
図5に示された第3の実施形態のトレーニング装置103に、第1構造特徴マスク部411と第1変換特徴マスク部421と第2構造特徴マスク部412と第2変換特徴マスク部422とが追加された構成である。
【0222】
本実施形態は、構造特徴が、点の座標ではなく、特徴マップで表現されていることを前提とする。構造特徴を、点の座標ではなく、特徴マップとして表現した場合、剛体変換後には、境界部分の情報が失われてしまう。そこで、変換前の特徴量マップと変換後の特徴量マップとを比較可能にするために、境界での情報を落とすマスキングが実施される。これにより、分類の性能を向上させることができる。
【0223】
マスキングなしで剛体変換を行った場合、変換後にマップの境界に欠落した情報が生じる。したがって、変換を経ない構造特徴(非変換特徴)のマップと変換された特徴のマップとを直接比較すると、これらの欠落領域は、常にピクセル単位の差を大きくすることになる。変換後の特徴量マップと非変換後の特徴量マップの両方にマスクを適用することによって、欠落領域による誤差を解消することができる。
【0224】
第1構造特徴マスク部411は、ソースドメイン特徴XSのマップにおける縁領域をマスクする。第2構造特徴マスク部412は、ターゲットドメイン特徴XTのマップにおける縁領域をマスクする。第1変換特徴マスク部421は、第1剛体変換部121からの変換された構造特徴のマップにおける縁領域をマスクする。第2変換特徴マスク部422は、第2剛体変換部122からの変換された構造特徴のマップにおける縁領域をマスクする。
【0225】
[トレーニング装置の動作]
次に、
図15のフローチャートを参照して、トレーニング装置106の動作を説明する。ステップS100~S111の処理、ステップS141~S142の処理およびステップSS155~S158の処理は、
図8に示された第3の実施形態のトレーニング装置104の動作と同じである。本実施形態では、ステップS121の処理の前に、ステップS411の処理が実行され、ステップS131の処理の前に、ステップS421の処理が実行される。ステップS122の処理の前に、ステップS412の処理が実行され、ステップS132の処理の前に、ステップS422の処理が実行される。
【0226】
ステップS411,S412,S421,S422において、第1構造特徴マスク部411、第2構造特徴マスク部412、第1変換特徴マスク部421および第2変換特徴マスク部422は、各マップの縁部に対して上述したマスク処理を実行する。
【0227】
[本実施形態の技術的効果]
本実施形態では、変換損失計算部154が計算する変換損失の誤差を低減することができる。
【0228】
上記の実施形態における各構成要素は、1つのハードウェアで構成可能であるが、1つのソフトウェアでも構成可能である。また、各構成要素は、複数のハードウェアでも構成可能であり、複数のソフトウェアでも構成可能である。また、各構成要素のうちの一部をハードウェアで構成し、他部をソフトウェアで構成することもできる。
【0229】
上記の実施形態における各機能(各処理)を、CPU(Central Processing Unit)等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置(記憶媒体)に上記の実施形態における方法(処理)を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをCPUで実行することによって実現してもよい。
【0230】
図16は、CPUを有するコンピュータの一例を示すブロック図である。コンピュータは、トレーニング装置および分類装置に実装される。CPU1000は、記憶装置1001に格納されたプログラムに従って処理を実行することによって、上記の実施形態における各機能を実現する。すなわち、コンピュータは、プログラムに従って、
図1に示されたトレーニング装置における、特徴抽出部11、剛体変換部12、再照明部13、クラス予測部14、および更新部15の機能を実現できる。
【0231】
コンピュータは、プログラムに従って処理を実行することによって、
図5,
図10,
図12,
図14に示されたトレーニング装置における、第1特徴抽出部111、第2特徴抽出部112、第1剛体変換部121、第2剛体変換部122、第1再照明部131、第2再照明部132、第1クラス予測部141、第2クラス予測部142、更新部150、ドメイン整合部211、ドメイン整合損失計算部212、補助タスクソルバ311,312、補助損失計算部321,322、第1構造特徴マスク部411、第1変換特徴マスク部421、第2構造特徴マスク部412、および第2変換特徴マスク部422の機能を実現できる。
【0232】
コンピュータは、プログラムに従って処理を実行することによって、
図2および
図9に示された分類装置における、特徴抽出部61、剛体変換部62、再照明部63およびクラス予測部64の機能を実現できる。
【0233】
記憶装置1001は、例えば、非一時的なコンピュータ可読媒体(non-transitory computer readable medium)である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体(例えば、ハードディスク)、光磁気記録媒体(例えば、光磁気ディスク)、CD-ROM(Compact Disc-Read Only Memory)、CD-R(Compact Disc-Recordable)、CD-R/W(Compact Disc-ReWritable)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM)がある。
【0234】
また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。
【0235】
メモリ1002は、例えばRAM(Random Access Memory)で実現され、CPU1000が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ1002に、記憶装置1001または一時的なコンピュータ可読媒体が保持するプログラムが転送され、CPU1000がメモリ1002内のプログラムに基づいて処理を実行するような形態も想定しうる。
【0236】
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
【0237】
(付記1)入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出する1つ以上の特徴抽出手段と、
変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成する剛体変換手段と、
前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成する1つ以上の再照明手段と、
前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行う1つ以上のクラス予測手段と、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する更新手段とを備える
トレーニング装置。
【0238】
(付記2)前記更新手段は、以下の1つ以上の事項を参照して更新処理を実行する
付記1記載のトレーニング装置。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【0239】
(付記3)前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グルーピング損失、および前記変換損失を参照して、マージ損失を計算するマージ損失計算手段を備え、
前記更新手段は、前記マージ損失が収束していない場合に、1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
付記2記載のトレーニング装置。
【0240】
(付記4)ソースドメインクラス予測値、ソースドメインの新規ビューの特徴のソースドメインクラス予測値、およびソースドメインクラスラベルデータを参照して、前記ソースドメイン分類損失を計算し、前記ターゲットドメインクラス予測値、変換後の構造特徴のターゲットドメインクラス予測値、およびターゲットドメインクラスラベルデータを参照して、前記ターゲットドメイン分類損失を計算する分類損失計算手段を備える
付記3記載のトレーニング装置。
【0241】
(付記5)前記ソースドメイン構造特徴、変換後の前記ソースドメイン構造特徴、前記ターゲットドメイン構造特徴、変換後の前記ターゲットドメイン構造特徴から、同じクラスラベルを共有する特徴量を含むクラスグループを生成するグルーピング手段と、
前記グルーピング手段が生成したクラスグループを参照して、前記グルーピング損失を計算するグルーピング損失計算手段とを備える
付記3または付記4記載のトレーニング装置。
【0242】
(付記6)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴のうちの1つ以上の特徴を参照して、前記変換損失を計算する変換損失計算手段を備える
付記3から付記5のいずれかに記載のトレーニング装置。
【0243】
(付記7)ターゲットドメインをソースドメインに整合させるためのドメイン整合処理を実行するドメイン整合手段と、
ソースドメインと前記ターゲットドメインとの間の距離に応じてドメイン整合損失を計算するドメイン整合損失計算手段とを備え、
前記マージ損失計算手段は、前記ドメイン整合損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記ドメイン整合手段を更新する
付記1から付記6のいずれかに記載のトレーニング装置。
【0244】
(付記8)最終的な分類目標に加えて副次的な目標も満足させるための補助タスクソルバと、
補助損失を計算する補助損失計算手段とを備え、
前記マージ損失計算手段は、前記補助損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記補助タスクソルバを更新する
付記1から付記6のいずれかに記載のトレーニング装置。
【0245】
(付記9)ソースドメイン特徴のマップにおける縁領域をマスクする構造特徴マスク手段と、
変換された構造特徴のマップにおける縁領域をマスクする変換特徴マスク手段とを備える
付記1から付記6のいずれかに記載のトレーニング装置。
【0246】
(付記10)入力画像データから構造特徴を抽出する特徴抽出手段と、
特徴量からクラス予測値を予測するクラス予測手段とを備え、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている
分類装置。
【0247】
(付記11)1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出し、
1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成し、
1つ以上の再照明手段を使用して、前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成し、
1つ以上のクラス予測手段を使用して、前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行い、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
トレーニング方法。
【0248】
(付記12)更新処理を実行するときに、以下の1つ以上の事項を参照して、1つ以上の特徴抽出手段、1つ以上の再照明手段、および1つ以上のクラス予測手段の少なくとも1つを更新する
付記11記載のトレーニング方法。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【0249】
(付記13)前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グルーピング損失、および前記変換損失を参照して、マージ損失を計算し、
前記マージ損失が収束していない場合に、1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
付記12記載のトレーニング方法。
【0250】
(付記14)特徴抽出手段を使用して、入力画像データから構造特徴を抽出し、
クラス予測手段を使用して、特徴量からクラス予測値を予測し、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている
分類方法。
【0251】
(付記15)トレーニングプログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記トレーニングプログラムは、コンピュータに、
1つ以上の特徴抽出手段を使用して、入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出させ、
1つ以上の剛体変換手段を使用して、変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成させ、
1つ以上の再照明手段を使用して、前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成させ、
1つ以上のクラス予測手段を使用して、前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測を行い、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測を行わせ、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新させる。
【0252】
(付記16)前記トレーニングプログラムは、コンピュータに、
更新処理を実行するときに、以下の1つ以上の事項を参照して、1つ以上の特徴抽出手段、1つ以上の再照明手段、および1つ以上のクラス予測手段の少なくとも1つを更新させる
付記15記載のコンピュータ読み取り可能な記録媒体。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴とその対応するクラスラベル、ソースドメインの変換された構造特徴とそれらに対応するクラスラベル、前記ターゲットドメイン構造特徴とそれらに対応するクラスラベル、ターゲットドメインの変換された構造特徴とそれらに対応するクラスラベルを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの変換された構造特徴、前記ターゲットドメイン構造特徴、およびターゲットドメインの変換された構造特徴を参照して計算された変換損失。
付記14記載の記録媒体。
【0253】
(付記17)分類プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
前記分類プログラムは、コンピュータに、
特徴抽出手段を使用して、入力画像データから構造特徴を抽出させ、
クラス予測手段を使用して、特徴量からクラス予測値を予測させ、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている。
【0254】
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【符号の説明】
【0255】
10, 103-106 トレーニング装置
11 特徴抽出部
12 剛体変換部
13 再照明部
14 クラス予測部
15 更新部
60,70 分類装置
61 特徴抽出部
62 剛体変換部
63 再照明部
64 クラス予測部
111 第1特徴抽出部
112 第2特徴抽出部
121 第1剛体変換部
122 第2剛体変換部
131 第1再照明部
132 第2再照明部
141 第1クラス予測部
142 第2クラス予測部
150 更新部
151 分類損失計算部
152 グルーピング部
153 グルーピング損失計算部
154 変換損失計算部
155 マージ損失計算部
156 モデル更新部
211 ドメイン整合部
212 ドメイン整合損失計算部
311,312 補助タスクソルバ
321,322 補助損失計算部
411 第1構造特徴マスク部
412 第2構造特徴マスク部
421 第1変換特徴マスク部
422 第2変換特徴マスク部
【手続補正書】
【提出日】2024-05-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
入力されたソースドメインの画像データからソースドメイン構造特徴を抽出し、入力されたターゲットドメインの画像データからターゲットドメイン構造特徴を抽出する1つ以上の特徴抽出手段と、
変換パラメータを参照して構造特徴を剛体変換することによって、変換された構造特徴を生成する剛体変換手段と、
前記変換された構造特徴と前記変換パラメータとを参照して、前記変換パラメータで示されるビューで入力された画像データから抽出される構造特徴に近似するように、新規ビューの特徴を生成する1つ以上の再照明手段と、
前記ソースドメイン構造特徴とソースドメインの新規ビューの特徴からソースドメインのクラス予測
値を予測し、前記ターゲットドメイン構造特徴とターゲットドメインの新規ビューの特徴から、ターゲットドメインのクラス予測
値を予測する1つ以上のクラス予測手段と、
1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する更新手段とを備える
トレーニング装置。
【請求項2】
前記更新手段は、以下の1つ以上の事項を参照して更新処理を実行する
請求項1記載のトレーニング装置。
1)前記クラス予測手段が計算したソースドメインクラスの予測値とソースドメインの正解クラスラベルとを参照して計算されたソースドメイン分類損失、
2)前記クラス予測手段が計算したターゲットドメインクラスの予測値とターゲットドメインの正解クラスラベルとを参照して計算されたターゲットドメイン分類損失、
3)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴と、各々の特徴に対応するクラスラベルとを参照して計算されたグルーピング損失、
4)前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、ターゲットドメインの新規ビューの特徴からの1つ以上の特徴を参照して計算された変換損失。
【請求項3】
前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グルーピング損失、および前記変換損失を参照して、マージ損失を計算するマージ損失計算手段を備え、
前記更新手段は、前記マージ損失が収束していない場合に、1つ以上の前記特徴抽出手段と、1つ以上の前記再照明手段と、1つ以上の前記クラス予測手段とのうちの少なくとも1つを更新する
請求項2記載のトレーニング装置。
【請求項4】
ソースドメイン構造特徴の前記ソースドメインクラス予測値、ソースドメインの新規ビューの特徴のソースドメインクラス予測値、およびソースドメインクラスラベルデータを参照して、前記ソースドメイン分類損失を計算し、
ターゲットドメイン構造特徴のターゲットドメインクラス予測値、
ターゲットドメインの新規ビューの特徴のターゲットドメインクラス予測値、およびターゲットドメインクラスラベルデータを参照して、前記ターゲットドメイン分類損失を計算する分類損失計算手段を備える
請求項3記載のトレーニング装置。
【請求項5】
前記ソースドメイン構造特徴、
ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、
およびターゲットドメインの新規ビューの特徴から、同じクラスラベルを共有する特徴量を含むクラスグループを生成するグルーピング手段と、
前記グルーピング手段が生成したクラスグループを参照して、前記グルーピング損失を計算するグルーピング損失計算手段とを備える
請求項3または請求項4記載のトレーニング装置。
【請求項6】
前記ソースドメイン構造特徴、ソースドメインの新規ビューの特徴、前記ターゲットドメイン構造特徴、およびターゲットドメインの新規ビューの特徴のうちの1つ以上の特徴を参照して、前記変換損失を計算する変換損失計算手段を備える
請求項3から請求項5のいずれかに記載のトレーニング装置。
【請求項7】
ターゲットドメインをソースドメインに整合させるためのドメイン整合処理を実行するドメイン整合手段と、
ソースドメインと前記ターゲットドメインとの間の距離に応じてドメイン整合損失を計算するドメイン整合損失計算手段とを備え、
前記マージ損失計算手段は、前記ドメイン整合損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記ドメイン整合手段を更新する
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項8】
最終的な分類目標に加えて副次的な目標も満足させるための補助タスクソルバと、
補助損失を計算する補助損失計算手段とを備え、
前記マージ損失計算手段は、前記補助損失を参照して、前記マージ損失を計算し、
前記更新手段は、さらに、前記補助タスクソルバを更新する
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項9】
ソースドメイン特徴のマップにおける縁領域をマスクする構造特徴マスク手段と、
新規ビューの特徴のマップにおける縁領域をマスクする変換特徴マスク手段とを備える
請求項1から請求項6のいずれかに記載のトレーニング装置。
【請求項10】
入力画像データから構造特徴を抽出する特徴抽出手段と、
特徴量からクラス予測値を予測するクラス予測手段とを備え、
前記特徴抽出手段と前記クラス予測手段とのうちの少なくとも一方は、構造特徴を変換して得られる新規ビューの特徴を参照して学習されている
分類装置。
【国際調査報告】