(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-25
(45)【発行日】2024-12-03
(54)【発明の名称】モデル訓練装置、制御方法、及びプログラム
(51)【国際特許分類】
G06T 1/00 20060101AFI20241126BHJP
H04N 1/387 20060101ALI20241126BHJP
【FI】
G06T1/00 280
H04N1/387
(21)【出願番号】P 2023546668
(86)(22)【出願日】2021-09-10
(86)【国際出願番号】 JP2021033303
(87)【国際公開番号】W WO2023037494
(87)【国際公開日】2023-03-16
【審査請求日】2023-08-17
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100103894
【氏名又は名称】家入 健
(72)【発明者】
【氏名】井下 哲夫
(72)【発明者】
【氏名】中谷 裕一
【審査官】佐田 宏史
(56)【参考文献】
【文献】国際公開第2007/029443(WO,A1)
【文献】国際公開第2014/162690(WO,A1)
【文献】特開2016-095651(JP,A)
【文献】PARK, Taesung et al.,"Contrastive Learning for Unpaired Image-to-Image Translation",arXiv,米国,CORNELL UNIVERSITY,2020年08月20日,pp.1-29,https://arxiv.org/abs/2007.15651
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00,3/40,5/00
H04N 1/387
(57)【特許請求の範囲】
【請求項1】
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出
し、
前記訓練実行部は、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行部は、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、モデル訓練装置。
【請求項2】
前記訓練実行部は、前記パッチワイズ損失を、前記第1正例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1負例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、請求項
1に記載のモデル訓練装置。
【請求項3】
コンピュータによって実行される制御方法であって、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出
し、
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、制御方法。
【請求項4】
コンピュータに、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出
し、
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、プログラム。
【請求項5】
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、モデル訓練装置。
【請求項6】
コンピュータによって実行される制御方法であって、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、制御方法。
【請求項7】
コンピュータに、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、画像の変換を行うモデルを訓練する技術に関する。
【背景技術】
【0002】
入力された画像に基づいて別の画像を生成するモデル、すなわち、画像の変換を行うモデルが開発されている。例えば特許文献1には、馬の画像をシマウマの画像に変換するなどのように、入力画像を別のクラスの画像に変換するモデルが開示されている。このモデルは、画像から特徴マップを抽出するエンコーダと、エンコーダによって生成された特徴マップから画像を生成するジェネレータで構成されている。モデルの学習は、入力画像の正例領域から抽出される特徴量と出力画像の正例領域から抽出される特徴量との類似度が高いほど小さくなるように、かつ、入力画像の負例領域から抽出される特徴量と出力画像の正例領域から抽出される特徴量との類似度が高いほど大きくなるように算出される損失に基づいて行われる。
【先行技術文献】
【非特許文献】
【0003】
【文献】Taesung Park、Alexei A. Efros、Richard Zhang、Jun-Yan Zhu、「Contrastive Learning for Unpaired Image-to-Image Translation」、arXiv、arXiv:2007.15651、2020年8月20日
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1では、入力画像のうちのどの領域が正例領域として抽出されるのかが訓練に与える影響について、言及されていない。本開示は上記の課題に鑑みてなされたものであり、その目的の一つは、画像の変換を行うモデルを訓練するための新たな技術を提供することである。
【課題を解決するための手段】
【0005】
本開示の第1のモデル訓練装置は、第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行部は、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出する。
【0006】
本開示の第1の制御方法は、コンピュータによって実行される。当該制御方法は、第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行ステップにおいて、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出する。
【0007】
本開示の第1のコンピュータ可読媒体は、本開示の第1の制御方法をコンピュータに実行させるプログラムを格納している。
【0008】
本開示の第2のモデル訓練装置は、第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行部は、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
【0009】
本開示の第2の制御方法は、コンピュータによって実行される。当該制御方法は、第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行ステップにおいて、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
【0010】
本開示の第2のコンピュータ可読媒体は、本開示の第2の制御方法をコンピュータに実行させるプログラムを格納している。
【発明の効果】
【0011】
本開示によれば、画像の変換を行うモデルを訓練するための新たな技術が提供される。
【図面の簡単な説明】
【0012】
【
図1】モデル訓練装置によって訓練される画像変換モデルの構造を例示する図である。
【
図2】モデル訓練装置の動作の概要を例示する図である。
【
図3】パッチワイズ損失の概要について説明するための図である。
【
図4】モデル訓練装置の機能構成を例示するブロック図である。
【
図5】モデル訓練装置を実現するコンピュータのハードウエア構成を例示するブロック図である。
【
図6】モデル訓練装置によって実行される処理の流れを例示するフローチャートである。
【
図7】画像変換モデルを用いたデータ拡張の効果を例示する図である。
【
図8】画像上の部分領域と、その画像から得られる特徴マップとの関係を例示する図である。
【
図9】画像変換モデルと識別モデルとで構成される敵対的生成ネットワークを例示する図である。
【発明を実施するための形態】
【0013】
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶装置などに予め格納されている。さらに、特に説明しない限り、記憶部は、1つ以上の任意の数の記憶装置によって構成される。
【0014】
[実施形態1]
<概要>
図1は、実施形態1のモデル訓練装置によって訓練される画像変換モデル100の構造を例示する図である。画像変換モデル100は、入力画像10が入力されたことに応じて、出力画像20を出力する。入力画像10は、画像変換モデル100に対して入力される画像である。出力画像20は、画像変換モデル100から出力される画像である。
【0015】
画像変換モデル100は、「入力画像10として、第1環境下のシーンを表す画像が入力された場合に、出力画像20として、第1環境とは異なる第2環境下におけるそのシーンを表す画像を出力する」という処理を行うように訓練される。これにより、画像変換モデル100は、ある特定の環境下で撮像されたシーンの画像から、別の環境下で当該シーンが撮像された画像を擬似的に生成することができるようになる。
【0016】
例えば第1環境が昼間であり、第2環境が夜間であるとする。また、入力画像10が、特定の道路をカメラで撮像することで得られた画像であるとする。ここで、夜間の道路の様子は、全体的に暗いという点、車のライトや街灯などといった種々のライトが点灯しているという点、ライトに照らされている場所が他の場所と比較して明るいという点などにおいて、昼間の道路の様子とは異なる。画像変換モデル100は、このような夜間の道路の特徴を擬似的に再現するように、昼間の道路の様子が撮像された画像から、夜間の道路の様子が撮像された画像を生成する。これにより、例えば後述するように、データ拡張(data augmentation)を実現することができる。
【0017】
なお、環境は、昼間や夜間などといった時間帯に限定されない。例えば環境の他の例としては、天候に関する環境が挙げられる。例えば第1環境が晴れであり、第2環境が雨であるとする。この場合、画像変換モデル100は、晴天下のシーンを表す入力画像10から、雨天下のそのシーンを表す出力画像20を生成する。なお、雨の代わりに、雪などの天候を採用することもできる。
【0018】
画像変換モデル100は、特徴抽出モデル110及び画像生成モデル120という2つのモデルを含む。特徴抽出モデル110は、入力された画像から特徴マップを抽出するように訓練されるモデルである。ここで、画像から抽出される特徴マップは、画像に含まれる複数の部分領域それぞれから得られる特徴量の集合である。画像生成モデル120は、特徴マップから出力画像20を生成するように訓練されるモデルである。
【0019】
特徴抽出モデル110及び画像生成モデル120はいずれも、任意の種類の機械学習モデルとして構成される。例えば特徴抽出モデル110及び画像生成モデル120はいずれも、ニューラルネットワークで構成される。
【0020】
図2は、実施形態1のモデル訓練装置2000の動作の概要を例示する図である。ここで、
図2は、モデル訓練装置2000の概要の理解を容易にするための図であり、モデル訓練装置2000の動作は、
図2に示したものに限定されない。
【0021】
画像変換モデル100を訓練するため、モデル訓練装置2000は、第1環境下で撮像されたシーンを表す訓練画像50を複数取得する。モデル訓練装置2000は、各訓練画像50を用いて、以下の処理を行う。まずモデル訓練装置2000は、訓練画像50を画像変換モデル100に入力することで、訓練画像50の特徴マップである第1特徴マップ30、及び出力画像20を得る。さらにモデル訓練装置2000は、出力画像20を特徴抽出モデル110に入力することで、出力画像20の特徴マップである第2特徴マップ40を得る。モデル訓練装置2000は、第1特徴マップ30と第2特徴マップ40を用いて損失を算出し、算出した損失を利用して画像変換モデル100の訓練を行う。以下、第1特徴マップ30と第2特徴マップ40を用いて算出される損失のことを、パッチワイズ損失と呼ぶ。後述するように、画像変換モデル100の訓練には、パッチワイズ損失に加え、他の損失が利用されてもよい。
【0022】
パッチワイズ損失について、
図3を用いてその概要を説明する。
図3は、パッチワイズ損失の概要について説明するための図である。モデル訓練装置2000は、訓練画像50から、正例パッチ52及び負例パッチ54を抽出する。正例パッチ52及び負例パッチ54はいずれも、訓練画像50の一部の画像領域である。またモデル訓練装置2000は、出力画像20について、正例パッチ22を抽出する。正例パッチ22は、出力画像20の一部の画像領域のうち、正例パッチ52によって表される場所と同一の場所を表す領域である。以下、正例パッチ52、負例パッチ54、及び正例パッチ22の組み合わせをパッチセットと呼ぶ。モデル訓練装置2000は、パッチセットを1つ以上生成する。
【0023】
ここで、画像変換モデル100に入力された画像と画像変換モデル100から出力された画像では、第1環境下のシーンから第2環境下のシーンへの変換が行われているものの、これらの画像において互いに同一の場所を表すべき画像領域の間の類似度合いは、互いに異なる場所を表すべき領域の間の類似度合いよりも大きくなるべきであると考えられる。そこでモデル訓練装置2000は、第1特徴マップ30に含まれる特徴量のうちの正例パッチ52に対応する特徴量と、第2特徴マップ40に含まれる特徴量のうちの正例パッチ22に対応する特徴量との間の類似度が高いほど、パッチワイズ損失の大きさを小さくする。また、モデル訓練装置2000は、第1特徴マップ30に含まれる特徴量のうちの負例パッチ54に対応する特徴量と、第2特徴マップ40に含まれる特徴量のうちの正例パッチ22に対応する特徴量との間の類似度が高いほど、パッチワイズ損失の大きさを大きくする。
【0024】
ここで、モデル訓練装置2000は、訓練画像50の画像領域のうち、特定種別の物体を表す部分領域(以下、特定領域)から重点的に、正例パッチ52を抽出する。ここでいう「重点的」とは、特定領域から正例パッチ52が抽出されるケースが、それ以外の部分領域から正例パッチ52が抽出されるケースよりも多くなることを意味する。そのため例えば、特定領域から正例パッチ52が抽出される確率が、他の部分領域から正例パッチ52が抽出される確率も高くなるように、正例パッチ52の抽出が行われる。
【0025】
このように特定領域から重点的に正例パッチ52を抽出することにより、入力画像10によって表されるシーンの特徴のうち、特定種別の物体の特徴が特に高い精度で抽出されるように、特徴抽出モデル110を訓練することができる。よって、着目したい特徴の変換が特に高い精度で行われるように、画像変換モデル100を訓練することができる。
【0026】
例えば前述したように、昼間の道路のシーンを表す入力画像10から、夜間の道路の当該シーンを表す出力画像20が生成されるように、画像変換モデル100が訓練されるとする。そして、入力画像10や出力画像20において特に着目したい物体が車であるとする。この場合、モデル訓練装置2000は、訓練画像50から正例パッチ52を抽出する際、訓練画像50に含まれる画像領域のうち、車を表す部分領域から重点的に、正例パッチ52を抽出する。これにより、入力画像10によって表されるシーンについて、車の特徴が特に高い精度で抽出されるように、特徴抽出モデル110が訓練される。よって、昼間の道路のシーンを表す画像を夜間の当該シーンを表す画像に変換するという画像変換モデル100の処理において、昼間の車から夜間の車への変換が特に高い精度で行われるように、画像変換モデル100を訓練することができる。これにより、昼間の車から夜間の車への変換を高い精度で行うことができる画像変換モデル100を得ることができる。
【0027】
以下、本実施形態のモデル訓練装置2000について、より詳細に説明する。
【0028】
<機能構成の例>
図4は、実施形態1のモデル訓練装置2000の機能構成を例示するブロック図である。モデル訓練装置2000は、取得部2020及び訓練実行部2040を有する。取得部2020は、訓練画像50を複数取得する。訓練実行部2040は、訓練画像50を用いて画像変換モデル100の訓練を行う。具体的には、訓練実行部2040は、訓練画像50を画像変換モデル100に入力することで、第1特徴マップ30と出力画像20を得る。また、訓練実行部2040は、出力画像20を特徴抽出モデル110に入力することで、第2特徴マップ40を得る。訓練実行部2040は、第1特徴マップ30と第2特徴マップ40を用いてパッチワイズ損失を算出し、パッチワイズ損失を用いて画像変換モデル100のパラメータを更新する。
【0029】
ここで訓練実行部2040は、訓練画像50から正例パッチ52及び負例パッチ54を抽出する。また、訓練実行部2040は、出力画像20から正例パッチ22を抽出する。正例パッチ52は、訓練画像50に含まれる部分領域のうち、特定種別の物体を表す特定領域から重点的に抽出される。
【0030】
パッチワイズ損失は、第1特徴マップ30に含まれる特徴量のうちの正例パッチ52に対応する特徴量と、第2特徴マップ40に含まれる特徴量のうちの正例パッチ22に対応する特徴量との間の類似度が高いほど、その大きさが小さくなるように算出される。また、パッチワイズ損失は、第1特徴マップ30に含まれる特徴量のうちの負例パッチ54に対応する特徴量と、第2特徴マップ40に含まれる特徴量のうちの正例パッチ22に対応する特徴量との間の類似度が高いほど、その大きさが大きくなるように算出される。
【0031】
<ハードウエア構成の例>
モデル訓練装置2000の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、モデル訓練装置2000の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
【0032】
図5は、モデル訓練装置2000を実現するコンピュータ500のハードウエア構成を例示するブロック図である。コンピュータ500は、任意のコンピュータである。例えばコンピュータ500は、PC(Personal Computer)やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ500は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ500は、モデル訓練装置2000を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。
【0033】
例えば、コンピュータ500に対して所定のアプリケーションをインストールすることにより、コンピュータ500で、モデル訓練装置2000の各機能が実現される。上記アプリケーションは、モデル訓練装置2000の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体(DVD ディスクや USB メモリなど)から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。
【0034】
コンピュータ500は、バス502、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512を有する。バス502は、プロセッサ504、メモリ506、ストレージデバイス508、入出力インタフェース510、及びネットワークインタフェース512が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ504などを互いに接続する方法は、バス接続に限定されない。
【0035】
プロセッサ504は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又は FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ506は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス508は、ハードディスク、SSD(Solid State Drive)、メモリカード、又は ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
【0036】
入出力インタフェース510は、コンピュータ500と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース510には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
【0037】
ネットワークインタフェース512は、コンピュータ500をネットワークに接続するためのインタフェースである。このネットワークは、LAN(Local Area Network)であってもよいし、WAN(Wide Area Network)であってもよい。
【0038】
ストレージデバイス508は、モデル訓練装置2000の各機能構成部を実現するプログラム(前述したアプリケーションを実現するプログラム)を記憶している。プロセッサ504は、このプログラムをメモリ506に読み出して実行することで、モデル訓練装置2000の各機能構成部を実現する。
【0039】
モデル訓練装置2000は、1つのコンピュータ500で実現されてもよいし、複数のコンピュータ500で実現されてもよい。後者の場合において、各コンピュータ500の構成は同一である必要はなく、それぞれ異なるものとすることができる。
【0040】
<処理の流れ>
図6は、実施形態1のモデル訓練装置2000によって実行される処理の流れを例示するフローチャートである。取得部2020は、複数の訓練画像50を取得する(S102)。S104からS116は、所定の終了条件が満たされるまで繰り返し実行されるループ処理L1を構成する。S104において、訓練実行部2040は、終了条件が満たされているか否かを判定する。終了条件が満たされている場合、訓練実行部2040は、処理結果の出力を行う(S118)。一方、終了条件が満たされていない場合、訓練実行部2040は、まだループ処理L1の対象となっていない訓練画像50のうちの1つを選択する。ここで選択される訓練画像50を、訓練画像iと表記する。
【0041】
訓練実行部2040は、訓練画像iを画像変換モデル100に入力することで、第1特徴マップ30と出力画像20を得る(S106)。訓練実行部2040は、出力画像20を特徴抽出モデル110に入力することで、第2特徴マップ40を得る(S108)。訓練実行部2040は、正例パッチ52、負例パッチ54、及び正例パッチ22の組み合わせであるパッチセットを1つ以上生成する(S110)。訓練実行部2040は、第1特徴マップ30、第2特徴マップ40、及びパッチセットに基づいて、パッチワイズ損失を算出する(S112)。訓練実行部2040は、パッチワイズ損失を用いて画像変換モデル100を更新する(S114)。S116はループ処理L1の終端であるため、
図4の処理はS104に進む。
【0042】
ここで、ループ処理L1の終了条件、すなわち、画像変換モデル100の訓練の終了条件には、様々な条件を採用することができる。例えば終了条件は、「取得した全ての訓練画像50を対象としてループ処理L1が実行される」という条件である。その他にも例えば、終了条件は、「画像変換モデル100の訓練が収束する」という条件である。なお、機械学習モデルの訓練が収束したか否かを判定する技術には、既存の種々の技術を利用することができる。
【0043】
図6に示した処理の流れは例示であり、モデル訓練装置2000によって実行される処理の流れは
図6に示した流れに限定されない。例えば、1つの訓練画像50ごとにパッチワイズ損失を算出する代わりに、複数の訓練画像50ごとにまとめてパッチワイズ損失が算出されてもよい。この場合、ループ処理L1の最初で、1つではなく複数の訓練画像50が選択される。さらに、これら複数の訓練画像50それぞれについてS106からS110が行われる。そしてS112において、複数の訓練画像50それぞれから得られた第1特徴マップ30、第2特徴マップ40、及びパッチセットを利用して、パッチワイズ損失が算出される。
【0044】
<画像変換モデル100の利用例>
モデル訓練装置2000の有用性の理解を容易にするため、画像変換モデル100の利用シーンを例示する。ここで説明する利用シーンは例示であり、モデル訓練装置2000の利用シーンは以下で説明する例に限定されない。
【0045】
利用シーンとして、道路を撮像する監視カメラから得られたビデオデータが、車の監視に利用されるケースを想定する。車の監視は、監視装置を用いて、ビデオデータの各ビデオフレームから車を検出することによって行われる。監視装置は、画像から車を検出するように予め訓練された検出モデルを有する。
【0046】
ここで、画像における物体の見え方(物体の画像特徴)は、その物体が撮像された環境によって異なりうる。例えば、昼間に撮像された車と夜間に撮像された車とでは、その見え方が互いに異なる。また、晴天時に撮像された車と雨天時に撮像された車とでも、その見え方が互いに異なる。
【0047】
車の監視に利用される検出モデルは、このような環境の変化にロバストであることが好適である。すなわち、検出モデルは、時間帯や天候によらずに、各ビデオフレームから車を検出できるように訓練される必要がある。そのためには、様々な環境下で撮像された道路の画像を訓練画像として用いて、検出モデルを訓練する必要がある。
【0048】
この点、訓練画像を入手する容易さは、環境ごとに異なりうる。例えば、夜間は昼間と比較して車の数が少ないため、夜間の道路の車が撮像された画像は、昼間の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。また、晴れが多い場所では、雨や雪などといった晴天時以外の道路の車が撮像された画像は、晴天時の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。このように入手できる画像の数が環境ごとに異なることに起因し、監視カメラから入手できる画像だけを利用して検出モデルの訓練を行うと、夜間や雨天などといった環境下の車の検出精度が低くなってしまう。
【0049】
そこで、モデル訓練装置2000によって訓練された画像変換モデル100を利用して、入手が容易な環境の画像に基づくデータ拡張を行うことにより、入手が難しい環境の画像を擬似的に生成する。例えば画像変換モデル100が、昼間の道路における車の画像が入力画像10として入力されたことに応じて、夜間の道路における車の画像が出力画像20として出力されるように、モデル訓練装置2000によって予め訓練されているとする。
【0050】
図7は、画像変換モデル100を用いたデータ拡張の効果を例示する図である。
図7の上段は、画像変換モデル100によるデータ拡張を行わず、監視カメラから得られた画像だけを利用して検出モデルの訓練が行われるケースを表している。このケースでは、夜間の車が撮像された訓練画像の数が不十分であるため、夜間の車の検出精度が低くなってしまう。
【0051】
一方、
図7の下段は、画像変換モデル100によるデータ拡張が行われるケースを例示している。ユーザは、監視カメラから得られた昼間の道路における車の画像を画像変換モデル100に入力することで、夜間の道路における車を擬似的に表す画像を得る。こうすることによって、昼間の道路における車の画像と同等の数だけ、夜間の道路における車の画像を得ることができる。このように画像変換モデル100を利用して得た画像も訓練画像として用いて検出モデルの訓練を行うことで、夜間の車も精度良く検出できる検出モデルを生成することができる。すなわち、環境の変化にロバストな検出モデルを生成することができる。
【0052】
<訓練画像50の取得:S102>
取得部2020は、複数の訓練画像50を取得する(S102)。取得部2020が訓練画像50を取得する方法は様々である。例えば訓練画像50は、予め、モデル訓練装置2000から取得可能な態様で、任意の記憶装置に格納されている。この場合、取得部2020は、当該記憶装置から訓練画像50を読み出す。その他にも例えば、取得部2020は、他の装置から送信された訓練画像50を受信することで、訓練画像50を取得してもよい。
【0053】
<損失の算出方法:S112>
訓練実行部2040は、第1特徴マップ30、第2特徴マップ40、及びパッチセットに基づいて、パッチワイズ損失を算出する。第1特徴マップ30は、入力画像10に含まれる複数の領域それぞれについての特徴量を含んでいる。そこで訓練実行部2040は、正例パッチ52に対応する特徴量及び負例パッチ54に対応する特徴量を、第1特徴マップ30から抽出する。同様に、第2特徴マップ40は、出力画像20に含まれる複数の領域それぞれについての特徴量を含んでいる。そこで訓練実行部2040は、正例パッチ22に対応する特徴量を第2特徴マップ40から抽出する。そして、訓練実行部2040は、正例パッチ52に対応する特徴量、負例パッチ54に対応する特徴量、及び正例パッチ22に対応する特徴量を用いて、パッチワイズ損失を算出する。
【0054】
<<特徴量の抽出方法>>
入力画像の特定の部分領域についての特徴量を特徴マップから得る具体的な方法については、既存の手法を利用することができる。以下、この方法について簡単に説明する。
図8は、画像上の部分領域と、その画像から得られる特徴マップとの関係を例示する図である。この例において、特徴抽出モデル110は、入力画像10内の複数の部分領域に対してフィルタの畳み込み演算を行うように構成されている。
【0055】
特徴マップ200のセル210は、入力画像10の部分領域12に対してフィルタの畳み込み演算を行うことによって得られた特徴量を示す。そのため、部分領域12全体又はその内部の領域に対応する特徴量は、特徴マップ200のセル210から得ることができる。
【0056】
ここで、
図8において、入力画像10が訓練画像50であり、部分領域12が正例パッチ52であり、特徴マップ200が第1特徴マップ30であるとする。この場合、正例パッチ52に対応する特徴量は、第1特徴マップ30においてセル210に相当するセルから得ることができる。
【0057】
正例パッチ52に対応する特徴量が第1特徴マップ30のどのセルに含まれるのかは、訓練画像50における正例パッチ52の位置から特定することができる。そこで訓練実行部2040は、正例パッチ52に対応する第1特徴マップ30のセルを特定し、特定したセルから正例パッチ52に対応する特徴量を抽出する。
【0058】
同様に、負例パッチ54に対応する特徴量が第1特徴マップ30のどのセルに含まれるのかは、訓練画像50における負例パッチ54の位置から特定することができる。そこで訓練実行部2040は、負例パッチ54に対応する第1特徴マップ30のセルを特定し、特定したセルから負例パッチ54に対応する特徴量を抽出する。
【0059】
同様に、正例パッチ22に対応する特徴量が第2特徴マップ40のどのセルに含まれるのかは、出力画像20における正例パッチ22の位置から特定することができる。そこで訓練実行部2040は、正例パッチ22に対応する第2特徴マップ40のセルを特定し、特定したセルから正例パッチ22に対応する特徴量を抽出する。
【0060】
なお、特徴抽出モデル110は、入力画像10の各部分領域から、複数種類の特徴量を抽出するように構成されてもよい。例えば特徴抽出モデル110は、入力画像10に対し、複数のフィルタそれぞれについての畳み込み演算を行うように構成される。この場合、入力画像10の各部分領域の特徴量がフィルタごとに得られる。よって、
図8で例示した2次元のマップがフィルタごとに得られる。そこで訓練実行部2040は、各マップから正例パッチ52等の特徴量を抽出する。
【0061】
<<特徴量からパッチワイズ損失を算出する方法>>
訓練実行部2040は、各パッチセットについて、正例パッチ52に対応する特徴量、負例パッチ54に対応する特徴量、及び正例パッチ22に対応する特徴量の抽出を行う。そして、訓練実行部2040は、パッチセットごとに抽出されたこれらの特徴量を用いて、パッチワイズ損失を算出する。パッチワイズ損失には、例えば、非特許文献1に開示されている patchwise contrastive loss を利用することができる。以下、パッチワイズ損失の算出方法を具体的に例示する。
【0062】
1つのパッチセットについての損失は、例えば以下の式(1)で表されるクロスエントロピー損失として算出される。
【数1】
ここで、y(v,vp,vn) は、特徴量 v,vp,vn について算出されるクロスエントロピー損失を表す。v は正例パッチ22に対応する特徴量を表す。vp は正例パッチ52に対応する特徴量を表す。vn は負例パッチ54に対応する特徴量の集合を表す。τは、温度付きソフトマックにおける温度パラメータであり、予め定数が設定されている。N は負例パッチ54の総数を表す。vn_k は、k 番目の負例パッチ54に対応する特徴量を表す。ここで、記号「_」は下付き文字を表している。
【0063】
パッチセットが1つである場合、パッチワイズ損失は、上記式(1)で算出される。一方、1つのパッチセットが複数ある場合も考慮すると、パッチワイズ損失は以下の式(2)ように一般化できる。
【数2】
ここで、Loss_pw(S) は、パッチセットの集合 S を利用して得られるパッチワイズ損失を表す。s は1つのパッチセットを表す。v_sはパッチセット s の正例パッチ22に対応する特徴量を表す。vp_s はパッチセット s の正例パッチ52に対応する特徴量を表す。vn_sはパッチセット s の負例パッチ54に対応する特徴量の集合を表す。
【0064】
特徴抽出モデル110は、多段階の特徴抽出を行うように構成されていてもよい。例えばこのような特徴抽出モデル110としては、複数の畳み込み層を持つ畳み込みニューラルネットワークが挙げられる。複数の畳み込み層を持つ畳み込みニューラルネットワークにおいて、n 番目の畳み込み層は、(n-1)番目の畳み込み層から出力された (n-1)番目の特徴マップに対し、(n-1) 番目のフィルタの畳み込み演算を行うことで、n 番目の特徴マップを出力する(nは2以上の整数)。
【0065】
このように多段階の特徴抽出が行われる場合、最終的に得られる特徴マップである第1特徴マップ30や第2特徴マップ40だけでなく、途中段階で得られる特徴マップも、パッチワイズ損失の算出に利用することができる。すなわち、訓練画像50から得られる複数の特徴マップと、出力画像20から得られる複数の特徴マップとを、パッチワイズ損失の算出に利用することができる。
【0066】
例えば特徴抽出モデル110がn層の畳み込みニューラルネットワークである場合、各層から特徴マップを得ることで、n個の特徴マップを得ることができる。そして、正例パッチ52、負例パッチ54、及び正例パッチ22に対応する特徴量は、n個の特徴マップそれぞれから抽出することができる。そこで訓練実行部2040は、正例パッチ52、負例パッチ54、及び正例パッチ22に対応する特徴量を、n個の特徴マップそれぞれから抽出し、抽出した特徴量を用いてパッチワイズ損失を算出する。
【0067】
訓練画像50と出力画像20のそれぞれから得られる複数の特徴マップを利用してパッチワイズ損失を算出する場合、例えばパッチワイズ損失は以下の式(3)で表される。
【数3】
ここで、L は特徴抽出を行うレイヤの集合を表し、l は1つのレイヤを表す。v^l_s は、出力画像20が入力された特徴抽出モデル110の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ22に対応する特徴量である。vp^l_s は、訓練画像50が入力された特徴抽出モデル110の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ52に対応する特徴量である。vn^l_s は、訓練画像50が入力された特徴抽出モデル110の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の負例パッチ54に対応する特徴量の集合である。なお、記号「^」は
上付き文字を表している。
【0068】
また、前述したように、パッチワイズ損失は、複数の訓練画像50についてまとめて算出されてもよい。この場合、パッチワイズ損失は以下の式(4)で一般化することができる。
【数4】
ここで、X は訓練画像50の集合を表し、x は当該集合から選択された1つの訓練画像50を表す。
【0069】
<<その他の損失について>>
画像変換モデル100の訓練には、パッチワイズ損失に加え、以下で説明する敵対的損失(adversarial loss)をさらに利用することが好適である。この場合、前提として、画像変換モデル100と識別モデルとを用いて敵対的生成ネットワーク(GAN:Generative Adversarial Networks)が構成される。
図9は、画像変換モデル100と識別モデルとで構成される敵対的生成ネットワークを例示する図である。
【0070】
敵対的生成ネットワーク70は、画像変換モデル100と識別モデル80とで構成される。識別モデル80は、画像が入力されたことに応じて、その画像が画像変換モデル100によって生成された画像(すなわち、出力画像20)であるか否かを表すラベル90を出力するように訓練される。そのため、訓練済みの識別モデル80は、カメラで第2環境下のシーンを撮像することで得られた画像が入力されると、その画像が出力画像20ではないことを表すラベル90を出力する。また、訓練済みの識別モデル80は、画像変換モデル100によって生成された出力画像20が入力されると、その画像が出力画像20であることを表すラベル90を出力する。
【0071】
訓練実行部2040は、訓練画像50を画像変換モデル100に入力することで出力画像20を得た後、その出力画像20を識別モデル80に入力する。そして、訓練実行部2040は、識別モデル80から得られるラベル90を利用して、敵対的損失を算出する。ここで、敵対的生成ネットワークにおいて敵対的損失を算出する具体的な方法には、既存の方法を利用することができる。
【0072】
訓練実行部2040は、パッチワイズ損失と敵対的損失とを利用して、画像変換モデル100の訓練を行う。例えば訓練実行部2040は、パッチワイズ損失と敵対的損失の合計値や重み付き和を総合損失として算出し、総合損失を利用して敵対的生成ネットワーク70の訓練(特徴抽出モデル110、画像生成モデル120、及び識別モデル80の訓練)を行う。なお、総合損失には、パッチワイズ損失や敵対的損失以外の種類の損失がさらに含まれてもよい。
【0073】
損失を用いたモデルの訓練は、損失に基づいて、モデルを構成するパラメータを更新することで行われる。ここで、損失を利用して敵対的生成ネットワークを構成する各モデルのパラメータを更新する具体的な方法には、既存の方法を利用することができる。
【0074】
<パッチセットの生成:S110>
訓練実行部2040は、訓練画像50及び出力画像20についてパッチセットを生成する。前述したように、1つのパッチセットには、1つの正例パッチ52、1つ以上の負例パッチ54、及び1つの正例パッチ22が含まれる。例えば訓練実行部2040は、訓練画像50から正例パッチ52を抽出する処理を行った後、訓練画像50のうちの正例パッチ52以外の領域から1つ以上の負例パッチ54を抽出する処理、及び出力画像20から正例パッチ22を抽出する処理を行う。
【0075】
正例パッチ52は、特定種別の物体を含む訓練画像50の部分領域である特定領域から重点的に抽出される。そこで訓練実行部2040は、正例パッチ52の抽出に利用するために、訓練画像50から特定領域を検出する。ここで、訓練画像50から特定の種類の物体を表す領域を検出する技術には、既存の技術を利用することができる。
【0076】
特定種別は、予め定められていてもよいし、ユーザによって指定可能であってもよい。後者の場合、訓練実行部2040は、特定種別を表す情報を取得し、その情報に示されている特定種別を表す領域を、特定領域として検出する。特定種別を表す情報は、例えば、ユーザ入力の結果として得られる。
【0077】
以下、検出された特定領域に基づいて正例パッチ52を抽出する方法について、いくつか例示する。
【0078】
<<方法1>>
まず訓練実行部2040は、特定領域の中と外のどちらから正例パッチ52を抽出するのかを決定する。この決定は、特定領域の中から抽出される正例パッチ52の数が、特定領域の外から抽出される正例パッチ52の数よりも多くなるように行われる。このようにすることで、特定領域から重点的に正例パッチ52が抽出される。
【0079】
例えば上述の決定は確率的に行われる。このように2つの選択肢のうちの1つを確率的に選択する方法としては、例えば、ベルヌーイ分布から値をサンプルし、サンプル値に基づいて決定するという方法が考えられる。より具体的には、例えば、サンプル値が1である場合には特定領域の中から正例パッチ52が抽出され、サンプル値が0である場合には特定領域の外から正例パッチ52が抽出されるようにする。この際、サンプル値が1となる確率を50%より大きくすることにより、特定領域の中から抽出される正例パッチ52の数を、特定領域の外から抽出される正例パッチ52の数よりも確率的に多くすることができる。
【0080】
特定領域の中と外のどちらから正例パッチ52を抽出するのかを決定した後、訓練実行部2040は、当該決定に基づいて、正例パッチ52の抽出を行う。ここで、正例パッチ52のサイズ(以下、パッチサイズ)は予め定めておく。特定領域の中から正例パッチ52を抽出する場合、訓練実行部2040は特定領域の中の任意の箇所からパッチサイズの領域を抽出し、この領域を正例パッチ52として扱う。一方、特定領域の外から正例パッチ52を抽出する場合、訓練実行部2040は、特定領域の外の任意の箇所からパッチサイズの領域を選択し、選択した領域を正例パッチ52として決定する。なお、ある領域の中から所定サイズの領域を任意に選ぶ技術には、既存の技術を利用することができる。
【0081】
なお、特定領域の中から正例パッチ52を抽出する場合において、正例パッチ52の一部が特定領域の外にあってもよい。例えばこの場合、「正例パッチ52の所定割合以上が特定領域の中にある」という条件を満たすように、正例パッチ52が抽出される。
【0082】
<<方法2>>
訓練実行部2040は、特定領域との重なりが大きい領域ほど正例パッチ52として抽出される確率が高くなるように、正例パッチ52の抽出を行う。そのために、例えば訓練実行部2040は、特定領域との重なり率が高いほど高い抽出確率を示す抽出確率マップを生成する。例えば抽出確率マップは、訓練画像50の各ピクセルについて、そのピクセルを起点(例えば、正例パッチ52の左上端)とするパッチサイズの領域が正例パッチ52として抽出される確率を示す確率分布として生成される。特定領域との重なり率が高いほど抽出確率を高くするために、抽出確率マップは、各ピクセルについて、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いが高いほど高い抽出確率を示すように生成される。なお、抽出確率マップは、訓練画像50に含まれるパッチサイズの各部分領域について、その部分領域が正例パッチ52として抽出される確率を示しているとも言える。そして、各部分領域の抽出確率は、その部分領域と特定領域との重複度合いが高いほど高く設定される。
【0083】
このような抽出確率マップを生成するために、例えばまず、訓練実行部2040は、抽出確率マップの各ピクセルに対し、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いを表す値を設定する。その後、訓練実行部2040は、抽出確率マップの各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。
【0084】
図10は、抽出確率マップを例示する図である。この例において、正例パッチ52のサイズは 2x2 である。また、特定領域310のサイズは 4x3 である。抽出確率マップ300の各ピクセルは、そのピクセルを左上端として正例パッチ52を抽出した場合に、その正例パッチ52と特定領域との重複度合いが大きいほど高い抽出確率を示す。ここで、
図10において、抽出確率が高いピクセルほど濃いドットで表現されている。そのため、
図10において、より濃いドットで表現されているピクセルほど、そのピクセルを起点として正例パッチ52が抽出される確率がより高いことを表している。
【0085】
訓練実行部2040は、抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ52として抽出する。
【0086】
<<方法3>>
特定種別の物体をさらに細かい小分類に分類し、当該小分類に基づいて、上述した抽出確率マップの各ピクセルの抽出確率が決定されてもよい。例えば特定種別が車である場合、小分類には乗用車、トラック、又はバスなどの種類を設定しうる。以下、訓練画像50に含まれる物体が属する小分類上の種別のことを、サブ種別と呼ぶ。
【0087】
小分類を考慮する場合、特定種別に属する物体の中でも、そのサブ種別ごとに、画像変換モデル100の訓練における重要さが異なりうる。例えば、訓練画像50に出現する頻度が低い種別の物体については、少ない訓練でその特徴を画像変換モデル100が学習できるようにする必要があることから、訓練上重要な物体であると言える。
【0088】
具体的な例として、昼間の道路の様子を表す画像を入力画像10とし、その入力画像10から、夜間の道路の様子を表す出力画像20が生成されるように、画像変換モデル100が訓練されるとする。ここで、訓練画像50を生成するために撮像された道路において、乗用車と比較して、トラックの出現頻度が低いとする。この場合、トラックの特徴を学習できる機会は、乗用車の特徴を学習できる機会より少ない。そのため、少ない訓練でトラックの特徴を画像変換モデル100が学習できるようにする必要がある。
【0089】
そこで例えば、出現頻度が低いサブ種別ほど、訓練における重要度を高くする。より具体的には、訓練実行部2040は、訓練画像50において、出現頻度がより低いサブ種別に属する物体を表す特定領域ほど抽出確率がより高くなるように、抽出確率マップを生成する。そのために、各サブ種別に対し、その出現頻度が低いほど高い重みが設定される。
【0090】
訓練実行部2040は、抽出確率マップの各ピクセルに対し、そのピクセルと特定領域との重複度合いに、その特定領域によって表される物体のサブ種別に対応する重みを掛けた値を設定する。そして、訓練実行部2040は、各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。
【0091】
訓練実行部2040は、この抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ52として抽出する。
【0092】
ここで、各サブ種別の重みは、予め定められていてもよいし、訓練実行部2040によって決定されてもおい。後者の場合、例えば訓練実行部2040は、正例パッチ52の抽出を行う前に、取得部2020によって取得された各訓練画像50に対して特定種別の物体を検出する処理を行い、検出された物体の数をサブ種別ごとにカウントする。これにより、訓練画像群におけるサブ種別ごとの出現数が特定される。訓練実行部2040は、各サブ種別の出現数に基づいて、各サブ種別の重みを決定する。この重みは、出現数が少ないサブ種別の重みほど大きくなるように決定される。
【0093】
<<負例パッチ54の抽出方法>>
訓練実行部2040は、訓練画像50に含まれる領域のうち、正例パッチ52として抽出された領域以外の領域から任意に(例えばランダムに)パッチサイズの領域を抽出し、その領域を負例パッチ54として利用する。前述したように、1つのパッチセットには複数の負例パッチ54が含まれてもよい。1つのパッチセットに含まれる負例パッチ54の数は、予め定めておく。
【0094】
<<正例パッチ22の抽出方法>>
訓練実行部2040は、正例パッチ52が抽出された訓練画像50上の位置と対応する出力画像20の位置から、正例パッチ22を抽出する。すなわち、正例パッチ22の抽出の起点とするピクセルの座標には、正例パッチ52の抽出の起点として利用された座標と同一の座標が利用される。
【0095】
<処理結果の出力:S118>
モデル訓練装置2000は、処理結果として、訓練済みの画像変換モデル100を特定可能な情報(以下、出力情報)を出力する。出力情報には、少なくとも、訓練によって得られた画像変換モデル100のパラメータ群が含まれる。これに加え、出力情報には、画像変換モデル100を実現するプログラムが含まれていてもよい。
【0096】
出力情報の出力態様は任意である。例えばモデル訓練装置2000は、出力情報を任意の記憶部に格納する。その他にも例えば、モデル訓練装置2000は、出力情報を他の装置(例えば、画像変換モデル100の運用に利用される装置)へ送信する。
【0097】
<変形例>
上述のモデル訓練装置2000では、特定領域から重点的に正例パッチ52を抽出することにより、特定種別の物体の特徴が特に高い精度で学習されるようにしている。しかしながら、特定種別の物体の特徴が高い精度で学習されるようにする方法は、特定領域から重点的に正例パッチ52を抽出するという方法に限定されない。
【0098】
例えばモデル訓練装置2000は、特定領域から重点的に正例パッチ52を抽出することに加え、又はこれに代えて、特定領域から抽出された正例パッチ52に対応する特徴を用いて算出される損失(例えば前述したクロスエントロピー損失)の影響が、他の領域から抽出された正例パッチ52に対応する特徴量を用いて算出される損失の影響よりも大きくなるように、パッチワイズ損失を算出する。なお、特定領域から重点的に正例パッチ52を抽出するという手法を採用しない場合、例えば正例パッチ52は、訓練画像50の任意の箇所から同確率で抽出される。
【0099】
以下、正例パッチ52が特定領域の中と外のどちらから抽出されたかにより、その正例パッチ52に対応する特徴量に基づく損失の影響度を決める方法について説明する。
【0100】
例えば訓練実行部2040は、以下の式(5)を用いてパッチワイズ損失を算出する。
【数5】
【0101】
式(5)では、パッチセットごとに算出される損失に対し、そのパッチセットに含まれる正例パッチ52が特定領域の中から抽出された場合には重みαが掛けられる一方、そのパッチセットに含まれる正例パッチ52が特定領域の外から抽出された場合には重みβが掛けられる。α>β>0であることから、正例パッチ52が特定領域の中から抽出された場合における損失の影響が、正例パッチ52が特定領域の外から抽出された場合における損失の影響よりも大きくなる。
【0102】
なお、前述した式(3)や(4)を用いてパッチワイズ損失を算出する場合についても同様とすることができる。すなわち、特徴抽出モデル110の複数のレイヤから特徴マップが得られる場合、各レイヤから得られた特徴マップについて算出する損失において、上述した重み付けを行うようにする。
【0103】
ただし、複数のレイヤから特徴マップが得られる場合、特徴マップの1つのセルに対応する入力画像の部分領域のサイズとパッチサイズとの関係に基づいて、レイヤごとに重みを設定したり、特定のレイヤのみに重みを付したりしてもよい。以下、この方法について説明する。
【0104】
複数のレイヤから特徴マップが得られる場合、特徴マップの1つのセルに対応する入力画像の部分領域のサイズは、特徴マップごと(レイヤごと)に異なる。例えば、各レイヤにおいてサイズ 3x3 のフィルタの畳み込み処理が行われるとする。この場合、1番目の特徴マップの1つのセルは、入力画像におけるサイズ 3x3 の部分領域に対応する。また、2番目の特徴マップの1つのセルは、1番目の特徴マップにおけるサイズ 3x3 のセルの集合に対応する。このことから、2番目の特徴マップの1つのセルは、入力画像におけるサイズ 9x9 の領域に対応する。同様の理由により、3番目の特徴マップの1つのセルは、入力画像におけるサイズ 27x27 の領域に対応する。このように、後段のレイヤによって生成される特徴マップほど、入力画像のより大きい部分領域に対応する。
【0105】
この点、訓練画像50についてそれぞれ異なるレイヤから生成される複数の特徴マップにおいて、1つのセルに対応する訓練画像50の部分領域のサイズがパッチサイズに近い特徴マップほど、正例パッチ52の特徴をより正確に表していると考えられる。負例パッチ54や正例パッチ22についても同様である。
【0106】
そこで例えば、訓練実行部2040は、1つのセルに対応する訓練画像50の部分領域のサイズがパッチサイズにより近い特徴マップほど、その特徴マップから抽出された特徴量に対してより大きい重みを付すように、パッチワイズ損失を算出する。正例パッチ22と負例パッチ54についても同様である。この場合、例えばパッチワイズ損失は、以下の式(6)を用いて算出される。
【数6】
ここで、z_p はパッチサイズである。z_l は、l 番目のレイヤから抽出された特徴マップの1つのセルに対応する入力画像(訓練画像50又は出力画像20)の部分領域のサイズである。f()は、zp と zl の差分が小さいほど大きい値を出力する関数である。なお、f()>0である。
【0107】
なお、z_p と z_l の差分が最小のレイヤ l についてのみ1より大きい重みを付し、他のレイヤについては重みを付さないようにすることで、特徴マップのセルに対応する入力画像の部分領域のサイズがパッチサイズに最も近くなるレイヤのみに重みを付してもよい。また、z_p と z_l の差分が小さい順で上位所定個のレイヤについてのみ1より大きい重みを付すといった方法が採用されてもよい。
【0108】
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
【0109】
なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された1又はそれ以上の機能をコンピュータに行わせるための命令群(又はソフトウェアコード)を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory(RAM)、read-only memory(ROM)、フラッシュメモリ、solid-state drive(SSD)又はその他のメモリ技術、CD-ROM、digital versatile disc(DVD)、Blu-ray(登録商標)ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。
【0110】
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出する、モデル訓練装置。
(付記2)
前記訓練実行部は、前記特定領域の中と外のどちらから前記第1正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第1正例パッチが抽出される確率が、前記特定領域の外から前記第1正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第1正例パッチを前記訓練画像から抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出する、付記1に記載のモデル訓練装置。
(付記3)
前記訓練実行部は、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行部は、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記1に記載のモデル訓練装置。
(付記4)
前記訓練実行部は、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記3に記載のモデル訓練装置。
(付記5)
前記訓練実行部は、前記パッチワイズ損失を、前記第1正例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1負例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記1から4いずれか一項に記載のモデル訓練装置。
(付記6)
コンピュータによって実行される制御方法であって、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出する、制御方法。
(付記7)
前記訓練実行ステップにおいて、前記特定領域の中と外のどちらから前記第1正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第1正例パッチが抽出される確率が、前記特定領域の外から前記第1正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第1正例パッチを前記訓練画像から抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出する、付記6に記載の制御方法。
(付記8)
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記6に記載の制御方法。
(付記9)
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記8に記載の制御方法。
(付記10)
前記訓練実行ステップにおいて、前記パッチワイズ損失を、前記第1正例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1負例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記6から9いずれか一項に記載の制御方法。
(付記11)
コンピュータに、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を実行させるプログラムが格納されており、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の部分領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の部分領域である第2正例パッチのセットであるパッチセットを1つ以上生成し、
前記第1特徴マップ、前記第2特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第1正例パッチを抽出する、非一時的なコンピュータ可読媒体。
(付記12)
前記訓練実行ステップにおいて、前記特定領域の中と外のどちらから前記第1正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第1正例パッチが抽出される確率が、前記特定領域の外から前記第1正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第1正例パッチを前記訓練画像から抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出する、付記11に記載のコンピュータ可読媒体。
(付記13)
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第1正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第1正例パッチを抽出することで、前記第1正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記11に記載のコンピュータ可読媒体。
(付記14)
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記13に記載のコンピュータ可読媒体。
(付記15)
前記訓練実行ステップにおいて、前記パッチワイズ損失を、前記第1正例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1負例パッチに対応する特徴量と前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記11から14いずれか一項に記載のコンピュータ可読媒体。
(付記16)
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第1画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、モデル訓練装置。
(付記17)
前記訓練実行部は、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記16に記載のモデル訓練装置。
(付記18)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行部は、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する入力画像の部分領域のサイズが前記第1正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記17に記載のモデル訓練装置。
(付記19)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行部は、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する部分領域のサイズが前記第1正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記17に記載のモデル訓練装置。
(付記20)
コンピュータによって実行される制御方法であって、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、制御方法。
(付記21)
前記訓練実行ステップにおいて、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記20に記載の制御方法。
(付記22)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する部分領域のサイズが前記第1正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記21に記載の制御方法。
(付記23)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する入力画像の部分領域のサイズが前記第1正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記21に記載の制御方法。
(付記24)
コンピュータに、
第1環境下のシーンを表す入力画像から第2環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第1画像である訓練画像を取得する取得ステップと、を実行させるプログラムが格納されており、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第1特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第2特徴マップを取得し、
前記訓練画像の一部の領域である第1正例パッチ及び第1負例パッチ、並びに前記出力画像において前記第1正例パッチに対応する位置の領域である第2正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第1特徴マップによって示される前記第1正例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第1特徴マップによって示される前記第1負例パッチに対応する特徴量と前記第2特徴マップによって示される前記第2正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、非一時的なコンピュータ可読媒体。
(付記25)
前記訓練実行ステップにおいて、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第1正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記24に記載のコンピュータ可読媒体。
(付記26)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する部分領域のサイズが前記第1正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記25に記載のコンピュータ可読媒体。
(付記27)
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その1つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その1つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第1正例パッチに対応する特徴量及び前記第1負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第2正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第1正例パッチ、前記第1負例パッチ、及び前記第2正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの1つのセルに対応する入力画像の部分領域のサイズが前記第1正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記25に記載のコンピュータ可読媒体。
【符号の説明】
【0111】
10 入力画像
12 部分領域
20 出力画像
22 正例パッチ
30 第1特徴マップ
40 第2特徴マップ
50 訓練画像
52 正例パッチ
54 負例パッチ
70 敵対的生成ネットワーク
80 識別モデル
90 ラベル
100 画像変換モデル
110 特徴抽出モデル
120 画像生成モデル
200 特徴マップ
210 セル
300 抽出確率マップ
310 特定領域
500 コンピュータ
502 バス
504 プロセッサ
506 メモリ
508 ストレージデバイス
510 入出力インタフェース
512 ネットワークインタフェース
2000 モデル訓練装置
2020 取得部
2040 訓練実行部