特許7593502 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許7593502モデル訓練装置、制御方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-25

(45)【発行日】2024-12-03

(54)【発明の名称】モデル訓練装置、制御方法、及びプログラム

(51)【国際特許分類】

G06T 1/00 20060101AFI20241126BHJP

H04N 1/387 20060101ALI20241126BHJP

【ＦＩ】

G06T1/00 280

H04N1/387

【請求項の数】 7

(21)【出願番号】P 2023546668

(86)(22)【出願日】2021-09-10

(86)【国際出願番号】 JP2021033303

(87)【国際公開番号】W WO2023037494

(87)【国際公開日】2023-03-16

【審査請求日】2023-08-17

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】井下哲夫

(72)【発明者】

【氏名】中谷裕一

【審査官】佐田宏史

(56)【参考文献】

【文献】国際公開第２００７／０２９４４３（ＷＯ，Ａ１）

【文献】国際公開第２０１４／１６２６９０（ＷＯ，Ａ１）

【文献】特開２０１６－０９５６５１（ＪＰ，Ａ）

【文献】PARK, Taesung et al.，"Contrastive Learning for Unpaired Image-to-Image Translation"，arXiv，米国，CORNELL UNIVERSITY，2020年08月20日，pp.1-29，https://arxiv.org/abs/2007.15651

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００，３／４０，５／００

Ｈ０４Ｎ１／３８７

(57)【特許請求の範囲】

【請求項1】

第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出し、
前記訓練実行部は、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行部は、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、モデル訓練装置。

【請求項2】

前記訓練実行部は、前記パッチワイズ損失を、前記第１正例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１負例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、請求項１に記載のモデル訓練装置。

【請求項3】

コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出し、
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、制御方法。

【請求項4】

コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出し、
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、プログラム。

【請求項5】

第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、モデル訓練装置。

【請求項6】

コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、制御方法。

【請求項7】

コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させ、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、画像の変換を行うモデルを訓練する技術に関する。

【背景技術】

【0002】

入力された画像に基づいて別の画像を生成するモデル、すなわち、画像の変換を行うモデルが開発されている。例えば特許文献１には、馬の画像をシマウマの画像に変換するなどのように、入力画像を別のクラスの画像に変換するモデルが開示されている。このモデルは、画像から特徴マップを抽出するエンコーダと、エンコーダによって生成された特徴マップから画像を生成するジェネレータで構成されている。モデルの学習は、入力画像の正例領域から抽出される特徴量と出力画像の正例領域から抽出される特徴量との類似度が高いほど小さくなるように、かつ、入力画像の負例領域から抽出される特徴量と出力画像の正例領域から抽出される特徴量との類似度が高いほど大きくなるように算出される損失に基づいて行われる。

【先行技術文献】

【非特許文献】

【0003】

【文献】Taesung Park、Alexei A. Efros、Richard Zhang、Jun-Yan Zhu、「Contrastive Learning for Unpaired Image-to-Image Translation」、arXiv、arXiv:2007.15651、２０２０年８月２０日

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１では、入力画像のうちのどの領域が正例領域として抽出されるのかが訓練に与える影響について、言及されていない。本開示は上記の課題に鑑みてなされたものであり、その目的の一つは、画像の変換を行うモデルを訓練するための新たな技術を提供することである。

【課題を解決するための手段】

【0005】

本開示の第１のモデル訓練装置は、第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行部は、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する。

【0006】

本開示の第１の制御方法は、コンピュータによって実行される。当該制御方法は、第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行ステップにおいて、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行う。
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する。

【0007】

本開示の第１のコンピュータ可読媒体は、本開示の第１の制御方法をコンピュータに実行させるプログラムを格納している。

【0008】

本開示の第２のモデル訓練装置は、第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行部は、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う。

【0009】

本開示の第２の制御方法は、コンピュータによって実行される。当該制御方法は、第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有する。
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有する。
前記訓練実行ステップにおいて、前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う。

【0010】

本開示の第２のコンピュータ可読媒体は、本開示の第２の制御方法をコンピュータに実行させるプログラムを格納している。

【発明の効果】

【0011】

本開示によれば、画像の変換を行うモデルを訓練するための新たな技術が提供される。

【図面の簡単な説明】

【0012】

【図1】モデル訓練装置によって訓練される画像変換モデルの構造を例示する図である。

【図2】モデル訓練装置の動作の概要を例示する図である。

【図3】パッチワイズ損失の概要について説明するための図である。

【図4】モデル訓練装置の機能構成を例示するブロック図である。

【図5】モデル訓練装置を実現するコンピュータのハードウエア構成を例示するブロック図である。

【図6】モデル訓練装置によって実行される処理の流れを例示するフローチャートである。

【図7】画像変換モデルを用いたデータ拡張の効果を例示する図である。

【図8】画像上の部分領域と、その画像から得られる特徴マップとの関係を例示する図である。

【図9】画像変換モデルと識別モデルとで構成される敵対的生成ネットワークを例示する図である。

【図10】抽出確率マップを例示する図である。

【発明を実施するための形態】

【0013】

以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。また、特に説明しない限り、所定値や閾値などといった予め定められている値は、その値を利用する装置からアクセス可能な記憶装置などに予め格納されている。さらに、特に説明しない限り、記憶部は、１つ以上の任意の数の記憶装置によって構成される。

【0014】

［実施形態１］
＜概要＞
図１は、実施形態１のモデル訓練装置によって訓練される画像変換モデル１００の構造を例示する図である。画像変換モデル１００は、入力画像１０が入力されたことに応じて、出力画像２０を出力する。入力画像１０は、画像変換モデル１００に対して入力される画像である。出力画像２０は、画像変換モデル１００から出力される画像である。

【0015】

画像変換モデル１００は、「入力画像１０として、第１環境下のシーンを表す画像が入力された場合に、出力画像２０として、第１環境とは異なる第２環境下におけるそのシーンを表す画像を出力する」という処理を行うように訓練される。これにより、画像変換モデル１００は、ある特定の環境下で撮像されたシーンの画像から、別の環境下で当該シーンが撮像された画像を擬似的に生成することができるようになる。

【0016】

例えば第１環境が昼間であり、第２環境が夜間であるとする。また、入力画像１０が、特定の道路をカメラで撮像することで得られた画像であるとする。ここで、夜間の道路の様子は、全体的に暗いという点、車のライトや街灯などといった種々のライトが点灯しているという点、ライトに照らされている場所が他の場所と比較して明るいという点などにおいて、昼間の道路の様子とは異なる。画像変換モデル１００は、このような夜間の道路の特徴を擬似的に再現するように、昼間の道路の様子が撮像された画像から、夜間の道路の様子が撮像された画像を生成する。これにより、例えば後述するように、データ拡張（data augmentation）を実現することができる。

【0017】

なお、環境は、昼間や夜間などといった時間帯に限定されない。例えば環境の他の例としては、天候に関する環境が挙げられる。例えば第１環境が晴れであり、第２環境が雨であるとする。この場合、画像変換モデル１００は、晴天下のシーンを表す入力画像１０から、雨天下のそのシーンを表す出力画像２０を生成する。なお、雨の代わりに、雪などの天候を採用することもできる。

【0018】

画像変換モデル１００は、特徴抽出モデル１１０及び画像生成モデル１２０という２つのモデルを含む。特徴抽出モデル１１０は、入力された画像から特徴マップを抽出するように訓練されるモデルである。ここで、画像から抽出される特徴マップは、画像に含まれる複数の部分領域それぞれから得られる特徴量の集合である。画像生成モデル１２０は、特徴マップから出力画像２０を生成するように訓練されるモデルである。

【0019】

特徴抽出モデル１１０及び画像生成モデル１２０はいずれも、任意の種類の機械学習モデルとして構成される。例えば特徴抽出モデル１１０及び画像生成モデル１２０はいずれも、ニューラルネットワークで構成される。

【0020】

図２は、実施形態１のモデル訓練装置２０００の動作の概要を例示する図である。ここで、図２は、モデル訓練装置２０００の概要の理解を容易にするための図であり、モデル訓練装置２０００の動作は、図２に示したものに限定されない。

【0021】

画像変換モデル１００を訓練するため、モデル訓練装置２０００は、第１環境下で撮像されたシーンを表す訓練画像５０を複数取得する。モデル訓練装置２０００は、各訓練画像５０を用いて、以下の処理を行う。まずモデル訓練装置２０００は、訓練画像５０を画像変換モデル１００に入力することで、訓練画像５０の特徴マップである第１特徴マップ３０、及び出力画像２０を得る。さらにモデル訓練装置２０００は、出力画像２０を特徴抽出モデル１１０に入力することで、出力画像２０の特徴マップである第２特徴マップ４０を得る。モデル訓練装置２０００は、第１特徴マップ３０と第２特徴マップ４０を用いて損失を算出し、算出した損失を利用して画像変換モデル１００の訓練を行う。以下、第１特徴マップ３０と第２特徴マップ４０を用いて算出される損失のことを、パッチワイズ損失と呼ぶ。後述するように、画像変換モデル１００の訓練には、パッチワイズ損失に加え、他の損失が利用されてもよい。

【0022】

パッチワイズ損失について、図３を用いてその概要を説明する。図３は、パッチワイズ損失の概要について説明するための図である。モデル訓練装置２０００は、訓練画像５０から、正例パッチ５２及び負例パッチ５４を抽出する。正例パッチ５２及び負例パッチ５４はいずれも、訓練画像５０の一部の画像領域である。またモデル訓練装置２０００は、出力画像２０について、正例パッチ２２を抽出する。正例パッチ２２は、出力画像２０の一部の画像領域のうち、正例パッチ５２によって表される場所と同一の場所を表す領域である。以下、正例パッチ５２、負例パッチ５４、及び正例パッチ２２の組み合わせをパッチセットと呼ぶ。モデル訓練装置２０００は、パッチセットを１つ以上生成する。

【0023】

ここで、画像変換モデル１００に入力された画像と画像変換モデル１００から出力された画像では、第１環境下のシーンから第２環境下のシーンへの変換が行われているものの、これらの画像において互いに同一の場所を表すべき画像領域の間の類似度合いは、互いに異なる場所を表すべき領域の間の類似度合いよりも大きくなるべきであると考えられる。そこでモデル訓練装置２０００は、第１特徴マップ３０に含まれる特徴量のうちの正例パッチ５２に対応する特徴量と、第２特徴マップ４０に含まれる特徴量のうちの正例パッチ２２に対応する特徴量との間の類似度が高いほど、パッチワイズ損失の大きさを小さくする。また、モデル訓練装置２０００は、第１特徴マップ３０に含まれる特徴量のうちの負例パッチ５４に対応する特徴量と、第２特徴マップ４０に含まれる特徴量のうちの正例パッチ２２に対応する特徴量との間の類似度が高いほど、パッチワイズ損失の大きさを大きくする。

【0024】

ここで、モデル訓練装置２０００は、訓練画像５０の画像領域のうち、特定種別の物体を表す部分領域（以下、特定領域）から重点的に、正例パッチ５２を抽出する。ここでいう「重点的」とは、特定領域から正例パッチ５２が抽出されるケースが、それ以外の部分領域から正例パッチ５２が抽出されるケースよりも多くなることを意味する。そのため例えば、特定領域から正例パッチ５２が抽出される確率が、他の部分領域から正例パッチ５２が抽出される確率も高くなるように、正例パッチ５２の抽出が行われる。

【0025】

このように特定領域から重点的に正例パッチ５２を抽出することにより、入力画像１０によって表されるシーンの特徴のうち、特定種別の物体の特徴が特に高い精度で抽出されるように、特徴抽出モデル１１０を訓練することができる。よって、着目したい特徴の変換が特に高い精度で行われるように、画像変換モデル１００を訓練することができる。

【0026】

例えば前述したように、昼間の道路のシーンを表す入力画像１０から、夜間の道路の当該シーンを表す出力画像２０が生成されるように、画像変換モデル１００が訓練されるとする。そして、入力画像１０や出力画像２０において特に着目したい物体が車であるとする。この場合、モデル訓練装置２０００は、訓練画像５０から正例パッチ５２を抽出する際、訓練画像５０に含まれる画像領域のうち、車を表す部分領域から重点的に、正例パッチ５２を抽出する。これにより、入力画像１０によって表されるシーンについて、車の特徴が特に高い精度で抽出されるように、特徴抽出モデル１１０が訓練される。よって、昼間の道路のシーンを表す画像を夜間の当該シーンを表す画像に変換するという画像変換モデル１００の処理において、昼間の車から夜間の車への変換が特に高い精度で行われるように、画像変換モデル１００を訓練することができる。これにより、昼間の車から夜間の車への変換を高い精度で行うことができる画像変換モデル１００を得ることができる。

【0027】

以下、本実施形態のモデル訓練装置２０００について、より詳細に説明する。

【0028】

＜機能構成の例＞
図４は、実施形態１のモデル訓練装置２０００の機能構成を例示するブロック図である。モデル訓練装置２０００は、取得部２０２０及び訓練実行部２０４０を有する。取得部２０２０は、訓練画像５０を複数取得する。訓練実行部２０４０は、訓練画像５０を用いて画像変換モデル１００の訓練を行う。具体的には、訓練実行部２０４０は、訓練画像５０を画像変換モデル１００に入力することで、第１特徴マップ３０と出力画像２０を得る。また、訓練実行部２０４０は、出力画像２０を特徴抽出モデル１１０に入力することで、第２特徴マップ４０を得る。訓練実行部２０４０は、第１特徴マップ３０と第２特徴マップ４０を用いてパッチワイズ損失を算出し、パッチワイズ損失を用いて画像変換モデル１００のパラメータを更新する。

【0029】

ここで訓練実行部２０４０は、訓練画像５０から正例パッチ５２及び負例パッチ５４を抽出する。また、訓練実行部２０４０は、出力画像２０から正例パッチ２２を抽出する。正例パッチ５２は、訓練画像５０に含まれる部分領域のうち、特定種別の物体を表す特定領域から重点的に抽出される。

【0030】

パッチワイズ損失は、第１特徴マップ３０に含まれる特徴量のうちの正例パッチ５２に対応する特徴量と、第２特徴マップ４０に含まれる特徴量のうちの正例パッチ２２に対応する特徴量との間の類似度が高いほど、その大きさが小さくなるように算出される。また、パッチワイズ損失は、第１特徴マップ３０に含まれる特徴量のうちの負例パッチ５４に対応する特徴量と、第２特徴マップ４０に含まれる特徴量のうちの正例パッチ２２に対応する特徴量との間の類似度が高いほど、その大きさが大きくなるように算出される。

【0031】

＜ハードウエア構成の例＞
モデル訓練装置２０００の各機能構成部は、各機能構成部を実現するハードウエア（例：ハードワイヤードされた電子回路など）で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ（例：電子回路とそれを制御するプログラムの組み合わせなど）で実現されてもよい。以下、モデル訓練装置２０００の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。

【0032】

図５は、モデル訓練装置２０００を実現するコンピュータ５００のハードウエア構成を例示するブロック図である。コンピュータ５００は、任意のコンピュータである。例えばコンピュータ５００は、PC（Personal Computer）やサーバマシンなどといった、据え置き型のコンピュータである。その他にも例えば、コンピュータ５００は、スマートフォンやタブレット端末などといった可搬型のコンピュータである。コンピュータ５００は、モデル訓練装置２０００を実現するために設計された専用のコンピュータであってもよいし、汎用のコンピュータであってもよい。

【0033】

例えば、コンピュータ５００に対して所定のアプリケーションをインストールすることにより、コンピュータ５００で、モデル訓練装置２０００の各機能が実現される。上記アプリケーションは、モデル訓練装置２０００の各機能構成部を実現するためのプログラムで構成される。なお、上記プログラムの取得方法は任意である。例えば、当該プログラムが格納されている記憶媒体（DVD ディスクや USB メモリなど）から、当該プログラムを取得することができる。その他にも例えば、当該プログラムが格納されている記憶装置を管理しているサーバ装置から、当該プログラムをダウンロードすることにより、当該プログラムを取得することができる。

【0034】

コンピュータ５００は、バス５０２、プロセッサ５０４、メモリ５０６、ストレージデバイス５０８、入出力インタフェース５１０、及びネットワークインタフェース５１２を有する。バス５０２は、プロセッサ５０４、メモリ５０６、ストレージデバイス５０８、入出力インタフェース５１０、及びネットワークインタフェース５１２が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ５０４などを互いに接続する方法は、バス接続に限定されない。

【0035】

プロセッサ５０４は、CPU（Central Processing Unit）、GPU（Graphics Processing Unit）、又は FPGA（Field－Programmable Gate Array）などの種々のプロセッサである。メモリ５０６は、RAM（Random Access Memory）などを用いて実現される主記憶装置である。ストレージデバイス５０８は、ハードディスク、SSD（Solid State Drive）、メモリカード、又は ROM（Read Only Memory）などを用いて実現される補助記憶装置である。

【0036】

入出力インタフェース５１０は、コンピュータ５００と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース５１０には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。

【0037】

ネットワークインタフェース５１２は、コンピュータ５００をネットワークに接続するためのインタフェースである。このネットワークは、LAN（Local Area Network）であってもよいし、WAN（Wide Area Network）であってもよい。

【0038】

ストレージデバイス５０８は、モデル訓練装置２０００の各機能構成部を実現するプログラム（前述したアプリケーションを実現するプログラム）を記憶している。プロセッサ５０４は、このプログラムをメモリ５０６に読み出して実行することで、モデル訓練装置２０００の各機能構成部を実現する。

【0039】

モデル訓練装置２０００は、１つのコンピュータ５００で実現されてもよいし、複数のコンピュータ５００で実現されてもよい。後者の場合において、各コンピュータ５００の構成は同一である必要はなく、それぞれ異なるものとすることができる。

【0040】

＜処理の流れ＞
図６は、実施形態１のモデル訓練装置２０００によって実行される処理の流れを例示するフローチャートである。取得部２０２０は、複数の訓練画像５０を取得する（Ｓ１０２）。Ｓ１０４からＳ１１６は、所定の終了条件が満たされるまで繰り返し実行されるループ処理Ｌ１を構成する。Ｓ１０４において、訓練実行部２０４０は、終了条件が満たされているか否かを判定する。終了条件が満たされている場合、訓練実行部２０４０は、処理結果の出力を行う（Ｓ１１８）。一方、終了条件が満たされていない場合、訓練実行部２０４０は、まだループ処理Ｌ１の対象となっていない訓練画像５０のうちの１つを選択する。ここで選択される訓練画像５０を、訓練画像ｉと表記する。

【0041】

訓練実行部２０４０は、訓練画像ｉを画像変換モデル１００に入力することで、第１特徴マップ３０と出力画像２０を得る（Ｓ１０６）。訓練実行部２０４０は、出力画像２０を特徴抽出モデル１１０に入力することで、第２特徴マップ４０を得る（Ｓ１０８）。訓練実行部２０４０は、正例パッチ５２、負例パッチ５４、及び正例パッチ２２の組み合わせであるパッチセットを１つ以上生成する（Ｓ１１０）。訓練実行部２０４０は、第１特徴マップ３０、第２特徴マップ４０、及びパッチセットに基づいて、パッチワイズ損失を算出する（Ｓ１１２）。訓練実行部２０４０は、パッチワイズ損失を用いて画像変換モデル１００を更新する（Ｓ１１４）。Ｓ１１６はループ処理Ｌ１の終端であるため、図４の処理はＳ１０４に進む。

【0042】

ここで、ループ処理Ｌ１の終了条件、すなわち、画像変換モデル１００の訓練の終了条件には、様々な条件を採用することができる。例えば終了条件は、「取得した全ての訓練画像５０を対象としてループ処理Ｌ１が実行される」という条件である。その他にも例えば、終了条件は、「画像変換モデル１００の訓練が収束する」という条件である。なお、機械学習モデルの訓練が収束したか否かを判定する技術には、既存の種々の技術を利用することができる。

【0043】

図６に示した処理の流れは例示であり、モデル訓練装置２０００によって実行される処理の流れは図６に示した流れに限定されない。例えば、１つの訓練画像５０ごとにパッチワイズ損失を算出する代わりに、複数の訓練画像５０ごとにまとめてパッチワイズ損失が算出されてもよい。この場合、ループ処理Ｌ１の最初で、１つではなく複数の訓練画像５０が選択される。さらに、これら複数の訓練画像５０それぞれについてＳ１０６からＳ１１０が行われる。そしてＳ１１２において、複数の訓練画像５０それぞれから得られた第１特徴マップ３０、第２特徴マップ４０、及びパッチセットを利用して、パッチワイズ損失が算出される。

【0044】

＜画像変換モデル１００の利用例＞
モデル訓練装置２０００の有用性の理解を容易にするため、画像変換モデル１００の利用シーンを例示する。ここで説明する利用シーンは例示であり、モデル訓練装置２０００の利用シーンは以下で説明する例に限定されない。

【0045】

利用シーンとして、道路を撮像する監視カメラから得られたビデオデータが、車の監視に利用されるケースを想定する。車の監視は、監視装置を用いて、ビデオデータの各ビデオフレームから車を検出することによって行われる。監視装置は、画像から車を検出するように予め訓練された検出モデルを有する。

【0046】

ここで、画像における物体の見え方（物体の画像特徴）は、その物体が撮像された環境によって異なりうる。例えば、昼間に撮像された車と夜間に撮像された車とでは、その見え方が互いに異なる。また、晴天時に撮像された車と雨天時に撮像された車とでも、その見え方が互いに異なる。

【0047】

車の監視に利用される検出モデルは、このような環境の変化にロバストであることが好適である。すなわち、検出モデルは、時間帯や天候によらずに、各ビデオフレームから車を検出できるように訓練される必要がある。そのためには、様々な環境下で撮像された道路の画像を訓練画像として用いて、検出モデルを訓練する必要がある。

【0048】

この点、訓練画像を入手する容易さは、環境ごとに異なりうる。例えば、夜間は昼間と比較して車の数が少ないため、夜間の道路の車が撮像された画像は、昼間の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。また、晴れが多い場所では、雨や雪などといった晴天時以外の道路の車が撮像された画像は、晴天時の道路の車が撮像された画像と比較して、監視カメラから入手できる数が少ない。このように入手できる画像の数が環境ごとに異なることに起因し、監視カメラから入手できる画像だけを利用して検出モデルの訓練を行うと、夜間や雨天などといった環境下の車の検出精度が低くなってしまう。

【0049】

そこで、モデル訓練装置２０００によって訓練された画像変換モデル１００を利用して、入手が容易な環境の画像に基づくデータ拡張を行うことにより、入手が難しい環境の画像を擬似的に生成する。例えば画像変換モデル１００が、昼間の道路における車の画像が入力画像１０として入力されたことに応じて、夜間の道路における車の画像が出力画像２０として出力されるように、モデル訓練装置２０００によって予め訓練されているとする。

【0050】

図７は、画像変換モデル１００を用いたデータ拡張の効果を例示する図である。図７の上段は、画像変換モデル１００によるデータ拡張を行わず、監視カメラから得られた画像だけを利用して検出モデルの訓練が行われるケースを表している。このケースでは、夜間の車が撮像された訓練画像の数が不十分であるため、夜間の車の検出精度が低くなってしまう。

【0051】

一方、図７の下段は、画像変換モデル１００によるデータ拡張が行われるケースを例示している。ユーザは、監視カメラから得られた昼間の道路における車の画像を画像変換モデル１００に入力することで、夜間の道路における車を擬似的に表す画像を得る。こうすることによって、昼間の道路における車の画像と同等の数だけ、夜間の道路における車の画像を得ることができる。このように画像変換モデル１００を利用して得た画像も訓練画像として用いて検出モデルの訓練を行うことで、夜間の車も精度良く検出できる検出モデルを生成することができる。すなわち、環境の変化にロバストな検出モデルを生成することができる。

【0052】

＜訓練画像５０の取得：Ｓ１０２＞
取得部２０２０は、複数の訓練画像５０を取得する（Ｓ１０２）。取得部２０２０が訓練画像５０を取得する方法は様々である。例えば訓練画像５０は、予め、モデル訓練装置２０００から取得可能な態様で、任意の記憶装置に格納されている。この場合、取得部２０２０は、当該記憶装置から訓練画像５０を読み出す。その他にも例えば、取得部２０２０は、他の装置から送信された訓練画像５０を受信することで、訓練画像５０を取得してもよい。

【0053】

＜損失の算出方法：Ｓ１１２＞
訓練実行部２０４０は、第１特徴マップ３０、第２特徴マップ４０、及びパッチセットに基づいて、パッチワイズ損失を算出する。第１特徴マップ３０は、入力画像１０に含まれる複数の領域それぞれについての特徴量を含んでいる。そこで訓練実行部２０４０は、正例パッチ５２に対応する特徴量及び負例パッチ５４に対応する特徴量を、第１特徴マップ３０から抽出する。同様に、第２特徴マップ４０は、出力画像２０に含まれる複数の領域それぞれについての特徴量を含んでいる。そこで訓練実行部２０４０は、正例パッチ２２に対応する特徴量を第２特徴マップ４０から抽出する。そして、訓練実行部２０４０は、正例パッチ５２に対応する特徴量、負例パッチ５４に対応する特徴量、及び正例パッチ２２に対応する特徴量を用いて、パッチワイズ損失を算出する。

【0054】

＜＜特徴量の抽出方法＞＞
入力画像の特定の部分領域についての特徴量を特徴マップから得る具体的な方法については、既存の手法を利用することができる。以下、この方法について簡単に説明する。図８は、画像上の部分領域と、その画像から得られる特徴マップとの関係を例示する図である。この例において、特徴抽出モデル１１０は、入力画像１０内の複数の部分領域に対してフィルタの畳み込み演算を行うように構成されている。

【0055】

特徴マップ２００のセル２１０は、入力画像１０の部分領域１２に対してフィルタの畳み込み演算を行うことによって得られた特徴量を示す。そのため、部分領域１２全体又はその内部の領域に対応する特徴量は、特徴マップ２００のセル２１０から得ることができる。

【0056】

ここで、図８において、入力画像１０が訓練画像５０であり、部分領域１２が正例パッチ５２であり、特徴マップ２００が第１特徴マップ３０であるとする。この場合、正例パッチ５２に対応する特徴量は、第１特徴マップ３０においてセル２１０に相当するセルから得ることができる。

【0057】

正例パッチ５２に対応する特徴量が第１特徴マップ３０のどのセルに含まれるのかは、訓練画像５０における正例パッチ５２の位置から特定することができる。そこで訓練実行部２０４０は、正例パッチ５２に対応する第１特徴マップ３０のセルを特定し、特定したセルから正例パッチ５２に対応する特徴量を抽出する。

【0058】

同様に、負例パッチ５４に対応する特徴量が第１特徴マップ３０のどのセルに含まれるのかは、訓練画像５０における負例パッチ５４の位置から特定することができる。そこで訓練実行部２０４０は、負例パッチ５４に対応する第１特徴マップ３０のセルを特定し、特定したセルから負例パッチ５４に対応する特徴量を抽出する。

【0059】

同様に、正例パッチ２２に対応する特徴量が第２特徴マップ４０のどのセルに含まれるのかは、出力画像２０における正例パッチ２２の位置から特定することができる。そこで訓練実行部２０４０は、正例パッチ２２に対応する第２特徴マップ４０のセルを特定し、特定したセルから正例パッチ２２に対応する特徴量を抽出する。

【0060】

なお、特徴抽出モデル１１０は、入力画像１０の各部分領域から、複数種類の特徴量を抽出するように構成されてもよい。例えば特徴抽出モデル１１０は、入力画像１０に対し、複数のフィルタそれぞれについての畳み込み演算を行うように構成される。この場合、入力画像１０の各部分領域の特徴量がフィルタごとに得られる。よって、図８で例示した２次元のマップがフィルタごとに得られる。そこで訓練実行部２０４０は、各マップから正例パッチ５２等の特徴量を抽出する。

【0061】

＜＜特徴量からパッチワイズ損失を算出する方法＞＞
訓練実行部２０４０は、各パッチセットについて、正例パッチ５２に対応する特徴量、負例パッチ５４に対応する特徴量、及び正例パッチ２２に対応する特徴量の抽出を行う。そして、訓練実行部２０４０は、パッチセットごとに抽出されたこれらの特徴量を用いて、パッチワイズ損失を算出する。パッチワイズ損失には、例えば、非特許文献１に開示されている patchwise contrastive loss を利用することができる。以下、パッチワイズ損失の算出方法を具体的に例示する。

【0062】

１つのパッチセットについての損失は、例えば以下の式（１）で表されるクロスエントロピー損失として算出される。

【数1】

ここで、y(v,vp,vn) は、特徴量 v,vp,vn について算出されるクロスエントロピー損失を表す。v は正例パッチ２２に対応する特徴量を表す。vp は正例パッチ５２に対応する特徴量を表す。vn は負例パッチ５４に対応する特徴量の集合を表す。τは、温度付きソフトマックにおける温度パラメータであり、予め定数が設定されている。N は負例パッチ５４の総数を表す。vn_k は、k 番目の負例パッチ５４に対応する特徴量を表す。ここで、記号「_」は下付き文字を表している。

【0063】

パッチセットが１つである場合、パッチワイズ損失は、上記式（１）で算出される。一方、１つのパッチセットが複数ある場合も考慮すると、パッチワイズ損失は以下の式（２）ように一般化できる。

【数2】

ここで、Loss_pw(S) は、パッチセットの集合 S を利用して得られるパッチワイズ損失を表す。s は１つのパッチセットを表す。v_sはパッチセット s の正例パッチ２２に対応する特徴量を表す。vp_s はパッチセット s の正例パッチ５２に対応する特徴量を表す。vn_sはパッチセット s の負例パッチ５４に対応する特徴量の集合を表す。

【0064】

特徴抽出モデル１１０は、多段階の特徴抽出を行うように構成されていてもよい。例えばこのような特徴抽出モデル１１０としては、複数の畳み込み層を持つ畳み込みニューラルネットワークが挙げられる。複数の畳み込み層を持つ畳み込みニューラルネットワークにおいて、n 番目の畳み込み層は、(n-1）番目の畳み込み層から出力された (n-1)番目の特徴マップに対し、(n-1) 番目のフィルタの畳み込み演算を行うことで、n 番目の特徴マップを出力する（ｎは２以上の整数）。

【0065】

このように多段階の特徴抽出が行われる場合、最終的に得られる特徴マップである第１特徴マップ３０や第２特徴マップ４０だけでなく、途中段階で得られる特徴マップも、パッチワイズ損失の算出に利用することができる。すなわち、訓練画像５０から得られる複数の特徴マップと、出力画像２０から得られる複数の特徴マップとを、パッチワイズ損失の算出に利用することができる。

【0066】

例えば特徴抽出モデル１１０がｎ層の畳み込みニューラルネットワークである場合、各層から特徴マップを得ることで、ｎ個の特徴マップを得ることができる。そして、正例パッチ５２、負例パッチ５４、及び正例パッチ２２に対応する特徴量は、ｎ個の特徴マップそれぞれから抽出することができる。そこで訓練実行部２０４０は、正例パッチ５２、負例パッチ５４、及び正例パッチ２２に対応する特徴量を、ｎ個の特徴マップそれぞれから抽出し、抽出した特徴量を用いてパッチワイズ損失を算出する。

【0067】

訓練画像５０と出力画像２０のそれぞれから得られる複数の特徴マップを利用してパッチワイズ損失を算出する場合、例えばパッチワイズ損失は以下の式（３）で表される。

【数3】

ここで、L は特徴抽出を行うレイヤの集合を表し、l は１つのレイヤを表す。v^l_s は、出力画像２０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ２２に対応する特徴量である。vp^l_s は、訓練画像５０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の正例パッチ５２に対応する特徴量である。vn^l_s は、訓練画像５０が入力された特徴抽出モデル１１０の l 番目のレイヤから出力された特徴マップから得られる、パッチセット s の負例パッチ５４に対応する特徴量の集合である。なお、記号「^」は上付き文字を表している。

【0068】

また、前述したように、パッチワイズ損失は、複数の訓練画像５０についてまとめて算出されてもよい。この場合、パッチワイズ損失は以下の式（４）で一般化することができる。

【数4】

ここで、X は訓練画像５０の集合を表し、x は当該集合から選択された１つの訓練画像５０を表す。

【0069】

＜＜その他の損失について＞＞
画像変換モデル１００の訓練には、パッチワイズ損失に加え、以下で説明する敵対的損失（adversarial loss）をさらに利用することが好適である。この場合、前提として、画像変換モデル１００と識別モデルとを用いて敵対的生成ネットワーク（GAN：Generative Adversarial Networks）が構成される。図９は、画像変換モデル１００と識別モデルとで構成される敵対的生成ネットワークを例示する図である。

【0070】

敵対的生成ネットワーク７０は、画像変換モデル１００と識別モデル８０とで構成される。識別モデル８０は、画像が入力されたことに応じて、その画像が画像変換モデル１００によって生成された画像（すなわち、出力画像２０）であるか否かを表すラベル９０を出力するように訓練される。そのため、訓練済みの識別モデル８０は、カメラで第２環境下のシーンを撮像することで得られた画像が入力されると、その画像が出力画像２０ではないことを表すラベル９０を出力する。また、訓練済みの識別モデル８０は、画像変換モデル１００によって生成された出力画像２０が入力されると、その画像が出力画像２０であることを表すラベル９０を出力する。

【0071】

訓練実行部２０４０は、訓練画像５０を画像変換モデル１００に入力することで出力画像２０を得た後、その出力画像２０を識別モデル８０に入力する。そして、訓練実行部２０４０は、識別モデル８０から得られるラベル９０を利用して、敵対的損失を算出する。ここで、敵対的生成ネットワークにおいて敵対的損失を算出する具体的な方法には、既存の方法を利用することができる。

【0072】

訓練実行部２０４０は、パッチワイズ損失と敵対的損失とを利用して、画像変換モデル１００の訓練を行う。例えば訓練実行部２０４０は、パッチワイズ損失と敵対的損失の合計値や重み付き和を総合損失として算出し、総合損失を利用して敵対的生成ネットワーク７０の訓練（特徴抽出モデル１１０、画像生成モデル１２０、及び識別モデル８０の訓練）を行う。なお、総合損失には、パッチワイズ損失や敵対的損失以外の種類の損失がさらに含まれてもよい。

【0073】

損失を用いたモデルの訓練は、損失に基づいて、モデルを構成するパラメータを更新することで行われる。ここで、損失を利用して敵対的生成ネットワークを構成する各モデルのパラメータを更新する具体的な方法には、既存の方法を利用することができる。

【0074】

＜パッチセットの生成：Ｓ１１０＞
訓練実行部２０４０は、訓練画像５０及び出力画像２０についてパッチセットを生成する。前述したように、１つのパッチセットには、１つの正例パッチ５２、１つ以上の負例パッチ５４、及び１つの正例パッチ２２が含まれる。例えば訓練実行部２０４０は、訓練画像５０から正例パッチ５２を抽出する処理を行った後、訓練画像５０のうちの正例パッチ５２以外の領域から１つ以上の負例パッチ５４を抽出する処理、及び出力画像２０から正例パッチ２２を抽出する処理を行う。

【0075】

正例パッチ５２は、特定種別の物体を含む訓練画像５０の部分領域である特定領域から重点的に抽出される。そこで訓練実行部２０４０は、正例パッチ５２の抽出に利用するために、訓練画像５０から特定領域を検出する。ここで、訓練画像５０から特定の種類の物体を表す領域を検出する技術には、既存の技術を利用することができる。

【0076】

特定種別は、予め定められていてもよいし、ユーザによって指定可能であってもよい。後者の場合、訓練実行部２０４０は、特定種別を表す情報を取得し、その情報に示されている特定種別を表す領域を、特定領域として検出する。特定種別を表す情報は、例えば、ユーザ入力の結果として得られる。

【0077】

以下、検出された特定領域に基づいて正例パッチ５２を抽出する方法について、いくつか例示する。

【0078】

＜＜方法１＞＞
まず訓練実行部２０４０は、特定領域の中と外のどちらから正例パッチ５２を抽出するのかを決定する。この決定は、特定領域の中から抽出される正例パッチ５２の数が、特定領域の外から抽出される正例パッチ５２の数よりも多くなるように行われる。このようにすることで、特定領域から重点的に正例パッチ５２が抽出される。

【0079】

例えば上述の決定は確率的に行われる。このように２つの選択肢のうちの１つを確率的に選択する方法としては、例えば、ベルヌーイ分布から値をサンプルし、サンプル値に基づいて決定するという方法が考えられる。より具体的には、例えば、サンプル値が１である場合には特定領域の中から正例パッチ５２が抽出され、サンプル値が０である場合には特定領域の外から正例パッチ５２が抽出されるようにする。この際、サンプル値が１となる確率を５０％より大きくすることにより、特定領域の中から抽出される正例パッチ５２の数を、特定領域の外から抽出される正例パッチ５２の数よりも確率的に多くすることができる。

【0080】

特定領域の中と外のどちらから正例パッチ５２を抽出するのかを決定した後、訓練実行部２０４０は、当該決定に基づいて、正例パッチ５２の抽出を行う。ここで、正例パッチ５２のサイズ（以下、パッチサイズ）は予め定めておく。特定領域の中から正例パッチ５２を抽出する場合、訓練実行部２０４０は特定領域の中の任意の箇所からパッチサイズの領域を抽出し、この領域を正例パッチ５２として扱う。一方、特定領域の外から正例パッチ５２を抽出する場合、訓練実行部２０４０は、特定領域の外の任意の箇所からパッチサイズの領域を選択し、選択した領域を正例パッチ５２として決定する。なお、ある領域の中から所定サイズの領域を任意に選ぶ技術には、既存の技術を利用することができる。

【0081】

なお、特定領域の中から正例パッチ５２を抽出する場合において、正例パッチ５２の一部が特定領域の外にあってもよい。例えばこの場合、「正例パッチ５２の所定割合以上が特定領域の中にある」という条件を満たすように、正例パッチ５２が抽出される。

【0082】

＜＜方法２＞＞
訓練実行部２０４０は、特定領域との重なりが大きい領域ほど正例パッチ５２として抽出される確率が高くなるように、正例パッチ５２の抽出を行う。そのために、例えば訓練実行部２０４０は、特定領域との重なり率が高いほど高い抽出確率を示す抽出確率マップを生成する。例えば抽出確率マップは、訓練画像５０の各ピクセルについて、そのピクセルを起点（例えば、正例パッチ５２の左上端）とするパッチサイズの領域が正例パッチ５２として抽出される確率を示す確率分布として生成される。特定領域との重なり率が高いほど抽出確率を高くするために、抽出確率マップは、各ピクセルについて、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いが高いほど高い抽出確率を示すように生成される。なお、抽出確率マップは、訓練画像５０に含まれるパッチサイズの各部分領域について、その部分領域が正例パッチ５２として抽出される確率を示しているとも言える。そして、各部分領域の抽出確率は、その部分領域と特定領域との重複度合いが高いほど高く設定される。

【0083】

このような抽出確率マップを生成するために、例えばまず、訓練実行部２０４０は、抽出確率マップの各ピクセルに対し、そのピクセルを起点とするパッチサイズの領域と特定領域との重複度合いを表す値を設定する。その後、訓練実行部２０４０は、抽出確率マップの各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。

【0084】

図１０は、抽出確率マップを例示する図である。この例において、正例パッチ５２のサイズは 2x2 である。また、特定領域３１０のサイズは 4x3 である。抽出確率マップ３００の各ピクセルは、そのピクセルを左上端として正例パッチ５２を抽出した場合に、その正例パッチ５２と特定領域との重複度合いが大きいほど高い抽出確率を示す。ここで、図１０において、抽出確率が高いピクセルほど濃いドットで表現されている。そのため、図１０において、より濃いドットで表現されているピクセルほど、そのピクセルを起点として正例パッチ５２が抽出される確率がより高いことを表している。

【0085】

訓練実行部２０４０は、抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ５２として抽出する。

【0086】

＜＜方法３＞＞
特定種別の物体をさらに細かい小分類に分類し、当該小分類に基づいて、上述した抽出確率マップの各ピクセルの抽出確率が決定されてもよい。例えば特定種別が車である場合、小分類には乗用車、トラック、又はバスなどの種類を設定しうる。以下、訓練画像５０に含まれる物体が属する小分類上の種別のことを、サブ種別と呼ぶ。

【0087】

小分類を考慮する場合、特定種別に属する物体の中でも、そのサブ種別ごとに、画像変換モデル１００の訓練における重要さが異なりうる。例えば、訓練画像５０に出現する頻度が低い種別の物体については、少ない訓練でその特徴を画像変換モデル１００が学習できるようにする必要があることから、訓練上重要な物体であると言える。

【0088】

具体的な例として、昼間の道路の様子を表す画像を入力画像１０とし、その入力画像１０から、夜間の道路の様子を表す出力画像２０が生成されるように、画像変換モデル１００が訓練されるとする。ここで、訓練画像５０を生成するために撮像された道路において、乗用車と比較して、トラックの出現頻度が低いとする。この場合、トラックの特徴を学習できる機会は、乗用車の特徴を学習できる機会より少ない。そのため、少ない訓練でトラックの特徴を画像変換モデル１００が学習できるようにする必要がある。

【0089】

そこで例えば、出現頻度が低いサブ種別ほど、訓練における重要度を高くする。より具体的には、訓練実行部２０４０は、訓練画像５０において、出現頻度がより低いサブ種別に属する物体を表す特定領域ほど抽出確率がより高くなるように、抽出確率マップを生成する。そのために、各サブ種別に対し、その出現頻度が低いほど高い重みが設定される。

【0090】

訓練実行部２０４０は、抽出確率マップの各ピクセルに対し、そのピクセルと特定領域との重複度合いに、その特定領域によって表される物体のサブ種別に対応する重みを掛けた値を設定する。そして、訓練実行部２０４０は、各ピクセルの値を、全てのピクセルの値の総和で割った値に変更する。

【0091】

訓練実行部２０４０は、この抽出確率マップによって表される確率分布からピクセルの座標をサンプリングし、サンプリングされた座標を起点とするパッチサイズの領域を、正例パッチ５２として抽出する。

【0092】

ここで、各サブ種別の重みは、予め定められていてもよいし、訓練実行部２０４０によって決定されてもおい。後者の場合、例えば訓練実行部２０４０は、正例パッチ５２の抽出を行う前に、取得部２０２０によって取得された各訓練画像５０に対して特定種別の物体を検出する処理を行い、検出された物体の数をサブ種別ごとにカウントする。これにより、訓練画像群におけるサブ種別ごとの出現数が特定される。訓練実行部２０４０は、各サブ種別の出現数に基づいて、各サブ種別の重みを決定する。この重みは、出現数が少ないサブ種別の重みほど大きくなるように決定される。

【0093】

＜＜負例パッチ５４の抽出方法＞＞
訓練実行部２０４０は、訓練画像５０に含まれる領域のうち、正例パッチ５２として抽出された領域以外の領域から任意に（例えばランダムに）パッチサイズの領域を抽出し、その領域を負例パッチ５４として利用する。前述したように、１つのパッチセットには複数の負例パッチ５４が含まれてもよい。１つのパッチセットに含まれる負例パッチ５４の数は、予め定めておく。

【0094】

＜＜正例パッチ２２の抽出方法＞＞
訓練実行部２０４０は、正例パッチ５２が抽出された訓練画像５０上の位置と対応する出力画像２０の位置から、正例パッチ２２を抽出する。すなわち、正例パッチ２２の抽出の起点とするピクセルの座標には、正例パッチ５２の抽出の起点として利用された座標と同一の座標が利用される。

【0095】

＜処理結果の出力：Ｓ１１８＞
モデル訓練装置２０００は、処理結果として、訓練済みの画像変換モデル１００を特定可能な情報（以下、出力情報）を出力する。出力情報には、少なくとも、訓練によって得られた画像変換モデル１００のパラメータ群が含まれる。これに加え、出力情報には、画像変換モデル１００を実現するプログラムが含まれていてもよい。

【0096】

出力情報の出力態様は任意である。例えばモデル訓練装置２０００は、出力情報を任意の記憶部に格納する。その他にも例えば、モデル訓練装置２０００は、出力情報を他の装置（例えば、画像変換モデル１００の運用に利用される装置）へ送信する。

【0097】

＜変形例＞
上述のモデル訓練装置２０００では、特定領域から重点的に正例パッチ５２を抽出することにより、特定種別の物体の特徴が特に高い精度で学習されるようにしている。しかしながら、特定種別の物体の特徴が高い精度で学習されるようにする方法は、特定領域から重点的に正例パッチ５２を抽出するという方法に限定されない。

【0098】

例えばモデル訓練装置２０００は、特定領域から重点的に正例パッチ５２を抽出することに加え、又はこれに代えて、特定領域から抽出された正例パッチ５２に対応する特徴を用いて算出される損失（例えば前述したクロスエントロピー損失）の影響が、他の領域から抽出された正例パッチ５２に対応する特徴量を用いて算出される損失の影響よりも大きくなるように、パッチワイズ損失を算出する。なお、特定領域から重点的に正例パッチ５２を抽出するという手法を採用しない場合、例えば正例パッチ５２は、訓練画像５０の任意の箇所から同確率で抽出される。

【0099】

以下、正例パッチ５２が特定領域の中と外のどちらから抽出されたかにより、その正例パッチ５２に対応する特徴量に基づく損失の影響度を決める方法について説明する。

【0100】

例えば訓練実行部２０４０は、以下の式（５）を用いてパッチワイズ損失を算出する。

【数5】

【0101】

式（５）では、パッチセットごとに算出される損失に対し、そのパッチセットに含まれる正例パッチ５２が特定領域の中から抽出された場合には重みαが掛けられる一方、そのパッチセットに含まれる正例パッチ５２が特定領域の外から抽出された場合には重みβが掛けられる。α＞β＞０であることから、正例パッチ５２が特定領域の中から抽出された場合における損失の影響が、正例パッチ５２が特定領域の外から抽出された場合における損失の影響よりも大きくなる。

【0102】

なお、前述した式（３）や（４）を用いてパッチワイズ損失を算出する場合についても同様とすることができる。すなわち、特徴抽出モデル１１０の複数のレイヤから特徴マップが得られる場合、各レイヤから得られた特徴マップについて算出する損失において、上述した重み付けを行うようにする。

【0103】

ただし、複数のレイヤから特徴マップが得られる場合、特徴マップの１つのセルに対応する入力画像の部分領域のサイズとパッチサイズとの関係に基づいて、レイヤごとに重みを設定したり、特定のレイヤのみに重みを付したりしてもよい。以下、この方法について説明する。

【0104】

複数のレイヤから特徴マップが得られる場合、特徴マップの１つのセルに対応する入力画像の部分領域のサイズは、特徴マップごと（レイヤごと）に異なる。例えば、各レイヤにおいてサイズ 3x3 のフィルタの畳み込み処理が行われるとする。この場合、１番目の特徴マップの１つのセルは、入力画像におけるサイズ 3x3 の部分領域に対応する。また、２番目の特徴マップの１つのセルは、１番目の特徴マップにおけるサイズ 3x3 のセルの集合に対応する。このことから、２番目の特徴マップの１つのセルは、入力画像におけるサイズ 9x9 の領域に対応する。同様の理由により、３番目の特徴マップの１つのセルは、入力画像におけるサイズ 27x27 の領域に対応する。このように、後段のレイヤによって生成される特徴マップほど、入力画像のより大きい部分領域に対応する。

【0105】

この点、訓練画像５０についてそれぞれ異なるレイヤから生成される複数の特徴マップにおいて、１つのセルに対応する訓練画像５０の部分領域のサイズがパッチサイズに近い特徴マップほど、正例パッチ５２の特徴をより正確に表していると考えられる。負例パッチ５４や正例パッチ２２についても同様である。

【0106】

そこで例えば、訓練実行部２０４０は、１つのセルに対応する訓練画像５０の部分領域のサイズがパッチサイズにより近い特徴マップほど、その特徴マップから抽出された特徴量に対してより大きい重みを付すように、パッチワイズ損失を算出する。正例パッチ２２と負例パッチ５４についても同様である。この場合、例えばパッチワイズ損失は、以下の式（６）を用いて算出される。

【数6】

ここで、z_p はパッチサイズである。z_l は、l 番目のレイヤから抽出された特徴マップの１つのセルに対応する入力画像（訓練画像５０又は出力画像２０）の部分領域のサイズである。f()は、zp と zl の差分が小さいほど大きい値を出力する関数である。なお、f()>0である。

【0107】

なお、z_p と z_l の差分が最小のレイヤ l についてのみ１より大きい重みを付し、他のレイヤについては重みを付さないようにすることで、特徴マップのセルに対応する入力画像の部分領域のサイズがパッチサイズに最も近くなるレイヤのみに重みを付してもよい。また、z_p と z_l の差分が小さい順で上位所定個のレイヤについてのみ１より大きい重みを付すといった方法が採用されてもよい。

【0108】

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

【0109】

なお、上述の例において、プログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

【0110】

上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行部は、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、モデル訓練装置。
（付記２）
前記訓練実行部は、前記特定領域の中と外のどちらから前記第１正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第１正例パッチが抽出される確率が、前記特定領域の外から前記第１正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第１正例パッチを前記訓練画像から抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出する、付記１に記載のモデル訓練装置。
（付記３）
前記訓練実行部は、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行部は、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記１に記載のモデル訓練装置。
（付記４）
前記訓練実行部は、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記３に記載のモデル訓練装置。
（付記５）
前記訓練実行部は、前記パッチワイズ損失を、前記第１正例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１負例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記１から４いずれか一項に記載のモデル訓練装置。
（付記６）
コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、制御方法。
（付記７）
前記訓練実行ステップにおいて、前記特定領域の中と外のどちらから前記第１正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第１正例パッチが抽出される確率が、前記特定領域の外から前記第１正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第１正例パッチを前記訓練画像から抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出する、付記６に記載の制御方法。
（付記８）
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記６に記載の制御方法。
（付記９）
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記８に記載の制御方法。
（付記１０）
前記訓練実行ステップにおいて、前記パッチワイズ損失を、前記第１正例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１負例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記６から９いずれか一項に記載の制御方法。
（付記１１）
コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させるプログラムが格納されており、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の部分領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の部分領域である第２正例パッチのセットであるパッチセットを１つ以上生成し、
前記第１特徴マップ、前記第２特徴マップ、及び前記パッチセットを用いて算出されるパッチワイズ損失を用いて前記画像変換モデルの訓練を行い、
前記訓練実行ステップにおいて、前記パッチセットの生成において、前記訓練画像に含まれる領域のうち、特定の種別の物体を表す特定領域から重点的に前記第１正例パッチを抽出する、非一時的なコンピュータ可読媒体。
（付記１２）
前記訓練実行ステップにおいて、前記特定領域の中と外のどちらから前記第１正例パッチを抽出するのかを決定する処理を、前記特定領域の中から前記第１正例パッチが抽出される確率が、前記特定領域の外から前記第１正例パッチが抽出される確率よりも高くなるように行い、その決定の結果に基づいて前記第１正例パッチを前記訓練画像から抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出する、付記１１に記載のコンピュータ可読媒体。
（付記１３）
前記訓練実行ステップにおいて、前記訓練画像の複数の部分領域それぞれについて、その部分領域が前記第１正例パッチとして抽出される確率である抽出確率を表す抽出確率マップを生成し、その抽出確率マップによって示される前記抽出確率に従って前記訓練画像から前記第１正例パッチを抽出することで、前記第１正例パッチを前記特定領域から重点的に抽出し、
前記訓練実行ステップにおいて、前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高い前記抽出確率を設定する、付記１１に記載のコンピュータ可読媒体。
（付記１４）
前記訓練実行ステップにおいて、
前記訓練画像に含まれる前記特定領域によって表される物体について、前記特定の種別よりも細かい分類を表すサブ種別を特定し、
前記抽出確率マップにおいて、各部分領域に対し、その部分領域と前記特定領域との重複度合いが高いほど高く、なおかつ、その部分領域と重複している前記特定領域によって表される物体の前記サブ種別の出現頻度が低いほど高い前記抽出確率を設定する、付記１３に記載のコンピュータ可読媒体。
（付記１５）
前記訓練実行ステップにおいて、前記パッチワイズ損失を、前記第１正例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１負例パッチに対応する特徴量と前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように算出する、付記１１から１４いずれか一項に記載のコンピュータ可読媒体。
（付記１６）
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行部と、
前記訓練に用いる第１画像である訓練画像を取得する取得部と、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行部は、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、モデル訓練装置。
（付記１７）
前記訓練実行部は、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記１６に記載のモデル訓練装置。
（付記１８）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行部は、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する入力画像の部分領域のサイズが前記第１正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記１７に記載のモデル訓練装置。
（付記１９）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行部は、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する部分領域のサイズが前記第１正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記１７に記載のモデル訓練装置。
（付記２０）
コンピュータによって実行される制御方法であって、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を有し、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、制御方法。
（付記２１）
前記訓練実行ステップにおいて、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記２０に記載の制御方法。
（付記２２）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する部分領域のサイズが前記第１正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記２１に記載の制御方法。
（付記２３）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する入力画像の部分領域のサイズが前記第１正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記２１に記載の制御方法。
（付記２４）
コンピュータに、
第１環境下のシーンを表す入力画像から第２環境下の前記シーンを表す出力画像を生成するように画像変換モデルの訓練を行う訓練実行ステップと、
前記訓練に用いる第１画像である訓練画像を取得する取得ステップと、を実行させるプログラムが格納されており、
前記画像変換モデルは、前記入力画像の複数の部分領域それぞれから特徴量を抽出して特徴マップを生成する特徴抽出モデルと、前記特徴抽出モデルによって生成される前記特徴マップから前記出力画像を生成する画像生成モデルと、を有し、
前記訓練実行ステップにおいて、
前記訓練画像を前記画像変換モデルに入力することで、前記訓練画像の特徴マップである第１特徴マップと前記出力画像とを取得し、
前記出力画像を前記特徴抽出モデルに入力することで、前記出力画像の特徴マップである第２特徴マップを取得し、
前記訓練画像の一部の領域である第１正例パッチ及び第１負例パッチ、並びに前記出力画像において前記第１正例パッチに対応する位置の領域である第２正例パッチのセットであるパッチセットを複数抽出し、
各前記パッチセットについて、前記第１特徴マップによって示される前記第１正例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが小さくなるように、かつ、前記第１特徴マップによって示される前記第１負例パッチに対応する特徴量と前記第２特徴マップによって示される前記第２正例パッチに対応する特徴量との類似度が高いほどその大きさが大きくなるように損失を算出し、
各前記パッチセットについて算出された損失を用いて、特定の種別の物体を表す特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響が、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の影響よりも大きくなるようにパッチワイズ損失を算出し、
前記パッチワイズ損失を用いて前記画像変換モデルの訓練を行う、非一時的なコンピュータ可読媒体。
（付記２５）
前記訓練実行ステップにおいて、前記パッチセットごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特定領域の中から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みは、前記特定領域の外から抽出された前記第１正例パッチを含む前記パッチセットについて算出された損失の重みよりも大きい値に設定される、付記２４に記載のコンピュータ可読媒体。
（付記２６）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する部分領域のサイズが前記第１正例パッチのサイズに近い特徴マップほど、その特徴マップから抽出された特徴量を用いて算出される損失の重みが大きく設定される、付記２５に記載のコンピュータ可読媒体。
（付記２７）
前記特徴抽出モデルは複数のレイヤを有し、
各前記レイヤは、その１つ前のレイヤによって生成された特徴マップから特徴量を抽出することにより、その１つ前のレイヤによって生成された特徴マップよりも小さいサイズの特徴マップを生成し、
前記訓練実行ステップにおいて、
前記訓練画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第１正例パッチに対応する特徴量及び前記第１負例パッチに対応する特徴量を抽出し、
前記出力画像が入力された前記特徴抽出モデルの複数の前記レイヤによって生成された複数の特徴マップそれぞれから、前記第２正例パッチに対応する特徴量を抽出し、
前記パッチセットごと及び前記レイヤごとに、そのレイヤによって生成された特徴マップから抽出されたそのパッチセットの前記第１正例パッチ、前記第１負例パッチ、及び前記第２正例パッチの特徴量を用いて損失を算出し、
前記パッチセットごと及び前記レイヤごとに算出された損失の重み付き和を算出することで、前記パッチワイズ損失を算出し、
前記重み付き和において、前記特徴マップの１つのセルに対応する入力画像の部分領域のサイズが前記第１正例パッチのサイズに最も近い特徴マップについて、その特徴マップから抽出された特徴量を用いて算出される損失に対して他の損失よりも大きい重みが設定される、付記２５に記載のコンピュータ可読媒体。

【符号の説明】

【0111】

１０入力画像
１２部分領域
２０出力画像
２２正例パッチ
３０第１特徴マップ
４０第２特徴マップ
５０訓練画像
５２正例パッチ
５４負例パッチ
７０敵対的生成ネットワーク
８０識別モデル
９０ラベル
１００画像変換モデル
１１０特徴抽出モデル
１２０画像生成モデル
２００特徴マップ
２１０セル
３００抽出確率マップ
３１０特定領域
５００コンピュータ
５０２バス
５０４プロセッサ
５０６メモリ
５０８ストレージデバイス
５１０入出力インタフェース
５１２ネットワークインタフェース
２０００モデル訓練装置
２０２０取得部
２０４０訓練実行部

【図1】