7161320 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7161320ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2022-10-18

(45)【発行日】2022-10-26

(54)【発明の名称】ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術

(51)【国際特許分類】

G06T 7/00 20170101AFI20221019BHJP

G06N 3/08 20060101ALI20221019BHJP

G06N 20/00 20190101ALI20221019BHJP

【ＦＩ】

G06T7/00 350C

G06N3/08

G06N20/00 130

【請求項の数】 11

【外国語出願】

(21)【出願番号】P 2018117756

(22)【出願日】2018-06-21

(65)【公開番号】P2019032821

(43)【公開日】2019-02-28

【審査請求日】2021-03-22

(31)【優先権主張番号】15/633,288

(32)【優先日】2017-06-26

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】507031918

【氏名又は名称】コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド

(74)【代理人】

【識別番号】110001254

【氏名又は名称】特許業務法人光陽国際特許事務所

(72)【発明者】

【氏名】シュー，ティング

【審査官】藤原敬利

(56)【参考文献】

【文献】特開２００９－２１７３４８（ＪＰ，Ａ）

【文献】特開２０１６－１９１９６６（ＪＰ，Ａ）

【文献】Justin Johnson et al，Perceptual Losses for Real-Time Style Transfer and Super-Resolution，arXiv:1603.08155v1 [cs.CV]，米国，Cornek University，2016年03月27日，https://arxiv.org/pdf/1603.08155.pdf

【文献】Fujun Luan et al，Deep Photo Style Transfer，arXiv:1703.07511v3，米国，Cornel University，2017年04月11日，https://arxiv.org/pdf/1703.07511.pdf

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００－１／４０

Ｇ０６Ｔ３／００－９／４０

Ｇ０６Ｎ３／００－３／１２

Ｇ０６Ｎ７／０８－１０／００

Ｇ０６Ｎ２０／００－９９／００

(57)【特許請求の範囲】

【請求項1】

対象とする画風の複数画像に対して特定の作業を行うディープニューラルネットワーク（ＤＮＮ）を訓練する方法であって、
（ａ）訓練対象のＤＮＮを取得することと、
（ｂ）複数の原訓練画像及び各原訓練画像に対する訓練ラベルを有する原訓練データセットを取得することであって、前記原訓練画像は、対象とする画風とは異なる画風である、と、
（ｃ）対象とする画風の画像を取得することと、
（ｄ）対象とする画風の前記画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練することであって、前記変換後画像は、前記入力画像の内容を有し、前記入力画像の写実品質が維持されており、前記画風目標画像の画風と一致する画風である、と、
（ｅ）訓練済みの前記画風変換ネットワークを用いて、前記各原訓練画像を対応する変換後訓練画像に変換することと、
（ｆ）前記各変換後訓練画像を対応する原訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成することと、
（ｇ）前記水増し訓練データセットを用いて、前記特定の作業を行うように前記ＤＮＮを訓練することと、
を有する、方法。

【請求項2】

対象とする画風の前記複数画像は、対象画像取込装置により撮影された画像であり、ステップ（ｂ）において、前記原訓練画像は、前記対象画像取込装置以外の画像取込装置により撮影されたものであり、ステップ（ｃ）において、対象とする画風の前記画像は、前記対象画像取込装置により撮影された画像である、請求項１に記載の方法。

【請求項3】

前記画風変換ネットワークは、ダウンサンプリングを行う第１の畳み込み層セットと、
第２の畳み込み層セットと、アップサンプリングを行う第３の畳み込み層セットとを有するフィードフォワード型の畳み込みニューラルネットワークであり、
ステップ（ｅ）において、訓練済みの前記画風変換ネットワークは、フォワードパスで前記各原訓練画像を対応する変換後訓練画像に変換する、
請求項１に記載の方法。

【請求項4】

ステップ（ｄ）における前記画風変換ネットワークの訓練は、
内容目標画像セットを準備することと、
各訓練イテレーションにおいて、
入力画像を準備することと、
所定の自然数であるＮ個の内容目標画像を選択することと、
前記画風変換ネットワークを用いて前記入力画像を変換後画像に変換することと、
前記変換後画像、前記画風目標画像及びＮ個の前記各内容目標画像を、画像認識用に訓練された畳み込みニューラルネットワーク（ＣＮＮ）である損失ネットワークを用いて処理することと、
前記画風目標画像と前記ＣＮＮの第１の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより画風損失を計算することと、
Ｎ個の各内容目標画像と前記ＣＮＮの第２の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより内容損失を計算することと、
前記変換後画像の写実性損失を計算することと、
前記画風損失、前記内容損失及び前記写実性損失の加重組み合わせである総損失を計算することと、を有し、
前記総損失が最小化するように、確率的勾配降下法を用いて複数の訓練イテレーションにより前記画風変換ネットワークを訓練することと、を有し、
前記損失ネットワークは、全訓練イテレーションにおいて固定されている、
請求項１に記載の方法。

【請求項5】

各訓練イテレーションにおいて、Ｎ＝１であり、前記入力画像は前記内容目標画像と同一である、請求項４に記載の方法。

【請求項6】

複数の訓練イテレーション用の前記内容目標画像が、ビデオクリップの連続する画像フレームであり、Ｎ＝１であって、前記複数の訓練イテレーションの各イテレーション用の前記入力画像が、前の訓練イテレーションにおいて生成された前の画像フレームの変換後画像である、請求項４に記載の方法。

【請求項7】

前記ＣＮＮが、５群の畳み込み層を有し、前記画風損失の計算に用いられる第１の選択された前記畳み込み層セットは、５群のうち最後の後ろの３群のそれぞれの最後の畳み込み層からなり、前記内容損失の計算に用いられる第２の選択された前記畳み込み層セットは、５群のそれぞれの最後の畳み込み層からなる、請求項４に記載の方法。

【請求項8】

前記写実性損失は、前記変換後画像から構築したマッティング・ラプラシアンにより計算される、請求項４に記載の方法。

【請求項9】

前記ＣＮＮは、内容画像セットを訓練データとして用いて画像認識用に訓練されている、請求項４に記載の方法。

【請求項10】

ステップ（ａ）において取得する前記ＤＮＮは、特定の作業を行うように、対象カメラに特有ではない訓練データセットを用いて事前学習されている、請求項１に記載の方法。

【請求項11】

ステップ（ａ）において取得する前記ＤＮＮは、前記原訓練データセットを用いて事前学習されている、請求項１に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ディープニューラルネットワークに関し、特に画風変換によりディープニューラルネットワーク用のラベル付き訓練データを生成するデータオーグメンテーション（データ水増し）法に関する。

【背景技術】

【0002】

人工ニューラルネットワークは、機械学習を始めとする様々な分野で用いられており、コンピュータービジョンや音声認識といった広範囲な作業を行うことができる。人工ニューラルネットワークは、相互接続されたノード（ニューロン）の層からなり、各ニューロンは、接続された他のニューロンからの重み付けされた入力を出力（活性）に変換する活性化関数を有している。学習（訓練）過程では、訓練データが人工ニューラルネットワークに与えられ、当該学習過程を経て相互接続における適応可能な重みが更新される。訓練の後、ニューラルネットワークには、処理対象のデータが入力され、処理結果が生成される。訓練データは、処理対象のデータと同じ性質のデータ（例えば画像）からなり、各入力データに対する処理結果の正解を示すラベルが付けられている。例えば、ニューラルネットワークを、画像中の猫及び犬を認識するように訓練しているとすると、訓練データには、猫または犬を含んだ画像が含まれ、各訓練画像には、当該画像に猫または犬が含まれるかどうかを示すラベルが付けられている。

【0003】

ディープニューラルネットワーク（ＤＮＮ）の訓練には、モデルのオーバーフィッティングを防いだり、モデルの汎化能力を改善したりするために、大量のラベル付き訓練データが必要である。既存のラベル付き訓練データを最大限活用するために、原訓練データセットをそのラベルを維持したまま変換することにより追加訓練データ生成して、訓練データを水増しすること（データオーグメンテーション（データ水増し）とも呼ばれる。）が一般的に行われている。例えば、画像認識作業用のＤＮＮの訓練には、既存の訓練画像を、ラベル付けした物体について切り抜いたり、幾何学変換（変換、回転、拡大縮小、せん断、レンズによる歪み等）したり、その色または強度を変換したり、及び／または様々な種類のノイズを適用したりして、同一ラベルの新たな訓練画像を生成することができる。データオーグメンテーションでは、訓練データのプールが拡充されるが、訓練ラベルの追加は必要とされない。このような方法により作成される追加訓練データは、特別な「画風」に変換されていないという点で「一般的」である。

【0004】

ＤＮＮモデルの容量にもよるが、オーバーフィッティングを防ぐのに必要な訓練データ数は、百万の単位にもなりうる。実際に、特定の作業用、例えば特定の物体の認識用のＤＮＮを訓練するには、ＤＮＮを、まず非常に大きな訓練データセット（一般データセットと呼ばれ、ＩｍａｇｅＮｅｔ等がある。一般公開されている画像データベースで、ラベル付けされている。）により事前学習（プレトレーニング）させ、次いで、用途に特有の訓練データセット（カスタムデータセットと呼ばれる。）により訓練（ファインチューニング）してもよい。この方法は、転移学習と呼ばれる。通常、カスタムデータセットには、追加のラベル付けが必要である。カスタムデータセットと一般データセットの類似度合いにもよるが、カスタムデータセットのサイズは数千になりうる。手作業によるカスタムデータセットのラベル付けは、コストがかかり、退屈であり、時にミスを起こしやすい。

【0005】

データオーグメンテーションに、３次元ＣＡＤモデルから描画した合成画像を用いることが提案されている。この方法における課題の一つは、写実的な画像を生成することである。例えば、Ｘ．Ｐｅｎｇらによる「ＳｙｎｔｈｅｔｉｃｔｏＲｅａｌＡｄａｐｔａｔｉｏｎｗｉｔｈＧｅｎｅｒａｔｉｖｅＣｏｒｒｅｌａｔｉｏｎＡｌｉｇｎｍｅｎｔＮｅｔｗｏｒｋｓ」（ａｒＸｉｖプレプリント、ａｒＸｉｖ：１７０１．０５５２４ｖ３、２０１７年３月１８日）には、ドメイン適応アルゴリズムを用いた画像合成用のＤｅｅｐＧｅｎｅｒａｔｉｖｅＣｏｒｒｅｌａｔｉｏｎＡｌｉｇｎｍｅｎｔＮｅｔｗｏｒｋ（ＤＧＣＡＮ）が記載されている。

【0006】

Ｃ．Ｃｈａｒａｌａｍｂｏｕｓらによる「Ａｄａｔａａｕｇｍｅｎｔａｔｉｏｎｍｅｔｈｏｄｏｌｏｇｙｆｏｒｔｒａｉｎｉｎｇｍａｃｈｉｎｅ／ｄｅｅｐｌｅａｒｎｉｎｇｇａｉｔｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｓ」（ａｒＸｉｖプレプリント、ａｒＸｉｖ：１６１０．０７５７０ｖ１、２０１６年１０月２４日）には、「シミュレーションベースの方法論と、データオーグメンテーション用の合成ビデオフレーム及びシーケンスの生成に用いることのできる、対象に特化したデータセット」（要約）が記載されている。

【0007】

ＵＳ特許出願公開Ｎｏ．２０１５／０３７９４２２「Ｄａｔａａｕｇｍｅｎｔａｔｉｏｎｂａｓｅｄｏｎｏｃｃｌｕｓｉｏｎａｎｄｉｎｐａｉｎｔｉｎｇ」には、「機械学習型の分類器におけるデータセットの水増しは・・・一例として、少なくとも１つの訓練データを含む訓練データセットと、オクルージョン部及びインペイント部を含むラベルを維持した変換を有するシステムがある。オクルージョン部は、前記少なくとも１つの訓練データの選択部分をオクルージョンする。インペイント部は、前記少なくとも１つの訓練データのオクルージョンされた部分を、オクルージョンされた部分とは異なる部分のデータに基づき修復する。」（要約）と記載されている。

【0008】

画風変換とは、入力画像を変換して、意味内容は該入力画像のものであるが、「画風」が参照画像のものである出力画像とする、画像変換の一種である。例えば、Ｌ．Ａ．Ｇａｔｙｓらによる「ＡＮｅｕｒａｌＡｌｇｏｒｉｔｈｍｏｆＡｒｔｉｓｔｉｃＳｔｙｌｅ」（ａｒＸｉｖプレプリント、ａｒＸｉｖ：１５０８．０６５７６ｖ２、２０１５年９月２日）（「Ｇａｔｙｓ２０１５」）には、任意の画像を、例えばゴッホの絵画調等の特定の芸術的な画風の画像に変換することのできる、ディープニューラルネットワークモデルが記載されている。「システムは、ニューラル表現を用いて、任意の画像の内容及び画風を分離・再結合する。これにより、芸術的な画像を生成するニューラルアルゴリズムが提供される。」（要約）

【0009】

Ｊ．Ｊｏｈｎｓｏｎらによる「ＰｅｒｃｅｐｔｕａｌＬｏｓｓｆｏｒＲｅａｌ－ＴｉｍｅＳｔｙｌｅＴｒａｎｓｆｅｒａｎｄＳｕｐｅｒ－Ｒｅｓｏｌｕｔｉｏｎ」（ａｒＸｉｖプレプリント、ａｒＸｉｖ：１６０３．０８１５５ｖ１、２０１６年５月２７日）（「Ｊｏｈｎｓｏｎ２０１６」）には、Ｇａｔｙｓ２０１５の結果と似た芸術的な画像を生成することのできる画風変換法が記載されているが、３桁速いとされている。「我々は、画像変換用のフィードフォワード変換ネットワークを訓練するが、低レベルのピクセル情報のみによるピクセル毎の損失関数を用いるのではなく、事前学習させた損失ネットワークからの高レベルの特徴に基づく知覚的な損失関数を用いてネットワークを訓練する。訓練において、知覚的な損失に基づく画像の類似性の測定は、ピクセル毎の損失に基づく測定よりもロバスト性が高く、テスト時には、変換ネットワークがリアルタイムで実行される。」（２頁）

【0010】

Ｆ．Ｌｕａｎらによる「ＤｅｅｐＰｈｏｔｏＳｔｙｌｅＴｒａｎｓｆｅｒ」（ａｒＸｉｖプレプリント、ａｒＸｉｖ：１７０３．０７５１１ｖ３、２０１７年４月１１日）（「Ｌｕａｎ２０１７」）には、時刻、天気、季節、芸術的編集といった様々なシナリオに基づく参照画風を忠実に取り入れることのできる写真的な画風変換のディープラーニングによる手法が記載されている。この手法によれば、歪みを抑え、満足のいく写実的な画風変換を実現することができる。

【0011】

ＵＳ特許Ｎｏ．９５７６３５１「Ｓｔｙｌｅｔｒａｎｓｆｅｒｏｒｈｅａｄｓｈｏｔｐｏｒｔｒａｉｔｓ」には、顔写真の画風を変換する方法が記載されている。ＵＳ特許Ｎｏ．９５９４９７７「Ａｕｔｏｍａｔｉｃａｌｌｙｓｅｌｅｃｔｉｎｇｅｘａｍｐｌｅｓｔｙｌｉｚｅｄｉｍａｇｅｓｆｏｒｉｍａｇｅｓｔｙｌｉｚａｔｉｏｎｏｐｅｒａｔｉｏｎｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｃｏｎｔｅｎｔ」には、「画像の画風変換処理に用いられる、内容に基づく画風例の選択」法が記載されており、「例えば、訓練画像は、画風変換した画像例の特定に用いることができ、特定の種類の意味内容を持つ入力画像を画風変換する場合に、高品質な画風変換画像を生成することができる。」（要約）と記載されている。

【発明の概要】

【発明が解決しようとする課題】

【0012】

コストがかかり、退屈であり、ミスを起こしやすい手作業による訓練データのラベル付けの必要性を減らすために、本発明の実施形態によれば、ニューラルネットワークによる画風変換を用いて既存の訓練データを所要の画風の訓練データに変換することにより、カスタム訓練データの作成に訓練ラベルを再利用することができる方法が提供される。既存の訓練データは、一般訓練データセットであってよく、あるいは、画風が異なる別のカスタム訓練データセットであってもよい。

【0013】

本発明の付加的な特徴及び利点は、以下の詳細な説明に記載され、またその一部は詳細な説明から明らかであり、あるいは本発明の実施により知りうるものであってもよい。本発明の目的及びその他の利点は、明細書及び特許請求の範囲、更には添付図面において特に示す構造により実現され、達成されるであろう。

【課題を解決するための手段】

【0014】

上記の目的を達成するために、本発明によれば、対象とする画風の複数画像に対して特定の作業を行うディープニューラルネットワーク（ＤＮＮ）を訓練する方法であって、（ａ）訓練対象のＤＮＮを取得することと、（ｂ）複数の原訓練画像及び各原訓練画像に対する訓練ラベルを有する原訓練データセットを取得することであって、前記原訓練画像は、対象とする画風とは異なる画風である、と、（ｃ）対象とする画風の画像を取得することと、（ｄ）対象とする画風の前記画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練することであって、前記変換後画像は、前記入力画像の内容を有し、前記入力画像の写実品質が維持されており、前記画風目標画像の画風と一致する画風である、と、（ｅ）訓練済みの前記画風変換ネットワークを用いて、前記各原訓練画像を対応する変換後訓練画像に変換することと、（ｆ）前記各変換後訓練画像を対応する原訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成することと、（ｇ）前記水増し訓練データセットを用いて、前記特定の作業を行うように前記ＤＮＮを訓練することと、を有する方法が提供される。

【0015】

実施形態の１つによれば、ステップ（ｄ）における前記画風変換ネットワークの訓練は、内容目標画像セットを準備することと、各訓練イテレーションにおいて：入力画像を準備することと；所定の自然数であるＮ個の内容目標画像を選択することと；前記画風変換ネットワークを用いて前記入力画像を変換後画像に変換することと；前記変換後画像、前記画風目標画像及びＮ個の前記各内容目標画像を、画像認識用に訓練された畳み込みニューラルネットワーク（ＣＮＮ）である損失ネットワークを用いて処理することと；前記画風目標画像と前記ＣＮＮの第１の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより画風損失を計算することと；Ｎ個の各内容目標画像と前記ＣＮＮの第２の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより内容損失を計算することと；前記変換後画像の写実性損失を計算することと；前記画風損失、前記内容損失及び前記写実性損失の加重組み合わせである総損失を計算することと、を有し、前記総損失が最小化するように、確率的勾配降下法を用いて複数の訓練イテレーションにより前記画風変換ネットワークを訓練することと、を有し、前記損失ネットワークは、全訓練イテレーションにおいて固定されている。

【0016】

本発明の別の側面によれば、データ処理装置を制御するためのコンピュータ読み取り可能なプログラムコードを有するコンピュータ使用可能な非一時的な媒体（例えば、メモリーまたは記憶装置）を有するコンピュータプログラム製品が提供され、当該コンピュータ読み取り可能なプログラムは、データ処理装置に上記方法を実行させるよう構成されている。

【0017】

上記の一般的な記載及び以下の詳細な記載は、いずれも例示および説明であって、特許請求の範囲に記載の発明のさらなる説明を提供するためのものであると理解すべきである。

【図面の簡単な説明】

【0018】

【図1】対象カメラにより撮影した画像に対して特定の作業を行うＤＮＮモデルを訓練するための、本発明の実施形態に係るデータオーグメンテーション法を模式的に示す図である。

【図2】本発明の実施形態に係るニューラルネットワークアーキテクチャであって、図１のデータオーグメンテーション法に用いられる画風変換ネットワークの訓練に用いられるものを模式的に示す図である。

【発明を実施するための形態】

【0019】

本発明の実施形態によれば、ニューラルネットワークによる画風変換技術が、対象を絞った画像認識・検出作業用の訓練データの水増しに用いられる。ニューラルネットワークによる画風変換によれば、既存の訓練画像が目標とする画風の訓練画像に変換されるので、訓練ラベルの再利用が可能である。また、高速且つ写実的に、リアルな訓練画像を生成することができる。

【0020】

用途の１例として、ディープニューラルネットワーク（ＤＮＮ）が、特定のカメラＡにより撮影された画像から人物等の特定の物体を検出するように訓練されているビデオ監視システムがある。ＤＮＮの訓練に用いる訓練データは、カメラＡにより撮影されたラベル付き画像である。別のカメラＢ（カメラＢは、カメラＡとは異なる種類及び／またはモデルであり撮像特性が異なる、あるいはカメラＢは、カメラＡとは照明条件が異なる場所に設置されている、等。）により撮影された画像の処理に、この訓練済みＤＮＮを直接（すなわち、再トレーニングまたはファインチューニングせずに）用いると、認識能力の低下が起こりうる。これは、カメラＢにより撮影された画像は、異なる基礎的な確率分布からサンプリングされた特徴を持つため、カメラＡにより撮影された画像とは画風が異なることがあるからである。すなわち、異なるカメラにより撮影された画像は、画風の不一致がみられるからである。

【0021】

本開示において、画風という用語は、広く様々な要素を包含し、テクスチャ、エッジコントラスト等の低レベルの（局所的な）画像統計量や、照明条件による効果、カメラによる撮像過程で取り込まれたノイズパターン、色特性（カメラによって色相が異なる。）等の全体的な要素が含まれる。本明細書に記載する特定の用途では、特定の芸術的な画風を得ることを目的としておらず、また考慮していない。

【0022】

したがって、パフォーマンスの低下を改善しつつ、訓練済みのＤＮＮを再利用してカメラＢにより撮影された画像を処理するためには、カメラＢにより撮影された訓練画像を用いて訓練済みのモデルのファインチューニング（転移学習）することが望まれる。しかしながら、カメラＢにより撮影された新たな画像を訓練に用いるには、手作業による当該画像のラベル付けが必要である。

【0023】

本発明の実施形態によれば、特定のカメラ（「対象カメラ」）により撮影された画像に対して特定の作業（例えば、人物または物体認識）を行うＤＮＮモデルをファインチューニングするための訓練データを生成する方法が提供される。本方法は、対象カメラ以外の他のカメラにより撮影された既存のラベル付き訓練画像を利用し、既存の訓練ラベルを再利用できるように、他のカメラの画風の当該既存の訓練画像を、その意味内容を維持しつつ対象カメラの画風の変換後訓練画像に変換することにより行われる。ＤＮＮモデルは、既存のラベル付きの変換後訓練画像を用いてファインチューニングすることができる。これにより、対象カメラにより撮影された訓練画像に手作業でラベル付けをする必要が少なくなるか、または無くなる。

【0024】

本開示では、カメラという用語は、広くあらゆる好適な画像取込装置を指し、可視光線カメラ、ＩＲカメラ、スチルカメラ、ビデオカメラなどを含む。

【0025】

図１に、対象カメラにより撮影された画像に対して特定の作業（例えば人物、人物の動きまたはその他の特定の物体の認識）を行うＤＮＮモデルを訓練するための、本発明の実施形態に係る方法を模式的に示す。本方法は、訓練対象のＤＮＮモデル（ステップＳ１１）及び対象カメラに特有ではない原訓練データセット（ステップＳ１２）から始める。原訓練データセットには、対象カメラ以外の他のカメラにより撮影された、ラベル付きの原訓練画像が含まれる。

【0026】

好ましい実施形態によれば、ＤＮＮは、特定の作業を行うように構築され、事前学習されているが、対象カメラに特有ではない訓練データセットが用いられている（例えば、訓練画像は対象カメラにより撮影されたものではない。）。例えば、ＤＮＮは、ステップＳ１２に記載の原訓練データセットまたはその他の訓練データセットを用いて事前学習されていてもよい。

【0027】

対象カメラにより撮影した画像を取得する（ステップＳ１３）。画風変換ネットワークを、当該画風変換ネットワークの訓練に用いるネットワークベースの構造と併せて準備する（ステップＳ１４）。本開示において、「ネットワーク」という用語は、別段の記載がない限り人工ニューラルネットワークを指す。ステップＳ１３において対象カメラにより撮影された画像（画風目標画像と称する。）及び第２の画像セット（内容目標画像と称する。）を用いて画風変換ネットワークを訓練することにより、当該画風変換ネットワークは、入力画像を、（１）入力画像の内容が保たれ、（２）入力画像の写実品質が維持されているが、（３）その画風が画風目標画像の画風と一致する変換後画像に変換する画風変換を行うことができるようになる（ステップＳ１４）。

【0028】

画風変換ネットワークは、訓練後、ステップＳ１２で取得した原訓練画像を変換後訓練画像に変換するのに用いられる（ステップＳ１５）。その結果、変換後訓練画像は、内容が原訓練画像のものであるが、画風が画風目標画像（すなわち、ステップＳ１３において対象カメラにより取得された画像）のものとなる。次いで、各変換後訓練画像を、対応する原訓練画像と同じラベルによりラベル付けして、水増し訓練データセットを作成する（ステップＳ１６）。そして、この水増し訓練データセットを用いて、対象カメラにより撮影された画像に対する作業用のステップＳ１１で取得したＤＮＮモデルを訓練（ファインチューニング）する（ステップＳ１７）。

【0029】

ステップＳ１４において画風変換ネットワークの訓練に用いられる第２の画像セット（内容目標画像）は、原訓練画像と同一であってもその一部であってもよく、あるいは異なる画像セットであってもよい。

【0030】

図２に、画風変換ネットワークの訓練に用いられるニューラルネットワークアーキテクチャと、それに関連するステップＳ１４における訓練法を模式的に示す。ネットワークアーキテクチャは、訓練される画風変換ネットワーク２１と、固定された損失ネットワーク２２と、写実性正則化部２３と、総損失算出部２４とを有する。

【0031】

画風変換ネットワーク２１及び損失ネットワーク２２には、Ｊｏｈｎｓｏｎ２０１６（当該論文の補足資料を参照。）に改変を加えたものが適用される。画風変換ネットワーク２１は、残渣接続（ｒｅｓｉｄｕａｌｃｏｎｎｅｃｔｉｏｎ）のある（または無い）フィードフォワード型の畳み込みニューラルネットワークである。このネットワークは、種々の目標とする画風への画風変換を行うように訓練することができ、目標とする画風毎に個別に訓練される。好ましい実施形態によれば、画風変換ネットワーク２１は、以下の一連の層を有する。
３２ｘ９ｘ９、ストライド１のＣｏｎｖ
６４ｘ３ｘ３、ストライド２のＣｏｎｖ
１２８ｘ３ｘ３、ストライド２のＣｏｎｖ
（１２８ｘ３ｘ３Ｃｏｎｖ＞＞＞バッチ正規化＞＞＞ＲｅＬｕ＞＞＞１２８ｘ３ｘ３Ｃｏｎｖ＞＞＞バッチ正規化＞＞＞ＲｅＬｕ）ｘ５
６４ｘ３ｘ３、ストライド１／２のＣｏｎｖ
３２ｘ３ｘ３、ストライド１／２のＣｏｎｖ
３ｘ９ｘ９、ストライド１のＣｏｎｖ

【0032】

上記において、「Ｃｏｎｖ」は、畳み込み層を表し；「３２ｘ９ｘ９」中の３２は層の深さ、９ｘ９は畳み込みのフィルターサイズであり；畳み込みの「ストライド」とは、畳込みにおいてフィルターが１回につき横方向にスライドするピクセル数であり（ストライドが２の層はダウンサンプリング層であり、ストライドが１／２の層はアップサンプリング層である。）；「バッチ正規化」は空間バッチ正規化層を表し；「ＲｅＬｕ」は、ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ（正規化線形関数）層を表す。中央の５群の層は、残渣接続の無い等価な形式で表されている。あるいは、これらの群は残渣接続を含んでいてもよい。

【0033】

損失ネットワーク２２もまた、畳み込みニューラルネットワークであり、画風変換ネットワーク２１により行われる変換における画風損失と内容損失の計算に用いられる。損失ネットワーク２２は、画像分類用に事前学習されており、画風変換ネットワーク２１の訓練中は固定されたままである。損失ネットワーク２２は、ＩｍａｇｅＮｅｔ等の一般訓練データセットを用いて事前学習されていてもよく、内容目標画像（例えば原訓練画像と同一である場合は、ラベル付き訓練データセットの一部であるものとする。）によって更にファインチューニングされていてもよい。内容目標画像が、一般訓練データセットの画像と大きく異なる場合、内容目標画像を用いた損失ネットワークをさらにファインチューニングすると、損失ネットワークが内容目標画像には存在するが一般訓練データセットには存在しない特徴を捉えることが可能になるため有用である。

【0034】

実施形態の一つによれば、損失ネットワーク２２には、ＶＧＧ－１６ネットワークを適用しており、詳細はＫ．ＳｉｍｏｎｙａｎらによるＶｅｒｙＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓＦｏｒＬａｒｇｅ－ＳｃａｌｅＩｍａｇｅＲｅｃｏｇｎｉｔｉｏｎ、ＩＣＬＲ２０１５（「Ｓｉｍｏｎｙａｎ２０１５」）に記載されている。損失ネットワーク２２は、５群の主要な畳み込み層群を有し、各層群間に最大プーリングを有する。ＶＧＧ－１６ネットワークは、畳み込み層の後ろに多数のの全結合層と１つのソフトマックス層を有するが、これらの層は損失ネットワーク２２では使用されないことに留意されたい。

【0035】

画風変換ネットワーク２１の訓練の際、各訓練イテレーションにおけるネットワークシステムへの入力には、画風目標画像Ｙ＿ｓ、内容目標画像Ｙ＿ｃ及び入力画像Ｘが含まれる。画風目標画像Ｙ＿ｓは、全訓練イテレーションにおいて同一であり、この画風を対象にして画風変換ネットワークが訓練される。各イテレーションでは、画像セット（例えば、上記ステップＳ１４において述べた第２の画像セット）の画像が、内容目標画像Ｙ＿ｃとして用いられる。各イテレーションにおける入力画像Ｘは、内容目標画像Ｙ＿ｃと同一または類似であるのが好ましいが、異なる画像であってもよく、あるいはランダムノイズ画像であってもよい。第２の画像セットの内容画像が静止画像である好ましい実施形態によれば、入力画像Ｘは、内容目標画像Ｙ＿ｃと同一、すなわちＸ＝Ｙ＿ｃである。入力Ｘを内容目標Ｙ＿ｃに初期化することにより、ランダムノイズ画像を入力Ｘとして始める場合よりも、良好な画風変換された出力が得られる。訓練イテレーションが多数であり、その内容画像がビデオクリップの連続フレームである別の好ましい実施形態によれば、あるイテレーションにおける入力画像Ｘは、直前のフレームの出力Ｘ’を変換したもの、すなわち前訓練イテレーションからのＸ’＿｛ｔ－１｝であってよく、内容目標Ｙ＿ｃは現在のフレーム画像であってよい。

【0036】

入力画像Ｘ（必要であればパディングを含む。）は、画風変換ネットワーク２１に入力され、フォワードパスにより変換後画像Ｘ’が生成される。変換後画像Ｘ’、画風目標画像Ｙ＿ｓ及び内容目標画像Ｙ＿ｃは、損失ネットワーク２２に入力される。損失ネットワーク２２は、これら３つの画像のそれぞれを個別に処理し、処理結果を比較して、（１）画風目標画像Ｙ＿ｓに対する変換後画像Ｘ’の画風の相違を表す画風損失と、（２）内容目標画像Ｙ＿ｃに対する変換後画像Ｘ’の内容の相違を表す内容損失とを計算する。一方で、変換後画像Ｘ’は、写実性正則化部２３に入力され、変換後画像Ｘ’がどの程度写実的であるかを表す正則化量（写実性損失）が計算される。変換における総損失は、画風損失、内容損失及び写実性損失の加重組み合わせとして定義される。画風変換ネットワーク２１は、総損失が最小化するように、確率的勾配降下法を用いて複数のイテレーションにより訓練される。

【0037】

好ましい実施形態によれば、画風損失と内容損失の計算法として、Ｊｏｈｎｓｏｎ２０１６に記載の方法が適用される。具体的には、画風損失は、損失ネットワーク２１から選択される１つ以上の層の活性化を用いて計算される。選択された各層ｊでは、要素が（Ｊｏｈｎｓｏｎ２０１６の式（３））のＣ_ｊｘＣ_ｊ行列であるグラム行列が定義されている：

【数1】

式中、Ｃ_ｊ、Ｈ_ｊ及びＷ_ｊは、ｊ番目の層の特徴マップの深さ、高さ及び幅であり、Φ_ｊ（ｘ）は、入力ｘに対するネットワークΦのｊ番目の活性化である。よって、ｊ番目の層の画風損失は、変換後画像Ｘ’と画風目標画像Ｙ＿ｓ（Ｊｏｈｎｓｏｎ２０１６の式（４））のグラム行列の違いのフロベニウムノルムの２乗である：

【数2】

式中、

【数3】

は、ｊ番目の層からの画風損失であり、

【数4】

は、それぞれ変換後画像Ｘ’及び画風目標画像Ｙ＿ｓを表す。
変換器の画風損失は、選択したすべての層の画風損失の加重和である。

【0038】

内容損失もまた、損失ネットワーク２１から選択された１つ以上の各層（画風損失で用いた選択層と異なっていてもよい。）の活性化を用いて計算される。選択された各層からの内容損失は、変換後画像Ｘ’と内容目標画像Ｙ＿ｃ（Ｊｏｈｎｓｏｎ２０１６の式（２））の特徴表現間の（平方、正規化した）ユークリッド距離である：

【数5】

式中、

【数6】

は、ｊ番目の層からの内容損失（Ｊｏｈｎｓｏｎ２０１６では「特徴復元損失（ｆｅａｔｕｒｅｒｅｃｏｎｓｔｒｕｃｔｉｏｎｌｏｓｓ）」と呼ばれる。）であり、

【数7】

は、それぞれ変換後画像Ｘ’及び内容目標画像Ｙ＿ｃを表す。
変換器の内容損失は、選択されたすべての層からの内容損失の加重和である。

【0039】

本発明の好ましい実施形態によれば、内容損失は、ＲｅＬｕ１＿２、ＲｅＬｕ２＿２、ＲｅＬｕ３＿３、ＲｅＬｕ４＿３及びＲｅＬｕ５＿３層、すなわち損失ネットワークの５つの畳み込み層群のそれぞれの最後の層で計算され、画風損失は、ＲｅＬｕ３＿３、ＲｅＬｕ４＿３及びＲｅＬｕ５＿３層のみで計算される。

【0040】

Ｊｏｈｎｓｏｎ２０１６の図２に示された例では、画風損失は、ＶＧＧ－１６損失ネットワークのＲｅＬｕ１＿２、ＲｅＬｕ２＿２、ＲｅＬｕ３＿３及びＲｅＬｕ４＿３層で計算され、内容損失は、ＲｅＬｕ３＿３層のみで計算されることに留意されたい。好ましい実施形態とＪｏｈｎｓｏｎ２０１６の例が異なる理由の一つは、Ｊｏｈｎｓｏｎ２０１６の画風変換器が芸術的な画風変換を目的としており、芸術的な画風の維持が内容の維持よりも重要だからである。一方、本発明の実施形態では、画像変換がデータオーグメンテーション（データ水増し）を目的としていることから、異なる画風を一括で適用しつつ入力画像の内容をできる限り維持することが重要である。このため、内容損失は、損失ネットワークのすべての層群から計算される。画風については、画風目標画像の全体的な特徴がより重要であることから、画風損失は、主要な層群の最後の３層のみから計算される。換言すれば、画風目標画像の細部は重要ではないことから、最初の２つの群は、画風損失の計算に用いられない。

【0041】

写実性損失は、変換後画像Ｘ’から構築したマッティング・ラプラシアンにより計算することができる。好ましい実施形態によれば、写実性正則化部２３による写実性損失の計算法には、Ｌｕａｎ２０１７が適用される。正則化の項（すなわち写実性損失）は、Ｌｕａｎ２０１７の式（２）である：

【数8】

式中、Ｖｃ［Ｏ］は、カラーチャンネルｃにおける画像Ｏ（変換後画像Ｘ’）をベクトル化したものであり、

【数9】

は、変換器の入力画像Ｉ（すなわち、図２の入力画像Ｘ）にのみ依存する最小二乗ペナルティ関数を表す行列である。

【0042】

上記の式では、加算は３つのカラーチャンネル（すなわち、ＲＧＢ）について行う。本発明の実施形態のいくつかによれば、処理される画像は、１つのカラーチャンネルしか持たないグレースケール画像である。

【0043】

写実性損失を総損失に含めたのは、変換後画像は、現実の画像を処理するニューラルネットワークを訓練するための訓練画像として使用されるものであり、写実性を保っているべきだからである。

【0044】

総損失算出部２４で算出された変換による総損失は、画風損失、内容損失及び写実性損失の加重組み合わせである。前述のように、画風変換ネットワーク２１は、総損失が最小化するように、確率的勾配降下法を用いて複数のイテレーションにより訓練される。

【0045】

上記では、各訓練イテレーションにつき１つの内容目標画像Ｙ＿ｃを用いたが、それに代えて、「ミニバッチ」と呼ばれる訓練画像の小さなサブセットを各イテレーションにおける内容目標（Ｙ＿ｃ）として用いて訓練してもよい。ミニバッチ中の各内容目標画像Ｙ＿ｃに対する変換後画像Ｘ’の内容損失をそれぞれ算出し、平均化して平均内容損失を求め、これに画風損失及び写実性損失を組み合わせて総損失を求める。ミニバッチのサイズＮは、計算装置（通常ＧＰＵ）の利用可能なメモリーに従って選択するが、通常２の累乗に設定する。従って、１、４、１６、３２、６４、１２８が一般に用いられる。

【0046】

訓練処理により出力されるのは、画風参照画像の画風を他の入力画像に適用することのできる訓練済み画風変換ネットワーク２１である。一旦訓練されれば、画風変換器は、入力画像を単一のフィードフォワード経路により変換することができる。したがって、例えば図１のステップＳ１５は、画風変換ネットワーク２１における（ステップＳ１２で得られる）原訓練画像のバッチフォワード演算により行うことができ、水増し訓練データセットが得られる。

【0047】

実施形態のいくつかによれば、ステップＳ１３からＳ１６を繰り返して、対象カメラにより撮影された別の画像を画風目標画像として画風変換ネットワークを訓練してもよく、これを用いて原訓練画像を変換すると、別のラベル付き変換後訓練画像のセットが生成される。こうした追加の水増し訓練データセットをステップＳ１７のファインチューニングに用いることにより、ＤＮＮモデルの汎化能力を高めうる。

【0048】

上記のデータオーグメンテーション法の利点としては、以下が挙げられる：カスタム訓練データセットの手作業によるラベル付けが不要；対象の画像取込装置からサンプルを回収する必要が少ない；画風変換ネットワークの訓練システムにおいて固定された損失ネットワークと写実性正則化部が組み合わされていることにより、画風変換が速く、写実的である。

【0049】

データオーグメンテーション法は、対象カメラにより撮影された画像を処理するＤＮＮのファインチューニング以外の用途にも適用しうる。例えば、訓練及び試験用画像が、同じカメラであるが、異なる時刻（例えば、昼に対して夜）、異なる天候（例えば、晴れに対して曇り）または異なる季節（夏に対して冬）に撮影されたものである場合、訓練データを拡張して異なる基礎となる画風に適合させるのに用いるができる。室内の照明条件（光の色、強度）が異なる場合についても同様である。また、前景の物体の見た目を拡張する、例えば花の画像の訓練データセットの色及び質感を拡張するのに用いることもできる。より一般的には、本方法は、ＤＮＮの処理対象である画像が特定の画風であり、訓練データセットの画像がそれとは異なる画風であるような用途に適用することができる。

【0050】

上記のニューラルネットワークは、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせとして実施されてよく、例えばプロセッサ及びコンピュータ実行可能なプログラムを記憶したメモリーを有するコンピュータシステム、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）やＡＳＩＣ（特定用途向け集積回路）といった特殊用途の論理回路等である。システムの各構成要素は、プロセッサにより実行されるコンピュータプログラムモジュールとして実施されてよい。ニューラルネットワークが実装されるシステムは、一般にデータ処理システムと呼ばれる。

【0051】

本発明の精神及び範囲から逸脱しない限り、本発明の画風変換を用いた対象データオーグメンテーション法及び関連する装置に種々の改変及び変形を加えうることは、当業者にとって明らかである。したがって、本発明は、添付の特許請求の範囲及びその均等の範囲内となる改変や変形を包含するものとする。

【図1】

【図2】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版