IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッドの特許一覧

特許7161320ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術
<>
  • 特許-ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術 図1
  • 特許-ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術 図2
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-18
(45)【発行日】2022-10-26
(54)【発明の名称】ニューラルネットワークによる画風変換を用いたデータオーグメンテーション技術
(51)【国際特許分類】
   G06T 7/00 20170101AFI20221019BHJP
   G06N 3/08 20060101ALI20221019BHJP
   G06N 20/00 20190101ALI20221019BHJP
【FI】
G06T7/00 350C
G06N3/08
G06N20/00 130
【請求項の数】 11
【外国語出願】
(21)【出願番号】P 2018117756
(22)【出願日】2018-06-21
(65)【公開番号】P2019032821
(43)【公開日】2019-02-28
【審査請求日】2021-03-22
(31)【優先権主張番号】15/633,288
(32)【優先日】2017-06-26
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507031918
【氏名又は名称】コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
(74)【代理人】
【識別番号】110001254
【氏名又は名称】特許業務法人光陽国際特許事務所
(72)【発明者】
【氏名】シュー, ティング
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2009-217348(JP,A)
【文献】特開2016-191966(JP,A)
【文献】Justin Johnson et al,Perceptual Losses for Real-Time Style Transfer and Super-Resolution,arXiv:1603.08155v1 [cs.CV],米国,Cornek University,2016年03月27日,https://arxiv.org/pdf/1603.08155.pdf
【文献】Fujun Luan et al,Deep Photo Style Transfer,arXiv:1703.07511v3,米国,Cornel University,2017年04月11日,https://arxiv.org/pdf/1703.07511.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00- 1/40
G06T 3/00- 9/40
G06N 3/00- 3/12
G06N 7/08-10/00
G06N 20/00-99/00
(57)【特許請求の範囲】
【請求項1】
対象とする画風の複数画像に対して特定の作業を行うディープニューラルネットワーク(DNN)を訓練する方法であって、
(a)訓練対象のDNNを取得することと、
(b)複数の原訓練画像及び各原訓練画像に対する訓練ラベルを有する原訓練データセットを取得することであって、前記原訓練画像は、対象とする画風とは異なる画風である、と、
(c)対象とする画風の画像を取得することと、
(d)対象とする画風の前記画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練することであって、前記変換後画像は、前記入力画像の内容を有し、前記入力画像の写実品質が維持されており、前記画風目標画像の画風と一致する画風である、と、
(e)訓練済みの前記画風変換ネットワークを用いて、前記各原訓練画像を対応する変換後訓練画像に変換することと、
(f)前記各変換後訓練画像を対応する原訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成することと、
(g)前記水増し訓練データセットを用いて、前記特定の作業を行うように前記DNNを訓練することと、
を有する、方法。
【請求項2】
対象とする画風の前記複数画像は、対象画像取込装置により撮影された画像であり、ステップ(b)において、前記原訓練画像は、前記対象画像取込装置以外の画像取込装置により撮影されたものであり、ステップ(c)において、対象とする画風の前記画像は、前記対象画像取込装置により撮影された画像である、請求項1に記載の方法。
【請求項3】
前記画風変換ネットワークは、ダウンサンプリングを行う第1の畳み込み層セットと、
第2の畳み込み層セットと、アップサンプリングを行う第3の畳み込み層セットとを有するフィードフォワード型の畳み込みニューラルネットワークであり、
ステップ(e)において、訓練済みの前記画風変換ネットワークは、フォワードパスで前記各原訓練画像を対応する変換後訓練画像に変換する、
請求項1に記載の方法。
【請求項4】
ステップ(d)における前記画風変換ネットワークの訓練は、
内容目標画像セットを準備することと、
各訓練イテレーションにおいて、
入力画像を準備することと、
所定の自然数であるN個の内容目標画像を選択することと、
前記画風変換ネットワークを用いて前記入力画像を変換後画像に変換することと、
前記変換後画像、前記画風目標画像及びN個の前記各内容目標画像を、画像認識用に訓練された畳み込みニューラルネットワーク(CNN)である損失ネットワークを用いて処理することと、
前記画風目標画像と前記CNNの第1の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより画風損失を計算することと、
N個の各内容目標画像と前記CNNの第2の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより内容損失を計算することと、
前記変換後画像の写実性損失を計算することと、
前記画風損失、前記内容損失及び前記写実性損失の加重組み合わせである総損失を計算することと、を有し、
前記総損失が最小化するように、確率的勾配降下法を用いて複数の訓練イテレーションにより前記画風変換ネットワークを訓練することと、を有し、
前記損失ネットワークは、全訓練イテレーションにおいて固定されている、
請求項1に記載の方法。
【請求項5】
各訓練イテレーションにおいて、N=1であり、前記入力画像は前記内容目標画像と同一である、請求項に記載の方法。
【請求項6】
複数の訓練イテレーション用の前記内容目標画像が、ビデオクリップの連続する画像フレームであり、N=1であって、前記複数の訓練イテレーションの各イテレーション用の前記入力画像が、前の訓練イテレーションにおいて生成された前の画像フレームの変換後画像である、請求項に記載の方法。
【請求項7】
前記CNNが、5群の畳み込み層を有し、前記画風損失の計算に用いられる第1の選択された前記畳み込み層セットは、5群のうち最後の後ろの3群のそれぞれの最後の畳み込み層からなり、前記内容損失の計算に用いられる第2の選択された前記畳み込み層セットは、5群のそれぞれの最後の畳み込み層からなる、請求項に記載の方法。
【請求項8】
前記写実性損失は、前記変換後画像から構築したマッティング・ラプラシアンにより計算される、請求項に記載の方法。
【請求項9】
前記CNNは、内容画像セットを訓練データとして用いて画像認識用に訓練されている、請求項に記載の方法。
【請求項10】
ステップ(a)において取得する前記DNNは、特定の作業を行うように、対象カメラに特有ではない訓練データセットを用いて事前学習されている、請求項1に記載の方法。
【請求項11】
ステップ(a)において取得する前記DNNは、前記原訓練データセットを用いて事前学習されている、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディープニューラルネットワークに関し、特に画風変換によりディープニューラルネットワーク用のラベル付き訓練データを生成するデータオーグメンテーション(データ水増し)法に関する。
【背景技術】
【0002】
人工ニューラルネットワークは、機械学習を始めとする様々な分野で用いられており、コンピュータービジョンや音声認識といった広範囲な作業を行うことができる。人工ニューラルネットワークは、相互接続されたノード(ニューロン)の層からなり、各ニューロンは、接続された他のニューロンからの重み付けされた入力を出力(活性)に変換する活性化関数を有している。学習(訓練)過程では、訓練データが人工ニューラルネットワークに与えられ、当該学習過程を経て相互接続における適応可能な重みが更新される。訓練の後、ニューラルネットワークには、処理対象のデータが入力され、処理結果が生成される。訓練データは、処理対象のデータと同じ性質のデータ(例えば画像)からなり、各入力データに対する処理結果の正解を示すラベルが付けられている。例えば、ニューラルネットワークを、画像中の猫及び犬を認識するように訓練しているとすると、訓練データには、猫または犬を含んだ画像が含まれ、各訓練画像には、当該画像に猫または犬が含まれるかどうかを示すラベルが付けられている。
【0003】
ディープニューラルネットワーク(DNN)の訓練には、モデルのオーバーフィッティングを防いだり、モデルの汎化能力を改善したりするために、大量のラベル付き訓練データが必要である。既存のラベル付き訓練データを最大限活用するために、原訓練データセットをそのラベルを維持したまま変換することにより追加訓練データ生成して、訓練データを水増しすること(データオーグメンテーション(データ水増し)とも呼ばれる。)が一般的に行われている。例えば、画像認識作業用のDNNの訓練には、既存の訓練画像を、ラベル付けした物体について切り抜いたり、幾何学変換(変換、回転、拡大縮小、せん断、レンズによる歪み等)したり、その色または強度を変換したり、及び/または様々な種類のノイズを適用したりして、同一ラベルの新たな訓練画像を生成することができる。データオーグメンテーションでは、訓練データのプールが拡充されるが、訓練ラベルの追加は必要とされない。このような方法により作成される追加訓練データは、特別な「画風」に変換されていないという点で「一般的」である。
【0004】
DNNモデルの容量にもよるが、オーバーフィッティングを防ぐのに必要な訓練データ数は、百万の単位にもなりうる。実際に、特定の作業用、例えば特定の物体の認識用のDNNを訓練するには、DNNを、まず非常に大きな訓練データセット(一般データセットと呼ばれ、ImageNet等がある。一般公開されている画像データベースで、ラベル付けされている。)により事前学習(プレトレーニング)させ、次いで、用途に特有の訓練データセット(カスタムデータセットと呼ばれる。)により訓練(ファインチューニング)してもよい。この方法は、転移学習と呼ばれる。通常、カスタムデータセットには、追加のラベル付けが必要である。カスタムデータセットと一般データセットの類似度合いにもよるが、カスタムデータセットのサイズは数千になりうる。手作業によるカスタムデータセットのラベル付けは、コストがかかり、退屈であり、時にミスを起こしやすい。
【0005】
データオーグメンテーションに、3次元CADモデルから描画した合成画像を用いることが提案されている。この方法における課題の一つは、写実的な画像を生成することである。例えば、X.Pengらによる「Synthetic to Real Adaptation with Generative Correlation Alignment Networks」(arXivプレプリント、arXiv:1701.05524v3、2017年3月18日)には、ドメイン適応アルゴリズムを用いた画像合成用のDeep Generative Correlation Alignment Network (DGCAN)が記載されている。
【0006】
C.Charalambousらによる「A data augmentation methodology for training machine/deep learning gait recognition algorithms」(arXivプレプリント、arXiv:1610.07570v1、2016年10月24日)には、「シミュレーションベースの方法論と、データオーグメンテーション用の合成ビデオフレーム及びシーケンスの生成に用いることのできる、対象に特化したデータセット」(要約)が記載されている。
【0007】
US特許出願公開No.2015/0379422「Data augmentation based on occlusion and inpainting」には、「機械学習型の分類器におけるデータセットの水増しは・・・一例として、少なくとも1つの訓練データを含む訓練データセットと、オクルージョン部及びインペイント部を含むラベルを維持した変換を有するシステムがある。オクルージョン部は、前記少なくとも1つの訓練データの選択部分をオクルージョンする。インペイント部は、前記少なくとも1つの訓練データのオクルージョンされた部分を、オクルージョンされた部分とは異なる部分のデータに基づき修復する。」(要約)と記載されている。
【0008】
画風変換とは、入力画像を変換して、意味内容は該入力画像のものであるが、「画風」が参照画像のものである出力画像とする、画像変換の一種である。例えば、L.A.Gatysらによる「A Neural Algorithm of Artistic Style」(arXivプレプリント、arXiv:1508.06576v2、2015年9月2日)(「Gatys2015」)には、任意の画像を、例えばゴッホの絵画調等の特定の芸術的な画風の画像に変換することのできる、ディープニューラルネットワークモデルが記載されている。「システムは、ニューラル表現を用いて、任意の画像の内容及び画風を分離・再結合する。これにより、芸術的な画像を生成するニューラルアルゴリズムが提供される。」(要約)
【0009】
J.Johnsonらによる「Perceptual Loss for Real-Time Style Transfer and Super-Resolution」(arXivプレプリント、arXiv:1603.08155v1、2016年5月27日)(「Johnson2016」)には、Gatys2015の結果と似た芸術的な画像を生成することのできる画風変換法が記載されているが、3桁速いとされている。「我々は、画像変換用のフィードフォワード変換ネットワークを訓練するが、低レベルのピクセル情報のみによるピクセル毎の損失関数を用いるのではなく、事前学習させた損失ネットワークからの高レベルの特徴に基づく知覚的な損失関数を用いてネットワークを訓練する。訓練において、知覚的な損失に基づく画像の類似性の測定は、ピクセル毎の損失に基づく測定よりもロバスト性が高く、テスト時には、変換ネットワークがリアルタイムで実行される。」(2頁)
【0010】
F.Luanらによる「Deep Photo Style Transfer」(arXivプレプリント、arXiv:1703.07511v3、2017年4月11日)(「Luan2017」)には、時刻、天気、季節、芸術的編集といった様々なシナリオに基づく参照画風を忠実に取り入れることのできる写真的な画風変換のディープラーニングによる手法が記載されている。この手法によれば、歪みを抑え、満足のいく写実的な画風変換を実現することができる。
【0011】
US特許No.9576351「Style transfer or headshot portraits」には、顔写真の画風を変換する方法が記載されている。US特許No.9594977「Automatically selecting example stylized images for image stylization operations based on semantic content」には、「画像の画風変換処理に用いられる、内容に基づく画風例の選択」法が記載されており、「例えば、訓練画像は、画風変換した画像例の特定に用いることができ、特定の種類の意味内容を持つ入力画像を画風変換する場合に、高品質な画風変換画像を生成することができる。」(要約)と記載されている。
【発明の概要】
【発明が解決しようとする課題】
【0012】
コストがかかり、退屈であり、ミスを起こしやすい手作業による訓練データのラベル付けの必要性を減らすために、本発明の実施形態によれば、ニューラルネットワークによる画風変換を用いて既存の訓練データを所要の画風の訓練データに変換することにより、カスタム訓練データの作成に訓練ラベルを再利用することができる方法が提供される。既存の訓練データは、一般訓練データセットであってよく、あるいは、画風が異なる別のカスタム訓練データセットであってもよい。
【0013】
本発明の付加的な特徴及び利点は、以下の詳細な説明に記載され、またその一部は詳細な説明から明らかであり、あるいは本発明の実施により知りうるものであってもよい。本発明の目的及びその他の利点は、明細書及び特許請求の範囲、更には添付図面において特に示す構造により実現され、達成されるであろう。
【課題を解決するための手段】
【0014】
上記の目的を達成するために、本発明によれば、対象とする画風の複数画像に対して特定の作業を行うディープニューラルネットワーク(DNN)を訓練する方法であって、(a)訓練対象のDNNを取得することと、(b)複数の原訓練画像及び各原訓練画像に対する訓練ラベルを有する原訓練データセットを取得することであって、前記原訓練画像は、対象とする画風とは異なる画風である、と、(c)対象とする画風の画像を取得することと、(d)対象とする画風の前記画像を画風目標画像として用い、あらゆる写実的な入力画像を変換後画像に変換する画風変換を行う画風変換ネットワークを訓練することであって、前記変換後画像は、前記入力画像の内容を有し、前記入力画像の写実品質が維持されており、前記画風目標画像の画風と一致する画風である、と、(e)訓練済みの前記画風変換ネットワークを用いて、前記各原訓練画像を対応する変換後訓練画像に変換することと、(f)前記各変換後訓練画像を対応する原訓練画像の訓練ラベルでラベル付けして、水増し訓練データセットを作成することと、(g)前記水増し訓練データセットを用いて、前記特定の作業を行うように前記DNNを訓練することと、を有する方法が提供される。
【0015】
実施形態の1つによれば、ステップ(d)における前記画風変換ネットワークの訓練は、内容目標画像セットを準備することと、各訓練イテレーションにおいて:入力画像を準備することと;所定の自然数であるN個の内容目標画像を選択することと;前記画風変換ネットワークを用いて前記入力画像を変換後画像に変換することと;前記変換後画像、前記画風目標画像及びN個の前記各内容目標画像を、画像認識用に訓練された畳み込みニューラルネットワーク(CNN)である損失ネットワークを用いて処理することと;前記画風目標画像と前記CNNの第1の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより画風損失を計算することと;N個の各内容目標画像と前記CNNの第2の選択された畳み込み層セットの各層による前記変換後画像との処理結果を比較することにより内容損失を計算することと;前記変換後画像の写実性損失を計算することと;前記画風損失、前記内容損失及び前記写実性損失の加重組み合わせである総損失を計算することと、を有し、前記総損失が最小化するように、確率的勾配降下法を用いて複数の訓練イテレーションにより前記画風変換ネットワークを訓練することと、を有し、前記損失ネットワークは、全訓練イテレーションにおいて固定されている。
【0016】
本発明の別の側面によれば、データ処理装置を制御するためのコンピュータ読み取り可能なプログラムコードを有するコンピュータ使用可能な非一時的な媒体(例えば、メモリーまたは記憶装置)を有するコンピュータプログラム製品が提供され、当該コンピュータ読み取り可能なプログラムは、データ処理装置に上記方法を実行させるよう構成されている。
【0017】
上記の一般的な記載及び以下の詳細な記載は、いずれも例示および説明であって、特許請求の範囲に記載の発明のさらなる説明を提供するためのものであると理解すべきである。
【図面の簡単な説明】
【0018】
図1】対象カメラにより撮影した画像に対して特定の作業を行うDNNモデルを訓練するための、本発明の実施形態に係るデータオーグメンテーション法を模式的に示す図である。
図2】本発明の実施形態に係るニューラルネットワークアーキテクチャであって、図1のデータオーグメンテーション法に用いられる画風変換ネットワークの訓練に用いられるものを模式的に示す図である。
【発明を実施するための形態】
【0019】
本発明の実施形態によれば、ニューラルネットワークによる画風変換技術が、対象を絞った画像認識・検出作業用の訓練データの水増しに用いられる。ニューラルネットワークによる画風変換によれば、既存の訓練画像が目標とする画風の訓練画像に変換されるので、訓練ラベルの再利用が可能である。また、高速且つ写実的に、リアルな訓練画像を生成することができる。
【0020】
用途の1例として、ディープニューラルネットワーク(DNN)が、特定のカメラAにより撮影された画像から人物等の特定の物体を検出するように訓練されているビデオ監視システムがある。DNNの訓練に用いる訓練データは、カメラAにより撮影されたラベル付き画像である。別のカメラB(カメラBは、カメラAとは異なる種類及び/またはモデルであり撮像特性が異なる、あるいはカメラBは、カメラAとは照明条件が異なる場所に設置されている、等。)により撮影された画像の処理に、この訓練済みDNNを直接(すなわち、再トレーニングまたはファインチューニングせずに)用いると、認識能力の低下が起こりうる。これは、カメラBにより撮影された画像は、異なる基礎的な確率分布からサンプリングされた特徴を持つため、カメラAにより撮影された画像とは画風が異なることがあるからである。すなわち、異なるカメラにより撮影された画像は、画風の不一致がみられるからである。
【0021】
本開示において、画風という用語は、広く様々な要素を包含し、テクスチャ、エッジコントラスト等の低レベルの(局所的な)画像統計量や、照明条件による効果、カメラによる撮像過程で取り込まれたノイズパターン、色特性(カメラによって色相が異なる。)等の全体的な要素が含まれる。本明細書に記載する特定の用途では、特定の芸術的な画風を得ることを目的としておらず、また考慮していない。
【0022】
したがって、パフォーマンスの低下を改善しつつ、訓練済みのDNNを再利用してカメラBにより撮影された画像を処理するためには、カメラBにより撮影された訓練画像を用いて訓練済みのモデルのファインチューニング(転移学習)することが望まれる。しかしながら、カメラBにより撮影された新たな画像を訓練に用いるには、手作業による当該画像のラベル付けが必要である。
【0023】
本発明の実施形態によれば、特定のカメラ(「対象カメラ」)により撮影された画像に対して特定の作業(例えば、人物または物体認識)を行うDNNモデルをファインチューニングするための訓練データを生成する方法が提供される。本方法は、対象カメラ以外の他のカメラにより撮影された既存のラベル付き訓練画像を利用し、既存の訓練ラベルを再利用できるように、他のカメラの画風の当該既存の訓練画像を、その意味内容を維持しつつ対象カメラの画風の変換後訓練画像に変換することにより行われる。DNNモデルは、既存のラベル付きの変換後訓練画像を用いてファインチューニングすることができる。これにより、対象カメラにより撮影された訓練画像に手作業でラベル付けをする必要が少なくなるか、または無くなる。
【0024】
本開示では、カメラという用語は、広くあらゆる好適な画像取込装置を指し、可視光線カメラ、IRカメラ、スチルカメラ、ビデオカメラなどを含む。
【0025】
図1に、対象カメラにより撮影された画像に対して特定の作業(例えば人物、人物の動きまたはその他の特定の物体の認識)を行うDNNモデルを訓練するための、本発明の実施形態に係る方法を模式的に示す。本方法は、訓練対象のDNNモデル(ステップS11)及び対象カメラに特有ではない原訓練データセット(ステップS12)から始める。原訓練データセットには、対象カメラ以外の他のカメラにより撮影された、ラベル付きの原訓練画像が含まれる。
【0026】
好ましい実施形態によれば、DNNは、特定の作業を行うように構築され、事前学習されているが、対象カメラに特有ではない訓練データセットが用いられている(例えば、訓練画像は対象カメラにより撮影されたものではない。)。例えば、DNNは、ステップS12に記載の原訓練データセットまたはその他の訓練データセットを用いて事前学習されていてもよい。
【0027】
対象カメラにより撮影した画像を取得する(ステップS13)。画風変換ネットワークを、当該画風変換ネットワークの訓練に用いるネットワークベースの構造と併せて準備する(ステップS14)。本開示において、「ネットワーク」という用語は、別段の記載がない限り人工ニューラルネットワークを指す。ステップS13において対象カメラにより撮影された画像(画風目標画像と称する。)及び第2の画像セット(内容目標画像と称する。)を用いて画風変換ネットワークを訓練することにより、当該画風変換ネットワークは、入力画像を、(1)入力画像の内容が保たれ、(2)入力画像の写実品質が維持されているが、(3)その画風が画風目標画像の画風と一致する変換後画像に変換する画風変換を行うことができるようになる(ステップS14)。
【0028】
画風変換ネットワークは、訓練後、ステップS12で取得した原訓練画像を変換後訓練画像に変換するのに用いられる(ステップS15)。その結果、変換後訓練画像は、内容が原訓練画像のものであるが、画風が画風目標画像(すなわち、ステップS13において対象カメラにより取得された画像)のものとなる。次いで、各変換後訓練画像を、対応する原訓練画像と同じラベルによりラベル付けして、水増し訓練データセットを作成する(ステップS16)。そして、この水増し訓練データセットを用いて、対象カメラにより撮影された画像に対する作業用のステップS11で取得したDNNモデルを訓練(ファインチューニング)する(ステップS17)。
【0029】
ステップS14において画風変換ネットワークの訓練に用いられる第2の画像セット(内容目標画像)は、原訓練画像と同一であってもその一部であってもよく、あるいは異なる画像セットであってもよい。
【0030】
図2に、画風変換ネットワークの訓練に用いられるニューラルネットワークアーキテクチャと、それに関連するステップS14における訓練法を模式的に示す。ネットワークアーキテクチャは、訓練される画風変換ネットワーク21と、固定された損失ネットワーク22と、写実性正則化部23と、総損失算出部24とを有する。
【0031】
画風変換ネットワーク21及び損失ネットワーク22には、Johnson2016(当該論文の補足資料を参照。)に改変を加えたものが適用される。画風変換ネットワーク21は、残渣接続(residual connection)のある(または無い)フィードフォワード型の畳み込みニューラルネットワークである。このネットワークは、種々の目標とする画風への画風変換を行うように訓練することができ、目標とする画風毎に個別に訓練される。好ましい実施形態によれば、画風変換ネットワーク21は、以下の一連の層を有する。
32x9x9、ストライド1のConv
64x3x3、ストライド2のConv
128x3x3、ストライド2のConv
(128x3x3Conv>>>バッチ正規化>>>ReLu>>>128x3x3Conv>>>バッチ正規化>>>ReLu)x5
64x3x3、ストライド1/2のConv
32x3x3、ストライド1/2のConv
3x9x9、ストライド1のConv
【0032】
上記において、「Conv」は、畳み込み層を表し;「32x9x9」中の32は層の深さ、9x9は畳み込みのフィルターサイズであり;畳み込みの「ストライド」とは、畳込みにおいてフィルターが1回につき横方向にスライドするピクセル数であり(ストライドが2の層はダウンサンプリング層であり、ストライドが1/2の層はアップサンプリング層である。);「バッチ正規化」は空間バッチ正規化層を表し;「ReLu」は、Rectified Linear Unit(正規化線形関数)層を表す。中央の5群の層は、残渣接続の無い等価な形式で表されている。あるいは、これらの群は残渣接続を含んでいてもよい。
【0033】
損失ネットワーク22もまた、畳み込みニューラルネットワークであり、画風変換ネットワーク21により行われる変換における画風損失と内容損失の計算に用いられる。損失ネットワーク22は、画像分類用に事前学習されており、画風変換ネットワーク21の訓練中は固定されたままである。損失ネットワーク22は、ImageNet等の一般訓練データセットを用いて事前学習されていてもよく、内容目標画像(例えば原訓練画像と同一である場合は、ラベル付き訓練データセットの一部であるものとする。)によって更にファインチューニングされていてもよい。内容目標画像が、一般訓練データセットの画像と大きく異なる場合、内容目標画像を用いた損失ネットワークをさらにファインチューニングすると、損失ネットワークが内容目標画像には存在するが一般訓練データセットには存在しない特徴を捉えることが可能になるため有用である。
【0034】
実施形態の一つによれば、損失ネットワーク22には、VGG-16ネットワークを適用しており、詳細はK.SimonyanらによるVery Deep Convolutional Networks For Large-Scale Image Recognition、ICLR2015(「Simonyan2015」)に記載されている。損失ネットワーク22は、5群の主要な畳み込み層群を有し、各層群間に最大プーリングを有する。VGG-16ネットワークは、畳み込み層の後ろに多数のの全結合層と1つのソフトマックス層を有するが、これらの層は損失ネットワーク22では使用されないことに留意されたい。
【0035】
画風変換ネットワーク21の訓練の際、各訓練イテレーションにおけるネットワークシステムへの入力には、画風目標画像Y_s、内容目標画像Y_c及び入力画像Xが含まれる。画風目標画像Y_sは、全訓練イテレーションにおいて同一であり、この画風を対象にして画風変換ネットワークが訓練される。各イテレーションでは、画像セット(例えば、上記ステップS14において述べた第2の画像セット)の画像が、内容目標画像Y_cとして用いられる。各イテレーションにおける入力画像Xは、内容目標画像Y_cと同一または類似であるのが好ましいが、異なる画像であってもよく、あるいはランダムノイズ画像であってもよい。第2の画像セットの内容画像が静止画像である好ましい実施形態によれば、入力画像Xは、内容目標画像Y_cと同一、すなわちX=Y_cである。入力Xを内容目標Y_cに初期化することにより、ランダムノイズ画像を入力Xとして始める場合よりも、良好な画風変換された出力が得られる。訓練イテレーションが多数であり、その内容画像がビデオクリップの連続フレームである別の好ましい実施形態によれば、あるイテレーションにおける入力画像Xは、直前のフレームの出力X’を変換したもの、すなわち前訓練イテレーションからのX’_{t-1}であってよく、内容目標Y_cは現在のフレーム画像であってよい。
【0036】
入力画像X(必要であればパディングを含む。)は、画風変換ネットワーク21に入力され、フォワードパスにより変換後画像X’が生成される。変換後画像X’、画風目標画像Y_s及び内容目標画像Y_cは、損失ネットワーク22に入力される。損失ネットワーク22は、これら3つの画像のそれぞれを個別に処理し、処理結果を比較して、(1)画風目標画像Y_sに対する変換後画像X’の画風の相違を表す画風損失と、(2)内容目標画像Y_cに対する変換後画像X’の内容の相違を表す内容損失とを計算する。一方で、変換後画像X’は、写実性正則化部23に入力され、変換後画像X’がどの程度写実的であるかを表す正則化量(写実性損失)が計算される。変換における総損失は、画風損失、内容損失及び写実性損失の加重組み合わせとして定義される。画風変換ネットワーク21は、総損失が最小化するように、確率的勾配降下法を用いて複数のイテレーションにより訓練される。
【0037】
好ましい実施形態によれば、画風損失と内容損失の計算法として、Johnson2016に記載の方法が適用される。具体的には、画風損失は、損失ネットワーク21から選択される1つ以上の層の活性化を用いて計算される。選択された各層jでは、要素が(Johnson2016の式(3))のCxC行列であるグラム行列が定義されている:
【数1】
式中、C、H及びWは、j番目の層の特徴マップの深さ、高さ及び幅であり、Φ(x)は、入力xに対するネットワークΦのj番目の活性化である。よって、j番目の層の画風損失は、変換後画像X’と画風目標画像Y_s(Johnson2016の式(4))のグラム行列の違いのフロベニウムノルムの2乗である:
【数2】
式中、
【数3】
は、j番目の層からの画風損失であり、
【数4】
は、それぞれ変換後画像X’及び画風目標画像Y_sを表す。
変換器の画風損失は、選択したすべての層の画風損失の加重和である。
【0038】
内容損失もまた、損失ネットワーク21から選択された1つ以上の各層(画風損失で用いた選択層と異なっていてもよい。)の活性化を用いて計算される。選択された各層からの内容損失は、変換後画像X’と内容目標画像Y_c(Johnson2016の式(2))の特徴表現間の(平方、正規化した)ユークリッド距離である:
【数5】
式中、
【数6】
は、j番目の層からの内容損失(Johnson2016では「特徴復元損失(feature reconstruction loss)」と呼ばれる。)であり、
【数7】
は、それぞれ変換後画像X’及び内容目標画像Y_cを表す。
変換器の内容損失は、選択されたすべての層からの内容損失の加重和である。
【0039】
本発明の好ましい実施形態によれば、内容損失は、ReLu1_2、ReLu2_2、ReLu3_3、ReLu4_3及びReLu5_3層、すなわち損失ネットワークの5つの畳み込み層群のそれぞれの最後の層で計算され、画風損失は、ReLu3_3、ReLu4_3及びReLu5_3層のみで計算される。
【0040】
Johnson2016の図2に示された例では、画風損失は、VGG-16損失ネットワークのReLu1_2、ReLu2_2、ReLu3_3及びReLu4_3層で計算され、内容損失は、ReLu3_3層のみで計算されることに留意されたい。好ましい実施形態とJohnson2016の例が異なる理由の一つは、Johnson2016の画風変換器が芸術的な画風変換を目的としており、芸術的な画風の維持が内容の維持よりも重要だからである。一方、本発明の実施形態では、画像変換がデータオーグメンテーション(データ水増し)を目的としていることから、異なる画風を一括で適用しつつ入力画像の内容をできる限り維持することが重要である。このため、内容損失は、損失ネットワークのすべての層群から計算される。画風については、画風目標画像の全体的な特徴がより重要であることから、画風損失は、主要な層群の最後の3層のみから計算される。換言すれば、画風目標画像の細部は重要ではないことから、最初の2つの群は、画風損失の計算に用いられない。
【0041】
写実性損失は、変換後画像X’から構築したマッティング・ラプラシアンにより計算することができる。好ましい実施形態によれば、写実性正則化部23による写実性損失の計算法には、Luan2017が適用される。正則化の項(すなわち写実性損失)は、Luan2017の式(2)である:
【数8】
式中、Vc[O]は、カラーチャンネルcにおける画像O(変換後画像X’)をベクトル化したものであり、
【数9】
は、変換器の入力画像I(すなわち、図2の入力画像X)にのみ依存する最小二乗ペナルティ関数を表す行列である。
【0042】
上記の式では、加算は3つのカラーチャンネル(すなわち、RGB)について行う。本発明の実施形態のいくつかによれば、処理される画像は、1つのカラーチャンネルしか持たないグレースケール画像である。
【0043】
写実性損失を総損失に含めたのは、変換後画像は、現実の画像を処理するニューラルネットワークを訓練するための訓練画像として使用されるものであり、写実性を保っているべきだからである。
【0044】
総損失算出部24で算出された変換による総損失は、画風損失、内容損失及び写実性損失の加重組み合わせである。前述のように、画風変換ネットワーク21は、総損失が最小化するように、確率的勾配降下法を用いて複数のイテレーションにより訓練される。
【0045】
上記では、各訓練イテレーションにつき1つの内容目標画像Y_cを用いたが、それに代えて、「ミニバッチ」と呼ばれる訓練画像の小さなサブセットを各イテレーションにおける内容目標(Y_c)として用いて訓練してもよい。ミニバッチ中の各内容目標画像Y_cに対する変換後画像X’の内容損失をそれぞれ算出し、平均化して平均内容損失を求め、これに画風損失及び写実性損失を組み合わせて総損失を求める。ミニバッチのサイズNは、計算装置(通常GPU)の利用可能なメモリーに従って選択するが、通常2の累乗に設定する。従って、1、4、16、32、64、128が一般に用いられる。
【0046】
訓練処理により出力されるのは、画風参照画像の画風を他の入力画像に適用することのできる訓練済み画風変換ネットワーク21である。一旦訓練されれば、画風変換器は、入力画像を単一のフィードフォワード経路により変換することができる。したがって、例えば図1のステップS15は、画風変換ネットワーク21における(ステップS12で得られる)原訓練画像のバッチフォワード演算により行うことができ、水増し訓練データセットが得られる。
【0047】
実施形態のいくつかによれば、ステップS13からS16を繰り返して、対象カメラにより撮影された別の画像を画風目標画像として画風変換ネットワークを訓練してもよく、これを用いて原訓練画像を変換すると、別のラベル付き変換後訓練画像のセットが生成される。こうした追加の水増し訓練データセットをステップS17のファインチューニングに用いることにより、DNNモデルの汎化能力を高めうる。
【0048】
上記のデータオーグメンテーション法の利点としては、以下が挙げられる:カスタム訓練データセットの手作業によるラベル付けが不要;対象の画像取込装置からサンプルを回収する必要が少ない;画風変換ネットワークの訓練システムにおいて固定された損失ネットワークと写実性正則化部が組み合わされていることにより、画風変換が速く、写実的である。
【0049】
データオーグメンテーション法は、対象カメラにより撮影された画像を処理するDNNのファインチューニング以外の用途にも適用しうる。例えば、訓練及び試験用画像が、同じカメラであるが、異なる時刻(例えば、昼に対して夜)、異なる天候(例えば、晴れに対して曇り)または異なる季節(夏に対して冬)に撮影されたものである場合、訓練データを拡張して異なる基礎となる画風に適合させるのに用いるができる。室内の照明条件(光の色、強度)が異なる場合についても同様である。また、前景の物体の見た目を拡張する、例えば花の画像の訓練データセットの色及び質感を拡張するのに用いることもできる。より一般的には、本方法は、DNNの処理対象である画像が特定の画風であり、訓練データセットの画像がそれとは異なる画風であるような用途に適用することができる。
【0050】
上記のニューラルネットワークは、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせとして実施されてよく、例えばプロセッサ及びコンピュータ実行可能なプログラムを記憶したメモリーを有するコンピュータシステム、FPGA(フィールドプログラマブルゲートアレイ)やASIC(特定用途向け集積回路)といった特殊用途の論理回路等である。システムの各構成要素は、プロセッサにより実行されるコンピュータプログラムモジュールとして実施されてよい。ニューラルネットワークが実装されるシステムは、一般にデータ処理システムと呼ばれる。
【0051】
本発明の精神及び範囲から逸脱しない限り、本発明の画風変換を用いた対象データオーグメンテーション法及び関連する装置に種々の改変及び変形を加えうることは、当業者にとって明らかである。したがって、本発明は、添付の特許請求の範囲及びその均等の範囲内となる改変や変形を包含するものとする。
図1
図2