(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-29
(45)【発行日】2024-04-08
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240401BHJP
H04N 23/60 20230101ALI20240401BHJP
【FI】
G06T7/00 350C
H04N23/60 500
(21)【出願番号】P 2020091353
(22)【出願日】2020-05-26
【審査請求日】2023-05-09
(73)【特許権者】
【識別番号】000001007
【氏名又は名称】キヤノン株式会社
(74)【代理人】
【識別番号】110001243
【氏名又は名称】弁理士法人谷・阿部特許事務所
(72)【発明者】
【氏名】高田 洋佑
【審査官】伊知地 和之
(56)【参考文献】
【文献】中国特許出願公開第110008783(CN,A)
【文献】特開2013-162347(JP,A)
【文献】中国特許出願公開第110781913(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
G06T 3/00 - 3/60
G06T 5/00 - 5/50
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
H04N 23/00
H04N 23/40 - 23/76
H04N 23/90 - 23/959
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
機械学習で用いる学習データを生成する情報処理装置であって、
教師画像群を取得する取得手段と、
前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、
を備え、
前記分布特性は、色の三属性のうち少なくとも1つの属性についての、前記教師画像群における分布を表
し、
前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理装置。
【請求項2】
前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の色相分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、色相分布が一様な教師画像群を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の輝度分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、輝度分布が一様な教師画像群を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の彩度分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、彩度分布が一様な教師画像群を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項5】
前記疎の部分を埋める画像は、前記解析によって得られた分布特性において出現頻度の少ない属性値を持つ画素とそれ以外の属性値を持つ画素とから成る画像であることを特徴とする請求項
1に記載の情報処理装置。
【請求項6】
前記疎の部分を埋める画像は、所定のオブジェクトを描画することで得られるCG画像であり、
前記生成手段は、前記所定のオブジェクトに対応する形状情報に基づき前記CG画像を生成して、前記追加を行う、
ことを特徴とする請求項
5に記載の情報処理装置。
【請求項7】
前記形状情報で特定されるオブジェクトは、略同じ画素値を持つ連結領域を少なくとも1つ以上含み、各連結領域のサイズはCNNのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性である、ことを特徴とする請求項
6に記載の情報処理装置。
【請求項8】
前記所定のオブジェクトは、図形、記号、文字、繰り返しパターンのいずれか1つ以上を含むことを特徴とする請求項
7に記載の情報処理装置。
【請求項9】
前記生成手段は、生成したCG画像が所定の条件を満たさない場合、他のCG画像と統合して前記所定の条件を満たすCG画像を生成することを特徴とする請求項
5乃至8のいずれか1項に記載の情報処理装置。
【請求項10】
前記所定の条件は、生成したCG画像における異なる属性値を持つ2種類の画素それぞれが占める面積の割合が、一定割合を超えている場合であることを特徴とする請求項
9に記載の情報処理装置。
【請求項11】
前記生成手段は、前記取得手段が取得した前記教師画像群に含まれる教師画像の総数に対するCG画像の数の割合が一定になるように、CG画像を生成することを特徴とする請求項
6乃至10のいずれか1項に記載の情報処理装置。
【請求項12】
前記疎の部分を埋める画像は、前記取得手段が取得した前記教師画像群から抽出された特定の教師画像に対して所定の加工を行って得られた画像であることを特徴とする請求項
5に記載の情報処理装置。
【請求項13】
前記生成手段は、前記所定の加工として、前記特定の教師画像に対して二値化処理を行って二値画像を生成し、前記二値画像を構成する各画素について、黒画素と白画素とで異なる属性値を与える処理を行う、ことを特徴とする請求項
12に記載の情報処理装置。
【請求項14】
機械学習で用いる学習データを生成する情報処理装置であって、
教師画像群を取得する取得手段と、
前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、
を備え、
前記分布特性は、色の三属性のうち少なくとも1つの属性についての、前記教師画像群における分布を表し、
前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における密の部分に対応する教師画像を間引くことで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理装置。
【請求項15】
前記生成手段が生成した、前記分布特性が一様な教師画像群に基づき、教師画像と生徒画像との組で構成されるデータセットを生成する手段と、
生成された前記データセットを用いて機械学習を行う手段と、
をさらに備えたことを特徴とする請求項1乃至
14のいずれか1項に記載の情報処理装置。
【請求項16】
現像の対象となるRAW画像を取得する手段と、
前記RAW画像に対して、前記
機械学習によって得られた学習済みデモザイクネットワークを用いた推論によるデモザイクを行って、RGBの3チャネルから成るRGB画像を生成する手段と、
をさらに備えたことを特徴とする、請求項
15に記載の情報処理装置。
【請求項17】
機械学習で用いる学習データを生成する情報処理方法であって、
教師画像群を取得する取得ステップと、
前記取得ステップにて取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析ステップと、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成ステップと、
を含み、
前記分布特性は、色の三属性のうち少なくとも1つの属性についての前記教師画像群における分布を表
し、
前記生成ステップでは、前記取得ステップにて取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理方法。
【請求項18】
機械学習で用いる学習データを生成する情報処理方法であって、
教師画像群を取得する取得ステップと、
前記取得ステップにて取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析ステップと、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成ステップと、
を含み、
前記分布特性は、色の三属性のうち少なくとも1つの属性についての、前記教師画像群における分布を表し、
前記生成ステップでは、前記取得ステップにて取得した前記教師画像群に対し、その分布特性における密の部分に対応する教師画像を間引くことで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理方法。
【請求項19】
コンピュータを請求項1乃至
16のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、機械学習用の学習データの生成及び学習方法に関する。
【背景技術】
【0002】
近年、画像認識、画像処理など様々な分野において機械学習技術が利用されている。機械学習の中でも、大量の教師データを必要とする深層学習(ディープラーニング)の場合、十分な教師データが存在しない場合には、その学習精度が著しく低下することになる。この点、例えば特許文献1には、少ない元データから十分な量の教師データを生成する技術が開示されている。具体的には、まず、カメラで撮影して得られた実写画像からカメラパラメータや光源パラメータといった画像固有成分を抽出する。そして、抽出した画像固有成分に変更を加え、これを用いて光源の位置や種類を変化させた加工画像(実写画像に相関のある再構成画像)を生成することで十分な量の教師画像を得る、というものである。
【先行技術文献】
【特許文献】
【0003】
【非特許文献】
【0004】
【文献】Deep Joint Demosaicking and Denoising.ACM Transactions on Graphics,35(6):191(2016)
【発明の概要】
【発明が解決しようとする課題】
【0005】
上記特許文献1の手法によれば、十分な量の教師画像を確保できるが、得られた教師画像群において、色の三属性(色相、彩度、輝度)の分布に偏りが生じるという問題がある。そのような教師画像群を用いて深層学習を行った場合、ロバスト性の高い学習済みモデルを生成できないことがある。例えば、非特許文献1に記載の畳み込みニューラルネットワーク(CNN)ベースのデモザイクネットワークを学習する場合において、教師画像群の色相分布に偏りがあったとする。この場合、その学習結果(学習済みモデル)を用いてRAW画像をデモザイクすると、本来存在しない偽パターンが発生することがあった。そして、この現象は、教師画像群における出現頻度の少ない色相において顕著に表れる。
【0006】
そこで本開示の技術では、デモザイク、ノイズ低減、超解像などの画像信号処理系において、CNNベースのネットワークを学習する場合に、ロバスト性の高い学習済みモデルを得ることを目的とする。
【課題を解決するための手段】
【0007】
本開示に係る情報処理装置は、機械学習で用いる学習データを生成する情報処理装置であって、教師画像群を取得する取得手段と、前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、を備え、前記分布特性は、色の三属性のうち少なくとも1つの属性についての、前記教師画像群における分布を表し、前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、ことを特徴とする。
【発明の効果】
【0008】
本開示の技術によれば、CNNベースのネットワークの学習において、ロバスト性の高い学習済みモデルを得ることができる。
【図面の簡単な説明】
【0009】
【
図3】
図3は情報処理システムにおける処理の流れを示すフローチャート
【
図5】実施形態1に係る、補填画像生成部の内部構成を示すブロック図
【
図6】実施形態1に係る、補填画像生成処理の詳細を示すフローチャート
【
図7】(a)~(c)は、色相ヒストグラムの一例を示す図
【
図11】実施形態2に係る、補填画像生成部の内部構成を示すブロック図
【
図12】実施形態2に係る、補填画像生成処理の詳細を示すフローチャート
【発明を実施するための形態】
【0010】
以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。
【0011】
<CNNについて>
まず、以下の各実施形態において登場する、深層学習を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)について説明する。CNNは、学習(“training”または“learning”)により生成したフィルタを画像データに対して畳み込んだ(convolution)後、非線形演算することを繰り返す技術である。フィルタは、局所受容野(Local Receptive Field:LPF)とも呼ばれる。画像データに対してフィルタを畳み込んだ後、非線形演算して得られる画像データは、特徴マップ(feature map)と呼ばれる。また、学習は入力画像データと出力画像データのペアからなる学習データ(“training images”または“data sets”)を用いて行われる。簡単には、入力画像データから対応する出力画像データへ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。
【0012】
画像データがRGBカラーチャネルを有する場合や、特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、4次元配列で表現される。画像データ(または特徴マップ)にフィルタを畳み込んだ後、非線形演算する処理は、層(layer)という単位で表され、例えば、n層目の特徴マップやn層目のフィルタなどと表現される。また、例えばフィルタの畳み込みと非線形演算を3回繰り返すようなCNNは、3層のネットワーク構造を有する。このような非線形演算処理は、以下の式(1)のように定式化することができる。
【0013】
【0014】
上記式(1)において、Wnはn層目のフィルタ、bnはn層目のバイアス、fは非線形演算子、Xnはn層目の特徴マップ、*は畳み込み演算子である。なお、右肩の(l)はl番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめて「ネットワークパラメータ」とも呼ばれる。非線形演算としては、例えばシグモイド関数(sigmoid function)やReLU(Rectified Linear Unit)が用いられる。ReLUの場合は、以下の式(2)で与えられる。
【0015】
【0016】
上記式(2)が示すように、入力したベクトルXの要素のうち負のものはゼロ、正のものはそのままとなる。
【0017】
CNNを用いたネットワークとしては、画像認識分野のResNetや超解像分野におけるその応用RED-Netが有名である。いずれもCNNを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ResNetは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより152層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層CNNにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。
【0018】
<CNNの学習>
次に、CNNの学習について説明する。CNNの学習は、入力学習画像(観測画像)データと対応する出力学習画像(正解画像)データの組からなる学習データに対して、一般に以下の式(3)で表される目的関数を最小化することで行われる。
【0019】
【0020】
上記式(3)において、Lは正解とその推定との誤差を測る損失関数(Loss function)である。また、Yiはi番目の出力学習画像データ、Xiはi番目の入力学習画像データである。また、FはCNNの各層で行う演算(式1)を、まとめて表した関数である。また、θはネットワークパラメータ(フィルタおよびバイアス)である。また、||Z||2はL2ノルムであり、簡単にはベクトルZの要素の2乗和の平方根である。また、nは学習に用いる学習データの全枚数である。一般に学習データの全枚数は多いため、確率的勾配降下法(Stochastic Gradient Descent:SGD)では、学習画像データの一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化(=最適化)法として、モーメンタム(momentum)法やAdaGrad法、AdaDelta法、Adam法など、様々な方法が知られている。Adam法は、以下の式(4)で与えられる。
【0021】
【0022】
上記式(4)において、θi
tは反復t回目におけるi番目のネットワークパラメータ、gはθi
tに関する損失関数Lの勾配である。また、m、vはモーメントベクトル、αは基本学習率(base learning rate)、β1、β2はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。
【0023】
[実施形態1]
本実施形態では、色相分布の偏りのない好適な教師画像群を生成する手法について説明する。前述のとおり、効果的な深層学習のためには、教師画像のデータ量が十分なだけでは足りず、色相分布が一様である教師画像群を用意することが重要となる。大量の教師画像を得るために、形状や色が様々な、あらゆる被写体のサンプル画像(元画像)を収集しても、通常は教師画像群の色相分布には偏りが生じる。このような教師画像群を用いた学習によって得られた学習済みモデル(デモザイクネットワーク)を用いてRAW画像をデモザイクした場合、本来は存在しないはずの偽パターンが、デモザイク後のRGB画像に発生することがある。そこで、本実施形態では、用意されたサンプル画像群において色相分布が疎な部分を特定し、当該疎な部分を埋めるようなCG画像を生成して補うことで、色相分布の一様な教師画像群を得る態様を説明する。なお、RAW画像とは、一つの画素位置に一色分のカラーフィルタが取り付けられている単板撮像素子で撮像された、リニア色空間の画像を意味する。また、偽パターンは、カラーフィルタ配列に相関を持つパターン模様のことである。
【0024】
<システム構成>
図1は、本実施形態に係る情報処理システムの構成の一例を示す図である。
図1に示す情報処理システムでは、学習データの生成及びデモザイク学習を担うクラウドサーバ200とデモザイク推論を担うクライアントPC100とがインターネットを介して接続されている。
【0025】
<クライアントPCのハードウェア構成>
本実施形態のクライアントPC100は、撮像装置から入力されるRAW画像(モザイク画像)に対し、クラウドサーバ200から提供される学習済みネットワークパラメータを適用してデモザイク推論を行う画像処理装置である。ユーザは、クライアントPC100にインストールされた画像処理アプリケーションを利用して、モザイク画像であるRAW画像をデモザイクしてRGBの3チャネルから成る画像(RGB画像)を得る。クライアントPC100は、CPU101、RAM102、ROM103、大容量記憶装置104、汎用インタフェース(I/F)105、ネットワークI/F106を有し、各構成要素がシステムバス107によって相互に接続されている。また、クライアントPC100は、汎用I/F105を介して、デジタルカメラ10、入力装置20、外部記憶装置30及び表示装置40にも接続されている。
【0026】
CPU101は、RAM102をワークメモリとして、ROM103に格納されたプログラムを実行し、システムバス107を介してクライアントPC100の各構成要素を統括的に制御する。また、大容量記憶装置104は、例えばHDDやSSDであり、クライアントPC100で取り扱われる種々のデータを記憶する。CPU101は、システムバス107を介して大容量記憶装置104へのデータの書き込み及び大容量記憶装置104に記憶されたデータの読出しを行う。汎用I/F105は、例えばUSB、IEEE1394、HDMI(登録商標)等のシリアルバスインターフェースである。クライアントPC100は、汎用I/F105を介して、外部記憶装置30(例えば、メモリカード、CFカード、SDカード、USBメモリなどの各種記憶媒体)からデータを取得する。また、クライアントPC100は、汎用I/F105を介して、マウスやキーボードなどの入力装置20からのユーザ指示を受け付ける。また、クライアントPC100は、汎用I/F105を介して、表示装置40(例えば液晶ディスプレイなどの各種画像表示デバイス)に、CPU101によって処理された画像データ等を出力する。また、クライアントPC100は、汎用I/F105を介して、撮像装置であるデジタルカメラ10から現像処理の対象となる撮像画像(RAW画像)のデータを取得する。ネットワークI/F106は、インターネットに接続するためのインタフェースである。クライアントPC100は、インストールされたウェブブラウザによってクラウドサーバ200にアクセスして、デモザイク推論のためのネットワークパラメータを取得する。
【0027】
<クラウドサーバのハードウェア構成>
本実施形態のクラウドサーバ200は、インターネット上でクラウドサービスを提供するサーバ装置である。より詳細には、学習データの生成及びデモザイク学習を行って、学習結果(学習済みモデル)としてのネットワークパラメータを、クライアントPC100からのリクエストに応じて提供する。クラウドサーバ200は、CPU201、ROM202、RAM203、大容量記憶装置204及びネットワークI/F205を有し、各構成要素がシステムバス206によって相互に接続されている。CPU201は、ROM202に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。大容量記憶装置204は、画像データや各種プログラムを記憶するHDDやSSD等の大容量の二次記憶装置である。ネットワークI/F205は、インターネットに接続するためのインタフェースであり、クライアントPC100のウェブブラウザからのリクエストに応じて上述のネットワークパラメータを提供する。
【0028】
なお、クライアントPC100及びクラウドサーバ200の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。また、本実施形態では、クラウドサーバ200にて学習データの生成・デモザイク学習を行い、学習結果であるネットワークパラメータをクライアントPC100にダウンロードして、現像対象となるRAW画像のデモザイク推論を行うことを想定している。しかしながら、上記システム構成は一例であって、これに限定されない。例えば、クラウドサーバ200が担う機能を細分化し、学習データの生成とデモザイク学習とを別々の装置で実行するような構成でもよい。さらには、クライアントPC100の機能とクラウドサーバ200の機能とを兼ね備えたデジタルカメラ10において、学習データの生成・デモザイク学習・デモザイク推論のすべてを行うような構成であってもよい。
【0029】
<システム全体の処理の流れ>
次に、本実施形態の情報処理システムで行われる各種処理について説明する。
図2は情報処理システム全体の機能ブロック図、
図3は情報処理システムにおける処理の流れを示すフローチャートである。
図2に示す通り、クライアントPC100は、デモザイク推論部111を有する。また、クラウドサーバ200は、補填画像生成部211、データセット生成部212及びデモザイク学習部213を有する。
図2に示す各機能部は、それぞれの機能部に対応するコンピュータプログラムをCPU101/201が実行することで実現される。ただし、
図2に示す機能部の全部あるいは一部をハードウェアで実装してもよい。以下、
図3のフローに沿って説明する。なお、以下の説明において記号「S」はステップを意味する。
【0030】
S301では、予め用意された教師画像群のデータがクラウドサーバ200に入力される。教師画像は、RGBの3チャネルから成る画像で、例えばデジタルカメラ10で撮像することにより得られる。一般的には風景や動物といった自然写真、ポートレートやスポーツシーンといった人物写真、建築や商品といった人工物写真など、様々な種類の撮像画像が該当する。また、デジタルカメラ10で撮像して得られたものをそのままアップロードしてもよいし、撮り溜めたものをHDD等に記憶しておきそれをアップロードしてもよい。クラウドサーバ200に入力された教師画像群のデータは、補填画像生成部211に送られる。
【0031】
S302では、補填画像生成部211が、S301で入力された教師画像群を解析し、色相分布における疎の部分を埋める画像をCGで作成する処理を行う。ここで、疎の部分を埋める画像とは、解析によって得られた色相分布において出現頻度の少ない信号値(属性値)を持つ画素とそれ以外の信号値(属性値)を持つ画素とから成る画像を意味する。この補填画像生成処理の詳細については後述する。
【0032】
S303では、データセット生成部212が、S302で生成されたCG画像を含む教師画像群に基づき、学習に用いるデータセット(教師画像と生徒画像とのペア)を生成する。
図4は、データセットの生成を説明する図である。
図4では、RGBの3チャネルからなる教師画像をベイヤ配列に従って画素をサブサンプリングすることにより、モザイク画像である生徒画像が生成される様子を示している。なお、ここではカラーフィルタ配列としてベイヤ配列を使用しているが、入力RAW画像の画像形式に合わせて決定すればよく、例えばX-Transなど他のカラーフィルタ配列を用いても構わない。生成したデータセットは、デモザイク学習部213に送られる。
【0033】
S304では、デモザイク学習のCNNに適用する上述のネットワークパラメータがクラウドサーバ200に入力される。入力されたネットワークパラメータは、デモザイク学習部213に送られる。
【0034】
S305では、デモザイク学習部213が、受け取ったネットワークパラメータを用いてCNNの重みを初期化した後、S303で生成されたデータセットを用いてCNNを学習する。デモザイク学習の詳細については後述する。
【0035】
S306では、現像処理の対象となるRAW画像が入力される。このRAW画像は、例えばデジタルカメラ10で撮像したものを直接入力してもよいし、事前に撮像して大容量記憶装置104に記憶しておいたものを読み出してもよい。また、入力RAW画像を撮像した際のISO感度といった撮像パラメータも併せて入力される。入力RAW画像のデータはデモザイク推論部111に送られる。
【0036】
S307では、デモザイク推論部111が、デモザイク学習部213での学習で用いられたのと同じCNNを構築して、入力RAW画像のデモザイクを行う。この際、既存のネットワークパラメータが、クラウドサーバ200から受け取った更新後のネットワークパラメータで初期化される。こうして、更新後のネットワークパラメータを適用したCNNに対して、入力RAW画像を入力し、デモザイク学習部213で行ったのと同じ方法でデモザイクを行ってRGB画像(推論結果)を得る。
【0037】
以上が、本実施形態の情報処理システムで行われる処理の全体の流れである。なお、S303で生成されるデータセットには、補填後の教師画像群に含まれる各教師画像とその対になる生徒画像との画像ペアが含まれるが、生徒画像は後で生成してもよい。具体的には、S303で生成するデータセットの中身を補填後の教師画像群のデータのみとし、後続のデモザイク学習の中で(教師画像とデモザイク後の生徒画像との誤差(損失関数)を算出する処理の中で)対応する生徒画像群を生成するように構成してもよい。
【0038】
<補填画像生成処理>
続いて、前述のS302における補填画像生成処理について説明する。本実施形態では、入力された教師画像群に含まれる各教師画像の色相を解析して色相ヒストグラムを求め、出現頻度の少ない色相を補うようなCG画像を作成する例を説明する。
図5は、本実施形態に係る、補填画像生成部211の内部構成を示すブロック図である。
図5に示す通り、補填画像生成部211は、解析部501とCG画像生成部502とを有する。さらに、CG画像生成部502は、オブジェクト選択部511、オブジェクトデータ格納部512、CG描画部513を備える。
図6は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部211の動作について、
図6のフローに沿って説明する。
【0039】
S601では、解析部501が、入力された教師画像群の色相分布を解析する。ここで、色相分布の解析方法を、
図7を参照しつつ説明する。
図7(a)は、色相ヒストグラムであり、入力された教師画像群に含まれる全ての教師画像をRGB色空間からHSV色空間に変換し、色相(H)の値のみを抽出してヒストグラムにしたものである。
図7(a)の色相ヒストグラムにおける横軸はスペクトル上での色相の位置を示し、0~180度の角度により表される。また、縦軸は、各色相の出現頻度を示している。
図7(a)の色相ヒストグラムの場合、125度~180度の範囲の色相がそれ以外の範囲(0度~125度)の色相に比べて少ないことが分かる。解析部501は、このような解析結果に基づき、出現頻度の低い色相に関する情報を、「色相情報ファイル」として記録する。色相情報ファイルには、出現頻度の少ない色相範囲に含まれる角度(色相_1)と、それ以外の色相の角度(色相_2)の2種類の角度情報が、CG画像の生成数Numの分だけ記載されることになる。ここで、CG画像の生成数Numは、入力教師画像群に含まれる教師画像の総数に対するCG画像の数の割合が一定になるような生成数を予め設定しておけばよい。
図8に、上述の
図7(a)に示す色相ヒストグラムから得られる色相情報ファイルの一例を示す。左端の列にはCG画像の生成数Num分だけ昇順にデータ番号が入り、真ん中の列には色相_1の角度情報が、右端の列には色相_2の角度情報が記入されている。
【0040】
S602では、オブジェクト選択部511が、描画対象となる任意のオブジェクトを、オブジェクトデータ格納部512に格納された様々なオブジェクトの中から1つ選択する。オブジェクトデータ格納部512には、図形、記号、文字、繰り返しパターンといった様々な種類のオブジェクトに応じた形状情報が格納されているものとする。形状情報で特定される各オブジェクトは、略同じ画素値を持つ連結領域を少なくとも1つ以上含み、各連結領域のサイズはCNNのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性であることが望ましい。また、形状情報で特定されるオブジェクトにはノイズを含んでいてもよい。なお、選択するオブジェクトは、用意されたオブジェクトデータの中からランダムに決定すればよい。
【0041】
S603では、CG描画部513が、S602で選択されたオブジェクトのCG画像を生成する。この際、上述の色相情報ファイルにおいてデータ番号と紐付けて記録された色相_1と色相_2がそれぞれ前景と背景に割り当てられる。例えば、選択されたオブジェクトが記号オブジェクトである場合、前景となる記号部分には色相_1を割り当て、背景となる部分に色相_2を割り当てるといった具合である。もっとも、生成するCG画像には2種類の色相を含んでいればよく、色相_1を背景に割り当て、色相_2を前景に割り当てても構わない。
図9の(a)~(d)に、本ステップで生成されるCG画像の一例を示す。これらCG画像の生成において重要なのは、連結領域において割り当てられる2種類の色相の境界(エッジ)形状が、なるべく多くのバリエーションを持つようにすることである。なお、生成したCG画像が所定の条件を満たさない、例えばCG画像内の色相比率が極端に異なる場合には、他のCG画像と統合するなどして色相の比率を調整してもよい。
図9(e)は、
図9(a)~(d)に示した4つのCG画像をN×Nのタイル状に連結して、他のCG画像と同じサイズになるように縮小して得られたCG画像を示している。統合を行うか否かは、生成したCG画像における2つの色相それぞれが占める面積の割合が、一定割合(例えば、色相_1:色相_2=9:1)を超えているかどうかなどの閾値処理を行って決めればよい。
【0042】
S604では、色相情報ファイルにて規定されているデータ番号の数の分だけCG画像が生成されてか否か、すなわち、生成したCG画像の数が上述の生成数Numに達したか否かが判定される。生成したCG画像の数が生成数Numに達していればS605に進み、達していなければS602に戻って次のオブジェクトを選択し、CG画像の生成を続行する。
【0043】
S605では、生成されたCG画像がS601で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部212に出力される。
【0044】
以上が、本実施形態に係る、補填画像生成処理の内容である。なお、上述の実施形態では、予め設定した生成数に従ってCG画像を生成していたが、これに限定されない。例えば、CG画像を生成する度に入力教師画像群にそれを追加して色相ヒストグラムを再度求め、色相の出現頻度の偏りが解消されていればその段階でCG画像の生成をやめてもよい。この際、偏りが解消されているか否かは、例えば閾値処理によって判定できる。具体的には、新たに求めた色相ヒストグラムにおける出現頻度の標準偏差が、予め設定した閾値th以下であれば偏りがないと判定すればよい。例えば、CG画像を補填後の教師画像群から、
図7(b)及び
図7(c)に示すような色相ヒストグラムが得られたとする。
図7(b)の場合はσ
b≧thであるとして偏りがあると判定し、
図7(c)の場合はσ
c<thであるとして偏りがないと判定する。そして、偏りが未だ解消できていないと判定された場合には、新たに求めた色相ヒストグラムから頻度の少ない色相を特定して色相情報ファイルを更新し、色相分布における偏りが解消されるまでCG画像の生成を続行する。このような方法でCG画像をどれだけ生成するかを制御してもよい。
【0045】
<デモザイク学習処理>
続いて、デモザイク学習部213におけるデモザイク学習について説明する。学習には、例えば非特許文献1に開示されているCNNを用いる。
図10は、CNNの構造と学習の流れを説明する図である。以下、
図10を参照して、デモザイク学習について詳しく説明する。
【0046】
CNNは、前述の式(1)の演算を行う複数のフィルタ1002で構成されている。このCNNに対して、前述のペア画像に含まれる生徒画像1000を入力する。この際、
図10に示すように、生徒画像1000を3チャネルの欠損画像1001に変換して入力する。欠損画像1001におけるRチャネル1001aには、生徒画像1000のR成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。Gチャネル、Bチャネルについても同様である。すなわち、Gチャネル1001bには、生徒画像1000のG成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。また、Bチャネル1001cには、生徒画像1000のB成分の画素のみが含まれており、他の画素には欠損値(0)が設定されている。なお、欠損値については、bilinear補間等の手法により補間して設定しても構わない。次に、この欠損画像1001に対してフィルタ1002を順次適用し、特徴マップを算出する。続いて、連結層1003によって、算出した特徴マップと欠損画像1001とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれn1とn2であった場合、連結結果のチャネル数は(n1+n2)となる。続けて、この連結結果に対してフィルタ1002を適用し、最終フィルタではRGB3チャネルの出力を行う。これにより、RGBの3チャネルから成る画像が推論結果1004として得られる。そして、得られた推論結果1004と、ペア画像に含まれていた教師画像(不図示)との差分を求め、画像全体についてその平均を取ることにより、損失関数値を得る。そして、得られた損失関数値を用いて、誤差逆伝播法(Back propagation)などによってネットワークパラメータの更新を行う。
【0047】
なお、上述のようなデモザイク学習後のCNNをさらにファインチューニングしてもよい。ファインチューニングとは学習済モデルの重みを微調整する学習方法である。具体的なやり方としては、まず、統計的に出現頻度の少ない色相の組合せを含んだチャート画像(モザイク画像)に対して学習済モデルを用いてデモザイクし、偽パターンが発生するか否かを検査する。出現頻度の少ない色相の組合せとしては、例えばグリーンとマゼンタなど補色の関係にあるものが挙げられる。デモザイク後のチャート画像において偽パターンが発生した場合、当該チャート画像における色相の組合せに類似する色相の組合せを持つ教師画像を中心にデータセットを再構成し、学習済モデルをファインチューニングする。これにより、学習済モデルのロバスト性を向上させることができる。
【0048】
<変形例>
なお、本実施形態では、入力教師画像群に含まれる全ての教師画像を対象に解析を行ってその色相分布における疎の部分を埋めるCG画像を生成したが、これに限定されない。例えば、入力教師画像群に含まれる一部の教師画像のみを用いて解析を行って疎の部分を埋めるCG画像を生成してもよい。
【0049】
また、本実施形態では色相分布を解析してその偏りを解消するようなCG画像を生成したが、彩度分布或いは輝度分布など他の分布特性を解析し、それぞれの分布の偏りを無くすようにCG画像を生成してもよい。
【0050】
また、本実施形態では、入力教師画像群において色相分布が疎の部分にCG画像を追加・補充することで色相分布を一様にしているが、これとは逆に、色相分布が密な部分から教師画像を削除・間引くことで色相分布を一様にしてもよい。
【0051】
さらに、本実施形態ではデモザイクを例に説明を行ったが、本手法により生成した教師画像群を用いることで、他の画像信号処理系(例えば、ノイズ低減、超解像など)においても深層学習のロバスト性を向上させることができる。深層学習を応用したノイズ低減や超解像には、公知であるCNNベースのネットワーク(REDNET、SRCNNなど)に、本手法により生成された教師画像群を用いることで実現可能である。
【0052】
以上のとおり本実施形態によれば、教師画像群における色の三属性(色相、彩度、輝度)の分布に偏りがある場合に、その偏りが解消されるようにCG画像を生成して教師画像を補填する。これにより、ロバスト性の高いデモザイクモデルを得ることができる。
【0053】
[実施形態2]
実施形態1では、オブジェクトデータに基づいて生成したCG画像を新たな教師画像として入力教師画像群に加えることで、色相分布が一様な教師画像群を得る態様を説明した。次に、入力教師画像群に含まれる教師画像を加工して得られた画像を新たな教師画像として加えることで、色相分布が一様な教師画像群を得る態様を、実施形態2として説明する。なお、情報処理システムの基本構成など実施形態1と共通する内容について説明を省略し、以下では差異点を中心に説明するものとする。
【0054】
図11は、本実施形態に係る、補填画像生成部211’の内部構成を示すブロック図である。
図11に示す通り、補填画像生成部211’は、解析部501と画像加工部1100とを有する。さらに、画像加工部1100は、抽出部1101、二値化部1102、色相設定部1103を備える。
図12は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部211’の動作について、
図12のフローに沿って説明する。
【0055】
S1201では、前述の
図6のフローにおけるS601と同様、解析部501が入力された教師画像群の色相分布を解析する。
【0056】
S1202では、抽出部1101が、加工処理の対象となる任意の教師画像を、入力された教師画像群の中から抽出する。抽出の際には、予め設定された所定割合(例えば、教師画像群の20%など)の数の教師画像がランダムに抽出される。
【0057】
S1103では、二値化部1102が、S1202で抽出した全ての教師画像のうち注目する教師画像に対して二値化処理を行って、各画素を白画素または黒画素で表現した二値画像を生成する。二値化処理には、閾値指定法やPタイル法など、公知の方法を適用すればよい。
【0058】
S1204では、色相設定部1103が、S1203で生成した二値画像に対し、色相情報ファイルに基づき2種類の色相を設定して、色相分布の疎の部分を埋めるための画像を生成する。ここで生成される画像は、注目教師画像に含まれる様々な色を、設定された2種類の色相の色で表現した画像(以下、「2色画像」と呼ぶ。)である。ここで、
図13を参照して、2色画像が出来るまでの過程を説明する。
図13(a)は、S1201で抽出した教師画像、
図13(b)はS1102に二値化処理で得られた二値画像を示している。この二値画像における黒画素に色相_1の色を割り当て、白画素に色相_2の色を割り当てて得られた画像が、
図13(c)に示す2色画像である。2色画像においては、注目教師画像に含まれる様々な色が2種類の色相の色で表現されていればよく、色相_1の色を白画素に割り当て、色相_2の色を黒画素に割り当てても構わない。
【0059】
S1205では、S1202で抽出したすべての教師画像を基に2色画像が生成されたか否か、すなわち、未処理の教師画像があるかどうかが判定される。未処理の教師画像があればS1103に戻って次の注目する教師画像を決定して処理を続行する。一方、抽出したすべての教師画像から2色画像が生成されていれば、S1206に進む。
【0060】
S1206では、S1204で生成された複数の2色画像がS1201で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部212に出力される。
【0061】
以上が、本実施形態に係る、補填画像生成処理の内容である。このように、用意された教師画像群に含まれる教師画像を加工するという方法によっても、色相分布の疎の部分を埋めることができる。
【0062】
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。