特許7463186 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7463186情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-29

(45)【発行日】2024-04-08

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20240401BHJP

H04N 23/60 20230101ALI20240401BHJP

【ＦＩ】

G06T7/00 350C

H04N23/60 500

【請求項の数】 19

(21)【出願番号】P 2020091353

(22)【出願日】2020-05-26

(65)【公開番号】P2021189527

(43)【公開日】2021-12-13

【審査請求日】2023-05-09

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】高田洋佑

【審査官】伊知地和之

(56)【参考文献】

【文献】中国特許出願公開第１１０００８７８３（ＣＮ，Ａ）

【文献】特開２０１３－１６２３４７（ＪＰ，Ａ）

【文献】中国特許出願公開第１１０７８１９１３（ＣＮ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００

Ｇ０６Ｔ３／００－３／６０

Ｇ０６Ｔ５／００－５／５０

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

Ｈ０４Ｎ２３／００

Ｈ０４Ｎ２３／４０－２３／７６

Ｈ０４Ｎ２３／９０－２３／９５９

ＣＳＤＢ（日本国特許庁）

(57)【特許請求の範囲】

【請求項1】

機械学習で用いる学習データを生成する情報処理装置であって、
教師画像群を取得する取得手段と、
前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、
を備え、
前記分布特性は、色の三属性のうち少なくとも１つの属性についての、前記教師画像群における分布を表し、
前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理装置。

【請求項2】

前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の色相分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、色相分布が一様な教師画像群を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の輝度分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、輝度分布が一様な教師画像群を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記解析手段は、前記分布特性として、前記取得手段が取得した前記教師画像群に含まれる各教師画像の彩度分布を解析し、
前記生成手段は、前記取得手段が取得した前記教師画像群に基づき、彩度分布が一様な教師画像群を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項5】

前記疎の部分を埋める画像は、前記解析によって得られた分布特性において出現頻度の少ない属性値を持つ画素とそれ以外の属性値を持つ画素とから成る画像であることを特徴とする請求項１に記載の情報処理装置。

【請求項6】

前記疎の部分を埋める画像は、所定のオブジェクトを描画することで得られるＣＧ画像であり、
前記生成手段は、前記所定のオブジェクトに対応する形状情報に基づき前記ＣＧ画像を生成して、前記追加を行う、
ことを特徴とする請求項５に記載の情報処理装置。

【請求項7】

前記形状情報で特定されるオブジェクトは、略同じ画素値を持つ連結領域を少なくとも１つ以上含み、各連結領域のサイズはＣＮＮのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性である、ことを特徴とする請求項６に記載の情報処理装置。

【請求項8】

前記所定のオブジェクトは、図形、記号、文字、繰り返しパターンのいずれか１つ以上を含むことを特徴とする請求項７に記載の情報処理装置。

【請求項9】

前記生成手段は、生成したＣＧ画像が所定の条件を満たさない場合、他のＣＧ画像と統合して前記所定の条件を満たすＣＧ画像を生成することを特徴とする請求項５乃至８のいずれか１項に記載の情報処理装置。

【請求項10】

前記所定の条件は、生成したＣＧ画像における異なる属性値を持つ２種類の画素それぞれが占める面積の割合が、一定割合を超えている場合であることを特徴とする請求項９に記載の情報処理装置。

【請求項11】

前記生成手段は、前記取得手段が取得した前記教師画像群に含まれる教師画像の総数に対するＣＧ画像の数の割合が一定になるように、ＣＧ画像を生成することを特徴とする請求項６乃至１０のいずれか１項に記載の情報処理装置。

【請求項12】

前記疎の部分を埋める画像は、前記取得手段が取得した前記教師画像群から抽出された特定の教師画像に対して所定の加工を行って得られた画像であることを特徴とする請求項５に記載の情報処理装置。

【請求項13】

前記生成手段は、前記所定の加工として、前記特定の教師画像に対して二値化処理を行って二値画像を生成し、前記二値画像を構成する各画素について、黒画素と白画素とで異なる属性値を与える処理を行う、ことを特徴とする請求項１２に記載の情報処理装置。

【請求項14】

機械学習で用いる学習データを生成する情報処理装置であって、
教師画像群を取得する取得手段と、
前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、
を備え、
前記分布特性は、色の三属性のうち少なくとも１つの属性についての、前記教師画像群における分布を表し、
前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における密の部分に対応する教師画像を間引くことで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理装置。

【請求項15】

前記生成手段が生成した、前記分布特性が一様な教師画像群に基づき、教師画像と生徒画像との組で構成されるデータセットを生成する手段と、
生成された前記データセットを用いて機械学習を行う手段と、
をさらに備えたことを特徴とする請求項１乃至１４のいずれか１項に記載の情報処理装置。

【請求項16】

現像の対象となるＲＡＷ画像を取得する手段と、
前記ＲＡＷ画像に対して、前記機械学習によって得られた学習済みデモザイクネットワークを用いた推論によるデモザイクを行って、ＲＧＢの３チャネルから成るＲＧＢ画像を生成する手段と、
をさらに備えたことを特徴とする、請求項１５に記載の情報処理装置。

【請求項17】

機械学習で用いる学習データを生成する情報処理方法であって、
教師画像群を取得する取得ステップと、
前記取得ステップにて取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析ステップと、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成ステップと、
を含み、
前記分布特性は、色の三属性のうち少なくとも１つの属性についての前記教師画像群における分布を表し、
前記生成ステップでは、前記取得ステップにて取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理方法。

【請求項18】

機械学習で用いる学習データを生成する情報処理方法であって、
教師画像群を取得する取得ステップと、
前記取得ステップにて取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析ステップと、
前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成ステップと、
を含み、
前記分布特性は、色の三属性のうち少なくとも１つの属性についての、前記教師画像群における分布を表し、
前記生成ステップでは、前記取得ステップにて取得した前記教師画像群に対し、その分布特性における密の部分に対応する教師画像を間引くことで、分布特性が一様な教師画像群を生成する、
ことを特徴とする情報処理方法。

【請求項19】

コンピュータを請求項１乃至１６のいずれか１項に記載の情報処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習用の学習データの生成及び学習方法に関する。

【背景技術】

【0002】

近年、画像認識、画像処理など様々な分野において機械学習技術が利用されている。機械学習の中でも、大量の教師データを必要とする深層学習（ディープラーニング）の場合、十分な教師データが存在しない場合には、その学習精度が著しく低下することになる。この点、例えば特許文献１には、少ない元データから十分な量の教師データを生成する技術が開示されている。具体的には、まず、カメラで撮影して得られた実写画像からカメラパラメータや光源パラメータといった画像固有成分を抽出する。そして、抽出した画像固有成分に変更を加え、これを用いて光源の位置や種類を変化させた加工画像（実写画像に相関のある再構成画像）を生成することで十分な量の教師画像を得る、というものである。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１９－２８８７６号公報

【非特許文献】

【0004】

【文献】ＤｅｅｐＪｏｉｎｔＤｅｍｏｓａｉｃｋｉｎｇａｎｄＤｅｎｏｉｓｉｎｇ．ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎＧｒａｐｈｉｃｓ，３５（６）：１９１（２０１６）

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記特許文献１の手法によれば、十分な量の教師画像を確保できるが、得られた教師画像群において、色の三属性（色相、彩度、輝度）の分布に偏りが生じるという問題がある。そのような教師画像群を用いて深層学習を行った場合、ロバスト性の高い学習済みモデルを生成できないことがある。例えば、非特許文献１に記載の畳み込みニューラルネットワーク（ＣＮＮ）ベースのデモザイクネットワークを学習する場合において、教師画像群の色相分布に偏りがあったとする。この場合、その学習結果（学習済みモデル）を用いてＲＡＷ画像をデモザイクすると、本来存在しない偽パターンが発生することがあった。そして、この現象は、教師画像群における出現頻度の少ない色相において顕著に表れる。

【0006】

そこで本開示の技術では、デモザイク、ノイズ低減、超解像などの画像信号処理系において、ＣＮＮベースのネットワークを学習する場合に、ロバスト性の高い学習済みモデルを得ることを目的とする。

【課題を解決するための手段】

【0007】

本開示に係る情報処理装置は、機械学習で用いる学習データを生成する情報処理装置であって、教師画像群を取得する取得手段と、前記取得手段が取得した前記教師画像群に含まれる教師画像の分布特性を解析する解析手段と、前記解析の結果に基づき、前記分布特性が一様な教師画像群を生成する生成手段と、を備え、前記分布特性は、色の三属性のうち少なくとも１つの属性についての、前記教師画像群における分布を表し、前記生成手段は、前記取得手段が取得した前記教師画像群に対し、その分布特性における疎の部分を埋める画像を追加することで、分布特性が一様な教師画像群を生成する、ことを特徴とする。

【発明の効果】

【0008】

本開示の技術によれば、ＣＮＮベースのネットワークの学習において、ロバスト性の高い学習済みモデルを得ることができる。

【図面の簡単な説明】

【0009】

【図1】情報処理システムの構成の一例を示す図

【図2】情報処理システム全体の機能ブロック図

【図3】図３は情報処理システムにおける処理の流れを示すフローチャート

【図4】データセットの生成を説明する図

【図5】実施形態１に係る、補填画像生成部の内部構成を示すブロック図

【図6】実施形態１に係る、補填画像生成処理の詳細を示すフローチャート

【図7】（ａ）～（ｃ）は、色相ヒストグラムの一例を示す図

【図8】色相情報ファイルの一例を示す図

【図9】（ａ）～（ｅ）は、ＣＧ画像の一例を示す図

【図10】ＣＮＮの構造と学習の流れを説明する図

【図11】実施形態２に係る、補填画像生成部の内部構成を示すブロック図

【図12】実施形態２に係る、補填画像生成処理の詳細を示すフローチャート

【図13】ＣＧ画像の生成過程を説明する図

【発明を実施するための形態】

【0010】

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

【0011】

＜ＣＮＮについて＞
まず、以下の各実施形態において登場する、深層学習を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）について説明する。ＣＮＮは、学習（“training”または“learning”）により生成したフィルタを画像データに対して畳み込んだ（convolution）後、非線形演算することを繰り返す技術である。フィルタは、局所受容野（Local Receptive Field：ＬＰＦ）とも呼ばれる。画像データに対してフィルタを畳み込んだ後、非線形演算して得られる画像データは、特徴マップ（feature map）と呼ばれる。また、学習は入力画像データと出力画像データのペアからなる学習データ（“training images”または“data sets”）を用いて行われる。簡単には、入力画像データから対応する出力画像データへ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。

【0012】

画像データがＲＧＢカラーチャネルを有する場合や、特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、４次元配列で表現される。画像データ（または特徴マップ）にフィルタを畳み込んだ後、非線形演算する処理は、層（layer）という単位で表され、例えば、ｎ層目の特徴マップやｎ層目のフィルタなどと表現される。また、例えばフィルタの畳み込みと非線形演算を３回繰り返すようなＣＮＮは、３層のネットワーク構造を有する。このような非線形演算処理は、以下の式（１）のように定式化することができる。

【0013】

【数1】

【0014】

上記式（１）において、Ｗ_nはｎ層目のフィルタ、ｂ_nはｎ層目のバイアス、ｆは非線形演算子、Ｘ_nはｎ層目の特徴マップ、＊は畳み込み演算子である。なお、右肩の（ｌ）はｌ番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめて「ネットワークパラメータ」とも呼ばれる。非線形演算としては、例えばシグモイド関数（sigmoid function）やＲｅＬＵ（Rectified Linear Unit）が用いられる。ＲｅＬＵの場合は、以下の式（２）で与えられる。

【0015】

【数2】

【0016】

上記式（２）が示すように、入力したベクトルＸの要素のうち負のものはゼロ、正のものはそのままとなる。

【0017】

ＣＮＮを用いたネットワークとしては、画像認識分野のＲｅｓＮｅｔや超解像分野におけるその応用ＲＥＤ－Ｎｅｔが有名である。いずれもＣＮＮを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ＲｅｓＮｅｔは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより１５２層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層ＣＮＮにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。

【0018】

＜ＣＮＮの学習＞
次に、ＣＮＮの学習について説明する。ＣＮＮの学習は、入力学習画像（観測画像）データと対応する出力学習画像（正解画像）データの組からなる学習データに対して、一般に以下の式（３）で表される目的関数を最小化することで行われる。

【0019】

【数3】

【0020】

上記式（３）において、Ｌは正解とその推定との誤差を測る損失関数（Loss function）である。また、Ｙ_iはｉ番目の出力学習画像データ、Ｘ_iはｉ番目の入力学習画像データである。また、ＦはＣＮＮの各層で行う演算（式１）を、まとめて表した関数である。また、θはネットワークパラメータ（フィルタおよびバイアス）である。また、｜｜Ｚ｜｜₂はＬ２ノルムであり、簡単にはベクトルＺの要素の２乗和の平方根である。また、ｎは学習に用いる学習データの全枚数である。一般に学習データの全枚数は多いため、確率的勾配降下法（Stochastic Gradient Descent：ＳＧＤ）では、学習画像データの一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化（＝最適化）法として、モーメンタム（momentum）法やＡｄａＧｒａｄ法、ＡｄａＤｅｌｔａ法、Ａｄａｍ法など、様々な方法が知られている。Ａｄａｍ法は、以下の式（４）で与えられる。

【0021】

【数4】

【0022】

上記式（４）において、θ_i ^tは反復ｔ回目におけるｉ番目のネットワークパラメータ、ｇはθ_i ^tに関する損失関数Ｌの勾配である。また、ｍ、ｖはモーメントベクトル、αは基本学習率（base learning rate）、β１、β２はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。

【0023】

［実施形態１］
本実施形態では、色相分布の偏りのない好適な教師画像群を生成する手法について説明する。前述のとおり、効果的な深層学習のためには、教師画像のデータ量が十分なだけでは足りず、色相分布が一様である教師画像群を用意することが重要となる。大量の教師画像を得るために、形状や色が様々な、あらゆる被写体のサンプル画像（元画像）を収集しても、通常は教師画像群の色相分布には偏りが生じる。このような教師画像群を用いた学習によって得られた学習済みモデル（デモザイクネットワーク）を用いてＲＡＷ画像をデモザイクした場合、本来は存在しないはずの偽パターンが、デモザイク後のＲＧＢ画像に発生することがある。そこで、本実施形態では、用意されたサンプル画像群において色相分布が疎な部分を特定し、当該疎な部分を埋めるようなＣＧ画像を生成して補うことで、色相分布の一様な教師画像群を得る態様を説明する。なお、ＲＡＷ画像とは、一つの画素位置に一色分のカラーフィルタが取り付けられている単板撮像素子で撮像された、リニア色空間の画像を意味する。また、偽パターンは、カラーフィルタ配列に相関を持つパターン模様のことである。

【0024】

＜システム構成＞
図１は、本実施形態に係る情報処理システムの構成の一例を示す図である。図１に示す情報処理システムでは、学習データの生成及びデモザイク学習を担うクラウドサーバ２００とデモザイク推論を担うクライアントＰＣ１００とがインターネットを介して接続されている。

【0025】

＜クライアントＰＣのハードウェア構成＞
本実施形態のクライアントＰＣ１００は、撮像装置から入力されるＲＡＷ画像（モザイク画像）に対し、クラウドサーバ２００から提供される学習済みネットワークパラメータを適用してデモザイク推論を行う画像処理装置である。ユーザは、クライアントＰＣ１００にインストールされた画像処理アプリケーションを利用して、モザイク画像であるＲＡＷ画像をデモザイクしてＲＧＢの３チャネルから成る画像（ＲＧＢ画像）を得る。クライアントＰＣ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、大容量記憶装置１０４、汎用インタフェース（Ｉ／Ｆ）１０５、ネットワークＩ／Ｆ１０６を有し、各構成要素がシステムバス１０７によって相互に接続されている。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、デジタルカメラ１０、入力装置２０、外部記憶装置３０及び表示装置４０にも接続されている。

【0026】

ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３に格納されたプログラムを実行し、システムバス１０７を介してクライアントＰＣ１００の各構成要素を統括的に制御する。また、大容量記憶装置１０４は、例えばＨＤＤやＳＳＤであり、クライアントＰＣ１００で取り扱われる種々のデータを記憶する。ＣＰＵ１０１は、システムバス１０７を介して大容量記憶装置１０４へのデータの書き込み及び大容量記憶装置１０４に記憶されたデータの読出しを行う。汎用Ｉ／Ｆ１０５は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＨＤＭＩ（登録商標）等のシリアルバスインターフェースである。クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、外部記憶装置３０（例えば、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリなどの各種記憶媒体）からデータを取得する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、マウスやキーボードなどの入力装置２０からのユーザ指示を受け付ける。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、表示装置４０（例えば液晶ディスプレイなどの各種画像表示デバイス）に、ＣＰＵ１０１によって処理された画像データ等を出力する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、撮像装置であるデジタルカメラ１０から現像処理の対象となる撮像画像（ＲＡＷ画像）のデータを取得する。ネットワークＩ／Ｆ１０６は、インターネットに接続するためのインタフェースである。クライアントＰＣ１００は、インストールされたウェブブラウザによってクラウドサーバ２００にアクセスして、デモザイク推論のためのネットワークパラメータを取得する。

【0027】

＜クラウドサーバのハードウェア構成＞
本実施形態のクラウドサーバ２００は、インターネット上でクラウドサービスを提供するサーバ装置である。より詳細には、学習データの生成及びデモザイク学習を行って、学習結果（学習済みモデル）としてのネットワークパラメータを、クライアントＰＣ１００からのリクエストに応じて提供する。クラウドサーバ２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、大容量記憶装置２０４及びネットワークＩ／Ｆ２０５を有し、各構成要素がシステムバス２０６によって相互に接続されている。ＣＰＵ２０１は、ＲＯＭ２０２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。大容量記憶装置２０４は、画像データや各種プログラムを記憶するＨＤＤやＳＳＤ等の大容量の二次記憶装置である。ネットワークＩ／Ｆ２０５は、インターネットに接続するためのインタフェースであり、クライアントＰＣ１００のウェブブラウザからのリクエストに応じて上述のネットワークパラメータを提供する。

【0028】

なお、クライアントＰＣ１００及びクラウドサーバ２００の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。また、本実施形態では、クラウドサーバ２００にて学習データの生成・デモザイク学習を行い、学習結果であるネットワークパラメータをクライアントＰＣ１００にダウンロードして、現像対象となるＲＡＷ画像のデモザイク推論を行うことを想定している。しかしながら、上記システム構成は一例であって、これに限定されない。例えば、クラウドサーバ２００が担う機能を細分化し、学習データの生成とデモザイク学習とを別々の装置で実行するような構成でもよい。さらには、クライアントＰＣ１００の機能とクラウドサーバ２００の機能とを兼ね備えたデジタルカメラ１０において、学習データの生成・デモザイク学習・デモザイク推論のすべてを行うような構成であってもよい。

【0029】

＜システム全体の処理の流れ＞
次に、本実施形態の情報処理システムで行われる各種処理について説明する。図２は情報処理システム全体の機能ブロック図、図３は情報処理システムにおける処理の流れを示すフローチャートである。図２に示す通り、クライアントＰＣ１００は、デモザイク推論部１１１を有する。また、クラウドサーバ２００は、補填画像生成部２１１、データセット生成部２１２及びデモザイク学習部２１３を有する。図２に示す各機能部は、それぞれの機能部に対応するコンピュータプログラムをＣＰＵ１０１／２０１が実行することで実現される。ただし、図２に示す機能部の全部あるいは一部をハードウェアで実装してもよい。以下、図３のフローに沿って説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0030】

Ｓ３０１では、予め用意された教師画像群のデータがクラウドサーバ２００に入力される。教師画像は、ＲＧＢの３チャネルから成る画像で、例えばデジタルカメラ１０で撮像することにより得られる。一般的には風景や動物といった自然写真、ポートレートやスポーツシーンといった人物写真、建築や商品といった人工物写真など、様々な種類の撮像画像が該当する。また、デジタルカメラ１０で撮像して得られたものをそのままアップロードしてもよいし、撮り溜めたものをＨＤＤ等に記憶しておきそれをアップロードしてもよい。クラウドサーバ２００に入力された教師画像群のデータは、補填画像生成部２１１に送られる。

【0031】

Ｓ３０２では、補填画像生成部２１１が、Ｓ３０１で入力された教師画像群を解析し、色相分布における疎の部分を埋める画像をＣＧで作成する処理を行う。ここで、疎の部分を埋める画像とは、解析によって得られた色相分布において出現頻度の少ない信号値（属性値）を持つ画素とそれ以外の信号値（属性値）を持つ画素とから成る画像を意味する。この補填画像生成処理の詳細については後述する。

【0032】

Ｓ３０３では、データセット生成部２１２が、Ｓ３０２で生成されたＣＧ画像を含む教師画像群に基づき、学習に用いるデータセット（教師画像と生徒画像とのペア）を生成する。図４は、データセットの生成を説明する図である。図４では、ＲＧＢの３チャネルからなる教師画像をベイヤ配列に従って画素をサブサンプリングすることにより、モザイク画像である生徒画像が生成される様子を示している。なお、ここではカラーフィルタ配列としてベイヤ配列を使用しているが、入力ＲＡＷ画像の画像形式に合わせて決定すればよく、例えばＸ－Ｔｒａｎｓなど他のカラーフィルタ配列を用いても構わない。生成したデータセットは、デモザイク学習部２１３に送られる。

【0033】

Ｓ３０４では、デモザイク学習のＣＮＮに適用する上述のネットワークパラメータがクラウドサーバ２００に入力される。入力されたネットワークパラメータは、デモザイク学習部２１３に送られる。

【0034】

Ｓ３０５では、デモザイク学習部２１３が、受け取ったネットワークパラメータを用いてＣＮＮの重みを初期化した後、Ｓ３０３で生成されたデータセットを用いてＣＮＮを学習する。デモザイク学習の詳細については後述する。

【0035】

Ｓ３０６では、現像処理の対象となるＲＡＷ画像が入力される。このＲＡＷ画像は、例えばデジタルカメラ１０で撮像したものを直接入力してもよいし、事前に撮像して大容量記憶装置１０４に記憶しておいたものを読み出してもよい。また、入力ＲＡＷ画像を撮像した際のＩＳＯ感度といった撮像パラメータも併せて入力される。入力ＲＡＷ画像のデータはデモザイク推論部１１１に送られる。

【0036】

Ｓ３０７では、デモザイク推論部１１１が、デモザイク学習部２１３での学習で用いられたのと同じＣＮＮを構築して、入力ＲＡＷ画像のデモザイクを行う。この際、既存のネットワークパラメータが、クラウドサーバ２００から受け取った更新後のネットワークパラメータで初期化される。こうして、更新後のネットワークパラメータを適用したＣＮＮに対して、入力ＲＡＷ画像を入力し、デモザイク学習部２１３で行ったのと同じ方法でデモザイクを行ってＲＧＢ画像（推論結果）を得る。

【0037】

以上が、本実施形態の情報処理システムで行われる処理の全体の流れである。なお、Ｓ３０３で生成されるデータセットには、補填後の教師画像群に含まれる各教師画像とその対になる生徒画像との画像ペアが含まれるが、生徒画像は後で生成してもよい。具体的には、Ｓ３０３で生成するデータセットの中身を補填後の教師画像群のデータのみとし、後続のデモザイク学習の中で（教師画像とデモザイク後の生徒画像との誤差（損失関数）を算出する処理の中で）対応する生徒画像群を生成するように構成してもよい。

【0038】

＜補填画像生成処理＞
続いて、前述のＳ３０２における補填画像生成処理について説明する。本実施形態では、入力された教師画像群に含まれる各教師画像の色相を解析して色相ヒストグラムを求め、出現頻度の少ない色相を補うようなＣＧ画像を作成する例を説明する。図５は、本実施形態に係る、補填画像生成部２１１の内部構成を示すブロック図である。図５に示す通り、補填画像生成部２１１は、解析部５０１とＣＧ画像生成部５０２とを有する。さらに、ＣＧ画像生成部５０２は、オブジェクト選択部５１１、オブジェクトデータ格納部５１２、ＣＧ描画部５１３を備える。図６は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部２１１の動作について、図６のフローに沿って説明する。

【0039】

Ｓ６０１では、解析部５０１が、入力された教師画像群の色相分布を解析する。ここで、色相分布の解析方法を、図７を参照しつつ説明する。図７（ａ）は、色相ヒストグラムであり、入力された教師画像群に含まれる全ての教師画像をＲＧＢ色空間からＨＳＶ色空間に変換し、色相（Ｈ）の値のみを抽出してヒストグラムにしたものである。図７（ａ）の色相ヒストグラムにおける横軸はスペクトル上での色相の位置を示し、０～１８０度の角度により表される。また、縦軸は、各色相の出現頻度を示している。図７（ａ）の色相ヒストグラムの場合、１２５度～１８０度の範囲の色相がそれ以外の範囲（０度～１２５度）の色相に比べて少ないことが分かる。解析部５０１は、このような解析結果に基づき、出現頻度の低い色相に関する情報を、「色相情報ファイル」として記録する。色相情報ファイルには、出現頻度の少ない色相範囲に含まれる角度（色相＿１）と、それ以外の色相の角度（色相＿２）の２種類の角度情報が、ＣＧ画像の生成数Ｎｕｍの分だけ記載されることになる。ここで、ＣＧ画像の生成数Ｎｕｍは、入力教師画像群に含まれる教師画像の総数に対するＣＧ画像の数の割合が一定になるような生成数を予め設定しておけばよい。図８に、上述の図７（ａ）に示す色相ヒストグラムから得られる色相情報ファイルの一例を示す。左端の列にはＣＧ画像の生成数Ｎｕｍ分だけ昇順にデータ番号が入り、真ん中の列には色相＿１の角度情報が、右端の列には色相＿２の角度情報が記入されている。

【0040】

Ｓ６０２では、オブジェクト選択部５１１が、描画対象となる任意のオブジェクトを、オブジェクトデータ格納部５１２に格納された様々なオブジェクトの中から１つ選択する。オブジェクトデータ格納部５１２には、図形、記号、文字、繰り返しパターンといった様々な種類のオブジェクトに応じた形状情報が格納されているものとする。形状情報で特定される各オブジェクトは、略同じ画素値を持つ連結領域を少なくとも１つ以上含み、各連結領域のサイズはＣＮＮのフィルタサイズよりも大きく、全連結領域の色相ヒストグラムの形状が双峰性であることが望ましい。また、形状情報で特定されるオブジェクトにはノイズを含んでいてもよい。なお、選択するオブジェクトは、用意されたオブジェクトデータの中からランダムに決定すればよい。

【0041】

Ｓ６０３では、ＣＧ描画部５１３が、Ｓ６０２で選択されたオブジェクトのＣＧ画像を生成する。この際、上述の色相情報ファイルにおいてデータ番号と紐付けて記録された色相＿１と色相＿２がそれぞれ前景と背景に割り当てられる。例えば、選択されたオブジェクトが記号オブジェクトである場合、前景となる記号部分には色相＿１を割り当て、背景となる部分に色相＿２を割り当てるといった具合である。もっとも、生成するＣＧ画像には２種類の色相を含んでいればよく、色相＿１を背景に割り当て、色相＿２を前景に割り当てても構わない。図９の（ａ）～（ｄ）に、本ステップで生成されるＣＧ画像の一例を示す。これらＣＧ画像の生成において重要なのは、連結領域において割り当てられる２種類の色相の境界（エッジ）形状が、なるべく多くのバリエーションを持つようにすることである。なお、生成したＣＧ画像が所定の条件を満たさない、例えばＣＧ画像内の色相比率が極端に異なる場合には、他のＣＧ画像と統合するなどして色相の比率を調整してもよい。図９（ｅ）は、図９（ａ）～（ｄ）に示した４つのＣＧ画像をＮ×Ｎのタイル状に連結して、他のＣＧ画像と同じサイズになるように縮小して得られたＣＧ画像を示している。統合を行うか否かは、生成したＣＧ画像における２つの色相それぞれが占める面積の割合が、一定割合（例えば、色相＿１：色相＿２＝９：１）を超えているかどうかなどの閾値処理を行って決めればよい。

【0042】

Ｓ６０４では、色相情報ファイルにて規定されているデータ番号の数の分だけＣＧ画像が生成されてか否か、すなわち、生成したＣＧ画像の数が上述の生成数Ｎｕｍに達したか否かが判定される。生成したＣＧ画像の数が生成数Ｎｕｍに達していればＳ６０５に進み、達していなければＳ６０２に戻って次のオブジェクトを選択し、ＣＧ画像の生成を続行する。

【0043】

Ｓ６０５では、生成されたＣＧ画像がＳ６０１で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部２１２に出力される。

【0044】

以上が、本実施形態に係る、補填画像生成処理の内容である。なお、上述の実施形態では、予め設定した生成数に従ってＣＧ画像を生成していたが、これに限定されない。例えば、ＣＧ画像を生成する度に入力教師画像群にそれを追加して色相ヒストグラムを再度求め、色相の出現頻度の偏りが解消されていればその段階でＣＧ画像の生成をやめてもよい。この際、偏りが解消されているか否かは、例えば閾値処理によって判定できる。具体的には、新たに求めた色相ヒストグラムにおける出現頻度の標準偏差が、予め設定した閾値ｔｈ以下であれば偏りがないと判定すればよい。例えば、ＣＧ画像を補填後の教師画像群から、図７（ｂ）及び図７（ｃ）に示すような色相ヒストグラムが得られたとする。図７（ｂ）の場合はσ_b≧ｔｈであるとして偏りがあると判定し、図７（ｃ）の場合はσ_c＜ｔｈであるとして偏りがないと判定する。そして、偏りが未だ解消できていないと判定された場合には、新たに求めた色相ヒストグラムから頻度の少ない色相を特定して色相情報ファイルを更新し、色相分布における偏りが解消されるまでＣＧ画像の生成を続行する。このような方法でＣＧ画像をどれだけ生成するかを制御してもよい。

【0045】

＜デモザイク学習処理＞
続いて、デモザイク学習部２１３におけるデモザイク学習について説明する。学習には、例えば非特許文献１に開示されているＣＮＮを用いる。図１０は、ＣＮＮの構造と学習の流れを説明する図である。以下、図１０を参照して、デモザイク学習について詳しく説明する。

【0046】

ＣＮＮは、前述の式（１）の演算を行う複数のフィルタ１００２で構成されている。このＣＮＮに対して、前述のペア画像に含まれる生徒画像１０００を入力する。この際、図１０に示すように、生徒画像１０００を３チャネルの欠損画像１００１に変換して入力する。欠損画像１００１におけるＲチャネル１００１ａには、生徒画像１０００のＲ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。Ｇチャネル、Ｂチャネルについても同様である。すなわち、Ｇチャネル１００１ｂには、生徒画像１０００のＧ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。また、Ｂチャネル１００１ｃには、生徒画像１０００のＢ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。なお、欠損値については、ｂｉｌｉｎｅａｒ補間等の手法により補間して設定しても構わない。次に、この欠損画像１００１に対してフィルタ１００２を順次適用し、特徴マップを算出する。続いて、連結層１００３によって、算出した特徴マップと欠損画像１００１とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれｎ１とｎ２であった場合、連結結果のチャネル数は（ｎ１＋ｎ２）となる。続けて、この連結結果に対してフィルタ１００２を適用し、最終フィルタではＲＧＢ３チャネルの出力を行う。これにより、ＲＧＢの３チャネルから成る画像が推論結果１００４として得られる。そして、得られた推論結果１００４と、ペア画像に含まれていた教師画像（不図示）との差分を求め、画像全体についてその平均を取ることにより、損失関数値を得る。そして、得られた損失関数値を用いて、誤差逆伝播法（Back propagation）などによってネットワークパラメータの更新を行う。

【0047】

なお、上述のようなデモザイク学習後のＣＮＮをさらにファインチューニングしてもよい。ファインチューニングとは学習済モデルの重みを微調整する学習方法である。具体的なやり方としては、まず、統計的に出現頻度の少ない色相の組合せを含んだチャート画像（モザイク画像）に対して学習済モデルを用いてデモザイクし、偽パターンが発生するか否かを検査する。出現頻度の少ない色相の組合せとしては、例えばグリーンとマゼンタなど補色の関係にあるものが挙げられる。デモザイク後のチャート画像において偽パターンが発生した場合、当該チャート画像における色相の組合せに類似する色相の組合せを持つ教師画像を中心にデータセットを再構成し、学習済モデルをファインチューニングする。これにより、学習済モデルのロバスト性を向上させることができる。

【0048】

＜変形例＞
なお、本実施形態では、入力教師画像群に含まれる全ての教師画像を対象に解析を行ってその色相分布における疎の部分を埋めるＣＧ画像を生成したが、これに限定されない。例えば、入力教師画像群に含まれる一部の教師画像のみを用いて解析を行って疎の部分を埋めるＣＧ画像を生成してもよい。

【0049】

また、本実施形態では色相分布を解析してその偏りを解消するようなＣＧ画像を生成したが、彩度分布或いは輝度分布など他の分布特性を解析し、それぞれの分布の偏りを無くすようにＣＧ画像を生成してもよい。

【0050】

また、本実施形態では、入力教師画像群において色相分布が疎の部分にＣＧ画像を追加・補充することで色相分布を一様にしているが、これとは逆に、色相分布が密な部分から教師画像を削除・間引くことで色相分布を一様にしてもよい。

【0051】

さらに、本実施形態ではデモザイクを例に説明を行ったが、本手法により生成した教師画像群を用いることで、他の画像信号処理系（例えば、ノイズ低減、超解像など）においても深層学習のロバスト性を向上させることができる。深層学習を応用したノイズ低減や超解像には、公知であるＣＮＮベースのネットワーク（ＲＥＤＮＥＴ、ＳＲＣＮＮなど）に、本手法により生成された教師画像群を用いることで実現可能である。

【0052】

以上のとおり本実施形態によれば、教師画像群における色の三属性（色相、彩度、輝度）の分布に偏りがある場合に、その偏りが解消されるようにＣＧ画像を生成して教師画像を補填する。これにより、ロバスト性の高いデモザイクモデルを得ることができる。

【0053】

［実施形態２］
実施形態１では、オブジェクトデータに基づいて生成したＣＧ画像を新たな教師画像として入力教師画像群に加えることで、色相分布が一様な教師画像群を得る態様を説明した。次に、入力教師画像群に含まれる教師画像を加工して得られた画像を新たな教師画像として加えることで、色相分布が一様な教師画像群を得る態様を、実施形態２として説明する。なお、情報処理システムの基本構成など実施形態１と共通する内容について説明を省略し、以下では差異点を中心に説明するものとする。

【0054】

図１１は、本実施形態に係る、補填画像生成部２１１’の内部構成を示すブロック図である。図１１に示す通り、補填画像生成部２１１’は、解析部５０１と画像加工部１１００とを有する。さらに、画像加工部１１００は、抽出部１１０１、二値化部１１０２、色相設定部１１０３を備える。図１２は、本実施形態に係る、補填画像生成処理の詳細を示すフローチャートである。以下、補填画像生成部２１１’の動作について、図１２のフローに沿って説明する。

【0055】

Ｓ１２０１では、前述の図６のフローにおけるＳ６０１と同様、解析部５０１が入力された教師画像群の色相分布を解析する。

【0056】

Ｓ１２０２では、抽出部１１０１が、加工処理の対象となる任意の教師画像を、入力された教師画像群の中から抽出する。抽出の際には、予め設定された所定割合（例えば、教師画像群の２０％など）の数の教師画像がランダムに抽出される。

【0057】

Ｓ１１０３では、二値化部１１０２が、Ｓ１２０２で抽出した全ての教師画像のうち注目する教師画像に対して二値化処理を行って、各画素を白画素または黒画素で表現した二値画像を生成する。二値化処理には、閾値指定法やＰタイル法など、公知の方法を適用すればよい。

【0058】

Ｓ１２０４では、色相設定部１１０３が、Ｓ１２０３で生成した二値画像に対し、色相情報ファイルに基づき２種類の色相を設定して、色相分布の疎の部分を埋めるための画像を生成する。ここで生成される画像は、注目教師画像に含まれる様々な色を、設定された２種類の色相の色で表現した画像（以下、「２色画像」と呼ぶ。）である。ここで、図１３を参照して、２色画像が出来るまでの過程を説明する。図１３（ａ）は、Ｓ１２０１で抽出した教師画像、図１３（ｂ）はＳ１１０２に二値化処理で得られた二値画像を示している。この二値画像における黒画素に色相＿１の色を割り当て、白画素に色相＿２の色を割り当てて得られた画像が、図１３（ｃ）に示す２色画像である。２色画像においては、注目教師画像に含まれる様々な色が２種類の色相の色で表現されていればよく、色相＿１の色を白画素に割り当て、色相＿２の色を黒画素に割り当てても構わない。

【0059】

Ｓ１２０５では、Ｓ１２０２で抽出したすべての教師画像を基に２色画像が生成されたか否か、すなわち、未処理の教師画像があるかどうかが判定される。未処理の教師画像があればＳ１１０３に戻って次の注目する教師画像を決定して処理を続行する。一方、抽出したすべての教師画像から２色画像が生成されていれば、Ｓ１２０６に進む。

【0060】

Ｓ１２０６では、Ｓ１２０４で生成された複数の２色画像がＳ１２０１で解析対象となった教師画像群に補填され、色相分布に偏りのない新たな教師画像群のデータとして、データセット生成部２１２に出力される。

【0061】

以上が、本実施形態に係る、補填画像生成処理の内容である。このように、用意された教師画像群に含まれる教師画像を加工するという方法によっても、色相分布の疎の部分を埋めることができる。

【0062】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【図1】