特許7508265 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特許7508265情報処理装置、情報処理方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-21

(45)【発行日】2024-07-01

(54)【発明の名称】情報処理装置、情報処理方法及びプログラム

(51)【国際特許分類】

G06T 5/60 20240101AFI20240624BHJP

G06T 7/00 20170101ALI20240624BHJP

G06N 3/09 20230101ALI20240624BHJP

【ＦＩ】

G06T5/60

G06T7/00 350C

G06N3/09

【請求項の数】 17

(21)【出願番号】P 2020085177

(22)【出願日】2020-05-14

(65)【公開番号】P2021179833

(43)【公開日】2021-11-18

【審査請求日】2023-04-24

(73)【特許権者】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】110001243

【氏名又は名称】弁理士法人谷・阿部特許事務所

(72)【発明者】

【氏名】小倉暢

【審査官】稲垣良一

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０２１５５９０（ＵＳ，Ａ１）

【文献】特開２０１９－１２１２５２（ＪＰ，Ａ）

【文献】Kai CUI et al.，Color Image Demosaicking Using a 3-Stage Convolutional Neural Network Structure，2018 25th IEEE International Conference on Image Processing (ICIP)，米国，IEEE，2018年10月10日，DOI: 10.1109/ICIP.2018.8451020

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ５／６０－５／７０

Ｇ０６Ｔ７／００

Ｇ０６Ｎ３／０８－３／０９８５

Ｈ０４Ｎ２３／１２

ＩＥＥＥＸｐｌｏｒｅ

(57)【特許請求の範囲】

【請求項1】

機械学習によるデモザイク処理のための学習データを生成する情報処理装置であって、
第１画像を取得する取得手段と、
前記第１画像にノイズを付与した第２画像と、モザイク処理により前記第１画像から所定の画素を間引いたモザイク画像にノイズを付与した第３画像との組で構成されるデータセットを、前記第１画像に基づき生成する生成手段と、
を有し、
前記生成手段は、
前記第１画像をＲＧＢの各チャネルに対応するチャネル画像に分解する分解手段と、
前記チャネル画像のそれぞれにノイズを付与する付与手段と、
前記付与手段にてノイズが付与された各チャネル画像における所定の画素をカラーフィルタ配列に従ってサンプリングして、前記ノイズが付与されたモザイク画像を生成するモザイク画像生成手段と、
前記付与手段にてノイズが付与された各チャネル画像を連結して、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を生成する連結手段と、
前記ノイズが付与されたモザイク画像を前記第３画像として、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を前記第２画像として、前記データセットを得る画像ペア生成手段と、
を有する、
ことを特徴とする情報処理装置。

【請求項2】

前記デモザイク処理は、畳み込みニューラルネットワークを用いたネットワークにより行われることを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記第２画像と前記第３画像とで共通する画素においては、付与されているノイズの値が略一致することを特徴とする請求項１又は２に記載の情報処理装置。

【請求項4】

前記付与手段は、前記各チャネル画像のうち少なくとも２つのチャネル画像について、それぞれ異なる特性のノイズを付与することを特徴とする、請求項１乃至３のいずれか１項に記載の情報処理装置。

【請求項5】

前記付与手段は、画素毎のノイズの標準偏差が各画素の信号値に依存する輝度依存ノイズを付与することを特徴とする、請求項１に記載の情報処理装置。

【請求項6】

前記標準偏差は以下の式で表され、

【数1】

上記式において、σは標準偏差を示し、ｓは各画素の信号値を示し、ｋ及びＩは定数を示す、
ことを特徴とする、請求項５に記載の情報処理装置。

【請求項7】

前記付与手段は、前記第１画像が入力されるたびに、当該第１画像に対して付与するノイズを乱数に従って決定することを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。

【請求項8】

前記付与手段は、同一の前記第１画像に対しては、同じノイズを付与することを特徴とする、請求項１乃至６のいずれか１項に記載の情報処理装置。

【請求項9】

前記生成手段で生成された前記データセットを用いて、前記デモザイク処理の学習を行う学習手段をさらに備えたことを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。

【請求項10】

前記生成手段で生成された前記データセットを用いて、前記デモザイク処理の学習を行う学習手段をさらに備え、
前記付与手段は、前記学習の進みに応じて、付与するノイズの強度を変更する、
ことを特徴とする請求項１乃至６のいずれか１項に記載の情報処理装置。

【請求項11】

前記付与手段は、前記学習の進みに応じて、付与するノイズの強度を強くすることを特徴とする、請求項１０に記載の情報処理装置。

【請求項12】

前記学習手段は、前記学習を行って得られた学習済みのネットワークパラメータを初期値として、新たな学習を行うことを特徴とする、請求項１０乃至１１のいずれか１項に記載の情報処理装置。

【請求項13】

前記学習済みのネットワークパラメータは、前記付与手段で付与されるノイズに比べて少ない量のノイズが付与されている前記第１画像を用いた学習によって得られたネットワークパラメータ、またはノイズが付与されていない前記第１画像を用いた学習によって得られたネットワークパラメータである、ことを特徴とする請求項１２に記載の情報処理装置。

【請求項14】

現像の対象となるＲＡＷ画像を取得する取得手段と、
前記ＲＡＷ画像に対して、前記学習によって得られた学習済みネットワークパラメータを用いた推論によるデモザイク処理を行う推論手段と、
前記推論手段における前記デモザイク処理によって得られた、ＲＧＢの３チャネルから成るＲＧＢ画像に対し、ノイズ低減処理を行うノイズ低減手段と、
をさらに有することを特徴とする、請求項１０乃至１３のいずれか１項に記載の情報処理装置。

【請求項15】

前記付与手段が付与するノイズの強度は、前記ＲＡＷ画像に含まれるノイズの強度よりも弱いことを特徴とする、請求項１４に記載の情報処理装置。

【請求項16】

機械学習によるデモザイク処理のための学習データを生成する情報処理方法であって、
第１画像を取得する取得ステップと、
前記第１画像にノイズを付与した第２画像と、モザイク処理により前記第１画像から所定の画素を間引いたモザイク画像にノイズを付与した第３画像との組で構成されるデータセットを、前記第１画像に基づき生成する生成ステップと、
を含み、
前記生成ステップは、
前記第１画像をＲＧＢの各チャネルに対応するチャネル画像に分解する分解ステップと、
前記チャネル画像のそれぞれにノイズを付与する付与ステップと、
前記付与ステップにてノイズが付与された各チャネル画像における所定の画素をカラーフィルタ配列に従ってサンプリングして、前記ノイズが付与されたモザイク画像を生成するモザイク画像生成ステップと、
前記付与ステップにてノイズが付与された各チャネル画像を連結して、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を生成する連結ステップと、
前記ノイズが付与されたモザイク画像を前記第３画像として、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を前記第２画像として、前記データセットを得る画像ペア生成ステップと、
を含む、
ことを特徴とする情報処理方法。

【請求項17】

コンピュータを請求項１乃至１５のいずれか１項に記載の情報処理装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習用の学習データの生成及び学習方法に関する。

【背景技術】

【0002】

デジタルカメラなどの撮像装置に利用される撮像素子にはカラーフィルタが装着され、各画素に特定の波長光を入射する構成となっている。そして、カラーフィルタは、ベイヤ（Bayer）配列を持つカラーフィルタが多く利用されている。このベイヤ配列のカラーフィルタを採用したデジタルカメラで撮像して得られる画像（ＲＡＷ画像）は、その撮像素子の各画素にＲＧＢいずれかの色に対応する画素値のみが設定されたいわゆるモザイク画像となる。そして、一般的なデジタルカメラでは、ＲＡＷ画像に対し、各画素が有していない残り二色の画素値を補間するデモザイク処理などの様々な信号処理を施し、各画素がＲＧＢそれぞれの画素値を持つカラー画像（ＲＧＢ画像）を生成して出力する。

【0003】

上記デモザイク処理においては偽色やアーティファクトの発生が課題となるところ、従来の線形フィルタや非線形フィルタを適用する手法に加え、近年では、深層学習を応用したデータ駆動型の補間手法が提案されている。以下の特許文献１及び非特許文献１には、ノイズの少ない教師画像を用いて畳み込みニューラルネットワーク（ＣＮＮ）ベースのデモザイクネットワークを学習する手法が開示されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１２－９５３５１号公報

【非特許文献】

【0005】

【文献】Ｓｙｕ，Ｎａｉ－Ｓｈｅｎｇ，Ｙｕ－ＳｈｅｎｇＣｈｅｎ，ａｎｄＹｕｎｇ－ＹｕＣｈｕａｎｇ． “Ｌｅａｒｎｉｎｇｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｄｅｍｏｓａｉｃｉｎｇ．” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０２．０３７６９（２０１８）．

【発明の概要】

【発明が解決しようとする課題】

【0006】

上記特許文献１及び非特許文献１に開示の技術では、学習によって得られたデモザイクネットワーク（学習済みモデル）を用いて推論を行うことで、ＲＡＷ画像に含まれるノイズが少ない場合には、良好なＲＧＢ画像を得ることができる。しかしながら、ＲＡＷ画像に含まれるノイズが多い場合には、出力されるＲＧＢ画像にアーティファクトが発生するなど、ノイズに対するロバスト性が低いという課題があった。

【0007】

そこで本開示の技術では、ＲＡＷ画像にノイズが含まれていてもアーティファクトが抑制された良好なＲＧＢ画像を得ることが可能なデモザイクネットワークを得ることを目的とする。

【課題を解決するための手段】

【0008】

本開示に係る情報処理装置は、機械学習によるデモザイク処理のための学習データを生成する情報処理装置であって、第１画像を取得する取得手段と、前記第１画像にノイズを付与した第２画像と、モザイク処理により前記第１画像から所定の画素を間引いたモザイク画像にノイズを付与した第３画像との組で構成されるデータセットを、前記第１画像に基づき生成する生成手段と、を有し、前記生成手段は、前記第１画像をＲＧＢの各チャネルに対応するチャネル画像に分解する分解手段と、前記チャネル画像のそれぞれにノイズを付与する付与手段と、前記付与手段にてノイズが付与された各チャネル画像における所定の画素をカラーフィルタ配列に従ってサンプリングして、前記ノイズが付与されたモザイク画像を生成するモザイク画像生成手段と、前記付与手段にてノイズが付与された各チャネル画像を連結して、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を生成する連結手段と、前記ノイズが付与されたモザイク画像を前記第３画像として、前記ノイズが付与されたＲＧＢの３チャネルから成る画像を前記第２画像として、前記データセットを得る画像ペア生成手段と、を有する、ことを特徴とする。

【発明の効果】

【0009】

本開示の技術によれば、ノイズに対してロバスト性の高いデモザイクネットワークを得ることができる。

【図面の簡単な説明】

【0010】

【図1】情報処理システムの構成の一例を示す図

【図2】情報処理システム全体の機能ブロック図

【図3】図３は情報処理システムにおける処理の流れを示すフローチャート

【図4】教師画像の生成を説明する図

【図5】データセット生成部の詳細を示すブロック図

【図6】ノイズ有り生徒画像の生成を説明する図

【図7】ＣＮＮの構造と学習の流れを説明する図

【図8】変形例の考え方を説明する図

【発明を実施するための形態】

【0011】

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。

【0012】

＜ＣＮＮについて＞
まず、以下の各実施形態において登場する、深層学習を応用した画像処理技術全般で用いられている畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）について説明する。ＣＮＮは、学習（“training”または“learning”）により生成したフィルタを画像データに対して畳み込んだ（convolution）後、非線形演算することを繰り返す技術である。フィルタは、局所受容野（Local Receptive Field：ＬＰＦ）とも呼ばれる。画像データに対してフィルタを畳み込んだ後、非線形演算して得られる画像データは、特徴マップ（feature map）と呼ばれる。また、学習は入力画像データと出力画像データのペアからなる学習データ（“training images”または“data sets”）を用いて行われる。簡単には、入力画像データから対応する出力画像データへ高精度に変換可能なフィルタの値を、学習データから生成することが学習である。この詳細については後述する。

【0013】

画像データがＲＧＢの３つのチャネルを有する場合や、特徴マップが複数枚の画像データから構成されている場合、畳み込みに用いるフィルタも、それに応じて複数のチャネルを有する。すなわち、畳み込みフィルタは、縦横サイズと枚数の他に、チャネル数を加えた、４次元配列で表現される。画像データ（または特徴マップ）にフィルタを畳み込んだ後、非線形演算する処理は、層（layer）という単位で表され、例えば、ｎ層目の特徴マップやｎ層目のフィルタなどと表現される。また、例えばフィルタの畳み込みと非線形演算を３回繰り返すようなＣＮＮは、３層のネットワーク構造を有する。このような非線形演算処理は、以下の式（１）のように定式化することができる。

【0014】

【数1】

【0015】

上記式（１）において、Ｗ_nはｎ層目のフィルタ、ｂ_nはｎ層目のバイアス、ｆは非線形演算子、Ｘ_nはｎ層目の特徴マップ、＊は畳み込み演算子である。なお、右肩の（ｌ）はｌ番目のフィルタまたは特徴マップであることを表している。フィルタおよびバイアスは、後述する学習により生成され、まとめて「ネットワークパラメータ」とも呼ばれる。非線形演算としては、例えばシグモイド関数（sigmoid function）やＲｅＬＵ（Rectified Linear Unit）が用いられる。ＲｅＬＵの場合は、以下の式（２）で与えられる。

【0016】

【数2】

【0017】

上記式（２）が示すように、入力したベクトルＸの要素のうち負のものはゼロ、正のものはそのままとなる。

【0018】

ＣＮＮを用いたネットワークとしては、画像認識分野のＲｅｓＮｅｔや超解像分野におけるその応用ＲＥＤ－Ｎｅｔが有名である。いずれもＣＮＮを多層にして、フィルタの畳み込みを何度も行うことで、処理の高精度化を図っている。例えば、ＲｅｓＮｅｔは畳み込み層をショートカットする経路を設けたネットワーク構造を特徴とし、これにより１５２層もの多層ネットワークを実現し、人間の認識率に迫る高精度な認識を実現している。なお、多層ＣＮＮにより処理が高精度化する理由は、簡単には非線形演算を何度も繰り返すことで、入出力間の非線形な関係を表現できるためである。

【0019】

＜ＣＮＮの学習＞
次に、ＣＮＮの学習について説明する。ＣＮＮの学習は、入力学習画像（観測画像）データと対応する出力学習画像（正解画像）データの組からなる学習データに対して、一般に以下の式（３）で表される目的関数を最小化することで行われる。

【0020】

【数3】

【0021】

上記式（３）において、Ｌは正解とその推定との誤差を測る損失関数（Loss function）である。また、Ｙ_iはｉ番目の出力学習画像データ、Ｘ_iはｉ番目の入力学習画像データである。また、ＦはＣＮＮの各層で行う演算（式１）を、まとめて表した関数である。また、θはネットワークパラメータ（フィルタおよびバイアス）である。また、||Ｚ||₂はＬ２ノルムであり、簡単にはベクトルＺの要素の２乗和の平方根である。また、ｎは学習に用いる学習データの全枚数である。一般に学習データの全枚数は多いため、確率的勾配降下法（Stochastic Gradient Descent：ＳＧＤ）では、学習画像データの一部をランダムに選び学習に用いている。これにより、多くの学習データを用いた学習における、計算負荷が低減できる。また、目的関数の最小化（＝最適化）法として、モーメンタム（momentum）法やＡｄａＧｒａｄ法、ＡｄａＤｅｌｔａ法、Ａｄａｍ法など、様々な方法が知られている。Ａｄａｍ法は、以下の式（４）で与えられる。

【0022】

【数4】

【0023】

上記式（４）において、θ_i ^tは反復ｔ回目におけるｉ番目のネットワークパラメータ、ｇはθ_i ^tに関する損失関数Ｌの勾配である。また、ｍ、ｖはモーメントベクトル、αは基本学習率（base learning rate）、β１、β２はハイパーパラメータ、εは小さい定数である。なお、学習における最適化法の選択指針は存在しないため、基本的に何を用いても良いが、方法ごとの収束性には違いがあるため、学習時間の違いが生じることが知られている。

【0024】

［実施形態１］
本実施形態では、学習データとしての教師画像と生徒画像それぞれに対し人工的にノイズを付与することにより、ロバスト性（頑健性）の高い学習済みモデルを生成する態様を説明する。

【0025】

＜システム構成＞
図１は、本実施形態に係る情報処理システムの構成の一例を示す図である。図１に示す情報処理システムでは、学習データの生成及びデモザイク学習を担うクラウドサーバ２００とデモザイク推論を担うクライアントＰＣ１００とがインターネットを介して接続されている。

【0026】

＜クライアントＰＣのハードウェア構成＞
本実施形態のクライアントＰＣ１００は、撮像装置から入力されるＲＡＷ画像（モザイク画像）に対し、クラウドサーバ２００から提供される学習済みネットワークパラメータを適用してデモザイク推論を行う画像処理装置である。ユーザは、クライアントＰＣ１００にインストールされた画像処理アプリケーションを利用して、ＲＡＷ画像を現像する。クライアントＰＣ１００は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３、大容量記憶装置１０４、汎用インタフェース（Ｉ／Ｆ）１０５、ネットワークＩ／Ｆ１０６を有し、各構成要素がシステムバス１０７によって相互に接続されている。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、デジタルカメラ１０、入力装置２０、外部記憶装置３０及び表示装置４０にも接続されている。

【0027】

ＣＰＵ１０１は、ＲＡＭ１０２をワークメモリとして、ＲＯＭ１０３に格納されたプログラムを実行し、システムバス１０７を介してクライアントＰＣ１００の各構成要素を統括的に制御する。また、大容量記憶装置１０４は、例えばＨＤＤやＳＳＤであり、クライアントＰＣ１００で取り扱われる種々のデータを記憶する。ＣＰＵ１０１は、システムバス１０７を介して大容量記憶装置１０４へのデータの書き込み及び大容量記憶装置１０４に記憶されたデータの読出しを行う。汎用Ｉ／Ｆ１０５は、例えばＵＳＢ、ＩＥＥＥ１３９４、ＨＤＭＩ（登録商標）等のシリアルバスインターフェースである。クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、外部記憶装置３０（例えば、メモリカード、ＣＦカード、ＳＤカード、ＵＳＢメモリなどの各種記憶媒体）からデータを取得する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、マウスやキーボードなどの入力装置２０からのユーザ指示を受け付ける。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、表示装置４０（例えば液晶ディスプレイなどの各種画像表示デバイス）に、ＣＰＵ１０１によって処理された画像データ等を出力する。また、クライアントＰＣ１００は、汎用Ｉ／Ｆ１０５を介して、撮像装置であるデジタルカメラ１０から現像処理の対象となる撮像画像（ＲＡＷ画像）のデータを取得する。ネットワークＩ／Ｆ１０６は、インターネットに接続するためのインタフェースである。クライアントＰＣ１００は、インストールされたウェブブラウザによってクラウドサーバ２００にアクセスして、デモザイク推論のためのネットワークパラメータを取得する。

【0028】

＜クラウドサーバのハードウェア構成＞
本実施形態のクラウドサーバ２００は、インターネット上でクラウドサービスを提供するサーバ装置である。より詳細には、学習データの生成及びデモザイク学習を行って、学習結果（学習済みモデル）としてのネットワークパラメータを、クライアントＰＣ１００からのリクエストに応じて提供する。クラウドサーバ２００は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、大容量記憶装置２０４及びネットワークＩ／Ｆ２０５を有し、各構成要素がシステムバス２０６によって相互に接続されている。ＣＰＵ２０１は、ＲＯＭ２０２に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。大容量記憶装置２０４は、画像データや各種プログラムを記憶するＨＤＤやＳＳＤ等の大容量の二次記憶装置である。ネットワークＩ／Ｆ２０５は、インターネットに接続するためのインタフェースであり、クライアントＰＣ１００のウェブブラウザからのリクエストに応じて上述のネットワークパラメータを提供する。

【0029】

なお、クライアントＰＣ１００及びクラウドサーバ２００の構成要素は上記以外にも存在するが、本発明の主眼ではないため、説明を省略する。また、本実施形態では、クラウドサーバ２００にて学習データの生成・デモザイク学習を行い、学習結果であるネットワークパラメータをクライアントＰＣ１００にダウンロードして、現像対象となるＲＡＷ画像のデモザイク推論を行うことを想定している。しかしながら、上記システム構成は一例であって、これに限定されない。例えば、クラウドサーバ２００が担う機能を細分化し、学習データの生成とデモザイク学習とを別々の装置で実行するような構成でもよい。さらには、クライアントＰＣ１００の機能とクラウドサーバ２００の機能とを兼ね備えたデジタルカメラ１０において、学習データの生成・デモザイク学習・デモザイク推論のすべてを行うような構成であってもよい。

【0030】

＜システム全体の処理の流れ＞
次に、本実施形態の情報処理システムで行われる各種処理について説明する。図２は情報処理システム全体の機能ブロック図、図３は情報処理システムにおける処理の流れを示すフローチャートである。図２に示す通り、クライアントＰＣ１００は、デモザイク推論部１１１とノイズ低減部１１２を有する。また、クラウドサーバ２００は、教師画像生成部２１１、データセット生成部２１２及びデモザイク学習部２１３を有する。図２に示す各機能部は、それぞれの機能部に対応するコンピュータプログラムをＣＰＵ１０１／２０１が実行することで実現される。ただし、図２に示す機能部の全部あるいは一部をハードウェアで実装してもよい。以下、図３のフローに沿って説明する。なお、以下の説明において記号「Ｓ」はステップを意味する。

【0031】

Ｓ３０１では、教師画像の元になるサンプル画像がクラウドサーバ２００に入力される。サンプル画像は、デジタルカメラで撮像することで得られたＲＡＷ画像（モザイク画像）であり、被写体や撮像条件のバリエーションが豊富であることが望ましい。サンプル画像の具体例としては、風景や動物といった自然写真、ポートレートやスポーツシーンといった人物写真、建築や商品といった人工物写真などが挙げられる。また、デジタルカメラ１０で撮像したものをそのままアップロードしてもよいし、撮り溜めたものをＨＤＤ等に記憶しておきそれをアップロードしてもよい。クラウドサーバ２００に入力されたサンプル画像のデータは、教師画像生成部２１１に送られる。

【0032】

Ｓ３０２では、教師画像生成部２１１が、受け取ったサンプル画像に基づいて教師画像を生成する。図４は、教師画像の生成を説明する図である。以下、図４を参照しつつ説明する。

【0033】

まず、受け取ったサンプル画像４０１は、Ｒ（赤）画素、Ｇ（緑）画素、Ｂ（青）画素の各画素が図示された配置で規則的に並んだベイヤ形式のモザイク画像となっている。そこで、サンプル画像４０１に対して簡易的なデモザイク手法（例えば、特許文献１の手法）を適用し、ＲＧＢの３チャネルから成るＲＧＢ画像４０２を得る。その後、ＲＧＢ画像４０２に対して、例えばｂｉｌｉｎｅａｒ補間やｂｉｃｕｂｉｃ補間の手法により縦横の画素数が４分の１になるよう画像縮小を行う。ＲＧＢ画像には、簡易デモザイクにより発生したモアレや偽色等のアーティファクトが含まれているが、このアーティファクトは画像縮小によって低減されることになる。なお、画像の縮小率は４分の１以外としても構わない。こうした処理が入力されたすべてのサンプル画像について行われ、サンプル画像それぞれに対応する教師画像４０３が得られる。また、デジタルカメラ１０において簡易的なデモザイクまでを済ませ、ＲＧＢ画像のデータ形式でクラウドサーバ２００に入力されてもよい。このようにして生成・取得された教師画像４０３のデータは、データセット生成部２１２に送られる。

【0034】

Ｓ３０３では、データセット生成部２１２が、入力された教師画像群に基づいて、学習に用いるデータセットを生成する。図５は、データセット生成部２１２の詳細を示すブロック図である。データセット生成部２１２は、チャネル分解部５０１、Ｒ画像ノイズ付与部５０２、Ｇ画像ノイズ付与部５０３、Ｂ画像ノイズ付与部５０４、モザイク画像生成部５０５、チャネル連結部５０６及び画像ペア生成部５０７で構成される。以下、図５を参照しつつ、学習用データセットの生成について説明する。なお、以下に説明する内容は、入力された教師画像群に含まれる各教師画像の単位で実行される。

【0035】

≪学習用データセットの生成≫
まず、チャネル分解部５０１が、ＲＧＢの３チャネルから成る教師画像を、ＲＧＢそれぞれのチャネル単位の画像（以下、「チャネル画像」と呼ぶ。）に分解する。各々のチャネル画像は、教師画像と同じ画像サイズ・同じビット深度を有する。なお、ＲＧＢそれぞれに対応するチャネル画像を、「Ｒ画像」、「Ｇ画像」、「Ｂ画像」と表記する場合がある。

【0036】

続いて、Ｒ画像ノイズ付与部５０２、Ｇ画像ノイズ付与部５０３、Ｂ画像ノイズ付与部５０４それぞれが、自身が担当するチャネル画像に対して、以下の式（５）を用いてノイズの付与を行う。

【0037】

【数5】

【0038】

上記式（５）において、ｓ（ｘ、ｙ）はチャネル画像中の座標（ｘ、ｙ）における信号値（画素値）を示し、ｒ（ｘ、ｙ）は平均が“０”かつ分散が“１”の標準正規分布に従う乱数を示し、σ（ｘ、ｙ）はノイズの標準偏差を示す。また、ｎ（ｘ、ｙ）はノイズ付与後のチャネル画像中の座標（ｘ、ｙ）における画素値を示す。ここで、標準偏差σ（ｘ、ｙ）は、下記式（６）に示すように、ノイズ付与前のチャネル画像における信号値に基づいて決定する。

【0039】

【数6】

【0040】

上記式（６）において、ｋ、Ｉは所与の定数である。各定数は、入力ＲＡＷ画像の撮像に使用する撮像装置の特性に応じて決定する。具体的には、事前にテスト用チャートを撮像して、得られた撮像画像から信号値ｓと標準偏差σを実測し、両者の関係からｋ、Ｉを求める。なお、ここでは、付与するノイズを、上記式（６）の標準偏差に基づく正規分布に従う加法性ノイズとしたが、他の分布や付与方式を持つノイズでもよい。例えば、輝度に依存しない一定の分散に従ったノイズでもよい。また、例えば全画素のうち１％の画素に対して強制的に欠陥画素（画素値を８ビットで表す場合において、画素値を“０”または“２５５”に意図的に設定した画素）とすることでノイズとしてもよい。或いはまた、チャネル画像中の縦（列）方向に並ぶ画素のみ又は横（行）方向に並ぶ画素にのみを対象としてノイズを付与してもよい。こうして得られたノイズ付与後のチャネル画像（ノイズ有りＲ像、ノイズ有りＧ画像、ノイズ有りＢ画像）は、各ノイズ付与部５０２～５０４から、モザイク画像生成部５０５とチャネル連結部５０６にそれぞれ送られる。

【0041】

続いて、モザイク画像生成部５０５がノイズ有り生徒画像を、チャネル連結部５０６がノイズ有り教師画像をそれぞれ生成する。以下、順に説明する。

【0042】

まず、ノイズ有り生徒画像の生成について説明する。ノイズ有り生徒画像は、教師画像からカラーフィルタ配列に基づき所定の画素を間引くことで得られるモザイク画像に、ノイズが加えられた画像である。図６はノイズ有り生徒画像の生成を説明する図である。図６において、縦に並ぶ３つの画像６０１～６０３は、それぞれノイズ有りＲ画像、ノイズ有りＧ画像、ノイズ有りＢ画像であり、ここでは模式的に４×４画素の画像サイズで示している。いま、ノイズ有りＲ画像６０１には、画素Ｒ₀₀、Ｒ₀₁、Ｒ₀₂、・・・、Ｒ₃₁、Ｒ₃₂、Ｒ₃₃の計１６個の画素が存在する。モザイク画像生成部５０５は、これら１６個の画素の中からカラーフィルタ配列６０５に従って、画素Ｒ₀₀、Ｒ₀₂、Ｒ₂₀、Ｒ₂₂の画素値をサンプリングし、バッファ６０４の対応する位置に代入する。同様に、ノイズ有りＧ画像６０２からもカラーフィルタ配列６０５に従って、Ｇ₀₁、Ｇ₀₃、Ｇ₁₀、Ｇ₁₂、Ｇ₂₁、Ｇ₂₃、Ｇ₃₀、Ｇ₃₂の８つの画素の画素値をサンプリングし、バッファ６０４の対応する位置に代入する。さらに、ノイズ有りＢ画像６０３からもカラーフィルタ配列６０５に従って、Ｂ₁₁、Ｂ₁₃、Ｂ₃₁、Ｂ₃₃の４つの画素の画素値をサンプリングし、バッファ６０４の対応する位置に代入する。これにより、代入後のバッファ６０４が示す画像は、ノイズを含んだモザイク画像となる。こうして得られたモザイク画像は、ノイズ有り生徒画像として、画像ペア生成部５０７に送られる。なお、ここではカラーフィルタ配列としてベイヤ配列を使用したが、入力ＲＡＷ画像の画像形式に合わせて決定すればよく、例えばＸ－Ｔｒａｎｓなど他のカラーフィルタ配列を用いても構わない。

【0043】

続いて、ノイズ有り教師画像の生成について説明する。チャネル連結部５０６は、各ノイズ付与部５０２～５０４から受け取った３つのチャネル画像（ノイズ有りＲ画像、ノイズ有りＧ画像、ノイズ有りＢ画像）をチャネル方向に連結する。こうして得られる、ノイズを含んだＲＧＢの３チャネルから成る画像が、ノイズ有り教師画像となる。このノイズ有り教師画像は、教師画像生成部２１１が生成した教師画像と同じサイズ・同じビット深度・同じチャネル数を有することになる。また、上述のようにして生成されたノイズ有り教師画像とノイズ有り生徒画像とで共通する画素においては、付与されているノイズの値が略一致することになる。

【0044】

続いて、画像ペア生成部５０７は、モザイク画像生成部５０５から受け取ったノイズ有り生徒画像と、チャネル連結部５０６から受け取った対応するノイズ有り教師画像との画像ペアを生成する。生成した画像ペア（データセット）は、デモザイク学習部２１３に送られる。

【0045】

図３のフローの説明に戻る。

【0046】

Ｓ３０４では、デモザイク学習に用いるＣＮＮに適用する上述のネットワークパラメータがクラウドサーバ２００に入力される。ここでのネットワークパラメータは、ＣＮＮを構成する各フィルタの係数である。ネットワークパラメータは、「Ｈｅの正規分布」に従う乱数として設定する。Ｈｅの正規分布とは、平均が“０”で分散がσ_hとなるような正規分布である。“σ_h”は以下の式（７）で表される。

【0047】

【数7】

【0048】

上記式（７）において、ｍはＣＮＮ中の各フィルタのニューロン数である。なお、上述の内容は一例であって、他の方法でネットワークパラメータを決定しても構わない。入力されたネットワークパラメータは、デモザイク学習部２１３に送られる。

【0049】

Ｓ３０５では、デモザイク学習部２１３が、受け取ったネットワークパラメータを用いてＣＮＮの重みを初期化した後、Ｓ３０３で生成されたデータセットを用いてＣＮＮを学習する。学習には、例えば非特許文献１に開示されているＣＮＮを用いる。図７は、ＣＮＮの構造と学習の流れを説明する図である。以下、図７を参照して、本ステップに係るデモザイク学習について詳しく説明する。

【0050】

ＣＮＮは、前述の式（１）の演算を行う複数のフィルタ７０２で構成されている。このＣＮＮに対して、前述の画像ペアに含まれるノイズ有り生徒画像７００を入力する。この際、図７に示すような３チャネルの欠損画像７０１に変換して入力する。欠損画像７０１におけるＲチャネル７０１ａには、ノイズ有り生徒画像７００のＲ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。Ｇチャネル、Ｂチャネルについても同様である。すなわち、Ｇチャネル７０１ｂには、ノイズ有り生徒画像７００のＧ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。また、Ｂチャネル７０１ｃには、ノイズ有り生徒画像７００のＢ成分の画素のみが含まれており、他の画素には欠損値（０）が設定されている。なお、欠損値については、ｂｉｌｉｎｅａｒ補間等の手法により補間して設定しても構わない。次に、この欠損画像７０１に対してフィルタ７０２を順次適用し、特徴マップを算出する。続いて、連結層７０３によって、算出した特徴マップと欠損画像７０１とをチャネル方向に連結する。特徴マップと欠損画像のチャネル数がそれぞれｎ₁とｎ₂であった場合、連結結果のチャネル数は（ｎ₁＋ｎ₂）となる。続けて、この連結結果に対してフィルタ７０２を適用し、最終フィルタではＲＧＢ３チャネルの出力を行う。これにより、ＲＧＢの３チャネルから成る画像が推論結果７０４として得られる。そして、得られた推論結果７０４と、画像ペアに含まれていたノイズ有り教師画像との差分を求め、画像全体についてその平均を取ることにより、損失関数値を得る。そして、得られた損失関数値を用いて、誤差逆伝播法（Back propagation）などによってネットワークパラメータの更新を行う。

【0051】

Ｓ３０６では、デモザイク学習が完了したか否かが判定される。学習の完了は、学習（ネットワークパラメータの更新）の反復回数が規定値に達したか否かにより判定する。なお、学習完了の判定基準は反復回数に限定されない。例えば、更新時のネットワークパラメータの変化量が規定値より小さいかどうかや、推論結果とノイズ有り教師画像との差分が規定値より小さいかどうかを用いてもよい。学習が完了していない場合は、Ｓ３０１に戻って、次の画像ペアを生成して学習を続行する。なお、次の画像ペアを生成する際には、過去の学習で用いたサンプル画像や教師画像を再利用してもよい。その場合、データセット生成部２１２内の各ノイズ付与部５０２～５０４は、毎回新たな乱数に従ってノイズを付与することになる。従って、同じ教師画像に対して、学習の度に異なるノイズが付与され得る。こうすることにより、同一画像からであっても中身の異なる（付与されたノイズが異なる）ノイズ有り教師画像を得て学習することができ、ノイズに対するロバスト性が高められる。なお、一度付与したノイズを記憶しておくことにより、同一画像に対しては必ず同じノイズが付与されるようにしてもよい。こうして得られた学習結果（更新後のネットワークパラメータ）が、ネットワークパラメータの取得リクエストに応じる等してクライアントＰＣ１００に提供される。クライアントＰＣ１００では、受け取ったネットワークパラメータをＲＡＭ１０２又は大容量記憶装置１０４に保持する。ここまでが、クラウドサーバ２００における学習フェーズである。次に、クライアントＰＣ１００における推論フェーズについて説明する。

【0052】

Ｓ３０７では、デモザイクを含む現像処理の対象となるモザイク画像（ＲＡＷ画像）が入力される。このＲＡＷ画像は、例えばデジタルカメラ１０で撮像したものを直接入力してもよいし、事前に撮像して大容量記憶装置１０４に記憶しておいたものを読み出してもよい。また、入力ＲＡＷ画像を撮像した際のＩＳＯ感度といった撮像パラメータも併せて入力される。入力ＲＡＷ画像のデータはデモザイク推論部１１１に送られ、入力撮像パラメータはノイズ低減部１１２に送られる。

【0053】

Ｓ３０８では、デモザイク推論部１１１が、デモザイク学習部２１３での学習で用いられたのと同じＣＮＮを構築して、入力ＲＡＷ画像のデモザイクを行う。この際、既存のネットワークパラメータが、クラウドサーバ２００から受け取った更新後のネットワークパラメータで初期化される。こうして、更新後のネットワークパラメータを適用したＣＮＮ（学習済みデモザイクネットワーク）に対して、入力ＲＡＷ画像を入力し、デモザイク学習部２１３で行ったのと同じ方法でデモザイク推論を行なってＲＧＢ画像を得る。デモザイク推論によって得られたＲＧＢ画像は、ノイズ低減部１１２に送られる。

【0054】

Ｓ３０９では、ノイズ低減部１１２が、推論結果としてのＲＧＢ画像に対し、ノイズ低減処理を行う。ノイズ低減処理には、例えばバイラテラルフィルタ（Bilateral filter）などの公知の手法を適用すればよい。また、ノイズ低減をどれだけ強く掛けるか（ノイズ強度）に関するパラメータは、入力された撮像パラメータに基づいて決定すればよい。

【0055】

以上が、本実施形態の情報処理システムで行われる処理の流れである。なお、各ノイズ付与部５０２～５０４が付与するノイズの標準偏差σは、下記の式（６’）で表す右辺をα（＜１）倍したものでもよい。

【0056】

【数8】

【0057】

上記式（６’）を採用する場合、最初はα＝１で学習を行い、その学習結果を用いたデモザイク推論を行って、その結果画像におけるアーティファクトを確認する。アーティファクトの強度が規定値以下である場合、αの値を所定の割合（例えば１０％）だけ削減して再度学習を行い、その学習結果を用いたデモザイク推論を行って、その結果画像におけるアーティファクトを確認する。これを繰り返し、アーティファクトが規定値以下で最小となるようなαを探索し、見つかったαの値で学習を行った結果を、最終的な学習結果としてデモザイク推論部１１１に提供する。なお、最適なαの値が見つかればよいので、探索方法は任意である。この場合、ノイズ有り教師画像に付与するノイズ量を低減でき、過学習を抑制することができる。

【0058】

＜変形例＞
本実施形態では、ノイズ付与をクラウドサーバ２００内のデータセット生成部２１２において行っているが、これに限定されない。例えば、デジタルカメラ１０で撮像してサンプル画像を得る際に、撮像画像中にノイズが多くなるような条件（高感度、低照度、速いシャッター速度、小さい開口幅など）を設定するなどして撮像装置側でノイズ付与を行ってもよい。

【0059】

また、ノイズの付与は段階的に行ってもよい。例えば、ノイズを付与しない状態で事前学習を行い、その後にノイズを付与して本学習を行ってもよい。図８は、本変形例の考え方を説明する図である。まず、事前学習では、データセット生成部２１２における画像ペアの生成時、各ノイズ付与部５０２～５０４において付与するノイズ量を“０（或いはそれに準じた少ないノイズ量）”に設定する。そして、前述した手法による学習を行う。これにより、ノイズの無いＲＡＷ画像に適合したネットワークパラメータ８０１が得られる。続いて、本学習では、データセット生成部２１２における画像ペアの生成時、各ノイズ付与部５０２～５０４において一定レベルのノイズを付与する。そして、上述の実施形態と同様の学習を行う。この際、デモザイク学習部２１３に入力されるネットワークパラメータは、事前学習にて得られたネットワークパラメータであり、デモザイク学習部２１３はこれを初期値として学習を行うことになる。これにより、ノイズの有るＲＡＷ画像に適合したネットワークパラメータ８０３が得られる。なお、メモリから読み出した或いはｗｅｂ上から取得した学習済みのネットワークパラメータを事前学習の結果と見做し、これを初期値として本学習を行ってもよい。このように２段階で学習を行って得られたネットワークパラメータを用いてデモザイク推論を行うことにより、ノイズの有り／無し両方のＲＡＷ画像に対して、よりアーティファクトの少ないデモザイク画像が得られるようになる。さらには、学習の容易なノイズ無し教師画像で事前学習を行い、その後に学習の困難なノイズ有り教師画像で本学習を行うことにより、カリキュラム学習の考え方に基づいて、少ない計算コストで高いアーティファクト抑制効果が得られる。なお、学習の段階数は２段階だけには限らず、ノイズ量を増やしながら３段階以上の複数段階にて学習を行っても構わない。また、１段階の学習の中で、付与するノイズ量を動的に上昇、すなわち、学習の進みに応じて付与するノイズの強度が強くなるよう段階的に変更してもよい。

【0060】

また、本実施形態の現像処理では、デモザイク後にノイズ低減を行っているが、これとは逆に、ノイズ低減後にデモザイクを行っても構わない。ノイズ低減後にデモザイクを行う構成において、ノイズ低減処理によって現像対象の入力ＲＡＷ画像中のノイズを除去しきれなかった場合、ノイズを多く含むモザイク画像がデモザイク推論の対象となる。この場合でも、ロバスト性の高いデモザイクネットワークを使用したデモザイク推論によって同様の推論結果を得ることができる。

【0061】

以上のとおり本実施形態によれば、教師画像と生徒画像の双方にノイズを付与して学習することでノイズに対するロバスト性の高いデモザイクネットワークを得る。これにより、現像対象のＲＡＷ画像に多くのノイズが含まれていても、デモザイク推論においてアーティファクトの少ない推論結果を得ることができる。

【0062】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【図1】