IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

2023-162753画像生成方法、学習方法、画像生成装置及びプログラム
<>
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図1
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図2
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図3
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図4
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図5
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図6
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図7
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図8
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図9
  • -画像生成方法、学習方法、画像生成装置及びプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023162753
(43)【公開日】2023-11-09
(54)【発明の名称】画像生成方法、学習方法、画像生成装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20231101BHJP
【FI】
G06T7/00 350B
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022073353
(22)【出願日】2022-04-27
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】多治見 剛
(72)【発明者】
【氏名】オウ イファン
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA02
5L096AA03
5L096AA06
5L096EA05
5L096FA37
5L096GA08
5L096GA51
5L096HA11
5L096KA04
(57)【要約】
【課題】教師データとして大量の高品質画像を要することなく、低品質画像を高品質画像に画質向上の処理をするための学習モデルを学習させる。
【解決手段】画像生成方法は、画像を取得する画像取得ステップと、取得した画像を所定の画素数を有する分割画像に分割する分割ステップと、1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳ステップと、前記ノイズ画像を出力する出力ステップとを有する。
【選択図】図2
【特許請求の範囲】
【請求項1】
画像を取得する画像取得ステップと、
取得した画像を所定の画素数を有する分割画像に分割する分割ステップと、
1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳ステップと、
前記ノイズ画像を出力する出力ステップと
を有する画像生成方法。
【請求項2】
前記ノイズ重畳ステップにより重畳される複数の異なるノイズは、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズの少なくともいずれかを含む
請求項1に記載の画像生成方法。
【請求項3】
前記ノイズ重畳ステップにより重畳されるノイズの程度を示すパラメータを取得するパラメータ取得ステップを更に有し、
前記ノイズ重畳ステップは、前記パラメータに基づく程度のノイズを重畳する
請求項1に記載の画像生成方法。
【請求項4】
前記パラメータ取得ステップは、前記分割画像ごとに異なる前記パラメータを取得し、
前記ノイズ重畳ステップは、前記分割画像ごとに異なる前記パラメータに基づく程度のノイズを重畳する
請求項3に記載の画像生成方法。
【請求項5】
前記画像取得ステップは、時間的に連続する複数の画像を取得し、
前記ノイズ重畳ステップにより重畳される複数の異なるノイズのうち少なくともいずれかは、時間的に連続する複数の画像に対する周波数成分を有するノイズである
請求項1に記載の画像生成方法。
【請求項6】
請求項1から請求項5のいずれか一項に記載の画像生成方法により生成された前記ノイズ画像を用いた学習方法であって、
前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する画像生成ステップと、
前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する学習ステップと
を有する学習方法。
【請求項7】
前記画像生成ステップは、前記画像取得ステップにより取得された複数の画像に基づき、複数の前記ノイズ画像を予め生成し、
前記学習ステップは、予め生成された複数の前記ノイズ画像に基づいて学習する
請求項6に記載の学習方法。
【請求項8】
請求項1から請求項5のいずれか一項に記載の画像生成方法により生成された前記ノイズ画像を用いた学習方法であって、
前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する第1画像生成ステップと、
前記第1画像生成ステップにおいて前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する第1学習ステップと
前記第1学習ステップが行われた後に行われ、前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する第2画像生成ステップと、
前記第2画像生成ステップにおいて前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する第2学習ステップと
を有する学習方法。
【請求項9】
前記第1学習ステップにより学習される画像の数は、前記第2学習ステップにより学習される画像の数よりも多い
請求項8に記載の学習方法。
【請求項10】
画像を取得する画像取得部と、
取得した画像を所定の画素数を有する分割画像に分割する分割部と、
1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳部と、
前記ノイズ画像を出力する出力部と
を備える画像生成装置。
【請求項11】
コンピュータに、
画像を取得する画像取得ステップと、
取得した画像を所定の画素数を有する分割画像に分割する分割ステップと、
1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳ステップと、
前記ノイズ画像を出力する出力ステップと
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成方法、学習方法、画像生成装置及びプログラムに関する。
【背景技術】
【0002】
従来、機械学習を用いて、低品質画像を高品質画像に画像処理する技術があった。このような技術分野においては、ノイズが重畳されたノイズ画像と高品質画像との組み合わせを教師データとして学習モデルを学習させる。教師データの作成は、撮像装置により同一の対象物を異なる露出設定で撮像することにより高品質画像とノイズ画像とを得ることにより行われる。一般に機械学習のためには教師データが大量に必要になることが知られており、カメラを用いて撮像による教師データの作成は手間であるという課題があった。そこで、高品質画像にランダムノイズを付加することにより、教師データを作成する技術が知られている(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2021-071936号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
このような従来技術によれば、高品質画像にランダムノイズを付加することにより、教師データを作成できるかもしれない。しかしながら、大量のノイズ画像を生成することが出来たとしても、ノイズ画像の生成に用いる大量の高品質画像は必要である。高品質画像を撮像するには、長秒露光を行う必要があり、大量の高品質画像を用意することは手間であった。
【0005】
そこで本発明は、教師データとして大量の高品質画像を要することなく、低品質画像を高品質画像に画質向上の処理をするための学習モデルを学習させることが可能な技術の提供を目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様は、画像を取得する画像取得ステップと、取得した画像を所定の画素数を有する分割画像に分割する分割ステップと、1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳ステップと、前記ノイズ画像を出力する出力ステップとを有する画像生成方法である。
【0007】
(2)本発明の一態様は、上記(1)に記載の画像生成方法において、前記ノイズ重畳ステップにより重畳される複数の異なるノイズは、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズの少なくともいずれかを含む。
【0008】
(3)本発明の一態様は、上記(1)又は(2)に記載の画像生成方法において、前記ノイズ重畳ステップにより重畳されるノイズの程度を示すパラメータを取得するパラメータ取得ステップを更に有し、前記ノイズ重畳ステップは、前記パラメータに基づく程度のノイズを重畳する。
【0009】
(4)本発明の一態様は、上記(3)に記載の画像生成方法において、前記パラメータ取得ステップは、前記分割画像ごとに異なる前記パラメータを取得し、前記ノイズ重畳ステップは、前記分割画像ごとに異なる前記パラメータに基づく程度のノイズを重畳する。
【0010】
(5)本発明の一態様は、上記(1)から(4)のいずれかに記載の画像生成方法において、前記画像取得ステップは、時間的に連続する複数の画像を取得し、前記ノイズ重畳ステップにより重畳される複数の異なるノイズのうち少なくともいずれかは、時間的に連続する複数の画像に対する周波数成分を有するノイズである。
【0011】
(6)本発明の一態様は、上記(1)から(5)のいずれかに記載の画像生成方法により生成された前記ノイズ画像を用いた学習方法であって、前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する画像生成ステップと、前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する学習ステップとを有する学習方法である。
【0012】
(7)本発明の一態様は、上記(6)に記載の学習方法において、前記画像生成ステップは、前記画像取得ステップにより取得された複数の画像に基づき、複数の前記ノイズ画像を予め生成し、前記学習ステップは、予め生成された複数の前記ノイズ画像に基づいて学習する。
【0013】
(8)本発明の一態様は、上記(1)から(5)のいずれかに記載の画像生成方法により生成された前記ノイズ画像を用いた学習方法であって、前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する第1画像生成ステップと、前記第1画像生成ステップにおいて前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する第1学習ステップと前記第1学習ステップが行われた後に行われ、前記画像取得ステップにより取得された画像から前記ノイズ画像を生成する第2画像生成ステップと、前記第2画像生成ステップにおいて前記画像取得ステップにより取得された画像から、前記ノイズ画像を推論するよう学習する第2学習ステップとを有する学習方法。
【0014】
(9)本発明の一態様は、上記(8)に記載の学習方法において、前記第1学習ステップにより学習される画像の数は、前記第2学習ステップにより学習される画像の数よりも多い。
【0015】
(10)本発明の一態様は、画像を取得する画像取得部と、取得した画像を所定の画素数を有する分割画像に分割する分割部と、1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳部と、前記ノイズ画像を出力する出力部とを備える画像生成装置。
【0016】
(11)本発明の一態様は、コンピュータに、画像を取得する画像取得ステップと、取得した画像を所定の画素数を有する分割画像に分割する分割ステップと、1つの前記分割画像が複製された複数の前記分割画像に対してそれぞれ異なるノイズを重畳することにより、1つの前記分割画像から複数のノイズ画像を生成するノイズ重畳ステップと、前記ノイズ画像を出力する出力ステップとを実行させるプログラム。
【発明の効果】
【0017】
本発明によれば、教師データとして大量の高品質画像を要することなく、低品質画像を高品質画像に画質向上の処理をするための学習モデルを学習させることができる。
【図面の簡単な説明】
【0018】
図1】第1の実施形態に係る学習システムの概要について説明するための図である。
図2】第1の実施形態に係る画像生成装置の機能構成の一例を示す図である。
図3】第1の実施形態に係る画像生成装置が重畳する複数のノイズの一例を示す図である。
図4】第1の実施形態に係る画像生成方法の一例について説明するためのフローチャートである。
図5】第1の実施形態に係る学習方法の一例について説明するためのフローチャートである。
図6】第1の実施形態に係る学習方法の変形例について説明するためのフローチャートである。
図7】第2の実施形態に係る画像生成装置の機能構成の一例を示す図である。
図8】第2の実施形態に係るパラメータ算出方法の一例を示すフローチャートである。
図9】第3の実施形態に係る学習方法について説明するための図である。
図10】第4の実施形態に係る画像生成方法について説明するための図である。
【発明を実施するための形態】
【0019】
以下、本発明の態様に係る画像生成方法、学習方法、画像生成装置及びプログラムについて、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。
【0020】
まず、本実施形態の前提となる事項について説明する。本実施形態に係る画像生成方法は、高品質画像に基づいて、低品質画像を生成する。高品質画像及び低品質画像は、同一の被写体を撮像したものであり、機械学習のための教師データ(教師画像)として用いられる。一例として高品質画像とは、低ISO感度、長秒露光により撮像される画像である。以下の説明において、高品質画像をGT(Ground Truth)とも記載する場合がある。低品質画像とは、従来技術において高ISO感度、短秒露光により撮像されていた画像である。従来技術によれば、高品質画像及び低品質画像を、同一の撮像角度及び同一の画角において撮像していた。本実施形態においては、まず高品質画像が撮像され、次に撮像された高品質画像に基づいた画像処理を行うことにより低品質画像を生成する。なお、高品質画像は予め用意されていた画像を用いてもよい。以下の説明において、低品質画像をノイズ画像とも記載する場合がある。また、以下の説明においては低品質画像の一例としてノイズによる画質劣化について説明するが、本発明はノイズ以外の画像の品質を低下させる事項に対しても適用可能である。ノイズ以外の画像の品質を低下の一例として、光学収差による解像度の低下もしくは色ずれ、手ブレや被写体ブレによる解像度の低下、暗電流や回路起因による黒レベルの不均一、高輝度被写体によるゴーストやフレアもしくは信号レベル異常などに対しても適用することができる。
また、本実施形態に係る学習方法は、上述した画像生成方法を用いて生成された低品質画像を含む教師データを用いて学習するものである。
【0021】
本実施形態に係る画像生成方法が対象とする画像とは、静止画であってもよいし、動画に含まれるフレームであってもよい。また、データ形式としてはRawフォーマットなどの圧縮符号化処理を行っていない形式でもよいし、JpegフォーマットやMPEGフォーマットなどの圧縮符号化処理を行った形式であってもよい。以下、特に限定しない場合においては、画像とはRawフォーマット静止画である場合について説明する。
また、本実施形態に係る画像生成方法が対象とする画像とは、CCD(Charge Coupled Devices)イメージセンサを用いたCCDカメラにより撮像された画像であってもよいし、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサを用いたCMOSカメラにより撮像された画像であってもよい。また、本実施形態に係る画像生成方法が対象とする画像とは、カラー画像であってもよいし、モノクロ画像であってもよい。また、本実施形態に係る画像生成方法が対象とする画像とは、赤外線センサを用いた赤外線カメラなど非可視光成分を取得することにより撮像された画像であってもよい。
【0022】
[第1の実施形態]
まず、図1から図6を参照しながら、第1の実施形態について説明する。図1は、第1の実施形態に係る学習システムの概要について説明するための図である。同図を参照しながら、学習システム2の概要について説明する。同図に示す学習システム2は、機械学習の学習段階における構成の一例である。画像生成システム1は、機械学習に用いられる教師データを生成する。学習システム2は、画像生成システム1により生成された教師データを用いて学習モデル40を学習させる。
【0023】
画像生成システム1は、撮像装置20を備えることによりGT(高品質画像)31を撮像する。撮像装置20は、低ISO感度、長秒露光などの露出設定によりGT31を撮像する。画像生成システム1は、撮像装置20により撮像されたGT31に基づき、ノイズ画像32を生成する。一対のGT31及び対応するノイズ画像32は、教師データとして学習モデル40に入力される。学習モデル40は、画像生成システム1により生成された教師データを用いて学習される。具体的には、学習モデル40は、ノイズ画像32からGT31を推論するように学習される。言い換えれば、学習した後の学習モデル40はノイズ画像32を入力として、高画質化した画像を推論しその結果を出力する。
なお、画像生成システム1により生成された教師データは、後に行われる学習のため、所定の記憶装置に一時的に記憶されてもよい。また、撮像装置20により撮像されたGT31は一時的に所定の記憶装置に記憶され、画像生成システム1は複数のGT31が蓄積された後ノイズ画像32を生成してもよい。
【0024】
図2は、第1の実施形態に係る画像生成装置の機能構成の一例を示す図である。同図を参照しながら、画像生成装置10の機能構成の一例について説明する。画像生成装置10は、上述した画像生成システム1に用いられる。画像生成装置10は、撮像装置20により撮像されたGT31に基づき、ノイズ画像32を生成する。画像生成装置10は、画像取得部11と、分割部12と、ノイズ重畳部13と、出力部14とを備える。画像生成装置10は、バスで接続された不図示のCPU(Central Processing Unit)、ROM(Read only memory)又はRAM(Random access memory)等の記憶装置等を備え、画像生成プログラムを実行することによって画像取得部11と、分割部12と、ノイズ重畳部13と、出力部14とを備える装置として機能する。
【0025】
なお、画像生成装置10の各機能の全てまたは一部は、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field-Programmable Gate Array)等のハードウェアを用いて実現されてもよい。画像生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。画像生成プログラムは、電気通信回線を介して送信されてもよい。
【0026】
画像取得部11は、撮像装置20により撮像された高画質画像であるGT31を画像Iとして取得する。画像Iのファイル形式は、学習システム2により学習された学習モデル40の推論の対象となる画像と同一のファイル形式であることが好適である。画像取得部11は、取得した画像Iを分割部12に出力する。画像Iの画像サイズは、例えば1920[px(ピクセル)]×1080[px]や、1280[px]×720[px]等であってもよい。なお、画像Iは、上述したGT31の一例である。
【0027】
分割部12は、画像取得部11から画像Iを取得する。分割部12は、取得した画像Iを所定の画素数を有する分割画像DIに分割する。分割画像DIの画素数は、任意であるが、例えば256[px]×256[px]であってもよい。以後の説明において、分割画像DIをパッチと記載する場合がある。
例えばGT31の画像サイズが1920[px]×1080[px]であり、パッチのサイズが256[px]×256[px]である場合、横方向に8個、縦方向に5個のパッチに分割することができる。横方向の8個のパッチのうち、7個のパッチの横方向の画素数は256[px]であり、残り1個のパッチの横方向の画素数は128[px]である。縦方向の5個のパッチのうち4個のパッチの横方向の画素数は256[px]であり、残り1個のパッチの横方向の画素数は56[px]である。すなわち、GT31の画像サイズが1920[px]×1080[px]である場合、256[px]×256[px]の画像サイズを有する28個のパッチと、256[px]×56[px]の画像サイズを有する7個のパッチと、128[px]×256[px]の画像サイズを有する4個のパッチと、128[px]×56[px]の画像サイズを有する1個のパッチとに分割される。分割部12は、分割したパッチのうち、同一サイズ(256[px]×256[px])のパッチを、分割画像DIとしてノイズ重畳部13に出力する。なお、パッチのサイズは256[px]×256[px]の一例に限定されず、異なるサイズであってもよい。なお、当該パッチのサイズは、学習した後の学習モデル40が画像を高画質化する推論処理を行う単位とそろえることが好ましい。言い換えれば、GT31の画像サイズ、分割部12が分割する分割数、パッチのサイズなどは学習時と推論時でそろえることが望ましい。
【0028】
ノイズ重畳部13は、分割部12から複数の分割画像DIを取得する。ノイズ重畳部13は、分割画像DIに対し、所定のノイズモデル及びパラメータに基づいて異なる複数のノイズを重畳させることによりノイズ画像NIを生成する。ノイズ重畳部13は、事前に決められた重畳するノイズの数に応じて、1枚の分割画像DIから複数のノイズ画像NIを生成する。すなわち、ノイズ重畳部13は、重畳するノイズの数に応じて、分割画像DIを複数個に複製し、複製されたそれぞれの分割画像DIに対して、それぞれ異なるノイズを重畳する。換言すれば、ノイズ重畳部13は、1つの分割画像DIが複製された複数の分割画像DIに対して、それぞれ異なるノイズを重畳する。取得した分割画像DIの数がn枚(nは1以上の自然数)であり、重畳するノイズの数がm種類(mは1以上の自然数)である場合、ノイズ重畳部13は、n×m枚のノイズ画像を生成する。ここで、重畳するm種類のノイズはそれぞれ強度が異なるものであり、n×m枚のノイズ画像はそれぞれ異なる画像となる。ノイズ重畳部13により重畳されるノイズの詳細については、図3を参照しながら詳細に説明する。ノイズ重畳部13は、生成したノイズ画像NIを出力部14に出力する。なお、ノイズ画像NIは、上述したノイズ画像32の一例である。
【0029】
出力部14は、ノイズ重畳部13からノイズ画像NIを取得する。出力部14は、取得したノイズ画像NIを出力する。ノイズ画像NIを例えば不図示の記憶装置又は学習モデル40等に出力する。出力部14は、ノイズ画像NIと、対応する画像I又は対応する分割画像DIとを互いに対応付けて、教師データとして出力してもよい。
【0030】
図3は、第1の実施形態に係る画像生成装置が重畳するノイズの一例を示す図である。同図を参照しながら、画像生成装置10が重畳するノイズの一例について説明する。同図には、画像の撮像に置いて画像に重畳されるノイズについて、時間的な流れとともに説明する。同図に示す一例では、ステップS110からステップS160において、6種類のノイズが重畳される。ノイズ重畳部13は、ステップS110からステップS160において重畳される各ノイズを分割画像DIに重畳する。
【0031】
(ステップS110)まず、イメージセンサに光が入射する際に、光子数の揺らぎによるショットノイズ(ショット雑音又はポアソン雑音)が重畳される。ショットノイズとは、光子数の統計的変動により発生するノイズである。ショットノイズは、特に光強度が小さい場合に大きくなる。
【0032】
(ステップS120)次に、イメージセンサ(撮像素子)に起因する感度不均一性(PRNU:Photo Response Non―Uniformity)ノイズが重畳される。感度不均一性ノイズとは、イメージセンサに備えられる複数の画素間における感度のばらつき(感度不均一性)により生じるノイズである。感度不均一性ノイズは、フォトダイオードやアンプの製造時におけるばらつきに起因する。
【0033】
(ステップS130)次に、長時間露光に起因するダークノイズ(ダークショットノイズ又は暗電流ノイズ)が重畳される。ダークノイズとは、暗電流によって発生するノイズである。また、ダークノイズとは、長時間露光により回路に発生した熱を、イメージセンサにより誤検出することにより発生するノイズである。
【0034】
(ステップS140)次に、ソースフォロワノイズが重畳される。ソースフォロワノイズとは、ソースフォロワ回路を形成するMOS(Metal―Oxide―Semiconductor)トランジスタに流れる電流及びオン抵抗により熱が発生することにより生じるノイズである。当該ソースフォロワ回路は、イメージセンサに備えられるフォトダイオードに入射した光の光量に応じて生成された電荷を読み出すために用いられる。
【0035】
(ステップS150)次に、カラムノイズが重畳される。カラムノイズとは、イメージセンサが備える複数の画素のうち、同一列上に配置された画素に生じるノイズである。カラムノイズが重畳されることにより、画像中に縦縞のようなノイズが発生する。なお、カラムノイズはイメージセンサの構成としてカラム方向に配置される画素において回路を共通化することによってカラム方向に発生するノイズである。そのため、カラム方向以外にも回路を共通化する単位で発生するノイズを対象としてもよい。
【0036】
(ステップS160)次に、AD変換に起因するノイズが重畳される。AD変換に起因するノイズとは、イメージセンサに備えられるフォトダイオードに入射した光の光量に応じて生成された電荷に基づくアナログ電圧を、所定の分解能を有するデジタル値に変換する際に生じるノイズである。AD変換に起因するノイズは、AD変換の分解能に応じて発生し、分解能が低いほどノイズが大きくなる。AD変換に起因するノイズとは、換言すれば量子化に起因するノイズである。
【0037】
なお、上述したノイズは、ステップS110により重畳される「光子数のゆらぎによるノイズ」、ステップS120及びステップS130により重畳される「撮像素子に入射した光を電子に変換する際に生じるノイズ」、ステップS140及びステップS150により重畳される「変換された電子をアナログ電圧値に変換する際に生じるノイズ」、及ステップS160により重畳される「変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズ」に分類することができる。ノイズ重畳部13は、撮像過程において重畳されるノイズをモデル化して、モデル化したノイズモデルに基づいてそれぞれのノイズを重畳したノイズ画像NIを生成する。具体的には、ノイズ重畳部13により重畳されるノイズは、上述したノイズの少なくともいずれかを含む。すなわち、ノイズ重畳部13により重畳されるノイズは、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズの少なくともいずれかを含む。
【0038】
なお、ノイズ重畳部13により重畳されるノイズは、上述したノイズに限定されるものではない。ノイズ重畳部13は、上述したノイズとは異なるその他のノイズを重畳してもよい。その他のノイズの一例としては、例えば、フォトダイオードから電荷を読み出す際の読出し回路のスイッチングに起因するノイズや、MOSトランジスタ中の欠陥に起因するRTS(Random Telegraph Signal)ノイズ等であってもよい。また、重畳するノイズの強度としてパラメータをノイズ重畳部13に設定可能に構成してもよく、ノイズ重畳部13は設定されたパラメータに基づいて所定の強度範囲でノイズを重畳するように処理を行う。ノイズ重畳部13に設定するパラメータは上述した各ノイズに対して個別に設定できるように構成してもよいし、一つ以上のノイズを統合した強度についてのパラメータとしてもよい。
なお、ノイズ重畳部13に設定するパラメータは上述した各ノイズに対して事前に設定できるように構成してもよいが、事前に撮像装置20などによって実際に取得されたノイズが重畳されている画像から算出するようにしてもよい。
【0039】
図4は、第1の実施形態に係る画像生成方法の一例について説明するためのフローチャートである。同図を参照しながら、画像生成装置10を用いた画像生成方法の一例について説明する。
【0040】
(ステップS210)画像取得部11は、撮像装置20により撮像された高画質画像であるGT31を取得する。画像取得部11は、取得したGT31を画像Iとして分割部12に出力する。
(ステップS230)分割部12は、画像取得部11から画像Iを取得する。分割部12は、取得した画像Iを所定の画素数を有する分割画像DIに分割する。分割部12は、分割画像DIをノイズ重畳部13に出力する。
(ステップS250)ノイズ重畳部13は、分割部12から複数の分割画像DIを取得する。ノイズ重畳部13は、取得した分割画像DIに対し、異なる複数のノイズを重畳させることによりノイズ画像NIを生成する。具体的には、ノイズ重畳部13は、1つの分割画像DIが複製された複数の分割画像DIに対してそれぞれ異なるノイズを重畳することにより、1つの分割画像DIから複数のノイズ画像NIを生成する。ノイズ重畳部13は、生成したノイズ画像NIを出力部14に出力する。
(ステップS270)出力部14は、ノイズ重畳部13からノイズ画像NIを取得する。出力部14は、取得したノイズ画像NIを出力する。
【0041】
次に、図5及び図6を参照しながら、学習システム2を用いた学習方法について説明する。学習モデル40を学習させるため、例えば1000枚程度のGT31を要する。学習システム2を用いた学習方法としては、予め1000枚程度のGT31に基づいたノイズ画像32を生成する方法と、1枚のGT31ごとにノイズ画像32を生成し学習させていく方法とがある。図5を参照しながら、予め1000枚程度のGT31に基づいたノイズ画像32を生成する方法について説明し、図6を参照しながら、1枚のGT31ごとにノイズ画像32を生成し学習させていく方法について説明する。
なお、学習モデル40を学習させるためのGT31の数は、上述した一例に限定されない。学習モデル40を学習させるためのGT31の数は、例えば100枚であってもよいし、10000枚であってもよい。一般的には、GT31の数が多い程、学習モデル40を精度よく学習させることができる。
【0042】
図5は、第1の実施形態に係る学習方法の一例について説明するためのフローチャートである。同図を参照しながら、学習システム2を用いた学習方法のうち、予め1000枚程度のGT31に基づいたノイズ画像32を生成する方法の一例について説明する。
(ステップS510)まず、画像生成装置10は、撮像装置20により撮像されたN枚(Nは1以上の自然数)のGT31を取得する。なお、ステップS510は、GT31である画像Iを取得する画像取得ステップともいうことができる。
(ステップS530)次に、画像生成装置10は、取得したGT31に基づいてノイズ画像NIを生成する。画像生成装置10は、1枚目からN枚目のGT31まで、順にノイズ画像NIを生成していく。画像生成装置10が生成するノイズ画像NIの元となるGT31を、i枚目(iは、1以上の自然数)のGT31と記載する。すなわち、画像生成装置10は、i枚目のGT31についてノイズ画像Nを生成する。なお、ステップS530は、画像取得ステップであるステップ510により取得されたGT31である画像Iからノイズ画像NIを生成する画像生成ステップともいうことができる。
【0043】
(ステップS550)画像生成装置10は、i=Nとなるまでノイズ画像NIを生成し続ける。画像生成装置10は、i=Nとなった場合(すなわち、ステップS550;YES)、処理をステップS570に進める。画像生成装置10は、i=N未満である場合(すなわち、ステップS550;NO)、処理をステップS530に戻し、ノイズ画像NIを生成し続ける。すなわち、予めGT31に基づいたノイズ画像32を生成する方法の一例において、画像生成ステップは、画像取得ステップにより取得された複数の画像Iに基づき、複数のノイズ画像NIを予め生成しておく。
(ステップS570)学習モデル40は、N枚のGT31に基づいて生成された複数のノイズ画像NIと、N枚のGT31に基づいて学習する。ステップS570は、画像取得ステップであるステップS510により取得された画像から、ノイズ画像NIを推論するよう学習する学習ステップともいうことができる。予めGT31に基づいたノイズ画像32を生成する方法の一例において、学習ステップは、予め生成された複数のノイズ画像NIに基づいて学習する。
【0044】
なお、画像生成ステップにより生成されるノイズ画像NIの数は、分割部12により分割される分割数と、ノイズ重畳部13により重畳されるノイズの数に応じて決定される。学習モデル40は、分割部12により分割された分割画像DIと、ノイズ画像NIとに基づいて学習されてもよい。
【0045】
図6は、第1の実施形態に係る学習方法の変形例について説明するためのフローチャートである。同図を参照しながら、学習システム2を用いた学習方法のうち、1枚のGT31ごとにノイズ画像32を生成し学習させていく方法の一例について説明する。図6に示される工程であって、図5を参照しながら既に説明した工程と同様の工程については、同様の符号を付すことにより説明を省略する場合がある。図6を参照しながら説明する変形例では、図5におけるステップS570を、ステップS550の前に行う点において、図5を参照しながら説明した一例とは異なる。ステップS550の前に行われるステップS570を、ステップS570Aと記載し、図6におけるステップS550をステップS550Aと記載する。
【0046】
すなわち、1枚のGT31ごとにノイズ画像32を生成し学習させていく方法では、N枚のGT31全てについてノイズ画像NIを生成するのを待たず、1枚のGT31についてノイズ画像NIが生成された時点で学習モデル40を学習させる。したがって、本実施形態によれば、大量のノイズ画像NIを記憶しておくための記憶領域を削減することができる。
なお、本実施形態に係る学習方法は、上述した実施例に限定されず、例えば数枚のGT31に基づいたノイズ画像NIを生成した時点で学習モデル40を学習させてもよいし、1枚のGT31から複数のノイズ画像NIを生成する途中の段階で学習モデル40を学習させてもよい。
【0047】
[第1の実施形態のまとめ]
以上説明した実施形態によれば、本実施形態に係る画像生成方法は、画像取得ステップを有することにより画像Iを取得し、分割ステップを有することにより取得した画像Iを所定の画素数を有する分割画像DI(パッチ)に分割し、ノイズ重畳ステップを有することにより1つの分割画像DIから複数のノイズ画像NIを生成し、出力ステップを有することにより生成したノイズ画像NIを出力する。すなわち、本実施形態に係る画像生成方法は、1枚の画像Iを複数の分割画像DIに分割し、複数の分割画像DIそれぞれに基づき、複数のノイズ画像NIを生成する。したがって、本実施形態によれば、1枚の画像Iに基づき、複数の教師データを生成することができる。よって、本実施形態によれば、教師データとして大量の高品質画像を要することなく、低品質画像を高品質画像にノイズ低減処理するための学習モデルを学習させるための教師データを生成することができる。
ここで、学習モデル40は、推論時には、画像Iを所定の画素数に分割し、分割した画像に基づいて推論を行う場合がある。本実施形態によれば、画像Iを分割した分割画像DIのサイズに基づいて学習を行うため、推論時に学習モデル40に入力される画像サイズと同一のサイズの画像に基づいて学習させることができる。
【0048】
また、上述した実施形態によれば、ノイズ重畳ステップにより重畳される複数の異なるノイズは、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズの少なくともいずれかを含む。ここで、変換された電子をアナログ電圧値に変換する際に生じるノイズとは、撮像素子に起因する感度不均一性ノイズと、長時間露光に起因するダークノイズとを含む。また、変換された電子をアナログ電圧値に変換する際に生じるノイズとは、ソースフォロワノイズと、カラムノイズとを含む。すなわち、ノイズ重畳ステップにより重畳されるノイズとは、単なるランダムノイズとは異なる。したがって、本実施形態によれば、実際の低品質画像に重畳されるノイズの種類に応じたノイズをそれぞれ重畳するため、精度のよい教師データを生成することができる。
【0049】
また、上述した実施形態によれば、本実施形態に係る学習方法は、上述した画像生成方法により生成されたノイズ画像を用いて行われる。すなわち、本実施形態に係る学習方法は、画像生成ステップを有することにより取得された画像Iからノイズ画像NIを生成し、学習ステップを有することにより画像取得ステップにより取得された画像Iから、ノイズ画像NIを推論するよう学習する。すなわち、本実施形態に係る学習方法は、学習時に高品質画像である画像Iから動的にノイズ画像NIを生成する。したがって、本実施形態に係る学習方法によれば、予め生成した教師データ(高品質画像と低品質画像との組み合わせ)を記憶しておく必要がなく、高品質画像のみを記憶しておけばよいため、記憶領域を節約することができる。
【0050】
また、上述した実施形態によれば、本実施形態に係る学習方法において、画像生成ステップは、画像取得ステップにより取得された複数の画像Iに基づき、複数のノイズ画像NIを予め生成し、学習ステップは、予め生成された複数のノイズ画像NIに基づいて学習する。すなわち、本実施形態に係る学習方法は、予め教師データ(高品質画像と低品質画像との組み合わせ)を記憶しておく。したがって、本実施形態に係る学習方法によれば、学習時には、画像生成のために時間を要しないため、学習モデル40を容易に学習させることができる。
【0051】
[第2の実施形態]
次に、図7及び図8を参照しながら第2の実施形態について説明する。第2の実施形態に係る画像生成装置10Aは、ノイズ重畳部13により重畳されるノイズの大きさ(程度)を調整可能な点において第1の実施形態に係る画像生成装置10とは異なる。画像生成装置10Aの説明において、画像生成装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0052】
図7は、第2の実施形態に係る画像生成装置の機能構成の一例を示す図である。同図を参照しながら、画像生成装置10Aの機能構成の一例について説明する。画像生成装置10Aは、ノイズ重畳部13に代えてノイズ重畳部13Aを備え、パラメータ取得部15を更に備える点において画像生成装置10とは異なる。
【0053】
パラメータ取得部15は、パラメータ情報PIを取得する。パラメータ情報PIには、推定パラメータ(又は単にパラメータ)が含まれる。推定パラメータは、ノイズ重畳部13Aにより重畳されるノイズの程度を示す。推定パラメータは、画像Iに基づいてコンピュータによる演算により決定される値であってもよいし、ユーザにより任意に入力される値であってもよい。
【0054】
ここで、分割画像DIとは、画像Iを複数に分割した画像である。したがって、画像Iの中央部分と周囲部分では、重畳されるノイズが異なる場合がある。より再現性の高い低品質画像を生成するため、推定パラメータは、画像Iにおける分割画像DIの座標に応じて異なるものであってもよい。すなわち推定パラメータは、分割画像DIごとに異なる値であってもよい。この場合、パラメータ取得部15は、分割画像DIごとに異なるパラメータを取得してもよい。
また、実際に低品質画像に重畳されるノイズは、画像を撮像したときの撮像装置の露出設定(絞り、シャッタースピード、ISO感度等)に応じて異なる。したがってパラメータ取得部15は、高品質画像を撮像したときの露出設定などに応じて、異なるパラメータを取得してもよい。
【0055】
ノイズ重畳部13Aは、パラメータ取得部15により取得されたパラメータ情報PIに含まれる推定パラメータに基づく程度のノイズを、分割画像DIに対し重畳する。推定パラメータが分割画像DIごとに異なる値である場合、ノイズ重畳部13Aは、分割画像DIごとに異なる推定パラメータに基づく程度のノイズを重畳する。例えば、ノイズ重畳部13Aは、分割画像DIが画像Iの中央部分であるか周縁部分であるかに応じて、異なる推定パラメータに基づく程度のノイズを重畳してもよい。また、ノイズ重畳部13Aは、分割画像DIが撮像されたときの撮像装置の設定(絞り、シャッタースピード、ISO感度等)に応じて、異なる推定パラメータに基づく程度のノイズを重畳してもよい。
【0056】
図8は、第2の実施形態に係るパラメータ算出方法の一例を示すフローチャートである。同図を参照しながら、推定パラメータがコンピュータによる演算により決定される場合における算出方法の一例について説明する。推定パラメータの算出は、画像生成装置10Aにより行われてもよいし、他の装置により行われてもよい。以下に示す一例では、画像生成装置10Aにより推定パラメータの算出が行われるものとして説明する。
【0057】
(ステップS310)本実施形態に係る推定パラメータの算出方法では、まず、撮像装置により撮像されたノイズ画像を取得する。ノイズ画像を撮像する撮像装置は、学習のためのGT31を撮像する撮像装置20と同一であってもよいし、撮像装置20とは異なる撮像装置であってもよい。ノイズ画像は、例えば高ISO感度、短秒露光により撮像されてもよい。
【0058】
(ステップS330)次に、画像生成装置10Aは、撮像されたノイズ画像に基づいてヒストグラムを作成する。画像生成装置10Aにより作成されるヒストグラムは、ノイズの分布を示す。例えば、ヒストグラムの横軸(階級)は輝度、縦軸(度数)はその階級に属する輝度が画像中に出現する頻度を示す。
【0059】
(ステップS350)次に、画像生成装置10Aは、作成したヒストグラムとノイズモデルとを比較する。ノイズモデルとは、予め想定されたノイズの種類に応じたモデルであって、予め記憶されたモデルである。ノイズモデルは、ノイズの種類に応じて予め複数記憶されていてもよい。
【0060】
(ステップS370)次に、画像生成装置10Aは、比較した結果に応じた推定パラメータを算出する。画像生成装置10Aは、例えば最尤推定等のアルゴリズムに基づいて、推定パラメータを算出する。具体的には、画像生成装置10Aは、実際のノイズ分布(ステップS330により作成されたヒストグラム)と、推定分布(推定パラメータ)とが、最も近くなるように、推定分布(推定パラメータ)を決定する。
【0061】
[第2の実施形態のまとめ]
以上説明した実施形態によれば、本実施形態に係る画像生成方法は、パラメータ取得ステップを更に有することによりノイズ重畳ステップにより重畳されるノイズの程度を示す推定パラメータを取得し、ノイズ重畳ステップを有することにより推定パラメータに基づく程度のノイズを重畳する。したがって、本実施形態に係る画像生成方法によれば、重畳するノイズの程度を適切に調整することができる。
【0062】
また、本実施形態に係る画像生成方法において、パラメータ取得ステップは、分割画像DIごとに異なる推定パラメータを取得し、ノイズ重畳ステップは、分割画像DIごとに異なるパラメータに基づく程度のノイズを重畳する。分割画像DIごとに異なる推定パラメータとは、例えば画像Iにおける分割画像DIの位置座標、又は画像Iの撮像時における撮像装置の設定ごとに異なる推定パラメータであってもよい。したがって、本実施形態に係る画像生成方法によれば、より再現性の高いノイズ画像を生成することができる。
【0063】
[第3の実施形態]
次に、図9を参照しながら第3の実施形態について説明する。第3の実施形態に係る学習システム2Bは、2つの拠点において、異なる学習をする点において第1の実施形態に係る学習システム2とは異なる。学習システム2Bの説明において、学習システム2と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0064】
図9は、第3の実施形態に係る学習方法について説明するための図である。同図を参照しながら、学習システム2Bについて説明する。学習システム2Bは、上述した画像生成方法により生成された教師データを用いて学習が行われる。学習システム2Bでは、第1拠点L1と、第2拠点L2の2つの拠点に置いて学習が行われる。なお、本実施形態に係る学習システム2Bでは、複数の拠点において学習が行われればよく、2拠点で学習が行われる場合の一例に限定されない。以下に説明する実施形態では、一例として2つの拠点において学習が行われる場合の一例について説明する。また、本実施形態において拠点とは、学習が行われる機会(場所又はタイミング)を示しており、異なるタイミングで学習が行われればよく、2つの拠点間において物理的に場所が離れているか否かを問わない。
【0065】
本実施形態において、第1拠点L1では、第1回目の学習が行われる。第1回目の学習では、第1画像生成ステップと、第1学習ステップとが行われる。
第1画像生成ステップでは、高画質画像を取得し、取得した高画質画像から低画質画像を生成する。具体的には、第1画像生成ステップでは、画像取得ステップにより取得された画像Iからノイズ画像NIを生成する。より具体的には、第1画像生成ステップでは、画像取得ステップにより取得された画像Iを分割することにより分割画像DIを生成し、分割画像DIに所定のノイズを重畳することによりノイズ画像NIを生成する。第1画像生成ステップでは、1枚の画像Iを分割することにより複数の分割画像DIを生成し、複数の分割画像DIのうち1枚の分割画像DIから複数のノイズ画像NIを生成する。
【0066】
第1学習ステップでは、高画質画像と第1画像生成ステップで生成した低画質画像を用いて学習する。具体的には、第1学習ステップでは、画像取得ステップにより取得された画像Iから、第1画像生成ステップにより生成されたノイズ画像NIを推論するよう学習する。より具体的には、第1学習ステップでは、画像取得ステップにより取得された画像Iを分割した分割画像DIから、第1画像生成ステップにより生成されたノイズ画像NIを推論するよう学習する。
第1拠点L1では、一例として1000枚程度の画像Iに基づいた教師データを生成し、学習モデル40を学習させる。
【0067】
第1拠点において第1回目の学習が行われた後、学習モデル40は第2拠点に置いて第2回目の学習が行われる。学習モデル40がハードウェアに組み込まれている場合、学習モデル40は第1拠点L1から第2拠点L2へ輸送されてもよい。また、学習モデル40をデータとして、通信ネットワークを介して第2拠点L2に送信してもよい。第2拠点L2では、第2回目の学習が行われる。ここで、第2拠点L2は、複数であってもよい。本実施形態では、第2拠点L2として、第2拠点L2-1と、第2拠点L2-2とを示す。
【0068】
学習済みの学習モデル40は、撮像装置20を用いて取得した低画質画像に基づいて、高品質画像を推論する。すなわち学習モデル40は、画像のノイズリダクション処理のために用いられる。第2拠点L2とは、例えば、学習モデル40を用いて推論(ノイズリダクション処理)を行う拠点である。したがって、本実施形態における第1回目の学習とは、学習モデル40がユーザに送付される前に行われる学習であって、全てのユーザに共通する学習、すなわち予備学習ともいうことができる。また、第2回目の学習は、学習モデル40がユーザに送付された後に行われる学習であって、ユーザごとに異なる学習、すなわち微調整のための学習であるともいうことができる。微調整のための学習とは、換言すれば学習モデル40が推論を行う使用環境(推論を行う入力画像を撮像する撮像装置)に合わせるための学習ともいうことができる。
したがって、第2拠点L2の数は、第1拠点L1の数より多い。
【0069】
第2回目の学習では、第2画像生成ステップと、第2学習ステップとが行われる。
第2画像生成ステップは、第1拠点L1において第1学習ステップが行われた後に行われる。また、第2画像生成ステップは、画像取得ステップにより取得された画像Iからノイズ画像NIを生成する。第2画像生成ステップに用いられる画像Iは、学習モデル40が実際に推論を行う画像を撮像する撮像装置により撮像された画像であることが望ましい。また、第2画像生成ステップに用いられる画像Iの被写体は、学習モデル40が実際に推論を行う画像における被写体と同様であることが望ましい。
【0070】
例えば学習モデル40が監視カメラの画像を高画質に画像処理する用途に用いられる場合、当該監視カメラにより撮像された画像を画像Iとして第2回目の学習が行われることが望ましい。また、例えば学習モデル40が監視カメラの画像を高画質に画像処理する用途に用いられる場合、夜間と昼間で画像の明るさが異なる場合は、夜間に撮像された画像と昼間に撮像された画像とに基づいて第2回目の学習が行われることが望ましい。
【0071】
第2学習ステップは、第1拠点L1において第2学習ステップが行われた後に行われる。また、第2学習ステップでは、第2回目の学習において画像取得ステップにより取得された画像Iから、ノイズ画像NIを推論するよう学習する。
【0072】
ここで、予備学習としての役割を有する第1学習ステップにおいては、微調整のための学習としての役割を有する第2学習ステップと比較して、より多くの画像に基づいた学習を行う。すなわち、第1学習ステップにより学習される画像の数は、第2学習ステップにより学習される画像の数よりも多い。例えば、第1拠点L1では1000枚の画像に基づいて学習されるのに対し、第2拠点L2-1では15枚、第2拠点L2-2では20枚の画像に基づいて学習される。第2拠点L2において学習に用いられる画像の数は各拠点において異なっていてもよく、各拠点において用いられる撮像装置の種類や、被写体等に応じて決定されてもよい。
【0073】
なお、第1回目の学習と第2回目の学習とは、ハイパーパラメータが異なっていてもよい。第1回目の学習及び第2回目の学習において異なるハイパーパラメータの一例としては、学習率(Learning rate)、学習ステップ数(steps)等が挙げられる。学習率とは勾配法によってどれだけ大きくパラメータのこうしんをおこなうかを決めるハイパーパラメータであり、学習ステップ数とはCNN(Convolutional Neural Network)のパラメータを更新する回数である。
具体的には、第1回目の学習における学習率は1e-4であるのに対し、第2回目の学習における学習率は1e-5であってもよい。また、第1回目の学習における学習ステップ数は640kであるのに対し、第2回目の学習における学習ステップ数は1kであってもよい。
【0074】
[第3の実施形態のまとめ]
以上説明した実施形態によれば、本実施形態に係る学習方法は、上述した画像生成方法により生成されたノイズ画像NIを用いた学習を行う。また、本実施形態に係る学習方法は、第1拠点L1において第1画像生成ステップを有することにより画像取得ステップにより取得された画像からノイズ画像NIを生成し、第1学習ステップを有することにより第1画像生成ステップにおいて画像取得ステップにより取得された画像Iから、ノイズ画像NIを推論するよう学習する。その後、本実施形態に係る学習方法は、第2拠点L2において第2画像生成ステップを有することにより第2拠点L2における画像取得ステップにより取得された画像からノイズ画像NIを生成し、第2学習ステップを有することにより第2画像生成ステップにおいて画像取得ステップにより取得された画像Iから、ノイズ画像NIを推論するよう学習する。すなわち、本実施形態に係る学習方法によれば、第1拠点L1において予備学習を行い、第2拠点L2において微調整のための学習を行う。第2拠点L2における第2回目の学習に用いられる教師データは学習モデル40が実際に推論を行う画像を撮像する撮像装置により撮像された画像であり、当該画像の被写体は学習モデル40が実際に推論を行う画像における被写体と同様である。したがって、第2拠点L2における第2回目の学習では、実際に推論で用いられる環境特有のノイズを学習することができる。したがって、本実施形態に係る学習方法によれば、より精度の高いノイズリダクション処理を行うための学習をすることができる。
【0075】
また、上述した実施形態によれば、第1学習ステップにより学習される画像の数は、第2学習ステップにより学習される画像の数よりも多い。すなわち、第1拠点L1において学習される画像の数は、第2拠点L2において学習される画像の数よりも多い。第1拠点L1とは、例えば学習モデル40が組み込まれた製品(例えば半導体製品、又は当該半導体製品が組み込まれた基板)を製造する工場であり、第2拠点L2とは、第1拠点L1において製造された製品を用いてノイズリダクション処理を行う現場(例えば監視カメラや製造ラインにおける製品監視のためのカメラ)である。したがって、本実施形態によれば、第1学習ステップにより学習される画像の数を、第2学習ステップにより学習される画像の数よりも多くすることにより、現場(第2拠点L2)での学習時間を短くすることができる。
【0076】
[第4の実施形態]
次に、図10を参照しながら第4の実施形態について説明する。第4の実施形態に係る画像生成装置10Cは、高画質動画に対してノイズを重畳することにより低画質動画を生成する点において、画像生成装置10とは異なる。画像生成装置10Cは、動画を構成するフレームごとにノイズを重畳することにより高画質動画から低画質動画を生成する。画像生成装置10Cの説明において、画像生成装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0077】
図10は、第4の実施形態に係る画像生成方法について説明するための図である。同図を参照しながら第4の実施形態に係る画像生成方法について説明する。本実施形態では、高画質動画をGT31Aとし、画像生成装置10Cに入力する。GT31Aは、複数のフレームFを有する。同図に示す一例では、GT31Aは、F1からFn(nは1以上の自然数)までのn枚のフレームFを有する。画像生成装置10Cは、1枚のフレームFを画像Iとして、ノイズ画像NIを生成する。画像生成装置10Cは、生成したノイズ画像NIをノイズ画像32Aとして出力する。ノイズ画像32Aは、複数のフレームFを有する。同図に示す一例では、ノイズ画像32Aは、FN1からFNn(nは1以上の自然数)までのn枚のフレームFNを有する。
【0078】
すなわち、本実施形態に係る画像取得ステップは、時間的に連続する複数の画像(フレーム)を取得する。また、本実施形態に係るノイズ重畳ステップにより重畳される複数のノイズのうち、少なくとも1つは、動画特有のノイズであってもよい。動画特有のノイズとは、例えば時間成分を有するノイズである。換言すれば、ノイズ重畳ステップにより重畳される複数の異なるノイズのうち少なくともいずれかは、時間的に連続する複数の画像に対する周波数成分を有するノイズである。時間的に連続する複数の画像に対する周波数成分を有するノイズの一例としては、例えばフリッカノイズが挙げられる。
【0079】
静止画に基づいて動画特有のノイズ(例えばフリッカノイズ)を学習及び推論する場合の一例として、振幅と周波数を推定することにより行ってもよい。動画に含まれるフリッカノイズを起こす対象(例えば、蛍光灯)のピクセル値の時間変化を計測することにより、比較的高い精度で推定することができる。フリッカノイズの再現方法としては、例えば、GT画像中の輝度値が高いところを蛍光灯とみなし、該当するピクセル値を、推定した振幅と周波数に伴い時間的に変動させる方法がある。周波数は、測定に基づいてもよいし、50[Hz(ヘルツ)]もしくは60[Hz]に固定されていてもよい。
【0080】
第4の実施形態においては、静止画として学習モデルに入力する場合の一例について説明した。しかしながら本実施形態はこの一例に限定されず、複数フレームを有する動画として学習モデルに入力可能なよう構成されてもよい。動画として学習モデルに入力する方法の一例として、学習モデルには複数のフレーム単位(例えば5フレーム単位)の動画が入力されてもよい。複数のフレーム単位で学習される場合、学習モデルは、1フレームないし複数フレーム(例えば5フレーム)のGT画像との差分を学習してもよい。学習及び推論に用いられるフレーム数は、演算量(推論時の実行時間)と推論精度とのトレードオフにより決定される。学習モデルが動画単位で学習されることにより、動画特有のノイズを学習及び推論することができる。
【0081】
[第4の実施形態のまとめ]
以上説明した実施形態によれば、本実施形態に係る画像生成方法において、画像取得ステップは時間的に連続する複数の画像を取得し、ノイズ重畳ステップにより重畳される複数の異なるノイズのうち少なくともいずれかは、時間的に連続する複数の画像に対する周波数成分を有するノイズである。すなわち、本実施形態によれば、高画質動画に基づいて低画質動画を生成し、動画特有のノイズを重畳することができる。よって、本実施形態によれば、教師データとして大量の高品質動画を要することなく、低品質動画を高品質画像にノイズ低減処理するための学習モデルを学習させることができる。
【0082】
なお、上述した実施形態における画像生成装置10及び学習装置が備える各部の機能の全体あるいはその機能の一部は、これらの機能を実現するためのプログラムをコンピュータにより読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0083】
また、「コンピュータにより読み取り可能な記録媒体」とは、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに、「コンピュータにより読み取り可能な記録媒体」とは、インターネット等のネットワークを介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【0084】
なお、学習システム2において学習を行った学習モデルは学習システム2とは異なる推論装置において実行されることとしてもよい。推論装置は一例として、CPUなどのプロセッサとメモリ以外に、学習モデルに関する演算を行うためのアクセラレータを含むFPGAやASICなどを備える構成としてもよい。具体的には、推論装置は、スマートフォンなどのモバイル製品、監視カメラおよびドライブレコーダーなどの低消費電力が求められるエッジデバイスなどに備えられる。また、バッテリーで駆動する製品などにおいては、演算に用いるデータを8bit以下(例えば4bitや2bit)に量子化して演算することが好ましい。この場合、学習システム2における学習時においても、推論時と同様の演算に用いるデータを量子化することが好ましい。具体的には、推論時の演算に用いるデータに合わせて、畳み込み演算に用いる重みパラメータを2bitや1bitに量子化し、アクティベーションを4bitや2bitに量子化することが好ましい。
【0085】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0086】
1…画像生成システム、2…学習システム、10、10A…画像生成装置、11…画像取得部、12…分割部、13、13A…ノイズ重畳部、14…出力部、15…パラメータ取得部、20…撮像装置、31…GT、32…ノイズ画像、40…学習モデル、L1…第1拠点、L2…第2拠点、I…画像、DI…分割画像、NI…ノイズ画像、PI…パラメータ情報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10