IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ LeapMind株式会社の特許一覧

特開2024-33913入力情報生成装置、画像処理装置及び入力情報生成方法
<>
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図1
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図2
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図3
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図4
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図5
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図6
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図7
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図8
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図9
  • 特開-入力情報生成装置、画像処理装置及び入力情報生成方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024033913
(43)【公開日】2024-03-13
(54)【発明の名称】入力情報生成装置、画像処理装置及び入力情報生成方法
(51)【国際特許分類】
   G06T 5/70 20240101AFI20240306BHJP
   G06T 7/00 20170101ALN20240306BHJP
【FI】
G06T5/00 705
G06T7/00 350D
【審査請求】未請求
【請求項の数】14
【出願形態】OL
(21)【出願番号】P 2022137834
(22)【出願日】2022-08-31
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】能地 宏
(72)【発明者】
【氏名】スワンウイタヤ ピヤワト
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CB01
5B057CB08
5B057CB12
5B057CE02
5B057CE08
5L096AA02
5L096AA06
5L096CA04
5L096EA39
5L096FA32
5L096GA08
5L096GA51
5L096HA11
(57)【要約】
【課題】軽量な演算で低品質動画を高品質動画に変換する。
【解決手段】入力情報生成装置は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、取得した複数フレームの前記入力画像の画素値を、複数の2ビットの入力データに変換する入力変換部と、変換された複数の入力データを1つの合成データに合成する合成部と、合成された前記合成データを出力する出力部とを備える。
【選択図】図5
【特許請求の範囲】
【請求項1】
動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、
取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換部と、
変換された複数の入力データを1つの合成データに合成する合成部と、
合成された前記合成データを出力する出力部と
を備える入力情報生成装置。
【請求項2】
前記動画はカラー動画であり、
前記画像取得部は、1つのフレームから各色の画素値を複数の異なる画像として取得し、
前記入力変換部は、1つのフレームから取得された複数の画像それぞれについて、前記入力データに変換する
請求項1に記載の入力情報生成装置。
【請求項3】
前記画像取得部は、前記動画を構成するフレームのうち、前記対象フレームの前後それぞれに連続して隣接する複数のフレームの画像を取得する
請求項1に記載の入力情報生成装置。
【請求項4】
前記画像取得部は、前記出力部により前記対象フレームについての前記合成データが出力された後、前記対象フレームに隣接するフレームを前記対象フレームとして、少なくとも前記対象フレームを含む複数フレームを前記入力画像として取得する
請求項1に記載の入力情報生成装置。
【請求項5】
前記画像取得部により取得された複数フレームのうち、前記対象フレーム以外のフレームである隣接フレームの画素値に基づいた演算を行うことにより、複数の前記隣接フレームを1つの統合フレームに統合する統合部を更に備え、
前記入力変換部は、前記対象フレームの画素値を、前記入力データに変換し、更に前記統合フレームの画素値を、前記入力データに変換し、
前記合成部は、前記対象フレームに基づき変換された複数の前記入力データと、前記統合フレームに基づき変換された複数の前記入力データとを1つの前記合成データに合成する
請求項1に記載の入力情報生成装置。
【請求項6】
前記統合部は、複数の前記隣接フレームの画素値の平均値を前記統合フレームの画素値とする
請求項5に記載の入力情報生成装置。
【請求項7】
前記統合部は、複数の前記隣接フレームのうち、前記対象フレームからの時間的距離に応じた加重平均を算出することにより前記統合フレームの画素値を算出する
請求項6に記載の入力情報生成装置。
【請求項8】
前記統合部は、前記動画を構成するフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外する
請求項6に記載の入力情報生成装置。
【請求項9】
前記動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する平均値一時記憶部を更に備え、
前記統合部は、前記平均値一時記憶部に記憶された値と、前記対象フレームとに基づく演算により前記統合フレームの画素値を算出する
請求項5に記載の入力情報生成装置。
【請求項10】
前記動画の撮像条件を取得する撮像条件取得部と、
取得された前記撮像条件に応じて前記平均値一時記憶部に記憶された前記平均値を調整する調整部を更に備える
請求項9に記載の入力情報生成装置。
【請求項11】
前記平均値一時記憶部に記憶された値と、前記対象フレームの画素値とを比較する比較部を更に備え、
前記統合部は、前記比較部により比較された結果、差分が所定値以下である場合、前記平均値一時記憶部に記憶された値と前記対象フレームとに基づく移動平均を算出することにより前記統合フレームの画素値を算出し、差分が所定値以下でない場合、前記対象フレームの画素値を前記統合フレームの画素値とする
請求項9に記載の入力情報生成装置。
【請求項12】
前記統合部は、前記画像取得部により取得された前記隣接フレームのうちランダムに特定されたフレームを前記統合フレームとする
請求項5に記載の入力情報生成装置。
【請求項13】
請求項1から請求項12のいずれか一項に記載の入力情報生成装置と、
前記入力情報生成装置により出力された前記合成データを入力情報とする畳み込みニューラルネットワークと
を備える画像処理装置。
【請求項14】
動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得工程と、
取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換工程と、
変換された複数の入力データを1つの合成データに合成する合成工程と、
合成された前記合成データを出力する出力工程と
を有する入力情報生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力情報生成装置、画像処理装置及び入力情報生成方法に関する。
【背景技術】
【0002】
撮像装置により画像を撮像する際、周囲の光量が十分でない場合や、シャッタースピード、絞り又はISO感度等の撮像装置の設定が適切でない場合には、低品質画像となってしまう場合がある。既に撮像された低品質画像を、画像処理により高品質画像に変換する技術があった。例えば、機械学習を用いて低品質画像を高品質画像に画像処理する技術があった(例えば、特許文献1を参照)。このような技術分野においては、画像を高画質化させることが最優先の要求事項である。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許第10623756号明細書
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、上述したような従来技術を動画に応用し、動画を構成する各フレームの画質を高画質化することにより、低品質動画を高品質動画に変換することが考えられる。撮像装置により撮像された動画をリアルタイムで高画質化する場合、画像処理に時間を要してしまうと動画のフレームレートが犠牲になるといった問題が生じる場合がある。すなわち、低品質動画を高品質動画に変換する場合は、フレーム画像の高画質化のみを優先させることができず、軽量な画像処理によりフレームレートを維持することが求められる。更に、動画の高画質化処理はエッジデバイス上で行われることもあり、エッジデバイスの処理能力を考慮すると、画像処理の軽量化に対する強い要求があった。
【0005】
そこで本発明は、軽量な演算で低品質動画を高品質動画に変換可能な技術の提供を目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得部と、取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換部と、変換された複数の入力データを1つの合成データに合成する合成部と、合成された前記合成データを出力する出力部とを備える入力情報生成装置である。
【0007】
(2)本発明の一態様は、上記(1)に記載の入力情報生成装置において、前記動画はカラー動画であり、前記画像取得部は、1つのフレームから各色の画素値を複数の異なる画像として取得し、前記入力変換部は、1つのフレームから取得された複数の画像それぞれについて、前記入力データに変換するものである。
【0008】
(3)本発明の一態様は、上記(1)又は(2)に記載の入力情報生成装置において、前記画像取得部は、前記動画を構成するフレームのうち、前記対象フレームの前後それぞれに連続して隣接する複数のフレームの画像を取得するものである。
【0009】
(4)本発明の一態様は、上記(1)から(3)のいずれかに記載の入力情報生成装置において、前記画像取得部は、前記出力部により前記対象フレームについての前記合成データが出力された後、前記対象フレームに隣接するフレームを前記対象フレームとして、少なくとも前記対象フレームを含む複数フレームを前記入力画像として取得するものである。
【0010】
(5)本発明の一態様は、上記(1)から(4)のいずれかに記載の入力情報生成装置は、前記画像取得部により取得された複数フレームのうち、前記対象フレーム以外のフレームである隣接フレームの画素値に基づいた演算を行うことにより、複数の前記隣接フレームを1つの統合フレームに統合する統合部を更に備え、前記入力変換部は、前記対象フレームの画素値を、前記入力データに変換し、更に前記統合フレームの画素値を、前記入力データに変換し、前記合成部は、前記対象フレームに基づき変換された複数の前記入力データと、前記統合フレームに基づき変換された複数の前記入力データとを1つの前記合成データに合成するものである。
【0011】
(6)本発明の一態様は、上記(5)に記載の入力情報生成装置において、前記統合部は、複数の前記隣接フレームの画素値の平均値を前記統合フレームの画素値とするものである。
【0012】
(7)本発明の一態様は、上記(6)に記載の入力情報生成装置において、前記統合部は、複数の前記隣接フレームのうち、前記対象フレームからの時間的距離に応じた加重平均を算出することにより前記統合フレームの画素値を算出するものである。
【0013】
(8)本発明の一態様は、上記(6)に記載の入力情報生成装置において、前記統合部は、前記動画を構成するフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外するものである。
【0014】
(9)本発明の一態様は、上記(5)に記載の入力情報生成装置は、前記動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する平均値一時記憶部を更に備え、前記統合部は、前記平均値一時記憶部に記憶された値と、前記対象フレームとに基づく演算により前記統合フレームの画素値を算出するものである。
【0015】
(10)本発明の一態様は、上記(9)に記載の入力情報生成装置は、前記動画の撮像条件を取得する撮像条件取得部と、取得された前記撮像条件に応じて前記平均値一時記憶部に記憶された前記平均値を調整する調整部を更に備えるものである。
【0016】
(11)本発明の一態様は、上記(9)に記載の入力情報生成装置は、前記平均値一時記憶部に記憶された値と、前記対象フレームの画素値とを比較する比較部を更に備え、前記統合部は、前記比較部により比較された結果、差分が所定値以下である場合、前記平均値一時記憶部に記憶された値と前記対象フレームとに基づく移動平均を算出することにより前記統合フレームの画素値を算出し、差分が所定値以下でない場合、前記対象フレームの画素値を前記統合フレームの画素値とするものである。
【0017】
(12)本発明の一態様は、上記(5)に記載の入力情報生成装置は、前記統合部は、前記画像取得部により取得された前記隣接フレームのうちランダムに特定されたフレームを前記統合フレームとするものである。
【0018】
(13)本発明の一態様は、上記(1)から上記(12)のいずれかに記載の入力情報生成装置と、前記入力情報生成装置により出力された前記合成データを入力情報とする畳み込みニューラルネットワークとを備える画像処理装置である。
【0019】
(14)本発明の一態様は、動画を構成するフレームのうち、入力情報の生成の対象となる対象フレームを少なくとも含む複数フレームを入力画像として取得する画像取得工程と、取得した複数フレームの前記入力画像の画素値を、前記入力画像の画素値を示すビット数より少ないビット数の入力データに変換する入力変換工程と、変換された複数の入力データを1つの合成データに合成する合成工程と、合成された前記合成データを出力する出力工程とを有する入力情報生成方法である。
【発明の効果】
【0020】
本発明によれば、軽量な演算で低品質動画を高品質動画に変換することができる。
【図面の簡単な説明】
【0021】
図1】第1の実施形態に係る高品質動画生成システムの機能構成の一例を示すブロック図である。
図2】第1の実施形態に係る畳み込みニューラルネットワークの一例を示す図である。
図3】第1の実施形態に係る動画を構成するフレームについて示す図である。
図4】第1の実施形態に係る入力情報生成方法の概要について説明するための図である。
図5】第1の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。
図6】第1の実施形態に係る入力変換部の機能構成の一例を示すブロック図である。
図7】第2の実施形態に係る入力情報生成方法の概要について説明するための図である。
図8】第2の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。
図9】第3の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。
図10】第4の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明の態様に係る入力情報生成装置、画像処理装置及び入力情報生成方法について、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。
【0023】
まず、本実施形態の前提となる事項について説明する。本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法は、ノイズが重畳した低品質な動画情報を入力として、ノイズを取り除いた高品質な動画情報を生成する。低品質動画には低画質動画が含まれ、高品質動画には高画質動画が含まれる。高品質動画とは、一例として、低ISO感度、長秒露光により撮像される画質の高い動画を例示することができる。低品質動画とは、一例として、高ISO感度、短秒露光により撮像される画質の低い動画を例示することができる。
【0024】
以下の説明においては低品質動画の一例としてノイズによる画質劣化について説明するが、本実施形態は、ノイズ以外であっても、動画の品質を低下させる事項に対して広く適用可能である。動画の品質を低下させる事項としては、光学収差による解像度の低下もしくは色ずれ、手ブレや被写体ブレによる解像度の低下、暗電流や回路起因による黒レベルの不均一、高輝度被写体によるゴーストやフレア、信号レベル異常等を例示することができる。また、ノイズには画素ごとに発生するランダムノイズ以外にも、画像の水平方向又は垂直方向に発生するスジ状のノイズ、画像中に固定パターンで発生するノイズ等を含む。また、連続するフレーム間で変動するフリッカ状のノイズ等の動画特有のノイズを含んでもよい。本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法は、動画に含まれる各フレームを、フレームごとに画像処理することにより、フレームの画質を向上させ、動画としての高品質化を行う。
【0025】
なお、高品質化の対象となる入力動画は、撮像装置によって撮像された動画が用いられてもよいし、予め用意されていた動画が用いられてもよい。以下の説明において、低品質動画を低画質動画又はノイズ動画と記載する場合がある。また、以下の説明において、高品質動画を高画質動画と記載する場合がある。
【0026】
また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、CCD(Charge Coupled Devices)イメージセンサを用いたCCDカメラにより撮像された動画であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサを用いたCMOSカメラにより撮像された画像であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、カラー動画であってもよいし、モノクロ動画であってもよい。また、本実施形態に係る入力情報生成装置、画像処理装置及び入力情報生成方法が対象とする動画とは、赤外線センサを用いた赤外線カメラなど非可視光成分を取得することにより撮像された動画であってもよい。
【0027】
[第1の実施形態]
まず、図1から図6を参照しながら、第1の実施形態について説明する。
図1は、第1の実施形態に係る高品質動画生成システムの機能構成の一例を示すブロック図である。同図を参照しながら、高品質動画生成システム1の機能構成の一例について説明する。高品質動画生成システム1は、撮像装置100と、入力情報生成装置10と、畳み込みニューラルネットワーク200(以下、「CNN200」という)とをその機能として備える。入力情報生成装置10及びCNN200は、撮像装置100により撮像された動画を構成する各フレームを画像処理する。入力情報生成装置10及びCNN200は、事前に学習が行われた学習済みモデルを含む。以下の説明において、入力情報生成装置10とCNN200とを備える構成を、画像処理装置2と記載する場合がある。なお、高品質動画生成システム1は画像処理装置2の出力を圧縮符号化する符号化部、及び符号化部によって圧縮符号化された結果を保持する所定のメモリを備える構成としてもよい。
【0028】
撮像装置100は、動画を撮像する。撮像装置100により撮像される動画は、高品質化の対象となる低品質動画である。撮像装置100は、例えば暗い(光量の少ない)箇所に設置された監視カメラ等であってもよい。撮像装置100は、例えば光量不足による低品質動画を撮像する。撮像装置100は、撮像した動画を、入力情報生成装置10に出力する。撮像装置100により撮像された動画は、画像処理装置2への入力となる。したがって、撮像装置100から入力情報生成装置10に出力される動画を、動画情報IMと記載する場合がある。
【0029】
なお、撮像装置100と画像処理装置2とは、いずれもスマートフォンやタブレット端末等の筐体内に存在してもよい。すなわち、高品質動画生成システム1は、エッジデバイスを構成する要素として存在してもよい。また、撮像装置100は、所定の通信ネットワークを介して画像処理装置2と接続されていてもよい。すなわち、高品質動画生成システム1は、所定の通信ネットワークを介して構成要素同士が互いに接続されることにより存在してもよい。
また、撮像装置100は複数のレンズ及び当該複数のレンズにそれぞれ対応する複数のイメージセンサを備える構成であってもよい。このような構成の具体例として、撮像装置100は、異なる画角の画像を取得するように複数のレンズ及びイメージセンサを備える構成を例示することができる。このように構成された撮像装置100によれば、それぞれのイメージセンサから取得される画像は、空間的に互いに隣接しているということができる。高品質動画生成システム1は、動画のような時間的に互いに隣接している複数の画像のみならず、空間的に互いに隣接している複数の画像に対しても適用可能である。
【0030】
入力情報生成装置10は、撮像装置100から動画情報IMを取得する。入力情報生成装置10は、取得した動画情報IMに基づいて入力情報INを生成する。入力情報INは、動画情報IMを構成するフレームごとに生成される。入力情報INは、対象となるフレームと、当該フレームに基づいて決定される他のフレームに基づいて生成されてもよい。当該フレームに基づいて決定される他のフレームとは、対象となるフレームに時間的に隣接するフレームであってもよい。
【0031】
CNN200は、入力情報生成装置10により出力されたデータを入力情報INとする畳み込みニューラルネットワークである。CNN200の一例について、図2を参照しながら説明する。
【0032】
図2は、第1の実施形態に係るCNN200の一例を示す図である。同図を参照しながら、CNN200の詳細について詳細に説明する。CNN200は、多層構造を有するニューラルネットワークである。CNN200は、入力情報INが入力される入力層210と、畳み込み演算を行う畳み込み層220と、プーリングを行うプーリング層230と、出力層240とを含む多層構造のネットワークである。CNN200の少なくとも一部において、畳み込み層220とプーリング層230とは交互に連結される。CNN200は、画像認識や動画認識に広く使われるモデルである。CNN200は、全結合層などの他の機能を有する層(レイヤ)をさらに有してもよい。なお、プーリング層230には畳み込み層220の演算結果を低ビット化するための量子化演算を行う量子化層を含んでもよい。具体的には、量子化層は、畳み込み層220における畳み込み演算の結果が16ビットである場合に、量子化層において畳み込み演算の結果を8ビット以下にビット数を削減する演算を行う。
【0033】
入力層210には、入力情報INが入力される。入力情報INは、入力画像に基づき生成される。当該入力画像は、動画を構成するフレーム画像である。本実施形態に係る入力情報生成装置10は、入力画像から入力情報INを生成するものである。本実施形態において、入力情報INの要素は、例えば2ビットの符号なし整数(0,1,2,3)であってもよい。また、入力データの要素は、例えば、4ビットや8ビットの整数でもよい。
【0034】
畳み込み層220は、入力層210に入力された入力情報INに対して畳み込み演算を行う。畳み込み層220は、低ビットの入力情報INに対して畳み込み演算を行う。畳み込み層220は、所定の畳み込み演算を行った結果、プーリング層230に対して所定の出力データを出力する。
【0035】
プーリング層は、畳み込み層220により畳み込み演算が行われた結果に基づき、ある領域の代表値を抽出する。具体的には、プーリング層230は、畳み込み層220により出力された畳み込み演算の出力データに対して、平均プーリングやMAXプーリング等の演算を実施して、畳み込み層220の出力データを圧縮する。
【0036】
出力層240は、CNN200の結果を出力する層である。出力層240は、例えば、恒等関数やソフトマックス関数等によりCNN200の結果を出力してもよい。出力層240の前段に備えられるレイヤは、畳み込み層220であってもよいし、プーリング層230であってもよいし、その他のレイヤであってもよい。
【0037】
図3は、第1の実施形態に係る動画を構成するフレームについて示す図である。同図を参照しながら、入力情報生成装置10が入力情報INの生成に用いるフレームについて説明する。同図には、動画を構成する複数の連続するフレームを示す。同図に示すフレームF1からフレームF7は、動画を構成する複数の連続するフレームの一例である。
なお、各フレームは圧縮符号化されていないRAW画像であって、各画素は12ビット又は14ビットで表現される。そして、各フレームの画素数は1920×1080又は4096×2160等の所定の動画フォーマットを満たすために必要な画素数を備える。なお、本実施形態において、CNN200での処理対象をRAW画像として説明するが、これに限られるものではない。処理対象の画像が十分に信号成分を含んでいる場合には圧縮符号化等の処理を行った画像を対象としてもよい。
【0038】
入力情報生成装置10は、対象となるフレームである対象フレームTFと、対象フレームTFに隣接するフレームである隣接フレームAFとに基づき、入力情報INを生成する。隣接フレームAFは、例えば対象フレームTFの前又は後に連続して隣接するフレームである。図示する一例では、対象フレームTFの前後2フレームずつを隣接フレームAFとしている。すなわち、対象フレームTFをフレームF4とした場合、フレームF2、フレームF3、フレームF5及びフレームF6が隣接フレームAFとなる。
【0039】
なお、隣接フレームAFの枚数はこの一例に限定されず、対象フレームTFの前後1フレームずつや3フレームずつ等であってもよい。また、隣接フレームAFは、対象フレームTFの前後に隣接する場合の一例に限定されず、例えば対象フレームTFの前又は後のいずれか一方に隣接するフレームのみであってもよい。また、隣接フレームAFは、対象フレームTFと連続している必要はなく、例えばフレームF4を対象フレームTFとした場合、フレームF4とは連続していないフレームF2及びフレームF6等であってもよい。
【0040】
図4は、第1の実施形態に係る入力情報生成方法の概要について説明するための図である。同図を参照しながら、入力情報生成装置10による入力情報INの生成方法について説明する。同図には、時刻t-2におけるフレームと、時刻t-1におけるフレームと、時刻tにおけるフレームと、時刻t+1におけるフレームと、時刻t+2におけるフレームとが示されている。時刻tにおけるフレームが、上述した対象フレームTFに該当し、時刻t-2、時刻t-1、時刻t+1及び時刻t+2におけるフレームが、隣接フレームAFに該当する。なお、各フレームは多数の画素を含むため、全体を同時に処理する回路は大規模になってしまう。そのため、CNN200において処理を行う場合には各フレームを所定のサイズに分割することが好ましい。本実施形態においては、一例として256×256のサイズを一つのパッチとして複数に分割した場合について例示する。
【0041】
各フレームは、R(赤;Red)、G(緑;Green)×2チャネル、B(青;Blue)の4チャネルの画像データを含んで構成される。入力情報生成装置10は、各チャネルの量子化及びベクトル化を行う。入力情報生成装置10は、例えば各チャネルの画像データから、9チャネルのベクトル化されたデータを生成する。すなわち、入力情報生成装置10は、1つのフレームから4チャネル×9チャネル=36チャネルのデータを生成する。9チャネルのデータとは、互いに異なる閾値を用いて画素値が量子化されたものであってもよい。入力情報生成装置10は、対象フレームTF及び隣接フレームAF(図視する一例では合計5フレーム)から生成された5フレーム×36チャネル=180チャネルのデータを合成(concat)する。入力情報生成装置10は、合成した180チャネルのデータを入力情報INとして、CNN200の入力層に対して出力する。
【0042】
なお、図示する一例では、1フレームを構成する4チャネルの画像データを用いて入力情報INを生成する場合について説明したが、本実施形態の態様はこの一例に限定されない。入力情報生成装置10は、例えば、RGBを含む3チャネルのデータに基づいて入力情報INを生成してもよい。また、図示する一例では、画像データに基づき量子化及びベクトル化を行うことにより9チャネルのデータを生成する場合について説明したが、本実施形態の態様はこの一例に限定されない。生成されるデータ数は、合成後に効率的な演算が可能となる数であることが好適である。入力情報生成装置10は、例えば、1フレームを構成するNチャネル(Nは1以上の自然数)の画像データそれぞれについて、Mチャネル(Mは1以上の自然数)のデータを生成することによりNチャネル×Mチャネルのデータを生成してもよい。なお、N×Mの値は、32(又は64)の倍数に近い値であることが好適である。
【0043】
図5は、第1の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置10の機能構成の一例について説明する。入力情報生成装置10は、画像取得部11と、入力変換部12と、合成部13と、出力部14とを備える。入力情報生成装置10は、バスで接続された不図示のCPU(Central Processing Unit)、ROM(Read only memory)又はRAM(Random access memory)等の記憶装置等を備える。入力情報生成装置10は、入力情報生成プログラムを実行することによって画像取得部11と、入力変換部12と、合成部13と、出力部14とを備える装置として機能する。
【0044】
なお、入力情報生成装置10の各機能の全てまたは一部は、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field-Programmable Gate Array)等のハードウェアを用いて実現されてもよい。入力情報生成プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。入力情報生成プログラムは、電気通信回線を介して送信されてもよい。
【0045】
図示する一例において、撮像装置100により撮像された動画の動画情報IMが記憶されるメモリを第1メモリM1と記載し、入力情報生成装置10により生成された入力情報INが記憶されるメモリを第2メモリM2と記載する。第1メモリM1及び第2メモリM2は、ROM又はRAM等の記憶装置である。
【0046】
画像取得部11は、第1メモリM1に記憶された動画情報IMのうち、処理に用いる入力画像が含まれる画像情報IMDを取得する。具体的には、画像取得部11は、動画を構成する複数のフレームのうち、入力情報INの生成の対象となる対象フレームTFを少なくとも含む複数フレームを入力画像として取得する。画像取得部11は、一例として、対象フレームTFに加えて、隣接フレームAFを入力画像として取得する。隣接フレームAFとは、対象フレームTFの前後それぞれに連続して隣接する複数のフレームであってもよい。
【0047】
なお、撮像装置100により撮像された動画がカラー動画である場合、画像取得部11は、1つのフレームから各色の画素値を複数の異なる画像として取得する。例えば撮像装置100が、ベイヤー配列を採用したイメージセンサを用いたものである場合、画像取得部11は、1つのフレームからRGGBからなる4チャネルの画像情報を取得する。画像取得部11により取得される画像の画素値は、多ビットの要素を含む。
【0048】
入力変換部12は、画像取得部11から画像情報IMDを取得する。入力変換部12は、画像情報IMDに含まれる複数フレームの入力画像の画素値を、それぞれ複数の閾値との比較に基づいて低ビットの入力データINDに変換する。入力画像はRAW画像であり、その画素値は、多ビット(例えば12ビット又は14ビット等)の要素を含むため、画像取得部11は、複数の閾値に基づいて、入力画像の画素値を示すビット数(例えば8ビット)以下のビット数(例えば、2ビットまたは1ビット)の入力データINDに変換する。入力変換部12は、変換した入力データINDを合成部13に出力する。
【0049】
なお、画像情報IMDに、RGB各色の画像情報が含まれる場合、入力変換部12は、それぞれについて変換を行う。すなわち入力変換部12は、1つのフレームから取得された複数の画像それぞれについて、入力データINDに変換する。
【0050】
図6は、第1の実施形態に係る入力変換部の機能構成の一例を示すブロック図である。同図を参照しながら、入力変換部12の機能の詳細について説明する。同図に示すように、入力変換部12は、複数の変換部121と、閾値記憶部122とを備える。図示する一例では、入力変換部12は、複数の変換部121の一例として、変換部121-1と、変換部121-2と、…、変換部121-n(nは1以上の自然数)とを備える。入力変換部12が備える変換部121の数は、入力変換部12が1チャネルの入力画像から生成する入力データINDの数であってもよい。すなわち、入力変換部12が1チャネルの入力画像を9チャネルの入力データINDに変換する場合、入力変換部12は、変換部121-1乃至変換部121-9の9つの変換部121を備える。
【0051】
図示する一例において、入力画像の画像データは、x軸方向及びy軸方向の各要素として8ビットより多いビット数を備える多値を画素データとする行列的なデータ構造を備えるものとする。この入力画像の画像データを入力変換部12により変換すると、各要素は量子化され、低ビット(例えば、8ビット以下の2ビットまたは1ビット)の入力データになる。
【0052】
変換部121は、入力画像の各要素と所定の閾値とを比較する。変換部121は、比較結果に基づいて入力画像の各要素を量子化する。変換部121は、例えば12ビットの入力画像を2ビット又は1ビットの値に量子化する。変換部121は、変換後のビット数に応じた数の閾値と比較することにより、量子化を行ってもよい。例えば1ビットへの変換であれば閾値は1つであれば足りるし、2ビットへの変換であれば、3つの閾値が用いられてもよい。換言すれば、変換部121が行う量子化が1ビット量子化の場合には1つの閾値が用いられ、2ビット量子化の場合には3つの閾値が用いられてもよい。なお、8ビット等の多数の閾値が必要な場合は、閾値ではなく関数またはテーブル等を用いて量子化を行ってもよい。
【0053】
それぞれの変換部121は、同じ要素に対して独立した閾値を用いて量子化を行う。つまり、入力変換部12は、1チャネルの入力に対して、変換部121の数に対応する要素を含むベクトルを演算結果(入力データIND)として出力する。なお、変換部121の出力であって変換した結果のビット精度は、入力画像のビット精度等に基づいて適宜変更されてもよい。
【0054】
閾値記憶部122は、変換部121により行われる演算に用いられる複数の閾値を記憶する。閾値記憶部122に記憶された閾値は所定の値であり、複数の変換部121のそれぞれに対応して設定される。なお、それぞれの閾値は学習対象のパラメータであってもよく、学習ステップにおいて決定及び更新されてもよい。
【0055】
なお、図示する一例では、複数の変換部121に対して入力画像の同一の要素が入力される例を示したが、入力変換部12の態様はこれに限定されない。例えば、入力画像が色成分を含む3チャンネル以上の要素を含む画像データである場合には、変換部121を対応する複数のグループに分け、それぞれのグループに対して対応する要素を入力して変換してもよい。また、色成分以外であっても、所定の変換部121に入力する要素に対して事前に何らかの変換処理を加えてもよいし、事前処理の有無によっていずれの変換部12に入力するかを切り替えてもよい。また、入力画像の全ての要素に対して変換処理を行わなくてもよく、例えば入力画像内の特定の要素である特定色に対応する要素に対してのみ変換処理を行なってもよい。
【0056】
なお、変換部121の個数は固定でなくてもよく、ニューラルネットワークの構造またはハードウェア情報に合わせて適宜決定されてもよい。なお、変換部121による量子化による演算精度の低下を補う必要がある場合には、変換部121の個数は入力画像の各要素のビット精度以上に設定することが好適である。より一般的には、量子化前後による入力画像のビット精度の差分以上に変換部121の個数を設定することが好適である。具体的には画素値が8ビットで示される入力画像を1ビットに量子化する場合には、変換部121の個数は差分である7ビットに相当する7個以上(例えば、16個や32個)に設定することが好適である。
【0057】
図5に戻り、合成部13は、変換された複数の入力データINDを1つのデータに合成(concat)する。複数の入力データが合成されたデータを、合成データCDとも記載する。合成部13による合成処理とは、複数の入力データINDを1つのデータに並べる(又は接続する)処理であってもよい。
出力部14は、合成部13により合成された合成データCDを出力する。合成データCDは、一時的に第2メモリM2に記憶されてもよい。合成データCDとは、すなわち、CNN200の入力層210に入力される入力情報INである。
【0058】
入力情報生成装置10は、対象フレームTFについて入力情報INを生成した後、当該対象フレームTFの次のフレームについて、入力情報INを生成する。次のフレームとは、当該対象フレームTFに時間的に連続するフレームであってもよい。すなわち、画像取得部11は、出力部14により対象フレームTFについての合成データCDが出力された後、対象フレームTFを1フレーム分シフトさせて、対象フレームTFに隣接するフレームを対象フレームTFとして取得する。このように、入力情報生成装置10は、少なくとも対象フレームTFを含む複数フレームを入力画像として取得し、合成データCDを生成していく。
【0059】
入力情報生成装置10は、動画情報IMに含まれる全てのフレームについて、入力情報INを生成していく。なお、上述した一例では、入力情報生成装置10が動画情報IMに含まれるすべてのフレームについて入力情報INを生成する場合の一例について説明したが、本実施形態の態様はこの一例に限定されない。入力情報生成装置10は、例えば、所定のフレームおきに入力情報INを生成してもよい。また、高品質動画生成システム1は動画情報IMに基づいて高品質動画に変換するが、出力形式は動画形式に限定されない。例えば、高品質動画生成システム1は、動画から静止画を生成してもよい。すなわち、高品質動画生成システム1は、動画から抜き出すフレームを対象フレームTFとすることにより、動画情報IMに含まれるフレームを抜き出して静止画を生成する場合においても、本実施形態を適用することができる。
【0060】
[第1の実施形態のまとめ]
以上説明した実施形態によれば、入力情報生成装置10は、画像取得部11を備えることにより動画を構成するフレームのうち、入力情報INDの生成の対象となる対象フレームTFを少なくとも含む複数フレームを入力画像として取得する。また、入力情報生成装置10は、入力変換部12を備えることにより、取得した複数フレームの入力画像の画素値を、複数の閾値との比較に基づいて、入力画像の画素値を示すビット数(例えば12ビット)より少ないビット数(例えば8ビット以下の2ビット又は1ビット)の入力データINDに変換する。また、入力情報生成装置10は、合成部13を備えることにより、変換された複数の入力データINDを1つの合成データCDに合成し、出力部14を備えることにより、合成された合成データCDを出力する。すなわち、本実施形態によれば、入力情報生成装置10は、対象フレームTFを少なくとも含む複数の画像から得た複数の入力データINDを合成し入力情報INを生成する。生成された入力情報INは、CNN200の入力層210に入力される。
【0061】
ここで、入力情報INとは、各要素において入力画像より低ビットの情報である。CNN200は、入力画像に代えて入力情報INを処理することにより、低ビットの情報を処理することができるようになる。したがって、本実施形態によれば、CNN200の処理を軽量化することができる。また、入力情報INとは、複数の画像に基づいて生成された情報である。したがって、入力情報INに基づいて動画を高品質化させた場合、対象フレームTFに隣接する複数のフレームについても考慮した処理を行うことができるようになるため、高精度でノイズを除去することができるようになる。したがって、本実施形態によれば、軽量な演算で低品質動画を高品質動画に変換することができる。なお、CNN200の処理は、ノイズ除去に限定されるものではない。
【0062】
また、上述した実施形態によれば、処理の対象である動画はカラー動画であるため、動画情報IMには、例えばRGB各色の画素値が含まれる。画像取得部11は、1つのフレームから各色の画素値を複数の異なる画像として取得し、入力変換部12は、1つのフレームから取得された複数の画像それぞれについて、異なる入力データINDとして変換する。したがって、本実施形態によれば、より高精度な画像処理をすることができる。したがって、本実施形態によれば、更に高精度でノイズを除去することができる。
【0063】
また、上述した実施形態によれば、画像取得部11は、動画を構成する複数のフレームのうち、対象フレームTFの前後それぞれに連続して隣接する複数のフレームの画像を取得する。本実施形態によれば、対象フレームTFの前後に隣接するフレームの情報に基づいて入力情報INを生成するため、より高精度な画像処理をすることができる。したがって、本実施形態によれば、高精度でノイズを除去することができる。
【0064】
また、上述した実施形態によれば、画像取得部11は、出力部14により対象フレームTFについての合成データCDが出力された後、対象フレームTFに隣接するフレームを対象フレームTFとして、少なくとも対象フレームTFを含む複数フレームを入力画像として取得する。すなわち、入力情報生成装置10は、対象フレームTFを次々にシフトさせていくことにより、動画に含まれる複数のフレームそれぞれについて入力情報INを生成する。したがって、本実施形態によれば、低品質動画を高品質動画に変換することができる。
【0065】
[第2の実施形態]
次に、図7及び図8を参照しながら第2の実施形態について説明する。まず、第2の実施形態において解決しようとする課題について説明する。第1の実施形態に係る入力情報生成装置10は、対象フレームTFと隣接フレームAFとを含む複数フレームを読み出し、複数フレームそれぞれについて量子化を行う。したがって、第1の実施形態に係る入力情報生成装置10によれば、量子化を行うフレーム数が多く、第1層目の演算負荷が大きくなってしまっていた。第2の実施形態においては、この問題を解決し、さらに演算負荷を軽くしようとするものである。
【0066】
図7は、第2の実施形態に係る入力情報生成方法の概要について説明するための図である。同図を参照しながら、第2の実施形態に係る入力情報生成装置10Aによる入力情報INの生成方法について説明する。同図には、対象フレームTFとして時刻tにおけるフレームが示されている。また、同図には、隣接フレームAFとして、時刻t-2におけるフレームと、時刻t-1におけるフレームと、時刻t+1におけるフレームと、時刻t+2におけるフレームとが示されている。
【0067】
各フレームは、RGGBの4チャネルの画像データを含んで構成される。入力情報生成装置10Aは、対象フレームTFについて各チャネルの量子化及びベクトル化を行う。また、入力情報生成装置10Aは、隣接フレームAFの平均画像について各チャネルの量子化及びベクトル化を行う。すなわち、第2の実施形態においては、隣接フレームAFそれぞれについての量子化及びベクトル化を行うのではなく、隣接フレームAFの平均画像について量子化及びベクトル化を行う点において第1の実施形態とは異なる。
【0068】
図視する一例では、RGGBの4チャネルの画像データそれぞれを16チャネルのデータに変換している。したがって、1つのフレームから4チャネル×16チャネル=64チャネルのデータが生成される。入力情報生成装置10Aは、対象フレームTFと、隣接フレームAFの平均画像とについて、それぞれ64チャネルのデータに変換するため、合計128チャネルのデータが生成される。
【0069】
平均化処理は、画素値の単純平均を求めることにより行われてもよい。また、入力情報生成装置10Aは、色ごとの平均を求めることにより、色ごとの平均画像を生成してもよい。すなわち、入力情報生成装置10Aは、時刻t-2乃至時刻t+2の隣接フレームAFにおけるフレームのR画像に基づく平均画像を生成し、時刻t-2乃至時刻t+2の隣接フレームAFにおけるフレームのG画像に基づく平均画像を生成し、時刻t-2乃至時刻t+2の隣接フレームAFにおけるフレームのB画像に基づく平均画像を生成してもよい。
【0070】
なお、図示する一例では、隣接フレームAFの平均を求めた後に、量子化及びベクトル化を行っているが、本実施形態の態様はこの一例に限定されさない。入力情報生成装置10Aは、例えば、量子化及びベクトル化を行った後に、平均を求めるよう構成されていてもよい。
【0071】
対象フレームTFの量子化及びベクトル化が行われ、隣接フレームAFの平均画像について量子化及びベクトル化が行われた後、これらを合成することにより入力情報INが生成される。図視する一例では、128チャネルのデータが生成されている。合成された入力情報INは、第1の実施形態に係る情報量より少ない。一方で、対象フレームTFを表現するデータは第1の実施形態と比較すると多くなっている。
【0072】
図8は、第2の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置10Aの機能構成の一例について説明する。入力情報生成装置10Aは、統合部15を更に備え、入力変換部12に代えて入力変換部12Aを、合成部13に代えて合成部13Aを備える点において入力情報生成装置10とは異なる。入力情報生成装置10Aの説明において、入力情報生成装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0073】
統合部15は、画像取得部11から隣接フレームAFに関する情報を取得する。隣接フレームAFとは、画像取得部11により取得された複数フレームのうち、対象フレームTF以外のフレームである。統合部15は、隣接フレームAFの画素値に基づいた演算を行うことにより、複数の隣接フレームAFを、1つの統合フレームIFに統合する処理を行う。統合部15は、演算した結果得られた統合フレームIFを入力変換部12Aに出力する。
【0074】
統合部15は、例えば隣接フレームAFの単純平均を求めることにより、統合処理を行ってもよい。この場合、統合部15は、例えば複数の隣接フレームAFの画素値の平均値を統合フレームIFの画素値とする。
【0075】
なお、本実施形態に係る統合部15の統合処理の態様は、単純平均を求める場合の一例に限定されない。統合部15は、例えば、加重平均を求めることにより統合処理を行ってもよい。加重平均は、対象フレームTFからの時間的距離に応じて求められる。統合部15は、例えば、時刻tから時間的に遠い時刻t-2及び時刻t+2におけるフレームの画素値には1より小さい0.7を乗じることにより重みを小さくし、時刻tから時間的に近い時刻t-1及び時刻t+1におけるフレームの画素値には1より大きい1.3を乗じることにより重みを大きくしてもよい。すなわち、統合部15は、複数の隣接フレームAFのうち、対象フレームTFからの時間的距離に応じた加重平均を算出することにより統合フレームIFの画素値を算出してもよい。加重平均を用いて統合することにより、隣接フレームAFの対象フレームTFに対する寄与度を、統合フレームIFに反映させることができる。なお、乗じる重みの大きさは、対象フレームTFからの時間的距離が同じであっても、対象フレームTFの前後のいずれであるかに応じて異なっていてもよい。例えば、隣接フレームAFが対象フレームTFの前である場合は重みを大きくし、隣接フレームAFが対象フレームTFの後である場合は重みを小さくしてもよい。
【0076】
入力変換部12Aは、画像取得部11から取得した対象フレームTFの画素値を、複数の閾値との比較に基づいて入力データINDに変換する。更に入力変換部12Aは、統合部15から取得した統合フレームIFの画素値を、複数の閾値との比較に基づいて入力データに変換する。入力変換部12Aは、変換した入力データINDを合成部13Aに出力する。
【0077】
合成部13Aは、対象フレームTFに基づき変換された複数の入力データINDと、統合フレームIFに基づき変換された複数の入力データINDとを1つの合成データCDに合成する。合成された入力情報INは、第1の実施形態に係る情報量より少ない。
【0078】
[第2の実施形態のまとめ]
以上説明した実施形態によれば、入力情報生成装置10Aは、統合部15を更に備えることにより、隣接フレームAFの画素値に基づいた演算を行い、複数の隣接フレームAFを1つの統合フレームIFに統合する。また、入力変換部12Aは、対象フレームTFの画素値を複数の閾値との比較に基づいて入力データINDに変換し、更に統合フレームIFの画素値を複数の閾値との比較に基づいて入力データINDに変換する。また、合成部13Aは、対象フレームTFに基づき変換された複数の入力データINDと、統合フレームIFに基づき変換された複数の入力データINDとを1つの合成データCDに合成する。すなわち、入力情報生成装置10Aは、隣接フレームAFを対象フレームTFのように量子化及びベクトル化を行うのではなく、複数の隣接フレームAFに基づいた統合フレームIFを求め、統合フレームIFの量子化及びベクトル化を行う。したがって、合成部13Aにより合成された入力情報INは、第1の実施形態に係る情報量より少なくなり、第1層目の演算負荷を軽くすることができる。
【0079】
また、上述した実施形態によれば、統合部15は、複数の隣接フレームAFの画素値の平均値を統合フレームIFの画素値とする。すなわち、統合部15は、隣接フレームAFの単純平均を統合フレームIFとする。したがって、本実施形態によれば、容易な演算により、第1の実施形態に係る入力情報INより少ない情報量の入力情報INを生成することができ、第1層目の演算負荷を軽くすることができる。
【0080】
また、上述した実施形態によれば、統合部15は、複数の隣接フレームAFのうち、対象フレームTFからの時間的距離に応じた加重平均を算出することにより統合フレームIFの画素値を算出する。したがって、本実施形態によれば、隣接フレームAFの対象フレームTFに対する寄与度を考慮して、統合フレームIFを生成することができる。したがって、入力情報生成装置10Aにより生成された入力情報INを用いれば、CNN200は、より精度よく画像処理をおこなうことができる。
【0081】
[第3の実施形態]
次に、図9を参照しながら第3の実施形態について説明する。まず、第3の実施形態において解決しようとする課題について説明する。第2の実施形態に係る入力情報生成装置10Aは、統合部15を備えることにより、隣接フレームAFの平均値を算出していた。対象フレームTFが1フレームずつシフトしていく場合、毎フレームで平均値を算出することは、処理の重複が発生し効率的でない。したがって、第3の実施形態においては、この問題を解決し、さらに演算負荷を軽くしようとするものである。
【0082】
図9は、第3の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら入力情報生成装置10Bの機能構成の一例について説明する。入力情報生成装置10Bは、平均値一時記憶部16と、撮像条件取得部17と、調整部18とを更に備え、統合部15に代えて統合部15Bを備える点において入力情報生成装置10Aとは異なる。入力情報生成装置10Bの説明において、入力情報生成装置10Aと同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0083】
平均値一時記憶部16は、動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する。平均値一時記憶部16が記憶する値は、統合部15Bにより演算される。統合部15Bは、画像取得部11から対象フレームTFについての情報を取得し、平均値一時記憶部16から記憶値SVを取得する。統合部15Bは、対象フレームTFと、平均値一時記憶部16に記憶された値である記憶値SVとに基づく演算により、統合フレームIFの画素値を算出する。統合部15Bは、算出した値を演算値CVとして平均値一時記憶部16に記憶させる。すなわち、統合部15Bが新たな対象フレームTFの演算を行うごとに平均値一時記憶部16に記憶される値は更新されていく。このような演算を繰り返すことにより、入力情報生成装置10Bは、対象フレームTFに基づき移動平均を計算する。なお、第1フレーム目の演算については、平均値一時記憶部16にまだ記憶値SVが存在しないため、統合部15Bは、対象フレームTFのみに基づいて演算を行ってもよい。
【0084】
撮像条件取得部17は、撮像装置100から、動画の撮像条件を取得する。撮像条件取得部17により取得される動画の撮像条件とは、例えば、シャッタースピード、絞り又はISO感度等の撮像装置の設定であってもよい。また、撮像条件取得部17により取得される動画の撮像条件には、撮像装置100の操作や駆動に関するその他の情報が含まれていてもよい。
【0085】
調整部18は、撮像条件取得部17により取得された撮像条件に応じて、平均値一時記憶部16に記憶された値(平均値)を調整する。ここで、撮像装置100の撮像条件が変更したような場合、対象フレームTFの画素値と、過去の移動平均値との関係が変わってしまう。例えば、撮像装置100の設定変更により、ISO感度が2倍に変更されたような場合は、過去の移動平均値より対象フレームTFの画素値の方が明るくなるため、移動平均値が急に暗くなってしまう。したがって、撮像装置100の設定変更により、ISO感度が2倍に変更されたような場合は、平均値一時記憶部16に記憶された値を2倍にすることにより、引き続き統合部15Bは、平均値一時記憶部16に記憶された値を活用しながら、移動平均値を演算し続けることができる。
【0086】
また、動画の撮影シーンが切り替わったような場合に、過去のフレームとの間で移動平均を求めてしまうと、CNN200により、適切に対象フレームTFに関する画像処理が行えなくなってしまう場合がある。したがって、動画の撮影シーンが切り替わったような場合は、過去のフレームとの移動平均を求めない方が好適である。調整部18は、動画の撮影シーンが切り替わったような場合は、平均値一時記憶部16に記憶された値をリセットすることにより、統合部15Bにより新たに移動平均値を算出し始めるよう構成されていてもよい。動画の撮影シーンが変わったか否かは、撮像装置100の電源ボタンのON/OFFや、撮影ボタン又は停止ボタンのON/OFF等に基づいて判定されてもよい。
【0087】
なお、動画に含まれる複数のフレームのうち、輝度変化が大きいフレームが挿入される場合がある。輝度変化が大きいフレームが挿入される要因としては、撮像角度の変更等に伴い光源を撮像してしまった場合や、自動車のヘッドライトが映り込んだ場合等が考えられる。このような場合、統合部15Bは、複数のフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外してもよい。輝度変化が大きいフレームを平均値の演算対象から除外することにより、移動平均値が、輝度変化が大きいフレームに引きずられてしまうことを抑止することができる。輝度変化が大きいか否かを判定する場合の一例として、直前の対象フレームTFの画素値と、演算対象となる対象フレームTFの画素値との比較を行うことにより、差分が閾値以下であるか否かを判定してもよい。
【0088】
[第3の実施形態のまとめ]
以上説明した実施形態によれば、入力情報生成装置10Bは、平均値一時記憶部16を更に備えることにより、動画を構成するフレームのうち、所定のフレームの画素値の平均値を記憶する。また、入力情報生成装置10Bによれば、統合部15Bは、平均値一時記憶部16に記憶された値と、対象フレームTFとに基づく演算により統合フレームIFの画素値を算出する。すなわち、入力情報生成装置10Bは、対象フレームTFと、記憶された移動平均値に基づき、統合フレームIFの画素値を演算する。したがって、入力情報生成装置10Bは、入力情報生成装置10Aよりも演算の負荷が軽い。よって、本実施形態によれば、更に演算負荷を軽くすることができる。
【0089】
また、上述した実施形態によれば、統合部15Bは、動画を構成する複数のフレームのうち、輝度変化が大きいフレームを平均値の演算対象から除外する。したがって、本実施形態によれば、突発的に輝度変化が大きくなったような場合に、当該フレームを移動平均値の演算から除外することにより、統合フレームIFの画素値が、突発的に輝度変化が大きくなったようなフレームの画素値に引きずられてしまうことを抑止することができる。
【0090】
また、上述した実施形態によれば、入力情報生成装置10Bは、撮像条件取得部17を更に備えることにより動画の撮像条件を取得し、調整部18を更に備えることにより取得された撮像条件に応じて平均値一時記憶部16に記憶された平均値を調整する。したがって、本実施形態によれば、撮像条件の変化に応じた平均値を調整することができる。よって、本実施形態によれば、撮像条件に変化が生じた場合であっても、移動平均値を算出し続けることができる。
【0091】
[第4の実施形態]
次に、図10を参照しながら第4の実施形態について説明する。まず、第4の実施形態において解決しようとする課題について説明する。第3の実施形態に係る入力情報生成装置10Bは、平均値一時記憶部16を備えることにより、移動平均を算出していた。第3の実施形態によれば、統合部15Bは、画像全体の移動平均を算出する。入力情報生成装置10Bは対象フレームTFと移動平均に基づいて入力データINを生成し、CNN200は生成された入力データINに基づいて動画のノイズ除去を行う。統合部15Bは画像全体の移動平均を算出するため、動画の一部に動いている被写体が撮影されている場合、ノイズ除去の結果、動いている被写体が撮影されている一部において残像が発生するといった問題が生じる場合があった。第4の実施形態においては、この問題を解決しようとするものである。
【0092】
図10は、第4の実施形態に係る入力情報生成の機能構成の一例を示すブロック図である。同図を参照しながら、第4の実施形態に係る入力情報生成装置10Cの機能構成の一例について説明する。入力情報生成装置10Cは、比較部19を更に備え、統合部15Bに代えて統合部15Cを備える点において、入力情報生成装置10Bとは異なる。入力情報生成装置10Cは、入力情報生成装置10Bと同様に撮像条件取得部17及び調整部18を備えていてもよいが、備えていなくてもよい。図示する一例では、入力情報生成装置10Cが撮像条件取得部17及び調整部18を備えない場合の一例について説明する。入力情報生成装置10Cの説明において入力情報生成装置10Bと同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0093】
比較部19は、平均値一時記憶部16から記憶値SVを取得し、統合部15Cから対象フレームTFを取得する。比較部19は、取得した平均値一時記憶部16に記憶された記憶値SVと、対象フレームTFの画素値とを比較する。比較部19は、画像全体を比較してもよいし、画素ごとに比較してもよいし、複数画素から構成されるパッチごとに比較してもよい。比較部19は、比較した結果を比較結果CRとして統合部15Cに出力する。比較結果CRには、画素値の差分が含まれていてもよいし、当該差分と所定の閾値とを比較した結果についての情報が含まれていてもよい。
【0094】
統合部15Cは、比較部19から比較結果CRを取得し、平均値一時記憶部16から記憶値SVを取得する。統合部15Cは、比較部19により比較された結果である比較結果CRに基づき、差分が所定値以下である場合、平均値一時記憶部16に記憶された記憶値SVと対象フレームTFの平均値とに基づく移動平均を算出する。統合部15Cは、算出した値を統合フレームIFの画素値とする。また、統合部15Cは、比較部19により比較された結果である比較結果CRに基づき、差分が所定値以下でない場合、対象フレームTFの画素値を統合フレームIFの画素値とする。
【0095】
統合部15Cによる統合処理は、画像全体で行われてもよいし、画素ごとに行われてもよいし、複数画素から構成されるパッチごとに行われてもよい。統合処理が画素ごと又はパッチごとに行われる場合、統合フレームIFの画素値は、差分が所定値以下の箇所(すなわち動きが小さい箇所)については移動平均値となり、差分が所定値以下でない箇所(すなわち動きが大きい箇所)については対象フレームTFの画素値となる。統合部15Cは、演算した結果を、演算値CVとして平均値一時記憶部16に記憶させる。入力情報生成装置10Cによれば、動きが大きい被写体は平均画像に取り込まず、動きが小さい背景は平均画像に取り込む。入力情報生成装置10Cによる演算は、選択平均ということもできる。
【0096】
なお、統合部15Cが行う処理の変形例として、平均画像に取り込むか取り込まないかの二者択一とする代わりに、係数を乗じることを行ってもよい。例えば、統合部15Cは、比較部19により比較された結果である比較結果CRに基づき、差分が所定値以下である場合、平均値一時記憶部16に記憶された記憶値SVに所定の係数(例えば0.9)を乗じた値と、対象フレームTFの平均値とに基づく移動平均を算出し、統合フレームIFの画素値としてもよい。また、統合部15Cは、比較部19により比較された結果である比較結果CRに基づき、差分が所定値以下でない場合、平均値一時記憶部16に記憶された記憶値SVに所定の係数(例えば0.1)を乗じた値と、対象フレームTFの平均値とに基づく移動平均を算出し、統合フレームIFの画素値としてもよい。
【0097】
[第4の実施形態のまとめ]
以上説明した実施形態によれば、入力情報生成装置10Cは、比較部19を更に備えることにより、平均値一時記憶部16に記憶された記憶値SVと、対象フレームTFの画素値とを比較する。統合部15Cは、比較部19により比較された結果、差分が所定値以下である場合、平均値一時記憶部16に記憶された記憶値SVと対象フレームTFとに基づく移動平均を算出することにより統合フレームIFの画素値を算出する。また、統合部15Cは、比較部19により比較された結果、差分が所定値以下でない場合、対象フレームTFの画素値を統合フレームIFの画素値とする。すなわち、入力情報生成装置10Cによれば、動きが大きい被写体と、動きが小さい背景とを区別し、選択的に平均処理を行うことにより統合フレームIFの画素値を決定する。入力情報生成装置10Cは、対象フレームTFと統合フレームIFとに基づき、入力データINを生成する。したがって、本実施形態によれば、動きが大きい箇所については、隣接フレームAFの画素値が統合フレームIFの画素値に反映されないため、残像が発生するといった問題を抑止することができる。
【0098】
なお、上述した実施形態2から実施形態4では、統合フレームIFの画素値を決定するための所定の演算を要し、処理が重くなってしまう場合がある。処理を更に軽量化するため、対象フレームTFに隣接するフレーム(例えば前後2フレームずつ)のうちいずれか1フレームを所定のアルゴリズムにより特定し、統合フレームIFとしてもよい。所定のアルゴリズムとは、対象フレームTFに隣接するフレームのうちいずれか1フレームをランダムに特定するものであってもよい。この場合、統合部15は、画像取得部11により取得された隣接フレームAFのうち、ランダムに特定されたフレームを統合フレームIFとする。
【0099】
なお、本実施形態の態様は、上述した第1の実施形態から第4の実施形態のいずれかの態様に限定されず、所定の条件に基づいて、第1の実施形態から第4の実施形態のいずれかを選択的に用いるものであってもよい。所定の条件とは、動画の撮影条件や、撮影モード、露出条件、被写体の種類等であってもよい。
【0100】
なお、これまで、対象フレームTFを高品質化するために、隣接フレームAFを用いて演算を行う例を示したが、CNN200に含まれる学習済みモデルを学習する場合においても、第1乃至第4の実施形態のいずれか一つと同様に、対象フレームTFだけでなく、隣接フレームAFを用いて学習を行うことが好ましい。学習に関する演算は、必ずしも画像処理装置2において実行される必要はなく、専用の学習装置において事前に学習したパラメータ等の結果を学習済みモデルとしてCNN200に含めてもよい。
【0101】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0102】
1…高品質動画生成システム、2…画像処理装置、10…入力情報生成装置、11…画像取得部、12…入力変換部、13…合成部、14…出力部、15…統合部、16…平均値一時記憶部、17…撮像条件取得部、18…調整部、19…比較部、100…撮像装置、200…CNN、210…入力層、220…畳み込み層、230…プーリング層、240…出力層、IM…動画情報、IN…入力情報、TF…対象フレーム、AF…隣接フレーム、IF…統合フレーム、M1…第1メモリ、M2…第2メモリ、IMD…画像情報、IND…入力データ、CD…合成データ、SV…記憶値、CV…演算値、CR…比較結果
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10