(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024033920
(43)【公開日】2024-03-13
(54)【発明の名称】学習装置、プログラム及びノイズ低減装置の学習方法
(51)【国際特許分類】
G06T 5/70 20240101AFI20240306BHJP
G06V 10/72 20220101ALI20240306BHJP
【FI】
G06T5/00 705
G06V10/72
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022137843
(22)【出願日】2022-08-31
(71)【出願人】
【識別番号】517048278
【氏名又は名称】LeapMind株式会社
(74)【代理人】
【識別番号】100161207
【弁理士】
【氏名又は名称】西澤 和純
(74)【代理人】
【識別番号】100161506
【弁理士】
【氏名又は名称】川渕 健一
(74)【代理人】
【識別番号】100139686
【弁理士】
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100207789
【弁理士】
【氏名又は名称】石田 良平
(72)【発明者】
【氏名】能地 宏
(72)【発明者】
【氏名】スワンウイタヤ ピヤワト
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CD01
5B057CE02
5B057CE09
5B057DC40
5L096EA35
5L096KA04
(57)【要約】
【課題】低品質動画から高品質動画を推論するための教師データを生成する。
【解決手段】学習装置は、少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得部と、取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成部と、前記動画情報生成部により生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える。
【選択図】
図2
【特許請求の範囲】
【請求項1】
少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得部と、
取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成部と、
前記動画情報生成部により生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部と
を備える学習装置。
【請求項2】
前記第2画像情報には、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれ、
前記動画情報生成部は、前記第2画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより前記第2動画情報を生成する
請求項1に記載の学習装置。
【請求項3】
前記第2画像情報に含まれる複数の画像は、近接した異なる時間において撮像された画像である
請求項2に記載の学習装置。
【請求項4】
前記動画情報生成部は、前記第1画像情報に含まれる1枚の画像から、異なる一部を切り出すことにより前記第1動画情報を生成する
請求項1又は請求項2に記載の学習装置。
【請求項5】
前記動画情報生成部は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出す
請求項1または請求項2に記載の学習装置。
【請求項6】
前記動画情報生成部は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出す
請求項1または請求項2に記載の学習装置。
【請求項7】
前記動画情報生成部が画像を切り出す所定の方向とは、アフィン変換により算出される
請求項5に記載の学習装置。
【請求項8】
軌跡ベクトルを取得する軌跡ベクトル取得部を更に備え、
前記動画情報生成部が画像を切り出す所定の方向とは、取得された前記軌跡ベクトルに基づいて算出される
請求項5に記載の学習装置。
【請求項9】
少なくとも1枚の画像を含む画像情報を取得する画像取得部と、
取得した前記画像情報の一部であって異なる位置の画像を複数切り出す切出部と、
切り出した複数の画像を組み合わせて第1動画情報を生成する第1動画情報生成部と、
前記切出部により切り出された複数の画像それぞれに対しノイズを重畳するノイズ重畳部と、
ノイズ重畳部によりノイズが重畳された複数の画像を組み合わせて第2動画情報を生成する第2動画情報生成部と、
前記第1動画情報生成部により生成された前記第1動画情報と前記第2動画情報生成部により生成された前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部と
を備える学習装置。
【請求項10】
コンピュータに、
少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得ステップと、
取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成ステップと、
前記動画情報生成ステップにより生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習ステップと
を実行させるプログラム。
【請求項11】
少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得工程と、
取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成工程と、
前記動画情報生成工程により生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習工程と
を有するノイズ低減装置の学習方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、学習装置、プログラム及びノイズ低減装置の学習方法に関する。
【背景技術】
【0002】
従来、機械学習を用いて、低品質画像を高品質画像に画像処理する技術があった。このような技術分野においては、ノイズが重畳されたノイズ画像と高品質画像との組み合わせを教師データとして学習モデルを学習させる。教師データの作成は、撮像装置により同一の対象物を異なる露出設定で撮像することにより高品質画像とノイズ画像とを得ることにより行われる。一般に機械学習のためには教師データが大量に必要になることが知られており、カメラを用いて撮像による教師データの作成は手間であるという課題があった。そこで、高品質画像にランダムノイズを付加することにより、教師データを作成する技術が知られている(例えば、特許文献1を参照)。このような従来技術を用いて、高品質画像にランダムノイズを付加することにより、低品質画像から高品質画像を推論するための教師データを作成することが知られている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、低品質動画を高品質動画に画像処理する場合にも、上述した静止画の場合と同様に、機械学習のための教師データが大量に必要になることが知られている。しかしながら動画の場合には、同一の対象物を異なる設定で撮影し、同一の被写体が撮影された高品質動画と低品質動画とを容易することが非常に困難である。そこで、上述したような従来技術を応用して、予め撮影された高品質動画の各フレームにノイズを重畳させて低品質動画を生成することも考えられるが、容量が莫大なものとなるといった問題等があり、非常に困難であった。
【0005】
そこで本発明は、低品質動画から高品質動画を推論するための教師データを生成可能な技術の提供を目的とする。
【課題を解決するための手段】
【0006】
(1)本発明の一態様は、少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得部と、取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成部と、前記動画情報生成部により生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える学習装置である。
【0007】
(2)本発明の一態様は、上記(1)に記載の学習装置において、前記第2画像情報には、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれ、前記動画情報生成部は、前記第2画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより前記第2動画情報を生成するものである。
【0008】
(3)本発明の一態様は、上記(1)又は(2)に記載の学習装置において、前記第2画像情報に含まれる複数の画像は、近接した異なる時間において撮像された画像である。
【0009】
(4)本発明の一態様は、上記(1)から(3)のいずれかに記載の学習装置において、前記動画情報生成部は、前記第1画像情報に含まれる1枚の画像から、異なる一部を切り出すことにより前記第1動画情報を生成するものである。
【0010】
(5)本発明の一態様は、上記(1)から(4)のいずれかに記載の学習装置において、前記動画情報生成部は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出すものである。
【0011】
(6)本発明の一態様は、上記(1)から(5)のいずれかに記載の学習装置において、前記動画情報生成部は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出すものである。
【0012】
(7)本発明の一態様は、上記(6)に記載の学習装置において、前記動画情報生成部が画像を切り出す所定の方向とは、アフィン変換により算出されるものである。
【0013】
(8)本発明の一態様は、上記(6)に記載の学習装置において、軌跡ベクトルを取得する軌跡ベクトル取得部を更に備え、前記動画情報生成部が画像を切り出す所定の方向とは、取得された前記軌跡ベクトルに基づいて算出されるものである。
【0014】
(9)本発明の一態様は、少なくとも1枚の画像を含む画像情報を取得する画像取得部と、取得した前記画像情報の一部であって異なる位置の画像を複数切り出す切出部と、切り出した複数の画像を組み合わせて第1動画情報を生成する第1動画情報生成部と、前記切出部により切り出された複数の画像それぞれに対しノイズを重畳するノイズ重畳部と、ノイズ重畳部によりノイズが重畳された複数の画像を組み合わせて第2動画情報を生成する第2動画情報生成部と、前記第1動画情報生成部により生成された前記第1動画情報と前記第2動画情報生成部により生成された前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える学習装置である。
【0015】
(10)本発明の一態様は、コンピュータに、少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得ステップと、取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成ステップと、前記動画情報生成ステップにより生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習ステップとを実行させるプログラムである。
【0016】
(11)本発明の一態様は、少なくとも1枚の画像を含む第1画像情報と、前記第1画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第1画像情報に含まれる画像より低画質の画像を少なくとも1枚含む第2画像情報とを取得する画像取得工程と、取得した前記第1画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報を生成し、取得した前記第2画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報を生成する動画情報生成工程と、前記動画情報生成工程により生成された前記第1動画情報と前記第2動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習工程とを有するノイズ低減装置の学習方法である。
【発明の効果】
【0017】
本発明によれば、低品質動画から高品質動画を推論するための教師データを生成することができる。
【図面の簡単な説明】
【0018】
【
図1】第1の実施形態に係る学習システムの概要について説明するための図である。
【
図2】第1の実施形態に係る学習装置の機能構成の一例を示す図である。
【
図3】第1の実施形態に係る学習装置が高品質画像から切り出す画像の位置の一例について説明するための図である。
【
図4】第1の実施形態に係る学習装置が低品質画像から切り出す画像の位置の一例について説明するための図である。
【
図5】第1の実施形態に係る学習装置が切り出す方向の一例について説明するための図である。
【
図6】第1の実施形態に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合における学習装置の機能構成の一例を示す図である。
【
図7】第1の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合において、静止画から切り出す画像の位置の一例について説明するための図である。
【
図8】第1の実施形態の変形例に係るノイズ低減装置の学習方法の一連の動作の一例について示すフローチャートである。
【
図9】第2の実施形態に係る学習システムの概要について説明するための図である。
【
図10】第2の実施形態に係る動画情報生成部の機能構成の一例を示す図である。
【発明を実施するための形態】
【0019】
以下、本発明の態様に係る学習装置、プログラム及びノイズ低減装置の学習方法について、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。
【0020】
まず、本実施形態の前提となる事項について説明する。本実施形態に係る学習装置、プログラム及びノイズ低減装置の学習方法は、ノイズが重畳した低品質な動画情報を入力として、ノイズを取り除いた高品質動画を推論するよう、学習モデルを学習させる。低品質動画には低画質動画が含まれ、高品質動画には高画質動画が含まれる。本実施形態に係る学習装置、プログラム及びノイズ低減装置の学習方法が、学習のために用いる教師データは、被写体を撮像した静止画から生成される。被写体を撮像した静止画とは、1枚の高品質画像であってもよいし、同一の被写体を撮像した複数の画像(1枚又は複数枚の高品質画像及び1枚又は複数枚の低品質画像の組み合わせ)であってもよい。同一の被写体を撮像した複数の画像は、互いに異なる撮像条件で撮像されていてもよい。また、被写体を撮像した画像とは、少なくとも1枚の画像を含む、その他の画像であってもよい。高品質画像とは、一例として、低ISO感度、長秒露光により撮像される画質の高い画像を例示することができる。以下の説明において、高品質画像をGT(Ground Truth)と記載する場合がある。低品質画像とは、一例として、高ISO感度、短秒露光により撮像される画質の低い画像を例示することができる。
【0021】
以下の説明においては低品質画像の一例としてノイズによる画質劣化について説明するが、本実施形態は、ノイズ以外であっても、画像の品質を低下させる事項に対して広く適用可能である。画像の品質を低下させる事項としては、光学収差による解像度の低下もしくは色ずれ、手ブレや被写体ブレによる解像度の低下、暗電流や回路起因による黒レベルの不均一、高輝度被写体によるゴーストやフレア、信号レベル異常等を例示することができる。
【0022】
なお、教師データの生成には、予め用意されていた画像が用いられてもよい。以下の説明において、低品質画像を低画質画像又はノイズ画像と記載する場合がある。また、以下の説明において、高品質画像を高画質画像又はGTと記載する場合がある。同様に、低品質動画を低画質動画又はノイズ動画と記載する場合がある。また、以下の説明において、高品質動画を高画質動画又はGTと記載する場合がある。
【0023】
本実施形態に係る学習装置が対象とする画像とは、静止画であってもよいし、動画に含まれるフレームであってもよい。また、データ形式としてはRawフォーマットなどの圧縮符号化処理を行っていない形式でもよいし、JpegフォーマットやMPEGフォーマットなどの圧縮符号化処理を行った形式であってもよい。以下、特に限定しない場合においては、画像とはRawフォーマットによる静止画である場合について説明する。
【0024】
また、本実施形態に係る学習装置が対象とする画像とは、CCD(Charge Coupled Devices)イメージセンサを用いたCCDカメラにより撮像された画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサを用いたCMOSカメラにより撮像された画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、カラー画像であってもよいし、モノクロ画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、赤外線センサを用いた赤外線カメラなど非可視光成分を取得することにより撮像された画像であってもよい。
【0025】
[第1の実施形態]
まず、
図1から
図8を参照しながら、第1の実施形態について説明する。
図1は、第1の実施形態に係る学習システムの概要について説明するための図である。同図を参照しながら、学習システム1の概要について説明する。同図に示す学習システム1は、機械学習の学習段階における構成の一例である。学習システム1は、撮像装置20により撮像された画像に基づき生成された教師データTDを用いて学習モデル40を学習させる。
【0026】
学習システム1は、撮像装置20を備えることにより高画質画像31及び低画質画像32を撮像する。高画質画像31及び低画質画像32は、同一の被写体が撮像された画像である。例えば高画質画像31及び低画質画像32は、互いに同一の画角及び撮像角度で、ISO感度や露光時間等の設定を異ならせて撮像される。また、高画質画像31は1枚であることが好適であるが、複数であってもよい。また、低画質画像32は、複数であることが好適であるが、1枚であってもよい。複数の低画質画像32は、ISO感度や露光時間等の設定を異ならせて撮像された異なる画像であることが好適である。撮像装置20は、例えば通信手段を有するスマートフォンや、タブレット端末等であってもよい。また、撮像装置20は通信手段を有する監視カメラ等であってもよい。
【0027】
学習システム1は、高画質画像31から高画質動画33を生成し、低画質画像32から低画質動画34を生成する。高画質動画33は、1枚の高画質画像31から生成されることが好適であり、低画質動画34は、複数の低画質画像32から生成されることが好適である。互いに同一の被写体を撮像した高画質画像31及び低画質画像32から生成された高画質動画33及び低画質動画34は、互いに対応付けられる。互いに対応する高画質動画33及び低画質動画34は、教師データTDとして学習のために学習モデル40に入力される。
【0028】
なお、互いに対応する高画質動画33及び低画質動画34は、後に行われる学習のため、所定の記憶装置に一時的に記憶されてもよい。すなわち、学習システム1は、後に行われる学習の前に、予め複数の教師データTDを生成しておいてもよい。また、撮像装置20により撮像された高画質画像31及び低画質画像32は、一時的に所定の記憶装置に記憶されていてもよい。この場合、学習システム1は、互いに対応する高画質画像31及び低画質画像32の複数の組み合わせを記憶しておき、学習時に教師データTDを生成してもよい。
【0029】
学習モデル40は、学習システム1により生成された教師データTDを用いて学習される。具体的には、学習モデル40は、低品質な動画から高品質な動画を推論するように学習される。言い換えれば、学習後の学習モデル40は低品質な動画を入力として高品質な動画を推論し、推論した結果を出力する。すなわち、学習後の学習モデル40は、低品質な動画からノイズを除去するためのノイズ低減装置に用いられてもよい。
【0030】
なお、撮像装置20により撮像された高画質画像31及び低画質画像32は、情報を一時的に記憶する所定の記憶装置に記憶される。所定の記憶装置とは、撮像装置20に備えられていてもよいし、クラウドサーバ等に備えらえられていてもよい。すなわち、学習システム1は、エッジデバイスに構成されていてもよいし、エッジデバイスとクラウドサーバとを含んで構成されていてもよい。また、学習モデル40の学習においてもサーバー上に設けられたGPU等を利用するようにしてもよい。
【0031】
図2は、第1の実施形態に係る学習装置の機能構成の一例を示す図である。同図を参照しながら学習装置10の機能構成について説明する。学習装置10は、上述した学習システム1を実現するために用いられる。学習装置10は、撮像装置20により撮像された高画質画像31及び低画質画像32に基づき、高画質動画33及び低画質動画34を生成する。学習装置10は、生成した高画質動画33及び低画質動画34を教師データTDとして学習モデル40を学習させる。学習装置10は、画像取得部11と、動画情報生成部12と、学習部13とを備える。学習装置10は、バスで接続された不図示のCPU(Central Processing Unit)、ROM(Read only memory)又はRAM(Random access memory)等の記憶装置等を備える。学習装置10は、学習プログラムを実行することによって画像取得部11と、動画情報生成部12、学習部13とを備える装置として機能する。
【0032】
なお、学習装置10の各機能の全てまたは一部は、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)又はFPGA(Field-Programmable Gate Array)等のハードウェアを用いて実現されてもよい。学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。学習プログラムは、電気通信回線を介して送信されてもよい。
【0033】
画像取得部11は、撮像装置20から画像情報Iを取得する。画像情報Iには、第1画像情報I1及び第2画像情報I2が含まれる。第1画像情報I1には、少なくとも1枚の高画質画像31が含まれる。第2画像情報I2には、少なくとも1枚の低画質画像32が含まれる。第2画像情報I2に含まれる低画質画像32には、第1画像情報I1に含まれる高画質画像31に撮像された被写体と同一の被写体が撮像されている。第2画像情報I2に含まれる画像は、第1画像情報I1に含まれる画像より低画質である。画像取得部11は、取得した画像情報Iを、動画情報生成部12に出力する。
【0034】
動画情報生成部12は、画像情報Iに含まれる画像の一部を複数切り出し、切り出した画像をフレーム画像として、所定の時間間隔(又はフレームレートということもできる)で繋げることによって動画情報Mを生成する。フレームレートは、例えば60[FPS(frames per second)]であってもよい。動画情報生成部12により切り出される画像の位置は、フレーム毎に異なっていてもよい。例えば、切り出される画像のサイズは固定とし、動画情報生成部12は、所定の方向に、所定の画素(ビット数)ずつ移動させた位置における複数の画像を切り出してもよい。具体的には、切り出される画像のサイズは256画素×256画素に固定されていてもよい。また、動画情報生成部12は、当該サイズをフレーム毎に10画素ずつずらした位置における画像を切り出してもよい。ずらす量を大きくし過ぎると、フレームごとの画像の変化量が大きくなり過ぎる結果不自然な動画になるため、所定量以上にずらさないように制限(上限値)を設けることが好ましい。ずらし量や当該制限については、撮影画角、撮影解像度、光学系の焦点距離、被写体までの距離、撮影フレームレート等に基づいて決定することが好ましい。また、落下している被写体などにおいては、加速度的に速度が増えることから、ずらす量を対象画像から時間的に離れたフレームほど増やしてもよい。
【0035】
動画情報生成部12は、第1画像情報I1に含まれる画像から第1動画情報M1を生成し、第2画像情報I2に含まれる画像から第2動画情報M2を生成する。すなわち、動画情報生成部12は、第1画像情報I1の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報M1を生成する。また、動画情報生成部12は、第2画像情報I2の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報M2を生成する。複数の画像を組み合わせて動画を生成するとは、複数の画像をフレームレートに応じた所定の時間間隔で表示するようなファイル形式に変換することであってもよい。動画情報生成部12は、生成した第1動画情報M1及び第2動画情報M2が含まれる情報を動画情報Mとして学習部13に出力する。
【0036】
ここで、動画情報生成部12によって切り出される複数の画像の大きさや、切り出す位置については任意に定められてもよい。しかしながら、第1画像情報I1に含まれる画像から切り出す位置と、第2画像情報I2に含まれる画像から切り出す位置とは略同じ位置であることが好適である。高画質な動画である第1動画情報M1と、低画質な動画である第2動画情報M2とは、同一の被写体が撮影されているべきだからである。
【0037】
学習部13は、動画情報生成部12から動画情報Mを取得する。学習部13は、取得した動画情報Mを教師データTDとして、学習モデル40に入力することにより、学習モデル40を学習させる。学習モデル40は、低画質動画から高画質動画を推論するよう学習させられる。すなわち、学習部13は、動画情報生成部12により生成された第1動画情報M1と第2動画情報M2とが含まれる教師データTDに基づき、低画質動画から高画質動画を推論するよう学習させる。学習モデル40は、入力された動画からノイズを除去するよう推論するよう学習させられるともいうことができる。
【0038】
次に
図3乃至
図5を参照しながら、学習装置10が、撮像装置20により撮像された画像から切り出す画像について説明する。なお、以下の説明においては、高品質画像から高品質動画を生成する方法(
図3を参照しながら説明する方法)と、低品質画像から低品質動画を生成する方法(
図4を参照しながら説明する方法)とは、互いに異なるものとして説明しているが、本実施形態はこの一例に限定されない。以下の説明に代えて、互いに同様の方法により、高品質画像から高品質動画が生成され、低品質画像から低品質動画が生成されてもよい。すなわち、
図3を参照しながら説明する方法により低品質動画が生成されてもよいし、
図4を参照しながら説明する方法により高品質動画が生成されてもよい。
【0039】
図3は、第1の実施形態に係る学習装置が高品質画像から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、学習装置10が高品質画像から切り出す画像の位置の一例について説明する。
図3(A)には、第1画像情報I1に含まれる画像の一例である画像I-11を示す。
図3(B)には、
図3(A)に示した画像I-11から複数の画像を切り出した場合の一例を画像I-12として示す。
【0040】
図3(A)に示した通り、画像I-11には、被写体であるボールBが撮像されている。動画情報生成部12は、画像I-11から複数の画像を切り出し、切り出した画像を時間的に繋げることにより、静止画である画像I-11から、動画を生成する。
【0041】
図3(B)に示す画像I-12には、動画情報生成部12により切り出された画像である切り出し画像CIが複数示されている。具体的には、動画情報生成部12により切り出される画像の一例として、切り出し画像CI-11乃至切り出し画像CI-15が示されている。切り出し画像CI-11乃至切り出し画像CI-15を区別しない場合は、単に切り出し画像CIと記載する場合がある。
【0042】
切り出し画像CI-11乃至切り出し画像CI-15は、それぞれ縦方向及び横方向に所定の画素数シフトしている。動画情報生成部12により生成された第1動画情報M1によれば、ある時刻t1において画像C-11が映し出され、ある時刻t2において画像C-12が映し出され、ある時刻t3において画像C-13が映し出され、ある時刻t4において画像C-14が映し出され、ある時刻t5において画像C-15が映し出される。このように、異なる切り出し画像CIを時間的につなげることにより、静止画内の被写体であるボールBがまるで動いているかのような動画を生成することができる。動画情報生成部12がフレームレート60[fps]の動画を生成する場合、各時刻の間隔は、60分の1秒であってもよい。
【0043】
動画情報生成部12により切り出される画像のシフト方向及びシフト量については、撮影画角、撮影解像度、光学系の焦点距離、被写体までの距離、撮影フレームレート等の撮影条件に基づいて決定されることが好適である。また、落下物の被写体を模擬するような場合には、加速度的に速度が増えることから、シフト量を徐々に変化させる(増やす)ことが好適である。
【0044】
ここで、学習装置10により生成される高品質動画(第1動画情報M1)は、ノイズが重畳していない高画質な動画である。したがって、動画を生成するための静止画である画像には、ノイズが重畳していないことが理想的である。また、ノイズが重畳していない画像から生成された高品質動画の各フレームにおいても、ノイズが重畳していないことが理想的である。したがって、動画情報生成部12は、1枚のノイズが重畳していない画像から動画を生成することが好適である。すなわち動画情報生成部12は、第1画像情報I1に含まれる高品質な1枚の画像から、異なる一部を切り出すことにより第1動画情報M1を生成することが好適である。
【0045】
図4は、第1の実施形態に係る学習装置が低品質画像から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、学習装置10が低品質画像から切り出す画像の位置の一例について説明する。学習装置10は、複数の低品質画像からそれぞれ異なるフレームの画像を切り出す。
図4(A)乃至
図4(E)には、それぞれ異なる画像である画像I-21乃至画像I-25が示される。学習装置10は、画像I-21乃至画像I-25からそれぞれ異なるフレームの画像を切り出す。
【0046】
低品質画像である画像I-21乃至画像I-25の構図は、
図3(A)に示した画像I-11と同様である。すなわち、画像I-21乃至画像I-25には、同様の位置にボールBが撮像されている。画像I-21乃至画像I-25には、互いに異なるノイズが重畳されている点において、画像I-11とは異なる。画像I-21乃至画像I-25は、例えば撮像時に異なる撮像条件が用いられることにより、それぞれ互いに異なるノイズが重畳されてもよい。
【0047】
動画情報生成部12は、画像I-21から切り出し画像CI-21を切り出し、画像I-22から切り出し画像CI-22を切り出し、画像I-23から切り出し画像CI-23を切り出し、画像I-24から切り出し画像CI-24を切り出し、画像I-25から切り出し画像CI-25を切り出す。切り出し画像CI-21乃至切り出し画像CI-25は、それぞれ縦方向及び横方向に所定の画素数シフトしている。動画情報生成部12により生成された第2動画情報M2によれば、ある時刻t1において画像C-21が映し出され、ある時刻t2において画像C-22が映し出され、ある時刻t3において画像C-23が映し出され、ある時刻t4において画像C-24が映し出され、ある時刻t5において画像C-25が映し出される。切り出し画像CI-21乃至切り出し画像CI-25には、それぞれ異なるノイズが重畳しているため、生成される動画にも、時間ごとに異なるノイズが重畳されることとなる。
【0048】
ここで、学習装置10により生成される低品質動画(第2動画情報M2)は、ノイズが重畳している低画質な動画である。1枚のノイズが重畳した画像から複数の異なる位置を切り出して動画にした場合、いずれの瞬間にも同様のノイズが含まれているため(換言すれば、時間ごとにノイズが変化しないため)、低画質動画としては適切でない場合がある。したがって、本実施形態においては、異なる複数の低画質画像から切り出すことにより、低画質動画を生成する。異なる複数の低画質画像には、それぞれ高画質画像に撮像された被写体と同一の被写体が撮像される。すなわち、第2画像情報M2には、第1画像情報I1に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれる。第2画像情報I2に含まれる複数の画像は、近接した異なる時間において撮像された画像であってもよい。動画情報生成部12は、第2画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより第2動画情報M2を生成する。
なお、例えば低画質画像をフレーム数分用意する必要はなく、複数枚の画像から、連続しないように複数回切り出してもよい。複数の画像から切り出す順番としては、ランダムであってもよい。
【0049】
図5は、第1の実施形態に係る学習装置が切り出す方向の一例について説明するための図である。
図3及び
図4を参照しながら説明した一例では、縦方向及び横方向の両方向に所定の画素数移動した位置を切り出す場合の一例について説明した。しかしながら、動画情報生成部12は、その他の方向に移動した位置を切り出してもよい。
図5(A)乃至
図5(C)を参照しながら、動画情報生成部12が切り出し画像CIを切り出す方向の、その他の一例について説明する。
【0050】
図5(A)には、画像I-31を示す。
図5(A)は、横方向(水平方向)にのみ移動した位置を切り出した場合の一例である。この場合、動画情報生成部12は、縦方向のy座標を固定し、横方向のx座標のみ変化させることにより、複数の異なる位置における切り出し画像CIを切り出す。このように切り出すことにより、被写体が横方向に移動(水平移動)するような動画を生成することができる。同様に、動画情報生成部12は、縦方向(垂直方向)にのみ移動した位置における切り出し画像CIを切り出してもよい。このように切り出すことにより、被写体が縦方向に移動(垂直移動)するような動画を生成することができる。
また、
図3及び
図4に示したように、動画情報生成部12は、縦方向及び横方向の両方向に移動した位置における切り出し画像CIを切り出してもよい。この場合、縦方向の移動量及び横方向の移動量は、互いに異なっていてもよい。
【0051】
図5(B)には、画像I-32を示す。
図5(B)は、回転方向に移動した位置を切り出した場合の一例である。この場合、動画情報生成部12は、切り出し位置を、回転中心0、半径rを有する円弧状に移動させることにより、複数の異なる位置における切り出し画像CIを切り出す。同図に示す一例では、動画情報生成部12は、反時計回りに回転した位置を切り出している。このように切り出すことにより、被写体が回転方向に移動するような動画を生成することができる。回転中心Oの位置や、半径rの大きさは、フレーム毎に異なっていてもよい。
【0052】
図5(C)には、画像I-33を示す。
図5(C)は、切り出す位置を拡大及び縮小させる場合の一例である。本実施形態において、切り出し画像CIの大きさは一定であることが好適である。したがって、動画情報生成部12は、切り出し画像CIの大きさを維持したまま、画像Iを拡大又は縮小させて切り出す。切り出し画像CIの大きさが256画素×256画素に固定されている場合、動画情報生成部12は、当該切り出し画像CIの大きさに収まるよう、画像Iを拡大及び縮小する。このように切り出すことにより、被写体をズームイン又はズームアウトしたような動画を生成することができる。
【0053】
なお、
図5(A)乃至
図5(C)を参照しながら説明した切り出し位置は、本実施形態の一例であり、動画情報生成部12は、その他の異なる位置を切り出して繋げることにより、動画情報を生成してもよい。動画情報生成部12は、例えば、
図5(A)乃至
図5(C)を参照しながら説明した切り出し方法を組み合わせることにより、切り出し画像CIを切り出してもよい。この場合、例えば水平移動又は垂直移動の後に回転移動したり、移動の後に拡大又は縮小したりするような動画を生成することができる。
【0054】
なお、上述したような切り出し位置の移動は、アフィン変換により算出されてもよい。すなわち、動画情報生成部12が画像を切り出す所定の方向とは、アフィン変換により算出されるとも記載することができる。
【0055】
なお、動画情報生成部12は、上述したような切り出し位置を変化させる場合の一例に代えて、画像の一部を切り出した後に、移動させることにより動画を生成してもよい。この場合、動画情報生成部12は、256画素×256画素の画像を切り出し、切り出した画像を所定の方向に移動した複数の画素を生成する。動画情報生成部12は、切り出した画像を繋げることにより動画を生成する。すなわち、動画情報生成部12は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出してもよい。
なお、切り出した後に移動させることにより、画像の周囲にデータが存在しない領域が発生してしまう。しかしながら、画像の周囲部分をのりしろ分として予め定義しておくことにより、学習対象となる画像の範囲から除外し、後の学習段階では問題が生じないようにすることができる。
【0056】
上述した説明では、動画情報生成部12は、アフィン変換等の何らかの方法により算出された方向に移動させた画像を切り出すことにより動画を生成する場合の一例について説明した。しかしながら、実際の動画では、被写体はこれらの算出された方向に移動しないことも多く、むしろランダムに動く場合の方が多い。したがって、学習装置10は、物体が実際に動く軌跡に基づいた方向に移動させた画像を切り出すことにより動画を生成し、より機械学習に有効な教師データを生成することができる。このような場合の一例について、
図6及び
図7を参照しながら第1の実施形態の変形例として説明する。
【0057】
ここで、晴天時等の明るいシーンでは、露出を維持し続ける為に、シャッタースピードを上げることが一般的である。そのため、動く被写体のなめらかさがなくなり、カクカクした映像になることが知られている。同様に、解像感の高い静止画から動画を作成する場合に、滑らかさの少ないカクカクした不自然な動画となる場合がある。このため、動画情報生成部12は、動画を作成する静止画に対して疑似的な被写体ブレを追加する補正を行った後に動画を生成するようにしてもよい。一例として、シフト方向に対して所定の平均化処理を行ったり、解像度を低下する処理を行ったりすることで被写体ブレを追加するようにしてもよい。
【0058】
図6は、第1の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合における学習装置の機能構成の一例を示す図である。同図を参照しながら、第1の実施形態の変形例に係る学習装置10Aの機能構成の一例について説明する。第1の実施形態の変形例に係る学習システム1Aは、軌跡ベクトル生成装置50を更に備える点において学習システム1とは異なる。学習装置10Aは、更に軌跡ベクトル取得部14を備える点において学習装置10とは異なる。また、学習装置10Aは、動画情報生成部12に代えて動画情報生成部12Aを備える点において学習装置10とは異なる。学習装置10Aの説明において、学習装置10と同様の構成については同様の符号を付すことにより説明を省略する場合がある。
【0059】
軌跡ベクトル生成装置50は、動画に撮像された物体の軌跡に関する情報を取得する。軌跡ベクトル生成装置50には動画情報が入力され、軌跡ベクトル生成装置50は、入力された動画情報に撮像された物体の軌跡を解析する。軌跡ベクトル生成装置50は、解析した結果を軌跡ベクトルTVとして出力する。軌跡ベクトルTVには、動画情報に撮像された物体の軌跡が示される。軌跡ベクトル生成装置50は、例えばオプティカルフロー(Optical Flow)等の従来技術を用いて、動画情報から軌跡ベクトルTVを取得する。
なお、軌跡ベクトルTVには、ベクトル情報に加えて又は代えて、物体の移動した軌跡が示された座標情報が含まれていてもよい。
【0060】
軌跡ベクトル取得部14は、軌跡ベクトル生成装置50から軌跡ベクトルTVを取得する。軌跡ベクトル取得部14は、取得した軌跡ベクトルTVを動画情報生成部12Aに出力する。なお、軌跡ベクトル生成装置50により軌跡ベクトルTVが取得された動画と、画像取得部11により取得された画像とは、所定の関連性を有するものであってもよい。この場合、例えば画像取得部11は、軌跡ベクトル生成装置50により軌跡ベクトルTVが取得された動画の1フレームを画像として取得してもよい。
しかしながら本実施形態はこの一例に限定されず、軌跡ベクトル生成装置50により軌跡ベクトルTVが取得された動画と、画像取得部11により取得された動画とは、所定の関連性を有しないものであってもよい。
【0061】
動画情報生成部12Aは、画像取得部11から画像情報Iを取得し、軌跡ベクトル取得部14から軌跡ベクトルTVを取得する。動画情報生成部12Aは、取得した画像情報Iと軌跡ベクトルTVとに基づいて、動画情報を生成する。動画情報生成部12Aは、軌跡ベクトルTVに示された軌跡に基づいて切り出し画像CIの切り出し方向や1フレームあたりのずらし量を決定する。すなわち、動画情報生成部12Aが画像を切り出す所定の方向とは、取得された軌跡ベクトルTVに基づいて算出される。
【0062】
図7は、第1の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合において、静止画から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、軌跡ベクトルTVに基づいて動画を生成する場合における切り出し画像CIの位置座標の一例について説明する。
図7(A)には、第1画像情報I1に含まれる画像の一例である画像I-41を示す。
図7(B)には、画像I-41から切り出す複数の切り出し画像CIの一例を示す。
【0063】
図7(A)に示した通り、画像I-41には、被写体であるボールBの軌跡である軌跡ベクトルTVが示されている。軌跡ベクトルTVには、ボールBが図中右上方向から真ん中下方向へ落下し、真ん中下方で跳ねた後、図中左上方向へ向かうベクトルが表現されている。動画情報生成部12Aは、画像I-41に示される軌跡ベクトルTVに基づいた位置座標の切り出し画像CIを切り出し、切り出した画像を時間的に繋げることにより、静止画である画像I-41から、動画を生成する。
【0064】
図7(B)には、動画情報生成部12により切り出された画像である切り出し画像CIの一例が示されている。具体的には、動画情報生成部12により切り出される画像の一例として、切り出し画像CI-41乃至切り出し画像CI-49が示されている。切り出し画像CI-41乃至切り出し画像CI-49は、軌跡ベクトルTVに基づいた座標に位置する。すなわち、切り出し画像CI-41は図中右上方向に位置し、切り出し画像CI-45にかけて切り出し位置は、図中真ん中下方向へ移動する。また、切り出し位置は、切り出し画像CI-45から切り出し画像CI-49にかけて図中左上方向へ移動する。
【0065】
図8は、第1の実施形態に係るノイズ低減装置の学習方法の一連の動作の一例について示すフローチャートである。同図を参照しながら、学習装置10を用いたノイズ低減装置の学習方法の一連の動作の一例について説明する。
【0066】
(ステップS110)まず、画像取得部11は、画像を取得する。画像取得部11は、高品質画像が含まれる第1画像情報I1と、低品質画像が含まれる第2画像情報I2とを取得する。なお、画像取得部11により画像を取得するステップを、画像取得ステップ又は画像取得工程と記載する場合がある。
【0067】
(ステップS130)次に、動画情報生成部12は、取得した画像の一部を切り出す。動画情報生成部12は、取得した画像から複数の切り出し画像CIを切り出す。動画情報生成部12は、第1画像情報I1に含まれる高品質画像と、第2画像情報I2に含まれる低品質画像のそれぞれから、複数の切り出し画像CIを切り出す。なお、第1画像情報I1に含まれる高品質画像と、第2画像情報I2に含まれる低品質画像のそれぞれから切り出す位置座標は、互いに同様であることが好適である。ただし、第1画像情報I1に含まれる高品質画像を取得したタイミングと、第2画像情報I2に含まれる低品質画像を取得したタイミングに時間的な差がある場合、切り出した画像に含まれる被写体に時間差に起因するずれが生じる場合がある。このような場合においては、第1画像情報I1に含まれる高品質画像と、第2画像情報I2に含まれる低品質画像のそれぞれから切り出す位置座標は、時間差に起因するずれを考慮して決定することが好ましい。より詳細には時間差に起因するずれる量を減らす方向に第1画像情報I1に含まれる高品質画像または、第2画像情報I2に含まれる低品質画像から切り出す位置座標を変更することが好ましい。
【0068】
(ステップS150)次に、動画情報生成部12は、切り出した画像を繋げて動画を生成する。動画情報生成部12は、高品質画像から切り出した複数の画像を繋げることにより高品質動画を生成し、低品質画像から切り出した複数の画像を繋げることにより低品質動画を生成する。ステップS130とステップS150において動画情報を生成するステップを、動画情報生成ステップ又は動画情報生成工程と記載する場合がある。
【0069】
(ステップS170)最後に、学習部13は、生成した高品質動画と低品質動画との組み合わせを教師データTDとして、低品質動画から高品質動画を推論するよう学習する。当該ステップを、学習ステップ又は学習工程と記載する場合がある。
【0070】
[第1の実施形態のまとめ]
以上説明した実施形態によれば、学習装置10は、画像取得部11を備えることにより、第1画像情報I1と、第2画像情報I2とを取得する。第1画像情報I1には少なくとも1枚の画像が含まれ、第2画像情報I2には第1画像情報I1に含まれる画像に撮像された被写体と同一の被写体が撮像され、第1画像情報I1に含まれる画像より低画質の画像が少なくとも1枚含まれる。また、学習装置10は動画情報生成部12を備えることにより、第1画像情報I1の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第1動画情報M1を生成する。同様に、学習装置10は動画情報生成部12を備えることにより、第2画像情報I2の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第2動画情報M2を生成する。また、学習装置10は学習部13を備えることにより、動画情報生成部12により生成された第1動画情報M1と第2動画情報M2とが含まれる教師データTDに基づき、低画質動画から高画質動画を推論するよう学習させる。すなわち本実施形態によれば、学習装置10は、従来必要とされていた低品質動画及び高品質動画を含む教師データを動画の撮影により取得することを要せず、静止画から生成することができる。したがって、本実施形態によれば、低品質動画から高品質動画を推論するための教師データを容易に生成することができる。
【0071】
また、本実施形態によれば、学習装置10は、同一の静止画から複数の異なる動画を生成することができる。したがって、本実施形態によれば、膨大な教師データTDを生成するため、膨大な静止画を用意することを要せず、少ない静止画から多くの動画を生成することができる。よって、本実施形態によれば、学習に用いるための画像の撮像に要する時間を短縮することができる。
【0072】
また、以上説明した実施形態によれば、第2画像情報I2には、第1画像情報I1に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれる。動画情報生成部12は、第2画像情報I2に含まれる複数の画像それぞれから、異なる一部を切り出すことにより第2動画情報M2を生成する。すなわち、本実施形態によれば、ノイズが重畳した低品質動画は、ノイズが重畳した異なる複数の低品質画像に基づき生成される。したがって、本実施形態により生成された第2動画情報M2は、フレーム毎に異なるノイズが重畳しており、より精度よくノイズが重畳した低品質動画を再現して生成することができる。
【0073】
また、以上説明した実施形態によれば、第2画像情報I2に含まれる複数の画像は、近接した異なる時間において撮像された画像である。すなわち、低品質動画を生成するための低品質画像は、近接した時間に撮像される。近接した時間とは、例えば60分の1秒等であってもよい。ここで、動画の場合は静止画と異なり、時間的成分を有した動画特有のノイズが重畳する場合がある。近接した異なる時間において撮像された画像には、この動画特有のノイズが含まれる。したがって、本実施形態によれば、学習装置10は、近接した異なる時間において撮像された画像に基づいて動画を生成するため、時間的成分を有する動画特有のノイズを再現して生成することができる。
【0074】
また、以上説明した実施形態によれば、動画情報生成部12は、第1画像情報I1に含まれる1枚の画像から、異なる一部を切り出すことにより第1動画情報M1を生成する。すなわち、本実施形態によれば、高品質動画は1枚の画像に基づき生成される。したがって、本実施形態によれば、多くの高品質画像を撮像することを要せず、容易に高品質動画を生成することができる。
【0075】
また、以上説明した実施形態によれば、動画情報生成部12は、切り出した複数の画像をそれぞれ異なる量ずつ所定の方向にずらすことにより、異なる位置の画像を複数切り出す。すなわち、本実施形態によれば、学習装置10は、画像を切り出した後に、所定の方向にずらす。換言すれば、学習装置10は、画像を切り出した後は、大きな画像に基づいた処理を要せず、切り出した小さな画像に基づいた処理を行う。したがって、本実施形態によれば、学習装置10は、処理を軽くすることができる。
【0076】
また、以上説明した実施形態によれば、動画情報生成部12は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出す。動画情報生成部12は、切り出した画像を繋げることにより動画を生成する。すなわち、動画情報生成部12により生成される動画に撮像された被写体は、動画の中では、所定の方向に移動するように見える。したがって、本実施形態によれば、静止画から動画を容易に生成することができる。
【0077】
また、以上説明した実施形態によれば、動画情報生成部12が画像を切り出す所定の方向とは、アフィン変換により算出される。動画情報生成部12が画像を切り出す所定の方向とは、換言すれば、動画の中で被写体が移動する方向である。したがって、本実施形態によれば、学習装置10は、被写体が様々な方向に移動する動画を生成することができる。
【0078】
また、以上説明した実施形態によれば、学習装置10は、軌跡ベクトル取得部14を更に備えることにより、軌跡ベクトルTVを取得する。また、動画情報生成部12が画像を切り出す所定の方向は、取得された軌跡ベクトルTVに基づいて算出される。軌跡ベクトルTVとは、実際に撮像された動画の中で、実際に被写体が移動している軌跡を示すベクトルに関する情報である。したがって、本実施形態によれば、実際に被写体が移動している軌跡に基づいた動画を生成することができる。
【0079】
[第2の実施形態]
次に、
図9及び
図10を参照しながら第2の実施形態について説明する。第1の実施形態においては、教師データTDの作成のために、高品質画像と低品質画像を要していたのに対し、第2の実施形態では、高品質画像のみを必要とする点において、第1の実施形態とは異なる。
【0080】
図9は、第2の実施形態に係る学習システムの概要について説明するための図である。同図を参照しながら、第2の実施形態に係る学習システム1Bの概要について説明する。同図の説明において、第1の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。第2の実施形態において、撮像装置20は、高画質画像31を撮像する。低画質画像32は、第2の実施形態に係る学習装置10Bにより、高画質画像31に基づき生成される。低画質画像32は、例えば高画質画像31を画像処理することにより、ノイズを重畳し、生成される。すなわち本実施形態によれば、撮像装置20は、高画質画像31のみを撮像し、低画質画像32の撮像を要しない。
【0081】
図10は、第2の実施形態に係る動画情報生成部の機能構成の一例を示す図である。同図を参照しながら、学習装置10Bが備える動画情報生成部12Bについて説明する。第2の実施形態に係る学習装置10Bは、動画情報生成部12に代えて、動画情報生成部12Bを備える点において学習装置10とは異なる。動画情報生成部12Bは、切出部121と、ノイズ重畳部123と、第1動画情報生成部125と、第2動画情報生成部127とを備える。
【0082】
切出部121は、画像取得部11から画像を取得する。本実施形態において、学習装置10Bは、撮像装置20から高品質画像を取得するため、切出部121は、画像取得部11から高品質画像を取得する。切出部121は、取得した高品質画像の一部であって、異なる位置座標の切り出し画像CIを複数切り出す。切出部121は、切り出した切り出し画像CIを第1動画情報生成部125及びノイズ重畳部123に出力する。
【0083】
ノイズ重畳部123は、切出部121により切り出された切り出し画像CIを取得する。ノイズ重畳部123は、取得した切り出し画像CIに対してノイズを重畳する。ノイズ重畳部123は、複数の位置座標を切り出した複数の切り出し画像CIを取得し、取得した複数の切り出し画像CIそれぞれに対してノイズを重畳する。ノイズ重畳部123により重畳されるノイズは、予めモデル化されていてもよい。モデル化されたノイズとしては、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズ等を例示することができる。重畳されるノイズの強度は、所定の方法により調整されてもよい。ノイズ重畳部123は、複数の切り出し画像CIそれぞれに対して、異なるノイズを重畳することが好適である。ノイズ重畳部123は、ノイズを重畳した後の画像をノイズ画像NIとして第2動画情報生成部127に出力する。
【0084】
第1動画情報生成部125は、切出部121から複数の切り出し画像CIを取得する。第1動画情報生成部125は、切り出した複数の画像を組み合わせて第1動画情報M1を生成する。第1動画情報生成部125は、生成した第1動画情報M1を学習部13に出力する。
【0085】
第2動画情報生成部127は、ノイズ重畳部123から複数のノイズ画像NIを取得する。第2動画情報生成部127は、ノイズが重畳された複数のノイズ画像NIを組み合わせて第2動画情報M2を生成する。第2動画情報生成部127は、生成した第2動画情報M2を学習部13に出力する。
【0086】
学習部13は、第1動画情報生成部125から第1動画情報M1を取得し、第2動画情報生成部127から第2動画情報M2を取得する。学習部13は、動画情報生成部12Bにより生成された第1動画情報M1と、第2動画情報M2とに基づき、学習モデル40を学習させる。
【0087】
[第2の実施形態のまとめ]
以上説明した実施形態によれば、学習装置10Bは、画像取得部11を備えることにより、少なくとも1枚の高品質画像を含む画像情報Iを取得する。また、学習装置10Bは動画情報生成部12Bを備えることにより高品質画像から高品質動画と低品質動画の両方を生成する。動画情報生成部12Bは、切出部121を備えることにより、取得した画像情報Iの一部であって異なる位置の画像を複数切り出す。また、動画情報生成部12Bは、ノイズ重畳部123を備えることにより、切出部121により切り出された複数の画像それぞれに対しノイズを重畳する。動画情報生成部12Bは、第1動画情報生成部125を備えることにより、切出部121により切り出された複数の画像を組み合わせて高品質動画である第1動画情報M1を生成し、第2動画情報生成部127を備えることによりノイズ重畳部123によりノイズが重畳された複数の画像を組み合わせて第2動画情報M2を生成する。また、学習装置10Bは、学習部13を備えることにより第1動画情報生成部125により生成された第1動画情報M1と、第2動画情報生成部127により生成された第2動画情報M2とが含まれる教師データTDに基づき、低画質動画から高画質動画を推論するよう学習させる。すなわち学習装置10Bによれば、1枚の高品質画像に基づき、高品質動画と低品質動画とを生成し、低品質動画から高品質動画を推論するような学習モデル40を学習させる。低品質動画から高品質動画の推論は、言い換えればノイズの除去である。したがって、本実施形態によれば、教師データTDの取得に時間を要せず、容易にノイズ除去モデルを学習させることができる。
【0088】
なお、第2の実施形態では、高品質画像から高品質動画を生成し、更に高品質画像に対してノイズを重畳することにより低品質画像を生成し、生成した低品質画像に基づき低品質動画を生成した。しかしながら本実施形態はこの一例に限定されない。例えば、本実施形態の変形例として、学習装置10は、低品質画像のみに基づき、教師データTDを作成してもよい。すなわち、低品質画像から低品質動画を生成し、更に低品質動画からノイズを除去することにより高品質画像を生成し、生成した高品質画像に基づき高品質動画を生成してもよい。動画の生成に用いられる画像は、1枚であってもよいし、複数枚であってもよい。
【0089】
なお、第1の実施形態において説明した学習装置10及び学習装置10A並びに第2の実施形態において説明した学習装置10Bは、低画質動画から高画質動画を推論する学習モデル40の学習に用いられる例を示したが、これに限られるものではない。例えば、学習モデル40において、低画質動画から高画質動画を推論した後に、高画質動画における人物等の特定の被写体を検出する機能を備えるように構成してもよいし、高画質動画において標識や看板等の文字認識を行う機能を備えるように構成してもよい。すなわち、学習モデル40により推論される高画質動画は、鑑賞用の動画の一例に限定されず、物体検知等の用途に用いられてもよい。
【0090】
従来、学習モデルの汎化性能を向上させるには、想定されるシーンを可能な限りすべて教師データに含めることが好適であった。言い換えれば、想定される被写体の動きを可能な限りすべて含む動画が理想的な教師データといえる。一方で、このような教師データを実際の撮影により取得することは困難であり、膨大なコストと時間が必要になる。本実施形態を学習モデルの学習に用いることで、教師データの収集に要していたコストと時間を大幅に削減することができる、また、本実施形態を学習モデルの学習に用いることで、学習モデルの汎化性能を向上させることが可能となる。
【0091】
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【符号の説明】
【0092】
1…学習システム、10…学習装置、11…画像取得部、12…動画情報生成部、13…学習部、14…軌跡ベクトル取得部、20…撮像装置、31…高画質画像、32…低画質画像、33…高画質動画、34…低画質動画、40…学習モデル、50…軌跡ベクトル生成装置、TD…教師データ、I…画像情報、I1…第1画像情報、I2…第2画像情報、M…動画情報、M1…第1動画情報、M2…第2動画情報、TV…軌跡ベクトル、121…切出部、123…ノイズ重畳部、第1動画情報生成部125、第2動画情報生成部127