特開2024-33920 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ＬｅａｐＭｉｎｄ株式会社の特許一覧

特開2024-33920学習装置、プログラム及びノイズ低減装置の学習方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024033920

(43)【公開日】2024-03-13

(54)【発明の名称】学習装置、プログラム及びノイズ低減装置の学習方法

(51)【国際特許分類】

G06T 5/70 20240101AFI20240306BHJP

G06V 10/72 20220101ALI20240306BHJP

【ＦＩ】

G06T5/00 705

G06V10/72

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022137843

(22)【出願日】2022-08-31

(71)【出願人】

【識別番号】517048278

【氏名又は名称】ＬｅａｐＭｉｎｄ株式会社

(74)【代理人】

【識別番号】100161207

【弁理士】

【氏名又は名称】西澤和純

(74)【代理人】

【識別番号】100161506

【弁理士】

【氏名又は名称】川渕健一

(74)【代理人】

【識別番号】100139686

【弁理士】

【氏名又は名称】鈴木史朗

(74)【代理人】

【識別番号】100207789

【弁理士】

【氏名又は名称】石田良平

(72)【発明者】

【氏名】能地宏

(72)【発明者】

【氏名】スワンウイタヤピヤワト

【テーマコード（参考）】

5B057

5L096

【Ｆターム（参考）】

5B057CD01

5B057CE02

5B057CE09

5B057DC40

5L096EA35

5L096KA04

(57)【要約】

【課題】低品質動画から高品質動画を推論するための教師データを生成する。
【解決手段】学習装置は、少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得部と、取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成部と、前記動画情報生成部により生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得部と、
取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成部と、
前記動画情報生成部により生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部と
を備える学習装置。

【請求項2】

前記第２画像情報には、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれ、
前記動画情報生成部は、前記第２画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより前記第２動画情報を生成する
請求項１に記載の学習装置。

【請求項3】

前記第２画像情報に含まれる複数の画像は、近接した異なる時間において撮像された画像である
請求項２に記載の学習装置。

【請求項4】

前記動画情報生成部は、前記第１画像情報に含まれる１枚の画像から、異なる一部を切り出すことにより前記第１動画情報を生成する
請求項１又は請求項２に記載の学習装置。

【請求項5】

前記動画情報生成部は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出す
請求項１または請求項２に記載の学習装置。

【請求項6】

前記動画情報生成部は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出す
請求項１または請求項２に記載の学習装置。

【請求項7】

前記動画情報生成部が画像を切り出す所定の方向とは、アフィン変換により算出される
請求項５に記載の学習装置。

【請求項8】

軌跡ベクトルを取得する軌跡ベクトル取得部を更に備え、
前記動画情報生成部が画像を切り出す所定の方向とは、取得された前記軌跡ベクトルに基づいて算出される
請求項５に記載の学習装置。

【請求項9】

少なくとも１枚の画像を含む画像情報を取得する画像取得部と、
取得した前記画像情報の一部であって異なる位置の画像を複数切り出す切出部と、
切り出した複数の画像を組み合わせて第１動画情報を生成する第１動画情報生成部と、
前記切出部により切り出された複数の画像それぞれに対しノイズを重畳するノイズ重畳部と、
ノイズ重畳部によりノイズが重畳された複数の画像を組み合わせて第２動画情報を生成する第２動画情報生成部と、
前記第１動画情報生成部により生成された前記第１動画情報と前記第２動画情報生成部により生成された前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部と
を備える学習装置。

【請求項10】

コンピュータに、
少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得ステップと、
取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成ステップと、
前記動画情報生成ステップにより生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習ステップと
を実行させるプログラム。

【請求項11】

少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得工程と、
取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成工程と、
前記動画情報生成工程により生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習工程と
を有するノイズ低減装置の学習方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、学習装置、プログラム及びノイズ低減装置の学習方法に関する。

【背景技術】

【0002】

従来、機械学習を用いて、低品質画像を高品質画像に画像処理する技術があった。このような技術分野においては、ノイズが重畳されたノイズ画像と高品質画像との組み合わせを教師データとして学習モデルを学習させる。教師データの作成は、撮像装置により同一の対象物を異なる露出設定で撮像することにより高品質画像とノイズ画像とを得ることにより行われる。一般に機械学習のためには教師データが大量に必要になることが知られており、カメラを用いて撮像による教師データの作成は手間であるという課題があった。そこで、高品質画像にランダムノイズを付加することにより、教師データを作成する技術が知られている（例えば、特許文献１を参照）。このような従来技術を用いて、高品質画像にランダムノイズを付加することにより、低品質画像から高品質画像を推論するための教師データを作成することが知られている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２１－０７１９３６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ここで、低品質動画を高品質動画に画像処理する場合にも、上述した静止画の場合と同様に、機械学習のための教師データが大量に必要になることが知られている。しかしながら動画の場合には、同一の対象物を異なる設定で撮影し、同一の被写体が撮影された高品質動画と低品質動画とを容易することが非常に困難である。そこで、上述したような従来技術を応用して、予め撮影された高品質動画の各フレームにノイズを重畳させて低品質動画を生成することも考えられるが、容量が莫大なものとなるといった問題等があり、非常に困難であった。

【0005】

そこで本発明は、低品質動画から高品質動画を推論するための教師データを生成可能な技術の提供を目的とする。

【課題を解決するための手段】

【0006】

（１）本発明の一態様は、少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得部と、取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成部と、前記動画情報生成部により生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える学習装置である。

【0007】

（２）本発明の一態様は、上記（１）に記載の学習装置において、前記第２画像情報には、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれ、前記動画情報生成部は、前記第２画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより前記第２動画情報を生成するものである。

【0008】

（３）本発明の一態様は、上記（１）又は（２）に記載の学習装置において、前記第２画像情報に含まれる複数の画像は、近接した異なる時間において撮像された画像である。

【0009】

（４）本発明の一態様は、上記（１）から（３）のいずれかに記載の学習装置において、前記動画情報生成部は、前記第１画像情報に含まれる１枚の画像から、異なる一部を切り出すことにより前記第１動画情報を生成するものである。

【0010】

（５）本発明の一態様は、上記（１）から（４）のいずれかに記載の学習装置において、前記動画情報生成部は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出すものである。

【0011】

（６）本発明の一態様は、上記（１）から（５）のいずれかに記載の学習装置において、前記動画情報生成部は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出すものである。

【0012】

（７）本発明の一態様は、上記（６）に記載の学習装置において、前記動画情報生成部が画像を切り出す所定の方向とは、アフィン変換により算出されるものである。

【0013】

（８）本発明の一態様は、上記（６）に記載の学習装置において、軌跡ベクトルを取得する軌跡ベクトル取得部を更に備え、前記動画情報生成部が画像を切り出す所定の方向とは、取得された前記軌跡ベクトルに基づいて算出されるものである。

【0014】

（９）本発明の一態様は、少なくとも１枚の画像を含む画像情報を取得する画像取得部と、取得した前記画像情報の一部であって異なる位置の画像を複数切り出す切出部と、切り出した複数の画像を組み合わせて第１動画情報を生成する第１動画情報生成部と、前記切出部により切り出された複数の画像それぞれに対しノイズを重畳するノイズ重畳部と、ノイズ重畳部によりノイズが重畳された複数の画像を組み合わせて第２動画情報を生成する第２動画情報生成部と、前記第１動画情報生成部により生成された前記第１動画情報と前記第２動画情報生成部により生成された前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習部とを備える学習装置である。

【0015】

（１０）本発明の一態様は、コンピュータに、少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得ステップと、取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成ステップと、前記動画情報生成ステップにより生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習ステップとを実行させるプログラムである。

【0016】

（１１）本発明の一態様は、少なくとも１枚の画像を含む第１画像情報と、前記第１画像情報に含まれる画像に撮像された被写体と同一の被写体が撮像され、前記第１画像情報に含まれる画像より低画質の画像を少なくとも１枚含む第２画像情報とを取得する画像取得工程と、取得した前記第１画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報を生成し、取得した前記第２画像情報の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報を生成する動画情報生成工程と、前記動画情報生成工程により生成された前記第１動画情報と前記第２動画情報とが含まれる教師データに基づき、低画質動画から高画質動画を推論するよう学習させる学習工程とを有するノイズ低減装置の学習方法である。

【発明の効果】

【0017】

本発明によれば、低品質動画から高品質動画を推論するための教師データを生成することができる。

【図面の簡単な説明】

【0018】

【図1】第１の実施形態に係る学習システムの概要について説明するための図である。

【図2】第１の実施形態に係る学習装置の機能構成の一例を示す図である。

【図3】第１の実施形態に係る学習装置が高品質画像から切り出す画像の位置の一例について説明するための図である。

【図4】第１の実施形態に係る学習装置が低品質画像から切り出す画像の位置の一例について説明するための図である。

【図5】第１の実施形態に係る学習装置が切り出す方向の一例について説明するための図である。

【図6】第１の実施形態に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合における学習装置の機能構成の一例を示す図である。

【図7】第１の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合において、静止画から切り出す画像の位置の一例について説明するための図である。

【図8】第１の実施形態の変形例に係るノイズ低減装置の学習方法の一連の動作の一例について示すフローチャートである。

【図9】第２の実施形態に係る学習システムの概要について説明するための図である。

【図10】第２の実施形態に係る動画情報生成部の機能構成の一例を示す図である。

【発明を実施するための形態】

【0019】

以下、本発明の態様に係る学習装置、プログラム及びノイズ低減装置の学習方法について、好適な実施の形態を掲げ、添付の図面を参照しながら詳細に説明する。なお、本発明の態様は、これらの実施の形態に限定されるものではなく、多様な変更または改良を加えたものも含まれる。つまり、以下に記載した構成要素には、当業者が容易に想定できるもの、実質的に同一のものが含まれ、以下に記載した構成要素は適宜組み合わせることが可能である。また、本発明の要旨を逸脱しない範囲で構成要素の種々の省略、置換または変更を行うことができる。また、以下の図面においては、各構成をわかりやすくするために、各構造における縮尺および数等を、実際の構造における縮尺および数等と異ならせる場合がある。

【0020】

まず、本実施形態の前提となる事項について説明する。本実施形態に係る学習装置、プログラム及びノイズ低減装置の学習方法は、ノイズが重畳した低品質な動画情報を入力として、ノイズを取り除いた高品質動画を推論するよう、学習モデルを学習させる。低品質動画には低画質動画が含まれ、高品質動画には高画質動画が含まれる。本実施形態に係る学習装置、プログラム及びノイズ低減装置の学習方法が、学習のために用いる教師データは、被写体を撮像した静止画から生成される。被写体を撮像した静止画とは、１枚の高品質画像であってもよいし、同一の被写体を撮像した複数の画像（１枚又は複数枚の高品質画像及び１枚又は複数枚の低品質画像の組み合わせ）であってもよい。同一の被写体を撮像した複数の画像は、互いに異なる撮像条件で撮像されていてもよい。また、被写体を撮像した画像とは、少なくとも１枚の画像を含む、その他の画像であってもよい。高品質画像とは、一例として、低ＩＳＯ感度、長秒露光により撮像される画質の高い画像を例示することができる。以下の説明において、高品質画像をＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）と記載する場合がある。低品質画像とは、一例として、高ＩＳＯ感度、短秒露光により撮像される画質の低い画像を例示することができる。

【0021】

以下の説明においては低品質画像の一例としてノイズによる画質劣化について説明するが、本実施形態は、ノイズ以外であっても、画像の品質を低下させる事項に対して広く適用可能である。画像の品質を低下させる事項としては、光学収差による解像度の低下もしくは色ずれ、手ブレや被写体ブレによる解像度の低下、暗電流や回路起因による黒レベルの不均一、高輝度被写体によるゴーストやフレア、信号レベル異常等を例示することができる。

【0022】

なお、教師データの生成には、予め用意されていた画像が用いられてもよい。以下の説明において、低品質画像を低画質画像又はノイズ画像と記載する場合がある。また、以下の説明において、高品質画像を高画質画像又はＧＴと記載する場合がある。同様に、低品質動画を低画質動画又はノイズ動画と記載する場合がある。また、以下の説明において、高品質動画を高画質動画又はＧＴと記載する場合がある。

【0023】

本実施形態に係る学習装置が対象とする画像とは、静止画であってもよいし、動画に含まれるフレームであってもよい。また、データ形式としてはＲａｗフォーマットなどの圧縮符号化処理を行っていない形式でもよいし、ＪｐｅｇフォーマットやＭＰＥＧフォーマットなどの圧縮符号化処理を行った形式であってもよい。以下、特に限定しない場合においては、画像とはＲａｗフォーマットによる静止画である場合について説明する。

【0024】

また、本実施形態に係る学習装置が対象とする画像とは、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）イメージセンサを用いたＣＣＤカメラにより撮像された画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサを用いたＣＭＯＳカメラにより撮像された画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、カラー画像であってもよいし、モノクロ画像であってもよい。また、本実施形態に係る学習装置が対象とする画像とは、赤外線センサを用いた赤外線カメラなど非可視光成分を取得することにより撮像された画像であってもよい。

【0025】

［第１の実施形態］
まず、図１から図８を参照しながら、第１の実施形態について説明する。
図１は、第１の実施形態に係る学習システムの概要について説明するための図である。同図を参照しながら、学習システム１の概要について説明する。同図に示す学習システム１は、機械学習の学習段階における構成の一例である。学習システム１は、撮像装置２０により撮像された画像に基づき生成された教師データＴＤを用いて学習モデル４０を学習させる。

【0026】

学習システム１は、撮像装置２０を備えることにより高画質画像３１及び低画質画像３２を撮像する。高画質画像３１及び低画質画像３２は、同一の被写体が撮像された画像である。例えば高画質画像３１及び低画質画像３２は、互いに同一の画角及び撮像角度で、ＩＳＯ感度や露光時間等の設定を異ならせて撮像される。また、高画質画像３１は１枚であることが好適であるが、複数であってもよい。また、低画質画像３２は、複数であることが好適であるが、１枚であってもよい。複数の低画質画像３２は、ＩＳＯ感度や露光時間等の設定を異ならせて撮像された異なる画像であることが好適である。撮像装置２０は、例えば通信手段を有するスマートフォンや、タブレット端末等であってもよい。また、撮像装置２０は通信手段を有する監視カメラ等であってもよい。

【0027】

学習システム１は、高画質画像３１から高画質動画３３を生成し、低画質画像３２から低画質動画３４を生成する。高画質動画３３は、１枚の高画質画像３１から生成されることが好適であり、低画質動画３４は、複数の低画質画像３２から生成されることが好適である。互いに同一の被写体を撮像した高画質画像３１及び低画質画像３２から生成された高画質動画３３及び低画質動画３４は、互いに対応付けられる。互いに対応する高画質動画３３及び低画質動画３４は、教師データＴＤとして学習のために学習モデル４０に入力される。

【0028】

なお、互いに対応する高画質動画３３及び低画質動画３４は、後に行われる学習のため、所定の記憶装置に一時的に記憶されてもよい。すなわち、学習システム１は、後に行われる学習の前に、予め複数の教師データＴＤを生成しておいてもよい。また、撮像装置２０により撮像された高画質画像３１及び低画質画像３２は、一時的に所定の記憶装置に記憶されていてもよい。この場合、学習システム１は、互いに対応する高画質画像３１及び低画質画像３２の複数の組み合わせを記憶しておき、学習時に教師データＴＤを生成してもよい。

【0029】

学習モデル４０は、学習システム１により生成された教師データＴＤを用いて学習される。具体的には、学習モデル４０は、低品質な動画から高品質な動画を推論するように学習される。言い換えれば、学習後の学習モデル４０は低品質な動画を入力として高品質な動画を推論し、推論した結果を出力する。すなわち、学習後の学習モデル４０は、低品質な動画からノイズを除去するためのノイズ低減装置に用いられてもよい。

【0030】

なお、撮像装置２０により撮像された高画質画像３１及び低画質画像３２は、情報を一時的に記憶する所定の記憶装置に記憶される。所定の記憶装置とは、撮像装置２０に備えられていてもよいし、クラウドサーバ等に備えらえられていてもよい。すなわち、学習システム１は、エッジデバイスに構成されていてもよいし、エッジデバイスとクラウドサーバとを含んで構成されていてもよい。また、学習モデル４０の学習においてもサーバー上に設けられたＧＰＵ等を利用するようにしてもよい。

【0031】

図２は、第１の実施形態に係る学習装置の機能構成の一例を示す図である。同図を参照しながら学習装置１０の機能構成について説明する。学習装置１０は、上述した学習システム１を実現するために用いられる。学習装置１０は、撮像装置２０により撮像された高画質画像３１及び低画質画像３２に基づき、高画質動画３３及び低画質動画３４を生成する。学習装置１０は、生成した高画質動画３３及び低画質動画３４を教師データＴＤとして学習モデル４０を学習させる。学習装置１０は、画像取得部１１と、動画情報生成部１２と、学習部１３とを備える。学習装置１０は、バスで接続された不図示のＣＰＵ（Central Processing Unit）、ＲＯＭ（Read only memory）又はＲＡＭ（Random access memory）等の記憶装置等を備える。学習装置１０は、学習プログラムを実行することによって画像取得部１１と、動画情報生成部１２、学習部１３とを備える装置として機能する。

【0032】

なお、学習装置１０の各機能の全てまたは一部は、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）又はＦＰＧＡ（Field-Programmable Gate Array）等のハードウェアを用いて実現されてもよい。学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。学習プログラムは、電気通信回線を介して送信されてもよい。

【0033】

画像取得部１１は、撮像装置２０から画像情報Ｉを取得する。画像情報Ｉには、第１画像情報Ｉ１及び第２画像情報Ｉ２が含まれる。第１画像情報Ｉ１には、少なくとも１枚の高画質画像３１が含まれる。第２画像情報Ｉ２には、少なくとも１枚の低画質画像３２が含まれる。第２画像情報Ｉ２に含まれる低画質画像３２には、第１画像情報Ｉ１に含まれる高画質画像３１に撮像された被写体と同一の被写体が撮像されている。第２画像情報Ｉ２に含まれる画像は、第１画像情報Ｉ１に含まれる画像より低画質である。画像取得部１１は、取得した画像情報Ｉを、動画情報生成部１２に出力する。

【0034】

動画情報生成部１２は、画像情報Ｉに含まれる画像の一部を複数切り出し、切り出した画像をフレーム画像として、所定の時間間隔（又はフレームレートということもできる）で繋げることによって動画情報Ｍを生成する。フレームレートは、例えば６０［ＦＰＳ（frames per second）］であってもよい。動画情報生成部１２により切り出される画像の位置は、フレーム毎に異なっていてもよい。例えば、切り出される画像のサイズは固定とし、動画情報生成部１２は、所定の方向に、所定の画素（ビット数）ずつ移動させた位置における複数の画像を切り出してもよい。具体的には、切り出される画像のサイズは２５６画素×２５６画素に固定されていてもよい。また、動画情報生成部１２は、当該サイズをフレーム毎に１０画素ずつずらした位置における画像を切り出してもよい。ずらす量を大きくし過ぎると、フレームごとの画像の変化量が大きくなり過ぎる結果不自然な動画になるため、所定量以上にずらさないように制限（上限値）を設けることが好ましい。ずらし量や当該制限については、撮影画角、撮影解像度、光学系の焦点距離、被写体までの距離、撮影フレームレート等に基づいて決定することが好ましい。また、落下している被写体などにおいては、加速度的に速度が増えることから、ずらす量を対象画像から時間的に離れたフレームほど増やしてもよい。

【0035】

動画情報生成部１２は、第１画像情報Ｉ１に含まれる画像から第１動画情報Ｍ１を生成し、第２画像情報Ｉ２に含まれる画像から第２動画情報Ｍ２を生成する。すなわち、動画情報生成部１２は、第１画像情報Ｉ１の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報Ｍ１を生成する。また、動画情報生成部１２は、第２画像情報Ｉ２の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報Ｍ２を生成する。複数の画像を組み合わせて動画を生成するとは、複数の画像をフレームレートに応じた所定の時間間隔で表示するようなファイル形式に変換することであってもよい。動画情報生成部１２は、生成した第１動画情報Ｍ１及び第２動画情報Ｍ２が含まれる情報を動画情報Ｍとして学習部１３に出力する。

【0036】

ここで、動画情報生成部１２によって切り出される複数の画像の大きさや、切り出す位置については任意に定められてもよい。しかしながら、第１画像情報Ｉ１に含まれる画像から切り出す位置と、第２画像情報Ｉ２に含まれる画像から切り出す位置とは略同じ位置であることが好適である。高画質な動画である第１動画情報Ｍ１と、低画質な動画である第２動画情報Ｍ２とは、同一の被写体が撮影されているべきだからである。

【0037】

学習部１３は、動画情報生成部１２から動画情報Ｍを取得する。学習部１３は、取得した動画情報Ｍを教師データＴＤとして、学習モデル４０に入力することにより、学習モデル４０を学習させる。学習モデル４０は、低画質動画から高画質動画を推論するよう学習させられる。すなわち、学習部１３は、動画情報生成部１２により生成された第１動画情報Ｍ１と第２動画情報Ｍ２とが含まれる教師データＴＤに基づき、低画質動画から高画質動画を推論するよう学習させる。学習モデル４０は、入力された動画からノイズを除去するよう推論するよう学習させられるともいうことができる。

【0038】

次に図３乃至図５を参照しながら、学習装置１０が、撮像装置２０により撮像された画像から切り出す画像について説明する。なお、以下の説明においては、高品質画像から高品質動画を生成する方法（図３を参照しながら説明する方法）と、低品質画像から低品質動画を生成する方法（図４を参照しながら説明する方法）とは、互いに異なるものとして説明しているが、本実施形態はこの一例に限定されない。以下の説明に代えて、互いに同様の方法により、高品質画像から高品質動画が生成され、低品質画像から低品質動画が生成されてもよい。すなわち、図３を参照しながら説明する方法により低品質動画が生成されてもよいし、図４を参照しながら説明する方法により高品質動画が生成されてもよい。

【0039】

図３は、第１の実施形態に係る学習装置が高品質画像から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、学習装置１０が高品質画像から切り出す画像の位置の一例について説明する。図３（Ａ）には、第１画像情報Ｉ１に含まれる画像の一例である画像Ｉ－１１を示す。図３（Ｂ）には、図３（Ａ）に示した画像Ｉ－１１から複数の画像を切り出した場合の一例を画像Ｉ－１２として示す。

【0040】

図３（Ａ）に示した通り、画像Ｉ－１１には、被写体であるボールＢが撮像されている。動画情報生成部１２は、画像Ｉ－１１から複数の画像を切り出し、切り出した画像を時間的に繋げることにより、静止画である画像Ｉ－１１から、動画を生成する。

【0041】

図３（Ｂ）に示す画像Ｉ－１２には、動画情報生成部１２により切り出された画像である切り出し画像ＣＩが複数示されている。具体的には、動画情報生成部１２により切り出される画像の一例として、切り出し画像ＣＩ－１１乃至切り出し画像ＣＩ－１５が示されている。切り出し画像ＣＩ－１１乃至切り出し画像ＣＩ－１５を区別しない場合は、単に切り出し画像ＣＩと記載する場合がある。

【0042】

切り出し画像ＣＩ－１１乃至切り出し画像ＣＩ－１５は、それぞれ縦方向及び横方向に所定の画素数シフトしている。動画情報生成部１２により生成された第１動画情報Ｍ１によれば、ある時刻ｔ１において画像Ｃ－１１が映し出され、ある時刻ｔ２において画像Ｃ－１２が映し出され、ある時刻ｔ３において画像Ｃ－１３が映し出され、ある時刻ｔ４において画像Ｃ－１４が映し出され、ある時刻ｔ５において画像Ｃ－１５が映し出される。このように、異なる切り出し画像ＣＩを時間的につなげることにより、静止画内の被写体であるボールＢがまるで動いているかのような動画を生成することができる。動画情報生成部１２がフレームレート６０［ｆｐｓ］の動画を生成する場合、各時刻の間隔は、６０分の１秒であってもよい。

【0043】

動画情報生成部１２により切り出される画像のシフト方向及びシフト量については、撮影画角、撮影解像度、光学系の焦点距離、被写体までの距離、撮影フレームレート等の撮影条件に基づいて決定されることが好適である。また、落下物の被写体を模擬するような場合には、加速度的に速度が増えることから、シフト量を徐々に変化させる（増やす）ことが好適である。

【0044】

ここで、学習装置１０により生成される高品質動画（第１動画情報Ｍ１）は、ノイズが重畳していない高画質な動画である。したがって、動画を生成するための静止画である画像には、ノイズが重畳していないことが理想的である。また、ノイズが重畳していない画像から生成された高品質動画の各フレームにおいても、ノイズが重畳していないことが理想的である。したがって、動画情報生成部１２は、１枚のノイズが重畳していない画像から動画を生成することが好適である。すなわち動画情報生成部１２は、第１画像情報Ｉ１に含まれる高品質な１枚の画像から、異なる一部を切り出すことにより第１動画情報Ｍ１を生成することが好適である。

【0045】

図４は、第１の実施形態に係る学習装置が低品質画像から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、学習装置１０が低品質画像から切り出す画像の位置の一例について説明する。学習装置１０は、複数の低品質画像からそれぞれ異なるフレームの画像を切り出す。図４（Ａ）乃至図４（Ｅ）には、それぞれ異なる画像である画像Ｉ－２１乃至画像Ｉ－２５が示される。学習装置１０は、画像Ｉ－２１乃至画像Ｉ－２５からそれぞれ異なるフレームの画像を切り出す。

【0046】

低品質画像である画像Ｉ－２１乃至画像Ｉ－２５の構図は、図３（Ａ）に示した画像Ｉ－１１と同様である。すなわち、画像Ｉ－２１乃至画像Ｉ－２５には、同様の位置にボールＢが撮像されている。画像Ｉ－２１乃至画像Ｉ－２５には、互いに異なるノイズが重畳されている点において、画像Ｉ－１１とは異なる。画像Ｉ－２１乃至画像Ｉ－２５は、例えば撮像時に異なる撮像条件が用いられることにより、それぞれ互いに異なるノイズが重畳されてもよい。

【0047】

動画情報生成部１２は、画像Ｉ－２１から切り出し画像ＣＩ－２１を切り出し、画像Ｉ－２２から切り出し画像ＣＩ－２２を切り出し、画像Ｉ－２３から切り出し画像ＣＩ－２３を切り出し、画像Ｉ－２４から切り出し画像ＣＩ－２４を切り出し、画像Ｉ－２５から切り出し画像ＣＩ－２５を切り出す。切り出し画像ＣＩ－２１乃至切り出し画像ＣＩ－２５は、それぞれ縦方向及び横方向に所定の画素数シフトしている。動画情報生成部１２により生成された第２動画情報Ｍ２によれば、ある時刻ｔ１において画像Ｃ－２１が映し出され、ある時刻ｔ２において画像Ｃ－２２が映し出され、ある時刻ｔ３において画像Ｃ－２３が映し出され、ある時刻ｔ４において画像Ｃ－２４が映し出され、ある時刻ｔ５において画像Ｃ－２５が映し出される。切り出し画像ＣＩ－２１乃至切り出し画像ＣＩ－２５には、それぞれ異なるノイズが重畳しているため、生成される動画にも、時間ごとに異なるノイズが重畳されることとなる。

【0048】

ここで、学習装置１０により生成される低品質動画（第２動画情報Ｍ２）は、ノイズが重畳している低画質な動画である。１枚のノイズが重畳した画像から複数の異なる位置を切り出して動画にした場合、いずれの瞬間にも同様のノイズが含まれているため（換言すれば、時間ごとにノイズが変化しないため）、低画質動画としては適切でない場合がある。したがって、本実施形態においては、異なる複数の低画質画像から切り出すことにより、低画質動画を生成する。異なる複数の低画質画像には、それぞれ高画質画像に撮像された被写体と同一の被写体が撮像される。すなわち、第２画像情報Ｍ２には、第１画像情報Ｉ１に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれる。第２画像情報Ｉ２に含まれる複数の画像は、近接した異なる時間において撮像された画像であってもよい。動画情報生成部１２は、第２画像情報に含まれる複数の画像それぞれから、異なる一部を切り出すことにより第２動画情報Ｍ２を生成する。
なお、例えば低画質画像をフレーム数分用意する必要はなく、複数枚の画像から、連続しないように複数回切り出してもよい。複数の画像から切り出す順番としては、ランダムであってもよい。

【0049】

図５は、第１の実施形態に係る学習装置が切り出す方向の一例について説明するための図である。図３及び図４を参照しながら説明した一例では、縦方向及び横方向の両方向に所定の画素数移動した位置を切り出す場合の一例について説明した。しかしながら、動画情報生成部１２は、その他の方向に移動した位置を切り出してもよい。図５（Ａ）乃至図５（Ｃ）を参照しながら、動画情報生成部１２が切り出し画像ＣＩを切り出す方向の、その他の一例について説明する。

【0050】

図５（Ａ）には、画像Ｉ－３１を示す。図５（Ａ）は、横方向（水平方向）にのみ移動した位置を切り出した場合の一例である。この場合、動画情報生成部１２は、縦方向のｙ座標を固定し、横方向のｘ座標のみ変化させることにより、複数の異なる位置における切り出し画像ＣＩを切り出す。このように切り出すことにより、被写体が横方向に移動（水平移動）するような動画を生成することができる。同様に、動画情報生成部１２は、縦方向（垂直方向）にのみ移動した位置における切り出し画像ＣＩを切り出してもよい。このように切り出すことにより、被写体が縦方向に移動（垂直移動）するような動画を生成することができる。
また、図３及び図４に示したように、動画情報生成部１２は、縦方向及び横方向の両方向に移動した位置における切り出し画像ＣＩを切り出してもよい。この場合、縦方向の移動量及び横方向の移動量は、互いに異なっていてもよい。

【0051】

図５（Ｂ）には、画像Ｉ－３２を示す。図５（Ｂ）は、回転方向に移動した位置を切り出した場合の一例である。この場合、動画情報生成部１２は、切り出し位置を、回転中心０、半径ｒを有する円弧状に移動させることにより、複数の異なる位置における切り出し画像ＣＩを切り出す。同図に示す一例では、動画情報生成部１２は、反時計回りに回転した位置を切り出している。このように切り出すことにより、被写体が回転方向に移動するような動画を生成することができる。回転中心Ｏの位置や、半径ｒの大きさは、フレーム毎に異なっていてもよい。

【0052】

図５（Ｃ）には、画像Ｉ－３３を示す。図５（Ｃ）は、切り出す位置を拡大及び縮小させる場合の一例である。本実施形態において、切り出し画像ＣＩの大きさは一定であることが好適である。したがって、動画情報生成部１２は、切り出し画像ＣＩの大きさを維持したまま、画像Ｉを拡大又は縮小させて切り出す。切り出し画像ＣＩの大きさが２５６画素×２５６画素に固定されている場合、動画情報生成部１２は、当該切り出し画像ＣＩの大きさに収まるよう、画像Ｉを拡大及び縮小する。このように切り出すことにより、被写体をズームイン又はズームアウトしたような動画を生成することができる。

【0053】

なお、図５（Ａ）乃至図５（Ｃ）を参照しながら説明した切り出し位置は、本実施形態の一例であり、動画情報生成部１２は、その他の異なる位置を切り出して繋げることにより、動画情報を生成してもよい。動画情報生成部１２は、例えば、図５（Ａ）乃至図５（Ｃ）を参照しながら説明した切り出し方法を組み合わせることにより、切り出し画像ＣＩを切り出してもよい。この場合、例えば水平移動又は垂直移動の後に回転移動したり、移動の後に拡大又は縮小したりするような動画を生成することができる。

【0054】

なお、上述したような切り出し位置の移動は、アフィン変換により算出されてもよい。すなわち、動画情報生成部１２が画像を切り出す所定の方向とは、アフィン変換により算出されるとも記載することができる。

【0055】

なお、動画情報生成部１２は、上述したような切り出し位置を変化させる場合の一例に代えて、画像の一部を切り出した後に、移動させることにより動画を生成してもよい。この場合、動画情報生成部１２は、２５６画素×２５６画素の画像を切り出し、切り出した画像を所定の方向に移動した複数の画素を生成する。動画情報生成部１２は、切り出した画像を繋げることにより動画を生成する。すなわち、動画情報生成部１２は、切り出した複数の画像を所定の方向にずらすことにより異なる位置の画像を複数切り出してもよい。
なお、切り出した後に移動させることにより、画像の周囲にデータが存在しない領域が発生してしまう。しかしながら、画像の周囲部分をのりしろ分として予め定義しておくことにより、学習対象となる画像の範囲から除外し、後の学習段階では問題が生じないようにすることができる。

【0056】

上述した説明では、動画情報生成部１２は、アフィン変換等の何らかの方法により算出された方向に移動させた画像を切り出すことにより動画を生成する場合の一例について説明した。しかしながら、実際の動画では、被写体はこれらの算出された方向に移動しないことも多く、むしろランダムに動く場合の方が多い。したがって、学習装置１０は、物体が実際に動く軌跡に基づいた方向に移動させた画像を切り出すことにより動画を生成し、より機械学習に有効な教師データを生成することができる。このような場合の一例について、図６及び図７を参照しながら第１の実施形態の変形例として説明する。

【0057】

ここで、晴天時等の明るいシーンでは、露出を維持し続ける為に、シャッタースピードを上げることが一般的である。そのため、動く被写体のなめらかさがなくなり、カクカクした映像になることが知られている。同様に、解像感の高い静止画から動画を作成する場合に、滑らかさの少ないカクカクした不自然な動画となる場合がある。このため、動画情報生成部１２は、動画を作成する静止画に対して疑似的な被写体ブレを追加する補正を行った後に動画を生成するようにしてもよい。一例として、シフト方向に対して所定の平均化処理を行ったり、解像度を低下する処理を行ったりすることで被写体ブレを追加するようにしてもよい。

【0058】

図６は、第１の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合における学習装置の機能構成の一例を示す図である。同図を参照しながら、第１の実施形態の変形例に係る学習装置１０Ａの機能構成の一例について説明する。第１の実施形態の変形例に係る学習システム１Ａは、軌跡ベクトル生成装置５０を更に備える点において学習システム１とは異なる。学習装置１０Ａは、更に軌跡ベクトル取得部１４を備える点において学習装置１０とは異なる。また、学習装置１０Ａは、動画情報生成部１２に代えて動画情報生成部１２Ａを備える点において学習装置１０とは異なる。学習装置１０Ａの説明において、学習装置１０と同様の構成については同様の符号を付すことにより説明を省略する場合がある。

【0059】

軌跡ベクトル生成装置５０は、動画に撮像された物体の軌跡に関する情報を取得する。軌跡ベクトル生成装置５０には動画情報が入力され、軌跡ベクトル生成装置５０は、入力された動画情報に撮像された物体の軌跡を解析する。軌跡ベクトル生成装置５０は、解析した結果を軌跡ベクトルＴＶとして出力する。軌跡ベクトルＴＶには、動画情報に撮像された物体の軌跡が示される。軌跡ベクトル生成装置５０は、例えばオプティカルフロー（Optical Flow）等の従来技術を用いて、動画情報から軌跡ベクトルＴＶを取得する。
なお、軌跡ベクトルＴＶには、ベクトル情報に加えて又は代えて、物体の移動した軌跡が示された座標情報が含まれていてもよい。

【0060】

軌跡ベクトル取得部１４は、軌跡ベクトル生成装置５０から軌跡ベクトルＴＶを取得する。軌跡ベクトル取得部１４は、取得した軌跡ベクトルＴＶを動画情報生成部１２Ａに出力する。なお、軌跡ベクトル生成装置５０により軌跡ベクトルＴＶが取得された動画と、画像取得部１１により取得された画像とは、所定の関連性を有するものであってもよい。この場合、例えば画像取得部１１は、軌跡ベクトル生成装置５０により軌跡ベクトルＴＶが取得された動画の１フレームを画像として取得してもよい。
しかしながら本実施形態はこの一例に限定されず、軌跡ベクトル生成装置５０により軌跡ベクトルＴＶが取得された動画と、画像取得部１１により取得された動画とは、所定の関連性を有しないものであってもよい。

【0061】

動画情報生成部１２Ａは、画像取得部１１から画像情報Ｉを取得し、軌跡ベクトル取得部１４から軌跡ベクトルＴＶを取得する。動画情報生成部１２Ａは、取得した画像情報Ｉと軌跡ベクトルＴＶとに基づいて、動画情報を生成する。動画情報生成部１２Ａは、軌跡ベクトルＴＶに示された軌跡に基づいて切り出し画像ＣＩの切り出し方向や１フレームあたりのずらし量を決定する。すなわち、動画情報生成部１２Ａが画像を切り出す所定の方向とは、取得された軌跡ベクトルＴＶに基づいて算出される。

【0062】

図７は、第１の実施形態の変形例に係る学習装置が軌跡ベクトルに基づいて動画を生成する場合において、静止画から切り出す画像の位置の一例について説明するための図である。同図を参照しながら、軌跡ベクトルＴＶに基づいて動画を生成する場合における切り出し画像ＣＩの位置座標の一例について説明する。図７（Ａ）には、第１画像情報Ｉ１に含まれる画像の一例である画像Ｉ－４１を示す。図７（Ｂ）には、画像Ｉ－４１から切り出す複数の切り出し画像ＣＩの一例を示す。

【0063】

図７（Ａ）に示した通り、画像Ｉ－４１には、被写体であるボールＢの軌跡である軌跡ベクトルＴＶが示されている。軌跡ベクトルＴＶには、ボールＢが図中右上方向から真ん中下方向へ落下し、真ん中下方で跳ねた後、図中左上方向へ向かうベクトルが表現されている。動画情報生成部１２Ａは、画像Ｉ－４１に示される軌跡ベクトルＴＶに基づいた位置座標の切り出し画像ＣＩを切り出し、切り出した画像を時間的に繋げることにより、静止画である画像Ｉ－４１から、動画を生成する。

【0064】

図７（Ｂ）には、動画情報生成部１２により切り出された画像である切り出し画像ＣＩの一例が示されている。具体的には、動画情報生成部１２により切り出される画像の一例として、切り出し画像ＣＩ－４１乃至切り出し画像ＣＩ－４９が示されている。切り出し画像ＣＩ－４１乃至切り出し画像ＣＩ－４９は、軌跡ベクトルＴＶに基づいた座標に位置する。すなわち、切り出し画像ＣＩ－４１は図中右上方向に位置し、切り出し画像ＣＩ－４５にかけて切り出し位置は、図中真ん中下方向へ移動する。また、切り出し位置は、切り出し画像ＣＩ－４５から切り出し画像ＣＩ－４９にかけて図中左上方向へ移動する。

【0065】

図８は、第１の実施形態に係るノイズ低減装置の学習方法の一連の動作の一例について示すフローチャートである。同図を参照しながら、学習装置１０を用いたノイズ低減装置の学習方法の一連の動作の一例について説明する。

【0066】

（ステップＳ１１０）まず、画像取得部１１は、画像を取得する。画像取得部１１は、高品質画像が含まれる第１画像情報Ｉ１と、低品質画像が含まれる第２画像情報Ｉ２とを取得する。なお、画像取得部１１により画像を取得するステップを、画像取得ステップ又は画像取得工程と記載する場合がある。

【0067】

（ステップＳ１３０）次に、動画情報生成部１２は、取得した画像の一部を切り出す。動画情報生成部１２は、取得した画像から複数の切り出し画像ＣＩを切り出す。動画情報生成部１２は、第１画像情報Ｉ１に含まれる高品質画像と、第２画像情報Ｉ２に含まれる低品質画像のそれぞれから、複数の切り出し画像ＣＩを切り出す。なお、第１画像情報Ｉ１に含まれる高品質画像と、第２画像情報Ｉ２に含まれる低品質画像のそれぞれから切り出す位置座標は、互いに同様であることが好適である。ただし、第１画像情報Ｉ１に含まれる高品質画像を取得したタイミングと、第２画像情報Ｉ２に含まれる低品質画像を取得したタイミングに時間的な差がある場合、切り出した画像に含まれる被写体に時間差に起因するずれが生じる場合がある。このような場合においては、第１画像情報Ｉ１に含まれる高品質画像と、第２画像情報Ｉ２に含まれる低品質画像のそれぞれから切り出す位置座標は、時間差に起因するずれを考慮して決定することが好ましい。より詳細には時間差に起因するずれる量を減らす方向に第１画像情報Ｉ１に含まれる高品質画像または、第２画像情報Ｉ２に含まれる低品質画像から切り出す位置座標を変更することが好ましい。

【0068】

（ステップＳ１５０）次に、動画情報生成部１２は、切り出した画像を繋げて動画を生成する。動画情報生成部１２は、高品質画像から切り出した複数の画像を繋げることにより高品質動画を生成し、低品質画像から切り出した複数の画像を繋げることにより低品質動画を生成する。ステップＳ１３０とステップＳ１５０において動画情報を生成するステップを、動画情報生成ステップ又は動画情報生成工程と記載する場合がある。

【0069】

（ステップＳ１７０）最後に、学習部１３は、生成した高品質動画と低品質動画との組み合わせを教師データＴＤとして、低品質動画から高品質動画を推論するよう学習する。当該ステップを、学習ステップ又は学習工程と記載する場合がある。

【0070】

［第１の実施形態のまとめ］
以上説明した実施形態によれば、学習装置１０は、画像取得部１１を備えることにより、第１画像情報Ｉ１と、第２画像情報Ｉ２とを取得する。第１画像情報Ｉ１には少なくとも１枚の画像が含まれ、第２画像情報Ｉ２には第１画像情報Ｉ１に含まれる画像に撮像された被写体と同一の被写体が撮像され、第１画像情報Ｉ１に含まれる画像より低画質の画像が少なくとも１枚含まれる。また、学習装置１０は動画情報生成部１２を備えることにより、第１画像情報Ｉ１の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第１動画情報Ｍ１を生成する。同様に、学習装置１０は動画情報生成部１２を備えることにより、第２画像情報Ｉ２の一部であって異なる位置の画像を複数切り出し、切り出した複数の画像を組み合わせて第２動画情報Ｍ２を生成する。また、学習装置１０は学習部１３を備えることにより、動画情報生成部１２により生成された第１動画情報Ｍ１と第２動画情報Ｍ２とが含まれる教師データＴＤに基づき、低画質動画から高画質動画を推論するよう学習させる。すなわち本実施形態によれば、学習装置１０は、従来必要とされていた低品質動画及び高品質動画を含む教師データを動画の撮影により取得することを要せず、静止画から生成することができる。したがって、本実施形態によれば、低品質動画から高品質動画を推論するための教師データを容易に生成することができる。

【0071】

また、本実施形態によれば、学習装置１０は、同一の静止画から複数の異なる動画を生成することができる。したがって、本実施形態によれば、膨大な教師データＴＤを生成するため、膨大な静止画を用意することを要せず、少ない静止画から多くの動画を生成することができる。よって、本実施形態によれば、学習に用いるための画像の撮像に要する時間を短縮することができる。

【0072】

また、以上説明した実施形態によれば、第２画像情報Ｉ２には、第１画像情報Ｉ１に含まれる画像に撮像された被写体と同一の被写体が撮像された複数の画像であって、それぞれ互いに異なるノイズが重畳された複数の画像が含まれる。動画情報生成部１２は、第２画像情報Ｉ２に含まれる複数の画像それぞれから、異なる一部を切り出すことにより第２動画情報Ｍ２を生成する。すなわち、本実施形態によれば、ノイズが重畳した低品質動画は、ノイズが重畳した異なる複数の低品質画像に基づき生成される。したがって、本実施形態により生成された第２動画情報Ｍ２は、フレーム毎に異なるノイズが重畳しており、より精度よくノイズが重畳した低品質動画を再現して生成することができる。

【0073】

また、以上説明した実施形態によれば、第２画像情報Ｉ２に含まれる複数の画像は、近接した異なる時間において撮像された画像である。すなわち、低品質動画を生成するための低品質画像は、近接した時間に撮像される。近接した時間とは、例えば６０分の１秒等であってもよい。ここで、動画の場合は静止画と異なり、時間的成分を有した動画特有のノイズが重畳する場合がある。近接した異なる時間において撮像された画像には、この動画特有のノイズが含まれる。したがって、本実施形態によれば、学習装置１０は、近接した異なる時間において撮像された画像に基づいて動画を生成するため、時間的成分を有する動画特有のノイズを再現して生成することができる。

【0074】

また、以上説明した実施形態によれば、動画情報生成部１２は、第１画像情報Ｉ１に含まれる１枚の画像から、異なる一部を切り出すことにより第１動画情報Ｍ１を生成する。すなわち、本実施形態によれば、高品質動画は１枚の画像に基づき生成される。したがって、本実施形態によれば、多くの高品質画像を撮像することを要せず、容易に高品質動画を生成することができる。

【0075】

また、以上説明した実施形態によれば、動画情報生成部１２は、切り出した複数の画像をそれぞれ異なる量ずつ所定の方向にずらすことにより、異なる位置の画像を複数切り出す。すなわち、本実施形態によれば、学習装置１０は、画像を切り出した後に、所定の方向にずらす。換言すれば、学習装置１０は、画像を切り出した後は、大きな画像に基づいた処理を要せず、切り出した小さな画像に基づいた処理を行う。したがって、本実施形態によれば、学習装置１０は、処理を軽くすることができる。

【0076】

また、以上説明した実施形態によれば、動画情報生成部１２は、所定の方向に、所定のビット数移動させた位置における複数の画像を切り出す。動画情報生成部１２は、切り出した画像を繋げることにより動画を生成する。すなわち、動画情報生成部１２により生成される動画に撮像された被写体は、動画の中では、所定の方向に移動するように見える。したがって、本実施形態によれば、静止画から動画を容易に生成することができる。

【0077】

また、以上説明した実施形態によれば、動画情報生成部１２が画像を切り出す所定の方向とは、アフィン変換により算出される。動画情報生成部１２が画像を切り出す所定の方向とは、換言すれば、動画の中で被写体が移動する方向である。したがって、本実施形態によれば、学習装置１０は、被写体が様々な方向に移動する動画を生成することができる。

【0078】

また、以上説明した実施形態によれば、学習装置１０は、軌跡ベクトル取得部１４を更に備えることにより、軌跡ベクトルＴＶを取得する。また、動画情報生成部１２が画像を切り出す所定の方向は、取得された軌跡ベクトルＴＶに基づいて算出される。軌跡ベクトルＴＶとは、実際に撮像された動画の中で、実際に被写体が移動している軌跡を示すベクトルに関する情報である。したがって、本実施形態によれば、実際に被写体が移動している軌跡に基づいた動画を生成することができる。

【0079】

［第２の実施形態］
次に、図９及び図１０を参照しながら第２の実施形態について説明する。第１の実施形態においては、教師データＴＤの作成のために、高品質画像と低品質画像を要していたのに対し、第２の実施形態では、高品質画像のみを必要とする点において、第１の実施形態とは異なる。

【0080】

図９は、第２の実施形態に係る学習システムの概要について説明するための図である。同図を参照しながら、第２の実施形態に係る学習システム１Ｂの概要について説明する。同図の説明において、第１の実施形態と同様の構成については、同様の符号を付すことにより説明を省略する場合がある。第２の実施形態において、撮像装置２０は、高画質画像３１を撮像する。低画質画像３２は、第２の実施形態に係る学習装置１０Ｂにより、高画質画像３１に基づき生成される。低画質画像３２は、例えば高画質画像３１を画像処理することにより、ノイズを重畳し、生成される。すなわち本実施形態によれば、撮像装置２０は、高画質画像３１のみを撮像し、低画質画像３２の撮像を要しない。

【0081】

図１０は、第２の実施形態に係る動画情報生成部の機能構成の一例を示す図である。同図を参照しながら、学習装置１０Ｂが備える動画情報生成部１２Ｂについて説明する。第２の実施形態に係る学習装置１０Ｂは、動画情報生成部１２に代えて、動画情報生成部１２Ｂを備える点において学習装置１０とは異なる。動画情報生成部１２Ｂは、切出部１２１と、ノイズ重畳部１２３と、第１動画情報生成部１２５と、第２動画情報生成部１２７とを備える。

【0082】

切出部１２１は、画像取得部１１から画像を取得する。本実施形態において、学習装置１０Ｂは、撮像装置２０から高品質画像を取得するため、切出部１２１は、画像取得部１１から高品質画像を取得する。切出部１２１は、取得した高品質画像の一部であって、異なる位置座標の切り出し画像ＣＩを複数切り出す。切出部１２１は、切り出した切り出し画像ＣＩを第１動画情報生成部１２５及びノイズ重畳部１２３に出力する。

【0083】

ノイズ重畳部１２３は、切出部１２１により切り出された切り出し画像ＣＩを取得する。ノイズ重畳部１２３は、取得した切り出し画像ＣＩに対してノイズを重畳する。ノイズ重畳部１２３は、複数の位置座標を切り出した複数の切り出し画像ＣＩを取得し、取得した複数の切り出し画像ＣＩそれぞれに対してノイズを重畳する。ノイズ重畳部１２３により重畳されるノイズは、予めモデル化されていてもよい。モデル化されたノイズとしては、光子数のゆらぎによるショットノイズ、撮像素子に入射した光を電子に変換する際に生じるノイズ、変換された電子をアナログ電圧値に変換する際に生じるノイズ、変換されたアナログ電圧値をデジタル信号に変換する際に生じるノイズ等を例示することができる。重畳されるノイズの強度は、所定の方法により調整されてもよい。ノイズ重畳部１２３は、複数の切り出し画像ＣＩそれぞれに対して、異なるノイズを重畳することが好適である。ノイズ重畳部１２３は、ノイズを重畳した後の画像をノイズ画像ＮＩとして第２動画情報生成部１２７に出力する。

【0084】

第１動画情報生成部１２５は、切出部１２１から複数の切り出し画像ＣＩを取得する。第１動画情報生成部１２５は、切り出した複数の画像を組み合わせて第１動画情報Ｍ１を生成する。第１動画情報生成部１２５は、生成した第１動画情報Ｍ１を学習部１３に出力する。

【0085】

第２動画情報生成部１２７は、ノイズ重畳部１２３から複数のノイズ画像ＮＩを取得する。第２動画情報生成部１２７は、ノイズが重畳された複数のノイズ画像ＮＩを組み合わせて第２動画情報Ｍ２を生成する。第２動画情報生成部１２７は、生成した第２動画情報Ｍ２を学習部１３に出力する。

【0086】

学習部１３は、第１動画情報生成部１２５から第１動画情報Ｍ１を取得し、第２動画情報生成部１２７から第２動画情報Ｍ２を取得する。学習部１３は、動画情報生成部１２Ｂにより生成された第１動画情報Ｍ１と、第２動画情報Ｍ２とに基づき、学習モデル４０を学習させる。

【0087】

［第２の実施形態のまとめ］
以上説明した実施形態によれば、学習装置１０Ｂは、画像取得部１１を備えることにより、少なくとも１枚の高品質画像を含む画像情報Ｉを取得する。また、学習装置１０Ｂは動画情報生成部１２Ｂを備えることにより高品質画像から高品質動画と低品質動画の両方を生成する。動画情報生成部１２Ｂは、切出部１２１を備えることにより、取得した画像情報Ｉの一部であって異なる位置の画像を複数切り出す。また、動画情報生成部１２Ｂは、ノイズ重畳部１２３を備えることにより、切出部１２１により切り出された複数の画像それぞれに対しノイズを重畳する。動画情報生成部１２Ｂは、第１動画情報生成部１２５を備えることにより、切出部１２１により切り出された複数の画像を組み合わせて高品質動画である第１動画情報Ｍ１を生成し、第２動画情報生成部１２７を備えることによりノイズ重畳部１２３によりノイズが重畳された複数の画像を組み合わせて第２動画情報Ｍ２を生成する。また、学習装置１０Ｂは、学習部１３を備えることにより第１動画情報生成部１２５により生成された第１動画情報Ｍ１と、第２動画情報生成部１２７により生成された第２動画情報Ｍ２とが含まれる教師データＴＤに基づき、低画質動画から高画質動画を推論するよう学習させる。すなわち学習装置１０Ｂによれば、１枚の高品質画像に基づき、高品質動画と低品質動画とを生成し、低品質動画から高品質動画を推論するような学習モデル４０を学習させる。低品質動画から高品質動画の推論は、言い換えればノイズの除去である。したがって、本実施形態によれば、教師データＴＤの取得に時間を要せず、容易にノイズ除去モデルを学習させることができる。

【0088】

なお、第２の実施形態では、高品質画像から高品質動画を生成し、更に高品質画像に対してノイズを重畳することにより低品質画像を生成し、生成した低品質画像に基づき低品質動画を生成した。しかしながら本実施形態はこの一例に限定されない。例えば、本実施形態の変形例として、学習装置１０は、低品質画像のみに基づき、教師データＴＤを作成してもよい。すなわち、低品質画像から低品質動画を生成し、更に低品質動画からノイズを除去することにより高品質画像を生成し、生成した高品質画像に基づき高品質動画を生成してもよい。動画の生成に用いられる画像は、１枚であってもよいし、複数枚であってもよい。

【0089】

なお、第１の実施形態において説明した学習装置１０及び学習装置１０Ａ並びに第２の実施形態において説明した学習装置１０Ｂは、低画質動画から高画質動画を推論する学習モデル４０の学習に用いられる例を示したが、これに限られるものではない。例えば、学習モデル４０において、低画質動画から高画質動画を推論した後に、高画質動画における人物等の特定の被写体を検出する機能を備えるように構成してもよいし、高画質動画において標識や看板等の文字認識を行う機能を備えるように構成してもよい。すなわち、学習モデル４０により推論される高画質動画は、鑑賞用の動画の一例に限定されず、物体検知等の用途に用いられてもよい。

【0090】

従来、学習モデルの汎化性能を向上させるには、想定されるシーンを可能な限りすべて教師データに含めることが好適であった。言い換えれば、想定される被写体の動きを可能な限りすべて含む動画が理想的な教師データといえる。一方で、このような教師データを実際の撮影により取得することは困難であり、膨大なコストと時間が必要になる。本実施形態を学習モデルの学習に用いることで、教師データの収集に要していたコストと時間を大幅に削減することができる、また、本実施形態を学習モデルの学習に用いることで、学習モデルの汎化性能を向上させることが可能となる。

【0091】

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何ら限定されるものではなく、本発明の趣旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

【符号の説明】

【0092】

１…学習システム、１０…学習装置、１１…画像取得部、１２…動画情報生成部、１３…学習部、１４…軌跡ベクトル取得部、２０…撮像装置、３１…高画質画像、３２…低画質画像、３３…高画質動画、３４…低画質動画、４０…学習モデル、５０…軌跡ベクトル生成装置、ＴＤ…教師データ、Ｉ…画像情報、Ｉ１…第１画像情報、Ｉ２…第２画像情報、Ｍ…動画情報、Ｍ１…第１動画情報、Ｍ２…第２動画情報、ＴＶ…軌跡ベクトル、１２１…切出部、１２３…ノイズ重畳部、第１動画情報生成部１２５、第２動画情報生成部１２７

【図1】