IP Force 特許公報掲載プロジェクト 2022.1.31 β版

ホーム > 特許ランキング > キヤノン株式会社

知財求人 - 知財ポータルサイト「IP Force」

▶ キヤノン株式会社の特許一覧

特開2025-143679画像処理方法、画像処理装置および撮像装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025143679

(43)【公開日】2025-10-02

(54)【発明の名称】画像処理方法、画像処理装置および撮像装置

(51)【国際特許分類】

G06T 3/4046 20240101AFI20250925BHJP

G06T 7/00 20170101ALI20250925BHJP

G06T 7/20 20170101ALI20250925BHJP

H04N 23/60 20230101ALI20250925BHJP

【ＦＩ】

G06T3/4046

G06T7/00 350C

G06T7/20

H04N23/60 500

【審査請求】未請求

【請求項の数】18

【出願形態】ＯＬ

(21)【出願番号】P 2024043029

(22)【出願日】2024-03-19

(71)【出願人】

【識別番号】000001007

【氏名又は名称】キヤノン株式会社

(74)【代理人】

【識別番号】100110412

【弁理士】

【氏名又は名称】藤元亮輔

(74)【代理人】

【識別番号】100104628

【弁理士】

【氏名又は名称】水本敦也

(74)【代理人】

【識別番号】100121614

【弁理士】

【氏名又は名称】平山倫也

(72)【発明者】

【氏名】大野雪乃

(72)【発明者】

【氏名】井田義明

(72)【発明者】

【氏名】楠美祐一

【テーマコード（参考）】

5B057

5C122

5L096

【Ｆターム（参考）】

5B057BA02

5B057CA08

5B057CA12

5B057CA16

5B057CB08

5B057CB12

5B057CB16

5B057CC01

5B057CD05

5B057CD06

5B057CE08

5B057DA07

5B057DB02

5B057DB09

5B057DC40

5C122DA03

5C122EA37

5C122FH07

5C122FH12

5C122HA46

5C122HA48

5C122HA89

5C122HB01

5L096AA06

5L096CA04

5L096DA01

5L096EA14

5L096EA33

5L096FA32

5L096GA08

5L096HA04

5L096HA11

5L096KA04

(57)【要約】

【課題】動きベクトルを生成する機械学習モデルが学習した画像サイズで制限されずに、動きベクトルを用いた高精度な機械学習タスクを行う。
【解決手段】画像処理方法は、同一の物体の少なくとも一部を互いに異なる位置に含む第１の画像と第２の画像を縮小して、第１の画像に対応する第３の画像と第２の画像に対応する第４の画像を生成する。第１の機械学習モデルを用いて、第３の画像と第４の画像とに基づいて第１の動きベクトルを生成する。第１の動きベクトルを拡大して第２の動きベクトルを生成する。第２の機械学習モデルを用いて、第１の画像と第２の画像と第２の動きベクトルとに基づいて第５の画像を生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

同一の物体の少なくとも一部を互いに異なる位置に含む第１の画像と第２の画像を縮小して、前記第１の画像に対応する第３の画像と前記第２の画像に対応する第４の画像を生成する工程と、
第１の機械学習モデルを用いて、前記第３の画像と前記第４の画像とに基づいて第１の動きベクトルを生成する工程と、
前記第１の動きベクトルを拡大することで第２の動きベクトルを生成する工程と、
第２の機械学習モデルを用いて、前記第１の画像と前記第２の画像と前記第２の動きベクトルとに基づいて第５の画像を生成する工程とを有することを特徴とする画像処理方法。

【請求項2】

前記第１の画像と前記第２の画像は、同一の動画から抽出された画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項3】

前記第１の画像と前記第２の画像はそれぞれ、第１の元画像と第２の元画像を分割して得られた画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項4】

前記第５の画像は、前記第１の画像に対応し、かつ該第１の画像よりも高解像度の画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項5】

前記第５の画像は、前記第１の画像がアップスケールされた画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項6】

前記第５の画像は、前記第１および第２の画像を含む動画がアップフレームレートされた動画を構成する画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項7】

前記第１の機械学習モデルは、畳み込みニューラルネットワークであることを特徴とする請求項１に記載の画像処理方法。

【請求項8】

前記第２の機械学習モデルは、畳み込みニューラルネットワークであることを特徴とする請求項１に記載の画像処理方法。

【請求項9】

前記第１の画像、前記第２の画像および前記第２の動きベクトルは、互いに同一サイズを有することを特徴とする請求項１に記載の画像処理方法。

【請求項10】

前記第１の動きベクトルの拡大は、補間処理または前記第１の機械学習モデルとは独立して学習される機械学習モデルを用いて行われることを特徴とする請求項１に記載の画像処理方法。

【請求項11】

前記第３の画像と前記第４の画像はともに第１のサイズの画像であり、
前記第１の機械学習モデルの学習に用いられる第１の学習画像セットは前記第１のサイズ以上の画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項12】

前記第１の画像と前記第２の画像はともに第３のサイズの画像であり、
前記第２の機械学習モデルの学習に用いられる第２の学習画像セットは第４のサイズ以下の画像であることを特徴とする請求項１に記載の画像処理方法。

【請求項13】

請求項１から５および請求項７から１２のいずれか一項に記載の画像処理方法に用いられる前記第１および第２の機械学習モデルの学習を行う学習方法であって、
第１の学習画像と第２の学習画像を前記第１の機械学習モデルに入力して第３の動きベクトルを生成する工程と、
前記第２の学習画像と前記第３の動きベクトルとを用いて、前記第１の学習画像に相当する第１のワープ画像を生成する工程と、
前記第１の学習画像と前記第１のワープ画像との差に基づいて、前記第１の機械学習モデルの学習を行う工程と、
第３の学習画像と第４の学習画像を学習済みの前記第１の機械学習モデルに入力して第４の動きベクトルを生成する工程と、
前記第３の学習画像と前記第４の学習画像と前記第４の動きベクトルとを前記第２の機械学習モデルに入力し、該第２の機械学習モデルに、前記第４の学習画像と前記第４の動きベクトルに基づいて前記第３の学習画像に相当する第２のワープ画像を生成させるとともに、前記第３の学習画像と前記第２のワープ画像とを用いて第６の画像を生成させる工程と、
前記第６の画像と正解画像との差に基づいて、前記第２の機械学習モデルの学習を行う工程とを有することを特徴とする学習方法。

【請求項14】

同一の物体の少なくとも一部を互いに異なる位置に含む第１の画像と第２の画像を縮小して、前記第１の画像に対応する第３の画像と前記第２の画像に対応する第４の画像を生成する手段と、
第１の機械学習モデルを用いて、前記第３の画像と前記第４の画像とに基づいて第１の動きベクトルを生成する手段と、
前記第１の動きベクトルを拡大して第２の動きベクトルを生成する手段と、
第２の機械学習モデルを用いて、前記第１の画像と前記第２の画像と前記第２の動きベクトルとに基づいて第５の画像を生成する手段とを有することを特徴とする画像処理装置。

【請求項15】

請求項１３に記載の画像処理装置と、
光学系を通して物体を撮像する撮像素子とを有し、
前記第１および第２の画像を取得するための元画像を生成することを特徴とする撮像装置。

【請求項16】

請求項１から５および請求項７から１２のいずれか一項に記載の画像処理方法に用いられる前記第１および第２の機械学習モデルの学習を行う学習装置であって、
第１の学習画像と第２の学習画像を前記第１の機械学習モデルに入力して第３の動きベクトルを生成する手段と、
前記第２の学習画像と前記第３の動きベクトルとを用いて、前記第１の学習画像に相当する第１のワープ画像を生成する手段と、
前記第１の学習画像と前記第１のワープ画像との差に基づいて、前記第１の機械学習モデルの学習を行う手段と、
第３の学習画像と第４の学習画像を学習済みの前記第１の機械学習モデルに入力して第４の動きベクトルを生成する手段と、
前記第３の学習画像と前記第４の学習画像と前記第４の動きベクトルとを前記第２の機械学習モデルに入力し、該第２の機械学習モデルに、前記第４の学習画像と前記第４の動きベクトルに基づいて前記第３の学習画像に相当する第２のワープ画像を生成させるとともに、前記第３の学習画像と前記第２のワープ画像とを用いて第６の画像を生成させる手段と、
前記第６の画像と正解画像との差に基づいて、前記第２の機械学習モデルの学習を行う手段とを有することを特徴とする学習装置。

【請求項17】

請求項１から１２のいずれか一項に記載の画像処理方法に従う処理をコンピュータに実行させることを特徴とするプログラム。

【請求項18】

請求項１３に記載の学習方法に従う処理をコンピュータに実行させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、機械学習モデルを用いて生成される動きベクトルを利用した機械学習タスクを行う技術に関する。

【背景技術】

【0002】

動きベクトルを用いた画像処理方法として、非特許文献１には、動画に含まれる参照フレームと隣接フレームを第１の機械学習モデルに入力して参照フレームと隣接フレーム間の動きベクトルを生成し、動きベクトルをｂｉｌｉｎｅａｒ補間で拡大する方法が開示されている。この方法では、拡大された動きベクトルと、参照フレームと、第２の機械学習モデルでアップスケールされた隣接フレームとを第２の機械学習モデルに入力することで、参照フレームのアップスケールを行う。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Mehdi SM Sajjadi, Raviteja Vemulapalli, and Matthew Brown. Frame-recurrent video super-resolution. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6626-6634, 2018.

【発明の概要】

【発明が解決しようとする課題】

【0004】

非特許文献１にて開示された方法では、高精度なアップスケールを実現できる参照フレームのサイズが第１の機械学習モデルが学習した画像サイズに基づいて制限される。具体的には、動きベクトルを生成する第１の機械学習モデルに入力する画像のサイズは、第１の機械学習モデルが学習した画像サイズに基づいて制限される。このため、第１の機械学習モデルを用いて生成された動きベクトルを用いる第２の機械学習モデルに入力する画像のサイズも同様に第１の機械学習モデルが学習した画像サイズに基づいて制限される。

【0005】

本発明は、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、動きベクトルを用いた高精度な機械学習タスクを行うことが可能な画像処理方法および画像処理装置を提供する。

【課題を解決するための手段】

【0006】

本発明の一側面としての画像処理方法は、同一の物体の少なくとも一部を互いに異なる位置に含む第１の画像と第２の画像を縮小して、第１の画像に対応する第３の画像と第２の画像に対応する第４の画像を生成する工程と、第１の機械学習モデルを用いて、第３の画像と第４の画像とに基づいて第１の動きベクトルを生成する工程と、第１の動きベクトルを拡大して第２の動きベクトルを生成する工程と、第２の機械学習モデルを用いて、第１の画像と第２の画像と第２の動きベクトルとに基づいて第５の画像を生成する工程とを有することを特徴とする。なお、上記画像処理方法に従う処理を行う画像処理装置とこれを含む撮像装置、さらには該処理をコンピュータに実行させるプログラムも、本発明の他の一側面を構成する。

【発明の効果】

【0007】

本発明によれば、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、動きベクトルを用いた高精度な機械学習タスクを行うことができる。

【図面の簡単な説明】

【0008】

【図1】実施例１における推定フェーズの流れを示す図。

【図2】機械学習モデルが生成した動きベクトルを用いて機械学習タスクを実行する従来の流れを示す図。

【図3】実施例１における画像処理システムの構成を示すブロック図。

【図4】実施例１における画像処理システムの外観図。

【図5】実施例１における第１の機械学習モデルの学習データの生成処理を示すフローチャート。

【図6】実施例１における第１の機械学習モデルのウエイトの学習（第１の学習フェーズ）の処理を示すフローチャート。

【図7】実施例１における第２の機械学習モデルの学習データの生成処理を示すフローチャート。

【図8】実施例１における第２の機械学習モデルのウエイトの学習（第２の学習フェーズ）の処理を示すフローチャート。

【図9】実施例１における推定フェーズに関するフローチャート。

【図10】実施例２における画像処理システムの構成を示すブロック図。

【図11】実施例２における画像処理システムの外観図。

【図12】実施例２における第２の機械学習モデルの学習データの生成処理を示すフローチャート。

【図13】実施例２における第２の機械学習モデルのウエイトの学習（第２の学習フェーズ）の処理を示すフローチャート。

【図14】実施例２における推定フェーズの流れを示す図。

【図15】実施例２における推定フェーズの処理を示すフローチャート。

【発明を実施するための形態】

【0009】

以下、本発明の実施例について図面を参照しながら説明する。

【0010】

ここでは、実施例１～３について具体的に説明する前に、各実施例において共通する事項について説明する。

【0011】

各実施例において、「サイズ」とは、画像またはマップの幅と高さにおける画素数である。また「動きベクトル」は、画像ペア（２つのフレーム画像）間の互いに対応する画素の動きをベクトルで表したものである。

【0012】

まず各実施例が解決する課題について説明する。画像ペアに基づいて画像ペア内の動きベクトルを生成する機械学習モデルにおいて、画像ペアのサイズは機械学習モデルが学習した画像サイズに基づいて制限される。具体的には、学習した画像サイズの閾値倍より大きなサイズの画像ペアに基づいて動きベクトルを生成する場合、動きベクトル（オプティカルフロー）の精度が大きく損なわれる。閾値は、機械学習モデルのモデル構造や画像ペア内に含まれる物体の動き量などによって変動するものの、１以上２未満の範囲の値である。例えば、１２８×１２８画素の画像ペアを入力して動きベクトルを生成するように学習された機械学習モデルに２５６×２５６画素の画像ペアを入力する場合、生成される動きベクトルの精度が大きく損なわれる。

【0013】

以下、その理由を説明する。動きベクトルの生成タスクを行う機械学習モデルは、画像ペアの各画素における動きベクトルを広範囲の周辺画素を考慮して生成するよう学習される。その際、機械学習モデルの受容野に含まれる各周辺画素の寄与度は、学習に用いる画像ペアのサイズに合わせて最適化される。すなわち、受容野内の各周辺画素の寄与度は学習時に与えられた画像ペアのサイズに基づいて自動的に調整され、動きベクトルの生成タスクにおいては受容野内の広範囲の周辺画素が高い寄与度を有するように学習される。

【0014】

一方、学習した画像サイズよりも大きなサイズの画像ペアに基づいて動きベクトルを生成する場合、学習時に比べて受容野が広げられて不必要に広範囲の隣接画素の影響を受けるため、生成される動きベクトルの精度が大きく損なわれる。

【0015】

このように、画像ペアに基づいて動きベクトルを生成する機械学習モデルでは、画像ペアのサイズは機械学習モデルが学習した画像サイズに基づいて制限される。これに伴い、機械学習モデルで生成された動きベクトルを用いる機械学習タスクにおける画像サイズも同様に、機械学習モデルが学習した画像サイズに基づいて制限される。

【0016】

図２は、従来において機械学習モデルが生成した動きベクトルを用いて機械学習タスクを実行する処理を示している。図２は、画像ペアである画像１０１と画像１０２から出力としての画像１０４を生成する、最も単純な従来処理を示している。この従来処理では、まず画像１０１と画像１０２を機械学習モデル１１１に入力して、画像１０１と画像１０２の間の動きベクトル１０３を生成する。次に画像１０１と画像１０２と動きベクトル１０３とを機械学習モデル１１２に入力して、画像１０４を生成する。例えば、機械学習モデル１１２において、２５６×２５６画素の画像１０１と画像１０２から画像１０４を生成する場合には、機械学習モデル１１１においても２５６×２５６画素の画像１０１と画像１０２を入力して動きベクトル１０３を生成する必要がある。

【0017】

一方、機械学習モデル１１１が１２８×１２８画素の画像ペアを入力して動きベクトルを生成するように学習されている場合は、生成される動きベクトル１０３の精度は大きく損なわれる。その結果、機械学習モデル１１２において、高精度に画像１０４を生成することができない。この詳細については各実施例において説明する。

【0018】

各実施例では、上記課題を解決して、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、この機械学習モデルが生成した動きベクトルを用いる機械学習タスクを高精度に実行する方法を示している。具体的には、第１の画像と第２の画像とをそれぞれ縮小した第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１動きベクトルを生成する。

【0019】

そして各実施例では、第１動きベクトルを拡大した第２動きベクトルと、第１の画像と、第２の画像とに基づいて、第２の機械学習モデルを用いて第５の画像を生成する。ここで、第１の画像と第２の画像はともに同じ第３のサイズの画像であり、第３の画像と第４の画像とはともに同じ第１のサイズの画像である。第１の機械学習モデルは、該第１の機械学習モデルが学習した画像サイズに基づいて制限された第１のサイズで、高精度に第１動きベクトルを生成することができる。一方、第２の機械学習モデルは、第１の機械学習モデルの学習した画像サイズに基づいて制限されない第３のサイズで、高精度に第５の画像を生成することができる。

【0020】

以下、各実施例の詳細を説明する。各実施例では、まず第１の画像と第２の画像とを縮小して、第１の画像に対応する第３の画像と第２の画像に対応する第４の画像とを生成する。第１の画像と第２の画像は、同一の物体の少なくとも一部が互いに異なる位置に含まれる画像ペアである。なお、第１の画像と第２の画像は、同一の動画から抽出される画像であってもよい。

【0021】

また第１の画像から第３の画像への縮小と第２の画像から第４の画像への縮小は、画像から画像への変換を行う同一の縮小処理を用いて行われる。縮小処理は、例えば、複数画素から１画素のみを抽出するダウンサンプルや、複数画素を用いて新しい１画素の画素値を生成するビニングによるものである。

【0022】

次に、各実施例では、第１の機械学習モデルを用いて、第３の画像と第４の画像とに基づいて第１動きベクトルを生成する。ここで、第１動きベクトルは、第３の画像と第４の画像との間で互いに対応する画素の動きをベクトルで表したものである。例えば、第１動きベクトルは、第３の画像の各画素についての第４の画像から第３の画像への移動を示すベクトルである。また、第１動きベクトルは、第３の画像と第４の画像とを第１の機械学習モデルに入力することで生成されてもよい。

【0023】

第１の機械学習モデルは、例えば、畳み込みニューラルネットワーク（ＣＮＮ）である。ただし、第１の機械学習モデルは、第２のサイズを有する複数の画像からなる第１学習画像セットに基づいて動きベクトルを生成するよう学習されてもよい。また、第２のサイズは第１のサイズ（第３の画像と第４の画像のサイズ）以上のサイズであることが好ましい。前述したように第２のサイズの閾値倍より大きなサイズの画像ペアに基づいて動きベクトルを生成する場合、生成される動きベクトルの精度が大きく損なわれる。また閾値は第１の機械学習モデルのモデル構造や画像ペアに含まれる物体の動き量等によって変動するものの、１以上２未満の範囲の値である。第１のサイズを第２のサイズ以下（つまりは第２のサイズを第１のサイズ以上）にすることで、第１の機械学習モデルは、該第１の機械学習モデル自体や第３および第４の画像にかかわらず、高精度な第１動きベクトルを生成することができる。

【0024】

続いて各実施例では、第１動きベクトルを拡大処理により拡大して、第２動きベクトルを生成する。各実施例での拡大処理は、第１の機械学習モデルとは独立した処理である。この拡大処理は、第１の機械学習モデルと独立していれば、機械学習モデルを用いる拡大処理であってもよいし、機械学習モデルを用いない拡大処理であってもよい。機械学習モデルを用いる拡大処理は、例えば、１層以上の逆畳み込み層を用いる処理や、サブピクセルコンボリューション処理である。サブピクセルコンボリューション処理は、畳み込み演算の後、画素を再配置することで拡大を行う処理である。ただし、これらの拡大処理は、第１の機械学習モデルに基づいて学習されていないウエイトを用いる。機械学習モデルを用いない拡大処理には、nearest neighbor補間、bilinear補間またはbicubic補間等の公知の補間方法が用いられる。また、この拡大処理における拡大倍率は、第１の画像と第２の画像とをそれぞれ第３の画像と第４の画像とに縮小する縮小処理における縮小倍率と同一であってもよい。さらに、第２動きベクトルは、第１の画像と第２の画像と同一の第３のサイズを有してもよい。

【0025】

最後に各実施例では、第２の機械学習モデルを用いて、第１の画像と第２の画像と第２動きベクトルとに基づいて第５の画像を生成する。第２の機械学習モデルは、例えば、ＣＮＮである。また、第５の画像は、第１の画像と第２の画像と第２動きベクトルとを第２の機械学習モデルに入力することで生成されてもよい。他にも、第５の画像は、第１の画像、第２の画像または第２動きベクトルに処理を施した後、第２の機械学習モデルに入力することで生成されてもよい。例えば、第１の画像と第２の画像のそれぞれを予め補間処理などで拡大した後、拡大された第１の画像と拡大された第２の画像と第２動きベクトルとを第２の機械学習モデルに入力することで作成されてもよい。

【0026】

さらに、第２の機械学習モデルは、第４のサイズを有する複数の画像からなる第２学習画像セットに基づいて画像を生成するよう学習されてもよい。第３のサイズ（第１の画像と第２の画像のサイズ）は第４のサイズ以上（つまりは第４のサイズは第３のサイズ以下）であってもよい。

【0027】

各実施例の処理で得られる効果について、図２に示した従来処理と比較しながら説明する。前述したように図２の従来処理は、画像１０１と画像１０２から画像１０４を生成する最も単純な処理である。そしてこの従来処理により高精度に画像１０４を生成するためには、画像１０１と画像１０２の画像サイズ（第３のサイズ相当）は機械学習モデル１１１が学習に用いる画像のサイズ（第２のサイズ相当）に基づいて制限される。さらに従来処理では、機械学習モデル１１２の学習も図２に示した流れで行われるため、機械学習モデル１１２が学習に用いる画像のサイズ（第４のサイズ相当）も同様に機械学習モデル１１１が学習に用いる画像のサイズ（第２のサイズ相当）に基づいて制限されることとなる。機械学習モデル１１２自体や機械学習モデル１１２が学習に用いる画像にかかわらず、機械学習モデル１１２の効果的な学習を行うために、理想的には第４のサイズは第２のサイズ以下に制限される。

【0028】

一方、機械学習モデル１１２が学習に用いる画像のサイズはできるだけ大きい方がよい。これは、この画像サイズが大きいほど、機械学習モデル１１２はより大きなサイズの画像１０１と画像１０２に対して高精度な画像１０４を生成できるためである。したがって、第４のサイズは第２のサイズと等しく設定される。以上のことから、従来処理では、画像１０１と画像１０２の画像サイズ（第３のサイズ相当）は、機械学習モデル１１２が学習した画像サイズ（第４のサイズ相当）に基づいて制限される。

【0029】

各実施例では、従来処理と同様の流れで第２の機械学習モデルの学習をしてもよい。すなわち、第２の機械学習モデルは、画像ペアと、この画像ペアを第１の機械学習モデルに入力して生成された動きベクトルとに基づいて、新たな画像を生成するように学習されてもよい。このとき、第２の機械学習モデルが学習に用いる画像ペアのサイズ（第４のサイズ）は、従来処理と同様に第１の機械学習モデルが学習した第２のサイズに制限され、また従来処理と同様の理由から第２のサイズと等しく設定される。

【0030】

一方、各実施例では、前述したように第１の画像と第２の画像のサイズ（第３のサイズ）は第２のサイズに基づいて制限されない。このため、第３のサイズは、第２のサイズと等しい第４のサイズによっても制限されない。したがって、第３のサイズは第４のサイズ以上であってもよい。第３のサイズを第４のサイズ以上にできることで、学習時の計算リソースによって第４のサイズが制限される場合でも、第２の機械学習モデルや第２の機械学習モデルが実行するタスクの前後の工程にとって最適な第３のサイズを設定できる。すなわち第３のサイズの自由度が向上する。この詳細については実施例１にて説明する。

【0031】

以下に説明する各実施例において、機械学習モデルのウエイトを決定する段階を学習フェーズという。また、学習により決定されたウエイトを用いた第１の機械学習モデルと第２の機械学習モデルを用いて、第１の画像と第２の画像から第５の画像を生成する段階を推定フェーズという。機械学習モデルは、ニューラルネットワーク、遺伝的プログラミングおよびベイジアンネットワーク等を含む。ニューラルネットワークは、ＣＮＮ（Convolutional Neural Network）、ＧＡＮ（Generative Adversarial Network）、ＲＮＮ（Recurrent Neural Network）等を含む。

【実施例0032】

実施例１は、動画を高解像化することを目的とする。低解像度な動画に含まれる複数の低解像度なフレーム画像を高解像化し、高解像化されたフレーム画像を組み合わせて高解像度な動画を生成する。そのため本実施例では、低解像度なフレーム画像の少なくとも一部である第１の画像と、該フレーム画像に隣接する低解像度なフレーム画像の少なくとも一部である第２の画像とをそれぞれ縮小して第３の画像と第４の画像を生成する。また、第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１動きベクトルを生成する。さらに第１動きベクトルを拡大して生成された第２動きベクトルと第１の画像と第２の画像とに基づいて、第２の機械学習モデルを用いて、第１の画像に対応し、かつ第１の画像より高解像度な第５の画像を生成する。第５の画像は、高解像度なフレーム画像の少なくとも一部である。

【0033】

実施例１では、低解像度な元の動画を高解像化することで、動画の幅方向および高さ方向のそれぞれにて２倍（すなわち合計４倍）のサイズを有する高解像度な動画を生成する。生成される高解像度な動画は、低解像度な元の動画に対してサンプリングピッチが２倍小さい動画である。本実施例における高解像化は、高画素化である。第５の画像は第１の画像がアップスケールされた画像であり、第５の画像のサイズは第１の画像のサイズより大きい。ただし、高解像化は高画素化に限らない。例えば、第５の画像は、第１の画像と同じサイズを有し、第１の画像からノイズ、ぼけ、振れ等が除去された画像でもよい。

【0034】

本実施例では、第１の画像に加えて時間的に隣接する第２の画像を用いて第５の画像を生成する。これにより、第１の画像のみを用いて第５の画像を生成する場合に比べて、より高解像度な第５の画像を生成することができる。これは、第１の画像に存在しない物体の情報を、同一物体の情報を有する第２の画像から補うことができるためである。

【0035】

本実施例によれば、以下の効果を得ることができる。第１の機械学習モデルは、該第１の機械学習モデルが学習した画像サイズ（第２のサイズ）に基づいて制限した第３の画像と第４の画像のサイズ（第１のサイズ）で高精度に第１動きベクトルを生成することができる。本実施例では、高精度な第１動きベクトルを用いることで、第２の機械学習モデルの内部で第２の画像を第１の画像相当の画像になるように（第２の画像の各画素を第１の画像の対応する画素の位置に合わせるように）正確に位置合わせをすることができる。このため、第２の画像が有する物体の情報をより高精度に集約することができる。これは特に、第２の機械学習モデルの受容野が小さい場合に有効である。そして本実施例は、第２のサイズに基づいて制限されない第１の画像と第２の画像のサイズ（第３のサイズ）に対して有効である。

【0036】

本実施例では、第１の画像に加え、第１の画像と時間的に隣接する第２の画像を用いて第１の画像を高解像化した第５の画像を生成する例について説明するが、より好ましくは、第１の画像と時間的に近接するより多くの画像を用いる方がよい。これにより、第１の画像に存在しない物体の情報をより多くの画像から補うことができ、より高解像度な第５の画像を生成できる。

【0037】

図３は、実施例１における画像処理システム２００の構成を示している。図４は、画像処理システム２００の外観を示している。画像処理システム２００は、学習装置２０１、撮像装置２０２およびネットワーク２０３を有する。学習装置２０１と撮像装置２０２は、互いに有線または無線のネットワーク２０３で接続されている。

【0038】

学習装置２０１は、パーソナルコンピュータ等のコンピュータにより構成され、記憶部２１１、取得部２１２、生成部２１３および更新部２１４を有し、プログラムに従って動作して機械学習モデルのウエイトを決定する。

【0039】

撮像装置２０２は、光学系２２１、撮像素子２２２、画像処理装置としての画像推定部２２３、記憶部２２４、記録媒体２２５、表示部２２６およびシステムコントローラ２２７を有する。光学系２２１は、物体が存在する空間から入射した光を集光して物体像を形成する。光学系２２１は、必要に応じてズーム、絞りおよびオートフォーカス等の機能を有する。撮像素子２２２は、光学系２２１により形成された物体像を電気信号に変換することで（つまりは光学系２２１を通して物体を撮像することで）、画像データとしての撮像動画を生成する。撮像素子２２２は、ＣＣＤ（Charge Coupled Device）センサやＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサ等により構成される。

【0040】

画像推定部２２３は、ＣＰＵやＭＰＵ等のコンピュータにより構成され、プログラムに従って動作することで、光学系２２１と撮像素子２２２とにより生成された撮像動画を高解像化する。そのために撮像動画を構成するフレーム画像の一部である第１の画像と第２の画像のそれぞれを縮小した第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１の動きベクトルを生成する。さらに画像推定部２２３は、第１の動きベクトルを拡大した第２の動きベクトルと、第１の画像と、第２の画像とに基づいて、第２の機械学習モデルを用いて第５の画像を生成する。そして画像推定部２２３は、第５の画像を用いて、撮像動画を高解像化した高解像度動画を生成する。第５の画像の生成には、学習装置２０１で予め決定された機械学習モデルのウエイトが用いられる。ウエイトは、記憶部２２４に記憶されている。画像推定部２２３は、取得部２２３ａ、演算部２２３ｂおよび推定部２２３ｃを有する。画像推定部２２３で行われる処理の詳細については後述する。

【0041】

記録媒体２２５は、高解像度動画を記録する。表示部２２６は、ユーザから高解像度動画の出力に関する指示がなされた場合、高解像度動画を表示する。以上の動作は、システムコントローラ２２７によって制御される。

【0042】

本実施例で行われる処理は、第１の機械学習モデルの学習データの生成、第１の機械学習モデルのウエイトの学習（第１の学習フェーズ）、第２の機械学習モデルの学習データの生成、第２の機械学習モデルのウエイトの学習（第２の学習フェーズ）および学習済のウエイトを用いた第１の機械学習モデルと第２の機械学習モデルによる推定（推定フェーズ）に大別される。

【0043】

まず図５のフローチャートを用いて、学習装置２０１により行われる第１の機械学習モデルの学習データを生成する処理について説明する。本実施例では、第１の機械学習モデルは正解データを必要としない教師なし学習によって学習される。学習データは第１の学習画像セットであり、第１の機械学習モデルの学習に使用される。次の第１の学習フェーズにおいて、第１の学習画像セットは第１の機械学習モデルに入力される。

【0044】

なお、本実施例では、第１の機械学習モデルの学習データの生成を学習装置２０１が行うが、他の装置が行ってもよい。

【0045】

ステップＳ１０１では、取得部２１２は、記憶部２１１から第１の画像セットを取得する。第１の画像セットは、１組以上の第１の画像ペアを含む。第１の画像ペアのうち一方の画像は、該第１の画像ペアの他方の画像が含む物体のうち少なくとも一部を一方の画像とは異なる位置に含む。第１の画像セット内の第１の画像ペアを構成する各画像は、第１の画像セットに含まれる他の画像と別の第１の画像ペアを構成してもよい。第１の画像セットは、撮像画像を含んでもよいし、ＣＧ（Computer Graphics）画像を含んでもよい。例えば、第１の画像セットは、撮像動画から抽出された複数のフレーム画像を含んでもよい。また第１の画像セットは、ＲＥＤＳ（Realistic and Diverse Scenes）データセット等の公開データセットでもよい。

【0046】

また、第１の画像セットは、様々な物体を含む画像を含むことが好ましい。例えば、様々な強度と方向を有するエッジ、テクスチャ、グラデーションまたは平坦部を含む画像を含むことが好ましい。これにより、第３の画像と第４の画像が含む物体に対して、第１の機械学習モデルの頑健性を向上させることができる。

【0047】

さらに、第１の画像セットは、第３の画像と第４の画像が有する画質劣化を含む画像を含むことが好ましい。画質劣化とは、例えば、輪郭やエッジに含まれるジャギー、空間エイリアシング、圧縮アーティファクトおよびノイズである。これにより、第３の画像と第４の画像が有する画質劣化に対して、第１の機械学習モデルの頑健性を向上させることができる。

【0048】

加えて、第１の画像ペアの一方の画像は、該第１の画像ペアの他方の画像に含まれる複数の物体が互いに異なる動き量や動き方向に移動した画像であることが好ましい。すなわち、第１の画像ペア内の２つの画像は、動き量や動き方向が互いに異なる複数の物体を含むことが好ましい。さらに、第１の画像セットに含まれる複数の第１の画像ペア間でも、物体の異なる動き量や異なる動き方向を含むとよい。これにより、第３の画像と第４の画像の間に含まれる動きに対して、第１の機械学習モデルの頑健性を向上させることができる。

【0049】

次にステップＳ１０２では、生成部２１３は、第１の学習画像セットを生成する。そして本処理を終了する。第１の学習画像セットは、１組以上の第１の学習画像ペアを含む。第１の学習画像ペアは、それぞれ所定のサイズ（第２のサイズ）を有する画像のペアであり、本実施例では第２のサイズは１２８×１２８画素である。また第１の学習画像ペアの一方の画像は、第１の学習画像ペアの他方の画像が含む物体の少なくとも一部を一方の画像とは異なる位置に含む。

【0050】

本実施例では、第１の画像ペアの両画像から同一位置の第２のサイズを有する領域をクロップすることで、第１の学習画像ペアを生成する。ただし、第１の学習画像ペアは、第１の画像ペアの少なくとも一部を第２のサイズにリサイズすることで生成されてもよい。また本実施例では、第１の画像セットから第１の学習画像セットを生成するが、第１の画像セットのサイズが第２のサイズと同じであれば、第１の画像セットから第１の学習画像セットを生成する処理は不要である。

【0051】

次に、図６のフローチャートを用いて、第１の学習フェーズとして、学習装置２０１により行われる第１の機械学習モデルのウエイトを学習する処理（学習方法）について説明する。前述したように本実施例では、第１の機械学習モデルは正解データを必要としない教師なし学習によって学習される。以下、第１の学習画像ペアの一方の画像を第１の学習画像、他方の画像を第２の学習画像という。第１の学習フェーズでは、学習装置２０１は、まず学習データである第１の学習画像セットに含まれる第１の学習画像ペアを第１の機械学習モデルに入力し、第１の学習画像ペア内の対応する画素の動きを示す第３の動きベクトルを得る。

【0052】

次に学習装置２０１は、第３の動きベクトルを用いて、第２の学習画像を第１の学習画像相当の画像になるように（第２の学習画像の各画素を第１の学習画像の対応する画素に近づけるように）位置合わせした画像（後述する第１のワープ画像）を生成する。そして第１の学習画像と第１のワープ画像との差分を小さくするように、第１の機械学習モデルのウエイトを決定する。すなわち、第１の機械学習モデルの学習を行う。

【0053】

ステップＳ２０１では、取得部２１２は、記憶部２１１から１組以上の第１の学習画像ペアを取得する。

【0054】

次にステップＳ２０２では、生成部２１３は、第１の学習画像ペアを第１の機械学習モデルに入力して第３の動きベクトルを生成する。第３の動きベクトルは、第１の学習画像ペア内、すなわち第１の学習画像と第２の学習画像間の対応する画素の動きをベクトルで表したものである。本実施例において、第３の動きベクトルは第１の学習画像ペアと同じサイズを有するが、第３の動きベクトルのサイズはこれに限定されない。本実施例において、第３の動きベクトルは、第１の学習画像の各画像についての第２の学習画像から第１の学習画像への移動を示すベクトルである。また本実施例において、第３の動きベクトルは２種類の２次元マップであり、各２次元マップは第１の学習画像の各画素の位置ごとに水平方向または垂直方向の移動量を示す。

【0055】

本実施例では、第１の機械学習モデルは複数の畳み込み層を有するＣＮＮである。学習の初回において畳み込み層のウエイト（フィルタの係数とバイアス）は乱数により生成される。ただし、第１の機械学習モデルは、ＣＮＮに限らず、ＧＡＮやＲＮＮ等の他の機械学習モデルであってもよい。

【0056】

次にステップＳ２０３では、生成部２１３は、第２の学習画像と第３の動きベクトルを用いて第１のワープ画像を生成する。第１のワープ画像は、第２の学習画像の画素を第３の動きベクトルを用いて移動させることで、第２の学習画像を第１の学習画像相当の画像になるように位置合わせした画像である。

【0057】

生成部２１３は、nearest neighbor補間、bilinear補間、bicubic補間等の公知の補間方法（補間処理）を用いて、第２の学習画像の画素値から第１のワープ画像の各画素値を算出する。この際、第１のワープ画像の画素値を算出するために用いる補間方法は、推定フェーズにおいて第２の機械学習モデルの内部で第２の画像を第１の画像相当の画像になるように位置合わせする際に用いる補間方法と同じであることが好ましい。これにより、第２の機械学習モデルがより高精度な第５の画像を生成するのに適した第１の機械学習モデルの学習を行うことが可能である。

【0058】

本実施例では、第１の学習画像の各画素についての第２の学習画像から第１の学習画像への移動を示す第３の動きベクトルを用いて、第２の学習画像を第１の学習画像相当の画像になるように位置合わせするbackward warpingを採用している。ただし、第３の動きベクトルを用いて、第１の学習画像を第２の学習画像相当の画像になるように位置合わせするforward warpingを行ってもよい。本実施例では、推定フェーズの第２の機械学習モデルにおいてbackward warpingを採用するため、ステップＳ２０３においてもbackward warpingを採用している。すなわち、推定フェーズの第２の機械学習モデルにおいて採用する位置合わせ方法と同じ位置合わせ方法を採用することが好ましい。これにより、第２の機械学習モデルがより高精度な第５の画像を生成するのに適した第１の機械学習モデルの学習を行うことが可能である。

【0059】

次にステップＳ２０４では、更新部２１４は、第１の学習画像と第１のワープ画像との誤差に基づいて、第１の機械学習モデルのウエイトを更新（決定）する。本実施例では、第１の学習画像と第１のワープ画像における画素値の差のシャルボニエロス（Charbonnier loss）をロス関数とする。ただし、ロス関数はこれに限定されない。更新部２１４は、ステップＳ２０１にて複数組の第１の学習画像ペアを取得した場合は、各組に対してロス関数の値を算出する。そして更新部２１４は、算出されたロス関数の値から、誤差逆伝搬法（Backpropagation）等によってウエイトの更新を行う。

【0060】

次にステップＳ２０５では、更新部２１４は、第１の機械学習モデルの学習が完了したか否かを判定する。学習の完了は、ウエイトの更新の反復回数が所定回数に達したことや、更新時のウエイトの変化量が所定値より小さい等によって判定することができる。ウエイトの学習が完了していないと判定された場合は処理はステップＳ２０１へ戻り、取得部２１２は、１組以上の新たな第１の学習画像ペアを取得する。ウエイトの学習が完了したと判定された場合は、更新部２１４は、学習を終了し、ウエイトの情報を記憶部２１１に記憶する。

【0061】

なお、本実施例では、第１の機械学習モデルは教師なし学習によって学習されるが、第１の機械学習モデルの学習方法はこれによらない。例えば、第１の学習画像ペアに対応する第３の動きベクトルの正解データを用いる教師あり学習によって学習されてもよい。

【0062】

図７のフローチャートは、学習装置２０１において行われる第２の機械学習モデルの学習データを生成する処理を示している。学習データは、第２の正解画像セットと第２の学習画像セットであり、第２の機械学習モデルの学習に使用される。次の第２の学習フェーズでは、第２の機械学習モデルに第２の学習画像セットを入力することで得られる第６の画像と第２の正解画像セットとの差分を小さくするように、第２の機械学習モデルのウエイトを決定する。すなわち、第２の機械学習モデルの学習を行う。

【0063】

なお、本実施例では第２の機械学習モデルの学習データの生成を学習装置２０１が行うが、他の装置が行ってもよい。

【0064】

ステップＳ３０１では、取得部２１２は、記憶部２１１から第１の正解画像セットを取得する。第１の正解画像セットは、１つ以上の第１の正解画像からなる。第１の正解画像セットは、撮像画像を含んでもよいし、ＣＧ画像を含んでもよい。例えば、第１の正解画像セットは撮像動画から抽出されたフレーム画像を含んでもよい。また、第１の正解画像セットは、ＲＥＤＳデータセット等の公開データセットでもよい。

【0065】

さらに第１の正解画像セットは、様々な物体を含む画像を含むことが好ましい。例えば、様々な強度と方向を有するエッジ、テクスチャ、グラデーションまたは平坦部を含む画像を含むことが好ましい。これにより、第１の画像と第２の画像が含む物体に対して、第２の機械学習モデルの頑健性を向上させることができる。

【0066】

加えて、第１の正解画像は十分に高周波成分を有することが好ましい。例えば、第１の学習画像が撮像画像である場合、第１の正解画像が光学系２２１よりも高性能な光学系での撮像画像や、該光学系での撮像動画から抽出されたフレーム画像であるとよい。また、これらの撮像画像やフレーム画像を縮小した画像であるとよい。これにより、第２の機械学習モデルは十分に高周波成分を含んで解像感の高い第５の画像を生成することができる。

【0067】

次にステップＳ３０２では、取得部２１２は、記憶部２１１から第２の画像セットを取得する。第２の画像セットは、１組以上の第２の画像ペアを含む。第２の画像ペアのサイズは第１の正解画像のサイズより小さく、第２の画像ペアの一方の画像は第１の正解画像と同一物体を含む画像である。すなわち、第２の画像ペアの一方の画像は、第１の正解画像と同一物体を含み、第１の正解画像よりもサンプリングピッチが大きい画像である。また、第２の画像ペアのサイズと第１の正解画像のサイズとの比は、推定フェーズにおける第１の画像と第２の画像のサイズと第５の画像のサイズとの比と等しい。

【0068】

第２の画像ペアの一方の画像は、該第２の画像ペアの他方の画像が含む物体の少なくとも一部を一方の画像とは異なる位置に含む。第２の画像セット内の第２の画像ペアを構成する各画像は、第２の画像セットに含まれる他の画像と別の第２の画像ペアを構成してもよい。第２の画像セットは、撮像画像を含んでもよいし、ＣＧ画像を含んでもよい。また第２の画像セットは、撮像動画から抽出された複数のフレーム画像を含んでもよい。また第２の画像セットは、ＲＥＤＳデータセット等の公開データセットでもよい。

【0069】

さらに第２の画像セットは、第１の画像と第２の画像が有する画質劣化を含む画像を含むことが好ましい。画質劣化は、前述した第３および第４の画像の画質劣化と同様であるこれにより、第１の画像と第２の画像が有する画質劣化に対して、第２の機械学習モデルの頑健性を向上させることができる。

【0070】

加えて、第２の画像ペアの一方の画像は、該第２の画像ペアの他方の画像に含まれる複数の物体が互いに異なる動き量や動き方向に移動した画像であることが好ましい。すなわち、第２の画像ペア内の各画像は、動き量や動き方向が互いに異なる複数の物体を含むことが好ましい。さらに、第２の画像セットに含まれる複数の第２の画像ペア間でも、物体の異なる動き量や異なる動き方向を含むとよい。これにより、第１の画像と第２の画像の間に含まれる動きに対して、第２の機械学習モデルの頑健性を向上させることができる。

【0071】

また、第１の正解画像セットを用いて、第２の画像セットを生成してもよい。例えば、第１の正解画像セットをダウンスケールし、第１の画像と第２の画像が有する画質劣化を与えることで、第２の画像セットを生成してもよい。また、別の画像セットを用いて、第１の正解画像セットと第２の画像セットをそれぞれ生成してもよい。

【0072】

次にステップＳ３０３では、生成部２１３は、第２の正解画像セットと第２の学習画像セットを生成する。そして本処理を終了する。第２の正解画像セットは１つ以上の第２の正解画像を含み、第２の学習画像セットは１組以上の第２の学習画像ペアを含む。第２の正解画像は、所定のサイズを有する画像であり、本実施例では２５６×２５６画素である。また第２の学習画像ペアは、所定のサイズ（第４のサイズ）を有する画像ペアであり、本実施例では第４のサイズは１２８×１２８画素である。第４のサイズは第２の正解画像のサイズより小さい。第２の学習画像ペアの一方の画像は、第２の正解画像と同一物体を含む画像である。すなわち、第２の学習画像ペアの一方の画像は、第２の正解画像と同一物体を含み、第２の正解画像よりもサンプリングピッチが大きい画像である。また、第２の学習画像ペアのサイズと第２の正解画像のサイズとの比は、推定フェーズにおける第１の画像と第２の画像のサイズと第５の画像のサイズとの比と等しい。

【0073】

また、第２の学習画像ペアの一方の画像は、該第２の学習画像ペアの他方の画像が含む物体の少なくとも一部を一方の画像とは異なる位置に含む。本実施例では、第１の正解画像から第２の正解画像のうち所定のサイズを有する領域をクロップすることで、第２の正解画像を生成する。また、第２の画像ペアの両画像から同一位置の第４のサイズを有する領域をクロップすることで、第２の学習画像ペアを生成する。第２の学習画像セットは、第１の機械学習モデルの学習に用いる第１の学習画像セットと少なくとも一部が共通していてもよい。

【0074】

なお、本実施例では、第１の正解画像セットから第２の正解画像セットを生成したが、第１の正解画像セットが必要な画像サイズと同じであれば、第１の正解画像セットから第２の正解画像セットを生成する処理は不要である。また、第２の画像セットから第２の学習画像セットを生成したが、第２の画像セットのサイズが必要な画像サイズと同じであれば、第２の画像セットから第２の学習画像セットを生成する処理は不要である。

【0075】

図８のフローチャートは、第２の学習フェーズとして、学習装置２０１において行われる第２の機械学習モデルのウエイトを学習する処理（学習方法）を示している。以下、第２の学習画像ペアの一方の画像を第３の学習画像、他方の画像を第４の学習画像という。この処理では、まず学習データである第２の学習画像セットに含まれる第２の学習画像ペアを第１の学習フェーズで学習された第１の機械学習モデルに入力し、第２の学習画像ペア内の対応する画素の動きを示す第４の動きベクトルを得る。次に第２の機械学習モデルにおいて、第３の学習画像と、第４の学習画像と、第４の動きベクトルを用いて第４の学習画像を第３の学習画像相当の画像になるように位置合わせした画像（後述する第２のワープ画像）とを用いて、第６の画像を生成する。最後に、第６の画像と第２の正解画像との差分を小さくするように第２の機械学習モデルのウエイトを決定する。

【0076】

ステップＳ４０１では、取得部２１２は、記憶部２１１から、第１の機械学習モデルのウエイトの情報と、１つ以上の第２の正解画像と、１組以上の第２の学習画像ペアとを取得する。第１の機械学習モデルのウエイトの情報は予め記憶部２１１から読み出され、記憶部２２４に記憶されている。

【0077】

次にステップＳ４０２では、生成部２１３は、第２の学習画像ペア（第３の学習画像と第４の学習画像）を学習済みの第１の機械学習モデルに入力して第４の動きベクトルを生成する。学習済みの第１の機械学習モデルとは、第１の学習フェーズでの学習によりウエイトを決定された第１の機械学習モデルである。第４の動きベクトルは、第２の学習画像ペア内、すなわち第３の学習画像と第４の学習画像の間の対応する画素の動きをベクトルで表したものである。本実施例において、第４の動きベクトルは第２の学習画像ペアと同じサイズを有するが、第４の動きベクトルのサイズはこれに限定されない。本実施例において、第４の動きベクトルは、第３の学習画像の各画像についての第４の学習画像から第３の学習画像への移動を示すベクトルである。また本実施例において、第４の動きベクトルは２種類の２次元マップであり、各２次元マップは第３の学習画像の各画素の位置ごとに水平方向または垂直方向の移動量を示す。

【0078】

次にステップＳ４０３では、生成部２１３は、第２の学習画像ペアと第４の動きベクトルを第２の機械学習モデルに入力して第６の画像を生成する。このとき、まず生成部２１３は、第２の機械学習モデルの内部で、第４の学習画像と第４の動きベクトルとを用いて第２のワープ画像を生成する。第２のワープ画像は、第４の学習画像の画素を第４の動きベクトルを用いて移動させることで、第４の学習画像を第３の学習画像相当の画像になるように位置合わせした画像である。生成部２１３は、nearest neighbor補間、bilinear補間、bicubic補間等の公知の補間方法を用いて、第４の学習画像の画素値から第２のワープ画像の各画素値を算出する。

【0079】

なお、第２のワープ画像の画素値を算出するために用いる補間方法は、推定フェーズにおいて第２の機械学習モデルの内部で第２の画像を第１の画像相当の画像になるように位置合わせした際に用いる補間方法と同じであることが好ましい。第２の学習フェーズと推定フェーズで第２の機械学習モデルにおける画像の補間方法を揃えることで、より高精度な第５の画像を生成する第２の機械学習モデルを学習できる。

【0080】

また、第２の機械学習モデルの内部で、第２のワープ画像に基づいて第２のワープ画像の各画素を第３の学習画像の対応する画素に対してさらに正確に位置合わせした画像を生成して、これを新たな第２のワープ画像とすることが好ましい。例えば、第３の学習画像と第２のワープ画像とをＣＮＮに入力して、第２のワープ画像の各画素の第３の学習画像の対応する画素からのずれ量を算出し、そのずれ量に応じて第２のワープ画像をさらに補正することが好ましい。推定フェーズにおいても第２の機械学習モデルが同様の処理を行うことで、第２の画像を第１の画像相当の画像になるようにより正確に位置合わせすることができるため、より高精度な第５の画像を生成することができる。

【0081】

本実施例では、第３の学習画像の各画素についての第４の学習画像から第３の学習画像への移動を示す第４の動きベクトルを用いて、第４の学習画像を第３の学習画像相当の画像になるように位置合わせするbackward warpingを採用している。ただし、第４の学習画像の各画素についての第３の学習画像から第４の学習画像への移動を示す第４の動きベクトルを用いて、第４の学習画像を第３の学習画像相当の画像になるように位置合わせするforward warpingを行ってもよい。本実施例では、推定フェーズの第２の機械学習モデルにおいてbackward warpingを採用しているため、Ｓ４０３においてもbackward warpingを採用している。このように、第２の学習フェーズと推定フェーズとで第２の機械学習モデルにおける画像の位置合わせの方法を揃えることで、より高精度な第５の画像を生成する第２の機械学習モデルを学習できる。

【0082】

次に生成部２１３は、第２の機械学習モデルの内部で、第３の学習画像と第２のワープ画像とを用いて第６の画像を生成する。第３の学習画像と第２のワープ画像は、第２の機械学習モデルが含む連結層においてチャンネル方向に連結される。第６の画像は、第３の学習画像がアップスケールされた画像である。

【0083】

本実施例では、第２の機械学習モデルは複数の畳み込み層を有するＣＮＮである。学習の初回において畳み込み層のウエイト（フィルタの係数とバイアス）は乱数により生成される。ただし、第２の機械学習モデルは、ＣＮＮに限らず、ＧＡＮやＲＮＮ等の他の機械学習モデルであってもよい。

【0084】

また、第２の機械学習モデルの内部で、第３の学習画像と第２のワープ画像の第６の画像の生成に対する寄与度を決定し、その寄与度に応じて第６の画像を生成することが好ましい。この寄与度は、第３の学習画像と第２のワープ画像の画素ごとに決定されることが好ましい。例えば、第３の学習画像と第２のワープ画像をＣＮＮに入力して、第３の学習画像と第２のワープ画像の各画素について、第６の画像の生成に対する寄与度を決定することが好ましい。推定フェーズにおいても第２の機械学習モデルが同様の処理を行うことで、第１の画像と第２の画像のそれぞれに対して寄与度が調整されるため、より高精度な第５の画像を生成することができる。

【0085】

また本実施例では、第４の学習画像を第３の学習画像相当の画像になるように位置合わせした第２のワープ画像を用いて第６の画像を生成した。これに対して、第４の学習画像を位置合わせする工程ではなく、第４の学習画像の特徴量を位置合わせする工程を経て、第６の画像を生成してもよい。より具体的には、第６の画像を生成する過程で、例えば、第４の学習画像の特徴量を第４の動きベクトルを用いて第３の学習画像の特徴量相当になるように位置合わせしてもよい。

【0086】

次にステップＳ４０４では、更新部２１４は、第６の画像と第２の正解画像との誤差に基づいて、第２の機械学習モデルのウエイトを更新する。本実施例では、第６の画像と第２の正解画像における画素値の差のシャルボニエロスをロス関数とする。ただし、ロス関数はこれに限定されない。更新部２１４は、ステップＳ４０１にて複数組の第２の学習画像ペアを取得している場合は、各組に対してロス関数の値を算出する。更新部２１４は、算出されたロス関数の値から、誤差逆伝搬法等によってウエイトの更新を行う。

【0087】

次にステップＳ４０５において、更新部２１４は、第２の機械学習モデルの学習が完了したか否かを判定する。学習の完了は、ウエイトの更新の反復回数が所定回数に達したことや、更新時のウエイトの変化量が所定値より小さいこと等で判定することができる。ウエイトの学習が完了していないと判定された場合は処理はステップＳ４０１へ戻り、取得部２１２は、１組以上の新たな第２の学習画像ペアおよび第２の正解画像を取得する。ウエイトの学習が完了したと判定された場合は、更新部２１４は、学習を終了し、ウエイトの情報を記憶部２１１に記憶する。

【0088】

本実施例では、第１の学習フェーズにおいて第１の機械学習モデルの学習を行った後、第２の学習フェーズにおいて第２の機械学習モデルの学習を行う。ただし、これに限らず、初めから第１の機械学習モデルと第２の機械学習モデルを共同で学習してもよい。より具体的には、第１の学習フェーズを行うことなく、ウエイトが決定されていない第１の機械学習モデルを用いて第２の学習フェーズを行う。そして、ステップＳ４０４において、第６の画像と第２の正解画像との誤差に基づいて、第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトとを同時に更新してもよい。また、第６の画像と第２の正解画像との誤差および第３の学習画像と第２のワープ画像との誤差に基づいて、第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトとを同時に更新してもよい。推定フェーズでは、第１の機械学習モデルと第２の機械学習モデルとを共同で用いることで、第１の画像と第２の画像から第５の画像を生成する。このため、第１の機械学習モデルと第２の機械学習モデルとを共同で学習することで、より高精度な第５の画像を生成するように第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトを最適化することができる。

【0089】

ただし、第１の学習フェーズと第２の学習フェーズを行った後、さらに第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトと共同で更新する第３の学習フェーズを設けてもよい。これにより、より高精度な第５の画像を生成するよう第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトを最適化することができるとともに、各機械学習モデルの学習を収束させ易くすることができる。

【0090】

図１は、撮像装置２０２の画像推定部２２３において行われる学習済の第１の機械学習モデルと学習済の第２の機械学習モデルとによる推定の処理（推定フェーズ）の流れを示している。学習済の機械学習モデルとは、学習フェーズでの学習によりウエイトを決定された機械学習モデルである。

【0091】

推定フェーズでは、画像推定部２２３は、まず元動画３０１から第１の元画像３０２と第２の元画像３０３を抽出する。次に第１の元画像３０２と第２の元画像３０３をそれぞれ分割して第１の画像３０４と第２の画像３０５を生成する。次に第１の画像３０４と第２の画像３０５をそれぞれ縮小して、第３の画像３０６と第４の画像３０７を生成する。

【0092】

次に画像推定部２２３は、第３の画像３０６と第４の画像３０７を第１の機械学習モデルに入力して第１の動きベクトル３０８を生成する。次に第１の動きベクトル３０８を拡大して第２の動きベクトル３０９を生成する。次に第１の画像３０４と第２の画像３０５と第２の動きベクトル３０９とを第２の機械学習モデルに入力して第３の画像３１０を生成する。続いて画像推定部２２３は、第５の画像３１０を結合して、目的画像３１１を生成する。最後に画像推定部２２３は、、目的画像３１１から目的動画３１２を生成する。

【0093】

第５の画像３１０は第１の画像３０４がアップスケールされたものであり、目的画像３１１は第１の元画像３０２がアップスケールされたものである。また、目的動画３１２は元動画３０１がアップスケールされたものである。

【0094】

図９のフローチャートは、推定フェーズとして、画像推定部２２３により行われる処理（画像処理方法）を示している。まずステップＳ５０１において、取得部２２３ａは、元動画３０１と、第１の機械学習モデルのウエイトの情報と、第２の機械学習モデルのウエイトの情報とを取得する。本実施例において元動画３０１は、光学系２２１と撮像素子２２２とにより生成された撮像動画である。ただし、取得する元動画３０１は撮像動画の一部でもよい。例えば、撮像動画を空間方向または時間方向にクロップした動画でもよいし、撮像動画から一定間隔でフレーム画像を取り出すことで生成された、撮像動画よりフレームレートが低い動画でもよい。また元動画３０１は、グレースケールで表現されても、複数のチャンネル成分を有してもよい。第１の機械学習モデルのウエイトの情報と第２の機械学習モデルのウエイトの情報は、予め記憶部２１１から読み出され、記憶部２２４に記憶されている。

【0095】

次にステップＳ５０２では、演算部２２３ｂは、元動画３０１から第１の元画像３０２と第２の元画像３０３を抽出する。第１の元画像３０２と第２の元画像３０３は、元動画３０１を構成するフレーム画像である。第１の元画像３０２は、ステップＳ５０９において生成される目的画像３１１に対応して、アップスケールされる対象の画像である。本実施例では、図１に示すように第２の元画像３０３は元動画３０１において第１の元画像３０２に隣接するフレーム画像であるが、必ずしも隣接するフレーム画像でなくてもよい。ただし、ステップＳ５０３において生成する第１の画像３０４と第２の画像３０５において、第２の画像３０５が第１の画像３０４に含まれる物体の少なくとも一部を含むように第２の元画像３０３を選択する必要がある。

【0096】

次にステップＳ５０３では、演算部２２３ｂは、第１の元画像３０２と第２の元画像３０３とをそれぞれ分割して第１の画像３０４と第２の画像３０５とを生成する。第１の画像３０４と第２の画像３０５はともに同じ第３のサイズの画像である。すなわち、第１の画像３０４と第２の画像３０５はそれぞれ、第１の元画像３０２と第２の元画像３０３の同一位置から第３のサイズの領域がクロップされた画像である。本実施例において、第３のサイズは２５６×２５６画素である。第１の元画像３０２を複数の第１の画像３０４同士が共通の領域を含むよう分割することが好ましい。この理由については後のステップＳ５０９にて説明する。なお、第１の元画像３０２と第２の元画像３０３のサイズが第３のサイズと同じであれば、ステップＳ５０３の分割処理は不要であり、これに付随してステップＳ５０９の結合処理も不要である。

【0097】

次にステップＳ５０４では、演算部２２３ｂは、第１の画像３０４と第２の画像３０５をそれぞれ縮小して、第３の画像３０６と第４の画像３０７とを生成する。第１の画像３０４から第３の画像３０６への縮小および第２の画像３０５から第４の画像３０７への縮小は、画像から画像への変換を行う同一の縮小処理を用いて行われる。本実施例での縮小処理は、複数画素から１画素のみを抽出するダウンサンプルである。第３の画像３０６と第４の画像３０７はともに同じ第１のサイズの画像である。本実施例において、第１のサイズは１２８×１２８画素である。このため、第１の画像３０４から第３の画像３０６への縮小倍率および第２の画像３０５から第４の画像３０７への縮小倍率はともに、画像の幅方向に２倍、高さ方向に２倍である。

【0098】

次にステップＳ５０５では、推定部２２３ｃは、第３の画像３０６と第４の画像３０７を第１の機械学習モデルに入力して第１の動きベクトル３０８を生成する。第１の動きベクトル３０８は、第３の画像３０６と第４の画像３０７の間の対応する画素の動きをベクトルで表したものである。本実施例において、第１の動きベクトル３０８は、第３の画像３０６および第４の画像３０７と同じ第１のサイズ（１２８×１２８画素）を有するが、第１の動きベクトル３０８のサイズはこれに限定されない。本実施例において、第１の動きベクトル３０８は、第３の画像３０６の各画像についての第４の画像３０７から第３の画像３０６への移動を示すベクトルである。また、本実施例において、第３の動きベクトルは２種類の２次元マップであり、各２次元マップは第３の画像３０６の各画素の位置ごとに水平方向または垂直方向の移動量を示す。

【0099】

次にステップＳ５０６において、演算部２２３ｂは、第１の動きベクトル３０８を拡大して第２の動きベクトル３０９を生成する。第１の動きベクトル３０８の拡大処理は、第１の機械学習モデルとは独立した処理である。この拡大処理は、第１の機械学習モデルと独立していれば、機械学習モデルを用いる拡大処理であっても機械学習モデルを用いない拡大処理であってもよい。本実施例において拡大処理は、bicubic補間を用いる処理である。より具体的には、拡大処理として、第１の動きベクトル３０８をbicubic補間で拡大した動きベクトルに対応する各画素に対して、拡大倍率（本実施例では、後述の通り２倍）を乗算することで第２の動きベクトル３０９を生成する。また本実施例において、この拡大処理における拡大倍率は、Ｓ５０４の縮小処理における縮小倍率と同一であり、マップの幅方向に２倍、高さ方向に２倍である。すなわち、第２の動きベクトルのサイズは２５６×２５６画素である。本実施例において、第２の動きベクトル３０９は、第１の画像３０４と第２の画像３０５と同一のサイズを有する。

【0100】

次にステップＳ５０７では、推定部２２３ｃは、第１の画像３０４と第２の画像３０５と第２の動きベクトル３０９とを第２の機械学習モデルに入力して、第５の画像３１０を生成する。ここでは推定部２２３ｃは、まず第２の機械学習モデルの内部で第２の画像３０５と第２の動きベクトル３０９を用いて、第３のワープ画像を生成する。第３のワープ画像は、第２の画像３０５の画素を第２の動きベクトル３０９を用いて移動させることで、第２の画像３０５を第１の画像３０４相当の画像になるように位置合わせした画像である。この際、推定部２２３ｃは、nearest neighbor補間、bilinear補間およびbicubic補間等の公知の補間方法を用いて、第２の画像３０５の画素値から第３のワープ画像の各画素値を算出する。なお、本実施例では、推定部２２３ｃは、ステップＳ５０５において第３の画像３０６の各画像についての第４の画像３０７から第３の画像３０６への移動を示す第１の動きベクトル３０８を生成する。この際、第１の動きベクトル３０８を拡大した第２の動きベクトル３０９を用いて、第２の画像３０５を第１の画像３０４相当の画像になるように位置合わせするbackward warpingを採用する。

【0101】

次に推定部２２３ｃは、第２の機械学習モデルの内部で、第１の画像３０４と第３のワープ画像とを用いて第５の画像３１０を生成する。第１の画像３０４と第３のワープ画像は、第２の機械学習モデルが含む連結層においてチャンネル方向に連結される。第５の画像３１０は、第１の画像３０４がアップスケールされた画像である。本実施例における第５の画像３１０は、第１の画像３０４が幅方向に２倍、高さ方向に２倍だけアップスケールされた画像であり、５１２画素×５１２画素を有する。

【0102】

次にステップＳ５０８では、演算部２２３ｂは、全ての第１の画像３０４と第２の画像３０５の組について、第５の画像３１０の生成を完了したか否かを判定する。全ての第５の画像３１０の生成が完了していないと判定された場合は処理はステップＳ５０４へ戻り、演算部２２３ｂは、新たな第１の画像３０４と第２の画像３０５の組から第５の画像３１０を生成する。全ての第５の画像３１０の生成が完了したと判定された場合は、処理はステップＳ５０９に進む。

【0103】

ステップＳ５０９では、演算部２２３ｂは、第５の画像３１０を結合して目的画像３１１を生成する。ここでは、目的画像３１１が第１の元画像３０２がアップスケールされた画像となるように第５の画像３１０を結合して目的画像３１１を生成する。本実施例では、目的画像３１１は第１の元画像３０２が幅方向に２倍、高さ方向に２倍だけアップスケールされた画像である。

【0104】

先のステップＳ５０３では第１の元画像３０２を複数の第１の画像３０４同士が共通の領域を含むように分割することが好ましいと説明した。これにより、ステップＳ５０９にて複数の第５の画像３１０同士が含む共通の領域に後処理を加えて、目的画像３１１を生成することができる。ステップＳ５０３にて第１の画像３０４同士が共通の領域を含まないように分割された場合は、目的画像３１１上の第５の画像３１０同士が結合された部分にタイル状のアーティファクトが発生するおそれがある。このため、第１の画像３０４同士が共通の領域を含むよう分割し、第５の画像３１０同士が含む共通の領域では、例えば複数の第５の画像の加重平均に基づいて目的画像３１１を生成することで、アーティファクトを低減することができる。

【0105】

また、第５の画像３１０内の周辺領域では、中心領域に比べてステップＳ５０７での生成の精度が低いおそれがある。これは、第５の画像３１０の周辺領域では、中心領域に比べて、考慮される第１の画像３０４と第２の画像３０５の画素が少ないためである。したがって、第１の画像３０４同士が共通の領域を含むよう分割したうえで、例えば目的画像３１１を複数の第５の画像３１０の中心領域で生成することで、より高精度な目的画像３１１を生成することができる。

【0106】

次にステップＳ５１０では、演算部２２３ｂは、全ての第１の元画像３０２と第２の元画像３０３の組について目的画像３１１の生成が完了したか否かを判定する。全ての目的画像３１１の生成が完了していないと判定された場合は処理はステップＳ５０３へ戻り、演算部２２３ｂは、新たな第１の元画像３０２と第２の元画像３０３の組から目的画像３１１を生成する。全ての目的画像３１１の生成が完了したと判定された場合は、処理はステップＳ５１１に進む。

【0107】

ステップＳ５１１では、演算部２２３ｂは、目的画像３１１から目的動画３１２を生成する。具体的には、複数の目的画像３１１のそれぞれが目的動画３１２のフレーム画像となるように目的動画３１２を生成する。そして本処理を終了する。本実施例において、目的動画３１２は元動画３０１が幅方向に２倍、高さ方向に２倍だけアップスケールされた動画である。

【0108】

推定フェーズと学習フェーズにおける画像サイズについて説明する。推定フェーズにおいて第１の機械学習モデルに入力される第３の画像３０６と第４の画像３０７はともに第１のサイズを有する。第１の学習フェーズにおいて、第１の機械学習モデルに入力される第１の学習画像セットは第２のサイズを有する。本実施例において、第１の機械学習モデル自体や、第３の画像３０６と第４の画像３０７にかからず高精度な第１の動きベクトル２０８を生成するには、第１のサイズを第２のサイズ以下とすることが好ましい。なお、本実施例では、第１のサイズおよび第２のサイズはいずれも、１２８×１２８画素である。

【0109】

また、第２の学習フェーズにおいて、第２の機械学習モデルに入力される第２の学習画像セットは第４のサイズを有する。第２の学習フェーズにおいては、第２の学習画像セットが学習済の第１の機械学習モデルに入力され、第３の動きベクトルが生成される。推定フェーズのみならず第２の学習フェーズにおいても、第１の機械学習モデルからの出力である第３の動きベクトルを高精度に生成する必要がある。第１の機械学習モデル自体や第２の学習画像セットに拘わらず高精度な第３の動きベクトルを生成するには、第４のサイズを第２のサイズ以下することが好ましい。

【0110】

本実施例では、第４のサイズは第２のサイズと等しく、１２８×１２８画素である。このように第４のサイズはできるだけ大きい方がよい。これは、第４のサイズが大きいほど、第２の機械学習モデルがより大きなサイズの第３の画像３０６と第４の画像３０７に対して高精度な第５の画像３１０を生成することができるためである。

【0111】

また推定フェーズにおいて、第２の機械学習モデルに入力される第１の画像３０４と第２の画像３０５はともに第３のサイズである。第３のサイズは、第１の機械学習モデルが学習した画像サイズである第２のサイズに基づいて制限されることはない。すなわち、第２のサイズと等しい第４のサイズによっても制限されることはない。このため、第３のサイズは第４のサイズ以上であってもよい。これは各実施例の効果の１つである。なお、本実施例では第３のサイズは第４のサイズ（１２８×１２８画素）以上の２５６×２５６画素である。

【0112】

本実施例において第３のサイズを第４のサイズ以上にすることができる効果について説明する。学習時の計算リソースによって第４のサイズが制限される場合でも、推定フェーズとって最適な第３のサイズを設定できる自由度が向上する。例えば、ステップＳ５０７における第２の機械学習モデルでの処理速度とステップＳ５０９における第５の画像３１０からの目的画像３１１の生成速度とに応じて、最適な第３のサイズを設定する自由度が向上する。すなわち、推定フェーズにおける処理速度の向上のために最適な第３のサイズを設定することができる。

【0113】

また本実施例では、同じ第４のサイズの第１の画像３０４と第２の画像３０５を処理するための学習時の計算リソースを、従来に比べて低減することができる。例えば、２５６×２５６画素の第３の画像３０６と第４の画像３０７から第５の画像３１０を生成する場合、従来では第２の機械学習モデルを２５６×２５６画素の画像サイズで学習する必要がある。一方、本実施例では、１２８×１２８画素の第４のサイズで学習することができるため、学習時の計算メモリを従来の１／４程度に低減することができる。

【0114】

以上のように、本実施例によれば、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、高精度なアップスケールタスクを実現することが可能となる。

【実施例0115】

実施例２は、動画のフレームレートを向上させるアップフレームレートを目的とする。具体的には低フレームレートの動画に含まれる各フレーム画像の間に新たなフレーム画像を生成し、元のフレーム画像と新たに生成されたフレーム画像を組み合わせて高フレームレートの動画を生成する。より具体的には、低フレームレートの動画に含まれるフレーム画像の少なくとも一部である第１の画像と、該フレーム画像に隣接するフレーム画像の少なくとも一部である第２の画像とをそれぞれ縮小して第３の画像と第４の画像を生成する。第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１の動きベクトルを生成する。第１の動きベクトルを拡大した第２の動きベクトルと、第１の画像と、第２の画像とに基づいて、第２の機械学習モデルを用いて第５の画像を生成する。第５の画像は、第１の画像が対応するフレーム画像と第２の画像が対応するフレーム画像間に新たに生成されるフレーム画像の少なくとも一部である。

【0116】

本実施例では、例として、低フレームレートの元動画に含まれる連続する２つのフレーム画像の中央に新たな１つのフレーム画像を生成することで高フレームレートの動画を生成する。すなわち、生成される動画は元動画に対して、約２倍のフレームレートを有する。第５の画像は、時間的に連続する第１の画像と第２の画像の中央に位置する画像である。ただしこれに限定されず、第１の画像と第２の画像間に新たな複数の第５の画像を生成することで、よりフレームレートの高い動画を生成してもよい。また本実施例では、第１の画像と第２の画像とに基づいてその間に位置する第５の画像を生成するが、元動画に含まれる３つ以上のフレーム画像の少なくとも一部である３つ以上の画像に基づいて第５の画像を生成してもよい。

【0117】

本実施例で行う、第１の画像と第２の画像とに基づいてその間に位置する第５の画像を生成するアップフレームレートタスクは、第１の画像の画素値と第２の画像の画素値との平均または加重平均に基づいて第５の画像を生成することが可能である。このタスクにおいて動きベクトルを用いることで、第１の画像と第２の画像の間の物体の動きに適応して、より高精度な第５の画像を生成することができる。

【0118】

一方、動きベクトルの生成精度に第５の画像の生成精度が強く依存する。動きベクトルの生成精度が低い場合は、本意ではない第１の画像や第２の画像の画素から第５の画像の画素を生成することとなるため、第５の画像にアーティファクトが出現する。これに対して、本実施例で用いる第１の機械学習モデルは、第１の機械学習モデルが学習した画像サイズ（第２のサイズ）に基づいて制限した第３の画像と第４の画像のサイズ（第１のサイズ）で、高精度に第１の動きベクトルを生成することができる。高精度な第１の動きベクトルを用いることで、アーティファクトが低減された第５の画像を生成することができる。本実施例では、第２のサイズに基づいて制限されない第１の画像と第２の画像のサイズ（第３のサイズ）に対して有効である。

【0119】

図１０は、本実施例における画像処理システム４００の構成を示している。図１１は、画像処理システム４００の外観を示している。画像処理システム４００は、学習装置４０１、撮像装置４０２、画像処理装置としての画像推定装置４０３、表示装置４０４、記憶媒体４０５、出力装置４０６およびネットワーク４０７を有する。

【0120】

学習装置４０１は、パーソナルコンピュータ等のコンピュータにより構成され、記憶部４０１ａ、取得部４０１ｂ、生成部４０１ｃおよび更新部４０１ｄを有し、プログラムに従って動作して機械学習モデルのウエイトを決定する。

【0121】

撮像装置４０２は、光学系４０２ａと撮像素子４０２ｂを有する。光学系４０２ａは、物体が存在する空間から入射した光を集光して物体像を形成する。光学系４０２ａは、必要に応じてズーム、絞りおよびオートフォーカス等の機能を有する。撮像素子４０２ｂは、光学系４０２ａにより形成された物体像を電気信号に変換し、画像データとしての撮像動画を生成する。

【0122】

画像推定装置４０３は、記憶部４０３ａ、取得部４０３ｂ、生成部４０３ｃおよび推定部４０３ｄを有する。画像推定装置４０３は、パーソナルコンピュータにより構成され、プログラムに従って動作して、光学系２２１と撮像素子２２２により生成された撮像動画をアップフレームレートする。このために画像推定装置４０３は、撮像動画のフレーム画像の一部である第１の画像と第２の画像をそれぞれ縮小した第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１の動きベクトルを生成する。さらに画像推定装置４０３は、第１の動きベクトルを拡大した第２の動きベクトルと、第１の画像と、第２の画像とに基づいて、第２の機械学習モデルを用いて第５の画像を生成する。そして第５の画像を用いて、撮像動画をアップフレームレートした高フレームレート動画を生成する。

【0123】

第５の画像の生成には、学習装置４０１であらかじめ決定されたウエイトが用いられる。記憶部４０３ａは該ウエイトを記憶している。画像推定装置４０３で行われる処理の詳細については後述する。

【0124】

高フレームレート動画は、表示装置４０４、記憶媒体４０５および出力装置４０６のうち少なくとも１つに出力される。表示装置４０４は、液晶ディスプレイやプロジェクタ等である。ユーザは表示装置４０４を介して、処理途中の画像を確認しながら編集作業等を行うことができる。記憶媒体４０５は、半導体メモリ、ハードディスクまたはネットワーク上のサーバ等であり、高フレームレート動画を保存する。出力装置４０５は、プリンタ等である。

【0125】

本実施例で行われる処理も、実施例１と同様に、第１の機械学習モデルの学習データの生成、第１の機械学習モデルのウエイトの学習（第１の学習フェーズ）、第２の機械学習モデルの学習データの生成、第２の機械学習モデルのウエイトの学習（第２の学習フェーズ）および学習済のウエイトを用いた第１の機械学習モデルと第２の機械学習モデルによる推定（推定フェーズ）に大別される。

【0126】

学習装置４０１は、実施例１で説明した図５のフローチャートに従って、第１の機械学習モデルの学習データを生成する処理を行う。本実施例では、ステップＳ１０１とステップＳ１０２の処理をそれぞれ、実施例１の取得部２１２と生成部２１３に代わって取得部４０１ｂと生成部４０１ｃが行う。

【0127】

また学習装置４０１は、実施例１で説明した図６のフローチャートに従って、第１の学習フェーズとしての第１の機械学習モデルのウエイトを学習する処理を行う。本実施例では、ステップＳ２０１からステップＳ２０５の処理をそれぞれ、実施例１の取得部２１２、生成部２１３および更新部２１４に代わって取得部４０１ｂ、生成部４０１ｃおよび更新部４０１ｄが行う。

【0128】

図１２のフローチャートは、学習装置４０１において行われる第２の機械学習モデルの学習データを生成する処理を示している。学習データは、第３の正解画像セットと第３の学習画像セットであり、第２の機械学習モデルの学習に使用される。学習装置４０１は、次の第２の学習フェーズにおいて、第２の機械学習モデルに第３の学習画像セットを入力することで得られる第７の画像と第３の正解画像セットとの差分を小さくするように第２の機械学習モデルのウエイトを決定する。なお、第３の学習画像セットは、第２の学習フェーズにおいて第２の機械学習モデルに入力されるという点で、実施例１の第２の学習画像セットに相当する。なお、本実施例では、第２の機械学習モデルの学習データを生成する処理を学習装置４０１が行うが、他の装置が行ってもよい。

【0129】

ステップＳ６０１では、取得部４０１ｂは、記憶部４０１ａから第３の画像セットを取得する。第３の画像セットは、１組以上の第１の画像トリプレットを含む。第１の画像トリプレットは、同一物体を互い異なる位置に含む３つの画像により構成されている。第３の画像セット内の第１の画像トリプレットを構成する各画像は、第３の画像セットに含まれる他の画像と別の第１の画像トリプレットを構成してもよい。第３の画像セットは、撮像画像を含んでもよいし、ＣＧ画像を含んでもよい。例えば、第３の画像セットは撮像動画から抽出されたフレーム画像を含んでもよい。また第３の画像セットは、ＲＥＤＳデータセット等の公開データセットでもよい。

【0130】

本実施例において、第３の画像セットは、最終的に生成したい高フレームレート動画と同じフレームレートを有する撮像動画から生成される。第１の画像トリプレットは、この撮像動画から抽出された連続する３つのフレーム画像である。また、第３の画像セットは様々な物体を含む画像を含むことが好ましい。例えば、様々な強度と方向を有するエッジ、テクスチャ、グラデーションまたは平坦部を含む画像を含むことが好ましい。これにより、第１の画像と第２の画像が含む物体に対して、第２の機械学習モデルの頑健性を向上させることができる。

【0131】

また、第３の画像セットは、第１の画像と第２の画像が有する画質劣化を含む画像を含むことが好ましい。画質劣化は、実施例１で説明したものと同じである。これにより、第１の画像と第２の画像が有する画質劣化に対して、第２の機械学習モデルの頑健性を向上させることができる。

【0132】

加えて、第１の画像トリプレット内の各画像は、動き量や動き方向が互いに異なる複数の物体を含むことが好ましい。さらに第３の画像セットに含まれる複数の第１の画像トリプレット間でも、動き量や動き方向が互いに異なる複数の物体を含むことが好ましい。これにより、第１の画像と第２の画像間に含まれる動きに対して、第２の機械学習モデルの頑健性を向上させることができる。

【0133】

次にステップＳ６０２では、生成部４０１ｃは、第３の正解画像セットと第３の学習画像セットを生成する。第３の正解画像セットは１つ以上の第３の正解画像を含み、第３の学習画像セットは１組以上の第３の学習画像ペアを含む。１組の第３の学習画像ペアに対して１つの第３の正解画像が対応する。第３の学習画像ペアは、所定のサイズ（第４のサイズ）を有する画像ペアであり、本実施例では第４のサイズは１２８×１２８画素である。また第３の正解画像は、第３の学習画像ペアと同一の第４のサイズを有する画像である。

【0134】

さらに第３の学習画像ペアとこれに対応する第３の正解画像の組は、互いに同一物体を含む。前述したように本実施例では、第１の画像トリプレットは、最終的に生成したい高フレームレート動画と同じフレームレートを有する撮像動画から抽出した連続する３つのフレーム画像である。本実施例では、第１の画像トリプレットを構成する最初のフレーム画像と最後のフレーム画像から第４のサイズを有する領域をクロップして第３の学習画像ペアを生成する。また本実施例では、第１の画像トリプレットを構成する中間のフレーム画像から第４のサイズを有する領域をクロップして第３の正解画像を生成する。この際、第１の画像トリプレットと同一の位置から第３の学習画像ペアまたは第３の正解画像をクロップする。第３の正解画像セットと第３の学習画像セットはそれぞれ、第１の機械学習モデルの学習に用いる第１の学習画像セットと少なくとも一部が共通していてもよい。

【0135】

図１３のフローチャートは、第２の学習フェーズとして、学習装置４０１において行われる第２の機械学習モデルのウエイトを学習する処理を示している。以下、第３の学習画像ペアの一方の画像を第５の学習画像、他方の画像を第６の学習画像という。また後述する第７の画像は、第５の学習画像と第６の学習画像が同一の動画を構成するフレーム画像であると仮定した場合に、第５の学習画像と第６の学習画像の中央のフレーム画像となることが目標とされる画像である。

【0136】

第２の学習フェーズにおいて学習装置４０１は、まず学習データである第３の学習画像セットに含まれる第３の学習画像ペアを、第１の学習フェーズで学習された第１の機械学習モデルに入力し、第３の学習画像ペア内の対応する画素の動きを示す第５の動きベクトルを得る。次に第２の機械学習モデルにおいて、第５の動きベクトルに基づいて、第５の学習画像と生成したい第７の画像との間および第６の学習画像と第７の画像との間でそれぞれ対応する画素の動きをそれぞれ示す第６の動きベクトルおよび第７の動きベクトルを生成する。

【0137】

次に学習装置４０１は、第２の機械学習モデルにおいて、第６の動きベクトルを用いて、第５の学習画像を生成したい第７の画像相当の画像になるように位置合わせした画像である第４のワープ画像を生成する。同様に、第２の機械学習モデルにおいて、第７の動きベクトルを用いて、第６の学習画像を生成したい第７の画像相当の画像になるように位置合わせした画像である第５のワープの画像を生成する。そして、第４のワープ画像と第５のワープ画像とを用いて第７の画像を生成する。

【0138】

最後に学習装置４０１は、第７の画像と第３の正解画像の差分を小さくするように第２の機械学習モデルのウエイトを決定する。

【0139】

ステップＳ７０１では、取得部４０１ｂは、記憶部４０１ａから、第１の機械学習モデルのウエイトの情報と、１つ以上の第３の正解画像と、１組以上の第３の学習画像ペアとを取得する。

【0140】

次にステップＳ７０２では、生成部４０１ｃは、第３の学習画像ペアを学習済みの第１の機械学習モデルに入力して第５の動きベクトルを生成する。学習済みの第１の機械学習モデルとは、第１の学習フェーズでの学習によりウエイトを決定された第１の機械学習モデルである。第５の動きベクトルは、第３の学習画像ペア内、すなわち第５の学習画像と第６の学習画像間の対応する画素の動きをベクトルで表したものである。本実施例において、第５の動きベクトルは第３の学習画像ペアと同じサイズを有するが、第５の動きベクトルのサイズはこれに限定されない。本実施例において、第５の動きベクトルは、第３の学習画像ペア内の対応する画素の動きを示す２種類のベクトルである。一方の種類のベクトルは、第５の学習画像の各画素についての第６の学習画像から第５の学習画像への移動を示す。もう一方の種類のベクトルは、第６の学習画像の各画素についての第５の学習画像から第６学習画像への移動を示す。本実施例において、第５の動きベクトルは、４種類の２次元マップであり、各２次元マップは第５の学習画像または第６の学習画像の各画素の位置ごとに水平方向または垂直方向の移動量を示す。

【0141】

次にステップＳ７０３では、生成部４０１ｃは、第３の学習画像ペアと第５の動きベクトルを第２の機械学習モデルに入力して第７の画像を生成する。このためにまず生成部４０１ｃは、第２の機械学習モデルの内部で、第５の動きベクトルを用いて第６の動きベクトルと第７の動きベクトルを生成する。第６の動きベクトルは、第５の学習画像と第７の画像間の対応する画素の動きを示すベクトルである。

【0142】

本実施例において、第６の動きベクトルは、第５の学習画像の各画素についての第７の画像から第５の学習画像への移動を示す。具体的には生成部４０１ｃは、第５の動きベクトルのうち、第５の学習画像の各画素についての第６の学習画像から第５の学習画像への移動を示すベクトルの各画素に１／２を乗算することで、第６の動きベクトルを生成する。

【0143】

一方、第７の動きベクトルは、第６の学習画像と第７の画像の間の対応する画素の動きを示すベクトルであり、第６の学習画像の各画素についての第７の画像から第６の学習画像への移動を示す。具体的には生成部４０１ｃは、第５の動きベクトルのうち、第６の学習画像の各画素についての第５の学習画像から第６の学習画像への移動を示すベクトルの各画素に１／２を乗算することで、第７の動きベクトルを生成する。

【0144】

次に生成部４０１ｃは、第２の機械学習モデルの内部で、第３の学習画像ペアと第６の動きベクトルと第７の動きベクトルとを用いて、第４のワープ画像と第５のワープ画像を生成する。第４のワープ画像は、第５の学習画像と第６の動きベクトルとに基づいて生成された第７の画像に相当する画像である。第４のワープ画像は、第５の学習画像の画素を第６の動きベクトルを用いて移動させることで生成される。具体的には生成部４０１ｃは、nearest neighbor補間、bilinear補間およびbicubic補間等の公知の補間方法を用いて、第５の学習画像の画素値から第４のワープ画像の各画素値を算出する。

【0145】

本実施例では、第５の学習画像の各画素についての第７の画像から第５の学習画像への移動を示す第６の動きベクトルを用いて、第５の学習画像を第７の画像相当の画像になるように位置合わせするforward warpingを採用している。ただし、第７の画像の各画素についての第５の学習画像から第７の画像への移動を示す動きベクトルを用いて、第５の学習画像を第７の画像相当の画像になるように位置合わせするbackward warpingを行ってもよい。本実施例では、推定フェーズの第２の機械学習モデルにおいてforward warpingを採用しているため、ステップＳ７０３においてもforward warpingを採用している。このように、第２の学習フェーズと推定フェーズで第２の機械学習モデルにおける画像の位置合わせの方法を揃えることで、より高精度な第５の画像を生成する第２の機械学習モデルを学習できる。このことは、以下の第５のワープ画像の生成についても同様である。

【0146】

第５のワープ画像は、第６の学習画像と第７の動きベクトルとに基づいて生成された第７の画像に相当する画像である。第５のワープ画像は、第６の学習画像の画素を第７の動きベクトルを用いて移動させることで生成される。具体的には生成部４０１ｃは、nearest neighbor補間、bilinear補間およびbicubic補間等の公知の補間方法を用いて、第６の学習画像の画素値から第５のワープ画像の各画素値を算出する。

【0147】

最後に生成部４０１ｃは、第２の機械学習モデルの内部で、第４のワープ画像と第５のワープ画像から第７の画像を生成する。具体的には、第４のワープ画像の画素値と第５のワープ画像の画素値との平均または加重平均に基づいて第７の画像を生成する。本実施例では、第４のワープ画像の画素値と第５のワープ画像の画素値との平均を第７の画像の画素値とすることで、第７の画像を生成する。

【0148】

なお、第２の機械学習モデルの内部で、第４のワープ画像と第５のワープ画像の第７の画像の生成に対する寄与度を決定し、その寄与度に応じて第７の画像を生成することが好ましい。該寄与度は第７の画像の画素ごとに決定されることが好ましい。例えば、第４のワープ画像と第５のワープ画像とをＣＮＮに入力して、第４のワープ画像と第５のワープ画像の各画素について第７の画像の生成に対する寄与度を決定することが好ましい。推定フェーズにおいても第２の機械学習モデルが同様の処理を行うことで、第１の画像と第２の画像の画素ごとに第１の画像と第２の画像との寄与度が調整されるため、より高精度な第５の画像を生成することができる。

【0149】

また、第７の画像の生成の後、第２の機械学習モデルの内部で、少なくとも第４のワープ画像と第５のワープ画像に基づいて第７の画像の画素ごとに残差成分を算出し、この残差成分を第７の画像に加算した画像を新たな第７の画像とすることが好ましい。例えば、第４のワープ画像と第５のワープ画像とをＣＮＮに入力して、第７の画像の各画素について残差成分を決定することが好ましい。推定フェーズにおいても第２の機械学習モデルが同様の処理を行うことで、より高精度な第５の画像を生成することができる。

【0150】

次にステップＳ７０４では、更新部４０１ｄは、第７の画像と第３の正解画像との誤差に基づいて、第２の機械学習モデルのウエイトを更新（決定）する。本実施例では、第７の画像と第３の正解画像における画素値の差のシャルボニエロスをロス関数とする。ただし、ロス関数はこれに限定されるものではない。ステップＳ７０１において複数組の第３の学習画像ペアを取得している場合は、各組に対してロス関数の値を算出する。算出されたロス関数の値から誤差逆伝搬法等によってウエイトの更新を行う。

【0151】

次にステップＳ７０５では、更新部４０１ｄは、第２の機械学習モデルの学習が完了したか否かを判定する。学習の完了は、ウエイトの更新の反復回数が所定回数に達したことや、更新時のウエイトの変化量が所定値より小さいこと等で判定することができる。ウエイトの学習が完了していないと判定された場合は処理はステップＳ７０１へ戻り、取得部４０１ｂは、１組以上の新たな第３の学習画像ペアおよび第３の正解画像を取得する。ウエイトの学習が完了したと判定された場合は、更新部４０１ｄは、学習を終了し、ウエイトの情報を記憶部４０１ａに記憶する。

【0152】

実施例１と同様に本実施例でも、第１の学習フェーズにおいて第１の機械学習モデルの学習を行った後、第２の学習フェーズにおいて第２の機械学習モデルの学習を行う。ただし、これに限らず、はじめから第１の機械学習モデルと第２の機械学習モデルを共同で学習してもよい。また、第１の学習フェーズと第２の学習フェーズを行った後、さらに第１の機械学習モデルのウエイトと第２の機械学習モデルのウエイトと共同で更新する第３の学習フェーズを設けてもよい。

【0153】

また本実施例では、第２の学習フェーズにおいて第１の機械学習モデルが第３の学習画像ペア内の対応する画素の動きを示す第５の動きベクトルを生成する。ただし、これに限定されず、第２の学習フェーズにおいて第１の機械学習モデルが第６の動きベクトルと第７の動きベクトルの両方を生成してもよい。具体的には、第１の機械学習モデルは、第１の学習画像ペアの一方または他方の画像と、第１の学習画像ペアの中央の画像との間の動きベクトルの両方を生成するように学習されてもよい。第１の学習画像ペアの中央の画像とは、第１の学習画像ペアが同一の動画を構成するフレーム画像であると仮定した場合に、第１の学習画像ペアの中央のフレーム画像となることが目標とされる画像である。その場合、推定フェーズにおいて第１の機械学習モデルは、第１の画像または第２の画像と、第５の画像との間の対応する画素の動きを示す動きベクトルの両方を第１の動きベクトルとして生成する。

【0154】

図１４は、画像推定装置４０３において行われる学習済の第１の機械学習モデルと学習済の第２の機械学習モデルとによる推定の処理（推定フェーズ）の流れを示している。学習済の機械学習モデルとは、学習フェーズでの学習によりウエイトを決定された機械学習モデルである。

【0155】

推定フェーズでは、画像推定装置４０３は、まず元動画５０１から第１の元画像５０２と第２の元画像５０３を抽出する。次に第１の元画像５０２と第２の元画像５０３をそれぞれ分割して第１の画像５０４と第２の画像５０５とを生成する。次に第１の画像５０４と第２の画像５０５とをそれぞれ縮小して、第３の画像５０６と第４の画像５０７を生成する。

【0156】

次に画像推定装置４０３は、第３の画像５０６と第４の画像５０７を第１の機械学習モデルに入力して第１の動きベクトル５０８を生成する。次に第１の動きベクトル５０８を拡大して第２の動きベクトル５０９を生成する。次に画像推定装置４０３は、第１の画像５０４と第２の画像５０５と第２の動きベクトル５０９を第２の機械学習モデルに入力して第５の画像５１０を生成する。続いて第５の画像５１０を結合して目的画像５１１を生成する。

【0157】

最後に画像推定装置４０３は、元動画５０１と目的画像５１１とから目的動画５１２を生成する。第５の画像５１０は、第１の画像５０４と第２の画像５０５の中央に位置する画像である。また目的画像５１１は、第１の元画像５０２と第２の元画像５０３の中央に位置するフレーム画像である。また、目的動画５１２は、元動画５０１が約２倍にアップフレームレートされた動画である。

【0158】

図１５のフローチャートは、推定フェーズとして、画像推定装置４０３により行われる処理を示している。まずステップＳ８０１では、取得部４０３ｂは、元動画５０１と、第１の機械学習モデルのウエイトの情報と、第２の機械学習モデルのウエイトの情報とを取得する。本実施例において、元動画５０１は、光学系３０２ａと撮像素子３０２ｂにより生成された撮像動画である。ただし、取得する元動画５０１は撮像動画の一部でもよい。例えば、撮像動画を空間方向または時間方向にクロップした動画でもよい。また元動画５０１は、グレースケールで表現されていてもよいし、複数のチャンネル成分を有してもよい。第１の機械学習モデルのウエイトの情報と第２の機械学習モデルのウエイトの情報は、予め記憶部４０１ａから読み出されて記憶部４０３ａに記憶されている。

【0159】

次にステップＳ８０２では、生成部４０３ｃは、元動画５０１から第１の元画像５０２と第２の元画像５０３を抽出する。第１の元画像５０２と第２の元画像５０３は、元動画５０１を構成するフレーム画像である。本実施例では、図１４に示すように、第２の元画像５０３は元動画５０１において第１の元画像５０２に隣接するフレーム画像である。

【0160】

次にステップＳ８０３では、生成部４０３ｃは、第１の元画像５０２と第２の元画像５０３とをそれぞれ分割して第１の画像５０４と第２の画像５０５とを生成する。第１の画像５０４と第２の画像５０５はともに同じ第３のサイズの画像である。すなわち、第１の画像５０４と第２の画像５０５はそれぞれ、第１の元画像５０２と第２の元画像５０３の同一位置から第３のサイズを有する領域をクロップされた画像である。本実施例において、第３のサイズは２５６×２５６画素である。実施例１と同様に、第１の元画像５０２を複数の第１の画像５０４同士が共通の領域を含むよう分割することが好ましい。なお、第１の元画像５０２と第２の元画像５０３のサイズが第３のサイズと同じであれば、ステップＳ８０３の分割処理は不要であり、これに付随してステップＳ８０９の結合処理も不要である。

【0161】

次にステップＳ８０４では、生成部４０３ｃは、第１の画像５０４と第２の画像５０５をそれぞれ縮小して第３の画像５０６と第４の画像５０７とを生成する。第１の画像５０４から第３の画像５０６への縮小および第２の画像５０５から第４の画像５０７への縮小は、画像から画像への変換を行う同一の縮小処理を用いて行われる。本実施例での縮小処理は、複数画素から１画素のみを抽出するダウンサンプルである。

【0162】

第３の画像５０６と第４の画像５０７はともに同じ第１のサイズの画像である。本実施例において第１のサイズは１２８×１２８画素である。このため、第１の画像５０４から第３の画像５０６への縮小倍率および第２の画像５０５から第４の画像５０７への縮小倍率はともに、画像の幅方向に２倍、高さ方向に２倍である。

【0163】

次にステップＳ８０５では、推定部４０３ｄは、第３の画像５０６と第４の画像５０７を第１の機械学習モデルに入力して第１の動きベクトル５０８を生成する。第１の動きベクトル５０８は、第３の画像５０６と第４の画像５０７の間の対応する画素の動きをベクトルで表したものである。本実施例において、第１の動きベクトル５０８は第３の画像５０６および第４の画像５０７と同じ第１のサイズ（１２８×１２８画素）を有する。ただし、第１の動きベクトル５０８のサイズはこれに限定されない。

【0164】

本実施例において、第１の動きベクトルは、第３の画像５０６と第４の画像５０７の間の対応する画素の動きを示す２種類のベクトルである。一方の種類のベクトルは、第３の画像５０６の各画像についての第４の画像５０７から第３の画像５０６への移動を示す。他方の種類のベクトルは、第４の画像５０７の各画像についての第３の画像５０６から第４の画像５０７への移動を示す。また本実施例において、第１の動きベクトルは４種類の２次元マップであり、各２次元マップは第３の画像５０６または第４の画像５０７の各画素の位置ごとに水平方向または垂直方向の移動量を示す。

【0165】

次にステップＳ８０６では、生成部４０３ｃは、第１の動きベクトル５０８を拡大して第２の動きベクトル５０９を生成する。第１の動きベクトル５０８に対する拡大処理は、第１の機械学習モデルとは独立した処理である。この拡大処理は、第１の機械学習モデルと独立していれば、機械学習モデルを用いる拡大処理であってもよいし、機械学習モデルを用いない拡大処理であってもよい。本実施例において、拡大処理はbicubic補間を用いる処理である。より具体的には、拡大処理として、第１の動きベクトル５０８をbicubic補間で拡大した動きベクトルの各画素に対して、拡大倍率（本実施例では後述するように２倍）を乗算することで第２の動きベクトル５０９を生成する。また本実施例において、この拡大処理における拡大倍率は、ステップＳ８０４の縮小処理における縮小倍率と同一であり、マップの幅方向に２倍、高さ方向に２倍である。すなわち、第２の動きベクトルのサイズは２５６×２５６画素である。本実施例において、第２の動きベクトル５０９は、第１の画像５０４と第２の画像５０５と同一のサイズを有する。

【0166】

次にステップＳ８０７では、推定部４０３ｄは、第１の画像５０４と第２の画像５０５と第２の動きベクトル５０９とを第２の機械学習モデルに入力して第５の画像５１０を生成する。ここでは推定部４０３ｄは、まず第２の機械学習モデルの内部で、第２の動きベクトル５０９を用いて第８の動きベクトルと第９の動きベクトルを生成する。第８の動きベクトルは、第１の画像５０４と第５の画像５１０の間の対応する画素の動きを示すベクトルである。本実施例において第８の動きベクトルは、第１の画像５０４の各画像についての第５の画像５１０から第１の画像５０４への移動を示す。具体的には、第２の動きベクトル５０９のうち第１の画像５０４の各画像についての第２の画像５０５から第１の画像５０４への移動を示すベクトルの各画素に１／２を乗算することで、第８の動きベクトルを生成する。

【0167】

一方、第９の動きベクトルは、第２の画像５０５と第５の画像５１０の間の対応する画素の動きを示すベクトルである。本実施例において第９の動きベクトルは、第２の画像５０５の各画像についての第５の画像５１０から第２の画像５０５への移動を示す。具体的には、第２の動きベクトル５０９のうち第２の画像５０５の各画像についての第１の画像５０４から第２の画像５０５への移動を示すベクトルの各画素に１／２を乗算することで、第９の動きベクトルを生成する。

【0168】

次に推定部４０３ｄは、第２の機械学習モデルの内部で、第１の画像５０４と第２の画像５０５と第８の動きベクトルと第９の動きベクトルとを用いて、第６のワープ画像と第７のワープ画像を生成する。第６のワープ画像は、第１の画像５０４と第８の動きベクトルに基づいて生成された第５の画像５１０に相当する画像である。第６のワープ画像は、第１の画像５０４の画素を第８の動きベクトルを用いて移動させることで生成される。具体的には、nearest neighbor補間、bilinear補間、bicubic補間等の公知の補間方法を用いて、第１の画像５０４の画素値から第６のワープ画像の各画素値を算出する。

【0169】

なお、本実施例では、第１の画像５０４の各画像についての第５の画像５１０から第１の画像５０４への移動を示す第８の動きベクトルを用いて、第１の画像５０４を第５の画像５１０相当の画像になるように位置合わせするforward warpingを採用している。forward warpingの採用については、第７のワープ画像に対しても同様である。

【0170】

一方、第７のワープ画像は、第２の画像５０５と第９の動きベクトルとに基づいて生成された第５の画像５１０相当の画像である。第７のワープ画像は、第２の画像５０５の画素を第９の動きベクトルを用いて移動させることで生成される。具体的には、nearest neighbor補間、bilinear補間、bicubic補間等の公知の補間方法を用いて、第２の画像５０５の画素値から第７のワープ画像の各画素値を算出する。

【0171】

最後に推定部４０３ｄは、第２の機械学習モデルの内部で、第６のワープ画像と第７のワープ画像から第５の画像５１０を生成する。具体的には、第６のワープ画像の画素値と第７のワープ画像の画素値との平均または加重平均に基づいて第５の画像５１０を生成する。本実施例では、第６のワープ画像の画素値と第７のワープ画像の画素値との平均を第５の画像５１０の画素値とすることで、第５の画像５１０を生成する。

【0172】

次にステップＳ８０８では、生成部４０３ｃは、全ての第１の画像５０４と第２の画像５０５の組について、第５の画像５１０の生成を完了したか否かを判定する。全ての第５の画像５１０の生成が完了していないと判定された場合は処理はステップＳ８０４へ戻り、生成部４０３ｃは、新たな第１の画像５０４と第２の画像５０５の組から第５の画像５１０を生成する。全ての第５の画像５１０の生成が完了したと判定された場合は、処理はステップＳ８０９に進む。

【0173】

ステップＳ８０９では、生成部４０３ｃは、第５の画像５１０を結合して目的画像５１１を生成する。本実施例において、目的画像５１１は第１の画像５０４と第２の画像５０５の中央に位置する画像である。

【0174】

次にステップＳ８１０では、生成部４０３ｃは、全ての第１の元画像５０２と第２の元画像５０３の組について、目的画像５１１の生成を完了したか否かを判定する。全ての目的画像５１１の生成が完了していないと判定された場合は処理はステップＳ８０３へ戻り、生成部４０３ｃは、新たな第１の元画像５０２と第２の元画像５０３の組から目的画像５１１を生成する。全ての目的画像５１１の生成が完了したと判定された場合は、処理はステップＳ８１１に進む。

【0175】

ステップＳ８１１において、生成部４０３ｃは、第１の元画像５０２と第２の元画像５０３と目的画像５１１から目的動画５１２を生成する。具体的には、第１の元画像５０２と第２の元画像５０３の中央に目的画像５１１を配置することで、目的動画５１２を生成する。本実施例において、目的動画５１２は元動画５０１が約２倍のアップフレームレートされた動画である。

【0176】

本実施例によれば、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、高精度なアップフレームタスクを実現することが可能となる。

【実施例0177】

実施例３は、画像を高解像化することを目的とし、同一物体の少なくとも一部を互いに異なる位置に含む２つの画像（以下、低解像度画像という）を用いて、これらよりも高解像度な１つの画像（超解像画像：以下、高解像度画像という）を生成する。このために、低解像度画像のうち一方の画像の少なくとも一部である第１の画像と低解像度画像のうち他方の画像の少なくとも一部である第２の画像とをそれぞれ縮小して第３の画像と第４の画像を生成する。第３の画像と第４の画像とに基づいて、第１の機械学習モデルを用いて第１の動きベクトルを生成する。第１の動きベクトルを拡大した第２の動きベクトルと、第１の画像と、第２の画像とに基づいて、第２の機械学習モデルを用いて第１の画像に対応する高解像度な第５の画像を生成する。第５の画像は、生成したい１つの高解像度画像の少なくとも一部である。第５の画像は、第１の画像がアップスケールされた画像でもよいし、第１の画像からノイズ、ぼけ、振れ等が除去された画像でもよい。本実施例で得られる効果は、実施例１と同様である。

【0178】

本実施例では、同一の光学系と撮像素子を用いた連続撮像（連写）により生成された２つの低解像度画像を用いて１つの高解像度画像を生成する。ただし、これに限られず、同一の光学系と撮像素子を用いた撮像であって互いに異なる撮像素子の位置での撮像により生成された２つの低解像度画像を用いて１つの高解像度画像を生成してもよい。また、互いに異なる光学系と撮像素子を用いた撮像により生成された２つの低解像度画像を用いて、１つの高解像度な画像を生成してもよい。なお、本実施例では２つの低解像度画像を用いて１つの高解像度画像を生成するが、実施例１と同様により多くの数の低解像度画像を用いることが好ましい。

【0179】

本実施例では、実施例１と同じ画像処理システム２００を用いる。実施例１に対して本実施例の画像推定部２２３は、光学系２２１と撮像素子２２２を用いた連写により生成された２つの撮像画像を用いて、これらのうち一方の撮像画像に対応する高解像度画像を生成する。

【0180】

本実施例で行う処理も、実施例１と同様に、第１の機械学習モデルの学習データの生成、第１の機械学習モデルのウエイトの学習（第１の学習フェーズ）、第２の機械学習モデルの学習データの生成、第２の機械学習モデルのウエイトの学習（第２の学習フェーズ）および学習済のウエイトを用いた第１の機械学習モデルと第２の機械学習モデルによる推定（推定フェーズ）に大別される。本実施例は推定フェーズを除いて、実施例１と同様である。

【0181】

本実施例の推定フェーズについて、実施例１の推定フェーズに基づいて説明する。本実施例の推定フェーズにおける工程は、実施例１の推定フェーズにおける工程のうちステップＳ５０３からステップＳ５０９である。本実施例では、実施例１における第１の元画像と第２の元画像は２つの低解像度画像に相当する。また実施例１における目的画像は、本実施例において生成したい１つの高解像度画像に相当する。

【0182】

本実施例でも、動きベクトルを生成する機械学習モデルが学習した画像サイズに基づいて制限されることなく、画像を高解像化するタスクを実現することが可能となる。

【0183】

以上の実施の形態は、以下の方法を含む。

【0184】

（構成１）
同一の物体の少なくとも一部を互いに異なる位置に含む第１の画像と第２の画像を縮小して、前記第１の画像に対応する第３の画像と前記第２の画像に対応する第４の画像を生成する工程と、
第１の機械学習モデルを用いて、前記第３の画像と前記第４の画像とに基づいて第１の動きベクトルを生成する工程と、
前記第１の動きベクトルを拡大して第２の動きベクトルを生成する工程と、
第２の機械学習モデルを用いて、前記第１の画像と前記第２の画像と前記第２の動きベクトルとに基づいて第５の画像を生成する工程とを有することを特徴とする画像処理方法。
（構成２）
前記第１の画像と前記第２の画像は、同一の動画から抽出された画像であることを特徴とする構成１に記載の画像処理方法。
（構成３）
前記第１の画像と前記第２の画像はそれぞれ、第１の元画像と第２の元画像を分割して得られた画像であることを特徴とする構成１または２に記載の画像処理方法。
（構成４）
前記第５の画像は、前記第１の画像に対応し、かつ該第１の画像よりも高解像度の画像であることを特徴とする構成１から３のいずれか１つに記載の画像処理方法。
（構成５）
前記第５の画像は、前記第１の画像がアップスケールされた画像であることを特徴とする構成１から３のいずれか１つに記載の画像処理方法。
（構成６）
前記第５の画像は、前記第１および第２の画像を含む動画がアップフレームレートされた動画を構成する画像であることを特徴とする構成１から３のいずれか１つに記載の画像処理方法。
（構成７）
前記第１の機械学習モデルは、畳み込みニューラルネットワークであることを特徴とする構成１から６のいずれか１つに記載の画像処理方法。
（構成８）
前記第２の機械学習モデルは、畳み込みニューラルネットワークであることを特徴とする構成１から７のいずれか１つに記載の画像処理方法。
（構成９）
前記第１の画像、前記第２の画像および前記第２の動きベクトルは、互いに同一サイズを有することを特徴とする構成１から８のいずれか１つに記載の画像処理方法。
（構成１０）
前記第１の動きベクトルの拡大は、補間処理または前記第１の機械学習モデルとは独立して学習される機械学習モデルを用いて行われることを特徴とする構成１から９のいずれか１つに記載の画像処理方法。
（構成１１）
前記第３の画像と前記第４の画像はともに第１のサイズの画像であり、
前記第１の機械学習モデルの学習に用いられる第１の学習画像セットは前記第１のサイズ以上の画像であることを特徴とする構成１から１０のいずれか１つに記載の画像処理方法。
（構成１２）
前記第１の画像と前記第２の画像はともに第３のサイズの画像であり、
前記第２の機械学習モデルの学習に用いられる第２の学習画像セットは第４のサイズ以下の画像であることを特徴とする構成１から１１のいずれか１つに記載の画像処理方法。
（構成１３）
構成１から５および構成７から１２のいずれか１つに記載の画像処理方法に用いられる前記第１および第２の機械学習モデルの学習を行う学習方法であって、
第１の学習画像と第２の学習画像を前記第１の機械学習モデルに入力して第３の動きベクトルを生成する工程と、
前記第２の学習画像と前記第３の動きベクトルとを用いて、前記第１の学習画像に相当する第１のワープ画像を生成する工程と、
前記第１の学習画像と前記第１のワープ画像との差に基づいて、前記第１の機械学習モデルの学習を行う工程と、
第３の学習画像と第４の学習画像を学習済みの前記第１の機械学習モデルに入力して第４の動きベクトルを生成する工程と、
前記第３の学習画像と前記第４の学習画像と前記第４の動きベクトルとを前記第２の機械学習モデルに入力し、該第２の機械学習モデルに、前記第４の学習画像と前記第４の動きベクトルに基づいて前記第３の学習画像に相当する第２のワープ画像を生成させるとともに、前記第３の学習画像と前記第２のワープ画像とを用いて第６の画像を生成させる工程と、
前記第６の画像と正解画像との差に基づいて、前記第２の機械学習モデルの学習を行う工程とを有することを特徴とする学習方法。

【0185】

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

【0186】

以上説明した各実施例は代表的な例にすぎず、本発明の実施に際しては、各実施例に対して種々の変形や変更が可能である。