IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 京東方科技集團股▲ふん▼有限公司の特許一覧

特表2023-528697コンピュータ実現方法、装置及びコンピュータプログラム製品
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-07-06
(54)【発明の名称】コンピュータ実現方法、装置及びコンピュータプログラム製品
(51)【国際特許分類】
   G06T 3/40 20060101AFI20230629BHJP
   G06T 7/00 20170101ALI20230629BHJP
   G06V 10/82 20220101ALI20230629BHJP
【FI】
G06T3/40 730
G06T3/40 725
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021569943
(86)(22)【出願日】2020-04-01
(85)【翻訳文提出日】2021-11-24
(86)【国際出願番号】 CN2020082722
(87)【国際公開番号】W WO2021196070
(87)【国際公開日】2021-10-07
(81)【指定国・地域】
(71)【出願人】
【識別番号】510280589
【氏名又は名称】京東方科技集團股▲ふん▼有限公司
【氏名又は名称原語表記】BOE TECHNOLOGY GROUP CO.,LTD.
【住所又は居所原語表記】No.10 Jiuxianqiao Rd.,Chaoyang District,Beijing 100015,CHINA
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(72)【発明者】
【氏名】グアンナン・チェン
(72)【発明者】
【氏名】ジンル・ワン
(72)【発明者】
【氏名】リジェ・ジャン
(72)【発明者】
【氏名】フェンシュオ・フ
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA12
5B057CA16
5B057CB12
5B057CB16
5B057CD06
5B057CG01
5B057DA20
5B057DB02
5B057DC40
5L096EA33
5L096EA39
5L096GA30
5L096HA11
5L096KA04
(57)【要約】
本発明はコンピュータ実現方法を提供する。該コンピュータ実現方法は、低解像度画像を生成器に入力することと、生成器を使用して低解像度画像に基づいて高解像度画像を生成することと、を含む。高解像度画像を生成することは、生成器において直列接続して配置される複数の超解像度生成ユニットにより低解像度画像を処理することを含む。前記複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、複数の超解像度生成ユニットのうちの前記対応の1つからの対応出力は、対応して増加する画像解像度を有する。
【特許請求の範囲】
【請求項1】
コンピュータ実現方法であって、
低解像度画像を生成器に入力することと、
前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成することと、を含み、
前記高解像度画像を生成することは、前記生成器において直列接続して配置される複数の超解像度生成ユニットにより前記低解像度画像を処理することを含み、前記複数の超解像度生成ユニットのうちの対応の1つへの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つからの対応出力は、対応して増加する画像解像度を有する、コンピュータ実現方法。
【請求項2】
前記複数の超解像度生成ユニットのうちの前記対応の1つは、超解像度生成ブロック及びバイリニア補間ブロックを備え、
前記生成器を使用して前記高解像度画像を生成することは、
対応入力をそれぞれ前記超解像度生成ブロック及び前記バイリニア補間ブロックに入力することと、
前記超解像度生成ブロックを使用して前記対応入力を処理して、前記超解像度生成ブロックから第1中間出力を生成することと、
前記第1中間出力を前記超解像度生成ブロックから前記バイリニア補間ブロックに入力することと、
前記バイリニア補間ブロックを使用して前記対応入力及び前記第1中間出力に基づいて第2中間出力を生成することと、を更に含む請求項1に記載のコンピュータ実現方法。
【請求項3】
前記複数の超解像度生成ユニットのうちの前記対応の1つは連結ブロックを更に備え、
前記生成器を使用して高解像度画像を生成することは、
前記第2中間出力を前記連結ブロックに入力することと、
前記第2中間出力に基づいて前記連結ブロックから前記対応出力を生成することと、を更に含む請求項2に記載のコンピュータ実現方法。
【請求項4】
前記超解像度生成ブロックは、U-Netアーキテクチャで配置される複数の符号化モジュール及び複数の復号化モジュールを備え、
前記複数の符号化モジュールのうちの対応の1つは、ダウンサンプリング畳み込み層、及び直列接続して配置される複数の第1残差ブロックを備え、
前記複数の復号化モジュールのうちの対応の1つは、直列接続して配置される複数の第2残差ブロック及びアップサンプリング畳み込み層を備える請求項2又は3に記載のコンピュータ実現方法。
【請求項5】
前記生成器を使用して高解像度画像を生成することは、
直列接続して配置される複数の超解像度生成ユニットのうちの最後の1つからの出力を追加超解像度生成ブロックに入力することと、
前記追加超解像度生成ブロックを使用して前記複数の超解像度生成ユニットのうちの前記最後の1つからの出力を処理して、前記高解像度画像を生成することと、を更に含む請求項1~4のいずれか1項に記載のコンピュータ実現方法。
【請求項6】
前記コンピュータ実現方法は、フィードバックループを使用して生成器損失関数に基づいて前記生成器を訓練することを更に含む請求項1~5のいずれか1項に記載のコンピュータ実現方法。
【請求項7】
前記生成器損失関数は、

【数1】
として定義され、
ここで、iが複数のスケールの対応番号を示し、Lが平均二乗誤差関数であり、Lψが知覚損失関数であり、αがLの重み係数を示し、βがLψの重み係数を示す請求項6に記載のコンピュータ実現方法。
【請求項8】
ニューラルネットワークモデルは、参照画像及び前記高解像度画像を処理することに用いられ、

【数2】
であり、且つ

【数3】
であり、
ここで、Iが参照画像を示し、

【数4】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す請求項7に記載のコンピュータ実現方法。
【請求項9】
前記ニューラルネットワークモデルはVGG-19モデルである請求項8に記載のコンピュータ実現方法。
【請求項10】
複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、
複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、
前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、
前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の損失を計算すること、
前記損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作によって前記畳み込みニューラルネットワークを事前訓練することを更に含む請求項6~9のいずれか1項に記載のコンピュータ実現方法。
【請求項11】
参照画像及び前記高解像度画像を弁別器に入力することと、
前記弁別器を使用して前記参照画像に基づいて前記高解像度画像を検証することと、を更に含み、
前記生成器及び前記弁別器は、敵対的生成ネットワークのコンポーネントである請求項1~10のいずれか1項に記載のコンピュータ実現方法。
【請求項12】
前記高解像度画像を検証することは、直列接続して配置される複数の畳み込み層及び完全接続層により前記高解像度画像を処理することを含む請求項11に記載のコンピュータ実現方法。
【請求項13】
フィードバックループを使用して生成器損失関数及び弁別器損失関数に基づいて前記敵対的生成ネットワークの生成器及び弁別器を互いに訓練することを更に含む請求項11又は12に記載のコンピュータ実現方法。
【請求項14】
前記生成器損失関数は、

【数5】
として定義され、且つ
前記弁別器損失関数は、

【数6】
として定義され、
ここで、Dが弁別器を示し、Gが生成器を示し、iが複数のスケールの対応番号を示し、αとβが複数のスケールの対応番号に対応する重み係数を示し、Eが確率密度分布を示し、

【数7】
が知覚損失関数を示し、Pdata(x)が参照画像の確率分布を示し、xがPdata(x)的からのサンプルを示し、P(z)が高解像度画像の確率分布を示し、zがP(z)からのサンプルを示す請求項13に記載のコンピュータ実現方法。
【請求項15】
ニューラルネットワークモデルは、参照画像及び前記高解像度画像を処理することに用いられ、
前記知覚損失関数の計算は、

【数8】
であり、
ここで、Iが参照画像を示し、

【数9】
が前記高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す請求項14に記載のコンピュータ実現方法。
【請求項16】
前記ニューラルネットワークモデルはVGG-19モデルである請求項15に記載のコンピュータ実現方法。
【請求項17】
前記ニューラルネットワークモデルはSphereNetモデルである請求項15に記載のコンピュータ実現方法。
【請求項18】
複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、
複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、
前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、
前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の生成器損失を計算すること、
前記弁別器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の弁別器損失を計算すること、
前記生成器損失及び前記弁別器損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作によって前記畳み込みニューラルネットワークを事前訓練することを更に含む請求項13~17のいずれか1項に記載のコンピュータ実現方法。
【請求項19】
装置であって、
メモリと、
1つ又は複数のプロセッサと、を備え、
前記メモリと前記1つ又は複数のプロセッサは互いに接続され、
前記メモリには、
低解像度画像を生成器に入力すること、
前記生成器において直列接続して配置される複数の超解像度生成ユニットを利用して前記低解像度画像を処理することにより、前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成すること、の操作を実行するように1つ又は複数のプロセッサを制御するためのコンピュータ実行可能な命令が記憶され、
前記複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つの対応出力は、対応して増加する画像解像度を有する、装置。
【請求項20】
コンピュータ可読命令を有する非一時的有形コンピュータ可読媒体を含むコンピュータプログラム製品であって、
前記コンピュータ可読命令がプロセッサにより実行されることで、前記プロセッサは、
低解像度画像を生成器に入力すること、
前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成すること、を実行するようにし、
前記高解像度画像を生成することは、前記生成器において直列接続して配置される複数の超解像度生成ユニットにより前記低解像度画像を処理することを含み、前記複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つからの対応出力は、対応して増加する画像解像度を有する、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は表示技術に関し、より具体的に、コンピュータ実現方法、装置及びコンピュータプログラム製品に関する。
【背景技術】
【0002】
機械学習及びニューラルネットワークは既に画像を分析して様々な目的に使用することに用いられている。ニューラルネットワークは複数の隠し層を備えるネットワークである。複数の隠し層のうちの対応の1つは複数のニューロン(例えば、ノード)を備える。複数の隠し層のうちの対応の1つ内の複数のニューロンは複数の隠し層のうちの隣接する1つ内の複数のニューロンに接続される。ニューロン間の接続は、異なる重みを有する。ニューラルネットワークの構造は生体ニューラルネットワークの構造を模倣する。ニューラルネットワークは非決定的な方式を使用して問題を解決することができる。
【発明の概要】
【課題を解決するための手段】
【0003】
一態様では、本開示に係るコンピュータ実現方法は、低解像度画像を生成器に入力することと、前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成することと、を含み、前記高解像度画像を生成することは、前記生成器において直列接続して配置される複数の超解像度生成ユニットにより前記低解像度画像を処理することを含み、前記複数の超解像度生成ユニットのうちの対応の1つへの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つからの対応出力は、対応して増加する画像解像度を有する。
【0004】
選択的に、前記複数の超解像度生成ユニットのうちの前記対応の1つは、超解像度生成ブロック及びバイリニア補間ブロックを備え、前記生成器を使用して前記高解像度画像を生成することは、対応入力をそれぞれ前記超解像度生成ブロック及び前記バイリニア補間ブロックに入力することと、前記超解像度生成ブロックを使用して前記対応入力を処理して、前記超解像度生成ブロックから第1中間出力を生成することと、前記第1中間出力を前記超解像度生成ブロックから前記バイリニア補間ブロックに入力することと、前記バイリニア補間ブロックを使用して前記対応入力及び前記第1中間出力に基づいて第2中間出力を生成することと、を更に含む。
【0005】
選択的に、前記複数の超解像度生成ユニットのうちの前記対応の1つは連結ブロックを更に備え、前記生成器を使用して高解像度画像を生成することは、前記第2中間出力を前記連結ブロックに入力することと、前記第2中間出力に基づいて前記連結ブロックから前記対応出力を生成することと、を更に含む。
【0006】
選択的に、前記超解像度生成ブロックは、U-Netアーキテクチャで配置される複数の符号化モジュール及び複数の復号化モジュールを備え、前記複数の符号化モジュールのうちの対応の1つは、ダウンサンプリング畳み込み層、及び直列接続して配置される複数の第1残差ブロックを備え、前記複数の復号化モジュールのうちの対応の1つは、直列接続して配置される複数の第2残差ブロック及びアップサンプリング畳み込み層を備える。
【0007】
選択的に、前記生成器を使用して高解像度画像を生成することは、直列接続して配置される複数の超解像度生成ユニットのうちの最後の1つからの出力を追加超解像度生成ブロックに入力することと、前記追加超解像度生成ブロックを使用して前記複数の超解像度生成ユニットのうちの前記最後の1つからの出力を処理して、前記高解像度画像を生成することと、を更に含む。
【0008】
選択的に、前記コンピュータ実現方法は、フィードバックループを使用して生成器損失関数に基づいて前記生成器を訓練することを更に含む。
【0009】
選択的に、前記生成器損失関数は、

【数1】
として定義され、ここで、iが複数のスケールの対応番号を示し、Lが平均二乗誤差関数であり、Lψが知覚損失関数であり、αがLの重み係数を示し、βがLψの重み係数を示す。
【0010】
選択的に、ニューラルネットワークモデルは、参照画像及び前記高解像度画像を処理することに用いられ、

【数2】
であり、且つ

【数3】
であり、ここで、Iが参照画像を示し、

【数4】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。
【0011】
選択的に、前記ニューラルネットワークモデルはVGG-19モデルである。
【0012】
選択的に、前記コンピュータ実現方法は、複数の訓練低解像度画像を前記畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の損失を計算すること、前記損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作によって畳み込みニューラルネットワークを事前訓練することを更に含む。
【0013】
選択的に、前記コンピュータ実現方法は、参照画像及び前記高解像度画像を弁別器に入力することと、前記弁別器を使用して前記参照画像に基づいて前記高解像度画像を検証することと、を更に含み、前記生成器及び前記弁別器は、敵対的生成ネットワーク(GAN)のコンポーネントである。
【0014】
選択的に、前記高解像度画像を検証することは、直列接続して配置される複数の畳み込み層及び完全接続層により前記高解像度画像を処理することを含む。
【0015】
選択的に、前記コンピュータ実現方法は、フィードバックループを使用して生成器損失関数及び弁別器損失関数に基づいてGANの生成器及び弁別器を互いに訓練することを更に含む。
【0016】
選択的に、前記生成器損失関数は、

【数5】
として定義され、且つ前記弁別器損失関数は、

【数6】
として定義され、ここで、Dが弁別器を示し、Gが生成器を示し、iが複数のスケールの対応番号を示し、αとβが複数のスケールの対応番号に対応する重み係数を示し、Eが確率密度分布を示し、

【数7】
が知覚損失関数を示し、Pdata(x)が参照画像の確率分布を示し、xがPdata(x)からのサンプルを示し、P(z)が高解像度画像の確率分布を示し、zがP(z)からのサンプルを示す。
【0017】
選択的に、ニューラルネットワークモデルは、参照画像及び前記高解像度画像を処理することに用いられ、知覚損失関数の計算は、

【数8】
であり、ここで、Iが参照画像を示し、

【数9】
が前記高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。
【0018】
選択的に、前記ニューラルネットワークモデルはVGG-19モデルである。
【0019】
選択的に、前記ニューラルネットワークモデルはSphereNetモデルである。
【0020】
選択的に、前記コンピュータ実現方法は、複数の訓練低解像度画像を前記畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の生成器損失を計算すること、前記弁別器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の弁別器損失を計算すること、前記生成器損失及び前記弁別器損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作によって畳み込みニューラルネットワークを事前訓練することを更に含む。
【0021】
他の態様では、本開示に係る装置は、メモリと、1つ又は複数のプロセッサとを備え、前記メモリと前記1つ又は複数のプロセッサは互いに接続され、前記メモリには、低解像度画像を生成器に入力すること、前記生成器において直列接続して配置される複数の超解像度生成ユニットを利用して前記低解像度画像を処理することにより、前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成すること、の操作を実行するように1つ又は複数のプロセッサを制御するためのコンピュータ実行可能な命令が記憶され、前記複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つの対応出力は、対応して増加する画像解像度を有する。
【0022】
他の態様では、本開示に係るコンピュータ可読命令を有する非一時的有形コンピュータ可読媒体を含むコンピュータプログラム製品において、前記コンピュータ可読命令がプロセッサにより実行されることで、前記プロセッサは、低解像度画像を生成器に入力すること、前記生成器を使用して前記低解像度画像に基づいて高解像度画像を生成すること、を実行するようにし、前記高解像度画像を生成することは、前記生成器において直列接続して配置される複数の超解像度生成ユニットにより前記低解像度画像を処理することを含み、前記複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、前記複数の超解像度生成ユニットのうちの前記対応の1つからの対応出力は、対応して増加する画像解像度を有する。
【図面の簡単な説明】
【0023】
様々な開示の実施例に基づいて、下記図面は説明のための例に過ぎず、本開示の範囲を制限するように意図されるものではない。
図1図1は本開示のいくつかの実施例に係るコンピュータ実現方法のフローチャートである。
図2図2は本開示のいくつかの実施例に係るコンピュータ実現方法を実現するための装置の構造模式図である。
図3図3は本開示のいくつかの実施例に係る生成器の構造模式図である。
図4図4は本開示のいくつかの実施例に係る複数の超解像度生成ユニットのうちの対応の1つの構造模式図である。
図5図5は本開示のいくつかの実施例に係る超解像度生成ブロックの構造模式図である。
図6図6は本開示のいくつかの実施例に係る複数の符号化モジュールのうちの対応の1つの構造模式図である。
図7図7は本開示のいくつかの実施例に係る複数の復号化モジュールのうちの対応の1つの構造模式図である。
図8A図8Aは本開示のいくつかの実施例に係る低解像度画像である。
図8B図8Bは本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。
図9図9は本開示のいくつかの実施例に係るコンピュータ実現方法のフローチャートである。
図10図10は本開示のいくつかの実施例に係るコンピュータ実現方法を実現するための装置の構造模式図である。
図11図11は本開示のいくつかの実施例に係る弁別器の構造模式図である。
図12A図12Aは本開示のいくつかの実施例に係る低解像度画像である。
図12B図12Bは本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。
図12C図12Cは本開示のいくつかの実施例に係る参照画像である。
図13A図13Aは本開示のいくつかの実施例に係る低解像度画像である。
図13B図13Bは本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。
図13C図13Cは本開示のいくつかの実施例に係る参照画像である。
図14図14は本開示のいくつかの実施例に係る装置の構造模式図である。
【発明を実施するための形態】
【0024】
以下、下記実施例によって本開示をより具体的に説明する。なお、本明細書のいくつかの実施例の説明は説明及び記述のためのものに過ぎない。それは、網羅するもの又は開示される精確な形式に限定されるものではない。
【0025】
近年、様々な画像解像度の強化方法は開発されている。これらの方法は例えばニューラルネットワークを利用する方法を含む。本開示では、これらの関連方法は一般的に下流の画像強化過程を実行するための先験的な知識を必要とすることが発見された。一例では、関連方法は先験的な語義特徴を抽出して、画像解析マップ(image parsing map)及び画像ランドマークヒートマップ(image landmark heatmap)を取得する必要がある。他の例では、関連方法は画像におけるオブジェクトの先験的な知識、例えばオブジェクトの性別、年齢及び顔面表情を必要とする。これらの関連方法は時間のかかる計算過程に関わり、且つ結果が常に人を満足させることができない。
【0026】
従って、本開示は特にコンピュータ実現方法、装置及びコンピュータプログラム製品を提供し、基本的に関連技術の制限及び欠点による1つ又は複数の問題を解消する。一態様では、本開示はコンピュータ実現方法を提供する。いくつかの実施例では、コンピュータ実現方法は、低解像度画像を生成器に入力することと、生成器を使用して低解像度画像に基づいて高解像度画像を生成することと、を含む。選択的に、高解像度画像を生成するステップは、生成器において直列接続して配置される複数の超解像度生成ユニットにより低解像度画像を処理することを含む。選択的に、複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べて、複数の超解像度生成ユニットのうちの対応の1つからの対応出力は、対応して増加する画像解像度を有する。本方法は、先験的な知識、例えば先験的な語義特徴の抽出又は先験的な知識の入力を必要としない。その結果、本方法は、時間のかかる計算過程を必要とせずに高解像度画像を生成することができる。本方法は、超高解像度及び優れた詳細回復を有する強化画像を取得することができる。
【0027】
図1は、本開示のいくつかの実施例に係るコンピュータ実現方法のフローチャートである。図1を参照して、いくつかの実施例では、コンピュータ実現方法は、低解像度画像を生成器に入力することと、生成器を使用して低解像度画像に基づいて高解像度画像を生成することと、を含む。図2は、本開示のいくつかの実施例に係るコンピュータ実現方法を実現するための装置の構造模式図である。図2を参照して、いくつかの実施例では、コンピュータ実現方法を実現するための装置は生成器10、損失関数計算器20及びフィードバックループ30を備える。生成器10は、低解像度画像を入力として受信し、且つ高解像度画像を損失関数計算器20に出力するように構成される。いくつかの実施例では、損失関数計算器20は、高解像度画像に基づいて生成器損失関数を計算する。フィードバックループ30は、生成器損失関数に基づいて生成器10を訓練するように構成される。
【0028】
図3は本開示のいくつかの実施例に係る生成器の構造模式図である。図3を参照して、いくつかの実施例では、生成器10は、直列接続して配置される複数の超解像度生成ユニット100を備える。選択的に、生成器10は、N個の超解像度生成ユニットを備え、N≧2である。図3には複数の超解像度生成ユニット100の総数が3の生成器10の例を示す。選択的に、生成器10は更に追加超解像度生成ブロック200を備える。選択的に、追加超解像度生成ブロック200は、直列接続して配置される複数の超解像度生成ユニット100のうちの最後の1つから入力を受信するように構成される。
【0029】
従って、いくつかの実施例では、高解像度画像を生成するステップは、生成器10において直列接続して配置される複数の超解像度生成ユニット100により低解像度画像を処理することを含む。選択的に、複数の超解像度生成ユニット100のうちの対応の1つの対応入力に比べて、複数の超解像度生成ユニット100のうちの対応の1つからの対応出力は、対応して増加する画像解像度を有する。例えば、画像が複数の超解像度生成ユニット100のうちの1つにより処理されるたびに、画像解像度がn倍増加し、n>1である。選択的に、n=2である。
【0030】
図4は本開示のいくつかの実施例に係る複数の超解像度生成ユニットのうちの対応の1つの構造模式図である。図4を参照して、いくつかの実施例では、複数の超解像度生成ユニット100のうちの対応の1つは、超解像度生成ブロック(super-resolution generating block)110、バイリニア補間ブロック(bilinear interpolation block)120及び連結ブロック(concatenation block)130を備える。従って、いくつかの実施例では、生成器を使用して高解像度画像を生成するステップは、それぞれ超解像度生成ブロック110及びバイリニア補間ブロック120に対応入力を入力することと、超解像度生成ブロック110を使用して対応入力を処理して、超解像度生成ブロック110から第1中間出力を生成することと、超解像度生成ブロック110の第1中間出力をバイリニア補間ブロック120に入力することと、バイリニア補間ブロック120を使用して前記対応入力及び第1中間出力に基づいて第2中間出力を生成することと、第2中間出力を連結ブロック130に入力することと、第2中間出力に基づいて連結ブロック130から対応出力を生成することと、を更に含む。
【0031】
いくつかの実施例では、バイリニア補間ブロック120はバイリニア補間処理を実行する。本明細書に使用されるバイリニア補間とは、リニア補間が2次元に拡大され、且つ1つの画素の周りの4つの画素のそれぞれと補間目標画素との距離に基づいて加重平均した補間が補間目標画素の画素値として取られるという補間方法を指す。一例では、バイリニア補間ブロック120は2xバイリニア補間ブロックであり、リニア補間が2倍拡大される。
【0032】
図5は本開示のいくつかの実施例に係る超解像度生成ブロックの構造模式図である。図5を参照して、いくつかの実施例では、超解像度生成ブロック110は、U-Netアーキテクチャで配置される複数の符号化モジュール1110及び複数の復号化モジュール1120を備える。U-Netは完全畳み込みネットワーク(fully convolutional network)であり、修正及び拡張されてより少ない訓練画像と一緒に動作し且つより精確な分割を生成する。U-Netアーキテクチャは収縮経路及び拡張経路を備え、それらは一緒にネットワークにU字型アーキテクチャを与える(例えば、Olaf Ronneberger et al.,“U-Net:Convolutional Networks for Biomedical Image Segmentation,”Medical Image Computing and Computer-Assisted Intervention(MICCAI)9351、ページ234-241(2015)参照、そのすべての内容が参照として援用される)。
【0033】
図6は本開示のいくつかの実施例に係る複数の符号化モジュールのうちの対応の1つの構造模式図である。図6を参照して、いくつかの実施例では、複数の符号化モジュール1110のうちの対応の1つは、ダウンサンプリング畳み込み層1111及び直列接続して配置される複数の第1残差ブロック1112を備える。一例では、ダウンサンプリング畳み込み層1111は2xダウンサンプリング畳み込み層である。選択的に、ダウンサンプリング畳み込み層1111は畳み込み層(例えば、5*5畳み込み層、ストライド(stride)が2である)を備え、次に漏洩修正リニアユニット(leaky rectified linear unit)である(LeakyReLU、例えばMaas等参照、“Rectifier nonlinearities improve neural network acoustic models”,In Proc.ICML,volume 30,2013;and Xu,et al.,“Empirical evaluation of rectified activations in convolutional network”,arXiv preprint arXiv:1505.00853,(2015)、そのすべての内容が援用によりここに取り込まれる)。選択的に、複数の第1残差ブロック1112のうちの対応の1つは畳み込み層(例えば、5*5畳み込み層、ストライドが2である)を備え、次に漏洩修正リニアユニットであり、次に別の畳み込み層(例えば、5*5畳み込み層、ストライドが2である)であり、次に別の漏洩修正リニアユニットである。
【0034】
本明細書に使用される「畳み込み」という用語とは画像の処理過程を指す。畳み込みカーネル(convolutional kernel)は畳み込みに使用される。例えば、入力画像の各画素は値を有し、畳み込みカーネルは入力画像の1つの画素で始まり、且つ順に入力画像の各画素上で移動する。畳み込みカーネルの各位置で、畳み込みカーネルのサイズに基づいて畳み込みカーネルは画像上のいくつかの画素と重なる。畳み込みカーネルの位置で、いくつかの重なる画素のうちの1つの値を畳み込みカーネルの対応の1つの値に乗じて、いくつかの重なる画素のうちの1つの乗算値を取得する。その後、重なる画素のすべての乗算値を加えて、畳み込みカーネルの入力画像における位置に対応する和を取得する。入力画像の各画素上で畳み込みカーネルを移動することにより、該畳み込みカーネルのすべての位置に対応する全部の和を収集し且つ出力して、出力画像を形成する。一例では、畳み込みは、異なる畳み込みカーネルを使用して、入力画像の、異なる特徴を抽出することができる。他の例では、畳み込み処理は、異なる畳み込みカーネルを使用してより多くの特徴を入力画像に追加することができる。
【0035】
本明細書に使用される「畳み込み層」という用語とは、畳み込みニューラルネットワークにおける層を指す。畳み込み層は、入力画像に対して畳み込みを実行して出力画像を取得することに用いられる。選択的に、異なる畳み込みカーネルを使用して、同一の入力画像に対して、異なる畳み込みを実行する。選択的に、異なる畳み込みカーネルを使用して、同一の入力画像の、異なる部分に対して、畳み込みを実行する。選択的に、異なる畳み込みカーネルを使用して、異なる入力画像に対して畳み込みを実行し、例えば、畳み込み層に複数の画像を入力し、対応の畳み込みカーネルを使用して前記複数の画像のうちの1つの画像に対して畳み込みを実行する。選択的に、入力画像の、異なる状況に応じて、異なる畳み込みカーネルを使用する。
【0036】
図7は本開示のいくつかの実施例に係る複数の復号化モジュールのうちの対応の1つの構造模式図である。図7を参照して、いくつかの実施例では、複数の復号化モジュール1120のうちの対応の1つは、直列接続して配置される複数の第2残差ブロック1121及びアップサンプリング畳み込み層1122を備える。他の例では、アップサンプリング畳み込み層1122の数又は使用頻度は、ダウンサンプリング畳み込み層の2倍である。選択的に、アップサンプリング畳み込み層1122は、逆畳み込み層(de-convolutional layer)(例えば、5*5逆畳み込み層、ストライドが2である)を備え、次に漏洩修正リニアユニットである。選択的に、複数の第2残差ブロック1121のうちの対応の1つは畳み込み層(例えば、5*5畳み込み層、ストライドが2である)を備え、次に漏洩修正リニアユニットであり、次に別の畳み込み層(例えば、5*5畳み込み層、ストライドが2である)であり、次に別の漏洩修正リニアユニットである。
【0037】
本明細書に使用される「ダウンサンプリング」という用語とは、入力画像の特徴を抽出してより小さいスケールで出力画像を出力する過程を指す。本明細書に使用される「アップサンプリング」という用語とは、より多くの情報を入力画像に追加してより大きなスケールで前記出力画像を出力する処理を指す。本明細書に使用される「スケール(scale)」という用語とは、画像の三次元のうちの1つ又は複数の組み合わせを指し、画像の幅、画像の高さ及び画像の深さのうちの1つ又はいずれかの組み合わせを含む。一例では、画像(例えば、特徴マップ、データ、信号)のスケールとは、画像の「体積」を指し、画像の幅、画像の高さ及び画像の深さを含む。他の例では、画像(例えば、特徴マップ、データ、信号)の空間スケールとは、画像の幅及び長さ、例えば幅×長さを指す。本明細書に使用される「特徴」という用語とは、一般的に、画像又は画像の一部の情報を指し、画像におけるいかなる局所光学特性、例えばスポット、ライン又はパターンを含む。1つの例示的な例では、特徴は、ベクトル及び/又は整数で定義される空間情報の形式を用いる。
【0038】
図3を参照して、いくつかの実施例では、生成器10は、追加超解像度生成ブロック200を更に備える。選択的に、追加超解像度生成ブロック200は、直列接続して配置される複数の超解像度生成ユニット100のうちの最後の1つから入力を受信するように構成される。従って、いくつかの実施例では、高解像度画像を生成するステップは、直列接続して配置される複数の超解像度生成ユニット100のうちの最後の1つからの出力を追加超解像度生成ブロック200に入力することと、追加超解像度生成ブロック200を使用して複数の超解像度生成ユニット100のうちの最後の1つからの出力を処理して、高解像度画像を生成することと、を更に含む。
【0039】
選択的に、追加超解像度生成ブロック200は、複数の超解像度生成ユニット100のうちの対応の1つ(例えば、図5図7に示される超解像度生成ユニット)と類似又は同一のアーキテクチャを有する。
【0040】
いくつかの実施例では、コンピュータ実現方法は、フィードバック回路を使用して生成器損失関数に基づいて生成器を訓練することを更に含む。本明細書に使用される「損失関数」という用語とは、損失誤差を示す関数を指す。一例では、生成器損失関数は

【数10】
として定義され、ここで、iが複数のスケールの対応番号を示し、Lが平均二乗誤差関数であり、Lψが知覚損失関数(perceptual loss function)であり、αがLの重み係数を示し、βがLψの重み係数を示す。選択的に、ニューラルネットワークモデル(例えば、畳み込みニューラルネットワーク)を使用して参照画像及び高解像度画像を処理する。選択的に、

【数11】
であり、

【数12】
であり、ここで、Iが参照画像を示し、

【数13】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデル(例えば、最初にオックスフォード大学の視覚幾何グループにより開発されたVGG-19モデル)である。
【0041】
本明細書に使用される「特徴マップ」という用語とは、画像の特定特徴又はパラメータ又は特性を表すマップ又はデータを指す。特徴マップは、図形又は数学方式で示されてもよい。特徴マップは、画像の簡略化表現又は置換表現の形式であってもよい。例えば、特徴マップは、関数を、トポロジー的に配置されるデジタルベクトルに応用してトポロジーを保留する、出力数字に対応するベクトルの結果を取得するものである。例えば、「特徴マップ」は、畳み込みニューラルネットワークの層を使用して画像又は他の特徴マップを処理する結果であり、例えば、スケール(28、28、1)の画像は畳み込み層に入力され、且つ23個のカーネル(カーネルのサイズが1*1である)を有する畳み込み層は、入力画像において32個のカーネルを計算することによりスケール(26、26、32)の特徴マップを生成する。特徴マップは幅W、高さH及び深さDを有し、例えば、スケール(26、26、32)の特徴マップは幅26、高さ26及び深さ32を有する。特徴マップは32個の特徴サブマップを有し、特徴サブマップの総数は特徴マップの深さに等しい。深さDも特徴マップのチャネルで示され、従って、スケール(26、26、32)の特徴マップは32個のチャネルを含み、且つ各チャネルは26×26グリッドの値を有する。
【0042】
本明細書に使用される「ニューラルネットワーク」という用語とは、人工知能(AI)問題を解決するためのネットワークを指す。ニューラルネットワークは複数の隠し層を備える。複数の隠し層のうちの対応の1つは複数のニューロン(例えば、ノード)を備える。複数の隠し層のうちの対応の1つ内の複数のニューロンは、複数の隠し層のうちの隣接する1つ内の複数のニューロンに接続される。ニューロン間の接続は、異なる重みを有する。ニューラルネットワークの構造は、生体ニューラルネットワークの構造を模倣する。ニューラルネットワークは、非決定的な方式を使用して問題を解決することができる。ニューラルネットワークのパラメータは、事前訓練により調整されてもよく、例えば、多数の問題はニューラルネットワークに入力され、且つニューラルネットワークから結果を取得する。これらの結果のフィードバックをニューラルネットワークに送ることにより、ニューラルネットワークがニューラルネットワークのパラメータを調整することが許容される。事前訓練によりニューラルネットワークがより高い問題解決能力を有することが許容される。
【0043】
本明細書に使用される「畳み込みニューラルネットワーク」という用語とは、ディープフィードフォワード人工ニューラルネットワークを指す。選択的に、畳み込みニューラルネットワークは、複数の畳み込み層、複数のアップサンプリング層及び複数のダウンサンプリング層を備える。例えば、複数の畳み込み層のうちの対応の1つは、画像を処理することができる。アップサンプリング層及びダウンサンプリング層は、入力画像のスケールを、特定の畳み込み層に対応するスケールに変更することができる。アップサンプリング層又はダウンサンプリング層からの出力は、続いて対応スケールの畳み込み層により処理されてもよい。これにより、畳み込み層は、スケールが入力画像のスケールと異なる特徴を追加又は抽出することができる。事前訓練により畳み込みニューラルネットワークのパラメータを調整することができ、該パラメータは、畳み込み層の畳み込みカーネル、偏差及び重みを含むが、それらに限らない。従って、畳み込みニューラルネットワークは、様々な応用、例えば画像識別、画像特徴の抽出及び画像特徴の追加に使用されてもよい。
【0044】
一例では、コンピュータ実現方法は、低解像度画像に対してデブラー(de-blur)を行うことに用いられる。図8Aは本開示のいくつかの実施例に係る低解像度画像である。図8Bは本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。図8Bに示すように、本方法は、より高い程度の詳細回復を利用して低解像度画像を高解像度画像にデブラーすることができる。
【0045】
いくつかの実施例では、コンピュータ実現方法は、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の損失を計算すること、前記損失に基づいて畳み込みニューラルネットワークを調整すること、の操作によって畳み込みニューラルネットワークを事前訓練することを更に含む。一例では、この訓練方法は、大量の高解像度画像(例えば、4000フレームの自然シーン画像)を有するデータベースを使用する。訓練学習率は、1e-4として設定されてもよく、反復回数は、4000として設定される。他の例では、畳み込みニューラルネットワークは、約80回反復した後に収束する。
【0046】
図9は本開示のいくつかの実施例に係るコンピュータ実現方法のフローチャートである。図9を参照して、いくつかの実施例では、コンピュータ実現方法は、低解像度画像を生成器に入力することと、生成器を使用して低解像度画像に基づいて高解像度画像を生成することと、参照画像及び高解像度画像を弁別器に入力することと、弁別器を使用して参照画像に基づいて高解像度画像を検証することと、を含む。選択的に、生成器及び弁別器は、敵対的生成ネットワーク(GAN)のコンポーネントである。本明細書に使用される「敵対的生成ネットワーク」という用語とは、生成器及び弁別器を備えるニューラルネットワークを指す。一例では、弁別器を初期訓練して実際データと他のランダム分布から抽出できる偽データとを区別することができる。選択的に、弁別器の初期訓練は、強制的なものではなく、且つ弁別器は、生成器と同期して訓練することができる。一般的に訓練の効率及び安定性の理由で、最初に訓練後の弁別器を使用し、且つ生成器を利用して訓練し続ける。データサンプルのランダム分布(例えば、正規分布)により生成器を初期化することができる。生成器の訓練期間に、生成器の分布から偽サンプル(又は、1ロットの偽サンプル)をランダムに抽出して弁別器に伝達する。実際データサンプル(又は、1ロットの実際データサンプル)も弁別器に伝達される。更に、弁別器は、これらのサンプルを真又は偽に弁別してみる。「真サンプル」は、実際データから抽出されたサンプルであり、「偽サンプル」は、生成器により生成されたサンプルである。弁別器の出力に基づいて、生成器において損失関数を最小化する。これにより、生成器のパラメータ(例えば、モデル重み)を調節し、これは、生成器が真偽サンプルをより良く区別することが許容される。
【0047】
いくつかの実施例では、高解像度画像を生成するステップは、生成器において直列接続して配置される複数の超解像度生成ユニットにより低解像度画像を処理することを含み、複数の超解像度生成ユニットのうちの対応の1つの対応入力に比べ、複数の超解像度生成ユニットのうちの対応の1つからの対応出力は、対応して増加する画像解像度を有し、且つ、高解像度画像を検証するステップは、直列接続して配置される複数の畳み込み層及び完全接続層により高解像度画像を処理することを含む。
【0048】
図10は本開示のいくつかの実施例に係るコンピュータ実現方法を実現するための装置の構造模式図である。図10を参照して、いくつかの実施例では、コンピュータ実現方法を実現するための装置は、生成器10、損失関数計算器20、弁別器40及びフィードバック回路30を備える。生成器10は、低解像度画像を入力として受信し、且つ高解像度画像を損失関数計算器20に出力するように構成される。いくつかの実施例では、生成器10は更に高解像度画像を弁別器40に出力する。弁別器40は、参照画像(例えば、高解像度実際画像、例えば「真サンプル」)を受信し、且つ高解像度画像が真であるかそれとも偽であるかを確定するように構成される。いくつかの実施例では、損失関数計算器20は、高解像度画像及び参照画像に基づいて生成器損失関数及び弁別器損失関数を計算する。フィードバック回路30は、生成器損失関数及び弁別器損失関数に基づいてGANの生成器10及び弁別器40を互いに訓練するように構成される。一例では、生成器10の構造は、上記の、例えば図3図7及び関連説明を参照して説明した構造である。
【0049】
図11は本開示のいくつかの実施例に係る弁別器の構造模式図である。図11を参照して、いくつかの実施例では、弁別器40は、直列接続して配置される複数の畳み込み層300及び完全接続層400を備える。選択的に、完全接続層400は、直列接続して配置される複数の畳み込み層300のうちの最後の1つから入力を受信するように構成される。一例では、複数の畳み込み層300の総数は、5である。他の例では、複数の畳み込み層300のそれぞれはいずれも5*5畳み込み層であり、ストライドが2であり、その後は修正リニアユニット(ReLU、例えばNair,Hinton,“Rectified Linear Units Improve Restricted Boltzmann Machines”,Proceedings of the 27th International Conference on Machine Learning,Haifa,Israel,(2010)参照、そのすべての内容が援用によりここに取り込まれる)である。他の例では、複数の畳み込み層300のカーネルのサイズはそれぞれ32、64、128、96及び96である。他の例では、完全接続層400は96*16*16畳み込み層である。
【0050】
いくつかの実施例では、生成器損失関数は、

【数14】
として定義され、弁別器損失関数は、

【数15】
として定義され、ここで、Dが弁別器を示し、Gが生成器を示し、iが複数のスケールの対応番号を示し、αとβが、複数のスケールの対応番号に対応する重み係数を示し、Eが確率密度分布(probability density distribution)を示し、

【数16】
が知覚損失関数を示し、Pdata(x)が参照画像の確率分布を示し、xがPdata(x)からのサンプルを示し、P(z)が高解像度画像の確率分布を示し、zがP(z)からのサンプルを示す。
【0051】
いくつかの実施例では、ニューラルネットワークモデルを使用して参照画像及び高解像度画像を処理する。選択的に、知覚損失関数の計算は、

【数17】
であり、ここで、Iが参照画像を示し、

【数18】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデルである。選択的に、ニューラルネットワークモデルは、sphereNetモデルである(例えば、Coors等の人、“SphereNet:Learning Spherical Representations for Detection and Classification in Omnidirectional Images,”European Conference on Computer Vision 2018:Computer Vision-ECCV 2018pp 525-541参照、そのすべての内容が援用によりここに取り込まれる)。
【0052】
一例では、コンピュータ実現方法は、オブジェクトの顔面画像の顔面幻覚(face hallucination)に使用される。図12Aは本開示のいくつかの実施例に係る低解像度画像である。図12Bは本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。図12Cは本開示のいくつかの実施例に係る参照画像である。図12Bに示すように、本方法は、回復された顔面詳細(例えば、髪、眉、メガネ、しわ等)を利用して顔面画像を高解像度に強化することができる。
【0053】
一例では、コンピュータ実現方法は、低解像度画像に対してデブラーを行うことに用いられる。図13Aは、本開示のいくつかの実施例に係る低解像度画像である。図13Bは、本開示のいくつかの実施例に係るコンピュータ実現方法により生成された高解像度画像である。図13Cは、本開示のいくつかの実施例に係る参照画像である。図13Bに示すように、本方法は、より高い程度の詳細回復を利用して低解像度画像を高解像度画像にデブラーすることができる。
【0054】
いくつかの実施例では、コンピュータ実現方法は、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の生成器損失を計算すること、前記弁別器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の弁別器損失を計算すること、前記生成器損失及び前記弁別器損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作によって畳み込みニューラルネットワークを事前訓練することを更に含む。一例では、この訓練方法は、大量の高解像度画像(例えば、4000フレームの自然シーン画像、又は、200Kフレームの顔面画像を有するCelebA-HQ顔面画像データベース)を有するデータベースを使用する。訓練学習率は、1e-4として設定されてもよく、反復回数は、100として設定される。
【0055】
一方、本開示は装置を提供する。図14は本開示のいくつかの実施例に係る装置の構造模式図である。図14を参照して、いくつかの実施例では、該装置は、ROM又はRAMに記憶されるコンピュータ実行可能な命令に基づいて動作を実行するように構成される中央処理ユニット(CPU)を備える。選択的に、コンピュータシステムに必要なデータ及びプログラムは、RAMに記憶される。選択的に、CPU、ROM及びRAMは、バスを介して互いに電気的に接続される。選択的に、入力/出力インターフェースは、バスに電気的に接続される。
【0056】
いくつかの実施例では、該装置は、メモリと、1つ又は複数のプロセッサとを備え、メモリと1つ又は複数のプロセッサは互いに接続される。いくつかの実施例では、メモリはコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、低解像度画像を生成器に入力すること、前記生成器を使用して、前記生成器において直列接続して配置される複数の超解像度生成ユニットを利用して前記低解像度画像を処理することにより、前記低解像度画像に基づいて高解像度画像を生成すること、の操作を実行するように1つ又は複数のプロセッサを制御することに用いられる。選択的に、複数の超解像度生成ユニットのうちの対応の1つへの対応入力に比べ、複数の超解像度生成ユニットのうちの対応の1つからの対応出力は、対応して増加する画像解像度を有する。
【0057】
いくつかの実施例では、前記複数の超解像度生成ユニットのうちの対応の1つは、超解像度生成ブロック、バイリニア補間ブロック及び連結ブロックを備える。選択的に、前記メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、それぞれ前記超解像度生成ブロック及び前記バイリニア補間ブロックへ対応入力を入力すること、超解像度生成ブロックを使用して対応入力を処理して、超解像度生成ブロックから第1中間出力を生成すること、超解像度生成ブロックからの第1中間出力をバイリニア補間ブロックに入力すること、前記バイリニア補間ブロックを使用して前記対応入力及び第1中間出力に基づいて第2中間出力を生成すること、前記第2中間出力を前記連結ブロックに入力すること、第2中間出力に基づいて連結ブロックから対応出力を生成すること、の操作を実行するように前記1つ又は複数のプロセッサを制御することに用いられる。
【0058】
いくつかの実施例では、超解像度生成ブロックは、U-Netアーキテクチャで配置される複数の符号化モジュール及び複数の復号化モジュールを備える。選択的に、前記複数の符号化モジュールのうちの対応の1つは、ダウンサンプリング畳み込み層及び直列接続して配置される複数の第1残差ブロックを備える。選択的に、前記複数の復号化モジュールのうちの対応の1つは、直列接続して配置される複数の第2残差ブロック及びアップサンプリング畳み込み層を備える。
【0059】
いくつかの実施例では、前記メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、直列接続して配置される前記複数の超解像度生成ユニットのうちの最後の1つからの出力を追加超解像度生成ブロックに入力すること、追加超解像度生成ブロックを使用して複数の超解像度生成ユニットのうちの最後の1つからの出力を処理して、高解像度画像を生成すること、の操作を実行するように前記1つ又は複数のプロセッサを制御することに用いられる。
【0060】
いくつかの実施例では、メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、フィードバックループを使用して生成器損失関数に基づいて生成器を訓練するように1つ又は複数のプロセッサを制御することに用いられる。選択的に、生成器損失関数は、

【数19】
として定義され、ここで、iが複数のスケールの対応番号を示し、Lが平均二乗誤差関数であり、Lψが知覚損失関数であり、αがLの重み係数を示し、βがLψの重み係数を示す。
【0061】
いくつかの実施例では、ニューラルネットワークモデルを使用して参照画像及び高解像度画像を処理する。選択的に、

【数20】
であり、

【数21】
であり、ここで、Iが参照画像を示し、

【数22】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデルである。
【0062】
いくつかの実施例では、メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の損失を計算すること、該損失に基づいて畳み込みニューラルネットワークを調節すること、の操作を実行して畳み込みニューラルネットワークを事前訓練するように1つ又は複数のプロセッサを制御することに用いられる。
【0063】
いくつかの実施例では、前記メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、参照画像及び前記高解像度画像を弁別器に入力すること、弁別器を使用して参照画像に基づいて高解像度画像を検証すること、の操作を実行するように前記1つ又は複数のプロセッサを制御することに用いられる。選択的に、生成器及び弁別器は、敵対的生成ネットワーク(GAN)のコンポーネントである。
【0064】
いくつかの実施例では、前記メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、直列接続して配置される複数の畳み込み層及び完全接続層により高解像度画像を処理するという操作を実行するように前記1つ又は複数のプロセッサを制御することに用いられる。
【0065】
いくつかの実施例では、メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、フィードバックループを使用して生成器損失関数及び弁別器損失関数に基づいて生成器及び弁別器を互いに訓練するように1つ又は複数のプロセッサを制御することに用いられる。選択的に、生成器損失関数は、

【数23】
として定義され、弁別器損失関数は、

【数24】
として定義され、ここで、Dが弁別器を示し、Gが生成器を示し、iが複数のスケールの対応番号を示し、αとβが、複数のスケールの対応番号に対応する重み係数を示し、Eが確率密度分布を示し、

【数25】
が知覚損失関数を示し、Pdata(x)が参照画像の確率分布を示し、xがPdata(x)からのサンプルを示し、P(z)が高解像度画像の確率分布を示し、zがP(z)からのサンプルを示す。
【0066】
いくつかの実施例では、ニューラルネットワークモデルを使用して参照画像及び高解像度画像を処理する。選択的に、知覚損失関数の計算は、

【数26】
であり、ここで、Iが参照画像を示し、

【数27】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデルである。選択的に、ニューラルネットワークモデルはsphereNetモデルである。
【0067】
いくつかの実施例では、メモリは更にコンピュータ実行可能な命令を記憶し、該コンピュータ実行可能な命令は、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の生成器損失を計算すること、前記弁別器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の弁別器損失を計算すること、前記生成器損失及び前記弁別器損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作を実行して畳み込みニューラルネットワークを事前訓練するように1つ又は複数のプロセッサを制御することに用いられる。
【0068】
一方、本開示は、コンピュータ可読命令を有する非一時的有形コンピュータ可読媒体を含むコンピュータプログラム製品を提供する。いくつかの実施例では、前記コンピュータ可読命令がプロセッサにより実行されることで、前記プロセッサは、低解像度画像を生成器に入力すること、生成器を使用して低解像度画像に基づいて高解像度画像を生成すること、の操作を実行するようにする。選択的に、高解像度画像を生成することは、生成器において直列接続して配置される複数の超解像度生成ユニットにより低解像度画像を処理することを含み、複数の超解像度生成ユニットのうちの対応の1つへの対応入力に比べ、複数の超解像度生成ユニットのうちの対応の1つからの対応出力は、対応して増加する画像解像度を有する。
【0069】
いくつかの実施例では、前記複数の超解像度生成ユニットのうちの対応の1つは、超解像度生成ブロック、バイリニア補間ブロック及び連結ブロックを備える。選択的に、前記生成器を使用して前記高解像度画像を生成することは、それぞれ前記超解像度生成ブロック及び前記バイリニア補間ブロックへ対応入力を入力することと、超解像度生成ブロックを使用して前記対応入力を処理して、超解像度生成ブロックから第1中間出力を生成することと、超解像度生成ブロックの第1中間出力をバイリニア補間ブロックに入力することと、前記バイリニア補間ブロックを使用して前記対応入力及び第1中間出力に基づいて第2中間出力を生成することと、第2中間出力を連結ブロックに入力することと、第2中間出力に基づいて連結ブロックから対応出力を生成することと、を更に含む。
【0070】
いくつかの実施例では、超解像度生成ブロックは、U-Netアーキテクチャで配置される複数の符号化モジュール及び複数の復号化モジュールを備える。選択的に、前記複数の符号化モジュールのうちの対応の1つは、ダウンサンプリング畳み込み層及び直列接続して配置される複数の第1残差ブロックを備え、且つ前記複数の復号化モジュールのうちの対応の1つは、直列接続して配置される複数の第2残差ブロック及びアップサンプリング畳み込み層を備える。
【0071】
いくつかの実施例では、前記生成器を使用して高解像度画像を生成することは、直列接続して配置される複数の超解像度生成ユニットのうちの最後の1つからの出力を追加超解像度生成ブロックに入力することと、追加超解像度生成ブロックを使用して複数の超解像度生成ユニットのうちの最後の1つからの出力を処理して、高解像度画像を生成することと、を更に含む。
【0072】
いくつかの実施例では、プロセッサにより実行されるコンピュータ可読命令によって、プロセッサは、フィードバック回路を使用して生成器損失関数に基づいて生成器を訓練するという操作、を更に実行する。選択的に、生成器損失関数は

【数28】
として定義され、ここで、iが複数のスケールの対応番号を示し、Lが平均二乗誤差関数であり、Lψが知覚損失関数であり、αがLの重み係数を示し、βがLψの重み係数を示す。
【0073】
いくつかの実施例では、ニューラルネットワークモデルを使用して参照画像及び高解像度画像を処理する。選択的に、

【数29】
であり、

【数30】
であり、ここで、Iが参照画像を示し、

【数31】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデルである。
【0074】
いくつかの実施例では、コンピュータ可読命令がプロセッサにより実行されることで、プロセッサは更に、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の損失を計算すること、前記損失に基づいて畳み込みニューラルネットワークを調節すること、の操作を実行して畳み込みニューラルネットワークを事前訓練するようにする。
【0075】
いくつかの実施例では、前記コンピュータ可読命令がプロセッサにより実行されることで、前記プロセッサは更に、参照画像及び前記高解像度画像を弁別器に入力すること、弁別器を使用して参照画像に基づいて高解像度画像を検証すること、の操作を実行するようにする。選択的に、生成器及び弁別器は、敵対的生成ネットワーク(GAN)のコンポーネントである。
【0076】
いくつかの実施例では、高解像度画像を検証することは、直列接続して配置される複数の畳み込み層及び完全接続層により高解像度画像を処理することを含む。
【0077】
いくつかの実施例では、前記コンピュータ可読命令はプロセッサにより実行されることで、前記プロセッサは更に、フィードバックループを使用して生成器損失関数及び弁別器損失関数に基づいてGANの生成器及び弁別器を互いに訓練することの操作を実行するようにする。選択的に、生成器損失関数は、

【数32】
として定義され、弁別器損失関数は、

【数33】
として定義され、ここで、Dが弁別器を示し、Gが生成器を示し、iが複数のスケールの対応番号を示し、αとβが、複数のスケールの対応番号に対応する重み係数を示し、Eが確率密度分布を示し、

【数34】
が知覚損失関数を示し、Pdata(x)が参照画像の確率分布を示し、xがPdata(x)からのサンプルを示し、P(z)が高解像度画像の確率分布を示し、zがP(z)からのサンプルを示す。
【0078】
いくつかの実施例では、ニューラルネットワークモデルを使用して参照画像及び高解像度画像を処理する。選択的に、知覚損失関数の計算は、

【数35】
であり、ここで、Iが参照画像を示し、

【数36】
が高解像度画像を示し、ψがニューラルネットワークモデルを示し、jがニューラルネットワークモデルの複数の出力層のうちの対応の1つを示し、Cが複数の出力層のうちの対応の1つから出力された特徴マップの複数のチャネルを示し、Hが複数の出力層のうちの対応の1つから出力された特徴マップの高さを示し、Wが複数の出力層のうちの対応の1つから出力された特徴マップの幅を示す。選択的に、ニューラルネットワークモデルはVGG-19モデルである。選択的に、ニューラルネットワークモデルはsphereNetモデルである。
【0079】
いくつかの実施例では、コンピュータ可読命令がプロセッサにより実行されることで、プロセッサは更に、複数の訓練低解像度画像を畳み込みニューラルネットワークに入力すること、複数の訓練参照画像を前記畳み込みニューラルネットワークに入力すること、前記生成器を使用してそれぞれ前記複数の訓練低解像度画像に基づいて複数の訓練高解像度画像を生成すること、前記生成器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の生成器損失を計算すること、前記弁別器損失関数に基づいてそれぞれ前記複数の訓練高解像度画像の弁別器損失を計算すること、前記生成器損失及び前記弁別器損失に基づいて前記畳み込みニューラルネットワークを調節すること、の操作を実行して畳み込みニューラルネットワークを事前訓練するようにする。
【0080】
本明細書に開示される配置を参照して説明した様々な説明的なニューラルネットワーク、ユニット、モジュール及び他の操作は電子ハードウェア、コンピュータソフトウェア又はそれらの組み合わせとして実現されることができる。このように、ニューラルネットワーク、ユニット、モジュール及び他の操作は、本明細書に開示される配置を生成するように設計される汎用プロセッサ、デジタルシグナルプロセッサ(DSP)、ASIC又はASSP、FPGA又は他のプログラマブルロジックデバイス、個別ゲート又はトランジスタロジック、個別ハードウェアコンポーネント又はそれらの任意の組み合わせにより実現又は実行されることができる。例えば、このような配置は、少なくともハード配線回路、特定用途向け集積回路に製造される回路配置、又は不揮発性メモリにアップロードされるファームウェアプログラム、又は機械可読コードとしてデータ記憶媒体からアップロードされるもの又はデータ記憶媒体にアップロードされるソフトウェアプログラムとして部分的に実現されることができ、このようなコードは、汎用プロセッサ又は他のデジタル信号処理ユニット等の論理素子のアレイにより実行できる命令である。汎用プロセッサは、マイクロプロセッサであってもよいが、代替案において、プロセッサは、いかなる通常のプロセッサ、コントローラ、マイクロコントローラ又はステートマシンであってもよい。プロセッサは、計算装置の組み合わせ、例えばDSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、1つ又は複数のマイクロプロセッサとDSPカーネルの組み合わせ、又はいかなる他のこのような配置として実現されてもよい。ソフトウェアモジュールは、非一時的記憶媒体、例えばRAM(ランダムアクセスメモリ)、ROM(読み出し専用メモリ)、不揮発性RAM(NVRAM)、例えばフラッシュRAM、消去可能プログラム可能ROM(EPROM)、電気的消去可能プログラム可能ROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク又はCD-ROMに駐在してもよく、又は本分野の既知のいかなる他の形式の記憶媒体により実現される。説明的な記憶媒体はプロセッサに結合され、それによりプロセッサは記憶媒体から情報を読み取り且つ情報を記憶媒体に書き込むことができる。代替案において、記憶媒体とプロセッサは一体であってもよい。プロセッサ及び記憶媒体はASICに駐在してもよい。ASICはユーザー端末に駐在してもよい。代替案において、プロセッサ及び記憶媒体は個別コンポーネントとしてユーザー端末に駐在してもよい。
【0081】
説明及び記述のために、本発明の実施例の上記説明が与えられている。それは、網羅するものではなく、本発明を、開示される精確な形式又は例示的な実施例に制限するものでもない。従って、上記説明は、説明的なものであって制限的なものではない。無論、多くの修正や変化は、当業者にとって明らかなものである。実施例の選択及び説明は、本発明の原理及びその最適なモードの実際応用を解釈するように意図され、それにより当業者は本発明の様々な実施例及び考慮する特定の使用又は実施形態に適合する様々な修正を理解することができる。本発明の範囲は添付の特許請求の範囲及びその等価物により限定されるように意図され、特に説明しない限り、すべての用語は、その最も広い合理的な意味を意味する。従って、用語「発明」、「本発明」等は、必ず特許請求の範囲を特定の実施例に制限すると限らず、且つ本発明の例示的な実施例の援用は本発明を制限することを意味せず、且つこのような制限を推定すべきではない。本発明は、添付の請求項の趣旨及び範囲のみにより限定される。また、これらの請求項は「第1」、「第2」等の使用に関わる可能性があり、これらの単語の後は名詞又は要素である。これらの用語は命名法として理解されるべきであり、且つ、特に特定の数を与えない限り、これらの命名法により修正された素子の数を制限すると解釈されるべきではない。説明されるいかなる利点及びメリットは本発明のすべての実施例に適用されない可能性がある。理解されるように、添付の特許請求の範囲により限定される本発明の範囲を逸脱せずに、当業者は、説明される実施例を変更することができる。また、本開示の素子又はコンポーネントが添付の特許請求の範囲に明確に説明されるかどうかにかかわらず、該素子及びコンポーネントはいずれも公衆に貢献するものではない。
図1
図2
図3
図4
図5
図6
図7
図8A
図8B
図9
図10
図11
図12A
図12B
図12C
図13A
図13B
図13C
図14
【国際調査報告】