(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-09
(45)【発行日】2024-01-17
(54)【発明の名称】画像処理用の装置及び方法、並びにニューラルネットワークトをトレーニングするシステム
(51)【国際特許分類】
G06T 1/00 20060101AFI20240110BHJP
【FI】
G06T1/00 500A
(21)【出願番号】P 2020529196
(86)(22)【出願日】2019-04-23
(86)【国際出願番号】 CN2019083872
(87)【国際公開番号】W WO2020062846
(87)【国際公開日】2020-04-02
【審査請求日】2022-04-19
(31)【優先権主張番号】201811155252.6
(32)【優先日】2018-09-30
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】201811155326.6
(32)【優先日】2018-09-30
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】201811155147.2
(32)【優先日】2018-09-30
(33)【優先権主張国・地域又は機関】CN
(31)【優先権主張番号】201811155930.9
(32)【優先日】2018-09-30
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】510280589
【氏名又は名称】京東方科技集團股▲ふん▼有限公司
【氏名又は名称原語表記】BOE TECHNOLOGY GROUP CO.,LTD.
【住所又は居所原語表記】No.10 Jiuxianqiao Rd.,Chaoyang District,Beijing 100015,CHINA
(74)【代理人】
【識別番号】100070024
【氏名又は名称】松永 宣行
(74)【代理人】
【識別番号】100195257
【氏名又は名称】大渕 一志
(72)【発明者】
【氏名】ナバレッテ、 ミケリーニ パブロ
(72)【発明者】
【氏名】ジュー、 ダン
(72)【発明者】
【氏名】リウ、 ハンウェン
【審査官】鈴木 明
(56)【参考文献】
【文献】Amir Khan,Implementation and Experiments on Face Detection System (FDS) Using Perceptual Quality Aware Features,Eastern Mediterranean University Institutional Repository (EMU I-REP),Eastern Mediterranean University,2017年02月,http://i-rep.emu.edu.tr:8080/xmlui/bitstream/handle/11129/4326/khanamir.pdf?sequence=1,他庁引用文献
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00
(57)【特許請求の範囲】
【請求項1】
複数の相関性画像を生成する装置であって、
トレーニング画像を受信し、前記トレーニング画像から少なくとも1つ以上の特徴を抽出して、前記トレーニング画像に基づいて第1特徴画像を生成するように構成される特徴抽出ユニットと、
前記第1特徴画像を正規化し、第2特徴画像を生成するように構成される正規化器と、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含
み、
前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加することと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加することによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され、
0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、
追加されたピクセルの各々は、0のピクセル値を有する、装置。
【請求項2】
前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるように構成される、請求項1
に記載の装置。
【請求項3】
前記第1特徴画像は、輝度特徴画像であり、
前記特徴抽出ユニットは、
前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含む請求項1
又は請求項
2に記載の装置。
【請求項4】
前記輝度特徴画像を生成するために、前記輝度検出器は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、
I=0.299R+0.587G+0.114B (1)
Iは、前記輝度値であり、
Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項
3に記載の装置。
【請求項5】
前記正規化器は、次の式(2)によって前記輝度特徴画像を正規化するように構成され、
【数1】
Nは、前記第1特徴画像であり、
Iは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表し、
Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
Blur(I
2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項
3又は請求項
4に記載の装置。
【請求項6】
前記第2特徴画像は、第1サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第2特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項1から請求項
5のいずれか一項に記載の装置。
【請求項7】
複数の相関性画像を生成する方法であって、
前記方法は、
トレーニング画像に基づいて第1特徴画像を生成するステップと、
前記第1特徴画像を正規化し、第2特徴画像を生成するステップと、
前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、
前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するステップと
を含
み、
前記複数回の並進シフトを行うステップは、
前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加するステップと、
前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加するステップと
を含み、
0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、
追加されたピクセルの各々は、0のピクセル値を有する、方法。
【請求項8】
前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含む、請求項
7に記載の方法。
【請求項9】
a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化する、請求項
7に記載の方法。
【請求項10】
X*Y回の並進シフトを行うステップを更に含み、
Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である、請求項
7から請求項
9のいずれか一項に記載の方法。
【請求項11】
前記第1特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み、
前記第1特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含む、請求項
7から請求項
10のいずれか一項に記載の方法。
【請求項12】
次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み、
I=0.299R+0.587G+0.114B (1)
Iは、前記輝度値であり、
Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値であり、
Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値であり、
Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である、請求項
11に記載の方法。
【請求項13】
次の式(2)によって前記輝度特徴画像を正規化するステップを更に含み、
【数2】
Nは、前記第1特徴画像であり、
Iは、前記輝度特徴画像を表し、
Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像であり、
Blur(I
2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である、請求項
11又は請求項
12に記載の方法。
【請求項14】
前記第1特徴画像は、第1サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み、
前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第1特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有する、請求項
7から請求項
13のいずれか一項に記載の方法。
【請求項15】
コンピュータに請求項
7から
14のいずれか一項に記載の方法をコンピュータに実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体。
【請求項16】
敵対的生成ネットワークをトレーニングするシステムであって、
鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記敵対的生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み、前記鑑別ネットワークマイクロプロセッサは、
複数の請求項1から
6のいずれか一項に記載の装置にカップリングされた複数の入力端と、
それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、
カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、
前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークと
を含むシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年9月30に出願された中国特許出願第201811155252.6号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155326.6号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155147.2号に基づく優先権と、2018年9月30に出願された中国特許出願第201811155930.9号に基づく優先権とを主張しており、その内容は、本明細書において出典明記により全体に組み込まれる。
【0002】
本開示は、全般的には、深層学習技術分野に関し、より詳しくは、画像処理鑑別ネットワーク用の装置、方法及びコンピュータ読み取り可能媒体を含む深層学習に基づく画像処理技術に関する。
【背景技術】
【0003】
人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。
【発明の概要】
【0004】
本開示の実施形態は、複数の相関性画像を生成する装置である。前記装置は、トレーニング画像を受信し、前記トレーニング画像から少なくとも1つ以上の特徴を抽出して前記トレーニング画像に基づいて第1特徴画像を生成するように構成される特徴抽出ユニットと、前記第1特徴画像を正規化し、第2特徴画像を生成するように構成される正規化器と、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成し、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するように構成されるシフト相関ユニットとを含み得る。
【0005】
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトし、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトすることによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、aとbとは同一であり、又は異なる。
【0006】
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加することと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加することによって、前記第2特徴画像に対して前記複数回の並進シフトを行うように構成され得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、追加されたピクセルの各々は、0のピクセル値を有する。
【0007】
少なくともいくつかの実施形態において、前記シフト相関ユニットは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じることによって、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるように構成され得る。少なくともいくつかの実施形態において、前記第1特徴画像は、輝度特徴画像であり得る。少なくともいくつかの実施形態において、前記特徴抽出ユニットは、前記トレーニング画像から輝度情報を抽出して前記輝度特徴画像を生成するように構成される輝度検出器を含み得る。
【0008】
少なくともいくつかの実施形態において、前記輝度特徴画像を生成するために、前記輝度検出器は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するように構成され、
【0009】
I=0.299R+0.587G+0.114B (1)
【0010】
Iは、前記輝度値である。Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値である。Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値である。Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である。
【0011】
少なくともいくつかの実施形態において、前記正規化器は、次の式(2)によって前記輝度特徴画像を正規化するように構成され得、
【0012】
【0013】
Nは、前記第1特徴画像である。Iは、前記輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Blur(I2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。
【0014】
少なくともいくつかの実施形態において、前記第2特徴画像は、第1サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み得る。前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第2特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。
【0015】
本開示の別の実施形態は、複数の相関性画像を生成する方法である。前記方法は、トレーニング画像に基づいて第1特徴画像を生成するステップと、前記第1特徴画像を正規化し、第2特徴画像を生成するステップと、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を生成するステップと、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させて複数の相関性画像を生成するステップとを含み得る。
【0016】
少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々を前記第2特徴画像と相関させるステップは、前記複数のシフトされた画像の各々のピクセルブロック内の各ピクセルのピクセル値に前記第2特徴画像のピクセルブロック内の位置的に対応するピクセルのピクセル値を乗じるステップを含み得る。
【0017】
少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルをそれぞれ前記ピクセルブロックの一番右の又は一番左の列になるようにシフトするステップと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルをそれぞれ前記ピクセルブロックの最上位又は最下位の行になるようにシフトするステップとを含み得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数であり、aとbとは同一であり、又は異なる。少なくともいくつかの実施形態において、a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。
【0018】
少なくともいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像のピクセルブロック内の一番左の又は一番右のa列のピクセルを削除し、前記ピクセルブロックの一番右の又は一番左の位置にa列のピクセルをそれぞれ追加するステップと、前記第2特徴画像のピクセルブロック内の最下位又は最上位のb行のピクセルを削除し、前記ピクセルブロックの最上位又は最下位の位置にb行のピクセルをそれぞれ追加するステップとを含み得る。少なくともいくつかの実施形態において、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数であり、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である。少なくともいくつかの実施形態において、追加されたピクセルの各々は、0のピクセル値を有し得 る。少なくともいくつかの実施形態において、a及びbの少なくとも一つは、前記複数回の並進シフトの実行中に少なくとも一回変化し得る。
【0019】
少なくともいくつかの実施形態において、前記方法は、X*Y回の並進シフトを行うステップを更に含み得、Yは前記第2特徴画像のピクセルブロック内のピクセルの総列数であり、Xは前記第2特徴画像のピクセルブロック内のピクセルの総行数である。
【0020】
少なくともいくつかの実施形態において、前記方法は、前記第1特徴画像を生成する前に、前記トレーニング画像を受信するステップを更に含み得る。少なくともいくつかの実施形態において、前記第1特徴画像を生成するステップは、前記トレーニング画像の輝度情報に基づいて輝度特徴画像を生成するステップを含み得る。
【0021】
少なくともいくつかの実施形態において、前記方法は、次の式(1)によって前記輝度特徴画像における所与の位置でのピクセルの輝度値を確定するステップを更に含み得、
【0022】
I=0.299R+0.587G+0.114B (1)
【0023】
Iは、前記輝度値である。Rは、前記トレーニング画像における位置的に対応するピクセルの赤成分値である。Gは、前記トレーニング画像における位置的に対応するピクセルの緑成分値である。Bは、前記トレーニング画像における位置的に対応するピクセルの青成分値である。
【0024】
少なくともいくつかの実施形態において、前記方法は、次の式(2)によって前記輝度特徴画像を正規化するステップを更に含み得、
【0025】
【0026】
Nは、前記第1特徴画像である。Iは、前記輝度特徴画像を表す。Blur(I)は、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。Blur(I2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンフィルタを適用することによって得られた画像である。
【0027】
少なくともいくつかの実施形態において、前記第1特徴画像は、第1サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含み得る。少なくともいくつかの実施形態において、前記複数のシフトされた画像の各々において、非ゼロピクセル値を有するピクセルは、前記第1特徴画像における同じ非ゼロピクセル値を持つ対応するピクセルを有し得る。
【0028】
本開示の別の実施形態は、コンピュータに複数の相関性画像を生成する方法を実行させる命令を記憶する非一時的なコンピュータ読み取り可能媒体である。前記方法は、上記のようであり得る。
【0029】
本開示の別の実施形態は、敵対的生成ネットワークをトレーニングするシステムである。前記システムは、鑑別ネットワークマイクロプロセッサによりトレーニングされるように構成される生成ネットワークマイクロプロセッサと、前記生成ネットワークにカップリングされた鑑別ネットワークマイクロプロセッサとを含む敵対的生成ネットワークプロセッサを含み得る。
【0030】
少なくともいくつかの実施形態において、前記鑑別ネットワークマイクロプロセッサは、それぞれが上記のようであり得る複数の相関性画像を生成する複数の装置にカップリングされた複数の入力端と、それぞれが前記複数の入力端のうちの一つにカップリングされた複数の分析モジュールと、カスケードの各ステージが前記複数の分析モジュールのうちの一つ及び前記カスケードの前のステージにおけるプーリングモジュールにカップリングされたプーリングモジュールを含む前記カスケードにより、接続された複数のプーリングモジュールと、前記カスケードの最後のステージにおけるプーリングモジュールにカップリングされた鑑別ネットワークとを含み得る。
【図面の簡単な説明】
【0031】
本発明と見なされる主題は、本明細書の終末での請求項に特に指摘され且つ明確に請求される。本開示の前述の及び他の目的、特徴並びに利点は、添付図面と併せて進められる次の詳細な説明からより明らかになるであろう。図面は以下の通りである。
【0032】
【
図1】本開示の実施形態に係る画像処理用の装置のブロック図を示す。
【
図2】本開示の実施形態に係る第1特徴画像における3*3ピクセルブロックの概略図を示す。
【
図3】本開示の実施形態に係る
図2に図示される第1特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
【
図4】本開示の別の実施形態に係る
図2に図示される第1特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
【
図5】本開示に係る画像処理用の装置にカップリングされ得る本開示の実施形態に係る鑑別ネットワークを示す。
【
図6】本開示の実施形態に係る画像処理用の方法のフローチャートを示す。
【
図7】本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。
【
図8】本開示の実施形態に係るニューラルネットワークをトレーニングするシステムのブロック図を示す。
【0033】
図示は当業者による詳細な説明と併せた本発明の理解の促進における明確性を図るものであるため、図面の多様な特徴は一定の縮尺で描かれたものではない。
【発明を実施するための形態】
【0034】
次に、上で簡単に述べられた添付図面と併せて本開示の実施形態を明確且つ具体的に記述することにする。本開示の主題は、法定要件を満たすために特異性を持って記述される。しかし、説明そのものは本開示の範囲を限定することを意図していない。むしろ、本発明者らは、この文書で記述されるステップ又は要素に類似した異なるステップ又は要素を含むように、請求される主題が現在又は将来の技術と併せて他のやり方で具現され得ることを考える。
【0035】
多様な図面の実施形態に関連して本技術を記述したが、理解すべきことは、本技術から逸脱することなく本技術の同じ機能を実行するために、他の類似した実施形態が利用され得るか、又は記述された実施形態に対する変更及び追加が実施され得る。したがって、本技術は、いずれか単一の実施形態に限定されるべきではなく、添付される特許請求の範囲に応じた広さ及び範囲に準拠して解釈されるべきである。また、当該技術分野における通常の知識を有する者によりこの書類に記載される実施形態に基づいて得られるその他すべての実施形態は本開示の範囲内であると見なされる。
【0036】
人工ニューラルネットワークに基づく深層学習技術は、画像処理などの分野で大いに進歩している。深層学習は、機械学習方法におけるデータの特徴づけに基づく学習方法である。観測値(例えば、画像)は多様なピクセルの強度値のベクタとして、もしくは、より抽象的には、一連のエッジ、特定の形状を有する領域等として多様な方式により表され得る。深層学習技術の利点は、汎用構造及び比較的に類似したシステムを利用した異なる技術的問題のソリューションにある。深層学習の利点は、特徴の手動取得を特徴学習及び階層的な特徴抽出用の効率的な教師なし又は半教師ありアルゴリズムに置き換えることである。
【0037】
自然界の画像は、人間によって合成的に又はコンピュータによってランダムに作成された画像と容易に区別され得る。自然画像は、少なくとも特定の構造を含有し、非常に非ランダムであるため特徴的である。例えば、合成的に及びコンピュータによってランダムに生成された画像は、自然的なシーン又はオブジェクトをほとんど含有しない。
【0038】
圧縮アルゴリズム、アナログ記憶媒体、さらには人間自身の視覚システムのような画像処理システムは現実世界の画像に対して機能する。敵対的生成ネットワーク(GAN)は、自然画像の現実的サンプルを生成する一ソリューションである。GANは、2つのモデルが同時にトレーニングされるか又はクロストレーニングされる生成モデリングへのアプローチであり得る。
【0039】
学習システムは、特定のターゲットに基づいてパラメータを調整するように構成され、損失関数で表され得る。GANにおいて、損失関数は、難しいタスクを独立して学習できる別の機械学習システムに置き換えられる。GANは、通常、鑑別ネットワークに対抗する生成ネットワークを含む。前記生成ネットワークは、低解像度データ画像の入力を受信し、前記低解像度データ画像をアップスケールし、当該アップスケールされた画像を前記鑑別ネットワークに送る。前記鑑別ネットワークは、その入力が前記生成ネットワークの出力(即ち、「フェイク」アップスケールされたデータ画像)であるかそれとも実際画像(即ち、オリジナル高解像度データ画像)であるかを分類するタスクを任せられる。前記鑑別ネットワークは、その入力がアップスケールされた画像及びオリジナル画像である確率を測定する「0」と「1」の間のスコアを出力する。前記鑑別ネットワークが「0」又は「0」に近づくスコアを出力する場合、前記鑑別ネットワークは、当該画像が前記生成ネットワークの出力であると判断している。前記鑑別ネットワークが「1」又は「1」に近づく数値を出力する場合、前記鑑別ネットワークは、当該画像がオリジナル画像であると判断している。このような生成ネットワークを鑑別ネットワークに対抗させ、したがって、「敵対的」な仕方は2つのネットワーク間の競争を利用して、生成ネットワークにより生成された画像がオリジナルと区別できなくなるまで、両方のネットワークがそれらの方法を改善するように駆動する。
【0040】
鑑別ネットワークは、所定のスコアを有するデータを用いて入力を「リアル」又は「フェイク」とスコアリングするようにトレーニングされ得る。「フェイク」データは生成ネットワークにより生成された高解像度画像であり得、「リアル」データは所定のリファレンス画像であり得る。鑑別ネットワークをトレーニングするために、鑑別ネットワークが「リアル」データを受信する時はいつでも「1」に近づくスコアを出力し、「フェイク」データを受信する時はいつでも「0」に近づくスコアを出力するまで、前記鑑別ネットワークのパラメータを調整する。生成ネットワークをトレーニングするために、前記生成ネットワークの出力が鑑別ネットワークから「1」にできるだけ近いスコアを受信するまで、前記生成ネットワークのパラメータを調整する。
【0041】
GANの普遍的な類推は、偽造者と警察である。生成ネットワークは偽造者に類推され、贋金を製造して、検出なしにそれを使用しようとするのに対し、鑑別ネットワークは警察に類推され、当該贋金を検出しようとし得る。偽造者と警察の間の競争は双方が偽造品を本物と区別できなくなるまでそれらの方法を改善するように刺激する。
【0042】
生成ネットワーク及び鑑別ネットワークの両方ともゼロ和ゲームで異なり且つ対立する目的関数、即ち、損失関数を最適化しようとする。「クロストレーニング」を通じて鑑別ネットワークによる出力を最大化し、生成ネットワークは生成ネットワークが生成する画像を改善し、鑑別ネットワークはそのオリジナル高解像度画像と生成ネットワークにより生成された画像の区別の正確度を向上させる。前記生成ネットワークと前記鑑別ネットワークとは、より良好な画像を生成し、画像を評価する基準を高めようと競争する。
【0043】
特定のパラメータにおいて、生成ネットワークを改善するようにトレーニングするためには、オリジナル高解像度画像と生成ネットワークにより生成された画像の区別における鑑別ネットワークの正確度を高める必要が残っている。例えば、リアルで破損していないと認識される画像の生成するタスクに関心がある。これは、ぼけ除去、雑音除去、デモザイク処理、圧縮解除、コントラスト強調、画像超解像度などのような問題に応用できる。このような問題において、破損された画像が視覚的に損なわれており、機械学習システムがそれを修復するために設計され得る。しかし、オリジナル画像を復旧する目標は往々にして非現実的であり、本物らしく見えない画像につながる。GANは、「リアル」画像を生成するように設計される。一般的な構成は、カラー出力画像を取り、機械学習システム(例えば、畳み込みネットワーク)を用いて画像がどれほどリアルであるかを測定する単一の数値を出力する。このシステムは知覚品質を向上できるが、現在、敵対的システムの出力は依然として人間ビューアにより自然画像と認識されるのに不足している。
【0044】
図1は、本開示の実施形態に係る画像処理用の装置のブロック図を示す。
【0045】
図1のブロック図は、装置100が
図1に示されるコンポーネントのみを含むことを示すことを意図していない。むしろ、装置100は、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが
図1に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
【0046】
図1に示す如く、装置100は、特徴抽出ユニット110と、シフト相関ユニット120とを含む。
【0047】
特徴抽出ユニット110は、装置100に入力されるか又は装置100により受信されるトレーニング画像から1つ以上の特徴を抽出し、当該抽出された特徴に基づいて特徴画像を生成するように構成される。前記特徴画像は、前記トレーニング画像の1つ以上の特徴を表す。前記トレーニング画像は、生成ネットワークにより生成された画像又は所定のリファレンス画像であり得る。
【0048】
いくつかの実施形態において、
図1に示す如く、特徴抽出ユニット110は、輝度検出器111を含み得る。
【0049】
輝度検出器111は、例えば、トレーニング画像における輝度に関する情報をトレーニング画像から抽出することによって、前記トレーニング画像の第1特徴画像を生成するように構成される。したがって、前記第1特徴画像は、輝度特徴画像とも称され得る。
【0050】
いくつかの実施形態において、
図1に示す如く、特徴抽出ユニット110は、正規化器112を含み得る。
【0051】
正規化器112は、前記第1特徴画像を正規化することによって第2特徴画像を生成するように構成される。第1特徴画像が輝度特徴画像である実施形態において、正規化器112は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、以下で議論されるように、相関性の計算を促進できる。
【0052】
本開示に係る画像処理用の装置100は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。
【0053】
特徴抽出ユニット110により生成された第2特徴画像は、さらなる処理を行うためにシフト相関ユニット120に出力される。シフト相関ユニット120は、前記第2特徴画像の複数回の並進シフトを行って複数のシフトされた画像を生成するように構成される。シフト相関ユニット120は、さらに、前記第2特徴画像と前記複数のシフトされた画像の各々の間の1組の相関性に基づいて複数の相関性画像を生成するように構成される。シフト相関ユニット120は、さらに、深層学習ネットワークをトレーニングするために、前記複数の相関性画像を深層学習ネットワークに送信するように構成される。例えば、いくつかの実施形態において、前記複数の相関性画像を敵対的生成ネットワークにおける鑑別ネットワークに送信して、前記鑑別ネットワークを敵対的生成ネットワークにおける生成ネットワークと反復的にトレーニングし得る。
【0054】
前記第2特徴画像は、第1数量の行のピクセル及び第1数量の列のピクセルにより定義される第1サイズのピクセルブロックを有する。前記第2特徴画像は、複数の並進シフトの前に前記第1サイズに対応する第1領域を占める。並進シフトは、いくつかの方法で達成され得る。いくつかの実施形態において、並進シフトは、前記第2特徴画像におけるピクセルを初期領域から行(又は水平)方向或いは列(又は垂直)方向に移動させる。いくつかの実施形態において、並進シフトは、前記第1領域の外にシフトされたピクセルの行及び/又は列を削除することと、シフトされたピクセルによって空いたスペースにおけるピクセルに「0」の値を割り当てることとを含み得る。いくつかの実施形態において、並進シフトは、ピクセルの行及び/又は列を並べ替えるか又は再配列することを含み得る。
【0055】
前記複数のシフトされた画像の各々は、前記第2特徴画像におけるピクセルブロックの第1サイズと同じサイズのピクセルブロックを有する。前記複数のシフトされた画像の各々は、前記第2特徴画像と同じ数の行のピクセル及び同じ数の列のピクセルを有する。
【0056】
各シフトされた画像における非ゼロ値を有する各々のピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。少なくともいくつかの実施形態において、前記第2特徴画像における対応するピクセルを有しないピクセは「0」の値が割り当てられる。例示的な例として、シフトされた画像における最初の2行のピクセルの値は、第1特徴画像の最後の2行におけるそれぞれ対応するピクセルの値と同じであり、前記シフトされた画像における他の全てのピクセルは「0」の値が割り当てられる。前記第2特徴画像における対応するピクセルを有するシフトされた画像における各ピクセルは、対応するピクセルと同じピクセル値を有する。
【0057】
本開示において、「対応するピクセル」は、位置的に対応するピクセルに限定されず、異なる位置を占めるピクセルも含み得る。「対応するピクセル」は、同じピクセル値を有するピクセルを指す。
【0058】
本開示において、画像はピクセルブロックとして処理される。ブロック内のピクセルの値は、ブロック内のピクセルに位置的に対応する画像におけるピクセルの値を表す。
【0059】
2つの画像の間の相関性は、当該2つの画像のピクセルブロックのピクセル対ピクセルの乗算によって計算され得る。例えば、相関性画像のi行目かつj列目(i,j)のピクセルの値は、第2特徴画像における(i,j)位置でのピクセルの値に、対応するシフトされた画像における(i,j)位置でのピクセルの値を乗じることによって確定され得る。
【0060】
図1に示す如く、いくつかの実施形態において、特徴抽出ユニット110は、輝度検出器111と、正規化器112とを含む。
【0061】
輝度検出器111は、例えば、特徴抽出ユニット110が受信したトレーニング画像から前記トレーニング画像における輝度に関する情報を抽出することによって第1特徴画像を生成し、当該抽出された輝度情報に基づいて輝度特徴画像を生成するように構成される。したがって、前記第1特徴画像は、輝度特徴画像とも称される。人間の目は、他の特徴よりも画像の輝度にもっと敏感である傾向がある。輝度情報を抽出することにより、本開示の装置は、トレーニング画像から不必要な情報を取り除き、処理負荷を低減できる。
【0062】
前記輝度特徴画像におけるピクセルの行及び列の数は、前記トレーニング画像と同じである。前記輝度特徴画像のi行目かつj列目(i,j)でのピクセルの輝度値Iは、次の式(1)によって計算され得る。
【0063】
I=0.299R+0.587G+0.114B (1)
【0064】
式(1)において、Rは、前記トレーニング画像におけるピクセル(i,j)の赤成分値を表す。Gは、緑成分値を表す。Bは、青成分値を表す。i及びjはいずれも整数である。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。Xは前記トレーニング画像における総行数であり、Yは前記トレーニング画像における総列数である。
【0065】
いくつかの実施形態において、前記トレーニング画像は、カラー画像である。いくつかの実施形態において、前記トレーニング画像は、Rコンポーネントと、Gコンポーネントと、Bコンポーネントとを有し、本開示の装置は、前記Rコンポーネント、前記Gコンポーネント、及び前記Bコンポーネントが前記輝度検出器に入力されて、それぞれYコンポーネント、Uコンポーネント、及びVコンポーネントに変換されてから、そこで、それぞれYチャンネル、Uチャンネル、及びVチャンネルに入力されるように、前記トレーニング画像を処理するように構成され得る。前記Yコンポーネント、前記Uコンポーネント、及びVコンポーネントは、YUV空間内のトレーニング画像のコンポーネントである。前記Yチャンネル、前記Uチャンネル、前記Vチャンネルは、これらのチャンネルからの出力がそれぞれYコンポーネント出力、Uコンポーネント出力、及びVコンポーネント出力であることを示す。トレーニング画像のRGBコンポーネントがYUVコンポーネントに変換される実施形態において、前記輝度値Iは、Yコンポーネントの値に対応する。
【0066】
いくつかの実施形態において、トレーニング画像は、Yコンポーネントと、Uコンポーネントと、Vコンポーネントとを有する。その場合、本開示の装置は、前記輝度検出器のYチャンネルを介して前記トレーニング画像のYコンポーネントを処理し、前記輝度検出器のUチャンネルを介して前記トレーニング画像のUコンポーネントを処理し、前記輝度検出器Vチャンネルを介して前記トレーニング画像のVコンポーネントを処理するように構成され得る。
【0067】
いくつかの実施形態において、YUV空間を用いることは、トレーニング画像に対してクロマサンプリングを行うことである。前記トレーニング画像のYコンポーネントは、Yチャンネルに入る。前記トレーニング画像のUコンポーネントは、Uチャンネルに入る。前記トレーニング画像のVコンポーネントは、Vチャンネルに入る。前記トレーニング画像の入力信号を3つのグループに分けることにより、前記Yコンポーネント、前記Uコンポーネント、及び前記Vコンポーネントのグループからのコンポーネントにおけるそれぞれのチャンネル処理信号は、計算負担を軽減し、処理速度を向上し得る。前記Uコンポーネント及び前記Vコンポーネントは、画像の表示効果への影響が比較的に低いため、異なるチャンネルにおいて異なるコンポーネントを処理するのは、画像表示に大きな影響を及ぼさない。
【0068】
正規化器112は、前記第1特徴画像を正規化することによって第2特徴画像を生成するように構成される。特徴抽出ユニット110が輝度検出器111を含み且つ第1特徴画像が輝度特徴画像である実施形態において、正規化器112は、前記輝度特徴画像を正規化するように構成される。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。
【0069】
より具体的には、正規化器112は、次の式(2)によって正規化を行って、第2特徴画像を得るように構成される。
【0070】
【0071】
式(2)において、Nは、第2特徴画像を表す。Iは、トレーニング画像から得られた輝度特徴画像を表す。Blurは、ガウシアンぼかしを表す。Blur(I)は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Blur(I2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σ2は、局所分散正規化された画像を表す。
【0072】
本開示のいくつかの実施形態において、第2特徴画像の並進シフトは、前記第2特徴画像における最後のa列のピクセルを残りの列のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のb行のピクセルを残りの行のピクセル前にシフトしてシフトされた画像を得る。aの値は、0≦a<Yである。bの値は、0≦b<Xである。a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。aの値とbの値とは同じか又は異なり得る。a及びbがいずれもゼロである場合、前記シフトされた画像は、前記第2特徴画像である。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。シフトが行われる順序が特に限定されないことは理解できる。例えば、いくつかの実施形態において、行のピクセルをシフトして中間画像が得られ得、そして列のピクセルをシフトしてシフトされた画像が得られ得る。
【0073】
前記シフトされた画像における各ピクセルの値は、前記第2特徴画像におけるピクセルの値に対応する。複数のシフトされた画像の各々におけるピクセル(i,j)の値は、前記第2特徴画像における異なる位置での異なるピクセルに由来する。
【0074】
いくつかの実施形態において、前記第1特徴画像の並進シフトは、前記第2特徴画像における最後のb行のピクセルを残りの行のピクセルの前にシフトして中間画像を得ることを含む。そして、前記中間画像における最後のa行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得る。
【0075】
いくつかの実施形態において、前記第2特徴画像に対してX*Y回の並進シフトを行ってX*Y個の相関性画像を得る。a及びbがいずれもゼロである場合でも、これも一つの並進シフトとしてカウントされる。
【0076】
図1のブロック図は、装置100が
図1に示されるコンポーネントのみを含むことを示すことを意図していない。むしろ、装置100は、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが
図1に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
【0077】
図2は、本開示の実施形態に係る第2特徴画像における3*3ピクセルブロックの概略図を示す。
図2において、「p1」…「p9」はそれぞれ9つのピクセルのうちの一つの値を表す。
図3は、本開示の実施形態に係る
図2に図示される第2特徴画像をシフトすることによって得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
【0078】
本開示の実施形態において、前記第2特徴画像は、第1サイズを有するピクセルブロックを含む。前記複数のシフトされた画像の各々及び前記複数の相関性画像の各々は、前記第1サイズを有するピクセルブロックを含む。
【0079】
本開示の目的のために、
図2に図示されるブロック内の最上位の行のピクセルは第1行であり、
図2に図示されるブロック内の一番左の列のピクセルは第1列である。a=1かつb=1である場合、
図3における第2行の中央に示されるシフトされた画像が得られ、前記第2特徴画像における最後の列(即ち、一番右の列)のピクセルを第1列(即ち、一番左の列)のピクセルの前に移動し、最後の行(即ち、一番下の行)のピクセルを第1行(即ち、一番上の行)のピクセルの前に移動する。
【0080】
図2及び
図3に図示される実施形態において、ピクセルはブロック内の9つの位置のうちの一つを占めることができ、各ピクセルが9つの位置の各々に現れる可能性が9つのシフトされた画像に反映される。その後、9つの相関性画像には、各ピクセルのそれ自体との相関性だけでなく、各ピクセルの画像における他のピクセルとの相関性も含まれている。敵対的生成ネットワークの例示的な例において、前記生成ネットワークが、一つのピクセルの値が高解像度のオリジナル(「リアル」)画像と異なる画像を生成する場合、合成的に生成された画像に基づいて得られた各相関性画像は、前記高解像度のオリジナル画像の相関性画像との不一致を示す。この不一致は、鑑別ネットワークに合成的に生成された画像を「0」により近くスコアリングさせ(即ち、「フェイク」の分類)、前記生成ネットワークがより現実的で知覚的により納得のいく出力の生成をアップデート及び向上させるように駆動する。
【0081】
本開示が画像に応用され得る並進シフトを限定しないことは理解できる。
図4は、本開示の別の実施形態に係る
図2に図示される第2特徴画像をシフトした後に得られた9つのシフトされた画像の各々における3*3ピクセルブロックを示す。
【0082】
図2及び
図4において、前記第2特徴画像における最後のa列のピクセルを除去し、残りの列のピクセルの前にa列のピクセルを追加して中間画像を得る。当該追加されたa列における各々のピクセルは、「0」の値を有する。次に、前記中間画像において、最後のb行のピクセルを除去し、残りの行のピクセルの前にb行のピクセルを追加してシフトされた画像を得る。当該追加されたb列における各々のピクセルは「0」の値を有する。より具体的には、0≦a<Yであり、0≦b<Xであり、a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。aの値とbの値とは同じか又は異なり得る。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。
【0083】
シフト相関ユニット120は、2つの画像における対応する位置でのピクセルの値を乗じることによって相関性画像を生成するように構成される。相関性画像において、(i,j)位置でのピクセルの値は、前記第2特徴画像におけるピクセル(i,j)の値と前記シフトされた画像におけるピクセル(i,j)の値とを乗じることによって得られる。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。i及びjはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。
【0084】
本開示に係る画像処理用の装置100は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び/又は解釈可能な1つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。
【0085】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルの手続き及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施され得る。本明細書で使用されるように、用語「機械読み取り可能媒体」、「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
【0086】
ユーザとのインタラクションを提供するために、本説明書で記述される装置、システム、プロセス、機能、及び技法は、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニター)、並びにユーザがコンピュータに入力を提供できるキーボード及びポインティングデバイス(例えば、マウス又はトラックボール))を有するコンピュータで実施され得る。他の種類のアクセサリ及び/又はデバイスを用いてユーザとのインタラクションを提供しても良い。例えば、ユーザに提供されるフィードバックは任意の形の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であり得る。ユーザからの入力は、音響、音声又は触覚入力を含む任意の形で受信され得る。
【0087】
上記の装置、システム、プロセス、機能、及び技法は、バックエンド・コンポーネント(例えば、データサーバとして)を含む、又はミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含む、又はフロントエンドコンポーネント(例えば、ユーザが上記の装置、システム、プロセス、機能、及び技法の実施とインタラクションを行えるグラフィカルユーザインタフェース又はウェブブラウザを有するクライアントコンピュータ)を含む、又はそのようなバックエンド、ミドルウェア、又はフロントエンドコンポーネントの組み合わせを含むコンピューティングシステムにおいて実施され得る。前記システムのコンポーネントは、任意の形式又はデジタルデータ通信の媒体(通信ネットワーク等)により相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、及びインターネットを含む。
【0088】
前記コンピューティングシステムは、クライアントと、サーバとを含み得る。クライアントとサーバとは、通常互いに離れており、且つ、一般的に通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータで実行され且つ互いにクライアント・サーバ関係を持つコンピュータプログラムによって生じる。
【0089】
本開示に係る画像処理用の装置は、ニューラルネットワークにカップリングされ得、前記ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る装置は、敵対的生成ネットワーク(GAN)をトレーニングするように構成される。前記GANは、生成ネットワークと、鑑別ネットワークとを含み得る。
【0090】
前記鑑別ネットワークは、鑑別ネットワークが入力として受信した画像と入力された画像と同じ解像度を有する所定のリファレンス画像の間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。
図5は、本開示の実施形態に係る鑑別ネットワーク200を示す。鑑別ネットワーク200は、複数の入力端In1、In2、In3と、複数の分析モジュール210と、複数のプーリングモジュール220と、鑑別モジュール230とを含み得る。
【0091】
複数の分析モジュール210の各々は、複数の入力端In1、In2、In3の対応する一つにカップリングされる。分析モジュール210は、入力端In1、In2、In3を介して本開示に係る装置により生成された複数の相関性画像を受信する。分析モジュール210は、前記複数の相関性画像に基づいて対応する複数の第3特徴画像を生成するように構成される。前記複数の第3特徴画像の各々は、対応する相関性画像の異なるディメンションを表すマルチチャンネル画像である。前記複数の第3特徴画像の各々は、前記対応する相関性画像より多い数のチャンネルを有する。例えば、入力される相関性画像は3つのチャンネルを有し得、出力される第3特徴画像は64個のチャンネル、128個のチャンネル又は他の任意の数のチャンネルを有し得る。前記複数の第3特徴画像の各々は、前記対応する相関性画像と同じ解像度で生成される。
【0092】
複数の分析モジュール210の各々は、複数のプーリングモジュール220のうちの一つにカップリングされる。複数のプーリングモジュール220は、カスケード接続される。プーリングモジュール220は、複数の入力画像を受信し、前記複数の入力画像を連結することによって併合画像を生成し、前記併合画像の解像度を低下させてダウンスケールされた併合画像を生成するように構成される。より具体的には、前記複数の入力画像は、対応する分析モジュール210から受信された第3特徴画像と、リファレンス画像とを含む。
図5に示す如く、カスケードの第1ステージにおいて、分析モジュール210からの第3特徴画像は、対応するプーリングモジュール220のリファレンス画像として兼ねる。カスケードの後続のステージにおいて、前記リファレンス画像は、カスケードの前のステージにおけるプーリングモジュールにより生成されたダウンスケールされた併合画像である。
【0093】
鑑別モジュール230は、カスケードの最後のステージにおけるプーリングモジュール220からダウンスケールされた併合画像を受信し、受信された画像と、当該受信された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を表すスコアを生成することによって受信されたダウンスケールされた併合画像を分類するように構成される。
【0094】
前記生成ネットワークは、生成ネットワークが画像をアップスケール及び生成できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法で構築及び構成され得る。
【0095】
装置100は、前記鑑別ネットワークの入力端を介して前記鑑別ネットワークにカップリングされ得る。前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像を直接受信しなくて良い。むしろ、前記鑑別ネットワークは、前記生成ネットワークからの出力画像、又は高解像度オリジナルサンプル画像が装置100により前処理された後にそれらを受信、分類及びスコアリングするように構成され得る。言い換えれば、前記鑑別ネットワークは、装置100からの出力を受信、分類及びスコアリングするように構成され得る。
【0096】
GANをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。
【0097】
本開示に係る画像処理用の装置において、シフト相関ユニットは、前記生成ネットワークからの出力画像及び/又は高解像度のオリジナル画像を処理して複数の相関性画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像とシフトされた或いはそうでなければ変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。従来の方法に比べ、本開示のシステムにおける鑑別ネットワークは、例えば、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間の1組の相関性とを比較することによって分類を行うための追加的な情報を備える。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換画像の間の相関性は知覚品質に影響を与えることが考えられる。
【0098】
従来の方法に比べ、本開示の画像処理用の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
【0099】
本開示は、画像処理用の方法を更に提供する。
図6は、本開示の実施形態に係る画像処理用の方法のフローチャートを示す。
【0100】
ステップS1は、例えば、トレーニング画像の抽出された輝度情報に基づいて輝度特徴画像を生成することによって第1特徴画像を得るステップを含む。
【0101】
ステップS2は、前記第1特徴画像を正規化して第2特徴画像を得るステップを含む。
【0102】
ステップS3は、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第2特徴画像における対応するピクセルを有しないピクセルは、「0」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における対応するピクセルを有する。
【0103】
ステップS4は、前記第2特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
【0104】
ステップS5は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。
【0105】
本開示に係る方法は、ニューラルネットワークをトレーニングするように構成され得る。いくつかの実施形態において、本開示に係る方法は、敵対的生成ネットワーク(GAN)をトレーニングするように構成される。前記GANは、生成ネットワークと、鑑別ネットワークとを含み得る。GANをトレーニングする従来の方法は、生成ネットワークからの出力画像又はオリジナルサンプル画像を、分類のために、直接鑑別ネットワークに送る。その結果、分類を目的として、前記鑑別ネットワークは前記出力画像又は前記オリジナルサンプル画像にある情報に依存することに限定される。
【0106】
従来の技法に比べ、本開示の方法は、生成ネットワークからの出力画像又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、複数の変換された画像を生成する。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが2組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう1組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。
【0107】
本開示の装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
【0108】
図7は、本開示の別の実施形態に係る画像処理用の方法のフローチャートを示す。
【0109】
ステップS1は、第1特徴画像を得るステップを含む。前記第1特徴画像は、トレーニング画像の輝度情報を抽出することによって得られた輝度特徴画像であり得る。
【0110】
したがって、前記第1特徴画像を得るステップは、前記トレーニング画像における輝度情報に基づいて輝度特徴画像を得るステップを含むステップS11を含み得る。
【0111】
前記輝度特徴画像は、前記トレーニング画像と同じ数の行及び列のピクセルを有する。前記輝度特徴画像のi行目かつj列目(i,j)でのピクセルの輝度値Iは、次の式(1)によって計算され得る。
【0112】
I=0.299R+0.587G+0.114B (1)
【0113】
式(1)において、Rは、前記トレーニング画像におけるピクセル(i,j)の赤成分値を表す。Gは、緑成分値を表す。Bは、青成分値を表す。i及びjはいずれも整数である。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。Xは前記トレーニング画像における総行数であり、Yは前記トレーニング画像における総列数である。
【0114】
ステップS12において、前記輝度特徴画像を正規化して第2特徴画像を得る。正規化により、画像のピクセル値がより小さな値の範囲内に収まるようにし、高すぎる又は低すぎる外れピクセル値を取り除くことができる。これは、結局、相関性の計算を促進できる。
【0115】
より具体的には、ステップS12において、次の式(2)によって正規化を行う。
【0116】
【0117】
式(2)において、Nは、前記第2特徴画像を表す。Iは、前記トレーニング画像から得られた輝度特徴画像における所与の位置でのピクセルの輝度値を表す。Blurは、ガウシアンぼかしを表す。Blur(I)は、前記輝度特徴画像に対して実行するガウシアンぼかしフィルタを表す。Blur(I2)は、前記輝度特徴画像における各ピクセル値を二乗してから、前記輝度特徴画像にガウシアンぼかしフィルタを実行することによって得られた画像を表す。μは、ガウシアンぼかしフィルタを用いて得られた出力画像を表す。σ2は、局所分散画像を表す。
【0118】
ステップS2は、前記第2特徴画像に対して複数回の並進シフトを行って複数のシフトされた画像を得るステップを含む。各シフトされた画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
【0119】
本開示のいくつかの実施形態において、前記複数回の並進シフトを行うステップは、前記第2特徴画像における最後のa列のピクセルを残りの列のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のb行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。
【0120】
本開示の他の実施形態において、前記複数回の並進シフトを行うステップは、第2特徴画像における最後のb行のピクセルを残りの行のピクセルの前にシフトして中間画像を得、そして前記中間画像における最後のa行のピクセルを残りの行のピクセルの前にシフトしてシフトされた画像を得るステップを含む。
【0121】
aの値は、≦a<Yである。bの値は、0≦b<Xである。a及びbはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。いくつかの実施形態において、任意の所与の2つの画像シフトプロセスにおいて、a及びbの少なくとも一つの値は変化する。
【0122】
各シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における同じ非ゼロ値を持つ対応するピクセルを有する。前記第2特徴画像における対応するピクセルを有しないピクセルは、「0」の値が割り当てられてもよい。言い換えれば、シフトされた画像における非ゼロ値を有する各ピクセルは、前記第2特徴画像における対応するピクセルを有する。
【0123】
ステップS3は、前記第2特徴画像と前記複数のシフトされた画像の間の相関性に基づいて複数の相関性画像を生成するステップを含む。各相関性画像は、前記第2特徴画像と同じ数の行及び列のピクセルを有する。
【0124】
前記複数の相関性画像を生成するステップは、前記第2特徴画像における各ピクセルの値と前記シフトされた画像における位置的に対応するピクセルの値とを乗じるステップを含む。言い換えれば、前記第2特徴画像におけるピクセル(i,j)の値に前記シフトされた画像におけるピクセル(i,j)の値を乗じて前記相関性画像における(i,j)位置でのピクセルの値を生成する。iの値は、1≦i≦Xである。jの値は、1≦j≦Yである。i及びjはいずれも整数である。Xは、前記第2特徴画像におけるピクセルの総行数を表す。Yは、前記第2特徴画像におけるピクセルの総列数を表す。
【0125】
ステップS4は、例えば、敵対的生成ネットワークの鑑別ネットワークのようなニューラルネットワークに前記複数の相関性画像を送信するステップを含む。
【0126】
本開示に係る画像処理用の方法は、汎用のコンピュータ、マイクロプロセッサ、デジタル電子回路、集積回路、特に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はその組み合わせの形になっているコンピューティング装置で実施され得る。これらの多様な実施は、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能及び/又は解釈可能な1つ以上のコンピュータプログラムにおける実施を含み、当該少なくとも一つのプログラマブルプロセッサは専用又は汎用であり得、且つカップリングされて記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置にデータ及び命令を送信し得る。
【0127】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルの手続き及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械言語で実施され得る。本明細書で使用されるように、用語「機械読み取り可能媒体」、「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
【0128】
図8は、本開示の実施形態に係るニューラル
ネットワークをトレーニングするシステムのブロック図を示す。
【0129】
図8に示す如く、上記の装置100は、入力端Inを介して鑑別ネットワーク200にカップリングされ得る。鑑別ネットワーク200の構造及び構成は特に限定されない。鑑別ネットワーク200は、以上の記述のように、構築及び構成され得、または、鑑別ネットワークが入力として受信した画像と、入力された画像と同じ解像度を有する所定のリファレンス画像との間のマッチング度を分類できる限り、当該技術分野における通常の知識を有する者に知られている任意の適当な方法でも構築及び構成され得る。
【0130】
本開示の実施形態は、生成ネットワークからの出力画像及び/又は高解像度のオリジナル画像を直接鑑別ネットワークに送信しない。むしろ、画像は、分類のために前記鑑別ネットワークに送られる前に、特徴抽出ユニットとシフト相関ユニットとを含む上記の装置により処理される。前記シフト相関ユニットは、前記生成ネットワークからの出力画像及び/又は前記高解像度のオリジナル画像を処理して複数の変換された画像を生成するように構成される。例えば、前記シフト相関ユニットは、前記出力画像及び/又は前記オリジナルサンプル画像に固有の情報だけでなく、それらの画像と変換された画像の間の相関性に関する情報も含む複数の相関性画像を生成するように構成される。この追加的な情報は、前記鑑別ネットワークが2組の相関性の間の類似性に基づいて、即ち、前記生成ネットワークからの出力画像と前記変換された画像の間の1組の相関性と、前記オリジナルサンプル画像と前記変換された画像の間のもう1組の相関性の間の類似性に基づいて分類を行うようにする。さらに、自然画像評価(NIQE)非参照画質スコアにより、出力画像(又はオリジナルサンプル画像)と変換された画像の間の相関性は知覚品質に影響を与えることが考えられる。
【0131】
本開示に係る装置からの出力に基づく分類は、分類の精度を高め、分類結果の正確性を改善し、実画像に非常に似ているので鑑別ネットワークにより分類されにくいソリューションの作成に向かって生成ネットワークのパラメータをトレーニングする。これは、知覚的に優れたソリューションを促す。
【0132】
いくつかの実施形態において、本開示に係る装置は、例えば、
図8に示す如く、敵対的生成ネットワークをトレーニングするように構成され得る。
図8は、本開示の実施形態に係る、一つの入力端Inを介して鑑別
ネットワーク200にカップリングされた一つの装置100を含む敵対的生成ネットワークをトレーニングするシステムを示す。但し、本開示は、
図8に示す実施形態に限定されない。例えば、生成ネットワークが異なる解像度を有する複数の画像を生成する実施形態において、鑑別ネットワークは、それぞれが装置100にカップリングされた複数の入力端Inを含み得る。前記生成ネットワークからの各画像は、複数の画像処理用の装置100のうちの一つに送信される。各装置100は、当該受信された画像に基づいて複数の相関性画像を生成し、前記複数の相関性画像を鑑別ネットワーク200に送信する。一つの装置100からの複数の相関性画像は、分類されるべき画像の特定のチャネルの特徴画像を表し得る。鑑別ネットワーク200は、前記複数の入力端を介して複数の装置100から相関性画像を受信し、前記生成ネットワークからの最高解像度を持つ画像を分類されるべき画像として設定するように構成され、そして、鑑別ネットワーク200は、分類されるべき画像と、同じ解像度を有する所定のリファレンス画像の間のマッチング度をスコアリングするように構成される。
【0133】
図8のブロック図は、前記鑑別ネットワークが
図8に示されるコンポーネントのみを含むことを示すことを意図していない。本開示に係る鑑別ネットワークは、具体的な実施の詳細に応じて、当該技術分野における通常の知識を有する者に知られているが
図8に示されていない任意の数の追加的なアクセサリ及び/又はコンポーネントを含み得る。
【0134】
本開示は、上記のように敵対的生成ネットワークをトレーニングする画像を前処理する方法を実行するための命令を記憶するコンピュータ読み取り可能媒体を提供する。
【0135】
本明細書で使用されるように、用語「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意のコンピュータプログラム製品、装置及び/又はデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。用語「機械読み取り可能信号」は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。本開示に係るコンピュータ読み取り可能媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、プログラマブル読み取り専用メモリ(PROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、電気的消去可能PROM(EEPROM)、フラッシュメモリ、磁気又は光学データストレージ、レジスタ、コンパクトディスク(CD)又はDVD(デジタル・バーサタイル・ディスク)光学記憶媒体及び他の非一時的媒体のようなディスク又はテープを含むが、これらに限られない。
【0136】
本明細書の記述において、「ある実施形態」、「いくつかの実施形態」、及び「例示的な実施形態」、「例」及び「特定の例」又は「いくつかの例」などに対する言及は、特定の特徴及び構造、材料又は特性が本開示の少なくとも一部の実施形態又は例に含まれる実施形態又は例に関連して記述された旨を意図する。用語の概略的な表現は、必ずしも同じ実施形態又は例を指すとは限らない。さらに、記述される特定の特徴、構造、材料又は特性は、任意の適切な方法で任意の1つ以上の実施形態又は例に含まれ得る。また、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。その上、用語「第1」及び「第2」は単に説明を目的としており、示された技術的特徴の相対的な重要性を明示又は暗示するものと、数量の暗示的な言及として解釈されるべきではない。したがって、用語「第1」及び「第2」によって定義される特徴は、1つ以上の特徴を明示的又は暗黙的に含み得る。本開示の記述において、「複数」の意味は、特に具体的に定義されない限り、2つ以上である。
【0137】
本開示の原理及び実施形態は明細書に記載されている。本開示の実施形態の記述は単に本開示の方法及びその核となるアイデアの理解を助けるためのみに用いられる。一方、当該技術分野における通常の知識を有する者にとって、開示されたものは本開示の範囲に関し、技術方案は技術的特徴の特定の組み合わせに限定されず、本発明の概念から逸脱することなく技術的特徴又は技術的特徴の同等の特徴を組み合わせることによって形成される他の技術方案も網羅すべきである。例えば、本開示に開示されるような(ただし、これに限られない)上記の特徴を類似した特徴に置き換えることによって技術方案が得られ得る。