【解決手段】イメージ自動生成方法は、ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成するステップS20、信頼度推定部が、対象ピクセルごとにピクセル予測値に対する信頼度を生成するステップS30、対象ピクセルの信頼度が設定値以上であれば、ピクセル生成部が、ピクセル予測値を対象ピクセルのピクセル値に設定するステップS40、および対象ピクセルの信頼度が設定値未満であれば、ピクセル生成部が、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を生成し、ピクセル推論値を対象ピクセルのピクセル値に設定するステップS50を含む。
前記対象ピクセルのピクセル値が前記ピクセル推論値で設定されれば、前記対象ピクセルのピクセル値を反映して、前記対象ピクセルの後の残りの対象領域に対する前記ピクセル予測値および信頼度をアップデートするステップ
をさらに含む、請求項3に記載のイメージ自動生成方法。
【発明を実施するための形態】
【0012】
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面番号に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明を省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「モジュール」および「部」という用語は、ソフトウェア構成要素、または、FPGAもしくはASICのようなハードウェア構成要素を意味し、「モジュール」および「部」はある役割をする。しかしながら、「モジュール」および「部」は、ソフトウェアまたはハードウェアに限定されるものではない。「モジュール」および「部」は、アドレッシング可能な記憶媒体にあるように構成されてもよく、一つ以上のプロセッサを再生させるように構成されてもよい。よって、一例として、「モジュール」および「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素、ならびに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素ならびに「モジュール」および「部」の中から提供される機能は、より少ない数の構成要素ならびに「モジュール」および「部」で結合されることもあるし、追加の構成要素ならびに「モジュール」および「部」にさらに分離されることもある。
【0013】
また、本明細書に開示された実施形態を説明することにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨をあいまいにするおそれがあると判断される場合には、その詳細な説明を省略する。また、添付された図面は、本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が限定されるものではなく、本発明の思想および技術範囲に含まれる全ての変更形態、均等形態、および代替形態を含むものとして理解しなければならない。
【0014】
図1は、本発明の一実施形態によるイメージ自動生成装置を示す概略図である。
【0015】
イメージ自動生成装置100は、ディープラーニングなどの機械学習技法を用いて学習用イメージ(t_i)を学習することができ、学習した結果に基づいて任意のイメージ(g_i)を新たに生成することができる。例えば、人物写真をイメージ自動生成装置100に学習させた後、新しい人物写真を生成することを指示すれば、イメージ自動生成装置100は、既に学習されたイメージとは異なる新しい人物写真を生成することができる。ここで、同一の種類のイメージに含まれるピクセルの確率分布は、互いに同様に形成されることが可能であり、イメージ自動生成装置100は、複数の学習用イメージ(t_i)を学習して、同一の種類のイメージに含まれるピクセルの確率分布を得ることができる。
【0016】
図1に示すように、イメージ自動生成装置100は、n個の行とm個の列とで配列される複数のピクセルを含むイメージ(g_i)を生成することができる。このとき、各々の行は、上から下へ順次生成されることが可能であり、各々の行に含まれるピクセルに対して左側から右側に進行しつつピクセル値が設定されることが可能である。ここで、イメージ自動生成装置100が生成するイメージ(g_i)は、各々のピクセルに対応するピクセル値を用いてシーケンス(sequence)で表されることが可能であり、例えば、イメージXは、X={x
i|i=1,・・・,n×m}で表されることが可能である。
【0017】
ここで、イメージ自動生成装置100は、ピクセルCNNモデルを用いてイメージを生成することができる。ピクセルCNNモデルは、以下のような式(1)で表すことができる。
【0018】
【数1】
ここで、X
≦i={x
1,・・・,x
i}は、生成中のイメージ内に既に生成されている既存ピクセルのピクセル値であり、X
j:i={x
i+1,・・・,x
j}は、生成しようとする対象ピクセルのピクセル値であり、p(X)は、n×m個のピクセルを含むイメージXのピクセル値に対する確率関数に該当する。また、n×mは、イメージ内に含まれる全てのピクセルの個数であり、j>i、∀j、i∈[1,n×m]を満たす。
【0019】
このとき、ピクセルCNNモデルにおいては、p
θ(x
l|x
1,・・・,x
l−1)が、masked convolutionを用いてフィルタリングする方式で近似化されることが可能である。それにより、ピクセルCNNモデルは、イメージ内の既存ピクセル(X
≦i)のピクセル値から次のピクセル(X
i+1)のピクセル値を推論することができ、推論したピクセル推論値を用いてイメージを生成することができる。
【0020】
しかしながら、ピクセルCNNモデルを用いる場合、直前ピクセルまでのピクセル値を知らなければ次のピクセルのピクセル値を推論することができない。したがって、生成しようとするイメージに含まれる各々のピクセルに対するピクセル推論値を全て演算しなければならず、各々のピクセル推論値を一つずつ順次演算しなければならない。すなわち、ピクセルCNNモデルを用いて新しいイメージを生成することはできるが、実行しなければならない演算量が多く、イメージ生成に相対的に多くの時間が必要となる。
【0021】
それを解決するために、本発明の一実施形態によるイメージ自動生成装置100は、スキム−ピクセルCNNを用いて、イメージ生成時、相対的に重要でないピクセル領域に対しては簡単な予測モデルでピクセル値を設定することができる。すなわち、ピクセルCNNモデルを用いるピクセル推論値の生成を省略(skim)することができるため、必要な演算量を減少させることができる。また、相対的に重要度の高い領域ではピクセルCNNモデルを用いてピクセル推論値を直接生成するため、イメージ生成に必要な演算量を減少させて演算速度を向上させつつ、高品質のイメージを生成することができる。
【0022】
図2は、本発明の一実施形態によるイメージ自動生成装置100を示すブロック図である。
図2を参照すると、本発明の一実施形態によるイメージ自動生成装置100は、ピクセル予測部110、信頼度推定部120およびピクセル生成部130を含むことができる。
【0023】
以下では、
図2を参照して本発明の一実施形態によるイメージ自動生成装置について説明する。
【0024】
ピクセル予測部110は、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成することができる。ここで、ピクセル予測部110は、
図4(a)に示すように、対象領域P1を予め設定することができ、対象領域P1に含まれる対象ピクセルのピクセル予測値を同時に生成することができる。その後、一つの行に対するピクセル値の設定が完了すれば、次の予め設定された個数(例えば、2個)の行を対象領域に設定し、該対象領域内に含まれる各々の対象ピクセルに対するピクセル予測値を生成することができる。
【0025】
具体的には、i番目のピクセルまでピクセル値が設定された状態でj番目の対象ピクセルに対するピクセル予測値を生成する場合(j>i、∀j、i∈[1,n×m])、ピクセル予測部110は、i番目のピクセルまでのピクセル値と、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値と、をピクセルCNNモデルに適用する方式で、j番目の対象ピクセルに対するピクセル予測値を生成することができる。
【0026】
既存のピクセルCNNモデルを用いる場合、j番目の対象ピクセルに対するピクセル推論値を演算するためには、j−1番目の対象ピクセルまでのピクセル推論値を全て計算しなければならなかった。これに対し、ピクセル予測部110においては、i+1番目のピクセルからj−1番目のピクセルまでの事前予測値を適用するため、j−1番目のピクセルまでのピクセル値を知らない場合にもj番目の対象ピクセルに対するピクセル予測値を予め生成することができる。すなわち、ピクセル予測部110は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができるため、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0027】
ここで、事前予測値は、U−netニューラルネットワークを用いて抽出されることが可能である。U−netニューラルネットワークは、オートエンコーダ(autoencoder)構造を有するものであって、1番目のピクセルからi番目のピクセルまでのピクセル値を用いて、i+1番目の対象ピクセルからj−1番目の対象ピクセルのピクセル値に対する近似値を提供することができる。このとき、事前予測値は、独立同分布(IID;independent and identically distributed)の特性を有するものであって、j番目の対象ピクセルに対するピクセル予測値とj+1番目の対象ピクセルに対するピクセル予測値とを同時に演算することができる。すなわち、各々の対象ピクセルに対する事前予測値を予め生成することができるため、ピクセル予測部110は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができ、それにより、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0028】
具体的には、ピクセル予測部110は、式(1)に事前予測値を適用して以下の式(2)で表すことができる。
【0029】
【数2】
ここで、q(x)は、事前予測値を適用したイメージXの近似化された確率関数であり、対象ピクセルに対する各々の事前予測値であるZ
j−1:i={z
i+1,・・・,z
j−1}は、Z
j−1:i=f
w(X
≦i)と定義されることが可能であり、事前予測値は、X
≦iにおいてIIDの特性を有することができる。ここで、f
w(X
≦i)は、U−netニューラルネットワークに該当することができ、p
θ(x
l|X
≦i,z
i+1,・・・,z
l−1)は、ピクセルCNNモデルと同様に、masked convolutionを用いてフィルタリングする方式で計算されることが可能である。ここで、q(x)は、ピクセルCNNモデルと共に複数の学習用イメージを学習して生成されることが可能である。
【0030】
信頼度推定部120は、ピクセル予測部110により生成されたピクセル予測値に対する信頼度を生成することができる。ピクセル予測部110により生成されるピクセル予測値は、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値を自己回帰(AR;auto regressive)方式で演算するため、事前予測値に含まれる誤差は次第に大きくなる。すなわち、ピクセル予測部110が予測した値だけでイメージを生成する場合には、誤差により、所望の結果とは異なるイメージを生成するおそれがある。したがって、信頼度推定部120は、ピクセル予測部110により生成されたピクセル予測値を使用できるかに対する信頼度を計算して定量的な値として提供することができる。
【0031】
具体的には、信頼度は、以下の式(3)を用いて計算されることが可能である。
【0032】
【数3】
ここで、f
kは、k番目の対象ピクセルのピクセル予測値x
kに対する信頼度であり、ピクセル推論値
【0034】
【数5】
を満たし、k=i+1,・・・,jである。すなわち、信頼度f
kは、ピクセル予測値x
kが、ピクセルCNNモデルを用いて計算されたピクセル推論値
【0035】
【数6】
と同一である確率に対応する。ここで、ピクセル予測値が、ピクセルCNNモデルを用いて計算されたピクセル推論値と同一である確率が高いほど、ピクセル予測値に対する信頼度は高く設定され、この確率が低いほど、ピクセル予測値に対する信頼度は低く設定される。
【0036】
信頼度推定部120は、ピクセルCNNモデルにより生成されたピクセル推論値とピクセル予測部110により生成されたピクセル予測値との差を、ディープラーニングなどの機械学習技法で学習することができ、学習されたモデルに従って信頼度を演算することができる。実施形態によっては、ピクセルCNNモデルを用いてサンプルイメージを生成した後、生成したサンプルイメージに含まれる各々のピクセルのピクセル推論値とピクセル予測部110が生成したピクセル予測値との差を学習することができる。
【0037】
さらに、実施形態によっては、信頼度を二項分類(binary classification)して表示することもできる。すなわち、信頼度が設定値(attention threshold)以上である場合には、ピクセル予測値を信頼できると判別して信頼度を1に再設定することができ、信頼度が設定値未満である場合には、ピクセル予測値を信頼できないと判別して信頼度を0に再設定することができる。
【0038】
ピクセル生成部130は、対象ピクセルに対するピクセル予測値の信頼度に応じて、対象ピクセルのピクセル値を設定することができる。すなわち、対象ピクセルの信頼度が設定値以上であれば、ピクセル予測値を対象ピクセルのピクセル値に設定し、対象ピクセルの信頼度が設定値未満であれば、ピクセルCNNモデルにより生成されたピクセル推論値を対象ピクセルのピクセル値に設定することができる。
【0039】
図4に示すように、ピクセル予測部110および信頼度推定部120は、対象領域P1が設定されれば、対象領域P1に対応するピクセル予測値および信頼度を生成することができる。ここで、信頼度は、設定値を基準に、二値化画像で表示されることが可能である。すなわち、信頼度が設定値以上である場合には白色(1)で表示され、信頼度が設定値未満である場合には黒色(0)で表示されることが可能である。
【0040】
その後、
図5(a)に示すように、a1領域に含まれる対象ピクセルのピクセル値から順次ピクセル値を設定することができる。ここで、
図5(a)においては、a1領域に対応する信頼度が白色で表示されているため、ピクセル予測値を信頼できる場合に該当する。したがって、a1領域に対するピクセル値は、ピクセル予測値に応じて設定されることが可能である。
【0041】
また、a1領域の次の領域に該当するa2領域に含まれる対象ピクセルのピクセル値は、
図5(b)に示すように設定されることが可能である。すなわち、a2領域に対応する信頼度は黒色で表示されているため、ピクセル予測値を信頼できない場合に該当する。したがって、a2領域に対応するピクセル予測値をa2領域に適用しない。その代わりに、ピクセルCNNモデルを用いてピクセル推論値を演算し、演算されたピクセル推論値をa2領域のピクセル値に設定することができる。この場合、
図6(a)に示すように、a2領域のピクセル値が設定されることが可能である。
【0042】
一方、
図6(a)に示すように、対象ピクセルのピクセル値がピクセル推論値で設定されれば、残りの対象領域P2に対するピクセル予測値および信頼度を再び演算してアップデートすることができる。すなわち、ピクセル推論値で設定された対象ピクセルのピクセル値を反映してピクセル予測値および信頼度をアップデートすることによって、既存のピクセル予測値に含まれる誤差を除去し、より正確なピクセル予測値および信頼度を生成することができる。
【0043】
さらに、ピクセル生成部130は、イメージ生成のための最初のk個のピクセルを予め生成することができる。すなわち、最初のk個のピクセルに対してはピクセル予測値などの演算を実行せず、ピクセルCNNモデルだけを用いてピクセル推論値を演算し、それを用いてイメージを生成することができる。場合によっては、最初のk個のピクセルにランダムなピクセル値を付与することもできる。例えば、イメージ生成時、最初の3個の列までは、ピクセルCNNモデルを用いるピクセル推論値やランダム値でピクセル値を設定することができる。
【0044】
ピクセル生成部130は、イメージ生成を完了するまで上述した過程を繰り返し実行することができる。
【0045】
一方、
図3に示すように、本発明の一実施形態によるイメージ自動生成装置100は、プロセッサ10、メモリ40などの物理的な構成を含むことができ、メモリ40内には、プロセッサ10により実行されるように構成される一つ以上のモジュールが含まれることが可能である。具体的には、一つ以上のモジュールには、ピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールなどが含まれることが可能である。
【0046】
プロセッサ10は、様々なソフトウェアプログラムとメモリ40に記憶された命令セットとを実行して様々な機能を実行しデータを処理する機能を実行することができる。周辺インターフェース部30は、イメージ自動生成装置100の入出力周辺装置をプロセッサ10、メモリ40に接続することができ、メモリ制御部20は、プロセッサ10やイメージ自動生成装置100の構成要素がメモリ40にアクセスする場合に、メモリアクセスを制御する機能を実行することができる。実施形態によっては、プロセッサ10、メモリ制御部20および周辺インターフェース部30が、単一チップに実現されることもあるし、別個のチップに実現されることもある。
【0047】
メモリ40は、高速ランダムアクセスメモリ、一つ以上の磁気ディスクストレージ、フラッシュメモリ装置のような不揮発性メモリなどを含むことができる。また、メモリ40は、プロセッサ10から離れて位置するストレージや、インターネットなどの通信ネットワークを介してアクセスされるネットワーク接続ストレージなどをさらに含むことができる。
【0048】
ディスプレイ部50は、ユーザが、視覚を通じて、生成されたイメージを確認できるように表示する構成である。例えば、ディスプレイ部50は、液晶ディスプレイ、薄膜トランジスタ液晶ディスプレイ、有機発光ダイオード、フレキシブルディスプレイ、3次元(3D)ディスプレイ、電気泳動ディスプレイなどを用いて視覚的に表示することができる。しかしながら、本発明の内容はこれに限定されるものではなく、この他にも様々な方式でディスプレイ部を実現することができる。
【0049】
入力部60は、ユーザから入力を受けるものであって、キーボード、キーパッド、マウス、タッチペン、タッチパッド、タッチパネル、ジョグホイール、ジョグスイッチなどが入力部60に該当することができる。
【0050】
一方、
図3に示すように、本発明の一実施形態によるイメージ自動生成装置100は、メモリ40に、オペレーティングシステムをはじめとして、アプリケーションプログラムに該当するピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールなどを含むことができる。ここで、各々のモジュールは、上述した機能を実行するための命令セットであって、メモリ40に記憶されることが可能である。
【0051】
したがって、本発明の一実施形態によるイメージ自動生成装置100は、プロセッサ10がメモリ40にアクセスして各々のモジュールに対応する命令を実行することができる。ピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールは、上述したピクセル予測部、信頼度推定部およびピクセル生成部にそれぞれ対応するため、ここでは詳しい説明を省略する。
【0052】
図7は、本発明の一実施形態によるスキム−ピクセルCNNを用いて生成されたイメージを示す例示である。
図7において、左側列は、ピクセル予測値を適用した領域を示したもの(白色)であり、中央列は、イメージの信頼度を示すものであって、信頼度が高いほど赤色で表示し、信頼度が低いほど青色で表示したものである。最後の右側列は、実際に生成されたイメージに該当する。また、
図7(a)は、イメージ全体が、ピクセル予測値を用いて生成されたものであり、
図7(f)は、イメージ全体が、ピクセルCNNモデルを用いてピクセル推論値で生成されたものであり、
図7(a)から
図7(f)に行くほど、ピクセルCNNモデルを適用するための設定値が高く設定されたものである。
図7を参照すると、人物イメージの場合、耳目口鼻などの人物の特徴になる部分に対する信頼度が相対的に低く設定されることを確認することができ、ピクセルCNNモデルだけを用いて生成する場合と比較すると、イメージ品質の差が大きく出ないことを確認することができる。また、
図8に示すように、ピクセル予測値を用いる比率が高いほど、イメージ生成速度が速くなることを確認することができる。
【0053】
図9は、本発明の一実施形態によるイメージ自動生成方法を示すフローチャートである。
図9を参照すると、本発明の一実施形態によるイメージ自動生成方法は、初期生成ステップ(S10)、予測ステップ(S20)、信頼度生成ステップ(S30)、スキミングステップ(S40)、ドローステップ(S50)およびアップデートステップ(S60)を含むことができる。
【0054】
以下では、
図9を参照して本発明の一実施形態によるイメージ自動生成方法について説明する。
【0055】
初期生成ステップ(S10)においては、ピクセル生成部が、ピクセルCNNモデルから抽出したピクセル推論値を用いて、生成しようとするイメージに対する最初のk個のピクセルを生成することができる。すなわち、最初のk個のピクセルに対してはピクセル予測値などの演算を実行せず、ピクセルCNNモデルだけを用いてピクセル推論値を演算し、それを用いてイメージを生成することができる。場合によっては、最初のk個のピクセルにランダムなピクセル値を付与することもできる。例えば、イメージ生成時、最初の3個の列までは、ピクセルCNNモデルを用いるピクセル推論値やランダム値でピクセル値を設定することができる。
【0056】
予測ステップ(S20)においては、ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成することができる。ここで、ピクセル予測部は、対象領域を予め設定することができ、対象領域に含まれる対象ピクセルのピクセル予測値を同時に生成することができる。その後、一つの行に対するピクセル値の設定が完了すれば、次の予め設定された個数(例えば、2個)の行を対象領域に設定し、該対象領域内に含まれる各々の対象ピクセルに対するピクセル予測値を生成することができる。
【0057】
具体的には、i番目のピクセルまでピクセル値が設定された状態でj番目の対象ピクセルに対するピクセル予測値を生成する場合(j>i、∀j、i∈[1,n×m])、ピクセル予測部は、i番目のピクセルまでのピクセル値と、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値と、をピクセルCNNモデルに適用する方式で、j番目の対象ピクセルに対するピクセル予測値を生成することができる。ここで、事前予測値は、U−netニューラルネットワークを用いて抽出されることが可能であり、事前予測値は、IIDの特性を有することができる。すなわち、各々の対象ピクセルに対する事前予測値を予め生成することができるため、ピクセル予測部は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができ、それにより、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0058】
信頼度生成ステップ(S30)においては、信頼度推定部が、対象ピクセルごとにピクセル予測値に対する信頼度を生成することができる。すなわち、信頼度推定部は、ピクセル予測部により生成されたピクセル予測値を使用できるかに対する信頼度を計算して定量的な値として提供することができる。ここで、信頼度は、対象ピクセルに対するピクセル予測値が対象ピクセルに対するピクセル推論値と一致する確率であり、信頼度推定部は、ピクセル推論値とピクセル予測値との差を、ディープラーニングなどの機械学習技法で学習して信頼度を演算することができる。具体的には、ピクセルCNNモデルを用いてサンプルイメージを生成した後、生成したサンプルイメージに含まれる各々のピクセルのピクセル推論値とピクセル予測部が生成したピクセル予測値とを比較する方式で学習することができる。
【0059】
スキミングステップ(S40)においては、対象ピクセルの信頼度を設定値と比較することができ、信頼度が設定値以上であれば、ピクセル生成部が、ピクセル予測値を対象ピクセルのピクセル値に設定することができる。すなわち、対象領域に含まれる各々の対象ピクセルに対して信頼度を順次判別することができ、信頼度が設定値以上である対象ピクセルに対してはピクセル予測値でピクセル値を設定することができる。この場合、ピクセルCNNモデルを用いてピクセル推論値を計算しないため、速やかにピクセル値を設定することができる。一方、対象ピクセルの信頼度が設定値未満であれば、ドローステップ(S50)に進む。
【0060】
ドローステップ(S50)においては、対象ピクセルの信頼度が設定値未満であれば、ピクセル生成部が、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を生成し、ピクセル推論値を対象ピクセルのピクセル値に設定することができる。すなわち、対象ピクセルのピクセル予測値に対する信頼度が低いため、ピクセル予測値の代わりにピクセルCNNモデルを用いるピクセル推論値でピクセル値を設定することができる。ここで、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を演算する場合には、演算時間が相対的に長くなるが、より正確なイメージを生成することができる。
【0061】
一方、ピクセル推論値で対象ピクセルのピクセル値を設定した後には、残りの対象領域に対するピクセル予測値および信頼度を再び演算してアップデートするアップデートステップ(S60)を実行することができる。すなわち、ピクセル推論値で設定された対象ピクセルのピクセル値を反映してピクセル予測値および信頼度をアップデートすることによって、既存のピクセル予測値に含まれる誤差を除去し、より正確なピクセル予測値および信頼度を生成することができる。
【0062】
その後、スキミングステップ(S40)、ドローステップ(S50)およびアップデートステップ(S60)を、イメージ生成を完了するまで繰り返して、イメージを生成することができる。
【0063】
本発明の実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置によれば、イメージ生成時、相対的に重要でないピクセル領域に対しては簡単な予測モデルでピクセル値を設定することができる。すなわち、ピクセルCNNモデルを用いるピクセル推論値の生成を省略することができるため、必要な演算量を減少させることができる。また、相対的に重要度の高い領域ではピクセルCNNモデルを用いてピクセル推論値を直接生成するため、イメージ生成に必要な演算量を減少させて演算速度を向上させつつ、高品質のイメージを生成することができる。
【0064】
しかしながら、本発明の実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置が達成できる効果は、上記で言及したものに限定されず、言及していない他の効果は、上記の記載から当業者に明らかに理解できるものである。
【0065】
前述した本発明の実施形態は、コンピュータ読み取り可能なコードであるプログラムとして実現されることが可能であり、また、プログラムが記憶されたコンピュータ読み取り可能な記憶媒体として実現されることが可能である。コンピュータ読み取り可能な記憶媒体は、コンピュータによって実行可能なプログラムを続けて記憶するものであってもよいし、実行またはダウンロードのために一時的に記憶するものであってもよい。また、媒体は、単一のまたは複数のハードウェアが結合された形態の様々な記憶手段または格納手段であってもよく、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含め、プログラム命令が記憶されるように構成されたものがある。また、他の媒体の例として、アプリケーションを配布するアプリケーションストアやその他の様々なソフトウェアを供給または配布するサイト、サーバなどが管理する記憶媒体または格納媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で限定的に解釈されてはならず、例示的なものとみなされなければならない。本発明の範囲は、添付された請求項の合理的な解釈によって決定されなければならず、本発明の均等な範囲内での全ての変更は、本発明の範囲に含まれる。
【0066】
本発明は、前述した実施形態および添付された図面によって限定されるものではない。当業者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。