特開2020-38639(P2020-38639A)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバー コーポレーションの特許一覧 ▶ LINE株式会社の特許一覧

特開2020-38639スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置
<>
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000009
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000010
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000011
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000012
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000013
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000014
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000015
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000016
  • 特開2020038639-スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置 図000017
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】特開2020-38639(P2020-38639A)
(43)【公開日】2020年3月12日
(54)【発明の名称】スキム−ピクセル畳み込みニューラルネットワークを用いるイメージ自動生成方法およびイメージ自動生成装置
(51)【国際特許分類】
   G06T 7/00 20170101AFI20200214BHJP
   G06N 3/02 20060101ALI20200214BHJP
【FI】
   G06T7/00 350C
   G06N3/02
【審査請求】有
【請求項の数】14
【出願形態】OL
【全頁数】17
(21)【出願番号】特願2019-149658(P2019-149658)
(22)【出願日】2019年8月19日
(31)【優先権主張番号】10-2018-0104354
(32)【優先日】2018年9月3日
(33)【優先権主張国】KR
(71)【出願人】
【識別番号】505205812
【氏名又は名称】ネイバー コーポレーション
【氏名又は名称原語表記】NAVER Corporation
(71)【出願人】
【識別番号】501333021
【氏名又は名称】LINE株式会社
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ユ,ヨンジュン
(72)【発明者】
【氏名】チョン,サンヒョク
(72)【発明者】
【氏名】ユ,ジェジュン
(72)【発明者】
【氏名】ユン,サンド
(72)【発明者】
【氏名】ハ,ジョンウ
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096GA30
5L096HA11
5L096KA04
(57)【要約】      (修正有)
【課題】スキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置を提供する。
【解決手段】イメージ自動生成方法は、ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成するステップS20、信頼度推定部が、対象ピクセルごとにピクセル予測値に対する信頼度を生成するステップS30、対象ピクセルの信頼度が設定値以上であれば、ピクセル生成部が、ピクセル予測値を対象ピクセルのピクセル値に設定するステップS40、および対象ピクセルの信頼度が設定値未満であれば、ピクセル生成部が、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を生成し、ピクセル推論値を対象ピクセルのピクセル値に設定するステップS50を含む。
【選択図】図9
【特許請求の範囲】
【請求項1】
イメージ自動生成方法であって、
ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成する予測ステップ、
信頼度推定部が、前記対象ピクセルごとに前記ピクセル予測値に対する信頼度を生成するステップ、
前記対象ピクセルの信頼度が設定値以上であれば、ピクセル生成部が、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定するステップ、および
前記対象ピクセルの信頼度が前記設定値未満であれば、前記ピクセル生成部が、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定するステップ
を含むイメージ自動生成方法。
【請求項2】
前記イメージは
n個の行とm個の列とで配列される複数のピクセルを含むように生成され、
各々の行は、上から下へ順次生成され、前記行に含まれるピクセルのピクセル値は、左側から右側に進行しつつ生成される、請求項1に記載のイメージ自動生成方法。
【請求項3】
前記予測ステップは、
いずれか一つの行に対するピクセル値の設定が完了すれば、次の予め設定された個数の行を含む対象領域に対するピクセル予測値を同時に生成する、請求項1に記載のイメージ自動生成方法。
【請求項4】
前記対象ピクセルのピクセル値が前記ピクセル推論値で設定されれば、前記対象ピクセルのピクセル値を反映して、前記対象ピクセルの後の残りの対象領域に対する前記ピクセル予測値および信頼度をアップデートするステップ
をさらに含む、請求項3に記載のイメージ自動生成方法。
【請求項5】
前記予測ステップは、
i番目のピクセルまでピクセル値が設定された状態でj番目の対象ピクセルに対するピクセル予測値を生成する場合(j>i、∀j、i∈[1,n×m])、前記i番目のピクセルまでのピクセル値と、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値と、を前記ピクセルCNNモデルに適用して、前記j番目の対象ピクセルに対するピクセル予測値を生成する、請求項2に記載のイメージ自動生成方法。
【請求項6】
前記予測ステップは、
U−netニューラルネットワークを用いて前記i+1番目の対象ピクセルから前記j−1番目の対象ピクセルまでの事前予測値を抽出する、請求項5に記載のイメージ自動生成方法。
【請求項7】
前記予測ステップは、
前記既存ピクセルのピクセル値と前記事前予測値とを前記ピクセルCNNモデルに並列的に適用して、複数の対象ピクセルに対するピクセル予測値を同時に計算する、請求項6に記載のイメージ自動生成方法。
【請求項8】
前記信頼度推定部は、
前記ピクセルCNNモデルを用いて生成されたサンプルイメージを用いて、前記サンプルイメージに含まれるピクセルのピクセル推論値と前記ピクセル予測部が生成したピクセル予測値との差を学習して生成する、請求項1に記載のイメージ自動生成方法。
【請求項9】
前記信頼度推定部は、
前記対象ピクセルに対するピクセル予測値が、前記対象ピクセルに対するピクセル推論値と一致する確率を計算して、前記対象ピクセルに対する信頼度として提供する、請求項8に記載のイメージ自動生成方法。
【請求項10】
前記ピクセル予測部は、
前記ピクセルCNNモデルと同一の学習イメージを用いて、同時に学習する、請求項8に記載のイメージ自動生成方法。
【請求項11】
前記ピクセル生成部が、前記ピクセルCNNモデルから抽出したピクセル推論値を用いて、前記イメージの最初のk個のピクセルを生成するステップ
をさらに含む、請求項1に記載のイメージ自動生成方法。
【請求項12】
請求項1〜11のいずれか1項に記載のイメージ自動生成方法をコンピュータに実行させるコンピュータプログラム。
【請求項13】
イメージ自動生成装置であって、
イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成するピクセル予測部、
前記対象ピクセルごとに前記ピクセル予測値に対する信頼度を生成する信頼度推定部、および
前記対象ピクセルの信頼度が設定値以上であれば、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定し、前記対象ピクセルの信頼度が前記設定値未満であれば、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定するピクセル生成部
を含むイメージ自動生成装置。
【請求項14】
イメージ自動生成装置であって、
プロセッサ、および
前記プロセッサに接続されたメモリ
を含み、
前記メモリは、前記プロセッサにより実行されるように構成される一つ以上のモジュールを含み、
前記一つ以上のモジュールは、
イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成し、
前記対象ピクセルごとに前記ピクセル予測値に対する信頼度を生成し、
前記対象ピクセルの信頼度が設定値以上であれば、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定し、
前記対象ピクセルの信頼度が前記設定値未満であれば、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定する、
命令を含む、イメージ自動生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、学習されたイメージを用いて新しいイメージを自動で生成できるイメージ自動生成方法およびイメージ自動生成装置に関し、特にピクセル畳み込みニューラルネットワーク(CNN;convolutional neural network)モデルを用いるイメージ自動生成方法およびイメージ自動生成装置に関する。
【背景技術】
【0002】
機械学習は、インターネット情報検索、テキストマイニング、音声認識、ロボット工学、サービス業などのようなほぼ全ての分野で用いられる核心技術である。最近、機械学習の一分野であるディープラーニング技術が様々な分野で脚光を浴びており、特に画像ベースのオブジェクト認識分野では、ディープラーニング技術の一種として畳み込みニューラルネットワーク(CNN)を用いる機械学習技法が注目されている。
【0003】
畳み込みニューラルネットワーク技術は、入力されたイメージを、計算を経て理解し、特徴を抽出して情報を得たり、新しいイメージを生成したりするなど、様々な画像処理乃至コンピュータ・ビジョン分野で活発に研究されており、人の神経系を模写して設計される人工ニューラルネットワーク技術の一種である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願は、学習されたイメージを用いて新しいイメージを自動で生成できる、スキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置を提供する。
【0005】
本出願は、イメージ生成に必要な演算量および演算時間を減少させることができる、スキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置を提供する。
【課題を解決するための手段】
【0006】
本発明の一実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成方法は、ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成する予測ステップ、信頼度推定部が、前記対象ピクセルごとに前記ピクセル予測値に対する信頼度(confidence)を生成する信頼度生成ステップ、前記対象ピクセルの信頼度が設定値以上であれば、ピクセル生成部が、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定するスキミングステップ、および前記対象ピクセルの信頼度が前記設定値未満であれば、前記ピクセル生成部が、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定するドロー(draw)ステップを含む。
【0007】
本発明の一実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成装置は、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成するピクセル予測部、前記対象ピクセルごとに前記ピクセル予測値に対する信頼度を生成する信頼度推定部、および前記対象ピクセルの信頼度が設定値以上であれば、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定し、前記対象ピクセルの信頼度が前記設定値未満であれば、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定するピクセル生成部を含む。
【0008】
本発明の他の実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成装置は、プロセッサ、および前記プロセッサに接続されたメモリを含み、前記メモリは、前記プロセッサにより実行されるように構成される一つ以上のモジュールを含み、前記一つ以上のモジュールは、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成し、前記対象ピクセルごとに前記ピクセル予測値に対する信頼度を生成し、前記対象ピクセルの信頼度が設定値以上であれば、前記ピクセル予測値を前記対象ピクセルのピクセル値に設定し、前記対象ピクセルの信頼度が前記設定値未満であれば、ピクセルCNNモデルを用いて前記対象ピクセルのピクセル推論値を生成し、前記ピクセル推論値を前記対象ピクセルのピクセル値に設定する、命令を含む。
【0009】
なお、上記の課題を解決するための手段は、本発明の特徴を全て列挙したものではない。本発明の様々な特徴ならびにそれに応じた長所および効果は、下記の具体的な実施形態を参照してより詳細に理解できるものである。
【発明の効果】
【0010】
本発明の実施形態によれば、学習されたイメージを用いて新しいイメージを自動で生成することができ、また、イメージ生成に必要な演算量および演算時間を減少させることができる
【図面の簡単な説明】
【0011】
図1】本発明の一実施形態によるイメージ生成装置を示す概略図である。
図2】本発明の一実施形態によるイメージ生成装置を示すブロック図である。
図3】本発明の一実施形態によるイメージ生成装置を示すブロック図である。
図4】本発明の一実施形態によるイメージ生成装置によるイメージ生成を示す概略図である。
図5】本発明の一実施形態によるイメージ生成装置によるイメージ生成を示す概略図である。
図6】本発明の一実施形態によるイメージ生成装置によるイメージ生成を示す概略図である。
図7】本発明の一実施形態によるイメージ生成装置を用いて生成されたイメージを示す図である。
図8】本発明の一実施形態によるイメージ生成装置のイメージ生成速度を示すグラフである。
図9】本発明の一実施形態によるイメージ生成方法を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下では添付図面を参照して本明細書に開示された実施形態について詳しく説明するが、図面番号に関係なく同一または類似した構成要素には同一の参照番号を付し、それに対する重複する説明を省略することにする。以下の説明で用いられる構成要素に対する接尾辞「モジュール」および「部」は、明細書の作成の容易さだけを考慮して付与または混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。すなわち、本発明で用いられる「モジュール」および「部」という用語は、ソフトウェア構成要素、または、FPGAもしくはASICのようなハードウェア構成要素を意味し、「モジュール」および「部」はある役割をする。しかしながら、「モジュール」および「部」は、ソフトウェアまたはハードウェアに限定されるものではない。「モジュール」および「部」は、アドレッシング可能な記憶媒体にあるように構成されてもよく、一つ以上のプロセッサを再生させるように構成されてもよい。よって、一例として、「モジュール」および「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素、ならびに、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイおよび変数を含む。構成要素ならびに「モジュール」および「部」の中から提供される機能は、より少ない数の構成要素ならびに「モジュール」および「部」で結合されることもあるし、追加の構成要素ならびに「モジュール」および「部」にさらに分離されることもある。
【0013】
また、本明細書に開示された実施形態を説明することにおいて、関連の公知技術に関する具体的な説明が本明細書に開示された実施形態の要旨をあいまいにするおそれがあると判断される場合には、その詳細な説明を省略する。また、添付された図面は、本明細書に開示された実施形態を容易に理解できるようにするためのものに過ぎず、添付された図面によって本明細書に開示された技術的思想が限定されるものではなく、本発明の思想および技術範囲に含まれる全ての変更形態、均等形態、および代替形態を含むものとして理解しなければならない。
【0014】
図1は、本発明の一実施形態によるイメージ自動生成装置を示す概略図である。
【0015】
イメージ自動生成装置100は、ディープラーニングなどの機械学習技法を用いて学習用イメージ(t_i)を学習することができ、学習した結果に基づいて任意のイメージ(g_i)を新たに生成することができる。例えば、人物写真をイメージ自動生成装置100に学習させた後、新しい人物写真を生成することを指示すれば、イメージ自動生成装置100は、既に学習されたイメージとは異なる新しい人物写真を生成することができる。ここで、同一の種類のイメージに含まれるピクセルの確率分布は、互いに同様に形成されることが可能であり、イメージ自動生成装置100は、複数の学習用イメージ(t_i)を学習して、同一の種類のイメージに含まれるピクセルの確率分布を得ることができる。
【0016】
図1に示すように、イメージ自動生成装置100は、n個の行とm個の列とで配列される複数のピクセルを含むイメージ(g_i)を生成することができる。このとき、各々の行は、上から下へ順次生成されることが可能であり、各々の行に含まれるピクセルに対して左側から右側に進行しつつピクセル値が設定されることが可能である。ここで、イメージ自動生成装置100が生成するイメージ(g_i)は、各々のピクセルに対応するピクセル値を用いてシーケンス(sequence)で表されることが可能であり、例えば、イメージXは、X={x|i=1,・・・,n×m}で表されることが可能である。
【0017】
ここで、イメージ自動生成装置100は、ピクセルCNNモデルを用いてイメージを生成することができる。ピクセルCNNモデルは、以下のような式(1)で表すことができる。
【0018】
【数1】
ここで、X≦i={x,・・・,x}は、生成中のイメージ内に既に生成されている既存ピクセルのピクセル値であり、Xj:i={xi+1,・・・,x}は、生成しようとする対象ピクセルのピクセル値であり、p(X)は、n×m個のピクセルを含むイメージXのピクセル値に対する確率関数に該当する。また、n×mは、イメージ内に含まれる全てのピクセルの個数であり、j>i、∀j、i∈[1,n×m]を満たす。
【0019】
このとき、ピクセルCNNモデルにおいては、pθ(x|x,・・・,xl−1)が、masked convolutionを用いてフィルタリングする方式で近似化されることが可能である。それにより、ピクセルCNNモデルは、イメージ内の既存ピクセル(X≦i)のピクセル値から次のピクセル(Xi+1)のピクセル値を推論することができ、推論したピクセル推論値を用いてイメージを生成することができる。
【0020】
しかしながら、ピクセルCNNモデルを用いる場合、直前ピクセルまでのピクセル値を知らなければ次のピクセルのピクセル値を推論することができない。したがって、生成しようとするイメージに含まれる各々のピクセルに対するピクセル推論値を全て演算しなければならず、各々のピクセル推論値を一つずつ順次演算しなければならない。すなわち、ピクセルCNNモデルを用いて新しいイメージを生成することはできるが、実行しなければならない演算量が多く、イメージ生成に相対的に多くの時間が必要となる。
【0021】
それを解決するために、本発明の一実施形態によるイメージ自動生成装置100は、スキム−ピクセルCNNを用いて、イメージ生成時、相対的に重要でないピクセル領域に対しては簡単な予測モデルでピクセル値を設定することができる。すなわち、ピクセルCNNモデルを用いるピクセル推論値の生成を省略(skim)することができるため、必要な演算量を減少させることができる。また、相対的に重要度の高い領域ではピクセルCNNモデルを用いてピクセル推論値を直接生成するため、イメージ生成に必要な演算量を減少させて演算速度を向上させつつ、高品質のイメージを生成することができる。
【0022】
図2は、本発明の一実施形態によるイメージ自動生成装置100を示すブロック図である。図2を参照すると、本発明の一実施形態によるイメージ自動生成装置100は、ピクセル予測部110、信頼度推定部120およびピクセル生成部130を含むことができる。
【0023】
以下では、図2を参照して本発明の一実施形態によるイメージ自動生成装置について説明する。
【0024】
ピクセル予測部110は、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成することができる。ここで、ピクセル予測部110は、図4(a)に示すように、対象領域P1を予め設定することができ、対象領域P1に含まれる対象ピクセルのピクセル予測値を同時に生成することができる。その後、一つの行に対するピクセル値の設定が完了すれば、次の予め設定された個数(例えば、2個)の行を対象領域に設定し、該対象領域内に含まれる各々の対象ピクセルに対するピクセル予測値を生成することができる。
【0025】
具体的には、i番目のピクセルまでピクセル値が設定された状態でj番目の対象ピクセルに対するピクセル予測値を生成する場合(j>i、∀j、i∈[1,n×m])、ピクセル予測部110は、i番目のピクセルまでのピクセル値と、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値と、をピクセルCNNモデルに適用する方式で、j番目の対象ピクセルに対するピクセル予測値を生成することができる。
【0026】
既存のピクセルCNNモデルを用いる場合、j番目の対象ピクセルに対するピクセル推論値を演算するためには、j−1番目の対象ピクセルまでのピクセル推論値を全て計算しなければならなかった。これに対し、ピクセル予測部110においては、i+1番目のピクセルからj−1番目のピクセルまでの事前予測値を適用するため、j−1番目のピクセルまでのピクセル値を知らない場合にもj番目の対象ピクセルに対するピクセル予測値を予め生成することができる。すなわち、ピクセル予測部110は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができるため、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0027】
ここで、事前予測値は、U−netニューラルネットワークを用いて抽出されることが可能である。U−netニューラルネットワークは、オートエンコーダ(autoencoder)構造を有するものであって、1番目のピクセルからi番目のピクセルまでのピクセル値を用いて、i+1番目の対象ピクセルからj−1番目の対象ピクセルのピクセル値に対する近似値を提供することができる。このとき、事前予測値は、独立同分布(IID;independent and identically distributed)の特性を有するものであって、j番目の対象ピクセルに対するピクセル予測値とj+1番目の対象ピクセルに対するピクセル予測値とを同時に演算することができる。すなわち、各々の対象ピクセルに対する事前予測値を予め生成することができるため、ピクセル予測部110は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができ、それにより、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0028】
具体的には、ピクセル予測部110は、式(1)に事前予測値を適用して以下の式(2)で表すことができる。
【0029】
【数2】
ここで、q(x)は、事前予測値を適用したイメージXの近似化された確率関数であり、対象ピクセルに対する各々の事前予測値であるZj−1:i={zi+1,・・・,zj−1}は、Zj−1:i=f(X≦i)と定義されることが可能であり、事前予測値は、X≦iにおいてIIDの特性を有することができる。ここで、f(X≦i)は、U−netニューラルネットワークに該当することができ、pθ(x|X≦i,zi+1,・・・,zl−1)は、ピクセルCNNモデルと同様に、masked convolutionを用いてフィルタリングする方式で計算されることが可能である。ここで、q(x)は、ピクセルCNNモデルと共に複数の学習用イメージを学習して生成されることが可能である。
【0030】
信頼度推定部120は、ピクセル予測部110により生成されたピクセル予測値に対する信頼度を生成することができる。ピクセル予測部110により生成されるピクセル予測値は、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値を自己回帰(AR;auto regressive)方式で演算するため、事前予測値に含まれる誤差は次第に大きくなる。すなわち、ピクセル予測部110が予測した値だけでイメージを生成する場合には、誤差により、所望の結果とは異なるイメージを生成するおそれがある。したがって、信頼度推定部120は、ピクセル予測部110により生成されたピクセル予測値を使用できるかに対する信頼度を計算して定量的な値として提供することができる。
【0031】
具体的には、信頼度は、以下の式(3)を用いて計算されることが可能である。
【0032】
【数3】
ここで、fは、k番目の対象ピクセルのピクセル予測値xに対する信頼度であり、ピクセル推論値
【0033】
【数4】
は、
【0034】
【数5】
を満たし、k=i+1,・・・,jである。すなわち、信頼度fは、ピクセル予測値xが、ピクセルCNNモデルを用いて計算されたピクセル推論値
【0035】
【数6】
と同一である確率に対応する。ここで、ピクセル予測値が、ピクセルCNNモデルを用いて計算されたピクセル推論値と同一である確率が高いほど、ピクセル予測値に対する信頼度は高く設定され、この確率が低いほど、ピクセル予測値に対する信頼度は低く設定される。
【0036】
信頼度推定部120は、ピクセルCNNモデルにより生成されたピクセル推論値とピクセル予測部110により生成されたピクセル予測値との差を、ディープラーニングなどの機械学習技法で学習することができ、学習されたモデルに従って信頼度を演算することができる。実施形態によっては、ピクセルCNNモデルを用いてサンプルイメージを生成した後、生成したサンプルイメージに含まれる各々のピクセルのピクセル推論値とピクセル予測部110が生成したピクセル予測値との差を学習することができる。
【0037】
さらに、実施形態によっては、信頼度を二項分類(binary classification)して表示することもできる。すなわち、信頼度が設定値(attention threshold)以上である場合には、ピクセル予測値を信頼できると判別して信頼度を1に再設定することができ、信頼度が設定値未満である場合には、ピクセル予測値を信頼できないと判別して信頼度を0に再設定することができる。
【0038】
ピクセル生成部130は、対象ピクセルに対するピクセル予測値の信頼度に応じて、対象ピクセルのピクセル値を設定することができる。すなわち、対象ピクセルの信頼度が設定値以上であれば、ピクセル予測値を対象ピクセルのピクセル値に設定し、対象ピクセルの信頼度が設定値未満であれば、ピクセルCNNモデルにより生成されたピクセル推論値を対象ピクセルのピクセル値に設定することができる。
【0039】
図4に示すように、ピクセル予測部110および信頼度推定部120は、対象領域P1が設定されれば、対象領域P1に対応するピクセル予測値および信頼度を生成することができる。ここで、信頼度は、設定値を基準に、二値化画像で表示されることが可能である。すなわち、信頼度が設定値以上である場合には白色(1)で表示され、信頼度が設定値未満である場合には黒色(0)で表示されることが可能である。
【0040】
その後、図5(a)に示すように、a1領域に含まれる対象ピクセルのピクセル値から順次ピクセル値を設定することができる。ここで、図5(a)においては、a1領域に対応する信頼度が白色で表示されているため、ピクセル予測値を信頼できる場合に該当する。したがって、a1領域に対するピクセル値は、ピクセル予測値に応じて設定されることが可能である。
【0041】
また、a1領域の次の領域に該当するa2領域に含まれる対象ピクセルのピクセル値は、図5(b)に示すように設定されることが可能である。すなわち、a2領域に対応する信頼度は黒色で表示されているため、ピクセル予測値を信頼できない場合に該当する。したがって、a2領域に対応するピクセル予測値をa2領域に適用しない。その代わりに、ピクセルCNNモデルを用いてピクセル推論値を演算し、演算されたピクセル推論値をa2領域のピクセル値に設定することができる。この場合、図6(a)に示すように、a2領域のピクセル値が設定されることが可能である。
【0042】
一方、図6(a)に示すように、対象ピクセルのピクセル値がピクセル推論値で設定されれば、残りの対象領域P2に対するピクセル予測値および信頼度を再び演算してアップデートすることができる。すなわち、ピクセル推論値で設定された対象ピクセルのピクセル値を反映してピクセル予測値および信頼度をアップデートすることによって、既存のピクセル予測値に含まれる誤差を除去し、より正確なピクセル予測値および信頼度を生成することができる。
【0043】
さらに、ピクセル生成部130は、イメージ生成のための最初のk個のピクセルを予め生成することができる。すなわち、最初のk個のピクセルに対してはピクセル予測値などの演算を実行せず、ピクセルCNNモデルだけを用いてピクセル推論値を演算し、それを用いてイメージを生成することができる。場合によっては、最初のk個のピクセルにランダムなピクセル値を付与することもできる。例えば、イメージ生成時、最初の3個の列までは、ピクセルCNNモデルを用いるピクセル推論値やランダム値でピクセル値を設定することができる。
【0044】
ピクセル生成部130は、イメージ生成を完了するまで上述した過程を繰り返し実行することができる。
【0045】
一方、図3に示すように、本発明の一実施形態によるイメージ自動生成装置100は、プロセッサ10、メモリ40などの物理的な構成を含むことができ、メモリ40内には、プロセッサ10により実行されるように構成される一つ以上のモジュールが含まれることが可能である。具体的には、一つ以上のモジュールには、ピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールなどが含まれることが可能である。
【0046】
プロセッサ10は、様々なソフトウェアプログラムとメモリ40に記憶された命令セットとを実行して様々な機能を実行しデータを処理する機能を実行することができる。周辺インターフェース部30は、イメージ自動生成装置100の入出力周辺装置をプロセッサ10、メモリ40に接続することができ、メモリ制御部20は、プロセッサ10やイメージ自動生成装置100の構成要素がメモリ40にアクセスする場合に、メモリアクセスを制御する機能を実行することができる。実施形態によっては、プロセッサ10、メモリ制御部20および周辺インターフェース部30が、単一チップに実現されることもあるし、別個のチップに実現されることもある。
【0047】
メモリ40は、高速ランダムアクセスメモリ、一つ以上の磁気ディスクストレージ、フラッシュメモリ装置のような不揮発性メモリなどを含むことができる。また、メモリ40は、プロセッサ10から離れて位置するストレージや、インターネットなどの通信ネットワークを介してアクセスされるネットワーク接続ストレージなどをさらに含むことができる。
【0048】
ディスプレイ部50は、ユーザが、視覚を通じて、生成されたイメージを確認できるように表示する構成である。例えば、ディスプレイ部50は、液晶ディスプレイ、薄膜トランジスタ液晶ディスプレイ、有機発光ダイオード、フレキシブルディスプレイ、3次元(3D)ディスプレイ、電気泳動ディスプレイなどを用いて視覚的に表示することができる。しかしながら、本発明の内容はこれに限定されるものではなく、この他にも様々な方式でディスプレイ部を実現することができる。
【0049】
入力部60は、ユーザから入力を受けるものであって、キーボード、キーパッド、マウス、タッチペン、タッチパッド、タッチパネル、ジョグホイール、ジョグスイッチなどが入力部60に該当することができる。
【0050】
一方、図3に示すように、本発明の一実施形態によるイメージ自動生成装置100は、メモリ40に、オペレーティングシステムをはじめとして、アプリケーションプログラムに該当するピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールなどを含むことができる。ここで、各々のモジュールは、上述した機能を実行するための命令セットであって、メモリ40に記憶されることが可能である。
【0051】
したがって、本発明の一実施形態によるイメージ自動生成装置100は、プロセッサ10がメモリ40にアクセスして各々のモジュールに対応する命令を実行することができる。ピクセル予測モジュール、信頼度推定モジュールおよびピクセル生成モジュールは、上述したピクセル予測部、信頼度推定部およびピクセル生成部にそれぞれ対応するため、ここでは詳しい説明を省略する。
【0052】
図7は、本発明の一実施形態によるスキム−ピクセルCNNを用いて生成されたイメージを示す例示である。図7において、左側列は、ピクセル予測値を適用した領域を示したもの(白色)であり、中央列は、イメージの信頼度を示すものであって、信頼度が高いほど赤色で表示し、信頼度が低いほど青色で表示したものである。最後の右側列は、実際に生成されたイメージに該当する。また、図7(a)は、イメージ全体が、ピクセル予測値を用いて生成されたものであり、図7(f)は、イメージ全体が、ピクセルCNNモデルを用いてピクセル推論値で生成されたものであり、図7(a)から図7(f)に行くほど、ピクセルCNNモデルを適用するための設定値が高く設定されたものである。図7を参照すると、人物イメージの場合、耳目口鼻などの人物の特徴になる部分に対する信頼度が相対的に低く設定されることを確認することができ、ピクセルCNNモデルだけを用いて生成する場合と比較すると、イメージ品質の差が大きく出ないことを確認することができる。また、図8に示すように、ピクセル予測値を用いる比率が高いほど、イメージ生成速度が速くなることを確認することができる。
【0053】
図9は、本発明の一実施形態によるイメージ自動生成方法を示すフローチャートである。図9を参照すると、本発明の一実施形態によるイメージ自動生成方法は、初期生成ステップ(S10)、予測ステップ(S20)、信頼度生成ステップ(S30)、スキミングステップ(S40)、ドローステップ(S50)およびアップデートステップ(S60)を含むことができる。
【0054】
以下では、図9を参照して本発明の一実施形態によるイメージ自動生成方法について説明する。
【0055】
初期生成ステップ(S10)においては、ピクセル生成部が、ピクセルCNNモデルから抽出したピクセル推論値を用いて、生成しようとするイメージに対する最初のk個のピクセルを生成することができる。すなわち、最初のk個のピクセルに対してはピクセル予測値などの演算を実行せず、ピクセルCNNモデルだけを用いてピクセル推論値を演算し、それを用いてイメージを生成することができる。場合によっては、最初のk個のピクセルにランダムなピクセル値を付与することもできる。例えば、イメージ生成時、最初の3個の列までは、ピクセルCNNモデルを用いるピクセル推論値やランダム値でピクセル値を設定することができる。
【0056】
予測ステップ(S20)においては、ピクセル予測部が、イメージ内に既に生成されている既存ピクセルのピクセル値を用いて、生成しようとする複数の対象ピクセルのピクセル予測値を同時に生成することができる。ここで、ピクセル予測部は、対象領域を予め設定することができ、対象領域に含まれる対象ピクセルのピクセル予測値を同時に生成することができる。その後、一つの行に対するピクセル値の設定が完了すれば、次の予め設定された個数(例えば、2個)の行を対象領域に設定し、該対象領域内に含まれる各々の対象ピクセルに対するピクセル予測値を生成することができる。
【0057】
具体的には、i番目のピクセルまでピクセル値が設定された状態でj番目の対象ピクセルに対するピクセル予測値を生成する場合(j>i、∀j、i∈[1,n×m])、ピクセル予測部は、i番目のピクセルまでのピクセル値と、i+1番目の対象ピクセルからj−1番目の対象ピクセルまでの事前予測値と、をピクセルCNNモデルに適用する方式で、j番目の対象ピクセルに対するピクセル予測値を生成することができる。ここで、事前予測値は、U−netニューラルネットワークを用いて抽出されることが可能であり、事前予測値は、IIDの特性を有することができる。すなわち、各々の対象ピクセルに対する事前予測値を予め生成することができるため、ピクセル予測部は、既存ピクセルのピクセル値と事前予測値とをピクセルCNNモデルに並列的に適用することができ、それにより、複数の対象ピクセルに対する各々のピクセル予測値を同時に計算することができる。
【0058】
信頼度生成ステップ(S30)においては、信頼度推定部が、対象ピクセルごとにピクセル予測値に対する信頼度を生成することができる。すなわち、信頼度推定部は、ピクセル予測部により生成されたピクセル予測値を使用できるかに対する信頼度を計算して定量的な値として提供することができる。ここで、信頼度は、対象ピクセルに対するピクセル予測値が対象ピクセルに対するピクセル推論値と一致する確率であり、信頼度推定部は、ピクセル推論値とピクセル予測値との差を、ディープラーニングなどの機械学習技法で学習して信頼度を演算することができる。具体的には、ピクセルCNNモデルを用いてサンプルイメージを生成した後、生成したサンプルイメージに含まれる各々のピクセルのピクセル推論値とピクセル予測部が生成したピクセル予測値とを比較する方式で学習することができる。
【0059】
スキミングステップ(S40)においては、対象ピクセルの信頼度を設定値と比較することができ、信頼度が設定値以上であれば、ピクセル生成部が、ピクセル予測値を対象ピクセルのピクセル値に設定することができる。すなわち、対象領域に含まれる各々の対象ピクセルに対して信頼度を順次判別することができ、信頼度が設定値以上である対象ピクセルに対してはピクセル予測値でピクセル値を設定することができる。この場合、ピクセルCNNモデルを用いてピクセル推論値を計算しないため、速やかにピクセル値を設定することができる。一方、対象ピクセルの信頼度が設定値未満であれば、ドローステップ(S50)に進む。
【0060】
ドローステップ(S50)においては、対象ピクセルの信頼度が設定値未満であれば、ピクセル生成部が、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を生成し、ピクセル推論値を対象ピクセルのピクセル値に設定することができる。すなわち、対象ピクセルのピクセル予測値に対する信頼度が低いため、ピクセル予測値の代わりにピクセルCNNモデルを用いるピクセル推論値でピクセル値を設定することができる。ここで、ピクセルCNNモデルを用いて対象ピクセルのピクセル推論値を演算する場合には、演算時間が相対的に長くなるが、より正確なイメージを生成することができる。
【0061】
一方、ピクセル推論値で対象ピクセルのピクセル値を設定した後には、残りの対象領域に対するピクセル予測値および信頼度を再び演算してアップデートするアップデートステップ(S60)を実行することができる。すなわち、ピクセル推論値で設定された対象ピクセルのピクセル値を反映してピクセル予測値および信頼度をアップデートすることによって、既存のピクセル予測値に含まれる誤差を除去し、より正確なピクセル予測値および信頼度を生成することができる。
【0062】
その後、スキミングステップ(S40)、ドローステップ(S50)およびアップデートステップ(S60)を、イメージ生成を完了するまで繰り返して、イメージを生成することができる。
【0063】
本発明の実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置によれば、イメージ生成時、相対的に重要でないピクセル領域に対しては簡単な予測モデルでピクセル値を設定することができる。すなわち、ピクセルCNNモデルを用いるピクセル推論値の生成を省略することができるため、必要な演算量を減少させることができる。また、相対的に重要度の高い領域ではピクセルCNNモデルを用いてピクセル推論値を直接生成するため、イメージ生成に必要な演算量を減少させて演算速度を向上させつつ、高品質のイメージを生成することができる。
【0064】
しかしながら、本発明の実施形態によるスキム−ピクセルCNNを用いるイメージ自動生成方法およびイメージ自動生成装置が達成できる効果は、上記で言及したものに限定されず、言及していない他の効果は、上記の記載から当業者に明らかに理解できるものである。
【0065】
前述した本発明の実施形態は、コンピュータ読み取り可能なコードであるプログラムとして実現されることが可能であり、また、プログラムが記憶されたコンピュータ読み取り可能な記憶媒体として実現されることが可能である。コンピュータ読み取り可能な記憶媒体は、コンピュータによって実行可能なプログラムを続けて記憶するものであってもよいし、実行またはダウンロードのために一時的に記憶するものであってもよい。また、媒体は、単一のまたは複数のハードウェアが結合された形態の様々な記憶手段または格納手段であってもよく、あるコンピュータシステムに直接接続される媒体に限定されず、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスクおよび磁気テープのような磁気媒体、CD−ROMおよびDVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含め、プログラム命令が記憶されるように構成されたものがある。また、他の媒体の例として、アプリケーションを配布するアプリケーションストアやその他の様々なソフトウェアを供給または配布するサイト、サーバなどが管理する記憶媒体または格納媒体も挙げられる。したがって、上記の詳細な説明は、全ての面で限定的に解釈されてはならず、例示的なものとみなされなければならない。本発明の範囲は、添付された請求項の合理的な解釈によって決定されなければならず、本発明の均等な範囲内での全ての変更は、本発明の範囲に含まれる。
【0066】
本発明は、前述した実施形態および添付された図面によって限定されるものではない。当業者であれば、本発明の技術的思想を逸脱しない範囲内で本発明に係る構成要素を置換、変形および変更できることは明らかである。
【符号の説明】
【0067】
100・・・イメージ自動生成装置
110・・・ピクセル予測部
120・・・信頼度推定部
130・・・ピクセル生成部
図1
図2
図3
図4
図5
図6
図7
図8
図9