(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-29
(54)【発明の名称】画像ドメインマッチング技術
(51)【国際特許分類】
G06T 1/00 20060101AFI20240221BHJP
【FI】
G06T1/00 500Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023555442
(86)(22)【出願日】2022-03-01
(85)【翻訳文提出日】2023-10-26
(86)【国際出願番号】 IB2022051776
(87)【国際公開番号】W WO2022189894
(87)【国際公開日】2022-09-15
(32)【優先日】2021-03-10
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】523343651
【氏名又は名称】マインドテック グローバル リミテッド
【氏名又は名称原語表記】MINDTECH GLOBAL LIMITED
(74)【代理人】
【識別番号】100139723
【氏名又は名称】樋口 洋
(72)【発明者】
【氏名】マレック,アリ
(72)【発明者】
【氏名】マクギネス,ピーター
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057BA02
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CE03
5B057DB02
5B057DB06
5B057DB09
(57)【要約】
画像品質を向上するためのプロセスであって、選択されたスタイル画像をベースとして用いて、コンテンツ画像上でスタイル転送を行う。スタイル転送に使用されるスタイル画像は、コンテンツ画像との類似性の程度を表す関連する類似性パラメータをそれぞれが有する多数の候補スタイル画像から選択される。選択されたスタイル画像は、スタイル画像とコンテンツ画像との類似性が最も高い類似性パラメータを有する候補スタイル画像である。
【特許請求の範囲】
【請求項1】
スタイル画像l
Sjを、エンティティクラスi(i:1,2,...M)を含むコンテンツ画像l
cに適用するためのプロセスであって、
各々がエンティティクラスi(i:1,2,...M)を含む複数のjスタイル画像(l
Sj:l
S1,l
S2,...l
SN)を提供するステップ;
各エンティティクラスiについて、
a)複数のスタイル画像(l
Sj:l
S1,l
S2,...l
SN)の各スタイル画像l
sjについて、各スタイル画像l
sjとコンテンツ画像l
cとの間の類似性を表すパラメータλ
ijを計算するステップ;
b)複数のスタイル画像l
sjから、最も高い類似性を表すパラメータλ
iwを有するスタイル画像l
swを選択するステップ;
c)選択されたスタイル画像l
swをコンテンツ画像l
cに適用することによって、コンテンツ画像l
cをスタイル化して、スタイル化されたコンテンツ画像l
CSiを生成するステップ
を含む、プロセス。
【請求項2】
前記パラメータλ
ijを計算するステップが、
【数1】
を計算するステップを含み、
上記式において、C
iおよびS
ijは、それぞれl
cおよびl
sj上でiとしてラベル付けされたピクセルの数であり、前記選択するステップが、各i値についてλ
iwの最高値を有するスタイル画像l
swを選択するステップを含む
ことを特徴とする、請求項1に記載のプロセス。
【請求項3】
前記パラメータλ
ijは、前記類似性に反比例し、前記選択するステップは、所与のi値に対してλ
ijの最小値を有するスタイル画像l
swを選択するステップを含むことを特徴とする、請求項1に記載のプロセス。
【請求項4】
前記パラメータλ
ijを計算するステップが、
【数2】
を計算するステップを含み、
上記式において、C
iおよびS
ijは、それぞれl
cおよびl
sj上でiとしてラベル付けされたピクセルの数であり、前記選択するステップが、各i値についてλ
iwの最低値を有するスタイル画像l
swを選択するステップを含む
ことを特徴とする、請求項3に記載のプロセス。
【請求項5】
前記パラメータλ
ijを計算するステップは、l
cおよびl
sj上でiとしてラベル付けされたピクセルの数以外の構成パラメータを含む類似性パラメータλ
ijを計算するステップを含むことを特徴とする、請求項1または3に記載のプロセス。
【請求項6】
前記構成パラメータは、前記コンテンツ画像l
cおよび前記スタイル画像l
sjにおいてiとしてラベル付けされたエンティティの数を含むことを特徴とする、請求項5に記載のプロセス。
【請求項7】
前記構成パラメータは、前記コンテンツ画像l
cおよび前記スタイル画像l
sjにおける特定のクラスiのエンティティのサイズを含むことを特徴とする、請求項5に記載のプロセス。
【請求項8】
前記パラメータλ
ijの値は、i行j列のi-j行列の要素であることを特徴とする、請求項1~7のいずれか一項に記載のプロセス。
【請求項9】
さらなるエンティティクラスi(i>1)の各々について、前記選択されたスタイル画像l
SWを上記のi値のスタイル化コンテンツ画像l
csi-1に適用することによって、スタイル化コンテンツ画像l
csiを生成するステップ、および
前記最終的なエンティティクラスi=Mについて、最終的なスタイル化コンテンツ画像l
csMを導出するステップ
をさらに含むことを特徴とする、請求項1~8のいずれか一項に記載のプロセス。
【請求項10】
i=1およびM=1であり、このクラスについては、関連するエンティティは存在しないことを特徴とする、請求項1~9のいずれか一項に記載のプロセス。
【請求項11】
-面積によって、前記コンテンツ画像l
cを複数のk個のコンテンツパッチ(P
ck:P
c1,P
c2,...P
cz)に分割するステップ;
-面積によって、前記j個のスタイル画像l
Sjの各々を複数のk個のスタイルパッチ(P
Sjk:P
sj1,P
sj2,...,P
sjz)に分割するステップであって、kの各値について、前記コンテンツパッチP
ckは、対応するj個のスタイルパッチP
Sjkとペアにされ、コンテンツ-スタイルパッチグループ(P
ck-P
sik(P
S1k,P
S2k,...P
SNk))を形成するステップ;
-k個のコンテンツ-スタイルパッチグループ(P
Ck-P
Sjk(P
S1k,P
S2k,...P
SNk))の各々について、
a)エンティティクラスiについて、スタイルパッチP
Ckとj個のスタイルパッチ(P
Sjk:P
S1k,P
S2k,...P
SNk)の各々との間の類似性を表すパラメータλ
ijkを計算するステップ;
b)複数のj個のスタイルパッチP
Sjkから、最も高い類似性を表すパラメータλ
ijkを有するスタイルパッチP
Swkを選択するステップ;
c)選択されたスタイルパッチ(P
Swk)をコンテンツパッチ(P
Ck)に適用することによってコンテンツパッチ(P
CSik)をスタイル化し、スタイル化されたコンテンツパッチ(P
CSik)を生成するステップ;
d)iをi+1にインクリメントし、先行するエンティティクラスiの各スタイル化コンテンツパッチP
CSikに基づいて、上記ステップ(a)~(c)を繰り返して、さらなるスタイル化コンテンツパッチP
CSi+1kを生成するステップ;
e)i=M
kまで(d)におけるインクリメントを繰り返し、最終エンティティクラスi=M
kについて、最終的なスタイル化コンテンツパッチP
csMkを導出するステップ
が実行され、
-k個の最終的なスタイル化コンテンツパッチP
CSMk(kは1からZまで変化する)を単一の最終的なスタイル化コンテンツ画像l
csに再結合するステップ
をさらに含むことを特徴とする、請求項1~10のいずれか一項に記載のプロセス。
【請求項12】
前記パラメータλ
ijKを計算するステップが、
【数3】
を計算するステップを含み、
上記式において、C
iKおよびS
ijKは、それぞれP
cKおよびP
sjK上でiとしてラベル付けされたピクセルの数であり、前記選択するステップが、各i値についてλ
iwKの最高値を有するスタイルパッチP
swKを選択するステップを含む
ことを特徴とする、請求項11に記載のプロセス。
【請求項13】
前記パラメータλ
ijKは、前記類似性に反比例し、前記選択するステップは、所与のi値に対してλ
ijKの最小値を有するスタイルパッチP
swKを選択するステップを含むことを特徴とする、請求項11に記載のプロセス。
【請求項14】
前記パラメータλ
ijKを計算するステップが、
【数4】
を計算するステップを含み、
上記式において、C
iKおよびS
ijKは、それぞれP
cKおよびP
sjK上でiとしてラベル付けされたピクセルの数であり、前記選択するステップが、各i値についてλ
iwKの最低値を有するスタイルパッチP
swKを選択するステップを含む
ことを特徴とする、請求項13に記載のプロセス。
【請求項15】
前記パラメータλ
ijKを計算するステップは、P
cKおよびP
sjK上でiとしてラベル付けされたピクセルの数以外の構成パラメータを含む類似性パラメータλ
ijKを計算するステップを含むことを特徴とする、請求項11または13に記載のプロセス。
【請求項16】
前記構成パラメータは、前記コンテンツパッチP
cKおよび前記スタイルパッチP
sjKにおいてiとしてラベル付けされたエンティティの数を含むことを特徴とする、請求項15に記載のプロセス。
【請求項17】
前記構成パラメータは、前記コンテンツパッチP
cKおよび前記スタイルパッチP
sjKにおける特定のクラスiのエンティティのサイズを含むことを特徴とする、請求項16に記載のプロセス。
【請求項18】
Z=1であり、単一のk値が存在することを特徴とする、請求項11~17のいずれか一項に記載のプロセス。
【請求項19】
各パッチkにおいて、i値の数Mは1であることを特徴とする、請求項11~18のいずれか一項に記載の方法。
【請求項20】
各コンテンツ-スタイルパッチグループ内のパッチは、サイズが等しくなく、異なる数のピクセルを含むことを特徴とする、請求項11~19のいずれか一項に記載のプロセス。
【請求項21】
プログラムがコンピューティングシステム上で実行されるときに、請求項1~20のいずれか一項に記載のプロセスステップを実行するためのコンピュータ可読媒体に記憶されたプログラムコード命令を含むコンピュータプログラム製品。
【請求項22】
請求項1~20のいずれか一項に記載のステップを含む、コンピュータによって実装されるプロセス。
【請求項23】
コンピュータによって実行されると、請求項1~20のいずれか一項に記載のステップを前記コンピュータに実装させる命令を備えるコンピュータ可読記憶媒体。
【請求項24】
請求項1~20のいずれか一項に記載のプロセスステップを実行するように構成された、入力デバイスと、メモリと、グラフィック処理ユニット(GPU)と、出力デバイスとを備える、コンピューティングシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オブジェクト、人物、設定および環境などの仮想エンティティを定義する1つまたは複数のデータセットに基づく画像の作成および処理に関する。
【0002】
特に、本開示は、合成データセットによって表される仮想世界のリアルでフォトリアリスティックな画像の生成および多次元的提供に関する。高度にリアルな画像化の使用によって、描写されている仮想環境のユーザ体験の向上が容易になる。そのような画像のリアルタイム提供によって、ユーザが仮想オブジェクトおよび周囲環境と相互作用することが可能になり、それによって、ビデオに似た没入型かつ動的体験が提供される。
【0003】
本開示で言及される画像は、ゲーム、娯楽、設計、建築、航空、計画、トレーニング、教育、医療、セキュリティ、防御などを含む多数の用途に展開され得る。
【背景技術】
【0004】
画像におけるリアリズムを向上させるために、合成データセットであり得るコンテンツデータ(「コンテンツデータセット」)によって提供される仮想オブジェクト、場所、および環境に関連するデータは、スタイルデータセットまたはスタイルオーバーレイの使用によって修正され得る。そのような修正なしでは、コンテンツデータのみによって提供される画像は、画像内のオブジェクトまたは環境が十分なまたは適切なテクスチャ、カラーリング、シェーディング、または実際に正確な形状もしくは形態を欠き得るという意味で「生(raw)」とみなされ手もよく、これによって、レンダリングされる画像が「平坦」になり、単純化され、ユーザにとって説得力がなく、ユーザ体験が必然的に非常に制限される。
【0005】
コンテンツデータをスタイルデータで修正することによって、最終的な画像におけるリアリズムを大幅に向上させることができ、ユーザ体験を大幅に向上させることができる。街路内のオブジェクトおよび周囲の基本的な単純な幾何学形状を描写する一般化された街路シーンは、そのように修正されると、スタイルデータによって、それぞれが現実的なテクスチャ、色、陰影、および色相でレンダリングされる、建物、車、ストリートファーニチャー、および歩行者が完備された、フォトリアリスティックな街路シーンに変換されることができる。さらに、同じコンテンツデータに適用される異なるスタイルは、修正された街路シーンにおいて異なる環境を描写させ、例えば、一般化された街路シーンを描写する同じコンテンツデータにインドスタイルの画像またはドイツスタイルの画像を適用でき、スタイル化されたコンテンツデータは、インドの街路またはドイツの街路の画像をレンダリングする。
【0006】
コンテンツデータへのスタイルデータの適用、または「スタイル転送」は、注釈付きコンテンツ画像および注釈付きスタイル画像、すなわち、各画像内のピクセルが特にそれらが表示するものによって注釈付けされるまたはラベル付けされる、で動作する「オートエンコーダ」を含むニューラルネットワークアーキテクチャを典型的に(だが排他的ではなく)使用する従来のプロセスに基づく。街路シーンの例では、ピクセルは、車のためのピクセルまたは歩行者のためのピクセルなどとしてラベル付けされ得る。オートエンコーダは、2つの主要な部分を有する:コンテンツ画像およびスタイル画像の両方において所与の出力をダウンサンプリングして、それぞれについてコンパクトな「特徴ベクトル」を生成する「エンコーダ」、および、元の入力画像のコンパクトな特徴ベクトルをアップサンプリングする「デコーダ」。コンパクトな特徴ベクトルは、ソース画像からの「コンパクト化された」データを含み、それによって、ソースからの元のピクセルデータの大部分を、多少の損失を受けるが「保存」する。
【0007】
読者は、従来のスタイル転移の概要を述べる背景出版物を参照されたい:非特許文献1。
【0008】
従来のシステムでは、スタイル転送は、エンコーダの出力で行われ、スタイル特徴ベクトルの特定の属性は、コンテンツ特徴ベクトルによって仮定(または置換)される。2つの特徴ベクトルは、それらに対して「ドメインマッチング」を実行する1つまたは複数の変換演算を受ける:コンテンツ画像内の領域は、スタイル画像と同じ注釈(またはラベル)を有する領域とペアにされ、次いで、各領域コンテンツ-スタイルのペアが、面積類似性、すなわち、同等の面積を有する、または実際には同等の数のピクセルを有することについて分析される。領域のペアが面積類似性条件を満たす場合、プロセッサは、スタイル画像内のその領域のスタイルをコンテンツ画像内の対応する領域に「転送」する(以下のスタイル転送の説明を参照)。しかしながら、従来のシステムでは、類似性試験は、各領域においてバイナリ結果を有する:スタイルは、その領域内で転送されるか、または、転送が起こらずコンテンツ画像内の領域は変更されない。
【0009】
コンテンツ特徴ベクトルが新しい属性を仮定すると、それをアップサンプリングして「スタイル化コンテンツ画像」を生成することができる。
【0010】
従来のシステムについて上述したようなドメインマッチングに関連する問題がある。第1に、スタイル画像内の完全な注釈、すなわち全てのピクセルがラベル付けされることに依拠し、第2に、対応する領域が、注釈に基づいて設定され得る場合、同等の面積であり、類似性試験に合格する。ラベルが欠落している場合、または領域ペアが面積類似性試験に不合格の場合、スタイルの転送はその領域に対しては起こらない。これらの理由から、スタイル転送は、コンテンツ画像の限られた部分においてのみ生じ得、コンテンツ画像全体でスタイル転送の不均一な発生につながり、実質的に部分的なスタイル転送につながり、これは明らかに不満足である。
【0011】
上記に照らして、コンテンツ画像とスタイル画像の両方の対応する領域がほぼ同数のピクセルを有する場合に、従来のプロセスが最もよく機能することが読者には明らかであるが、これは一般に当てはまらない。これは、従来のアプローチのさらなる欠点である。
【0012】
上記の問題は、コンテンツ画像を単一のスタイル画像データセットにマッチングする慣行によって悪化する。この場合、注釈によるドメインマッチングが、類似性基準も満たす実行可能な数のコンテンツ-スタイル領域をもたらす可能性が特に低い。
【0013】
このようなドメインマッチング技術をコンテンツ画像全体およびスタイル画像全体に適用することにより、コンテンツデータ全体およびスタイルデータ全体は、エンティティのクラスごとに少なくとも1回オートエンコーダを通過することになる。オートエンコーダを通過する各通過におけるダウンサンプリングおよびアップサンプリングは不完全であり、誤差(「アーチファクト」)を生じ、これは、本明細書の後の節で説明されるように、オートエンコーダ通過の数とともに増殖するであろう。
【先行技術文献】
【非特許文献】
【0014】
【非特許文献1】A Closed-form Solution to Photorealistic Image Stylization by Yijun Li and others,University of California,27 July 2018
【発明の概要】
【発明が解決しようとする課題】
【0015】
読者は、上述の欠点を克服する方法および対応する構成が必要性であることを理解するであろう。本開示における装置および方法の様々な態様は、これらの欠点に対処し、強化された性能上の利点を提供し、本明細書で論じられる。
【0016】
本開示から明らかなように(下記参照)、本発明の目的は、スタイル転送技術を強化し、それによって、リアリズムが改善されたスタイル画像を生成するための方法および構成を提供することである。本開示の方法および構成の目的は、コンテンツデータとスタイルデータとの間のドメインマッチングから生じるコンテンツ-スタイル領域の数を最適化すること、ならびにコンテンツ画像への改善されたスタイル転送することである。
【0017】
本発明のさらなる目的は、類似性試験に合格するコンテンツ-スタイル領域ペアの割合の増加を容易にするドメインマッチングの方法および構成を提供することである。さらに別の目的は、ドメインマッチングにおいて生じるアーチファクトの数を減らすことである。
【0018】
本発明のさらなる目的および利点は、本明細書に開示される装置および方法の動作および作業を考慮すると明らかになるであろう。
【課題を解決するための手段】
【0019】
本開示は、スタイル転送のためのドメインマッチング技術を強化し、スタイル化画像におけるアーチファクトの数を減らすための新規かつ発明的な装置および方法に関する。スタイル転送のさらなる詳細は、後の節で説明される。
【0020】
本発明の実施形態によれば、マルチスタイルドメインマッチングの方法および構成が本明細書に開示され、複数のスタイル画像が所与のコンテンツに対して提供される。
【0021】
本発明の実施形態によれば、コンテンツ画像とスタイルデータセット内の複数のスタイル画像との間の類似性が判定され、コンテンツ画像に最も類似すると判定されたスタイル画像が、コンテンツ画像へのスタイル転送の基礎として選択される、ドメインマッチングの方法および構成が開示される。類似性判定はまた、領域的コンテンツ-スタイルペア(上記参照)、すなわち画像全体ではなく画像の一部に適用されて、スタイル画像(その領域)の選択が各領域に関して行われてもよい:本発明の方法および構成の一態様によれば、類似性試験および結果として得られる選択は、それぞれの画像における位置に関係なく、空間的対応が存在しない可能性のある関連ピクセルの、コンテンツ画像データセットおよびスタイル画像データセットのそれぞれにおけるピクセルのセットまたはサブセットの任意のペアに適用されてもよい。
【0022】
本発明の一態様によれば、本明細書に開示される方法および構成は、コンテンツ画像上のあらゆる意味的にラベル付けされた領域について、スタイルデータセット内に複数の候補スタイル画像が存在する。
【0023】
本明細書に開示される本発明の方法および構成の一態様によれば、スタイル転送のための複数の候補スタイルデータからのスタイルデータの選択、および結果として得られるスタイル転送は、領域ベース(コンテンツ画像全体に関してではなく、コンテンツ画像の任意の選択された部分、領域、セクタ、象限などに関して)で起こり得る:コンテンツ画像の一部は、単なる別のコンテンツ画像と見なされてもよい。
【0024】
本発明の多数の態様、実装形態、目的、および利点は、図面と併せて本明細書の詳細な説明を考慮することにより明らかになるであろう。
【図面の簡単な説明】
【0025】
【
図2】本発明による方法および構成の例示的な態様と、スタイル転送におけるその結果を示す図
【
図3】本明細書で開示する様々な例示的な態様および実装形態によるドメインマッチングの方法を示す図
【
図4】本発明による方法および構成の例示的な態様と、スタイル転送におけるその結果を示す図
【
図5】本明細書で開示する様々な例示的な態様および実装形態によるドメインマッチングの方法を示す図
【発明を実施するための形態】
【0026】
本発明の実施例および実施形態を詳細に参照すると、そのうちの1つまたは複数が図面に示されており、実施例および実施形態は、本発明の説明のために提供されており、本発明を限定するものではない。特許請求の範囲に定義される本発明の範囲から逸脱することなく、本発明において様々な修正および変更を行うことができることは明らかであろう。明らかに、一実施形態の一部として図示または説明される特徴は、別の実施形態とともに使用され、さらなる実施形態をもたらすことができる。本発明は、添付の特許請求の範囲およびその均等物の範囲内に入るような修正および変形を包含することが意図される。
【0027】
本発明のさまざまな実施形態、態様、および実装形態、ならびに技術的目的および利点は、図面と組み合わせて本明細書の説明を考慮すれば当業者には明らかであろう。文脈によって別段の指示がない限り、「第1の」、「第2の」、「第3の」、「最後の」などの用語は、本明細書では単に1つの構成要素を別の構成要素と区別するために使用され、指定された構成要素の位置、場所、配置、または重要性を定義または限定することを意図するものではない。単数形「a」、「an」、および「the」は、文脈に基づいて明らかにそうでない限り、複数の参照を含む。
【0028】
本開示の例示的な態様は、スタイル画像lSjを、エンティティクラスi(i:1,2,...M)を含むコンテンツ画像lcに適用するためのプロセスに関し、これは以下のステップを含む:各々がエンティティクラスi(i:1,2,...M)を含む複数のjスタイル画像(lSj:lS1,lS2,...lSN)を提供するステップ;第1のエンティティクラスiについて、(a)複数のスタイル画像(lSj:lS1,lS2,...lSN)の各スタイル画像lsjについて、各スタイル画像lsjとコンテンツ画像lcとの間の類似性を表すパラメータλijを計算するステップ;(b)複数のスタイル画像lsjから、最も高い類似性を表すパラメータλiwを有するスタイル画像lswを選択するステップ;(c)選択されたスタイル画像lswをコンテンツ画像lcに適用することによって、コンテンツ画像lcをスタイル化して、スタイル化されたコンテンツ画像lCSiを生成するステップ。
【0029】
本開示のプロセスの例示的な態様では、プロセスは、さらなるエンティティクラスiごとに、以下のステップを含む:(i)iをi+1にインクリメントするステップ;(ii)上記のステップ(a)~(b)を繰り返し、スタイル画像lswを選択するステップ;(iii)選択されたスタイル画像lswを先行するi値のスタイル化コンテンツ画像lCSiに適用することによって、スタイル化コンテンツ画像lCSi+1を生成するステップ;および、最終エンティティクラスi=Mについて、最終スタイル化コンテンツ画像lCSMを導出するステップ。
【0030】
本開示のプロセスの例示的な態様では、パラメータλijは、前記類似性に直接関係し、選択するステップは、所与のi値についてλijの最大値を有するスタイル画像lswを選択するステップを含む。
【0031】
本開示のプロセスの例示的な態様では、パラメータλijは、前記類似性に反比例し、選択するステップは、所与のi値に対してλijの最小値を有するスタイル画像lswを選択するステップを含む。
【0032】
本開示のプロセスの例示的な態様では、パラメータλijを計算するステップは、lcおよびlsj上でiとしてラベル付けされたピクセルの数以外の構成パラメータを含む類似性パラメータλijを計算するステップを含む。
【0033】
本開示のプロセスの例示的な態様では、構成パラメータは、コンテンツ画像lcおよびスタイル画像lsjにおいてiとしてラベル付けされたエンティティの数を含む。
【0034】
本開示のプロセスの例示的な態様では、構成パラメータは、コンテンツ画像lcおよびスタイル画像lsjにおける特定のクラスiのエンティティのサイズを含む。
【0035】
本開示のプロセスの例示的な態様では、パラメータλijの値は、i行j列のi-j行列の要素である。
【0036】
本開示のプロセスの例示的な態様では、i=1およびM=1であり、このクラスについては、関連するエンティティは存在しない。
【0037】
本開示のさらなる例示的な態様は、スタイル画像(lSj:lS1、lS2、...lSN)を、i(i:1,2,...M)個のエンティティクラスを含むコンテンツ画像lcに適用するためのプロセスに関し、これは以下のステップを含む:面積によって、コンテンツ画像lcを複数のk個のコンテンツパッチ(Pck:Pc1,Pc2,...Pcz)に分割するステップ:面積によって、j個のスタイル画像lSjの各々を複数のk個のスタイルパッチ(PSjk:Psj1,Psj2,...,Psjz)に分割するステップであって、kの各値について、コンテンツパッチPckは、対応するj個のスタイルパッチPSjkとペアにされ、コンテンツ-スタイルパッチグループ(Pck-Psik(PS1k,PS2k,...PSNk))を形成し、k個のコンテンツ-スタイルパッチグループ(PCk-PSjk(PS1k,PS2k,...PSNk))の各々について、以下のステップが実行される:(a)エンティティクラスiについて、スタイルパッチPCkとj個のスタイルパッチ(PSjk:PS1k,PS2k,...PSNk)の各々との間の類似性を表すパラメータλijkを計算するステップ;(b)複数のj個のスタイルパッチPSjkから、最も高い類似性を表すパラメータλijkを有するスタイルパッチPSwkを選択するステップ;(c)選択されたスタイルパッチ(PSwk)をコンテンツパッチ(PCk)に適用することによってコンテンツパッチ(PCSik)をスタイル化し、スタイル化されたコンテンツパッチ(PCSik)を生成するステップ;(d)iをi+1にインクリメントし、先行するエンティティクラスiの各スタイル化コンテンツパッチPCSikに基づいて、上記ステップ(a)~(c)を繰り返して、さらなるスタイル化コンテンツパッチPCSi+1kを生成するステップ;(e)i=Mkまで(d)におけるインクリメントを繰り返し、最終エンティティクラスi=Mkについて、最終的なスタイル化コンテンツパッチPcsMkを導出するステップ;および、k個の最終的なスタイル化コンテンツパッチPCSMk(kは1からZまで変化する)を単一の最終的なスタイル化コンテンツ画像lcsに再結合するステップ。
【0038】
本開示のプロセスの例示的な態様では、パラメータλijkを計算するステップは、PCkおよびPSjk-上のiとしてラベル付けされたピクセルの数以外の構成パラメータを含む類似性パラメータλijkを計算するステップを含む。
【0039】
本開示のプロセスの例示的な態様では、構成パラメータは、コンテンツパッチPCkおよびスタイルパッチPSjkにおいてiとラベル付けされたエンティティの数を含む。
【0040】
本開示のプロセスの例示的な態様では、構成パラメータは、コンテンツパッチPCkおよびスタイルパッチPSjkにおける特定のクラスiのエンティティのサイズを含む。
【0041】
本開示のプロセスの例示的な態様では、Z=1であり、単一のk値が存在する。
【0042】
本開示のプロセスの例示的な態様では、各パッチkにおけるi値の数Mは1である。
【0043】
本開示のプロセスの例示的な態様では、各コンテンツ-スタイルパッチグループ内のパッチは、サイズが等しくなく、異なる数のピクセルを含む。
【0044】
本開示のプロセスの例示的な態様では、M=1および単一のi-値であり、このクラスについては、関連するエンティティは存在しない。
【0045】
本開示のさらなる例示的な態様は、コンピュータによって実装される、本明細書で開示されるプロセスステップを対象とする。
【0046】
本開示のさらなる例示的な態様は、プログラムがコンピューティングシステム上で実行されるときに、本明細書に開示されるプロセスステップを実行するためのコンピュータ可読媒体に記憶されたプログラムコード命令を含むコンピュータプログラム製品を対象とする。
【0047】
本開示のさらなる例示的な態様は、コンピュータによって実行されると、本明細書で開示されるステップをコンピュータに実装させる命令を備えるコンピュータ可読記憶媒体を対象とする。
【0048】
コンピューティングシステムは、本明細書に開示されるプロセスステップを実行するように構成された、入力デバイスと、メモリと、グラフィック処理ユニット(GPU)と、出力デバイスとを備える。
【0049】
本明細書で開示される方法および装置の実施形態で適用されるような「スタイル転送」の簡単な説明は、本明細書では、後者におけるルックアンドフィール、特にリアリズムを向上させるために、コンテンツ画像データセットの属性に対して実行される変換演算に関して提供される。本開示の冒頭の欄に示されているように、「スタイル転送」または「スタイル化」は、スタイル画像データセットの特定の属性または特性が、そのような変換によって、実質的にコンテンツ画像データセットに「転送」または「適用」される(または、想定または採用される)ことを指す。スタイル転送が行われると、コンテンツ画像はスタイル化されていると称され、スタイル化コンテンツ画像である。「スタイル転送」および「スタイル化」という用語は、本明細書では互換的に使用され、コンテンツ画像データによるスタイル画像データセットの属性または特性の一部の任意の転送、仮定、採用、または適用(これらも本明細書では互換的に使用される)を含む、コンテンツ画像データセットの任意のそのような変換を指す。
【0050】
上述のように、オートエンコーダは、スタイル転送を実行するために使用されることが多い。前述のように、それぞれダウンサンプリングおよびアップサンプリングのためのエンコーダおよびデコーダを備えるオートエンコーダは、それぞれのデータセット内の注釈を分析し、コンテンツ画像上にこれらの拡張をレンダリングするであろう、コンテンツデータセットのピクセルに対して実行される修正を決定する。従来のシステムでは、この決定は、上述の選択プロセスなしに、コンテンツ画像と単一スタイル画像との比較から導出される。そのようなシステムでは、この比較は、コンテンツ画像と単一スタイル画像の面積類似性を考慮する、すなわち、それぞれにおけるピクセル数をカウントすることによる。類似性が十分に高い場合、コンテンツ画像は、スタイル画像データを使用してスタイル化され、そうでない場合、スタイル化はされない、すなわちバイナリ結果である。
【0051】
スタイル転送自体は、従来のシステムと、本開示の装置および方法の実施形態との両方において、既知の技術からなり、コンテンツ画像のピクセルは、コンテンツピクセルの特定の属性または特性をスタイル画像の対応するピクセルの属性に変換する(上述のように、「置換する」または「転送する」または「仮定する」または「採用する」または「適用する」)ことによって修正される。この意味で、本明細書では、スタイル画像のスタイルをコンテンツ画像に「適用する」こと、すなわち、コンテンツ画像またはその領域の「スタイル転送」または「スタイル化」について言及する。本明細書における「属性」への言及は、関係するデータセット内のピクセルの統計的特性に関するものである:これらは、ピクセルのRGB値またはピクセルの強度値など、ピクセルに関連する任意のパラメータに関係し、統計的特性は、例えば、RGB値の平均および共分散、または関係するピクセルについての他の関連するパラメータである。
【0052】
上述のように、スタイル転送のためのドメインマッチングに対する従来の手法は、コンテンツ画像を単一のスタイル画像と比較し、これら2つの間の類似性を判定することを含む。比較は、クラスごとに実行されなければならず、したがって、前述のように、ピクセルに対する適切な注釈に依拠する。エンティティクラスという用語(以下「クラス」という)は、コンテンツおよびスタイル画像内に描写されるエンティティの特定のジャンル、例えば、人、車、建物、植物、街路家具、オフィス家具を指す。類似性マッチングは、一度に単一のクラスに基づいて実行される場合にのみ有用であり得ることが明らかであることを読者は理解するであろう-木の画像に対する人の画像の類似性を試験する、または自動車およびバス停の画像のマッチングを試みることは意味がない。したがって、ドメインマッチングは、全てのクラスが考慮されるまで、第1のクラスのピクセルのマッチング、次いで、第2のクラスのピクセルのマッチング等を検討する。
【0053】
既知のシステムでは、類似性の決定は、2つの画像の対応する領域内のピクセルの注釈および属性が比較される簡単なプロセスであり、例えば同じ注釈および類似性を有する分析されるピクセルの割合が所定の閾値を超えるため、類似性が十分であるとみなされる場合、スタイルはコンテンツ画像に転送され、それによって新しいスタイル化されたコンテンツ画像を生成する。
【0054】
十分なマッチングがある場合、スタイル化が行われ、そうでない場合、スタイル転送は行われない。上述のように、このプロセスのバイナリの性質は満足のいくものではなく、コンテンツ画像と十分な類似性を有し得るランダムなスタイル画像に依存する。また、2つの画像がそのような異なるサイズであり、2つの画像内のピクセル数が全く異なる場合、それらの間に十分な類似性が存在する可能性は低い:そのようなアプローチは、コンテンツ画像とスタイル画像がほぼ同じサイズである場合に最もよく機能し、これは明らかに非常に限定的である。
【0055】
このアプローチの欠点は、多数のエンティティクラスが考慮される場合に悪化する:個々のクラスを見ると、特定のクラスのピクセルの不存在または欠如があり得るか、または1つまたは複数のスタイル画像においてより多くのサイズミスマッチがあり得、さらなるクラスが追加されるにつれて、そのような困難性が蓄積する。
【0056】
本開示の一態様によれば、上述の従来のものに対するより良いアプローチは、コンテンツ画像の比較が、単一のスタイル画像に対するものではなく、複数の候補スタイル画像に対するものである。この態様では、候補スタイル画像の各々についてコンテンツ画像との類似性が決定されるが、候補スタイル画像のうちの類似性が最も高いものの1つのみがスタイル転送に参加するように選択され、他の候補は使用されない。スタイル転送は、選択されたスタイル画像のスタイルをコンテンツ画像に適用することのみに基づく。従来のドメインマッチングと同様に、このアプローチはクラスごとに適用される。しかしながら、本明細書に開示されるアプローチは、各クラスに対して複数の候補スタイル画像を使用し、候補のうちの1つのみが、その特定のクラスに対するコンテンツ画像上へのスタイル転送のために選択される。各クラスについて、候補および結果として得られる選択の両方が異なり得る。
【0057】
図1は、本明細書における開示の一態様による装置の概略図を示す:入力手段(102)と、グラフィック処理ユニット(104)を有するプロセッサ(103)と、メモリ(105)と、出力ユニット、例えばディスプレイ(106)とを備えるコンピューティングデバイス(101)。読者は、メモリが大きな画像データセットを記憶するのに十分に大きくなければならず、これらをプロセッサに伝達し、プロセッサ自体がそのようなデータセットを修正するように構成されることを理解するであろう。プロセッサ(103)およびグラフィック処理ユニット(104)は、データセットを取得し、本明細書に記載のプロセスを実行するように構成される。
【0058】
ここに開示される発明の一態様では、上述の選択プロセスは、クラス(i:1,2,3,...M)に対する複数のN個のスタイル画像の各スタイル画像lSj(lSj:lS1,lS2,...lSN)に対する類似性パラメータλijの計算に基づく。任意のクラスiについて、コンテンツ画像lcとN個のスタイル画像の各々との間の類似性パラメータλijが計算される。計算されたλijの各値は、j番目のスタイル画像lSjとコンテンツ画像lcとの間の類似性を表す。異なるスタイル画像のうち、それらのうちの1つ、すなわちjの1つの値(このj値は勝利したj値「W」と称される)は、すべてのhjよりもコンテンツ画像に類似する。最も高い類似性(j=W)に対応する最も高い類似性パラメータλiwを有するスタイル画像lswが選択される。
【0059】
このスタイル画像l
Sjのスタイル(その属性)は、コンテンツ画像l
cに「適用」される、すなわち転送されたコンテンツ画像l
cと最も類似している。同じ方法論が次のクラスi+1に適用され、その結果l
Sj(クラスi+1について最も高い類似性パラメータを有するスタイル画像)が新しく選択される。本明細書に開示される方法論がどのように機能するかの説明が
図2に提供される。簡潔さを保つために、
図2は、単一のクラスi(この場合、例えば、i=2であり、クラス「植生」に対応するものとする)に対する全体的な方法論の一部のみを示すが、読者は、上記から、
図2に示される同じステップが、各関連クラス(「車両」、「人」など)に関して適用されることを理解するであろう。
【0060】
λijの異なる値は、好都合な場合、i行およびj列(またはその逆)から構成されるi×j行列内の異なる要素として照合することができ、各行(または列)内の適切なj値要素(「W」に対応する)の容易な選択を可能にすることが、読者には明らかであろう。
【0061】
図2は、スタイル化(スタイル転送)を受ける前の、201におけるコンテンツ画像l
cを示す:このコンテンツ画像は、仮想設定を表し、その中に仮想オブジェクトを有する合成データセットから生成される。参照番号202~204は、多くの例示的なスタイル画像lsを表し、その各々は、潜在的に、コンテンツ画像l
cへのスタイル転送のための候補スタイル画像である:図の過負荷を回避するために、
図2は、j=2、j=3およびj=4に対応する3つの例示的なスタイル画像l
S2、l
S3およびl
S4のみを示すが、上述のように、候補スタイル画像の数は任意の数Nであってもよい。
【0062】
各異なる候補スタイル画像l
sについて、コンテンツ画像l
cとの類似性は異なり、各候補について、類似性パラメータλ
2を計算することができる。
図2では、この例ではj:1,2,3...10である異なるj値の各々に対するλ
2jの計算結果が、候補スタイル画像l
S1,l
S2,l
S3...l
s10の各々について計算されており、205においてヒストグラムにセットされている。読者は、205におけるヒストグラムから、λ
2jがj=3において最大であり、異なるスタイル画像lsのうち、コンテンツ画像l
cとの最大の類似性がj=3において生じることを理解するであろう。したがって、候補スタイル画像l
s1、l
s2、...l
s10のうち、j=3であるスタイル画像、すなわちスタイル画像l
S3は、「勝利」候補(このj値を「W」と称する)であるが、これは、全ての候補のうち、コンテンツ画像l
cとの類似性が最も高いスタイル画像l
s3、すなわちこの例ではW=3であるからである。言い換えれば、上述したように、
図2はクラス「植生」に関するので、ヒストグラムは、クラス植生に関して、スタイル画像l
S3(j=3)がコンテンツ画像l
cに対して最大の類似性を有することを示す。したがって、このスタイル画像l
S3(およびこのスタイル画像のみ)は、コンテンツ画像l
cへの(クラス「植物」に関する)スタイル転送の基礎として選択され、スタイル化コンテンツ画像l
csをもたらす。候補スタイル画像のグループの中で最も適切なスタイル画像を識別し、特定のクラスに対するスタイル転送のためにこのスタイル画像を選択することによって、結果として得られるスタイル転送は、そのような選択を行わず、そのような最適化を欠く従来の方法よりも成功する可能性が高い。結果として得られるスタイル化されたコンテンツ画像l
csは、選択ステップのない従来のアプローチからの出力よりも大きなリアリズムを示す可能性が高い。
【0063】
読者は、2つの画像間の類似性の測定または決定が、2つの画像間の非類似性の測定または決定でもあることを理解するであろう。上述の選択は、j=W(クラスiに対するN個のスタイル画像のうちの)におけるスタイル画像が、当該コンテンツ画像と最大の類似性を有することを識別する。したがって、本明細書に開示される装置およびプロセスによれば、候補スタイル画像lSjとコンテンツ画像lcとの間の類似性が表される任意の類似性パラメータλijが想定され、そのような類似性に逆相関するパラメータを含む(以下で実証されるように)。
【0064】
上述の選択プロセスは、各クラスにおいてスタイル転送の同じ最適化が達成されることを確保するために、各クラスi(単にクラス「植生」ではない)に必要とされる。各i値について、スタイル画像が選択されなければならず(すなわち、jのW値)、結果として生じるスタイル転送が行われなければならない。本発明の一態様によれば、各i値において決定されたスタイル転送が累積される。したがって、転送のためのスタイル画像の選択が特定のクラスiに対して行われ、コンテンツ画像へのスタイル転送が(選択されたスタイル画像を使用して)行われた場合、得られたスタイル化コンテンツ画像lCSiは、次のクラスi+1のためのスタイル画像選択およびスタイル転送において使用される、すなわち、lcs1+1が生成され、以下、スタイル画像選択および結果として生じる各スタイル転送が全ての関連クラスi=1からMにわたって起こるまで同様である。読者は、最終的なスタイル化画像は、1からMまでのすべてのi-値にわたって集約された各i-値(各々は、そのi値に対する選択プロセスに基づく)に対するスタイル転送を有するスタイル化画像であることを理解するであろう。
【0065】
読者が理解するように、クラスの数Mは、M=1、すなわちただ1つのクラスがあることを含む、任意の値を有することができる。この特別なケースは、ピクセルがラベル/注釈を有さず、関連するエンティティを有さないシナリオである:次いで、ピクセルは、単一の「非標識」クラスiを形成する。
【0066】
前述のように、スタイル転送の下で起こるピクセル修正の決定は、とりわけ、対応するピクセル(領域コンテンツ-画像ペア)間の類似性に依存し、その結果、ペア内の類似性がより大きい場合、より多くのピクセルが適切に修正される。コンテンツ-画像ペアとの非類似性によるミスマッチ、例えばサイズ不一致によるミスマッチは、不適切な修正およびエラー、またはアーチファクトをコンテンツ画像に生じさせ、これは、(スタイル転送によって)スタイル化されると、コンテンツ画像におけるリアリズムを向上するのではなく、低下させる傾向がある。
【0067】
本明細書に開示される装置および方法の一態様によれば、コンテンツデータセットに対する類似性について、特に複数のスタイル画像データセットから選択されたスタイル画像データセットに基づいて判定を行うことによって、そのようなアーチファクトを低減することができる、すなわち、類似性を最適化するように画像データセットを選択することによって、より適切なスタイル転送が容易になる。
【0068】
本明細書に開示される装置および方法の実施形態によれば、異なる形態の類似性パラメータλ
ijが想定され、これは、コンテンツ画像およびスタイル画像の対応する領域の面積における類似性、または2つの画像の対応する領域における統計的特性(例えば、平均および共分散)における類似性など、類似性の異なる測定に依存する。本明細書に開示される本発明の装置および方法の実施形態では、面積類似性は、パラメータλ
ijの計算によって判定されてもよい。
【数1】
ここで、上記式において、C
iおよびS
ijは、それぞれl
cおよびl
sj上でiとしてラベル付けされたピクセルの数である。
【0069】
上記の行列λ
ijは、
図2に示した例では、異なるスタイル画像l
Sj(l
s1、l
s2、l
s3...l
s10)の各々とコンテンツ画像l
cとの間の面積類似性を計算するために使用されている。候補スタイル画像l
s1、l
s2、l
s3...l
s10に対応する異なるj値(
図2の例では、これらはj:1、2、3...10でありi=2「植生」)の各々について、行列λ
2jが計算され、前述のように
図2の205のヒストグラムにセットされ、その結果、j=3で最大値を有するλ
2jが得られ、スタイル転送のためにl
s3が選択される。
【0070】
コンテンツ画像とスタイル画像との間の類似性はまた、面積的類似性またはピクセル数以外の特徴に基づいてもよい。本明細書に開示される本発明の装置および方法の態様によれば、類似性の非領域測定も使用され得る。例えば、類似性、および実際にはパラメータλijは、エンティティの所与のクラスiに関するコンテンツ-スタイル画像に含まれるエンティティの数に基づいてもよい:すなわち、各画像内の人数、または各画像内の車両数などを比較し、例えば、コンテンツ画像内の24人の人物とスタイル画像内の23人の人物とが同等である場合、類似性が高く、24人の人物と3人の人物とを比較すると類似性が低いと考えられ得る。パラメータλijは、それに応じて計算することができる。非領域的類似性決定(およびパラメータλij決定)の別の例は、コンテンツ画像およびスタイル画像における色分布間の類似性に基づく(例えば、画像の照明:昼光における画像は、夜間に撮影された画像と比較して、互いにより類似している)。
【0071】
上述のように、本発明の装置およびプロセスの実施形態によれば、候補スタイル画像h
jとコンテンツ画像l
cとの間の類似性を反映する限り、そのような類似性に反比例するパラメータを含む、任意の類似性パラメータλ
ijが想定される。前記類似性との関係が逆である(すなわち、値が最小であるときに類似性が最大である)類似性パラメータの例は、以下によって与えられる:
【数2】
【0072】
上記の形式(すなわち、逆関係)の類似性パラメータλ
ijが使用された場合、
図2のヒストグラム205は、異なるように解釈され、使用される。この文脈において、読者は、最低値(最高値ではない)を選択したであろうことを理解するであろう。
【0073】
次に、コンテンツ画像との類似性が最大であるスタイル画像を選択することによって、コンテンツ画像へのスタイル転送を最適化することについて既に説明したステップをフローチャートとして示す
図3を参照する。読者は、これらのステップ(
図3)および
図2に関連して説明されたステップが、プロセッサ(103)およびそのGPU(104)によって実行されてもよく、コンテンツ-スタイル画像が、メモリ(105)から呼び出されるか、または手段(102)を使用して入力され、出力画像が、
図1に示されるように、出力手段(106)を使用してレンダリングされ得ることを理解するであろう
【0074】
ステップ301から開始して、単一のコンテンツ画像l
cが取得され、ステップ302で複数のN個のスタイル画像(l
Sj:l
S1,l
S2,...l
SN)と共に入力され、これらも入力される(ステップ303)。制御フロー304、305を介して、これらの入力は初期化ステップ306で使用される。
図3は、これらのステップが、グループ1,2,3...M内のM個のクラスのうちの第1のクラスであるクラスiについて行われることを示し、306におけるプロセスは、初期化されたスタイル化コンテンツ画像l
csを入力コンテンツ画像l
cとして初期設定し、i値は、1(1)に初期設定される。ステップ307において、コンテンツ画像hとN個のスタイル画像(l
Sj:l
S1,l
S2,...l
SN)の各々との類似性が算出されると、i-値について、対応するパラメータλ
ijが、上記の式または別のパラメータ式を用いて、各j値について計算される。ステップ308において、Wは、λ
ijの最大値を有するj値(そのiクラスにおけるN個のj値のうち)すなわちλ
iwとして識別される。ステップ308は、クラスiの選択ステップである:N個の計算されたλ
ij値のうちの最大値を有するj値は、(Wとして)識別される。ステップ309において、対応するスタイル画像l
SWがコンテンツ画像l
cに適用(スタイル転送)され、それによってクラスiのためのスタイル化コンテンツ画像l
csが生成される、すなわち、「i」とラベル付けされた領域のみがスタイル化される。ステップ310は、iをi+1にインクリメントし、ステップ311は、このインクリメントがi-値をMまで上昇させる(およびすべてのi-値が使い果たされている)かどうか、またはi+1が依然としてM未満であるかどうかを判定する:インクリメントされた値i+1がM未満である場合、「No」矢印は、制御をステップ307に戻し、ここで、λ
i+1jは、すべてのj値にわたって計算されて、i+1について最も類似したスタイル画像l
SWを識別し、次いでこれを使用して、以前にスタイル化されたl
csをスタイル化する;一方、312におけるように、i値がMに達した場合、さらなる反復は行われず、最終的なスタイル化コンテンツ画像l
CSMがステップ313で出力される。
【0075】
読者は、「No」ループによって表される各反復の効果が、任意の以前のスタイル化されたコンテンツ画像lcs(以前のi値を使用して導出される)を、新しい計算/選択ステップ308、309から生じるさらなるスタイル化でオーバーレイすることであることを理解するであろう。各クラスiに対するコンテンツ画像lSwの選択から生じるスタイル転送は、各スタイル転送が前のi-値の反復のスタイル化されたコンテンツ画像lcsに対して作用するという意味で累積的である。したがって、反復が、例えば4回行われる場合、第1のスタイル化から生じるスタイル化コンテンツ画像lcsは、さらに3回オーバーレイされる。以前のスタイル化コンテンツ画像lcs上のスタイル化におけるこのオーバーレイは、すべてのi値が使い果たされるまで、すなわちi=Mに達するまで、各反復で生じる。
【0076】
最終的なスタイル化コンテンツ画像lcsは、M回の反復の結果であり、各反復は異なるクラスiに基づく。これらの反復の各々において、スタイル化コンテンツ画像lcsの出力は、N個のスタイル画像からの1つのスタイル画像lsの選択に依存し、スタイル画像の選択は、N個のスタイル画像の各々について計算された対応するλij-値に依存し、λij-値は、コンテンツ画像lcに対するそのスタイル画像の類似性を反映する。前述のように、各クラスiについて、N個のスタイル画像lsから、コンテンツ画像と最も類似するスタイル画像lswだけを選択することによって、領域ピクセルペアのミスマッチの数は、そのようなスタイル選択を伴わない従来のドメインマッチングと比較して大幅に低減され、それに応じてスタイル転送の品質が高められる。それにもかかわらず、上述の繰り返しオーバーレイおよび以前のスタイル化の結果に作用するスタイル化の累積的性質から生じる困難があり、これは、コンテンツデータセットの全体が、M個のクラス(i=1~M)の各々に対して一度にM回、オートエンコーダを通過することを必要とする。前述のように、オートエンコーダは、コンテンツ画像を取り出し、それをその特徴ベクトルにダウンサンプリングし、特徴ベクトルに対して変換を実行し、次いで、特徴ベクトルをアップサンプリングして、修正されたコンテンツ画像を再生する。オートエンコーダにおいて行われるプロセスは不完全であり、オートエンコーダを通過するたびに、いくつかのアーチファクトが生成される。1回の通過では、これらのアーチファクトは目には見えないかもしれないが、上述のように、画像が複数回ネットワークに供給されると問題が生じる。この場合、アーチファクトが蓄積し、実際に、M回の反復の結果である最終的なスタイル化されたコンテンツ画像lcsにおいて完全に見えるようになる可能性がある。
【0077】
本明細書に開示される方法および装置の一実施形態では、そのような蓄積されたアーチファクトの影響は、コンテンツ画像およびスタイル画像へパッチワークアプローチを採用することによって軽減される。
【0078】
本質的に、パッチワークアプローチは、コンテンツ画像およびスタイル画像を複数のパッチ(これらは、必ずしも等しいサイズまたは等しいピクセル数ではない)に分割し、それによって、コンテンツパッチおよび対応する画像パッチを含むグループを形成し、次いで、以前の節で以前に説明されたものと同じ類似性判定および画像データセット選択プロセスをパッチペアのそれぞれに適用し、スタイル化(前出の節で説明したような)を、(コンテンツ-スタイル画像全体のレベルではなく)各パッチペアのレベルで行い、次いで最終的に、スタイル化コンテンツ画像パッチを再結合することを伴う。読者は、コンテンツ画像全体およびスタイル画像に関連して先に説明したスタイル転送アプローチが、代わりに、ローカライズされたパッチペアに適用されることを理解するであろう:両方のアプローチは、複数の候補スタイル画像からスタイル画像を選択し、各候補に対する関連する類似性パラメータを使用し、スタイル転送の基礎として「勝利」候補を使用するステップを含む。
【0079】
パッチワークアプローチの利点は、各パッチおよびそのスタイル化プロセスが、他の全てのパッチから独立していることである。各パッチにおけるスタイル転送は、そのパッチについて、対応するコンテンツパッチと対応するスタイルパッチの複数のスタイルデータセットの各々との類似性の決定、ならびに(複数からの)1つのそのようなスタイルパッチの結果として得られる選択に基づく。任意の1つのパッチのスタイル転送から生じるいかなるエラーも、他のパッチに渡されず、そのスタイル転送が第1のパッチから完全に独立して決定される。
【0080】
非パッチワークアプローチでは、前述のように、データセットは、オートエンコーダによって絶えずダウンおよびアップサンプリングされ、完全なデータセットの反復が繰り返されることで、画像内のどこで生じるかにかかわらず、各反復で生じるアーチファクトが搬送および蓄積する。対照的に、パッチワークアプローチでは、アーチファクトは、各パッチにおいて依然として可能性があるが、画像全体は、独立した部分に断片化され、したがって、アーチファクトは、異なるパッチにわたって蓄積せず、各パッチは、他のパッチにおけるアーチファクトに対して効果的に「免疫」がある。
【0081】
パッチワークアプローチのさらなる利点は、各パッチ内で生じるスタイル転送が、そのパッチに特異的に調整され得ることである、すなわち、異なるコンテンツ-スタイルペア間の類似性が、各パッチに対して異なり得るため、関連する類似性計算およびスタイル選択はいずれも各パッチに対しても異なり得る。コンテンツ画像のパッチをスタイル化することによって、コンテンツ画像全体をスタイル化するよりもむしろ、各パッチのスタイル化は、画像全体のスタイル化の比較的無差別な「包括的アプローチ」を使用して可能である場合よりも、より高いリアリズムを達成する。
【0082】
本発明の方法および装置の一態様では、i(i:1,2,...M)個のエンティティクラスを含むコンテンツ画像lcは、エリアごとに、それぞれMk個のエンティティクラスを含む複数のk個のコンテンツパッチ(PCk:Pc1,Pc2,...Pcz)に分割される。複数のスタイル画像(lsj:ls1,ls2,...lsN)は、それぞれ面積によって複数のk個のスタイルパッチ(PSjk:PSj1,PSj2,...PSjz)に分割される。k値は1から最大値Zまで変化し、Zパッチはそれぞれコンテンツ画像全体およびスタイル画像全体を表す。したがって、kの各値について、各クラスiにおいて、コンテンツパッチPCkおよび複数のN個のスタイルパッチPSjkを含むグループが存在する。このアプローチは、各パッチグループのレベルにおいて、パラメータ(各j個のスタイルパッチとコンテンツパッチとの間の類似性を表す)の計算と、最も高い類似性を示すパラメータに基づいて、対応するスタイルパッチの選択とを想定し、これは、先のアプローチと同じであるが、ここでは、以下で述べるように、パッチレベルである。
【0083】
各コンテンツパッチ(PCk:Pc1,Pc2,...Pcz)について、以下のステップが行われる:
(a)エンティティクラスiについて、当該コンテンツパッチPCkと複数のスタイルパッチ(PSjk:PS1k,PS2k,...PSNk)の各スタイルパッチPSjkとの間の類似性を表すパラメータλijkが計算される;
(b)最も高い類似性パラメータを有するスタイルパッチPSwkが複数のスタイルパッチ(PSjk:PS1k、PS2k、...PSNk)から選択される;
(c)スタイル化コンテンツパッチPCSikが、選択されたスタイルパッチPSwkをコンテンツパッチPCkに適用することによって生成される;
(d)iがi+1までインクリメントされ、次いで、先行するクラスiについて生成されたスタイル化コンテンツパッチPCSikを使用して、ステップ(a)~(c)が繰り返され、それによって、さらなるスタイル化コンテンツパッチPCSi+1kを生成し、これは、インクリメントによってi値がi=Mkに上昇するまで継続され、それによって、最終的なスタイル化コンテンツパッチPCSMkを生成する。
【0084】
すべてのk値にわたってインクリメントし、最終的なスタイル化コンテンツパッチPCSMkを生成した後、これらの最終的なスタイル化パッチは、(1からZまですべてのk値にわたって)結合されたスタイル化コンテンツ画像lcsに再結合される。
【0085】
読者は、スタイル行列計算(パラメータλijkの導出)および選択(スタイル転送のための)が、以前の節で説明されるように、この実施形態では、パッチ単位で行われ、各コンテンツパッチPCkは、Mk個のiクラスにわたって個別に(スタイル化コンテンツパッチPCSMkに)スタイル化された後、全てのk個の最終的なスタイル化コンテンツパッチが、単一のスタイル化コンテンツ画像lcsに再結合されることを、上記から理解するであろう。言い換えれば、パッチワークアプローチのステップ(a)~(d)は、原則として、本開示の以前の節に記載される初期アプローチと同じであるが、これらのステップが、全てのパッチを再結合する前に、一度に1つのパッチ(コンテンツ-スタイル画像の)に適用されることを除く。
【0086】
以前のアプローチ(非パッチワーク)と同様に、パッチワークアプローチにおける類似性パラメータは、対応する形態をとり得る
【数3】
ここで、C
ikおよびS
ijkは、k番目のパッチにおいて対応するP
CkおよびP
Sjk上でiとしてラベル付けされたピクセルの数であり、λ
iWkの最高値は、最大類似性を示し、対応するスタイルパッチP
Swkは、スタイル転送のための選択されたスタイルパッチである。前と同様に、逆関係バージョンも使用され得る(最低値は最大類似性を示す)
【数4】
【0087】
このパッチワークアプローチでは、本発明の一態様に従って、パッチの数kは、1に減らすことができることも明らかであろう:上限Zが1に設定される場合、k値(k=1)および1つのパッチのみが存在し、その1つのパッチはコンテンツ-スタイル画像全体と一致する。この場合、パッチワークアプローチは、単一のパッチに適用され、実際には、最初に説明したアプローチと同じである。
【0088】
上述のように、k個の異なるパッチは、必ずしも同じサイズではなく、全く異なる数のピクセルを含み得る:(特定のk値を有する)あるパッチグループ内のパッチは、(異なるk値を有する)別のパッチグループよりもかなり大きくても小さくてもよい。パッチワークアプローチは、関連画像にわたるパッチの最適な分布または分割を保証することにおいてかなりの柔軟性を可能にし、最大のリアリズムを達成し、例えば、高度に多様な画像または「繁忙」画像の両方、ならびに比較的均質な画像に適応するであろう。本発明の装置およびプロセスの例示的な態様では、異なるパッチグループは、単一のエンティティクラスを含むように設定することができる、すなわち、それらはそれぞれ、必ずしも同じエンティティクラスではないが、ただ1つのi値に関連する。1つのパッチグループは、例えば、全てのピクセルがクラスi=2にある画像を含むことができ、別のパッチグループは、クラスi=3のピクセルのみが存在する画像を含む。これにより、処理時間を節約し、さらにアーチファクトを低減することができる。
【0089】
非パッチワーク変形に関して既に言及したように、クラスの数Mは、パッチワーク変形においても、M=1、すなわちただ1つの単一クラスを含む任意の値を有することができる。この場合も、この特別なケースとして、少なくとも1つのパッチ内のピクセルがラベル/注釈を有さず、関連するエンティティを有さないシナリオがある:ピクセルは、単一の「非ラベル化」クラスiを形成する。
【0090】
図4は、スタイル転送にパッチワークアプローチを使用する場合の効果を示す。画像401は、パッチを使用せずに(すなわち、スタイル転送が適用された後に)スタイル化されたコンテンツ画像を示す。画像402は、パッチアプローチを使用して生成された同じコンテンツ画像を示す。画像(401)がいくつかのレインボーアーチファクトを含むのに対し、画像(402)はシャープで正確なレンダリングを示し、観察者にとってはるかに良好なフォトリアリスティックな体験を提供することが読者には直ちに明らかであろう。(401)におけるモノクロ画像のカラーバージョンでは、レインボーアーチファクトがはっきりと見える。前に説明したように、パッチワークアプローチは、オートエンコーダのダウンサンプリングとアップサンプリングとの間で画像全体が繰り返し反復されるときに生じる累積エラーから生じるアーチファクトの数を低減し、各パッチは、他のパッチにおいて生成されるアーチファクトに対して「免疫」を有する。
【0091】
ここで
図5を参照する。これは、本発明の装置および方法の実施形態によるパッチワークアプローチに関与するステップをフローチャートとして示す。
【0092】
ステップ501から開始して、単一のコンテンツ画像lcが取得され、ステップ502において、ステップ503において入力される複数のN個のスタイル画像(lSj:ls1,ls2,...lSN)とともに入力される。コンテンツ画像lcはステップ502Aでk個のコンテンツパッチPckに分割され、j個のスタイル画像lSjはステップ503Aでk個のスタイルパッチPSjk(コンテンツパッチPcikに対応する)にそれぞれ分割される。ステップ504でk値を1に初期化した後、後続のステップ505~510が、k=Zまでの各後続のk値について繰り返される。各k値は(全Zパッチとは)異なるパッチであるので、読者は、ステップ505~510が、コンテンツパッチPCkおよびj個のスタイルパッチPSjkを含む各パッチグループに対して行われることを理解するであろう。これらのステップのうちの第1のステップは、ステップ505において、別の初期化ステップであり、この場合、i値は最初に1に設定され、スタイル化コンテンツパッチPCSikはPCk(コンテンツ画像lcの分割後の元のk番目のコンテンツパッチ)に初期設定される。このi値(すなわち所与のクラスに対する)を使用して、コンテンツパッチPCkとj個のスタイルパッチPSjkの各々との間の類似性を表す類似性パラメータλijkのj個の値がステップ506で計算される。依然として同じk値において、コンテンツパッチPCkに対して最大の類似性(通常、これはパラメータλijkの最高値であるが、本明細書に記載されるように、どの形態の(非)類似性が使用されるかに依存する)を有するスタイルパッチPSwk(j=W)が、ステップ507において選択され、コンテンツパッチをスタイル化し、それによって、508において、その特定のパッチにおけるその特定のi-値のためのスタイル化コンテンツパッチPCSikを生成する。ステップ509において、i-値はi+1にインクリメントされ、スタイル化コンテンツパッチPCSik(前の(インクリメントされていない)i-値に対して生成された)から開始して、ステップ506~509において定義されたプロセスがi+1に対して繰り返され、その結果、λi+1jk計算およびj値(W)の対応する選択によってさらなるスタイル転送が識別され、これにより、その特定のパッチに対してさらにスタイル化されたコンテンツパッチPCSi+1kが生成される。これらの反復は、全てのクラスが使い果たされ(ステップ510)、i-値がMkに到達し、最終的なスタイル化がパッチグループkの最終的なスタイル化コンテンツパッチPCSMkを生成するまで継続し、これはi=1からi=Mkまでの累積スタイル化の結果である。最終的なスタイル化されたコンテンツパッチPCSMkが得られると、すなわちiの値がi=Mkに達すると、kがインクリメントされる(ステップ511)、すなわち次のパッチが考慮される。各連続パッチグループ(特定のk値を有する)について、同じプロセスが行われ、k個のパッチのそれぞれにおいて独立した最終的なスタイル化されたコンテンツパッチPCSMkを生成し、各スタイル化は各パッチについて最適化される。ステップ513において、個々のスタイル化コンテンツパッチPCSMkを有する全てのパッチ(すなわち、全てのk値)が結合され、それによってZ個のパッチは、新しい合成コンテンツ画像lcsを形成し、これは、事実上、個々のスタイル化コンテンツPCSMkのパッチワークであり、ステップ514において出力される
【0093】
図5の上記説明から、各パッチグループにおいて生じる計算-選択プロセスは、他のグループにおける同じプロセスから独立していることが容易に理解されるであろう:各パッチグループにおいて、「勝利」j値、すなわちj=Wは、同じi値(それ自体が異なるパッチ内の異なるクラスを表し得る)であっても異なる場合があり、M
kは、異なるパッチに対して異なり得る。明らかに、あるパッチにおける最適化は、隣接するパッチにおける最適化とは異なり得る。
【0094】
読者はまた、上記の議論から、1つのパッチPCSikがネットワークをMk回通過することも理解するであろう。各パッチは(分割前の)元の画像のサブセットであるので、各パッチ上に存在するエンティティクラスの数、すなわちMkエンティティクラスは、元の画像上のエンティティクラス全体の数以下である。各パッチが単一のラベルを有する領域である最良の場合のシナリオでは、kごとにMk=1であり、したがって、各パッチは一度だけネットワークに供給される必要があり、アーチファクトは蓄積されない。パッチがネットワークにMk=M回(Mkエンティティクラスがあるとき)渡される最悪の場合のシナリオにおいてのみ、アーチファクト蓄積は高いままであるが、これはパッチの大部分には当てはまらない。シナリオは実際には完全にユーザの手に委ねられ、ユーザは常に最良のシナリオをアレンジすることができる。読者は、パッチワークアプローチの下では、ほとんどのパッチが、アーチファクトの蓄積の低減から利益を享受し、スタイル化コンテンツ画像lcsが大幅に改良されることを理解するであろう。
【0095】
本開示は、態様および実施形態のいくつかの例を参照するが、本発明の実施形態は、本明細書で明示的に参照されるものに限定されないことが容易に理解されるであろう:全ての態様および実施形態は、本明細書で明示的に参照されない場合を含む、任意の数の修正、変更、変形、または置換を含むように修正されてもよい。したがって、本発明の実施形態は、上述の説明によって限定されるものとして理解されるべきではなく、添付の特許請求の範囲によってのみ限定されるべきである。様々な実施例または実施形態のいくつかの特徴が、いくつかの実施例、実施形態または図面に現れ、他には現れない場合、これは簡潔さおよび明瞭さのためだけである:本明細書に開示された態様および実施形態の構成要素、特徴および構造は、適宜組み合わされてもよい。そのような組合せが、実施形態の特定の態様に関連して本明細書に例示または明示的に参照されていない場合であっても、これは、単に説明を簡潔にするためであり、そのような組合せが除外されるか、または生じ得ないことを意味すると理解されるべきではない:様々な態様および実施形態の異なる特徴は、適宜混合および組み合わせることができ、本開示は、本明細書で参照される特徴のすべての組合せおよび順列をカバーするものと解釈されるべきである。
【国際調査報告】