(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-25
(54)【発明の名称】可変画像処理装置及び方法
(51)【国際特許分類】
G06T 5/60 20240101AFI20240315BHJP
G06T 7/00 20170101ALI20240315BHJP
G06V 10/70 20220101ALI20240315BHJP
G06T 11/80 20060101ALI20240315BHJP
【FI】
G06T5/60
G06T7/00 350C
G06V10/70
G06T11/80 A
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023562224
(86)(22)【出願日】2022-03-01
(85)【翻訳文提出日】2023-12-04
(86)【国際出願番号】 IB2022051775
(87)【国際公開番号】W WO2022224049
(87)【国際公開日】2022-10-27
(32)【優先日】2021-04-19
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】523343651
【氏名又は名称】マインドテック グローバル リミテッド
【氏名又は名称原語表記】MINDTECH GLOBAL LIMITED
(74)【代理人】
【識別番号】100139723
【氏名又は名称】樋口 洋
(72)【発明者】
【氏名】マレック,アリ
(72)【発明者】
【氏名】マクギネス,ピーター
【テーマコード(参考)】
5B050
5B057
5L096
【Fターム(参考)】
5B050AA00
5B050BA06
5B050BA11
5B050BA12
5B050BA13
5B050CA01
5B050DA04
5B050EA09
5B050EA10
5B050EA19
5B050FA02
5B050FA05
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CE08
5B057CE16
5B057DA06
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC23
5B057DC36
5B057DC40
5L096AA02
5L096AA06
5L096DA01
5L096FA35
5L096HA11
5L096JA03
5L096KA04
(57)【要約】
スタイル画像ISijを、エンティティクラスi(i:1,2, ...M)を含む少なくとも1つのコンテンツ画像ICに適用するためのプロセスおよび装置であって、エンティティクラスi(i:1,2, ...M)をそれぞれ含む、複数であるj個のスタイル画像(ISj:IS1,IS2, ......ISN)の属性が、コンテンツ画像ICに転送され、上記プロセスは、少なくとも1つのコンテンツ画像ICiをダウンサンプリングして、コンテンツ特徴ベクトルFCiを導出するステップ、j個のスタイル画像ISjをダウンサンプリングして、j個のスタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)を導出するステップ、スタイル特徴ベクトル(FSij:FSi1,FSi2, ......FSiN)の属性をコンテンツ特徴ベクトルFCiに転送することによってコンテンツ特徴ベクトルFCiをスタイライズし、j個のスタイライズ済みコンテンツ特徴ベクトル(FCSij:FCSi1,FCSi2, ...,FCSiN)を導出するステップ、各スタイライズ済みコンテンツ特徴ベクトル(FCSij:FCSi1)の各々のブレンド係数(αij:αi1,αi2, ...,αiN)を組み合わせるステップ、を含む。
【特許請求の範囲】
【請求項1】
スタイル画像I
Sijを、エンティティクラスi(i:1,2, ...M)を含む少なくとも1つのコンテンツ画像I
Ciに適用するためのプロセスであって、前記エンティティクラスi(i:1,2, ...M)をそれぞれ含む、複数であるj個のスタイル画像(I
Sij:I
Si1,I
Si2, ......I
SiN)の属性が、前記コンテンツ画像I
Ciに転送され、前記プロセスは、各エンティティクラスi(i:1,2, ...M)について、
前記少なくとも1つのコンテンツ画像I
Ciをダウンサンプリングして、コンテンツ特徴ベクトルF
Ciを導出するステップ;
j個の前記スタイル画像I
Sijをダウンサンプリングして、j個のスタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)を導出するステップ;
前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ......F
SiN)の属性を前記コンテンツ特徴ベクトルF
Ciに転送することによって前記コンテンツ特徴ベクトルF
Ciをスタイライズし、j個のスタイライズ済みコンテンツ特徴ベクトル(F
CSij:F
CSi1,F
CSi2, ...,F
CSiN)を導出するステップ;
複数の可変ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)を入力するステップ;
前記コンテンツ特徴ベクトルF
Ciの係数α
i0を、各前記スタイライズ済みコンテンツ特徴ベクトル(F
CSij:F
CSi1,F
CSi2, ...,F
CSiN)の係数(α
ij:α
i1,α
i2, ...,α
iN)と組み合わせることによって、ブレンド済み特徴ベクトルF
i
*を導出するステップ;
前記ブレンド済み特徴ベクトルF
i
*をアップサンプリングすることによって、ブレンド済み・スタイライズ済みコンテンツ画像I
CSiを生成するステップ
を含み、
前記スタイライズするステップは、前記コンテンツ特徴ベクトルF
Ciを変換するステップを含み、該コンテンツ特徴ベクトルF
Ciは、前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の前記属性のサブセットを取得する
ことを特徴とする、プロセス。
【請求項2】
前記組み合わせるステップは、重み付け係数としてブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)を使用して、前記コンテンツ特徴ベクトルF
Ci及び前記スタイライズ済みコンテンツ特徴ベクトルF
CSijの加重平均を生成するステップを含むことを特徴とする、請求項1に記載のプロセス。
【請求項3】
前記組み合わせるステップは、以下の関係:
【数1】
に従って、前記コンテンツ特徴ベクトルF
Ciのブレンド係数α
i0を、前記スタイライズ済みコンテンツ特徴ベクトルF
CSijのブレンド係数α
ijの合計と組み合わせるステップを含むことを特徴とする、請求項1又は2に記載のプロセス。
【請求項4】
前記スタイライズするステップは、少なくとも彩色の変換を含むことを特徴とする、請求項1~3のいずれか一項に記載のプロセス。
【請求項5】
前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の前記属性は、前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の統計的特性であることを特徴とする、請求項4に記載のプロセス。
【請求項6】
前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の前記属性は、前記スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の平均及び共分散であることを特徴とする、請求項5に記載のプロセス。
【請求項7】
計算ステップをさらに含み、該ステップは、ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)の値の範囲について前記ブレンド済みコンテンツ画像I
CSiの品質パラメータQを計算するステップを含むことを特徴とする、請求項1~6のいずれか一項に記載のプロセス。
【請求項8】
最適化ステップをさらに含み、該ステップは、上記品質パラメータQの最高値に対応する上記ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)の値を選択するステップを含むことを特徴とする、請求項7に記載のプロセス。
【請求項9】
前記品質パラメータQは、フレシェ開始距離(Frechet Inception Distance:FID)の逆数であることを特徴とする、請求項7又は8に記載のプロセス。
【請求項10】
前記品質パラメータQは、パラメータIOU(Intersection over Union)であることを特徴とする、請求項7又は8に記載のプロセス。
【請求項11】
前記ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)の合計は1に等しいことを特徴とする、請求項1~10のいずれか一項に記載のプロセス。
【請求項12】
j=1であり、また複数のブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)を入力する前記ステップは、単一のブレンド係数α
i1を入力するステップを含み、前記組み合わせるステップは、以下の関係:
F
i
*=(1-α
i1)F
Ci+α
i1F
CSi1
に従って、上記コンテンツ特徴ベクトルF
Ciの割合α
i0=(1-α
i1)を、上記スタイライズ済みコンテンツ特徴ベクトルF
CSi1の割合と組み合わせるステップを含むことを特徴とする、請求項11に記載のプロセス。
【請求項13】
請求項1~12のいずれか一項に記載のステップを含む、コンピュータにより実装されるプロセス。
【請求項14】
請求項1~12のいずれか一項に記載のプロセスのステップを実行するように構成された、入力デバイス、メモリ、画像処理装置(graphic processing unit:GPU)、及び出力デバイスを備えることを特徴とする、計算システム。
【請求項15】
プログラムを計算システム上で実行する際に、請求項1~12のいずれか一項に記載のプロセスのステップを実行するために、コンピュータ可読媒体に記憶されたプログラムコード命令を含むことを特徴とする、コンピュータ・プログラム製品
【請求項16】
コンピュータによって実行されたときに、請求項1~12のいずれか一項に記載のステップを前記コンピュータに実装させる命令を含むことを特徴とする、コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、オブジェクト、人物、設定及び環境といった仮想エンティティを定義する1つ以上のデータセットに基づく、電子画像の生成、作成、修正、及び処理に関する。
【0002】
特に、本開示は、合成データセットによって表される仮想世界のリアルな画像及びフォトリアリスティックな画像の、多次元生成及び提供に関する。合成画像は、「スタイル」を定義する少なくとも1つの他の画像を参照し、スタイル転送又はスタイライズ(stylisation)と呼ばれる手法で、上記スタイルの指定された属性を採用することによって、修正できる。高度にリアルなイメージングを用いることにより、描画される仮想環境のユーザエクスペリエンスの向上が促進される。このような画像をリアルタイムで提供することにより、ユーザは仮想オブジェクト及び周囲環境と対話できるようになり、これによってビデオに類似した没入型のダイナミックな体験が提供される。
【0003】
本開示において言及される画像は、ゲーム、エンターテインメント、デザイン、建築、航空、プランニング、訓練、教育、医療、セキュリティ、防衛等を含む多数の用途に展開され得る。
【背景技術】
【0004】
画像のリアリティを向上させるために、合成データセットである場合もあるデータ(「コンテンツデータセット)によって提供される、仮想オブジェクト、場所、及び環境に関連するデータを、スタイルデータセット又はスタイルオーバレイを用いて修正できる。このような修正を実施しない場合、コンテンツデータのみによって提供される画像は、該画像内のオブジェクト又は環境に十分な又は適切なテクスチャ、彩色、明暗、又は正確な形状若しくは形態が欠如する可能性があり、それによって該画像が「フラット(flat)」で単純な、ユーザにとって説得力のないものとしてレンダリングされ、必然的にユーザエクスペリエンスが強く限定されるという意味で、「生(raw)」のものとみなされる可能性がある。
【0005】
コンテンツデータをスタイルデータで修正することにより、最終画像のリアリティを大幅に改善でき、ユーザエクスペリエンスを相当に向上させることができる。街路内のオブジェクト及び周囲環境の基本的で単純なジオメトリを描画した、一般化された街路シーンは、上述のように修正された場合、スタイルデータによって、それぞれリアルなテクスチャ、彩色、明暗、及び色調でレンダリングされた建造物、自動車、街路上の備品、及び歩行者によって完成されるフォトリアリスティックな街路シーンへと変換できる。更に、1つのコンテンツデータに対して異なるスタイルを適用することにより、修正された街路シーン内で異なる環境が描写されることになる。例えば、一般化された街路シーンを描画した1つのコンテンツデータにインド風の画像又はドイツ風の画像を適用でき、スタイライズ済みのコンテンツデータは、インドの街路又はドイツの街路の画像をレンダリングするものとなる。
【0006】
コンテンツデータに対するスタイルデータの適用、即ち「スタイル転送」又は「スタイライズ」は、従来のプロセスに基づくものであり、これは(それだけではないが)典型的には、アノテーション済みコンテンツ画像及びアノテーション済みスタイル画像に対して動作する「オートエンコーダ(autoencoder)」を備えるニューラルネットワークアーキテクチャを使用し、即ち各画像内のピクセルに、特にそれらの表示内容によってアノテーション又はラベリングが実施される。街路シーンの例では、ピクセルは、自動車のピクセル、歩行者のピクセル等としてラベリングされ得る。オートエンコーダは、以下の2つの主要な部分:コンテンツ画像及びスタイル画像の両方において所与の出力をダウンサンプリングすることにより、それぞれについてコンパクトな「特徴ベクトル」を生成する、「エンコーダ」と;オリジナルの入力画像の上記コンパクトな特徴ベクトルをアップサンプリングする「デコーダ」とを有する。上記コンパクトな特徴ベクトルは、ソース画像からの「圧縮(compacted)」データを含むため、多少の損失は被るものの、ソースからのオリジナルのピクセルデータの大部分を「保存(preserve)」する。
【0007】
読者は、従来のスタイル転送の概要を説明した、背景となる刊行物である非特許文献1を参照すること。
【0008】
2つのコンパクトな特徴ベクトル、即ちコンテンツ特徴ベクトルと画像特徴ベクトルとが生成されると、以下で説明されるように、それらの個別の属性が分析される:コンテンツ特徴ベクトルに対して、スタイル特徴ベクトルを用いて1つ以上の変換が実施され、これにより、スタイルベクトルの統計的プロパティがコンテンツ特徴ベクトルに「転送(transfer)」される。この転送は、2つのベクトル間の「スタイル転送」:スタイル特徴ベクトルの成分で置き換えることによる、コンテンツ特徴ベクトルの成分の修正である。このようにして修正されたコンテンツ特徴ベクトルは、スタイライズ済みコンテンツ特徴ベクトルとなる。続いて典型的には、スタイライズ済みコンテンツ特徴ベクトルがアップサンプリングを受けるという意味で、上記ダウンサンプリングが逆に実行され、これによって、スタイライズ済みコンテンツ画像である新たな画像が生成される。
【0009】
従来の構成では、上で参照した1つ以上の変換は典型的には、コンテンツ画像内のあらゆる色関連情報を除去する役割を果たす「白色化」変換と、既に白色化されたコンテンツ画像を、スタイル画像の属性の一部を与えることによって変換する役割を果たす「彩色」変換とで構成される。スタイル画像のベクトルからコンテンツ画像のベクトルへと属性を効果的に「転送」するのは、後者の変換である彩色であり、これはスタイル転送又はスタイライズと呼ばれる。これらの変換の結果、特徴ベクトルは「ドメインマッチング(domain matching)」を受ける:コンテンツ画像内の領域は、スタイル画像と同一のアノテーション(又はラベル)を伴う領域とペアとなり、続いて各領域のコンテンツ‐スタイルペアが、面積類似性について、即ち同等の面積を有すること、又は実際には同等の数のピクセルを有することについて、分析される。ある領域のペアが面積類似性条件を満たす場合、プロセッサはスタイル画像内の該領域のスタイルを、コンテンツ画像内の対応する領域に転送する。しかしながら、従来のシステムでは、類似性試験は各領域において二値的な結果を有する:つまり、スタイルが該領域において転送されるか、又は転送が起こらず、コンテンツ画像内の領域が変化しないかのいずれかである。
【0010】
しかしながら、ダウンサンプリング及びアップサンプリングは不完全であり、オートエンコーダの通過の度にエラー(「アーティファクト」)が生じる。このエラーの生成は、上述のベクトル変換(白色化変換及び彩色変換)によって更に悪化する。上記変換もまたそれぞれ不完全であり、変換が行われる度に更なるアーティファクトが導入される。
【0011】
従来のシステムについて、上述のようなドメインマッチングに関連して更なる問題が存在する。第一に、ドメインマッチングはスタイル画像内の広範なアノテーションに依存するものであり、即ち全てのピクセルがラベリングされること、そして第二に、対応する複数の領域をアノテーションに基づいて設定できる場合に、上記領域が同等の面積を有し、類似性テストに合格することである。ラベルが欠落している場合、又は領域のペアが面積類似性テストに合格しない場合、スタイル転送は該領域に対して行われない。これらの理由から、スタイル転送はコンテンツ画像の限られた部分でのみ行われる可能性があり、これはコンテンツ画像全体にわたるスタイル転送の実施の不均一さ、実質的には部分的なスタイル転送につながり、これは明らかに不十分なものである。
【0012】
更に、ドメインマッチングは以下で説明されるように、あるエンティティクラスについて、別のエンティティクラスに比べて良好な結果となる場合がある。即ちドメインマッチングの性能又は効率、及び結果としてもたらされるスタイル転送は、異なる複数のエンティティクラス(異なる複数のラベル又はアノテーション)間で異なる場合がある。換言すれば、一部の領域のスタイル‐コンテンツペアは、アーティファクトが少ない「良好な(successful)」スタイル転送を生み、他の領域のスタイル‐コンテンツペアについては、結果として得られるスタイル転送は、アーティファクトの数が相対的に多いことにより、あまり良好なものではなくなる。スタイル転送の中心的な目的、即ちコンテンツ画像のリアリティの向上は、リアリティを明らかに低下させる過剰なアーティファクトがスタイライズ済み画像内に存在することによって損なわれる。
【0013】
従ってスタイル転送を改善し、上述のようなサンプリング及び変換プロセスで生じるアーティファクトを削減する必要がある。特に、スタイル転送の最適化のために、スタイル転送の異なる複数の成分を削減又は増強するユーザ定義パラメータを提供することにより、スタイル転送が行われる程度を変更する必要がある。
【先行技術文献】
【非特許文献】
【0014】
【非特許文献1】“A Closed‐form Solution to Photorealistic Image Stylization” by Yijun Li and others, University of California, 27 July 2018
【発明の概要】
【発明が解決しようとする課題】
【0015】
読者には、上述の欠点を克服する方法及びそれに対応する構成が必要であることが理解されるだろう。これらの欠点に対処して性能向上の利点を提供する本開示の装置及び方法の様々な態様を、本明細書中で説明する。
【0016】
本開示から明らかとなるように(以下を参照)、本発明の目的は、スタイル転送技法を強化することによって、リアリティが向上したコンテンツ画像を生成するための、方法及び構成を提供することである。
【0017】
単一の無差別なスタイル転送をコンテンツデータセット内のピクセルに適用して望ましくないアーティファクトの拡散をもたらす従来のシステムのこのような欠点に直面して、ドメインマッチング時に生じるアーティファクトの数を削減するために、より弁別性が高くより柔軟なアプローチを考案する必要がある。本発明の目的は、類似性テストに合格するコンテンツ‐スタイル領域ペアの割合を増加させることを容易にする、ドメインマッチングの方法及び構成を提供することである。本明細書で開示される方法及びプロセスの別の目的は、単一のスタイル画像ではなく複数のスタイル画像を、所定の組み合わせで、効果的な全体のスタイル転送に寄与させることができるような、スタイル転送を提供することである。本明細書で開示される方法及びプロセスの更なる目的は、コンテンツデータとスタイルデータとの間のドメインマッチングから得られるコンテンツ‐スタイル領域の数を最適化すること、及びコンテンツ画像に対するスタイル転送の改善である。
【0018】
本発明の更なる目的及び利点は、本明細書で開示される装置及び方法の動作及び作用を検討することで、明らかになるだろう。
【課題を解決するための手段】
【0019】
本開示は、スタイル転送のためのドメインマッチング技法を強化し、スタイライズ済み画像内のアーティファクトの数を削減するための、新規の独創的な装置及び方法に関する。スタイル転送の更なる詳細は、以下の文中で説明される。
【0020】
本発明のある実施形態によると、マルチスタイルドメインマッチングの方法及び構成が本明細書で開示され、ここでは、1つの所与のコンテンツ画像に対して複数のスタイル画像が提供される。
【0021】
本発明のある実施形態によると、スタイル転送の方法及び構成が開示され、ここでは、1つのコンテンツ画像と、複数のスタイル画像のうちの1つ以上のスタイル画像との間の相互作用が提供され、「全体の(overall)」スタイル転送(コンテンツ画像によって採用される全ての属性)は、1つのコンテンツ画像と各上記スタイル画像とを含む各ペアに関連するスタイル転送の組み合わせである。結果として得られるスタイライズ済みコンテンツ画像は、複数の個別のスタイル転送の、オペレータが決定した組み合わせでの集合体であり、集合的スタイル転送は、複数の個別のスタイル転送の組み合わせである。
【0022】
本発明のある態様によると、本明細書で開示される方法及び構成により、コンテンツ画像上の意味的にラベリングされた領域ごとに、スタイルデータセット内に複数のスタイル画像が存在する。
【0023】
上記方法及び構成のある実施形態では、所定の割合の、異なる複数のスタイライズ済みコンテンツ画像の、様々な順列及び組み合わせが取得され、上記割合の上記異なる複数のスタイライズ済みコンテンツ画像は所定の方法で集約され、これによって複合(ブレンド済み)スタイライズ済みコンテンツ画像が得られる。構成要素である各スタイライズ済みコンテンツ画像自体は、関連するiクラス、及び関連する複数の候補スタイル画像に依存しており、適用される集約は、これらのうちの一方又は両方を増加又は減少させることにより、結果として得られる複合(ブレンド済み)スタイライズ済みコンテンツ画像を最適化できる。本発明のある実施形態では、異なる複数のスタイライズ済みコンテンツ画像の割合を、ユーザの要求に従って微調整できる。
【0024】
本発明の多数の態様、実装形態、目的、及び利点は、本明細書中の「発明を実施するための形態」を図面と共に考察することによって明らかになるだろう。上記図面では、全体を通して、類似の参照記号は類似の部分を指す。
【図面の簡単な説明】
【0025】
【
図1】
図1は、本発明による構成のある例示的な態様を示す。
【
図2】
図2は、従来のシステムによるスタイル転送を示す。
【
図3】
図3は、本発明による方法及び構成のある例示的な態様を示す。
【
図4】
図4は、本発明による方法及び構成のある例示的な態様と、全体的なスタイル転送に関するその結果とを示す。
【
図5】
図5は、本明細書で開示される様々な例示的態様及び実装形態による、ブレンド係数αに対する一般的な画像品質パラメータの変化を示す。画像品質パラメータ
【発明を実施するための形態】
【0026】
本発明の実施例及び実施形態を詳細に参照する。上記実施例及び実施形態のうちの1つ以上は図面に図示されており、これらの実施例及び実施形態は、本発明を限定するものではなく本発明の説明として提供される。本発明において、特許請求の範囲で定義される本発明の範囲から逸脱することなく、様々な修正及び変形を実施できることは明らかであろう。ある実施形態の一部として図示又は説明される特徴を別の実施形態と共に用いることによって更なる実施形態を得ることができることは、明らかである。本発明は、上述のような修正及び変形を、添付されている特許請求の範囲及びその均等物の範囲内にあるものとして包含することが意図されている。
【0027】
本発明の様々な実施形態、態様、及び実装形態、並びに技術的目的及び利点は、本明細書の説明を図面と組み合わせて考察すれば、当業者には明らかであろう。文脈による特段の指示がない限り、用語「第1の(first)」、「第2の(second)」、「第3の(third)」、「最後の(last)」等は本明細書において、ある構成要素を別の構成要素から区別するためだけに使用され、特定されている構成要素の位置、場所、配置、又は重要度を定義又は限定することは意図されていない。単数形「ある(a、an)」及び「上記(the)」は、文脈に基づいて明らかにそうでない場合を除いて、複数の指示対象を含む。
【0028】
本開示のある例示的な態様は、スタイル画像ISijを、エンティティクラスi(i:1,2, ...M)を含む少なくとも1つのコンテンツ画像ICiに適用するためのプロセスを対象とし、このプロセスでは、エンティティクラスi(i:1,2, ...M)をそれぞれ含む、複数であるj個のスタイル画像(ISij:ISi1,ISi2, ......ISiN)の属性が、上記コンテンツ画像ICiに転送され、上記プロセスは、各エンティティクラスi(i:1,2, ...M)について:上記少なくとも1つのコンテンツ画像ICiをダウンサンプリングして、コンテンツ特徴ベクトルFCiを導出するステップ;j個の上記スタイル画像ISijをダウンサンプリングして、j個のスタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)を導出するステップ;上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ......FSiN)の属性を上記コンテンツ特徴ベクトルFCiに転送することによって上記コンテンツ特徴ベクトルFCiをスタイライズし、j個のスタイライズ済みコンテンツ特徴ベクトル(FCSij:FCSi1,FCSi2, ...,FCSiN)を導出するステップ;複数の可変ブレンド係数(αij:αi0,αi1,αi2, ...,αiN)を入力するステップ;上記コンテンツ特徴ベクトルFCiの係数αi0を、各上記スタイライズ済みコンテンツ特徴ベクトル(FCSij:FCSi1,FCSi2, ...,FCSiN)の係数(αij:αi1,αi2, ...,αiN)と組み合わせることによって、ブレンド済み特徴ベクトルFi
*を導出するステップ;上記ブレンド済み特徴ベクトルFi
*をアップサンプリングすることによって、ブレンド済み・スタイライズ済みコンテンツ画像ICSiを生成するステップを含む。
【0029】
本発明のある態様では、スタイライズする上記ステップは上記コンテンツ特徴ベクトルFCiを変換するステップを含み、ここで上記コンテンツ特徴ベクトルFCiは、上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の上記属性のサブセットを取得する。
【0030】
本発明の別の態様では、組み合わせる上記ステップは、重み付け係数としてブレンド係数(αij:αi0,αi1,αi2, ...,αiN)を使用して、上記コンテンツ特徴ベクトルFCi及び上記スタイライズ済みコンテンツ特徴ベクトルFCSijの加重平均を生成するステップを含む。
【0031】
本発明の更なる態様では、組み合わせる上記ステップは、以下の関係:
【数1】
に従って、上記コンテンツ特徴ベクトルF
Ciのブレンド係数α
i0を、上記スタイライズ済みコンテンツ特徴ベクトルF
CSijのブレンド係数α
ijの合計と組み合わせるステップを含む。
【0032】
本開示の更なる例示的態様によると、スタイライズする上記ステップは少なくとも、彩色の変換を含む。
【0033】
本発明の別の態様では、上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の上記属性は、上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の統計的特性である。
【0034】
本発明のある例示的な態様によると、上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の上記属性は、上記スタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の平均及び共分散である。
【0035】
本発明の更なる態様は計算ステップを含み、これは、ブレンド係数(αij:αi0,αi1,αi2, ...,αiN)の値の範囲について上記ブレンド済みコンテンツ画像ICSiの品質パラメータQを計算するステップを含む。
【0036】
本発明の更なる例示的態様は、最適化ステップを含むプロセスを対象とし、上記最適化ステップは、上記品質パラメータQの最高値に対応する上記ブレンド係数(αij:αi0,αi1,αi2, ...,αiN)の値を選択するステップを含む。
【0037】
本発明のある態様によると、上記品質パラメータQはフレシェ開始距離(Frechet Inception Distance:FID)の逆数である。
【0038】
本発明の別の態様によると、上記品質パラメータQは、パラメータIOU(Intersection over Union)である。
【0039】
本発明の別の態様によると、上記ブレンド係数(αij:αi0,αi1,αi2, ...,αiN)の合計は1に等しい。
【0040】
本開示の更なる例示的態様では、パラメータj=1であり、また複数のブレンド係数(αij:αi0,αi1,αi2, ...,αiN)を入力する上記ステップは、単一のブレンド係数αi1を入力するステップを含み、組み合わせる上記ステップは、以下の関係:
Fi
*=(1-αi1)FCi+αi1FCSi1
に従って、上記コンテンツ特徴ベクトルFCiの割合αi0=(1-αi1)を、上記スタイライズ済みコンテンツ特徴ベクトルFCSi1の割合と組み合わせるステップを含む。
【0041】
本発明のある態様では、本明細書で開示される上記プロセスは、コンピュータによって実装される。
【0042】
本発明のある態様は、本開示のプロセスのステップを実行するように構成された、入力デバイス、メモリ、画像処理装置(graphic processing unit:GPU)、及び出力デバイスを備える計算システムを対象とする。
【0043】
本発明の別の態様は、本明細書で開示されるプロセスを計算システム上で実行する際に上記プロセスのステップを実行するために、コンピュータ可読媒体に記憶されたプログラムコード命令を含む、コンピュータ・プログラム製品を対象とする。
【0044】
本発明の更なる態様は、命令を含むコンピュータ可読記憶媒体を対象とし、上記命令は、コンピュータによって実行されたときに、本明細書で開示されるプロセスのステップを上記コンピュータに実装させる。
【0045】
あるコンテンツ画像データセットの外観及び感触、特にリアリティを向上させるために上記コンテンツ画像データセットの属性に対して実施される変換操作を参照して、本明細書で開示される方法及び装置の実施形態において適用されるような「スタイル転送」の簡潔な説明を提供する。本開示の冒頭の一節で示されているように、「スタイル転送」又は「スタイライズ」は、スタイル画像データセットの特定の属性又は特徴を、このような変換によって、コンテンツ画像データセットへと「転送(transfer)」又は「適用」する(あるいはコンテンツ画像データセットに具備させる又は採用させる)、手法を指す。スタイル転送が実施されると、コンテンツ画像は「スタイライズされた」と表現され、スタイライズ済みコンテンツ画像となる。用語「スタイル転送」及び「スタイライズ」は、本明細書中で相互交換可能なものとして使用され、スタイル画像データセットの属性又は特徴の一部の、コンテンツ画像データによるいずれの転送、具備、採用、又は適用(これらもまた本明細書中で相互交換可能なものとして使用される)を含む、コンテンツ画像データセットの上述のようなあらゆる変換を指す。
【0046】
上述のように、スタイル転送を実施するために、オートエンコーダが使用されることが多い。ダウンサンプリング及びアップサンプリングそれぞれのためのエンコーダ及びデコーダを備えるオートエンコーダは、上述のように、各データセットのアノテーションを分析して、コンテンツ画像上でこれらの強化をレンダリングするコンテンツデータセットのピクセルに対して実行される修正を決定する。従来のシステムでは上述のように、この決定はコンテンツ画像と単一のスタイル画像との比較によって導出され、更なるスタイル画像を全く参照しない。このようなシステムでは、上記比較はコンテンツ画像と単一のスタイル画像との面積類似性を検討するものであり、即ちそれぞれのピクセルの個数を計数することによるものである。類似性が十分に高い場合、コンテンツ画像はスタイル画像データを用いてスタイライズされ、そうでない場合にはスタイライズが行われない。即ち、二値的な結果となる。
【0047】
従来のシステムにおけるスタイル転送も、本開示の装置及び方法のある実施形態によるスタイル転送も、コンテンツピクセルの特定の属性又は特徴をスタイル画像の対応するピクセルの属性に対して変換(上述のような「置換」又は「転送」又は「具備」又は「採用」又は「適用」)することによってコンテンツ画像のピクセルを修正する、公知の技法からなる。この意味で、本明細書では、スタイル画像のスタイルをコンテンツ画像に「適用」すること、即ちコンテンツ画像又はその一領域の「スタイル転送」又は「スタイライズ」について言及する。本明細書における「属性」とは、関連するデータセット内のピクセルの統計的特性を指し、これらは、ピクセルのRGB値又はピクセルの強度値といった、ピクセルに関連するいずれのパラメータに関するものであり、上記統計的特性は例えば、関連するピクセルのRGB値又は他の関連パラメータの平均及び共分散である。
【0048】
上述のように、スタイル転送のためのドメインマッチングの従来のアプローチは、コンテンツ画像と単一のスタイル画像との間の類似性を決定するための、これら2つの比較を含む。上記比較はクラスごとに実施しなければならないため、上述のようにピクセルに対する適切なアノテーションに依存する。用語「エンティティクラス」、これ以降では「クラス」は、人物、自動車、建造物、植生、街路上の備品、オフィス家具といった、コンテンツ画像及びスタイル画像内で描写されるエンティティの特定のジャンルを指す。読者は、類似性のマッチングを明らかに有用なものとすることができるのは、一度に1つのクラスに基づいて実施された場合のみであり、樹木の画像に対して人物の画像の類似性を試験すること、又は自動車とバス停留所の画像のマッチングを試みることには意味がないことを理解するだろう。従ってドメインマッチングでは、全てのクラスが検討されるまで、第1のクラスのピクセルのマッチング、次に第2のクラスのピクセルのマッチング、というように検討される。
【0049】
既知のシステムでは、類似性の決定は、2つの画像の対応する領域のピクセルのアノテーション及び属性を比較する単純なプロセスであり、例えば分析されたピクセルのうち同一のアノテーション及び類似性を有するものの割合が所定の閾値を超えていることによって、類似性が十分であるとみなされる場合に、スタイルがコンテンツ画像に転送されることにより、新たなスタイライズ済みコンテンツ画像が生成される。
【0050】
マッチングが十分である場合にはスタイライズが行われるが、そうでない場合にはスタイル転送は行われない。上述のように、このプロセスの二値的な性質は満足できるものではなく、これが行われるかどうかは、コンテンツ画像と十分な類似性を有する可能性があるランダムなスタイル画像に依存する。また、2つの画像が異なるサイズを有し、従ってこれら2つの画像内のピクセルの数が大きく異なる場合、これらの間に十分な類似性がある可能性は低く、上述のようなアプローチは、コンテンツ画像とスタイル画像とが概ね同一のサイズである場合に最も良好に機能する。これは明らかに相当な制約である。
【0051】
このアプローチの上記欠点は、多数のエンティティクラスを検討する場合に更に悪化する。個々のクラスを見る際に、ある特定のクラスのピクセルの不在若しくは欠如が発生する場合があり、又は1つ以上のスタイル画像に比較的大きなサイズのミスマッチが発生する場合があり、更にクラスを追加するとこのような問題が累積される。
【0052】
本明細書の開示のある態様によると、上述の従来のアプローチに対する代替的なアプローチは、1つのコンテンツ画像の参照が、単一のスタイル画像ではなく複数のj個の候補スタイル画像(jは1からNiまで変化する)に対するものであるアプローチであり、この複数は、各クラスに対して、即ち各i値(i=1~M)に対して生じる。この態様では、コンテンツ画像に「転送」(又は「採用」、「取得」等)される属性のサブセットが、上記j個の候補スタイル画像それぞれについて決定され、従ってスタイル転送が上記j個のスタイル画像それぞれについて決定される。各比較について、即ちコンテンツ画像とスタイル画像との各ペアについて、異なるスタイル転送が発生することになる。j個のスタイル画像が存在するため、この決定によってj個の個別のスタイル転送が結果として得られると考えることができる。
【0053】
このアプローチはクラスごとに適用され、各クラスiに対して複数の候補画像が使用され、異なる複数の個別のスタイル転送が各コンテンツ‐スタイルペア(各i‐jペア)となる。上記個別のスタイル転送は異なる複数のペアにわたって集約され、これにより、全体としての又は最終的なスタイル転送は、各ペアについて生じた個別のスタイル転送の累積(又は複合)となる。読者は、最終的なスタイライズ済みコンテンツ画像が、各クラスiに生じた異なる複数のスタイル転送を累積的に適用した結果であり、各i‐jペアの「成分(component)」が全体としての(集合的)スタイル転送に寄与することを理解するだろう。換言すれば、最後的な全体としてのスタイル転送は、多数の構成成分、即ち各iクラス及び対応するj値において生じた個別のスタイル転送の寄与の合計である。
【0054】
なお、各iクラスについて、スタイル画像の総数Ni、各スタイル画像自体のアイデンティティ、及び結果として得られるスタイル転送は、全て大きく異なっている場合がある。従って、(異なるi及びj値から生じた)集合的スタイル転送の構成成分は、等しくならない可能性がある:各iクラスで生じるスタイル転送、及びそれに関連するアーティファクト、即ちある特定のi値に関するスタイル転送の「性能(performance)」、並びに集合的/複合スタイル転送に対するその寄与(及び最終的な集合的イライズ済みコンテンツ画像のリアリティに対するその寄与)は、大きく異なっている。
【0055】
個々の成分の様々な性質、及び集合的スタイル転送に対するそれらの不均一な寄与を利用するために、異なる複数の成分を、上述の集約時に異なる方法で処理できる。一部の成分を多く、他の一部の成分を少なくすることによって、ある特定のi値又はj値からの寄与をそれぞれ増大又は減少させることができる。個々の成分を選択的に拡大又は縮小すると、これらの成分の個々の寄与が変化し、従って集合的スタイル転送も変化する。一部の成分を比較的大量に通過させ、他の一部の成分の寄与を抑制することにより、完成するコンテンツ画像の品質を修正できる。高性能の成分を通過させるか又は強調し、低性能の成分を相対的に減衰させるか又は抑制すると、最終的なスタイライズ済み画像の品質又はリアリティを大幅に向上させることができる。読者は、異なる複数の成分の特定の組み合わせにより、高品質のリアルなスタイライズ済みコンテンツ画像が提供され、異なる複数の成分の特定の「ブレンド(blend)」が、同じ成分の他のブレンドに比べて大幅に良好なスタイライズをもたらすことを理解するだろう。
【0056】
本明細書で開示されるプロセス及び構成のある態様によると、集合的スタイル転送の異なる複数の構成成分を不均一に組み合わせる、又はブレンドすることによって、改善された集合的スタイル転送、及び最適なスタイライズ済みコンテンツ画像を得ることができる。
【0057】
上述のように、スタイル転送は、コンテンツ画像の特定の属性の、スタイル画像からの特定の属性と置換することによる変換と考えることができる。これは従来、関連する画像のダウンサンプリングとアップサンプリングとの間に行われ、即ちスタイル転送は上述のように特徴ベクトルのレベルで行われ、スタイル特徴ベクトルからの関連する属性を用いて、関連する変換がコンテンツ特徴ベクトルに適用され、次にスタイライズ済みコンテンツ特徴ベクトルがアップサンプリングされて、スタイライズ済みコンテンツ画像が生成される。所与のi値についてj個のスタイル画像それぞれから生じる(即ちそれぞれがコンテンツ特徴ベクトルに適用される)個別のスタイライズは、実際にはベクトル空間で行われる。全体としての/集合的スタイル転送を得るための複数のスタイル転送の組み合わせもまたベクトル空間で行われ、その後、スタイライズ済みコンテンツ特徴ベクトルからのアップサンプリングによって、最終的な集合的スタイライズ済みコンテンツ画像が得られる。前節に記載したようなスタイル転送のいずれの組み合わせ又は集約もまた、ベクトル空間で行われる:読者は、個別のスタイライズの不均一な組み合わせ、又はブレンドが、関連する特徴ベクトルに関しても行われることを理解するだろう。換言すれば、異なる複数の(j値が異なる)スタイライズ済みコンテンツ特徴ベクトルを異なる割合で集約できる。
【0058】
本発明のある態様によると、本発明は、異なるi値及びj値で生じた複数の個別のスタイライズ済みコンテンツ特徴ベクトルを含む特徴ベクトルを微調整し、これによって上記個別のスタイライズ済みコンテンツ特徴ベクトルを、結果として得られるスタイライズ済みコンテンツ画像の品質の最適化のために、ユーザが決定した混合(mix)で組み合わせる又はブレンドするための、方法及び構成を提供するために、提案される。個々の成分ベクトルの一部が強く減衰しているか、更には除去されており、一方で他の成分ベクトルが増加している又は増強されているという意味で、このようなブレンド又は混合は強く偏っている可能性がある。
【0059】
図1は、本開示のある態様による装置、即ち:入力手段(102)、画像処理装置(104)を伴うプロセッサ(103)、メモリ(105)、及び出力ユニット、例えばディスプレイ(106)を備えた、計算デバイス(101)の概略図を示す。読者は、上記メモリが、大きな画像データセットを記憶してこれらをプロセッサに通信するために十分な大きさでなければならず、上記プロセッサ自体は、上記データセットを修正するように構成されていることを理解するだろう。プロセッサ(103)及び画像処理装置(104)は、データセットを取得して、本明細書に記載されているようなプロセスを実行するように構成される。
【0060】
図2は、従来のシステムによって提供されるような、標準的なスタイル転送を示す。図の左側では、コンテンツデータセット(コンテンツ画像I
Ci)がエンコーダによってダウンサンプリングされて、コンパクトなコンテンツ特徴ベクトルF
Ciに変換されており、上記コンパクトなコンテンツ特徴ベクトルF
Ciは、コンパクトであるにもかかわらず、元のコンテンツデータセットの属性の大半を保持している。エンコーダはスタイルデータセット(スタイル画像I
Si)もダウンサンプリングして、スタイルデータセットの属性の大部分を含むコンテンツ特徴ベクトルF
Siを提供する。最初の変換である白色化Wはコンテンツ特徴ベクトルF
Ciに対して実施され、これはコンテンツ特徴ベクトルF
Ciを「白色化(whiten)」する。「白色化」(W)は予備スタイライズステップとして必要であり、コンテンツ特徴ベクトルF
Ciから、それが含むいずれの色情報を、他の全てのコンテンツデータを保存したまま効果的に取り出し:白色化されたコンテンツ特徴ベクトルF
Ciは、この意味において無色となる。白色化変換の完全な詳細は本明細書では提供されないが、白色化を実施すると、コンテンツ特徴ベクトルF
Ciはスタイル特徴ベクトルF
Siとの相互作用の準備ができた状態となることを記載しておけば十分である。次にコンテンツ特徴ベクトルF
Ciを、更なる変換である彩色(C)に供することができ、これにより、スタイル特徴ベクトルF
Si内に存在するスタイルデータセット(スタイル画像I
Si)の属性の一部が、コンテンツ特徴ベクトルF
Ciに採用され、即ちベクトルF
Ciへのスタイル転送が実施され、これによってスタイライズ済みコンテンツ特徴ベクトルF
CSiが提供される。次に
図2の右側では、デコーダがスタイライズ済みコンテンツ特徴ベクトルF
CSiをアップサンプリングして、スタイライズ済みコンテンツ画像I
CSiを生成する。
【0061】
以下の一節は、単一のコンテンツ画像と単一のスタイル画像とを用いる従来のスタイル転送の説明である。上述のように、エンコーダ‐デコーダ(オートエンコーダ)は不完全であるため、オートエンコーダを1回通過する(即ちダウンサンプリング、それに続く変換、及び最後のアップサンプリング)だけでは、エラー(アーティファクト)が生成される可能性がある。このようなアーティファクトは、ぼやけ、一部のオブジェクトの不明瞭さ、歪み、又は望ましくないパターンとして現れ、これらは共に、出力されるスタイライズ済みコンテンツ画像の品質を低下させる。
【0062】
既に説明したように、全体としてのスタイル転送は、各スタイル画像及び各エンティティクラスiに対して生じる、構成要素としての複数回のスタイル転送の集合体である。読者は、
図2に関して既に説明した(各コンテンツ画像に対して単一のスタイル画像が存在し、スタイライズがこのスタイル画像のみに基づくものである)基本的な従来のタイプとは区別される、このようなスタイル転送におけるパラメータiとパラメータjとの関連性を理解するだろう。これらのパラメータi及びjは、上述の集合的(複合)スタイル転送の異なる複数の成分に関する強化又は減衰を容易にする、以下に記載される一般的な微調整モデルに関連するものである。
【0063】
本発明のプロセス及び構成のある態様によると、
図3は「微調整可能な(tunable)」スタイル転送を示しており、ここでは、異なるi及びj値に関連する(ある集合的スタイル転送の)特定の複数の成分を、オペレータの必要に応じて個別に調整できる。これは可変微調整モデルであり、これによりオペレータは、上述の集合的(複合)スタイル転送の指定された成分の個別の寄与を、低減若しくは抑制若しくは排除、又は増強若しくは強調できる。上述のように、特定の指定された成分、特に比較的多数のアーティファクトを発生させる成分を低減することにより、集合的スタイル転送から得られる最終的なスタイライズ済み画像の品質を向上させることができる。読者は、
図2においてと同様に、
図3に示されているプロセスが、左側に:入力された画像(コンテンツ画像I
C及びスタイル画像I
S)の、対応する特徴ベクトルF
C及びF
Sへのダウンサンプリング;これに続いて、コンテンツ特徴ベクトルF
Cをスタイライズするためのスタイル転送を含む、特徴ベクトルに対する何らかの変換W及びC;並びに最後に、スタイライズ済みコンテンツ特徴ベクトルF
CSに作用してスタイライズ済みコンテンツ画像I
CSを出力する(ダウンサンプリングを反転させるための)アップサンプリングを表していることを理解するだろう。
【0064】
単一のコンテンツ画像及びスタイル画像のみを伴う
図2とは対照的に、
図3は、1つのコンテンツ画像I
Ci(ここでi=1~M)の各クラスiに対する、複数であるj個のスタイル画像I
Sij(ここでj=1~N)の(従来のシステムでは知られていない)可能性も図示しており、ここでは各j値について、関連する(白色化された)コンテンツ特徴ベクトルF
Ciに対して、選択されたスタイル特徴ベクトルF
Sijによって個別のスタイル転送が実施される。これは、各「C」変換において生じるj回のスタイライズそれぞれについて1つが生成される一連の「成分」、即ちスタイライズ済みコンテンツ特徴ベクトルF
CSijの生成につながる。従って、
図2の従来の構成との違いは、
図3が、上述のようにそれぞれが集合的スタイル転送の異なる成分をもたらす異なる複数のi値及びj値を含む、より複雑なシナリオを反映している点である。
【0065】
本発明の更なる態様によると、これらの成分は、オペレータによって自由に混合できる。従来のシステムとは異なり、
図3に示されている構成は、個別のスタイル転送(異なる複数の彩色変換「C」によって示されるような)個別のスタイル転送それぞれから生じる異なる複数の成分の不均一な処理を提供する。
図2の従来のシナリオとは異なり、
図3のシナリオでは、各コンテンツ特徴ベクトルF
Ciについてj個のスタイル特徴ベクトルF
Sijが存在するため、各i値について、1つの選択されたスタイル特徴ベクトルF
Sijと、j個のスタイライズ済みコンテンツ特徴ベクトルF
CSij(ここでj=1~N)とが存在する。次に、異なる複数のスタイライズ済みコンテンツ特徴ベクトルF
CSijの集合体を、従来の構成と同様にアップサンプリングして、該i値に対するスタイライズ済みコンテンツ画像I
CSiを生成する。
【0066】
本発明のプロセス及び方法のある例示的実施形態によると、
図3は、異なる複数のスタイライズ成分(スタイライズ済みコンテンツ特徴ベクトルF
CSij)の組み合わせを示す。本発明は、いずれのi値及びj値において生じる個別の成分変換(これによって、コンテンツ画像の属性若しくはデータ、又はその対応する特徴ベクトルが変換されて、少なくとも1つのスタイル画像の1つ以上の特徴ベクトルの属性の一部又は全て(属性のサブセット)が得られる)の、いずれの組み合わせ又は集合体を含む。異なる複数のスタイル特徴ベクトルからの属性の取得、及び対応するスタイライズの程度は、全ての成分にわたって、即ち全てのスタイル特徴ベクトルにわたって等しいものではなく、集合体/組み合わせ内には個別の成分変換が様々な割合で存在する。一部の集合体/組み合わせでは、特定の成分を強調してよく、他の成分を減衰させる、又は排除する。成分の特定の混合は、オペレータが自身の必要に応じて決定する。
【0067】
本発明のプロセス及び構成のある態様によると、集合的スタイル転送は、コンテンツ特徴ベクトルFCiに対して演算される個別のスタイル転送の加重平均とすることができる。実際には、重み付けは特徴ベクトル空間で行われ、上記加重平均は、スタイライズ済みコンテンツ特徴ベクトルの加重平均であり、重みは、異なるi値及びj値におけるFCSijの初期化値FCiを含む各スタイライズ済みコンテンツ特徴ベクトルFCSijに対して演算されるブレンド係数αijによって形成される。重み(又はブレンド係数αij)は、加重平均内に存在する関連するスタイライズ済みコンテンツ特徴ベクトルFCSijの割合を、効果的に決定する。
【0068】
本発明のある例示的なプロセス及び構成によると、
図3に示されている組み合わせ/集合体は、個別のスタイライズ成分に適用可能なパラメータαを含んでよい。より正確には、パラメータα
ijが、集合的スタイル転送の個々の成分(又は構成部分)を決定するi及びj両方の関数であることにより、各成分を、オペレータが決定した通りに減少又は増加させることができる。パラメータα
ijにより、スタイル転送のための、より柔軟でユーザ決定型の微調整モデルが容易になる。このパラメータα
ijはブレンド係数と呼ばれ、異なる複数のi値及びj値について生じるスタイル転送の成分を修正するために使用できる(実際にはスタイライズ済みコンテンツ特徴ベクトルF
CSijに適用される(以下を参照))。通過するベクトルF
CSijの割合を決定するそれぞれのブレンド係数α
ijによって修正された個別のスタイライズ済み特徴ベクトルF
CSijをそれぞれ含む、異なる複数のスタイル転送成分は、全体としての集合的スタイル転送として組み合わされ(即ち合計され)、これにより、ブレンド済み特徴ベクトルF
i
*が導出される。ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iNは、それぞれ独立して決定できる。ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)のうちのいずれかの、何らかの変化は、スタイライズ済みコンテンツ特徴ベクトルF
CSijの混合又はブレンドを直接変化させ、これにより異なるブレンド済み特徴ベクトルF
i
*がもたらされる。ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)のいくつかの値を増大させることにより、対応する成分スタイル転送は強化され、ブレンド係数のいくつかの値を減少させることにより、成分スタイル転送は低減される。読者は、各ブレンド係数(α
ij:α
i0,α
i1,α
i2, ...,α
iN)の値の選択的決定によって、ブレンド済み特徴ベクトルF
i
*の「スタイライズを強くする(more stylised)」又は「スタイライズを弱くする(less stylised)」ことができ、スタイライズが最小限であるか又は行われない状況とスタイライズが最大限である状況との両極の状況の間で、ブレンド済み特徴ベクトルF
i
*を微調整できることを理解するだろう。
【0069】
本開示のプロセス及び構成のある態様によると、スタイライズ済みコンテンツ特徴ベクトルF
CSijの組み合わせ/集合体、又は加重平均は、以下の関係:
【数2】
によって表すことができる。
【0070】
図3に関連して上述されているように、スタイライズ済みコンテンツ特徴ベクトルの他の組み合わせも想定できる。
【0071】
異なる重み付け(ブレンド係数αij)を、集合的(複合)スタイル転送の異なる成分を提供するものとみなすことができる各スタイライズ済みコンテンツ特徴ベクトルFCSijに対して、適用できる。上述のように、集合的スタイル転送の異なる複数の成分、即ち異なる複数のスタイライズ済みコンテンツ特徴ベクトルFCSijは、等しいものではなく、集合体に対して不均一に寄与し、エラーの伝播に関してそれぞれ異なる性能を有する。オペレータは、異なる複数のスタイライズ済みコンテンツ特徴ベクトルFCSijのブレンド係数αij及び比例的な寄与を自由に選択できる。読者は以上から、異なる複数の係数αijを変化させることによってスタイライズのいくつかの成分を強化し、他の成分を低減できることを理解するだろう。更に、アーティファクトが比較的少ない成分を強化し、同時にアーティファクトが多い成分を減衰させることによって、集約された信号、即ち複合スタイライズ済みコンテンツ特徴ベクトル、例えばFi
*の、少なくともエラー及びアーティファクトに関する全体的な性能を、選択的に向上させることができる。ブレンド係数αijの異なる組は、複合(集合的)スタイライズ済みコンテンツ特徴ベクトルFi
*の品質に対する、従って、複合スタイライズ済みコンテンツ特徴ベクトルFi
*のアップサンプリング済みバージョンであるブレンド済みスタイライズ済みコンテンツ画像ICSiに対する、全体的な効果が異なっている。読者は、ブレンド係数αijの組を選択的に決定することによって、上記組を決定したオペレータは、ブレンド済みスタイライズ済みコンテンツ画像ICSiの品質を向上させるための相当な自由度を有し、スタイライズ済みコンテンツ特徴ベクトルの成分のユーザ決定型加重平均、及び特にブレンド係数αijは、スタイライズ済み画像の品質の大幅な改善を促進する。
【0072】
上述のステップは、異なる複数のスタイル画像からの(これらの特徴ベクトルからの)属性の異なる混合を、コンテンツ画像に(その特徴ベクトルによって)適用する(取得させる)ために選択することによって、コンテンツ画像への全体的なスタイル転送の最適化を促進する。読者は、
図1に記載されているように、(
図3に示されている)これらのプロセスステップが、プロセッサ(103)及びそのGPU(104)によって実施でき、コンテンツ/スタイル画像はメモリ(105)から呼び出されるか又は手段(102)を用いて入力され、出力画像は出力手段(106)を用いてレンダリングできることを理解するだろう。読者は、入力手段(102)を、現実の画像をキャプチャするために好適なカメラとすることができ、上記現実の画像それ自体をスタイル画像として使用できることを理解するだろう。
【0073】
本明細書で開示されるプロセス及び構成のある例示的な態様では、ブレンド済み特徴ベクトルFi
*を導出するための全体としての集合的スタイル転送内の、それぞれのブレンド係数αijによって修正された個別のスタイライズ済みコンテンツ特徴ベクトルFCSijをそれぞれ含む異なる複数のスタイル転送成分の組み合わせは、j=N=1であるシナリオでは、以下の関係:
Fi
*=(1-αi1)FCi+αi1FCSi1 [2]
によって表すことができる。
【0074】
このシナリオでは、いずれのi値についてαijの値は1つだけ存在し、これは可変ブレンド係数αi1である。2つの成分、即ち(1-αi1)FCi及びαi1FCSi1だけを含む、この組み合わせの式[2]は、実際には既出の節にある組み合わせの式[1]の特別なケースであり、[1]において以下の制約:
αi0+αi1=1
を用いることによるものである。
【0075】
換言すれば、上記制約は以下を規定する:
αi0=1-αi1
【0076】
読者は、式[1]におけるこの規定が、式[2]の特定の関係を導くことを理解するだろう。この2つ目の式[2]を表面的に精査すると、これは適用されるスタイライズを変更するための微調整モデルを効果的に表していることが分かる:αi1=1では第1の成分が完全に欠け、Fi
*=FCSi1となり、これは最大限のスタイライズが行われたブレンド済み特徴ベクトルに対応し;αi1=0となる反対側の極点では、第2の成分が完全に欠けてFi
*=FCiとなり、即ちブレンド済み特徴ベクトルは元のコンテンツ特徴ベクトルFCiと同一となり、従ってブレンド済みスタイライズ済みコンテンツ画像ICSiは入力されたコンテンツICiと同一となり、スタイライズは全く行われていない。
【0077】
組み合わせの式[2]に関して(ただし同じことは組み合わせの式[1]にも当てはまるが)、読者は、この関係が、αi1=0とαi1=1との間を動いて全ての中間値を含むスタイライズを変更するための、調整可能なメカニズムを提供することを、即座に理解するだろう。この調整可能なメカニズムは、事実上、スタイライズ微調整デバイスとなる。
【0078】
本発明のプロセス及び構成のある態様では、
図4は、ブレンド係数α
ijの異なる組み合わせが適用された多数のスタイライズ済みコンテンツ画像を示す。説明を簡潔にするために、
図4に示されている例示的な分析では、「i」の全ての値にわたってブレンド係数の単一の固定値を想定しており、ブレンド係数α
i1はこの図では単に「α」と呼ばれ、これは値0と値1との間で変化する。図を煩雑にするのを避けるために、(401)にはスタイル画像が1つだけ示されているが、読者は、既に説明したように複数のスタイル画像が含まれる場合があることを理解するだろう。ブレンド係数αの異なる複数の値の影響を説明するために、
図4では一例として、値0と値1との間で変化し、それに伴って集合的スタイル転送が変化するシナリオについて、具体的に考察する。α値が0である場合、ブレンドの影響は、コンテンツ特徴ベクトルF
Ciをスタイライズされないままとすることであり、即ち(402)に示されているように、ブレンド済み特徴ベクトルF
i
*は入力されたコンテンツ特徴ベクトルF
Ciと同一であり、ブレンド済みスタイライズ済みコンテンツ画像I
CSiは入力されたコンテンツ画像I
Cと同一である。(402)におけるブレンド済みスタイライズ済みコンテンツ画像I
CSiは鮮明かつ明瞭であるが、スタイル画像(401)から得られる情報を全く含まず、事実上スタイライズされていない。
【0079】
αが1.0に設定される他方の極点では、コンテンツ特徴ベクトルFCiは、各スタイル画像ISijから導出された異なる複数のスタイル特徴ベクトル(FSij:FSi1,FSi2, ...,FSiN)の組み合わせによって、「完全にスタイライズされ」、結果として得られるブレンド済み特徴ベクトルFi
*(及びアップサンプリング後に結果として得られるブレンド済みスタイライズ済みコンテンツ画像ICSi)は、(404)において、最大限のスタイライズを表す。(404)に示されているブレンド済みスタイライズ済みコンテンツ画像ICSiは、最大限にスタイライズされた画像データを含むものの、アーティファクトの拡散がより大きくなるという代償を払う。画像のいくつかの部分はぼやけており、上記画像内の一部のエンティティ、例えば背景の建造物は視認できなくなる。これは、関連するアノテーションが上記画像にマッチしなくなる(「建造物」としてラベリングされたピクセルは、スタイライズ済み画像内では建造物を指していない)ためである。
【0080】
これら2つの極点の間には、他のブレンド済みコンテンツ特徴ベクトルF
i
*、及び最小限と最大限との間の中間のスタイライズが施された他のブレンド済みスタイライズ済みコンテンツ画像I
CSiをもたらす、スタイル特徴ベクトル(F
Sij:F
Si1,F
Si2, ...,F
SiN)の他の組み合わせが存在する。このような中間のスタイライズの一例が(403)に示されており、これについて、α=0.3である。この中間のスタイライズは、本質的には2つの極点の間の妥協点であり、(403)において容易に確認できるように、このα
i1の値は適度に鮮明に見え、大半のエンティティが明瞭である。(403)では建造物を明瞭に視認できる。
図4は白黒のみであるが、(本明細書では提供されない)カラーバージョンでは、良好な色の表現が得られ、スタイル画像(401)の色と同様である。
【0081】
スタイライズ済みコンテンツ画像I
CSiの品質の分析により、
図4に関して説明した2つの極点で画像の最高のフォトリアリズムが必ずしも生じるわけではなく、最も良好なスタイライズ済みコンテンツ画像I
CSi(即ちリアリティについて最も良好なもの)は、中間の組み合わせの結果となり得ることが明らかとなっている。
【0082】
本発明のプロセス及び構成のある態様によると、
図5は、スタイライズ済みコンテンツ画像の品質がブレンド係数α
ijによってどのように変化するかを示している。説明を簡潔にするために、
図5に示されている例示的な分析では単一の固定i値及びj値を想定しており、ブレンド係数α
i1はこの図では単に「α」と呼ばれ、これは値0と値1との間で変化する。垂直軸は一般的な品質パラメータ(これをQと呼ぶことができる)の値を示し、この例示的な分析ではこれはフレシェ開始距離(FID)であるが、IOU(Intersection over Union)等の他の画像品質パラメータも簡単に使用できる。
【0083】
FIDスコアは、2つのデータセット間の統計的距離の尺度であり、これらのデータセットが同一である場合、FIDスコアは0を返し、FIDスコアの値が大きくなるほど2つのデータセットの互いからの距離が大きくなる。換言すれば、FIDが小さいことは、問題となっている2つのデータセット間の類似性又は対応度が高いことを示す。品質パラメータQとしては、FIDスコアは品質の逆尺度であり、即ち最低のFIDスコアが最高の品質を表す。
図5は、スタイル画像データセットとコンテンツデータセットとの間のFIDスコアを示し、上記コンテンツデータセットは、上記スタイル画像データセットからの画像によって、0~1の異なる値を用いてスタイライズされており、上述の微調整メカニズムを用いて、異なる複数のスタイル転送(成分スタイル転送の集合体)と、異なる複数の画像品質を得る。
【0084】
興味深いことに、FIDスコアはα=0.5で最小となり、これは従って最高品質のポイントであり、またこの値の周りで非対称に分布する。この分析により、スタイライズ済みコンテンツ画像の品質及びリアリティを最大化する微調整の入力をユーザが特定することによって、スタイル転送を最適なレベルに微調整できるようにする、スタイル転送微調整モデルの有用性が実証される。
【0085】
本開示は態様及び実施形態の複数の例を参照しているが、本発明の実施形態が本明細書で明示的に参照されたものに限定されないことは、容易に理解されるだろう。全ての態様及び実施形態は、本明細書で明示的に参照されていないものを含むいずれの個数の補正、改変、変更、又は置換を含むように、修正できる。従って本発明の実施形態は、本明細書に記載された説明によって限定されるものと理解するべきではなく、添付の特許請求の範囲によってのみ限定されるものとする。いくつかの実施形態のいくつかの特徴は、一部の実施例、実施形態又は図面には見られるものの他の実施例、実施形態又は図面には見られないが、これは簡潔さ及び分かりやすさのためだけのものであり、本明細書で開示されている態様及び実施形態の構成要素、特徴及び構造は、必要に応じて容易に組み合わせることができる。このような組み合わせが、ある実施形態のある特定の態様に関して本明細書で図示されていない、又は明示的に参照されていない場合であっても、これは説明の簡潔さのためだけのものであり、このような組み合わせが除外される又は不可能であることを意味するものとして解釈してはならない。様々な態様及び実施形態の異なる複数の特徴を必要に応じて混合する又は組み合わせることができ、本開示は、本明細書で参照されている特徴のあらゆる組み合わせ及び順列を包含するものと解釈されるものとする。
【国際調査報告】