特表2024-513504 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ マインドテックグローバルリミテッドの特許一覧

特表2024-513504可変画像処理装置及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-25

(54)【発明の名称】可変画像処理装置及び方法

(51)【国際特許分類】

G06T 5/60 20240101AFI20240315BHJP

G06T 7/00 20170101ALI20240315BHJP

G06V 10/70 20220101ALI20240315BHJP

G06T 11/80 20060101ALI20240315BHJP

【ＦＩ】

G06T5/60

G06T7/00 350C

G06V10/70

G06T11/80 A

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023562224

(86)(22)【出願日】2022-03-01

(85)【翻訳文提出日】2023-12-04

(86)【国際出願番号】 IB2022051775

(87)【国際公開番号】W WO2022224049

(87)【国際公開日】2022-10-27

(31)【優先権主張番号】21169171.2

(32)【優先日】2021-04-19

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】523343651

【氏名又は名称】マインドテックグローバルリミテッド

【氏名又は名称原語表記】ＭＩＮＤＴＥＣＨＧＬＯＢＡＬＬＩＭＩＴＥＤ

(74)【代理人】

【識別番号】100139723

【弁理士】

【氏名又は名称】樋口洋

(72)【発明者】

【氏名】マレック，アリ

(72)【発明者】

【氏名】マクギネス，ピーター

【テーマコード（参考）】

5B050

5B057

5L096

【Ｆターム（参考）】

5B050AA00

5B050BA06

5B050BA11

5B050BA12

5B050BA13

5B050CA01

5B050DA04

5B050EA09

5B050EA10

5B050EA19

5B050FA02

5B050FA05

5B057CA01

5B057CA08

5B057CA12

5B057CA16

5B057CB01

5B057CB08

5B057CB12

5B057CB16

5B057CE08

5B057CE16

5B057DA06

5B057DA16

5B057DB02

5B057DB06

5B057DB09

5B057DC23

5B057DC36

5B057DC40

5L096AA02

5L096AA06

5L096DA01

5L096FA35

5L096HA11

5L096JA03

5L096KA04

(57)【要約】

スタイル画像Ｉ_Ｓｉｊを、エンティティクラスｉ（ｉ：１，２，．．．Ｍ）を含む少なくとも１つのコンテンツ画像ＩＣに適用するためのプロセスおよび装置であって、エンティティクラスｉ（ｉ：１，２，．．．Ｍ）をそれぞれ含む、複数であるｊ個のスタイル画像（Ｉ_Ｓｊ：Ｉ_Ｓ１，Ｉ_Ｓ２，．．．．．．Ｉ_ＳＮ）の属性が、コンテンツ画像ＩＣに転送され、上記プロセスは、少なくとも１つのコンテンツ画像Ｉ_Ｃｉをダウンサンプリングして、コンテンツ特徴ベクトルＦ_Ｃｉを導出するステップ、ｊ個のスタイル画像Ｉ_Ｓｊをダウンサンプリングして、ｊ個のスタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．,Ｆ_ＳｉＮ）を導出するステップ、スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．．．．Ｆ_ＳｉＮ）の属性をコンテンツ特徴ベクトルＦ_Ｃｉに転送することによってコンテンツ特徴ベクトルＦ_Ｃｉをスタイライズし、ｊ個のスタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１，Ｆ_ＣＳｉ２，．．．,Ｆ_ＣＳｉＮ）を導出するステップ、各スタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１）の各々のブレンド係数（α_ｉｊ：α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を組み合わせるステップ、を含む。

【特許請求の範囲】

【請求項1】

スタイル画像Ｉ_Ｓｉｊを、エンティティクラスｉ（ｉ：１，２，．．．Ｍ）を含む少なくとも１つのコンテンツ画像Ｉ_Ｃｉに適用するためのプロセスであって、前記エンティティクラスｉ（ｉ：１，２，．．．Ｍ）をそれぞれ含む、複数であるｊ個のスタイル画像（Ｉ_Ｓｉｊ：Ｉ_Ｓｉ１，Ｉ_Ｓｉ２，．．．．．．Ｉ_ＳｉＮ）の属性が、前記コンテンツ画像Ｉ_Ｃｉに転送され、前記プロセスは、各エンティティクラスｉ（ｉ：１，２，．．．Ｍ）について、
前記少なくとも１つのコンテンツ画像Ｉ_Ｃｉをダウンサンプリングして、コンテンツ特徴ベクトルＦ_Ｃｉを導出するステップ；
ｊ個の前記スタイル画像Ｉ_Ｓｉｊをダウンサンプリングして、ｊ個のスタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．,Ｆ_ＳｉＮ）を導出するステップ；
前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．．．．Ｆ_ＳｉＮ）の属性を前記コンテンツ特徴ベクトルＦ_Ｃｉに転送することによって前記コンテンツ特徴ベクトルＦ_Ｃｉをスタイライズし、ｊ個のスタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１，Ｆ_ＣＳｉ２，．．．,Ｆ_ＣＳｉＮ）を導出するステップ；
複数の可変ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を入力するステップ；
前記コンテンツ特徴ベクトルＦ_Ｃｉの係数α_ｉ０を、各前記スタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１，Ｆ_ＣＳｉ２，．．．，Ｆ_ＣＳｉＮ）の係数（α_ｉｊ：α_ｉ１，α_ｉ２，．．．，α_ｉＮ）と組み合わせることによって、ブレンド済み特徴ベクトルＦ_ｉ ^＊を導出するステップ；
前記ブレンド済み特徴ベクトルＦ_ｉ ^＊をアップサンプリングすることによって、ブレンド済み・スタイライズ済みコンテンツ画像Ｉ_ＣＳｉを生成するステップ
を含み、
前記スタイライズするステップは、前記コンテンツ特徴ベクトルＦ_Ｃｉを変換するステップを含み、該コンテンツ特徴ベクトルＦ_Ｃｉは、前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の前記属性のサブセットを取得する
ことを特徴とする、プロセス。

【請求項2】

前記組み合わせるステップは、重み付け係数としてブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を使用して、前記コンテンツ特徴ベクトルＦ_Ｃｉ及び前記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの加重平均を生成するステップを含むことを特徴とする、請求項１に記載のプロセス。

【請求項3】

前記組み合わせるステップは、以下の関係：

【数1】

に従って、前記コンテンツ特徴ベクトルＦ_Ｃｉのブレンド係数α_ｉ０を、前記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊのブレンド係数α_ｉｊの合計と組み合わせるステップを含むことを特徴とする、請求項１又は２に記載のプロセス。

【請求項4】

前記スタイライズするステップは、少なくとも彩色の変換を含むことを特徴とする、請求項１～３のいずれか一項に記載のプロセス。

【請求項5】

前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の前記属性は、前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の統計的特性であることを特徴とする、請求項４に記載のプロセス。

【請求項6】

前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の前記属性は、前記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の平均及び共分散であることを特徴とする、請求項５に記載のプロセス。

【請求項7】

計算ステップをさらに含み、該ステップは、ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の値の範囲について前記ブレンド済みコンテンツ画像Ｉ_ＣＳｉの品質パラメータＱを計算するステップを含むことを特徴とする、請求項１～６のいずれか一項に記載のプロセス。

【請求項8】

最適化ステップをさらに含み、該ステップは、上記品質パラメータＱの最高値に対応する上記ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の値を選択するステップを含むことを特徴とする、請求項７に記載のプロセス。

【請求項9】

前記品質パラメータＱは、フレシェ開始距離（ＦｒｅｃｈｅｔＩｎｃｅｐｔｉｏｎＤｉｓｔａｎｃｅ：ＦＩＤ）の逆数であることを特徴とする、請求項７又は８に記載のプロセス。

【請求項10】

前記品質パラメータＱは、パラメータＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）であることを特徴とする、請求項７又は８に記載のプロセス。

【請求項11】

前記ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の合計は１に等しいことを特徴とする、請求項１～１０のいずれか一項に記載のプロセス。

【請求項12】

ｊ＝１であり、また複数のブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を入力する前記ステップは、単一のブレンド係数α_ｉ１を入力するステップを含み、前記組み合わせるステップは、以下の関係：
Ｆ_ｉ ^＊＝（１－α_ｉ１）Ｆ_Ｃｉ＋α_ｉ１Ｆ_ＣＳｉ１
に従って、上記コンテンツ特徴ベクトルＦ_Ｃｉの割合α_ｉ０＝（１－α_ｉ１）を、上記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉ１の割合と組み合わせるステップを含むことを特徴とする、請求項１１に記載のプロセス。

【請求項13】

請求項１～１２のいずれか一項に記載のステップを含む、コンピュータにより実装されるプロセス。

【請求項14】

請求項１～１２のいずれか一項に記載のプロセスのステップを実行するように構成された、入力デバイス、メモリ、画像処理装置（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＧＰＵ）、及び出力デバイスを備えることを特徴とする、計算システム。

【請求項15】

プログラムを計算システム上で実行する際に、請求項１～１２のいずれか一項に記載のプロセスのステップを実行するために、コンピュータ可読媒体に記憶されたプログラムコード命令を含むことを特徴とする、コンピュータ・プログラム製品

【請求項16】

コンピュータによって実行されたときに、請求項１～１２のいずれか一項に記載のステップを前記コンピュータに実装させる命令を含むことを特徴とする、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、オブジェクト、人物、設定及び環境といった仮想エンティティを定義する１つ以上のデータセットに基づく、電子画像の生成、作成、修正、及び処理に関する。

【0002】

特に、本開示は、合成データセットによって表される仮想世界のリアルな画像及びフォトリアリスティックな画像の、多次元生成及び提供に関する。合成画像は、「スタイル」を定義する少なくとも１つの他の画像を参照し、スタイル転送又はスタイライズ（ｓｔｙｌｉｓａｔｉｏｎ）と呼ばれる手法で、上記スタイルの指定された属性を採用することによって、修正できる。高度にリアルなイメージングを用いることにより、描画される仮想環境のユーザエクスペリエンスの向上が促進される。このような画像をリアルタイムで提供することにより、ユーザは仮想オブジェクト及び周囲環境と対話できるようになり、これによってビデオに類似した没入型のダイナミックな体験が提供される。

【0003】

本開示において言及される画像は、ゲーム、エンターテインメント、デザイン、建築、航空、プランニング、訓練、教育、医療、セキュリティ、防衛等を含む多数の用途に展開され得る。

【背景技術】

【0004】

画像のリアリティを向上させるために、合成データセットである場合もあるデータ（「コンテンツデータセット）によって提供される、仮想オブジェクト、場所、及び環境に関連するデータを、スタイルデータセット又はスタイルオーバレイを用いて修正できる。このような修正を実施しない場合、コンテンツデータのみによって提供される画像は、該画像内のオブジェクト又は環境に十分な又は適切なテクスチャ、彩色、明暗、又は正確な形状若しくは形態が欠如する可能性があり、それによって該画像が「フラット（ｆｌａｔ）」で単純な、ユーザにとって説得力のないものとしてレンダリングされ、必然的にユーザエクスペリエンスが強く限定されるという意味で、「生（ｒａｗ）」のものとみなされる可能性がある。

【0005】

コンテンツデータをスタイルデータで修正することにより、最終画像のリアリティを大幅に改善でき、ユーザエクスペリエンスを相当に向上させることができる。街路内のオブジェクト及び周囲環境の基本的で単純なジオメトリを描画した、一般化された街路シーンは、上述のように修正された場合、スタイルデータによって、それぞれリアルなテクスチャ、彩色、明暗、及び色調でレンダリングされた建造物、自動車、街路上の備品、及び歩行者によって完成されるフォトリアリスティックな街路シーンへと変換できる。更に、１つのコンテンツデータに対して異なるスタイルを適用することにより、修正された街路シーン内で異なる環境が描写されることになる。例えば、一般化された街路シーンを描画した１つのコンテンツデータにインド風の画像又はドイツ風の画像を適用でき、スタイライズ済みのコンテンツデータは、インドの街路又はドイツの街路の画像をレンダリングするものとなる。

【0006】

コンテンツデータに対するスタイルデータの適用、即ち「スタイル転送」又は「スタイライズ」は、従来のプロセスに基づくものであり、これは（それだけではないが）典型的には、アノテーション済みコンテンツ画像及びアノテーション済みスタイル画像に対して動作する「オートエンコーダ（ａｕｔｏｅｎｃｏｄｅｒ）」を備えるニューラルネットワークアーキテクチャを使用し、即ち各画像内のピクセルに、特にそれらの表示内容によってアノテーション又はラベリングが実施される。街路シーンの例では、ピクセルは、自動車のピクセル、歩行者のピクセル等としてラベリングされ得る。オートエンコーダは、以下の２つの主要な部分：コンテンツ画像及びスタイル画像の両方において所与の出力をダウンサンプリングすることにより、それぞれについてコンパクトな「特徴ベクトル」を生成する、「エンコーダ」と；オリジナルの入力画像の上記コンパクトな特徴ベクトルをアップサンプリングする「デコーダ」とを有する。上記コンパクトな特徴ベクトルは、ソース画像からの「圧縮（ｃｏｍｐａｃｔｅｄ）」データを含むため、多少の損失は被るものの、ソースからのオリジナルのピクセルデータの大部分を「保存（ｐｒｅｓｅｒｖｅ）」する。

【0007】

読者は、従来のスタイル転送の概要を説明した、背景となる刊行物である非特許文献１を参照すること。

【0008】

２つのコンパクトな特徴ベクトル、即ちコンテンツ特徴ベクトルと画像特徴ベクトルとが生成されると、以下で説明されるように、それらの個別の属性が分析される：コンテンツ特徴ベクトルに対して、スタイル特徴ベクトルを用いて１つ以上の変換が実施され、これにより、スタイルベクトルの統計的プロパティがコンテンツ特徴ベクトルに「転送（ｔｒａｎｓｆｅｒ）」される。この転送は、２つのベクトル間の「スタイル転送」：スタイル特徴ベクトルの成分で置き換えることによる、コンテンツ特徴ベクトルの成分の修正である。このようにして修正されたコンテンツ特徴ベクトルは、スタイライズ済みコンテンツ特徴ベクトルとなる。続いて典型的には、スタイライズ済みコンテンツ特徴ベクトルがアップサンプリングを受けるという意味で、上記ダウンサンプリングが逆に実行され、これによって、スタイライズ済みコンテンツ画像である新たな画像が生成される。

【0009】

従来の構成では、上で参照した１つ以上の変換は典型的には、コンテンツ画像内のあらゆる色関連情報を除去する役割を果たす「白色化」変換と、既に白色化されたコンテンツ画像を、スタイル画像の属性の一部を与えることによって変換する役割を果たす「彩色」変換とで構成される。スタイル画像のベクトルからコンテンツ画像のベクトルへと属性を効果的に「転送」するのは、後者の変換である彩色であり、これはスタイル転送又はスタイライズと呼ばれる。これらの変換の結果、特徴ベクトルは「ドメインマッチング（ｄｏｍａｉｎｍａｔｃｈｉｎｇ）」を受ける：コンテンツ画像内の領域は、スタイル画像と同一のアノテーション（又はラベル）を伴う領域とペアとなり、続いて各領域のコンテンツ‐スタイルペアが、面積類似性について、即ち同等の面積を有すること、又は実際には同等の数のピクセルを有することについて、分析される。ある領域のペアが面積類似性条件を満たす場合、プロセッサはスタイル画像内の該領域のスタイルを、コンテンツ画像内の対応する領域に転送する。しかしながら、従来のシステムでは、類似性試験は各領域において二値的な結果を有する：つまり、スタイルが該領域において転送されるか、又は転送が起こらず、コンテンツ画像内の領域が変化しないかのいずれかである。

【0010】

しかしながら、ダウンサンプリング及びアップサンプリングは不完全であり、オートエンコーダの通過の度にエラー（「アーティファクト」）が生じる。このエラーの生成は、上述のベクトル変換（白色化変換及び彩色変換）によって更に悪化する。上記変換もまたそれぞれ不完全であり、変換が行われる度に更なるアーティファクトが導入される。

【0011】

従来のシステムについて、上述のようなドメインマッチングに関連して更なる問題が存在する。第一に、ドメインマッチングはスタイル画像内の広範なアノテーションに依存するものであり、即ち全てのピクセルがラベリングされること、そして第二に、対応する複数の領域をアノテーションに基づいて設定できる場合に、上記領域が同等の面積を有し、類似性テストに合格することである。ラベルが欠落している場合、又は領域のペアが面積類似性テストに合格しない場合、スタイル転送は該領域に対して行われない。これらの理由から、スタイル転送はコンテンツ画像の限られた部分でのみ行われる可能性があり、これはコンテンツ画像全体にわたるスタイル転送の実施の不均一さ、実質的には部分的なスタイル転送につながり、これは明らかに不十分なものである。

【0012】

更に、ドメインマッチングは以下で説明されるように、あるエンティティクラスについて、別のエンティティクラスに比べて良好な結果となる場合がある。即ちドメインマッチングの性能又は効率、及び結果としてもたらされるスタイル転送は、異なる複数のエンティティクラス（異なる複数のラベル又はアノテーション）間で異なる場合がある。換言すれば、一部の領域のスタイル‐コンテンツペアは、アーティファクトが少ない「良好な（ｓｕｃｃｅｓｓｆｕｌ）」スタイル転送を生み、他の領域のスタイル‐コンテンツペアについては、結果として得られるスタイル転送は、アーティファクトの数が相対的に多いことにより、あまり良好なものではなくなる。スタイル転送の中心的な目的、即ちコンテンツ画像のリアリティの向上は、リアリティを明らかに低下させる過剰なアーティファクトがスタイライズ済み画像内に存在することによって損なわれる。

【0013】

従ってスタイル転送を改善し、上述のようなサンプリング及び変換プロセスで生じるアーティファクトを削減する必要がある。特に、スタイル転送の最適化のために、スタイル転送の異なる複数の成分を削減又は増強するユーザ定義パラメータを提供することにより、スタイル転送が行われる程度を変更する必要がある。

【先行技術文献】

【非特許文献】

【0014】

【非特許文献1】“ＡＣｌｏｓｅｄ‐ｆｏｒｍＳｏｌｕｔｉｏｎｔｏＰｈｏｔｏｒｅａｌｉｓｔｉｃＩｍａｇｅＳｔｙｌｉｚａｔｉｏｎ” ｂｙＹｉｊｕｎＬｉａｎｄｏｔｈｅｒｓ，ＵｎｉｖｅｒｓｉｔｙｏｆＣａｌｉｆｏｒｎｉａ，２７Ｊｕｌｙ２０１８

【発明の概要】

【発明が解決しようとする課題】

【0015】

読者には、上述の欠点を克服する方法及びそれに対応する構成が必要であることが理解されるだろう。これらの欠点に対処して性能向上の利点を提供する本開示の装置及び方法の様々な態様を、本明細書中で説明する。

【0016】

本開示から明らかとなるように（以下を参照）、本発明の目的は、スタイル転送技法を強化することによって、リアリティが向上したコンテンツ画像を生成するための、方法及び構成を提供することである。

【0017】

単一の無差別なスタイル転送をコンテンツデータセット内のピクセルに適用して望ましくないアーティファクトの拡散をもたらす従来のシステムのこのような欠点に直面して、ドメインマッチング時に生じるアーティファクトの数を削減するために、より弁別性が高くより柔軟なアプローチを考案する必要がある。本発明の目的は、類似性テストに合格するコンテンツ‐スタイル領域ペアの割合を増加させることを容易にする、ドメインマッチングの方法及び構成を提供することである。本明細書で開示される方法及びプロセスの別の目的は、単一のスタイル画像ではなく複数のスタイル画像を、所定の組み合わせで、効果的な全体のスタイル転送に寄与させることができるような、スタイル転送を提供することである。本明細書で開示される方法及びプロセスの更なる目的は、コンテンツデータとスタイルデータとの間のドメインマッチングから得られるコンテンツ‐スタイル領域の数を最適化すること、及びコンテンツ画像に対するスタイル転送の改善である。

【0018】

本発明の更なる目的及び利点は、本明細書で開示される装置及び方法の動作及び作用を検討することで、明らかになるだろう。

【課題を解決するための手段】

【0019】

本開示は、スタイル転送のためのドメインマッチング技法を強化し、スタイライズ済み画像内のアーティファクトの数を削減するための、新規の独創的な装置及び方法に関する。スタイル転送の更なる詳細は、以下の文中で説明される。

【0020】

本発明のある実施形態によると、マルチスタイルドメインマッチングの方法及び構成が本明細書で開示され、ここでは、１つの所与のコンテンツ画像に対して複数のスタイル画像が提供される。

【0021】

本発明のある実施形態によると、スタイル転送の方法及び構成が開示され、ここでは、１つのコンテンツ画像と、複数のスタイル画像のうちの１つ以上のスタイル画像との間の相互作用が提供され、「全体の（ｏｖｅｒａｌｌ）」スタイル転送（コンテンツ画像によって採用される全ての属性）は、１つのコンテンツ画像と各上記スタイル画像とを含む各ペアに関連するスタイル転送の組み合わせである。結果として得られるスタイライズ済みコンテンツ画像は、複数の個別のスタイル転送の、オペレータが決定した組み合わせでの集合体であり、集合的スタイル転送は、複数の個別のスタイル転送の組み合わせである。

【0022】

本発明のある態様によると、本明細書で開示される方法及び構成により、コンテンツ画像上の意味的にラベリングされた領域ごとに、スタイルデータセット内に複数のスタイル画像が存在する。

【0023】

上記方法及び構成のある実施形態では、所定の割合の、異なる複数のスタイライズ済みコンテンツ画像の、様々な順列及び組み合わせが取得され、上記割合の上記異なる複数のスタイライズ済みコンテンツ画像は所定の方法で集約され、これによって複合（ブレンド済み）スタイライズ済みコンテンツ画像が得られる。構成要素である各スタイライズ済みコンテンツ画像自体は、関連するｉクラス、及び関連する複数の候補スタイル画像に依存しており、適用される集約は、これらのうちの一方又は両方を増加又は減少させることにより、結果として得られる複合（ブレンド済み）スタイライズ済みコンテンツ画像を最適化できる。本発明のある実施形態では、異なる複数のスタイライズ済みコンテンツ画像の割合を、ユーザの要求に従って微調整できる。

【0024】

本発明の多数の態様、実装形態、目的、及び利点は、本明細書中の「発明を実施するための形態」を図面と共に考察することによって明らかになるだろう。上記図面では、全体を通して、類似の参照記号は類似の部分を指す。

【図面の簡単な説明】

【0025】

【図1】図１は、本発明による構成のある例示的な態様を示す。

【図2】図２は、従来のシステムによるスタイル転送を示す。

【図3】図３は、本発明による方法及び構成のある例示的な態様を示す。

【図4】図４は、本発明による方法及び構成のある例示的な態様と、全体的なスタイル転送に関するその結果とを示す。

【図5】図５は、本明細書で開示される様々な例示的態様及び実装形態による、ブレンド係数αに対する一般的な画像品質パラメータの変化を示す。画像品質パラメータ

【発明を実施するための形態】

【0026】

本発明の実施例及び実施形態を詳細に参照する。上記実施例及び実施形態のうちの１つ以上は図面に図示されており、これらの実施例及び実施形態は、本発明を限定するものではなく本発明の説明として提供される。本発明において、特許請求の範囲で定義される本発明の範囲から逸脱することなく、様々な修正及び変形を実施できることは明らかであろう。ある実施形態の一部として図示又は説明される特徴を別の実施形態と共に用いることによって更なる実施形態を得ることができることは、明らかである。本発明は、上述のような修正及び変形を、添付されている特許請求の範囲及びその均等物の範囲内にあるものとして包含することが意図されている。

【0027】

本発明の様々な実施形態、態様、及び実装形態、並びに技術的目的及び利点は、本明細書の説明を図面と組み合わせて考察すれば、当業者には明らかであろう。文脈による特段の指示がない限り、用語「第１の（ｆｉｒｓｔ）」、「第２の（ｓｅｃｏｎｄ）」、「第３の（ｔｈｉｒｄ）」、「最後の（ｌａｓｔ）」等は本明細書において、ある構成要素を別の構成要素から区別するためだけに使用され、特定されている構成要素の位置、場所、配置、又は重要度を定義又は限定することは意図されていない。単数形「ある（ａ、ａｎ）」及び「上記（ｔｈｅ）」は、文脈に基づいて明らかにそうでない場合を除いて、複数の指示対象を含む。

【0028】

本開示のある例示的な態様は、スタイル画像Ｉ_Ｓｉｊを、エンティティクラスｉ（ｉ：１，２，．．．Ｍ）を含む少なくとも１つのコンテンツ画像Ｉ_Ｃｉに適用するためのプロセスを対象とし、このプロセスでは、エンティティクラスｉ（ｉ：１，２，．．．Ｍ）をそれぞれ含む、複数であるｊ個のスタイル画像（Ｉ_Ｓｉｊ：Ｉ_Ｓｉ１，Ｉ_Ｓｉ２，．．．．．．Ｉ_ＳｉＮ）の属性が、上記コンテンツ画像Ｉ_Ｃｉに転送され、上記プロセスは、各エンティティクラスｉ（ｉ：１，２，．．．Ｍ）について：上記少なくとも１つのコンテンツ画像Ｉ_Ｃｉをダウンサンプリングして、コンテンツ特徴ベクトルＦ_Ｃｉを導出するステップ；ｊ個の上記スタイル画像Ｉ_Ｓｉｊをダウンサンプリングして、ｊ個のスタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．,Ｆ_ＳｉＮ）を導出するステップ；上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．．．．Ｆ_ＳｉＮ）の属性を上記コンテンツ特徴ベクトルＦ_Ｃｉに転送することによって上記コンテンツ特徴ベクトルＦ_Ｃｉをスタイライズし、ｊ個のスタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１，Ｆ_ＣＳｉ２，．．．,Ｆ_ＣＳｉＮ）を導出するステップ；複数の可変ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を入力するステップ；上記コンテンツ特徴ベクトルＦ_Ｃｉの係数α_ｉ０を、各上記スタイライズ済みコンテンツ特徴ベクトル（Ｆ_ＣＳｉｊ：Ｆ_ＣＳｉ１，Ｆ_ＣＳｉ２，．．．，Ｆ_ＣＳｉＮ）の係数（α_ｉｊ：α_ｉ１，α_ｉ２，．．．，α_ｉＮ）と組み合わせることによって、ブレンド済み特徴ベクトルＦ_ｉ ^＊を導出するステップ；上記ブレンド済み特徴ベクトルＦ_ｉ ^＊をアップサンプリングすることによって、ブレンド済み・スタイライズ済みコンテンツ画像Ｉ_ＣＳｉを生成するステップを含む。

【0029】

本発明のある態様では、スタイライズする上記ステップは上記コンテンツ特徴ベクトルＦ_Ｃｉを変換するステップを含み、ここで上記コンテンツ特徴ベクトルＦ_Ｃｉは、上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の上記属性のサブセットを取得する。

【0030】

本発明の別の態様では、組み合わせる上記ステップは、重み付け係数としてブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を使用して、上記コンテンツ特徴ベクトルＦ_Ｃｉ及び上記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの加重平均を生成するステップを含む。

【0031】

本発明の更なる態様では、組み合わせる上記ステップは、以下の関係：

【数1】

に従って、上記コンテンツ特徴ベクトルＦ_Ｃｉのブレンド係数α_ｉ０を、上記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊのブレンド係数α_ｉｊの合計と組み合わせるステップを含む。

【0032】

本開示の更なる例示的態様によると、スタイライズする上記ステップは少なくとも、彩色の変換を含む。

【0033】

本発明の別の態様では、上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の上記属性は、上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の統計的特性である。

【0034】

本発明のある例示的な態様によると、上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の上記属性は、上記スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．，Ｆ_ＳｉＮ）の平均及び共分散である。

【0035】

本発明の更なる態様は計算ステップを含み、これは、ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の値の範囲について上記ブレンド済みコンテンツ画像Ｉ_ＣＳｉの品質パラメータＱを計算するステップを含む。

【0036】

本発明の更なる例示的態様は、最適化ステップを含むプロセスを対象とし、上記最適化ステップは、上記品質パラメータＱの最高値に対応する上記ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の値を選択するステップを含む。

【0037】

本発明のある態様によると、上記品質パラメータＱはフレシェ開始距離（ＦｒｅｃｈｅｔＩｎｃｅｐｔｉｏｎＤｉｓｔａｎｃｅ：ＦＩＤ）の逆数である。

【0038】

本発明の別の態様によると、上記品質パラメータＱは、パラメータＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）である。

【0039】

本発明の別の態様によると、上記ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の合計は１に等しい。

【0040】

本開示の更なる例示的態様では、パラメータｊ＝１であり、また複数のブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）を入力する上記ステップは、単一のブレンド係数α_ｉ１を入力するステップを含み、組み合わせる上記ステップは、以下の関係：
Ｆ_ｉ ^＊＝（１－α_ｉ１）Ｆ_Ｃｉ＋α_ｉ１Ｆ_ＣＳｉ１
に従って、上記コンテンツ特徴ベクトルＦ_Ｃｉの割合α_ｉ０＝（１－α_ｉ１）を、上記スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉ１の割合と組み合わせるステップを含む。

【0041】

本発明のある態様では、本明細書で開示される上記プロセスは、コンピュータによって実装される。

【0042】

本発明のある態様は、本開示のプロセスのステップを実行するように構成された、入力デバイス、メモリ、画像処理装置（ｇｒａｐｈｉｃｐｒｏｃｅｓｓｉｎｇｕｎｉｔ：ＧＰＵ）、及び出力デバイスを備える計算システムを対象とする。

【0043】

本発明の別の態様は、本明細書で開示されるプロセスを計算システム上で実行する際に上記プロセスのステップを実行するために、コンピュータ可読媒体に記憶されたプログラムコード命令を含む、コンピュータ・プログラム製品を対象とする。

【0044】

本発明の更なる態様は、命令を含むコンピュータ可読記憶媒体を対象とし、上記命令は、コンピュータによって実行されたときに、本明細書で開示されるプロセスのステップを上記コンピュータに実装させる。

【0045】

あるコンテンツ画像データセットの外観及び感触、特にリアリティを向上させるために上記コンテンツ画像データセットの属性に対して実施される変換操作を参照して、本明細書で開示される方法及び装置の実施形態において適用されるような「スタイル転送」の簡潔な説明を提供する。本開示の冒頭の一節で示されているように、「スタイル転送」又は「スタイライズ」は、スタイル画像データセットの特定の属性又は特徴を、このような変換によって、コンテンツ画像データセットへと「転送（ｔｒａｎｓｆｅｒ）」又は「適用」する（あるいはコンテンツ画像データセットに具備させる又は採用させる）、手法を指す。スタイル転送が実施されると、コンテンツ画像は「スタイライズされた」と表現され、スタイライズ済みコンテンツ画像となる。用語「スタイル転送」及び「スタイライズ」は、本明細書中で相互交換可能なものとして使用され、スタイル画像データセットの属性又は特徴の一部の、コンテンツ画像データによるいずれの転送、具備、採用、又は適用（これらもまた本明細書中で相互交換可能なものとして使用される）を含む、コンテンツ画像データセットの上述のようなあらゆる変換を指す。

【0046】

上述のように、スタイル転送を実施するために、オートエンコーダが使用されることが多い。ダウンサンプリング及びアップサンプリングそれぞれのためのエンコーダ及びデコーダを備えるオートエンコーダは、上述のように、各データセットのアノテーションを分析して、コンテンツ画像上でこれらの強化をレンダリングするコンテンツデータセットのピクセルに対して実行される修正を決定する。従来のシステムでは上述のように、この決定はコンテンツ画像と単一のスタイル画像との比較によって導出され、更なるスタイル画像を全く参照しない。このようなシステムでは、上記比較はコンテンツ画像と単一のスタイル画像との面積類似性を検討するものであり、即ちそれぞれのピクセルの個数を計数することによるものである。類似性が十分に高い場合、コンテンツ画像はスタイル画像データを用いてスタイライズされ、そうでない場合にはスタイライズが行われない。即ち、二値的な結果となる。

【0047】

従来のシステムにおけるスタイル転送も、本開示の装置及び方法のある実施形態によるスタイル転送も、コンテンツピクセルの特定の属性又は特徴をスタイル画像の対応するピクセルの属性に対して変換（上述のような「置換」又は「転送」又は「具備」又は「採用」又は「適用」）することによってコンテンツ画像のピクセルを修正する、公知の技法からなる。この意味で、本明細書では、スタイル画像のスタイルをコンテンツ画像に「適用」すること、即ちコンテンツ画像又はその一領域の「スタイル転送」又は「スタイライズ」について言及する。本明細書における「属性」とは、関連するデータセット内のピクセルの統計的特性を指し、これらは、ピクセルのＲＧＢ値又はピクセルの強度値といった、ピクセルに関連するいずれのパラメータに関するものであり、上記統計的特性は例えば、関連するピクセルのＲＧＢ値又は他の関連パラメータの平均及び共分散である。

【0048】

上述のように、スタイル転送のためのドメインマッチングの従来のアプローチは、コンテンツ画像と単一のスタイル画像との間の類似性を決定するための、これら２つの比較を含む。上記比較はクラスごとに実施しなければならないため、上述のようにピクセルに対する適切なアノテーションに依存する。用語「エンティティクラス」、これ以降では「クラス」は、人物、自動車、建造物、植生、街路上の備品、オフィス家具といった、コンテンツ画像及びスタイル画像内で描写されるエンティティの特定のジャンルを指す。読者は、類似性のマッチングを明らかに有用なものとすることができるのは、一度に１つのクラスに基づいて実施された場合のみであり、樹木の画像に対して人物の画像の類似性を試験すること、又は自動車とバス停留所の画像のマッチングを試みることには意味がないことを理解するだろう。従ってドメインマッチングでは、全てのクラスが検討されるまで、第１のクラスのピクセルのマッチング、次に第２のクラスのピクセルのマッチング、というように検討される。

【0049】

既知のシステムでは、類似性の決定は、２つの画像の対応する領域のピクセルのアノテーション及び属性を比較する単純なプロセスであり、例えば分析されたピクセルのうち同一のアノテーション及び類似性を有するものの割合が所定の閾値を超えていることによって、類似性が十分であるとみなされる場合に、スタイルがコンテンツ画像に転送されることにより、新たなスタイライズ済みコンテンツ画像が生成される。

【0050】

マッチングが十分である場合にはスタイライズが行われるが、そうでない場合にはスタイル転送は行われない。上述のように、このプロセスの二値的な性質は満足できるものではなく、これが行われるかどうかは、コンテンツ画像と十分な類似性を有する可能性があるランダムなスタイル画像に依存する。また、２つの画像が異なるサイズを有し、従ってこれら２つの画像内のピクセルの数が大きく異なる場合、これらの間に十分な類似性がある可能性は低く、上述のようなアプローチは、コンテンツ画像とスタイル画像とが概ね同一のサイズである場合に最も良好に機能する。これは明らかに相当な制約である。

【0051】

このアプローチの上記欠点は、多数のエンティティクラスを検討する場合に更に悪化する。個々のクラスを見る際に、ある特定のクラスのピクセルの不在若しくは欠如が発生する場合があり、又は１つ以上のスタイル画像に比較的大きなサイズのミスマッチが発生する場合があり、更にクラスを追加するとこのような問題が累積される。

【0052】

本明細書の開示のある態様によると、上述の従来のアプローチに対する代替的なアプローチは、１つのコンテンツ画像の参照が、単一のスタイル画像ではなく複数のｊ個の候補スタイル画像（ｊは１からＮ_ｉまで変化する）に対するものであるアプローチであり、この複数は、各クラスに対して、即ち各ｉ値（ｉ＝１～Ｍ）に対して生じる。この態様では、コンテンツ画像に「転送」（又は「採用」、「取得」等）される属性のサブセットが、上記ｊ個の候補スタイル画像それぞれについて決定され、従ってスタイル転送が上記ｊ個のスタイル画像それぞれについて決定される。各比較について、即ちコンテンツ画像とスタイル画像との各ペアについて、異なるスタイル転送が発生することになる。ｊ個のスタイル画像が存在するため、この決定によってｊ個の個別のスタイル転送が結果として得られると考えることができる。

【0053】

このアプローチはクラスごとに適用され、各クラスｉに対して複数の候補画像が使用され、異なる複数の個別のスタイル転送が各コンテンツ‐スタイルペア（各ｉ‐ｊペア）となる。上記個別のスタイル転送は異なる複数のペアにわたって集約され、これにより、全体としての又は最終的なスタイル転送は、各ペアについて生じた個別のスタイル転送の累積（又は複合）となる。読者は、最終的なスタイライズ済みコンテンツ画像が、各クラスｉに生じた異なる複数のスタイル転送を累積的に適用した結果であり、各ｉ‐ｊペアの「成分（ｃｏｍｐｏｎｅｎｔ）」が全体としての（集合的）スタイル転送に寄与することを理解するだろう。換言すれば、最後的な全体としてのスタイル転送は、多数の構成成分、即ち各ｉクラス及び対応するｊ値において生じた個別のスタイル転送の寄与の合計である。

【0054】

なお、各ｉクラスについて、スタイル画像の総数Ｎ_ｉ、各スタイル画像自体のアイデンティティ、及び結果として得られるスタイル転送は、全て大きく異なっている場合がある。従って、（異なるｉ及びｊ値から生じた）集合的スタイル転送の構成成分は、等しくならない可能性がある：各ｉクラスで生じるスタイル転送、及びそれに関連するアーティファクト、即ちある特定のｉ値に関するスタイル転送の「性能（ｐｅｒｆｏｒｍａｎｃｅ）」、並びに集合的／複合スタイル転送に対するその寄与（及び最終的な集合的イライズ済みコンテンツ画像のリアリティに対するその寄与）は、大きく異なっている。

【0055】

個々の成分の様々な性質、及び集合的スタイル転送に対するそれらの不均一な寄与を利用するために、異なる複数の成分を、上述の集約時に異なる方法で処理できる。一部の成分を多く、他の一部の成分を少なくすることによって、ある特定のｉ値又はｊ値からの寄与をそれぞれ増大又は減少させることができる。個々の成分を選択的に拡大又は縮小すると、これらの成分の個々の寄与が変化し、従って集合的スタイル転送も変化する。一部の成分を比較的大量に通過させ、他の一部の成分の寄与を抑制することにより、完成するコンテンツ画像の品質を修正できる。高性能の成分を通過させるか又は強調し、低性能の成分を相対的に減衰させるか又は抑制すると、最終的なスタイライズ済み画像の品質又はリアリティを大幅に向上させることができる。読者は、異なる複数の成分の特定の組み合わせにより、高品質のリアルなスタイライズ済みコンテンツ画像が提供され、異なる複数の成分の特定の「ブレンド（ｂｌｅｎｄ）」が、同じ成分の他のブレンドに比べて大幅に良好なスタイライズをもたらすことを理解するだろう。

【0056】

本明細書で開示されるプロセス及び構成のある態様によると、集合的スタイル転送の異なる複数の構成成分を不均一に組み合わせる、又はブレンドすることによって、改善された集合的スタイル転送、及び最適なスタイライズ済みコンテンツ画像を得ることができる。

【0057】

上述のように、スタイル転送は、コンテンツ画像の特定の属性の、スタイル画像からの特定の属性と置換することによる変換と考えることができる。これは従来、関連する画像のダウンサンプリングとアップサンプリングとの間に行われ、即ちスタイル転送は上述のように特徴ベクトルのレベルで行われ、スタイル特徴ベクトルからの関連する属性を用いて、関連する変換がコンテンツ特徴ベクトルに適用され、次にスタイライズ済みコンテンツ特徴ベクトルがアップサンプリングされて、スタイライズ済みコンテンツ画像が生成される。所与のｉ値についてｊ個のスタイル画像それぞれから生じる（即ちそれぞれがコンテンツ特徴ベクトルに適用される）個別のスタイライズは、実際にはベクトル空間で行われる。全体としての／集合的スタイル転送を得るための複数のスタイル転送の組み合わせもまたベクトル空間で行われ、その後、スタイライズ済みコンテンツ特徴ベクトルからのアップサンプリングによって、最終的な集合的スタイライズ済みコンテンツ画像が得られる。前節に記載したようなスタイル転送のいずれの組み合わせ又は集約もまた、ベクトル空間で行われる：読者は、個別のスタイライズの不均一な組み合わせ、又はブレンドが、関連する特徴ベクトルに関しても行われることを理解するだろう。換言すれば、異なる複数の（ｊ値が異なる）スタイライズ済みコンテンツ特徴ベクトルを異なる割合で集約できる。

【0058】

本発明のある態様によると、本発明は、異なるｉ値及びｊ値で生じた複数の個別のスタイライズ済みコンテンツ特徴ベクトルを含む特徴ベクトルを微調整し、これによって上記個別のスタイライズ済みコンテンツ特徴ベクトルを、結果として得られるスタイライズ済みコンテンツ画像の品質の最適化のために、ユーザが決定した混合（ｍｉｘ）で組み合わせる又はブレンドするための、方法及び構成を提供するために、提案される。個々の成分ベクトルの一部が強く減衰しているか、更には除去されており、一方で他の成分ベクトルが増加している又は増強されているという意味で、このようなブレンド又は混合は強く偏っている可能性がある。

【0059】

図１は、本開示のある態様による装置、即ち：入力手段（１０２）、画像処理装置（１０４）を伴うプロセッサ（１０３）、メモリ（１０５）、及び出力ユニット、例えばディスプレイ（１０６）を備えた、計算デバイス（１０１）の概略図を示す。読者は、上記メモリが、大きな画像データセットを記憶してこれらをプロセッサに通信するために十分な大きさでなければならず、上記プロセッサ自体は、上記データセットを修正するように構成されていることを理解するだろう。プロセッサ（１０３）及び画像処理装置（１０４）は、データセットを取得して、本明細書に記載されているようなプロセスを実行するように構成される。

【0060】

図２は、従来のシステムによって提供されるような、標準的なスタイル転送を示す。図の左側では、コンテンツデータセット（コンテンツ画像Ｉ_Ｃｉ）がエンコーダによってダウンサンプリングされて、コンパクトなコンテンツ特徴ベクトルＦ_Ｃｉに変換されており、上記コンパクトなコンテンツ特徴ベクトルＦ_Ｃｉは、コンパクトであるにもかかわらず、元のコンテンツデータセットの属性の大半を保持している。エンコーダはスタイルデータセット（スタイル画像Ｉ_Ｓｉ）もダウンサンプリングして、スタイルデータセットの属性の大部分を含むコンテンツ特徴ベクトルＦ_Ｓｉを提供する。最初の変換である白色化Ｗはコンテンツ特徴ベクトルＦ_Ｃｉに対して実施され、これはコンテンツ特徴ベクトルＦ_Ｃｉを「白色化（ｗｈｉｔｅｎ）」する。「白色化」（Ｗ）は予備スタイライズステップとして必要であり、コンテンツ特徴ベクトルＦ_Ｃｉから、それが含むいずれの色情報を、他の全てのコンテンツデータを保存したまま効果的に取り出し：白色化されたコンテンツ特徴ベクトルＦ_Ｃｉは、この意味において無色となる。白色化変換の完全な詳細は本明細書では提供されないが、白色化を実施すると、コンテンツ特徴ベクトルＦ_Ｃｉはスタイル特徴ベクトルＦ_Ｓｉとの相互作用の準備ができた状態となることを記載しておけば十分である。次にコンテンツ特徴ベクトルＦ_Ｃｉを、更なる変換である彩色（Ｃ）に供することができ、これにより、スタイル特徴ベクトルＦ_Ｓｉ内に存在するスタイルデータセット（スタイル画像Ｉ_Ｓｉ）の属性の一部が、コンテンツ特徴ベクトルＦ_Ｃｉに採用され、即ちベクトルＦ_Ｃｉへのスタイル転送が実施され、これによってスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉが提供される。次に図２の右側では、デコーダがスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉをアップサンプリングして、スタイライズ済みコンテンツ画像Ｉ_ＣＳｉを生成する。

【0061】

以下の一節は、単一のコンテンツ画像と単一のスタイル画像とを用いる従来のスタイル転送の説明である。上述のように、エンコーダ‐デコーダ（オートエンコーダ）は不完全であるため、オートエンコーダを１回通過する（即ちダウンサンプリング、それに続く変換、及び最後のアップサンプリング）だけでは、エラー（アーティファクト）が生成される可能性がある。このようなアーティファクトは、ぼやけ、一部のオブジェクトの不明瞭さ、歪み、又は望ましくないパターンとして現れ、これらは共に、出力されるスタイライズ済みコンテンツ画像の品質を低下させる。

【0062】

既に説明したように、全体としてのスタイル転送は、各スタイル画像及び各エンティティクラスｉに対して生じる、構成要素としての複数回のスタイル転送の集合体である。読者は、図２に関して既に説明した（各コンテンツ画像に対して単一のスタイル画像が存在し、スタイライズがこのスタイル画像のみに基づくものである）基本的な従来のタイプとは区別される、このようなスタイル転送におけるパラメータｉとパラメータｊとの関連性を理解するだろう。これらのパラメータｉ及びｊは、上述の集合的（複合）スタイル転送の異なる複数の成分に関する強化又は減衰を容易にする、以下に記載される一般的な微調整モデルに関連するものである。

【0063】

本発明のプロセス及び構成のある態様によると、図３は「微調整可能な（ｔｕｎａｂｌｅ）」スタイル転送を示しており、ここでは、異なるｉ及びｊ値に関連する（ある集合的スタイル転送の）特定の複数の成分を、オペレータの必要に応じて個別に調整できる。これは可変微調整モデルであり、これによりオペレータは、上述の集合的（複合）スタイル転送の指定された成分の個別の寄与を、低減若しくは抑制若しくは排除、又は増強若しくは強調できる。上述のように、特定の指定された成分、特に比較的多数のアーティファクトを発生させる成分を低減することにより、集合的スタイル転送から得られる最終的なスタイライズ済み画像の品質を向上させることができる。読者は、図２においてと同様に、図３に示されているプロセスが、左側に：入力された画像（コンテンツ画像Ｉ_Ｃ及びスタイル画像Ｉ_Ｓ）の、対応する特徴ベクトルＦ_Ｃ及びＦ_Ｓへのダウンサンプリング；これに続いて、コンテンツ特徴ベクトルＦ_Ｃをスタイライズするためのスタイル転送を含む、特徴ベクトルに対する何らかの変換Ｗ及びＣ；並びに最後に、スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳに作用してスタイライズ済みコンテンツ画像Ｉ_ＣＳを出力する（ダウンサンプリングを反転させるための）アップサンプリングを表していることを理解するだろう。

【0064】

単一のコンテンツ画像及びスタイル画像のみを伴う図２とは対照的に、図３は、１つのコンテンツ画像Ｉ_Ｃｉ（ここでｉ＝１～Ｍ）の各クラスｉに対する、複数であるｊ個のスタイル画像Ｉ_Ｓｉｊ（ここでｊ＝１～Ｎ）の（従来のシステムでは知られていない）可能性も図示しており、ここでは各ｊ値について、関連する（白色化された）コンテンツ特徴ベクトルＦ_Ｃｉに対して、選択されたスタイル特徴ベクトルＦ_Ｓｉｊによって個別のスタイル転送が実施される。これは、各「Ｃ」変換において生じるｊ回のスタイライズそれぞれについて１つが生成される一連の「成分」、即ちスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの生成につながる。従って、図２の従来の構成との違いは、図３が、上述のようにそれぞれが集合的スタイル転送の異なる成分をもたらす異なる複数のｉ値及びｊ値を含む、より複雑なシナリオを反映している点である。

【0065】

本発明の更なる態様によると、これらの成分は、オペレータによって自由に混合できる。従来のシステムとは異なり、図３に示されている構成は、個別のスタイル転送（異なる複数の彩色変換「Ｃ」によって示されるような）個別のスタイル転送それぞれから生じる異なる複数の成分の不均一な処理を提供する。図２の従来のシナリオとは異なり、図３のシナリオでは、各コンテンツ特徴ベクトルＦ_Ｃｉについてｊ個のスタイル特徴ベクトルＦ_Ｓｉｊが存在するため、各ｉ値について、１つの選択されたスタイル特徴ベクトルＦ_Ｓｉｊと、ｊ個のスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊ（ここでｊ＝１～Ｎ）とが存在する。次に、異なる複数のスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの集合体を、従来の構成と同様にアップサンプリングして、該ｉ値に対するスタイライズ済みコンテンツ画像Ｉ_ＣＳｉを生成する。

【0066】

本発明のプロセス及び方法のある例示的実施形態によると、図３は、異なる複数のスタイライズ成分（スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊ）の組み合わせを示す。本発明は、いずれのｉ値及びｊ値において生じる個別の成分変換（これによって、コンテンツ画像の属性若しくはデータ、又はその対応する特徴ベクトルが変換されて、少なくとも１つのスタイル画像の１つ以上の特徴ベクトルの属性の一部又は全て（属性のサブセット）が得られる）の、いずれの組み合わせ又は集合体を含む。異なる複数のスタイル特徴ベクトルからの属性の取得、及び対応するスタイライズの程度は、全ての成分にわたって、即ち全てのスタイル特徴ベクトルにわたって等しいものではなく、集合体／組み合わせ内には個別の成分変換が様々な割合で存在する。一部の集合体／組み合わせでは、特定の成分を強調してよく、他の成分を減衰させる、又は排除する。成分の特定の混合は、オペレータが自身の必要に応じて決定する。

【0067】

本発明のプロセス及び構成のある態様によると、集合的スタイル転送は、コンテンツ特徴ベクトルＦ_Ｃｉに対して演算される個別のスタイル転送の加重平均とすることができる。実際には、重み付けは特徴ベクトル空間で行われ、上記加重平均は、スタイライズ済みコンテンツ特徴ベクトルの加重平均であり、重みは、異なるｉ値及びｊ値におけるＦ_ＣＳｉｊの初期化値Ｆ_Ｃｉを含む各スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊに対して演算されるブレンド係数α_ｉｊによって形成される。重み（又はブレンド係数α_ｉｊ）は、加重平均内に存在する関連するスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの割合を、効果的に決定する。

【0068】

本発明のある例示的なプロセス及び構成によると、図３に示されている組み合わせ／集合体は、個別のスタイライズ成分に適用可能なパラメータαを含んでよい。より正確には、パラメータα_ｉｊが、集合的スタイル転送の個々の成分（又は構成部分）を決定するｉ及びｊ両方の関数であることにより、各成分を、オペレータが決定した通りに減少又は増加させることができる。パラメータα_ｉｊにより、スタイル転送のための、より柔軟でユーザ決定型の微調整モデルが容易になる。このパラメータα_ｉｊはブレンド係数と呼ばれ、異なる複数のｉ値及びｊ値について生じるスタイル転送の成分を修正するために使用できる（実際にはスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊに適用される（以下を参照））。通過するベクトルＦ_ＣＳｉｊの割合を決定するそれぞれのブレンド係数α_ｉｊによって修正された個別のスタイライズ済み特徴ベクトルＦ_ＣＳｉｊをそれぞれ含む、異なる複数のスタイル転送成分は、全体としての集合的スタイル転送として組み合わされ（即ち合計され）、これにより、ブレンド済み特徴ベクトルＦ_ｉ ^＊が導出される。ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮは、それぞれ独立して決定できる。ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）のうちのいずれかの、何らかの変化は、スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの混合又はブレンドを直接変化させ、これにより異なるブレンド済み特徴ベクトルＦ_ｉ ^＊がもたらされる。ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）のいくつかの値を増大させることにより、対応する成分スタイル転送は強化され、ブレンド係数のいくつかの値を減少させることにより、成分スタイル転送は低減される。読者は、各ブレンド係数（α_ｉｊ：α_ｉ０，α_ｉ１，α_ｉ２，．．．，α_ｉＮ）の値の選択的決定によって、ブレンド済み特徴ベクトルＦ_ｉ ^＊の「スタイライズを強くする（ｍｏｒｅｓｔｙｌｉｓｅｄ）」又は「スタイライズを弱くする（ｌｅｓｓｓｔｙｌｉｓｅｄ）」ことができ、スタイライズが最小限であるか又は行われない状況とスタイライズが最大限である状況との両極の状況の間で、ブレンド済み特徴ベクトルＦ_ｉ ^＊を微調整できることを理解するだろう。

【0069】

本開示のプロセス及び構成のある態様によると、スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊの組み合わせ／集合体、又は加重平均は、以下の関係：

【数2】

によって表すことができる。

【0070】

図３に関連して上述されているように、スタイライズ済みコンテンツ特徴ベクトルの他の組み合わせも想定できる。

【0071】

異なる重み付け（ブレンド係数α_ｉｊ）を、集合的（複合）スタイル転送の異なる成分を提供するものとみなすことができる各スタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊに対して、適用できる。上述のように、集合的スタイル転送の異なる複数の成分、即ち異なる複数のスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊは、等しいものではなく、集合体に対して不均一に寄与し、エラーの伝播に関してそれぞれ異なる性能を有する。オペレータは、異なる複数のスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊのブレンド係数α_ｉｊ及び比例的な寄与を自由に選択できる。読者は以上から、異なる複数の係数α_ｉｊを変化させることによってスタイライズのいくつかの成分を強化し、他の成分を低減できることを理解するだろう。更に、アーティファクトが比較的少ない成分を強化し、同時にアーティファクトが多い成分を減衰させることによって、集約された信号、即ち複合スタイライズ済みコンテンツ特徴ベクトル、例えばＦ_ｉ ^＊の、少なくともエラー及びアーティファクトに関する全体的な性能を、選択的に向上させることができる。ブレンド係数α_ｉｊの異なる組は、複合（集合的）スタイライズ済みコンテンツ特徴ベクトルＦ_ｉ ^＊の品質に対する、従って、複合スタイライズ済みコンテンツ特徴ベクトルＦ_ｉ ^＊のアップサンプリング済みバージョンであるブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉに対する、全体的な効果が異なっている。読者は、ブレンド係数α_ｉｊの組を選択的に決定することによって、上記組を決定したオペレータは、ブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉの品質を向上させるための相当な自由度を有し、スタイライズ済みコンテンツ特徴ベクトルの成分のユーザ決定型加重平均、及び特にブレンド係数α_ｉｊは、スタイライズ済み画像の品質の大幅な改善を促進する。

【0072】

上述のステップは、異なる複数のスタイル画像からの（これらの特徴ベクトルからの）属性の異なる混合を、コンテンツ画像に（その特徴ベクトルによって）適用する（取得させる）ために選択することによって、コンテンツ画像への全体的なスタイル転送の最適化を促進する。読者は、図１に記載されているように、（図３に示されている）これらのプロセスステップが、プロセッサ（１０３）及びそのＧＰＵ（１０４）によって実施でき、コンテンツ／スタイル画像はメモリ（１０５）から呼び出されるか又は手段（１０２）を用いて入力され、出力画像は出力手段（１０６）を用いてレンダリングできることを理解するだろう。読者は、入力手段（１０２）を、現実の画像をキャプチャするために好適なカメラとすることができ、上記現実の画像それ自体をスタイル画像として使用できることを理解するだろう。

【0073】

本明細書で開示されるプロセス及び構成のある例示的な態様では、ブレンド済み特徴ベクトルＦ_ｉ ^＊を導出するための全体としての集合的スタイル転送内の、それぞれのブレンド係数α_ｉｊによって修正された個別のスタイライズ済みコンテンツ特徴ベクトルＦ_ＣＳｉｊをそれぞれ含む異なる複数のスタイル転送成分の組み合わせは、ｊ＝Ｎ＝１であるシナリオでは、以下の関係：
Ｆ_ｉ ^＊＝（１－α_ｉ１）Ｆ_Ｃｉ＋α_ｉ１Ｆ_ＣＳｉ１［２］
によって表すことができる。

【0074】

このシナリオでは、いずれのｉ値についてα_ｉｊの値は１つだけ存在し、これは可変ブレンド係数α_ｉ１である。２つの成分、即ち（１－α_ｉ１）Ｆ_Ｃｉ及びα_ｉ１Ｆ_ＣＳｉ１だけを含む、この組み合わせの式［２］は、実際には既出の節にある組み合わせの式［１］の特別なケースであり、［１］において以下の制約：
α_ｉ０＋α_ｉ１＝１
を用いることによるものである。

【0075】

換言すれば、上記制約は以下を規定する：
α_ｉ０＝１－α_ｉ１

【0076】

読者は、式［１］におけるこの規定が、式［２］の特定の関係を導くことを理解するだろう。この２つ目の式［２］を表面的に精査すると、これは適用されるスタイライズを変更するための微調整モデルを効果的に表していることが分かる：α_ｉ１＝１では第１の成分が完全に欠け、Ｆ_ｉ ^＊＝Ｆ_ＣＳｉ１となり、これは最大限のスタイライズが行われたブレンド済み特徴ベクトルに対応し；α_ｉ１＝０となる反対側の極点では、第２の成分が完全に欠けてＦ_ｉ ^＊＝Ｆ_Ｃｉとなり、即ちブレンド済み特徴ベクトルは元のコンテンツ特徴ベクトルＦ_Ｃｉと同一となり、従ってブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉは入力されたコンテンツＩ_Ｃｉと同一となり、スタイライズは全く行われていない。

【0077】

組み合わせの式［２］に関して（ただし同じことは組み合わせの式［１］にも当てはまるが）、読者は、この関係が、α_ｉ１＝０とα_ｉ１＝１との間を動いて全ての中間値を含むスタイライズを変更するための、調整可能なメカニズムを提供することを、即座に理解するだろう。この調整可能なメカニズムは、事実上、スタイライズ微調整デバイスとなる。

【0078】

本発明のプロセス及び構成のある態様では、図４は、ブレンド係数α_ｉｊの異なる組み合わせが適用された多数のスタイライズ済みコンテンツ画像を示す。説明を簡潔にするために、図４に示されている例示的な分析では、「ｉ」の全ての値にわたってブレンド係数の単一の固定値を想定しており、ブレンド係数α_ｉ１はこの図では単に「α」と呼ばれ、これは値０と値１との間で変化する。図を煩雑にするのを避けるために、（４０１）にはスタイル画像が１つだけ示されているが、読者は、既に説明したように複数のスタイル画像が含まれる場合があることを理解するだろう。ブレンド係数αの異なる複数の値の影響を説明するために、図４では一例として、値０と値１との間で変化し、それに伴って集合的スタイル転送が変化するシナリオについて、具体的に考察する。α値が０である場合、ブレンドの影響は、コンテンツ特徴ベクトルＦ_Ｃｉをスタイライズされないままとすることであり、即ち（４０２）に示されているように、ブレンド済み特徴ベクトルＦ_ｉ ^＊は入力されたコンテンツ特徴ベクトルＦ_Ｃｉと同一であり、ブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉは入力されたコンテンツ画像Ｉ_Ｃと同一である。（４０２）におけるブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉは鮮明かつ明瞭であるが、スタイル画像（４０１）から得られる情報を全く含まず、事実上スタイライズされていない。

【0079】

αが１．０に設定される他方の極点では、コンテンツ特徴ベクトルＦ_Ｃｉは、各スタイル画像Ｉ_Ｓｉｊから導出された異なる複数のスタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．,Ｆ_ＳｉＮ）の組み合わせによって、「完全にスタイライズされ」、結果として得られるブレンド済み特徴ベクトルＦ_ｉ ^＊（及びアップサンプリング後に結果として得られるブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉ）は、（４０４）において、最大限のスタイライズを表す。（４０４）に示されているブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉは、最大限にスタイライズされた画像データを含むものの、アーティファクトの拡散がより大きくなるという代償を払う。画像のいくつかの部分はぼやけており、上記画像内の一部のエンティティ、例えば背景の建造物は視認できなくなる。これは、関連するアノテーションが上記画像にマッチしなくなる（「建造物」としてラベリングされたピクセルは、スタイライズ済み画像内では建造物を指していない）ためである。

【0080】

これら２つの極点の間には、他のブレンド済みコンテンツ特徴ベクトルＦ_ｉ ^＊、及び最小限と最大限との間の中間のスタイライズが施された他のブレンド済みスタイライズ済みコンテンツ画像Ｉ_ＣＳｉをもたらす、スタイル特徴ベクトル（Ｆ_Ｓｉｊ：Ｆ_Ｓｉ１，Ｆ_Ｓｉ２，．．．,Ｆ_ＳｉＮ）の他の組み合わせが存在する。このような中間のスタイライズの一例が（４０３）に示されており、これについて、α＝０．３である。この中間のスタイライズは、本質的には２つの極点の間の妥協点であり、（４０３）において容易に確認できるように、このα_ｉ１の値は適度に鮮明に見え、大半のエンティティが明瞭である。（４０３）では建造物を明瞭に視認できる。図４は白黒のみであるが、（本明細書では提供されない）カラーバージョンでは、良好な色の表現が得られ、スタイル画像（４０１）の色と同様である。

【0081】

スタイライズ済みコンテンツ画像Ｉ_ＣＳｉの品質の分析により、図４に関して説明した２つの極点で画像の最高のフォトリアリズムが必ずしも生じるわけではなく、最も良好なスタイライズ済みコンテンツ画像Ｉ_ＣＳｉ（即ちリアリティについて最も良好なもの）は、中間の組み合わせの結果となり得ることが明らかとなっている。

【0082】

本発明のプロセス及び構成のある態様によると、図５は、スタイライズ済みコンテンツ画像の品質がブレンド係数α_ｉｊによってどのように変化するかを示している。説明を簡潔にするために、図５に示されている例示的な分析では単一の固定ｉ値及びｊ値を想定しており、ブレンド係数α_ｉ１はこの図では単に「α」と呼ばれ、これは値０と値１との間で変化する。垂直軸は一般的な品質パラメータ（これをＱと呼ぶことができる）の値を示し、この例示的な分析ではこれはフレシェ開始距離（ＦＩＤ）であるが、ＩＯＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）等の他の画像品質パラメータも簡単に使用できる。

【0083】

ＦＩＤスコアは、２つのデータセット間の統計的距離の尺度であり、これらのデータセットが同一である場合、ＦＩＤスコアは０を返し、ＦＩＤスコアの値が大きくなるほど２つのデータセットの互いからの距離が大きくなる。換言すれば、ＦＩＤが小さいことは、問題となっている２つのデータセット間の類似性又は対応度が高いことを示す。品質パラメータＱとしては、ＦＩＤスコアは品質の逆尺度であり、即ち最低のＦＩＤスコアが最高の品質を表す。図５は、スタイル画像データセットとコンテンツデータセットとの間のＦＩＤスコアを示し、上記コンテンツデータセットは、上記スタイル画像データセットからの画像によって、０～１の異なる値を用いてスタイライズされており、上述の微調整メカニズムを用いて、異なる複数のスタイル転送（成分スタイル転送の集合体）と、異なる複数の画像品質を得る。

【0084】

興味深いことに、ＦＩＤスコアはα＝０．５で最小となり、これは従って最高品質のポイントであり、またこの値の周りで非対称に分布する。この分析により、スタイライズ済みコンテンツ画像の品質及びリアリティを最大化する微調整の入力をユーザが特定することによって、スタイル転送を最適なレベルに微調整できるようにする、スタイル転送微調整モデルの有用性が実証される。

【0085】

本開示は態様及び実施形態の複数の例を参照しているが、本発明の実施形態が本明細書で明示的に参照されたものに限定されないことは、容易に理解されるだろう。全ての態様及び実施形態は、本明細書で明示的に参照されていないものを含むいずれの個数の補正、改変、変更、又は置換を含むように、修正できる。従って本発明の実施形態は、本明細書に記載された説明によって限定されるものと理解するべきではなく、添付の特許請求の範囲によってのみ限定されるものとする。いくつかの実施形態のいくつかの特徴は、一部の実施例、実施形態又は図面には見られるものの他の実施例、実施形態又は図面には見られないが、これは簡潔さ及び分かりやすさのためだけのものであり、本明細書で開示されている態様及び実施形態の構成要素、特徴及び構造は、必要に応じて容易に組み合わせることができる。このような組み合わせが、ある実施形態のある特定の態様に関して本明細書で図示されていない、又は明示的に参照されていない場合であっても、これは説明の簡潔さのためだけのものであり、このような組み合わせが除外される又は不可能であることを意味するものとして解釈してはならない。様々な態様及び実施形態の異なる複数の特徴を必要に応じて混合する又は組み合わせることができ、本開示は、本明細書で参照されている特徴のあらゆる組み合わせ及び順列を包含するものと解釈されるものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版