特開2023-19221 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スクウェア・エニックスの特許一覧

特開2023-19221スタイルトランスファープログラムおよびスタイルトランスファー方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023019221

(43)【公開日】2023-02-09

(54)【発明の名称】スタイルトランスファープログラムおよびスタイルトランスファー方法

(51)【国際特許分類】

G06T 1/00 20060101AFI20230202BHJP

【ＦＩ】

G06T1/00 500A

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021123760

(22)【出願日】2021-07-28

(71)【出願人】

【識別番号】308033283

【氏名又は名称】株式会社スクウェア・エニックス

(74)【代理人】

【識別番号】100155402

【弁理士】

【氏名又は名称】松田真

(72)【発明者】

【氏名】ハンディエドガー

(72)【発明者】

【氏名】三宅陽一郎

(72)【発明者】

【氏名】坂田新平

【テーマコード（参考）】

5B057

【Ｆターム（参考）】

5B057BA02

5B057CA01

5B057CA08

5B057CA12

5B057CA16

5B057CB01

5B057CB08

5B057CB12

5B057CB16

5B057CC03

5B057CD05

5B057CD08

5B057CE08

5B057DA20

5B057DB02

5B057DB06

5B057DB09

5B057DC36

5B057DC40

(57)【要約】

【課題】表現力に富むスタイルトランスファーを実現させる。
【解決手段】スタイルトランスファープログラムが、コンピュータに、画像データを取得する取得機能と、前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー機能と、スタイルトランスファーが適用された後のデータを出力する出力機能と、を実現させる。
【選択図】図３

【特許請求の範囲】

【請求項1】

コンピュータに、
画像データを取得する取得機能と、
前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー機能と、
スタイルトランスファーが適用された後のデータを出力する出力機能と、
を実現させるためのスタイルトランスファープログラム。

【請求項2】

前記スタイルトランスファー機能では、前記画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する機能を
実現させるための、請求項１に記載のスタイルトランスファープログラム。

【請求項3】

前記コンピュータに、
前記画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを取得する、マスク取得機能をさらに実現させ、
前記スタイルトランスファー機能では、前記マスクを用いて、前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する機能を
実現させるための、請求項１または請求項２に記載のスタイルトランスファープログラム。

【請求項4】

前記スタイルトランスファー機能では、スタイルトランスファーを抑制する領域が異なる複数の前記マスクを用いて、前記画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する機能を
実現させるための、請求項３に記載のスタイルトランスファープログラム。

【請求項5】

前記スタイルトランスファー機能では、前記画像データに含まれる一以上のオブジェクトに対応する対応領域であるか、または前記対応領域以外の領域である、前記一部の領域についてスタイルトランスファーを抑制するための前記マスクを用いて、前記スタイルトランスファーを適用する、
請求項３または請求項４に記載のスタイルトランスファープログラム。

【請求項6】

前記スタイルトランスファー機能では、前記画像データに対して適用されている一以上のエフェクトに対応する対応領域であるか、または前記対応領域以外の領域である、前記一部の領域についてスタイルトランスファーを抑制するための前記マスクを用いて、前記スタイルトランスファーを適用する、
請求項３から請求項５のうちいずれか一項に記載のスタイルトランスファープログラム。

【請求項7】

前記スタイルトランスファー機能では、前記画像データを構成する色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像を構成する色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する機能
をさらに実現させるための、請求項１から請求項６のうちいずれか一項に記載のスタイルトランスファープログラム。

【請求項8】

請求項１から請求項７のうちいずれか一項に記載のスタイルトランスファープログラムがインストールされたコンピュータ。

【請求項9】

コンピュータによるスタイルトランスファー方法であって、
画像データを取得する取得処理と、
前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー処理と、
スタイルトランスファーが適用された後のデータを出力する出力処理と、を含む、
スタイルトランスファー方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態の少なくとも一つは、スタイルトランスファープログラムおよびスタイルトランスファー方法に関する。

【背景技術】

【0002】

写真画像をゴッホ風やモネ風などの所定のスタイルに応じた画像へ変換する、スタイルトランスファーの技術が知られている。

【0003】

特許文献１には、スタイル変換（ｓｔｙｌｅｔｒａｎｓｆｅｒ）についての記載がなされている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０２０－１８７５８３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来のスタイルトランスファーは、入力画像全体をモネ風などの所定のスタイルに変換するものであった。しかしながら、入力画像を単に所定のスタイルに変換するだけでは、表現力の幅が狭いと考えられる。また、入力画像の一部をあるスタイルに変換し、他の一部を別のスタイルに変換するなどの、表現力に富む柔軟なスタイルトランスファーを行うことはできなかった。さらに、スタイルトランスファーを適用した後の画像は、スタイル画像の色に基づいた色で構成されるものであり、元の画像（コンテンツ画像）の色と、スタイル画像の色との間を動的に制御することはできず、この観点からも表現力に富むものではなかった。

【0006】

本発明の少なくとも一つの実施形態の目的は、上記課題を解決し、表現力に富むスタイルトランスファーを実現させることである。

【課題を解決するための手段】

【0007】

非限定的な観点によると、本発明の一実施形態に係るスタイルトランスファープログラムは、コンピュータに、画像データを取得する取得機能と、前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー機能と、スタイルトランスファーが適用された後のデータを出力する出力機能と、を実現させるためのものである。

【0008】

非限定的な観点によると、本発明の一実施形態に係るスタイルトランスファー方法は、コンピュータによるスタイルトランスファー方法であって、画像データを取得する取得処理と、前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー処理と、スタイルトランスファーが適用された後のデータを出力する出力処理とを含むものである。

【発明の効果】

【0009】

本願の各実施形態により１または２以上の不足が解決される。

【図面の簡単な説明】

【0010】

【図1】本発明の実施形態の少なくとも一つに対応するビデオゲーム処理システムの構成の例を示すブロック図である。

【図2】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図3】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図4】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図5】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図6】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図7】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図8】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図9】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図10】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図11】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図12】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図13】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図14】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。

【図15】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。

【図16】本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。

【図17】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。

【図18】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。

【図19】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。

【図20】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図21】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図22】本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークの構造例を示す概念図である。

【図23】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。

【図24】本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。

【図25】本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。

【図26】本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。

【図27】本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。

【図28】本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

【図29】本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

【図30】本発明の実施形態の少なくとも一つに対応する、画像データを３つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。

【図31】本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。

【図32】本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。

【図33】本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。

【図34】本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【図35】本発明の実施形態の少なくとも一つに対応し得る、スタイルトランスファーネットワークの学習（トレーニング）方法を例示する概念図である。

【図36】本発明の実施形態の少なくとも一つに対応し得る、スタイルベクトルの構成を例示する概念図である。

【図37】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーネットワークの学習（トレーニング）方法を例示する概念図である。

【図38】本発明の実施形態の少なくとも一つに対応する、スタイルベクトルの構成を例示する概念図である。

【図39】本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーネットワークの学習方法の一部を例示する概念図である。

【図40】本発明の実施形態の少なくとも一つに対応する、ＲＧＢブランチにおけるＲＧＢ最適化関数の計算例を示す概念図である。

【図41】本発明の実施形態の少なくとも一つに対応する、ＹＵＶブランチにおけるＹＵＶ最適化関数の計算例を示す概念図である。

【図42】本発明の実施形態の少なくとも一つに対応する、色の動的制御を行うスタイルトランスファーにおける最適化関数を例示する概念図である。

【図43】本発明の実施形態の少なくとも一つに対応する、ＲＧＢブランチにおけるＲＧＢ最適化関数の計算例を示す概念図である。

【図44】本発明の実施形態の少なくとも一つに対応する、ＹＵＶブランチにおけるＹＵＶ最適化関数の計算例を示す概念図である。

【図45】本発明の実施形態の少なくとも一つに対応する最適化処理を例示する概念図である。

【図46】本発明の実施形態の少なくとも一つに対応する、プロセッサによる色の動的（ランタイム）制御例を示す概念図である。

【発明を実施するための形態】

【0011】

以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローやシーケンスを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。

【0012】

［第１の実施形態］
本発明の第１の実施形態の概要について説明をする。以下では、第１の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。

【0013】

図１は、本発明の実施形態の少なくとも一つに対応するビデオゲーム処理システム１００の構成の例を示すブロック図である。ビデオゲーム処理システム１００は、ビデオゲーム処理サーバ１０（サーバ１０）と、ビデオゲーム処理システム１００のユーザ（ゲームのプレイヤ等）が使用するユーザ端末２０とを備える。ユーザ端末２０Ａ、２０Ｂ、および２０Ｃはそれぞれ、ユーザ端末２０の一例である。ビデオゲーム処理システム１００の構成はこれに限定されない。例えば、ビデオゲーム処理システム１００は、単一のユーザ端末を複数のユーザが使用する構成であってよい。ビデオゲーム処理システム１００が複数のサーバを備えてもよい。

【0014】

サーバ１０とユーザ端末２０は、コンピュータの一例である。サーバ１０とユーザ端末２０は、それぞれインターネットなどの通信ネットワーク３０に通信可能に接続されている。通信ネットワーク３０とサーバ１０との間の接続、および通信ネットワーク３０とユーザ端末２０との間の接続は有線接続であっても無線接続であってもよい。例えば、ユーザ端末２０は、通信事業者が管理する基地局と無線通信回線によるデータ通信を行うことにより、通信ネットワーク３０と接続してよい。

【0015】

ビデオゲーム処理システム１００は、サーバ１０とユーザ端末２０とを備えることにより、ユーザの操作に応じて各種処理を実行するための各種機能を実現する。

【0016】

サーバ１０はビデオゲームの進行を制御する。サーバ１０は、ビデオゲーム処理システム１００の管理者によって管理され、複数のユーザ端末２０に対して各種処理に関する情報を提供するための各種機能を有する。

【0017】

サーバ１０は、プロセッサ１１と、メモリ１２と、記憶装置１３とを備える。プロセッサ１１は、例えば、各種の演算および制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の中央処理装置である。また、サーバ１０がＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備える場合には、各種の演算および制御の一部をＧＰＵによって行うようにしてもよい。サーバ１０は、メモリ１２に読み出したデータを用いて各種の情報処理をプロセッサ１１にて実行し、得られた処理結果を必要に応じて記憶装置１３に記憶させる。

【0018】

記憶装置１３は、各種情報を格納する記憶媒体としての機能を有する。記憶装置１３の構成は特に限定されないが、ユーザ端末２０にかかる処理負荷を軽減させるといった観点から、ビデオゲーム処理システム１００にて行われる制御に必要な各種情報を全て記憶可能な構成であることが好ましい。このような例には、ＨＤＤやＳＳＤがある。ただし、各種情報を記憶する記憶装置は、サーバ１０がアクセス可能な状態で記憶領域を備えていればよく、例えば専用の記憶領域をサーバ１０の外部に有する構成とされていてもよい。

【0019】

サーバ１０は、ゲーム画像をレンダリング可能なゲームサーバなどの情報処理装置によって構成されてよい。

【0020】

ユーザ端末２０はユーザによって管理され、ネットワーク配信型のゲームを行うことが可能な通信端末によって構成される。ネットワーク配信型のゲームを行うことが可能な通信端末の例として、例えば携帯電話端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、携帯型ゲーム装置、ＶＲゴーグル、ＡＲグラス、スマートグラス、所謂ウェアラブルデバイスなどがある。ビデオゲーム処理システム１００が含み得るユーザ端末の構成はこれらに限定されず、ユーザが合成画像を認識し得る構成であればよい。ユーザ端末の構成の他の例には、各種通信端末を組み合わせたものやパーソナルコンピュータ、据置型ゲーム装置がある。

【0021】

ユーザ端末２０は、通信ネットワーク３０に接続し、サーバ１０との通信を行うことにより各種処理を実行するためのハードウェア（例えば、座標に応じたブラウザ画面やゲーム画面を表示する表示装置など）およびソフトウェアを備える。なお、複数のユーザ端末２０のそれぞれは、サーバ１０を介さずに互いに直接通信を行うこともできる構成とされていてもよい。

【0022】

ユーザ端末２０は表示装置が内蔵されていてよい。また、ユーザ端末２０に対して、表示装置が無線接続あるいは有線接続されていてもよい。なお、表示装置は極めて一般的な構成であるため、ここでは図示を省略している。ゲーム画面は例えば、前述の合成画像として表示装置によって表示され、ユーザがこの合成画像を認識する。ゲーム画面は例えば、ユーザ端末が備える表示装置の一例であるディスプレイや、ユーザ端末と接続された表示装置の一例であるディスプレイに表示される。表示装置には、例えば、ホログラム表示が可能なホログラムディスプレイ装置や、画像（ゲーム画面を含む）をスクリーン等に映写する映写装置なども含まれる。

【0023】

ユーザ端末２０は、プロセッサ２１と、メモリ２２と、記憶装置２３とを備える。プロセッサ２１は、例えば、各種の演算および制御を行うＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の中央処理装置である。また、ユーザ端末２０がＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備える場合には、各種の演算および制御の一部をＧＰＵによって行うようにしてもよい。ユーザ端末２０は、メモリ２２に読み出したデータを用いて各種の情報処理をプロセッサ２１にて実行し、得られた処理結果を必要に応じて記憶装置２３に記憶させる。記憶装置２３は、各種情報を格納する記憶媒体としての機能を有する。

【0024】

ユーザ端末２０には入力装置が内蔵されていてよい。また、ユーザ端末２０に対して入力装置が無線接続あるいは有線接続されていてもよい。入力装置はユーザによる操作入力を受け付ける。ユーザによる操作入力に応じて、サーバ１０が備えるプロセッサまたはユーザ端末２０が備えるプロセッサが、各種の制御処理を実行する。入力装置の例として、携帯電話端末が備えるタッチパネル画面、ＡＲグラスに無線接続あるいは有線接続されたコントローラなどがある。また、ユーザ端末２０が備えるカメラも入力装置に相当し得る。ユーザはカメラの前で手を動かす等のジェスチャーにより、操作入力を行う（ジェスチャー入力）。

【0025】

その他、ユーザ端末２０はスピーカ等の他の出力装置を備えていてよい。他の出力装置は、ユーザに対して音声やその他の各種の情報を出力する。

【0026】

図２は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ａは、取得部１０１と、スタイルトランスファー部１０２と、出力部１０３とを少なくとも備える。サーバ１０Ａが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１と、スタイルトランスファー部１０２と、出力部１０３とを機能的に実現する。

【0027】

【0028】

次に、本発明の第１の実施形態におけるプログラム実行処理について説明する。図３は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0029】

取得部１０１は、画像データを取得する（Ｓｔ１１）。スタイルトランスファー部１０２は、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する（Ｓｔ１２）。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ１３）。

【0030】

取得部１０１による画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。取得部１０１は例えば、サーバ１０Ａに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１は、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0031】

取得部１０１は、レンダリングに用いられるバッファ等から画像データを取得してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。

【0032】

スタイルは、たとえば建築、美術、音楽などにおける様式または型などを意味する。スタイルは例えば、ゴッホ風やピカソ風などの画風を意味してもよい。スタイルは、画像の形式（例えば色、所定の模様、またはパターン等）を意味してもよい。スタイル画像とは、特定のスタイルを有する画像（静止画または動画）を意味している。

【0033】

スタイルトランスファー部１０２は、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２がニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0034】

出力部１０３によるスタイルトランスファー適用後のデータの出力先は、取得部１０１が画像データを取得したバッファとは異なるバッファであってよい。より特定的には、前記取得部１０１が画像データを取得したバッファを第１バッファとした場合、スタイルトランスファーの適用後のデータの出力先は、第１バッファとは異なる第２バッファであってよい。第２バッファは、レンダリング処理において第１バッファの後に用いられるバッファであってもよい。

【0035】

その他、出力部１０３によるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ａが備える記憶装置や出力装置であってよく、サーバ１０Ａから見た外部装置であってもよい。

【0036】

第１の実施形態の一側面として、一以上のスタイル画像で構成されたスタイル画像のグループを柔軟に適用することができ、表現力の幅を広くすることができる。

【0037】

［第２の実施形態］
本発明の第２の実施形態の概要について説明をする。以下では、第２の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0038】

図４は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｂは、取得部１０１と、スタイルトランスファー部１０２Ｂと、出力部１０３とを少なくとも備える。サーバ１０Ｂが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１と、スタイルトランスファー部１０２Ｂと、出力部１０３とを機能的に実現する。

【0039】

取得部１０１は、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｂは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｂは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。この場合にスタイルトランスファー部１０２Ｂは、画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用してよい。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する機能を有する。

【0040】

次に、本発明の第２の実施形態におけるプログラム実行処理について説明する。図５は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0041】

取得部１０１は、画像データを取得する（Ｓｔ２１）。スタイルトランスファー部１０２Ｂは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する（Ｓｔ２２）。ステップＳｔ２２においてスタイルトランスファー部１０２Ｂは、画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ２３）。

【0042】

取得部１０１による画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。例えば、取得部１０１は、サーバ１０Ｂに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１は、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0043】

【0044】

スタイルは、たとえば建築、美術、音楽などにおける様式または型などを意味する。スタイルは例えば、ゴッホ風やピカソ風などの画風を意味してもよい。スタイルは、画像の形式（例えば色、所定の模様、またはパターン等）を意味してもよい。スタイル画像とは、特定のスタイルで描かれた画像（静止画または動画）を意味している。

【0045】

スタイルトランスファー部１０２Ｂは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｂがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0046】

【0047】

その他、出力部１０３によるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｂが備える記憶装置や出力装置であってよく、サーバ１０Ｂから見た外部装置であってもよい。

【0048】

第２の実施形態の一側面として、画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用することにより、スタイル画像が有する特徴をより強調し、また変形をより強くした出力画像を得ることができる。

【0049】

［第３の実施形態］
本発明の第３の実施形態の概要について説明をする。以下では、第３の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0050】

図６は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｃは、取得部１０１と、スタイルトランスファー部１０２Ｃと、出力部１０３と、マスク取得部１０４とを少なくとも備える。サーバ１０Ｃが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１と、スタイルトランスファー部１０２Ｃと、出力部１０３と、マスク取得部１０４とを機能的に実現する。

【0051】

取得部１０１は、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｃは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｃは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する機能を有する。マスク取得部１０４は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを取得する機能を有する。スタイルトランスファー部１０２Ｃは、マスクを用いて、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する機能を有する。

【0052】

次に、本発明の第３の実施形態におけるプログラム実行処理について説明する。図７は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0053】

取得部１０１は、画像データを取得する（Ｓｔ３１）。マスク取得部１０４は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを取得する（Ｓｔ３２）。スタイルトランスファー部１０２Ｃは、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ３３）。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ３４）。

【0054】

取得部１０１による画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。例えば、取得部１０１は、サーバ１０Ｃに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１は、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0055】

【0056】

【0057】

マスクとは、画像データにおける一部の領域についてスタイルトランスファーを抑制する事に用いられるデータである。例えば、画像データがＲＧＢの３つのカラーチャネルを有する縦２５６ピクセル、横２５６ピクセルの画像データ（２５６×２５６×３）であるとする。この画像データに対するマスクは、例えば縦２５６ピクセル、横２５６ピクセルのデータであって、各ピクセルに０から１の間の数値が与えられたデータ（２５６×２５６×１）であってよい。マスクは、ピクセルの値が０に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。ただし、マスクは前記とは異なるフォーマットを有していてもよい。例えば、マスクはピクセルの値が１に近づくほど、画像データの対応するピクセルにおけるスタイルトランスファーがより強く抑制されるものであってよい。また、マスクが有するピクセルの最大値は１を超えた値などあってもよい。マスクが有するピクセルの最小値は０より小さい値であってもよい。マスクが有するピクセルの値は０または１のみであってもよい（ハードマスク）。

【0058】

マスク取得部１０４によるマスクの取得元は、マスク取得部１０４がアクセス可能な記憶装置であってよい。例えば、マスク取得部１０４は、サーバ１０Ｃに設けられたメモリ１２または記憶装置１３からマスクを取得してよい。マスク取得部１０４は、通信ネットワーク３０を介して外部装置からマスクを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0059】

マスク取得部１０４は、画像データに基づいてマスクを生成してもよい。マスク取得部１０４は、レンダリングに用いられるバッファ等から取得したデータに基づいてマスクを生成してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。マスク取得部１０４は、その他の各種データに基づいてマスクを生成してよい。その他の各種データには、生成対象となるマスクとは異なるマスクのデータが含まれる。

【0060】

スタイルトランスファー部１０２Ｃは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｃがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0061】

スタイルトランスファー部１０２Ｃは、取得部１０１が取得した画像データと、マスク取得部１０４が取得したマスクとを、スタイルトランスファー用のニューラルネットワークに入力する。これにより、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用することができる。

【0062】

【0063】

その他、出力部１０３によるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｃが備える記憶装置や出力装置であってよく、サーバ１０Ｃから見た外部装置であってもよい。

【0064】

第３の実施形態の一側面として、画像データにおける一部の領域についてのスタイルトランスファーをマスクによって抑制しつつ、それ以外の領域については抑制無しでスタイルトランスファーを行うことができる。

【0065】

［第４の実施形態］
本発明の第４の実施形態の概要について説明をする。以下では、第４の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0066】

図８は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｄは、取得部１０１と、スタイルトランスファー部１０２Ｄと、出力部１０３と、マスク取得部１０４とを少なくとも備える。サーバ１０Ｄが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１と、スタイルトランスファー部１０２Ｄと、出力部１０３と、マスク取得部１０４とを機能的に実現する。

【0067】

取得部１０１は、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｄは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｄは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する機能を有する。マスク取得部１０４は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを取得する機能を有する。スタイルトランスファー部１０２Ｄは、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いて、画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する機能を有する。

【0068】

次に、本発明の第４の実施形態におけるプログラム実行処理について説明する。図９は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0069】

取得部１０１は、画像データを取得する（Ｓｔ４１）。マスク取得部１０４は、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを複数、取得する（Ｓｔ４２）。なお、取得される複数のマスクは、スタイルトランスファーを抑制する領域がそれぞれ異なるものである。スタイルトランスファー部１０２Ｄは、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いて、画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する（Ｓｔ４３）。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ４４）。

【0070】

取得部１０１による画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。例えば、取得部１０１は、サーバ１０Ｄに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１は、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0071】

【0072】

スタイルは、たとえば建築、美術、音楽などにおける様式または型などを意味する。スタイルは例えば、ゴッホ風やピカソ風などの画風を意味してもよい。スタイルは、画像の形式（例えば色、所定の模様、またはパターン等）を意味してもよい。スタイル画像とは、特定のスタイルで描かれた画像（静止画または画像）を意味している。

【0073】

【0074】

マスク取得部１０４によるマスクの取得元は、マスク取得部１０４がアクセス可能な記憶装置であってよい。例えば、マスク取得部１０４は、サーバ１０Ｄに設けられたメモリ１２または記憶装置１３からマスクを取得してよい。マスク取得部１０４は、通信ネットワーク３０を介して外部装置からマスクを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0075】

【0076】

スタイルトランスファー部１０２Ｄは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｄがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0077】

スタイルトランスファー部１０２Ｄは、取得部１０１が取得した画像データと、マスク取得部１０４が取得した複数のマスクとを、スタイルトランスファー用のニューラルネットワークに入力する。これにより、複数のマスクを用いて、画像データに対して複数のスタイル画像に基づいたスタイルトランスファーを適用することができる。なお、スタイルトランスファーを抑制する領域が異なる他のマスクを、入力されたマスクに基づいて生成するような処理ブロックを、スタイルトランスファー用のニューラルネットワークに設けてもよい。そしてスタイルトランスファー部１０２Ｄは、マスク取得部１０４が取得した一以上のマスク（他のマスク以外のマスク）を、スタイルトランスファー用のニューラルネットワークに入力してもよい。

【0078】

【0079】

その他、出力部１０３によるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｄが備える記憶装置や出力装置であってよく、サーバ１０Ｄから見た外部装置であってもよい。

【0080】

第４の実施形態の一側面として、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いることにより、画像データに対して、画像データの領域毎に異なるスタイルを適用することができる。

【0081】

第４の実施形態の一側面として、マスクが有する値を適宜調整することにより、画像データにおけるある領域について、一以上のスタイル画像からなる第１のスタイルに基づいたスタイルトランスファーと、一以上のスタイル画像からなる第２のスタイルに基づいたスタイルトランスファーとをブレンドすることができる。

【0082】

［第５の実施形態］
本発明の第５の実施形態の概要について説明をする。以下では、第５の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0083】

図１０は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｅは、取得部１０１と、スタイルトランスファー部１０２Ｅと、出力部１０３とを少なくとも備える。サーバ１０Ｅが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１と、スタイルトランスファー部１０２Ｅと、出力部１０３とを機能的に実現する。

【0084】

取得部１０１は、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｅは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｅは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。

【0085】

スタイルトランスファー部１０２Ｅは、画像データに含まれる色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像に含まれる色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する機能を有する。

【0086】

出力部１０３は、スタイルトランスファーが適用された後のデータを出力する機能を有する。

【0087】

次に、本発明の第５の実施形態におけるプログラム実行処理について説明する。図１１は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0088】

取得部１０１は、画像データを取得する（Ｓｔ５１）。スタイルトランスファー部１０２Ｅは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ５２）。ステップＳｔ５２においてスタイルトランスファー部１０２Ｅは、画像データに含まれる色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像に含まれる色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する。出力部１０３は、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ５３）。

【0089】

取得部１０１による画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。例えば、取得部１０１は、サーバ１０Ｅに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１は、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0090】

【0091】

【0092】

スタイルトランスファー部１０２Ｅは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｅがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0093】

【0094】

その他、出力部１０３によるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｅが備える記憶装置や出力装置であってよく、サーバ１０Ｅから見た外部装置であってもよい。

【0095】

第５の実施形態の一側面として、出力画像を構成する色が、元の画像（コンテンツ画像）を構成する色であるコンテンツ色とスタイル画像を構成する色であるスタイル色との間の色になるようにしつつ、元の画像に対してスタイル変換を行った出力画像を得ることができる。

【0096】

［第６の実施形態］
本発明の第６の実施形態の概要について説明をする。以下では、第６の実施形態として、コンピュータの一例であるサーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0097】

図１２は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｘは、取得部１０１Ｘと、スタイルトランスファー部１０２Ｘと、出力部１０３Ｘとを少なくとも備える。サーバ１０Ｘが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１Ｘと、スタイルトランスファー部１０２Ｘと、出力部１０３Ｘとを機能的に実現する。

【0098】

取得部１０１Ｘは、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｘは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｘは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。この場合にスタイルトランスファー部１０２Ｘは、画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用してよい。スタイルトランスファー部１０２Ｘは、画像データに対して既に適用されたスタイルトランスファーに用いられたものとは異なる画像を含む一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用してもよい。出力部１０３Ｘは、スタイルトランスファーが適用された後のデータを出力する機能を有する。

【0099】

次に、本発明の第６の実施形態におけるプログラム実行処理について説明する。図１３は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0100】

取得部１０１Ｘは、画像データを取得する（Ｓｔ６１）。スタイルトランスファー部１０２Ｘは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する（Ｓｔ６２）。出力部１０３Ｘは、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ６３）。

【0101】

取得部１０１Ｘによる画像データの取得元は、取得部１０１Ｘがアクセス可能な記憶装置であってよい。例えば、取得部１０１Ｘは、サーバ１０Ｘに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１Ｘは、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0102】

取得部１０１Ｘは、レンダリングに用いられるバッファ等から画像データを取得してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。

【0103】

レンダリングに用いられるバッファは３Ｄバッファであってよい。レンダリングに用いられる３Ｄバッファとは、例えば３次元空間を表現可能なデータを格納するバッファを意味する。

【0104】

レンダリングに用いられるバッファは中間バッファであってもよい。レンダリングに用いられる中間バッファとは、レンダリング処理の途中で用いられるバッファである。中間バッファの一例として、ＲＧＢバッファ、ＢａｓｅＣｏｌｏｒバッファ、Ｍｅｔａｌｌｉｃバッファ、Ｓｐｅｃｕｌａｒバッファ、Ｒｏｕｇｈｎｅｓｓバッファ、Ｎｏｒｍａｌバッファなどがある。これらのバッファは、最終的に出力されるＣＧ画像が格納される最終バッファより前に配置されたバッファであり、最終バッファとは異なるバッファである。レンダリングに用いられる中間バッファは、列挙された前述のバッファには限られない。

【0105】

【0106】

出力部１０３Ｘによるスタイルトランスファー適用後のデータの出力先は、取得部１０１Ｘが画像データを取得したバッファとは異なるバッファであってよい。より特定的には、前記取得部１０１Ｘが画像データを取得したバッファを第１バッファとした場合、スタイルトランスファーの適用後のデータの出力先は、第１バッファとは異なる第２バッファであってよい。第２バッファは、レンダリング処理において第１バッファの後に用いられるバッファであってもよい。

【0107】

その他、出力部１０３Ｘによるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｘが備える記憶装置や出力装置であってよく、サーバ１０Ｘから見た外部装置であってもよい。

【0108】

（単一のスタイルに基づくスタイルトランスファー）
スタイルトランスファー部１０２Ｘは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２がニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0109】

図１４は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークＮ１の構造例を示す概念図である。ニューラルネットワークＮ１は、入力画像に基づくピクセル群を潜在（Ｌａｔｅｎｔ）パラメータに変換する第１変換層と、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）等によりダウンサンプリングを行う１以上の層と、複数の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層と、アップサンプリングを行う層と、潜在（Ｌａｔｅｎｔ）パラメータをピクセル群に変換する第２変換層とを含む。なお、第２変換層の出力であるピクセル群に基づいて出力画像が得られる。

【0110】

ニューラルネットワークＮ１の第１変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等に、全結合層が配置される。全結合層は、アフィン層（Ａｆｆｉｎｅｌａｙｅｒ）とも呼ばれている。

【0111】

スタイルトランスファー部１０２Ｘは、取得部１０１Ｘが取得した画像データを、ニューラルネットワークＮ１の第１変換層に入力する。これにより、スタイルトランスファー適用後のデータがニューラルネットワークＮ１の第２変換層から出力される。

【0112】

（複数のスタイル画像をブレンドしたスタイルトランスファー）
スタイルトランスファー部１０２Ｘは、入力画像の同一箇所に対して複数のスタイルをブレンドしたスタイルトランスファーを行ってもよい。この場合にスタイルトランスファー部１０２Ｘは、ニューラルネットワークの所定の層において複数のスタイル画像に基づくパラメータを混入し、最適化関数に基づいて最適化処理を行って得られた学習済みのニューラルネットワークに、入力画像データを入力する。なお、最適化関数は、前記複数のスタイル画像に基づいて定義されたものであれば好適である。

【0113】

図１５は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるニューラルネットワークＮ２の構造例を示す概念図である。ニューラルネットワークＮ２は、入力画像に基づくピクセル群を潜在（Ｌａｔｅｎｔ）パラメータに変換する第１変換層と、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）等によりダウンサンプリングを行う１以上の層と、複数の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層と、アップサンプリングを行う層と、潜在（Ｌａｔｅｎｔ）パラメータをピクセル群に変換する第２変換層とを含む。なお、第２変換層の出力であるピクセル群に基づいて出力画像が得られる。

【0114】

ニューラルネットワークＮ２の第１変換層とダウンサンプリングを行う層との間や、ダウンサンプリングを行う層に含まれる複数の畳み込み層同士の間等には全結合層が配置される。全結合層は、アフィン層（Ａｆｆｉｎｅｌａｙｅｒ）とも呼ばれている。

【0115】

ニューラルネットワークＮ２のアフィン層Ａ１には、複数のスタイル画像に基づくパラメータが混入される。より具体的には、以下の通りである。

【0116】

ニューラルネットワークＮ２のアフィン層Ａ１は、アフィン変換のパラメータをａおよびｂとし、画像のピクセルの潜在（Ｌａｔｅｎｔ）変数をｘとした場合、畳み込み層の出力の潜在変数ｘを、ｘ＊ａ＋ｂに変換する処理を行う層である。

【0117】

ここで、任意のスタイル１とスタイル２とをブレンドする場合、スタイルトランスファー部１０２Ｘによる制御の下で、アフィン層Ａ１で行われる処理は以下の通りである。スタイル１に係るスタイル画像から導出されたアフィン変換パラメータをａ_１およびｂ_１とする。スタイル２に係るスタイル画像から導出されたアフィン変換パラメータをａ_２およびｂ_２とする。このとき、スタイル１とスタイル２とをブレンドする場合のアフィン変換パラメータはａ＝（ａ_１＋ａ_２）／２と、ｂ＝（ｂ_１＋ｂ_２）／２とになる。そして、アフィン層Ａ１においてｘ＊ａ＋ｂを計算することにより、スタイル１とスタイル２のブレンドを行うことができる。なお、前記はスタイル１とスタイル２とを均等に（それぞれ５０％ずつ）ブレンドする場合の計算式を示している。当業者の通常の知識に基づいて、スタイル１が８０％、スタイル２が２０％などのように、各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい。

【0118】

ブレンドするスタイルの数は３以上であってもよい。ｎが３以上の自然数である場合に、ｎ個のスタイルをブレンドする場合のアフィン変換パラメータは、例えばａ＝（ａ_１＋ａ_２……＋ａ_ｎ）／ｎと、ｂ＝（ｂ_１＋ｂ_２……＋ｂ_ｎ）／ｎとであってよい。なお、ｋが１からｎまでの間の任意の自然数である場合に、スタイルｋに係るスタイル画像から導出されたアフィン変換パラメータをａ_ｋおよびｂ_ｋとする。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行った上でブレンドしてもよい点については、前述のスタイルの数が２の場合と同様である。

【0119】

サーバ１０Ｘのメモリ１２等には、複数のスタイルについての変換パラメータａ_ｋおよびｂ_ｋが保存されていてよい。また、複数のスタイルについての変換パラメータは、例えば（ａ_１，ａ_２，……，ａ_ｎ）および（ｂ_１，ｂ_２，……，ｂ_ｎ）等のように、ベクトル形式でメモリ１２や記憶装置１３等に保存されていてもよい。各スタイルに基づく影響度がそれぞれ異なる割合となるように重みづけを行う場合は、各スタイルに応じたウェイトを示す値がメモリ１２や記憶装置１３等に保存されていてもよい。

【0120】

次に、ニューラルネットワークＮ２について機械学習を行うための最適化関数について説明する。最適化関数は損失関数とも呼ばれることがある。ニューラルネットワークＮ２に対して、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行うことにより、学習済みのニューラルネットワークＮ２が得られる。なお、説明の便宜上、学習前後のそれぞれのニューラルネットワークについて、同じ参照符号であるＮ２が用いられている。

【0121】

例えば、上述の関連する技術においては、以下のように定義された最適化関数が用いられている。

【0122】

スタイル最適化関数：

【数1】

【0123】

コンテンツ最適化関数：

【数2】

【0124】

上述の最適化関数において、ｐは生成された画像を示す。生成された画像は、機械学習に用いられるニューラルネットワークの出力画像に相当する。ｓ（小文字のｓ）は例えば抽象絵画などのスタイル画像を示す。Ｕ_ｉはレイヤｉのユニットの総数を示す。Ｕ_ｊはレイヤｊのユニットの総数を示す。Ｇはグラムマトリクス（Ｇｒａｍｍａｔｒｉｘ）を示す。φ_ｉはＶＧＧ－１６アーキテクチャの第ｉ番目の活性化関数の出力を示す。Ｓ（大文字のＳ）はスタイルの最適化を計算するためのＶＧＧ－１６のレイヤ群を示す。ｃ（小文字のｃ）はコンテンツ画像を示す。Ｃ（大文字のＣ）はコンテンツ最適化関数を計算するためのＶＧＧ－１６のレイヤ群であり、ｊは当該レイヤ群に含まれるレイヤのインデックスである。絶対値記号に付加されたＦはフロベニウスノルムを意味する。

【0125】

上述のスタイル最適化関数およびコンテンツ最適化関数によって定義された最適化関数の値を最小化するようにニューラルネットワークに対して機械学習を行い、学習後のニューラルネットワークに入力画像を入力することにより、スタイル画像が示すスタイルに近づくように変換がなされた出力画像がニューラルネットワークから出力される。

【0126】

ここで、上記のような最適化関数を用いた最適化処理では、複数のスタイルをブレンドしてスタイルトランスファーを行う場合に、ブレンドの結果は改良の余地があるものとなった。

【0127】

そこでサーバ１０Ｘは、複数のスタイル画像に基づいて定義された最適化関数に基づいて最適化処理を行う。これにより、複数のスタイル画像に基づいた最適化を行うことができる。その結果、入力画像に対して複数のスタイルがきれいにブレンドされた出力画像を得ることができる。

【0128】

より具体的には、最適化処理は、複数のスタイル画像から選ばれた任意の二つのスタイル画像に基づいて定義された第１の最適化関数を用いて最適化処理を行う、第１の最適化処理と、前記複数のスタイル画像における一つのスタイル画像に基づいて定義された第２の最適化関数を用いて最適化処理を行う、第２の最適化処理とを含んでいてよい。これにより、ブレンドしたいスタイルの数が３以上である場合に、好適な最適化を行う事ができる。その結果、入力画像に対して複数のスタイルがよりきれいにブレンドされた出力画像を得ることができる。

【0129】

次に、第１の最適化関数および第２の最適化関数について説明する。第６の実施形態の一側面として、第１の最適化関数は以下の式（１）で定義されてよい。

【0130】

【数3】

【0131】

第６の実施形態の一側面として、第２の最適化関数は以下の式（２）で定義されてよい。

【0132】

【数4】

【0133】

上記の式において、

【0134】

【数5】

【0135】

は複数のスタイル画像からなるスタイル画像群であり、ｑおよびｒはスタイル画像群に含まれる任意のスタイル画像を示す。ただし、ｑとｒは互いに異なるスタイル画像である。N_ｉ，ｒはφ_ｉ特徴マップの行数である。N_ｉ，ｃはφ_ｉ特徴マップの列数である。ｐ、ｓ（小文字のｓ）、Ｇ、φ_ｉ、Ｓ、ｃ（小文字のｃ）、およびＦについては、上述の関連する技術におけるものと同様である。

【0136】

上記の第１の最適化関数は、生成された画像をｐとし、複数のスタイル画像から選ばれた任意の二つのスタイル画像をｑおよびｒとしたときに、画像ｐに所定の演算を行って得られた値と、スタイル画像ｑおよびｒにそれぞれ前記所定の演算を行って得られた値の平均値と、の間のノルムを合算する関数である。上記の式（１）は、所定の演算が、

【0137】

【数6】

【0138】

である場合を示している。所定の演算は、上記以外の演算であってもよい。

【0139】

上記の第２の最適化関数は、生成された画像をｐとし、スタイル画像をｓとしたときに、画像ｐに所定の演算を行って得られた値と、スタイル画像ｓに前記所定の演算を行って得られた値との間のノルムを合算する関数である。上記の式（２）は、所定の演算が、

【0140】

【数7】

【0141】

である場合を示している。所定の演算は、上記以外の演算であってもよい。

【0142】

次に、上述の第１の最適化関数および第２の最適化関数を用いた最適化処理の例について説明する。

【0143】

図１６は、本発明の実施形態の少なくとも一つに対応する最適化処理の処理例を示すフローチャートである。ここでは、第１の最適化関数が上記の式（１）で定義される関数であり、第２の最適化関数が上記の式（２）で定義される関数である場合の処理例について説明する。

【0144】

最適化処理の処理主体は、装置が備えるプロセッサである。プロセッサを備えた装置（以下、装置Ａ）は上述のサーバ１０Ｘであってよい。この場合、図１に示したプロセッサ１１が処理主体となる。プロセッサを備えた装置Ａは、サーバ１０Ｘ以外の他の装置（例えば、ユーザ端末２０や他のサーバ等）であってもよい。

【0145】

ブレンドされるスタイルの数をｎとする。プロセッサは、スタイル画像群に含まれるｎ個のスタイル画像の中から、任意の二つのスタイル画像ｑおよびｒを選択する（Ｓｔ７１）。

【0146】

プロセッサは、選択されたスタイル画像ｑおよびｒについての第１の最適化関数の値を最小化するように最適化を行う（Ｓｔ７２）。なお、生成された画像ｐについては、プロセッサがニューラルネットワークの出力画像を画像ｐとして取得する。ニューラルネットワークは、装置Ａに実装されていてもよく、装置Ａ以外の他の装置に実装されていてもよい。

【0147】

プロセッサは、_ｎＣ_２通りの全パターンにつき最適化を行ったか否かを判定する（Ｓｔ７３）。すなわちプロセッサは、ｎ個のスタイル画像の中から任意の二つのスタイル画像ｑおよびｒを選択することについて、全てのパターンを処理済みであるか否かを判定する。_ｎＣ_２通りの全パターンにつき最適化を行った場合（Ｓｔ７３：ＹＥＳ）、ステップＳｔ７４へと処理が遷移する。_ｎＣ_２通りの全パターンにつき最適化を行っていない場合（Ｓｔ７３：ＮＯ）、ステップＳｔ７１へと処理が戻り、プロセッサが次の二つのスタイル画像ｑおよびｒの組み合わせを選択する。

【0148】

プロセッサは、スタイル画像群に含まれるｎ個のスタイル画像の中から、一つのスタイル画像ｓを選択する（Ｓｔ７４）。

【0149】

プロセッサは、選択されたスタイル画像ｓについての第２の最適化関数の値を最小化するように最適化を行う（Ｓｔ７５）。なお、生成された画像ｐについては、プロセッサがニューラルネットワークの出力画像を画像ｐとして取得する。ニューラルネットワークは、装置Ａに実装されていてもよく、装置Ａ以外の他の装置に実装されていてもよい。

【0150】

プロセッサは、_ｎＣ_１通りの全パターンにつき最適化を行ったか否かを判定する（Ｓｔ７６）。すなわちプロセッサは、ｎ個のスタイル画像の中から任意のスタイル画像ｓを選択することについて、全てのパターンを処理済みであるか否かを判定する。_ｎＣ_１通りの全パターンにつき最適化を行った場合（Ｓｔ７６：ＹＥＳ）、図１６に示した最適化処理は終了する。_ｎＣ_１通りの全パターンにつき最適化を行っていない場合（Ｓｔ７６：ＮＯ）、ステップＳｔ７４へと処理が戻り、プロセッサが次の一つのスタイル画像ｓを選択する。

【0151】

スタイルトランスファー部１０２Ｘは、例えば上記のようにして最適化が行われた学習済みのニューラルネットワークＮ２の第１変換層に、取得部１０１Ｘが取得した画像データを入力する。これにより、ｎ個のスタイル画像がきれいにブレンドされたスタイルトランスファーの適用後のデータがニューラルネットワークＮ２の第２変換層から出力される。

【0152】

例えば上記のように、スタイルトランスファー部１０２Ｘは、単一のスタイル、または複数のスタイルに基づいて、画像データに対してスタイルトランスファーを適用することができる。

【0153】

（スタイルトランスファーの重ね適用）
ここで図１３を再び参照すると、スタイルトランスファー部１０２Ｘは、一以上のスタイル画像に基づいたスタイルトランスファーを、複数回重ねて適用する（図１３、ステップＳｔ６２）。以下、スタイルトランスファーを複数回重ねて適用する処理について説明する。

【0154】

図１７は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。まず、同じ一以上のスタイル画像に基づいたスタイルトランスファーを数回重ねて適用する処理例について説明する。

【0155】

スタイルトランスファー用のニューラルネットワークは、例えば上述のニューラルネットワークＮ１またはＮ２であってよい。それ以外のニューラルネットワークであってもよい。スタイルトランスファー部１０２Ｘは、取得部１０１Ｘが取得した入力画像Ｘ_０をスタイルトランスファー用のニューラルネットワークに入力する。すると、ニューラルネットワークから出力画像Ｘ_１が出力される。入力画像Ｘ_０を入力すると出力画像Ｘ_１が出力されるものであるため、スタイルトランスファー用のニューラルネットワークを、入力画像Ｘ_０を出力画像Ｘ_１に変換するファンクションＦ（Ｘ）と表現する。

【0156】

スタイルトランスファー部１０２Ｘは、スタイルトランスファーが１回適用された後の出力画像Ｘ_１を入力画像として、スタイルトランスファー用のニューラルネットワークに再度入力する。これにより、出力画像Ｘ_２が出力される。出力画像Ｘ_２は、入力画像Ｘ_０に対して、スタイルトランスファーを２回重ねて適用して得られた画像に相当する。

【0157】

図１８は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。

【0158】

スタイルトランスファー部１０２Ｘは、図１７に示したのと同様にして、一つ前のスタイルトランスファーによる出力画像を入力画像としたスタイルトランスファーをＮ回重ねて適用する。その結果、出力画像Ｘ_Ｎが出力される。

【0159】

スタイルトランスファーが１回だけ適用された後の出力画像Ｘ_１と、同じ一以上のスタイル画像に基づくスタイルトランスファーがＮ回重ねて適用された後の出力画像Ｘ_Ｎとを比較すると、出力画像Ｘ_Ｎの方が、適用されたスタイルの特徴がより強調されている。また、入力画像Ｘ_０を基準とした出力画像Ｘ_Ｎの線の変形が、入力画像Ｘ_０を基準とした出力画像Ｘ_１の線の変形よりも大きい。

【0160】

このように、スタイルトランスファー部１０２Ｘが、画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用することにより、スタイル画像が有する特徴をより強調し、また変形をより強くした出力画像を得ることができる。

【0161】

図１９は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーを複数回重ねて適用する処理例を示す概念図である。ここでは、画像データに対して既に適用されたスタイルトランスファーに用いられたものとは異なる画像を含む一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する処理例について説明する。

【0162】

スタイル画像Ａ１に基づく１回のスタイルトランスファーの適用を、Ｆ_１（Ｘ）と表現する。スタイル画像Ａ１とは異なるスタイル画像Ａ２に基づく１回のスタイルトランスファーの適用を、Ｆ_２（Ｘ）と表現する。

【0163】

例えばスタイルトランスファー部１０２Ｘは、入力画像Ｘ_０に対して、スタイル画像Ａ１に基づくスタイルトランスファーを９回重ねて適用する。

【0164】

次に、スタイルトランスファー部１０２Ｘは、９回のスタイルトランスファーの重ね適用後の出力画像データを入力画像データとして、スタイル画像Ａ２に基づくスタイルトランスファーの適用を１回行う。すなわちスタイルトランスファー部１０２Ｘは、画像データに対して既に適用されたスタイルトランスファーに用いられたもの（スタイル画像Ａ１）とは異なるスタイル画像Ａ２を含む一以上のスタイル画像に基づいたスタイルトランスファーを適用する。その結果、出力された出力画像Ｘ_１０は、スタイル画像Ａ１およびスタイル画像Ａ２の影響が動的にブレンドされた出力画像となる。

【0165】

なお、上記においては、それぞれ単一のスタイル画像（スタイル画像Ａ１、スタイル画像Ａ２）に基づくスタイルトランスファーを重ねて適用する処理例を説明した。しかし、スタイルトランスファー部１０２Ｘは、上述の複数のスタイル画像をブレンドしたスタイルトランスファーを複数回重ねて適用してもよい。

【0166】

下記の表は、スタイルトランスファーの重ね適用のパターン例を示している。ここでは、互いに異なるスタイル画像Ａ１～Ａ４があると仮定する。表中の数値は、スタイル画像の番号を示している。また、最大で１０回の重ね適用が行われると仮定する。

【0167】

【表1】

【0168】

上記の表に記載されているパターンはあくまで一例であり、スタイルトランスファー部１０２Ｘは、これら以外の重ね適用のパターンに基づいてスタイルトランスファーを適用してもよい。スタイルトランスファーの重ね適用の回数も、１０回には限定されない。

【0169】

上述のように、スタイルトランスファー部１０２Ｘは、画像データに対して既に適用されたスタイルトランスファーに用いられたものとは異なる画像を含む一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する。これにより、画像データに対して、複数のスタイル画像を動的にスタイル適用することができる。

【0170】

第６の実施形態の一側面として、同じ一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用することにより、スタイルの特徴をより強調し、また変形をより強くした出力画像を得ることができる。

【0171】

第６の実施形態の一側面として、画像データに対して、複数のスタイル画像を動的にスタイル適用することができる。

【0172】

［第７の実施形態］
本発明の第７の実施形態の概要について説明をする。以下では、第７の実施形態として、サーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0173】

図２０は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｙは、取得部１０１Ｙと、スタイルトランスファー部１０２Ｙと、出力部１０３Ｙと、マスク取得部１０４Ｙとを少なくとも備える。サーバ１０Ｙが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１Ｙと、スタイルトランスファー部１０２Ｙと、出力部１０３Ｙと、マスク取得部１０４Ｙとを機能的に実現する。

【0174】

取得部１０１Ｙは、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｙは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｙは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。出力部１０３Ｙは、スタイルトランスファーが適用された後のデータを出力する機能を有する。マスク取得部１０４Ｙは、画像データにおける一部の領域についてスタイル変換を抑制するマスクを取得する機能を有する。スタイルトランスファー部１０２Ｙは、マスクを用いて、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する機能を有する。

【0175】

次に、本発明の第７の実施形態におけるプログラム実行処理について説明する。図２１は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0176】

取得部１０１Ｙは、画像データを取得する（Ｓｔ８１）。マスク取得部１０４Ｙは、画像データにおける一部の領域についてスタイル変換を抑制するためのマスクを取得する（Ｓｔ８２）。スタイルトランスファー部１０２Ｙは、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ８３）。出力部１０３Ｙは、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ８４）。

【0177】

なお、ステップＳt８２においてマスク取得部１０４Ｙは、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを複数、取得してもよい。この場合に取得される複数のマスクは、スタイルトランスファーを抑制する領域がそれぞれ異なるものである。ステップＳｔ８３においてスタイルトランスファー部１０２Ｙは、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いて、画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する。

【0178】

取得部１０１Ｙによる画像データの取得元は、取得部１０１Ｙがアクセス可能な記憶装置であってよい。例えば、取得部１０１Ｙは、サーバ１０Ｙに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１Ｙは、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0179】

取得部１０１Ｙは、レンダリングに用いられるバッファ等から画像データを取得してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。

【0180】

【0181】

【0182】

マスク取得部１０４Ｙによるマスクの取得元は、マスク取得部１０４Ｙがアクセス可能な記憶装置であってよい。例えば、マスク取得部１０４Ｙは、サーバ１０Ｙに設けられたメモリ１２または記憶装置１３からマスクを取得してよい。マスク取得部１０４Ｙは、通信ネットワーク３０を介して外部装置からマスクを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0183】

マスク取得部１０４Ｙは、画像データに基づいてマスクを生成してもよい。マスク取得部１０４Ｙは、レンダリングに用いられるバッファ等から取得したデータに基づいてマスクを生成してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。マスク取得部１０４Ｙは、その他の各種データに基づいてマスクを生成してよい。その他の各種データには、生成対象となるマスクとは異なるマスクのデータが含まれる。

【0184】

スタイルトランスファー部１０２Ｙは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｙがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0185】

スタイルトランスファー部１０２Ｙは、取得部１０１Ｙが取得した画像データと、マスク取得部１０４Ｙが取得したマスクとを、スタイルトランスファー用のニューラルネットワークに入力する。これにより、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用することができる。

【0186】

スタイルトランスファー部１０２Ｙは、取得部１０１Ｙが取得した画像データと、マスク取得部１０４Ｙが取得した複数のマスクとを、スタイルトランスファー用のニューラルネットワークに入力してもよい。これにより、複数のマスクを用いて、画像データに対して複数のスタイル画像に基づいたスタイルトランスファーを適用することができる。なお、スタイルトランスファーを抑制する領域が異なる他のマスクを、入力されたマスクに基づいて生成するような処理ブロックを、スタイルトランスファー用のニューラルネットワークに設けてもよい。そしてスタイルトランスファー部１０２Ｙは、マスク取得部１０４Ｙが取得した一以上のマスク（他のマスク以外のマスク）を、スタイルトランスファー用のニューラルネットワークに入力してもよい。

【0187】

出力部１０３Ｙによるスタイルトランスファー適用後のデータの出力先は、取得部１０１Ｙが画像データを取得したバッファとは異なるバッファであってよい。より特定的には、取得部１０１Ｙが画像データを取得したバッファを第１バッファとした場合、スタイルトランスファーの適用後のデータの出力先は、第１バッファとは異なる第２バッファであってよい。第２バッファは、レンダリング処理において第１バッファの後に用いられるバッファであってもよい。

【0188】

その他、出力部１０３Ｙによるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｙが備える記憶装置や出力装置であってよく、サーバ１０Ｙから見た外部装置であってもよい。

【0189】

図２２は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファーに用いられるニューラルネットワークＮ３の構造例を示す概念図である。

【0190】

ニューラルネットワークＮ３は、複数の処理層Ｐ_１～Ｐ_５を有する。また、ニューラルネットワークＮ３は残差ブロックＲを有する。

【0191】

処理層Ｐ_１は図１４および図１５の第１変換層に相当する。処理層Ｐ_２および処理層Ｐ_３は図１４および図１５のダウンサンプリングを行う１以上の層に相当する。残差ブロックＲは図１４および図１５の残差ブロック（ＲｅｓｉｄｕａｌＢｌｏｃｋｓ）層に相当する。処理層Ｐ_４および処理層Ｐ_５は図１４および図１５のアップサンプリングを行う層に相当する。図２２のニューラルネットワークＮ３は、図１４および図１５に示した第２変換層をさらに有していてよい。

【0192】

処理層Ｐ_１は２５６×２５６×３２のサイズを有する。処理層Ｐ_２は１２８×１２８×６４のサイズを有する。処理層Ｐ_３は６４×６４×１２８のサイズを有する。処理層Ｐ_４は、１２８×１２８×６４のサイズを有する。処理層Ｐ_５は２５６×２５６×３２のサイズを有する。なお、処理層の数および処理層のサイズはあくまで一例である。

【0193】

スタイルトランスファー部１０２Ｙは、入力画像とマスクとを処理層Ｐ_１に入力する。処理層Ｐ_１から処理層Ｐ_５には、それぞれ、畳み込み処理（Ｃｏｎｖｏｌｕｔｉｏｎ）と正規化処理（Ｎｏｒｍａｌｉｚａｔｉｏｎ）とが含まれている。正規化処理の種類は、例えばｃｏｎｄｉｔｉｏｎａｌｉｎｓｔａｎｃｅｎｏｒｍａｌｉｚａｔｉｏｎであってよい。

【0194】

基本的に、各処理層による処理後には特徴量データが抽出される。抽出された特徴量データは次の処理層に入力される。すなわち、処理層Ｐ_１から抽出された特徴量データが処理層Ｐ_２に入力される。処理層Ｐ_２から抽出された特徴量データが処理層Ｐ_３に入力される。処理層Ｐ_４から抽出された特徴量データが処理層Ｐ_５に入力される。処理層Ｐ_３については、処理層Ｐ_３による処理結果が残差ブロックＲに入力される。残差ブロックＲの出力が処理層Ｐ_４に入力される。

【0195】

各処理層Ｐ_１～Ｐ_５にはマスクが入力される。処理層のサイズは処理層によって異なるので、マスクのサイズも処理層に応じて適合化される。例えば、処理層Ｐ_２には、処理層Ｐ_１に入力されたマスクを縮小させたマスクが入力される。処理層Ｐ_３には、処理層Ｐ_２に入力されたマスクを縮小させたマスクが入力される。マスクの縮小は、例えばバイリニア（Ｂｉｌｉｎｅａｒ）法に基づいた縮小であってよい。

【0196】

本実施の形態においては、処理層Ｐ_１のサイズと処理層Ｐ_５のサイズが同じであるため、処理層Ｐ_５には処理層Ｐ_１に入力されたマスクが入力される。同様に、処理層Ｐ_２のサイズと処理層Ｐ_４のサイズが同じであるため、処理層Ｐ_４には処理層Ｐ_２に入力されたマスクが入力される。

【0197】

図２３は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーに用いられるマスクの例を示す概念図である。

【0198】

例えば処理層Ｐ_１に入力されるマスクは、入力画像のタテ２５６×ヨコ２５６と同様の、タテ２５６×ヨコ２５６のサイズを有する。マスクにはソフトマスクとハードマスクが含まれる。本実施の形態では、ソフトマスクが処理層Ｐ_１に入力されたと仮定して説明する。また、スタイルトランスファー部１０２Ｙが入力画像の左半分をスタイルＡにスタイル変換し、入力画像の右半分をスタイルＢにスタイル変換する場合を例示して以下に説明を行う。スタイルＡは、一以上のスタイル画像に対応するスタイルである。すなわち、スタイルＡは、一つのスタイル画像（ゴッホ風等）に対応する場合もある一方、複数のスタイル画像（ゴッホ風の画像とモネ風の画像のブレンド等）に対応する場合もある。スタイルＢは、一つのスタイル画像（ゴーギャン風等）に対応する場合もある一方、複数のスタイル画像（ゴーギャン風の画像とピカソ風の画像のブレンド等）に対応する場合もある。なお、入力画像を左右に２分割してスタイル変換を行う事は例示にすぎない。マスクが有する値をどのように設定するかによって、例えば上下２分割してのスタイルトランスファー、３分割以上の分割を行ってのスタイルトランスファー、または、入力画像におけるある領域において複数のスタイルが混ざるようなスタイルトランスファー等を、柔軟に行うことができる。

【0199】

スタイルトランスファー部１０２Ｙが入力画像の左半分をスタイルＡにスタイル変換し、入力画像の右半分をスタイルＢにスタイル変換する場合、スタイルトランスファー部１０２Ｙは左半分と右半分とで異なる値を有するソフトマスクを処理層Ｐ_１に入力する。

【0200】

図２３に示した例においては、ソフトマスクの左半分である第１列から第１２８列において、第１行の値がそれぞれ１であり、第２５６行の値がそれぞれ０．５である。第１列から第１２８列の第２行から第２５５行は、１から０．５へ向けて徐々に値が小さくなるような数値を有する。

【0201】

図２３に示した例においては、ソフトマスクの右半分である第１２９列から第２５６列において、第１行の値がそれぞれ０．４９であり、第２５６行の値がそれぞれ０である。第１２９列から第２５６列の第２行から第２５５行は、０．４９から０へ向けて徐々に値が小さくなるような数値を有する。

【0202】

次に、ハードマスクについて説明する。ハードマスクは、各行各列の数値が０または１であるようなマスクである。例えば、ハードマスクの左半分である第１列～第１２８列においては値が全て１であり、右半分である第１２９列～第２５６列においては値が全て０であるようなハードマスクが考えられる。このハードマスクは、前述のソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することができる。

【0203】

図２４は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図２５は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化に用いられるパラメータの計算方法を例示する概念図である。図２６は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図２４から図２６に基づいて、処理層で行われる正規化の例を説明する。

【0204】

処理層毎に、抽出される特徴量データのサイズは異なる（図２２参照）。また、特徴量データのサイズは入力画像によっても変わり得る。ここでは、畳み込み（Ｃｏｎｖｏｌｕｔｉｏｎ）後の１２８×１２８×６４のサイズを有する特徴量を例示して、正規化について説明する。

【0205】

入力画像の左半分に適用するスタイルＡに対応するハードマスク（スタイルＡ用ハードマスク）は、図２４に示したような、左半分の値が全て１であり、右半分の値がすべて０であるような、タテ１２８×ヨコ１２８のハードマスクである。スタイルＡ用ハードマスクは、図２２および図２３に示したソフトマスク（スタイルＡ用ソフトマスクと表記することがある）における各行各列の数値をそれぞれ四捨五入することによって生成することができる。

【0206】

スタイルトランスファー部１０２Ｙは、畳み込み後のタテ１２８×ヨコ１２８の特徴量データに対して、上述のスタイルＡ用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク（ｂｏｏｌｅａｎｍａｓｋ）であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。

【0207】

スタイルトランスファー部１０２Ｙが特徴量データ（１２８×１２８）に対して、ブーリアンマスクによって上記のスタイルＡ用ハードマスクを適用すると、タテ１２８×ヨコ６４のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルＡ用ハードマスクにおける値が１となっている部分（左半分）に対応する部分のみが残る。スタイルトランスファー部１０２Ｙは、マスク適用後の特徴量データについての平均μ１と標準偏差σ１を算出する。

【0208】

次に、入力画像の右半分に適用するスタイルＢに対応するハードマスク（スタイルＢ用ハードマスク）は、図２５に示したような、左半分の値が全て０であり、右半分の値がすべて１であるような、タテ１２８×ヨコ１２８のハードマスクである。スタイルＢ用ハードマスクは、上述のスタイルＡ用ハードマスクにおける左半分の値と右半分の値とを反転することによって生成することができる。なお、スタイルＢ用ハードマスクは、図２２および図２３に示したソフトマスク（スタイルＡ用ソフトマスク）における左半分の値と右半分の値とを反転することによってスタイルＢ用ソフトマスクを生成し、続いて、スタイルＢ用ソフトマスクにおける各行各列の数値をそれぞれ四捨五入することによって生成することもできる。ここで、スタイルＡ用ソフトマスクとスタイルＢ用ソフトマスクは、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。スタイルＡ用ハードマスクとスタイルＢ用ハードマスクも、スタイルトランスファーを抑制する領域が異なる複数のマスクに該当する。

【0209】

スタイルトランスファー部１０２Ｙは、畳み込み後のタテ１２８×ヨコ１２８の特徴量データに対して、上述のスタイルＢ用ハードマスクを適用する。マスクの適用方法は、例えばブーリアンマスク（ｂｏｏｌｅａｎｍａｓｋ）であってよい。ただし、ブーリアンマスク以外のマスクの適用アルゴリズムを排除する意図はない。

【0210】

スタイルトランスファー部１０２Ｙが特徴量データ（１２８×１２８）に対して、ブーリアンマスクによって上記のスタイルＢ用ハードマスクを適用すると、タテ１２８×ヨコ６４のデータが得られる。これを言い換えると、元の特徴量のうち、スタイルＢ用ハードマスクにおける値が１となっている部分（右半分）に対応する部分のみが残る。スタイルトランスファー部１０２Ｙは、マスク適用後の特徴量データについての平均μ２と標準偏差σ２を算出する。

【0211】

次に、図２６を参照して説明する。スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対して、平均μ１と標準偏差σ１とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ１が得られる。スタイルトランスファー部１０２Ｙは、部分的に正規化された特徴量ＦＶ１に対してスタイルＡ用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量ＦＶ１Ａとする。なお、特徴量ＦＶ１に対してスタイルＡ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ１の第２行第２列における値と、スタイルＡ用ソフトマスクの第２行第２列における値とを乗算した結果が、特徴量ＦＶ１Ａの第２行第２列における値となる。

【0212】

スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対して、平均μ２と標準偏差σ２とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ２が得られる。スタイルトランスファー部１０２Ｙは、部分的に正規化された特徴量ＦＶ２に対してスタイルＢ用ソフトマスクを適用する。このソフトマスクの適用により得られた特徴量を、特徴量ＦＶ２Ｂとする。なお、特徴量ＦＶ２に対してスタイルＢ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ２の第２行第２列における値と、スタイルＢ用ソフトマスクの第２行第２列における値とを乗算した結果が、特徴量ＦＶ２Ｂの第２行第２列における値となる。

【0213】

スタイルトランスファー部１０２Ｙは、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂとを加算する。これにより、タテ１２８×ヨコ１２８の、正規化された特徴量が得られる。なお、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂとの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量ＦＶ１Ａの第２行第２列における値と、特徴量ＦＶ２Ｂの第２行第２列における値とを足した結果が、正規化された特徴量の第２行第２列における値となる。

【0214】

図２７は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。

【0215】

スタイルＡについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ１およびγ１とする。スタイルＢについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ２およびγ２とする。この例におけるβ１、β２、γ１、およびγ２はそれぞれ、１２８×１２８のサイズを有するデータである。

【0216】

スタイルトランスファー部１０２Ｙは、β１およびγ１に対してスタイルＡ用ソフトマスクを適用する。これにより、新しいβ１と新しいγ１とが得られる。なお、スタイルＡ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β１の第２行第２列における値と、スタイルＡ用ソフトマスクの第２行第２列における値とを乗算した結果が、新しいβ１の第２行第２列における値となる。γ１対するスタイルＡ用ソフトマスクの適用についても同様である。

【0217】

スタイルトランスファー部１０２Ｙは、β２およびγ２に対してスタイルＢ用ソフトマスクを適用する。これにより、新しいβ２と新しいγ２とが得られる。なお、スタイルＢ用ソフトマスクを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、β２の第２行第２列における値と、スタイルＢ用ソフトマスクの第２行第２列における値とを乗算した結果が、新しいβ２の第２行第２列における値となる。γ２対するスタイルＢ用ソフトマスクの適用についても同様である。

【0218】

スタイルトランスファー部１０２Ｙは、β１とβ２とを加算したデータと、γ１とγ２とを加算したデータとをパラメータとして、正規化された特徴量（図２６参照）に対してアフィン変換を行う（図１４および図１５を併せて参照）。その結果、アフィン変換された特徴量が処理層から抽出される。

【0219】

図２８は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

【0220】

取得部１０１Ｙは、犬が映り込んだ画像データを取得する（ステップＳｔ８１）。マスク取得部１０４Ｙは、画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクＭ１を取得する（ステップＳｔ８２）。図２８には、画像データにおける左端領域と右端領域についてのスタイル変換を抑制するためのマスクＭ１が例示されている。マスクＭ１の中央領域（黒色）は、１または１に近い値を有する。マスクＭ１の左端領域（白色）と右端領域（白色）は、０または０に近い値を有する。従って、例えば四捨五入を行ってマスクＭ１をハードマスクに変換した場合、ハードマスクの中央領域の値が１となり、左端領域および右端領域の値が０となる。

【0221】

また、マスク取得部１０４Ｙは、マスクＭ１の値を反転させたマスクＭ２を取得する（ステップＳｔ８２）。例えば、マスクＭ１の座標（ｉ，ｊ）におけるピクセルの値をａ_ｉｊとし、マスクＭ２の座標（ｉ，ｊ）におけるピクセルの値をｂ_ｉｊとした時に、マスク取得部１０４Ｙは、ｂ_ｉｊ＝１－ａ_ｉｊを計算することにより、マスクＭ１の値を反転させたマスクＭ２を取得してよい。なお、マスクＭ１が例えば図２６に示したスタイルＡ用ソフトマスクのような値を有するものであれば、マスク取得部１０４Ｙは左側領域（１から０．５）と右側領域（０．４９から０）とを入れ替えることによりマスクＭ２を取得してもよい。すなわちマスク取得部１０４Ｙは、反転の対象となるマスクの態様に応じた反転処理（左右反転、上下反転、１－ａ_ｉｊなど）を行う。その他、マスクＭ２の各ピクセルの値をメモリ１２や記憶装置１３等にあらかじめ記憶しておき、マスク取得部１０４Ｙがメモリ１２や記憶装置１３等からマスクＭ２を取得してもよい。マスクＭ２の中央領域（白色）は、０または０に近い値を有する。マスクＭ２の左端領域（黒色）と右端領域（黒色）は、１または１に近い値を有する。従って、例えば四捨五入を行ってマスクＭ２をハードマスクに変換した場合、ハードマスクの中央領域の値が０となり、左端領域および右端領域の値が１となる。

【0222】

スタイルトランスファー部１０２Ｙは、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ８３）。図２８においてスタイルトランスファー部１０２Ｙは、マスクＭ１とマスクＭ２とを用いて、犬が映り込んだ画像データに対してスタイル画像Ａ１、Ｂ１、およびＢ２に基づいたスタイルトランスファーを適用する。スタイルＡは、スタイル画像Ａ１単独で構成されるスタイルである。スタイルＢは、スタイル画像Ｂ１およびスタイル画像Ｂ２をブレンドしたスタイルである。なお、図２８は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図２８に描かれているスタイル画像Ａ１、Ｂ１およびＢ２は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像Ａ１、Ｂ１およびＢ２の近傍に、斜線領域、横線領域、および縦線領域をそれぞれ示す３つの矩形が記載されている。斜線領域、横線領域、および縦線領域をそれぞれ示す３つの矩形は、各スタイル画像Ａ１、Ｂ１およびＢ２が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクＭ１は、スタイルＡ用ソフトマスクに該当する。マスクＭ２は、スタイルＢ用ソフトマスクに該当する。

【0223】

出力部１０３Ｙは、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ８４）。図２８においては、中央領域がスタイルＡに、左端領域と右端領域とがスタイルＢにそれぞれスタイルトランスファーされた出力画像を、出力部１０３Ｙが出力する。

【0224】

なお、マスクＭ１およびマスクＭ２が有する値は、０から１の間の連続値である。そのため、出力画像の一部の領域（中央領域と端領域との境目付近）において、１回の計算によってスタイルＡとスタイルＢとが単に平均化されるのではなくきれいに混ざり合う。図２８には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像の中央領域と端領域との境目付近では、斜線領域（スタイル画像Ａ１に対応）と、横線領域（スタイル画像Ｂ１に対応）と、縦線領域（スタイル画像Ｂ２に対応）とが混ざり合うように適用されている。仮に、ハードマスクをマスクＭ１およびマスクＭ２として用いた場合は、出力画像において、スタイルＡとスタイルＢとが混ざり合わず、領域毎にスタイルを分けてスタイルトランスファーが行われることになる。

【0225】

図２９は、本発明の実施形態の少なくとも一つに対応する、マスクを用いたスタイルトランスファー処理を例示する概念図である。

【0226】

取得部１０１Ｙは、犬が映り込んだ画像データを取得する（Ｓｔ８１）。マスク取得部１０４Ｙは、画像データにおける一部の領域についてスタイルトランスファーを抑制するためのマスクＭ３を取得する（Ｓｔ８２）。図２９には、画像データにおける犬に相当する領域についてスタイルトランスファーを抑制するためのマスクＭ３が例示されている。マスクＭ３の犬以外の部分に相当する領域（黒色）の値は１である。マスクＭ３の犬に相当する領域（白色）の値は０である。

【0227】

また、マスク取得部１０４Ｙは、マスクＭ３の値を反転させたマスクＭ４を取得する（ステップＳｔ８２）。例えば、マスクＭ３の座標（ｉ，ｊ）におけるピクセルの値をｃ_ｉｊとし、マスクＭ４の座標（ｉ，ｊ）におけるピクセルの値をｄ_ｉｊとした時に、マスク取得部１０４Ｙは、ｄ_ｉｊ＝１－ｃ_ｉｊを計算することにより、マスクＭ３の値を反転させたマスクＭ４を取得してよい。なお、マスクＭ３が例えば図２５に示したスタイルＡ用ハードマスクのような値を有するものであれば、マスク取得部１０４Ｙは左側領域（値は１）と右側領域（値は０）とを入れ替えることによりマスクＭ４を取得してもよい。すなわちマスク取得部１０４Ｙは、反転の対象となるマスクの態様に応じた反転処理（左右反転、上下反転、１－ｃ_ｉｊなど）を行う。その他、マスクＭ４の各ピクセルの値をメモリ１２や記憶装置１３等にあらかじめ記憶しておき、マスク取得部１０４Ｙがメモリ１２や記憶装置１３等からマスクＭ４を取得してもよい。マスクＭ４の犬以外の部分に相当する領域（白色）の値は０である。マスクＭ４の犬に相当する領域（黒色）の値は１である。

【0228】

スタイルトランスファー部１０２Ｙは、マスクを用いて、画像データに対して一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ８３）。図２９においてスタイルトランスファー部１０２Ｙは、マスクＭ３とマスクＭ４とを用いて、犬が映り込んだ画像データに対してスタイル画像Ｃ１、Ｃ２、およびＤ１に基づいたスタイルトランスファーを適用する。スタイルＣは、スタイル画像Ｃ１およびスタイル画像Ｃ２をブレンドしたスタイルである。スタイルＤは、スタイル画像Ｄ１単独で構成されるスタイルである。なお、図２９は、マスクを用いたスタイルトランスファー処理を概念的に示すものである。そのため、図２９に描かれているスタイル画像Ｃ１、Ｃ２およびＤ１は、出願人が実際に用いたスタイル画像ではない。説明の便宜上、各スタイル画像Ｃ１、Ｃ２およびＤ１の近傍に、横線領域、縦線領域、および斜線領域をそれぞれ示す３つの矩形が記載されている。横線領域、縦線領域、および斜線領域をそれぞれ示す３つの矩形は、各スタイル画像Ｃ１、Ｃ２およびＤ１が出力画像のどこにどの程度適用されるかを例示するために記載されている。マスクＭ３は、スタイルＣ用ハードマスクに該当する。マスクＭ４は、スタイルＤ用ハードマスクに該当する。

【0229】

出力部１０３Ｙは、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ８４）。図２９においては、犬以外の部分に相当する領域がスタイルＣに、犬に相当する領域がスタイルＤにそれぞれスタイルトランスファーされた出力画像を、出力部１０３Ｙが出力する。

【0230】

マスクＭ３およびマスクＭ４が有する値は、０または１である。すなわち、マスクＭ３およびマスクＭ４はハードマスクである。そのため、出力画像において、スタイルＣとスタイルＤとが混ざり合わず、犬と犬以外の領域とにスタイルを分けて１回の計算によってスタイルトランスファーが行われることになる。図２９には、出力画像のスタイル適用範囲を示す矩形が、出力画像の近傍に記載されている。出力画像における犬に相当する領域では、斜線領域（スタイル画像Ｄ１に対応）が適用されている。出力画像における犬以外の部分に相当する領域では、横線領域（スタイル画像Ｃ１に対応）と縦線領域（スタイル画像Ｃ２に対応）とが適用されている。

【0231】

（領域を３分割以上に分割する場合のマスクの活用例）
なお、画像データの領域を３分割以上に分割して、それぞれ異なるスタイルを適用したい場合にも、マスクを用いることができる。図３０は、本発明の実施形態の少なくとも一つに対応する、画像データを３つの領域に分けてそれぞれ異なるスタイルを適用したい場合のマスクを例示する概念図である。

【0232】

３つのマスクＭＡ、ＭＢ、およびＭＣを用意する。例えば、マスクＭＡは、左側三分の一の領域が１の値を有し、それ以外の領域が０の値を有する。マスクＭＢは、中央部分の領域が１の値を有し、左側三分の一の領域と右側三分の一の領域とが０の値を有する。マスクＭＣは、右側三分の一の領域が１の値を有し、それ以外の領域が０の値を有する。ただし、左側、中央、右側の３つの分割は、厳密な三等分でなくともよい。実際、１２８ピクセルや２５６ピクセルは３で割り切れない。マスクＭＡはスタイルＡに、マスクＭＢはスタイルＢに、マスクＭＣはスタイルＣに、それぞれ対応しているものとする。また、スタイルＡ、スタイルＢおよびスタイルＣは、それぞれ異なる一以上のスタイル画像に基づいたスタイルであるとする。

【0233】

図２４および図２５に基づいて説明したのと同様に、スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対してハードマスクを適用した後、平均と標準偏差を算出する。マスクＭＡに対応する平均および標準偏差を、それぞれμ１およびσ１とする。マスクＭＢに対応する平均および標準偏差を、それぞれμ２およびσ２とする。マスクＭＣに対応する平均および標準偏差を、それぞれμ３およびσ３とする。

【0234】

図３１は、本発明の実施形態の少なくとも一つに対応する、処理層で行われる正規化を例示する概念図である。図２６に基づいて説明したのと同様に、スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対して、平均μ１と標準偏差σ１とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ１が得られる。スタイルトランスファー部１０２Ｙは、部分的に正規化された特徴量ＦＶ１に対してマスクＭＡを適用する。このマスクＭＡの適用により得られた特徴量を、特徴量ＦＶ１Ａとする。なお、特徴量ＦＶ１に対してマスクＭＡを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ１の第２行第２列における値と、マスクＭＡの第２行第２列における値とを乗算した結果が、特徴量ＦＶ１Ａの第２行第２列における値となる。

【0235】

スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対して、平均μ２と標準偏差σ２とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ２が得られる。スタイルトランスファー部１０２Ｙは、部分的に正規化された特徴量ＦＶ２に対してマスクＭＢを適用する。このマスクＭＢの適用により得られた特徴量を、特徴量ＦＶ２Ｂとする。なお、特徴量ＦＶ２に対してマスクＭＢを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ２の第２行第２列における値と、マスクＭＢの第２行第２列における値とを乗算した結果が、特徴量ＦＶ２Ｂの第２行第２列における値となる。

【0236】

スタイルトランスファー部１０２Ｙは、畳み込み後の特徴量データに対して、平均μ３と標準偏差σ３とを用いて正規化を行う。これにより、部分的に正規化された特徴量ＦＶ３が得られる。スタイルトランスファー部１０２Ｙは、部分的に正規化された特徴量ＦＶ３に対してマスクＭＣを適用する。このマスクＭＣの適用により得られた特徴量を、特徴量ＦＶ３Ｃとする。なお、特徴量ＦＶ３に対してマスクＭＣを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。具体例を挙げると、特徴量ＦＶ３の第２行第２列における値と、マスクＭＣの第２行第２列における値とを乗算した結果が、特徴量ＦＶ３Ｃの第２行第２列における値となる。

【0237】

スタイルトランスファー部１０２Ｙは、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂと特徴量ＦＶ３Ｃとを加算する。これにより、タテ１２８×ヨコ１２８の、正規化された特徴量が得られる。なお、特徴量ＦＶ１Ａと特徴量ＦＶ２Ｂと特徴量ＦＶ３Ｃの加算は、例えば同じ行および同じ列の値同士を加算するものであってよい。具体例を挙げると、特徴量ＦＶ１Ａの第２行第２列における値と、特徴量ＦＶ２Ｂの第２行第２列における値と、特徴量ＦＶ３Ｃの第２行第２列における値とを足した結果が、正規化された特徴量の第２行第２列における値となる。

【0238】

図３２は、本発明の実施形態の少なくとも一つに対応する、正規化後のアフィン変換処理を例示する概念図である。

【0239】

スタイルＡについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ１およびγ１とする。スタイルＢについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ２およびγ２とする。スタイルＣについてのアフィン変換に用いられる２種類のパラメータをそれぞれβ３およびγ３とする。この例におけるβ１、β２、β３、γ１、γ２、およびγ３はそれぞれ、１２８×１２８のサイズを有するデータである。

【0240】

スタイルトランスファー部１０２Ｙは、β１およびγ１に対してマスクＭＡを適用する。これにより、新しいβ１と新しいγ１とが得られる。スタイルトランスファー部１０２Ｙは、β２およびγ２に対してマスクＭＢを適用する。これにより、新しいβ２と新しいγ２とが得られる。スタイルトランスファー部１０２Ｙは、β３およびγ３に対してマスクＭＣを適用する。これにより、新しいβ３と新しいγ３とが得られる。なお、マスクＭＡ、ＭＢ、またはＭＣを適用するアルゴリズムは、例えば同じ行および同じ列の値同士を乗算するものであってよい。

【0241】

スタイルトランスファー部１０２Ｙは、β１とβ２とβ３を加算したデータと、γ１とγ２とγ３を加算したデータとをパラメータとして、正規化された特徴量（図３１参照）に対してアフィン変換を行う（図１４および図１５を併せて参照）。その結果、アフィン変換された特徴量が処理層から抽出される。

【0242】

スタイルトランスファー部１０２Ｙは例えば、入力画像と、マスクＭＡ、ＭＢおよびＭＣとを、ニューラルネットワークＮ３に入力する。これにより、左端、中央、右端の３つの領域のそれぞれに異なるスタイルに基づいたスタイルトランスファーが行われた出力画像が、学習済みニューラルネットワークから出力される。

【0243】

（マスクの形状について）
マスク取得部１０４Ｙが取得するマスクの形状には、種々のものが考えられる。上述のように、マスクは、画像データにおける一部の領域についてスタイルトランスファーを抑制するために用いられる。画像データにおける一部の領域は、画像データに含まれる一以上のオブジェクトに対応する対応領域であるか、または、対応領域以外の領域であってよい。一以上のオブジェクトは、画像に映り込んだ何らかの物体であってよい。例えば図２８および図２９における入力画像に映り込んだ犬、犬が載っている台、または犬と台との組み合わせ等が、一以上のオブジェクトに該当する。一以上のオブジェクトは、画像に映り込んだ壁や建物であってもよく、壁や建物の模様等であってもよい。一以上のオブジェクトは、例えば画像に映り込んだ眼鏡のレンズ部分、またはキャラクタの右腕などの、オブジェクトの一部分であってもよい。

【0244】

オブジェクトは、ゲーム内オブジェクトであってもよい。ゲーム内オブジェクトとは、例えばビデオゲームに登場するキャラクタ、武器、乗り物、建物等を意味する。ゲーム内オブジェクトは、ゲームのマップを構成する山、森、林、木、川、海などであってもよい。また、ゲームはビデオゲームに限られず、例えば現実世界を用いて行われるイベント型のゲームや、ＸＲ技術を用いたゲームなども含まれる。

【0245】

画像データにおける一部の領域は、画像データに対して適用されている一以上のエフェクトに対応する対応領域であるか、または、対応領域以外の領域であってよい。エフェクトとは、画像に対して適用されるぼかし効果、強調効果などの加工を意味する。

【0246】

エフェクトは、ゲームにおいて画像データに対して適用されたエフェクトであってよい。例えば画像に映り込んだ剣に対して付与された炎のエフェクト、画像に映り込んだキャラクタに対して付与された必殺技のエフェクト、画像に映り込んだオブジェクトに対する光の当たり方についてのエフェクトなどが該当する。

【0247】

一部の領域は、画像データの画素値または画像データの生成に係るバッファのバッファデータが所定の基準を満たす部分に対応する対応領域であるか、または、対応領域以外の領域であってよい。画素値が所定の基準を満たす部分とは、例えばＲＧＢの３チャネルを有するカラー画像データにおいて、Ｒの値が所定の閾値以上である（一定以上の赤味を有する）部分などを意味する。この場合、マスクは画像データの画素値に応じて生成されてよい。画像データの生成に係るバッファのバッファデータが所定の基準を満たす部分とは、例えば、バッファデータの値が所定の閾値以上である部分などを意味する。この場合、マスクはバッファデータの値に応じて生成されてよい。

【0248】

第７の実施形態の一側面として、画像データにおける一部の領域についてのスタイルトランスファーをマスクによって抑制しつつ、それ以外の領域については抑制無しでスタイルトランスファーを行うことができる。

【0249】

第７の実施形態の一側面として、スタイルトランスファーを抑制する領域が異なる複数のマスクを用いることにより、画像データに対して、画像データの領域毎に異なるスタイルを適用することができる。

【0250】

第７の実施形態の一側面として、マスクが有する値を適宜調整することにより、画像データにおけるある領域について、一以上のスタイル画像からなる第１のスタイルに基づいたスタイルトランスファーと、一以上のスタイル画像からなる第２のスタイルに基づいたスタイルトランスファーとをブレンドすることができる。

【0251】

第７の実施形態の一側面として、一以上のオブジェクトとそれ以外との間で、スタイルの適用態様を分けることができる。

【0252】

第７の実施形態の一側面として、一以上のゲーム内オブジェクトとそれ以外との間で、スタイルの適用態様を分けることができる。

【0253】

第７の実施形態の一側面として、一以上のエフェクトが適用されている領域とそれ以外の領域との間で、スタイルの適用態様を分けることができる。

【0254】

第７の実施形態の一側面として、ゲームにおいて一以上のエフェクトが適用されている領域とそれ以外の領域との間で、スタイルの適用態様を分けることができる。

【0255】

第７の実施形態の一側面として、画像データの画素値または画像データの生成に係るバッファのバッファデータが所定の基準を満たす部分に対応する領域とそれ以外の領域との間で、スタイルの適用態様を分けることができる。

【0256】

第７の実施形態の一側面として、マスクによる影響を、ニューラルネットワークで用いられるアフィン変換を介して導入してスタイルトランスファーを行うことができる。

【0257】

［第８の実施形態］
本発明の第８の実施形態の概要について説明をする。以下では、第８の実施形態として、サーバにおいて実行されるスタイルトランスファープログラムを例示して説明する。なお、サーバは、図１に記載のビデオゲーム処理システム１００が備えるサーバ１０であってよい。

【0258】

図３３は、本発明の実施形態の少なくとも一つに対応するサーバの構成を示すブロック図である。サーバ１０の構成の例であるサーバ１０Ｚは、取得部１０１Ｚと、スタイルトランスファー部１０２Ｚと、出力部１０３Ｚとを少なくとも備える。サーバ１０Ｚが備えるプロセッサは、記憶装置に保持されたスタイルトランスファープログラムを参照し、そのプログラムを実行することにより、取得部１０１Ｚと、スタイルトランスファー部１０２Ｚと、出力部１０３Ｚとを機能的に実現する。

【0259】

取得部１０１Ｚは、画像データを取得する機能を有する。スタイルトランスファー部１０２Ｚは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを１回以上適用する機能を有する。スタイルトランスファー部１０２Ｚは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用してもよい。

【0260】

スタイルトランスファー部１０２Ｚは、画像データを構成する色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像を構成する色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する機能を有する。なお、画像データを構成する色とは、画像データに含まれる画素の色を意味する。スタイル画像を構成する色とは、スタイル画像に含まれる画素の色を意味する。

【0261】

出力部１０３Ｚは、スタイルトランスファーが適用された後のデータを出力する機能を有する。

【0262】

次に、本発明の第８の実施形態におけるプログラム実行処理について説明する。図３４は、本発明の実施形態の少なくとも一つに対応するスタイルトランスファープログラムの処理例を示すフローチャートである。

【0263】

取得部１０１Ｚは、画像データを取得する（Ｓｔ９１）。スタイルトランスファー部１０２Ｚは、画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する（Ｓｔ９２）。ステップＳｔ９２においてスタイルトランスファー部１０２Ｚは、画像データに含まれる色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像に含まれる色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する。出力部１０３Ｚは、スタイルトランスファーが適用された後のデータを出力する（Ｓｔ９３）。

【0264】

取得部１０１Ｚによる画像データの取得元は、取得部１０１がアクセス可能な記憶装置であってよい。例えば、取得部１０１Ｚは、サーバ１０Ｚに設けられたメモリ１２または記憶装置１３から画像データを取得してよい。取得部１０１Ｚは、通信ネットワーク３０を介して外部装置から画像データを取得してもよい。外部装置の例として、ユーザ端末２０や他のサーバなどがあるが、これらには限定されない。

【0265】

取得部１０１Ｚは、レンダリングに用いられるバッファ等から画像データを取得してもよい。レンダリングに用いられるバッファとは、例えば３次元のＣＧ画像をレンダリングする機能を有するレンダリングエンジンが用いるバッファなどを意味する。

【0266】

【0267】

スタイルトランスファー部１０２Ｚは、スタイルトランスファー用のニューラルネットワークを用いて良い。関連する技術として例えば、ＶｉｎｃｅｎｔＤｕｍｏｕｌｉｎ，ｅｔ．ａｌ．「ＡＬＥＡＲＮＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＦＯＲＡＲＴＩＳＴＩＣＳＴＹＬＥ」等がある。スタイルトランスファー部１０２Ｚがニューラルネットワークに所定のサイズの入力画像を入力することにより、スタイルトランスファーが適用された出力画像が得られる。

【0268】

出力部１０３Ｚによるスタイルトランスファー適用後のデータの出力先は、取得部１０１Ｚが画像データを取得したバッファとは異なるバッファであってよい。より特定的には、取得部１０１Ｚが画像データを取得したバッファを第１バッファとした場合、スタイルトランスファーの適用後のデータの出力先は、第１バッファとは異なる第２バッファであってよい。第２バッファは、レンダリング処理において第１バッファの後に用いられるバッファであってもよい。

【0269】

その他、出力部１０３Ｚによるスタイルトランスファーの適用後のデータの出力先は、サーバ１０Ｚが備える記憶装置や出力装置であってよく、サーバ１０Ｚから見た外部装置であってもよい。

【0270】

図３５は、本発明の実施形態の少なくとも一つに対応し得る、スタイルトランスファーネットワークの学習（トレーニング）方法を例示する概念図である。図３６は、本発明の実施形態の少なくとも一つに対応し得る、スタイルベクトルの構成を例示する概念図である。

【0271】

スタイルトランスファーネットワークの学習は、プロセッサを有する装置によって行われる。プロセッサを有する装置は例えばサーバ１０Ｚであってよい。プロセッサを有する装置は、サーバ１０Ｚ以外の装置であってもよい。装置が備えるプロセッサがニューラルネットワークＮ４にコンテンツ画像（入力画像）を入力する。ニューラルネットワークＮ４は、スタイルトランスファーネットワークやモデル等と呼ばれることがある。ニューラルネットワークＮ４は、図１４、図１５および図２２におけるニューラルネットワークＮ１、Ｎ２、およびＮ３に相当する。プロセッサがニューラルネットワークＮ４にコンテンツ画像（入力画像）を入力すると、スタイル化結果画像（出力画像）が出力される。

【0272】

ニューラルネットワークＮ４の後段には、ＶＧＧ１６が配置されている。ＶＧＧ１６は既知であるため、詳しい説明は省略する。

【0273】

プロセッサは、コンテンツ画像と、スタイル画像と、スタイル化結果画像とをＶＧＧ１６に入力する。プロセッサは、ＶＧＧ１６の後段で、最適化関数（損失関数）の計算を行い、ニューラルネットワークＮ４とスタイルベクトルとに対して逆伝搬を行う。なお、スタイルベクトルは、例えばメモリ１２や記憶装置１３等に保存されていてよい。逆伝搬を行うことによって、ニューラルネットワークＮ４に対して学習が行われる。その結果、プロセッサはコンテンツ画像（入力画像）をニューラルネットワークＮ４に入力することにより、スタイルトランスファーを行うことができる。

【0274】

図３６に例示されているように、ニューラルネットワークＮ４と共に用いられるスタイルベクトルは、スタイル画像ごとに１つずつ規定される。例えば、スタイル画像Ｅ１についてのスタイルベクトルＳ１と、スタイル画像Ｅ２についてのスタイルベクトルＳ２と、スタイル画像Ｅ３についてのスタイルベクトルＳ３とが用いられる。これらのスタイルベクトルＳ１～Ｓ３はそれぞれ、スタイル画像に含まれる色情報に基づいて規定されたスタイル色のベクトルである。

【0275】

（色の動的制御を伴うスタイルトランスファー）
次に、色の動的制御を伴うスタイルトランスファーについて説明する。図３７は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーネットワークの学習（トレーニング）方法を例示する概念図である。図３８は、本発明の実施形態の少なくとも一つに対応する、スタイルベクトルの構成を例示する概念図である。

【0276】

スタイルトランスファーネットワークの学習は、プロセッサを有する装置によって行われる。プロセッサを有する装置は例えばサーバ１０Ｚであってよい。プロセッサを有する装置は、サーバ１０Ｚ以外の装置であってもよい。装置が備えるプロセッサがニューラルネットワークＮ５にコンテンツ画像（入力画像）を入力する。ニューラルネットワークＮ５は、スタイルトランスファーネットワークやモデル等と呼ばれることがある。ニューラルネットワークＮ５は、図１４、図１５および図２２におけるニューラルネットワークＮ１、Ｎ２、およびＮ３に相当する。プロセッサがニューラルネットワークＮ５にコンテンツ画像（入力画像）を入力すると、スタイル化結果画像（出力画像）が出力される。

【0277】

ニューラルネットワークＮ５の後段には、ＶＧＧ１６が配置されている。ＶＧＧ１６は既知であるため、詳しい説明は省略する。

【0278】

プロセッサは、コンテンツ画像と、スタイル画像と、スタイル化結果画像とをＶＧＧ１６に入力する。プロセッサは、ＶＧＧ１６の後段で、最適化関数（損失関数）の計算を行い、ニューラルネットワークＮ５とスタイルベクトルとに対して逆伝搬を行う。なお、スタイルベクトルは、例えばメモリ１２や記憶装置１３等に保存されていてよい。このようにすることによって、ニューラルネットワークＮ５に対して学習が行われる。その結果、プロセッサはコンテンツ画像（入力画像）をニューラルネットワークＮ５に入力することにより、スタイルトランスファーを行うことができる。

【0279】

図３８に例示されているように、ニューラルネットワークＮ５と共に用いられるスタイルベクトルは、スタイル画像ごとに２つずつ規定される。例えば、スタイル画像Ｅ１についてのスタイルベクトルＳ１およびＳ４と、スタイル画像Ｅ２についてのスタイルベクトルＳ２およびＳ５と、スタイル画像Ｅ３についてのスタイルベクトルＳ３およびＳ６とが用いられる。一方で、スタイルベクトルＳ１～Ｓ３はそれぞれ、スタイル画像に含まれる色情報に基づいて規定されたスタイル色のベクトルである。他方で、スタイルベクトルＳ４～Ｓ６はそれぞれ、コンテンツ画像（入力画像）に含まれる色情報に基づいて規定されたコンテンツ色のベクトルである。

【0280】

図３９は、本発明の実施形態の少なくとも一つに対応する、スタイルトランスファーネットワークの学習方法の一部を例示する概念図である。

【0281】

本発明の実施形態の少なくとも一つにおいては、ニューラルネットワークＮ５の学習を、第１の色空間と第２の色空間の二種類の色空間で行う。第１の色空間は例えばＲＧＢ色空間である。第２の色空間は、例えばＹＵＶ色空間である。逆伝搬による最適化に用いられる最適化関数（損失関数）として、ＲＧＢ損失（ＲＧＢＬｏｓｓ）とＹＵＶ損失（ＹＵＶＬｏｓｓ）との二種類が用いられる。そのため、図３９に示されているように、最適化関数の計算につきＲＧＢブランチとＹＵＶブランチの２系統がある。なお、ＲＧＢ色空間やＹＵＶ色空間以外の色空間、例えばＹＣｂＣｒ色空間やＹＰｂＰｒ色空間などが用いられてもよい。

【0282】

（ＲＧＢ最適化）
まず、ＲＧＢ最適化について説明する。ＲＧＢ最適化には、スタイル最適化とコンテンツ最適化が含まれる。スタイル最適化関数およびコンテンツ最適化関数は、それぞれ以下のようなものである。

【0283】

スタイル最適化関数：

【数8】

【0284】

コンテンツ最適化関数：

【数9】

【0285】

上述の最適化関数において、ｐは生成された画像を示す。生成された画像は、機械学習に用いられるニューラルネットワークの出力画像に相当する。ｓ（小文字のｓ）は例えば抽象絵画などのスタイル画像を示す。Ｕ_ｊはレイヤｊのユニットの総数を示す。Ｇはグラムマトリクス（Ｇｒａｍｍａｔｒｉｘ）を示す。φ_ｉはＶＧＧ－１６アーキテクチャの第ｉ番目の活性化関数の出力を示す。φ_ｊはＶＧＧ－１６アーキテクチャの第ｊ番目の活性化関数の出力を示す。Ｓ（大文字のＳ）はスタイルの最適化を計算するためのＶＧＧ－１６のレイヤ群を示す。ｃ（小文字のｃ）はコンテンツ画像を示す。Ｃ（大文字のＣ）はコンテンツ最適化関数を計算するためのＶＧＧ－１６のレイヤ群であり、ｊは当該レイヤ群に含まれるレイヤのインデックスである。絶対値記号に付加されたＦはフロベニウスノルムを意味する。添え字として付加されたｒｇｂは、第１の色空間であるＲＧＢについての最適化関数Ｌ、生成された画像ｐ、スタイル画像ｓ、およびコンテンツ画像ｃであることをそれぞれ示している。N_ｉ，ｒはφ_ｉ特徴マップの行数である。N_ｉ，ｃはφ_ｉ特徴マップの列数である。

【0286】

図４０は、本発明の実施形態の少なくとも一つに対応する、ＲＧＢブランチにおけるＲＧＢ最適化関数の計算例を示す概念図である。図中のスタイル化結果画像がｐ_ｒｇｂに相当する。図中のコンテンツ画像（入力画像）がｃ_ｒｇｂに相当する。図寺中のスタイル画像Ｅ１がｓ_ｒｇｂに相当する。プロセッサは、スタイル最適化関数Ｌ_{ｒｇｂ，ｓ}の値とコンテンツ最適化関数Ｌ_{ｒｇｂ，ｃ}の値とを加算し、加算した結果の値を最小化するように逆伝搬を行う。

【0287】

（ＹＵＶ最適化）
次に、ＹＵＶ最適化について説明する。ＹＵＶ最適化には、スタイル最適化とコンテンツ最適化が含まれる。スタイル最適化関数およびコンテンツ最適化関数は、それぞれ以下のようなものである。

【0288】

スタイル最適化関数：

【数10】

【0289】

コンテンツ最適化関数：

【数11】

ただし、

【数12】

【数13】

【0290】

ｐ、ｓ（小文字のｓ）、Ｕ_ｊ、Ｇ、φ_ｉ、φ_ｊ、Ｓ（大文字のＳ）、ｃ、Ｃ、Ｆ、N_ｉ，ｒ、およびN_ｉ，ｃは、上述のＲＧＢ最適化において説明したものと同様のものを意味する。添え字として付加されたｙは、第２の色空間であるＹＵＶにおけるＹチャネルについての最適化関数Ｌ、生成された画像ｐ、スタイル画像ｓ、およびコンテンツ画像ｃであることをそれぞれ示している。添え字として付加されたｕｖは、第２の色空間であるＹＵＶにおけるＵＶチャネルについての最適化関数Ｌ、生成された画像ｐ、およびコンテンツ画像ｃであることをそれぞれ示している。

【0291】

図４１は、本発明の実施形態の少なくとも一つに対応する、ＹＵＶブランチにおけるＹＵＶ最適化関数の計算例を示す概念図である。プロセッサは、スタイル化結果画像（出力画像）、コンテンツ画像（入力画像）、およびスタイル画像をＹＵＶ変換する。その上で、変換後のデータからＹチャネルとＵＶチャネルとを取り出して、ＲＧＢに変換し直す。ＲＧＢに変換し直すのは、後続のＶＧＧ１６がＲＧＢを認識するように構成されているからである。

【0292】

図中のスタイル化結果画像（出力画像）をＹＵＶ変換してＹチャネルおよびＵＶチャネルをそれぞれ取り出し、再度ＲＧＢ変換したものが、それぞれｐ_ｙおよびｐ_ｕｖに対応する。図中のコンテンツ画像（入力画像）をＹＵＶ変換してＹチャネルおよびＵＶチャネルをそれぞれ取り出し、再度ＲＧＢ変換したものが、それぞれｃ_ｙおよびｃ_ｕｖに対応する。図中のスタイル画像をＹＵＶ変換してＹチャネルを取り出し、再度ＲＧＢ変換したものが、ｓ_ｙに対応する。プロセッサは、スタイル最適化関数Ｌ_{ｙｕｖ，ｓ}の値とコンテンツ最適化関数Ｌ_{ｙｕｖ，ｃ}の値とを加算し、加算した結果の値を最小化するように逆伝搬を行う。

【0293】

図４２は、本発明の実施形態の少なくとも一つに対応する、色の動的制御を行うスタイルトランスファーにおける最適化関数を例示する概念図である。プロセッサはさらに、下記の最適化関数Ｌを計算する。

【0294】

【数14】

【0295】

プロセッサは、最適化関数Ｌの値を最小化するように逆伝搬を行う。

【0296】

以上のように、プロセッサはＲＧＢブランチとＹＵＶブランチの２系統の最適化関数を用いた最適化を行う。逆伝搬に基づく最適化は、ＲＧＢブランチと、ＹＵＶブランチと、ＲＧＢブランチおよびＹＵＶブランチをさらに合算したブランチとについて行われる。これにより、１つのスタイル画像に基づいたニューラルネットワークＮ５の学習が進行する。そしてプロセッサが、学習済みのニューラルネットワークＮ５にコンテンツ画像（入力画像）を入力することにより、コンテンツ画像に対してスタイルトランスファーが適用されたデータ（所望の画像データ）が出力される。

【0297】

（２以上のスタイル画像に基づいた、色の動的制御を伴うスタイルトランスファー）
次に、２以上のスタイル画像に基づいた、色の動的制御を伴うスタイルトランスファーについて説明する。図３９に基づいて説明したのと同様に、ニューラルネットワークＮ５の学習を、第１の色空間と第２の色空間の二種類の色空間で行う。第１の色空間および第２の色空間の種類については、前述と同様であるため説明を省略する。

【0298】

【0299】

スタイル最適化関数：

【数15】

【0300】

コンテンツ最適化関数：

【数16】

【0301】

ｐ、Ｕ_ｊ、Ｇ、φ_ｉ、φ_ｊ、Ｓ（大文字のＳ）、ｃ（小文字のｃ）、Ｃ（大文字のＣ）、Ｆ、N_ｉ，ｒ、およびN_ｉ，ｃは、図３９から図４２に基づいて説明したものと同様のものを意味する。

【0302】

【数17】

【0303】

は複数のスタイル画像からなるスタイル画像群であり、ｑおよびｒはスタイル画像群に含まれる任意のスタイル画像を示す。ただし、ｑとｒは互いに異なるスタイル画像である。

【0304】

添え字として付加されたｒｇｂは、第１の色空間であるＲＧＢについての最適化関数Ｌ、生成された画像ｐ、スタイル画像ｑ、スタイル画像ｒ、およびコンテンツ画像ｃであることをそれぞれ示している。添え字として付加されたｑおよびｒは、スタイル画像群から選択された２つのスタイル画像ｑおよびｒについての最適化関数Ｌであることを示している。添え字として付加されたｃは、コンテンツ画像についての最適化関数Ｌであることを示している。

【0305】

図４３は、本発明の実施形態の少なくとも一つに対応する、ＲＧＢブランチにおけるＲＧＢ最適化関数の計算例を示す概念図である。図中のスタイル化結果画像がｐ_ｒｇｂに相当する。図中のコンテンツ画像（入力画像）がｃ_ｒｇｂに相当する。図中のスタイル画像Ｅ１およびＥ２がｑ_ｒｇｂおよびｒ_ｒｇｂにそれぞれ相当する。なおプロセッサは、スタイル最適化関数の値とコンテンツ最適化関数の値とを加算し、加算した結果の値を最小化するように逆伝搬を行うが、この逆伝搬については、図４５を参照して後述する。

【0306】

（ＹＵＶ最適化）
次に、ＹＵＶ最適化について説明する。ＹＵＶ最適化には、スタイル最適化とコンテンツ最適化が含まれる。スタイル最適化関数およびコンテンツ最適化関数は、以下のようなものである。

【0307】

スタイル最適化関数：

【数18】

【0308】

コンテンツ最適化関数：

【数19】

コンテンツ最適化関数(Ｙ損失)：

【数20】

コンテンツ最適化関数（ＵＶ損失）：

【数21】

【0309】

ｐ、Ｕ_ｊ、Ｇ、φ_ｉ、φ_ｊ、Ｓ（大文字のＳ）、ｃ（小文字のｃ）、Ｃ（大文字のＣ）、Ｆ、N_ｉ，ｒ、N_ｉ，ｃ、ｑおよびｒは、２以上のスタイル画像に基づいた色の動的制御を伴うスタイルトランスファーにおける、ＲＧＢ最適化について説明したものと同様のものを意味する。

【0310】

【数22】

【0311】

は複数のスタイル画像からなるスタイル画像群である。添え字として付加されたｙは、第２の色空間であるＹＵＶにおけるＹチャネルついての最適化関数Ｌ、生成された画像ｐ、スタイル画像ｑ、スタイル画像ｒ、およびコンテンツ画像ｃであることを示している。添え字として付加されたｕｖは、第２の色空間であるＹＵＶにおけるＵチャネルおよびＶチャネルついての最適化関数Ｌ、生成された画像ｐ、およびコンテンツ画像ｃであることを示している。添え字として付加されたｑおよびｒは、スタイル画像群から選択された２つのスタイル画像ｑおよびｒについての最適化関数Ｌであることを示している。添え字として付加されたｃは、コンテンツ画像についての最適化関数Ｌであることを示している。

【0312】

図４４は、本発明の実施形態の少なくとも一つに対応する、ＹＵＶブランチにおけるＹＵＶ最適化関数の計算例を示す概念図である。プロセッサは、スタイル化結果画像（出力画像）およびコンテンツ画像（入力画像）をＹＵＶ変換する。その上で、変換後のデータからＹチャネルとＵＶチャネルとを取り出して、ＲＧＢに変換し直す。プロセッサは、スタイル画像Ｅ１およびスタイル画像Ｅ２をＹＵＶ変換する。その上で、変換後のデータからＹチャネルを取り出して、ＲＧＢに変換し直す。ＲＧＢに変換し直すのは、後続のＶＧＧ１６がＲＧＢを認識するように構成されているからである。

【0313】

図４４中のスタイル化結果画像（出力画像）をＹＵＶ変換してＹチャネルおよびＵＶチャネルをそれぞれ取り出し、再度ＲＧＢ変換したものが、それぞれｐ_ｙおよびｐ_ｕｖに対応する。図４４中のコンテンツ画像（入力画像）をＹＵＶ変換してＹチャネルおよびＵＶチャネルをそれぞれ取り出し、再度ＲＧＢ変換したものが、それぞれｃ_ｙおよびｃ_ｕｖに対応する。図４４中のスタイル画像Ｅ１およびＥ２をＹＵＶ変換してＹチャネルを取り出し、再度ＲＧＢ変換したものが、ｑ_ｙおよびｒ_ｙにそれぞれ対応する。なおプロセッサは、スタイル最適化関数の値とコンテンツ最適化関数の値とを加算し、加算した結果の値を最小化するように逆伝搬を行うが、この逆伝搬については、図４５を参照して後述する。

【0314】

図４５は、本発明の実施形態の少なくとも一つに対応する最適化処理を例示する概念図である。プロセッサは、ＲＧＢブランチとＹＵＶブランチのそれぞれに対して、スタイル最適化関数の値とコンテンツ最適化関数の値とを加算し、加算した結果の値を最小化するように逆伝搬を行う。しかし、スタイルの数が２以上の場合、スタイル最適化関数の値は１つとはならない。例えばｎを２以上の整数とするとき、ｎ個のスタイル画像が含まれるスタイル画像群から任意の１つまたは２つのスタイル画像を選択する選び方は、

【0315】

【数23】

【0316】

通りある。プロセッサは、スタイル画像群から任意の１つまたは２つのスタイル画像を選択した上で、スタイル最適化関数の値を計算する。なお、スタイル画像を１つ選択する場合は、図３９から図４２に基づいて説明したスタイル最適化関数の式を用いる。コンテンツ画像の数が１つであるため、コンテンツ最適化関数の値は一意に定まる。

【0317】

そしてプロセッサは、計算されたスタイル最適化関数の値とコンテンツ最適化関数の値とを加算し、加算した結果の値を最小化するように逆伝搬を行う。この逆伝搬は、ｎ個のスタイル画像が含まれるスタイル画像群から任意の１つまたは２つのスタイル画像を選択する選び方の数だけ行われる。

【0318】

具体例を示す。図４５はスタイル画像群がｎ＝４つのスタイル画像を含んでいる場合を示している。スタイル画像群から任意の１つまたは２つのスタイル画像を選択する選び方は１＋２＋３＋４＝１０通りある。プロセッサは、スタイル画像群から任意の１つまたは２つのスタイル画像を選択し、選択されたスタイル画像に基づいてスタイル最適化関数の値を計算する。プロセッサは、スタイル最適化関数の値と、コンテンツ最適化関数の値とを加算し、加算した値を最小化するように逆伝搬を行う。この逆伝搬処理が、スタイル画像の選択の仕方に応じて、ＲＧＢブランチについて１０回、ＹＵＶブランチについて１０回、それぞれ行われる。

【0319】

以上のように、プロセッサはＲＧＢブランチとＹＵＶブランチの２系統の最適化関数を用いた最適化を行う。逆伝搬に基づく最適化は、ＲＧＢブランチと、ＹＵＶブランチとについて行われる。これにより、２以上のスタイル画像に基づいたニューラルネットワークＮ５の学習が進行する。なおプロセッサは、ＲＧＢブランチとＹＵＶブランチの２系統の最適化関数の値を合算した値に基づく最適化関数（損失関数）を用いた、逆伝搬に基づく最適化をさらに行ってよい。そしてプロセッサが、学習済みのニューラルネットワークＮ５にコンテンツ画像（入力画像）を入力することにより、コンテンツ画像に対してスタイルトランスファーが適用されたデータ（所望の画像データ）が出力される。

【0320】

（色のランタイム制御）
スタイルトランスファー部１０２Ｚは、コンテンツ色とスタイル色との間の色で構成されたデータを構成する色を、所定のパラメータに基づいて制御する機能をさらに有してよい。

【0321】

図４６は、本発明の実施形態の少なくとも一つに対応する、プロセッサによる色の動的（ランタイム）制御例を示す概念図である。一般的なスタイルトランスファーにおいては、コンテンツ画像（入力画像）のスタイルを、スタイル画像のように変換することが可能であった。しかしながら、変換後の画像を構成する色は、スタイル画像を構成する色に基づくものとなっていた。本発明の実施形態の少なくとも一つに対応する、色の動的制御を伴うスタイルトランスファーであれば、出力画像を構成する色を、コンテンツ画像を構成する色（コンテンツ色）と、スタイル画像を構成する色（スタイル色）との間で動的に制御することができる。

【0322】

図４６に示されているように、色の動的制御を伴うスタイルトランスファーの場合、出力画像を構成する色を、コンテンツ色１００％からスタイル色１００％までの間で動的に制御することができる。

【0323】

スタイルトランスファー部１０２Ｚは、図３７および図３８に示したスタイルベクトルを用いて出力画像における色の動的制御を行う。例えば、入力画像をスタイル画像Ｅ１のスタイルに変換する場合であって、スタイル色８０％、コンテンツ色２０％であるような出力画像を得たい場合、スタイル画像Ｅ１に対応するスタイル色のベクトルＳ１と、コンテンツ色のベクトルＳ４とが用いられる。

【0324】

より具体的に例示すると、スタイルトランスファー部１０２Ｚは、アフィン変換の２つのパラメータであるｓｃａｌｅおよびｂｉａｓを以下のように計算する。
（動的制御用のｓｃａｌｅ，動的制御用のｂｉａｓ）＝０．８＊（Ｓ１のｓｃａｌｅ，Ｓ１のｂｉａｓ）＋０．２＊（Ｓ４のｓｃａｌｅ，Ｓ４のｂｉａｓ）

【0325】

そしてスタイルトランスファー部１０２Ｚは、動的制御用のｓｃａｌｅおよび動的制御用のｂｉａｓを用いて、ニューラルネットワークＮ５のアフィン層におけるアフィン変換を行う（図１５参照）。

【0326】

このように、プロセッサがコンテンツ色のスタイルベクトルとスタイル色のスタイルベクトルとに基づいて、アフィン変換の２つのパラメータであるｓｃａｌｅおよびｂｉａｓを計算することにより、スタイルトランスファー後の出力画像における色の制御を動的に行うことができるようになる。

【0327】

なお、スタイルトランスファー後の出力画像における色の制御は、所定のパラメータに基づいて行われてよい。例えばビデオゲームにおいて出力される出力画像の場合、スタイルトランスファー部１０２Ｚは、ゲームのプレイ時間、ゲーム内のキャラクタに対応付けられた体力値などの属性値、バフ状態またはデバフ状態などのキャラクタの状態を示す値、ゲーム内のキャラクタが装備するアイテムの種類、キャラクタが所持するアイテムに対応付けられたレア度や魔力付与レベルなどの属性値、ゲーム内の所定のオブジェクトに応じた値など、所定の情報に応じて、スタイル色とコンテンツ色との間の比率（上述の８０％：２０％など）等を設定した上で、色の動的制御を行ってよい。

【0328】

第８の実施形態の一側面として、出力画像を構成する色が、元の画像（コンテンツ画像）を構成する色であるコンテンツ色とスタイル画像を構成する色であるスタイル色との間の色になるようにしつつ、元の画像に対してスタイル変換を行った出力画像を得ることができる。

【0329】

第８の実施形態の一側面として、出力画像を構成する色を、コンテンツ色とスタイル色との間で動的に変えることができる。

【0330】

以上に説明したように、本願の各実施形態により１または２以上の不足が解決される。なお、夫々の実施形態による効果は、非限定的な効果または効果の一例である。

【0331】

上述した各実施形態では、ユーザ端末２０およびサーバ１０は、自己が備える記憶装置に記憶されている各種制御プログラム（例えば、スタイルトランスファープログラム）に従って、上述した各種の処理を実行する。また、ユーザ端末２０やサーバ１０に限られない他のコンピュータが、自己が備える記憶装置に記憶されている各種制御プログラム（例えば、スタイルトランスファープログラム）に従って、上述した各種の処理を実行してもよい。

【0332】

また、ビデオゲーム処理システム１００の構成は、上述した各実施形態の例として説明した構成に限定されない。例えばユーザ端末が実行する処理として説明した処理の一部または全部をサーバ１０が実行する構成としてもよいし、サーバ１０が実行する処理として説明した処理の一部または全部をユーザ端末２０が実行する構成としてもよい。また、サーバ１０が備える記憶部（記憶装置）の一部または全部をユーザ端末２０が備える構成としてもよい。すなわち、ビデオゲーム処理システム１００における、ユーザ端末とサーバのどちらか一方が備える機能の一部または全部を、他の一方が備える構成とされていてもよい。

【0333】

また、プログラムが、上述した各実施形態の例として説明した機能の一部または全部を、通信ネットワークを含まない装置単体に実現させる構成としてもよい。

【0334】

［付記］
上述した実施形態の説明は、少なくとも下記発明を、当該発明の属する分野における通常の知識を有する者がその実施をすることができるように記載した。
［１］
コンピュータに、
画像データを取得する取得機能と、
前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー機能と、
スタイルトランスファーが適用された後のデータを出力する出力機能と、
を実現させるためのスタイルトランスファープログラム。
［２］
前記スタイルトランスファー機能では、前記画像データに対して既に適用されたスタイルトランスファーに用いられたものと同じ一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する機能を
実現させるための、［１］に記載のスタイルトランスファープログラム。
［３］
前記スタイルトランスファー機能では、前記画像データに対して既に適用されたスタイルトランスファーに用いられたものとは異なる画像を含む一以上のスタイル画像に基づいたスタイルトランスファーを重ねて適用する機能を
実現させるための、［１］または［２］に記載のスタイルトランスファープログラム。
［４］
前記コンピュータに、
前記画像データにおける一部の領域についてスタイルトランスファーを抑制するマスクを取得する、マスク取得機能をさらに実現させ、
前記スタイルトランスファー機能では、前記マスクを用いて、前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを適用する機能を
実現させるための、［１］から［３］のうちいずれか一項に記載のスタイルトランスファープログラム。
［５］
前記スタイルトランスファー機能では、スタイルトランスファーを抑制する領域が異なる複数の前記マスクを用いて、前記画像データに対して、複数のスタイル画像からなる複数のスタイルに基づいたスタイルトランスファーを適用する機能を
実現させるための、［４］に記載のスタイルトランスファープログラム。
［６］
前記スタイルトランスファー機能では、前記画像データに含まれる一以上のオブジェクトに対応する対応領域であるか、または前記対応領域以外の領域である、前記一部の領域についてスタイルトランスファーを抑制するための前記マスクを用いて、前記スタイルトランスファーを適用する、
［４］または［５］に記載のスタイルトランスファープログラム。
［７］
前記オブジェクトはゲーム内オブジェクトである、
［６］に記載のスタイルトランスファープログラム。
［８］
前記スタイルトランスファー機能では、前記画像データに対して適用されている一以上のエフェクトに対応する対応領域であるか、または前記対応領域以外の領域である、前記一部の領域についてスタイルトランスファーを抑制するための前記マスクを用いて、前記スタイルトランスファーを適用する、
［４］から［７］のうちいずれか一項に記載のスタイルトランスファープログラム。
［９］
前記エフェクトはゲームにおいて前記画像データに対して適用されたエフェクトである、
［８］に記載のスタイルトランスファープログラム。
［１０］
前記スタイルトランスファー機能では、前記画像データの画素値または前記画像データの生成に係るバッファのバッファデータが所定の基準を満たす部分に対応する対応領域であるか、または前記対応領域以外の領域である、前記一部の領域についてスタイルトランスファーを抑制するための前記マスクを用いて、前記スタイルトランスファーを適用する、
［４］から［９］のうちいずれか一項に記載のスタイルトランスファープログラム。
［１１］
前記スタイルトランスファー機能では、ニューラルネットワークの処理層において、
畳み込み後の特徴量データに対して前記マスクに基づいたハードマスクを適用してから平均および標準偏差を算出し、
前記平均および前記標準偏差を用いて正規化された特徴量データに対して、スタイルに応じたアフィン変換用のパラメータに対して前記マスクを適用して得られたパラメータに基づいてアフィン変換を行うことにより、アフィン変換後の特徴量データを算出する機能を
実現させるための、［４］から［１０］のうちいずれか一項に記載のスタイルトランスファープログラム。
［１２］
前記スタイルトランスファー機能では、前記画像データを構成する色であるコンテンツ色と、前記画像データに対して適用する一以上のスタイル画像を構成する色であるスタイル色との間の色で構成されたデータを出力するように、前記画像データに対してスタイルトランスファーを適用する機能
をさらに実現させるための、［１］から［１１］のうちいずれか一項に記載のスタイルトランスファープログラム。
［１３］
前記スタイルトランスファー機能では、前記コンテンツ色と前記スタイル色との間の色で構成されたデータを構成する色を、所定のパラメータに基づいて制御する機能を
さらに実現させるための、［１２］に記載のスタイルトランスファープログラム。
［１４］
［１］から［１３］のうちいずれか一項に記載のスタイルトランスファープログラムがインストールされたサーバ。
［１５］
［１］から［１３］のうちいずれか一項に記載のスタイルトランスファープログラムがインストールされたコンピュータ。
［１６］
コンピュータによるスタイルトランスファー方法であって、
画像データを取得する取得処理と、
前記画像データに対して、一以上のスタイル画像に基づいたスタイルトランスファーを複数回重ねて適用する、スタイルトランスファー処理と、
スタイルトランスファーが適用された後のデータを出力する出力処理と、を含む、
スタイルトランスファー方法。

【産業上の利用可能性】

【0335】

本発明の実施形態の一つによれば、表現力に富むスタイルトランスファーを実現させるスタイルトランスファープログラムおよびスタイルトランスファー方法として有用である。

【符号の説明】

【0336】

１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ、１０Ｙ、１０Ｚサーバ
１１、２１プロセッサ
１２、２２メモリ
１３、２３記憶装置
２０、２０Ａ、２０Ｂユーザ端末
３０通信ネットワーク
１００ビデオゲーム処理システム
１０１、１０１Ｘ、１０１Ｙ、１０１Ｚ取得部
１０２、１０２Ｂ、１０２Ｃ、１０２Ｄ、１０２Ｘ、１０２Ｙ、１０２Ｚスタイルトランスファー部
１０３、１０３Ｘ、１０３Ｙ、１０３Ｚ出力部
１０４、１０４Ｚマスク取得部

【図1】