特開2024-7789 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ブラザー工業株式会社の特許一覧

特開2024-7789コンピュータプログラム、および、画像処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024007789

(43)【公開日】2024-01-19

(54)【発明の名称】コンピュータプログラム、および、画像処理装置

(51)【国際特許分類】

G06T 11/80 20060101AFI20240112BHJP

【ＦＩ】

G06T11/80 A

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2022109116

(22)【出願日】2022-07-06

(71)【出願人】

【識別番号】000005267

【氏名又は名称】ブラザー工業株式会社

(74)【代理人】

【識別番号】110001058

【氏名又は名称】鳳国際弁理士法人

(72)【発明者】

【氏名】渡邉航平

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA09

5B050BA06

5B050BA11

5B050BA12

5B050CA01

5B050DA04

5B050EA09

5B050EA12

5B050EA13

5B050EA19

5B050FA02

5B050FA05

(57)【要約】

【課題】顔を考慮して画像のスタイル変換を行う
【解決手段】
生物の顔を表す第１領域を検出する検出処理を、入力画像を使用して実行する。入力画像の第１領域の第１画像を使用して第１画像処理を実行することによって、第１処理済画像を生成する。第１画像処理は、第１スタイル変換処理を含む。入力画像の第２領域の第２画像を使用して第２画像処理を実行することによって、第２処理済画像を生成する。第２領域は、第１領域を除いた残りの領域の少なくとも一部を含む領域である。第２画像処理は、第２スタイル変換処理を含む。第１画像処理と第２画像処理とのうちの一方である第１特定処理は、第１画像処理と第２画像処理とのうちの第１特定処理とは異なる第２特定処理には含まれない処理を含む。第１処理済画像と第２処理済画像との合成処理を実行することによって、出力画像を生成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

コンピュータプログラムであって、
生物の顔を表す第１領域を検出する検出処理を、入力画像を使用して実行する検出機能と、
前記入力画像の前記第１領域の第１画像を使用して第１画像処理を実行することによって、第１処理済画像を生成する第１生成機能であって、前記第１画像処理は、第１スタイル変換処理を含む、前記第１生成機能と、
前記入力画像の第２領域の第２画像を使用して第２画像処理を実行することによって、第２処理済画像を生成する第２生成機能であって、前記第２領域は、前記第１領域を除いた残りの領域の少なくとも一部を含む領域であり、前記第２画像処理は、第２スタイル変換処理を含み、前記第１画像処理と前記第２画像処理とのうちの一方である第１特定処理は、前記第１画像処理と前記第２画像処理とのうちの前記第１特定処理とは異なる第２特定処理には含まれない処理を含む、前記第２生成機能と、
前記第１処理済画像と前記第２処理済画像との合成処理を実行することによって、出力画像を生成する第３生成機能と、
をコンピュータに実現させる、コンピュータプログラム。

【請求項2】

請求項１に記載のコンピュータプログラムであって、
前記第１画像処理は、高解像度化処理を含み、
前記第１スタイル変換処理は、前記入力画像上の前記第１領域の前記第１画像の解像度よりも高い解像度の画像のスタイル変換処理を含む、
コンピュータプログラム。

【請求項3】

請求項１または２に記載のコンピュータプログラムであって、
前記第２スタイル変換処理は、訓練済のスタイル変換モデルによるスタイル変換処理を含み、
前記訓練済のスタイル変換モデルは、損失が小さくなるように、訓練されており、
前記損失は、スタイル変換モデルに入力される画像から検出される顔の数と、前記スタイル変換モデルによるスタイル変換済の画像から検出される顔の数と、の間の差に関連する第１項を含む、
コンピュータプログラム。

【請求項4】

請求項１または２に記載のコンピュータプログラムであって、
前記第１スタイル変換処理は、訓練済のスタイル変換モデルによるスタイル変換処理を含み、
前記訓練済のスタイル変換モデルは、損失が小さくなるように、訓練されており、
前記損失は、スタイル変換モデルに入力される画像に含まれる第１顔から検出される第１顔ランドマークの位置と、前記スタイル変換モデルによるスタイル変換済の画像に含まれる第２顔から検出される第２顔ランドマークの位置と、の間の差に関連する第２項を含む、
コンピュータプログラム。

【請求項5】

請求項４に記載のコンピュータプログラムであって、
前記第１顔は、Ｎ個（Ｎは２以上の整数）の顔を表す入力訓練画像を使用して前記検出処理を実行することによって検出される顔であり、
前記第２顔は、前記検出処理と前記第１画像処理と前記第２画像処理と前記合成処理とを含む処理を前記入力訓練画像を使用して実行することによって生成される出力訓練画像から検出される１以上の顔のうち、前記第１顔と同じ個体の顔である、
コンピュータプログラム。

【請求項6】

請求項５に記載のコンピュータプログラムであって、
前記第２顔は、前記出力訓練画像から検出される前記１以上の顔のうち、前記第１顔を囲む第１矩形と前記出力訓練画像から検出される顔を囲む第２矩形との間の位置の差が小さいことを示す位置条件を満たす顔である、
コンピュータプログラム。

【請求項7】

画像処理装置であって、
生物の顔を表す第１領域を検出する検出処理を、入力画像を使用して実行する検出部と、
前記入力画像の前記第１領域の第１画像を使用して第１画像処理を実行することによって、第１処理済画像を生成する第１生成部であって、前記第１画像処理は、第１スタイル変換処理を含む、前記第１生成部と、
前記入力画像の第２領域の第２画像を使用して第２画像処理を実行することによって、第２処理済画像を生成する第２生成部であって、前記第２領域は、前記第１領域を除いた残りの領域の少なくとも一部を含む領域であり、前記第２画像処理は、第２スタイル変換処理を含み、前記第１画像処理と前記第２画像処理とのうちの一方である第１特定処理は、前記第１画像処理と前記第２画像処理とのうちの前記第１特定処理とは異なる第２特定処理には含まれない処理を含む、前記第２生成部と、
前記第１処理済画像と前記第２処理済画像との合成処理を実行することによって、出力画像を生成する第３生成部と、
を備える、画像処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書は、画像のスタイル変換に関する。

【背景技術】

【0002】

機械学習モデルを使用して画像のスタイル変換を行う技術が知られている。例えば、以下の論文は、画像のスタイルを他の画像に転写するニューラルネットワークを開示している。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】Leon A. Gatys, Alexander S. Ecker and Matthias Bethge. "Image Style Transfer Using Convolutional Neural Networks." 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016), DOI:10.1109/CVPR.2016.265

【発明の概要】

【発明が解決しようとする課題】

【0004】

画像は、種々の被写体を表し得る。例えば、画像は、人やペット（例えば、犬、猫）など、顔を有する種々の生物を表し得る。ところが、従来のスタイル変換では、顔は考慮されていなかった。

【0005】

本明細書は、顔を考慮して画像のスタイル変換を行う技術を開示する。

【課題を解決するための手段】

【0006】

本明細書に開示された技術は、以下の適用例として実現することが可能である。

【0007】

［適用例１］コンピュータプログラムであって、生物の顔を表す第１領域を検出する検出処理を、入力画像を使用して実行する検出機能と、前記入力画像の前記第１領域の第１画像を使用して第１画像処理を実行することによって、第１処理済画像を生成する第１生成機能であって、前記第１画像処理は、第１スタイル変換処理を含む、前記第１生成機能と、前記入力画像の第２領域の第２画像を使用して第２画像処理を実行することによって、第２処理済画像を生成する第２生成機能であって、前記第２領域は、前記第１領域を除いた残りの領域の少なくとも一部を含む領域であり、前記第２画像処理は、第２スタイル変換処理を含み、前記第１画像処理と前記第２画像処理とのうちの一方である第１特定処理は、前記第１画像処理と前記第２画像処理とのうちの前記第１特定処理とは異なる第２特定処理には含まれない処理を含む、前記第２生成機能と、前記第１処理済画像と前記第２処理済画像との合成処理を実行することによって、出力画像を生成する第３生成機能と、をコンピュータに実現させる、コンピュータプログラム。

【0008】

この構成によれば、生物の顔を表す第１領域の第１画像を使用して、第１スタイル変換処理を含む第１画像処理が実行され、第１領域を除いた残りの領域の少なくとも一部を含む第２領域の第２画像を使用して、第２スタイル変換処理を含む第２画像処理が実行されるので、顔を考慮して画像のスタイル変換を行うことができる。

【0009】

なお、本明細書に開示の技術は、種々の態様で実現することが可能であり、例えば、画像処理方法および画像処理装置、それらの方法または装置の機能を実現するためのコンピュータプログラム、そのコンピュータプログラムを記録した記録媒体（例えば、一時的ではない記録媒体）、等の形態で実現することができる。

【図面の簡単な説明】

【0010】

【図1】一実施例としての画像処理装置を示す図である。

【図2】スタイル変換モデルＭ２の例を示す図である。

【図3】エンコーダＥＣの例を示す図である。

【図4】（Ａ）は、調整済特徴マップｔｚの計算式の例の図である。（Ｂ）は、対象特徴マップｔの計算式の図である。

【図5】デコーダＤＣの例を示す図である。

【図6】スタイル変換モデルＭ２の訓練処理の例を示すフローチャートの図である。

【図7】スタイル変換モデルＭ２の訓練処理の例を示すフローチャートの図である。

【図8】（Ａ）－（Ｄ）は、訓練処理で処理される画像の例を示す図である。

【図9】（Ａ）、（Ｂ）は、ランドマークセットの例を示す図である。

【図10】注目画像の処理の例を示す図である。

【図11】（Ａ）は、顔の領域と顔のランドマークとの例を示す図である。（Ｂ）は、対応関係の例を示す図である。

【図12】対応関係の決定処理の例を示すフローチャートである。

【図13】（Ａ）は、顔の領域と顔のランドマークとの別の例を示す図である。（Ｂ）は、対応関係の例を示す図である。

【図14】（Ａ）－（Ｃ）は、損失の計算式の例を示す図である。

【図15】訓練済のスタイル変換モデルＭ２を使用する画像処理の例を示すフローチャートである。

【図16】訓練済のスタイル変換モデルＭ２を使用する画像処理の例を示すフローチャートである。

【図17】（Ａ）－（Ｄ）は、画像処理で処理される画像の例を示す図である。

【発明を実施するための形態】

【0011】

Ａ．第１実施例：
Ａ１．装置構成：
図１は、一実施例としての画像処理装置を示す図である。本実施例では、画像処理装置２００は、例えば、パーソナルコンピュータである。画像処理装置２００は、生物の顔を表す画像のスタイル変換を行う画像処理装置の例である。

【0012】

画像処理装置２００は、プロセッサ２１０と、記憶装置２１５と、表示部２４０と、操作部２５０と、通信インタフェース２７０と、を備えている。これらの要素は、バスを介して互いに接続されている。記憶装置２１５は、揮発性記憶装置２２０と、不揮発性記憶装置２３０と、を含んでいる。

【0013】

プロセッサ２１０は、データ処理を行うように構成された装置であり、例えば、ＣＰＵである。揮発性記憶装置２２０は、例えば、ＤＲＡＭであり、不揮発性記憶装置２３０は、例えば、フラッシュメモリである。不揮発性記憶装置２３０は、プログラム２３１、２３２と、顔処理モデルＭ１と、スタイル変換モデルＭ２と、超解像モデルＭ３と、分割モデルＭ４と、を格納している。顔処理モデルＭ１は、顔検出モデルＭ１ａと、ランドマーク検出モデルＭ１ｂと、を含んでいる。本実施例では、モデルＭ１－Ｍ４は、それぞれ、プログラムモジュールである。モデルＭ１－Ｍ４は、それぞれ、いわゆる機械学習モデルである。プログラム２３１、２３２とモデルＭ１－Ｍ４との詳細については、後述する。

【0014】

表示部２４０は、液晶ディスプレイ、有機ＥＬディスプレイなどの、画像を表示するように構成された装置である。操作部２５０は、ボタン、レバー、表示部２４０上に重ねて配置されたタッチパネルなどの、ユーザによる操作を受け取るように構成された装置である。ユーザは、操作部２５０を操作することによって、種々の指示を画像処理装置２００に入力可能である。通信インタフェース２７０は、他の装置と通信するためのインタフェースである。通信インタフェース２７０は、例えば、ＵＳＢインタフェース、有線ＬＡＮインタフェース、IEEE802.11の無線インタフェースのうちの１種以上を含む。

【0015】

Ａ２．スタイル変換モデル：
図２は、スタイル変換モデルＭ２の例を示す図である。スタイル変換モデルＭ２は、スタイル画像ｓのスタイルでコンテンツ画像ｃをレンダリングすることによって、スタイル画像ｓのスタイルで表現される変換済コンテンツ画像ｇ（ｔｚ）を生成する。このように、スタイル変換モデルＭ２は、スタイル画像ｓのスタイルをコンテンツ画像ｃに適用する。スタイル変換モデルＭ２は、コンテンツ画像の被写体の形状（例えば、エッジの形状）の変化を抑制しつつ、コンテンツ画像のスタイル変換を行う。本実施例では、スタイル変換モデルＭ２は、以下の論文に開示されるスタイル変換モデルである。この論文の技術は、adaptive instance normalization（AdaIN）と呼ばれる正規化を使用する。
Xun Huang and Serge Belongie, "Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization", arXiv:1703.06868, 30 Jul. 2017, http://arxiv.org/abs/1703.06868

【0016】

スタイル変換モデルＭ２は、２個の入力層Ｌｉ１、Ｌｉ２と、エンコーダＥＣと、正規化層ＮＬと、デコーダＤＣと、を有している。各処理部Ｌｉ１、Ｌｉ２、ＥＣ、ＮＬ、ＤＣには、「input」の欄と「output」の欄とが記されている。「input」の欄の括弧で挟まれる３個の数値の組み合わせは、入力されるデータのサイズを示している。「output」の欄の括弧で挟まれる３個の数値の組み合わせは、出力されるデータのサイズを示している。データのサイズは、（幅、高さ、チャンネル数）で表される。例えば、入力層Ｌｉ１、Ｌｉ２に入力される画像ｃ、ｓは、それぞれ、２５６＊２５６＊３で表される。３個のチャンネルは、赤、緑、青の３色の成分を示している。データのサイズの左に記される「None」は、スタイル変換モデルＭ２の訓練のためのバッチサイズが任意に設定可能であることを、示している。

【0017】

エンコーダＥＣは、２５６＊２５６＊３で表される画像を使用して、３２＊３２＊５１２で表される特徴マップを出力する。特徴マップは、エンコーダＥＣに入力される画像の特徴を表している。コンテンツ特徴マップｆ（ｃ）は、コンテンツ画像ｃを使用して出力される特徴マップであり、スタイル特徴マップｆ（ｓ）は、スタイル画像ｓを使用して出力される特徴マップである。

【0018】

図３は、エンコーダＥＣの例を示す図である。本実施例では、エンコーダＥＣは、ＶＧＧ－１９と呼ばれる畳込ニューラルネットワーク（Convolution Neural Network）のうちの先頭からrelu4_1層までの部分と同じである（relu4_1層は、第４ブロックの第１畳込層からデータを出力するための活性化関数（ここでは、ReLU（Rectified Linear Unit））を示している）。ＩｍａｇｅＮｅｔと呼ばれる画像データベースに登録された画像データを用いて訓練されたＶＧＧ－１９の演算パラメータは、一般公開されている。本実施例では、エンコーダＥＣの演算パラメータとして、公開された訓練済の演算パラメータが、使用される。これに代えて、エンコーダＥＣは、スタイル変換モデルＭ２の訓練処理で訓練されてよい。

【0019】

エンコーダＥＣは、上流側から順に並ぶ、入力層ＥＬ０１、畳込層ＥＬ０２、ＥＬ０３、プーリング層ＥＬ０４、畳込層ＥＬ０５、ＥＬ０６、プーリング層ＥＬ０７、畳込層ＥＬ０８、ＥＬ０９、ＥＬ１０、ＥＬ１１、プーリング層ＥＬ１２、畳込層ＥＬ１３を有している。

【0020】

畳込層ＥＬ０２、ＥＬ０３、ＥＬ０５、ＥＬ０６、ＥＬ０８、ＥＬ０９、ＥＬ１０、ＥＬ１１、ＥＬ１３のそれぞれの構成は、種々の構成であってよい。本実施例では、以下の構成が、共通に適用される。畳み込みのカーネル（フィルタとも呼ばれる）の幅＊高さは、３＊３である。ストライドは、１＊１である。パディングの方法は、いわゆるゼロパディングである。本実施例では、畳込層からの出力マップ（画像、または、特徴マップ）の幅＊高さが、畳込層に入力される入力マップ（画像、または、特徴マップ）の幅＊高さと同じとなるように、パディングが行われる。具体的には、入力マップの境界（すなわち、輪郭）の周囲に、ゼロを示す１画素幅の領域が、補足される。活性化関数は、ReLUである。

【0021】

プーリング層ＥＬ０４、ＥＬ０７、ＥＬ１２のそれぞれの構成は、特徴マップの幅と高さの一方または両方を低減する種々の構成であってよい。本実施例では、以下の構成が、共通に適用される。プーリングの方法は、いわゆる最大値プーリングである。プーリングのカーネル（フィルタとも呼ばれる）の幅＊高さは、２＊２である。ストライドは、２＊２である。このようなプーリング層ＥＬ０４、ＥＬ０７、ＥＬ１２は、幅と高さとを、それぞれ、半分に低減する。

【0022】

データの幅と高さとは、エンコーダＥＣによって低減する。本実施例では、幅と高さとは、それぞれ、２５６から３２に低減する。データのチャンネル数は、エンコーダＥＣによって増大する。本実施例では、チャンネル数は、３から５１２に増大する。

【0023】

正規化層ＮＬ（図２）は、コンテンツ特徴マップｆ（ｃ）とスタイル特徴マップｆ（ｓ）とを使用して、調整済特徴マップｔｚを出力する。図４（Ａ）は、調整済特徴マップｔｚの計算式の例の図である。調整済特徴マップｔｚは、対象特徴マップｔ（詳細は、後述）とコンテンツ特徴マップｆ（ｃ）との荷重合計である。重みαは、対象特徴マップｔの重みである。コンテンツ特徴マップｆ（ｃ）の重みは、１－αである。重みαは、ゼロより大きく、１以下の値に、設定される。

【0024】

図４（Ｂ）は、対象特徴マップｔの計算式の図である。対象特徴マップｔの計算式は、AdaINの上記の論文のAdaIN層の計算式と同じである。計算式において、σは、標準偏差を示し、μは、平均を示している。標準偏差と平均とは、空間的な位置の全体で算出される。標準偏差と平均とは、チャンネル毎に、算出される。

【0025】

対象特徴マップｔは、コンテンツ特徴マップｆ（ｃ）の標準偏差と平均とを、スタイル特徴マップｆ（ｓ）の標準偏差と平均とに合せることによって、生成される。このように、AdaINは、スタイル特徴マップｆ（ｓ）のチャンネル毎の標準偏差と平均とをコンテンツ特徴マップｆ（ｃ）に適用することによって、特徴空間におけるスタイル変換を行う。

【0026】

図４（Ａ）に示すように、重みαが大きいほど、調整済特徴マップｔｚのうちの対象特徴マップｔの割合が大きい。重みαが大きいほど、変換済コンテンツ画像ｇ（ｔｚ）（図２）のスタイルは、スタイル画像ｓのスタイルに近づく。このように、重みαは、スタイル変換の度合いを示している。重みαは、スタイル変換モデルＭ２の訓練時には、１に設定される。この場合、調整済特徴マップｔｚ＝対象特徴マップｔである。訓練後の画像処理では、重みαは、ゼロより大きく、かつ、１以下の種々の値に設定されてよい。

【0027】

正規化層ＮＬ（図２）は、コンテンツ特徴マップｆ（ｃ）とスタイル特徴マップｆ（ｓ）を使用して、対象特徴マップｔを算出する（図４（Ｂ））。そして、正規化層ＮＬは、対象特徴マップｔと、コンテンツ特徴マップｆ（ｃ）と、重みαと、を使用して、調整済特徴マップｔｚを算出する（図４（Ａ））。対象特徴マップｔと調整済特徴マップｔｚとのそれぞれのサイズは、特徴マップｆ（ｃ）のサイズと同じである（本実施例では、３２＊３２＊５１２）。

【0028】

デコーダＤＣは、３２＊３２＊５１２で表される調整済特徴マップｔｚを使用して、２５６＊２５６＊３で表される変換済コンテンツ画像ｇ（ｔｚ）を出力する。３個のチャンネルは、赤、緑、青の３色の成分を示している。

【0029】

図５は、デコーダＤＣの例を示す図である。デコーダＤＣのアーキテクチャは、エンコーダＥＣのアーキテクチャをミラーリングしたものに、以下の修正したものである。
（１）畳込の前のゼロパディングは、リフレクションパディングに置換される。
（２）プーリングは、アップサンプリングに置換される。

【0030】

具体的には、デコーダＤＣは、上流側から順に並ぶ、入力層ＤＬ０１、パディング層ＤＬ０２、畳込層ＤＬ０３、アップサンプリング層ＤＬ０４、パディング層ＤＬ０５、畳込層ＤＬ０６、パディング層ＤＬ０７、畳込層ＤＬ０８、パディング層ＤＬ０９、畳込層ＤＬ１０、パディング層ＤＬ１１、畳込層ＤＬ１２、アップサンプリング層ＤＬ１３、パディング層ＤＬ１４、畳込層ＤＬ１５、パディング層ＤＬ１６、畳込層ＤＬ１７、アップサンプリング層ＤＬ１８、パディング層ＤＬ１９、畳込層ＤＬ２０、パディング層ＤＬ２１、畳込層ＤＬ２２を有している。

【0031】

パディング層ＤＬ０２、ＤＬ０５、ＤＬ０７、ＤＬ０９、ＤＬ１１、ＤＬ１４、ＤＬ１６、ＤＬ１９、ＤＬ２１のそれぞれの構成は、種々の構成であってよい。本実施例では、以下の構成が、共通に適用される。パディングの方法は、いわゆるリフレクションパディングである。リフレクションパディングは、パディング層に入力される入力マップ（画像、または、特徴マップ）の境界の周りで内側の部分を外側に反射させることによって、境界の外側の部分の各画素の値を決定する。

【0032】

畳込層ＤＬ０３、ＤＬ０６、ＤＬ０８、ＤＬ１０、ＤＬ１２、ＤＬ１５、ＤＬ１７、ＤＬ２０、ＤＬ２２のそれぞれの構成は、種々の構成であってよい。本実施例では、以下の構成が、共通に適用される。畳み込みのカーネル（フィルタとも呼ばれる）の幅＊高さは、３＊３である。ストライドは、１＊１である。活性化関数は、ReLUである。畳込層ＤＬ０３、ＤＬ０６、ＤＬ０８、ＤＬ１０、ＤＬ１２、ＤＬ１５、ＤＬ１７、ＤＬ２０、ＤＬ２２には、直前のパディング層ＤＬ０２、ＤＬ０５、ＤＬ０７、ＤＬ０９、ＤＬ１１、ＤＬ１４、ＤＬ１６、ＤＬ１９、ＤＬ２１からの出力データが、それぞれ、入力される。

【0033】

本実施例では、畳込層からの出力マップ（画像、または、特徴マップ）の幅＊高さが、畳込層の前のパディング層に入力される入力マップ（画像、または、特徴マップ）の幅＊高さと同じとなるように、パディングが行われる。具体的には、入力マップの境界の周囲に、１画素幅の領域が、補足される。

【0034】

３個のアップサンプリング層ＤＬ０４、ＤＬ１３、ＤＬ１８のそれぞれの構成は、特徴マップの幅と高さの一方または両方を増大する種々の構成であってよい。本実施例では、以下の構成が、共通に適用される。アップサンプリングの方法は、いわゆるニアレストアップサンプリング（nearest up sampling）である。アップサンプリング層ＤＬ０４、ＤＬ１３、ＤＬ１８は、幅と高さとを、それぞれ、２倍に増大する。

【0035】

データの幅と高さとは、デコーダＤＣによって増大する。本実施例では、幅と高さとは、それぞれ、３２から２５６に増大する。データのチャンネル数は、デコーダＤＣによって低減する。本実施例では、チャンネル数は、５１２から３に低減する。

【0036】

Ａ３．スタイル変換モデルの訓練処理：
図６、図７は、スタイル変換モデルＭ２の訓練処理の例を示すフローチャートである。図７は、図６の続きを示している。第１プログラム２３１（図１）は、スタイル変換モデルＭ２の訓練処理のためのプログラムである。作業者は、訓練処理の開始指示を、操作部２５０を操作することによって、画像処理装置２００に入力する。プロセッサ２１０は、開始指示に従って、スタイル変換モデルＭ２の訓練処理を開始する。

【0037】

Ｓ１０５では、プロセッサ２１０は、スタイル変換モデルＭ２（図２）の複数の演算パラメータを初期化する。本実施例では、プロセッサ２１０は、各演算パラメータを、乱数を使用して、決定する。なお、エンコーダＥＣの演算パラメータは、訓練済のＶＧＧ－１９の対応する演算パラメータに設定される。

【0038】

Ｓ１１０では、プロセッサ２１０は、入力画像とスタイル画像とのペアのデータを取得する。

【0039】

図８（Ａ）－図８（Ｄ）は、訓練処理で処理される画像の例を示す図である。図８（Ａ）は、入力画像の例を示している。入力画像ＩＭ１は、第１方向Ｄｘ（ここでは、横方向）に平行な２辺と、第１方向Ｄｘに垂直な第２方向Ｄｙ（ここでは、縦方向）に平行な２辺と、を有する矩形状の画像である。入力画像ＩＭ１は、第１方向Ｄｘと第２方向Ｄｙとに沿ってマトリクス状に並ぶ複数の画素のそれぞれの色値によって、表されている。本実施例では、色値は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）の３個の成分値で表されている。各成分値は、例えば、０から２５５までの２５６段階で表されている。

【0040】

入力画像ＩＭ１は、５人の人物ＰＲ１－ＰＲ５の撮影画像である。入力画像ＩＭ１は、５人の人物ＰＲ１－ＰＲ５の５個の顔Ｆ１－Ｆ５の画像を、含んでいる。

【0041】

スタイル画像は、入力画像ＩＭ１のスタイルとは異なるスタイルを有する種々の画像であってよい。例えば、図２のスタイル画像ｓと、図８（Ａ）の入力画像ＩＭ１とが、ペアを形成してよい。

【0042】

図示を省略するが、本実施例では、複数の入力画像のデータと複数のスタイル画像のデータとが、予め不揮発性記憶装置２３０に格納されている。複数の入力画像は、Ｎ人（Ｎはゼロ以上の整数）の人物のＮ個の顔を表す種々の画像を含んでいる。複数の入力画像は、複数の撮影画像を含んでよい。複数の入力画像の間で、人物の数Ｎは、異なってよい。なお、Ｎは、２以上の値に設定されてよい。複数のスタイル画像は、互いに異なるスタイルを有する複数の画像を含んでいる。スタイルは、筆跡、明るさの分布、色相の分布など、画像の表現に関する種々の観点から識別されてよい。

【0043】

Ｓ１１０（図６）では、プロセッサ２１０は、予め決められたバッチサイズＢＳ分のペアのデータを、不揮発性記憶装置２３０から取得する。バッチサイズＢＳは、任意の数であってよい（例えば、１、２、４、８、１６のいずれか）。後述するＳ１２０からＳ２５０（図７）までの処理は、取得された全てのペアのそれぞれに対して、実行される。なお、スタイル画像は、入力画像とは独立に、ランダムに選択されてよい。これに代えて、入力画像とスタイル画像との間の対応関係は、予め決められてよい。なお、同じスタイル画像が、複数のペアに含まれてよい。

【0044】

Ｓ１２０では、プロセッサ２１０は、入力画像から、顔の領域と顔のランドマークとを検出する。顔の領域の検出方法は、種々の方法であってよい。本実施例では、プロセッサ２１０は、訓練済の顔検出モデルＭ１ａ（図１）を使用して、顔の領域を検出する。顔検出モデルＭ１ａは、顔の領域を検出する種々のモデルであってよい。本実施例では、顔検出モデルＭ１ａは、以下の論文に開示される「BlazeFace」と呼ばれる物体検出モデルである。
Valentin Bazarevsky, Yury Kartynnik, Andrey Vakunov, Karthik Raveendran and Matthias Grundmann, "BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs", arXiv:1907.05047, 14 Jul. 2019, http://arxiv.org/abs/1907.05047

【0045】

図８（Ｂ）は、入力画像ＩＭ１から検出される顔の領域の例を示している。顔検出モデルＭ１ａは、顔を囲む矩形の枠（バウンディングボックスと呼ばれる）を検出する。顔検出モデルＭ１ａは、顔の画像から顔を示す適切なバウンディングボックスを検出するように、BlazeFaceの論文に記載の訓練方法によって、予め訓練される。プロセッサ２１０は、入力画像ＩＭ１を使用して顔検出モデルＭ１ａの演算を実行することによって、５個の顔Ｆ１－Ｆ５に対応する５個のバウンディングボックスＢｐ１－Ｂｐ５を検出し得る。

【0046】

以下、プロセッサ２１０は、検出されるバウンディングボックスに、１から始まる昇順の識別番号を付与することとする。バウンディングボックスの符号の「Ｂｐ」に続く数は、識別番号を示していることとする。

【0047】

プロセッサ２１０は、顔検出モデルＭ１ａの演算を実行するために、入力画像のサイズ（具体的には、幅＊高さ）を、顔検出モデルＭ１ａによって受付可能なサイズに調整するサイズ調整を行う。サイズ調整は、例えば、解像度を変換する処理（リサイズ処理とも呼ばれる）を含んでよい（例えば、バイキュービック法やバイリニア法など）。また、入力画像のアスペクト比が、顔検出モデルＭ１ａによって受付可能なアスペクト比と異なる場合、サイズ調整は、アスペクト比を調整する処理を含んでよい。プロセッサ２１０は、例えば、適切なアスペクト比に対して足りない領域に、所定の色（例えば、白、黒など）を有する画素を補足するパディング処理を実行してよい。

【0048】

顔のランドマークは、顎、鼻、目、眉、口など、顔の部分を示す点である。顔のランドマークの検出方法は、種々の方法であってよい。本実施例では、プロセッサ２１０は、ランドマーク検出モデルＭ１ｂ（図１）を使用して、ランドマークを検出する。ランドマーク検出モデルＭ１ｂは、顔のランドマークを検出する種々のモデルであってよい。本実施例では、ランドマーク検出モデルＭ１ｂは、以下の論文に開示される「Attention Mesh」と呼ばれる検出モデルである。
Ivan Grishchenko, Artsiom Ablavatski, Yury Kartynnik, Karthik Raveendra and Matthias Grundmann, "Attention Mesh: High-fidelity Face Mesh Prediction in Real-time", arXiv:2006.10962, 19 Jun. 2020, http://arxiv.org/abs/2006.10962

【0049】

Attention Meshモデルは、顔の複数の部分を示す複数の点のそれぞれの三次元座標を、二次元の画像から推定する。複数の点は、顔の三次元の形状を示す顔メッシュを形成する。ランドマーク検出モデルＭ１ｂは、顔の画像から適切な顔メッシュを推定するように、Attention Meshの論文に記載の訓練方法によって、予め訓練される。本実施例では、プロセッサ２１０は、顔メッシュを形成する複数の点のうち、顔の予め決められた複数の部分を示す複数の点のセットを、ランドマークセットとして採用する。

【0050】

図９（Ａ）、図９（Ｂ）は、ランドマークセットの例を示す図である。図９（Ａ）には、人物の顔Ｆｈの画像ＩＭｈが示されている。本実施例では、６８個の点Ｐ１－Ｐ６８が、ランドマークセットＬＭとして使用される。点Ｐ１－Ｐ１７の第１点セットＰＳ１は、顎を示している。点Ｐ１８－Ｐ２２の第２点セットＰＳ２は、右の眉を示している。点Ｐ２３－Ｐ２７の第３点セットＰＳ３は、左の眉を示している。点Ｐ２８－Ｐ３６の第４点セットＰＳ４は、鼻を示している。点Ｐ３７－Ｐ４２の第５点セットＰＳ５は、右の目を示している。点Ｐ４３－Ｐ４８の第６点セットＰＳ６は、左の目を示している。点Ｐ４９－Ｐ６８の第７点セットＰＳ７は、口を示している。

【0051】

図９（Ｂ）は、ランドマークセットＬＭを示すデータの例を示している。数ｎＰは、ランドマークセットＬＭに含まれる点の総数である（本実施例では、ｎＰ＝６８）。変数Ｐｕｘ、Ｐｕｙ（番号ｕは、１以上、ｎＰ以下の整数）は、ｕ番目の点Ｐｕの第１方向Ｄｘの座標と第２方向Ｄｙの座標を示している。例えば、Ｐ３ｘ、Ｐ３ｙは、３番の点Ｐ３の第１方向Ｄｘの座標と第２方向Ｄｙの座標を、それぞれ、示している。ランドマークセットＬＭは、ｎＰ個の点のそれぞれの第１方向Ｄｘの座標と第２方向Ｄｙの座標とを順に示すベクトルで表される。

【0052】

図８（Ｂ）は、入力画像ＩＭ１から検出される顔のランドマークの例を示している。ランドマークの検出は、バウンディングボックス毎に行われる。プロセッサ２１０は、第１バウンディングボックスＢｐ１の画像を使用してランドマーク検出モデルＭ１ｂの演算を実行することによって、第１顔Ｆ１のランドマークセットＬＭｐ１を検出する。ランドマークセットＬＭｐ１は、６８個の点Ｐ１－Ｐ６８（図９）を示している。他のバウンディングボックスＢｐ２－Ｂｐ５からも、同様に、ランドマークセットＬＭｐ２－ＬＭｐ５が検出される。ランドマークセットには、対応するバウンディングボックスのものと同じ識別番号が付与されることとする。ランドマークセットの符号の「ＬＭｐ」に続く数は、識別番号を示していることとする。以下、入力画像から検出されるランドマークセットを、入力ランドマークセットとも呼ぶ。

【0053】

「BlazeFace」と「Attention Mesh」とによる顔の領域と顔のランドマークとの検出には、Google社の「MediaPipe」と呼ばれるライブラリが使用されてよい。顔検出モデルＭ１ａとランドマーク検出モデルＭ１ｂとを含む顔処理モデルＭ１は、「MediaPipe」を使用して構成されてよい。

【0054】

Ｓ１３０（図６）では、プロセッサ２１０は、入力画像とスタイル画像とのペアを使用して、スタイル変換モデルＭ２の演算を実行することによって、スタイル変換済の画像である処理済画像を生成する。スタイル変換モデルＭ２の訓練処理では、重みα（図４（Ａ））は、１に設定される。なお、プロセッサ２１０は、スタイル変換モデルＭ２に入力される画像のサイズ調整を行う。サイズ調整は、Ｓ１２０（図６）で説明したサイズ調整と同様に、解像度変換処理と、アスペクト比を調整するためのパディング処理と、を含んでよい。

【0055】

図８（Ｃ）は、処理済画像の例を示している。処理済画像ＩＭ２は、入力画像ＩＭ１（図８（Ａ））から生成される画像を示している。図示するように、処理済画像ＩＭ２は、人物ＰＲ１－ＰＲ５を表している。人物ＰＲ１－ＰＲ５の顔Ｆｓ１－Ｆｓ５は、入力画像ＩＭ１のスタイルとは異なるスタイル（ここでは、スタイル画像のスタイル）で、表されている。以下、Ｓ１３０（図６）で生成される処理済画像を、全体処理済画像とも呼ぶ。

【0056】

図８（Ｃ）の処理済画像ＩＭ２では、第２人物ＰＲ２の顔Ｆｓ２に含まれる部分（例えば、目など）の形状が、入力画像ＩＭ１（図８（Ａ））の顔Ｆ２の対応する部分の形状から、大幅に変化している。このような形状の変化は、種々の原因によって、引き起こされ得る。例えば、入力画像ＩＭ１内で、顔Ｆ２の大きさが小さい場合に、顔Ｆ２に含まれる部分の形状が、スタイル変換によって大きく変化し得る。

【0057】

Ｓ１４０（図６）では、プロセッサ２１０は、Ｓ１２０で検出されるバウンディングボックスの総数Ｎｆｐがゼロよりも大きいか否かを判断する。総数Ｎｆｐがゼロよりも大きい場合（Ｓ１４０：Ｙｅｓ）、Ｓ１５０で、プロセッサ２１０は、Ｎｆｐ個のバウンディングボックスから、未処理のボックスを、注目ボックスとして選択する。

【0058】

Ｓ１６０では、プロセッサ２１０は、入力画像から注目ボックスの画像である注目画像を抽出する。

【0059】

図１０は、注目画像の処理の例を示す図である。図中には、注目ボックスＢｐｋの画像である注目画像ＦＩｋが示されている。この注目画像ＦＩｋは、人物ＰＲｋの顔Ｆｋを表している。

【0060】

Ｓ１７０（図６）では、プロセッサ２１０は、注目画像の高解像度化処理を実行する。高解像度化処理は、画像の解像度（すなわち、画素密度）を大きくする種々の処理であってよい。本実施例では、プロセッサ２１０は、訓練済の超解像モデルＭ３（図１）を使用して、高解像度の画像を生成する。超解像モデルＭ３は、高解像度の画像を生成する種々のモデルであってよい。本実施例では、超解像モデルＭ３は、以下の論文に開示される画像生成モデルである。この論文は、「PULSE」と呼ばれる技術を開示する。
Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi and Cynthia Rudin, "PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models", arXiv:2003.03808, 20 Jul. 2020, http://arxiv.org/abs/2003.03808

【0061】

この論文に記載の技術では、顔の自然な高解像度画像を生成するように訓練済の画像生成モデル（論文では、StyleGAN）を使用して、高解像度画像が生成される。生成された高解像度画像のダウンスケール（論文では、バイキュービック）によって得られる低解像度画像と、元の低解像度画像と、の間の差が小さくなるように、画像生成モデルに入力すべき潜在変数が探索される。探索された潜在変数を使用して画像生成モデルによって生成される高解像度画像が、低解像度画像に対応する高解像度画像として採用される。潜在変数の探索は、ロスが小さくなるように、行われる。ここで、ダウンスケールによって得られる低解像度画像と元の低解像度画像との間の差を示すダウンスケーリングロスと、自然な画像を生成する潜在変数を探索するためのクロスロス（geodesic cross lossとも呼ばれる）と、が使用される。

【0062】

本実施例では、超解像モデルＭ３は、顔の自然な高解像度画像を生成するように訓練済のStyleGANである。StyleGANの構成としては、例えば、以下の論文に開示の構成が採用される。
Tero Karras, Samuli Laine and Timo Aila, "A Style-Based Generator Architecture for Generative Adversarial Networks", arXiv:1812.04948, 29 Mar. 2019, http://arxiv.org/abs/1812.04948
超解像モデルＭ３は、この論文に記載の訓練方法によって、予め訓練される。

【0063】

プロセッサ２１０は、訓練済の超解像モデルＭ３を使用して、注目画像ＦＩｋ（図１０）に対応する高解像度画像ＦＩｋａを生成する。高解像度画像ＦＩｋａの生成方法としては、PULSEの上記の論文に記載の方法が採用される。高解像度化処理による倍率は、１よりも大きい任意の値であってよい。例えば、幅と高さとのそれぞれが、４倍に増大されてよい。

【0064】

Ｓ１８０（図６）では、プロセッサ２１０は、高解像度画像ＦＩｋａとスタイル画像とを使用して、スタイル変換済の画像である変換済画像を生成する。図１０の画像ＦＩｋｂは、高解像度画像ＦＩｋａから生成される変換済画像の例を示している。変換済画像ＦＩｋｂは、人物ＰＲｋを表している。人物ＰＲｋの顔Ｆｚｋは、入力画像ＩＭ１のスタイルとは異なるスタイル（ここでは、スタイル画像のスタイル）で、表されている。

【0065】

Ｓ１８０（図６）のスタイル変換の方法は、Ｓ１３０のスタイル変換の方法と同じである。プロセッサ２１０は、高解像度画像ＦＩｋａとスタイル画像とを使用して、スタイル変換モデルＭ２の演算を実行することによって、変換済画像ＦＩｋｂを生成する。スタイル画像としては、注目画像ＦＩｋを含む入力画像に対応するスタイル画像が使用される。プロセッサ２１０は、スタイル変換モデルＭ２に入力される画像のサイズ調整を行う。サイズ調整は、Ｓ１２０（図６）で説明したサイズ調整と同様に、解像度変換処理と、アスペクト比を調整するためのパディング処理と、を含んでよい。本実施例では、スタイル変換モデルＭ２に入力される画像の幅と高さとは、注目画像ＦＩｋ（図１０）の幅と高さよりも、それぞれ大きい。

【0066】

Ｓ１８０（図６）でスタイル変換モデルＭ２に入力される画像中の顔のサイズ（例えば、幅と高さ）は、Ｓ１３０でスタイル変換モデルＭ２に入力される画像中の顔のサイズよりも、大きい。従って、Ｓ１８０では、Ｓ１３０と比べて、顔に含まれる部分（例えば、目など）の変形の可能性は、小さい。

【0067】

Ｓ１９０（図６）では、プロセッサ２１０は、変換済画像ＦＩｋｂ（図１０）のセグメンテーション処理を実行する。本実施例では、Ｓ１９０のセグメンテーション処理は、顔を表す領域とその他の領域とを分割する。領域を分割する方法は、種々の方法であってよい。本実施例では、プロセッサ２１０は、訓練済の分割モデルＭ４（図１）を使用して、顔の領域とその他の領域とを分割する。分割モデルＭ４は、領域を分割する種々のモデルであってよい。本実施例では、分割モデルＭ４は、以下の論文に開示される「FCN(fully convolutional network)」と呼ばれるモデルである。
Yuval Nirkin, Iacopo Masi, Anh Tuan Tran, Tal Hassner and Gerard Medioni, "On Face Segmentation, Face Swapping, and Face Perception", arXiv:1704.06729, 22 Apr. 2017, http://arxiv.org/abs/1704.06729

【0068】

この論文は、FCN-8s-VGGと呼ばれるアーキテクチャを提案している。本実施例では、分割モデルＭ４は、このアーキテクチャを有している。このモデルは、顔の見える部分を示す領域を、分割する。分割モデルＭ４は、この論文に記載の訓練方法によって、予め訓練される。

【0069】

プロセッサ２１０は、変換済画像ＦＩｋｂ（図１０）を使用して、分割モデルＭ４の演算を実行することによって、顔を表す領域と他の領域を分割する。図１０の画像ＳＧＩは、変換済画像ＦＩｋｂから分割される２個の領域ＳＧ１、ＳＧ２を示している。第１領域ＳＧ１は、顔を表す領域であり、第２領域ＳＧ２は、その他の領域である。なお、本実施例では、分割モデルＭ４によって受付可能な画像のサイズは、スタイル変換モデルＭ２によって生成される画像（例えば、変換済画像ＦＩｋｂ）のサイズと同じである。

【0070】

Ｓ２００（図６）では、プロセッサ２１０は、変換済画像ＦＩｋｂのマスキング処理を実行する。プロセッサ２１０は、Ｓ１９０で分割された第２領域ＳＧ２をマスクする。図１０の画像ＦＩｋｃは、マスク済画像の例を示している。マスク済画像ＦＩｋｃは、第１領域ＳＧ１の画像（すなわち、顔の画像）を表している。第２領域ＳＧ２は、マスクされている。

【0071】

Ｓ２１０（図６）では、プロセッサ２１０は、マスク済の画像、すなわち、スタイル変換済の顔の画像の低解像度化処理を実行する。図１０の画像ＦＩｋｄは、低解像度化処理によって生成される画像である処理済画像の例を示している（以下、顔処理済画像と呼ぶ）。この顔処理済画像ＦＩｋｄは、マスク済画像ＦＩｋｃから生成される画像を示している。顔処理済画像ＦＩｋｄのサイズ（すなわち、幅と高さ）は、注目画像ＦＩｋのサイズと同じである。低解像度化処理（ダウンスケールとも呼ばれる）は、解像度を低減する種々の処理であってよい（例えば、ニアレストネイバ、バイリニア、バイキュービックなど）。

【0072】

マスク済画像ＦＩｋｃのアスペクト比は、注目画像ＦＩｋのアスペクト比と異なり得る。例えば、マスク済画像ＦＩｋｃは、Ｓ１８０でのサイズ調整のパディング処理によって補足された部分を含み得る。プロセッサ２１０は、補足された部分を削除することによって、顔処理済画像ＦＩｋｄを生成する。顔処理済画像ＦＩｋｄ内の顔の位置と大きさは、注目画像ＦＩｋ内の顔の位置と大きさと、それぞれ、実質的に同じである。

【0073】

Ｓ２２０（図６）では、プロセッサ２１０は、全てのバウンディングボックスの処理が完了したか否かを判断する。未処理のバウンディングボックスが残っている場合（Ｓ２２０：Ｎｏ）、プロセッサ２１０は、Ｓ１５０へ移行して、未処理のバウンディングボックスを処理する。

【0074】

全てのバウンディングボックスの処理が完了した場合（Ｓ２２０：Ｙｅｓ）、Ｓ２３０（図７）で、プロセッサ２１０は、スタイル変換済の顔の画像を、スタイル変換済の入力画像（例えば、全体処理済画像ＩＭ２（図８（Ｃ））の対応する位置に重畳することによって、出力画像を生成する。すなわち、プロセッサ２１０は、スタイル変換済の顔の画像とスタイル変換済の入力画像とを合成することによって、出力画像を生成する。

【0075】

図８（Ｄ）は、出力画像の例を示している。出力画像ＩＭ３は、Ｓ１３０（図６）で生成される全体処理済画像ＩＭ２（図８（Ｃ））の顔Ｆｓ１－Ｆｓ５の領域に、Ｓ２１０で生成される顔Ｆｚ１－Ｆｚ５の画像を、それぞれ、重畳することによって、生成される。例えば、図１０の処理済画像ＦＩｋｄが、入力画像ＩＭ１（図８（Ｂ））の第２バウンディングボックスＢｐ２に対応すると仮定する。この場合、プロセッサ２１０は、処理済画像ＦＩｋｄのうちの第１領域ＳＧ１の画像（すなわち、顔Ｆｚｋの画像）を、処理済画像ＩＭ２（図８（Ｃ））のバウンディングボックスＢｐ２内の第１領域ＳＧ１に対応する領域に、重畳する。Ｓ１８０（図６）で説明したように、Ｓ１８０では、Ｓ１３０と比べて、顔に含まれる部分（目など）の変形の可能性は小さい。従って、図８（Ｃ）の顔Ｆｓ２のように、全体処理済画像ＩＭ２内の顔に含まれる部分が大きく変形している場合であっても、プロセッサ２１０は、顔の変形が小さい出力画像ＩＭ３を生成できる。

【0076】

Ｓ２４０（図７）では、プロセッサ２１０は、出力画像から、顔の領域と顔のランドマークとを検出する。Ｓ２４０の処理は、入力画像の代わりに出力画像が使用される点を除いて、Ｓ１２０の処理と同じである。以下、出力画像から検出されるランドマークセットを、出力ランドマークセットとも呼ぶ。

【0077】

図１１（Ａ）は、出力画像ＩＭ３から検出される顔の領域と顔のランドマークとの例を示している。図１１（Ａ）の例では、出力画像ＩＭ３からは、５個の顔Ｆｚ１－Ｆｚ５の画像に対応する５個のバウンディングボックスＢｑ１－Ｂｑ５が検出される。また、５個のバウンディングボックスＢｑ１－Ｂｑ５に対応する５個のランドマークセットＬＭｑ１－ＬＭｑ５が検出される。バウンディングボックスの符号の「Ｂｑ」に続く数は、識別番号を示している。ランドマークセットの符号の「ＬＭｑ」に続く数は、識別番号を示している。

【0078】

Ｓ２５０（図７）では、プロセッサ２１０は、入力画像ＩＭ１と出力画像ＩＭ３との間で、同一人物の顔の対応関係を決定する。後述するように、プロセッサ２１０は、損失が小さくなるように、スタイル変換モデルＭ２を訓練する。本実施例では、損失は、同一人物の入力ランドマークセットと出力ランドマークセットとの間の差を示すランドマーク損失を含んでいる。ランドマーク損失の算出のために、プロセッサ２１０は、入力画像ＩＭ１と出力画像ＩＭ３との間で、同一人物のランドマークセットの対応関係、すなわち、同一人物のバウンディングボックスの対応関係を、決定する。

【0079】

図１２は、対応関係の決定処理の例を示すフローチャートである。本実施例では、プロセッサ２１０は、入力画像ＩＭ１（図８（Ｂ））から検出されるバウンディングボックス（入力ボックスと呼ぶ）と、出力画像ＩＭ３（図１１（Ａ））から検出されるバウンディングボックス（出力ボックスと呼ぶ）と、のペアのＩｏＵ（Intersection over Union）を使用して、対応関係を決定する。ＩｏＵは、２個の領域の共通部分の面積を、２個の領域の和集合の領域の面積で除算して得られる比率である。ＩｏＵは、２個のボックスの間の一致の程度を示している。面積は、例えば、画素数で表されてよい。プロセッサ２１０は、閾値より大きいＩｏＵを有する入力ボックスと出力ボックスとのペアが同一人物の顔を示していることとして、対応関係を決定する。

【0080】

Ｓ３１０では、プロセッサ２１０は、入力画像ＩＭ１（図８（Ｂ））の入力ボックスのうちの注目入力ボックスＢｐｉの番号ｉを１に初期化する。Ｓ３２０では、ＩｏＵのリストＬｉｏｕを初期化する。リストＬｉｏｕは、注目入力ボックスＢｑｉと各出力ボックスとのＩｏＵのリストである。例えば、各出力ボックスのＩｏＵは、それぞれ、ゼロに初期化される。

【0081】

Ｓ３３０では、プロセッサ２１０は、出力画像ＩＭ３（図１１（Ａ））の出力ボックスのうちの注目出力ボックスＢｑｊの番号ｊを１に初期化する。Ｓ３４０では、プロセッサ２１０は、注目入力ボックスＢｐｉと注目出力ボックスＢｑｊとのＩｏＵ（ｉ，ｊ）を算出する。そして、プロセッサ２１０は、リストＬｉｏｕのｊ番のデータＬｉｏｕ（ｊ）を、算出したＩｏＵ（ｉ，ｊ）に設定する。

【0082】

Ｓ３５０では、プロセッサ２１０は、全ての出力ボックスが処理されたか否かを判断する。未処理の出力ボックスが残っている場合（Ｓ３５０：Ｎｏ）、プロセッサ２１０は、Ｓ３６０で注目出力ボックスＢｑｊの番号ｊに１を加算し、Ｓ３４０へ移行する。

【0083】

全ての出力ボックスが処理された場合（Ｓ３５０：Ｙｅｓ）、Ｓ３７０で、プロセッサ２１０は、リストＬｉｏｕを参照して最大ＩｏＵを取得する。Ｓ３８０で、プロセッサ２１０は、最大ＩｏＵの注目出力ボックスの番号ｖを取得する。Ｓ３９０で、プロセッサ２１０は、最大ＩｏＵが閾値ＴＨ１よりも大きいか否かを判断する。閾値ＴＨ１は、同一人物を示すボックスＢｐｉ、ＢｑｊのＩｏＵが閾値ＴＨ１よりも大きく、かつ、異なる人物を示すボックスＢｐｉ、ＢｑｊのＩｏＵが閾値ＴＨ１よりも小さくなるように、予め実験的に決定される（例えば、ＴＨ１＝０．４）

【0084】

最大ＩｏＵが閾値ＴＨ１よりも大きい場合（Ｓ３９０：Ｙｅｓ）、Ｓ４００で、プロセッサ２１０は、ｉ番の入力ボックスＢｐｉの入力ランドマークセットＬＭｐｉに対応する対応ランドマークセットＬＭｒｉを、最大ＩｏＵの注目出力ボックスＢｑｖの出力ランドマークセットＬＭｑｖに設定する。そして、プロセッサ２１０は、Ｓ４２０へ移行する。

【0085】

Ｓ４２０では、プロセッサ２１０は、全ての入力ボックスが処理されたか否かを判断する。全ての入力ボックスが処理された場合（Ｓ４２０：Ｙｅｓ）、プロセッサ２１０は、図１２の処理、すなわち、図７のＳ２５０の処理を終了する。未処理の入力ボックスが残っている場合（Ｓ４２０：Ｎｏ）、プロセッサ２１０は、Ｓ４３０で注目入力ボックスＢｐｉの番号ｉに１を加算し、Ｓ３２０へ移行する。

【0086】

図１１（Ｂ）は、対応関係の例を示す図である。この対応関係は、図８（Ｂ）の検出結果と図１１（Ａ）の検出結果とから導かれる対応関係の例を示している。図中には、最大ＩｏＵを形成する入力ボックスＢｐ１－Ｂｐ５と出力ボックスＢｑ１－Ｂｑ５とのペアの位置関係の例が示されている。ここで、同じ番号の入力ボックスと出力ボックスとが、同一人物を示していることとする。この場合、同じ番号の入力ボックスと出力ボックスとは、画像ＩＭ１、ＩＭ３上で、実質的に同じ位置に配置され、実質的に同じ形状を有している。図１１（Ｂ）の上部には、第１入力ボックスＢｐ１と第１出力ボックスＢｑ１との位置関係が示されている。第１入力ボックスＢｐ１と第１出力ボックスＢｑ１とは、実質的に同じ位置に配置され、実質的に同じ形状を有している。第１入力ボックスＢｐ１と第１出力ボックスＢｑ１とのペアのＩｏＵ（１，１）は、閾値ＴＨ１よりも大きい。従って、第１入力ランドマークセットＬＭｐ１に対応する第１対応ランドマークセットＬＭｒ１は、第１出力ボックスＢｑ１の出力ランドマークセットＬＭｑ１に設定される。他の入力ボックスについても、同様に、対応ランドマークセットが設定される。ｉ番の対応ランドマークセットＬＭｒｉは、同じ番号ｉ（すなわち、同じ人物）の出力ランドマークセットＬＭｑｉに設定される。

【0087】

図１３（Ａ）は、出力画像ＩＭ３から検出される顔の領域と顔のランドマークとの別の例を示している。図１１（Ａ）の検出結果との違いは、第２人物ＰＲ２の顔Ｆｚ２に対応するバウンディングボックスが検出されていない点である。出力ボックスＢｑ２－Ｂｑ４は、人物ＰＲ３－ＰＲ５に、それぞれ対応している（出力ボックスの符号の番号は、人物の符号の番号から１ずれている）。このように、Ｓ１２０（図６）で検出された顔が、Ｓ２４０（図７）では検出されない場合がある。

【0088】

図１３（Ｂ）は、図１２の処理で決定される対応関係の例を示す図である。この対応関係は、図８（Ｂ）の検出結果と図１３（Ａ）の検出結果とから導かれる対応関係の例を示している。図１３（Ｂ）の上部には、第２入力ボックスＢｐ２の対応関係が示されている。図１３（Ａ）に示すように、第２入力ボックスＢｐ２に対応する出力ボックスは、検出されていない。従って、第２入力ボックスＢｐ２と出力ボックスＢｑｖとのペアの最大ＩｏＵ（２，ｖ）は、閾値ＴＨ１よりも小さい。

【0089】

最大ＩｏＵが閾値ＴＨ１以下である場合（図１２：Ｓ３９０：Ｎｏ）、Ｓ４１０で、プロセッサ２１０は、ｉ番の対応ランドマークセットＬＭｒｉを、出力ランドマークセットではなく、ｉ番の入力ランドマークセットＬＭｐｉに設定する。そして、プロセッサ２１０は、Ｓ４２０へ移行する。

【0090】

図１３（Ｂ）に示すように、第２入力ボックスＢｐ２の最大ＩｏＵ（２，ｖ）は閾値ＴＨ１よりも小さい。従って、第２入力ランドマークセットＬＭｐ２に対応する対応ランドマークセットＬＭｒ２は、元の第２入力ランドマークセットＬＭｐ２に設定される。

【0091】

他の人物ＰＲ１、ＰＲ３－ＰＲ５に関しては、入力ランドマークセットに対応する対応ランドマークセットは、同一人物の出力ランドマークセットに設定される。例えば、第３入力ボックスＢｐ３の第３入力ランドマークセットＬＭｐ３に対応する対応ランドマークセットＬＭｒ３は、同一人物の第２出力ボックスＢｑ２の出力ランドマークセットＬＭｑ２に設定される。

【0092】

このように、図１２の処理（すなわち、図７のＳ２５０の処理）では、プロセッサ２１０は、入力ランドマークセット（図８（Ｂ））に、同一人物の出力ランドマークセット（図１１（Ａ）、図１３（Ａ））を、対応付ける（図１２：Ｓ４００）。出力画像ＩＭ３から同一人物のランドマークセットが検出されない場合、プロセッサ２１０は、入力ランドマークセットに対応する対応ランドマークセットを、同じ入力ランドマークセットに設定する（図１２：Ｓ４１０）。この理由については、後述する。

【0093】

図１２の処理、すなわち、図７のＳ２５０の処理の後、プロセッサ２１０は、Ｓ２６０へ移行する。また、Ｓ１２０（図６）で検出されるバウンディングボックスの総数Ｎｆｐがゼロである場合（Ｓ１４０：Ｎｏ）、プロセッサ２１０は、Ｓ２６０へ移行する。Ｓ２６０では、プロセッサ２１０は、損失を算出し、スタイル変換モデルＭ２（図２）の演算パラメータを損失が小さくなるように調整する。本実施例では、プロセッサ２１０は、訓練済のエンコーダＥＣを使用して、デコーダＤＣの演算パラメータを調整する。

【0094】

図１４（Ａ）－図１４（Ｃ）は、損失の計算式の例を示す図である。図１４（Ａ）に示すように、損失Ｌ（全体損失Ｌとも呼ぶ）は、コンテンツ損失Ｌｃと、スタイル損失Ｌｓと、顔個数損失Ｌｎと、ランドマーク損失Ｌｌと、の重み付き合計値である。損失Ｌｃ、Ｌｓ、Ｌｎ、Ｌｌには、重み１、λｓ、λｎ、λｌが、それぞれ付されている。可変値である重みλｓ、λｎ、λｌは、訓練済のスタイル変換モデルＭ２が適切にスタイル変換を行うように、予め実験的に決定される。

【0095】

コンテンツ損失Ｌｃとスタイル損失Ｌｓとは、AdaINの上記の論文に記載のコンテンツ損失Ｌｃとスタイル損失Ｌｓと、それぞれ同じである。

【0096】

コンテンツ損失Ｌｃは、変換済コンテンツ画像ｇ（ｔ）（図２）がエンコーダＥＣに入力される場合にエンコーダＥＣから出力される特徴マップｆ（ｇ（ｔ））と、対象特徴マップｔと、の間の差を示している。

【0097】

スタイル損失Ｌｓは、変換済コンテンツ画像ｇ（ｔ）がエンコーダＥＣに入力される場合にエンコーダＥＣの複数の層から出力されるデータと、スタイル画像ｓがエンコーダＥＣに入力される場合にエンコーダＥＣの複数の層から出力されるデータと、の間の差を示している。差としては、平均の差と標準偏差の差とが使用される。エンコーダＥＣの複数の層としては、例えば、relu1_1, relu2_1, relu3_1, relu4_1の４個の層が採用される。relu1_1, relu2_1, relu3_1, relu4_1は、第１－第４ブロックの第１畳込層ＥＬ０２、ＥＬ０５、ＥＬ０８、ＥＬ１３（図３）の活性化関数を、それぞれ示している。

【0098】

図１４（Ｂ）は顔個数損失Ｌｎの計算式の例を示している。入力顔数Ｎｆｐは、図６のＳ１２０で入力画像（例えば、入力画像ＩＭ１（図８（Ｂ））から検出されるバウンディングボックスの総数である。出力顔数Ｎｆｑは、図７のＳ２４０で出力画像（例えば、出力画像ＩＭ３（図１１（Ａ）、図１３（Ａ））から検出されるバウンディングボックスの総数である。顔個数損失Ｌｎは、入力顔数Ｎｆｐと出力顔数Ｎｆｑとの間の差を示す種々の値であってよい。本実施例では、顔個数損失Ｌｎは、バウンディングボックスの総数の差の二乗を、入力顔数Ｎｆｐで除算することによって、算出される。顔個数損失Ｌｎを含む全体損失Ｌが小さくなるようにスタイル変換モデルＭ２が訓練される場合、スタイル変換モデルＭ２によるスタイル変換によってバウンディングボックスの総数が変化する可能性は、低減する。例えば、図１３（Ａ）の検出結果のように、第２人物ＰＲ２のバウンディングボックスが検出されなくなる可能性は、低減する。なお、入力顔数Ｎｆｐがゼロである場合（図６：Ｓ１４０：Ｎｏ）、顔個数損失Ｌｎはゼロに設定される。

【0099】

図１４（Ｃ）は、ランドマーク損失Ｌｌの計算式の例を示している。ｄ（ＬＭｐｉ、ＬＭｒｉ）は、スタイル変換前の顔画像の入力ランドマークセットＬＭｐｉと、スタイル変換済の顔画像の対応ランドマークセットＬＭｒｉと、の間の距離を示している。図９（Ｂ）に示すように、本実施例では、ランドマークセットＬＭｐｉ、ＬＭｒｉは、それぞれ、ベクトルで表される。距離ｄは、ベクトルの要素の差分を表す種々の値であってよい。本実施例では、距離ｄは、ユークリッド距離である。大きい距離ｄ（ＬＭｐｉ、ＬＭｒｉ）は、顔に含まれる部分（例えば、目）のスタイル変換による変形の度合いが大きいことを示している。小さい距離ｄ（ＬＭｐｉ、ＬＭｒｉ）は、顔に含まれる部分のスタイル変換による変形の度合いが小さいことを示している。

【0100】

Ｒ（ＬＭｐｉ）は、入力ランドマークセットＬＭｐｉによって示される顔の大きさを示している。大きさＲは、顔の大きさを表す種々の値であってよい。本実施例では、大きさＲ（ＬＭｐｉ）は、入力ランドマークセットＬＭｐｉに対応する入力ボックスＢｐｉの対角線の長さである。

【0101】

ランドマーク損失Ｌｌは、顔の大きさＲで正規化された距離ｄの平均である。ここで、平均は、入力画像（例えば、入力画像ＩＭ１（図８（Ｂ）））から検出されるＮｆｐ個の顔の平均である。顔の大きさＲで正規化する理由は、複数の顔の間の大きさの違いの影響を緩和するためである。ランドマーク損失Ｌｌを含む全体損失Ｌが小さくなるようにスタイル変換モデルＭ２が訓練される場合、顔に含まれる部分がスタイル変換モデルＭ２によるスタイル変換によって変形する可能性は、低減する。なお、入力顔数Ｎｆｐがゼロである場合（図６：Ｓ１４０：Ｎｏ）、ランドマーク損失Ｌｌはゼロに設定される。

【0102】

Ｓ４１０（図１２）、図１３（Ａ）で説明したように、入力ランドマークセットＬＭｐｉの人物と同一の人物の出力ボックス（ひいては、出力ランドマークセット）が、出力画像から検出されない場合がある。この場合、対応ランドマークセットＬＭｒｉは、入力ランドマークセットＬＭｐｉと同じである。従って、距離ｄはゼロである。仮に、同一人物の出力ボックスが出力画像から検出されない場合に距離ｄが増大すると仮定する。この場合、顔に含まれる部分の変形とは異なる理由（すなわち、同一人物の出力ボックスが検出されないこと）に起因して、ランドマーク損失Ｌｌが増大する。このようなランドマーク損失Ｌｌは、スタイル変換モデルＭ２の適切な訓練を阻害し得る。本実施例では、そのような不具合の可能性は、低減する。

【0103】

プロセッサ２１０は、バッチサイズＢＳ分のペア（図６：Ｓ１１０）のそれぞれの全体損失Ｌを算出する。そして、プロセッサ２１０は、ＢＳ個の全体損失Ｌを使用して、調整用損失を算出する。調整用損失は、例えば、ＢＳ個の全体損失Ｌの平均値である。プロセッサ２１０は、調整用損失が小さくなるように、予め決められたアルゴリズムに従って、スタイル変換モデルＭ２の複数の演算パラメータを調整する。アルゴリズムとしては、例えば、誤差逆伝播法と勾配降下法とを使用したアルゴリズムが採用されてよい。また、プロセッサ２１０は、いわゆるＡｄａｍの最適化を行ってよい。

【0104】

Ｓ２７０（図７）では、プロセッサ２１０は、訓練の終了条件が満たされるか否かを判断する。終了条件は、スタイル変換モデルＭ２が適切に訓練されたことを示す任意の条件であってよい。本実施例では、終了条件は、エポック数の訓練が終了することである。図示を省略するが、プロセッサ２１０は、１エポック毎に、各バッチの入力画像とスタイル画像のペアのセットを変更してよい。エポック数は、スタイル変換モデルＭ２を適切に訓練できるように、実験的に決定される。

【0105】

なお、訓練の終了条件は、他の条件であってよい。例えば、終了条件は、訓練に使用されていない所定数の入力画像とスタイル画像とのペアを使用して算出される全体損失Ｌのそれぞれが、所定の閾値以下であることであってよい。

【0106】

訓練が終了していないと判断される場合（Ｓ２７０：Ｎｏ）、プロセッサ２１０は、Ｓ１１０（図６）へ移行し、入力画像とスタイル画像との新たなペアを使用して、スタイル変換モデルＭ２を訓練する。訓練が終了したと判断される場合（Ｓ２７０：Ｙｅｓ）、Ｓ２８０で、プロセッサ２１０は、訓練済のスタイル変換モデルＭ２を示すデータを、記憶装置２１５（ここでは、不揮発性記憶装置２３０）に格納する。そして、プロセッサ２１０は、訓練処理（図６、図７）を終了する。

【0107】

Ａ４．画像処理：
図１５、図１６は、訓練済のスタイル変換モデルＭ２を使用する画像処理の例を示すフローチャートである。図１６は、図１５の続きを示している。第２プログラム２３２（図１）は、画像処理のためのプログラムである。ユーザは、画像処理の開始指示を、操作部２５０を操作することによって、画像処理装置２００に入力する。プロセッサ２１０は、開始指示に従って、画像処理を開始する。この画像処理は、入力画像とスタイル画像とを使用して、スタイル画像のスタイルで表現される変換済画像を生成する。

【0108】

本実施例の画像処理は、図６、図７の訓練処理の複数のステップＳ１０５－Ｓ２８０のうちの一部の複数のステップを使用して構成されている。図１５、図１６において、訓練処理のステップに対応するステップの符号は、図６、図７の対応するステップの符号の末尾に文字「ａ」を付加したものである。例えば、Ｓ１２０ａは、図６のＳ１２０に対応している。

【0109】

Ｓ１０８では、プロセッサ２１０は、入力画像とスタイル画像との処理対象のペアのデータを取得する。例えば、プロセッサ２１０は、ユーザによって指定されるデータを、記憶装置（例えば、不揮発性記憶装置２３０、通信インタフェース２７０に接続される図示しない記憶装置、など）から、取得する。

【0110】

図１７（Ａ）－図１７（Ｄ）は、画像処理で処理される画像の例を示す図である。図１７（Ａ）は、入力画像の例を示している。入力画像ＩＭａ１は、５人の人物ＰＲａ１－ＰＲａ５の撮影画像である。入力画像ＩＭａ１は、５人の人物ＰＲａ１－ＰＲａ５の５個の顔Ｆａ１－Ｆａ５の画像を、含んでいる。

【0111】

スタイル画像は、入力画像ＩＭａ１のスタイルとは異なるスタイルを有する種々の画像であってよい。例えば、図２のスタイル画像ｓと、図１７（Ａ）の入力画像ＩＭａ１とが、ペアを形成してよい。

【0112】

Ｓ１２０ａ（図１５）では、プロセッサ２１０は、入力画像から、顔の領域を検出する。顔の領域の検出方法は、図６のＳ１２０での検出方法と同じである。なお、Ｓ１２０ａでは、顔のランドマークの検出は、省略される。

【0113】

図１７（Ｂ）は、入力画像ＩＭａ１から検出される顔の領域の例を示している。プロセッサ２１０は、入力画像ＩＭａ１を使用して顔検出モデルＭ１ａの演算を実行することによって、５個の顔Ｆａ１－Ｆａ５に対応する５個のバウンディングボックスＢａｐ１－Ｂａｐ５を検出する。

【0114】

Ｓ１３０ａ（図１５）では、プロセッサ２１０は、入力画像とスタイル画像とのペアを使用して、訓練済のスタイル変換モデルＭ２の演算を実行することによって、スタイル変換済の画像である処理済画像を生成する。デコーダＤＣ（図２）から出力される変換済コンテンツ画像ｇ（ｔｚ）が、処理済画像である。

【0115】

重みα（図４（Ａ））は、ゼロより大きく、かつ、１以下の値に、予め決定される。これに代えて、プロセッサ２１０は、ユーザによって指定された重みαを使用してよい。重みαが大きいほど、調整済特徴マップｔｚ（図２）に対する対象特徴マップｔの割合が大きい。従って、重みαが大きいほど、処理済画像（ここでは、デコーダＤＣから出力される変換済コンテンツ画像ｇ（ｔｚ））のスタイルは、スタイル画像のスタイルに近づく。このように、ユーザは、重みαを調整することによって、スタイル変換の度合いを調整できる。

【0116】

図１７（Ｃ）は、処理済画像の例を示している。処理済画像ＩＭａ２は、入力画像ＩＭａ１（図１７（Ａ））から生成される画像を示している。図示するように、処理済画像ＩＭａ２は、人物ＰＲａ１－ＰＲａ５を表している。人物ＰＲａ１－ＰＲａ５の顔Ｆａｓ１－Ｆａｓ５は、入力画像ＩＭａ１のスタイルとは異なるスタイル（ここでは、スタイル画像のスタイル）で、表されている。

【0117】

Ｓ１４０ａ（図１５）では、プロセッサ２１０は、Ｓ１２０ａで検出されるバウンディングボックスの総数Ｎｆｐがゼロよりも大きいか否かを判断する。

【0118】

総数Ｎｆｐがゼロよりも大きい場合（Ｓ１４０ａ：Ｙｅｓ）、プロセッサ２１０は、Ｓ１５０ａへ移行する。Ｓ１５０ａ－Ｓ２２０ａの処理は、図６のＳ１５０－Ｓ２２０の処理と、それぞれ同じである。プロセッサ２１０は、バウンディングボックスＢａｐ１－Ｂａｐ５（図１７（Ｂ））のそれぞれの画像に対して、高解像度化処理（Ｓ１７０ａ）、スタイル変換処理（Ｓ１８０ａ）、セグメンテーション処理（Ｓ１９０ａ）、マスキング処理（Ｓ２００ａ）、低解像度化処理（Ｓ２１０ａ）を、実行する。これにより、図１０の顔処理済画像ＦＩｋｄと同様にスタイルが適切に変換された顔の画像が、生成される。

【0119】

全てのバウンディングボックスの処理が完了した場合（Ｓ２２０ａ：Ｙｅｓ）、Ｓ２３０ａ（図１６）で、プロセッサ２１０は、スタイル変換済の顔の画像を、スタイル変換済の入力画像（例えば、全体処理済画像ＩＭａ２（図１７（Ｃ））の対応する位置に重畳することによって、出力画像を生成する。

【0120】

図１７（Ｄ）は、出力画像の例を示している。出力画像ＩＭａ３は、Ｓ１３０ａ（図１５）で生成される全体処理済画像ＩＭａ２（図１７（Ｃ））の顔Ｆａｓ１－Ｆａｓ５の領域に、Ｓ１７０ａ－Ｓ２１０ａ（図１５）の処理によって生成される顔Ｆａｚ１－Ｆａｚ５の画像を、それぞれ、重畳することによって、生成される。Ｓ１７０ａ－Ｓ２１０ａでは、図１０で説明したように、高解像度化された顔の画像を使用して、顔の画像のスタイル変換が行われる。従って、図８（Ｃ）の顔Ｆｓ２のような変形の可能性は、低減される。このように、プロセッサ２１０は、入力画像ＩＭａ１内の顔が小さい場合であっても、顔の変形を抑制しつつ、スタイル変換済の出力画像ＩＭａ３を生成できる。

【0121】

Ｓ２９０（図１６）では、プロセッサ２１０は、出力画像のデータを、記憶装置２１５（例えば、不揮発性記憶装置２３０に格納する。そして、プロセッサ２１０は、図１５、図１６の画像処理を終了する。

【0122】

入力顔数Ｎｆｐがゼロである場合（図１５：Ｓ１４０ａ：Ｎｏ）、プロセッサ２１０は、Ｓ１５０ａ－Ｓ２３０ａ（図１５、図１６）をスキップして、Ｓ２９０に移行する。この場合、Ｓ２９０では、プロセッサ２１０は、Ｓ１３０ａ（図１５）で生成される処理済画像を、出力画像として採用する。プロセッサ２１０は、出力画像のデータを記憶装置に格納し、画像処理を終了する。

【0123】

以上のように、本実施例では、画像処理装置２００のプロセッサ２１０は、以下の処理を実行する。Ｓ１２０ａ（図１５）では、プロセッサ２１０は、人物の顔を表す領域（第１領域と呼ぶ）を検出する検出処理を、入力画像を使用して実行する。図１７（Ｂ）の入力画像ＩＭａ１から検出されるバウンディングボックスＢａｐ１－Ｂａｐ５のそれぞれの領域は、第１領域の例である。Ｓ１５０ａ－Ｓ２１０ａ（図１５）では、プロセッサ２１０は、入力画像の第１領域の第１画像を使用して画像処理を実行することによって、処理済画像を生成する。処理済画像は、スタイルが変更された顔の画像である（例えば、図１７（Ｄ）の顔Ｆａｚ１－Ｆａｚ５の画像）。以下、Ｓ２１０ａで生成される処理済画像を、第１処理済画像と呼ぶ。Ｓ１５０ａ－Ｓ２１０ａの処理の全体を、第１画像処理ＩＰ１ａと呼ぶ。第１画像処理ＩＰ１ａは、スタイル変換処理（Ｓ１８０ａ）を含んでいる（第１スタイル変換処理と呼ぶ）。

【0124】

Ｓ１３０ａでは、プロセッサ２１０は、入力画像ＩＭａ１（図１７（Ａ））の第２領域の第２画像を使用して画像処理を実行することによって、処理済画像ＩＭａ２（図１７（Ｃ））を生成する。本実施例では、第２領域は、入力画像ＩＭａ１の全領域である。第２画像は、入力画像と同じである。この第２領域は、第１領域を除いた残りの領域の少なくとも一部を含んでいる。以下、Ｓ１３０ａで生成される処理済画像を、第２処理済画像と呼ぶ。Ｓ１３０ａの画像処理を、第２画像処理ＩＰ２ａと呼ぶ。第２画像処理ＩＰ２ａは、スタイル変換処理を含んでいる（第２スタイル変換処理と呼ぶ）。画像処理ＩＰ１ａ、ＩＰ２ａのうちの一方である第１画像処理ＩＰ１ａは、第２画像処理ＩＰ２ａには含まれない処理（例えば、高解像度化処理（Ｓ１７０ａ）を含んでいる。

【0125】

Ｓ２３０ａ（図１６）では、プロセッサ２１０は、第１処理済画像（例えば、図１７（Ｄ）の顔Ｆａｚ１－Ｆａｚ５の画像）と第２処理済画像（例えば、図１７（Ｃ）の処理済画像ＩＭａ２）との合成処理を実行することによって、出力画像（例えば、図１７（Ｄ）の出力画像ＩＭａ３）を生成する。

【0126】

このように、プロセッサ２１０は、顔の画像を使用する第１画像処理ＩＰ１ａを、他の領域の画像を使用する第２画像処理ＩＰ２ａとは別に、実行する。従って、プロセッサ２１０は、顔を考慮して画像のスタイル変換を行うことができる。

【0127】

また、第１画像処理ＩＰ１ａ（図１５）は、高解像度化処理（Ｓ１７０ａ）を含んでいる。Ｓ１７０ａ－Ｓ１８０ａの処理は、図６のＳ１７０－Ｓ１８０の処理と同じである（ただし、処理対象の入力画像とスタイル画像とは、図６の処理対象とは異なり得る）。Ｓ１８０（図６）でスタイル変換モデルＭ２に入力される画像の幅と高さとは、バウンディングボックスに囲まれる画像（例えば、図１０の注目画像ＦＩｋ）の幅と高さよりも、それぞれ大きい。Ｓ１８０ａ（図１５）についても、同じである。このように、第１スタイル変換処理（Ｓ１８０ａ）は、入力画像上の第１領域の第１画像の解像度よりも高い解像度の画像のスタイル変換処理を含んでいる。従って、顔に含まれる部分の第１スタイル変換処理（Ｓ１８０ａ）による変形の可能性は、低減する。

【0128】

また、第２スタイル変換処理（Ｓ１３０ａ）は、訓練済のスタイル変換モデルＭ２によるスタイル変換処理を含んでいる。図２で説明したように、スタイル変換モデルＭ２は、画像のスタイル変換を行う。スタイル変換モデルＭ２は、スタイル変換モデルの例である。図６、図７、図１４（Ａ）で説明したように、訓練済のスタイル変換モデルＭ２は、全体損失Ｌが小さくなるように、訓練されている。全体損失Ｌは、顔個数損失Ｌｎを含んでいる。顔個数損失Ｌｎ（図１４（Ｂ））は、スタイル変換モデルＭ２に入力される入力画像から検出される顔の総数Ｎｆｐと、スタイル変換モデルＭ２によるスタイル変換済の画像から検出される顔の総数Ｎｆｑと、の間の差に関連する第１項の例である。この構成によれば、検出される顔の総数を変化させるような不適切なスタイル変換の可能性は、低減する。例えば、入力画像のうちの背景の画像が、スタイル変換によって顔のような画像に変換される可能性は、低減する。

【0129】

また、第１スタイル変換処理（１８０ａ）は、訓練済のスタイル変換モデルＭ２によるスタイル変換処理を含んでいる。スタイル変換モデルＭ２は、スタイル変換モデルの例である。図６、図７、図１４（Ａ）で説明したように、訓練済のスタイル変換モデルＭ２は、全体損失Ｌが小さくなるように、訓練されている。全体損失Ｌは、ランドマーク損失Ｌｌを含んでいる。ランドマーク損失Ｌｌ（図１４（Ｃ））は、入力ランドマークセットＬＭｐｉと対応ランドマークセットＬＭｒｉとの間の差に関連している。入力ランドマークセットＬＭｐｉは、スタイル変換モデルＭ２に入力される画像（例えば、図８（Ｂ）の入力画像ＩＭ１）に含まれる顔（第１顔と呼ぶ）から検出される第１顔ランドマークの位置を示している。対応ランドマークセットＬＭｒｉは、Ｓ４００（図１２）で、出力ランドマークセットＬＭｑｖに設定される。対応ランドマークセットＬＭｒｉ（ここでは、出力ランドマークセットＬＭｑｖ）は、スタイル変換モデルＭ２によるスタイル変換済の画像（例えば、出力画像ＩＭ３（図１１（Ａ）、図１３（Ａ）））に含まれる顔（第２顔と呼ぶ）から検出される第２顔ランドマークの位置を示している。この構成によれば、スタイル変換処理に起因するランドマークの位置の変化の可能性は、低減する。すなわち、スタイル変換処理に起因する顔に含まれる部分の変形の可能性は、低減する。

【0130】

ここで、第１顔は、以下に説明する顔である。Ｓ１２０（図６）では、プロセッサ２１０は、Ｎ個（Ｎは２以上の整数）の顔を表す入力画像（例えば、入力画像ＩＭ１（図８（Ｂ）））を使用して検出処理を実行することによって、バウンディングボックス（例えば、バウンディングボックスＢｐ１－Ｂｐ５）を検出する。第１顔は、バウンディングボックスに囲まれる領域によって表される顔である。入力画像ＩＭ１は、訓練のためにスタイル変換モデルＭ２に入力される画像である入力訓練画像の例である。また、Ｓ１２０によるバウンディングボックスの検出処理は、Ｓ１２０ａ（図１５）の処理と同じである（ただし、訓練用の入力画像ＩＭ１は、画像処理用の入力画像ＩＭａ１と異なり得る）。

【0131】

また、第２顔は、以下に説明する顔である。図７のＳ２４０で、プロセッサ２１０は、出力画像（例えば、出力画像ＩＭ３（図１１））から、顔を示すバウンディングボックス（例えば、バウンディングボックスＢｑ１－Ｂｑ５）を検出する。第２顔は、バウンディングボックスに囲まれる領域によって表される顔である。出力画像（例えば、出力画像ＩＭ３（図１１））は、図６、図７のＳ１２０、Ｓ１３０、Ｓ１５０－Ｓ２１０、Ｓ２３０の処理を、入力訓練画像（例えば、入力画像ＩＭ１（図８（Ａ））を使用して実行することによって生成される画像である。出力画像ＩＭ３は、入力訓練画像を使用して得られる出力訓練画像の例である。第２顔は、出力訓練画像から検出される１以上の顔のうち、第１顔と同じ人物の顔である。

【0132】

このように、ランドマーク損失Ｌｌは、第１顔から検出される第１顔ランドマークの位置と、第１顔の人物と同じ人物の第２顔から検出される第２顔ランドマークの位置と、の間の差に関連している。ランドマーク損失Ｌｌを含む全体損失Ｌが小さくなるようにスタイル変換モデルＭ２が訓練される場合、スタイル変換処理に起因する同じ人物のランドマークの位置の変化の可能性は、低減する。すなわち、スタイル変換処理に起因する同じ人物の顔に含まれる部分の変形の可能性は、低減する。この結果、本実施例の画像処理（図１５、図１６）は、顔のスタイルを変更しつつ、顔の見た目の同一性を維持できる。

【0133】

なお、出力訓練画像を生成する処理（図６、図７のＳ１２０、Ｓ１３０、Ｓ１５０－Ｓ２１０、Ｓ２３０）は、図１５、図１６のＳ１２０ａ、Ｓ１３０ａ、Ｓ１５０ａ－Ｓ２１０ａ、Ｓ２３０ａの処理を、含んでいる（ここで、処理対象の入力画像とスタイル画像とは、図１５、図１６の処理対象の入力画像とスタイル画像と、それぞれ、異なり得る）。具体的には、Ｓ１２０の処理は、Ｓ１２０ａの処理（バウンディングボックスの検出処理）を含んでいる。Ｓ１３０の処理は、第２画像処理ＩＰ２ａ（ここでは、Ｓ１３０ａ）を含んでいる。Ｓ１５０－Ｓ２１０の処理は、第１画像処理ＩＰ１ａ（ここでは、Ｓ１５０ａ－Ｓ２１０ａ）を含んでいる。Ｓ２３０の処理は、Ｓ２３０ａの処理（ここでは、合成処理）を含んでいる。このように、出力訓練画像は、検出処理（Ｓ１２０ａ）と第１画像処理ＩＰ１ａと第２画像処理ＩＰ２ａと合成処理（Ｓ２３０ａ）とを含む処理を入力訓練画像（例えば、入力画像ＩＭ１（図８（Ａ））を使用して実行することによって生成される。

【0134】

このように、スタイル変換モデルＭ２の訓練において第２顔の検出に使用される出力訓練画像は、画像処理（図１５、図１６）において出力画像を生成するための処理（Ｓ１２０ａ、Ｓ１３０ａ、Ｓ１５０ａ－Ｓ２１０ａ、Ｓ２３０ａ）を含む処理によって、生成される。すなわち、スタイル変換モデルＭ２の訓練は、画像処理（図１５、図１６）による出力画像の生成を考慮して、行われる。従って、訓練済のスタイル変換モデルＭ２が画像処理で使用される場合、スタイル変換処理に起因する顔に含まれる部分の変形の可能性は、適切に低減する。

【0135】

また、プロセッサ２１０は、図１２の処理を実行することによって、第１顔と、同じ人物の第２顔と、の対応関係を決定する。本実施例では、Ｓ３４０、Ｓ３７０、Ｓ３８０、Ｓ３９０で説明したように、第１顔に対応付けられる第２顔は、出力訓練画像（例えば、出力画像ＩＭ３（図１１））から検出される１以上の顔のうち、ＩｏＵが閾値ＴＨ１よりも大きい（Ｓ３９０：Ｙｅｓ）という条件を満たす顔である。なお、ＩｏＵは、第１顔を囲む第１矩形（ここでは、入力ボックスＢｐｉ）と、出力訓練画像から検出される顔を囲む第２矩形（ここでは、出力ボックスＢｑｊ）と、を使用して算出される。ＩｏＵが大きい場合、第１矩形（入力ボックスＢｐｉ）と第２矩形（出力ボックスＢｑｊ）との間の位置の差は小さい。「ＩｏＵ＞ＴＨ１」は、第１矩形（入力ボックスＢｐｉ）と第２矩形（出力ボックスＢｑｊ）との間の位置の差が小さいことを示す位置条件の例である。位置条件が満たされる場合（Ｓ３９０：Ｙｅｓ）、Ｓ４００で、プロセッサ２１０は、位置条件を満たす第２矩形（出力ボックスＢｑｊ）を第１矩形（入力ボックスＢｐｉ）に対応付ける。これにより、プロセッサ２１０は、同じ人物の第１顔と第２顔との対応関係を適切に決定できる。

【0136】

なお、画像内で複数の顔が近い位置に配置される場合、１個の第１矩形（入力ボックスＢｐｉ）に対して、複数の第２矩形（出力ボックスＢｑｊ）が、位置条件を満たし得る。この場合、プロセッサ２１０は、最大のＩｏＵを有する第２矩形（出力ボックスＢｑｊ）を、第１矩形（入力ボックスＢｐｉ）に対応付ける。従って、プロセッサ２１０は、同じ人物の第１顔と第２顔との対応関係を適切に決定できる。

【0137】

Ｂ．変形例：
（１）超解像モデルＭ３（図１）は、StyleGANに限らず、variational autoencoders (VAEs)、generative adversarial networks (GANs)など、高解像度の自然な画像を生成する種々の生成モデルであってよい。また、Ｓ１７０（図６）、Ｓ１７０ａ（図１５）の高解像度化処理は、「PULSE」と呼ばれる超解像処理に代えて、他の種々の処理であってよい。プロセッサ２１０は、例えば、超解像モデルＭ３などの機械学習モデルを使用せずに、解像度変換処理（ニアレストネイバ、バイリニア、バイキュービックなど）を実行してよい。

【0138】

（２）Ｓ１２０（図６）、Ｓ２４０（図７）、Ｓ１２０ａ（図１５）における顔の領域の検出処理は、「BlazeFace」と呼ばれる物体検出モデルを使用する処理に代えて、他の種々の処理を実行してよい。プロセッサ２１０は、例えば、ＹＯＬＯ（You only look once）と呼ばれるオブジェクト検出モデルを使用して、顔の領域を検出してよい。また、プロセッサ２１０は、機械学習モデルを使用せずに、顔の基準画像を使用するパターンマッチングによって、顔の領域を検出してよい。

【0139】

（３）Ｓ１２０（図６）、Ｓ２４０（図７）における顔のランドマークを検出する処理は、「Attention Mesh」と呼ばれる検出モデルを使用する処理に代えて、他の種々の処理であってよい。プロセッサ２１０は、例えば、ＯｐｅｎＣＶ（Open Source Computer Vision）のFacemark APIを使用することによって、顔のランドマークを検出してよい。また、プロセッサ２１０は、顔の部分（口、目など）の基準画像を使用するパターンマッチングによって、ランドマークを検出してよい。

【0140】

ランドマーク（図９）の点の数ｎＰは、６８に限らず、任意の数であってよい。ランドマーク損失Ｌｌ（図１４（Ｃ））を使用して顔に含まれる部分の変形を抑制するためには、数ｎＰが多いことが好ましい。例えば、数ｎＰは、２０以上であることが好ましい。なお、ランドマークは、顔の任意の部分を示してよい。ランドマークは、眉、目、口、鼻、顎からなる群から選択される１以上の部分を含んでよい。

【0141】

（４）Ｓ１９０（図６）、Ｓ１９０ａ（図１５）のセグメンテーション処理は、ＦＣＮを使用する処理に代えて、他の種々の処理であってよい。例えば、「Mask R-CNN」と呼ばれる物体検出モデルが使用されてよい。また、プロセッサ２１０は、顔の基準画像を使用するパターンマッチングによって、顔を表す領域とその他の領域とを分割してよい。

【0142】

（５）図１２のＳ３４０、Ｓ３７０、Ｓ３８０、Ｓ３９０では、出力訓練画像（例えば、出力画像ＩＭ３（図１１））から検出される１以上の顔のうち、「ＩｏＵ＞ＴＨ１（Ｓ３９０：Ｙｅｓ）」という条件を満たす顔が、入力訓練画像（例えば、入力画像ＩＭ１（図８（Ｂ））から検出される第１顔と同一人物の第２顔として採用される。出力訓練画像から検出される顔を同一人物の第２顔として採用するための条件である対応条件としては、種々の位置条件を採用可能である。ここで、位置条件は、第１顔を囲む第１矩形（例えば、入力ボックスＢｐｉ）と、出力訓練画像から検出される顔を囲む第２矩形（例えば、出力ボックスＢｑｊ）と、の間の位置の差が小さいことを示す条件である。位置条件は、例えば、第１矩形の重心位置と第２矩形の重心位置との間の距離が閾値未満であることを、含んでよい。また、位置条件は、第１矩形の頂点と第２矩形の対応する頂点との間の位置の差が閾値未満であることを、含んでよい。位置条件は、第１矩形の頂点と第２矩形の対応する頂点との４個の組み合わせの４個の位置差のそれぞれが閾値未満であることを、含んでよい。また、対応条件は、位置条件に限らず、第１顔と第２顔とが同一人物の顔であることを示す種々の条件であってよい。

【0143】

（６）スタイル変換モデルは、図２のスタイル変換モデルＭ２に限らず、種々のモデルであってよい。例えば、「Fast Patch-based Style Transfer of Arbitrary Style」と呼ばれる技術のアーキテクチャ、または、「Avatar-Net: Multi-scale Zero-shot Style Transfer by Feature Decoration」と呼ばれる技術のアーキテクチャが、採用されてよい。

【0144】

いずれの場合も、スタイル変換モデルに入力可能な画像の幅と高さとチャンネル数とは、種々の値であってよい。スタイル変換モデルは、例えば、５１２＊５１２＊３で表される画像を受け付けるように構成されてよい。

【0145】

（７）人物の顔を表す第１領域の第１画像を使用して第１処理済画像を生成する第１画像処理は、図１５の第１画像処理ＩＰ１ａ（具体的には、Ｓ１５０ａ－Ｓ２１０ａ）に限らず、第１スタイル変換処理を含む種々の処理であってよい。例えば、マスキング処理（Ｓ２００ａ）は、低解像度化処理（Ｓ２１０ａ）の後に実行されてよい。マスキング処理（Ｓ２００ａ）は、省略されてよい。この場合、Ｓ２３０ａ（図１６）では、スタイル変換済の顔を含むバウンディングボックス内の画像の全体が、全体処理済画像ＩＭａ２（図１７（Ｃ））に重畳されてよい。また、高解像度化処理（Ｓ１７０ａ）は、省略されてよい。

【0146】

（８）入力画像の第２領域の第２画像を使用して第２処理済画像を生成する第２画像処理は、図１５の第２画像処理ＩＰ２ａ（具体的には、Ｓ１３０ａ）に限らず、第２スタイル変換処理を含む種々の処理であってよい。例えば、第２画像処理は、高解像度化処理を含んでよい。そして、スタイル変換済の高解像度の顔画像が、スタイル変換済の高解像度の全体処理済画像に重畳されてよい。

【0147】

いずれの場合も、第２領域は、入力画像の全体に限らず、入力画像のうちの顔を表す第１領域を除いた残りの領域の少なくとも一部を含む種々の領域であってよい。例えば、第２領域は、入力画像から第１領域を除いた残りの領域であってよい。すなわち、第２領域の第２画像は、第１領域をマスクして得られる画像であってよい。

【0148】

（９）第１画像処理と第２画像処理とは、それぞれ、種々の処理であってよい。例えば、第１画像処理は、第２画像処理には含まれない処理（例えば、高解像度化処理）を含んでよい。第２画像処理は、第１画像処理には含まれない処理（例えば、シャープネス強調処理）を含んでよい。

【0149】

第１画像処理に含まれる第１スタイル変換処理は、第２画像処理に含まれる第２スタイル変換処理と異なる処理であってよい。例えば、第２スタイル変換処理に使用されるスタイル変換モデルは、第１スタイル変換処理に使用されるスタイル変換モデルと異なるモデルであってよい。また、第２スタイル変換処理に使用されるスタイル画像は、第１スタイル変換処理に使用されるスタイル画像と異なる画像であってよい。ユーザが、第１スタイル変換処理用のスタイル画像と、第２スタイル変換処理用のスタイル画像とを、指定してよい。

【0150】

（１０）スタイル変換モデルの訓練処理（例えば、図６、図７）でスタイル変換モデルに入力される入力訓練画像は、訓練済のスタイル変換モデルを使用する画像処理（例えば、図１５、図１６）でスタイル変換モデルに入力され得る画像と同じ種類の種々の画像を含むことが好ましい。例えば、入力訓練画像は、人物の無い風景画像、一人の人物を表すポートレート、複数の人物を表す集合写真など、種々の撮影画像を含んでよい。また、入力訓練画像は、イラストレーションなど、撮影画像とは異なる種類の画像を含んでよい。

【0151】

（１１）スタイル変換モデルの訓練に使用される損失は、図１４（Ａ）－図１４（Ｃ）で説明した損失に限らず、種々の損失であってよい。例えば、顔個数損失Ｌｎは、入力顔数Ｎｆｐと出力顔数Ｎｆｑとの間の差を示す種々の値であってよい。例えば、顔個数損失Ｌｎは、入力顔数Ｎｆｐと出力顔数Ｎｆｑとの差の絶対値であってよい。

【0152】

また、ランドマーク損失Ｌｌ（図１４（Ｃ））は、スタイル変換前の顔画像の入力ランドマークセットＬＭｐｉと、スタイル変換済の顔画像の対応ランドマークセットＬＭｒｉと、の間の差を示す種々の値であってよい。例えば、Ｒ（ＬＭｐｉ）は、入力ランドマークセットＬＭｐｉによって示される顔の大きさを示す種々の値であってよい。Ｒ（ＬＭｐｉ）は、入力ランドマークセットＬＭｐｉに対応する入力ボックスＢｐｉの面積であってよい。また、距離ｄは、ユークリッド距離に代えて、マンハッタン距離、チェビシェフ距離、マハラノビス距離など、ベクトルの要素の差分を表す種々の値であってよい。

【0153】

なお、顔個数損失Ｌｎとランドマーク損失Ｌｌとの一方または両方が、省略されてよい。スタイル変換に起因する顔の変形の可能性を低減するためには、抽出される顔の画像を処理する第１スタイル変換処理（例えば、図１５のＳ１８０ａ）で使用されるスタイル変換モデルの訓練に、ランドマーク損失Ｌｌが使用されることが好ましい。これにより、入力画像と出力画像との間で顔の見た目の同一性を維持できる。また、スタイル変換に起因する顔検出数の変化の可能性を低減するためには、入力画像のうちの顔以外の部分を含む画像を処理する第２スタイル変換処理（例えば、図１５のＳ１３０ａ）で使用されるスタイル変換モデルの訓練に、顔個数損失Ｌｎが使用されることが好ましい。これにより、入力画像のうちの顔を示していない部分（例えば、背景部分）が、スタイル変換によって、顔のような画像に変換される可能性は、低減する。

【0154】

（１２）スタイル変換モデルの訓練処理は、図６、図７の処理に限らず、スタイル変換モデルに適する種々の処理であってよい。いずれの場合も、訓練処理は、以下の処理を含んでよい。
１）訓練済のスタイル変換モデルを使用する画像処理に対応する処理を、入力訓練画像を使用して実行することによって、出力訓練画像を生成する。
２）出力訓練画像を使用して、損失を算出する。
３）損失が小さくなるように、スタイル変換モデルの複数の演算パラメータを調整する。
このような訓練処理は、画像処理に適するように、スタイル変換モデルを訓練できる。訓練済のスタイル変換モデルを使用する画像処理が、図１５の第１画像処理ＩＰ１ａと第２画像処理ＩＰ２ａのように、第１画像処理と第２画像処理とを含む場合には、訓練処理は、第１画像処理に対応する処理と、第２画像処理に対応する処理と、を含むことが好ましい。

【0155】

（１３）入力画像から検出される顔は、人物の顔に限らず、種々の生物の顔であってよい。例えば、犬、猫などのペットの顔が、検出されてよい。犬、猫に限らず、種々の哺乳類の顔が検出されてよい。

【0156】

（１４）訓練済のスタイル変換モデルを使用する画像処理装置は、パーソナルコンピュータとは異なる種類の装置（例えば、デジタルカメラ、スキャナ、スマートフォン）であってもよい。また、ネットワークを介して互いに通信可能な複数の装置（例えば、コンピュータ）が、画像処理装置による画像処理の機能を一部ずつ分担して、全体として、画像処理の機能を提供してもよい（これらの装置を備えるシステムが画像処理装置に対応する）。

【0157】

スタイル変換モデルの訓練処理は、画像処理を実行する画像処理装置とは異なる他の装置によって、行われてよい。

【0158】

上記各実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよく、逆に、ソフトウェアによって実現されていた構成の一部あるいは全部をハードウェアに置き換えるようにしてもよい。例えば、スタイル変換モデル（例えば、スタイル変換モデルＭ２）の機能は、専用のハードウェア回路によって実現されてよい。

【0159】

また、本開示の機能の一部または全部がコンピュータプログラムで実現される場合には、そのプログラムは、コンピュータ読み取り可能な記録媒体（例えば、一時的ではない記録媒体）に格納された形で提供することができる。プログラムは、提供時と同一または異なる記録媒体（コンピュータ読み取り可能な記録媒体）に格納された状態で、使用され得る。「コンピュータ読み取り可能な記録媒体」は、メモリーカードやＣＤ－ＲＯＭのような携帯型の記録媒体に限らず、各種ＲＯＭ等のコンピュータ内の内部記憶装置や、ハードディスクドライブ等のコンピュータに接続されている外部記憶装置も含み得る。

【0160】

上記した実施の形態は、本開示の理解を容易にするためのものであり、本発明を限定するものではない。本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれる。

【符号の説明】

【0161】

２００…画像処理装置、２１０…プロセッサ、２１５…記憶装置、２２０…揮発性記憶装置、２３０…不揮発性記憶装置、２３１…第１プログラム、２３２…第２プログラム、２４０…表示部、２５０…操作部、２７０…通信インタフェース

【図1】