【解決手段】 本発明に係るイメージ生成システムは、変換の対象になるソースイメージを受信するイメージ入力部と、基準イメージの外貌スタイルと関連したスタイルコードを入力するスタイルコード入力部と、前記スタイルコードを用いて、前記ソースイメージに前記基準イメージの外貌スタイルが反映された合成イメージを生成するイメージ生成部とを備えることができる。
【発明を実施するための形態】
【0013】
以下、添付された図面を参照して本明細書に開示された実施形態を詳細に説明するものの、図面符号に関係なく、同一であるか、類似した構成要素には同じ参照符号を付し、これについての重複する説明を省略する。以下の説明において使用される構成要素に対する接尾辞の「モジュール」及び「部」は、明細書作成の容易さだけが考慮されて付与されるか、混用されるものであって、それ自体で互いに区別される意味または役割を有するものではない。また、本明細書に開示された実施形態を説明するにあたって、関連した公知技術についての具体的な説明が本明細書に開示された実施形態の要旨を不明確にする恐れがあると判断される場合、その詳細な説明を省略する。また、添付された図面は、本明細書に開示された実施形態を容易に理解できるようにするためのものであり、添付された図面によって本明細書に開示された技術的思想が限定されず、本発明の思想及び技術範囲に含まれるあらゆる変更、均等物ないし代替物を含むことと理解されるべきである。
【0014】
第1、第2などのように、序数を含む用語は、様々な構成要素を説明するのに使用され得るが、上記構成要素等は、前記用語等により限定されるものではない。前記用語等は、1つの構成要素を他の構成要素から区別する目的にのみ使用される。
【0015】
ある構成要素が他の構成要素に「連結されて」いるまたは「接続されて」いると言及されたときには、その他の構成要素に直接的に連結されているまたは接続されていることもできるが、中間に他の構成要素が存在することもできると理解されるべきであろう。それに対し、ある構成要素が他の構成要素に「直接連結されて」いるまたは「直接接続されて」いると言及されたときには、中間に他の構成要素が存在しないことと理解されるべきであろう。
【0016】
単数の表現は、文脈上明白に異なるように意味しない限り、複数の表現を含む。
【0017】
本出願において、「含む」または「有する」などの用語は、明細書上に記載された特徴、数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものが存在することを指定しようとするものであり、1つまたは複数の他の特徴や数字、ステップ、動作、構成要素、部品、またはこれらを組み合わせたものの存在または付加可能性を予め排除しないことと理解されなければならない。
【0018】
一方、本発明は、互いに異なるターゲットドメインに対応する様々なイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。
【0019】
より具体的に、本発明は、単一のイメージ生成部を利用して、互いに異なるターゲットドメインに各々対応する互いに異なるイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。
【0020】
さらに、本発明は、ターゲットドメインを基準に様々な外貌スタイルを有するイメージを生成できるイメージ生成システム及びこれを利用したイメージ生成方法を提供するものである。本発明は、イメージ生成システム及びこれを利用したイメージ生成方法に関するものであって、特に、本発明に係るイメージ生成システムは、「イメージトゥイメージ(image to image)変換(translation)」に基づいてイメージを生成できる。
【0021】
ここで、「イメージトゥイメージ変換」とは、与えられた入力イメージを基に新しいイメージを生成することを意味する。より具体的に、イメージトゥイメージ変換では、入力イメージの少なくとも一部分を変換することで、新しいイメージを生成することを意味できる。
【0022】
本発明は、特に、「イメージトゥイメージ変換」を行うにあたって、単一の「イメージ生成部」だけで、様々なスタイル及びドメインに該当する新しいイメージを生成できるイメージ生成システムに関するものである。
【0023】
このとき、イメージ生成部は、同じドメインに対する様々なスタイルのイメージを生成する、または、互いに異なるドメインに対する同じスタイルのイメージを生成できる。以下では、本発明に係るイメージ生成システムについて添付された図面とともにより具体的に説明する。
図1及び
図2は、本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法を説明するための概念図であり、
図3は、本発明に係るイメージ生成方法を説明するためのフローチャートである。
【0024】
図1に示されたように、本発明に係るイメージ生成システム100は、生成部(generator、または、イメージ生成部、110)及びスタイルコード入力部120を備えるように構成されることができる(以下、説明の都合上、「生成部110」は「イメージ生成部110」と命名する)。さらに、イメージ生成システム100は、入力部130及び出力部140のうち、少なくとも1つをさらに備えることができる。
【0025】
イメージ生成部110は、入力部130を介して入力されるイメージを基にイメージを生成し、生成されたイメージは、出力部140を介して出力されることができる。
【0026】
本発明では、説明の都合上、イメージ生成部110に、イメージ生成のために入力されるイメージを「ソースイメージ(source image)」と命名する。
【0027】
ここで、ソースイメージは、イメージ変換(または、イメージ生成)の基になるイメージを意味できる。イメージ生成部110は、ソースイメージを基に新しいイメージを生成できる。
図1に示されたように、ソースイメージ100aは、入力部130を介してイメージ生成部110に入力されることができる。
【0028】
さらに、本発明では、説明の都合上、イメージ生成部110により生成されたイメージを「合成イメージ(または、出力イメージ)」と命名する。
図1に示されたように、合成イメージ200は、出力部140を介して出力されることができる。
【0029】
このように、イメージ生成部110は、入力部130を介して入力されるソースイメージ100aを基に、基準イメージ100bを用いて合成イメージ200を生成できる。
【0030】
このとき、イメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードを用いて合成イメージ200を生成できる。
【0031】
図1に示されたように、ソースイメージ100aには、少なくとも1つのグラフィックオブジェクト(例えば、人のイメージ)が含まれ得る。イメージ生成部110は、このようなグラフィックオブジェクト(または、第1のグラフィックオブジェクト)に、スタイルコードによる外貌スタイルを反映して合成イメージ200を生成できる。
【0032】
本発明において、グラフィックオブジェクトは、人、動物、自動車、花、かばん、山などのように、事物に対するイメージと理解されることができる。
【0033】
本明細書では、説明の都合上、ソースイメージ100aに含まれたグラフィックオブジェクトを「第1のグラフィックオブジェクト」と命名する。そして、合成イメージ200に含まれたグラフィックオブジェクトを「第3のグラフィックオブジェクト」と命名する。そして、基準イメージ100bに含まれたグラフィックオブジェクトを「第2のグラフィックオブジェクト」と命名する。さらに、第2のグラフィックオブジェクトは、基準イメージ100bに含まれたものだけでなく、ガウス分布から抽出されるノイズ情報によって特定されるオブジェクトを意味できる。このような、ガウス分布から抽出されるオブジェクトは、スタイルコードの抽出対象(または、スタイルコードを抽出するために参照される対象)とも表現することができる。
【0034】
すなわち、第2のグラフィックオブジェクトは、基準イメージ(reference image)100bに含まれるか、または複数の基準イメージに対するデータ分布によるガウス分布の特定ノイズに対応することができる。
【0035】
以下では、説明の都合上、ガウス分布の特定ノイズに対応する第2のグラフィックオブジェクトについて別に称さずに、全て「基準イメージ」と統一して説明する。
【0036】
すなわち、以下では、説明の都合上、第2のグラフィックオブジェクトと基準イメージとを同じ意味として説明する。したがって、以下において基準イメージは、ガウス分布により特定されるオブジェクトを意味することもできる。
【0037】
また、本明細書では、ソースイメージと第1のグラフィックオブジェクトとを互いに同じ意味として使用することができる。すなわち、ソースイメージの外貌スタイルは、つまり、第1のグラフィックオブジェクトの外貌スタイルを意味できる。
【0038】
ここで、スタイルコードは、基準イメージ100bの外貌スタイルと関連することができる。「外貌スタイル」は、基準イメージ100bの視覚的な外観を定義できる要素であって、ヘアスタイル(または、頭髪スタイル)、性別など、様々な要素によって決定されることができる。
【0039】
前述したように、基準イメージ100bは、ソースイメージ100aの外貌スタイルを変更するために参照される対象を意味できる。
【0040】
このように、イメージ生成部110は、ソースイメージ100aに、基準イメージの外貌スタイルに該当するスタイルコードを反映することにより、前記基準イメージの外貌スタイルが反映された合成イメージ200を生成できる。
【0041】
本発明において、合成イメージ200を生成するとは、ソースイメージ100a、すなわち、第1のグラフィックオブジェクトの外貌スタイルを、基準イメージ100bの外貌スタイルを参照して変換(または、変更)することを意味できる。その結果、本発明では、第1のグラフィックオブジェクトの一部分が基準イメージの外貌スタイルに変換された合成イメージが生成され得る。
【0042】
一方、本発明において、スタイルコードは、スタイル情報及びドメイン特性情報を含むことができる。このとき、スタイル情報は、ドメイン特性情報によるドメインと関連したスタイルに関する情報でありうる。
【0043】
イメージ生成部110は、スタイルコードに含まれたスタイル情報及びドメイン特性情報に基づいて、ソースイメージ100a(より具体的には、ソースイメージ100aに含まれた第1のグラフィックオブジェクト)の外貌スタイルを変換することにより合成イメージ200を生成できる。このとき、イメージ生成部110は、合成イメージ200が、スタイルコードに含まれたドメイン特性情報に対応するドメインを有するように、前記ソースイメージ100aを基に合成イメージ200を生成できる。
【0044】
その結果、合成イメージ200に含まれた第3のグラフィックオブジェクトは、第1のグラフィックオブジェクトに、前記スタイルコードに含まれたスタイル情報及びドメイン特性情報が反映されたグラフィックオブジェクトでありうる。すなわち、第3のグラフィックオブジェクトは、第1のグラフィックオブジェクトに第2のグラフィックオブジェクトの外貌スタイルが合成されたイメージでありうる。
【0045】
このように、本発明では、スタイル情報及びドメイン特性情報が含まれたスタイルコードを用いて、ソースイメージ100aを基にする合成イメージ200を生成できる。
【0046】
すなわち、本発明に係るイメージ生成システム100は、ソースイメージ100aの特定ドメインを基準イメージ100bの特定ドメインに変更することにより合成イメージ200を生成できる。
【0047】
スタイルコードは、
図2に示されたように、それぞれの基準イメージ101b、102b、103b、104b、105b、106bに対するスタイル及びドメインに関する情報を含むことができる。
【0048】
このとき、スタイルコードは、
図2に示されたように、ベクトル(vector)形式を有するようになされることができる。さらに、スタイルコード入力部120は、このようなベクトル形式を有するスタイルコードを、適応インスタンス正規化(adaptive instance normalization)(AdaIN)を介してイメージ生成部110に入力することができる。
【0049】
上述したように、スタイルコードは、基準イメージ100bのスタイル及びドメインを特定するための、スタイル情報及びドメイン特性情報を含むことができる。以下では、本発明に対する理解を助けるために、スタイル情報、ドメイン、及びドメイン特性情報が有する意味について説明する。
【0050】
まず、「スタイル情報」は、グラフィックオブジェクトが有する外貌スタイル、すなわち、視覚的特徴(または、視覚的外観)に関する情報を意味する。
【0051】
ここで、視覚的特徴は、頭髪スタイルなどのように、目に見える外貌(appearance)と関連した特徴を意味できる。
【0052】
このようなスタイル情報は、複数のカテゴリー(または、スタイルカテゴリー、属性(attribute)などと命名可能である)のうち、少なくとも1つのカテゴリーに対する特徴情報を含むことができる。
【0053】
ここで、カテゴリーまたは属性は、グラフィックオブジェクトが有する意味のある視覚的特徴を区分するための区分基準であると理解されることができる。また、カテゴリーは、グラフィックオブジェクトの外貌スタイルを定義するための要素であると理解されることができる。
【0054】
一方、カテゴリーに対する特徴情報は、グラフィックオブジェクトが当該カテゴリーにおいて「どのような視覚的特徴を有するか」をデータとして表現したことを意味できる。
【0055】
このとき、「カテゴリーに対する特徴情報」は、「属性値(attribute value)」とも命名されることができる。
【0056】
「カテゴリー(または、属性)」についてより具体的に説明すれば、グラフィックオブジェクトの外貌スタイル、すなわち、視覚的特徴を表現するためのカテゴリー(または、属性)の種類は非常に様々でありうる。
【0057】
例えば、性別、年齢、ヘアスタイル(頭髪スタイル)、ヘア色相(頭髪色相)、皮膚色相、メーキャップ(化粧)、ひげ、顔型、表情、メガネ、アクセサリー、眉毛形状、目形状、口唇形状、鼻形状、耳形状、人中形状などが全てそれぞれの個別カテゴリー(または、属性)と理解されることができる。
【0058】
スタイル情報は、カテゴリーに対する識別情報(カテゴリー種類、カテゴリーインデックス情報等)及び当該カテゴリーに対する特徴情報を全て含むことができる。
【0059】
例えば、カテゴリーに対する識別情報は、「ヘアスタイル」であり、カテゴリーに対する特徴情報は、「金髪ウェーブ」でありうる。
【0060】
このように、スタイルコードは、グラフィックオブジェクトの外貌スタイルを定義できる様々なカテゴリーのうち、少なくとも1つのカテゴリーに関する情報(カテゴリーに対する識別情報及びカテゴリーに対する特徴情報のうち、少なくとも1つを含む)を含むスタイル情報を含むことができる。
【0061】
例えば、
図1に示された合成イメージ200のうち、第1の合成イメージ201及び第2の合成イメージ202を「ヘアスタイル」カテゴリー観点で説明する。この場合、第1の合成イメージ201は、ヘアスタイルカテゴリーに対して、第1の基準イメージ101bによる「黒色ウェーブ髪201a」に該当するカテゴリーに対する特徴情報、すなわち、スタイル情報を有することができる。そして、第2の合成イメージ202は、ヘアスタイルカテゴリーに対して、第2の基準イメージ102bに該当する「前髪がある金髪ウェーブ髪202a」によるカテゴリーに対する特徴情報、すなわち、スタイル情報を有することができる。
【0062】
このように、第1及び第2の合成イメージ201、202は、同じカテゴリー(例えば、「ヘアスタイル」カテゴリー)に対して互いに異なるスタイル情報を有することができる。
【0063】
したがって、スタイルコードにどのカテゴリーのどのような特徴を有するスタイル情報が含まれるかによって合成イメージの外貌スタイルが変わることができる。
【0064】
したがって、本発明に係るイメージ生成部110は、ソースイメージ100aに対して、基準イメージ100bの外貌スタイルから抽出されたスタイル情報を含むスタイルコードを反映できる。これにより、イメージ生成部110は、基準イメージ100bの外貌スタイルを有する合成イメージ200を生成できる。
【0065】
このように、イメージ生成部110は、スタイルコードに含まれたスタイル情報に基づいて、ソースイメージ100aの少なくとも1つのカテゴリーに対する変換を行うことができる。
【0066】
イメージ生成部110は、ソースイメージ(100a、または、第1のグラフィックオブジェクト)の外貌スタイルを定義するための複数のカテゴリーのうち、スタイル情報に含まれたカテゴリーと同一または対応するカテゴリーを基準に変換を行うことができる。
【0067】
ここで、ソースイメージ100aの特定カテゴリーに対して変換を行うとは、ソースイメージ100aの特定カテゴリーに対する特徴情報または属性値を変換することであって、このような特徴情報が変更される場合、当該カテゴリーに対する視覚的外観が変わるようになる。
【0068】
次に、ドメイン及びドメイン特性情報について説明する。
【0069】
ドメイン(domain)は、前述した、イメージ(または、グラフィックオブジェクト)の外貌スタイルを区分する互いに異なる複数のカテゴリーのうち、基準になる少なくとも1つのカテゴリーに対する特徴情報(または、属性値)を意味できる。
【0070】
ここで、「基準」は、イメージ変換の基準、イメージ分類の基準、またはイメージ区分の基準のように、様々な意味と受け入れられることができる。
【0071】
ドメイン(domain)は、互いに異なる複数のイメージが、「特定カテゴリーに対して互いに同じ属性値を有する」または「特定カテゴリーに対して互いに異なる共通属性値を有する」と表現するとき、「特定カテゴリーに対する属性値」がつまり、ドメインを意味できる。
【0072】
例えば、複数のカテゴリーのうち、「性別」カテゴリーを基準にドメインを説明するとき、
図2に示されたように、第1、第2、及び第3のイメージ201、202、203は、同じドメインを有する。そして、第4、第5、及び第6イメージ204、205、206も同じドメインを有する。しかし、第1、第2、及び第3のイメージ201、202、203のドメインは、第4、第5、及び第6のイメージ204、205、206のドメインと互いに異なることができる。すなわち、第1、第2、及び第3のイメージ201、202、203は、「女性」であり、第4、第5、及び第6のイメージ204、205、206のドメインは、「男性」である。このとき、「女性」または「男性」がつまり、ドメインを意味できる。
【0073】
このように、ドメインは、外貌スタイルと関連した様々なカテゴリーに対する属性値のうち、少なくとも1つであって、イメージの変換、イメージの分類、またはイメージの区分基準になる指標でありうる。
【0074】
一方、スタイルコードに含まれたドメイン特性情報は、特定ドメイン(または、ターゲットドメイン)を表すデータであって、外貌スタイルを区分する特定カテゴリー(または、属性)及びこれに対する特徴情報(属性値)を含むことができる。
【0075】
一方、イメージ生成部110は、スタイルコードに含まれたドメイン特性情報に基づいて合成イメージ200のドメインを決定できる。
【0076】
前記イメージ生成部110は、合成イメージ200がスタイルコードに含まれたドメイン特性情報によるドメインを有するようにソースイメージ100aを変換できる。
【0077】
ここで、スタイルコードに含まれたドメイン特性情報は、基準イメージの特定ドメインに関する情報でありうる。すなわち、イメージ生成部110は、合成イメージ200が、基準イメージの特定ドメインと同じドメインを有するようにソースイメージ100aを変換できる。
【0078】
例えば、スタイルコードに第4、第5、及び第6の基準イメージ104b、105b、106bによる「男性」に該当する特定ドメインに対するドメイン特性情報が含まれた場合、イメージ生成部110により生成された第4、第5、及び第6のイメージ204、205、206は、「男性」ドメインを有することができる。
【0079】
このように、イメージ生成部110は、合成イメージ204、205、206が基準イメージ(例えば、第4、第5、及び第6の基準イメージ104b、105b、106b)の特定ドメイン(例えば、男性)を有するように、ソースイメージ100aに前記ドメイン特性情報を反映できる。
【0080】
このとき、イメージ生成部110は、ソースイメージ100aのドメインとスタイルコードに含まれたドメイン特性情報による特定ドメインとが異なる場合、これを考慮せずに合成イメージ200のドメインを決定できる。
【0081】
すなわち、イメージ生成部110は、ソースイメージ100aの特定ドメインと基準イメージ100bの特定ドメインとが異なる場合、ソースイメージ100aの特定ドメインより、前記基準イメージ100bの特定ドメインを優先して、合成イメージ(または、第3のグラフィックオブジェクト)のドメインを決定できる。その結果、合成イメージ200は、基準イメージ100bの特定ドメインを有する。
【0082】
一方、イメージ生成部110は、スタイルコードに基づいてソースイメージ100aを変換する場合、ソースイメージ100aの外貌的正体性を決定する少なくとも1つの外貌特徴部分を基準に、残りの部分に対する外貌スタイルを変更できる。
【0083】
より具体的に、ソースイメージ100aは、前記ソースイメージ100aの外貌的正体性を決定する少なくとも1つの外貌特徴部分を含むことができる。イメージ生成部100aは、ソースイメージ100aの外貌特徴部分を除いた残りの部分を中心に、前記ソースイメージ100aに対して基準イメージ100bの外貌スタイルを反映できる。このとき、基準イメージ100bの外貌スタイルは、スタイルコードに含まれたドメイン特性情報に対応する基準イメージの特定ドメインを基準に定義された外貌スタイルを意味できる。
【0084】
ソースイメージ100a及び基準イメージ100bが人に対応する場合、前記ソースイメージ100aの前記外貌特徴部分は、人の目、鼻、及び口のうち、少なくとも1つに対応する部分でありうる。このとき、前記基準イメージ100bの外貌スタイルは、人の頭髪スタイル、ひげ、年齢、皮膚色、メーキャップのうち、少なくとも1つと関連したものでありうる。
【0085】
一方、前記ソースイメージ100aの外貌的正体性を決定する要素は様々でありうるし、イメージ生成部110は、合成イメージ200の合成目的によって、外貌的正体性を決定する要素を異なるように決定することができる。
【0086】
イメージ生成部110において、どの部分を外貌的正体性と決定するか否かは、予め入力された情報に基づいて決定されることも可能である。
【0087】
例えば、合成イメージ200の目的が特定人物に対する様々な頭髪スタイルの変化を表すことであるならば、このとき、外貌的正体性を表す外貌特徴部分は、特定人物の目、鼻、口、顔型などに対応する部分でありうる。
【0088】
その結果、
図1に示されたように、イメージ生成部110は、ソースイメージ100aの外貌的正体性に該当する外貌特徴部分を除いた残りの部分を中心に、前記ソースイメージ100aに対して基準イメージ100bの外貌スタイル(例えば、ヘアスタイル)を反映できる。その結果、ソースイメージ100aの外貌的正体性を維持しながら、基準イメージ100bの外貌スタイルを有する合成イメージ200が生成され得る。
【0089】
一方、ここで、外貌的正体性は、ソースイメージ100aに含まれたグラフィックオブジェクトのポーズ(pose)または姿勢を含むことができる。
【0090】
すなわち、イメージ生成部110は、ソースイメージ100aに含まれたグラフィックオブジェクトのポーズと同じポーズを有するグラフィックオブジェクトが含まれるように合成イメージ200を生成できる。
【0091】
このように、本発明に係るイメージ生成システム100は、入力部110を介してソースイメージを受信し(S310)、スタイルコード入力部120を介して外貌スタイルと関連したスタイルコードを受信する(S320)。そして、受信されたスタイルコードを用いて、スタイルコードに対応する外貌スタイルが反映されたイメージを生成できる(S330)。
【0092】
以上で説明したように、本発明に係るイメージ生成システム100は、イメージ生成部110にドメインの特性情報を含むスタイルコードに基づいて合成イメージを生成できる。
【0093】
以下では、スタイルコードを生成する方法について添付された図面とともにより具体的に説明する。
図4、
図5、及び
図6は、本発明に係るマッピングネットワークを利用してスタイルコードを生成する方法を説明するための概念図である。
【0094】
前述したように、本発明に係るイメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードにより、ソースイメージ100aにおいてどのドメインを基準にイメージを変換するかを決定できる。
【0095】
すなわち、スタイルコードは、特定ドメイン(または、ターゲットドメイン)に対するドメイン特性情報及び前記特定ドメインを基準に抽出されたスタイル情報を含むことができる。一方、スタイルコードに含まれたドメイン特性情報に基づいて、ソースイメージ100aの変換対象ターゲットドメインが決定される。
【0096】
このようなスタイルコードは、
図4に示されたマッピングネットワーク400から抽出されることができる。イメージ生成部110は、マッピングネットワーク400から抽出されたスタイルコードを用いて、ソースイメージの特定ドメインを、スタイルコードに含まれたドメイン特性情報による特定ドメイン(または、ターゲットドメイン)に変換することができる。
【0097】
より具体的に、
図4に示されたように、マッピングネットワーク400は、マッピングネットワーク部410、入力部420、及び出力部430のうち、少なくとも1つを備えることができる。
【0098】
マッピングネットワーク部410は、ガウス分布400aからノイズ情報(z1ないしz7)を抽出し、抽出されたノイズ情報を利用してスタイルコードを生成できる。
【0099】
このようなノイズ情報は、潜在コード(latent code)とも命名されることができる。
【0100】
マッピングネットワーク部410は、ガウス分布400aからランダムにサンプリングを行うことにより、様々なドメイン及び様々なスタイルを有する様々なスタイルコードを生成できる。
【0101】
マッピングネットワーク部410は、このようなガウス分布400aからサンプリングを行ってノイズ情報(潜在コードまたはノイズ)を抽出できる。このように抽出されたノイズ情報は、特定ドメインに対するスタイル情報になることができる。
【0102】
マッピングネットワーク部410は、スタイルコードに反映しようとする特定ドメインの情報とガウス分布400aから抽出された特定ノイズ情報とを組み合わせることができる。そして、マッピングネットワーク部410は、前記組み合わせに基づいて、特定ドメインに対する特性情報及び前記抽出された特定ノイズ情報に対応するスタイル情報を含むスタイルコードを生成できる。
【0103】
このとき、ガウス分布400aは、複数のイメージに対するものであって、複数のイメージに対するデータセット(data set)の確率分布でありうる。
【0104】
前述したように、マッピングネットワーク部410は、ノイズ情報からスタイルコードを変換するとき、変換されたスタイルコードにドメインの情報が含まれるようにスタイルコードを生成できる。
【0105】
例えば、
図5に示されたように、ガウス分布400aから特定ノイズ情報z1が抽出された場合、当該ノイズ情報z1がどのドメインに対することであるかによって、互いに異なるスタイルコードが生成され得る。
【0106】
すなわち、マッピングネットワーク部400は、ガウス分布400aから同一ノイズ情報が抽出されても、基準になるドメインによって、互いに異なるスタイルコードを生成できる。
【0107】
このために、マッピングネットワーク部400は、互いに異なるドメインに対するスタイルコードを出力するための複数の出力分岐があるMLP(multilayer perceptron)(MLP with multiple output branches)で構成されることができる。このような、同じノイズ情報に対して互いに異なるスタイルコードが生成され得る。この場合、互いに異なるスタイルコードは、各々互いに異なるターゲットドメインに対応することができる。
【0108】
より具体的に、
図5において特定ノイズ情報z1は、
図1及び
図2において説明した基準イメージ101bを表すためのデータを含むことができる。
【0109】
マッピングネットワーク部410は、基準イメージ101bに対応するノイズ情報zからスタイルコードを生成できる。この場合、マッピングネットワーク部410は、互いに異なる様々なドメインを基準にスタイルコードを生成できる。すなわち、マッピングネットワーク部400は、特定ドメインを基準に互いに異なるスタイルコードを生成できる。
【0110】
例えば、
図5に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「性別」である場合、マッピングネットワーク部410は、基準イメージ101bの性別(例えば、「女性」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。
【0111】
このとき、マッピングネットワーク部410は、ノイズ情報zから前記特定ドメインが有する特徴(例えば、「女性」の特徴:長髪、化粧)を中心にスタイル情報を抽出できる。
【0112】
さらに他の例として、
図5に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「年齢」である場合、マッピングネットワーク部410は、基準イメージ101bの年齢(例えば、「若者」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。
【0113】
このとき、マッピングネットワーク部410は、ノイズ情報zから前記特定ドメインが有する特徴(例えば、「若い女性」の特徴:滑らかな皮膚、化粧)を中心にスタイル情報を抽出できる。
【0114】
また、図示したように、マッピングネットワーク部410は、ヘアカラー、皮膚カラー、ヘアスタイル、顔型など、様々なターゲットドメインを基準に、ノイズ情報zからスタイル情報を抽出できる。
【0115】
一方、本発明において、「ターゲットドメインを基準にスタイル情報を抽出する」とは、ノイズ情報zから、ターゲットドメインと関連した特徴(例えば、ターゲットドメインが女性である場合、長髪、化粧)と関連した外貌的な特徴を有するスタイル情報を抽出することを意味できる。
【0116】
このように、本発明に係るマッピングネットワーク部410は、複数の基準イメージに対するガウス分布から基準イメージ101bに対応するノイズ情報zを抽出し、前記抽出されたノイズ情報zを利用して、基準イメージ101bの外貌スタイルと関連したスタイルコードを生成できる。
【0117】
前述したように、マッピングネットワーク部410は、前記ノイズ情報に前記第2のグラフィックオブジェクトの外貌スタイルに基づいて分類可能な複数のドメインのうち、いずれか1つのドメイン(または、ターゲットドメイン、特定ドメイン)を基準にスタイルコードを生成できる。したがって、スタイルコードは、前記いずれか1つのドメイン(ターゲットドメイン)によるドメイン特性情報が反映されて存在することができる。
【0118】
一方、
図5に示されたように、スタイルコードは、ドメインを基準に互いに異なるスケール(scale)を有するベクトルで構成されることができる。
【0119】
例え、図示されてはいないが、マッピングネットワーク400は、学習部をさらに備えることができる。マッピングネットワーク400の学習部は、抽出されたノイズ情報をスタイルコードに変換する学習を行うことができる。
【0120】
より具体的に、学習部は、抽出されたノイズ情報から、与えられた特定ドメインに対応するスタイル情報が抽出されるようにする学習を行うことができる。
【0121】
このような学習を介して、マッピングネットワーク部410は、ノイズ情報から前記特定ドメインが有する特徴(例えば、「女性」の特徴)をより正確に反映されるようにするスタイル情報を抽出できる。
【0122】
すなわち、学習部は、マッピングネットワーク部410が、ノイズ情報から特定ドメイン(ターゲットドメイン)に対してありそうな(確率が高い)スタイル情報を抽出させる学習を進行できる。マッピングネットワーク部410は、特定ドメインに対してありそうなスタイル情報を含むスタイルコードを生成することにより、ソースイメージをより実際に近く変換することができる。
【0123】
例えば、ターゲットドメインが女性である場合、初期にマッピングネットワーク部410から抽出されたスタイルコードに「ひげ」に対するスタイル情報が含まれた場合、学習を介して、「ひげ」に対するスタイル情報が除外され得る。
【0124】
一方、マッピングネットワーク400は、ガウス分布内に存在するノイズ情報に基づいてスタイルコードを生成するので、連続する隣接したノイズ情報は、類似したスタイル情報を含むことができる。
【0125】
したがって、
図1において説明したソースイメージ100aに対し、ターゲットドメインを「女性」としてイメージ変換を行う場合、
図5において説明した特定ノイズ情報z及びこれと隣接したノイズ情報に基づいて生成されたスタイルコードにより合成されたイメージ610、620、630、640、660は、
図6に示されたように、隣り合った合成イメージと互いに類似した外貌スタイルを有することができる。
【0126】
以上で説明したように、本発明に係るマッピングネットワークシステムは、ノイズ情報から様々なドメインに対するスタイルコードを生成できる。さらに、イメージ生成部110は、このようなスタイルコードを用いて、ソースイメージに対する様々なドメインの変更を行いながら、様々なスタイルを有する合成イメージを生成できる。
【0127】
一方、以上では、マッピングネットワークシステムを利用してスタイルコードを生成する方法について説明したが、本発明では、スタイルエンコーダを用いて、スタイルコードを生成することも可能である。以下では、スタイルエンコーダを活用してスタイルコードを生成する方法について添付された図面とともにより具体的に説明する。
図7及び
図8は、本発明に係るスタイルエンコーダを用いてスタイルコードを生成する方法を説明するための概念図である。
【0128】
前述したように、本発明に係るイメージ生成部110は、スタイルコード入力部120を介して入力されるスタイルコードを介して、ソースイメージ100aでどのドメインを基準にイメージを変換するかを決定できる。
【0129】
すなわち、スタイルコードは、特定ドメイン(または、ターゲットドメイン)に対するドメイン特性情報及び前記特定ドメインを基準に抽出されたスタイル情報を含むことができる。一方、スタイルコードに含まれたドメイン特性情報に基づいてソースイメージ100aの変換対象ターゲットドメインが決定される。
【0130】
このようなスタイルコードは、
図7に示されたスタイルエンコーダシステム700から抽出されることができる。イメージ生成部110は、スタイルエンコーダシステム700から抽出されたスタイルコードを用いて、ソースイメージの特定ドメインを、スタイルコードに含まれたドメイン特性情報による特定ドメイン(または、ターゲットドメイン)に変換することができる。
【0131】
より具体的に、
図7に示されたように、スタイルエンコーダシステム700は、スタイルエンコーダ710、入力部720、及び出力部730のうち、少なくとも1つを備えることができる。
【0132】
スタイルエンコーダ710は、入力部720を介して入力される基準イメージ(701ないし703)から特定ドメイン(または、ターゲットドメイン)を基準にスタイル情報を抽出できる。そして、スタイルエンコーダ部710は、抽出されたスタイル情報及び特定ドメインに対するドメイン特性情報を利用してスタイルコードを生成できる。
【0133】
スタイルエンコーダ710は、基準イメージ101b(
図7の図面符号701ないし706参照)から、基準イメージ101bの外貌スタイルと関連したスタイル情報を抽出できる。
【0134】
このとき、スタイルエンコーダ710は、基準イメージから、前記基準イメージ101bの外貌スタイルを基に分類可能な複数のドメインのうち、いずれか1つのドメインを基準に前記スタイル情報を抽出できる。ここで、いずれか1つのドメインは、特定ドメインまたはターゲットドメインと命名されることができる。
【0135】
図8に示された基準イメージ701を例を挙げて説明すれば、スタイルエンコーダ710は、基準イメージ701から、基準イメージ701の外貌スタイルを基に分類可能な複数のドメイン(例えば、女性、黒色の長髪、白色皮膚など)のうち、いずれか少なくとも1つのドメイン(例えば、女性)を基準にスタイル情報を抽出できる。
【0136】
ここで、基準になるドメインは、前述したように、ターゲットドメインと命名されることができる。スタイルエンコーダ710は、基準イメージ701から互いに異なるターゲットドメインに各々該当するスタイル情報を抽出し、これを利用してスタイルコードを生成できる。
【0137】
例えば、
図8に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「性別」である場合、スタイルエンコーダ710は、基準イメージ701の性別(例えば、「女性」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。
【0138】
このとき、スタイルエンコーダ710は、基準イメージ701から前記特定ドメインが有する特徴(例えば、「女性」の特徴:長髪、化粧)を中心にスタイル情報を抽出できる。
【0139】
さらに他の例として、
図8に示されたように、スタイルコードに含まれる特定ドメイン(ターゲットドメイン)の基準が「年齢」である場合、スタイルエンコーダ710は、基準イメージ701の年齢(例えば、「若者」)がドメイン特性情報として含まれるようにスタイルコードを生成できる。
【0140】
このとき、スタイルエンコーダ710は、基準イメージ701から前記特定ドメインが有する特徴(例えば、「若い女性」の特徴:滑らかな皮膚、化粧)を中心にスタイル情報を抽出できる。
【0141】
また、図示したように、スタイルエンコーダ710は、ヘアカラー、皮膚カラー、ヘアスタイル、顔型など、様々なターゲットドメインを基準に、基準イメージ701からスタイル情報を抽出できる。
【0142】
そして、このように抽出されたスタイル情報は、基準になるターゲットドメインに該当するドメイン特性情報を含んで、互いに異なるスタイルコードとして生成されることができる。
【0143】
前述したように、スタイルエンコーダ710は、基準イメージ701の外貌スタイルを基に分類可能な複数のドメイン(例えば、性別、頭髪スタイル等)のうち、いずれか1つのドメイン(または、ターゲットドメイン、特定ドメイン)を基準にスタイルコードを生成できる。したがって、スタイルコードは、前記いずれか1つのドメイン(ターゲットドメイン)によるドメイン特性情報が反映されて存在することができる。一方、
図8に示されたように、スタイルコードは、ドメインを基準に互いに異なるスケール(scale)のベクトルで構成されることができる。
【0144】
以上で説明したように、本発明に係るイメージ生成システムのイメージ生成部は、マッピングネットワークまたはスタイルエンコーダシステムを介して生成されたスタイルコードを用いて、ソースイメージの特定ドメインを基準イメージのターゲットドメインに変更することができる。
【0145】
一方、本発明に係るイメージ生成システムは、学習を介してイメージ生成の性能を高めることができ、以下では、学習過程について添付された図面とともにより具体的に説明する。
図9は、本発明に係るイメージ生成システムを学習する方法を説明するための概念図である。
【0146】
本発明では、様々な学習アルゴリズムを利用して、イメージ生成システムを学習させることが可能である。イメージ生成部(110、
図1参照)は、スタイルコードによるターゲットドメインと区分されない合成イメージを作るようにする学習が進行される。
【0147】
例えば、図示されてはいないが、本発明に係るイメージ生成システム100は、学習部をおき、様々な学習アルゴリズムを利用してイメージ生成部110に対する学習を行うことができる。イメージ生成部110は、スタイルコードにより定義されるターゲットドメイン(例えば、黒髪)と、さらに類似または同一の合成イメージを生成するように学習されることができる。
【0148】
一例として、学習部は、識別部(Discriminator、900)を利用して学習を進行できる。識別部900は、ターゲットドメイン(例えば、黒髪)を基準に、合成イメージ201と基準イメージ101bとを比較できる。そして、比較結果に基づいて、識別部900は、合成イメージ201が実際(または、本物)イメージ(real image)であるか、または、作られた偽物イメージ(fake image)であるかを判断できる。
【0149】
識別部900は、合成イメージ201が実際イメージであると判断された場合、「1」の値を出力し、偽物イメージであると判断された場合、「0」の値を出力できる。
【0150】
さらに、学習部は、識別部900での比較結果に該当する、合成イメージ201と基準イメージ101との間の差値を用いてイメージ生成部110を学習できる。イメージ生成部110は、前記差値が最小になるようにするイメージを生成するように学習されることができる。
【0151】
また、例え、図示されてはいないが、スタイルエンコーダシステム700は、学習部をさらに備えることができる。スタイルエンコーダシステム700の学習部は、イメージ生成部110を介して生成された合成イメージから、前記合成イメージのスタイルコードが抽出されるように前記スタイルエンコーダを制御できる。ここで、合成イメージは、スタイルエンコーダ部710により生成されたスタイルコードにより生成されたイメージでありうる。
【0152】
学習部は、スタイルエンコーダ710により生成されたスタイルコードが反映された合成イメージを利用してスタイルエンコーダ710を学習させることができる。
【0153】
より具体的に、学習部は、スタイルエンコーダ710に合成イメージを基準イメージとして入力し、合成イメージからスタイルコードを生成できる。このとき、ターゲットドメインは、合成イメージの生成に使用されたスタイルコードのターゲットドメインと同一に設定されることができる。
【0154】
一方、学習部は、合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)と、合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)とを比較し、比較結果を利用してイメージ生成部110を学習させることができる。すなわち、イメージ生成部110を介して生成された合成イメージにターゲットドメインのスタイル情報が含まれているか判断し、判断結果に基づいてイメージ生成部110が学習される方式である。
【0155】
前記学習部は、前記比較結果、i)合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)とii)合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)とが互いに相違した場合、i)合成イメージを生成するために使用されたスタイルコード(または、基準イメージのスタイルコード、第1のスタイルコード)とii)合成イメージから生成されたスタイルコード(または、合成イメージのスタイルコード、第2のスタイルコード)との差値が最小になるようにイメージ生成部110を学習させることができる。このとき、学習部は、スタイル再構成損失(style reconstruction loss)関数を利用して学習を行うことができる。
【0156】
一方、以上で説明した学習の方法の他にも、学習部は、様々な損失(loss)関数(例えば、ダイバーシティセンシティブ損失(diversity sensitive loss)関数、サイクル一貫性損失(cycle consistency loss))を利用して本発明に係るイメージ生成システムを学習させることができる。
【0157】
上述したように、本発明に係るイメージ生成システム及びこれを利用したイメージ生成方法は、ドメインの特性を含むスタイルコードを用いて、スタイルコードに含まれたドメイン特性に該当するドメインを有するイメージを生成できる。
【0158】
このとき、本発明では、スタイルコードにスタイル情報を含めることにより、スタイルコードだけで生成しようとするイメージのスタイル及びドメインを特定できる。
【0159】
したがって、本発明によれば、スタイルコードにどのドメインによるドメイン特性が反映されているかによって、生成されるイメージのドメインが様々に定義され得る。
【0160】
すなわち、本発明では、イメージ生成部に入力されるスタイルコードにドメインの特性を反映することにより、単一のイメージ生成部だけでも互いに異なる様々なドメインに対応する様々なイメージを生成できる。
【0161】
したがって、本発明によれば、ドメイン毎に別のイメージ生成部を備えなくとも、単一のイメージ生成部だけでも、様々なドメインに対する新しいイメージを生成できるドメイン側面での拡張性を提供できる。
【0162】
また、本発明は、スタイルコードにどのスタイルによるスタイル情報を含めるかによって、同じドメインに対して互いに異なるスタイルのイメージを生成できる。したがって、本発明は、スタイルコードに含まれるスタイル情報を変更させることだけでも、同じドメインに対する様々なスタイルのイメージを生成することにより、スタイル側面での多様性を提供できる。
【0163】
一方、上記で説明した本発明は、コンピュータで1つ以上のプロセスによって実行され、このようなコンピュータ読み取り可能な媒体に格納可能なプログラムとして実現されることができる。
【0164】
さらに、上記で説明した本発明は、プログラムが記録された媒体にコンピュータ読み取り可能なコードまたは命令語として実現することが可能である。すなわち、本発明は、プログラムの形態で提供されることができる。
【0165】
一方、コンピュータ読み取り可能な媒体は、コンピュータシステムによって読み取られることができるデータが格納されるあらゆる種類の記録装置を含む。コンピュータ読み取り可能な媒体の例では、HDD(Hard Disk Drive)、SSD(Solid State Disk)、SDD(Silicon Disk Drive)、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ格納装置などがあり、また、キャリアウェーブ(例えば、インターネットを介しての送信)の形態で実現されることも含む。
【0166】
さらに、コンピュータ読み取り可能な媒体は、格納所を含み、電子機器が通信を介して接近できるサーバまたはクラウド格納所でありうる。
【0167】
さらに、本発明では、上記で説明したコンピュータは、プロセッサ、すなわち、CPU(Central Processing Unit、中央処理装置)が搭載された電子機器であって、その種類に対して特別な限定をおかない。
【0168】
一方、上記の詳細な説明は、あらゆる面において制限的に解釈されてはならず、例示的なことと考慮されなければならない。本発明の範囲は、添付された請求項の合理的解釈により決定されなければならず、本発明の等価的範囲内での全ての変更は本発明の範囲に含まれる。