IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ネイバーウェブトゥーン リミテッドの特許一覧

特開2024-46749ターゲットスタイルおよびターゲットカラー情報に基づいて入力イメージを変換する方法および装置
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024046749
(43)【公開日】2024-04-04
(54)【発明の名称】ターゲットスタイルおよびターゲットカラー情報に基づいて入力イメージを変換する方法および装置
(51)【国際特許分類】
   G06T 1/00 20060101AFI20240328BHJP
【FI】
G06T1/00 510
【審査請求】有
【請求項の数】19
【出願形態】OL
(21)【出願番号】P 2023151928
(22)【出願日】2023-09-20
(31)【優先権主張番号】10-2022-0120505
(32)【優先日】2022-09-23
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】520498343
【氏名又は名称】ネイバーウェブトゥーン リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アン ナムヒョク
(72)【発明者】
【氏名】キム スングォン
(72)【発明者】
【氏名】ペク ジヒェ
(72)【発明者】
【氏名】クォン ヨンジェ
【テーマコード(参考)】
5B057
【Fターム(参考)】
5B057BA25
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CC01
5B057CD05
5B057CE08
5B057CE11
5B057CE16
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC25
5B057DC40
(57)【要約】      (修正有)
【課題】学習済みの変換モデルを使用して、入力イメージから、ユーザによって入力されたターゲットスタイルに対応するテクスチャとターゲットカラー情報に対応する色を表す結果イメージを得るイメージ変換方法を提供する。
【解決手段】予め学習済みの変換モデルを使用して実行されるイメージ変換方法であって、入力イメージ205と、変換のためのターゲットスタイルおよびターゲットカラー情報210を受信し、予め学習済みの変換モデル250を使用して入力イメージをターゲットスタイルのテクスチャに変換したテクスチャ変換イメージと入力イメージをターゲットカラー情報の色に変換したカラー変換イメージを生成し、入力イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージを生成するためにテクスチャ変換イメージとカラー変換イメージを合成し、結果イメージ260を生成する。
【選択図】図2B
【特許請求の範囲】
【請求項1】
コンピュータシステムによって実行されるイメージ変換方法であって、
入力イメージ、前記入力イメージが変換されるターゲットスタイルおよび前記入力イメージが変換されるターゲットカラー情報を受信する段階、
予め学習済みの変換モデルを使用して、前記入力イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージと、前記入力イメージを前記ターゲットカラー情報に対応する色に変換したカラー変換イメージを生成する段階、および
前記入力イメージを前記ターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成するために、前記テクスチャ変換イメージと前記カラー変換イメージを合成する段階
を含む、イメージ変換方法。
【請求項2】
前記変換モデルは、
前記ターゲットスタイルを示すレファレンスイメージの入力なく、
前記ターゲットスタイルに該当するテクスチャと入力されるターゲットカラー情報に該当する色を表すように、入力イメージを変換するために予め学習されたものである、
請求項1に記載のイメージ変換方法。
【請求項3】
前記ターゲットカラー情報は、前記入力イメージの色分布に基づいて決定される、互いに異なる複数の色のグループを含むパレットを含む、
請求項1に記載のイメージ変換方法。
【請求項4】
前記複数の色のそれぞれは、ユーザによって選択可能なように構成される、
請求項3に記載のイメージ変換方法。
【請求項5】
前記ターゲットスタイルは、イメージまたは動画を含むコンテンツを示し、
前記ターゲットスタイルに対応するテクスチャは、前記コンテンツが含むイメージまたは動画のテクスチャである、
請求項1に記載のイメージ変換方法。
【請求項6】
前記受信する段階は、
前記結果イメージが示す抽象化程度を設定するための抽象化レベルを受信する段階
を含み、
前記生成する段階は、
前記抽象化レベルが示す抽象化程度を反映する前記ターゲットスタイルに対応するテクスチャに前記入力イメージを変換して前記テクスチャ変換イメージを生成する、
請求項1に記載のイメージ変換方法。
【請求項7】
前記入力イメージを前処理する段階であって、
前記入力イメージをLab色空間のイメージである第1変換イメージに変換する段階、
前記入力イメージを単純化処理することによって第1カラーマップを生成する段階、
前記第1カラーマップの色を前記ターゲットカラー情報に基づいて変換することによって第2カラーマップを生成する段階、および
前記第2カラーマップをLab色空間のイメージである第2変換イメージに変換する段階
をさらに含み、
前記第1変換イメージおよび前記第2変換イメージは、前記変換モデルに入力され、
前記生成する段階は、
前記変換モデルが、前記第1変換イメージに基づいて前記テクスチャ変換イメージを生成し、前記第2変換イメージに基づいて前記カラー変換イメージを生成する、
請求項1に記載のイメージ変換方法。
【請求項8】
前記生成する段階は、
前記変換モデルが、
エンコーダを使用して前記第1変換イメージをエンコードする段階、
エンコードされた前記第1変換イメージをテクスチャデコーダを使用してデコードすることによって前記テクスチャ変換イメージを生成する段階、および
カラーデコーダを使用して、前記第2変換イメージに基づいてエンコードされた前記第1変換イメージをデコードすることによって前記カラー変換イメージを生成する段階
を含む、請求項7に記載のイメージ変換方法。
【請求項9】
前記テクスチャ変換イメージは、Lab色空間のイメージとしてL成分のイメージであり、
前記カラー変換イメージは、Lab色空間のイメージとしてabコンポーネントのイメージであり、
前記合成する段階は、
前記L成分のイメージと前記abコンポーネントのイメージを合成することによって合成イメージを生成する段階、および
前記合成イメージをRGB色空間のイメージに変換する段階
を含む、請求項1に記載のイメージ変換方法。
【請求項10】
前記変換モデルは、
それぞれの抽象化レベルが示す抽象化程度を反映する出力値を生成する各層を含む複数の層で構成される抽象化程度反映モジュールを含み、
前記生成する段階は、
前記受信した抽象化レベルに該当する前記抽象化程度反映モジュールの層の出力値を使用して、前記受信した抽象化レベルが示す抽象化程度を反映する前記ターゲットスタイルに対応するテクスチャに前記入力イメージを変換して前記テクスチャ変換イメージを生成する、
請求項6に記載のイメージ変換方法。
【請求項11】
前記変換モデルは、
前記ターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージをデータ拡張して生成された第1学習用データ、および
前記ターゲットスタイルへの変換およびカラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張して生成された第2学習用データ
を使用して予め学習されたものである、
請求項1に記載のイメージ変換方法。
【請求項12】
前記第1学習用データは、
前記第1イメージに対する所定の程度の抽象化処理を模写するように、リサイジング処理および解像度変更処理のうち少なくとも1つの処理が実行されたイメージを含む、
請求項11に記載のイメージ変換方法。
【請求項13】
前記第2学習用データは、
第2イメージを任意の色にカラー変換した学習用変換イメージを含む、
請求項11に記載のイメージ変換方法。
【請求項14】
前記学習用変換イメージは、変換段階によって生成され、
前記変換段階は、
前記第2イメージおよび前記第2イメージを単純化処理することによって生成された前記第2イメージのカラーマップのうちの少なくとも1つをHSV色空間のイメージに変換する段階、および
前記HSV色空間のイメージを任意の色にカラー変換する段階
を含む、請求項13に記載のイメージ変換方法。
【請求項15】
前記変換段階は、
前記第2イメージおよび前記第2イメージのカラーマップのうちの少なくとも1つをLab色空間のイメージに変換する段階、
前記Lab色空間のイメージのL情報を抽出する段階、
任意の色にカラー変換された前記HSV色空間のイメージをLab色空間のイメージに変換する段階、および
前記変換されたLab色空間のイメージのL情報を前記抽出されたL情報に置き換える段階
を含む、請求項14に記載のイメージ変換方法。
【請求項16】
前記変換モデルは、
前記第1学習用データをLab色空間のL成分のイメージに変換したイメージ、
前記第2イメージをLab色空間のイメージに変換したイメージ、
前記第2イメージを任意の色にカラー変換したイメージをLab色空間のabコンポーネントのイメージに変換したイメージ、および
前記第2イメージのカラーマップをLab色空間のイメージに変換したイメージ
を使用して予め学習されたものである、
請求項13に記載のイメージ変換方法。
【請求項17】
請求項1に記載の方法を前記コンピュータシステムに実行させるためのコンピュータ読み取り可能な記録媒体に記録される、プログラム。
【請求項18】
イメージ変換方法を実行するコンピュータシステムであって、
前記コンピュータシステムで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
入力イメージ、前記入力イメージが変換されるターゲットスタイルおよび前記入力イメージが変換されるターゲットカラー情報を受信し、
予め学習済みの変換モデルを使用して、前記入力イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび前記入力イメージを前記ターゲットカラー情報に対応する色に変換したカラー変換イメージを生成し、
前記入力イメージを前記ターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成するために、前記テクスチャ変換イメージと前記カラー変換イメージを合成する、
コンピュータシステム。
【請求項19】
コンピュータシステムによって実行されるイメージを変換する変換モデルを学習させる方法であって、
ターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージと、前記ターゲットスタイルへの変換およびカラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張した学習用データを取得する段階、および
前記学習用データを使用して、前記第2イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび前記第2イメージをターゲットカラー情報に対応する色に変換したカラー変換イメージを生成するように前記変換モデルを学習させる段階
を含み、
前記テクスチャ変換イメージと前記カラー変換イメージが合成されることによって、前記第2イメージを前記ターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージが生成され、
前記学習された変換モデルは、前記ターゲットスタイルを示すレファレンスイメージの入力なく、前記ターゲットスタイルに対応するテクスチャと入力されるターゲットカラー情報に対応する色を表すように入力イメージを変換する、
イメージ変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、入力されたターゲットスタイルおよびターゲットカラー情報にしたがって入力イメージを変換する方法および装置に関し、より詳細には、予め学習済みの変換モデルを使用して、入力イメージからターゲットスタイルに対応するテクスチャとターゲットカラー情報に対応する色を表した結果イメージを生成する方法および装置に関する。
【背景技術】
【0002】
漫画、カートゥーン、ウェブトゥーンサービスのようにイメージまたは動画を含むコンテンツをオンラインで提供するサービスに対して高い関心が寄せられている。このようなコンテンツに含まれるイメージまたは動画には、作家やコンテンツ制作者の独自の画風が反映された特定のテクスチャ(または、特定のスタイル)が含まれる。
【0003】
コンテンツの作家や制作者は、コンテンツに含まれるイメージや動画を効率よく生成するために、写真のような一般的なイメージを、コンテンツの特定のスタイルを反映させたイメージに変換したりする。特に、コンテンツの作家は、背景などのような複雑なコンテンツイメージを生成するときに、背景を直接描くよりも一般的なイメージをコンテンツのスタイルに変換して使用する場合が多い。これと同様に、コンテンツを消費するユーザの立場においても、二次的な消費のために、自身が保有しているイメージを、コンテンツの特定のスタイルが反映されたイメージとして得たいと思うことがあるであろう。
【0004】
このとき、ユーザからの入力イメージを、コンテンツの特定のスタイルが反映されたイメージに変換するだけでなく、さらにユーザから入力されるカラー情報(または、色感)や抽象化程度などを反映することにより、ユーザからの細かい要求事項に適合した結果イメージが得られるようにすることが求められている。
【0005】
特許文献1(公開日2009年10月28日)には、映像を前景と背景に分離する方法および装置、映像を前景と背景に分離して背景を代替する方法および装置、前記方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体が開示されている。
【0006】
上述した情報は理解を助けるためのものに過ぎず、従来技術の一部を形成しない内容を含むこともあるし、従来技術が当業者に提示する内容を含まないこともある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】韓国公開特許第10-2009-0111939号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
一実施形態は、入力イメージと、変換のためのターゲットスタイルおよびターゲットカラー情報を受信し、予め学習済みの変換モデルを使用して、入力イメージをターゲットスタイルのテクスチャに変換したテクスチャ変換イメージと入力イメージをターゲットカラー情報の色に変換したカラー変換イメージを生成し、入力イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージを生成するためにテクスチャ変換イメージとカラー変換イメージを合成する、イメージ変換方法を提供する。
【課題を解決するための手段】
【0009】
一側面において、コンピュータシステムによって実行されるイメージ変換方法であって、入力イメージ、前記入力イメージが変換されるターゲットスタイルおよび前記入力イメージが変換されるターゲットカラー情報を受信する段階、予め学習済みの変換モデルを使用して、前記入力イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび前記入力イメージを前記ターゲットカラー情報に対応する色に変換したカラー変換イメージを生成する段階、および前記入力イメージを前記ターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成するために前記テクスチャ変換イメージと前記カラー変換イメージを合成する段階を含む、イメージ変換方法を提供する。
【0010】
前記変換モデルは、前記ターゲットスタイルを示すレファレンスイメージの入力なく、前記ターゲットスタイルに該当するテクスチャと入力されるターゲットカラー情報に該当する色を表すように入力イメージを変換するために予め学習されたものであってよい。
【0011】
前記ターゲットカラー情報は、前記入力イメージの色分布に基づいて決定される、互いに異なる複数の色のグループを含むパレットを含んでよい。
【0012】
前記複数の色それぞれは、ユーザによって選択可能なように構成されてよい。
【0013】
前記ターゲットスタイルは、イメージまたは動画を含むコンテンツを示し、前記ターゲットスタイルに対応するテクスチャは、前記コンテンツが含むイメージまたは動画のテクスチャであってよい。
【0014】
前記受信する段階は、前記結果イメージが表す抽象化程度を設定するための抽象化レベルを受信する段階を含み、前記生成する段階は、前記抽象化レベルが示す抽象化程度を反映する前記ターゲットスタイルに対応するテクスチャに前記入力イメージを変換して前記テクスチャ変換イメージを生成してよい。
【0015】
前記イメージ変換方法は、前記入力イメージを前処理する段階として、前記入力イメージをLab色空間のイメージである第1変換イメージに変換する段階、前記入力イメージを単純化処理することによって第1カラーマップを生成する段階、前記第1カラーマップの色を前記ターゲットカラー情報に基づいて変換することによって第2カラーマップを生成する段階、および前記第2カラーマップをLab色空間のイメージである第2変換イメージに変換する段階をさらに含み、前記第1変換イメージおよび前記第2変換イメージは前記変換モデルに入力され、前記生成する段階は、前記変換モデルが、前記第1変換イメージに基づいて前記テクスチャ変換イメージを生成し、前記第2変換イメージに基づいて前記カラー変換イメージを生成するようにしてよい。
【0016】
前記生成する段階は、前記変換モデルが、エンコーダを使用して前記第1変換イメージをエンコードする段階、エンコードされた前記第1変換イメージをテクスチャデコーダを使用してデコードすることによって前記テクスチャ変換イメージを生成する段階、およびカラーデコーダを使用し、前記第2変換イメージに基づいて、エンコードされた前記第1変換イメージをデコードすることによって前記カラー変換イメージを生成する段階を含んでよい。
【0017】
前記テクスチャ変換イメージは、Lab色空間のイメージであってLコンポーネントのイメージであり、前記カラー変換イメージは、Lab色空間のイメージであってabコンポーネントのイメージであり、前記合成する段階は、前記Lコンポーネントのイメージと前記abコンポーネントのイメージを合成することによって合成イメージを生成する段階、および前記合成イメージをRGB色空間のイメージに変換する段階を含んでよい。
【0018】
前記変換モデルは、各抽象化レベルが示す抽象化程度を反映する出力値を生成する各レイヤを含む複数のレイヤで構成される抽象化程度反映モジュールを含み、前記生成する段階は、前記受信した抽象化レベルに該当する前記抽象化程度反映モジュールのレイヤの出力値を使用して、前記受信した抽象化レベルが示す抽象化程度を反映する前記ターゲットスタイルに対応するテクスチャに前記入力イメージを変換して前記テクスチャ変換イメージを生してよい。
【0019】
前記変換モデルは、前記ターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージをデータ拡張して生成された第1学習用データ、およびターゲットスタイルへの変換およびカラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張して生成された第2学習用データを使用して予め学習されたものであってよい。
【0020】
前記第1学習用データは、前記第1イメージに対する所定の程度の抽象化処理を模写するように、リサイジング処理および解像度変更処理のうち少なくとも1つの処理が実行されたイメージを含んでよい。
【0021】
前記第2学習用データは、前記第2イメージを任意の色に変換した学習用変換イメージを含んでよい。
【0022】
前記学習用変換イメージは変換段階によって生成され、前記変換段階は、前記第2イメージおよび前記第2イメージを単純化処理することによって生成された前記第2イメージのカラーマップのうちの少なくとも1つをHSV色空間のイメージに変換する段階、および前記HSV色空間のイメージを任意の色に変換する段階を含んでよい。
【0023】
前記変換段階は、前記第2イメージおよび前記第2イメージのカラーマップのうちの少なくとも1つをLab色空間のイメージに変換する段階、前記La色空間のイメージのL情報を抽出する段階、任意の色に変換された前記HSV色空間のイメージをLab色空間のイメージに変換する段階、および前記変換されたLab色空間のイメージのL情報を前記抽出されたL情報に置き換える段階を含んでよい。
【0024】
前記変換モデルは、前記第1学習用データをLab色空間のLコンポーネントのイメージに変換したイメージ、前記第2イメージをLab色空間のイメージに変換したイメージ、前記第2イメージを任意の色に変換したイメージをLab色空間のabコンポーネントのイメージに変換したイメージ、および前記第2のイメージのカラーマップをLab色空間のイメージに変換したイメージを使用して、予め学習されたものであってよい。
【0025】
他の一側面において、イメージ変換方法を実行するコンピュータシステムであって、前記コンピュータシステムで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、入力イメージ、前記入力イメージが変換されるターゲットスタイルおよび前記イメージが変換されるターゲットカラー情報を受信し、予め学習済みの変換モデルを使用して、前記入力イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび前記入力イメージを前記ターゲットカラー情報に対応する色に変換したカラー変換情報にしたがって変換した結果イメージを生成するために前記テクスチャ変換イメージと前記カラー変換イメージを合成する、コンピュータシステムを提供する。
【0026】
さらに他の一側面において、コンピュータシステムによって実行されるイメージを変換する変換モデルを学習させる方法であって、ターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージと、前記ターゲットスタイルへの変換およびカラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張した学習用データを取得する段階、および前記学習用データを使用して、前記第2イメージを前記ターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび前記第2イメージをターゲットカラー情報に対応する色に変換した色変換イメージを生成するように前記変換モデルを学習させる段階を含み、前記テクスチャ変換イメージと前記カラー変換イメージを合成することによって前記第2イメージを前記ターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージが生成され、前記学習済みの変換モデルは、前記ターゲットスタイルを示すレファレンスイメージの入力なく、前記ターゲットスタイルに該当するテクスチャと入力されるターゲットカラー情報に該当するカラーを表すように入力イメージを変換する、イメージ変換方法を提供する。
【発明の効果】
【0027】
学習済みの変換モデルを使用して、入力イメージから、ユーザによって入力されたターゲットスタイルに対応するテクスチャとターゲットカラー情報に対応する色を表す結果イメージを得ることができる。
【0028】
学習済みの変換モデルを使用して、ユーザから入力された結果イメージが示す抽象化程度を設定するための抽象化レベルを反映しながら、ターゲットスタイルのテクスチャとターゲットカラー情報の色を表す結果イメージを得ることができる。
【0029】
ターゲットスタイルを示すレファレンスイメージの入力なく、ターゲットスタイルに該当するテクスチャと入力されるターゲットカラー情報に該当する色を表すように入力イメージを変換するために予め学習済みの変換モデルを使用することにより、レファレンスイメージを入力しなくても前記結果イメージを得ることができる。
【0030】
学習済みの変換モデルを使用して入力イメージからユーザがコントロール可能なターゲットカラー情報と抽象化レベルが反映された結果イメージを取得して使用することにより、ウェブトゥーン、カートゥーン、アニメーションなどのようなコンテンツを制作するときに、キャラクタなどの前景部分を除いた背景部分を制作するための時間と資源を削減することができる。
【図面の簡単な説明】
【0031】
図1】一実施形態における、入力イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージを生成するためのイメージ変換方法を示した図である。
図2図2aは、一実施形態における、イメージ変換方法を実行するためのコンピュータシステムを示した図であり、図2bは、一実施形態における、予め学習済みの変換モデルを使用して実行されるイメージ変換方法を示した図である。
図3】一実施形態における、入力イメージをターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成するためのイメージ変換方法を示したフローチャートである。
図4図4aおよび4bは、一実施形態における、入力イメージを前処理する方法を示した図である。
図5】一例における、予め学習済みの変換モデルを使用して、入力イメージからテクスチャ変換イメージおよび色変換イメージを生成する方法を示した図である。
図6】一例における、結果イメージを生成する方法を示したフローチャートである。
図7】一例における、入力イメージをターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成する変換モデルを示した図である。
図8】一例における、変換モデルを学習させる方法を示した図である。
図9図9aおよび9bは、一例における、変換モデルのための学習データを取得する方法を示したフローチャートである。
図10図10aおよび10bは、一例における、変換モデルのための学習データを取得する方法を示した図である。
図11】一例における、変換モデルに含まれる抽象化程度反映モジュールの構造を示した図である。
図12】一例における、識別子ネットワークの構造を示した図である。
図13】一例における、入力イメージに基づいて生成された、ターゲットスタイルおよびターゲットカラー情報を反映した結果イメージを示した図である。
【発明を実施するための形態】
【0032】
以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。
【0033】
図1は、一実施形態における、入力イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージを生成するためのイメージ変換方法を示した図である。
【0034】
図1を参照しながら、ユーザからイメージ(以下、入力イメージ)が入力され、ターゲットスタイル、ターゲットカラー情報および抽象化レベルが入力され、入力イメージを、ターゲットスタイル、ターゲットカラー情報および抽象化レベルを反映した結果イメージに変換する方法(すなわち、結果イメージを生成する方法)について説明する。
【0035】
イメージは、写真またはその他の画像を含んでよい。一方、実施形態において、イメージは画像を意味してよいが、これに限定されてはならず、動画を含むものと解釈されてよい。
【0036】
画面50は、ユーザから入力される入力イメージを表示し、ユーザからの設定にしたがって入力イメージを変換した結果イメージを表示するユーザ端末の画面であってよい。すなわち、画面50は、実施形態のイメージ変換方法を実行するソフトウェア、プログラム、またはアプリケーションの実行画面であってよい。
【0037】
ユーザ端末は、スマートフォンのようなスマート機器であってよく、PC(personal computer)、ノート型PC(laptop computer)、ラップトップコンピュータ(laptop computer)、タブレット(tablet)、モノのインターネット(Internet Of Things)機器、またはウェアラブルコンピュータ(wearable computer)などであってよい。
【0038】
図に示すように、画面50は、例えば、ユーザから入力される入力イメージおよび入力イメージが変換された結果である結果イメージを表示する第1領域10と、第1領域10に表示されるイメージを編集するためのユーザインタフェース(User Interface)を含む第2領域20と、ユーザがターゲットスタイル、ターゲットカラー情報および抽象化レベルのうちの少なくとも1つを設定するためのUIを含む第3領域30、40を含んでよい。ここで、第3領域30、40は、入力イメージが変換されるターゲットスタイルを設定するためのUIと、結果イメージが示す抽象化程度を設定するための抽象化レベルを設定するためのUIを含む領域30を含んでよい。また、第3領域30、40は、入力イメージが変換されるターゲットカラー情報を設定するためのUIを含む領域40を含んでよい。
【0039】
一例として、第1領域10に、ユーザから入力される入力イメージが表示されたとする。ユーザは、ユーザ端末に保存されたイメージまたはユーザ端末のカメラを使用して撮影したイメージをロードすることによって、第1領域10に入力イメージを表示させてよい。入力イメージは、変換前のイメージであって、「原本イメージ」と呼ばれてもよい。実施形態のイメージ変換方法によって入力イメージは「結果イメージ」に変換されてよく、結果イメージも第1領域10に表示されてよい。結果イメージは、入力イメージの代わりに第1領域10に表示されてよい。
【0040】
第2領域20は、第1領域10に表示される入力イメージまたは結果イメージを編集するためのUIであって、ブラシおよび/または消しゴムのような編集ツールを含んでよい。また、第2領域20は、実行取消(UndoおよびRedo)のためのUIをさらに含んでよい。一方、第2領域20は、第1領域10における入力イメージの表示および結果イメージの表示を切り替えるためのUIをさらに含んでよい。
【0041】
第3領域30、40のうちの領域30は、ターゲットスタイルを設定するためのUIを含んでよい。ターゲットスタイルは、イメージまたは動画を含むコンテンツを示してよい。すなわち、ターゲットスタイルは、このような「コンテンツ名」で表現されてよい。コンテンツは、例えば、漫画、カートゥーン、またはウェブトゥーンであってよい。ターゲットスタイルは、入力イメージが変換されるテクスチャを示してよい。すなわち、実施形態のイメージ変換方法によって、入力イメージのテクスチャは、ターゲットスタイルに対応するテクスチャに変換されるようになる。このとき、ターゲットスタイルに対応するテクスチャは、前記コンテンツに含まれるイメージまたは動画のテクスチャであってよい。テクスチャは、コンテンツに含まれるイメージまたは動画の画風、絵柄、またはその他のコンテンツを他のコンテンツと視覚的に区別するための特徴を含んでよい。一例として、ユーザが、領域30でターゲットスタイルとして特定のウェブトゥーン名を選択すると、実施形態のイメージ変換方法によって、入力イメージのテクスチャを選択されたウェブトゥーンのテクスチャに変換させてよい。
【0042】
また、領域30は、結果イメージが示す抽象化程度を示す抽象化レベルを設定するためのUIを含んでよい。「抽象化」は、結果イメージがどの程度のディテール(detail)を含んでいるか、結果イメージを表現する線の太さなどを示してよい。または、「抽象化」は、結果イメージがどの程度単純化されているかを示してよい。例えば、抽象化程度が高いほど結果イメージはより少ないディテールを含んでよく、結果イメージの線が鮮明でなかったりソフトに表現されてよい。これとは逆に、抽象化度が高いほど結果イメージはより多くのディテールを含んでよく、結果イメージはより精密に表現されてよい。実施形態では、領域30で抽象化レベルが設定されることによって、結果イメージの抽象化程度が設定された抽象化レベルにしたがって調整されるようにしてよい。
【0043】
第3領域30、40のうちの領域40は、ターゲットカラー情報を設定するためのUIを含んでよい。ターゲットカラー情報は、入力イメージが変換される色を示してよい。すなわち、実施形態のイメージ変換方法によって、入力イメージのカラーは、ターゲットカラー情報に対応するカラーに変換されるようになる。ターゲットカラー情報に対応する色とは、結果イメージの色感を意味してよい。一例として、ユーザが、領域40で特定のカラー(または、色調)(hueおよびsaturation)を選択すると、実施形態のイメージ変換方法によって、入力イメージのカラーを選択されたカラーに変換させてよい。これにより、結果イメージは、領域40で選択されたターゲットカラー情報に該当する色感と同一となる。
【0044】
したがって、実施形態のイメージ変換方法によると、第3領域30、40で設定された情報にしたがって、入力イメージが、設定されたターゲットスタイル、設定されたターゲットカラー情報、および設定された抽象化レベルが反映された結果イメージに変換されるようにすることができる。
【0045】
実施形態のイメージ変換方法は、画面50を出力するユーザ端末によって実行されてよい。または、イメージ変換方法は、ユーザ端末と通信する、ユーザ端末とは別のコンピュータシステムによって実行されてもよい。例えば、イメージ変換方法は、サーバによって実行されてよい。
【0046】
以下の詳細な説明では、このようなイメージ変換方法を実行するコンピュータシステムをコンピュータシステム100と呼ぶことにする。
【0047】
実施形態において、コンピュータシステム100は、予め学習済みの変換モデルを使用して、入力イメージを結果イメージに変換してよい。このとき、コンピュータシステム100は、入力イメージのテクスチャを設定されたターゲットスタイルに対応するテクスチャに変換してよく(1)、入力イメージの色を設定されたターゲットカラー情報に対応する色に変換してよい(2)。変換モデルは、(1)の入力イメージのテクスチャ変換と(2)の入力イメージのカラー変換をそれぞれのプロセスとして実行してよい。これにより、コンピュータシステム100は、変換モデルを使用して、入力イメージをターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージを生成することができ、入力イメージをターゲットカラー情報に対応する色に変換した色変換イメージを生成することができ、テクスチャ変換イメージと色変換イメージを合成して結果イメージを生成することができる。
【0048】
変換モデルを使用して入力イメージのテクスチャ変換および入力イメージのカラー変換を実行する具体的な方法と、結果イメージが生成される具体的な方法については、図2~13を参照しながらより詳しく説明する。
【0049】
図2aは、一実施形態における、イメージ変換方法を実行するコンピュータシステムを示した図である。
【0050】
コンピュータシステム100は、実施形態のイメージ変換方法を実行するために必要なタスクを実行するコンピューティング装置であってよい。
【0051】
コンピュータシステム100は、少なくとも1つのコンピューティング装置を含むように構成されてよい。コンピュータシステム100は、予め学習済みの変換モデルを使用して入力イメージのテクスチャ変換と入力イメージのカラー変換を実行することで、ユーザからの設定が反映された結果イメージを生成してよい。
【0052】
コンピュータシステム100は、上述したユーザ端末であってもよいし、ユーザ端末と通信する他のコンピュータ装置またはサーバであってもよい。
【0053】
コンピュータシステム100は、図に示すように、メモリ130、プロセッサ120、通信部110、および入力/出力インタフェース140を含んでよい。
【0054】
メモリ130は、コンピュータ読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ROMやディスクドライブのような永続的大容量記録装置は、メモリ130とは区分される別の永続的記録装置として含まれてもよい。また、メモリ130には、オペレーティングシステムと、少なくとも1つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ130とは別のコンピュータ読み取り可能な記録媒体からロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD-ROMドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信部110を通じてメモリ130にロードされてもよい。
【0055】
プロセッサ120は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ130または通信部110によって、プロセッサ120に提供されてよい。例えば、プロセッサ120は、メモリ130にロードされたプログラムコードにしたがって受信される命令を実行するように構成されてよい。
【0056】
通信部110は、コンピュータシステム100が他の装置(ユーザ端末または他のサーバなど)と通信するための構成であってよい。すなわち、通信部110は、他の装置に対してデータおよび/または情報を送受信する、コンピュータシステム100のアンテナ、データバス、ネットワークインタフェースカード、ネットワークインタフェースチップ、およびネットワーキングインタフェースポートなどのようなハードウェアモジュール、またはネットワークデバイスドライバ(driver)またはネットワーキングプログラムのようなソフトウェアモジュールであってよい。
【0057】
入力/出力インタフェース140は、キーボードやマウスなどのような入力装置、およびディスプレイやスピーカなどのような出力装置とのインタフェースのための手段であってよい。
【0058】
プロセッサ120は、コンピュータシステム100の構成要素を管理してよく、上述した前処理、類似カットのペア決定やマッチングを実行するためのプログラムまたはアプリケーションを実行してよく、前記プログラムまたはアプリケーションの実行およびデータの処理などに必要な演算を処理してよい。プロセッサ120は、コンピュータシステム100の少なくとも1つのプロセッサ(CPUまたはGPUなど)またはプロセッサ内の少なくとも1つのコア(core)であってよい。
【0059】
また、他の実施形態において、コンピュータ装置100およびプロセッサ120は、図に示した構成要素よりも少ないか多くの構成要素を含んでもよい。例えば、プロセッサ120は、変換モデルを学習させ、学習された変換モデルを使用して実施形態のイメージ変換方法を実行するための機能を実行する構成を含んでよい。このようなプロセッサ120の構成は、プロセッサ120の一部であってもよいし、プロセッサ120によって実現される機能であってもよい。プロセッサ120に含まれる構成は、オペレーティングシステムのコードと、少なくとも1つのコンピュータプログラムのコードとによる制御命令(instruction)によってプロセッサ120が実行する、互いに異なる機能(different functions)の表現であってよい。
【0060】
コンピュータシステム100が変換モデルを使用して入力イメージのテクスチャ変換および入力イメージのカラー変換を実行する具体的な方法と、結果イメージが生成される具体的な方法については、図2b~13を参照しながらより詳しく説明する。
【0061】
これと関連して、図2bは、一実施形態における、予め学習済みの変換モデルを使用して実行されるイメージ変換方法を示している。
【0062】
図2bでは、予め学習済みの変換モデル250を使用して、入力イメージ205に基づいて結果イメージ260を生成する方法(すなわち、入力イメージ205を結果イメージ260に変換する方法)について説明する。
【0063】
入力データ前処理部230と変換モデル250は、プロセッサ120を使用して実現されてよい。すなわち、入力データ前処理部230と変換モデル250によって実行される動作は、プロセッサ120によって実行される動作であってよい。
【0064】
図に示すように、コンピュータシステム100には、入力イメージ205とターゲットカラー情報210が入力されてよい。また、コンピュータシステム100には、ターゲットスタイルおよび結果イメージ260の抽象化程度を示す抽象化レベルがさらに入力されてよい。図に示すように、ターゲットカラー情報210は、異なる複数の色のグループを含むパレットで構成されてよい。または、図に示すものとは異なり、ターゲットカラー情報210は、1つの選択された色を示してもよい。
【0065】
ターゲットカラー情報210に含まれるパレットは、入力イメージ205の色分布に基づいて決定される、互いに異なる複数の色のグループを含んでよい。例えば、パレットに含まれる色の数および/または各色の種類は、入力イメージ205の色分布に基づいて決定されてよい。図に示したターゲットカラー情報210のパレットは、現在の入力イメージ205の色分布が反映された色のグループを示している。すなわち、図に示したパレットは、ソースパレットであってよい。パレットに含まれる色の数および/または種類は、入力イメージ205で使用された色の数および/または種類に基づいて決定されてよい。
【0066】
例えば、ユーザは、上述した領域40のUIによって異なる色のグループ(例えば、全体的に赤いトーンを表す色のグループ)を含むパレットを選択してターゲットカラー情報210を変更することができる。または、パレットに含まれる複数の色それぞれは、ユーザによって選択可能なように構成されてよく、ユーザがパレットのそれぞれの色を変更できるようにしてよい。
【0067】
入力データ前処理部230は、ターゲットカラー情報210に基づいて入力イメージ205を前処理してよく、変換モデル250への入力のためのデータを生成してよい。入力イメージ205の前処理方法については、図4を参照しながらより詳しく説明する。
【0068】
入力データ前処理部230によって前処理されたデータは、変換モデル250に入力されてよい。変換モデル250は、入力イメージ205の前処理されたデータをエンコードするための共用エンコーダ252を含んでよい。変換モデル250は、エンコードされたデータに対するテクスチャ変換のためのデコードを実行するテクスチャデコーダ256と、エンコードされたデータに対するカラー変換のためのデコードを実行するカラーデコーダ254を含んでよい。テクスチャデコーダ256によるデコードによって、入力イメージ205をターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージが生成されてよく、カラーデコーダ254によるデコードによって、入力イメージ205をターゲットカラー情報に対応する色に変換したテクスチャ変換イメージが生成されてよい。変換モデル250によるテクスチャ変換結果には、ユーザが入力したターゲットスタイルと抽象化レベルに該当する抽象化程度が反映されてよい。変換モデル250の詳細構造については、図7を参照しながらより詳しく説明する。
【0069】
コンピュータシステム100は、変換モデル250によるテクスチャ変換結果とカラー変換結果を合成して結果イメージ260を生成してよい。したがって、生成された結果イメージ260には、入力されたターゲットスタイルのテクスチャと抽象化レベルに該当するする抽象化程度が反映されるようになり、結果イメージ260の色感は、入力されたターゲットカラー情報210と同一になる。
【0070】
これと関連して、図13は、一例における、入力イメージに基づいて生成された、ターゲットスタイルおよびターゲットカラー情報が反映された結果イメージを示している。
【0071】
図13では、左側の入力イメージが、ターゲットスタイルに対応するテクスチャの結果イメージに変換された例を示している。結果イメージは、右方向にいくほど設定された抽象化レベルが高いものであってよい。すなわち、右側の結果イメージは、より少ないディテールを含み、ソフトに表現されたものとなる。図に示すように、結果イメージは、入力されたターゲットカラー情報1310~1340に対応する色を示してよい。各ターゲットカラー情報は、複数の色のグループを含むパレットが例示されている。結果イメージは、これらのパレットが示す色感で表現されてよい。
【0072】
このように、実施形態のイメージ変換方法によって、入力イメージは、入力されたターゲットスタイル、ターゲットカラー情報、および抽象化レベルが反映された結果イメージに変換されるようになる。
【0073】
以上、図1を参照しながら説明した技術的特徴についての説明は、図2および図13にもそのまま適用可能であるため、重複する説明は省略する。
【0074】
以下では、上述した変換モデル250を使用して入力イメージ205を結果イメージ260に変換する方法についてより詳しく説明する。
【0075】
以下の詳細な説明において、コンピュータシステム100、またはプロセッサ120、またはこれらの構成によって実行される動作は、説明の便宜上、コンピュータシステム100によって実行される動作であると説明する。
【0076】
図3は、一実施形態における、入力イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージを生成するためのイメージ変換方法を示したフローチャートである。
【0077】
段階310で、コンピュータシステム100は、入力イメージ205、入力イメージ205が変換されるターゲットスタイルおよび入力イメージ205が変換されるターゲットカラー情報210を受信してよい。例えば、コンピュータシステム100は、ユーザ端末を利用してユーザが入力する入力イメージ205、ターゲットスタイルおよびターゲットカラー情報210を受信してよい。
【0078】
段階320で、コンピュータシステム100は、予め学習済みの変換モデル250を使用して、入力イメージ205をターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージを生成してよく、入力イメージ205をターゲットカラー情報210に対応する色に変換したカラー変換イメージを生成してよい。
【0079】
一方、コンピュータシステム100は、結果イメージ260が示す抽象化程度を設定するための抽象化レベルをさらに受信してよい。これにより、コンピュータシステム100は、受信した抽象化レベルが示す抽象化程度を反映したターゲットスタイルに対応するテクスチャに入力イメージ205を変換してテクスチャ変換イメージを生成することができる。
【0080】
段階330で、コンピュータシステム100は、入力イメージ205を、受信したターゲットスタイルおよびターゲットカラー情報210にしたがって変換した結果イメージ260を生成するために、テクスチャ変換イメージとカラー変換イメージを合成してよい。例えば、コンピュータシステム100は、カラー変換イメージの色でテクスチャ変換イメージが着色されるようにすることによって結果イメージ260を生成してよい。
【0081】
このように、実施形態の変換モデル250は、入力イメージ205に対するテクスチャ変換と、入力イメージ205に対するカラー変換を区分して実行することができる。変換モデル250は、結果イメージ260が生成される前に、テクスチャ変換イメージとカラー変換イメージそれぞれに対して損失関数を個別に計算して学習されてよい。
【0082】
段階340で、コンピュータシステム100は、結果イメージ260をユーザ端末(例えば、画面50の第1領域10)で出力してよい。
【0083】
実施形態の変換モデル250は、ターゲットスタイルを表すレファレンスイメージの入力なく、ターゲットスタイルに対応するテクスチャと入力されるターゲットカラー情報210に対応する色を表すように、入力イメージを変換するために予め学習されたものであってよい。すなわち、変換モデル250は、入力イメージ205の他にターゲットスタイルのテクスチャを有する別のイメージを入力する必要がなく、入力イメージ205に基づいて結果イメージ260を生成することができる。
【0084】
一方、段階310で受信した入力イメージ205は、前処理された後、変換モデル250に入力されてよい。すなわち、段階315で、コンピュータシステム100は、変換モデル250への入力に適したデータを生成するために入力イメージ205を前処理してよい。入力イメージ205を前処理する方法については、図4を参照しながらより詳しく説明する。
【0085】
以上、図1図2、および図13を参照しながら説明した技術的特徴についての説明は、図3にもそのまま適用可能であるため、重複する説明は省略する。
【0086】
図4aおよび図4bは、一例における、入力イメージを前処理する方法を示した図である。
【0087】
図4bで、入力イメージ440は、上述した入力イメージ205に対応してよい。入力イメージ440は、例えば、RGB色空間のイメージであって、Isrc RGBで表現されてよい。
【0088】
コンピュータシステム100は、入力イメージ440Isrc RGBをLab色空間のイメージに変換(RGB2Lab)してよい。Lab色空間とは、明るさ(L)と、赤緑と黄青(a Channel、b Channel)の組み合わせによって表現される色空間であってよい。すなわち、Lab色空間のL成分は明るさを表すことができ、Lab色空間のab成分は色を表すことができる。Lab色空間のイメージに変換された入力イメージ440はIsrc RGBで表現されてよい。Isrc RGBは、変換モデル250の入力となってよい。
【0089】
また、コンピュータシステム100は、入力イメージ440Isrc RGBに対してイメージ単純化処理を実行することによって、入力イメージ440に対応するカラーマップ445を生成してよい。このようなカラーマップ445は、Csrc RGBで表現されてよい。イメージ単純化処理は、例えば、スーパーピクセル(supserpixel)アルゴリズムに基づいて実行されてよい。
【0090】
カラーマップ445は、ユーザによって入力されたターゲットカラー情報455に基づいて再彩色されてよい。コンピュータシステム100は、入力イメージ440の色分布に基づいて入力イメージ440のソースパレット
(外1)
を生成してよい。ソースパレット
(外2)
は、例えば、K-meansクラスタリングアルゴリズムに基づいて生成されてよい。ソースパレットは、初期パレットと呼ばれてもよい。コンピュータシステム100は、ユーザによってソースパレット
(外3)
が編集されることにより、ターゲットカラー情報455に該当するパレット
(外4)
を生成してよい。例えば、ソースパレット
(外5)
を構成する色のうちの少なくとも1つがユーザからの入力によって変更されることにより、ターゲットカラー情報455に該当するパレット
(外6)
が生成されてよい。ターゲットカラー情報455に対応するパレット
(外7)
に基づいてカラーマップ445が再彩色されることにより、ターゲットカラー情報455が反映されたカラーマップ465
(外8)
が生成されてよい。
(外9)
はLab色空間のイメージに変換されてよく、このようなLab色空間のイメージに変換されたカラーマップは
(外10)
として表現されてよい。一方、前記再彩色が実行される前には、編集されていない色領域がカラーマップ445Csrc RGBと同一に維持されるようにするために、入力イメージ440Isrc RGBはソースパレット
(外11)
の各色に対してカラーセグメント化マスク(Color segmentation mask)(M)460が計算されてよく、このようなマスクを使用したマスキングが実行されてよい。
【0091】
例えば、入力イメージ440とソースパレット
(外12)
に基づいてイメージマスク(M)が生成されてよい。コンピュータシステム100は、入力イメージ440内のすべてのピクセルから前記ソースパレット
(外13)
内の色のうちで最も近い色を識別し、識別された色に対応するマスク領域に値を記入することによってマスクを生成してよい。ターゲットカラー情報455に該当するパレット
(外14)
とソースパレット
(外15)
を使用して、カラーマップ445は再彩色されてよい。このとき、カラーマップ445に存在するすべてのピクセルに対して、コンピュータシステム100は、各ピクセルが生成されたマスクのどの色に対応するかを識別してよく、識別された色とターゲットカラー情報455に対応するパレット
(外16)
の色を比較してカラーマップ445を再彩色してよい。
【0092】
最終的に生成されたLab色空間のイメージに変換されたカラーマップ
(外17)
は、変換モデル250の入力となってよい。
【0093】
図4aのフローチャートを参照しながら、入力イメージ440の前処理方法について再び説明する。段階405で、コンピュータシステム100は、入力イメージ440をLab色空間のイメージである第1変換イメージに変換してよい。第1変換イメージは、上述したIsrc Labであってよく、これは変換モデル250の入力となってよい。
【0094】
段階410で、コンピュータシステム100は、入力イメージ440を単純化処理することによって第1カラーマップを生成してよい。単純化処理には、例えば、スーパーピクセルアルゴリズムを基盤とした単純化処理、または他のイメージ量子化(quantization)アルゴリズムを基盤とした単純化処理方法が使用されてよい。第1カラーマップは、上述したカラーマップ445Csrc RGBに対応してよい。
【0095】
段階420で、コンピュータシステム100は、第1カラーマップの色を、受信したターゲットカラー情報に基づいて変換することによって第2カラーマップを生成してよい。例えば、第1カラーマップは、ターゲットカラー情報に対応する色によって再彩色されてよく、このような再彩色にしたがって第2カラーマップが生成されてよい。第2カラーマップは、上述したカラーマップ465
(外18)
に対応してよい。
【0096】
段階430で、コンピュータシステム100は、第2カラーマップをLab色空間のイメージである第2変換イメージに変換してよい。このような変換によって生成される第2変換イメージは、上述したカラーマップ
(外19)
に対応してよく、これは変換モデル250の入力となってよい。
【0097】
変換モデル250は、第1変換イメージIsrc Labに基づいて上述したテクスチャ変換イメージを生成することができ、第2変換イメージ
(外20)
に基づいて上述したカラー変換イメージを生成することができる。
【0098】
以上、図1~3、および図13を参照しながら説明した技術的特徴についての説明は、図4にもそのまま適用可能であるため、重複する説明は省略する。
【0099】
図5は、一例における、予め学習済みの変換モデルを使用して、入力イメージからテクスチャ変換イメージおよび色変換イメージを生成する方法を示した図である。
【0100】
以下、段階510~530を参照しながら、変換モデル250を使用して、上述したテクスチャ変換イメージおよびカラー変換イメージを生成する方法についてより詳しく説明する。
【0101】
図2bを参照しながら説明したように、変換モデル250は、入力イメージ440の前処理されたデータをエンコードするための共用エンコーダ252と、エンコードされたデータに対するテクスチャ変換のためのデコードを実行するテクスチャデコーダ256と、エンコードされたデータに対するカラー変換のためのデコードを実行するカラーデコーダ254を含んでよい。
【0102】
段階510で、変換モデル250は、エンコーダ252を使用して、上述した入力イメージ440の前処理に基づいて生成された第1変換イメージをエンコードしてよい。
【0103】
段階520で、変換モデル250は、エンコーダ252によってエンコードされた第1変換イメージを、テクスチャデコーダ254を使用してデコードすることによってテクスチャ変換イメージを生成してよい。テクスチャ変換イメージは、ターゲットスタイルに対応するテクスチャに入力イメージ440のテクスチャが変換されたものであってよい。
【0104】
段階530で、変換モデル250は、カラーデコーダ254を使用して、入力イメージ440の前処理に基づいて生成された第2変換イメージに基づいて、例えば、第2変換イメージを条件情報として使用して前記エンコードされた第1変換イメージをデコードすることによって色変換イメージを生成してよい。カラーデコーダ254には上述した第2変換イメージが入力されることによって、カラー変換イメージにはターゲットカラー情報に対応する色が反映されてよい。
【0105】
コンピュータシステム100は、段階520で生成されたテクスチャ変換イメージと段階530で生成された色変換イメージを合成することによって最終的な結果イメージを生成することができる。
【0106】
以上、図1~4、および図13を参照しながら説明した技術的特徴についての説明は、図5にもそのまま適用可能であるため、重複する説明は省略する。
【0107】
図6は、一実施形態における、結果画像を生成する方法を示したフローチャートである。
【0108】
図5を参照しながら説明したテクスチャ変換イメージは、Lab色空間のイメージであって、Lコンポーネントのイメージであってよい。すなわち、テクスチャ変換イメージは、abコンポーネントを有する必要がない。カラー変換イメージはLab色空間のイメージであって、abコンポーネントのイメージであってよい。カラー変換イメージは、結果イメージを生成するためのabチャネルのカラーマップであってよい。
【0109】
段階610で、コンピュータシステム100は、テクスチャ変換イメージであるLコンポーネントのイメージとカラー変換イメージabコンポーネントのイメージを合成することによって合成イメージを生成してよい。合成イメージは、Lab色空間のイメージであってよい。
【0110】
段階620で、コンピュータシステム100は、Lab色空間のイメージである合成イメージをRGB色空間のイメージに変換してよい。最終的にRGB色空間のイメージに変換されたイメージは、上述した結果イメージとなってよい。
【0111】
上述した段階610および620は、変換モデル250によって実行される動作であってよい。
【0112】
以上、図1~5、および図13を参照しながら説明した技術的特徴についての説明は、図6にもそのまま適用可能であるため、重複する説明は省略する。
【0113】
図7は、一例における、入力イメージをターゲットスタイルおよび前記ターゲットカラー情報にしたがって変換した結果イメージを生成する変換モデルを示した図である。
【0114】
図7を参照しながら、図5および図6を参照しながら説明したテクスチャ変換イメージおよびカラー変換イメージを生成する方法と、結果イメージを生成する方法についてより詳しく説明する。
【0115】
図7に示した変換モデルは、上述した変換モデル250を示したものであってよい。このような変換モデルは、人工知能(AI)基盤のモデルであって、例えば、ディープラーニング基盤のモデルを含んでよい。変換モデルは、予め学習(訓練)されたVGGモデル(例えば、VGG19ネットワーク)を含んでよい。
【0116】
変換モデルは、共用エンコーダ730と、テクスチャデコーダ740、およびカラーデコーダ750を含んでよい。
【0117】
共用エンコーダ730は、入力イメージ440が前処理されたデータである第1変換イメージIsrc Lab710をエンコードしてよい。共用エンコーダ730は、複数の畳み込み層および残差ブロックで構成されてよい。
【0118】
テクスチャデコーダ740は、共用エンコーダ730によるエンコード結果をデコードしてテクスチャ変換イメージ770を生成してよい。すなわち、テクスチャデコーダ740は、受信したターゲットスタイルに対応するテクスチャが反映されたイメージを生成することができる。生成されるテクスチャ変換イメージ770は、Lab色空間のLコンポーネントのイメージであってよい。また、テクスチャデコーダ740によって生成されるテクスチャ変換イメージ770には、受信した抽象化レベルが示す抽象化程度が反映されていてよい。
【0119】
このために、変換モジュール250は、それぞれの抽象化レベルが示す抽象化程度が反映された出力値を生成する各レイヤを含む複数の層で構成される抽象化程度反映モジュール760を含んでよい。抽象化程度反映モジュール760は、テクスチャデコーダ740に含まれてよい。すなわち、テクスチャデコーダ740は、抽象化程度反映モジュール760と複数の畳み込み層を含んでよい。
【0120】
以下、図11を参照しながら、抽象化程度反映モジュール760についてより詳しく説明する。
【0121】
これと関連して、図11は、一例における、変換モデルに含まれる抽象化程度反映モジュールの構造を示した図である。
【0122】
図に示した抽象化度反映モジュール1100は、抽象化程度反映モジュール760をより詳しく示したものである。抽象化程度反映モジュール1100は、図に示したように、複数の層(または、残差ブロック)とゲーティングモジュール(gating module)を含んでよい。それぞれの層は、それぞれの抽象化レベルが示す抽象化程度を反映する出力値を生成するように構成されてよい。抽象化程度反映モジュール1100は、連続抽象化反映モジュール(Continuous Abstraction Module:CAM)と呼ばれてもよい。
【0123】
変換モジュール250(変換モジュール250のテクスチャデコーダ740)は、ユーザから受信した抽象化レベルに該当する抽象化程度反映モジュール1100の層の出力値を使用して、前記受信した抽象化レベルが示す抽象化程度が反映されたターゲットスタイルに対応するテクスチャに入力イメージ440を変換してテクスチャ変換イメージ770を生成してよい。
【0124】
図に示した例において、アルファαは、受信した抽象化レベルを示してよい。抽象化程度反映モジュール1100は、層のうちで、受信した抽象化レベルαに該当する層の出力値をテクスチャ変換イメージ770の生成に使用してよい。
【0125】
一例として、抽象化程度反映モジュール1100は、受信した抽象化レベルαによってどの層(残差ブロック)で生成された特徴マップを使用するかを決定してよく、決定された特徴マップをsum演算によって1つの最終特徴マップとして計算して、テクスチャ変換イメージ770を生成するために使用してよい。
【0126】
これにより、生成されたテクスチャ変換イメージ770は、受信したターゲットスタイルのテクスチャだけでなく、受信した抽象化レベルが示す抽象化程度を反映することができる。
【0127】
カラーデコーダ750は、残差ブロックと複数の畳み込み層で構成されてよい。カラーデコーダ750は、共用エンコーダ730によるエンコード結果をデコードするが、第2変換イメージ
(外21)
720を追加入力として使用してデコードを実行して、ターゲットカラー情報に対応する色が反映されたカラー変換イメージ780を生成してよい。すなわち、カラーデコーダ750は、受信したターゲットカラー情報に対応する色(色感、パレットなど)を反映したイメージを生成することができる。生成されるカラー変換イメージ780は、Lab色空間のabコンポーネントのイメージであってよい。
【0128】
テクスチャ変換イメージ770とカラー変換イメージ780が合成されることによって結果イメージ790が生成されてよい。テクスチャ変換イメージ770とカラー変換イメージ780が合成された合成イメージは、
(外22)
と呼ばれてもよい。合成イメージ
(外23)
はLab色空間のイメージであってよく、合成イメージ
(外24)
はRGB色空間のイメージに変換されてよい。変換されたRGB色空間のイメージが結果イメージ790となり、結果イメージ790は
(外25)
と呼ばれてもよい。
【0129】
上述したように、変換モジュール250は、テクスチャデコーダ740とカラーデコーダ750を使用してテクスチャ変換イメージ770とカラー変換イメージ780を区別して生成することができ、これらを合成することによって結果イメージ790を生成することができる。
【0130】
したがって、最終的な結果イメージ790には、ユーザから受信したターゲットスタイル、ターゲットカラー情報、抽象化程度が反映されるようになる。
【0131】
以上、図1~6、および図13を参照しながら説明した技術的特徴についての説明は、図7~11にもそのまま適用可能であるため、重複する説明は省略する。
【0132】
以下では、図8~10を参照しながら、上述した変換モデル250を学習させて予め学習済みの変換モデル250を構築する方法についてより詳しく説明する。
【0133】
図8は、一例における、変換モデルを学習させる方法を示した図である。
【0134】
変換モデル250を学習させるコンピュータシステムは、上述したコンピュータシステム100とは別の装置またはサーバであってもよい。以下では、説明の便宜上、コンピュータシステム100と変換モデル250を学習させるコンピュータシステムを同一視した状態で実施形態を説明する。
【0135】
段階810で、コンピュータシステム100は、ターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージと、前記ターゲットスタイルへの変換およびカラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張した学習用データを取得してよい。第1イメージは、例えば、ターゲットスタイルが示すコンテンツを含むイメージであってよい。例えば、コンテンツがウェブトゥーンである場合、第1イメージは、ウェブトゥーンから抽出されたイメージであって、カットを含んでよい。第2イメージは、第1イメージが示すテクスチャへの変換の対象となるイメージをであってよい。第2イメージは、写真またはその他のイメージを含んでよい。
【0136】
これらの第1イメージおよび第2イメージはそれぞれ複数のイメージを含んでよく、変換モデル250を学習させるために適した形態に加工および拡張されてよい。前記学習用データとは、変換モデル250を学習させるために適した形態に加工および拡張されたデータを意味してよい。
【0137】
例えば、変換モデル250は、所定のターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージをデータ拡張して生成された第1学習用データと、このターゲットスタイルへの変換および(任意のターゲットカラー情報による)カラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張して生成された第2学習用データを使用して学習されてよく、上述した予め学習済みの変換モデル250は、このような第1学習用データおよび第2学習用データを使用して事前学習されたものであってよい。
【0138】
第1イメージおよび第2イメージをデータ拡張して第1学習用データおよび第2学習用データを生成する方法については、図9および図10を参照しながらより詳しく説明する。
【0139】
段階820で、コンピュータシステム100は、取得された学習用データを使用して、第2イメージをターゲットスタイルに対応するテクスチャに変換したテクスチャ変換イメージおよび第2イメージをターゲットカラー情報に対応する色に変換した色変換イメージを生成するように変換モデル250を学習させてよい。生成されたテクスチャ変換イメージとカラー変換イメージが合成されることにより、第2イメージをターゲットスタイルおよびターゲットカラー情報にしたがって変換した結果イメージが生成されてよい。
【0140】
段階820によって学習された変換モデル250は、ターゲットスタイルを示すレファレンスイメージの入力なく、ターゲットスタイルに対応するテクスチャと(ユーザによって入力される任意の)ターゲットカラー情報に対応する色を表すように(ユーザから入力される)入力イメージを変換することができる。
【0141】
以上、図1~7、図11および図13を参照しながら説明した技術的特徴の説明は、図8にもそのまま適用可能であるため、重複する説明は省略する。
【0142】
図9aおよび図9bは、一例における、変換モデルのための学習データを取得する方法を示したフローチャートである。
【0143】
一方、図10aおよび図10bは、一例における、変換モデルのための学習データを取得する方法を示した図である。図10aには、図9を参照しながら説明する段階が示されている。
【0144】
上述したように、変換モデル250は、所定のターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージをデータ拡張して生成された第1学習用データと、このターゲットスタイルへの変換および(任意のターゲットカラー情報による)カラー変換の対象となるイメージである少なくとも1つの第2イメージをデータ拡張して生成された第2学習用データを使用して学習されてよい。
【0145】
図9aを参照しながら、第1学習用データを生成する方法についてより詳しく説明する。
【0146】
第1学習用データは、変換モデル250が入力される抽象化レベルが示す抽象化程度を反映する結果イメージを生成するための学習用イメージ(ら)を含まなければならない。すなち、第1学習用データは、第1イメージに対する所定の程度の抽象化処理(すなわち、任意の抽象化レベルが示す抽象化程度を反映する処理)を模写する学習用イメージ(ら)を含むようになる。このような第1学習用データは、第1イメージに対するリサイジング処理および/または解像度変更処理によって生成されてよい。すなわち、第1学習用データは、第1イメージに対する所定の程度の抽象化処理を模写するように、リサイジング処理および解像度変更処理のうちの少なくとも1つの処理が実行されたイメージを含んでよい。
【0147】
このような第1学習用データの生成のために、段階910で、コンピュータシステム100は、第1イメージに対してリサイジング処理および解像度変更処理を実行して第1学習用データを生成してよい。コンピュータシステム100は、任意の抽象化レベルを考慮し、多様なサイズおよび/または解像度を考慮し、第1イメージに対してリサイジング処理および解像度変更処理を実行してよく、これにより、複数のイメージを含む第1学習用データを生成することができる。
【0148】
段階920で、コンピュータシステム100は、生成された第1学習用データをLab色空間のイメージに変換してよい。例えば、コンピュータシステム100は、第1学習用データをLab色空間のLコンポーネントのイメージに変換してよい。変換されたイメージは、最終的な第1学習用データとなってよい。
【0149】
図10aを参照しながら、最終的な第1学習用データを生成する方法について説明すると、所定のターゲットスタイルに対応するテクスチャを含む少なくとも1つの第1イメージはItgt RGBで表現されてよい。第1イメージItgt RGBは、ユーザから入力される任意の抽象化レベルαが示す抽象化程度の抽象化処理を模写するようにリサイジングおよび/または解像度変更処理を実行してよい。リサイジングおよび/または解像度変更処理によって生成されたイメージはRGB色空間のイメージであってよく、このようなRGB色空間のイメージは、Lab色空間のLコンポーネントのイメージに変換されてよい。最終的に生成される第1学習用データはItgt と呼ばれてもよい。第1学習用データItgt は、図7を参照しながら説明した変換モデル250に入力されてよく、変換モデル250をターゲットスタイルのテクスチャを模倣するように実現するための損失関数の計算のために使用されてよい。
【0150】
図9bを参照しながら、第2学習用データを生成する方法についてより詳しく説明する。
【0151】
第2学習用データは、第2イメージを任意の色にカラー変換した学習用変換イメージを含んでよい。第2学習用データは、変換モデル250が入力されるターゲットカラー情報に対応する色を反映する結果イメージを生成するための学習用イメージ(ら)を含まなければならない。すなわち、第2学習用データは、第2イメージに対する任意のカラー変更(すなわち、任意のターゲットカラー情報に対応する色を反映する処理)を模写する学習用変換イメージ(ら)を含むようになる。このような学習用変換イメージを含む第2学習用データは、後述する変換段階930~980によって生成されてよい。
【0152】
段階930で、コンピュータシステム100は、第2イメージおよび第2イメージを単純化処理することによって生成される第2イメージのカラーマップの少なくとも1つをHSV色空間のイメージに変換してよい。イメージ単純化処理は、例えば、スーパーピクセル(supserpixel)アルゴリズムに基づいて実行されてよい。コンピュータシステム100は、第2イメージおよび第2イメージのカラーマップの両方をHSV色空間のイメージに変換してよい。HSV色空間は、色(Hue)、彩度(Saturation)、明度(Value)の座標を用いて特定の色を指定することによって表現される色空間であってよい。
【0153】
段階950で、コンピュータシステム100は、変換されたHSV色空間のイメージおよびを任意の色に変換してよい。ここで、「任意の色」とは、ユーザが入力可能な任意のターゲットカラー情報に対応してよい。任意の色は、任意に選択された色であってよい。段階950のカラー変換により、上述した学習用変換イメージ(ら)が生成されてよい。
【0154】
段階980で、コンピュータシステム100は、段階950で生成された学習用変換イメージ(ら)をRGB色空間のイメージに変換してよい。
【0155】
一方、一実施形態では、段階950で生成された学習用変換イメージ(ら)の明るさ情報Lを補正することによって、変換モデル250を学習させるためにより適した第2学習用データを生成してよい。例えば、段階940で、コンピュータシステム100は、追加で第2イメージおよび第2イメージを単純化処理することによって生成される第2イメージのカラーマップのうちの少なくとも1つをLab色空間のイメージにさらに変換してよい。コンピュータシステム100は、第2イメージおよび第2イメージのカラーマップの両方をLab色空間のイメージに変換してよい。段階945で、コンピュータシステム100は、このような変換されたLab色空間のイメージのL情報(Lコンポーネント)を抽出してよい。このような抽出されたL情報は、例えば、段階950で生成されたカラー変換されたイメージのL情報を補正するために使用されてよい。このようなL情報の抽出は、L情報のキャッシングと呼ばれてもよい。すなわち、段階960で、コンピュータシステム100は、段階950で任意の色に変換されたHSV色空間のイメージをLab色空間のイメージに変換することができる。段階970で、コンピュータシステム100は、段階960で変換されたLab色空間のイメージのL情報を、段階945で抽出されたL情報(すなわち、キャッシングされたL情報)に置き換えてよい。段階980で、コンピュータシステム100は、段階970の結果物であるLab色空間のイメージをRGB色空間のイメージに変換してよい。これにより、段階950で生成された学習用変換イメージ(ら)は、L情報をより適切な値に補正することができる。
【0156】
これと関連して、図10bには、L情報が段階940~970で補正された場合とそうでない場合のイメージの差が示されている。例えば、(c)はHSV色空間のイメージを示しており、(d)はHSV色空間のイメージであって、上述した方法によってL情報が補正された場合を示している。(d)の場合のイメージがより自然な明るさを表していることを確認することができる。すなわち、上述した方法によって明るさの急変を抑制することができ、HSV色空間へのイメージ変換時に明るさ情報が損失されるという問題を解消することができる。したがって、L情報が補正された場合の学習用変換イメージが、変換モデル250の訓練により適していると言える。
【0157】
したがって、段階930~980により、変換モデル250を学習させるために適した第2学習用データを取得することができる。
【0158】
図10aを参照しながら、最終的な第2学習用データを生成する方法について説明すると、ターゲットスタイルへの変換およびターゲットカラー情報へのカラー変換の対象となる少なくとも1つの第2イメージは、Isrc RGBで表現されてよい。第2イメージIsrc RGBは、イメージ単純化処理によってカラーマップCsrc RGBに変換されてよい。第2イメージIsrc RGBとカラーマップCsrc RGBは、HSV変換基盤のデータ拡張プロセス1030によってそれぞれ学習用変換イメージ1040、1050に変換されてよい。HSV変換基盤のデータ拡張プロセス1030は、上述した段階930~980によって実行されてよい。学習用変換イメージ1040は、第2イメージIsrc RGBを任意のカラー変更処理によって拡張したものであってよい。学習用変換イメージ1050は、カラーマップCsrc RGBを任意のカラー変更処理によって拡張したものであってよい。学習用変換イメージ1040、1050は、RGB色空間のイメージであってよい。学習用変換イメージ1040は、Lab色空間のabコンポーネントのイメージに変換されてよい。一方、学習用変換イメージ1050は、Lab色空間のイメージに変換されてよい。最終的に生成される第2学習用データは、学習用変換イメージ1040から生成された
(外26)
と学習用変換イメージ1050から生成された
(外27)
と呼ばれてもよい。第2学習用データ
(外28)
は、図7を参照しながら説明した変換モデル250に入力されてよく、変換モデル250のカラーデコーダ760に入力されてよい。第2学習用データ
(外29)
は、変換モデル250に入力されてよく、変換モデル250をターゲットカラー情報の色が反映された結果イメージを生成するように実現するための損失関数の計算のために使用されてよい。
【0159】
一方、第2イメージIsrc RGB自体も、変換モデル250のための学習データとなってよい。第2イメージIsrc RGBはLab色空間のイメージに変換されてよく、変換されたイメージIsrc Labは変換モデル250に入力されてよい。
【0160】
すなわち、変換モデル250は、第1学習用データをLab色空間のLコンポーネントのイメージに変換したイメージ(すなわち、最終的な第1学習用データ)Itgt 、第2イメージをLab色空間のイメージに変換したイメージIsrc Lab、第2イメージを任意の色に変換したイメージをLab色空間のabコンポーネントのイメージに変換したイメージ
(外30)
、および第2イメージのカラーマップをLab色空間のイメージに変換したイメージ
(外31)
を使用して学習されることができる。学習用データおよび実施形態で説明する「イメージ」とは、イメージを表すデータを包括する意味として使用した。
【0161】
以上、図1~8、図11、および図13を参照しながら説明した技術的特徴についての説明は、図9および図10にもそのまま適用可能であるため、重複する説明は省略する。
【0162】
図12は、一例における、識別子ネットワークの構造を示した図である。
【0163】
識別子ネットワーク1200は、変換モデル250に含まれる識別子(discriminator)であってよい。変換モデル250は、識別子ネットワーク1200を利用する敵対的学習によって実現されてよい。
【0164】
変換モデル250は、5つの損失関数を使用して学習されてよい。
【0165】
5つの損失関数はそれぞれ、Lcontent vgg、Ltexture vgg、Lcolor vgg、Ltexture adv、Lcolor advと呼ばれてよい。
【0166】
このうち、Ltexture adv、Lcolor advは、識別子ネットワーク1200の敵対的損失関数を示してよい。敵対的損失関数は、上述したテクスチャデコーダ740とカラーデコーダ750に対して使用されてよい。一方、Lcontent vggLtexture vgg、Lcolor vggは、入力イメージおよび/またはターゲットイメージ(ターゲットスタイルのテクスチャを有するイメージ)に対して比較がなされる損失関数であってよい。
【0167】
また、Lcontent vgg、Ltexture vgg、Ltexture advはテクスチャ変換と関連する損失関数であり、Lcolor vgg、Lcolor advはカラー変換と関連する損失関数であってよい。
【0168】
テクスチャデコーダ740で生成された結果物は、VGGネットワークを通過した後、イメージ(例えば、上述した第2イメージ)に対する復元損失関数が計算されてよく、VGGネットワークを通過した特徴マップは、グラム行列が計算された後、ターゲットスタイルに該当するイメージに対応するグラム行列との損失関数が計算されてよい。
【0169】
カラーデコーダ750で生成された結果物は、VGGネットワークを通過した後、カラーデータ拡張過程を経たイメージ
(外32)
との損失関数が計算されてよい。このような損失関数によって、ユーザによって入力される多様なターゲットカラー情報に対応する色が反映された結果イメージを生成することができる。
【0170】
以下では、各損失関数についてより詳しく説明する。
【0171】
まず、テクスチャデコーダ740の損失関数について説明する。
【0172】
texture advは、変換モデル250がターゲットスタイルに対応するテクスチャ(例えば、カートゥーンドメインのテクスチャ)を模倣するようにするための敵対的損失を示してよく、数式(1)のように表現されてよい。
【0173】
【数1】
【0174】
Gは、テクスチャ変換のためのネットワーク(すなわち、カートゥーン化ネットワーク)を示してよく、与えられた抽象化因子(抽象化レベル)αへの
(外33)
は、複数の抽象化識別ネットワーク(multi-abstraction discriminator)であってよい。
【0175】
content vggは、テクスチャ変換されたイメージ(すなわち、カートゥーン化されたイメージ)が原本イメージのセマンティック情報を保存できるようにするためのコンテンツ損失(content loss)を示してよく、数式(2)のように表現されてよい。
【0176】
【数2】
【0177】
変換モデル250には、グラム行列を計算するために予め訓練されたVGG19ネットワークのconv4_4層が使用されてよい。
【0178】
また、テクスチャ変換のためのネットワーク(すなわち、カートゥーン化ネットワーク)は、数式(3)で表現されるグラム基盤の損失(Gram-based loss)によってハイレベル(high-level)のテクスチャ表面を学習するように構成されてよい。
【0179】
【数3】
【0180】
一方、出力に対して空間スムージング(spatial smoothness)を付与するための最終的な変形損失(variation loss)は、数式(4)のように表現されてよい。
【0181】
【数4】
【0182】
バランシングパラメータ
(外34)
に対して、テキストデコーダ740の最終的な損失関数は、数学(5)のように表現されてよい。
【0183】
【数5】
【0184】
次に、カラーデコーダ750の損失関数について説明する。
【0185】
敵対的損失および知覚色損失(perceptual color loss)が使用されてよい。敵対的損失Lcolor advはテクスチャデコーダ740と関連して説明したものと同じであるが、カラーマップ
(外35)
が条件情報として注入される点のみ異なる。敵対的損失は、数式(6)のように表現されてよい。
【0186】
【数6】
【0187】
Dは、カラー変換の識別ネットワーク(discriminator)であってよい。Gは、カラー変換のためのネットワークを示してよい。
【0188】
知覚損失(知覚色損失)は、プレーンVGG基盤の距離(plain VGG-based distance)であってよい。生成されたイメージとGT(Ground-Truth)イメージはab色空間のイメージであるため、VGGネットワークに入力される前に再びRGB色空間に変換されなければならない。abチャネルのイメージは、原本イメージから抽出された明るさイメージであるIsrc と結合されてよい。カラーデコーダ750からの出力は
(外36)
と呼ばれてよく、
(外37)
である。知覚色損失Lcolor vggは、数式(7)のように計算されてよい。
【0189】
【数7】
【0190】
カラーデコーダ750の最終的な損失関数は、数式(8)のように表現されてよい。
【0191】
【数8】
【0192】
ラムダは、バランシングパラメータを示してよい。
【0193】
変換モデル250の全体的なフレームワークは、最終損失を使用してエンドツーエンド方式で学習されてよい。全体損失は
(外38)
となってよい。
【0194】
以上、図1~11、および図13を参照しながら説明した技術的特徴の説明は、図12にもそのまま適用可能であるため、重複する説明は省略する。
【0195】
上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)およびOS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。
【0196】
ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、仮想装置(virtual equipmet)、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。
【0197】
実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータによって実行可能なプログラムを継続して記録するものであってもよいし、実行またはダウンロードのために一時的に記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続させる媒体はもちろん、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD-ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令が記録されるように構成されたものが挙げられる。また、他の媒体の例として、アプリケーションを流通するアプリストアや、その他の多様なソフトウェアを供給したり流通したりするサイト、サーバなどで管理する記録媒体や格納媒体も含まれる。
【0198】
以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。
【0199】
したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。
【符号の説明】
【0200】
100:コンピュータシステム
110:通信部
120:プロセッサ
130:メモリ
140:入力/出力インタフェース
図1
図2A
図2B
図3
図4A
図4B
図5
図6
図7
図8
図9A
図9B
図10A
図10B
図11
図12
図13