(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-12-22
(54)【発明の名称】画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム
(51)【国際特許分類】
G06T 3/00 20060101AFI20221215BHJP
G06T 7/00 20170101ALI20221215BHJP
G06V 10/82 20220101ALI20221215BHJP
【FI】
G06T3/00 705
G06T7/00 350C
G06V10/82
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2022523029
(86)(22)【出願日】2020-10-27
(85)【翻訳文提出日】2022-04-15
(86)【国際出願番号】 CN2020123838
(87)【国際公開番号】W WO2021143264
(87)【国際公開日】2021-07-22
(31)【優先権主張番号】202010061014.X
(32)【優先日】2020-01-19
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲謝▼ ▲シン▼▲鵬▼
(72)【発明者】
【氏名】▲陳▼ 嘉▲偉▼
(72)【発明者】
【氏名】李 悦翔
(72)【発明者】
【氏名】▲馬▼ ▲カイ▼
(72)【発明者】
【氏名】▲鄭▼ 冶▲楓▼
【テーマコード(参考)】
5B057
5L096
【Fターム(参考)】
5B057CA01
5B057CA08
5B057CA12
5B057CA16
5B057CB01
5B057CB08
5B057CB12
5B057CB16
5B057CC02
5B057DA16
5B057DB02
5B057DB06
5B057DB09
5B057DC22
5B057DC25
5B057DC36
5B057DC40
5L096HA11
5L096JA03
5L096JA18
5L096KA04
5L096KA15
(57)【要約】
画像処理方法、装置、コンピュータ機器、及び記憶媒体に関する。前記方法は、サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップ(101)と、前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップ(102)と、前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップ(103)と、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップ(104)と、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップ(105)と、前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップ(106)と、処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップ(107)と、を含む。
【特許請求の範囲】
【請求項1】
サーバが実行する画像処理方法であって、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
を含む画像処理方法。
【請求項2】
前記参照画像は、第1参照画像及び第2参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する前記ステップは、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得するステップを含み、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する前記ステップは、
前記敵対的ネットワークを用いて、前記第1参照画像と前記サンプル画像との間の類似度を予測するステップと、
前記第1参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項1に記載の画像処理方法。
【請求項3】
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、順方向サンプル画像を含み、前記第1参照画像は、第1順方向参照画像を含み、前記第2参照画像は、第2順方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップは、
前記順方向生成ネットワークを用いて、前記順方向サンプル画像に対してスタイル変換処理を行うことにより、第1順方向参照画像を取得するステップと、
前記逆方向生成ネットワークを用いて、前記第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項4】
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、逆方向サンプル画像を含み、前記第1参照画像は、第1逆方向参照画像を含み、前記第2参照画像は、第2逆方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップは、
前記逆方向生成ネットワークを用いて、前記逆方向サンプル画像に対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得するステップと、
前記順方向生成ネットワークを用いて、前記第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項5】
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップの後、
前記サンプル画像と第2参照画像との間の変換損失を計算するステップを含み、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する前記ステップは、
前記変換損失、前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップを含む、
請求項2に記載の画像処理方法。
【請求項6】
前記第1参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算する前記ステップは、
前記第1参照画像と前記サンプル画像との間の類似度が所定の順方向範囲に属する場合、前記第1参照画像の画像スタイルタイプを第1参照画像の画像スタイルタイプとして決定するステップと、
前記第1参照画像と前記サンプル画像との間の類似度が所定の逆方向範囲に属する場合、前記第1参照画像の画像スタイルタイプを第2参照画像の画像スタイルタイプとして決定するステップと、
前記第1参照画像の画像スタイルタイプを統計することにより、統計結果を取得するステップと、
前記統計結果に基づいて、前記第1参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項7】
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定する前記ステップは、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップを含み、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップを含む、
請求項1に記載の画像処理方法。
【請求項8】
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行う前記ステップは、
前記参照画像の全ての局所画像の中から局所参照画像を決定し、前記サンプル画像の全ての局所画像の中から局所サンプル画像を決定するステップであって、前記局所参照画像の前記参照画像における位置と、前記局所サンプル画像の前記サンプル画像における位置とが同じである、ステップと、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出するステップと、
前記局所参照コンテンツ特徴と前記局所サンプルコンテンツ特徴とを比較することにより、前記局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得するステップと、
前記局所コンテンツ損失に基づいて、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、を含む、
ことを特徴とする請求項7に記載の画像処理方法。
【請求項9】
前記シャムネットワークのコンテンツ監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含み、前記第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有し、シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する前記ステップは、
前記第1エンコーダを用いて、前記局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、前記局所サンプル画像の局所サンプルコンテンツ特徴を取得するステップと、
前記第2エンコーダを用いて、前記局所参照画像に対してコンテンツ特徴抽出を行うことにより、前記局所参照画像の局所参照コンテンツ特徴を取得するステップと、を含む、
請求項8に記載の画像処理方法。
【請求項10】
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
前記参照画像の全ての局所画像の中から第1局所参照画像および第2部分参照画像を決定し、前記サンプル画像の全ての局所画像の中から第1局所サンプル画像及び第2局所サンプル画像を決定するステップであって、前記第1局所参照画像と第2局所参照画像は、前記参照画像において、異なる位置にあり、前記第1局所サンプル画像と第2局所サンプル画像は、前記サンプル画像において、異なる位置にあるステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、前記第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、前記第2局所サンプル画像のスタイル特徴に対応する第2局所サンプルスタイル特徴を抽出するステップと、
前記第1局所参照スタイル特徴と前記第2局所参照スタイル特徴とを比較することにより、前記第1局所参照画像と前記第2局所参照画像との間の局所スタイル損失を取得するステップと、
前記第1局所サンプルスタイル特徴と前記第2局所サンプルスタイル特徴とを比較することにより、前記第1局所サンプル画像と前記第2局所サンプル画像との間の局所スタイル損失を取得するステップと、
前記第1局所参照画像と前記第2局所参照画像との間の局所スタイル損失に基づいて、前記参照画像の局所スタイル損失を計算し、前記第1局所サンプル画像と前記第2局所サンプル画像との間の局所スタイル損失に基づいて、前記サンプル画像の局所スタイル損失を計算するステップと、を含む、
請求項7に記載の画像処理方法。
【請求項11】
前記シャムネットワークのスタイル監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含み、前記第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有し、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、前記第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、前記第2局所サンプル画像のスタイル特徴に対応する第2局所サンプルスタイル特徴を抽出する前記ステップは、
前記第1エンコーダを用いて、前記第1局所参照画像、前記第1局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第1局所参照画像に対応する第1局所参照スタイル特徴と、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴とを取得するステップと、
前記第2エンコーダを用いて、前記第2局所参照画像、前記第2局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第2局所参照画像に対応する第2局所参照スタイル特徴と、前記第2局所サンプル画像に対応する第2局所サンプルスタイル特徴とを取得するステップと、を含む、
請求項10に記載の画像処理方法。
【請求項12】
前記訓練後の生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含み、処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する前記ステップは、
スタイルタイプ変換指示を取得するステップと、
前記スタイルタイプ変換指示が順方向変換指示である場合、前記訓練後の順方向生成ネットワークを用いて、前記処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
前記スタイルタイプ変換指示が逆方向変換指示である場合、前記訓練後の逆方向生成ネットワークを用いて、前記処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を含む、
請求項1に記載の画像処理方法。
【請求項13】
画像処理装置であって、
サンプル画像及び敵対的生成ネットワークを取得する取得ユニットであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、取得ユニットと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する初期変換ユニットと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する認識ユニットと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するコンテンツユニットと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するスタイルユニットと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する訓練ユニットと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する再変換ユニットと、
を含む装置。
【請求項14】
プロセッサとメモリとを備えるサーバであって、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、請求項1乃至12のいずれか1項に記載の画像処理方法のステップを前記プロセッサに実行させるサーバ。
【請求項15】
コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体であって、前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、請求項1乃至12のいずれか1項に記載の画像処理方法のステップを1つ又は複数のプロセッサに実行させる記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、2020年1月19日に中国特許庁に提出された、出願番号が第202010061014X号であり、発明の名称が「画像処理方法、装置、サーバ、及び記憶媒体」である、中国特許出願に基づく優先権を主張し、その全ての内容が、参照することにより本願に組み込まれている。
【0002】
本願は、コンピュータ分野に関し、具体的に、画像処理方法、装置、サーバ、及び記憶媒体に関する。
【背景技術】
【0003】
人工知能(AI:Artificial Intelligence)は、デジタルコンピュータを利用して、人間による環境の知覚、知識の取得、及び知識の使用をシミュレーションする技術であり、人間の知覚、推論、及び意思決定に類似した機能を機械に持たせることができる。人工知能技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習や深層学習などのいくつかの方面を含む。
【0004】
そのうち、コンピュータビジョン(CV:Computer Vision)は、人の目の代わりに、コンピュータを利用して、ターゲット画像に対して認識、測定などの操作を行い、さらに、処理を行う技術である。コンピュータビジョン技術は、通常、画像処理、画像認識、画像意味理解、画像検索、仮想現実、拡張現実、同期測位及び地図構築などの技術(例えば、画像着色、画像ストローク抽出などの画像処理技術)を含む。
【0005】
現在、コンピュータビジョン技術による画像スタイルタイプ変換方法で生成される画像には、例えば、画像の局所変形、画像の色情報の欠落、画像スタイルタイプの誤りなどの様々な画像歪みの問題があることが多い。このため、従来の画像処理方法で生成される画像は、品質が低い。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本願で提供される各種の実施例によれば、画像処理方法、装置、サーバ、及び記憶媒体が提供されている。
【課題を解決するための手段】
【0007】
本願の実施例は、サーバが実行する画像処理方法を提供する。前記方法は、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を含む。
【0008】
また、本願の実施例は、サーバが実行する画像処理装置を提供する。前記装置は、
サンプル画像及び敵対的生成ネットワークを取得する取得ユニットであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、取得ユニットと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する初期変換ユニットと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する認識ユニットと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するコンテンツユニットと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するスタイルユニットと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する訓練ユニットと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する再変換ユニットと、を含む。
【0009】
また、本願の実施例は、プロセッサとメモリとを備えるサーバを提供する。前記メモリには、コンピュータ可読が記憶され、前記コンピュータ可読は、前記プロセッサによって実行されると、本願の実施例で提供されるいずれか1つの画像処理方法のステップを前記プロセッサに実行させる。
【0010】
また、本願の実施例は、コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体を提供する。前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、本願の実施例で提供されるいずれか1つの画像処理方法のステップを1つ又は複数のプロセッサに実行させる。
【0011】
本願の1つ又は複数の実施例の詳細は、以下の図面及び説明に記載されている。本願の他の特徴、目的、及びメリットは、明細書、図面、及び特許請求の範囲から明らかになる。
【0012】
本願の実施例の構成をより明確に説明するために、以下に、実施例の説明に必要な図面を簡単に紹介する。明らかに、以下の説明における図面は本願のいくつかの実施例を示しているに過ぎず、当業者であれば、創造的な労働をすることなく、これらの図面から他の図面を得ることもできる。
【図面の簡単な説明】
【0013】
【
図1a】本願の実施例で提供される画像処理方法のシナリオの模式図である。
【
図1b】本願の実施例で提供される画像処理方法の1つ目のプロセスの模式図である。
【
図1c】本願の実施例で提供される画像処理方法のネットワーク構成の模式図である。
【
図1d】本願の実施例で提供される画像処理方法のcycle-GANの模式図である。
【
図1e】本願の実施例で提供される画像処理方法のGANの模式図である。
【
図1f】本願の実施例で提供される画像処理方法の品質監視制御ネットワークの構成の模式図である。
【
図2a】本願の実施例で提供される画像処理方法の2つ目のプロセスの模式図である。
【
図2b】本願の実施例で提供される画像処理方法のストリートスケープピクチャの模式図である。
【
図2c】本願の実施例で提供される画像処理方法の正のサイクルの模式図である。
【
図2d】本願の実施例で提供される画像処理方法の逆のサイクルの模式図である。
【
図2e】本願の実施例で提供される画像処理方法の品質監視制御プロセスの模式図である。
【
図2f】本願の実施例で提供される画像処理方法の変換プロセスの模式図である。
【
図3】本願の実施例で提供される画像処理装置の1つ目の構成の模式図である。
【
図4】本願の実施例で提供されるサーバの構成の模式図である。
【発明を実施するための形態】
【0014】
本願の目的、構成、及びメリットをより明確にするために、以下、図面及び実施例を参照しながら、本願をさらに詳細に説明する。理解すべきものとして、ここで説明される具体的な実施例は、本願を解釈するためのものに過ぎず、本願を限定するためのものではない。
【0015】
以下、本願の実施例の図面を参照しながら、本願の実施例の構成を明確かつ完全に説明するが、明らかなように、説明する実施例は、本願の一部の実施例に過ぎず、全部の実施例ではない。当業者が創造的な労働をせずに本願の実施例から得る全ての他の実施例は、本願の保護範囲に属する。
【0016】
本願の実施例は、画像処理方法、装置、サーバ、及び記憶媒体を提供する。
そのうち、該画像処理装置は、具体的に、電子機器に組み込まれ得、該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース(登録商標)機器、ノートパソコン、又はパーソナルコンピュータ(PC:Personal Computer)などの機器であってもよい。サーバは、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ、又は分散型システムであってもよいし、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、CDN、及びビッグデータや人工知能プラットフォームなどのベースクラウドコンピューティングサービスを提供するクラウドサーバであってもよい。
【0017】
いくつかの実施例では、該画像処理装置が複数の電子機器に組み込まれ得る。例えば、画像処理装置が複数のサーバに組み込まれ、複数のサーバが本願の画像処理方法を実現するようにしてもよい。
【0018】
いくつかの実施例では、サーバを端末の形態で実現してもよい。
例えば、
図1aを参照すると、該サーバは、画像処理機器を搭載することができる。該サーバは、データベースから、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、参照画像とサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することができる。ユーザによりアップロードされた処理対象の画像を取得すると、該サーバは、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得し、該スタイル変換後の画像をユーザに返信することができる。
【0019】
以下、それぞれ詳細に説明する。説明すべきものとして、以下の実施例の番号は、実施例の好ましい順序を限定するものではない。
機械学習(ML:Machine Learning)は、データの初歩的な認識と学習目的とに基づいて一連の分析を行い、数学モデルにおけるパラメータを訓練し、最後に、訓練後のモデルを用いて、データに対して分析予測を行う方法である。機械学習の方法は、通常、深層学習、決定木アルゴリズム、ベイズアルゴリズム、サポートベクターマシンアルゴリズム、ランダムフォレストアルゴリズム、人工ニューラルネットワークアルゴリズム、関連ルールアルゴリズム、及び期待値最大化アルゴリズムなどを含む。
本実施例では、機械学習に基づく画像処理方法が提供されている。
図1bに示すように、該画像処理方法の具体的なプロセスは、以下のようにしてもよい。
101では、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得する。
【0020】
本発明の実施例は、画像処理に用いることができる。画像スタイルタイプがアノテーションされた画像データは、敵対的生成ネットワークにおける生成ネットワーク及び敵対的ネットワークを訓練するためのサンプル画像とすることができる。
【0021】
該生成ネットワークは、画像の画像スタイルタイプを変換するために使用することができる。ここで、該画像スタイルタイプは、画像の芸術スタイルタイプ、例えば、芸術ジャンルスタイルタイプ、芸術時代スタイルタイプ、カスタムスタイルタイプなどであってもよい。例えば、芸術ジャンルスタイルタイプは、印象派、抽象派、写実派などを含んでもよく、芸術時代スタイルタイプは、伝統古典派、現代写実派などを含んでもよい。
【0022】
該敵対的生成ネットワークは、任意のタイプの敵対的生成ネットワーク(GAN:Generative Adversarial Networks)であってもよく、少なくとも1つの生成ネットワーク(Generative Model)及び認識ネットワーク(Discriminative Model)を含む。訓練過程において、生成ネットワークと認識モデルは、互いに競合して学習することができる。これにより、ネットワークパラメータを最適化し、ネットワーク出力の性能を良好にする。
【0023】
例えば、いくつかの実施形態において、敵対的生成ネットワークは、任意の敵対的生成ネットワーク(GAN:Generative Adversarial Networks)、例えば、条件付き敵対的生成ネットワーク(CGAN:Conditional Generative Adversarial Networks)、深層畳み込み敵対的生成ネットワーク(DCGAN:Deep Convolutional Generative Adversarial Networks)、ワッサースタイン敵対的生成ネットワーク(WGAN:Wasserstein Generative Adversarial Networks)、サイクル敵対的生成ネットワーク(Cycle-GAN:Cycle Generative Adversarial Networks)などであってもよい。
【0024】
ここで、該生成ネットワークは、画像スタイルタイプ変換に用いられる人工ニューラルネットワークモデルであってもよく、敵対的ネットワークは、画像全体スタイル認識に用いられる人工ニューラルネットワークモデルであってもよい。
【0025】
いくつかの実施例において、敵対的生成ネットワークは、任意のVGGネットワーク(Visual Geometry Group Network)、例えば、VGG16、VGG19などであってもよい。
【0026】
サンプル画像及び敵対的生成ネットワークを取得する具体的な方式が複数あり、サンプル画像と敵対的生成ネットワークを取得する方式は、同じであってもよいし、異なってもよい。具体的な取得方法として、ネットワークを介してサンプルデータベースから取得したり、ローカルメモリから読み取ったり、ローカルの技術者の入力から取得したりしてもよい。
102では、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する。
【0027】
敵対的生成ネットワークは、サンプル画像に対してスタイル変換処理を行うことができる。ここで、スタイル変換処理とは、画像によって表現されるコンテンツの完全性を保証しながら、画像の局所的又は全体的なスタイルタイプを他のスタイルタイプに変換することである。
【0028】
例えば、あるスタイルタイプの絵画を、現代スタイルタイプ、写実スタイルタイプ、伝統スタイルタイプに全体的に変換する。また、例えば、あるスタイルタイプの写真を、晴天スタイルタイプ、陰雨スタイルタイプ、靄スタイルタイプに全体的に変換する。また、例えば、あるスタイルタイプの写真を、ユーザがカスタマイズしたスタイルタイプに部分的に変換する。
【0029】
いくつかの実施例において、
図1cを参照すると、敵対的生成ネットワークは、生成ネットワーク及び敵対的ネットワークを含んでもよく、参照画像は、第1参照画像及び第2参照画像を含んでもよく、ステップ102は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得することであってもよい。
【0030】
いくつかの実施例において、画像処理の効率、及び最終的に生成される画像の品質を保証するために、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、サンプル画像は、順方向サンプル画像を含み、第1参照画像は、第1順方向参照画像を含み、第2参照画像は、第2順方向参照画像を含む。
図1cを参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する」というステップは、具体的に、
順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第1順方向参照画像を取得するステップと、
逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得するステップと、を含んでもよい。
【0031】
ここで、順方向生成ネットワークと逆方向生成ネットワークは、ネットワーク構成が類似する。順方向生成ネットワークにおいて、サンプル画像の画像スタイルタイプを他の画像スタイルタイプに変換することができるが、逆方向生成ネットワークは、順方向生成ネットワークから出力されたスタイル変換後の画像に対して、スタイルタイプの復元を行うことにより、スタイル変換後の画像をできるだけサンプル画像の最初の画像スタイルタイプに近くすることができる。即ち、順方向生成ネットワークの入力画像と逆方向生成ネットワークの出力画像は、同じであるか又は類似し、順方向生成ネットワークの出力画像と逆方向生成ネットワークの入力画像は、同じであるか又は類似する。
【0032】
サンプル画像は、画像スタイルタイプが異なるが、表現コンテンツが類似したペアとなる順方向サンプル画像と逆方向サンプル画像を含んでもよい。即ち、逆方向サンプル画像は、順方向サンプル画像をスタイルタイプ変換した画像である。
【0033】
この場合、いくつかの実施例において、ステップ103では、敵対的ネットワークを用いて、第1参照画像とサンプル画像との間の類似度を予測し、第1参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算してもよい。
【0034】
これにより、敵対的ネットワークは、第1参照画像の全体的な画像スタイルタイプを限定することにより、画像スタイルタイプ変換の正確さを向上させることができる。
【0035】
いくつかの実施例において、第1参照画像は、第1順方向参照画像を含んでもよく、第2参照画像は、第2順方向参照画像を含んでもよい。ここで、第1順方向参照画像とは、順方向サンプル画像に対して、順方向生成ネットワークにおける1回目の画像スタイルタイプ変換を行った後に生成された画像であり、第2順方向参照画像とは、第1順方向参照画像に対して、順方向生成ネットワークにおける2回目の画像スタイルタイプ変換を行った後に生成された画像である。
【0036】
このため、いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含んでもよく、第1参照画像は、第1逆方向参照画像を含んでもよく、第2参照画像は、第2逆方向参照画像を含んでもよい。
図1dの正のサイクルの部分を参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する」というステップは、具体的に、
順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第1順方向参照画像を取得するステップと、
逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得するステップと、を含んでもよい。
【0037】
いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含み、第1参照画像は、第1逆方向参照画像を含み、第2参照画像は、第2逆方向参照画像を含み、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する」というステップは、具体的に、
逆方向生成ネットワークを用いて、逆方向サンプル画像に対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得するステップと、
順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得するステップと、を含む。
【0038】
例えば、
図1cを参照する。
図1cに示されたのは、Cycle-GANネットワークである。そのうち、
図1dの上図は、Cycle-GANネットワークの正のサイクルの構成である。正のサイクルでは、まず、順方向サンプル画像が順方向生成ネットワークに入力されて、第1順方向参照画像が生成され、次に、第1順方向参照画像が逆方向ネットワークに入力されて、第2順方向ネットワークが生成される。
図1dの下図は、Cycle-GANネットワークの逆のサイクルの構成である。逆のサイクルでは、まず、逆方向サンプル画像が逆方向生成ネットワークに入力されて、第1逆方向参照画像が生成され、次に、第1逆方向参照画像が順方向ネットワークに入力されて、第2逆方向ネットワークが生成される。
【0039】
いくつかの実施例では、スタイルタイプ変換の品質及び効率をさらに向上させるために、
図1cを参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得した後」というステップの後に、サンプル画像と第2参照画像との間の変換損失を計算してもよい。この場合、ステップ106は、具体的に、変換損失、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することであってもよい。
ここで、変換損失とは、2枚の画像の間の、画素、色分布、画像コンテンツなどの画像特徴における損失である。
【0040】
103では、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定する。
全体スタイルタイプとは、参照画像が画像全体で表現する画像スタイルタイプである。
【0041】
いくつかの実施例では、画像に複数の画像スタイルタイプが表現され得、該画像の全体スタイルタイプは、これらの画像スタイルタイプを総合したものであってもよい。例えば、ある絵画において、該絵画の左上隅に現代芸術スタイルが表現され、該絵画の右下隅に伝統芸術スタイルが表現され、該絵画全体の残りの部分に写実芸術スタイルが表現され、該絵画の具体的な全体スタイルタイプは、混合写実芸術スタイルである。
具体的には、いくつかの実施例において、ステップ103は、具体的に、
敵対的ネットワークを用いて、第1参照画像とサンプル画像との間の類似度を予測するステップと、
第1参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算するステップと、を含む。
【0042】
ここで、敵対的ネットワークは、第1参照画像とサンプル画像との間の類似度が属する所定の範囲を計算することにより、第1参照画像の画像スタイルタイプを決定することができる。
【0043】
他のいくつかの実施例において、敵対的ネットワークは、第1参照画像とサンプル画像との間の類似度、及び第1参照画像と逆方向サンプル画像との間の類似度をそれぞれ計算することにより、この2つの類似度の大きさに基づいて、第1参照画像の画像スタイルタイプを決定してもよい。
【0044】
例えば、いくつかの実施例において、具体的に、
敵対的ネットワークを用いて、第1参照画像とサンプル画像との間の類似度を予測し、第1参照画像と逆方向サンプル画像との間の類似度を予測するステップと
第1参照画像とサンプル画像との間の類似度が、第1参照画像と逆方向サンプル画像との間の類似度よりも高い場合、第1参照画像の画像スタイルタイプが順方向サンプル画像であると決定するステップと、
第1参照画像とサンプル画像との類似度が、第1参照画像と逆方向サンプル画像との間の類似度よりも低い場合、第1参照画像の画像スタイルタイプが逆方向サンプル画像であると決定するステップと、を含む。
【0045】
具体的に、「第1参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算する」というステップは、
第1参照画像とサンプル画像との間の類似度が所定の順方向範囲に属する場合、第1参照画像の画像スタイルタイプを第1参照画像の画像スタイルタイプとして決定するステップと、
第1参照画像とサンプル画像との間の類似度が所定の逆方向範囲に属する場合、第1参照画像の画像スタイルタイプを第2参照画像の画像スタイルタイプとして決定するステップと、
第1参照画像の画像スタイルタイプを統計することにより、統計結果を取得するステップと、
統計結果に基づいて、第1参照画像とサンプル画像との間の全体スタイル損失を計算するステップと、を含む。
104では、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定する。
【0046】
ここで、品質監視制御ネットワークを用いて、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定してもよい。品質監視制御ネットワークは、敵対的生成ネットワークの入出力間の差を監視制御するための人工ニューラルネットワークモデルであってもよい。
【0047】
該品質監視制御ネットワークは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、全結合ニューラルネットワーク(FNN:Full Connected Network)、(CNN:Convolutional Neural Networks)、深層ニューラルネットワーク(DNN:Deep Neural Networks)などであってもよい。
【0048】
いくつかの実施例において、品質監視制御ネットワークは、任意の画像比較ネットワーク、例えば、バックプロパゲーションニューラルネットワーク(BPNN:Back Propagation Neural Network)、シャムネットワーク(SN:Siamese Network)などであってもよい。
【0049】
具体的には、いくつかの実施例において、該品質監視制御ネットワークは、コンテンツ監視制御ネットワーク及びスタイル監視制御ネットワークを含んでもよい。例えば、該品質監視制御ネットワークは、シャムネットワークであってもよく、該シャムネットワークは、コンテンツ監視制御ネットワーク及びスタイル監視制御ネットワークを含み、該コンテンツ監視制御ネットワークは、ステップ104を実行するために使用することができ、該スタイル監視制御ネットワークは、ステップ105を実行するために使用することができる。
【0050】
例えば、
図1eを参照すると、コンテンツ監視制御ネットワークは、参照画像及びサンプル画像に対してコンテンツ比較分析を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を取得することができ、スタイル監視制御ネットワークは、参照画像に対してスタイルタイプ認識を行うことにより、参照画像の局所スタイル損失を取得することができる。
【0051】
図1cを参照すると、品質監視制御ネットワークは、参照画像とサンプル画像との間の品質損失を監視制御することができる。いくつかの実施例において、品質損失は、コンテンツ損失及び局所スタイル損失を含んでもよく、コンテンツ監視制御ネットワークは、コンテンツ損失を監視制御することができ、スタイル監視制御ネットワークは、局所スタイル損失を監視制御することができる。
【0052】
具体的には、いくつかの実施例では、参照画像のスタイルタイプ及びコンテンツの品質を保証するために、参照画像が変形せず、その全体スタイルタイプの表現がより均衡して安定するようにする。
図1fを参照する。
図1fに示されたのは、品質監視制御ネットワークのネットワーク構成であり、そのうち、濃色部分は、スタイル監視制御ネットワークであり、淡色部分は、品質監視制御ネットワークである。参照画像は、複数の局所参照画像を含んでもよく、サンプル画像は、複数の局所サンプル画像を含んでもよい(
図1fにおいて、参照画像は、14個の局所参照画像を含んでもよく、サンプル画像は、14個の局所サンプル画像を含んでもよい)。参照画像の全ての局所画像の中から局所参照画像を決定し、サンプル画像の全ての局所画像の中から局所サンプル画像を決定する。局所参照画像の参照画像における位置は、局所サンプル画像のサンプル画像における位置と同じである。
【0053】
シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出し、
局所参照コンテンツ特徴と局所サンプルコンテンツ特徴とを比較することにより、局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得し
局所コンテンツ損失に基づいて、参照画像とサンプル画像との間のコンテンツ損失を決定する。
【0054】
ここで、コンテンツ監視制御ネットワークは、同じ位置にある局所参照画像及び局所サンプル画像に対してコンテンツ特徴抽出を行うことができ、例えば、
図1fを参照すると、同様に第1行第4列にある局所参照画像及び局所サンプル画像に対してコンテンツ特徴抽出を行うことができる。
【0055】
いくつかの実施例において、シャムネットワークは、第1エンコーダ及び第2エンコーダを含んでもよい。シャムネットワークにおいて、該第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有する。
【0056】
ここで、いくつかの実施例において、「シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する」というステップは、
第1エンコーダを用いて、局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、局所サンプル画像の局所サンプルコンテンツ特徴を取得するステップと、
第2エンコーダを用いて、局所参照画像に対してコンテンツ特徴抽出を行うことにより、局所参照画像の局所参照コンテンツ特徴を取得するステップと、を含んでもよい。
【0057】
例えば、
図1fを参照すると、第1エンコーダは、局所サンプル画像Aに対してコンテンツ特徴抽出を行うことにより、局所サンプル画像Aの局所コンテンツ特徴を取得することができ、第2エンコーダは、局所参照画像Bに対してコンテンツ特徴抽出を行うことにより、局所参照画像Bの局所コンテンツ特徴を取得することができる。
【0058】
105では、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定する。
【0059】
ステップ104と類似して、いくつかの実施例において、ステップ「105は、シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定することであってもよい。
【0060】
具体的に、「シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定する」というステップは、
参照画像の全ての局所画像の中から、第1局所参照画像及び第2局所参照画像を決定し、サンプル画像の全ての局所画像の中から、第1局所サンプル画像及び第2局所サンプル画像を決定するステップであって、第1局所参照画像と第2局所参照画像は、参照画像において異なる位置にあり、第1局所サンプル画像と第2局所サンプル画像は、サンプル画像において異なる位置にある、ステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、第2局所サンプル画像のスタイル特徴に対応する第2局所サンプルスタイル特徴を抽出するステップと、
第1局所参照スタイル特徴と第2局所参照スタイル特徴とを比較することにより、第1局所参照画像と第2局所参照画像との間の局所スタイル損失を取得するステップと、
第1局所サンプルスタイル特徴と第2局所サンプルスタイル特徴とを比較することにより、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失を取得するステップと、
第1局所参照画像と第2局所参照画像との間の局所スタイル損失に基づいて、参照画像の局所スタイル損失を計算し、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失に基づいて、サンプル画像の局所スタイル損失を計算するステップと、を含む。
【0061】
ここで、いくつかの実施例において、スタイル監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含んでもよく、第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有し、「訓練対象のモデルのスタイル監視制御ネットワークを用いて、第1局所参照画像、第2局所参照画像、第1局所サンプル画像、及び第2局所サンプル画像に対するスタイル特徴である第1局所参照スタイル特徴、第2局所参照スタイル特徴、第1局所サンプルスタイル特徴、及び第2局所サンプルスタイル特徴をそれぞれ抽出する」というステップは、
第1エンコーダを用いて、第1局所参照画像、第1局所サンプル画像に対してスタイル特徴抽出を行うことにより、第1局所参照画像に対応する第1局所参照スタイル特徴と、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴とを取得するステップと、
第2エンコーダを用いて、第2局所参照画像、第2局所サンプル画像に対してスタイル特徴抽出を行うことにより、第2局所参照画像に対応する第2局所参照スタイル特徴と、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴を取得するステップと、を含んでもよい。
【0062】
例えば、
図1fを参照すると、スタイル監視制御ネットワークの第1エンコーダは、局所サンプル画像Aに対してスタイル特徴抽出を行うことにより、局所サンプル画像Aのスタイルタイプコンテンツ特徴を取得することができ、スタイル監視制御ネットワークの第2エンコーダは、局所参照画像Bに対してスタイル特徴抽出を行うことにより、局所参照画像Bのスタイルタイプコンテンツ特徴を取得することができる。最後に、局所参照画像Aのスタイルタイプコンテンツ特徴と、局所参照画像Bのスタイルタイプコンテンツ特徴とに基づいて、参照画像の局所スタイル損失を予測する。
【0063】
106では、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する。
【0064】
いくつかの実施例において、ステップ102で第1参照画像の画像スタイルタイプを識別することができるため、ステップ106は、具体的に、品質損失及び画像スタイルタイプに基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の敵対的生成ネットワークを含む。
【0065】
いくつかの実施例において、ステップ102で第1参照画像と訓練画像との間の変換損失を決定することができるため、ステップ106は、具体的に、品質損失、及び第1参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の敵対的生成ネットワークを含む。
【0066】
いくつかの実施例において、ステップ102で第1参照画像の画像スタイルタイプを識別して、第1参照画像と訓練画像との間の変換損失を決定することができるため、ステップ106は、具体的に、品質損失、画像スタイルタイプ、及び第1参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の敵対的生成ネットワークを含む。
【0067】
いくつかの実施例では、複数のアルゴリズムを用いて、パラメータを調整することができる。例えば、勾配降下法を用いて、ネットワークモデルの重みパラメータを調整してもよい。例えば、バッチ勾配降下法(BGD:Batch Gradient Descent)、確率的勾配降下法(SGD:Stochastic Gradient Descent)、ネステロフ加速勾配法(NAG:Nesterov Accelerated Gradient)、適応モーメント推定法(Adam:Adaptive Moment Estimation)などのアルゴリズムを用いて、ネットワークモデルの重みパラメータを調整してもよい。
【0068】
107では、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する。
【0069】
上記ステップ101~106でモデル訓練が完了したため、ステップ107では、該訓練後の敵対的生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。
【0070】
具体的には、計算量を低減して、画像処理効率を最適化するために、訓練後の敵対的生成ネットワークには、訓練後の順方向生成ネットワーク、訓練後の逆方向ネットワークが含まれるので、処理対象の画像を取得すると、具体的に、
スタイルタイプ変換指示を取得するステップと、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を実行してもよい。
【0071】
ここで、スタイルタイプ変換指示は、スタイルタイプ情報を含んでもよく、該スタイルタイプ情報は、処理対象の画像を特定のスタイルタイプに変換するように指示することができる。
【0072】
例えば、表1を参照すると、スタイルタイプ情報が「陽光スタイルタイプから陰雨スタイルタイプへ変換」である場合、スタイルタイプ変換指示を逆方向変換指示として決定することができ、スタイルタイプ情報が「陰雨スタイルタイプから陽光スタイルタイプへ変換」である場合、スタイルタイプ変換指示を逆方向変換指示として決定することができる。
【0073】
【0074】
本願の実施例で提供される画像処理方式は、様々な画像処理シナリオに適用することができる。例えば、本発明によって、転移学習及びデータ強化を行うことができる。また、例えば、本発明は、ストリートスケープ写真に対して昼間/夜間スタイルタイプの切り替えなどを行うために使用することができる。
【0075】
例えば、処理対象の昼間ストリートスケープ画像に対し、当業者によって、同一のストリートスケープの昼間及び夜間の写真を収集し、これらの写真に基づいてモデル訓練を行い、訓練を完了した後、該訓練後のモデルの訓練後の順方向生成ネットワークを用いて、該処理対象の昼間ストリートスケープ画像に対して順方向変換処理を行うことにより、変換後の夜間ストリートスケープ画像を取得することができる。
【0076】
以上から分かるように、本願の実施例では、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。
【0077】
いくつかの実施例では、ステップ103において、サンプル画像の全体スタイルタイプを識別し、サンプル画像に該全体スタイルタイプをアノテーションし、さらに、該アノテーションされたサンプル画像を用いて生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することができる。従って、本発明の実施例に必要なサンプル画像に対して多すぎるアノテーションを行う必要がなく、ネットワークモデルの訓練を行うことができ、モデル訓練サンプルの収集、整理に必要な時間及び人件費のコストを低減させ、画像処理方法の効率を向上させる。
【0078】
本願の実施例では、参照画像とサンプル画像との間のコンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、訓練後の生成ネットワークのネットワークパラメータを最適化することができる。これにより、該訓練後の生成ネットワークを用いて生成したスタイル変換後の画像の局所的なスタイルが一致するとともに、スタイル変換後の画像のコンテンツに欠落、破損がないことが保証される。
【0079】
これにより、本発明では、優れた生成ネットワークを訓練し、該生成ネットワークのネットワーク品質を効果的に最適化することができ、訓練後の敵対的生成ネットワークで生成されたスタイル変換後の画像の画像品質を向上させる。本発明は、画像処理方法で生成されたスタイル変換後の画像の品質を向上させることができる。
【0080】
本実施例では、上記実施例に記載の方法に基づき、以下、さらに詳細に説明する。
本実施例は、自動運転のストリートスケープ認識におけるシーン画像の標準化に用いることができる。ここで、ユーザの自動運転車両は、異なる時間帯、異なるシーン(例えば、昼間、夕暮れ、夜間、陰雨など)における画像データを収集することができる。本実施例は、夜間シーン画像を昼間シーン画像に変換するか、又は、昼間シーン画像を夜間シーン画像に変換することができる。
最後に、標準化されたデータを用いて、例えば、歩行者、車両の認識、検出などのさらなる機械学習タスク訓練を行うことができる。
【0081】
以下、晴天、曇天スタイルタイプのストリートスケープピクチャの相互変換の場合を例として、本願の実施例の方法を詳細に説明する。
図2aに示すように、画像処理方法の具体的なプロセスは、以下のとおりである。
201では、晴天サンプル及び曇天サンプルを含むサンプル画像と、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワーク、スタイル監視制御ネットワーク、及びコンテンツ監視制御ネットワークを含む敵対的生成ネットワークとを取得する。
図2bを参照すると、サンプル画像は、天気スタイルタイプがアノテーションされたストリートスケープピクチャである。
モデル訓練を行う際に、ストリートスケープが同じであるが、天気スタイルタイプが異なる1対のストリートスケープピクチャを取得する必要がある。
例えば、晴天がアノテーションされた晴天の雑貨店Xのストリートスケープピクチャと、曇天がアノテーションされた曇天の雑貨店Xのストリートスケープピクチャとが1対のピクチャである。
【0082】
本実施例において、cycle-GAN及びシャムネットワークが含まれる。そのうち、cycle-GANは、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワークを含み、シャムネットワークは、スタイル監視制御ネットワーク及びコンテンツ監視制御ネットワークを含み、スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みが共有された1対のエンコーダを共有する。
本実施例において、サンプル画像は、技術者によって設定してもよいし、サーバを介して取得してもよい。
【0083】
いくつかの実施例では、サンプル画像に対して一連の前処理、例えば、データ洗浄やデータ拡張などを行ってもよい。これにより、生成される画像の品質をさらに向上させる。
【0084】
202では、順方向生成ネットワークを用いて、晴天サンプルに対してスタイル変換処理を行うことにより、第1順方向参照画像を取得し、逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得し、正のサイクルを完了し、晴天サンプルと第2順方向参照画像との間の正変換損失を決定する。
【0085】
図2cを参照する。
図2cに示されたのは、1回の正のサイクルである。ここで、順方向生成ネットワークG
ABは、晴天サンプルに対してスタイル変換処理を行うことにより、第1順方向参照画像を取得することができる。また、逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得する。
そして、晴天サンプルと第2順方向参照画像との間の正変換損失を決定することができる。
ここで、正変換損失は、晴天サンプルと、第1順方向参照画像で再構成された第2順方向参照画像とが類似するように制約する。
【0086】
203では、逆方向生成ネットワークを用いて、曇天サンプルに対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得し、順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得し、逆のサイクルを完了し、曇天サンプルと第2逆方向参照画像との間の逆変換損失を決定する。
【0087】
図2dを参照する。
図2dに示されたのは、1回の逆のサイクルである。ここで、逆方向生成ネットワークは、曇天サンプルに対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得することができる。また、順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得する。
ここで、逆方向変換損失は、曇天サンプルと、第1逆方向参照画像で再構成された第2逆方向参照画像とが類似するように制約する。
【0088】
204では、順方向敵対的ネットワークを用いて第1順方向参照画像の順方向画像スタイルタイプを識別し、逆方向敵対的ネットワークを用いて第1逆方向参照画像の逆方向画像スタイルタイプを識別する。
【0089】
図2cを参照すると、1回の正のサイクルにおいて、順方向敵対的ネットワークD
ABは、第1順方向参照画像の順方向画像スタイルタイプを識別することもできる。
【0090】
図2dを参照すると、1回の逆のサイクルにおいて、逆方向敵対的ネットワークD
BAは、第1逆方向参照画像の逆方向画像スタイルタイプを識別することもできる。
【0091】
205では、スタイル監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御する。
【0092】
敵対的生成ネットワークで生成される画像は、スタイルタイプに変形が発生する可能性があるため、ここで、スタイル監視制御ネットワークを用いて、画像全体スタイルタイプが一致するように、敵対的生成ネットワークで生成された画像全体のスタイルタイプを厳しく制約してもよい。
【0093】
図2eに示す品質監視制御過程を参照する。ここで、スタイル監視制御ネットワークは、第1順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御することができる。
スタイル監視制御ネットワークには、連結層(Concat)、畳み込み層(Conv)、全体平均プーリング層(GAP)が含まれる。
【0094】
206では、コンテンツ監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御する。
【0095】
敵対的生成ネットワークで生成される画像は、コンテンツに変形が発生する可能性があるため、ここで、コンテンツ監視制御ネットワークを用いて、変換対象の画像と変換後の画像との内容が一致するように、敵対的生成ネットワークで生成された画像全体のコンテンツを厳しく制約してもよい。
【0096】
図2eに示す品質監視制御過程を参照する。ここで、コンテンツ監視制御ネットワークは、第1順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御することができる。
コンテンツ監視制御ネットワークには、畳み込み層(Conv)、補間層(Interpolation)が含まれる。
【0097】
cAは、第1参照画像における局所画像のコンテンツ特徴であり、dAは、第1参照画像における局所画像のスタイル特徴であり、dAは、サンプル画像における局所画像のコンテンツ特徴であり、cBは、サンプル画像における局所画像のスタイル特徴である。
【0098】
cA及びcBが1×1の畳み込み層を通過すると、コンテンツ一致性損失を計算するために、最近傍補間方法で補間して、元の入力パッチのサイズに戻すことができる。
【0099】
スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みが共有された2つのエンコーダを共有する。該エンコーダは、二次元画像を特徴潜在空間に符号化することができ、その構成が、表2に示すとおりである。
【0100】
【0101】
ここで、該エンコーダは、4つの畳み込み層(Conv)と、Leaky ReLU層(L-ReLU)とを含み、各畳み込み層のパラメータ情報は、表2のlayer Infoにリストされ、チャネル数、畳み込みカーネルサイズ、パディングサイズ、及びストライドを含む。
【0102】
207では、正変換損失、逆変換損失、順方向画像スタイルタイプ、逆方向画像スタイルタイプ、順方向局所スタイル損失、逆方向局所スタイル損失、順方向コンテンツ損失、及び逆方向コンテンツ損失に基づいて、収束するまでパラメータを調整することにより、訓練後の順方向生成ネットワークと訓練後の逆方向生成ネットワークとを含む訓練後のモデルを取得する。
このステップについて、ステップ104を参照し、ここではこれ以上の説明を省略する。
【0103】
208では、処理対象の晴天画像を取得すると、訓練後の順方向生成ネットワークを用いて、処理対象の晴天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の曇天画像を取得し、処理対象の曇天画像を取得すると、訓練後の逆方向生成ネットワークを用いて、処理対象の曇天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の晴天画像を取得する。
【0104】
ステップ201~207を経ると、効果が優れる訓練後の順方向生成ネットワークGAB及び訓練後の逆方向生成ネットワークGBAを取得することができ、GAB及びGBAに基づいて、双方向の画像スタイルタイプ変換を同時に実現することができる。
【0105】
図2fを参照すると、本発明では、ユーザがフロントエンドAを介して処理対象の画像をバックエンドに伝送することができる。バックエンドサーバにおいて、本発明で提供される画像処理方法は、処理対象の画像に対してスタイルタイプ変換を行い、最後に、処理済みの画像をフロントエンドBに伝送することができる。
【0106】
以上から分かるように、本願の実施例では、晴天サンプル及び曇天サンプルを含むサンプル画像と、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワーク、スタイル監視制御ネットワーク、及びコンテンツ監視制御ネットワークを含む敵対的生成ネットワークと、を取得し、順方向生成ネットワークを用いて、晴天サンプルに対してスタイル変換処理を行うことにより、第1順方向参照画像を取得し、逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得し、正のサイクルを完了し、晴天サンプルと第2順方向参照画像との間の正変換損失を決定し、逆方向生成ネットワークを用いて、曇天サンプルに対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得し、順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得し、逆のサイクルを完了し、曇天サンプルと第2逆方向参照画像との間の逆変換損失を決定し、順方向敵対的ネットワークを用いて第1順方向参照画像の順方向画像スタイルタイプを識別し、逆方向敵対的ネットワークを用いて第1逆方向参照画像の逆方向画像スタイルタイプを識別し、スタイル監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御し、コンテンツ監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御し、正変換損失、逆変換損失、順方向画像スタイルタイプ、逆方向画像スタイルタイプ、順方向局所スタイル損失、逆方向局所スタイル損失、順方向コンテンツ損失、及び逆方向コンテンツ損失に基づいて、収束するまでパラメータを調整することにより、訓練後の順方向生成ネットワークと訓練後の逆方向生成ネットワークとを含む訓練後のモデルを取得し、処理対象の晴天画像を取得すると、訓練後の順方向生成ネットワークを用いて、処理対象の晴天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の曇天画像を取得し、処理対象の曇天画像を取得すると、訓練後の逆方向生成ネットワークを用いて、処理対象の曇天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の晴天画像を取得することができる。。
【0107】
本発明で生成されるピクチャは、コンテンツに変形が発生することなく、2枚の画像の間の画像のコンテンツが厳密に一致し、画像全体のスタイルタイプも厳密に一致するため、本発明で生成される画像の品質が高い。また、本発明の訓練画像に余分なアノテーションをすることなく、モデル訓練を行うことができ、データの準備に必要な時間を減少させ、画像処理の効率を向上させる。これにより、本発明は、画像処理方法で生成される画像の品質を向上させることができる。
【0108】
上記の方法をより良く実施するために、本願の実施例は、画像処理装置をさらに提供する。該画像処理装置は、具体的に、電子機器に組み込まれ得、該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース機器、ノートパソコン、パーソナルコンピュータなどの機器であってもよい。サーバは、単一のサーバであってもよいし、複数のサーバで構成されるサーバクラスタであってもよい。
例えば、本実施例では、画像処理装置が具体的にサーバに組み込まれる場合を例として、本願の実施例の方法を詳細に説明する。
【0109】
例えば、
図3に示すように、該画像処理装置は、下記のような取得ユニット301と、初期変換ユニット302と、認識ユニット303と、コンテンツユニット304と、スタイルユニット305と、訓練ユニット306と、再変換ユニット307と、を含んでもよい。
【0110】
(一)取得ユニット301
取得ユニット301は、サンプル画像及び敵対的生成ネットワークを取得するために使用することができ、敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる。
【0111】
(二)初期変換ユニット302
初期変換ユニット302は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するために使用することができる。
いくつかの実施例において、参照画像は、第1参照画像及び第2参照画像を含んでもよく、初期変換ユニット302は、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得するために使用することができる。
【0112】
いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、順方向サンプル画像を含んでもよく、第1参照画像は、第1順方向参照画像を含んでもよく、第2参照画像は、第2順方向参照画像を含んでもよく、初期変換ユニット302は、具体的に、下記のような第1順方向サブユニット及び第2順方向サブユニットを含んでもよい。
【0113】
(1)第1順方向サブユニット
第1順方向サブユニットは、順方向生成ネットワークを用いて、順方向サンプル画像に対してスタイル変換処理を行うことにより、第1順方向参照画像を取得する。
【0114】
(2)第2順方向サブユニット
第2順方向サブユニットは、逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得する。
【0115】
いくつかの実施例において、生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含んでもよく、サンプル画像は、逆方向サンプル画像を含んでもよく、第1参照画像は、第1逆方向参照画像を含んでもよく、第2参照画像は、第2逆方向参照画像を含んでもよく、初期変換ユニット302は、具体的に、下記のような第1逆方向サブユニット及び第2逆方向サブユニットを含んでもよい。
【0116】
(3)第1逆方向サブユニット
第1逆方向サブユニットは、逆方向生成ネットワークを用いて、逆方向サンプル画像に対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得する。
【0117】
(4)第2逆方向サブユニット
第2逆方向サブユニットは、順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得する。
【0118】
いくつかの実施例において、初期変換ユニット302は、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得した後、具体的に、サンプル画像と第2参照画像との間の変換損失を計算するために使用することもできる。
【0119】
(三)認識ユニット303
認識ユニット303は、敵対的ネットワークを用いて、第1参照画像とサンプル画像との間の類似度を予測し、第1参照画像とサンプル画像との間の類似度に基づいて、参照画像とサンプル画像との間の全体スタイル損失を計算するために使用することができる。
【0120】
具体的には、いくつかの実施例において、認識ユニット303は、
第1参照画像とサンプル画像との間の類似度が所定の順方向範囲に属する場合、第1参照画像の画像スタイルタイプを第1参照画像の画像スタイルタイプとして決定し、
第1参照画像とサンプル画像との間の類似度が所定の逆方向範囲に属する場合、第1参照画像の画像スタイルタイプを第2参照画像の画像スタイルタイプとして決定し、
第1参照画像の画像スタイルタイプを統計することにより、統計結果を取得し、
統計結果に基づいて、第1参照画像とサンプル画像との間の全体スタイル損失を計算するために使用することができる。
【0121】
(四)コンテンツユニット304
コンテンツユニット304は、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定することができる。
【0122】
いくつかの実施例において、コンテンツユニット304は、シャムネットワークのコンテンツ監視制御ネットワークを用いて、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定してもよい。
【0123】
具体的には、いくつかの実施例において、コンテンツユニット304は、具体的に、コンテンツ局所サブユニットと、コンテンツ特徴サブユニットと、局所コンテンツ損失サブユニットと、コンテンツ損失サブユニットとを含んでもよい。
【0124】
(1)コンテンツ局所サブユニット
コンテンツ局所サブユニットは、参照画像の全ての局所画像の中から局所参照画像を決定し、サンプル画像の全ての局所画像の中から局所サンプル画像を決定し、局所参照画像の参照画像における位置と、局所サンプル画像のサンプル画像における位置とが同じである。
【0125】
(2)コンテンツ特徴サブユニット
コンテンツ特徴サブユニットは、シャムネットワークのコンテンツ監視制御ネットワークを用いて、局所参照画像に対応する局所参照コンテンツ特徴を抽出し、局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する。
【0126】
(3)局所コンテンツ損失サブユニット
局所コンテンツ損失サブユニットは、局所参照コンテンツ特徴と局所サンプルコンテンツ特徴とを比較することにより、局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得する。
【0127】
(4)コンテンツ損失サブユニット
コンテンツ損失サブユニットは、局所コンテンツ損失に基づいて、参照画像とサンプル画像との間のコンテンツ損失を決定する。
いくつかの実施例において、コンテンツ監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含んでもよく、第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有し、コンテンツ特徴サブユニットは、具体的に、
第2エンコーダを用いて、局所参照画像に対してコンテンツ特徴抽出を行うことにより、局所参照画像の局所参照コンテンツ特徴を取得し、
第1エンコーダを用いて、局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、局所サンプル画像の局所サンプルコンテンツ特徴を取得するために使用することができる。
【0128】
(五)スタイルユニット305
スタイルユニット305は、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するために使用することができる。
【0129】
いくつかの実施例において、スタイルユニット305は、具体的に、シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するために使用することができる。
【0130】
この場合、いくつかの実施例において、スタイルユニット305は、具体的に、下記のようなスタイル局所サブユニットと、スタイル特徴サブユニットと、局所参照スタイル損失サブユニットと、局所サンプルスタイル損失サブユニットと、スタイル損失サブユニットとを含んでもよい。
【0131】
(1)スタイル局所サブユニット
スタイル局所サブユニットは、参照画像の全ての局所画像の中から第1局所参照画像および第2部分参照画像を決定し、サンプル画像の全ての局所画像の中から第1局所サンプル画像及び第2局所サンプル画像を決定する。ここで、第1局所参照画像と第2局所参照画像は、参照画像において、異なる位置にあり、第1局所サンプル画像と第2局所サンプル画像は、サンプル画像において、異なる位置にある。
【0132】
(2)スタイル特徴サブユニット
スタイル特徴サブユニットは、シャムネットワークのスタイル監視制御ネットワークを用いて、第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、第2局所サンプル画像のスタイル特徴に対応する第2局所サンプルスタイル特徴を抽出する。
【0133】
(3)局所参照スタイル損失サブユニット
局所参照スタイル損失サブユニットは、第1局所参照スタイル特徴と第2局所参照スタイル特徴とを比較することにより、第1局所参照画像と第2局所参照画像との間の局所スタイル損失を取得する。
【0134】
(4)局所サンプルスタイル損失サブユニット
局所サンプルスタイル損失サブユニットは、第1局所サンプルスタイル特徴と第2局所サンプルスタイル特徴とを比較することにより、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失を取得する。
【0135】
(5)スタイル損失サブユニット
スタイル損失サブユニットは、第1局所参照画像と第2局所参照画像との間の局所スタイル損失に基づいて、参照画像の局所スタイル損失を計算し、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失に基づいて、サンプル画像の局所スタイル損失を計算する。
この場合、いくつかの実施例において、スタイル監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含んでもよく、第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有してもよく、スタイル特徴サブユニットは、具体的に、
第1エンコーダを用いて、第1局所参照画像、第1局所サンプル画像に対してスタイル特徴抽出を行うことにより、第1局所参照画像に対応する第1局所参照スタイル特徴と、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴とを取得し、
第2エンコーダを用いて、第2局所参照画像、第2局所サンプル画像に対してスタイル特徴抽出を行うことにより、第2局所参照画像に対応する第2局所参照スタイル特徴と、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴とを取得するために使用することができる。
【0136】
(六)訓練ユニット306
訓練ユニット306は、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するために使用することができる。
いくつかの実施例において、初期変換ユニット302は、サンプル画像と第2参照画像との間の変換損失を計算するために使用することができる。この場合、訓練ユニット306は、具体的に、
変換損失、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するために使用することができる。
【0137】
(七)再変換ユニット307
再変換ユニット307は、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するために使用することができる。
いくつかの実施例において、訓練後の敵対的生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含んでもよく、再変換ユニット307は、具体的に、
スタイルタイプ変換指示を取得し、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得し、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得する。
【0138】
具体的に実施する際に、上記の各ユニットは、独立したエンティティとして実現してもよく、任意の組み合わせを行って同一又は若干のエンティティとして実現してもよい。上記の各ユニットの具体的な実施は、前述した方法の実施例を参照すればよいが、ここではこれ以上の説明を省略する。
【0139】
以上から分かるように、本実施例の画像処理装置では、取得ユニットが、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、初期変換ユニットが、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、認識ユニットが、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、コンテンツユニットが、参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、スタイルユニットが、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、訓練ユニットが、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、処理対象の画像を取得すると、再変換ユニットが、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。これにより、本発明は、画像処理方法で生成されるスタイル変換後の画像の品質を向上させることができる。
【0140】
本願の実施例は、電子機器をさらに提供する。該電子機器は、端末やサーバなどの機器であってもよい。ここで、端末は、携帯電話、タブレットコンピュータ、スマートブルートゥース機器、ノートパソコン、パーソナルコンピュータなどであってもよい。サーバは、単一のサーバであってもよいし、複数のサーバで構成されるサーバクラスタなどであってもよい。
【0141】
いくつかの実施例において、該画像処理装置は、複数の電子機器に組み込まれ得る。例えば、画像処理装置は、複数のサーバに組み込まれ、複数のサーバによって本願の画像処理方法を実現してもよい。いくつかの実施例において、画像処理装置は、1台のサーバによっても実現され得る。
【0142】
本実施例では、本実施例の電子機器がサーバである場合を例として詳細に説明する。例えば、
図4に示すように、
図4は、本願の実施例に係るサーバの構成の模式図である。具体的には、
該サーバは、1つ又は複数の処理コアを含むプロセッサ401、1つ又は複数のコンピュータ可読記憶媒体を含むメモリ402、電源403、入力モジュール404、及び通信モジュール405などの部品を含んでもよい。当業者であれば理解できるように、
図4に示されるサーバの構成は、サーバを限定するものではなく、図示されたものよりも多く又は少ない部品を含んでもよく、或いは特定の部品を組み合わせたものであってもよく、或いは部品の異なる配置を有してもよい。
【0143】
プロセッサ401は、該サーバの制御センターであり、サーバ全体の各部分を様々なインタフェース及び回線で接続し、メモリ402に記憶されたソフトウェアプログラム及び/又はモジュールを実行又は遂行して、メモリ402に記憶されたデータを呼び出すことにより、サーバの様々な機能を実行してデータを処理し、サーバを全体的に監視制御する。いくつかの実施例において、プロセッサ401は、1つ又は複数の処理コアを含んでもよい。いくつかの実施例において、プロセッサ401には、アプリケーションプロセッサ及びモデムプロセッサが組み込まれ得る。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションプログラムなどを処理し、モデムプロセッサは、主に無線通信を処理する。理解できるように、上記モデムプロセッサは、プロセッサ401に組み込まれなくてもよい。
【0144】
メモリ402は、ソフトウェアプログラム及びモジュールを記憶するために使用することができ、プロセッサ401は、メモリ402に記憶されたソフトウェアプログラム及びモジュールを実行することにより、様々な機能アプリケーション及びデータ処理を実行する。メモリ402は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも1つの機能(例えば、音響再生機能、画像再生機能など)に必要なアプリケーションプログラムなどを記憶してもよい。データ記憶領域には、サーバの使用に応じて作成されたデータなどを記憶してもよい。また、メモリ402は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスを含んでもよい。これに応じて、メモリ402は、メモリコントローラをさらに含んでもよい。これにより、プロセッサ401によるメモリ402へのアクセスが提供される。
【0145】
サーバは、各部品に電力を供給する電源403をさらに含む。いくつかの実施例において、電源403は、電源管理システムを介して、プロセッサ401に論理的に接続してもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。電源403は、1つ又は複数の直流又は交流の電源、再充電システム、電源故障検出回路、電源変換器又はインバータ、電源状態インジケータなどの任意のコンポーネントを含んでもよい。
【0146】
該サーバは、入力モジュール404をさらに含んでもよい。該入力モジュール404は、入力された数字又は文字の情報を受信することと、ユーザ設定及び機能制御に関する、キーボード、マウス、ジョイスティック、光学又はトラックボールによる信号入力を生成することとに使用することができる。
【0147】
該サーバは、通信モジュール405をさらに含んでもよい。いくつかの実施例において、通信モジュール405は、無線モジュールを含んでもよい。サーバは、該通信モジュール405の無線モジュールによって短距離無線伝送を行うことにより、ユーザに無線の広帯域のインターネットへのアクセスを提供することができる。例えば、該通信モジュール405は、ユーザによる電子メールの送受信、ウェブ閲覧、及びストリーミングメディアへのアクセスなどを助けるために使用することができる。
【0148】
示されていないが、サーバは、表示ユニットなどをさらに含んでもよく、ここではこれ以上の説明を省略する。具体的に、本実施例において、サーバのプロセッサ401は、下記のようなコンピュータ可読命令に従って、1つ又は複数のアプリケーションのプロセスに対応する実行可能なファイルをメモリ402にロードする。また、メモリ402に記憶されたアプリケーションプログラムをプロセッサ401が実行することにより、下記のような各機能を実行する。即ち、
サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、
敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、
参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、
参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、
全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得し、
処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する。
上記の各操作の具体的な実施は、前述した実施例を参照すればよいが、ここではこれ以上の説明を省略する。
【0149】
以上から分かるように、本発明は、画像処理方法で生成されるスタイル変換後の画像の品質を向上させることができる。
当業者であれば理解できるように、上記の実施例の各方法のステップの全部又は一部は、コンピュータ可読命令によって実行されてもよいし、コンピュータ可読命令を介して関連ハードウェアを制御して実行されてもよい。該コンピュータ可読命令は、1つ又は複数のコンピュータ可読記憶媒体に記憶され、1つ又は複数のプロセッサによってロード及び実行されてもよい。
【0150】
このため、本願の実施例は、コンピュータ可読命令を記憶した1つ又は複数の不揮発性記憶媒体を提供する。前記コンピュータ可読命令は、1つ又は複数のプロセッサによって実行されると、1つ又は複数のプロセッサに、本願の実施例で提供されるいずれか1つの画像処理方法のステップを実行させる。例えば、該コンピュータ可読命令は、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定するステップと、
参照画像及びサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定するステップと、
参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定するステップと、
全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を実行させることが可能である。
【0151】
ここで、該記憶媒体は、読み出し専用メモリ(ROM:Read Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク、又は光ディスクなどを含んでもよい。
【0152】
該記憶媒体に記憶されたコンピュータ可読命令は、本願の実施例で提供されるいずれか1つの画像処理方法のステップを実行させることが可能であるため、本願の実施例で提供されるいずれか1つの画像処理方法によって達成できる有益な効果を達成させることができる。その詳細については、前述した実施例を参照すればよいが、ここではこれ以上の説明を省略する。
【0153】
任意選択的に、コンピュータ命令を記憶したコンピュータプログラム製品又はコンピュータプログラムが提供されている。該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から該コンピュータ命令を読み取る。プロセッサは、該コンピュータ命令を実行することにより、該コンピュータ機器に上記の各方法の実施例におけるステップを実行させる。
【0154】
理解すべきものとして、本願の各実施例における各ステップは、必ずしもステップ番号で示される順序に従って順次実行されるとは限らない。本明細書で明確に説明されない限り、これらのステップの実行順序には、厳しい制限がない。これらのステップは、他の順序で実行されてもよい。また、各実施例における少なくとも一部のステップは、複数のサブステップ又は複数の段階を含んでもよい。これらのサブステップ又は段階は、必ずしも同一の時刻に実行完了するとは限らず、異なる時刻に実行されてもよい。これらのサブステップ又は段階の実行順序も、必ずしも順次に実行するとは限らず、他のステップ、或いは、他のステップのサブステップ又は段階の少なくとも一部と代わる代わる又は交代で実行されてもよい。
【0155】
以上は、本願の実施例で提供される画像処理方法、装置、サーバ、及びコンピュータ可読媒体について詳細に説明している。本明細書では、本願の原理及び実施形態を説明するために具体例を使用したが、以上の実施例の説明は、本願の方法及びその主旨の理解を助けるためにのみ使用される。また、当業者にとっては、本願の構想に基づき、具体的な実施形態及び適用範囲のいずれにも変更があり得る。上述のように、本明細書の内容は、本願を制限するものと理解されるべきではない。
【0156】
301 取得ユニット
302 初期変換ユニット
303 認識ユニット
304 コンテンツユニット
305 スタイルユニット
306 訓練ユニット
307 再変換ユニット
401 プロセッサ
402 メモリ
403 電源
404 入力モジュール
405 通信モジュール
【手続補正書】
【提出日】2022-04-15
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0009
【補正方法】変更
【補正の内容】
【0009】
また、本願の実施例は、プロセッサとメモリとを備えるサーバを提供する。前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、本願の実施例で提供されるいずれか1つの画像処理方法のステップを前記プロセッサに実行させる。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0018
【補正方法】変更
【補正の内容】
【0018】
いくつかの実施例では、サーバを端末の形態で実現してもよい。
例えば、
図1aを参照すると、該サーバは、画像処理
装置を搭載することができる。該サーバは、データベースから、サンプル画像と、生成ネットワーク及び敵対的ネットワークを含む敵対的生成ネットワークとを取得し、生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得し、敵対的ネットワークを用いて、参照画像に対して全体スタイル認識を行うことにより、参照画像とサンプル画像との間の全体スタイル損失を決定し、参照画像とサンプル画像に対して画像コンテンツ認識を行うことにより、参照画像とサンプル画像との間のコンテンツ損失を決定し、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定し、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することができる。ユーザによりアップロードされた処理対象の画像を取得すると、該サーバは、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得し、該スタイル変換後の画像をユーザに返信することができる。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0038
【補正方法】変更
【補正の内容】
【0038】
例えば、
図1dを参照する。
図1dに示されたのは、Cycle-GA
Nである。そのうち、
図1dの上図は、Cycle-GA
Nの正のサイクルの構成である。正のサイクルでは、まず、順方向サンプル画像が順方向生成ネットワークに入力されて、第1順方向参照画像が生成され、次に、第1順方向参照画像が逆方向
生成ネットワークに入力されて、第2順方向
参照画像が生成される。
図1dの下図は、Cycle-GA
Nの逆のサイクルの構成である。逆のサイクルでは、まず、逆方向サンプル画像が逆方向生成ネットワークに入力されて、第1逆方向参照画像が生成され、次に、第1逆方向参照画像が順方向
生成ネットワークに入力されて、第2逆方向
参照画像が生成される。
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0039
【補正方法】変更
【補正の内容】
【0039】
いくつかの実施例では、スタイルタイプ変換の品質及び効率をさらに向上させるために、
図1cを参照すると、「生成ネットワークを用いて、サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得
する」というステップの後に、サンプル画像と第2参照画像との間の変換損失を計算してもよい。この場合、ステップ106は、具体的に、変換損失、全体スタイル損失、コンテンツ損失、参照画像の局所スタイル損失、及びサンプル画像の局所スタイル損失に基づいて、生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得することであってもよい。
ここで、変換損失とは、2枚の画像の間の、画素、色分布、画像コンテンツなどの画像特徴における損失である。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0044
【補正方法】変更
【補正の内容】
【0044】
例えば、いくつかの実施例において、ステップ103は、具体的に、
敵対的ネットワークを用いて、第1参照画像とサンプル画像との間の類似度を予測し、第1参照画像と逆方向サンプル画像との間の類似度を予測するステップと
第1参照画像とサンプル画像との間の類似度が、第1参照画像と逆方向サンプル画像との間の類似度よりも高い場合、第1参照画像の画像スタイルタイプが順方向サンプル画像であると決定するステップと、
第1参照画像とサンプル画像との類似度が、第1参照画像と逆方向サンプル画像との間の類似度よりも低い場合、第1参照画像の画像スタイルタイプが逆方向サンプル画像であると決定するステップと、を含む。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0047
【補正方法】変更
【補正の内容】
【0047】
該品質監視制御ネットワークは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)、全結合ニューラルネットワーク(FNN:Full Connected Network)、深層ニューラルネットワーク(DNN:Deep Neural Networks)などであってもよい。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0059
【補正方法】変更
【補正の内容】
【0059】
ステップ104と類似して、いくつかの実施例において、ステップ105は、シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定することであってもよい。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0060
【補正方法】変更
【補正の内容】
【0060】
具体的に、「シャムネットワークのスタイル監視制御ネットワークを用いて、参照画像、サンプル画像に対して局所スタイル認識を行うことにより、参照画像の局所スタイル損失と、サンプル画像の局所スタイル損失とを決定する」というステップは、
参照画像の全ての局所画像の中から、第1局所参照画像及び第2局所参照画像を決定し、サンプル画像の全ての局所画像の中から、第1局所サンプル画像及び第2局所サンプル画像を決定するステップであって、第1局所参照画像と第2局所参照画像は、参照画像において異なる位置にあり、第1局所サンプル画像と第2局所サンプル画像は、サンプル画像において異なる位置にある、ステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴を抽出するステップと、
第1局所参照スタイル特徴と第2局所参照スタイル特徴とを比較することにより、第1局所参照画像と第2局所参照画像との間の局所スタイル損失を取得するステップと、
第1局所サンプルスタイル特徴と第2局所サンプルスタイル特徴とを比較することにより、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失を取得するステップと、
第1局所参照画像と第2局所参照画像との間の局所スタイル損失に基づいて、参照画像の局所スタイル損失を計算し、第1局所サンプル画像と第2局所サンプル画像との間の局所スタイル損失に基づいて、サンプル画像の局所スタイル損失を計算するステップと、を含む。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0061
【補正方法】変更
【補正の内容】
【0061】
ここで、いくつかの実施例において、スタイル監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含んでもよく、第1エンコーダ及び第2エンコーダは、互いに重みパラメータを共有し、「シャムネットワークのスタイル監視制御ネットワークを用いて、第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴を抽出する」というステップは、
第1エンコーダを用いて、第1局所参照画像、第1局所サンプル画像に対してスタイル特徴抽出を行うことにより、第1局所参照画像に対応する第1局所参照スタイル特徴と、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴とを取得するステップと、
第2エンコーダを用いて、第2局所参照画像、第2局所サンプル画像に対してスタイル特徴抽出を行うことにより、第2局所参照画像に対応する第2局所参照スタイル特徴と、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴を取得するステップと、を含んでもよい。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0062
【補正方法】変更
【補正の内容】
【0062】
例えば、
図1fを参照すると、スタイル監視制御ネットワークの第1エンコーダは、局所サンプル画像Aに対してスタイル特徴抽出を行うことにより、局所サンプル画像Aのスタイルタイプコンテンツ特徴を取得することができ、スタイル監視制御ネットワークの第2エンコーダは、局所参照画像Bに対してスタイル特徴抽出を行うことにより、局所参照画像Bのスタイルタイプコンテンツ特徴を取得することができる。最後に、局所
サンプル画像Aのスタイルタイプコンテンツ特徴と、局所参照画像Bのスタイルタイプコンテンツ特徴とに基づいて、参照画像の局所スタイル損失を予測する。
【手続補正12】
【補正対象書類名】明細書
【補正対象項目名】0064
【補正方法】変更
【補正の内容】
【0064】
いくつかの実施例において、ステップ102で第1参照画像の画像スタイルタイプを識別することができるため、ステップ106は、具体的に、品質損失及び画像スタイルタイプに基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。
【手続補正13】
【補正対象書類名】明細書
【補正対象項目名】0065
【補正方法】変更
【補正の内容】
【0065】
いくつかの実施例において、ステップ102で第1参照画像と訓練画像との間の変換損失を決定することができるため、ステップ106は、具体的に、品質損失、及び第1参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。
【手続補正14】
【補正対象書類名】明細書
【補正対象項目名】0066
【補正方法】変更
【補正の内容】
【0066】
いくつかの実施例において、ステップ102で第1参照画像の画像スタイルタイプを識別して、第1参照画像と訓練画像との間の変換損失を決定することができるため、ステップ106は、具体的に、品質損失、画像スタイルタイプ、及び第1参照画像と訓練画像との間の変換損失に基づいて、収束するまでネットワークモデルのパラメータを調整することにより、訓練後のモデルを取得することであってもよい。訓練後のモデルは、訓練後の生成ネットワークを含む。
【手続補正15】
【補正対象書類名】明細書
【補正対象項目名】0069
【補正方法】変更
【補正の内容】
【0069】
上記ステップ101~106でモデル訓練が完了したため、ステップ107では、該訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得することができる。
【手続補正16】
【補正対象書類名】明細書
【補正対象項目名】0070
【補正方法】変更
【補正の内容】
【0070】
具体的には、計算量を低減して、画像処理効率を最適化するために、訓練後の生成ネットワークには、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークが含まれるので、処理対象の画像を取得すると、具体的に、
スタイルタイプ変換指示を取得するステップと、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を実行してもよい。
【手続補正17】
【補正対象書類名】明細書
【補正対象項目名】0072
【補正方法】変更
【補正の内容】
【0072】
例えば、表1を参照すると、スタイルタイプ情報が「陽光スタイルタイプから陰雨スタイルタイプへ変換」である場合、スタイルタイプ変換指示を順方向変換指示として決定することができ、スタイルタイプ情報が「陰雨スタイルタイプから陽光スタイルタイプへ変換」である場合、スタイルタイプ変換指示を逆方向変換指示として決定することができる。
【手続補正18】
【補正対象書類名】明細書
【補正対象項目名】0079
【補正方法】変更
【補正の内容】
【0079】
これにより、本発明では、優れた生成ネットワークを訓練し、該生成ネットワークのネットワーク品質を効果的に最適化することができ、訓練後の生成ネットワークで生成されたスタイル変換後の画像の画像品質を向上させる。本発明は、画像処理方法で生成されたスタイル変換後の画像の品質を向上させることができる。
【手続補正19】
【補正対象書類名】明細書
【補正対象項目名】0082
【補正方法】変更
【補正の内容】
【0082】
本実施例において、cycle-GAN及びシャムネットワークが含まれる。そのうち、cycle-GANは、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワークを含み、シャムネットワークは、スタイル監視制御ネットワーク及びコンテンツ監視制御ネットワークを含み、スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みパラメータが共有された1対のエンコーダを共有する。
本実施例において、サンプル画像は、技術者によって設定してもよいし、サーバを介して取得してもよい。
【手続補正20】
【補正対象書類名】明細書
【補正対象項目名】0097
【補正方法】変更
【補正の内容】
【0097】
cAは、第1参照画像における局所画像のコンテンツ特徴であり、dAは、第1参照画像における局所画像のスタイル特徴であり、d
B
は、サンプル画像における局所画像のコンテンツ特徴であり、cBは、サンプル画像における局所画像のスタイル特徴である。
【手続補正21】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正の内容】
【0099】
スタイル監視制御ネットワークとコンテンツ監視制御ネットワークは、重みパラメータが共有された2つのエンコーダを共有する。該エンコーダは、二次元画像を特徴潜在空間に符号化することができ、その構成が、表2に示すとおりである。
【手続補正22】
【補正対象書類名】明細書
【補正対象項目名】0106
【補正方法】変更
【補正の内容】
【0106】
以上から分かるように、本願の実施例では、晴天サンプル及び曇天サンプルを含むサンプル画像と、順方向生成ネットワーク、逆方向生成ネットワーク、順方向敵対的ネットワーク、逆方向敵対的ネットワーク、スタイル監視制御ネットワーク、及びコンテンツ監視制御ネットワークを含む敵対的生成ネットワークと、を取得し、順方向生成ネットワークを用いて、晴天サンプルに対してスタイル変換処理を行うことにより、第1順方向参照画像を取得し、逆方向生成ネットワークを用いて、第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得し、正のサイクルを完了し、晴天サンプルと第2順方向参照画像との間の正変換損失を決定し、逆方向生成ネットワークを用いて、曇天サンプルに対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得し、順方向生成ネットワークを用いて、第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得し、逆のサイクルを完了し、曇天サンプルと第2逆方向参照画像との間の逆変換損失を決定し、順方向敵対的ネットワークを用いて第1順方向参照画像の順方向画像スタイルタイプを識別し、逆方向敵対的ネットワークを用いて第1逆方向参照画像の逆方向画像スタイルタイプを識別し、スタイル監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向局所スタイル損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向局所スタイル損失をそれぞれ監視制御し、コンテンツ監視制御ネットワークを用いて、第1順方向参照画像とサンプル画像との間の順方向コンテンツ損失、及び、第1逆方向参照画像とサンプル画像との間の逆方向コンテンツ損失をそれぞれ監視制御し、正変換損失、逆変換損失、順方向画像スタイルタイプ、逆方向画像スタイルタイプ、順方向局所スタイル損失、逆方向局所スタイル損失、順方向コンテンツ損失、及び逆方向コンテンツ損失に基づいて、収束するまでパラメータを調整することにより、訓練後の順方向生成ネットワークと訓練後の逆方向生成ネットワークとを含む訓練後のモデルを取得し、処理対象の晴天画像を取得すると、訓練後の順方向生成ネットワークを用いて、処理対象の晴天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の曇天画像を取得し、処理対象の曇天画像を取得すると、訓練後の逆方向生成ネットワークを用いて、処理対象の曇天画像に対してスタイル変換処理を行うことにより、スタイルタイプ変換後の晴天画像を取得することができる。
【手続補正23】
【補正対象書類名】明細書
【補正対象項目名】0131
【補正方法】変更
【補正の内容】
【0131】
(1)スタイル局所サブユニット
スタイル局所サブユニットは、参照画像の全ての局所画像の中から第1局所参照画像および第2局所参照画像を決定し、サンプル画像の全ての局所画像の中から第1局所サンプル画像及び第2局所サンプル画像を決定する。ここで、第1局所参照画像と第2局所参照画像は、参照画像において、異なる位置にあり、第1局所サンプル画像と第2局所サンプル画像は、サンプル画像において、異なる位置にある。
【手続補正24】
【補正対象書類名】明細書
【補正対象項目名】0132
【補正方法】変更
【補正の内容】
【0132】
(2)スタイル特徴サブユニット
スタイル特徴サブユニットは、シャムネットワークのスタイル監視制御ネットワークを用いて、第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、第2局所サンプル画像に対応する第2局所サンプルスタイル特徴を抽出する。
【手続補正25】
【補正対象書類名】明細書
【補正対象項目名】0137
【補正方法】変更
【補正の内容】
【0137】
(七)再変換ユニット307
再変換ユニット307は、処理対象の画像を取得すると、訓練後の生成ネットワークを用いて、処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するために使用することができる。
いくつかの実施例において、訓練後の生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含んでもよく、再変換ユニット307は、具体的に、
スタイルタイプ変換指示を取得し、
スタイルタイプ変換指示が順方向変換指示である場合、訓練後の順方向生成ネットワークを用いて、処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得し、
スタイルタイプ変換指示が逆方向変換指示である場合、訓練後の逆方向生成ネットワークを用いて、処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得する。
【手続補正26】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
サーバが実行する画像処理方法であって、
サンプル画像及び敵対的生成ネットワークを取得するステップであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、ステップと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得するステップと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定するステップと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
を含む画像処理方法。
【請求項2】
前記参照画像は、第1参照画像及び第2参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する前記ステップは、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得するステップを含み、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する前記ステップは、
前記敵対的ネットワークを用いて、前記第1参照画像と前記サンプル画像との間の類似度を予測するステップと、
前記第1参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項1に記載の画像処理方法。
【請求項3】
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、順方向サンプル画像を含み、前記第1参照画像は、第1順方向参照画像を含み、前記第2参照画像は、第2順方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップは、
前記順方向生成ネットワークを用いて、前記順方向サンプル画像に対してスタイル変換処理を行うことにより、第1順方向参照画像を取得するステップと、
前記逆方向生成ネットワークを用いて、前記第1順方向参照画像に対してスタイル変換処理を行うことにより、第2順方向参照画像を取得するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項4】
前記生成ネットワークは、順方向生成ネットワーク及び逆方向生成ネットワークを含み、前記サンプル画像は、逆方向サンプル画像を含み、前記第1参照画像は、第1逆方向参照画像を含み、前記第2参照画像は、第2逆方向参照画像を含み、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップは、
前記逆方向生成ネットワークを用いて、前記逆方向サンプル画像に対してスタイル変換処理を行うことにより、第1逆方向参照画像を取得するステップと、
前記順方向生成ネットワークを用いて、前記第1逆方向参照画像に対してスタイル変換処理を行うことにより、第2逆方向参照画像を取得するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項5】
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、第1参照画像を取得し、前記第1参照画像に対してスタイル変換処理を行うことにより、第2参照画像を取得する前記ステップの後、
前記サンプル画像と第2参照画像との間の変換損失を計算するステップを含み、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する前記ステップは、
前記変換損失、前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得するステップを含む、
請求項2に記載の画像処理方法。
【請求項6】
前記第1参照画像と前記サンプル画像との間の類似度に基づいて、前記参照画像と前記サンプル画像との間の全体スタイル損失を計算する前記ステップは、
前記第1参照画像と前記サンプル画像との間の類似度が所定の順方向範囲に属する場合、前記第1参照画像の画像スタイルタイプを第1参照画像の画像スタイルタイプとして決定するステップと、
前記第1参照画像と前記サンプル画像との間の類似度が所定の逆方向範囲に属する場合、前記第1参照画像の画像スタイルタイプを第2参照画像の画像スタイルタイプとして決定するステップと、
前記第1参照画像の画像スタイルタイプを統計することにより、統計結果を取得するステップと、
前記統計結果に基づいて、前記第1参照画像と前記サンプル画像との間の全体スタイル損失を計算するステップと、を含む、
請求項2に記載の画像処理方法。
【請求項7】
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定する前記ステップは、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップを含み、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するステップを含む、
請求項1に記載の画像処理方法。
【請求項8】
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行う前記ステップは、
前記参照画像の全ての局所画像の中から局所参照画像を決定し、前記サンプル画像の全ての局所画像の中から局所サンプル画像を決定するステップであって、前記局所参照画像の前記参照画像における位置と、前記局所サンプル画像の前記サンプル画像における位置とが同じである、ステップと、
シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出するステップと、
前記局所参照コンテンツ特徴と前記局所サンプルコンテンツ特徴とを比較することにより、前記局所参照画像と局所サンプル画像との間の局所コンテンツ損失を取得するステップと、
前記局所コンテンツ損失に基づいて、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するステップと、を含む、
ことを特徴とする請求項7に記載の画像処理方法。
【請求項9】
前記シャムネットワークのコンテンツ監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含み、前記第1エンコーダ及び
前記第2エンコーダは、互いに重みパラメータを共有し、シャムネットワークのコンテンツ監視制御ネットワークを用いて、前記局所参照画像に対応する局所参照コンテンツ特徴を抽出し、前記局所サンプル画像に対応する局所サンプルコンテンツ特徴を抽出する前記ステップは、
前記第1エンコーダを用いて、前記局所サンプル画像に対してコンテンツ特徴抽出を行うことにより、前記局所サンプル画像の局所サンプルコンテンツ特徴を取得するステップと、
前記第2エンコーダを用いて、前記局所参照画像に対してコンテンツ特徴抽出を行うことにより、前記局所参照画像の局所参照コンテンツ特徴を取得するステップと、を含む、
請求項8に記載の画像処理方法。
【請求項10】
シャムネットワークのスタイル監視制御ネットワークを用いて、前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定する前記ステップは、
前記参照画像の全ての局所画像の中から第1局所参照画像および第2
局所参照画像を決定し、前記サンプル画像の全ての局所画像の中から第1局所サンプル画像及び第2局所サンプル画像を決定するステップであって、前記第1局所参照画像と
前記第2局所参照画像は、前記参照画像において、異なる位置にあり、前記第1局所サンプル画像と
前記第2局所サンプル画像は、前記サンプル画像において、異なる位置にあるステップと、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、前記第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、前記第2局所サンプル画
像に対応する第2局所サンプルスタイル特徴を抽出するステップと、
前記第1局所参照スタイル特徴と前記第2局所参照スタイル特徴とを比較することにより、前記第1局所参照画像と前記第2局所参照画像との間の局所スタイル損失を取得するステップと、
前記第1局所サンプルスタイル特徴と前記第2局所サンプルスタイル特徴とを比較することにより、前記第1局所サンプル画像と前記第2局所サンプル画像との間の局所スタイル損失を取得するステップと、
前記第1局所参照画像と前記第2局所参照画像との間の局所スタイル損失に基づいて、前記参照画像の局所スタイル損失を計算し、前記第1局所サンプル画像と前記第2局所サンプル画像との間の局所スタイル損失に基づいて、前記サンプル画像の局所スタイル損失を計算するステップと、を含む、
請求項7に記載の画像処理方法。
【請求項11】
前記シャムネットワークのスタイル監視制御ネットワークは、第1エンコーダ及び第2エンコーダを含み、前記第1エンコーダ及び
前記第2エンコーダは、互いに重みパラメータを共有し、
シャムネットワークのスタイル監視制御ネットワークを用いて、前記第1局所参照画像に対応する第1局所参照スタイル特徴を抽出し、前記第2局所参照画像に対応する第2局所参照スタイル特徴を抽出し、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴を抽出し、前記第2局所サンプル画
像に対応する第2局所サンプルスタイル特徴を抽出する前記ステップは、
前記第1エンコーダを用いて、前記第1局所参照画像、前記第1局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第1局所参照画像に対応する第1局所参照スタイル特徴と、前記第1局所サンプル画像に対応する第1局所サンプルスタイル特徴とを取得するステップと、
前記第2エンコーダを用いて、前記第2局所参照画像、前記第2局所サンプル画像に対してスタイル特徴抽出を行うことにより、前記第2局所参照画像に対応する第2局所参照スタイル特徴と、前記第2局所サンプル画像に対応する第2局所サンプルスタイル特徴とを取得するステップと、を含む、
請求項10に記載の画像処理方法。
【請求項12】
前記訓練後の生成ネットワークは、訓練後の順方向生成ネットワーク、訓練後の逆方向生成ネットワークを含み、処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する前記ステップは、
スタイルタイプ変換指示を取得するステップと、
前記スタイルタイプ変換指示が順方向変換指示である場合、前記訓練後の順方向生成ネットワークを用いて、前記処理対象の画像に対して順方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、
前記スタイルタイプ変換指示が逆方向変換指示である場合、前記訓練後の逆方向生成ネットワークを用いて、前記処理対象の画像に対して逆方向変換処理を行うことにより、スタイル変換後の画像を取得するステップと、を含む、
請求項1に記載の画像処理方法。
【請求項13】
画像処理装置であって、
サンプル画像及び敵対的生成ネットワークを取得する取得ユニットであって、前記敵対的生成ネットワークには、生成ネットワークと敵対的ネットワークとが含まれる、取得ユニットと、
前記生成ネットワークを用いて、前記サンプル画像に対してスタイル変換処理を行うことにより、参照画像を取得する初期変換ユニットと、
前記敵対的ネットワークを用いて、前記参照画像に対して全体スタイル認識を行うことにより、前記参照画像と前記サンプル画像との間の全体スタイル損失を決定する認識ユニットと、
前記参照画像及び前記サンプル画像に対して画像コンテンツ認識を行うことにより、前記参照画像と前記サンプル画像との間のコンテンツ損失を決定するコンテンツユニットと、
前記参照画像、前記サンプル画像に対して局所スタイル認識を行うことにより、前記参照画像の局所スタイル損失と、前記サンプル画像の局所スタイル損失とを決定するスタイルユニットと、
前記全体スタイル損失、前記コンテンツ損失、前記参照画像の局所スタイル損失、及び前記サンプル画像の局所スタイル損失に基づいて、前記生成ネットワークを訓練することにより、訓練後の生成ネットワークを取得する訓練ユニットと、
処理対象の画像を取得すると、前記訓練後の生成ネットワークを用いて、前記処理対象の画像に対してスタイル変換処理を行うことにより、スタイル変換後の画像を取得する再変換ユニットと、
を含む装置。
【請求項14】
プロセッサとメモリとを備えるサーバであって、前記メモリには、コンピュータ可読命令が記憶され、前記コンピュータ可読命令は、前記プロセッサによって実行されると、請求項1乃至12のいずれか1項に記載の画像処理方法のステップを前記プロセッサに実行させるサーバ。
【請求項15】
請求項1乃至12のいずれか1項に記載の画像処理方法のステップを
コンピュータに実行させる
コンピュータプログラム。
【国際調査報告】