IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 之江実験室の特許一覧

特許7606643画像生成モデルの訓練方法、サービス実行方法、装置及び媒体
<>
  • 特許-画像生成モデルの訓練方法、サービス実行方法、装置及び媒体 図1
  • 特許-画像生成モデルの訓練方法、サービス実行方法、装置及び媒体 図2
  • 特許-画像生成モデルの訓練方法、サービス実行方法、装置及び媒体 図3
  • 特許-画像生成モデルの訓練方法、サービス実行方法、装置及び媒体 図4
  • 特許-画像生成モデルの訓練方法、サービス実行方法、装置及び媒体 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2024-12-17
(45)【発行日】2024-12-25
(54)【発明の名称】画像生成モデルの訓練方法、サービス実行方法、装置及び媒体
(51)【国際特許分類】
   G06V 10/774 20220101AFI20241218BHJP
   G06V 10/82 20220101ALI20241218BHJP
   G06T 7/00 20170101ALI20241218BHJP
   G06T 5/60 20240101ALI20241218BHJP
【FI】
G06V10/774
G06V10/82
G06T7/00 350B
G06T5/60
【請求項の数】 6
(21)【出願番号】P 2024088711
(22)【出願日】2024-05-31
【審査請求日】2024-05-31
(31)【優先権主張番号】202311673947.4
(32)【優先日】2023-12-07
(33)【優先権主張国・地域又は機関】CN
【早期審査対象出願】
(73)【特許権者】
【識別番号】521162399
【氏名又は名称】之江実験室
(74)【代理人】
【識別番号】110000729
【氏名又は名称】弁理士法人ユニアス国際特許事務所
(72)【発明者】
【氏名】王 宏升
(72)【発明者】
【氏名】林 峰
【審査官】秦野 孝一郎
(56)【参考文献】
【文献】特表2023-533586(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00-7/90
G06V 10/00-20/90
G06T 1/00-1/40
G06T 3/00-5/94
(57)【特許請求の範囲】
【請求項1】
原画像を取得するステップと、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るステップと、
前記ノイズ付加後画像と、前記ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、復元画像が得られるまで、前記原画像に対して前記回数値のノイズ付加処理を行って前記ノイズ付加後画像に変換する際に使用される重畳ノイズ信号を予測し、前記重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、前記重畳ノイズ信号と前記k-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測し、前記復元画像から抽出された画像前景特徴を決定するステップであって、kは前記回数値を超えない正の整数であり、画像前景特徴は、画像内のターゲットオブジェクトの形態学的特徴を表すためのものであり、前記画像前景特徴には、前記ターゲットオブジェクトを表すための詳細な物理的特徴が含まれない、ステップと、
前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練するステップと、を含み、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るステップは、
前記原画像とノイズ信号の数とを予め構築された第2の画像生成モデルに入力し、前記第2の画像生成モデルに、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた前記原画像のノイズ付加後画像を出力させるステップを含み、
前記第2の画像生成モデルの構築は、
サンプル画像を取得するステップと、
N個目のノイズ信号を用いて、N-1個目のノイズ信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のノイズ信号でノイズ付加されたノイズ付加後画像を得るステップであって、Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像は前記サンプル画像である、ステップと、
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定するステップであって、mはNより小さい正の整数である、ステップと、
前記変換関係に基づいて前記第2の画像生成モデルを構築するステップと、を含む、
ことを特徴とする画像生成モデルの訓練方法。
【請求項2】
初期画像を取得するステップと、
前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させるステップであって、前記画像生成モデルは、請求項に記載の訓練方法を用いて訓練して得られたモデルである、ステップと、
前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行するステップと、を含む、
ことを特徴とするサービス実行方法。
【請求項3】
原画像を取得するための取得モジュールと、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るためのノイズ付加モジュールと、
前記ノイズ付加後画像と、前記ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、復元画像が得られるまで、前記原画像に対して前記回数値のノイズ付加処理を行って前記ノイズ付加後画像に変換する際に使用される重畳ノイズ信号を予測し、前記重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、前記重畳ノイズ信号と前記k-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測し、前記復元画像から抽出された画像前景特徴を決定するための入力モジュールであって、kは前記回数値を超えない正の整数であり、画像前景特徴は、画像内のターゲットオブジェクトの形態学的特徴を表すためのものであり、前記画像前景特徴には、前記ターゲットオブジェクトを表すための詳細な物理的特徴が含まれない、入力モジュールと、
前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練するための訓練モジュールと、を含み、
前記ノイズ付加モジュールは、具体的に、
前記原画像とノイズ信号の数とを予め構築された第2の画像生成モデルに入力し、前記第2の画像生成モデルに、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた前記原画像のノイズ付加後画像を出力させるために用いられ、
前記ノイズ付加モジュールは、具体的に、
サンプル画像を取得し、
N個目のノイズ信号を用いて、N-1個目のノイズ信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のノイズ信号でノイズ付加されたノイズ付加後画像を得、
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定し、
前記変換関係に基づいて前記第2の画像生成モデルを構築するために用いられ、
Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像は前記サンプル画像であり、mはNより小さい正の整数である、
ことを特徴とする画像生成モデルの訓練装置。
【請求項4】
初期画像を取得するための取得モジュールと、
前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させるための入力モジュールであって、前記画像生成モデルは、請求項に記載の訓練方法を用いて訓練して得られたモデルである、入力モジュールと、
前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行するための訓練モジュールと、を含む、
ことを特徴とするサービス実行装置。
【請求項5】
コンピュータプログラムを記憶しているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項に記載の方法が実施される、
ことを特徴とするコンピュータ可読記憶媒体。
【請求項6】
プロセッサと、メモリに記憶され、プロセッサ上で動作可能なコンピュータプログラムとを含む電子デバイスであって、前記プロセッサが前記コンピュータプログラムを実行すると、請求項に記載の方法を実施する、
ことを特徴とする電子デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータビジョン分野に関し、特に、画像生成モデルの訓練方法、サービス実行方法、装置及び媒体に関する。
【背景技術】
【0002】
コンピュータビジョン分野の急速な発展に伴い、深層学習技術に基づくモデルが、例えば、ユーザーのニーズに応じて画像の内容を判断する画像認識分野、得られた患者の病変情報に基づいて病変部の画像を生成する医療分野、プレイヤーの探索状況に応じてゲーム画像を生成するコンピュータゲーム分野など、様々な分野で利用されるようになってきている。
【0003】
しかし、既存のモデル訓練技術では、サービス要件を満たすモデルを訓練するために、上記モデルの訓練プロセスにおいて訓練データとして十分な量の画像データを使用する必要がある。画像データの量が十分でない場合、既存の技術では、サービス要件を満たすモデルを訓練することは困難である。例えば、芸術画像生成モデルにより生成される芸術画像の表現力や写実性が高いほど、訓練プロセスにおいてより多くの画像データが必要となり、画像データが不足すると、訓練された芸術画像生成モデルにより生成された芸術画像の表現力や写実性が要件を満たせなくなるという問題が生じる。
【0004】
したがって、量が十分でない画像データに基づいて、いかにしてサービス要件を満たすモデルを訓練するかは喫緊の課題である。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は、従来技術に存在する上記問題を部分的に解決するために、画像生成モデルの訓練方法、サービス実行方法、装置及び媒体を提供する。
【課題を解決するための手段】
【0006】
本発明が採用する技術的解決手段は以下の通りである。
【0007】
本発明によって提供される画像生成モデルの訓練方法は、
原画像を取得するステップと、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るステップと、
前記ノイズ付加後画像と、前記ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、復元画像が得られるまで、前記原画像に対して前記回数値のノイズ付加処理を行って前記ノイズ付加後画像に変換する際に使用される重畳ノイズ信号を予測し、前記重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、前記重畳ノイズ信号と前記k-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測し、前記復元画像から抽出された画像前景特徴を決定するステップであって、kは前記回数値を超えない正の整数であり、画像前景特徴は、画像内のターゲットオブジェクトの形態学的特徴を表すためのものであり、前記画像前景特徴には、前記ターゲットオブジェクトを表すための詳細な物理的特徴が含まれない、ステップと、
前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練するステップと、を含む。
【0008】
オプションで、前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るステップは、
前記原画像とノイズ信号の数とを予め構築された第2の画像生成モデルに入力し、前記第2の画像生成モデルに、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた前記原画像のノイズ付加後画像を出力させるステップを含む。
【0009】
オプションで、前記第2の画像生成モデルの構築は、
サンプル画像を取得するステップと、
N個目のノイズ信号を用いて、N-1個目のノイズ信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のノイズ信号でノイズ付加されたノイズ付加後画像を得るステップであって、Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像は前記サンプル画像である、ステップと、
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定するステップであって、mはNより小さい正の整数である、ステップと、
前記変換関係に基づいて前記第2の画像生成モデルを構築するステップと、を含む。
【0010】
本発明によって提供されるサービス実行方法は、
初期画像を取得するステップと、
前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させるステップであって、前記画像生成モデルは、上記訓練方法を用いて訓練して得られたモデルである、ステップと、
前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行するステップと、を含む。
【0011】
本発明によって提供される画像生成モデルの訓練装置は、
原画像を取得するための取得モジュールと、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るためのノイズ付加モジュールと、
前記ノイズ付加後画像と、前記ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、復元画像が得られるまで、前記原画像に対して前記回数値のノイズ付加処理を行って前記ノイズ付加後画像に変換する際に使用される重畳ノイズ信号を予測し、前記重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、前記重畳ノイズ信号と前記k-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測し、前記復元画像から抽出された画像前景特徴を決定するための入力モジュールと、
前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練するための訓練モジュールと、を含む。
【0012】
オプションで、前記ノイズ付加モジュールは、具体的に、
前記原画像とノイズ信号の数とを予め構築された第2の画像生成モデルに入力し、前記第2の画像生成モデルに、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた前記原画像のノイズ付加後画像を出力させるために用いられる。
【0013】
オプションで、前記ノイズ付加モジュールは、具体的に、
サンプル画像を取得し、
N個目のノイズ信号を用いて、N-1個目のノイズ信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のノイズ信号でノイズ付加されたノイズ付加後画像を得、Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像は前記サンプル画像であり、
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定し、mはNより小さい正の整数であり、
前記変換関係に基づいて前記第2の画像生成モデルを構築するために用いられる。
【0014】
本発明によって提供されるサービス実行装置は、
初期画像を取得するための取得モジュールと、
前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させるための入力モジュールであって、前記画像生成モデルは、上記訓練方法を用いて訓練して得られたモデルである、入力モジュールと、
前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行するための訓練モジュールと、を含む。
【0015】
本発明は、コンピュータプログラムを記憶しているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上記画像生成モデルの訓練方法が実施される、コンピュータ可読記憶媒体を提供する。
【0016】
本発明は、プロセッサと、メモリに記憶され、プロセッサ上で動作可能なコンピュータプログラムとを含む電子デバイスであって、前記プロセッサが前記コンピュータプログラムを実行すると、上記画像生成モデルの訓練方法を実施する、電子デバイスを提供する。
【発明の効果】
【0017】
本発明が採用する上記技術的解決手段の少なくとも1つは、以下の有益な効果を奏することができる。
【0018】
本発明によって提供される画像生成モデルの訓練方法では、専用デバイスは、第2の画像生成モデルを用いて、取得された原画像に対してノイズ付加処理を行い、ノイズ付加された画像を第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いてノイズ付加された画像に対してノイズ除去を行って復元画像を得、前記復元画像から抽出された画像前景特徴を決定し、原画像に対応する画像前景特徴と復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、第1の画像生成モデルを訓練する。訓練された第1の画像生成モデルは、入力されたノイズ付加後画像に基づいて、原画像と類似する画像前景特徴を有する復元画像を出力する。
【0019】
本発明によって提供されるサービス実行方法では、初期画像を取得した後、前記初期画像を、上記訓練方法を用いて予め訓練された画像生成モデルに入力し、ターゲット画像を出力させ、初期画像とターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行する。
【0020】
以上の方法から分かるように、訓練セットの画像データにノイズを加え、予め訓練された画像生成モデルに入力してノイズ除去を行うことで、ノイズを加える前の画像前景特徴に似ているが、それ以外の細部が異なる画像を生成することができ、生成された画像を訓練セットを拡張するための画像データとして利用することで、限られた訓練セットでサービス要件を満たすモデルを訓練するニーズを満たすことができ、モデルの全体的な訓練効率を向上させることができる。
【図面の簡単な説明】
【0021】
ここで説明される図面は、本発明に対する更なる理解を提供するために用いられ、本発明の一部を構成し、本発明の概略的な実施例及びその説明は、本発明を解釈するために用いられ、本発明に対する不当な限定を構成しない。
図1】本発明によって提供される画像生成モデルの訓練方法のフローを示す概略図である。
図2】本発明によって提供されるサービス実行方法のフローを示す概略図である。
図3】本発明によって提供される画像生成モデルの訓練装置の構造を示す概略図である。
図4】本発明によって提供されるサービス実行装置の構造を示す概略図である。
図5】本発明によって提供される電子デバイスの構造を示す概略図である。
【発明を実施するための形態】
【0022】
本発明の目的、技術的解決手段及び利点をより明確にするために、以下、本発明の具体的な実施例及び相応する図面と併せて、本発明の技術的解決手段を明確に完全に説明する。明らかに、説明される実施例は、本発明の一部の実施例にすぎず、全ての実施例ではない。本発明における実施例に基づいて、当業者が創造的な労力を要することなく得られる他の全ての実施例は、いずれも本発明の保護範囲に属する。
【0023】
以下、本発明の各実施例によって提供される技術的解決手段について詳細に説明する。
【0024】
図1は本発明によって提供される画像生成モデルの訓練方法のフローを示す概略図であり、以下のステップを含む。
【0025】
ステップS101において、原画像を取得する。
【0026】
本発明によって提供される画像生成モデルの訓練方法の実行主体は、ノート型コンピュータ、デスクトップ型コンピュータなどの端末デバイス、端末デバイスにインストールされたクライアント、サーバ、又はモデルを訓練するための専用デバイスのいずれであってもよい。以下、説明の便宜上、実行主体が専用デバイスである例のみを用いて、本発明によって提供される画像生成モデルの訓練方法を説明する。
【0027】
現在のコンピュータビジョン分野では、深層学習技術に基づくモデルは、訓練に十分な量の画像データを必要とすることが多く、画像データの量が十分でない場合、訓練されたモデルはサービス要件を満たすことは困難である。現在、画像データ不足の問題に対しては、初期画像に対して回転、反転、平行移動、塗りつぶしなどの処理を行い、モデル訓練用の追加画像データを生成する方法が主流である。しかし、上記のような処理方法によって生成された画像データは、画像の構造や内容が初期画像と類似しすぎていたり、画像内の画像前景特徴が原画像と異なりすぎている、すなわち、写実性が低すぎるなどの問題を有している可能性があり、このような問題を有する可能性のある画像データを訓練セットとして訓練されたモデルの汎化能力が影響を受け、その結果、モデルの性能がサービス要件を満たすことができなくなる。
【0028】
これに基づき、本発明は、画像生成モデルの訓練方法を提供し、専用デバイスが原画像を取得し、次に、専用デバイスがノイズ付加された原画像を第1の画像生成モデルに入力してノイズ除去を行って復元画像を取得し、原画像から抽出された画像前景特徴と、取得された復元画像から抽出された画像前景特徴とに基づいてモデルを訓練することにより、原画像から復元画像を決定することができる画像生成モデルを得る。
【0029】
画像生成モデルの訓練プロセスにおいて、専用デバイスは、まず、訓練サンプルとして用いられる原画像を取得する必要がある。ここで、当該原画像は、所定の画像セットから取得されてもよいし、所定の取得装置によって取得されてもよい。
【0030】
ステップS102において、前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得る。
【0031】
専用デバイスが原画像を取得した後、原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得る必要がある。複数のノイズ信号を用いて原画像にノイズを付加する場合、原画像にノイズ信号を順次付加する必要がある。すなわち、1つ目のノイズ信号で原画像にノイズを付加した後、2つ目のノイズ信号を用いて、1つ目のノイズ信号でノイズを付加された原画像にノイズを付加する。以降も同様である。全てのノイズ信号が原画像に付加された後、ノイズ付加後画像を得る。
【0032】
なお、ノイズ信号を逐次付加するために行われる計算の規模は大きく、特に画像データの数が多い場合には、それぞれ複数回計算すると計算負荷が大きくなる。従って、本発明では、予め構築された第2の画像生成モデルに基づいて原画像にノイズを付加する方法を提供する。予め構築された第2の画像生成モデルは、入力された原画像とノイズ信号の数とに基づいて、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた原画像のノイズ付加後画像を出力することができる。
【0033】
原画像に付加されるノイズ信号が複数のガウス分布信号であることを例にとると、第2の画像生成モデルを構築するプロセスにおいて、まずサンプル画像を得る必要があり、次に、N個目のガウス分布信号を用いて、N-1個目のガウス分布信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のガウス分布信号でノイズ付加されたノイズ付加後画像を得る。Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像はサンプル画像である。
【0034】
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定し、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係に基づいて前記第2の画像生成モデルを構築する。mはNより小さい正の整数である。
【0035】
具体的に、第2の画像生成モデルを構築するプロセスにおいて、専用デバイスは、受信したフィッティング命令に基づいて、ガウス分布信号の付加式情報を問い合わせて取得し、取得したガウス分布信号の付加式情報に基づいて、ノイズ付加を行うためのガウス分布信号の付加式
【数1】
を生成することができる。
【0036】
ここで、εはガウス分布信号であり、xはサンプル画像の画素値であり、βはガウス分布信号の分散で、[0.0,1.0]の間の値を持つ係数である。
【0037】
次に、専用デバイスは、入力されたガウス分布信号の付加式を繰り返すことで、サンプル画像にガウス分布信号を複数回付加することを実現する。
【0038】
具体的には、xを初期のサンプル画像とすると、専用デバイスは、上記のガウス分布信号の付加式に基づいて、1回目の繰り返しのガウス分布信号を付加する重畳式
【数2】
を得る。
【0039】
このように、専用デバイスはフィッティング命令に基づいてガウス分布信号の付加式を複数回繰り返し、最終的に以下の各重畳式を得る。
【数3】
【0040】
ここで、各繰り返しのεは標準正規分布(Standard Normal Distribution)に従ってリサンプリングして得られた乱数であり、0<β<β<β……<βN-3<βN-2<βN-1<β<1となる。
【0041】
α=1-βとすると、
【数4】
を得ることができる。
【0042】
専用デバイスは、xからxまでの計算プロセスを決定した後、xをN個目のノイズを付加された画像xに、一発で変換する変換関係を構築してもよい。
【0043】
具体的に、xN-2、xN-1、Nの関係
【数5】
によると、
【数6】
を得ることができる。
【0044】
上式を簡略化すると、
【数7】
を得ることができる。
【0045】
2つの正規分布が畳み込まれる際に、畳み込み後の確率密度関数(Probability Density Function)は変わらず正規分布であるため、
【数8】
となる。
【0046】
式において、εN-1とεは2つの独立な乱数であり、両方とも正規分布を満たしているため、上式に基づいて、2回のサンプリングを1回のサンプリングにまとめて、重ねられた確率分布を用いてサンプリングすればよい。
【0047】
【数9】
における定数
【数10】
によるεN-1の分布への影響を検討する。εN-1は正規分布を満たし、平均μ=0、分散σ=1であるため、
【数11】
は、
【数12】
という分布に従う。
【0048】
μ=0、σ=1により、
【数13】
は、
【数14】
という分布に従う。
【0049】
εについても同様に、
【数15】
は、N(0,1-α)という分布に従う。
【0050】
2つの正規分布を重ねると、新たな正規分布N´(0,1-ααN-1)を得ることができる。
【0051】
専用デバイスは、新しい分布N´をランダムにサンプリングすることで、元の2つの分布を重ねてサンプリングすることと等価であり、1回のサンプリングでxN-2からxまでの変換を完了した。すなわち、
【数16】
である。
【0052】
この変換方法により、専用デバイスはxN-3からxまでの変換関係
【数17】
を決定することができる。
【0053】
このように、専用デバイスは最終的に、xからxまでの変換関係
【数18】
を決定することができる。
【0054】
【数19】
とすると、1回のサンプリングによるxからxまでの変換関係
【数20】
を得ることができる。
【0055】
決定された上記変換関係に基づいて、専用デバイスは、第2の画像生成モデルを構築することができ、これにより、第2の画像生成モデルを用いて画像にノイズを付加することができる。すなわち、第2の画像生成モデルは、入力された原画像と重ねられるガウス分布信号の数とに基づいて、前記ガウス分布信号の数に対応する回数のノイズ付加処理が行われた原画像のノイズ付加後画像を出力することができる。
【0056】
専用デバイスは、原画像とノイズ信号の数とを上記方法によって予め構築された第2の画像生成モデルに入力し、第2の画像生成モデルに、ノイズ信号の数に対応する回数のノイズ付加処理が行われた原画像のノイズ付加後画像を出力させる。すなわち、原画像とノイズ信号の数Nとを第2の画像生成モデルに入力し、第2の画像生成モデルによって出力されるノイズ付加後画像は、原画像にN回ノイズ付加を行ったものに相当し(すなわち、1つ目のノイズ信号で原画像にノイズを付加し、1つ目のノイズ信号でノイズを付加された原画像を得、次に、2つ目のノイズ信号を用いて、1つ目のノイズ信号でノイズを付加された原画像にノイズを付加し、以降も同様である)、これにより、画像にノイズを付加する効率を大幅に向上させることができる。その後、ノイズ付加後画像に対してノイズ除去を行うことで、復元画像を得ることができる。
【0057】
ステップS103において、前記ノイズ付加後画像を第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、前記ノイズ付加後画像に対してノイズ除去を行って復元画像を得、前記復元画像から抽出された画像前景特徴を決定する。
【0058】
専用デバイスは、第2の画像生成モデルによって出力されたノイズ付加後画像を取得した後、第2の画像生成モデルによって出力されたノイズ付加後画像と、ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、第1の画像生成モデルを用いて、ノイズ付加後画像に対してノイズ除去を行って復元画像を得、その後、復元画像から抽出された画像前景特徴を決定する。
【0059】
第1の画像生成モデルによってノイズ付加後画像に対してノイズ除去を行うプロセスにおいて、ノイズ付加後画像がノイズ付加された回数値に基づいて、ノイズ付加後画像に対応する原画像に対して、回数値に対応するノイズ付加処理を行う際に使用される重畳ノイズ信号を予測し、予測された重畳ノイズ信号に基づいて、入力されたノイズ付加後画像の、回数値回目のノイズ付加処理を行う前の遷移画像を予測する。遷移画像を予測する上記ステップは、ノイズ付加後画像及びこのノイズ付加後画像の全ての遷移画像に使用することができる。すなわち、第1の画像生成モデルは、入力された画像に対応する復元画像が得られるまで、入力された画像と、画像に対応するノイズ付加の回数値kとに基づいて、入力された画像に対応する原画像に対して、k回目のノイズ付加処理を行う際に使用される重畳ノイズ信号を予測し、次に、重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、重畳ノイズ信号とk-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測することができる。kは入力された画像に対応する回数値を超えない正の整数である。
【0060】
ガウス分布信号の除去については、以下のように、ノイズ付加後画像に対応するノイズ付加の回数値に基づいて、第1の画像生成モデルがノイズ付加後画像に対応する復元画像を予測する機能を実現するように、変換モデルを構築してもよい。
【0061】
を予測されるノイズ付加の回数値がtのノイズ付加後画像とし、逆方向に、xから復元画像を得る。第1の画像生成モデルが、任意の時点におけるxからxt-1までの変換関係を構築し、任意の時点におけるxからxt-1までの変換関係に基づいて、任意の時点におけるxからxまでの変換関係を決定する。
【0062】
ここで、第1の画像生成モデルが、任意の時点におけるxからxt-1までの変換関係を構築する、すなわち、条件付き確率P(xt-1│x)を決定する手順は以下の通りである。
【0063】
ノイズ信号の重畳による変換関係P(x│xt-1)でP(xt-1│x)を表す。この変換関係P(x│xt-1)は、第2の画像生成モデルを構築するプロセスで決定され得る。
【0064】
からxt-1はランダムな過程であるため、ベイズの定理
【数21】
によると、
【数22】
を得ることができる。
【0065】
ここで、P(x)とP(xt-1)はいずれもxからそれらを得る確率を表すため、
【数23】
と表してもよい。
【0066】
全てにxという条件を加えることは、同じxの下ではxは実際に無視できることを表す。
【0067】
専用デバイスは、ノイズ付加後画像からガウス分布信号を除去する変換モデル
【数24】
を決定する必要がある。
【0068】
P(x│xt-1)は、xt-1が発生した場合にxが発生する確率を表す。
【0069】
第2の画像生成モデルを構築するプロセスでは、
【数25】
、すなわち、
【数26】
が既知である。
【0070】
ここでεは分布N(0,1)を満たし、定数
【数27】
を掛け、定数
【数28】
を足すと新たな分布
【数29】
を得ることができる。時点xt-1、時点xの確率分布は正規分布であることが分かる。
【0071】
P(x│x)は、xが発生した場合にxが発生する確率を表す。同様に、
【数30】
を得ることができる。
【0072】
専用デバイスは、P(x│x)の確率分布が
【数31】
であると決定する。
【0073】
P(xt-1│x)は、xが発生した場合にxt-1が発生する確率を表す。同様に、
【数32】
を得ることができる。
【0074】
専用デバイスは、P(xt-1│x)の確率分布が
【数33】
であると決定する。
【0075】
ガウス分布信号を除去する変換モデルの式の右辺は全部正規分布なので、そのパラメータを確率密度関数の形
【数34】
に代入することができる。
【0076】
ここで、xは乱数の値、μは平均、σは標準偏差である。
【0077】
【数35】
を得ることができる。
【0078】
専用デバイスは、上記の3つの確率密度関数及びノイズ付加後画像からガウス分布信号を除去する変換モデル
【数36】
によると、
【数37】
を決定することができる。
【0079】
最終的に、正規分布の式に適合する形
【数38】
を決定することができる。
【0080】
ここで、専用デバイスは、xという条件が与えられた場合のxt-1の確率密度関数及びその分布
【数39】
を算出した。
【0081】
次に、分布の最後の項xを取り除く必要がある。xとxの関係
【数40】
が既知であるため、
【数41】
を得ることができる。これを分布に代入すると、xという条件が与えられた場合のxt-1の確率分布
【数42】
を決定することができる。
【0082】
上記xという条件が与えられた場合のxt-1の確率分布に基づいて、専用デバイスは第1の画像生成モデルを用いて、xと、ガウス分布信号εを1回付加するという条件が与えられた場合にxt-1を決定することができ、第1の画像生成モデルによる遷移画像の予測を実現し、これにより復元画像を得る。
【0083】
ステップS104において、前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練する。
【0084】
第1の画像生成モデルを用いてノイズ付加後画像に対応する復元画像を取得した後、ノイズ付加後画像に対応する原画像から抽出された画像前景特徴と、復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、第1の画像生成モデルを訓練する。これにより、訓練された第1の画像生成モデルを用いて、原画像の画像前景特徴と類似する画像前景特徴を有する復元画像を生成し、復元画像は、訓練に画像データを必要とする他のモデルを訓練するための訓練セットを構築するために使用することができる。
【0085】
訓練された第1の画像生成モデルは、入力されたノイズ付加後画像に基づいて、ノイズ付加後画像に対応する復元画像を出力することができ、復元画像における画像前景特徴は、対応する原画像における画像前景特徴と高い類似度を有するが、他の部分は一定の相違点を有し、類似しているが類似していないという効果を達成した。従って、復元画像は異なる画像データとして、モデルを訓練するための訓練セットを構築するために使用することができる。
【0086】
以上の方法から分かるように、上記のモデルの訓練方法によって、差別化された画像を得ることができる画像生成モデルを得ることができ、当該画像生成モデルは、訓練対象のモデルを訓練するための訓練セットを構築するために用いられる訓練サンプルを生成するために用いられる。プロセスは以下の通りである。
【0087】
図2は本発明によって提供されるサービス実行方法のフローを示す概略図であり、以下のステップを含む。
【0088】
ステップS201において、初期画像を取得する。
【0089】
本発明によって提供されるサービス実行方法の実行主体は、ノート型コンピュータ、デスクトップ型コンピュータなどの端末デバイス、端末デバイスにインストールされたクライアント、サーバのいずれであってもよいが、説明の便宜上、実行主体がサーバである例のみを用いて、本発明によって提供されるサービス実行方法を説明する。
【0090】
サービス実行に必要なモデルについては、モデルを訓練するために一定数の訓練データを取得する必要がある。ここで、訓練データの数が多く、質が高いほど、訓練されたモデルの能力は高くなる。訓練データの数が十分でない場合には、訓練されたモデルの効果がサービス実行のニーズを満たすことができないことに対して、本発明によって提供されるサービス実行方法は、上述した画像生成モデルの訓練方法によって訓練された画像生成モデルを用いて、初期画像から訓練セットの構築に用いることができるターゲット画像を追加的に取得することができる。
【0091】
芸術画像生成サービスを例にとると、必要とされる芸術画像生成モデル(すなわち、訓練対象の指定モデル)には、学習データとして大量の芸術画像データが必要であり、画像データの数が不足している場合、例えば、ある芸術流派の画像が少ない場合には、この芸術流派の少数の画像を初期画像として、芸術画像生成モデルを訓練するためのターゲット画像を追加的に取得することができる。
【0092】
サーバは、モデルの訓練に使用できる画像データを初期画像として取得するが、初期画像は、ノイズ付加後画像であってもよいし、ノイズ付加されていない画像であってもよい。ここで、ノイズ付加後画像については、そのノイズ付加後画像に対応するノイズ付加の回数を運ぶ必要があり、そうでない場合は、予め訓練された画像生成モデルによって出力される復元画像の品質に影響を与えることになる。なお、ノイズ付加されていない画像については、本発明によって提供された画像生成モデルの訓練方法を用いて訓練された第2の画像生成モデルを用いてノイズ付加を行うようにしてもよい。
【0093】
ステップS202において、前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させ、前記画像生成モデルは、上記訓練方法を用いて訓練して得られたモデルである。
【0094】
サーバは、初期画像を予め訓練された第1の画像生成モデルに入力してターゲット画像を取得し、ターゲット画像は、サービス実行に必要な所定の指定モデルを訓練するための訓練セットを構築するために用いられ得る。ここで、予め訓練された画像生成モデルは、本発明によって提供される画像生成モデルの訓練方法を用いて訓練された第1の画像生成モデルであり、ノイズ付加後画像に対してノイズ除去を行うことでモデルの訓練に用いることができる復元画像を得ることができる。
【0095】
例えば、芸術画像生成モデル(すなわち、訓練対象の指定モデル)を訓練する前に、訓練セット内の画像を初期画像として使用し、初期画像に対してノイズ付加を行った後、ノイズ付加の回数値とともに初期画像を、予め訓練された第1の画像生成モデルに入力してノイズ除去を行うことで、画像前景特徴が初期画像の画像前景特徴と類似する画像を追加画像データとして取得し、芸術画像生成モデルの訓練セットを拡張することができる。
【0096】
なお、初期画像に対するノイズ付加の回数を限定しないことで、より多くのターゲット画像を取得することも可能であり、例えば、ノイズ付加が1回行われた画像に対して、1回復元されたターゲット画像だけでなく、2回復元されたターゲット画像を取得することも可能であり、これについて特に限定しない。
【0097】
ステップS203において、前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行する。
【0098】
サーバが、画像前景特徴が初期画像の画像前景特徴と類似するターゲット画像を取得した後、初期画像とターゲット画像とに基づいて訓練セットを構築し、サービス実行に必要な所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行する。
【0099】
例えば、サーバが芸術画像生成モデル(すなわち、訓練対象の指定モデル)を訓練する際に、初期画像とターゲット画像とに基づいて芸術画像生成モデルの訓練セットを構築し、少数の初期画像データでサービス要件を満たす芸術画像生成モデルを訓練することで、芸術画像生成モデルの訓練効率を向上させることができる。
【0100】
なお、本発明において、第1の画像生成モデルに入力される初期画像は、ノイズが付加された画像であってもよいし、ノイズが付加されていない画像であってもよいが、いずれの場合であっても、第1の画像生成モデルは、入力画像をノイズが付加された画像としてノイズ除去を行い、画像前景特徴が初期画像の画像前景特徴と類似するが、他の部分に顕著な差異を有するターゲット画像を得る。ノイズが付加されていない初期画像について、ノイズが付加されていない初期画像については、第1の画像生成モデルは、訓練プロセスで学習したノイズ除去のロジックにより、初期画像に含まれる画像データの一部をノイズとみなしてノイズ除去を行う。
【0101】
以上、本発明の画像生成モデルの訓練方法及びサービス実行方法について説明したが、同じ考え方に基づき、本発明は、相応する装置、記憶媒体及び電子デバイスも提供する。
【0102】
図3は本発明によって提供される画像生成モデルの訓練装置の構造を示す概略図である。
前記装置は、
原画像を取得するための取得モジュール301と、
前記原画像に対してノイズ付加処理を行い、ノイズ付加後画像を得るためのノイズ付加モジュール302と、
前記ノイズ付加後画像と、前記ノイズ付加後画像がノイズ付加された回数値とを第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、復元画像が得られるまで、前記原画像に対して前記回数値のノイズ付加処理を行って前記ノイズ付加後画像に変換する際に使用される重畳ノイズ信号を予測し、前記重畳ノイズ信号に基づいて、k回目のノイズ付加処理を行う前のk-1枚目の遷移画像を予測し、前記重畳ノイズ信号と前記k-1枚目の遷移画像とに基づいて、k-1回目のノイズ付加処理を行う前のk-2枚目の遷移画像を予測し、前記復元画像から抽出された画像前景特徴を決定するための入力モジュール303と、
前記原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練するための訓練モジュール304と、を含む。
【0103】
オプションで、前記ノイズ付加モジュール302は、具体的に、
前記原画像と前記ノイズ信号の数とを予め構築された第2の画像生成モデルに入力し、前記第2の画像生成モデルに、前記ノイズ信号の数に対応する回数のノイズ付加処理が行われた前記原画像のノイズ付加後画像を出力させるために用いられる。
【0104】
オプションで、前記ノイズ付加モジュール302は、具体的に、
サンプル画像を取得し、
N個目のノイズ信号を用いて、N-1個目のノイズ信号でノイズ付加されたノイズ付加後画像に対してノイズ付加し、N個目のノイズ信号でノイズ付加されたノイズ付加後画像を得、Nは1以上の正の整数であり、0個目のノイズ信号でノイズ付加されたノイズ付加後画像は前記サンプル画像であり、
N個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像と、N個目のノイズ信号と、N-m+1個目のノイズ信号とに基づいて、N-m個目のノイズ信号でノイズ付加されたノイズ付加後画像からN個目のノイズ信号でノイズ付加されたノイズ付加後画像までの変換関係を決定し、mはNより小さい正の整数であり、
前記変換関係に基づいて前記第2の画像生成モデルを構築するために用いられる。
【0105】
図4は本発明によって提供されるサービス実行装置の構造を示す概略図である。前記装置は、
初期画像を取得するための取得モジュール401と、
前記初期画像を予め訓練された画像生成モデルに入力し、ターゲット画像を出力させるための入力モジュールであって、前記画像生成モデルは、上記訓練方法を用いて訓練して得られたモデルである、入力モジュール402と、
前記初期画像と前記ターゲット画像とに基づいて訓練セットを構築し、前記訓練セットを用いて所定の指定モデルを訓練し、訓練された指定モデルを用いてサービスを実行するための訓練モジュール403と、を含む。
【0106】
本発明はコンピュータプログラムを記憶しているコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されると、上述の図1に提供される画像生成モデルの訓練方法又は上述の図2に提供されるサービス実行方法が実施される。
【0107】
図1に示す画像生成モデルの訓練方法と、図2に示すサービス実行方法とに基づいて、本発明の実施例は、図5に示す電子デバイスの構造を示す概略図をさらに提供する。図5に示すように、ハードウェアレベルでは、当該電子デバイスは、プロセッサ、内部バス、ネットワークインタフェース、内部メモリ、及び不揮発性メモリを含み、もちろん、他の動作に必要なハードウェアも含み得る。プロセッサは、不揮発性メモリから対応するコンピュータプログラムを内部メモリに読み込んで実行し、上記図1に示す画像生成モデルの訓練方法又は図2に示すサービス実行方法を実現する。
【0108】
もちろん、ソフトウェアによる実現の他に、本発明は、論理デバイスやハードウェアとソフトウェアの組み合わせなど、他の実現方式を排除するものではなく、つまり、以下の処理プロセスの実行主体は、各の論理ユニットに限定されず、ハードウェアや論理デバイスであってもよい。
【0109】
1990年代には、ある技術の改良は、ハードウェアの改良(ダイオード、トランジスタ、スイッチなどの回路構造の改良など)とソフトウェアの改良(方法フローの改良)に明確に区別することができる。しかし、技術の発展に伴い、現在の方法フローの改良の多くは、ハードウェア回路構造に対する直接的な改良と見なすことができるようになった。設計者は、改良された方法フローをハードウェア回路にプログラミングすることで、対応するハードウェア回路構造を得ることがほとんどである。したがって、方法フローの改良がハードウェア物理モジュールにより実現できないとは言い切れない。例えば、プログラマブルロジックデバイス(Programmable Logic Device、PLD)(例えばフィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA))はこのような集積回路であり、その論理機能がデバイスのユーザーによるプログラミングによって決定される。チップメーカーが専用の集積回路チップを設計・製造する代わりに、設計者がプログラミングしてデジタルシステムを1枚のPLD上に「集積」する。そして、現在では、集積回路チップを手作りする代わりに、このプログラミングは「論理コンパイラ(logic compiler)」というソフトウェアを使って実現されることがほとんどであり、これは、プログラムを書くときに使うソフトウェアコンパイラと類似し、前のオリジナルコードをコンパイルするためには、特定のプログラミング言語で書く必要があり、これはハードウェア記述言語(Hardware Description Language、HDL)と呼ばれ、HDLは1種類だけではなく、ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)など、多くの種類があり、現在最もよく使われているのはVHDL(Very-High-Speed Integrated Circuit Hardware Description Language)とVerilogである。方法フローを、上記のハードウェア記述言語のいくつかでちょっと論理的にプログラミングして集積回路にプログラミングするだけで、論理的な方法フローを実現するハードウェア回路は簡単に得られることは、当業者には明らかであろう。
【0110】
コントローラは、任意の適切な方法で実現されてもよく、例えば、コントローラはマイクロプロセッサ又はプロセッサと、当該(マイクロ)プロセッサによって実行可能なコンピュータ可読プログラムコード(例えば、ソフトウェア又はファームウェア)を記憶するコンピュータ可読記憶媒体と、論理ゲート、スイッチ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、プログラマブルロジックコントローラ及び埋め込みマイクロコントローラの形態を採用してもよく、コントローラの例として、ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20、Silicone Labs C8051F320などのマイクロコントローラを含むが、これらに限定されず、メモリコントローラはさらに、メモリの制御ロジックの一部として実現されることも可能である。また、純粋なコンピュータ可読プログラムコードでコントローラを実現することに加えて、方法ステップを論理的にプログラミングすることで、コントローラに、論理ゲート、スイッチ、特定用途向け集積回路、プログラマブルロジックコントローラ及び埋め込みマイクロコントローラなどの形態で同じ機能を実行させることも完全に可能であることは、当業者には明らかであろう。したがって、このようなコントローラを、ハードウェアコンポーネントとみなしてもよく、様々な機能を実現するためのその中に含まれる装置も、ハードウェアコンポーネント内の構造とみなしてもよい。又は、さらに、様々な機能を実現するための装置を、方法を実現するソフトウェアモジュールであってもよいし、ハードウェアコンポーネント内の構造であってもよいと、みなしてもよい。
【0111】
上記実施例で説明したシステム、装置、モジュール又はユニットは、具体的に、コンピュータチップ、エンティティ、又は何らかの機能を有する製品によって実現されてもよい。典型的な実現デバイスはコンピュータである。具体的に、コンピュータは例えば、パーソナルコンピュータ、ラップトップコンピュータ、携帯電話、カメラ付き電話、スマートフォン、パーソナルデジタルアシスタント、メディアプレーヤ、ナビゲーションデバイス、電子メールデバイス、ゲーム機、タブレット、ウェアラブルデバイス、又はこれらのデバイスの任意のいくつかの組み合わせであってもよい。
【0112】
なお、説明の便宜上、上記の装置を説明するときに機能によって様々なユニットに分けてそれぞれ説明する。もちろん、本発明を実施する際に、各ユニットの機能を同一又は複数のソフトウェア及び/又はハードウェアで実現することも可能である。
【0113】
当業者であれば分かるように、本発明の実施例が、方法、システム、又はコンピュータプログラム製品として提供されてもよい。したがって、本発明は、ハードウェアだけからなる実施例、ソフトウェアだけからなる実施例、又はソフトウェアとハードウェアを組み合わせた実施例なる形態を用いてもよい。さらに、本発明は、コンピュータで使用可能なプログラムコードを含む1つ又は複数のコンピュータで使用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)において実施されるコンピュータプログラム製品の形態であってもよい。
【0114】
本発明は、本発明の実施例による方法、デバイス(システム)、及びコンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明される。フローチャート及び/又はブロック図における各フロー及び/又はブロック、並びにフローチャート及び/又はブロック図におけるフロー及び/又はブロックの組み合わせは、コンピュータプログラム命令によって実現されてもよいことが理解されるべきである。これらのコンピュータプログラム命令は、マシンを生成するために、汎用コンピュータ、専用コンピュータ、埋め込みプロセッサ、又は他のプログラム可能なデータ処理デバイスのプロセッサに提供されてもよく、それにより、コンピュータ又は他のプログラム可能なデータ処理デバイスのプロセッサによって実行される命令により、フローチャートの1つ又は複数のフロー、及び/又はブロック図の1つ又は複数のブロックにおいて指定される機能を実現するための装置が生成される。
【0115】
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能なデータ処理デバイスに特定の方法で作業するように指示することができるコンピュータ可読メモリに記憶されてもよく、その結果、当該コンピュータ可読メモリに記憶されている命令により、フローチャートの1つ又は複数のフロー及び/又はブロック図の1つ又は複数のブロックにおいて指定される機能を実現する命令装置を含む製品が生成される。
【0116】
これらのコンピュータプログラム命令は、コンピュータ又は他のプログラム可能なデータ処理デバイスにロードしてもよく、それにより、一連の動作ステップがコンピュータ又は他のプログラム可能なデバイス上で実行されることで、コンピュータにより実施される処理が生成され、それにより、コンピュータ又は他のプログラム可能なデバイス上で実行される命令により、フローチャートの1つ又は複数のフロー、及び/又はブロック図の1つ又は複数のブロック内で指定される機能を実現するためのステップが提供される。
【0117】
典型的な構成では、コンピューティングデバイスは、1つ以上のプロセッサ(CPU)、入力/出力インタフェース、ネットワークインタフェース、及びメモリを含む。
【0118】
メモリは、コンピュータ可読記憶媒体のうちの揮発性メモリ、ランダムアクセスメモリ(RAM)及び/又は不揮発性メモリなどの形態を含み得、例えば、読み出し専用メモリ(ROM)又はフラッシュメモリ(flash RAM)である。メモリは、コンピュータ可読記憶媒体の一例である。
【0119】
コンピュータ可読記憶媒体は不揮発性及び揮発性媒体、移動可能及び非移動可能な媒体を含み、任意の方法又は技術により情報記憶を実現し得る。情報はコンピュータ可読命令、データ構造、プログラムモジュール又は他のデータであってもよい。コンピュータの記憶媒体は、相変化メモリ(Phase Change RAM、PRAM)、スタティックランダムアクセスメモリ(Static Random-Access Memory、SRAM)、ダイナミックランダムアクセスメモリ(Dynamic Random Access Memory、DRAM)、他のタイプのランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、電気的消去可能プログラマブル読み出し専用メモリ(Electrically Erasable Programmable Read Only Memory、EEPROM)、フラッシュメモリ(flash Memory)又は他のメモリ技術、コンパクトディスク読み出し専用メモリ(Compact Disc Read Only Memory、CD-ROM)、デジタル多用途ディスク(Digital Versatile Disc、DVD)又は他の光学記憶、磁気カセットテープ、磁気テープ磁気ディスク記憶又は他の磁気記憶デバイス、又はコンピューティングデバイスからアクセス可能な情報を記憶するために使用され得る任意の他の非伝送媒体を含むがそれらに限定されない。本明細書の定義によれば、コンピュータ可読記憶媒体は一時記憶コンピュータ可読記憶媒体(transitory Media)、例えば変調されたデータ信号及びキャリアを含まない。
【0120】
また、用語「含む」、「含有」又はそのいずれかの他の変形は、非排他的な含有を含むことを意図し、それにより一連の要素を含むプロセス、方法、物品又はデバイスはそれらの要素を含むだけでなく、また明確に列挙されていない他の要素も含み、又はこのようなプロセス、方法、物品又はデバイスの固有の要素も含む。より多くの制限がない場合、文「1つの…を含む」により限定された要素は、前記要素を含むプロセス、方法、物品又はデバイスにさらに他の同じ要素が存在することを排除するものではない。
【0121】
当業者であれば分かるように、本発明の実施例が、方法、システム、又はコンピュータプログラム製品として提供されてもよい。したがって、本発明は、ハードウェアだけからなる実施例、ソフトウェアだけからなる実施例、又はソフトウェアとハードウェアを組み合わせた実施例なる形態を用いてもよい。さらに、本発明は、コンピュータで使用可能なプログラムコードを含む1つ又は複数のコンピュータで使用可能な記憶媒体(磁気ディスクメモリ、CD-ROM、光学メモリなどを含むが、これらに限定されない)において実施されるコンピュータプログラム製品の形態であってもよい。
【0122】
本発明は、プログラムモジュールのようなコンピュータによって実行されるコンピュータ実行可能命令の一般的な文脈で記述され得る。一般的に、プログラムモジュールは、特定のタスクを実行する、又は特定の抽象データ型を実現するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介して接続されたリモート処理デバイスによってタスクが実行される分散コンピューティング環境においても実施され得る。分散コンピューティング環境において、プログラムモジュールは、記憶デバイスを含むローカル及びリモートコンピュータ記憶媒体に配置され得る。
【0123】
本発明における各実施例はいずれも漸進の方式で説明され、各実施例の間の同じ又は類似する部分は互いに参照すればよく、各実施例の重点的に説明されたのは他の実施例との相違点である。特に、システムの実施例に対して、それは基本的に方法の実施例と類似するため、簡単に説明し、関連する部分は方法の実施例の一部の説明を参照すればよい。
【0124】
上記は、本発明の実施例にすぎず、本発明を限定するために使用されるものではない。当業者にとって、本発明は、様々な変更および変化があり得る。本発明の趣旨と原理から逸脱せず行った任意の修正、同等な置換、改善など、いずれも本発明の特許請求の範囲に含まれるものとするべきである。
【要約】      (修正有)
【課題】限られた訓練セットでサービス要件を満たすモデルを訓練するニーズを満たし、モデルの全体的な訓練効率を向上させる画像生成モデルの訓練方法、サービス実行方法、装置及び媒体を提供する。
【解決手段】画像生成モデルの訓練方法は、画像を取得することと、取得した原画像に対してノイズ付加処理を行い、ノイズ付加後画像を取得することと、ノイズ付加後画像を第1の画像生成モデルに入力し、前記第1の画像生成モデルを用いて、前記ノイズ付加後画像に対してノイズ除去を行って復元画像を得、前記復元画像から抽出された画像前景特徴を決定することと、原画像に対応する画像前景特徴と前記復元画像から抽出された画像前景特徴との間の差を最小化することを最適化目標として、前記第1の画像生成モデルを訓練することと、を含む。
【選択図】図1
図1
図2
図3
図4
図5