(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-20
(45)【発行日】2023-03-29
(54)【発明の名称】画像スタイル変換装置、画像スタイル変換方法、及びプログラム
(51)【国際特許分類】
G06T 11/80 20060101AFI20230322BHJP
G06T 1/00 20060101ALI20230322BHJP
G06T 7/00 20170101ALI20230322BHJP
【FI】
G06T11/80 A
G06T1/00 500A
G06T7/00 300F
G06T7/00 130
G06T7/00 350C
(21)【出願番号】P 2019001666
(22)【出願日】2019-01-09
【審査請求日】2021-12-22
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】凸版印刷株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】阿部 敬由
【審査官】山口 大志
(56)【参考文献】
【文献】成冨 志優,Conditional GANによる食事写真の属性操作,第10回データ工学と情報マネジメントに関するフォーラム (第16回日本データベース学会年次大会) [Online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2018年03月06日
【文献】丹野 良介,Multi Style Transfer:複数のスタイルの任意重み合成によるモバイル上でのリアルタイム画風変換,第9回データ工学と情報マネジメントに関するフォーラム (第15回日本データベース学会年次大会) [online] ,日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2017年02月27日
(58)【調査した分野】(Int.Cl.,DB名)
G06T 11/80
G06T 1/00
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、
前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部と
、
前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、
前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出部と、
前記学習結果に基づいて、前記目的コンテンツ抽出部が抽出した前記目的コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成部と
を備え
、
前記表示制御部は、
前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成部が生成した前記逆方向プレビュー画像を表示させる
ことを特徴とする画像スタイル変換装置。
【請求項2】
前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部
を備え、
前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成する
ことを特徴とする請求項1に記載の画像スタイル変換装置。
【請求項3】
類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、
前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部と、
前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、
前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部と、
指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出部と、
前記個別目的コンテンツ抽出部が抽出した、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択部と
を備え、
前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、
前記目的スタイル抽出部は、
指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、
前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択部が選択した前記目的スタイル画像を順方向プレビュー画像として表示させる
ことを特徴とする
画像スタイル変換装置。
【請求項4】
前記目的スタイル抽出部は、複数の前記目的スタイル特徴量を抽出し、
前記表示制御部は、複数の前記目的スタイル特徴量に対応する複数の前記スライダを前記表示部に表示させ、
前記変換画像生成部は、
前記学習結果に基づいて、前記対象コンテンツ特徴量と、前記対象スタイル特徴量と複数の前記目的スタイル特徴量とを前記スライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴量とから、前記スタイル変換画像を生成する
ことを特徴とする請求項
1から請求項
3のいずれか一項に記載の画像スタイル変換装置。
【請求項5】
前記学習結果に基づいて、前記スライダに対応した前記混合スタイル特徴量と、前記スライダに対応した前記目的スタイル画像から抽出された前記コンテンツの特徴量とから、動的プレビュー画像を生成する動的プレビュー画像生成部を備え、
前記表示制御部は、前記スライダに対応した前記動的プレビュー画像を、前記スライダに対応付けて表示させるとともに、前記スライダの前記混合率を示す位置に応じて、前記動的プレビュー画像を変更して表示させる
ことを特徴とする請求項
4に記載の画像スタイル変換装置。
【請求項6】
前記学習結果には、画像から前記スタイルの特徴量を抽出するスタイルエンコーダと、画像から前記コンテンツの特徴量を抽出するコンテンツエンコーダと、前記スタイルの特徴量及び前記コンテンツの特徴量から画像を生成するデコーダとが含まれ、
前記対象コンテンツ抽出部は、前記コンテンツエンコーダに基づいて、前記対象画像から前記対象コンテンツ特徴量を抽出し、
前記対象スタイル抽出部は、前記スタイルエンコーダに基づいて、前記対象画像から前記対象スタイル特徴量を抽出し、
前記目的スタイル抽出部は、前記スタイルエンコーダに基づいて、前記目的スタイル画像から前記目的スタイル特徴量を抽出し、
前記変換画像生成部は、前記デコーダに基づいて、前記対象コンテンツ特徴量及び前記混合スタイル特徴量から、前記スタイル変換画像を生成する
ことを特徴とする請求項1から請求項
5のいずれか一項に記載の画像スタイル変換装置。
【請求項7】
前記複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、前記学習結果を生成する学習処理部を備える
ことを特徴とする請求項1から請求項
6のいずれか一項に記載の画像スタイル変換装置。
【請求項8】
対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと
、
表示制御部が、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、
目的コンテンツ抽出部が、前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出ステップと、
逆方向プレビュー画像生成部が、前記学習結果に基づいて、前記目的コンテンツ抽出ステップによって抽出された前記目的コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成ステップと
を含
み、
前記表示制御ステップにおいて、前記表示制御部が、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成ステップによって生成された前記逆方向プレビュー画像を表示させる
ことを特徴とする画像スタイル変換方法。
【請求項9】
対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、
表示制御部が、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、
スタイル混合部が、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合ステップと、
個別目的コンテンツ抽出部が、指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出ステップと、
目的スタイル画像選択部が、前記個別目的コンテンツ抽出ステップによって抽出された、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択ステップと
を含み、
前記変換画像生成ステップにおいて、前記変換画像生成部が、前記対象コンテンツ特徴量と、前記スタイル混合ステップによって生成された混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、
前記目的スタイル抽出ステップにおいて、前記目的スタイル抽出部が、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、
前記表示制御ステップにおいて、前記表示制御部が、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択ステップによって選択された前記目的スタイル画像を順方向プレビュー画像として表示させる
ことを特徴とする画像スタイル変換方法。
【請求項10】
コンピュータに、
類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと
、
前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、
前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出ステップと、
前記学習結果に基づいて、前記目的コンテンツ抽出ステップによって抽出された前記目的コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成ステップと
を実行させるためのプログラム
であり、
前記表示制御ステップにおいて、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成ステップによって生成された前記逆方向プレビュー画像を表示させる
プログラム。
【請求項11】
コンピュータに、
類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、
前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、
前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、
前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、
前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、
前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合ステップと、
指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出ステップと、
前記個別目的コンテンツ抽出ステップによって抽出された、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択ステップと
を実行させるためのプログラムであり、
前記変換画像生成ステップにおいて、前記対象コンテンツ特徴量と、前記スタイル混合ステップによって生成された混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、
前記目的スタイル抽出ステップにおいて、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、
前記表示制御ステップにおいて、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択ステップによって選択された前記目的スタイル画像を順方向プレビュー画像として表示させる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像スタイル変換装置、画像スタイル変換方法、及びプログラムに関する。
【背景技術】
【0002】
近年、SNS(Social Networking Service)などでは、ユーザ受けを良くする為に写真やイラスト等の画像を自らの好みに合わせて加工してからアップロードすることがある。従来の画像の加工には、簡便に加工処理が可能なSNS又はスマートフォン等のカメラアプリケーションのフィルタリング機能や、より細かく加工が可能な画像編集ソフトが使用されることが多い。
【0003】
また、特許文献1に記載の従来技術では、加工したい対象画像と、加工で表現したい効果を表す目的画像の2枚を用意してそれぞれから画像の明るさやコントラスト、シャープネス、彩度、及び色相といった特徴量を算出し、画像間の特徴量が近くなるような調整を対象画像に対して行うことによって画像加工を実現する。
また、特許文献2に記載の従来技術では、画像の領域ごとに階調などの調整をスライダによって調整する。
【先行技術文献】
【特許文献】
【0004】
【文献】特許第6205860号公報
【文献】特許第6077020号公報
【非特許文献】
【0005】
【文献】Xun Huang et al.,”Multimodal Unsupervised Image-to-Image Translation.”, arXiv:1804.04732v2 [cs.CV] 14 Aug 2018
【文献】Martin Arjovsky et al.,“Wasserstein GAN.”, arXiv:1701.07875v3 [stat.ML] 6 Dec 2017
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述したフィルタリング機能は、適応するフィルタを選択するだけで簡便に画像加工が可能な反面、予め機能として提供されているフィルタ効果しか適応することができない。また、画像編集ソフトでは、フィルタリング機能以外にも領域指定、画素値、色味調整など細かく加工する機能が提供されているが、それらは複雑で一般的なユーザには使いこなすことが難しい。
また、特許文献1、2に記載の従来技術では、画像全体に一様に変換処理を行うため、例えば、シーンや被写体が大きく異なる対象画像と目的画像とに適応してしまうと光の当り方や色味などで不整合が生じてしまうことがあった。
【0007】
本発明は、上記の点に鑑みてなされたものであり、その目的は、ユーザが直感的に画像のスタイルを変換することができる画像スタイル変換装置、画像スタイル変換方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0008】
上記問題を解決するために、本発明の一態様は、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部と、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出部と、前記学習結果に基づいて、前記目的コンテンツ抽出部が抽出した前記目的コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成部とを備え、前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成部が生成した前記逆方向プレビュー画像を表示させることを特徴とする画像スタイル変換装置である。
【0009】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部を備え、前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成することを特徴とする。
【0011】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた画像から、前記学習結果に基づいて、前記目的スタイルキーワードに対応する前記目的スタイル特徴量を抽出することを特徴とする。
【0012】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出することを特徴とする。
【0013】
また、本発明の一態様は、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出部と、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出部と、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出部と、前記学習結果に基づいて、前記対象コンテンツ抽出部が抽出した前記対象コンテンツ特徴量と、前記対象スタイル抽出部が抽出した前記対象スタイル特徴量、及び前記目的スタイル抽出部が抽出した前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴とを併せ持つスタイル変換画像を生成する変換画像生成部と、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御部と、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合部と、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出部と、前記個別目的コンテンツ抽出部が抽出した、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択部とを備え、前記変換画像生成部は、前記対象コンテンツ特徴量と、前記スタイル混合部が生成した混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、前記目的スタイル抽出部は、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、前記表示制御部は、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択部が選択した前記目的スタイル画像を順方向プレビュー画像として表示させることを特徴とする画像スタイル変換装置である。
【0014】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記目的スタイル抽出部は、複数の前記目的スタイル特徴量を抽出し、前記表示制御部は、複数の前記目的スタイル特徴量に対応する複数の前記スライダを前記表示部に表示させ、前記変換画像生成部は、前記学習結果に基づいて、前記対象コンテンツ特徴量と、前記対象スタイル特徴量と複数の前記目的スタイル特徴量とを前記スライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴量とから、前記スタイル変換画像を生成することを特徴とする。
【0015】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記学習結果に基づいて、前記スライダに対応した前記混合スタイル特徴量と、前記スライダに対応した前記目的スタイル画像から抽出された前記コンテンツの特徴量とから、動的プレビュー画像を生成する動的プレビュー画像生成部を備え、前記表示制御部は、前記スライダに対応した前記動的プレビュー画像を、前記スライダに対応付けて表示させるとともに、前記スライダの前記混合率を示す位置に応じて、前記動的プレビュー画像を変更して表示させることを特徴とする。
【0016】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記学習結果には、画像から前記スタイルの特徴量を抽出するスタイルエンコーダと、画像から前記コンテンツの特徴量を抽出するコンテンツエンコーダと、前記スタイルの特徴量及び前記コンテンツの特徴量から画像を生成するデコーダとが含まれ、前記対象コンテンツ抽出部は、前記コンテンツエンコーダに基づいて、前記対象画像から前記対象コンテンツ特徴量を抽出し、前記対象スタイル抽出部は、前記スタイルエンコーダに基づいて、前記対象画像から前記対象スタイル特徴量を抽出し、前記目的スタイル抽出部は、前記スタイルエンコーダに基づいて、前記目的スタイル画像から前記目的スタイル特徴量を抽出し、前記変換画像生成部は、前記デコーダに基づいて、前記対象コンテンツ特徴量及び前記混合スタイル特徴量から、前記スタイル変換画像を生成することを特徴とする。
【0017】
また、本発明の一態様は、上記の画像スタイル変換装置において、前記複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、前記学習結果を生成する学習処理部を備えることを特徴とする。
【0018】
また、本発明の一態様は、対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、表示制御部が、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、目的コンテンツ抽出部が、前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出ステップと、逆方向プレビュー画像生成部が、前記学習結果に基づいて、前記目的コンテンツ抽出ステップによって抽出された前記目的コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成ステップとを含み、前記表示制御ステップにおいて、前記表示制御部が、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成ステップによって生成された前記逆方向プレビュー画像を表示させることを特徴とする画像スタイル変換方法である。
また、本発明の一態様は、対象コンテンツ抽出部が、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、対象スタイル抽出部が、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、目的スタイル抽出部が、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、変換画像生成部が、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、表示制御部が、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、スタイル混合部が、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合ステップと、個別目的コンテンツ抽出部が、指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出ステップと、目的スタイル画像選択部が、前記個別目的コンテンツ抽出ステップによって抽出された、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択ステップとを含み、前記変換画像生成ステップにおいて、前記変換画像生成部が、前記対象コンテンツ特徴量と、前記スタイル混合ステップによって生成された混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、前記目的スタイル抽出ステップにおいて、前記目的スタイル抽出部が、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、前記表示制御ステップにおいて、前記表示制御部が、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択ステップによって選択された前記目的スタイル画像を順方向プレビュー画像として表示させることを特徴とする画像スタイル変換方法である。
【0019】
また、本発明の一態様は、コンピュータに、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、前記学習結果に基づいて、前記目的スタイル画像から前記コンテンツの特徴量を、目的コンテンツ特徴量として抽出する目的コンテンツ抽出ステップと、前記学習結果に基づいて、前記目的コンテンツ抽出ステップによって抽出された前記目的コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量とから、前記目的スタイル画像の前記コンテンツの特徴と前記対象画像の前記スタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する逆方向プレビュー画像生成ステップとを実行させるためのプログラムであり、前記表示制御ステップにおいて、前記スライダの一端に隣接する位置に、前記目的スタイル画像を順方向プレビュー画像として表示させるとともに、前記順方向プレビュー画像とは反対の前記スライダの一端に隣接する位置に、前記逆方向プレビュー画像生成ステップによって生成された前記逆方向プレビュー画像を表示させるプログラムである。
また、本発明の一態様は、コンピュータに、類似の特徴を有する画像の集合を示すドメインである複数のドメインのそれぞれに属する画像群に基づいて学習された学習結果に基づいて、前記複数のドメインに共通する画像内の要素を示すコンテンツの特徴量を、対象コンテンツ特徴量として、指定された加工対象の画像である対象画像から抽出する対象コンテンツ抽出ステップと、前記学習結果に基づいて、前記対象画像から前記複数のドメインに共通しない画像内の要素を示すスタイルの特徴量を、対象スタイル特徴量として抽出する対象スタイル抽出ステップと、前記学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像から前記スタイルの特徴量を、目的スタイル特徴量として抽出する目的スタイル抽出ステップと、前記学習結果に基づいて、前記対象コンテンツ抽出ステップによって抽出された前記対象コンテンツ特徴量と、前記対象スタイル抽出ステップによって抽出された前記対象スタイル特徴量、及び前記目的スタイル抽出ステップによって抽出された前記目的スタイル特徴量を混合した混合スタイル特徴量とから、前記コンテンツの特徴と前記目的スタイルの特徴を併せ持つスタイル変換画像を生成する変換画像生成ステップと、前記対象スタイル特徴量と、前記目的スタイル特徴量との混合率を示すスライダを表示部に表示させ、ユーザによる操作部の操作に応じて、前記スライダの前記混合率を示す位置を変更して表示させる表示制御ステップと、前記操作部の操作によって指定された前記混合率で、前記対象スタイル特徴量と、前記目的スタイル特徴量とを混合して、前記混合スタイル特徴量を生成するスタイル混合ステップと、指定された前記目的スタイルを表す目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別コンテンツの特徴量を抽出する個別目的コンテンツ抽出ステップと、前記個別目的コンテンツ抽出ステップによって抽出された、前記複数の画像の個別コンテンツの特徴量のうちから、前記対象コンテンツ特徴量に最も近い前記個別コンテンツの特徴量に対応する画像を、前記目的スタイル画像として選択する目的スタイル画像選択ステップとを実行させるためのプログラムであり、前記変換画像生成ステップにおいて、前記対象コンテンツ特徴量と、前記スタイル混合ステップによって生成された混合スタイル特徴量とから、前記学習結果に基づいて前記スタイル変換画像を生成し、前記目的スタイル抽出ステップにおいて、指定された前記目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、前記学習結果に基づいて、個別スタイルの特徴量を抽出し、前記複数の画像のそれぞれから抽出した前記スタイルの特徴量の平均値を、前記目的スタイル特徴量として抽出し、前記表示制御ステップにおいて、前記スライダの一端に隣接する位置に、前記目的スタイル画像選択ステップによって選択された前記目的スタイル画像を順方向プレビュー画像として表示させるプログラムである。
【発明の効果】
【0020】
本発明によれば、ユーザが直感的に画像のスタイルを変換することができる。
【図面の簡単な説明】
【0021】
【
図1】第1の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。
【
図2】第1の実施形態における目的画像記憶部のデータ例を示す図である。
【
図3】第1の実施形態による画像スタイル変換装置の表示画面の一例を示す図である。
【
図4】第1の実施形態における画像スタイル変換処理の一例を示す図である。
【
図5】第1の実施形態による画像スタイル変換装置の動作の一例を示すフローチャートである。
【
図6】第2の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。
【
図7】第2の実施形態による画像スタイル変換装置の表示画面の一例を示す図である。
【
図8】第3の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。
【
図9】第4の実施形態による画像スタイル変換装置の一例を示す機能ブロック図である。
【発明を実施するための形態】
【0022】
以下、本発明の一実施形態による画像スタイル変換装置、画像スタイル変換方法について、図面を参照して説明する。
【0023】
[第1の実施形態]
図1は、第1の実施形態による画像スタイル変換装置1の一例を示す機能ブロック図である。
図1に示すように、画像スタイル変換装置1は、制御部10と、表示部11と、入力部12と、記憶部13とを備える。画像スタイル変換装置1は、例えば、パーソナルコンピュータ、タブレット端末装置、スマートフォンなどの情報処理装置であり、指定した加工対象の画像である対象画像に対して、指定した目的画像に含まれる特徴を加えるように加工する画像スタイル変換を行う。
【0024】
表示部11は、例えば、液晶ディスプレイなどの表示装置であり、画像スタイル変換装置1が実行する各種処理に利用される情報を表示する。表示部11は、例えば、対象画像や目的スタイル画像の選択処理、スタイルの混合調整、等の操作画面、及び加工したスタイル変換画像などを表示する。
【0025】
入力部12(操作部の一例)は、例えば、キーボードやマウス、タッチパネルなどの入力装置であり、画像スタイル変換装置1が実行する各種処理に利用される情報を受け付ける。入力部12は、受け付けた入力情報を制御部10に出力する。
【0026】
記憶部13は、画像スタイル変換装置1が実行する各種処理に利用する情報を記憶する。記憶部13は、例えば、加工前の画像データ、加工後の画像データ、目的スタイル画像データなどを記憶する。記憶部13は、学習結果記憶部131と、目的画像記憶部132とを備えている。
【0027】
学習結果記憶部131は、画像スタイル変換に使用する機械学習の結果である学習結果を記憶する。ここで、学習結果は、複数のドメイン(例えば、2つのドメイン)のそれぞれに属する画像群に基づいて学習された機械学習の結果である。学習結果には、例えば、画像から複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトルを抽出するコンテンツエンコーダ、画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを抽出するスタイルエンコーダ、及びコンテンツの特徴ベクトルとスタイルの特徴ベクトルとから画像に変換するデコーダが含まれる。
【0028】
なお、特徴ベクトルは、特徴量の一例であり、所定の数の次元のベクトルである。また、コンテンツエンコーダ、スタイルエンコーダ、及びデコーダのそれぞれは、例えば、ニューラルネットワークであり、学習結果記憶部131は、学習結果として、これらのニューラルネットワークを構成する情報を記憶する。また、ドメインとは、類似の特徴を有する画像の集合を示す。
ここで、本実施形態における画像スタイル変換処理を実行するための学習処理について説明する。
【0029】
<本実施形態の学習処理>
本実施形態におけるスタイルの特徴ベクトル及びコンテンツの特徴ベクトルは、上述した非特許文献1に記載の技術を利用して、画像から抽出される特徴ベクトル(特徴量)である。画像スタイル変換処理は、上述したスタイルエンコーダ、コンテンツエンコーダ、及びデコーダと、ディスクリミネータとを学習した学習結果を利用することで実現できる。
【0030】
ここで、スタイルエンコーダは、スタイルの特徴ベクトルの抽出用のニューラルネットワークであり、コンテンツエンコーダは、コンテンツの特徴ベクトルの抽出用のニューラルネットワークである。また、デコーダは、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから画像を復元するためのニューラルネットワークであり、ディスクリミネータは、復元した画像が実在し得る本物らしい画像か偽物らしい画像かを判別するニューラルネットワークである。なお、本実施形態において、エンコーダとデコーダとを併せてジェネレータと呼ぶことがある。また、このように、ジェネレータとディスクリミネータとから構成されコンピュータに画像変換(又は、乱数ベクトルからの画像生成)を学習させる技術は、GANs(Generative Adversarial Networks)と呼ばれている。
【0031】
上述した学習結果記憶部131が記憶する学習結果を学習するためには、ジェネレータ及びディスクリミネータを少なくともそれぞれ2つ以上用意する必要がある。すなわち、画像からスタイルの特徴ベクトル及びコンテンツの特徴ベクトルを抽出するには、ドメインと呼ばれる共通の画像特徴を持った画像群を少なくとも2つ以上用意する必要がある。ここで、ドメイン、コンテンツ、及びスタイルの概念を、以下に例を挙げて説明する。
【0032】
例えば、ドメインが2つである例において、一方をドメインA(第1のドメイン)とし、もう一方をドメインB(第2のドメイン)とする。ドメインAに属する画像群は、例えば、ズボン、シャツ、靴といった服飾の線画画像であり、ドメインBに属する画像群は、ズボン、シャツ、靴といった服飾の写真であるものとする。この場合、ドメインAは、ズボン、シャツ、靴といった形状の異なる線画の画像から構成されるが、全ての画像で共通の要素として線画であることが挙げられる。また、一方でドメインBは、ズボン、シャツ、靴といった形状の異なる写真の画像から構成されるが、全ての画像で共通の要素として写真であることが挙げられる。
【0033】
このとき、各ドメイン内では、線画あるいは写真といった画風がドメイン内で共通の要素(ドメイン内共通要素)となり、ズボン、シャツ、靴といった服飾の形状が両ドメイン間で共通の要素(ドメイン間共通要素)となる。このドメイン内共通要素が、スタイルの特徴でありスタイルの特徴ベクトルとして表される。また、ドメイン間共通要素が、コンテンツ特徴であり、コンテンツ特徴ベクトルとして表される。
ここで挙げた例では、服飾の形状がコンテンツ特徴であり、線画あるいは写真といった画風がスタイル特徴となる。ここでは、例を挙げてスタイル特徴及びコンテンツ特徴を説明したが、スタイル特徴及びコンテンツ特徴は、任意のデータで学習したニューラルネットワークによって算出される特徴ベクトルであり、その定義については後述する。
【0034】
また、この例の学習では、ドメインAのジェネレータと、ドメインAのディスクリミネータと、ドメインBのジェネレータと、ドメインBのディスクリミネータといったニューラルネットワークが必要になる。ここで、ドメインAのジェネレータは、ドメインAに属する画像からスタイル特徴とコンテンツ特徴とを抽出するエンコーダ、及びそれらのスタイル特徴とコンテンツ特徴とから画像を復元するデコーダである。また、ドメインBのジェネレータは、ドメインBに属する画像からスタイル特徴とコンテンツ特徴とを抽出するエンコーダ、及びそれらのスタイル特徴とコンテンツ特徴とから画像を復元するデコーダである。
【0035】
次に、本実施形態による学習処理の詳細について説明する。なお、学習処理の説明において、以下のように記号を定義する。
「xA」は、ドメインAに属する1枚の画像を示し、「xB」は、ドメインBに属する1枚の画像を示す。また、「ESA」は、ドメインAに属する画像からスタイルの特徴ベクトルを抽出するエンコーダ(スタイルエンコーダ)であり、「ECA」は、ドメインAに属する画像からコンテンツの特徴ベクトルを抽出するエンコーダ(コンテンツエンコーダ)である。また、「GA」は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルからドメインAに属する画像を復元するデコーダである。
【0036】
また、「ESB」は、ドメインBに属する画像からスタイルの特徴ベクトルを抽出するエンコーダ(スタイルエンコーダ)であり、「ECB」は、ドメインBに属する画像からコンテンツの特徴ベクトルを抽出するエンコーダ(コンテンツエンコーダ)である。また、「GB」は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルからドメインBに属する画像を復元するデコーダである。
また、「DA」は、入力された画像がドメインAらしい画像か否かを判別するディスクリミネータであり、「DB」は、入力された画像がドメインBらしい画像か否かを判別するディスクリミネータである。
【0037】
本実施形態による学習処理では、以下で説明する8つの損失関数から構成される目的関数を最小化、あるいは最大化することによって実現される。
ドメインAに関する損失関数LreconxAは、下記の式(1)によって表される。
【0038】
【0039】
ここで、∥∥1は、L1ノルムを示す。すなわち、式(1)は、ドメインAに属するxAに対してエンコーダESAとエンコーダECAとを用いてスタイルの特徴ベクトルとコンテンツの特徴ベクトルとを抽出し、抽出したスタイルの特徴ベクトルとコンテンツの特徴ベクトルとから、デコーダGAを用いて復元した画像と元画像である画像xAの画像誤差が損失関数LreconxAとなる。ここでのエンコーダESA及びエンコーダECAと、デコーダGAとの学習では、損失関数LreconxAの値が小さくなるように学習し、損失関数LreconxAの最小化によってドメインAにおける画像のエンコードとデコードとが可能になる。
【0040】
また、ドメインBに関する損失関数LreconxAは、下記の式(2)によって表される。
【0041】
【0042】
すなわち、式(2)は、ドメインBに属するxBに対してエンコーダESBとエンコーダECBとを用いてスタイルの特徴ベクトルとコンテンツの特徴ベクトルとを抽出し、抽出したスタイルの特徴ベクトルとコンテンツの特徴ベクトルとから、デコーダGBを用いて復元した画像と元画像である画像xBの画像誤差が損失関数LreconxBとなる。ここでのエンコーダESB及びエンコーダECBと、デコーダGBとの学習では、損失関数LreconxBの値が小さくなるように学習し、損失関数LreconxBの最小化によってドメインBにおける画像のエンコードとデコードとが可能になる。
なお、上記の式(1)及び式(2)において、一例として、L1ノルムを用いる例を説明したが、L2ノルム等の他のノルムを用いてもよい。
【0043】
次に、ドメインAのコンテンツに関する損失関数LreconCAは、下記の式(3)によって表される。
【0044】
【0045】
ここで、損失関数LreconCAを最小化することで、ドメインAにおけるコンテンツの特徴ベクトルを用いたデコード及びドメインAの画像からコンテンツの特徴ベクトルを抽出するエンコードが可能になる。
【0046】
また、ドメインBのコンテンツに関する損失関数LreconCBは、下記の式(4)によって表される。
【0047】
【0048】
ここで、損失関数LreconCBを最小化することで、ドメインBにおけるコンテンツの特徴ベクトルを用いたデコード及びドメインBの画像からコンテンツの特徴ベクトルを抽出するエンコードが可能になる。
なお、上記の式(3)及び式(4)において、一例として、L1ノルムを用いる例を説明したが、L2ノルム等の他のノルムを用いてもよい。
【0049】
次に、ドメインAのスタイルに関する損失関数LreconSAは、下記の式(5)によって表される。
【0050】
【0051】
ここで、損失関数LreconSAを最小化することで、ドメインAにおけるスタイルの特徴ベクトルを用いたデコード及びドメインAの画像からスタイルの特徴ベクトルを抽出するエンコードが可能になる。
【0052】
また、ドメインBのスタイルに関する損失関数LreconSBは、下記の式(6)によって表される。
【0053】
【0054】
ここで、損失関数LreconSBを最小化することで、ドメインBにおけるスタイルの特徴ベクトルを用いたデコード及びドメインBの画像からスタイルの特徴ベクトルを抽出するエンコードが可能になる。
なお、上記の式(5)及び式(6)において、一例として、L1ノルムを用いる例を説明したが、L2ノルム等の他のノルムを用いてもよい。
【0055】
次に、ドメインAにおいて、損失関数LadvxAは、下記の式(7)によって表される。
【0056】
【0057】
この損失関数LadvxAは、GANsにおける敵対的損失であり、エンコーダESA、エンコーダECA、デコーダGA、エンコーダESB、エンコーダECB、及びデコーダGBを学習する際に最小化される。一方で、損失関数LadvxAは、ディスクリミネータDAを学習する際に最大化される。なお、損失関数LadvxAを最大化すると、DA(xA)の項が正の値となり、DA(GA(ESA(xA),ECB(xB)))の項が負の値となる。ここで、xAは、ドメインAにおける画像(本物画像)であり、DA(GA(ESA(xA),ECB(xB)))は、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから復元された生成画像(偽物画像)である。すなわち、損失関数LadvxAを最大化するということは、画像xA(本物画像)と、DA(GA(ESA(xA),ECB(xB)))(偽物画像)とのそれぞれを、正の値、負の値として判別する真贋判定器として、ディスクリミネータDAを学習することになる。
【0058】
一方で、損失関数LadvxAを最小化するということは、画像xA(本物画像)と、DA(GA(ESA(xA),ECB(xB)))(偽物画像)とのそれぞれを、負の値、正の値として、ディスクリミネータDAが真贋判別を誤るように学習することになる。つまり、ディスクリミネータDAは、徐々に本物画像と偽物画像を判別する能力が学習されて行き、エンコーダESA、エンコーダECA、デコーダGA、エンコーダESB、エンコーダECB、及びデコーダGBは、徐々にディスクリミネータDAを騙せるような本物らしい画像を復元する能力が学習されていくことになる。
【0059】
この損失関数LadvxAにより学習に使用していない画像でも、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルの抽出(エンコード)が可能となり、学習に使用していない画像に含まれるスタイルの特徴ベクトル、コンテンツの特徴ベクトルでもそれらの特徴からの復元(デコード)が可能となる。
なお、この損失関数LadvxAが無いとエンコード及びデコードは、式(1)~式(6)までによってのみ保証されることになる。つまり、学習に使用した画像と一致する画像に対してはエンコード及びデコードが可能であるだが、学習に使用した画像と異なる画像に対してはエンコード及びデコードが不可能である。
【0060】
また、ドメインBにおいて、損失関数LadvxBは、下記の式(8)によって表される。
【0061】
【0062】
この損失関数LadvxBは、GANsにおける敵対的損失であり、エンコーダESB、エンコーダECB、デコーダGB、エンコーダESA、エンコーダECA、及びデコーダGAを学習する際に最小化される。一方で、損失関数LadvxBは、ディスクリミネータDBを学習する際に最大化される。損失関数LadvxBを最大化するということは、画像xB(本物画像)と、DB(GB(ESB(xB),ECA(xA)))(偽物画像)とのそれぞれを、正の値、負の値として判別する真贋判定器として、ディスクリミネータDBを学習することになる。
【0063】
一方で、損失関数LadvxBを最小化するということは、画像xB(本物画像)と、DB(GB(ESB(xB),ECA(xA)))(偽物画像)とのそれぞれを、負の値、正の値として、ディスクリミネータDBが真贋判別を誤るように学習することになる。つまり、ディスクリミネータDBは、徐々に本物画像と偽物画像を判別する能力が学習されて行き、エンコーダESB、エンコーダECB、デコーダGB、エンコーダESA、エンコーダECA、及びデコーダGAは、徐々にディスクリミネータDBを騙せるような本物らしい画像を復元する能力が学習されていくことになる。
【0064】
なお、上述した敵対的損失関数は、一例としてGANsの敵対的損失である例を説明したが、例えば、GANsの敵対的損失を改良した非特許文献2に記載のWasserstein GANで使用される敵対的損失などを適用してもよい。すなわち、GANsの枠組みで使用されている敵対的損失であればそのいずれであってもよい。また、上記の説明では、ドメインAとドメインBとの2つのドメインを用いる例を説明したが、対応するニューラルネットワークを新しく用意すれば3つ以上のドメインに対しても適用可能である。
【0065】
このように学習を行った学習結果として、例えば、スタイルエンコーダES、コンテンツエンコーダEC、及びデコーダGが、学習結果記憶部131に記憶されている。ここで、スタイルエンコーダESは、上述したエンコーダESA、又はエンコーダESBである。また、コンテンツエンコーダECは、上述したエンコーダECA、又はエンコーダECBである。また、デコーダGは、上述したデコーダGA、又はデコーダGBである。
【0066】
また、スタイルエンコーダESによって抽出されるスタイルの特徴量は、n次元の特徴ベクトルである。また、コンテンツエンコーダECによって抽出されるコンテンツの特徴量は、m次元の特徴ベクトルである。これらの次元は、それぞれのエンコーダを設計する際に決定する出力層の次元であり、任意の値であるが、n次元とm次元とは、同一の次元数である必要は無い(同一の時限であってもよい)。ただし、全てのドメインにおいて各ドメインのエンコーダの出力であるスタイルの特徴量の次元を統一する必要があり、同様にコンテンツ特徴量の次元も統一する必要がある。また、デコーダGの入力の次元は、スタイルの特徴ベクトルとコンテンツの特徴ベクトルとを足し合わせた値、すなわち(n+m)次元である必要がある。
【0067】
また、画像スタイル変換処理については、ドメイン間のスタイル変換とドメイン内のスタイル変換とがある。ドメイン間のスタイル変換は、上述した例で言うと線画から写真調への変換でありGB(ESB(xB),ECA(xA))によって実現される、すなわち、ドメイン間のスタイル変換は、デコーダ自身によって行われるスタイル変換であり、スタイル特徴がどのようなものであれ、デコーダGBは、線画から写真調へスタイル変換する性質を持っている。一方で、例えば、上着の線画から上着の写真調のスタイル変換を考えたときに、上着の写真が毛糸の質感を持つのか、レザーの質感を持つのかは、ドメインBのスタイル、すなわちESB(xB)によって定義される。そのため、ドメインBに属する画像xB1と画像xB2を考えたときにGB(ESB(xB2),ECB(xB1))のように画像xB1のスタイルを画像xB2に変換するといったことも可能である。これがドメイン内のスタイル変換である。
【0068】
ここで、ドメイン間のスタイル変換は、強制的にデコーダによって行われてしまうという点に注意するある。例えば、料理の画像加工においてステーキやハンバーグといった様々な料理画像に対してしずる感(具体例としては湯気)を付与するスタイル変換を実行する場合を仮定する。また、このスタイル変換を実現するためにドメインAに対しては、ステーキの湯気無し画像群を、ドメインBに対しては、ハンバーグ、ラーメン等ステーキ以外の湯気有り画像群を用いて学習したものとする。この場合、ステーキの画像は、ドメインAにしか含まれていないため、ステーキの形状は、学習時にコンテンツ特徴ではなくスタイル特徴として解釈される。
【0069】
そのため、GB(ESB(xB),ECA(xA))によってステーキの画像(ドメインA)に対して湯気を付与したいと思っても形状がスタイル特徴になっているためデコーダGBによってステーキ以外の形状(例えば、ハンバーグやラーメン等で形状が近いもの)に変換されてしまう可能性がある。また、GB(ESB(xB),ECB(xA))の場合を考えるとコンテンツの特徴ベクトルを抽出するエンコーダECBは、ステーキ画像について学習していないため、そもそもステーキの形状をコンテンツ特徴として抽出できない。そのため、学習データを用意する際には、意図しないスタイル変換が成されないように留意する必要がある。
【0070】
本実施形態では、上記を考慮して、ドメインAの画像群を、湯気あり・湯気なしを含むカラー画像の画像群とし、ドメインBの画像群を、湯気あり・湯気なしを含むグレースケール画像の画像群として上述した学習処理を実行した学習結果を学習結果記憶部131に記憶されているものとする。また、スタイルエンコーダESには、エンコーダESAを用い、コンテンツエンコーダECには、エンコーダECAを用い、デコーダGには、GAを用いるものとする。
【0071】
目的画像記憶部132は、目的スタイル画像を示す情報と、スタイルを示す情報とを対応付けて記憶する。ここで、
図2を参照して、目的画像記憶部132が記憶するデータ例について説明する。
図2は、本実施形態における目的画像記憶部132のデータ例を示す図である。
図2に示すように、目的画像記憶部132は、「目的スタイル画像」と「タグ情報」とを対応付けて記憶する。
【0072】
ここで、「目的スタイル画像」は、目的スタイル画像を示す情報であり、例えば、画像名などの識別情報である。また、「タグ情報」は、スタイルを示す情報をラベル付けしたものである。
例えば、
図2に示す例では、「目的スタイル画像」が“画像A”に対応する目的スタイル画像は、「タグ情報」として、“しずる感”、“湯気”が付与されていることを示している。また、「目的スタイル画像」が“画像B”に対応する目的スタイル画像は、「タグ情報」として、“艶やかさ”が付与されていることを示している。
【0073】
図1の説明に戻り、制御部10は、例えば、CPU(Central Processing Unit)などを含むプロセッサであり、画像スタイル変換装置1を統括的に制御する。、制御部10は、例えば、対象画像データ取得部101と、対象スタイル抽出部102と、対象コンテンツ抽出部103と、目的画像データ取得部104と、目的キーワード取得部105と、目的スタイル抽出部106と、スタイル混合部107と、変換画像生成部108と、表示制御部109とを備えている。
【0074】
対象画像データ取得部101は、ユーザによる入力部12の操作に応じて、対象画像の画像データ(対象画像データ)を取得する。対象画像データ取得部101は、例えば、記憶部13が記憶する画像データのうちから、ユーザが指定した画像データを対象画像データとして取得する。
【0075】
対象スタイル抽出部102は、学習結果記憶部131が記憶する学習結果に基づいて、対象画像からスタイルの特徴ベクトルを、対象スタイル特徴ベクトルVSS(対象スタイル特徴量)として抽出する。対象スタイル抽出部102は、例えば、学習結果のスタイルエンコーダESを用いて、対象画像データ取得部101が取得した対象画像データから、対象スタイル特徴ベクトルVSSを抽出する。
なお、スタイルの特徴ベクトルVSは、下記の式(9)により抽出可能であり、対象スタイル抽出部102は、この式(9)に画像データとして、対象画像データを代入することで対象スタイル特徴ベクトルVSSを抽出する。
【0076】
【0077】
対象コンテンツ抽出部103は、学習結果記憶部131が記憶する学習結果に基づいて、対象画像からコンテンツの特徴ベクトルを、対象コンテンツ特徴ベクトルVSC(対象コンテンツ特徴量)として抽出する。対象コンテンツ抽出部103は、例えば、学習結果のコンテンツエンコーダECを用いて、対象画像データ取得部101が取得した対象画像データから、対象コンテンツ特徴ベクトルVSCを抽出する。
なお、コンテンツの特徴ベクトルVCは、下記の式(10)により抽出可能であり、対象コンテンツ抽出部103は、この式(10)に画像データとして、対象画像データを代入することで対象コンテンツ特徴ベクトルVSCを抽出する。
【0078】
【0079】
目的画像データ取得部104は、ユーザによる入力部12の操作に応じて、目的スタイル画像の画像データ(目的画像データ)を取得する。目的画像データ取得部104は、例えば、記憶部13が記憶する画像データのうちから、ユーザが指定した画像データを目的画像データとして取得する。
【0080】
目的キーワード取得部105は、ユーザによる入力部12の操作に応じて、目的キーワードを取得する。ここで、目的キーワード(目的スタイルキーワード)とは、目的スタイルを表すキーワードであり、例えば、“しずる感”、“湯気”、“艶やかさ”などである。目的キーワード取得部105は、例えば、ユーザによって入力部12の操作によって入力された目的キーワードを、入力部12から取得する。
【0081】
目的スタイル抽出部106は、学習結果記憶部131が記憶する学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルVTS(目的スタイル特徴量)として抽出する。目的スタイル抽出部106は、例えば、学習結果のスタイルエンコーダESを用いて、目的画像データ取得部104が取得した目的画像データから、目的スタイル特徴ベクトルVTSを抽出する。目的スタイル抽出部106は、例えば、上述した式(9)に画像データとして、目的画像データを代入することで目的スタイル特徴ベクトルVTSを抽出する。
【0082】
また、目的スタイル抽出部106は、ユーザによる入力部12の操作に応じて、目的キーワードが指定された場合には、指定された目的キーワードに対応付けられた画像から、学習結果に基づいて、目的キーワードに対応する目的スタイル特徴ベクトルVTSを抽出する。この場合、目的スタイル抽出部106は、目的キーワード取得部105が取得した目的キーワードに対応する画像を、目的画像記憶部132から検索して、当該目的画像データを取得する。目的スタイル抽出部106は、取得した目的画像データを上述した式(9)に代入することで目的スタイル特徴ベクトルVTSを抽出する。
【0083】
また、目的スタイル抽出部106は、目的キーワードに対応する画像が複数ある場合には、複数の画像のそれぞれから、学習結果に基づいて、個別スタイルの特徴ベクトルを抽出し、複数の画像のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルVTSとして抽出する。例えば、目的キーワードに対応する画像が、画像X1~画像Xnである場合に、目的スタイル抽出部106は、下記の式(11)によって、目的スタイル特徴ベクトルVTSを算出する。
【0084】
【0085】
また、目的スタイル抽出部106は、ユーザによって、複数の目的スタイル画像が指定された場合に、複数の目的スタイル画像のそれぞれに対応した複数の目的スタイル特徴ベクトルVTSを抽出する。
【0086】
スタイル混合部107は、入力部12の操作によって指定された混合率で、対象スタイル抽出部102が抽出した対象スタイル特徴ベクトルVSSと、目的スタイル抽出部106が抽出した目的スタイル特徴ベクトルVTSとを混合して、混合スタイル特徴ベクトルVMS(混合スタイル特徴量)を生成する。スタイル混合部107は、例えば、下記の式(12)によって、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとから混合スタイル特徴ベクトルVMSを生成する。
【0087】
【0088】
ここで、変数rは、混合率であり、0~1の間の値である。混合率rは、後述するスライダの位置によって、変更される。
【0089】
変換画像生成部108は、学習結果記憶部131が記憶する学習結果に基づいて、対象コンテンツ特徴ベクトルVSCと、対象スタイル特徴ベクトルVSS及び目的スタイル特徴ベクトルVTSを混合した混合スタイル特徴ベクトルVMS(混合スタイル特徴量)とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。すなわち、変換画像生成部108は、例えば、学習結果のデコーダGを用いて、対象コンテンツ抽出部103が抽出した対象コンテンツ特徴ベクトルVSCと、スタイル混合部107が生成した混合スタイル特徴ベクトルVMSとから、スタイル変換画像を復元する。
なお、復元画像XRは、下記の式(13)により生成可能である。
【0090】
【0091】
変換画像生成部108は、この式(13)に、スタイルの特徴ベクトルVSとして、混合スタイル特徴ベクトルVMSを代入し、コンテンツの特徴ベクトルVCとして、対象コンテンツ特徴ベクトルVSCを代入することで、スタイル変換画像を生成する。
【0092】
表示制御部109は、各種情報を表示部11に表示させるとともに、ユーザによる入力部12の操作に応じて、表示部11の表示を変更する。表示制御部109は、例えば、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとの混合率を示すスライダを表示部11に表示させ、ユーザによる入力部12の操作に応じて、スライダの混合率を示す位置を変更して表示させる。また、表示制御部109は、例えば、複数の目的スタイル画像又は目的キーワードが指定された場合に、複数の目的スタイル特徴ベクトルVTSに対応する複数のスライダを表示部11に表示させる。
【0093】
ここで、
図3を参照して、表示制御部109が表示部11に表示する表示画面の一例について説明する。
図3は、本実施形態による画像スタイル変換装置1の表示画面の一例を示す図である。
表示制御部109は、
図3に示す表示画面G1のような画面を、表示部11に表示させる。
【0094】
表示画面G1に示すように、表示制御部109は、対象画像パネルPN1に、指定した対象画像又はスタイル変換画像を表示する。なお、入力部12を介して、画像追加ボタンBT1を押下する操作がされることで、表示制御部109は、対象画像の指定画面を表示させて、対象画像が指定される。表示制御部109は、対象画像パネルPN1に、例えば、スタイル変換の確認用の画像として、スタイル変換画像(SG1)を表示させる。
【0095】
また、表示画面G1において、目的スタイル画像パネル(PN2、PN3)は、指定した目的スタイル画像(TG1、TG2)を表示するとともに、目的スタイルの混合率を調整するスライダ(SLD1、SLD2)を表示する。表示制御部109は、例えば、目的スタイル画像パネルPN2に、指定された目的スタイル画像TG1を表示するとともに、スライダSLD1を表示させる。
【0096】
また、表示画面G1において、目的スタイルキーワードパネル(PN4、PN5)は、指定した目的キーワードを表示するとともに、目的キーワードに対応する目的スタイルの混合率を調整するスライダ(SLD3、SLD4)を表示する。表示制御部109は、例えば、目的スタイルキーワードパネルPN4に、指定された目的キーワードの“艶やかさ”を表示するとともに、スライダSLD3を表示させる。
【0097】
また、表示画面G1において、新規スタイルパネルPN6は、目的スタイル画像パネル又は目的スタイルキーワードパネルを新規に追加するためのパネルであり、スタイル追加ボタンBT2が表示される。入力部12を介して、スタイル追加ボタンBT2を押下する操作がされることで、表示制御部109は、目的スタイル画像か、目的キーワードかの選択画面を表示させて、当該選択画面の選択結果に応じて、目的スタイル画像、又は目的キーワードが指定される。目的スタイル画像、又は目的キーワードが指定されることで、表示制御部109は、新たな目的スタイル画像パネル又は目的スタイルキーワードパネルを追加して表示させる。
【0098】
次に、図面を参照して、本実施形態による画像スタイル変換装置1の動作について説明する。
まず、
図4を参照して、本実施形態におけるスタイル変換画像の生成処理の概要について説明する。
【0099】
図4は、本実施形態における画像スタイル変換処理の一例を示す図である。
図4に示すように、対象コンテンツ抽出部103が、コンテンツエンコーダ(E
C)を用いて、指定された対象画像から対象コンテンツ特徴ベクトルV
SCを抽出する。また、対象スタイル抽出部102が、スタイルエンコーダ(E
S)を用いて、指定された対象画像から対象スタイル特徴ベクトルV
SSを抽出する。
【0100】
また、一方で、目的スタイル抽出部106が、スタイルエンコーダ(E
S)を用いて、指定された目的スタイル画像から目的スタイル特徴ベクトルV
TSを抽出する。また、スタイル混合部107が、上述した式(12)によって、対象スタイル特徴ベクトルV
SSと、目的スタイル特徴ベクトルV
TSとから混合スタイル特徴ベクトルV
MSを生成する。
そして、変換画像生成部108が、デコーダ(G)を用いて、対象コンテンツ特徴ベクトルV
SCと、混合スタイル特徴ベクトルV
MSとからスタイル変換画像を生成する。なお、
図4において、学習結果LRには、スタイルエンコーダ(E
S)、コンテンツエンコーダ(E
C)、及びデコーダ(G)が含まれている。
【0101】
例えば、対象画像が、湯気のないハンバーグの画像であり、目的スタイル画像が湯気のあるステーキの画像である場合に、画像スタイル変換装置1は、画像スタイル変換処理において、ハンバーグの画像に湯気が追加されたようなハンバーグの画像を、スタイル変換画像として生成する。
【0102】
なお、上述した
図4に示す例では、目的スタイルが1つである場合の一例であり、上述した
図3に示す場合のように、複数の目的スタイル画像又は目的キーワードが指定されて、目的スタイルが複数ある場合には、目的スタイル抽出部106は、目的スタイル特徴ベクトルV
TSを下記の式(14)により算出する。
【0103】
【0104】
ここで、変数VTSiは、複数の目的スタイルのそれぞれに対応した目的スタイル特徴ベクトルVTSを示し、変数riは、複数の目的スタイルのそれぞれに対応する混合率を示す。また、変数nは、指定された目的スタイルの数を示す。式(14)により算出される目的スタイル特徴ベクトルVTSは、現在の各スライダ(例えば、SLD1~SLD4)の値の合計を用いて正規化したもの(各スライダの重みを加味して、目的スタイル特徴の重心を算出した値)である。
また、この場合、混合率rは、以下の式(15)により算出される。
【0105】
【0106】
なお、この式(15)に示されるように、目的スタイルのそれぞれの混合率riが全て“1”(最大値)になった場合に、混合率rは、“1”となる。
また、目的スタイルが複数ある場合に、スタイル混合部107は、例えば、対象スタイル特徴ベクトルVSSと、式(14)により算出された目的スタイル特徴ベクトルVTSと、式(15)により算出された混合率rから、上述した式(12)を用いて混合スタイル特徴ベクトルVMSを生成する。
【0107】
次に、
図5を参照して、本実施形態による画像スタイル変換装置1の全体の動作について説明する。
図5は、本実施形態による画像スタイル変換装置1の動作の一例を示すフローチャートである。
【0108】
図5に示すように、まず、画像スタイル変換装置1の制御部10は、対象画像を取得する(ステップS101)。制御部10の表示制御部109は、例えば、
図3の画像追加ボタンBT1の押下などの操作によって、対象画像の指定画面(例えば、画像追加ダイアログ)を表示させて、ユーザにスタイル変換の対象となる対象画像を選択させる。制御部10の対象画像データ取得部101は、例えば、記憶部13が記憶する画像データのうちから、ユーザが指定した画像データを対象画像データとして取得する。
【0109】
次に、制御部10は、対象画像の特徴量を抽出する(ステップS102)。制御部10の対象スタイル抽出部102は、スタイルエンコーダESに基づいて、対象画像から対象スタイル特徴ベクトルVSSを抽出する。すなわち、対象スタイル抽出部102は、上述した式(9)を用いて、対象画像から対象スタイル特徴ベクトルVSSを抽出する。また、制御部10の対象コンテンツ抽出部103は、コンテンツエンコーダECに基づいて、対象画像から対象コンテンツ特徴ベクトルVSCを抽出する。すなわち、対象コンテンツ抽出部103は、上述した式(10)を用いて、対象画像から対象コンテンツ特徴ベクトルVSCを抽出する。
【0110】
次に、制御部10は、対象画像を表示部11に表示する(ステップS103)。表示制御部109は、ユーザに対象画像を確認させるために、
図3に示す対象画像パネルPN1に、指定された対象画像を、スタイル変換確認画像(SG1)として、表示させる。
【0111】
次に、制御部10は、目的スタイルの選択を判定する(ステップS104)。表示制御部109は、例えば、
図3のスタイル追加ボタンBT2の押下などの操作によって、目的スタイルダイアログを表示させて、目的スタイル画像の指定か、ユーザに目的キーワードの指定かを選択させる。表示制御部109は、目的スタイル画像の指定が選択された場合(ステップS104:画像指定)に、処理をステップS105に進める。また、表示制御部109は、目的キーワードの指定が選択された場合(ステップS104:キーワード指定)に、処理をステップS114に進める。
【0112】
ステップS105において、制御部10は、目的スタイル画像を取得する。すなわち、制御部10の目的画像データ取得部104は、ユーザによる入力部12の操作に応じて、目的スタイル画像の画像データ(目的画像データ)を取得する。
【0113】
次に、制御部10は、目的スタイル画像の特徴量を抽出する(ステップS106)。制御部10の目的スタイル抽出部106は、スタイルエンコーダESに基づいて、目的スタイル画像から目的スタイル特徴ベクトルVTSを抽出する。すなわち、目的スタイル抽出部106は、上述した式(9)を用いて、目的スタイル画像から目的スタイル特徴ベクトルVTSを抽出する。
【0114】
次に、制御部10は、目的スタイル画像を表示部11に表示する(ステップS107)。表示制御部109は、ユーザに目的スタイル画像を確認させるために、
図3に示す目的スタイル画像パネルPN2のように、目的スタイル画像パネルを表示させるとともに、指定された目的スタイル画像を表示させる。
【0115】
次に、表示制御部109は、スライダを表示する(ステップS108)。すなわち、表示制御部109は、スタイルの混合率を調整するためのスライダ(例えば、
図3のスライダSLD1~スライダSLD4など)を表示させる。
【0116】
次に、制御部10は、スタイルの混合率を調整する(ステップS109)。表示制御部109は、ユーザによる入力部12の操作に応じて、スライダの混合率を示す位置を変更して表示させる。なお、表示制御部109は、スライダのカーソルの初期位置は、最下部の位置に表示し、混合率の初期値は、“0%”である。ユーザによる操作によって、スライダのカーソルがドラックやスワイプ等により上下に移動されると、又は、増加ボタン(“+”ボタン)及び減少ボタン(“-”ボタン)により上下に移動されると、カーソルの位置に応じて、混合率が変更される。
【0117】
次に、制御部10は、混合スタイル特徴量を生成する(ステップS110)。制御部10のスタイル混合部107は、入力部12の操作によって指定された混合率で、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとを混合して、混合スタイル特徴ベクトルVMSを生成する。スタイル混合部107は、例えば、上述した式(12)によって、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとから混合スタイル特徴ベクトルVMSを生成する。
【0118】
次に、制御部10は、スタイル変換画像を生成する(ステップS111)。制御部10の変換画像生成部108は、デコーダGを用いて、対象コンテンツ特徴ベクトルVSCと、混合スタイル特徴ベクトルVMSとから、スタイル変換画像を生成する。すなわち、変換画像生成部108は、上述した式(13)を用いて、対象コンテンツ特徴ベクトルVSCと、混合スタイル特徴ベクトルVMSとから、スタイル変換画像を生成する。変換画像生成部108は、生成したスタイル変換画像を記憶部13に記憶させる。
【0119】
次に、表示制御部109は、スタイル変換画像を表示部11に表示する(ステップS112)。表示制御部109は、ユーザにスタイル変換画像を確認させるために、
図3に示す対象画像パネルPN1に、変換画像生成部108が生成したスタイル変換画像を、スタイル変換確認画像として、表示させる。例えば、対象画像が、
図4に示すような湯気のないハンバーグの画像であり、目的スタイル画像が、湯気(しずる感)のあるステーキの画像である場合、変換画像生成部108は、ハンバーグの画像に、湯気(しずる感)のスタイルが、スライダの混合率で反映されたスタイル変換画像を生成し、表示制御部109は、当該スタイル変換画像を対象画像パネルPN1に表示させる。
【0120】
次に、制御部10は、スタイル調整を終了するか否かを判定する(ステップS113)。制御部10は、スタイル調整を終了する場合(ステップS113:YES)に、処理を終了する。また、制御部10は、スタイル調整を終了しない場合(ステップS113:NO)に、処理をステップS109に戻す。
【0121】
また、ステップS114において、制御部10は、キーワード画像群を取得する。すなわち、制御部10の目的キーワード取得部105は、ユーザによる入力部12の操作に応じて、目的キーワードを取得する。また、目的スタイル抽出部106は、目的キーワード取得部105が取得した目的キーワードに対応する画像(複数ある場合には、複数の画像(画像群))を、目的画像記憶部132から検索して、各目的画像データを取得する。
【0122】
次に、目的スタイル抽出部106は、画像群の平均特徴量を抽出する(ステップS115)。目的スタイル抽出部106は、スタイルエンコーダESに基づいて、画像群のそれぞれから、個別スタイルの特徴ベクトルを抽出し、画像群のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルVTSとして抽出する。目的スタイル抽出部106は、例えば、上述した式(11)によって、目的スタイル特徴ベクトルVTSを算出する。
【0123】
次に、制御部10は、目的キーワードを表示部11に表示する(ステップS116)。表示制御部109は、ユーザに目的キーワードを確認させるために、
図3に示す目的スタイルキーワードパネルPN4のように、目的スタイルキーワードパネルを表示させるとともに、指定された目的キーワードを表示させる。ステップS116の処理後に、制御部10は、処理をステップS108に進める。
【0124】
以上説明したように、本実施形態による画像スタイル変換装置1は、対象コンテンツ抽出部103と、対象スタイル抽出部102と、目的スタイル抽出部106と、変換画像生成部108とを備える。対象コンテンツ抽出部103は、学習結果に基づいて、複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトル(特徴量)を、対象コンテンツ特徴ベクトルVSC(対象コンテンツ特徴量)として、指定された加工対象の画像である対象画像から抽出する。ここで、学習結果は、類似の特徴を有する画像の集合を示すドメインである複数のドメイン(例えば、ドメインA及びドメインB)のそれぞれに属する画像群に基づいて学習された結果である。対象スタイル抽出部102は、学習結果に基づいて、対象画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを、対象スタイル特徴ベクトルVSS(対象スタイル特徴量)として抽出する。目的スタイル抽出部106は、学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルVTS(目的スタイル特徴量)として抽出する。変換画像生成部108は、学習結果に基づいて、対象コンテンツ抽出部103が抽出した対象コンテンツ特徴ベクトルVSCと、対象スタイル抽出部102が抽出した対象スタイル特徴ベクトルVSS、及び目的スタイル抽出部106が抽出した目的スタイル特徴ベクトルVTSを混合した混合スタイル特徴量とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。
【0125】
これにより、本実施形態による画像スタイル変換装置1は、対象画像と、目的スタイル画像とを指定することで、対象画像のスタイルと、目的スタイル画像のスタイルとを混合させたスタイル変換画像を生成するため、ユーザが直感的に画像のスタイルを変換することができる。
【0126】
例えば、本実施形態による画像スタイル変換装置1では、従来の画像編集ソフトのように、領域指定、画素値、色味調整など細かく加工する複雑な手順は必要なく、目的スタイル画像を指定するだけで、直感的に画像のスタイルを変換することができる。
また、本実施形態による画像スタイル変換装置1では、例えば、シーンや被写体が大きく異なる対象画像と目的画像とに適応してしまった場合であっても、光の当り方や色味などで不整合が生じることがない。
【0127】
また、本実施形態による画像スタイル変換装置1は、表示制御部109と、生成するスタイル混合部107とを備える。表示制御部109は、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとの混合率を示すスライダを表示部11に表示させ、ユーザによる入力部12(操作部)の操作に応じて、スライダの混合率を示す位置を変更して表示させる。スタイル混合部107は、入力部12の操作によって指定された混合率で、対象スタイル特徴ベクトルVSSと、目的スタイル特徴ベクトルVTSとを混合して、混合スタイル特徴ベクトルVMS(混合スタイル特徴量)を生成する。変換画像生成部108は、対象コンテンツ特徴ベクトルVSCと、スタイル混合部107が生成した混合スタイル特徴ベクトルVMSとから、学習結果に基づいてスタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置1は、スライダにより効果を確認しながら、スタイル変換画像を適切に調整することができる。
【0128】
また、本実施形態では、目的スタイル抽出部106は、指定された目的スタイルを表す目的キーワード(目的スタイルキーワード)に対応付けられた画像から、学習結果に基づいて、目的スタイルキーワードに対応する目的スタイル特徴ベクトルVTSを抽出する。
これにより、本実施形態による画像スタイル変換装置1は、目的キーワード(目的スタイルキーワード)を指定することで、さらに直感的に画像のスタイルを変換することができる。
【0129】
また、本実施形態では、目的スタイル抽出部106は、指定された目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、学習結果に基づいて、個別スタイルの特徴ベクトルを抽出し、複数の画像のそれぞれから抽出したスタイルの特徴ベクトルの平均値を、目的スタイル特徴ベクトルVTSとして抽出する。
これにより、本実施形態による画像スタイル変換装置1は、目的キーワード(目的スタイルキーワード)から適切に目的スタイルを抽出し、直感的に画像のスタイルを変換することができる。
【0130】
また、本実施形態では、目的スタイル抽出部106は、複数の目的スタイル特徴ベクトルVTSを抽出する。表示制御部109は、複数の目的スタイル特徴ベクトルVTSに対応する複数のスライダを表示部11に表示させる。変換画像生成部108は、学習結果に基づいて、対象コンテンツ特徴ベクトルVSCと、対象スタイル特徴ベクトルVSSと複数の目的スタイル特徴ベクトルVTSとをスライダによって指定されたそれぞれの混合率で混合した混合スタイル特徴ベクトルVMSとから、スタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置1は、複数の目的スタイルを対象画像に反映させることができるため、より自由度の高いスタイル変換を行うことができる。
【0131】
また、本実施形態では、学習結果には、画像からスタイルの特徴ベクトルを抽出するスタイルエンコーダESと、画像からコンテンツの特徴ベクトルを抽出するコンテンツエンコーダECと、スタイルの特徴ベクトル及びコンテンツの特徴ベクトルから画像を生成するデコーダGとが含まれる。対象コンテンツ抽出部103は、コンテンツエンコーダECに基づいて、対象画像から対象コンテンツ特徴ベクトルVSCを抽出する。対象スタイル抽出部102は、スタイルエンコーダESに基づいて、対象画像から対象スタイル特徴ベクトルVSSを抽出する。目的スタイル抽出部106は、スタイルエンコーダESに基づいて、目的スタイル画像から目的スタイル特徴ベクトルVTSを抽出する。変換画像生成部108は、デコーダGに基づいて、対象コンテンツ特徴ベクトルVSC及び混合スタイル特徴ベクトルVMSから、スタイル変換画像を生成する。
これにより、本実施形態による画像スタイル変換装置1は、複雑な処理を必要としない簡易な処理により、直感的に画像のスタイルを変換することができる。
【0132】
また、本実施系値による画像スタイル変換方法は、対象コンテンツ抽出ステップと、対象スタイル抽出ステップと、目的スタイル抽出ステップと、変換画像生成ステップとを含む。対象コンテンツ抽出ステップにおいて、対象コンテンツ抽出部103が、学習結果に基づいて、複数のドメインに共通する画像内の要素を示すコンテンツの特徴ベクトル(特徴量)を、対象コンテンツ特徴ベクトルVSC(対象コンテンツ特徴量)として、指定された加工対象の画像である対象画像から抽出する。対象スタイル抽出ステップにおいて、対象スタイル抽出部102が、学習結果に基づいて、対象画像から複数のドメインに共通しない画像内の要素を示すスタイルの特徴ベクトルを、対象スタイル特徴ベクトルVSS(対象スタイル特徴量)として抽出する。目的スタイル抽出ステップにおいて、目的スタイル抽出部106が、学習結果に基づいて、指定された目的スタイルの画像を示す目的スタイル画像からスタイルの特徴ベクトルを、目的スタイル特徴ベクトルVTS(目的スタイル特徴量)として抽出する。変換画像生成ステップにおいて、変換画像生成部108は、学習結果に基づいて、対象コンテンツ抽出部103が抽出した対象コンテンツ特徴ベクトルVSCと、対象スタイル抽出部102が抽出した対象スタイル特徴ベクトルVSS、及び目的スタイル抽出部106が抽出した目的スタイル特徴ベクトルVTSを混合した混合スタイル特徴量とから、コンテンツの特徴と目的スタイルの特徴とを併せ持つスタイル変換画像を生成する。
これにより、本実施系値による画像スタイル変換方法は、上述した画像スタイル変換装置1と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。
【0133】
[第2の実施形態]
次に、図面を参照して、第2の実施形態による画像スタイル変換装置1aについて説明する。
【0134】
図6は、第2の実施形態による画像スタイル変換装置1aの一例を示す機能ブロック図である。
図6に示すように、画像スタイル変換装置1aは、制御部10aと、表示部11と、入力部12と、記憶部13とを備える。
なお、この図において、上述した
図1と同一の構成には、同一の符号を付与してその説明を省略する。
【0135】
制御部10aは、例えば、CPUなどを含むプロセッサであり、画像スタイル変換装置1aを統括的に制御する。、制御部10aは、例えば、対象画像データ取得部101と、対象スタイル抽出部102と、対象コンテンツ抽出部103と、目的画像データ取得部104と、目的キーワード取得部105と、目的スタイル抽出部106と、スタイル混合部107と、変換画像生成部108と、表示制御部109aと、目的コンテンツ抽出部110と、逆方向プレビュー画像生成部111と、個別目的コンテンツ抽出部112と、目的スタイル画像選択部113とを備えている。
【0136】
目的コンテンツ抽出部110は、学習結果記憶部131が記憶する学習結果に基づいて、目的スタイル画像からコンテンツの特徴ベクトルを、目的コンテンツ特徴ベクトルVTC(目的コンテンツ特徴量)として抽出する。目的コンテンツ抽出部110は、例えば、学習結果のコンテンツエンコーダECを用いて、目的画像データ取得部104が取得した目的画像データから、目的コンテンツ特徴ベクトルVTCを抽出する。目的コンテンツ抽出部110は、上述した式(10)に画像データとして、目的画像データを代入することで目的コンテンツ特徴ベクトルVTCを抽出する。
【0137】
逆方向プレビュー画像生成部111は、学習結果記憶部131が記憶する学習結果に基づいて、目的コンテンツ抽出部110が抽出した目的コンテンツ特徴ベクトルVTCと、対象スタイル抽出部102が抽出した対象スタイル特徴ベクトルVSSとから、目的スタイル画像のコンテンツの特徴と対象画像のスタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する。逆方向プレビュー画像生成部111は、例えば、学習結果のデコーダGを用いて、目的コンテンツ特徴ベクトルVTCと、対象スタイル特徴ベクトルVSSとから、逆方向プレビュー画像を復元する。逆方向プレビュー画像生成部111は、例えば、上述した式(13)に、スタイルの特徴ベクトルVSとして、対象スタイル特徴ベクトルVSSを代入し、コンテンツの特徴ベクトルVCとして、目的コンテンツ特徴ベクトルVTCを代入することで、逆方向プレビュー画像を生成する。
【0138】
個別目的コンテンツ抽出部112は、指定された目的キーワードに対応付けられた複数の画像のそれぞれから、学習結果記憶部131が記憶する学習結果に基づいて、個別コンテンツの特徴ベクトルを抽出する。個別目的コンテンツ抽出部112は、例えば、学習結果のコンテンツエンコーダECを用いて、目的キーワードに対応付けられた複数の画像(画像群)のそれぞれから、個別コンテンツの特徴ベクトル(個別コンテンツ特徴ベクトルVETC)を抽出する。個別目的コンテンツ抽出部112は、上述した式(10)に画像データとして、目的キーワードに対応付けられた画像群のそれぞれの画像データを代入することで個別コンテンツ特徴ベクトルVETCを抽出する。
【0139】
目的スタイル画像選択部113は、個別目的コンテンツ抽出部112が抽出した、複数の画像の個別コンテンツの特徴ベクトル(個別コンテンツ特徴ベクトルVETC)のうちから、対象コンテンツ特徴ベクトルVSCに最も近い個別コンテンツの特徴ベクトルに対応する画像を、目的スタイル画像として選択する。
【0140】
表示制御部109aは、基本的な機能は、第1の実施形態の表示制御部109と同様である。ここでは、表示制御部109aの第1の実施形態と異なる機能について説明する。
表示制御部109aは、目的キーワードが指定された場合に、スライダの一端に隣接する位置に、目的スタイル画像選択部113が選択した目的スタイル画像を順方向プレビュー画像として表示させる。また、表示制御部109aは、スライダの一端に隣接する位置に、目的スタイル画像を順方向プレビュー画像として表示させるとともに、順方向プレビュー画像とは反対のスライダの一端に隣接する位置に、逆方向プレビュー画像生成部111が生成した逆方向プレビュー画像を表示させる。
【0141】
ここで、
図7を参照して、表示制御部109aが表示する表示画面について説明する。
図7は、本実施形態による画像スタイル変換装置1aの表示画面の一例を示す図である。なお、この図において、上述した
図3と同一の構成には、同一の符号を付与してその説明を省略する。
表示制御部109aは、
図7に示す表示画面G2のような画面を、表示部11に表示させる。
【0142】
表示画面G2において、目的スタイル画像パネルPN2aは、指定した目的スタイル画像TG1と、逆方向プレビュー画像生成部111が生成した逆方向プレビュー画像NTG1とを表示するとともに、目的スタイルの混合率を調整するスライダSLD1を表示する。すなわち、表示制御部109aは、目的スタイル画像パネルPN2aにおいて、スライダSLD1の一端に隣接する位置に、目的スタイル画像TG1を順方向プレビュー画像として表示させるとともに、反対のスライダSLD1の一端に隣接する位置に、逆方向プレビュー画像NTG1を表示させる。
【0143】
また、表示画面G2において、目的スタイルキーワードパネルPN4aは、指定した目的キーワードと、目的スタイル画像選択部113が選択した目的スタイル画像TG3とを表示するとともに、目的スタイルの混合率を調整するスライダSLD4を表示する。すなわち、表示制御部109aは、例えば、目的スタイルキーワードパネルPN4aに、指定された目的キーワードの“しずる感”及び目的スタイル画像TG3を表示するとともに、スライダSLD4を表示させる。
また、表示制御部109aは、目的スタイルキーワードパネルPN4aにおいても、目的スタイル画像パネルPN2aと同様に、逆方向プレビュー画像NTG3を表示させる。
【0144】
以上説明したように、本実施形態による画像スタイル変換装置1aは、第1の実施形態と同様に、対象コンテンツ抽出部103と、対象スタイル抽出部102と、目的スタイル抽出部106と、変換画像生成部108とを備える。
これにより、本実施形態による画像スタイル変換装置1aは、第1の実施形態と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。
【0145】
また、本実施形態による画像スタイル変換装置1aは、目的コンテンツ抽出部110と、逆方向プレビュー画像生成部111と、表示制御部109aとを備える。目的コンテンツ抽出部110は、学習結果に基づいて、目的スタイル画像からコンテンツの特徴ベクトルを、目的コンテンツ特徴ベクトルVTC(目的コンテンツ特徴量)として抽出する。逆方向プレビュー画像生成部111は、学習結果に基づいて、目的コンテンツ抽出部110が抽出した目的コンテンツ特徴ベクトルVTCと、対象スタイル抽出部102が抽出した対象スタイル特徴ベクトルVSSとから、目的スタイル画像のコンテンツの特徴と対象画像のスタイルの特徴とを併せ持つ逆方向プレビュー画像を生成する。表示制御部109aは、スライダの一端に隣接する位置に、目的スタイル画像を順方向プレビュー画像として表示させるとともに、順方向プレビュー画像とは反対のスライダの一端に隣接する位置に、逆方向プレビュー画像生成部111が生成した逆方向プレビュー画像を表示させる。
【0146】
これにより、本実施形態による画像スタイル変換装置1aは、混合率の調整によってスタイルが変化する目安となる順方向プレビュー画像及び逆方向プレビュー画像を表示するようにしたため、混合率の調整をユーザがイメージすることができ、さらに直感的に画像のスタイルを変換することができる。
【0147】
また、本実施形態による画像スタイル変換装置1aは、個別目的コンテンツ抽出部112と、目的スタイル画像選択部113とを備える。個別目的コンテンツ抽出部112は、指定された目的スタイルキーワードに対応付けられた複数の画像のそれぞれから、学習結果に基づいて、個別コンテンツの特徴ベクトルを抽出する。目的スタイル画像選択部113は、個別目的コンテンツ抽出部112が抽出した、複数の画像の個別コンテンツの特徴ベクトルのうちから、対象コンテンツ特徴ベクトルVSCに最も近い個別コンテンツの特徴ベクトルに対応する画像を、目的スタイル画像として選択する。表示制御部109aは、スライダの一端に隣接する位置に、目的スタイル画像選択部113が選択した目的スタイル画像を順方向プレビュー画像として表示させる。
【0148】
これにより、本実施形態による画像スタイル変換装置1aは、目的キーワードとともに、対象画像のコンテンツに最も近い画像を順方向プレビュー画像として表示するようにしたため、目的キーワードのスタイルを視覚的にイメージすることができ、さらに直感的に画像のスタイルを変換することができる。
【0149】
[第3の実施形態]
次に、図面を参照して、第3の実施形態による画像スタイル変換装置1bについて説明する。
【0150】
図8は、第3の実施形態による画像スタイル変換装置1bの一例を示す機能ブロック図である。
図8に示すように、画像スタイル変換装置1bは、制御部10bと、表示部11と、入力部12と、記憶部13とを備える。
なお、この図において、上述した
図1及び
図6と同一の構成には、同一の符号を付与してその説明を省略する。
【0151】
制御部10bは、例えば、CPUなどを含むプロセッサであり、画像スタイル変換装置1bを統括的に制御する。、制御部10bは、例えば、対象画像データ取得部101と、対象スタイル抽出部102と、対象コンテンツ抽出部103と、目的画像データ取得部104と、目的キーワード取得部105と、目的スタイル抽出部106と、スタイル混合部107と、変換画像生成部108と、表示制御部109bと、目的コンテンツ抽出部110と、動的プレビュー画像生成部114とを備えている。
【0152】
動的プレビュー画像生成部114は、学習結果記憶部131が記憶する学習結果に基づいて、スライダに対応した混合スタイル特徴ベクトルVMSと、スライダに対応した目的スタイル画像から抽出されたコンテンツの特徴ベクトル(目的コンテンツ特徴ベクトルVTC)とから、動的プレビュー画像を生成する。動的プレビュー画像生成部114は、例えば、学習結果のデコーダGを用いて、目的コンテンツ特徴ベクトルVTCと、混合スタイル特徴ベクトルVMSとから、動的プレビュー画像を復元する。動的プレビュー画像生成部114は、例えば、上述した式(13)に、スタイルの特徴ベクトルVSとして、混合スタイル特徴ベクトルVMSを代入し、コンテンツの特徴ベクトルVCとして、目的コンテンツ特徴ベクトルVTCを代入することで、動的プレビュー画像を生成する。
【0153】
表示制御部109bは、基本的な機能は、第1の実施形態の表示制御部109と同様である。ここでは、表示制御部109bの第1の実施形態と異なる機能について説明する。
表示制御部109bは、スライダに対応した動的プレビュー画像を、スライダに対応付けて表示させるとともに、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示させる。すなわち、表示制御部109bは、例えば、
図3に示す表示画面G1の目的スタイル画像パネルPN2において、スライダSLD1のカーソルの位置が変更されると、スライダの混合率に応じて、目的スタイル画像TG1を、動的プレビュー画像として変更する。
【0154】
以上説明したように、本実施形態による画像スタイル変換装置1bは、第1の実施形態と同様に、対象コンテンツ抽出部103と、対象スタイル抽出部102と、目的スタイル抽出部106と、変換画像生成部108とを備える。
これにより、本実施形態による画像スタイル変換装置1bは、第1の実施形態と同様の効果を奏し、ユーザが直感的に画像のスタイルを変換することができる。
【0155】
また、本実施形態による画像スタイル変換装置1bは、動的プレビュー画像生成部114と、表示制御部109bとを備える。動的プレビュー画像生成部114は、学習結果に基づいて、スライダに対応した混合スタイル特徴ベクトルVMSと、スライダに対応した目的スタイル画像から抽出されたコンテンツの特徴ベクトル(目的コンテンツ特徴ベクトルVTC)とから、動的プレビュー画像を生成する。表示制御部109bは、スライダに対応した動的プレビュー画像を、スライダに対応付けて表示させるとともに、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示させる。
【0156】
これにより、本実施形態による画像スタイル変換装置1bは、スライダの混合率を示す位置に応じて、動的プレビュー画像を変更して表示するため、スタイルの混合率の変化を視覚的にイメージすることができ、さらに直感的に画像のスタイルを変換することができる。
【0157】
[第4の実施形態]
次に、図面を参照して、第4の実施形態による画像スタイル変換装置1cについて説明する。
【0158】
図9は、第4の実施形態による画像スタイル変換装置1cの一例を示す機能ブロック図である。
図9に示すように、画像スタイル変換装置1cは、制御部10cと、表示部11と、入力部12と、記憶部13aとを備える。
なお、この図において、上述した
図1と同一の構成には、同一の符号を付与してその説明を省略する。
【0159】
記憶部13aは、画像スタイル変換装置1cが実行する各種処理に利用する情報を記憶する。記憶部13aは、例えば、学習結果記憶部131と、目的画像記憶部132と、学習画像データ記憶部133とを備えている。
学習画像データ記憶部133は、上述した学習結果記憶部131が記憶する学習結果を生成するための学習画像データ(例えば、ドメインAの画像群の画像データ、及びドメインBの画像群の画像データ)を記憶する。
【0160】
制御部10cは、例えば、CPUなどを含むプロセッサであり、画像スタイル変換装置1cを統括的に制御する。、制御部10cは、例えば、対象画像データ取得部101と、対象スタイル抽出部102と、対象コンテンツ抽出部103と、目的画像データ取得部104と、目的キーワード取得部105と、目的スタイル抽出部106と、スタイル混合部107と、変換画像生成部108と、表示制御部109と、学習処理部115とを備えている。
【0161】
本実施形態では、学習画像データ記憶部133及び学習処理部115を備えている点を除いて、第1の実施形態と同様である。
学習処理部115は、複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、学習結果を生成する。すなわち、学習処理部115は、上述した式(1)~式(8)の損失関数により、学習画像データ記憶部133が記憶する学習画像データを用いて機械学習処理を実行して、学習結果として、スタイルエンコーダES、コンテンツエンコーダEC、及びデコーダGを生成する。学習処理部115は、生成した学習結果を学習結果記憶部131に記憶させる。
【0162】
なお、学習処理部115は、例えば、料理、景色、植物、等のカテゴリごとに、学習画像データを分類し、カテゴリごとに学習処理を実行するようにしてもよい。
【0163】
以上説明したように、本実施形態による画像スタイル変換装置1cは、複数のドメインのそれぞれに属する画像群に基づいて、機械学習を実行し、学習結果を生成する学習処理部115を備える。
これにより、本実施形態による画像スタイル変換装置1cは、例えば、画像のカテゴリごとに学習処理を実行するなど、画像の変化に対応して、画像のスタイルの変換を、より柔軟に対応することができる。本実施形態による画像スタイル変換装置1cは、学習結果を柔軟に更新することができる。
【0164】
なお、本発明は、上記の各実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の各実施形態において、記憶部13(13a)の一部又は全部を画像スタイル変換装置1(1a~1c)の外部に備えるようにしてもよい。この場合、記憶部13(13a)は、ネットワークを介して接続可能な外部装置(例えば、サーバ装置)に備えられていてもよい。
また、上記の各実施形態において、対象画像データ取得部101は、対象画像を記憶部13(13a)から取得してもよいし、外部から取得するようにしてもよい。また、同様に、目的画像データ取得部104は、目的スタイル画像を記憶部13(13a)から取得してもよいし、外部から取得するようにしてもよい。
【0165】
また、上記の各実施形態において、制御部10(10a~10c)が備える機能部の一部を外部のサーバ装置が備えるようにしてもよい。
また、上記の各実施形態において、画像スタイル変換装置1(1a~1c)は、1台の装置で構成される例を説明したが、これに限定されるものではなく、例えば、複数の装置によって、画像スタイル変換システムとして構成されてもよい。
また、上記の各実施形態は、単独で実施される例を説明したが、各実施形態の一部又は全部を組み合わせて実施するようにしてもよい。
【0166】
また、上記の各実施形態において、学習結果記憶部131は、対象画像のカテゴリに対応した複数の学習結果を記憶するようにしてもよい。この場合、制御部10(10a~10c)は、例えば、ディスクリミネータDを用いて、複数の学習結果のうちから対象画像に応じた最適な学習結果を選択して用いるようにしてもよい。
【0167】
なお、上述した画像スタイル変換装置1(1a~1c)が備える各構成は、内部に、コンピュータシステムを有している。そして、上述した画像スタイル変換装置1(1a~1c)が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した画像スタイル変換装置1(1a~1c)が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD-ROM等の非一過性の記録媒体であってもよい。
【0168】
また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部又は外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に画像スタイル変換装置1(1a~1c))が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0169】
また、上述した機能の一部又は全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、又は全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、又は汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
【符号の説明】
【0170】
1、1a、1b、1c…画像スタイル変換装置
10、10a、10b、10c…制御部
11…表示部
12…入力部
13、13a…記憶部
101…対象画像データ取得部
102…対象スタイル抽出部
103…対象コンテンツ抽出部
104…目的画像データ取得部
105…目的キーワード取得部
106…目的スタイル抽出部
107…スタイル混合部
108…変換画像生成部
109、109a、109b…表示制御部
110…目的コンテンツ抽出部
111…逆方向プレビュー画像生成部
112…個別目的コンテンツ抽出部
113…目的スタイル画像選択部
114…動的プレビュー画像生成部
115…学習処理部
131…学習結果記憶部
132…目的画像記憶部
133…学習画像データ記憶部