IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 ディー・エヌ・エーの特許一覧

特許7289199画像生成装置、画像識別器、画像生成プログラム及び画像生成方法
<>
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図1
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図2
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図3
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図4
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図5
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図6
  • 特許-画像生成装置、画像識別器、画像生成プログラム及び画像生成方法 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-06-01
(45)【発行日】2023-06-09
(54)【発明の名称】画像生成装置、画像識別器、画像生成プログラム及び画像生成方法
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230602BHJP
   G06T 7/20 20170101ALI20230602BHJP
【FI】
G06T7/00 350C
G06T7/20 300Z
【請求項の数】 11
(21)【出願番号】P 2019018432
(22)【出願日】2019-02-05
(65)【公開番号】P2020126442
(43)【公開日】2020-08-20
【審査請求日】2022-01-26
(73)【特許権者】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】濱田 晃一
(72)【発明者】
【氏名】李 天▲埼▼
(72)【発明者】
【氏名】陳 晨
(72)【発明者】
【氏名】渡辺 祐貴
(72)【発明者】
【氏名】李 亜超
【審査官】藤原 敬利
(56)【参考文献】
【文献】特開2002-199349(JP,A)
【文献】特許第6448839(JP,B1)
【文献】Ceyuan Yang et al.,Pose Guided Human Video Generation,arXiv,米国,2018年07月30日,https://arxiv.org/pdf/1807.11152.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G06N 3/00 - 3/12
G06N 7/08 -99/00
G06T 1/00 - 1/40
G06T 3/00 - 7/90
G06T 11/60 -13/80
G06T 19/00 -19/20
G06V 10/00 -20/90
G06V 30/418
G06V 40/16 、40/20
(57)【特許請求の範囲】
【請求項1】
参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器を備え、
前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成装置。
【請求項2】
請求項1に記載の画像生成装置であって、
前記画像生成器は、前記生成画像に加えて、前記参照時刻ではない生成時刻における生成構造情報を出力するように学習させたことを特徴とする画像生成装置。
【請求項3】
請求項2に記載の画像生成装置であって、
前記画像生成器は、前記生成時刻における生成画像と学習用画像との誤差、及び、前記生成時刻における生成構造情報と学習用構造情報との誤差を用いて学習させたことを特徴とする画像生成装置。
【請求項4】
請求項1~3のいずれか1項に記載の画像生成装置であって、
前記構造は、画像における各画素に対して画像に含まれるオブジェクトを関連付けた情報を含むことを特徴とする画像生成装置。
【請求項5】
請求項4に記載の画像生成装置であって、
前記構造は、画像における各画素に対して画像に含まれるオブジェクトの特徴点を関連付けて当該特徴点の位置又は領域を示すことを特徴とする画像生成装置。
【請求項6】
請求項5に記載の画像生成装置であって、
前記特徴点は、画像に含まれる人物のパーツ又はポーズキーポイントであることを特徴とする画像生成装置。
【請求項7】
請求項1~6のいずれか1項に記載の画像生成装置であって、
前記時系列情報は、前記参照時刻における学習用画像間のオブジェクトの動きを示すオプティカルフローを含み、
前記画像生成器は、前記オプティカルフローを含む前記時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させたことを特徴とする画像生成装置。
【請求項8】
請求項1~7のいずれか1項に記載の画像生成装置であって、
前記画像生成器は、畳み込み層とバッチ・ノーマライゼーション層との組み合わせを含むことを特徴とする画像生成装置。
【請求項9】
入力された画像が、参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器から出力された生成画像であるか学習用画像であるかを識別するように学習させたことを特徴とする画像識別器。
【請求項10】
コンピュータを、
参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器として機能させ、
前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成プログラム。
【請求項11】
参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器を用いる画像生成方法であって、
前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像生成装置、画像識別器、画像生成プログラム及び画像生成方法に関する。
【背景技術】
【0002】
近年、ディープニューラルネットワークなどを用いた機械学習技術を利用することで、画像を自動生成する技術が提案されている。
【0003】
例えば、低解像度に対応するステージから高解像度に対応するステージに向かって各ステージにおいて、当該ステージの解像度に変換された学習用画像及び構造情報並びに生成画像に基づいて学習用画像と生成画像とのいずれが生成画像であるかを識別するように学習させた画像識別器と、潜在ベクトルに基づいて当該ステージの解像度の生成画像を生成し、当該ステージの解像度に変換された学習用画像及び構造情報並びに画像識別器からのフィードバック(識別結果)に基づいて生成画像が学習用画像の特徴を示すように学習させた画像生成器と、を組み合わせた画像生成装置が開示されている(特許文献1)。
【0004】
また、アニメーション動画で使用される画像を作成する際に、時系列的に与えられた画像と画像との間を補間する画像(中割画像)を生成したいという要望がある。これに対して、画像に含まれる像(オブジェクト)の画像と画像との間における変化を示すオプティカルフローを計算し、当該オプティカルフローに基づいて補間する画像を生成する技術が開示されている(非特許文献1,2)。
【先行技術文献】
【特許文献】
【0005】
【文献】特許第6448839号公報
【非特許文献】
【0006】
【文献】“Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation” https://arxiv.org/pdf/1712.00080.pdf
【文献】“Video Frame Synthesis using Deep Voxel Flow” http://openaccess.thecvf.com/content_ICCV_2017/papers/Liu_Video_Frame_Synthesis_ICCV_2017_paper.pdf
【発明の概要】
【発明が解決しようとする課題】
【0007】
時系列的な画像と画像との間を補間する画像を生成する従来技術は、高いフレームレート(高FPS)を有する動画を対象とするものであり、画像間の変化が大きい低いフレームレート(低FPS)である動画に応用することが困難であった。例えば、人物を表現したキャラクタを含むアニメーションにおける画像を処理対象として画像間を補間した画像(中割画像)を自動生成させた場合、腕や脚の動きが不自然になる等の問題が生じていた。
【課題を解決するための手段】
【0008】
本発明の1つの態様は、参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器を備え、前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成装置である。
【0009】
本発明の別の態様は、コンピュータを、参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器として機能させ、前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成プログラムである。
【0010】
本発明の別の態様は、参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器を用いる画像生成方法であって、前記画像生成器は、入力された画像が学習用画像と生成画像のいずれであるかを識別するように学習させた画像識別器からのフィードバックを受けて学習させたことを特徴とする画像生成方法である。
【0011】
ここで、前記画像生成器は、前記生成画像に加えて、前記参照時刻ではない生成時刻における生成構造情報を出力するように学習させたことが好適である。
【0012】
また、前記画像生成器は、前記生成時刻における生成画像と学習用画像との誤差、及び、前記生成時刻における生成構造情報と学習用構造情報との誤差を用いて学習させたことが好適である。
【0013】
また、前記構造は、画像における各画素に対して画像に含まれるオブジェクトを関連付けた情報を含むことが好適である。
【0014】
また、前記構造は、画像における各画素に対して画像に含まれるオブジェクトの特徴点を関連付けて当該特徴点の位置又は領域を示すことが好適である。
【0015】
また、前記特徴点は、画像に含まれる人物のパーツ又はポーズキーポイントであることが好適である。
【0016】
また、前記時系列情報は、前記参照時刻における学習用画像間のオブジェクトの動きを示すオプティカルフローを含み、前記画像生成器は、前記オプティカルフローを含む前記時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させたことが好適である。
【0017】
また、前記画像生成器は、畳み込み層とバッチ・ノーマライゼーション層との組み合わせを含むことが好適である。
【0018】
本発明の別の態様は、入力された画像が、参照時刻の各々における学習用画像及び当該学習用画像の構造を示す学習用構造情報の組み合わせを含む時系列情報を用いて前記参照時刻ではない生成時刻における生成画像を出力するように学習させた画像生成器から出力された生成画像であるか学習用画像であるかを識別するように学習させたことを特徴とする画像識別器である。
【発明の効果】
【0019】
本発明によれば、時系列的に変化する画像を含む動画において適切な生成画像を生成することができる。
【図面の簡単な説明】
【0020】
図1】本発明の実施の形態における画像生成装置の構成を示す図である。
図2】本発明の実施の形態における画像生成器及び画像識別器の基本構成を示す図である。
図3】本発明の実施の形態における画像生成を説明するための図である。
図4】本発明の実施の形態における構造情報を説明するための図である。
図5】本発明の実施の形態における画像生成器の構成例を示す図である。
図6】本発明の実施の形態における画像識別器の構成例を示す図である。
図7】本発明の実施の形態における画像生成器のよる画像生成について説明する図である。
【発明を実施するための形態】
【0021】
<画像生成装置の基本構成>
本実施の形態における画像生成装置100は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。処理部10は、CPU等の演算処理を行う手段を含む。処理部10は、記憶部12に記憶されている画像生成処理を行うための画像生成プログラム及び画像識別処理を行うための画像識別プログラムを実行することによって画像生成装置100を画像生成器及び画像識別器として機能させる。記憶部12は、半導体メモリやメモリカード等の記憶手段を含む。記憶部12は、処理部10とアクセス可能に接続され、画像生成プログラム、画像識別プログラム、これらを実行するための画像データ、構造データ、オプティカルフローデータ等、機械学習における各種パラメータ等の情報を記憶する。入力部14は、情報を入力する手段を含む。入力部14は、例えば、管理者からの情報の入力を受けるキーボード、タッチパネル、ボタン等を備える。出力部16は、管理者へ情報を出力する手段を含む。出力部16は、例えば、管理者に対して生成された画像や動画を呈示するディスプレイを備える。通信部18は、情報通信網102を介して他の外部装置から各種情報を取得したり、他の外部装置へ各種情報を送出したりするための通信を行うインターフェースを含んで構成される。通信部18による通信は有線及び無線を問わない。
【0022】
画像生成装置100は、例えば、パーソナルコンピュータ(PC)又はサーバなどであってよいが、以下に説明する機能を発揮可能な限りにおいてどのような装置であってもよい。
【0023】
詳細は後述するが、画像生成装置100は、図2に示すように、学習器(画像生成器20及び画像識別器22)を備えており、当該学習器を学習させることで画像生成器20へ入力された画像に対応する画像を生成して出力する。すなわち、画像生成装置100は、画像生成器20と画像識別器22とを組み合わせた敵対的生成ネットワーク(GAN)を利用した機械学習を適用した構成とされる。
【0024】
また、画像生成装置100は、動画を構成する要素となる時系列的に変化する画像に関する情報を用いて画像生成器20及び画像識別器22を学習させる。
【0025】
より具体的には、図3に示すように、参照時刻(例えば、時刻t0,tn)の各々における画像に関する情報を含む時系列的な学習用情報を用いて参照時刻ではない生成時刻(例えば、時刻t1,t2・・・tn-1)における画像に関する情報を生成情報として出力するように画像生成器20を学習させる。
【0026】
ここで、画像生成器20に入力される時系列的な学習用情報は、図2に示すように、学習用画像30及び学習用構造情報32を少なくとも含むことが好適である。また、時系列的な学習用情報は、さらに学習用オプティカルフロー34を含んでもよい。また、画像生成器20から出力される生成情報は、図2に示すように、生成画像38及び生成構造情報40を少なくとも含むことが好適である。また、画像生成器20から出力される生成情報は、さらに生成オプティカルフロー(図示しない)を含んでもよい。また、入力された画像が学習用画像と画像生成器20によって生成された生成画像のいずれであるかを識別するように画像識別器22を学習させる。
【0027】
学習用画像30は、画像生成器20及び画像識別器22を学習するために用いられる画像である。本実施の形態では、学習用画像30は、動画を構成する画像のように時刻の経過と共に変化するオブジェクトの像を含む画像である。学習用画像30には、複雑な構造を有するオブジェクトが含まれていてよい。複雑な構造を有するオブジェクトとは、例えば、姿勢が分かる程度に頭部、胴体及び手足を含む人物像、同じく姿勢が分かる程度に頭部、胴体及び手足を含むキャラクタ像等である。また、複雑な構造を有するオブジェクトとは、当該オブジェクトが有する特徴点間の位置関係が変化し得るオブジェクトとしてもよい。例えば、人物像やキャラクタ像は、種々の姿勢を取り得るものであり、特徴点間(例えば頭部と右手間)の位置関係が固定されておらず、姿勢に応じて変化する。また、人物像やキャラクタ像は、種々の表情を取り得るものであり、特徴点(髪、目、鼻、口、耳等)の位置や形状が変化するだけでなく、これらの特徴点間の位置関係が変化する。なお、複雑な構造を有するオブジェクトは、人型のオブジェクトに限定されるものではなく、樹木、車、道路等の複数のオブジェクトを含む風景画像等としてもよい。
【0028】
学習用構造情報32は、学習用画像30の画像の構造を示す情報である。学習用構造情報32となる画像の構造は、画像における各画素に対して画像に含まれるオブジェクトを関連付けた情報を含む。以下、画像の構造について説明する。
【0029】
例えば、画像の構造は、図4に示すように、学習用構造情報32に含まれる人物像やキャラクタ像をオブジェクトとしてその全体のシルエットに該当する画素(ピクセル)を示す情報とする。具体的には、例えば、学習用構造情報32は、学習用画像30に含まれる人物像やキャラクタ像の全身に該当する画素(ピクセル)が白(輝度100%)、その他の画素(ピクセル)が黒(輝度0%)で表された画像とすればよい。また、学習用構造情報32に含まれる人物像やキャラクタ像の肌の領域をオブジェクトの特徴点として肌の領域に該当する画素(ピクセル)を示す情報とする。具体的には、例えば、学習用構造情報32は、学習用画像30に含まれる人物像やキャラクタ像の肌に該当する画素(ピクセル)が白(輝度100%)、その他の画素(ピクセル)が黒(輝度0%)で表された画像とすればよい。また、学習用構造情報32に含まれる人物像やキャラクタ像の髪の領域をオブジェクトの特徴点として髪の領域に該当する画素(ピクセル)を示す情報とする。具体的には、例えば、学習用構造情報32は、学習用画像30に含まれる人物像やキャラクタ像の髪に該当する画素(ピクセル)が白(輝度100%)、その他の画素(ピクセル)が黒(輝度0%)で表された画像とすればよい。また、学習用構造情報32に含まれる人物像やキャラクタ像の目の領域をオブジェクトの特徴点として目の領域に該当する画素(ピクセル)を示す情報とする。具体的には、例えば、学習用構造情報32は、学習用画像30に含まれる人物像やキャラクタ像の目に該当する画素(ピクセル)が白(輝度100%)、その他の画素(ピクセル)が黒(輝度0%)で表された画像とすればよい。
【0030】
同様に、画像の構造は、人物像やキャラクタ像の顔、右眼、左眼、鼻、口、右耳、左耳、胴部、右肩、左肩、右腕、左腕、右肘、左肘、右手、左手、右脚、左脚、右膝、左膝、右足、左足等のパーツをオブジェクトの特徴点として、これらの特徴点に対応する画素(ピクセル)を示す情報としてもよい。例えば、学習用構造情報32は、これらのオブジェクトの特徴点に該当する画素が白(輝度100%)、その他の画素が黒(輝度0%)で表された画像としてもよい。
【0031】
また、画像の構造は、人物像やキャラクタ像の特徴点の相対的な位置関係を示すポーズキーポイントとしてもよい。ポーズキーポイントは、人物像やキャラクタ像の特徴点である頭部、胴部、右肩、左肩、右腕、左腕、右肘、左肘、右手、左手、右脚、左脚、右膝、左膝、右足、左足等の重心点を繋いだ線分の組み合わせからなり人物像やキャラクタ像の姿勢を示す画像である。例えば、頭部の重心点と胴部の重心点を繋いだ線分、右肩の重心点と右肘の重心点を繋いだ線分、右肘の重心点と右手の重心点を繋いだ線分、左肩の重心点と左肘の重心点を繋いだ線分、左肘の重心点と左手の重心点を繋いだ線分、胴部の重心点と右膝の重心点を繋いだ線分、右膝の重心点と右足の重心点を繋いだ線分、胴部の重心点と左膝の重心点を繋いだ線分、左膝の重心点と左足の重心点を繋いだ線分を組み合わせた画像とすればよい。なお、各線分の太さは適宜設定すればよい。
【0032】
画像の構造は、人物像やキャラクタ像に関する構造に限定されるものではなく、画像に含まれる樹木、車、道路等のオブジェクトの位置、領域及び相対的な位置関係を示す情報としてもよい。例えば、画像に対してセマティック・セグメンテーション処理(Semantic Segmentation)を適用して、画像を複数のセグメントに領域分割してそれぞれのセグメントの位置、領域及び相対的な位置関係を画素(ピクセル)で表した画像としてもよい。また、例えば、画像に対してヒューマン・パーシング処理(Human Parsing)を適用して、画像に含まれる人物像やキャラクタ像を複数のセグメントに領域分割してそれぞれのセグメントの位置、領域及び相対的な位置関係を画素(ピクセル)で表した画像としてもよい。
【0033】
また、画像の構造は、2次元情報に限定されるものではなく、3次元情報を含むものとしてもよい。また、例えば、画像に含まれるオブジェクト像に該当する3次元モデルに対してデンス・ポーズ処理(DensePose)を適用して得られる表面構造情報(例えば、オブジェクト像の3次元モデルの各表面の法線情報)を示す情報としてもよい。
【0034】
また、画像の構造には、画像に含まれるオブジェクトの特徴を示す属性情報が含まれていてもよい。オブジェクトが人物像やキャラクタ像である場合、属性情報としては、例えば、眼鏡の有無、服装、髪の色、人種等としてもよい。なお、画像の構造は、上記のような明示的な情報に限られない。例えば、上記情報が埋め込まれた単なる数値ベクトルなどでもよい。
【0035】
画像生成器20を機械学習させるために用いられる情報は、学習用画像30及び学習用構造情報32に加えてオプティカルフロー34を含んでもよい。オプティカルフロー34は、時系列的な画像に含まれるオブジェクトの像の動きの見え方のパターンを示す情報である。具体的には、オブジェクトの像を構成する画素(ピクセル)について時系列的に隣接する画像間の変位ベクトルで表すことができる。オプティカルフロー34は、隣接する画像間においてオブジェクトの画像上の明るさは変わらず、隣接する画素(ピクセル)は似たような動きをするという仮定の下にルーカス・カナデ法(Lucas-Kanade)等によって求めることができる。
【0036】
なお、学習用画像30及び学習用構造情報32について説明したが、画像生成器20によって生成される生成画像38及び生成構造情報40もそれぞれ同様の画像及び情報である。また、生成画像38との間で誤差算出に用いられる学習用画像36及び生成構造情報40との間で誤差算出に用いられる学習用構造情報42もそれぞれ同様の画像及び情報である。
【0037】
<画像生成器の構成>
画像生成器20は、時系列的な学習用画像30及び学習用構造情報32の入力に基づいて生成画像38及び生成構造情報40を生成する。画像生成器20は、時系列的な学習用画像30及び学習用構造情報32に加えてオプティカルフロー34の入力に基づいて生成画像38及び生成構造情報40を生成する構成としてもよい。また、画像生成器20は、時系列的な学習用画像30及び学習用構造情報32の入力に基づいて生成画像38のみを生成する構成としてもよい。
【0038】
画像生成器20は学習器であり、具体的には、図5に示すように、畳み込みニューラルネットワーク層(Conv:Convolution Neural Networks)を含んで構成される。畳み込みニューラルネットワーク層は、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現した層である。
【0039】
また、図5に示すように、畳み込みニューラルネットワーク層にバッチ・ノーマライゼーション層(BN:Batch Normalization)を組み合わせることが好適である。バッチ・ノーマライゼーション層は、入力データを正規化する正規化層の一種であり、複数の入力データからなるミニバッチと学習されたパラメータを用いてミニバッチ内での平均値と分散値によってミニバッチを変換する層である。
【0040】
また、図5に示すように、畳み込みニューラルネットワーク、バッチ・ノーマライゼーション層又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLUを適用することが好適である。ただし、活性化関数は、ReLUに限定されるものではなく、シグモイド関数、ソフトマックス関数、多項式等の他の活性化関数を適用してもよい。
【0041】
また、画像生成器20には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。
【0042】
畳み込みニューラルネットワーク層やバッチ・ノーマライゼーション層等の画像生成器20を構成するニューラルネットワークに関する各種パラメータ(層構造、各層のニューロン構造、各層におけるフィルタ数、フィルタサイズ、ストライド幅、ゼロパディング幅、及び各フィルタの各要素の重みなど)、並びに、入力データ(学習用画像30及び学習用構造情報32)に対して処理を行うための処理実行プログラムを記憶部12させることによって画像生成装置100を画像生成器20として機能させることができる。
【0043】
<画像識別器の構成>
画像識別器22は、画像生成器20によって学習用画像36及び生成された生成画像38の入力に基づいて入力された画像が学習用画像と生成画像のいずれであるかを識別して、入力された画像が学習用画像と生成画像のいずれかであるかを示す敵対的ロスを出力する。敵対的ロスは、入力された画像が学習用画像と生成画像のいずれかであるかを示す真偽値であってもよいし、入力された画像が学習用画像と生成画像のいずれかの確からしさを示す尤度値であってもよい。
【0044】
画像識別器22は学習器であり、具体的には、図6に示すように、畳み込みニューラルネットワーク層(Conv:Convolution Neural Network)を含んで構成される。畳み込みニューラルネットワーク層は、パーセプトロン同士を全結合させずに結合をうまく制限し、なおかつウェイト共有という手法を使うことで画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現した層である。
【0045】
また、図6に示すように、畳み込みニューラルネットワーク層にバッチ・ノーマライゼーション層(BN:Batch Normalization)を組み合わせることが好適である。バッチ・ノーマライゼーション層は、入力データを正規化する正規化層の一種であり、複数の入力データからなるミニバッチと学習されたパラメータを用いてミニバッチ内での平均値と分散値によってミニバッチを変換する層である。
【0046】
また、図6に示すように、畳み込みニューラルネットワーク、バッチ・ノーマライゼーション層又はこれらの組み合わせに対して活性化関数を適用することが好適である。活性化関数としては、例えば、ReLUを適用することが好適である。ただし、活性化関数は、ReLUに限定されるものではなく、シグモイド関数、ソフトマックス関数、多項式等の他の活性化関数を適用してもよい。
【0047】
例えば、これらの層及び活性化関数の組み合わせによって、学習用画像36や生成画像38の部分的な画像領域に基づいて入力された画像が学習用画像と生成画像のいずれであるかを識別するように画像識別器22を学習させることが好適である。また、例えば、これらの層及び活性化関数の組み合わせによって、学習用画像36や生成画像38の時間的な変化に基づいて入力された画像が学習用画像と生成画像のいずれであるかを識別するように画像識別器22を学習させることが好適である。また、これらを組み合わせることも好適である。
【0048】
また、画像識別器22には、さらにプーリング層(Pooling)等の他のニューラルネットワークを組み込んでもよい。
【0049】
畳み込みニューラルネットワーク層やバッチ・ノーマライゼーション層等の画像識別器22を構成するニューラルネットワークに関する各種パラメータ(層構造、各層のニューロン構造、各層におけるフィルタ数、フィルタサイズ、ストライド幅、ゼロパディング幅、及び各フィルタの各要素の重みなど)、並びに、入力データ(学習用画像36及び生成画像38)に対して処理を行うための処理実行プログラムを記憶部12させることによって画像生成装置100を画像識別器22として機能させることができる。
【0050】
<画像生成器及び画像識別器の学習>
画像生成器20と画像識別器22は、図2に示すように、敵対的生成ネットワーク(GAN:GenerativeAdversarial Networks)を構成して学習を行う。
【0051】
画像生成器20は、時系列的な学習用データ及び画像識別器22等からのフィードバックを受けて生成画像38及び生成構造情報40を生成する学習を行う。例えば、図7に示すように、参照時刻t0と参照時刻tnにおける学習用画像30、学習用構造情報32及びオプティカルフロー34を学習用データとして、参照時刻t0と参照時刻tnとの間の生成時刻t1,t2・・・tn-1に対して学習用画像30及び学習用構造情報32を補間した生成画像38及び生成構造情報40を生成して出力する。
【0052】
画像識別器22は、入力される画像が学習用画像36であるか画像生成器20によって生成された生成画像38であるかを示す敵対的ロスを出力する。例えば、画像生成器20によって生成された生成時刻t1,t2・・・tn-1に対する生成画像38と、当該生成時刻t1,t2・・・tn-1における学習用画像36とのいずれかが入力されたときに当該入力画像が生成画像38か学習用画像36をできるだけ正しく判定した敵対的ロスを出力できるように画像識別器22は学習させる。画像生成器20には、画像識別器22から出力される敵対的ロスがフィードバック入力される。
【0053】
なお、画像識別器22は、入力された構造情報が学習用構造情報42と画像生成器20によって生成された生成構造情報40のいずれであるかを識別するよう学習させるようにしてもよい。また、画像生成器20をさらにオプティカルフローを生成するように学習させる場合、画像識別器22は、入力されたオプティカルフローが学習用オプティカルフローと画像生成器20によって生成された生成オプティカルフローのいずれであるかを識別するよう学習させるようにしてもよい。また、これらを組み合わせた構成としてもよい。
【0054】
また、画像生成器20には、図2に示すように、画像誤差算出器24及び構造誤差算出器26からそれぞれ画像誤差及び構造誤差が学習用データとして入力される。
【0055】
画像誤差算出器24は、画像生成器20において生成された生成画像38と学習用画像36との誤差を示す画像誤差を出力する。例えば、画像誤差算出器24は、画像生成器20において生成時刻t1,t2・・・tn-1に対して生成された生成画像38と生成時刻t1,t2・・・tn-1における学習用画像36との誤差を示す画像誤差を出力する。具体的には、ある参照時刻に対する生成画像38の画素の画素値(例えば、輝度、色相等)と当該参照時刻における学習用画像36の対応する画素の画素値(例えば、輝度、色相等)との誤差を示す画像誤差を出力する。誤差は、例えば、学習用画像36と生成画像38において対応する画素値の二乗誤差(MSE)とすればよい。
【0056】
構造誤差算出器26は、画像生成器20において生成された生成構造情報40と学習用構造情報42との誤差を示す構造誤差を出力する。例えば、構造誤差算出器26は、画像生成器20において生成時刻t1,t2・・・tn-1に対して生成された生成構造情報40と生成時刻t1,t2・・・tn-1における学習用構造情報42との誤差を示す構造誤差を出力する。具体的には、ある参照時刻に対する生成構造情報40の画素の画素値(例えば、画像の特徴点を示す輝度情報等)と当該参照時刻における学習用構造情報42の対応する画素の画素値(例えば、画像の特徴点を示す輝度情報等)との誤差を示す構造誤差を出力する。誤差は、例えば、学習用構造情報42と生成構造情報40において対応する画素値の二乗誤差(MSE)とすればよい。
【0057】
このように、画像生成器20は、学習用画像30、学習用構造情報32、オプティカルフロー34に加えて、画像識別器22から出力される敵対的ロス、画像誤差算出器24から出力される画像誤差、構造誤差算出器26から出力される構造誤差を学習用データとして生成画像38及び生成構造情報40を生成するように学習させる。
【0058】
なお、本実施の形態では、画像生成器20において学習用データが存在する参照時刻t0と参照時刻tnとの中間の生成時刻t1,t2・・・tn-1における生成画像38及び生成構造情報40を補間して出力する構成としたがこれに限定されるものではない。画像生成器20において学習用データが存在する参照時刻t0と参照時刻tnとの外側の生成時刻における生成画像38及び生成構造情報40を外挿して出力するように学習させてもよい。例えば、参照時刻t0よりも前の生成時刻t-1,t-2に対する生成画像38及び生成構造情報40を外挿して生成するように学習させてもよい。また、例えば、参照時刻tnよりも後の生成時刻tn+1,tn+2に対する生成画像38及び生成構造情報40を外挿して生成するように学習させてもよい。
【0059】
<学習済みの画像生成器及び画像識別器による画像生成>
上述の学習処理によって十分に学習された画像生成器20は、時系列的な画像及び当該画像の構造情報を入力データとして、当該入力された画像及び構造情報が示す特徴を有する画像を生成できるようになる。
【0060】
学習済みの画像生成器20は、種々の利用方法が考えられるが、そのうちの一つとして、アニメ又はゲーム等において時系列的に変化するキャラクタ像を含む動画を構成するための生成画像38を自動生成するために用いることができる。特に、様々な姿勢の変化を伴う高解像度のキャラクタ像を含む動画を構成する一部の画像を入力データとして、当該画像を内挿又は外挿したコマ割りのための生成画像38を簡単に自動生成することができる。特に、昨今、アニメ業界では人材不足に陥っており、アニメ制作の効率化が急がれている。したがって、アニメを作成する際の中割等の作業の負担を軽減することができる。
【0061】
具体的には、例えば図3に示したように、ある第1時刻と他の第2時刻の画像の入力に応じて、画像生成器20は、当該画像及び構造情報と特徴を有する第1時刻と第2時刻との間の時刻に対する生成画像38及び生成構造情報40を生成して出力する。また、ある第1時刻と他の第2時刻の画像の入力に応じて、画像生成器20は、当該画像及び構造情報と特徴を有する第1時刻の前又は第2時刻の後の時刻に対する生成画像38及び生成構造情報40を生成して出力する。ここで、画像生成器20へ入力する構造情報は、学習用画像30から学習用構造情報32を生成する方法と同様にして画像生成器20へ入力する画像から生成することができる。
【0062】
なお、本実施形態では、画像生成器20と画像識別器22が組み合わされて用いられるが、画像生成器20は単体で用いることができる。また、学習済みの画像識別器22も単体で用いることができる。例えば、画像を学習済みの画像識別器22に入力することで、当該入力された画像が画像生成器20によって生成された生成画像であるか実画像であるかを識別させることができる。
【0063】
以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。
【符号の説明】
【0064】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 画像生成器、22 画像識別器、24 画像誤差算出器、26 構造誤差算出器、30 学習用画像、32 学習用構造情報、34 学習用オプティカルフロー、36 学習用画像、38 生成画像、40 生成構造情報、42 学習用構造情報、100 画像生成装置、102 情報通信網。
図1
図2
図3
図4
図5
図6
図7