(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-25
(45)【発行日】2022-05-17
(54)【発明の名称】コンテンツ生成装置、コンテンツ生成方法及びプログラム
(51)【国際特許分類】
G06F 16/53 20190101AFI20220426BHJP
【FI】
G06F16/53
(21)【出願番号】P 2017134888
(22)【出願日】2017-07-10
【審査請求日】2020-06-19
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】凸版印刷株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【氏名又は名称】大槻 真紀子
(74)【代理人】
【識別番号】100064908
【氏名又は名称】志賀 正武
(74)【代理人】
【識別番号】100108578
【氏名又は名称】高橋 詔男
(74)【代理人】
【識別番号】100152146
【氏名又は名称】伏見 俊介
(72)【発明者】
【氏名】小林 裕一
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】特開2000-020721(JP,A)
【文献】特開2005-346474(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/53
(57)【特許請求の範囲】
【請求項1】
画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツ
に対応する画像である生成コンテンツを生成するコンテンツ生成装置であり、
前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出部と、
前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出部と、
前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成途中コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出部と、
前記統計量距離算出部が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、
当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを
前記コンテンツ特徴量算出部へ出力する生成コンテンツ変更部と
を備えることを特徴とするコンテンツ生成装置。
【請求項2】
前記コンテンツ特徴量算出部が、
前記コンテンツ特徴量の各々から、人間の脳の知覚機構に基づいて設定されたコンテンツ特徴量であるコンテンツ知覚特徴量を求め、
前記コンテンツ統計量算出部が、前記コンテンツ特徴量及び前記コンテンツ知覚特徴量の各々により前記コンテンツ統計量を算出する
ことを特徴とする請求項1に記載のコンテンツ生成装置。
【請求項3】
前記コンテンツ特徴量の複数の種類の演算式が記憶されたコンテンツ特徴量記憶部と、
前記コンテンツ統計量の複数の種類の演算式が記憶されたコンテンツ統計量記憶部とをさらに備え、
前記コンテンツ特徴量算出部が、
前記コンテンツ統計量算出部における前記コンテンツ統計量の演算に用いられる前記コンテンツ特徴量を、当該コンテンツ特徴量に対応する演算式により、前記元コンテンツ及び前記生成途中コンテンツの各々から求め、
前記コンテンツ統計量算出部が、
前記コンテンツ特徴量算出部により算出された前記コンテンツ特徴量を用い、前記コンテンツ統計量を、当該コンテンツ統計量に対応する演算式により、前記元コンテンツ及び前記生成途中コンテンツ毎に求める
ことを特徴とする請求項1又は請求項2に記載のコンテンツ生成装置。
【請求項4】
前記元コンテンツの前記元コンテンツ統計量のいずれかを参照コンテンツに置換するコンテンツ統計量置換部をさらに備え、
前記コンテンツ統計量算出部が、
前記元コンテンツとは異なる参照コンテンツから前記コンテンツ統計量である参照コンテンツ統計量を求め、
前記コンテンツ統計量置換部が、
前記元コンテンツ統計量の一部を同一の種類の前記参照コンテンツ統計量に置換し、新たな元コンテンツ統計量とする
ことを特徴とする請求項1から請求項3のいずれか一項に記載のコンテンツ生成装置。
【請求項5】
前記条件が、
前記距離が予め設定された閾値以下となった場合である
ことを特徴とする請求項1から請求項4のいずれか一項に記載のコンテンツ生成装置。
【請求項6】
前記条件が、
前記生成途中コンテンツを変更した回数が予め設定された設定回数となった場合である
ことを特徴とする請求項1から請求項4のいずれか一項に記載のコンテンツ生成装置。
【請求項7】
前記コンテンツが画像である場合、
前記コンテンツ特徴量が、前記画像の画素情報から求められる画像特徴量で、少なくとも前記画像の濃淡、輝度、色度、コントラスト、勾配を含む画像特徴量である
ことを特徴とする請求項1から請求項6のいずれか一項に記載のコンテンツ生成装置。
【請求項8】
前記コンテンツ統計量が、前記画像の、所定の物理特性の、所定の領域において求めた前記画像特徴量に対して、ある統計的操作を適用することで得られる前記統計量であり、前記物理特性は、少なくとも濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性を含み、前記領域は、少なくとも空間周波数区分、方向区分、色彩区分を含み、前記統計的操作は、少なくとも平均、分散、ヒストグラム、歪度、尖度、最大値、最小値、中央値、最頻値、偏り、密度、スペクトル、密度、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング、オプティカルフローを含む
ことを特徴とする請求項7に記載のコンテンツ生成装置。
【請求項9】
前記コンテンツ統計量が、前記画像の所定の物理特性において、前記所定の領域に対して、前記コンテンツ特徴量を求め、前記統計的操作を適用することで求める際に、前記所定の物理特性が互いに異なる画像間、もしくは前記所定の領域が互いに異なる画像間、で求めることで得る画像統計量、またその相関およびその相互相関を含むことを特徴とする画像統計量のいずれかである
ことを特徴とする請求項8に記載のコンテンツ生成装置。
【請求項10】
前記元コンテンツの画像と同様の色成分を有する他の画像として初期コンテンツを生成する初期コンテンツ生成部
をさらに備え、
前記生成コンテンツ変更部が前記初期コンテンツを変更して前記生成途中コンテンツとし、当該生成途中コンテンツを、前記距離が予め設定された条件となるまで順次変更する
ことを特徴とする請求項7から請求項9のいずれか一項に記載のコンテンツ生成装置。
【請求項11】
前記コンテンツ特徴量算出部が、学習用画像を入力及び出力として学習させたオートエンコーダの中間層の出力として前記コンテンツ特徴量を求め、
前記コンテンツ統計量算出部が、当該コンテンツ特徴量を入力及び出力として学習させ
たオートエンコーダの中間層の出力として前記コンテンツ統計量を求める
ことを特徴とする請求項1に記載のコンテンツ生成装置。
【請求項12】
前記コンテンツ特徴量算出部及び前記コンテンツ統計量算出部に代え、複数の学習用画像のピクセルの画素値を用い、多段の中間層を有するニューラルネットワークを深層学習させて生成した深層学習画像モデルにより、または他の深層学習画像モデルの中間層を使用した転移学習により生成した深層学習画像モデルにより、前記コンテンツ統計量を求める深層学習統計量算出部を備える
ことを特徴とする請求項1に記載のコンテンツ生成装置。
【請求項13】
画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツ
に対応する画像である生成コンテンツを生成するコンテンツ生成方法であり、
コンテンツ特徴量算出部が、前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出過程と、
コンテンツ統計量算出部が、前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出過程と、
統計量距離算出部が、前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出過程と、
生成コンテンツ変更部が、前記統計量距離算出部が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、
当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを
前記コンテンツ特徴量算出部へ出力する生成コンテンツ変更過程と
を含むことを特徴とするコンテンツ生成方法。
【請求項14】
画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツ
に対応する画像である生成コンテンツを生成するコンテンツ生成装置としてコンピュータを動作させるプログラムであり、
前記コンピュータを、
前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出手段、
前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出手段、
前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出手段、
前記統計量距離算出手段が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、
当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを
前記コンテンツ特徴量算出手段へ出力する生成コンテンツ変更手段
として動作させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、予め指定される特徴を有する画像、映像、音響及び音声等(以下、コンテンツ)を生成するコンテンツ生成装置、コンテンツ生成方法及びプログラムに関する。
【背景技術】
【0002】
一般に、人間が鑑賞対象としてのコンテンツに対して感じる雰囲気やテイスト(味わい)などの感覚は、鑑賞対象自体の特性や、鑑賞対象を鑑賞するときの状況等と相関が高い。
例えば、前記感覚と、鑑賞対象のコンテンツの視覚的特徴量(画像であれば画像特徴量、映像であれば映像特徴量)に対する統計的関係である統計量(平均値や分散など)とが強い関係を有することが知られている(例えば、非特許文献1を参照)。
また、前記感覚と、鑑賞対象のコンテンツの聴覚的特徴量(音響であれば音響特徴量、音声であれば音声特徴量)に対する統計的関係すなわち統計量とも強い関係があることが知られている(非特許文献2)。
【0003】
そして、日常生活においては、人間が鑑賞対象のコンテンツに対して感じる雰囲気やテイストを変えることなく、性質を変化させた他の鑑賞対象のコンテンツを生成したい場合、あるいは同様な雰囲気やテイストを有する他の鑑賞対象を探したい場合が少なくない。
例えば、ユーザの気に入った雰囲気の店が遠隔地にあり、滅多に行くことができない場合など、同様な雰囲気やテイストを有する他の店を、ユーザの生活圏内において探したい要求は多い。
【0004】
その場合に、インターネットにおけるウェブページ(Web page)などにおいて、様々な店の画像を参照して検索することにより、ユーザの気に入った雰囲気及びテイストを有する他の店の画像を探し出すのは実現がきわめて困難である。
理由としては、単純に似ている画像を探すには、単純に画像特徴量が類似した画像を探せばよいが、人間の感覚における同じような雰囲気及びテイストを有する画像を検索することはできない。
【0005】
また、新しいパターンをデザインしたりする際には、既存の複数のパターン(図形あるいは図像)の各々を参照し、それぞれにおけるユーザが気に入ったと感じる性質を合わせて有するパターンを生成しようとすることが少なくない。
しかし、実際には、既存の複数のパターンの性質それぞれの何があるいは何処が気に入っているのかが、ユーザ自身にも人間の感覚に起因するために判らないことが多い。そのため、これらのユーザが気に入ったと感じる性質は、既存の画像特徴量などで単純に表現することが難しい。したがって、一般的には、デザイナーが幾多もの試行錯誤を重ねることでデザイナーの思考や判断により、ユーザが気にいる性質ではなく、デザイナー自身が気に入った性質を合わせて有するパターンを実現しているのが実状である。
【先行技術文献】
【非特許文献】
【0006】
【文献】Portilla,J., and Simoncelli, E.P. , A Parametric texture model based on joint statistics of complex wavelet coefficients. International Journal of Computer Vision, Vol.40, issue 1, 2000年, P.49-71.
【文献】Josh H.McDermott, and Simoncelli, E.P. , Sound Texture Perception via Statistics of the Auditory Periphery:Evidence from Sound Synthesis. Neuron, 71, 2011年, pp.926-940.
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、このような状況に鑑みてなされたもので、鑑賞対象のコンテンツに対して人間が抱く雰囲気やテイストなどの感覚を数値化することにより、この鑑賞対象と同様な感覚を有する他の鑑賞対象である他のコンテンツを生成するコンテンツ生成装置、コンテンツ生成方法及びプログラムを提供する。
【課題を解決するための手段】
【0008】
上述した課題を解決するために、本発明のコンテンツ生成装置は、画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツに対応する画像である生成コンテンツを生成するコンテンツ生成装置であり、前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出部と、前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出部と、前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成途中コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出部と、前記統計量距離算出部が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを前記コンテンツ特徴量算出部へ出力する生成コンテンツ変更部とを備えることを特徴とする。
【0009】
本発明のコンテンツ生成装置は、前記コンテンツ特徴量算出部が、前記コンテンツ特徴量の各々から、人間の脳の知覚機構に基づいて設定されたコンテンツ特徴量であるコンテンツ知覚特徴量を求め、前記コンテンツ統計量算出部が、前記コンテンツ特徴量及び前記コンテンツ知覚特徴量の各々により前記コンテンツ統計量を算出することを特徴とする。
【0010】
本発明のコンテンツ生成装置は、前記コンテンツ特徴量の複数の種類の演算式が記憶されたコンテンツ特徴量記憶部と、前記コンテンツ統計量の複数の種類の演算式が記憶されたコンテンツ統計量記憶部とをさらに備え、前記コンテンツ特徴量算出部が、前記コンテンツ統計量算出部における前記コンテンツ統計量の演算に用いられる前記コンテンツ特徴量を、当該コンテンツ特徴量に対応する演算式により、前記元コンテンツ及び前記生成途中コンテンツの各々から求め、前記コンテンツ統計量算出部が、前記コンテンツ特徴量算出部により算出された前記コンテンツ特徴量を用い、前記コンテンツ統計量を、当該コンテンツ統計量に対応する演算式により、前記元コンテンツ及び前記生成途中コンテンツ毎に求めることを特徴とする。
【0011】
本発明のコンテンツ生成装置は、前記元コンテンツの前記元コンテンツ統計量のいずれかを参照コンテンツに置換するコンテンツ統計量置換部をさらに備え、前記コンテンツ統計量算出部が、前記元コンテンツとは異なる参照コンテンツから前記コンテンツ統計量である参照コンテンツ統計量を求め、前記コンテンツ統計量置換部が、前記元コンテンツ統計量の一部を同一の種類の前記参照コンテンツ統計量に置換し、新たな元コンテンツ統計量とすることを特徴とする。
【0012】
本発明のコンテンツ生成装置は、前記条件が、前記距離が予め設定された閾値以下となった場合であることを特徴とする。
【0013】
本発明のコンテンツ生成装置は、前記条件が、前記生成途中コンテンツを変更した回数が予め設定された設定回数となった場合であることを特徴とする。
【0014】
本発明のコンテンツ生成装置は、前記コンテンツが画像である場合、前記コンテンツ特徴量が、前記画像の画素情報から求められる画像特徴量で、少なくとも前記画像の濃淡、輝度、色度、コントラスト、勾配を含む画像特徴量であることを特徴とする。
【0015】
本発明のコンテンツ生成装置は、前記コンテンツ統計量が、前記画像の、所定の物理特性の、所定の領域において求めた前記画像特徴量に対して、ある統計的操作を適用することで得られる前記統計量であり、前記物理特性は、少なくとも濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性を含み、前記領域は、少なくとも空間周波数区分、方向区分、色彩区分を含み、前記統計的操作は、少なくとも平均、分散、ヒストグラム、歪度、尖度、最大値、最小値、中央値、最頻値、偏り、密度、スペクトル、密度、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング、オプティカルフローを含むことを特徴とする。
【0016】
本発明のコンテンツ生成装置は、前記コンテンツ統計量が、前記画像の所定の物理特性において、前記所定の領域に対して、前記コンテンツ特徴量を求め、前記統計的操作を適用することで求める際に、前記所定の物理特性が互いに異なる画像間、もしくは前記所定の領域が互いに異なる画像間、で求めることで得る画像統計量、またその相関およびその相互相関を含むことを特徴とする画像統計量のいずれかであることを特徴とする。
【0017】
本発明のコンテンツ生成装置は、前記元コンテンツの画像と同様の色成分を有する他の画像として初期コンテンツを生成する初期コンテンツ生成部をさらに備え、前記生成コンテンツ変更部が前記初期コンテンツを変更して前記生成途中コンテンツとし、当該生成途中コンテンツを、前記距離が予め設定された条件となるまで順次変更することを特徴とする。
【0018】
本発明のコンテンツ生成装置は、前記コンテンツ特徴量算出部が、学習用画像を入力及び出力として学習させたオートエンコーダの中間層の出力として前記コンテンツ特徴量を求め、前記コンテンツ統計量算出部が、当該コンテンツ特徴量を入力及び出力として学習させたオートエンコーダの中間層の出力として前記コンテンツ統計量を求めることを特徴とする。
【0019】
本発明のコンテンツ生成装置は、前記コンテンツ特徴量算出部及び前記コンテンツ統計量算出部に代え、複数の学習用画像のピクセルの画素値を用い、多段の中間層を有するニューラルネットワークを深層学習させて生成した深層学習画像モデルにより、または他の深層学習画像モデルの中間層を使用した転移学習により生成した深層学習画像モデルにより、前記コンテンツ統計量を求める深層学習統計量算出部を備えることを特徴とする。
【0020】
本発明のコンテンツ生成方法は、画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツに対応する画像である生成コンテンツを生成するコンテンツ生成方法であり、コンテンツ特徴量算出部が、前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出過程と、コンテンツ統計量算出部が、前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出過程と、統計量距離算出部が、前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出過程と、生成コンテンツ変更部が、前記統計量距離算出部が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを前記コンテンツ特徴量算出部へ出力する生成コンテンツ変更過程とを含むことを特徴とする。
【0021】
本発明のプログラムは、画像である元コンテンツと同様の雰囲気及びテイストを知覚する、前記元コンテンツとは異なるコンテンツに対応する画像である生成コンテンツを生成するコンテンツ生成装置としてコンピュータを動作させるプログラムであり、前記コンピュータを、前記元コンテンツと、当該元コンテンツの所定の特徴量に基づき作成された生成途中コンテンツとの各々のコンテンツ特徴量を算出するコンテンツ特徴量算出手段、前記コンテンツ特徴量の統計量であるコンテンツ統計量を求めるコンテンツ統計量算出手段、前記元コンテンツの前記統計量である元コンテンツ統計量の元コンテンツ座標値と、前記生成コンテンツの統計量である生成コンテンツ統計量の生成コンテンツ座標値との統計量空間における距離を算出する統計量距離算出手段、前記統計量距離算出手段が算出する前記距離が予め設定された条件となり、前記生成途中コンテンツを前記生成コンテンツとするまで、前記コンテンツ統計量を変更させるため、当該生成途中コンテンツに対応する画像におけるピクセルの情報を変更することによって当該生成途中コンテンツに対して前記コンテンツ特徴量が変更される調整を行い、調整した生成途中コンテンツを前記コンテンツ特徴量算出手段へ出力する生成コンテンツ変更手段として動作させるためのプログラムである。
【発明の効果】
【0022】
以上説明したように、本発明によれば、鑑賞対象のコンテンツに対して人間が抱く雰囲気やテイストなどの感覚を数値化することにより、この鑑賞対象と同様な感覚を有する他の鑑賞対象である他のコンテンツを生成するコンテンツ生成装置、コンテンツ生成方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0023】
【
図1】本発明の第1の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
【
図2】コンテンツ特徴量データベース109におけるコンテンツ特徴量テーブルの構成例を示す図である。
【
図3】コンテンツ統計量モデルデータベース110におけるコンテンツ統計量テーブルの構成例を示す図である。
【
図4】本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。
【
図5】
図4に示すフローチャートにおける生成コンテンツの生成処理の概念図である。
【
図6】本発明の第2の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
【
図7】本実施形態によるコンテンツ生成装置におけるコンテンツ特徴量生成部112が行なう推定コンテンツ特徴量を生成する処理の動作例を示すフローチャートである。
【
図8】本実施形態によるコンテンツ生成装置におけるコンテンツ統計量生成部113が行なう推定コンテンツ統計量を生成する処理の動作例を示すフローチャートである。
【
図9】本発明の第3の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
【
図10】深層学習画像モデルの生成を行う処理A1の動作例を示すフローチャートである。
【
図11】深層学習画像モデルの生成を行う処理A2の動作例を示すフローチャートである。
【
図12】本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。
【
図13】本発明の第4の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
【
図14】本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。
【
図15】
図14に示すフローチャートにおける生成コンテンツの生成処理の概念図である。
【発明を実施するための形態】
【0024】
<第1の実施形態>
以下、本発明の第1の実施形態について、図面を参照して説明する。
図1は、本発明の第1の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
図1におけるコンテンツ生成装置100は、画像入力部101、コンテンツ特徴量算出部102、コンテンツ統計量算出部103、初期コンテンツ生成部104、座標距離算出部105、座標距離判定部106、生成画像変更部107、コンテンツ出力部108、コンテンツ特徴量データベース109、コンテンツ統計量モデルデータベース110及び生成コンテンツ記憶部111の各々を備えている。以下、本実施形態においては、コンテンツを静止画像として説明するが、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
【0025】
画像入力部101は、ユーザが気にいった雰囲気及びテイストを有する元画像を、外部装置あるいは図示しない入力手段(メモリ、スキャナーなど)から画像データとして入力する。画像入力部101は、入力される元画像の画像データを、コンテンツ特徴量算出部102に対して出力する。
【0026】
コンテンツ特徴量算出部102は、ユーザが設定した、生成画像(生成コンテンツ)を生成するために用いるコンテンツ統計量(画像統計量)に用いるコンテンツ特徴量(画像特徴量)を、コンテンツ特徴量データベース109のコンテンツ特徴量テーブルから抽出する。また、コンテンツ特徴量算出部102は、抽出されたコンテンツ特徴量の各々の算出に用いる演算式を、コンテンツ特徴量データベース109のコンテンツ特徴量テーブルから読み出す。そして、コンテンツ特徴量算出部102は、読み出した演算式により、元画像から上記コンテンツ特徴量を算出する。このコンテンツ特徴量には、例えば、画像の濃淡、画素値の輝度及び色度、およびそのコントラスト、勾配などの特徴量がある。
【0027】
図2は、コンテンツ特徴量データベース109におけるコンテンツ特徴量テーブルの構成例を示す図である。
図2のコンテンツ特徴量テーブルは、レコード毎に、特徴量識別情報に対応して、特徴量名称及び特徴量演算式(モデル)の各々の欄を有している。特徴量識別情報は、コンテンツ特徴量の各々を識別する識別情報である。特徴量名称は、コンテンツ特徴量の各々の名称を示し、例えば、画像の濃淡、輝度及び色度と、それらのコントラスト、勾配などである。また、画像特徴量は、上述した種類のみではなく、画像認識分野にて提案された他の特徴を用いても良い。特徴量演算式(モデル)は、画像(の各々のピクセルの画素値)から、上記特徴量を求めるために用いる演算式(あるいはモデル)である。
【0028】
図1に戻り、コンテンツ統計量算出部103は、ユーザが設定した、生成画像(生成コンテンツ)を生成するために用いるコンテンツ統計量(画像統計量)を、コンテンツ統計量モデルデータベース110のコンテンツ統計量テーブルから抽出する。また、コンテンツ統計量算出部103は、抽出されたコンテンツ統計量の各々の算出に用いる演算式を、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから読み出す。そして、コンテンツ統計量算出部103は、読み出した演算式により、コンテンツ特徴量算出部102が求めたコンテンツ特徴量から上記コンテンツ統計量を算出する。
【0029】
このとき、コンテンツ統計量算出部103は、所望の画像特徴量の各々の間の相互の関係を、人の脳の初期視覚の神経機構に基づいて設計した知覚特徴量に基づいた統計量として算出し、これを知覚統計量として求める。ここで、知覚統計量は、例えば、方向別乃至複数の解像度別の空間周波数分布、空間周波数分布のエンベロープ、ヒストグラムの形状特性やそれら相互の関係等がある。方向別とは、例えば、元画像をx軸y軸の2次元平面としたとき、x軸方向、y軸方向(x軸に対して90度の軸の軸方向)、x軸に対して45度の軸の軸方向、x軸に対して135度の軸の軸方向などの所定の軸の軸方向を示す。
【0030】
図3は、コンテンツ統計量モデルデータベース110におけるコンテンツ統計量テーブルの構成例を示す図である。
図3のコンテンツ統計量テーブルは、レコード毎に、統計量識別情報に対応して、統計量名称、特徴量識別情報及び統計量演算式(モデル)の各々の欄を有している。統計量識別情報は、コンテンツ統計量の各々を識別する識別情報である。統計名称は、コンテンツ統計量の各々の名称を示し、例えば、平均、分散、ヒストグラム、歪度、尖度、最大値、最小値、中央値、最頻値、偏り、密度、スペクトル、密度、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング、オプティカルフロー等の他に上記知覚統計量を含む。
また、上記知覚統計量は、所定の画像領域に対して、各々異なる物理特性に関して求めた同一の上記コンテンツ特徴量の間での相関値、あるいは所定の物理特性に対して、各々異なる画像領域において求めた同一の上記コンテンツ特徴量間での相関、または異なる画像領域において異なる物理特性に関して求めた同一の上記コンテンツ特徴量間での相関を表し、例えば、同一の方向区分で異なる解像度に対して求めた空間周波数の間の相関値である解像度別固定方向空間周波数相関値、あるいは同一の解像度で異なる方向区分に対して求めた空間周波数間の相関値である方向別固定解像度空間周波数間の相関値、などを含む。
上記統計量演算式(モデル)は、同一のレコードに示された特徴量識別情報の各々のコンテンツ特徴量から、上記統計量を求めるために用いる演算式(あるいはモデル)である。
【0031】
また、相互相関は画像間の類似性を表すために用いられ、例えば画像におけるRGB(Red、Green、Blue)値における色成分Rの数値と色成分Gの数値との相互相関、色成分Rの数値と色成分Bの数値との相互相関及び色成分Gの数値と色成分Bの数値との相互相関の各々が、画像における色成分R及び色成分G、色成分R及び色成分B、色成分G及び色成分Bそれぞれの関係するコンテンツ統計量として用いることができる。ここで、RGB値の各々が画像のコンテンツ特徴量である。
【0032】
ここで、上記コンテンツ特徴量と上記コンテンツ統計量との各々の説明を補足する。
コンテンツ特徴量は、画素単位の情報あるいは当該画素の近傍の他の情報から求められる低次の画像特徴量(例えば、輝度、色度、コントラスト、勾配などの)である。
コンテンツ統計量は、所定の画像の物理特性に関して、所定の画像領域(画像の比較的広い領域や画像全体に至る広い領域)において、領域内の多数の画素に統計的操作(例えば、平均、分散、最大値、最小値、中央値、最頻値、ヒストグラム、偏り、スペクトル、密度、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング、オプティカルフローなどの)を適用することで得られる。
【0033】
上記画像の物理特性は、画像の各々をどのような物理特性で見るか(すなわち、物理特性により評価するか)を表しており、濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性などを含んでいる。また、画像の所定領域は、画像の所定の区分領域を示しており、周波数区分(画像をすでに述べた空間周波数毎に分類)、方向区分(すでに述べた方向別における画像の情報の分類)、色彩区分(すでに述べた画素の色成分による分類)等を含んでいる。
【0034】
図1に戻り、初期コンテンツ生成部104は、元コンテンツである元画像のピクセルの各々の色彩値を求め、この色彩値の最大値から最小値のいずれかをランダムに含む(色彩値のレンジも同様)、元画像と同一ピクセル数(縦×横)であり、かつ同様の色彩特徴を有する初期画像(ホワイトノイズ画像)を生成する。ここで、色彩特徴とは、輝度、色度の平均及び分散などの一般的な画像特徴である。
【0035】
また、コンテンツ特徴量算出部102は、すでに述べたように、元画像、初期画像及び生成画像(生成コンテンツ)の各々のコンテンツ特徴量を算出する。コンテンツ統計量算出部103は、すでに述べたように、元画像、初期画像及び生成画像(生成コンテンツ)の各々のコンテンツ統計量を算出する。
【0036】
座標距離算出部105は、異なる種類のコンテンツ統計量を示す軸からなるコンテンツ統計量空間における、元画像のコンテンツ統計量(元画像コンテンツ統計量)の座標値(元コンテンツ座標値)と、初期画像または生成画像のコンテンツ統計量(生成コンテンツ統計量)の座標値(生成コンテンツ座標値)との座標距離を算出する。
【0037】
座標距離判定部106は、上記座標距離と予め設定された閾値との比較を行い、座標距離がこの閾値以下か否かの判定を行う。このとき、座標距離判定部106は、座標距離がこの閾値以下である場合、元画像と生成画像とがユーザが同様の雰囲気及びテイストを感じる、すなわち生成画像が元画像と同様の雰囲気及びテイストを有すると判定する。一方、座標距離判定部106は、座標距離がこの閾値を超えている場合、元画像と生成画像とがユーザが同様の雰囲気及びテイストを感じない、すなわち生成画像が元画像と同様の雰囲気及びテイストを有していないと判定する。ここで、上記閾値は、複数の人間により、複数の元画像と、この元画像に対する生成画像との比較を行うことで、生成画像が元画像と同様の雰囲気及びテイストを有していることが判定できる数値に設定されている。
【0038】
ここで、上記距離は、例えば、ユークリッド距離あるいはコサイン距離などを用いる。また、距離が近いほど類似度が高いとしているが、画像全体あるいは一部の面積を占める領域内における画素値の相互情報量やエントロピーあるいは相互相関などを、元画像と初期画像及び生成画像の各々との間の類似性の尺度として採用する構成としても良い。このように、画像特徴量は、確率分布に読み替えることができ、確率分布としての距離がKL(Kullback Leibler)ダイバージェンスやより一般化されたI(一般化KL)ダイバージェンス距離としてに代表される分布距離となる。これらの分布距離を上記距離に置き換えて、類似度の判定を行う構成としても良い。
【0039】
相互情報量は、2つの画像(元画像と生成画像との2個)における相互の依存度合いを示し、例えば、元画像と生成画像との各々の画素値分布が全く無関係であり独立である場合に「0」となり、それぞれの画素値分布が等しくなる場合に最大となる。画素値は画像特徴量として用いられ、画素値分布がコンテンツ統計量として用いられる。このとき、画像特徴はをRGB値すなわち色成分R、G及びBの各々の画素値として選択すれば、(r,g,b)の3次元特徴で表される。そして、元画像と生成画像との画素値分布は全画素の(r,g,b)の分布を表している。すなわち、画像中において、画素値がどの程度の確率で出現するのかとすれば、画素値が確率変数に相当し、情報の問題に読み替えることができ、確率分布として考えることができる。
【0040】
また、エントロピーは、「画像における画素値が実際にどのような値を取るか」の曖昧さを示す尺度として示す。例えば、エントロピーが大きい画像は、この画像における画素値のバラツキが大きく、一方、エントロピーが小さい画像は、この画像における画素値のバラツキが小さい(単色画像が小さくなる)。エントロピーをHとすると、相互情報量において、元画像(X)と生成画像(Y)との依存度は、画像XのエントロピーH(X)と、画像Yの曖昧さを知った上での画像XのエントロピーH(X|Y)との差(H(X)-H(X|Y)=H(X;Y))として、エントロピー差H(X;Y)である分布距離が表される。
【0041】
生成画像変更部107は、生成画像におけるピクセルの情報(輝度値あるいは階調度など)をランダムに変更し、変更された生成画像を新たな生成画像として出力する。また、初期画像は、生成画像変更部107によりピクセルの情報を変更された後に、生成画像となる。
【0042】
コンテンツ出力部108は、座標距離判定部106が座標距離がこの閾値以下であるとした生成画像を、元画像と同様の雰囲気及びテイストを有する画像として出力する(例えば、図示しない表示手段の表示画面に表示する)。また、コンテンツ出力部108は、座標距離判定部106が座標距離がこの閾値以下であるとした生成画像を、生成画像識別情報を付与し、この生成画像識別情報と組として生成コンテンツ記憶部111に対して書き込んで記憶させる。
【0043】
コンテンツ特徴量データベース109は、特徴量識別情報と、特徴量名称及び特徴量演算式(モデル)の各々とが示されたコンテンツ特徴量テーブルが書き込まれて記憶されている。
コンテンツ統計量モデルデータベース110は、統計量識別情報と、統計量名称、特徴量識別情報及び統計量演算式(モデル)の各々とが示されたコンテンツ統計量テーブルが書き込まれて記憶されている。
生成コンテンツ記憶部111は、ハードディスクなどの記憶媒体であり、生成された生成画像の画像データが書き込まれて記憶される。
【0044】
図4は、本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ特徴量及びコンテンツ特徴量を求めるための演算式(モデル)がコンテンツ特徴量データベース109に書き込まれて記憶され、またコンテンツ統計量及びコンテンツ統計量を求めるための演算式(モデル)がコンテンツ統計量モデルデータベース110に書き込まれて記憶されていることを前提に説明する。
【0045】
ステップS10:
画像入力部101は、ユーザの操作により、新たな生成画像を生成する基となる元画像を、外部装置から入力して、初期コンテンツ生成部104及びコンテンツ特徴量算出部102の各々に対して出力する。
また、画像入力部101は、新たな生成画像を生成する際、ユーザが設定する座標距離を算出する際に用いるコンテンツ統計量(単数あるいは複数)を、コンテンツ統計量算出部103に対して出力する。
【0046】
ステップS11:
初期コンテンツ生成部104は、画像入力部101から供給される元画像のピクセルの各々から、色彩特徴(例えば、輝度値)を抽出する。そして、初期コンテンツ生成部104は、抽出した色彩特徴と同様の色彩特徴を有する初期画像(ホワイトノイズ画像)を生成する。また、初期コンテンツ生成部104は、生成した初期画像をコンテンツ特徴量算出部102に対して出力する。
【0047】
ステップS12:
コンテンツ統計量算出部103は、画像入力部101から供給されるコンテンツ統計量(単数あるいは複数)の統計量名称に基づき、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから検索する。そして、コンテンツ統計量算出部103は、検索された統計量名称に対応する特徴量識別情報を、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから読み出す。また、コンテンツ統計量算出部103は、コンテンツ統計量モデルテーブルから読み出した特徴量識別情報を、コンテンツ特徴量算出部102に対して出力する。
【0048】
ステップS13:
コンテンツ特徴量算出部102は、コンテンツ統計量算出部103から供給される特徴量識別情報を、コンテンツ特徴量データベース109のコンテンツ特徴量テーブルにおいて検索する。そして、コンテンツ特徴量算出部102は、特徴量識別情報に対応するコンテンツ特徴量を求めるための特徴量演算式(モデル)をコンテンツ特徴量テーブルから読み出す。
【0049】
ステップS14:
コンテンツ特徴量算出部102は、読み出したコンテンツ特徴量を求めるための特徴量演算式(モデル)を用い、元画像の画像データ及び生成画像(あるいは初期画像)の画像データの各々から、それぞれコンテンツ特徴量を算出する。そして、コンテンツ特徴量算出部102は、算出した元画像及び生成画像(あるいは初期画像)の各々のコンテンツ特徴量をコンテンツ統計量算出部103に対して出力する。
【0050】
ステップS15:
コンテンツ統計量算出部103は、画像入力部101から供給された統計量名称に基づき、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから検索する。また、コンテンツ統計量算出部103は、検索された統計量名称に対応する統計量演算式(モデル)を、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから読み出す。
そして、コンテンツ統計量算出部103は、コンテンツ特徴量算出部102から供給される元画像及び生成画像(あるいは初期画像)の各々のコンテンツ特徴量を用い、元画像、生成画像(あるいは初期画像)それぞれのコンテンツ統計量(単数あるいは複数)を算出する。
【0051】
ステップS16:
座標距離算出部105は、ユーザが設定したコンテンツ統計量(単数あるいは複数)を各々を軸とする統計量空間において、元画像のコンテンツ統計量の座標値と、生成画像(あるいは初期画像)のコンテンツ統計量の座標値との間の距離である座標距離を算出する(求める)。例えば、コンテンツ統計量が単数の場合、1次元統計量空間における元画像のコンテンツ統計量の座標値と、生成画像(あるいは初期画像)のコンテンツ統計量の座標値との間の距離が求められる。一方、コンテンツ統計量が複数(n≧2)の場合、n次元統計量空間における元画像のコンテンツ統計量のベクトルの示す座標値と、生成画像(あるいは初期画像)のコンテンツ統計量のベクトルの示す座標値との間の座標距離を求める。そして、座標距離算出部105は、求めた元画像及び生成画像(あるいは初期画像)のコンテンツ統計量の座標間の座標距離を、座標距離判定部106に対して出力する。
【0052】
ステップS17:
座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下か否かの判定を行う。このとき、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下の場合、処理をステップS18へ進める。一方、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値を超えている場合、処理をステップS19へ進める。
【0053】
ステップS18:
コンテンツ出力部108は、生成コンテンツ記憶部111に対し、生成された(座標距離が閾値以下となった)生成画像を、所定の画像フォーマットにより書き込んで記憶させる。
【0054】
ステップS19:
生成画像変更部107は、生成画像の各ピクセルの情報を調整し、生成画像のコンテンツ特徴量、コンテンツ統計量を変更する。そして、生成画像変更部107は、変更した生成画像をコンテンツ特徴量算出部102に出力し、処理をステップS14へ進める。これにより、変更された生成画像のコンテンツ特徴量、コンテンツ統計量が求められ、再度、原画像との座標距離の判定が行われる。
【0055】
本実施形態においては、生成画像を生成する際、元画像と生成画像との各々のコンテンツ総計量それぞれの座標値間の座標距離が所定の閾値以下となると、生成画像が元画像と同様の雰囲気及びテイストを有すると判定し、その時点の生成画像を最終的な生成画像としている。
しかしながら、生成画像変更部107による変更回数を規定しておき、この規定の回数となった際に生成画像の変更を終了し、変更されたなかで最も上記座標距離が小さい生成画像を、最終的な生成画像とする構成としても良い。
【0056】
本実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応する画像特徴量(コンテンツ特徴量)を、人間の視覚(知覚)系の神経機構の処理過程をモデル化して際の画像統計量(コンテンツ統計量)として数値化し、統計量空間における座標値として示し、元画像と生成画像(生成コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(生成コンテンツ)を生成することが可能となる。
【0057】
図5は、
図4に示すフローチャートにおける生成コンテンツの生成処理の概念図である。初期コンテンツ生成部104は、元画像から初期画像をホワイトノイズ画像として生成する。そして、生成画像変更部107は、座標距離判定部105が元画像及び生成画像(生成途中)の各々のコンテンツ統計量の座標距離が所定の閾値以下と判定するまで、生成画像におけるピクセルの変更を行う。コンテンツ出力部108は、座標距離判定部105が元画像及び生成画像(生成途中)の各々のコンテンツ統計量の座標距離が所定の閾値以下と判定した時点の生成画像(生成途中)を、生成画像(最終)として生成コンテンツ記憶部111に対して、所定の画像フォーマットにより書き込んで記憶させる。
【0058】
<第2の実施形態>
以下、本発明の第2の実施形態について、図面を参照して説明する。
図6は、本発明の第2の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
図6におけるコンテンツ生成装置100Aは、画像入力部101、コンテンツ特徴量算出部102、コンテンツ統計量算出部103、初期コンテンツ生成部104、座標距離算出部105、座標距離判定部106、生成画像変更部107、コンテンツ出力部108、コンテンツ特徴量データベース109、コンテンツ統計量モデルデータベース110、生成コンテンツ記憶部111、コンテンツ特徴量生成部112及びコンテンツ統計量生成部113の各々を備えている。第2の実施形態においては、第1の実施形態による
図1の構成と同様の構成については同一の符号を付している。
以下、本実施形態においては、コンテンツを静止画像として説明するが、第1の実施形態と同様に、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
【0059】
以下、第2の実施形態によるコンテンツ生成装置100Aに対して、第1の実施形態のコンテンツ生成装置100と異なる構成及び動作のみの説明を行う。
コンテンツ特徴量生成部112は、コンテンツ特徴量を出力するコンテンツ特徴量モデルを機械学習により生成する。すなわち、ユーザがニューラルネットワークなどの推定モデルに対して、入力層を形成して教師画像の画像データ(全てのピクセルの各々の情報量)を入力する。また、上記推定モデルに対して、ユーザは出力層を形成して教師画像の画像データを出力とする。この推定モデルとしてのニューラルネットは、例えば、入力層、中間層及び出力層の3層から構成されている。ここで、中間層は、入力層への入力数及び出力層から出力数よりも、少ない入力数及び出力数により構成する。
【0060】
これにより、コンテンツ特徴量生成部112は、複数の異なる教師データの各々の画像データを入力とし、それぞれの教師画像の画像データが出力される推定モデル(オートエンコーダ:自己符号化器)の学習を行う。すなわち、コンテンツ特徴量生成部112は、教師画像の画像データが入力された場合、入力された教師画像と同様な画像が出力される推定モデルを、機械学習により生成する。そして、コンテンツ特徴量生成部112は、推定モデルを構成する入力層及び中間層(出力層の前段の層)の各々を、推定コンテンツ特徴量モデルとして抽出する。コンテンツ特徴量生成部112は、推定コンテンツ特徴量モデルの出力を推定コンテンツ特徴量(推定画像特徴量)として用いる。
【0061】
コンテンツ統計量生成部113は、コンテンツ統計量を出力する推定コンテンツ統計量モデルを機械学習により生成する。すなわち、ユーザがニューラルネットワークなどの推定モデルに対して、入力層を形成して教師画像のコンテンツ特徴量(第1の実施形態で示したコンテンツ特徴量)のデータの組合わせを入力する。また、上記推定モデルに対して、ユーザは出力層を形成して教師画像のコンテンツ特徴量を出力とする。この推定モデルとしてのニューラルネットは、コンテンツ特徴量に対する推定コンテンツ特徴量モデルと同様に、例えば、入力層、中間層及び出力層の3層から構成されている。ここで、中間層は、入力層への入力数及び出力層から出力数よりも、少ない入力数及び出力数により構成する。
【0062】
これにより、コンテンツ統計量生成部113は、複数の異なる教師画像の各々のコンテンツ特徴量のデータを入力とし、それぞれの教師画像のコンテンツ特徴量が出力される推定モデルの学習を行う。すなわち、コンテンツ統計量生成部113は、教師画像の画像データが入力された場合、入力された教師画像のコンテンツ特徴量と同様なコンテンツ特徴量が出力される推定モデル(オートエンコーダ:自己符号化器)を、機械学習により生成する。そして、コンテンツ統計量生成部113は、推定モデルを構成する入力層及び中間層(出力層の前段の層)の各々を、推定コンテンツ統計量モデルとして抽出する。コンテンツ統計量生成部113は、推定コンテンツ統計量モデルの出力を推定コンテンツ統計量(推定画像統計量)として用いる。
【0063】
図7は、本実施形態によるコンテンツ生成装置におけるコンテンツ特徴量が行なう推定コンテンツ特徴量を生成する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、第1の実施形態におけるコンテンツ特徴量及びコンテンツ特徴量を求めるための演算式(モデル)がコンテンツ特徴量データベース109に書き込まれて記憶されており、それに加えて、推定コンテンツ特徴量及び推定コンテンツ特徴量モデルの各々を、それぞれコンテンツ特徴量、コンテンツ特徴量を求めるモデルとして書き込んで記憶させる処理を示す。ここで、第1の実施形態におけるコンテンツ特徴量及びコンテンツ特徴量の各々が、コンテンツ生成装置100Aの入力手段を用いてユーザにより入力される。
【0064】
ステップS20:
コンテンツ特徴量生成部112は、ユーザが入力する複数の教師画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの教師画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0065】
ステップS21:
コンテンツ特徴量生成部112は、上記教師画像の画像データの各ピクセルの情報を入力する入力層と、推定された推定画像の画像データのピクセルを出力する出力層の構成を設定する。そして、コンテンツ特徴量生成部112は、入力層から供給される画像データ及び出力層から出力される画像データに比較し、より少ないデータの入力数及び出力数を有する中間層を設定する。コンテンツ特徴量生成部112は、上記入力層、中間層及び出力層から構成されるニューラルネットの推定モデルを構成する。
【0066】
ステップS22:
コンテンツ特徴量生成部112は、上記推定モデルの入力層に対して、教師画像の画像データにおけるピクセルの情報を入力し、出力層から入力した教師画像の画像データと同様のピクセルの情報が出力されるように、中間層の機械学習を行う。コンテンツ特徴量生成部112は、上記機械学習の処理を、全ての教師画像の各々の画像データを用いて行い、それぞれの出力される画像データのピクセルの情報が、入力される教師画像の画像データのピクセルの情報と所定の範囲で類似した場合、その時点の推定モデルを元画像推定モデルとする。
【0067】
ステップS23:
コンテンツ特徴量生成部112は、学習により求めた元画像推定モデルにおける出力層を取り外し、入力層及び中間層からなる推定コンテンツ特徴量モデル(推定画像特徴量モデル)として抽出する。
【0068】
ステップS24:
コンテンツ特徴量生成部112は、中間層の出力である推定コンテンツ特徴量をコンテンツ特徴量とし、推定コンテンツ特徴量モデルをコンテンツ特徴量を出力するモデルとして、コンテンツ特徴量データベース109のコンテンツ特徴量テーブルに対して書き込んで記憶させる(登録する)。
【0069】
図8は、本実施形態によるコンテンツ生成装置におけるコンテンツ統計量生成部113が行なう推定コンテンツ統計量を生成する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、第1の実施形態におけるコンテンツ統計量及びコンテンツ統計量を求めるための演算式(モデル)がコンテンツ統計量モデルデータベース110に書き込まれて記憶されており、それに加えて、推定コンテンツ統計量及び推定コンテンツ統計量モデルの各々を、それぞれコンテンツ統計量、コンテンツ統計量を求めるモデルとして書き込んで記憶させる処理を示す。ここで、第1の実施形態におけるコンテンツ統計量及びコンテンツ統計量の各々を求めるための演算式(モデル)それぞれが、コンテンツ生成装置100Aの入力手段を用いてユーザにより入力される。
【0070】
ステップS30:
コンテンツ統計量生成部113は、ユーザが入力する複数の教師画像の各々からを、一旦、図示しない記憶部に書き込んで記憶する。これらの教師画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0071】
ステップS31:
ユーザは推定コンテンツ統計量モデルを生成する際に用いるコンテンツ特徴量(画像特徴量)の組合わせを、コンテンツ特徴量データベース109に書き込まれているコンテンツ特徴量から選択する。
そして、ユーザは、選択したコンテンツ特徴量の組合わせの各々を、コンテンツ生成装置100Aの入力手段を介して、コンテンツ統計量生成部113に対して入力する。
【0072】
ステップS32:
コンテンツ統計量生成部113は、コンテンツ特徴量算出部102に対して、教師画像の各々から、選択した組合わせにおけるコンテンツ特徴量の算出を行わせる。
コンテンツ特徴量算出部102は、教師画像の各々において、上記組合わせにおける種類のコンテンツ特徴量それぞれを求める。
【0073】
ステップS33:
コンテンツ統計量生成部113は、上記教師画像のコンテンツ特徴量のデータを入力する入力層と、推定されたコンテンツ特徴量のデータを出力する出力層の構成を設定する。そして、コンテンツ統計量生成部113は、入力層から供給される画像データ及び出力層から出力される画像データに比較し、より少ないデータの入力数及び出力数を有する中間層を設定する。コンテンツ統計量生成部113は、上記入力層、中間層及び出力層から構成されるニューラルネットの推定モデルを構成する。
【0074】
ステップS34:
コンテンツ統計量生成部113は、上記推定モデルの入力層に対して、教師画像の特徴量のデータを入力し、出力層から入力した教師画像の特徴量のデータと同様のデータが出力されるように、中間層の機械学習を行う。コンテンツ統計量生成部113は、上記機械学習の処理を、全ての教師画像の各々のコンテンツ特徴量の組合わせを用いて行い、それぞれの出力されるコンテンツ特徴量のデータが、入力される教師画像のコンテンツ特徴量のデータと所定の範囲で類似した場合、その時点の推定モデルを元画像推定モデルとする。
【0075】
ステップS35:
コンテンツ統計量生成部113は、学習により求めた元画像推定モデルにおける出力層を取り外し、入力層及び中間層からなる推定コンテンツ統計量モデル(推定画像統計量モデル)として抽出する。
【0076】
ステップS36:
コンテンツ統計量生成部113は、中間層の出力である推定コンテンツ統計量をコンテンツ統計量とし、推定コンテンツ統計量モデルをコンテンツ統計量を出力するモデルとして、コンテンツ統計量モデルデータベース110のコンテンツ特徴量テーブルに対して書き込んで記憶させる(登録する)。
【0077】
本実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応する画像特徴量(コンテンツ特徴量)を、人間の視覚(知覚)系の神経機構の処理過程をモデル化した際の画像統計量(コンテンツ統計量)として数値化し、統計量空間における座標値として示し、元画像と生成画像(生成コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(生成コンテンツ)を生成することが可能となる。
また、本実施形態においては、教師画像の画像データを入力するオートエンコーダ(3層のニューラルネットワーク)の中間層をコンテンツ特徴量として用いるため、より脳における神経機構の特徴抽出に対応したコンテンツ特徴量を得ることができ、鑑賞対象の元画像に対して、第1の実施形態に比較してより近い感覚を有する他のコンテンツ(生成コンテンツ)を生成することが可能となる。
【0078】
<第3の実施形態>
図9は、本発明の第3の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
図9におけるコンテンツ生成装置100Bは、画像入力部101、初期コンテンツ生成部104、座標距離算出部105、座標距離判定部106、生成画像変更部107、コンテンツ出力部108、生成コンテンツ記憶部111、深層学習画像モデル学習部114、深層学習画像モデル選択部115、深層学習統計量算出部116及び深層学習統計量モデルデータベース117の各々を備えている。第3の実施形態においては、第1の実施形態による
図1の構成と同様の構成については同一の符号を付している。
【0079】
以下、本実施形態においては、コンテンツを静止画像として説明するが、第1の実施形態と同様に、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
以下、第3の実施形態によるコンテンツ生成装置100Bに対して、第1の実施形態のコンテンツ生成装置100と異なる構成及び動作のみの説明を行う。深層ニューラルネットワークモデルは、深層学習統計量モデルデータベース117に予め書き込まれて記憶されている。
【0080】
深層学習画像モデル学習部114は、深層学習により深層学習画像モデルを生成する。
深層学習画像モデルの生成処理としては、以下の処理A1及び処理A2の2通りがある。
図10は、深層学習画像モデルの生成を行う処理A1の動作例を示すフローチャートである。この処理A1の場合、気にいった画像に対し、雰囲気が似ていると知覚する画像と似ていないと知覚する画像との各々を学習用画像と複数用意する。
ステップS40:
深層学習画像モデル学習部114は、ユーザが入力する複数の学習用画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの学習用画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0081】
ステップS41:
深層学習画像モデル学習部114は、中間層(プーリング層及び畳み込み層)が多層構造の深層ニューラルネットワークモデルに対し、上記学習用画像の画像データの各ピクセルの情報を入力する入力層と、正規化する全結合層である出力層とを設定する。この出力層は、「1」あるいは「0」との間の小数点の数値を出力する構成となっている。
【0082】
ステップS42:
深層学習画像モデル学習部114は、上記深層ニューラルネットワークモデルの入力層に対し、気にいった画像と雰囲気が似ていると知覚する画像を入力した場合、出力層から似ていることを示す「1」に近い数値が出力されるように、また気にいった画像と雰囲気が似ていないと知覚する画像を入力した場合、出力層から似ていることを示す「0」に近い数値が出力されるように、各ネットワークの層の重みパラメータの最適化処理を行う。すなわち、深層学習画像モデル学習部114は、深層ニューラルネットワークモデルに対し、クラス分類の機械学習を行い、学習結果として、深層学習画像モデルを生成する。
【0083】
このとき、深層学習画像モデル学習部114は、学習させた深層ニューラルネットワークモデルに対し、学習用画像とは異なる気にいった画像と雰囲気が似ていると知覚する画像と、雰囲気が似ていないと知覚する画像とを入力し、学習させた深層ニューラルネットワークモデルに対する学習テスト(クロス・バリデーション)を行う。
そして、深層学習画像モデル学習部114は、雰囲気が似ていると知覚する画像を深層ニューラルネットワークモデルに入力した際、出力層の出力する数値が予め設定した第1閾値以上となり、かつ雰囲気が似ていないと知覚する画像を深層ニューラルネットワークモデルに入力した際、出力層の出力する数値が予め設定した第2閾値以下となった場合、この深層ニューラルネットワークモデルを、気にいった画像に対する深層学習画像モデルとする。一方、深層学習画像モデル学習部114は、上記学習テストにおいて、雰囲気が似ていると知覚する画像に対して、深層ニューラルネットワークモデルの出力層の出力する数値が予め設定した第1閾値未満、あるいは雰囲気が似ていないと知覚する画像に対して、深層ニューラルネットワークモデルの出力層の出力する数値が予め設定した第2閾値以上である場合、深層ニューラルネットワークモデルの再学習を行う。
【0084】
ステップS43:
深層学習画像モデル学習部114は、生成した深層学習画像モデルから、多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、深層学習統計量(あるいは深層学習特徴量)それぞれとして抽出する。
【0085】
ステップS44:
深層学習画像モデル学習部114は、生成した深層学習画像モデルと、抽出した深層学習統計量(深層学習特徴量)とを深層学習統計量モデルデータベース117の深層学習統計量モデルテーブルに対して書き込んで記憶させる(登録処理)。
上記処理A1を気にいった画像毎に行い、それぞれに対応する深層学習画像モデルを生成する。
【0086】
図11は、深層学習画像モデルの生成を行う処理A2の動作例を示すフローチャートである。この処理A2の場合、処理A1において生成した深層学習画像モデルの転移学習を行い、別の深層学習画像モデル(他の気にいった画像に対応する深層学習画像モデル)を生成する。
ステップS50:
深層学習画像モデル学習部114は、ユーザが入力する複数の学習用画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの学習用画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0087】
ステップS51:
深層学習画像モデル学習部114は、中間層(プーリング層及び畳み込み層)が多層構造の深層ニューラルネットワークモデルに対して接続する、上記学習用画像の画像データの各ピクセルの情報を入力する入力層と、正規化する全結合層である出力層とを設定する。この出力層は、「1」あるいは「0」との間の小数点の数値を出力する構成となっている。
【0088】
ステップS52:
ユーザがコンテンツ生成装置100Bに対して、所定の入力手段(不図示)により、気にいった画像に対応する深層学習画像モデルを生成する際に、深層ニューラルネットワークモデルを用いて新たな深層学習画像モデルを生成するか、あるいは他の気にいった画像の深層学習画像モデルを用いた転移学習により新たな深層学習画像モデルを生成するかの制御を行う。例えば、ユーザは、学習用画像が多量に用意できる気にいった画像に対する深層学習画像モデルを生成する場合、深層ニューラルネットワークモデルを機械学習により学習させ生成する制御を行う。一方、ユーザは、学習用画像が多量に用意できない気にいった画像に対する深層学習画像モデルを生成する場合、すでに学習により求められた他の気にいった画像に対応する深層学習画像モデルを転移学習させることにより、深層学習画像モデルを生成する制御を行う。
【0089】
このとき、深層学習画像モデル学習部114は、ユーザが深層ニューラルネットワークモデルから、気にいった画像の深層学習画像モデルを新たに生成する処理を選択した場合、処理をステップS55へ進める。一方、深層学習画像モデル学習部114は、ユーザが他の気にいった画像の深層学習画像モデルに対して転移学習を行い、気にいった画像の深層学習画像モデルを生成する処理を選択した場合、処理をステップS53へ進める。
【0090】
ステップS53:
深層学習画像モデル学習部114は、すでに深層学習統計量モデルデータベース117に記憶されている深層学習画像モデルのなかから、所定の深層学習モデルを生成する。例えば、ユーザが深層学習画像モデルを生成する対象の気にいった画像に対し、似ていないと知覚する他の気にいった画像の深層学習画像モデルを指定し、深層学習画像モデル学習部114がこの深層学習画像モデルを転移学習に用いる深層学習画像モデルとして選択する。ここで、深層学習画像モデル学習部114は、転移学習に用いる深層学習画像モデルを、深層学習統計量モデルデータベース117から読み出す。
【0091】
ステップS54:
深層学習画像モデル学習部114は、転移学習に用いるため、読み出した深層学習画像モデルから、入力層からユーザが指定あるいは予め指定されている中間層(適合層)までを、転移学習モデルとして抽出する。
そして、深層学習画像モデル学習部114は、深層ニューラルネットワークモデルから、上記適合層以降の中間層を抽出し、上記転移学習モデルの適合層に接続し、かつ出力層を接続することにより、転移学習に用いる転移深層学習画像モデルを生成する。
【0092】
ステップS55:
深層学習画像モデル学習部114は、深層学習統計量モデルデータベース117に記憶されている深層ニューラルネットワークモデルから、所定の深層ニューラルネットワークモデルを選択して読み出す。
【0093】
ステップS56:
深層学習画像モデル学習部114は、学習対象モデル(上記転移深層学習画像モデルあるいは上記深層ニューラルネットワークモデル)の入力層に対し、気にいった画像と雰囲気が似ていると知覚する画像を入力した場合、出力層から似ていることを示す「1」に近い数値が出力されるように、また気にいった画像と雰囲気が似ていないと知覚する画像を入力した場合、出力層から似ていないことを示す「0」に近い数値が出力されるように、各ネットワークの層の重みパラメータの最適化処理を行う。すなわち、深層学習画像モデル学習部114は、学習対象モデルに対し、クラス分類の機械学習を行い、学習結果として、深層学習画像モデルを生成する。
【0094】
このとき、深層学習画像モデル学習部114は、作成した学習対象モデルに対し、学習用画像とは異なる気にいった画像と雰囲気が似ていると知覚する画像と、雰囲気が似ていないと知覚する画像とを入力し、学習させた学習対象モデルに対する学習テストを行う。
そして、深層学習画像モデル学習部114は、雰囲気が似ていると知覚する画像を学習対象モデルに入力した際、出力層の出力する数値が予め設定した第1閾値以上となり、かつ雰囲気が似ていないと知覚する画像を学習対象モデルに入力した際、出力層の出力する数値が予め設定した第2閾値以下となった場合、この学習対象モデルを、気にいった画像に対する深層学習画像モデルとする。一方、深層学習画像モデル学習部114は、上記学習テストにおいて、雰囲気が似ていると知覚する画像に対して学習対象モデルの出力層の出力する数値が予め設定した第1閾値未満、あるいは雰囲気が似ていないと知覚する画像に対して、学習対象モデルの出力層の出力する数値が予め設定した第2閾値以上である場合、学習対象モデルの再学習を行う。
【0095】
ステップS57:
深層学習画像モデル学習部114は、生成した深層学習画像モデルから、多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、深層学習統計量(あるいは深層学習特徴量)それぞれとして抽出する。
【0096】
ステップS58:
深層学習画像モデル学習部114は、生成した深層学習画像モデルと、抽出した深層学習統計量(深層学習特徴量)とを深層学習統計量モデルデータベース117の深層学習統計量モデルテーブルに対して書き込んで記憶させる(登録処理)。
上記処理A2を気にいった画像毎に行い、それぞれに対応する深層学習画像モデルを生成する。
【0097】
図12は、本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ統計量(あるいはコンテンツ特徴量)を求めるための演算式として深層学習画像モデルが深層学習統計量モデルデータベース117に書き込まれて記憶されていることを前提に説明する。
【0098】
ステップS60:
画像入力部101は、ユーザの操作により、新たな生成画像を生成する基となる元画像(気にいった画像)を、外部装置から入力して、初期コンテンツ生成部104及び深層学習統計量算出部116の各々に対して出力する。
【0099】
ステップS61:
初期コンテンツ生成部104は、画像入力部101から供給される元画像のピクセルの各々から、色彩特徴(例えば、輝度値)を抽出する。そして、初期コンテンツ生成部104は、抽出した色彩特徴と同様の色彩特徴を有する初期画像(ホワイトノイズ画像)を生成する。また、初期コンテンツ生成部104は、生成した初期画像を深層学習統計量算出部116に対して出力する。
【0100】
ステップS62:
深層学習画像モデル選択部113は、元画像である気にいった画像に対応する深層学習画像モデルを、深層学習統計量モデルデータベース117に記憶されている深層学習画像モデルのなかから選択する。
そして、深層学習画像モデル選択部113は、選択した深層学習画像モデルを、深層学習統計量モデルデータベース117から読み出し、深層学習統計量算出部116に対して出力する。
【0101】
ステップS63:
深層学習統計量算出部116は、深層学習画像モデル選択部115から供給される深層学習画像モデルにより、元画像及び生成画像(あるいは初期画像)の各々の深層学習統計量(すなわち、コンテンツ統計量)を算出する。
すなわち、深層学習統計量算出部116は、深層学習画像モデルの入力層に対して、元画像における各ピクセルの画素値を入力する。そして、深層学習統計量算出部116は、深層学習画像モデルの多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、元画像の深層学習統計量として抽出する。
【0102】
また、同様に、深層学習統計量算出部116は、深層学習画像モデルの入力層に対して、生成画像(あるいは初期画像)における各ピクセルの画素値を入力する。そして、深層学習統計量算出部116は、深層学習画像モデルの多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、生成画像(あるいは初期画像)の深層学習統計量として抽出する。
【0103】
ステップS64:
座標距離算出部105は、深層学習統計量算出部116が求めるコンテンツ統計量(単数あるいは複数)を各々を軸とする統計量空間において、元画像のコンテンツ統計量である深層学習統計量の座標値と、生成画像(あるいは初期画像)のコンテンツ統計量である深層学習統計量の座標値との間の距離である座標距離を算出する。例えば、コンテンツ統計量が単数の場合、1次元統計量空間における元画像のコンテンツ統計量の座標値と、生成画像(あるいは初期画像)のコンテンツ統計量の座標値との間の距離が求められる。一方、コンテンツ統計量が複数(n≧2)の場合、n次元統計量空間における元画像のコンテンツ統計量のベクトルの示す座標値と、生成画像(あるいは初期画像)のコンテンツ統計量のベクトルの示す座標値との間の座標距離を求める。そして、座標距離算出部105は、求めた元画像及び生成画像(あるいは初期画像)のコンテンツ統計量の座標間の座標距離を、座標距離判定部106に対して出力する。
【0104】
ステップS65:
座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下か否かの判定を行う。このとき、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下の場合、処理をステップS66へ進める。一方、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値を超えている場合、処理をステップS67へ進める。
【0105】
ステップS66:
コンテンツ出力部108は、生成コンテンツ記憶部111に対し、生成された(座標距離が閾値以下となった)生成画像を、所定の画像フォーマットにより書き込んで記憶させる。
【0106】
ステップS67:
生成画像変更部107は、生成画像の各ピクセルの情報を調整し、生成画像のコンテンツ特徴量、コンテンツ統計量を変更する。そして、生成画像変更部107は、変更した生成画像を深層学習統計量算出部116に出力し、処理をステップS63へ進める。これにより、変更された生成画像のコンテンツ統計量が求められ、再度、原画像との座標距離の判定が行われる。
【0107】
本実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応させ、人間の視覚(知覚)系の神経機構の処理過程を、深層ニューラルネットワークモデルを深層学習させて生成した深層学習画像モデルを用い、画像統計量(コンテンツ統計量)として数値化し、統計量空間における座標値として示し、元画像と生成画像(生成コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(生成コンテンツ)を生成 することが可能となる。
また、本実施形態においては、学習用画像の画像データを入力して、クラス分類した結果を得る深層ニューラルネットワークモデルを用いて深層学習画像モデルを生成し、この深層学習モデルの中間層をコンテンツ統計量(あるいはコンテンツ特徴量)としているため、より脳における神経機構の特徴抽出に対応したコンテンツ特徴量を得ることができ、鑑賞対象の元画像に対して、第1の実施形態に比較してより近い感覚を有する他のコンテンツ(生成コンテンツ)を生成することが可能となる。
【0108】
<第4の実施形態>
図13は、本発明の第4の実施形態によるコンテンツ生成装置の構成例を示すブロック図である。
図13におけるコンテンツ生成装置100Cは、画像入力部101、コンテンツ特徴量算出部102、コンテンツ統計量算出部103、初期コンテンツ生成部104、座標距離算出部105、座標距離判定部106、生成画像変更部107、コンテンツ出力部108、コンテンツ特徴量データベース109、コンテンツ統計量モデルデータベース110、生成コンテンツ記憶部111及び複合コンテンツ統計量計算部118の各々を備えている。第4の実施形態においては、第1の実施形態による
図1の構成と同様の構成については同一の符号を付している。
【0109】
以下、第4の実施形態について、第1の実施形態と異なる構成及び動作のみを説明する。第4の実施形態には、第1の実施形態と異なる構成として、複合コンテンツ統計量計算部118が備えられている。第4の実施形態においては、元画像のコンテンツ統計量の一部を、元画像に対して異なる雰囲気及びテイストを有する参照画像のコンテンツ統計量と置換し、元画像及び参照画像の各々のコンテンツ統計量を複合した複合コンテンツ統計量を求め、この複合コンテンツ統計量と生成画像(あるいは初期画像)との座標距離を求めて、元画像と参照画像との2つの気にいった画像の特徴を合わせ持つ生成画像を生成する。これにより、本実施形態によるコンテンツ生成装置100Cは、元画像及び参照画像の各々の雰囲気及びテイストを合わせ持つ(すなわち、元画像及び参照画像の各々の雰囲気及びテイストそれぞれが複合された)生成画像を生成する。
【0110】
コンテンツ特徴量算出部102は、元画像、生成画像(あるいは初期画像)及び参照画像の各々のコンテンツ特徴量を、所定の特徴量演算式(モデル)により求める。
コンテンツ統計量算出部103は、元画像、生成画像(あるいは初期画像)及び参照画像の各々のコンテンツ特徴量から、所定の特徴量演算式(モデル)により、それぞれのコンテンツ統計量を求める。
複合コンテンツ統計量計算部118は、元画像の複数有るコンテンツ統計量の一部を参照画像のコンテンツ統計量と置き換え、複合コンテンツ統計量を生成する。この際、複合コンテンツ統計量計算部118は、参照画像のコンテンツ統計量に所定の係数を乗じて、参照画像の係数倍のコンテンツ統計量を、元画像のコンテンツ統計量と置き換える構成としても良い。この場合、乗ずる係数に応じて、元画像に似た雰囲気を知覚し、かつ参照画像の特徴をより強く知覚する生成画像が最終的に生成される。
【0111】
図14は、本実施形態によるコンテンツ生成装置が行なう、元画像と同様の雰囲気及びテイストを有する生成画像を生成する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ特徴量及びコンテンツ特徴量を求めるための演算式(モデル)がコンテンツ特徴量データベース109に書き込まれて記憶され、またコンテンツ統計量及びコンテンツ統計量を求めるための演算式(モデル)がコンテンツ統計量モデルデータベース110に書き込まれて記憶されていることを前提に説明する。
【0112】
ステップS70:
画像入力部101は、ユーザの操作により、新たな生成画像を生成する基となる元画像と、元画像に対して異なる雰囲気及びテイストを加えるために用いる参照画像との各々を、外部装置から入力して、初期コンテンツ生成部104及びコンテンツ特徴量算出部102の各々に対して出力する。
また、画像入力部101は、新たな生成画像を生成する際、ユーザが設定する座標距離を算出する際に用いるコンテンツ統計量(単数あるいは複数)を、コンテンツ統計量算出部103に対して出力する。
【0113】
ステップS71:
初期コンテンツ生成部104は、画像入力部101から供給される元画像のピクセルの各々から、色彩特徴(例えば、輝度値)を抽出する。そして、初期コンテンツ生成部104は、抽出した色彩特徴と同様の色彩特徴を有する初期画像(ホワイトノイズ画像)を生成する。また、初期コンテンツ生成部104は、生成した初期画像をコンテンツ特徴量算出部102に対して出力する。
【0114】
ステップS72:
コンテンツ統計量算出部103は、画像入力部101から供給されるコンテンツ統計量(単数あるいは複数)の統計量名称に基づき、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから検索する。そして、コンテンツ統計量算出部103は、検索された統計量名称に対応する特徴量識別情報を、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから読み出す。また、コンテンツ統計量算出部103は、コンテンツ統計量モデルテーブルから読み出した特徴量識別情報を、コンテンツ特徴量算出部102に対して出力する。
【0115】
ステップS73:
コンテンツ特徴量算出部102は、コンテンツ統計量算出部103から供給される特徴量識別情報を、コンテンツ特徴量データベース109のコンテンツ特徴量テーブルにおいて検索する。そして、コンテンツ特徴量算出部102は、特徴量識別情報に対応するコンテンツ特徴量を求めるための特徴量演算式(モデル)をコンテンツ特徴量テーブルから読み出す。
【0116】
ステップS74:
複合コンテンツ統計量計算部118は、ユーザに予め指定された、あるいはユーザが選択したコンテンツ統計量(単数または複数)を、元画像のコンテンツ統計量において、参照画像のコンテンツ統計量と置換する置換コンテンツ統計量とする。
【0117】
ステップS75:
コンテンツ特徴量算出部102は、読み出したコンテンツ特徴量を求めるための特徴量演算式(モデル)を用い、元画像の画像データ、参照画像の画像データ及び生成画像(あるいは初期画像)の画像データの各々から、それぞれコンテンツ特徴量を算出する。そして、コンテンツ特徴量算出部102は、算出した元画像、参照画像及び生成画像(あるいは初期画像)の各々のコンテンツ特徴量をコンテンツ統計量算出部103に対して出力する。
【0118】
ステップS76:
コンテンツ統計量算出部103は、画像入力部101から供給された統計量名称に基づき、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから検索する。また、コンテンツ統計量算出部103は、検索された統計量名称に対応する統計量演算式(モデル)を、コンテンツ統計量モデルデータベース110のコンテンツ統計量モデルテーブルから読み出す。
そして、コンテンツ統計量算出部103は、コンテンツ特徴量算出部102から供給される元画像、参照画像及び生成画像(あるいは初期画像)の各々のコンテンツ特徴量を用い、元画像、参照画像、生成画像(あるいは初期画像)それぞれのコンテンツ統計量(複数)を算出する。
【0119】
ステップS77:
複合コンテンツ統計量計算部118は、元画像のコンテンツ統計量(複数)における、すでに設定されている置換コンテンツ統計量の種類に対応するコンテンツ統計量の各々を、参照画像の置換コンテンツ統計量の種類に対応するコンテンツ統計量それぞれに置き換える置換処理を行う。
【0120】
ステップS78:
座標距離算出部105は、ユーザが設定したコンテンツ統計量(複数)を各々を軸とする統計量空間において、元画像のコンテンツ統計量(置換コンテンツ統計量が参照画像のコンテンツ統計量に置き換えられたコンテンツ統計量)の座標値と、生成画像(あるいは初期画像)のコンテンツ統計量の座標値との間の距離である座標距離を算出する。例えば、コンテンツ統計量が複数(n≧2)の場合、n次元統計量空間における元画像のコンテンツ統計量のベクトルの示す座標値と、生成画像(あるいは初期画像)のコンテンツ統計量のベクトルの示す座標値との間の座標距離を求める。そして、座標距離算出部105は、求めた元画像及び生成画像(あるいは初期画像)のコンテンツ統計量の座標間の座標距離を、座標距離判定部106に対して出力する。
【0121】
ステップS79:
座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下か否かの判定を行う。このとき、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値以下の場合、処理をステップS80へ進める。一方、座標距離判定部106は、座標距離算出部105から供給された上記座標距離が、予め設定された閾値を超えている場合、処理をステップS81へ進める。
【0122】
ステップS80:
コンテンツ出力部108は、生成コンテンツ記憶部111に対し、生成された(座標距離が閾値以下となった)生成画像を、所定の画像フォーマットにより書き込んで記憶させる。
【0123】
ステップS81:
生成画像変更部107は、生成画像の各ピクセルの情報を調整し、生成画像のコンテンツ特徴量、コンテンツ統計量を変更する。そして、生成画像変更部107は、変更した生成画像をコンテンツ特徴量算出部102に出力し、処理をステップSS75へ進める。これにより、変更された生成画像のコンテンツ特徴量、コンテンツ統計量が求められ、再度、原画像との座標距離の判定が行われる。
【0124】
本実施形態においては、第1の実施形態と同様に、生成画像を生成する際、元画像と生成画像との各々のコンテンツ統計量それぞれの座標値間の座標距離が所定の閾値以下となると、生成画像が元画像と同様の雰囲気及びテイストを有すると判定し、その時点の生成画像を最終的な生成画像としている。
しかしながら、生成画像変更部107による変更回数を規定しておき、この規定の回数となった際に生成画像の変更を終了し、変更されたなかで最も上記座標距離が小さい生成画像を、最終的な生成画像とする構成としても良い。
【0125】
本実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応する画像特徴量(コンテンツ特徴量)を、人間の視覚(知覚)系の神経機構の処理過程をモデル化して際の画像統計量(コンテンツ統計量)として数値化し、画像統計量を統計量空間における座標値として示し、元画像と生成画像(生成コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができるため、生成画像から元画像の雰囲気やテイストに加え、元画像と異なる雰囲気やテイストが知覚できるように、元画像と雰囲気やテイストが異なる参照画像を用い、元画像のコンテンツ統計量の一部を、参照画像における同一の種類のコンテンツ統計量と置換することにより、鑑賞対象の元画像と同様な感覚を有し、かつ参照画像から受ける感覚も有する他のコンテンツ(生成コンテンツ)を生成することが可能となる。
【0126】
図15は、
図14に示すフローチャートにおける生成コンテンツの生成処理の概念図である。初期コンテンツ生成部104は、元画像から初期画像をホワイトノイズ画像として生成する。そして、座標距離算出部106は、元画像のコンテンツ統計量の一部を参照画像のコンテンツ統計量と置換したコンテンツ統計量と、生成画像(初期画像)のコンテンツ統計量との座標距離を求める。そして、生成画像変更部107は、座標距離判定部106が元画像のコンテンツ統計量の座標と、生成画像(生成途中)のコンテンツ統計量との座標との座標距離が所定の閾値以下と判定されるまで、生成画像におけるピクセルの変更を行う。コンテンツ出力部108は、座標距離判定部105が元画像及び生成画像(生成途中)の各々のコンテンツ統計量の座標距離が所定の閾値以下と判定した時点の生成画像(生成途中)を、生成画像(最終)として生成コンテンツ記憶部111に対して、所定の画像フォーマットにより書き込んで記憶させる。
【0127】
図15において、元画像700に対し、参照画像801、参照画像802、参照画像803、参照画像804及び参照画像805を用いている。
生成画像701は、元画像700のコンテンツ統計量の一部を、参照画像801のコンテンツ統計量の同一種類のコンテンツ統計量と置換したコンテンツ統計量に基づき、コンテンツ生成装置100Cにより生成した画像を示している。生成画像701が、元画像700及び参照画像801の雰囲気及びテイストを兼ね備えていることが確認できる。
生成画像702は、元画像700のコンテンツ統計量の一部を、参照画像802のコンテンツ統計量の同一種類のコンテンツ統計量と置換したコンテンツ統計量に基づき、コンテンツ生成装置100Cにより生成した画像を示している。生成画像702が、元画像700及び参照画像802の雰囲気及びテイストを兼ね備えていることが確認できる。
【0128】
生成画像703は、元画像700のコンテンツ統計量の一部を、参照画像803のコンテンツ統計量の同一種類のコンテンツ統計量と置換したコンテンツ統計量に基づき、コンテンツ生成装置100Cにより生成した画像を示している。生成画像703が、元画像700及び参照画像803の雰囲気及びテイストを兼ね備えていることが確認できる。
生成画像704は、元画像700のコンテンツ統計量の一部を、参照画像804のコンテンツ統計量の同一種類のコンテンツ統計量と置換したコンテンツ統計量に基づき、コンテンツ生成装置100Cにより生成した画像を示している。生成画像704が、元画像700及び参照画像804の雰囲気及びテイストを兼ね備えていることが確認できる。
生成画像705は、元画像700のコンテンツ統計量の一部を、参照画像805のコンテンツ統計量の同一種類のコンテンツ統計量と置換したコンテンツ統計量に基づき、コンテンツ生成装置100Cにより生成した画像を示している。生成画像705が、元画像700及び参照画像805の雰囲気及びテイストを兼ね備えていることが確認できる。
【0129】
なお、本発明における
図1のコンテンツ生成装置100、
図6のコンテンツ生成装置100A、
図9のコンテンツ生成装置100B及び
図13のコンテンツ生成装置10Cの各々機能を実現するためのプログラムそれぞれをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することにより、元画像の雰囲気及びテイストを有する生成画像を生成する生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OS(Operating System)や周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWW(World Wide Web)システムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD-ROM(Compact Disc - Read Only Memory)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM(Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
【0130】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0131】
100,100A,100B,100C…コンテンツ生成装置
101…画像入力部
102…コンテンツ特徴量算出部
103…コンテンツ統計量算出部
104…初期コンテンツ生成部
105…座標距離算出部
106…座標距離判定部
107…生成画像変更部
108…コンテンツ出力部
109…コンテンツ特徴量データベース
110…コンテンツ統計量モデルデータベース
111…生成コンテンツ記憶部
112…コンテンツ特徴量生成部
113…コンテンツ統計量生成部
114…深層学習画像モデル学習部
115…深層学習画像モデル選択部
116…深層学習統計量算出部
117…深層学習統計量モデルデータベース
118…複合コンテンツ統計量計算部