(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-23
(45)【発行日】2022-05-31
(54)【発明の名称】コンテンツ分類装置、コンテンツ分類方法、及びプログラム
(51)【国際特許分類】
G06F 16/55 20190101AFI20220524BHJP
G06T 7/00 20170101ALI20220524BHJP
【FI】
G06F16/55
G06T7/00 350C
(21)【出願番号】P 2018004552
(22)【出願日】2018-01-15
【審査請求日】2020-12-21
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】凸版印刷株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】小林 裕一
【審査官】鹿野 博嗣
(56)【参考文献】
【文献】特開2000-285141(JP,A)
【文献】特開2011-221606(JP,A)
【文献】特開2011-221605(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/55
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
分類対象
とする画像である対象コンテンツ群から、分類の基準
とする画像である元コンテンツと同様の雰囲気及びテイストを有する対象コンテンツを分類するコンテンツ分類装置であって、
画像における特性、スケール、及び当該特性に応じた区分を指定した際に定まる各領域の中でとり得る互いに異なる二つの領域の組合せについて、当該二つの領域の間の関係性を示す関係性量を、画像について人に知覚される雰囲気及びテイストを数値化したコンテンツ雰囲気量とし、前記元コンテンツと、前記対象コンテンツとの各々について
前記コンテンツ雰囲気量を算出するコンテンツ雰囲気量算出部と、
前記元コンテンツの前記コンテンツ雰囲気量の座標値と、前記対象コンテンツの前記コンテンツ雰囲気量の座標値との間における距離を算出する距離算出部と、
前記距離に基づいて、前記対象コンテンツを分類するコンテンツ分類部と
を備えることを特徴とするコンテンツ分類装置。
【請求項2】
前記コンテンツ雰囲気量算出部は、互いに異なる複数の特性を前記特性とし、当該特性、スケール、及び互いに異なる複数の特性に応じた区分を指定した際に定まる各領域の中でとり得る互いに異なる二つの領域の組合せについて前記関係性量を算出し、互いに異なる複数の特性のそれぞれの組合せに対応する前記関係性量を前記コンテンツ雰囲気量として算出する、
請求項1に記載のコンテンツ分類装置。
【請求項3】
前記コンテンツ雰囲気量算出部は、前記二つの領域の間の関係性として、単純相関、シフト相関、相互相関のうち少なくともいずれか一つを算出する
ことを特徴とする請求項2に記載のコンテンツ分類装置。
【請求項4】
前記元コンテンツと、前記対象コンテンツとの各々のコンテンツ特徴量に対応する複数の種類の演算式が記憶されたコンテンツ特徴量記憶部と、
前記コンテンツ特徴量の統計量であるコンテンツ統計量に対応する複数の種類の演算式が記憶されたコンテンツ統計量記憶部とをさらに備え、
前記コンテンツ雰囲気量算出部が、
前記コンテンツ特徴量を、当該コンテンツ特徴量に対応する演算式により、前記元コンテンツ及び前記対象コンテンツの各々から求めるコンテンツ特徴量算出部と、
前記コンテンツ特徴量算出部により算出された前記コンテンツ特徴量を用い、前記コンテンツ統計量を、当該コンテンツ統計量に対応する演算式により、前記元コンテンツ及び前記対象コンテンツごとに求めるコンテンツ統計量算出部と、
を有し、
前記コンテンツ雰囲気量算出部が、
前記コンテンツ統計量算出部により算出された前記コンテンツ統計量を用いて、前記元コンテンツ及び前記対象コンテンツそれぞれに対する前記コンテンツ雰囲気量を、当該関係性に対応する演算式により算出する
ことを特徴とする請求項2又は請求項3に記載のコンテンツ分類装置。
【請求項5】
前記コンテンツ特徴量が、前記画像の画素情報から求められる画像特徴量で、少なくとも前記画像の濃淡、輝度、色度、コントラスト、勾配、エッジ、オプティカルフローを含む画像特徴量である
ことを特徴とする請求項4に記載のコンテンツ分類装置。
【請求項6】
前記コンテンツ統計量が、画像における、所定の物理特性の、所定の領域において求めた前記コンテンツ特徴量に対して、ある統計的操作を適用することで得られる統計量であり、前記物理特性は、少なくとも濃度特性、階調特性、色彩特性、空間周波数特性、解像度特
性を含み、前記領域は、少なくとも空間周波数区分、方向区分、色彩区分を含み、前記統計的操作は、少なくとも平均、分散、ヒストグラム、パワースペクトルを含む
ことを特徴とする請求項5に記載のコンテンツ分類装置。
【請求項7】
前記距離が、ユークリッド距離、コサイン距離、ハミング距離、マンハッタン距離、カルバック・ライプラー距離のうちのいずれかである
ことを特徴とする請求項5又は請求項6に記載のコンテンツ分類装置。
【請求項8】
前記コンテンツ分類部が、前記距離が予め設定された閾値以下となった場合、当該距離に対応する前記対象コンテンツを、前記元コンテンツと同様の雰囲気及びテイストを有する画像であると分類する
ことを特徴とする請求項1から請求項7のいずれか一項に記載のコンテンツ分類装置。
【請求項9】
前記コンテンツ分類部が、前記距離が小さい順に、当該距離に対応する前記対象コンテンツを、前記元コンテンツと同様の雰囲気及びテイストを有する画像であると分類する
ことを特徴とする請求項1から請求項7のいずれか一項に記載のコンテンツ分類装置。
【請求項10】
前記コンテンツ特徴量算出部が、複数の学習用画像を入力及び出力として学習させたオートエンコーダの中間層の出力として前記コンテンツ特徴量を求め、
前記コンテンツ統計量算出部が、当該コンテンツ特徴量を入力及び出力として学習させたオートエンコーダの中間層の出力として前記コンテンツ統計量を求める
ことを特徴とする請求項4に記載のコンテンツ分類装置。
【請求項11】
前記コンテンツ雰囲気量算出部が、複数の学習用画像のピクセルの画素値を用い、多段の中間層を有するニューラルネットワークを深層学習させて分類した深層学習画像モデルにより、または他の深層学習画像モデルの中間層を使用した転移学習により分類した深層学習画像モデルにより、前記コンテンツ雰囲気量を求める
ことを特徴とする請求項1に記載のコンテンツ分類装置。
【請求項12】
分類対象
とする画像である対象コンテンツ群から、分類の基準
とする画像である元コンテンツと同様の雰囲気及びテイストを有する対象コンテンツを分類するコンテンツ分類方法であって、
コンテンツ雰囲気量算出部が、
画像における特性、スケール、及び当該特性に応じた区分を指定した際に定まる各領域の中でとり得る互いに異なる二つの領域の組合せについて、当該二つの領域の間の関係性を示す関係性量を、画像について人に知覚される雰囲気及びテイストを数値化したコンテンツ雰囲気量とし、前記元コンテンツと、前記対象コンテンツとの各々について
前記コンテンツ雰囲気量を算出するコンテンツ雰囲気量算出工程と、
距離算出部が、前記コンテンツ雰囲気量算出部により算出された元コンテンツの前コンテンツ記雰囲気量の座標値と、前記対象コンテンツの前記コンテンツ雰囲気量の座標値との間における距離を算出する距離算出工程と、
コンテンツ分類部が、前記距離に基づいて、前記対象コンテンツを分類するコンテンツ分類工程と
を有することを特徴とするコンテンツ分類方法。
【請求項13】
コンピュータを、
請求項1から請求項11のいずれか一項に記載のコンテンツ分類装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、画像や音響等のコンテンツに対して人が認識する雰囲気やテイストを数値化するコンテンツ分類装置、コンテンツ分類方法、及びプログラムに関する。
【背景技術】
【0002】
一般に、人間が鑑賞対象に対して感じる雰囲気や、テイスト(味わい)などの感覚は、鑑賞対象物自体の特性や、人が対象物を視認する状況などと高い相関を示す傾向がある。
例えば、前記感覚と、鑑賞対象物自体の特性としての視覚的特徴量(画像であれば画像特徴量、映像であれば映像特徴量)に対する統計的な関係を示す統計量(平均値や分散値など)とが強い相関関係を有することが知られている(例えば、非特許文献1)。
また、前記感覚と、鑑賞対象物自体の特性としての聴覚的特徴量(音響であれば音響特徴量、音声であれば音声特徴量)に対する統計量とが強い相関関係を有することが知られている(例えば、非特許文献2)。
また、画像特徴量として画像の表現方法の一つであるGIST画像特徴量に対する統計的な関係を示す統計量により画像間の相関関係を取得する方法が知られている(例えば、非特許文献3)。
【0003】
また、日常生活において、人は対象に対して感じる雰囲気に基づいて、その雰囲気に合った、或いはその雰囲気と同じような別の対象を探す場合がある。例えば、お気に入りのシャツに合わせるパンツを新たに入手しようとする場合、そのシャツと同じような雰囲気を有するパンツを入手したいと考える場合があり得る。
このような場合に、インターネットにおけるウェブページ(Web Page)等を用いて、様々なシャツとパンツとを組合せた画像を参照し、雰囲気やテイストが同じような画像を自動で抽出させるのは困難である。その理由としては、お気に入りのシャツと似た画像を抽出させるには、ウェブページの画像について、そのシャツの画像特徴と類似した特徴を有するか否かを判断させればよいが、画像特徴が類似することが、同じ雰囲気と人に感じさせる要素を有することになるとは限らないためである。つまり、雰囲気及びテイストが同じであるか否かは、多分に個人の主観、或いは感覚によるものであるため、客観的に定量化することが難しく、具体的な物理量や特徴量に置き換えることが困難である。このため、専門家による知識や経験に基づいて、所望の雰囲気を持つ服の組合せ(コーディネイト)が提案されているのが実情である。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】JAVIER PORTILLA and EERO P. SIMONCELLI,“A Parametric Texture Model Based on Joint Statistics of Complex Wavelet Coefficients.” International Journal of Computer Vision, Vol.40, issue-1, pp.49-71, 2000.
【文献】Josh H.McDermott and Eero P.Simoncelli,“Sound Texture perception via statistics of the auditory periphery:Evidence from sound synthesis.” Neuron, Vol.71, issue-5, pp.926-940 2011, September 8.
【文献】AUDE OLIVA, ANTONIO TORRALBA, “Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope,” International Journal of Computer Vision, Vol.42, issue-3, pp.145-175, 2001.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明は、このような状況に鑑みてなされたもので、その目的は、鑑賞対象のコンテンツに対して人間が抱く雰囲気やテイストなどの感覚を数値化することにより、分類対象である画像群に含まれる各画像について、この鑑賞対象と同様な雰囲気やテイストなどを有するかを分類することができるコンテンツ分類装置、コンテンツ分類方法、及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上述した課題を解決するために、本発明の一態様であるコンテンツ分類装置は、分類対象とする画像である対象コンテンツ群から、分類の基準とする画像である元コンテンツと同様の雰囲気及びテイストを有する対象コンテンツを分類するコンテンツ分類装置であって、画像における特性、スケール、及び当該特性に応じた区分を指定した際に定まる各領域の中でとり得る互いに異なる二つの領域の組合せについて、当該二つの領域の間の関係性を示す関係性量を、画像について人に知覚される雰囲気及びテイストを数値化したコンテンツ雰囲気量とし、前記元コンテンツと、前記対象コンテンツとの各々について前記コンテンツ雰囲気量を算出するコンテンツ雰囲気量算出部と、前記元コンテンツの前記コンテンツ雰囲気量の座標値と、前記対象コンテンツの前記コンテンツ雰囲気量の座標値との間における距離を算出する距離算出部と、前記距離に基づいて、前記対象コンテンツを分類するコンテンツ分類部とを備えることを特徴とする。
【0008】
また、本発明の一態様であるコンテンツ分類方法は、分類対象とする画像である対象コンテンツ群から、分類の基準とする画像である元コンテンツと同様の雰囲気及びテイストを有する対象コンテンツを分類するコンテンツ分類方法であって、コンテンツ雰囲気量算出部が、画像における特性、スケール、及び当該特性に応じた区分を指定した際に定まる各領域の中でとり得る互いに異なる二つの領域の組合せについて、当該二つの領域の間の関係性を示す関係性量を、画像について人に知覚される雰囲気及びテイストを数値化したコンテンツ雰囲気量とし、前記元コンテンツと、前記対象コンテンツとの各々について前記コンテンツ雰囲気量を算出するコンテンツ雰囲気量算出工程と、距離算出部が、前記コンテンツ雰囲気量算出部により算出された元コンテンツの前記コンテンツ雰囲気量の座標値と、前記対象コンテンツの前記コンテンツ雰囲気量の座標値との間における距離を算出する距離算出工程と、コンテンツ分類部が、前記距離に基づいて、前記対象コンテンツを分類するコンテンツ分類工程とを有することを特徴とする。
【0009】
また、本発明の一態様であるプログラムは、コンピュータを、上記コンテンツ分類装置として機能させるためのプログラムである。
【発明の効果】
【0010】
以上説明したように、本発明によれば、コンテンツに対し、人が認識する雰囲気やテイストといった感覚を数値化して示すことにより、分類対象コンテンツを、元コンテンツと同様な雰囲気やテイストを有するかを分類することができる。
【図面の簡単な説明】
【0011】
【
図1】本発明の第1の実施形態のコンテンツ分類装置1の構成例を示すブロック図である。
【
図2】コンテンツ特徴量データベース16におけるコンテンツ特徴量テーブルの構成例を示す図である。
【
図3】コンテンツ統計量モデルデータベース17におけるコンテンツ統計量テーブルの構成例を示す図である。
【
図4】本発明の第1の実施形態のコンテンツ分類装置1が行う処理の動作例を示すフローチャートである。
【
図5】本発明の第1の実施形態のコンテンツ分類装置1が行う処理の効果を説明する図である。
【
図6】本発明の第2の実施形態のコンテンツ分類装置1Aの構成例を示すブロック図である。
【
図7】本発明の第2の実施形態のコンテンツ分類装置1Aが行う処理の動作例を示すフローチャートである。
【
図8】本発明の第2の実施形態によるコンテンツ特徴量生成部110Aが行なう推定コンテンツ特徴量を生成する処理の動作例を示すフローチャートである。
【
図9】本発明の第2の実施形態によるコンテンツ統計量生成部111Aが行なう推定コンテンツ統計量を生成する処理の動作例を示すフローチャートである。
【
図10】本発明の第3の実施形態によるコンテンツ生成装置1Bの構成例を示すブロック図である。
【
図11】深層学習画像モデルの生成を行う処理A1の動作例を示すフローチャートである。
【
図12】深層学習画像モデルの生成を行う処理A2の動作例を示すフローチャートである。
【
図13】本発明の第3の実施形態によるコンテンツ生成装置1Bが行なう処理の動作例を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下、実施形態のコンテンツ分類装置、コンテンツ分類方法、及びプログラムを、図面を参照して説明する。
【0013】
<第1の実施形態>
まず、第1の実施形態について説明する。
図1は、本発明の第1の実施形態によるコンテンツ分類装置1の構成例を示すブロック図である。
図1におけるコンテンツ分類装置1は、コンテンツ選択部10、コンテンツ雰囲気量算出部11、座標距離算出部12、コンテンツ分類部13、コンテンツ出力部14、コンテンツデータベース15、コンテンツ特徴量データベース16、コンテンツ統計量モデルデータベース17及び分類コンテンツ記憶部18の各々を備えている。また、コンテンツ雰囲気量算出部11は、コンテンツ特徴量算出部110、及びコンテンツ統計量算出部111を備える。以下、本実施形態においては、コンテンツを静止画像として説明するが、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
【0014】
コンテンツ選択部10は、ユーザが気にいった雰囲気及びテイストを有する元画像を、外部装置、コンテンツデータベース15、あるいは図示しない入力手段(スキャナーなど)から画像データとして入力する。コンテンツ選択部10は、入力された元画像の画像データを、コンテンツ雰囲気量算出部11に対して出力する。
また、コンテンツ選択部10は、例えば、元画像の雰囲気及びテイストを有するかという観点から分類しようとする画像群(分類対象画像群)を選択する。例えば、コンテンツ選択部10は、コンテンツデータベース15から分類対象画像群を選択する。または、コンテンツ選択部10は、外部装置あるいはスキャナーなど(不図示)から入力された画像群を、分類対象画像群として選択してもよい。コンテンツ選択部10は、選択した分類対象画像群の画像データをコンテンツ雰囲気量算出部11に対して出力する。
【0015】
コンテンツ雰囲気量算出部11は、コンテンツ特徴量算出部110と、コンテンツ統計量算出部111とを備える。
コンテンツ雰囲気量算出部11は、元画像および分類対象画像群に含まれる各々の画像(分類対象画像)の物理特性(例えば、濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性など)のうち、特に雰囲気及びテイストという概念で人に知覚される傾向にある特徴をどの程度有しているか(特徴量)を統計的に算出し、算出した統計的な特徴量(統計量)について、ある画像と別の画像との間で比較してその関係性を算出することで、雰囲気がどの程度互いに類似しているかを示す指標であるコンテンツ雰囲気量を算出する。
【0016】
コンテンツ特徴量算出部110は、元画像、及び分類対象画像群に含まれる分類対象画像の物理特性(例えば、濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性など)のうち、特に雰囲気及びテイストという概念で人に知覚される傾向にある特徴量(知覚特徴量)に基づいて、元画像、および分類対象画像の各々のコンテンツ特徴量を算出する。
【0017】
コンテンツ統計量算出部111は、コンテンツ特徴量算出部110により算出されたコンテンツ特徴量から、画像の所定の物理特性の、所定の領域における知覚特徴に対して、統計的操作を適用することで得られる統計量(知覚統計量)に基づいて、元画像、および分類対象画像の各々のコンテンツ統計量を算出する。
【0018】
コンテンツ雰囲気量算出部11は、コンテンツ統計量から、ある領域のコンテンツ統計量と他の領域のコンテンツ統計量との間の関係性を定量的に示すコンテンツ関係性量を算出する。例えば、ある画像の互いに異なる領域におけるコンテンツ統計量のコンテンツ関係性量と、別の画像の互いに異なる領域におけるコンテンツ統計量のコンテンツ関係性量と、の間の距離が近い場合、ある画像における所定の領域と、別の画像における所定の領域との雰囲気が互いに類似することになる。
【0019】
さらに詳しく説明する。
コンテンツ特徴量算出部110は、元画像、及び分類対象画像のコンテンツ特徴量を算出する。ここで、コンテンツ特徴量は、物理特性(例えば、濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性など)のうち、特に雰囲気及びテイストという概念で人に知覚される傾向にある特徴量(知覚特徴量)である。コンテンツ特徴量(知覚特徴量)は、例えば、画像の視知覚特徴を示す、輝度、色度、コントラスト、勾配、エッジ、オプティカルフロー等である。
【0020】
コンテンツ特徴量算出部110は、例えば、画像における物理特性である濃度(画像の濃淡)特性に対して、画像におけるコントラストや勾配を人が雰囲気及びテイストとして知覚する傾向にあることから、その濃淡の強度を、コンテンツ特徴量(知覚特徴量)として算出する。また、コンテンツ特徴量算出部110は、例えば、画像における物理特性である色彩特性に対して、人が画像の輝度や色度を知覚しやすい傾向にあることから、画像における画素値の輝度及び色度を、コンテンツ特徴量(知覚特徴量)として算出する。
【0021】
コンテンツ特徴量算出部110は、コンテンツ特徴量(知覚特徴量)を、コンテンツ特徴量データベース16のコンテンツ特徴量テーブルから抽出する。また、コンテンツ特徴量算出部110は、選択したコンテンツ特徴量の各々の算出に用いる演算式を、コンテンツ特徴量データベース16のコンテンツ特徴量テーブルから読み出す。そして、コンテンツ特徴量算出部110は、読み出した演算式により、元画像、及び分類対象画像の各々の画像から上記コンテンツ特徴量を算出する。
【0022】
コンテンツ統計量算出部111は、コンテンツ特徴量算出部110により算出されたコンテンツ特徴量からコンテンツ統計量(知覚統計量)を算出する。コンテンツ統計量は、画像の所定の物理特性の、所定の領域における知覚特徴に対して、統計的操作を適用することで得られる統計量(知覚統計量)であり、画像における所定の領域の、知覚的な特徴の性質を示す指標となる量である。コンテンツ統計量(知覚統計量)は、例えば、方向別および解像度別の各視知覚特徴量の分布、それらの分布のエンベロープ、ヒストグラム形状特性、或は平均、分散、ヒストグラム、パワースペクトル等である。
【0023】
コンテンツ統計量算出部111は、例えば、画像を分割した各領域における濃淡の強度から、その各領域の中でとり得る互いに異なる二つの領域の組合せについて、当該二つの領域における濃淡の強度の相関度合を、コンテンツ統計量(知覚統計量)として算出する。コンテンツ統計量算出部111は、例えば、画像を分割した各領域における画素値(輝度や、色度)から各領域間における画素値の相関度合を、コンテンツ統計量(知覚統計量)として算出する。
【0024】
コンテンツ統計量算出部111は、コンテンツ統計量(知覚統計量)を、コンテンツ統計量モデルデータベース17のコンテンツ統計量テーブルから抽出する。また、コンテンツ統計量算出部111は、抽出されたコンテンツ統計量の各々の算出に用いる演算式を、コンテンツ統計量モデルデータベース17のコンテンツ統計量モデルテーブルから読み出す。そして、コンテンツ統計量算出部111は、読み出した演算式により、コンテンツ特徴量算出部110が求めたコンテンツ特徴量から上記コンテンツ統計量を算出する。
【0025】
コンテンツ雰囲気量算出部11は、画像に対する所定の特性における所定の領域のコンテンツ統計量、および画像に対する所定のスケール(解像度レベル)における所定の領域のコンテンツ統計量の各々がとり得る二つの領域の組合せの、全ての組合せ各々について、当該二つの領域の間の関係性を算出する。ここで、スケールとは画像の解像度である。また、画像に対して、その画像の解像度を増減させることをスケーリングという。例えば、画像の解像度を、現状の解像度の2(=21)倍の細かさに増加させる場合には2を基数とするレベル1のスケールアップ、4(=22)倍に増加させる場合にはレベル2のスケールアップ、・・・という。逆に、画像の解像度を、現状の解像度の2分の1に減少させる場合は、2を基数とするレベル1のスケールダウン、4分の1に減少させる場合はレベル2のスケールダウンという。このように、画像の画素の細かさの度合いを画像の元々の解像度を基準にして表したものをスケール(解像度レベル)という。
コンテンツ雰囲気量算出部11は、算出した関係性の各々を要素とするベクトルをコンテンツ雰囲気量として表す。
コンテンツ雰囲気量は、二つの領域の間の関係性を示す指標であり、例えば、単純相関、シフト相関、または相互相関等である。
【0026】
座標距離算出部12は、コンテンツ雰囲気量として表されたベクトル空間における、元画像のコンテンツ雰囲気量(元コンテンツ雰囲気量)の座標値(元コンテンツ座標値)と、分類対象画像のコンテンツ雰囲気量(対象コンテンツ雰囲気量)の座標値(対象コンテンツ座標値)との座標距離を算出する。
【0027】
ここで、上記距離は、例えば、単純な距離比較方法(ユークリッド距離、コサイン距離、ハミング距離、マンハッタン距離等)などを用いる。また、距離が近いほど類似度が高いとしているが、画像全体あるいは一部の面積を占める領域内における画素値の相互情報量やエントロピーあるいは相互相関などを、元画像と初期画像及び分類対象画像の各々との間の類似性の尺度として採用する構成としても良い。すなわち、コンテンツ特徴分布の距離を比較する方法(エントロピー、相互情報量、相互相関等)を用いてもよい。
【0028】
ここで、相互情報量は、2つの画像(元画像と分類対象画像の2つ)における相互の依存度合いを示し、例えば、元画像と分類対象画像との各々の画素値分布が全く無関係であり独立である場合に「0」となり、それぞれの画素値分布が等しくなる場合に最大となる。画素値は画像特徴量として用いられ、画素値分布がコンテンツ統計量として用いられる。このとき、画像特徴をRGB値すなわち色成分R、G及びBの各々の画素値として選択すれば、(r,g,b)の3次元特徴で表される。そして、元画像と分類対象画像との画素値分布は全画素の(r,g,b)の分布を表している。すなわち、画像中において、画素値がどの程度の確率で出現するのかとすれば、画素値が確率変数に相当し、情報の問題に読み替えることができ、確率分布として考えることができる。
【0029】
また、エントロピーは、「画像における画素値が実際にどのような値を取るか」の曖昧さを示す尺度として示す。例えば、エントロピーが大きい画像は、この画像における画素値のバラツキが大きく、一方、エントロピーが小さい画像は、この画像における画素値のバラツキが小さい(単色画像が小さくなる)。エントロピーをHとすると、相互情報量において、元画像(X)と分類対象画像(Y)との依存度は、画像XのエントロピーH(X)と、画像Yの曖昧さを知った上での画像XのエントロピーH(X|Y)との差(H(X)-H(X|Y)=H(X;Y))として、エントロピー差H(X;Y)である分布距離が表される。
【0030】
また、画像特徴量は、確率分布に読み替えることができ、確率分布としての距離がKL(カルバック・ライプラー距離)ダイバージェンスやより一般化されたI(一般化KL)ダイバージェンス距離に代表される分布距離となる。これらの分布距離を上記距離に置き換えて、類似度の判定を行う構成としても良い。また、一般的な統計的分類方法(K-means法、Ward法等の階層的クラスタリング法等)、乃至機械学習による方法(Support Vector Machine法、Random Forest法、Boosting法、Neural Network法、Deep Neural Network法等)により、元画像と分類対象画像とのコンテンツ統計量の類似度を上記距離に置き換えても良い。
【0031】
コンテンツ分類部13は、上記座標距離に基づいて、分類対象画像を元画像と同様の雰囲気及びテイストを有するかという観点で分類する。コンテンツ分類部13は、例えば、座標距離を昇順にソートし、座標距離の最も小さい分類対象画像から順に元画像と同様の雰囲気等を有する画像であると分類する。この場合において、コンテンツ分類部13は、上記座標距離と予め設定された閾値との比較を行い、座標距離がこの閾値以下である場合、元画像と分類対象画像とがユーザが同様の雰囲気及びテイストを感じる、すなわち分類対象画像が元画像と同様の雰囲気及びテイストを有すると分類するようにしてもよい。一方、コンテンツ分類部13は、座標距離がこの閾値を超えている場合、元画像と分類対象画像とがユーザに同様の雰囲気及びテイストを感じさせない、すなわち分類対象画像が元画像と同様の雰囲気及びテイストを有していないと分類する。ここで、上記閾値は、例えば複数の人間により、複数の元画像と、この元画像に対する分類対象画像との比較を行うことで、分類対象画像が元画像と同様の雰囲気及びテイストを有していることが判定できる数値に設定されている。
【0032】
コンテンツ出力部14は、コンテンツ分類部13により元画像と同様の雰囲気及びテイストを有する画像として分類された画像を出力する(例えば、図示しない表示手段の表示画面に表示する)。また、コンテンツ出力部14は、コンテンツ分類部13により元画像と同様の雰囲気及びテイストを有する画像として分類された画像を、分類画像識別情報を付与し、この分類画像識別情報と組として分類コンテンツ記憶部18に対して書き込んで記憶させる。
【0033】
コンテンツデータベース15は、画像群識別情報と、画像群名称及び画像データとが示されたコンテンツ群テーブルが書き込まれて記憶されている。
コンテンツ特徴量データベース16は、特徴量識別情報と、特徴量名称及び特徴量演算式(モデル)の各々とが示されたコンテンツ特徴量テーブルが書き込まれて記憶されている。
コンテンツ統計量モデルデータベース17は、統計量識別情報と、統計量名称、特徴量識別情報及び統計量演算式(モデル)の各々とが示されたコンテンツ統計量テーブルが書き込まれて記憶されている。
分類コンテンツ記憶部18は、ハードディスクなどの記憶媒体であり、分類された分類対象画像の分類画像識別情報と、座標距離に対応付けた画像データが書き込まれて記憶される。
【0034】
図2は、コンテンツ特徴量データベース16におけるコンテンツ特徴量テーブルの構成例を示す図である。
図2のコンテンツ特徴量テーブルは、レコード毎に、特徴量識別情報に対応して、特徴量名称及び特徴量演算式(モデル)の各々の欄を有している。特徴量識別情報は、コンテンツ特徴量の各々を識別する識別情報である。特徴量名称は、コンテンツ特徴量の各々の名称を示し、例えば、画像の濃淡、輝度及び色度と、それらのコントラスト、勾配、エッジ、オプティカルフローなどである。また、画像特徴量は、上述した種類のみではなく、画像認識分野にて提案された他の特徴を用いても良い。特徴量演算式(モデル)は、画像(の各々のピクセルの画素値)から、上記特徴量を求めるために用いる演算式(あるいはモデル)である。
【0035】
図3は、コンテンツ統計量モデルデータベース17におけるコンテンツ統計量テーブルの構成例を示す図である。
図3のコンテンツ統計量テーブルは、レコード毎に、統計量識別情報に対応して、統計量名称、統計量演算式(モデル)の各々の欄を有している。統計量識別情報は、コンテンツ統計量の各々を識別する識別情報である。統計名称は、コンテンツ統計量の各々の名称を示し、例えば、平均、分散、ヒストグラム、歪度、尖度、最大値、最小値、中央値、最頻値、偏り、密度、スペクトル、エネルギースペクトル、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング等を含む。上記統計量演算式(モデル)は、同一のレコードに示された特徴量識別情報の各々のコンテンツ特徴量から、上記統計量を求めるために用いる演算式(あるいはモデル)である。
【0036】
ここで、上記コンテンツ特徴量と上記コンテンツ統計量との各々の説明を補足する。コンテンツ特徴量は、画素単位の情報あるいは当該画素の近傍の他の情報から求められる低次の画像特徴量(例えば、輝度、色度、コントラスト、勾配などの)である。
コンテンツ統計量は、所定の画像の物理特性に関して、所定の画像領域(画像の比較的広い領域や画像全体に至る広い領域)において、領域内の多数の画素に統計的操作(例えば、平均、分散、最大値、最小値、中央値、最頻値、ヒストグラム、偏り、密度、スペクトル、エネルギースペクトル、確率分布、回帰分析、主成分分析、独立成分分析、クラスタリング等を適用することで得られる。
【0037】
また、上記コンテンツ雰囲気量は、例えば、所定の画像領域に対して、各々異なる物理特性に関して求めた同一の上記コンテンツ統計量の間での相関ベクトル、あるいは所定の物理特性に対して、各々異なる画像領域において求めた同一の上記コンテンツ統計量間での相関ベクトル、または異なる画像領域において異なる物理特性に関して求めた同一の上記コンテンツ統計量間での相関ベクトルを表し、例えば、同一の方向区分で異なる解像度に対して求めた空間周波数の間の相関である解像度別固定方向空間周波数相関ベクトル、あるいは同一の解像度で異なる方向区分に対して求めた空間周波数間の相関である方向別固定解像度空間周波数間の相関ベクトル、などを含む。
【0038】
また、相互相関は画像間の類似性を表すために用いられ、例えば画像におけるRGB(Red、Green、Blue)値における色成分Rの数値と色成分Gの数値との相互相関、色成分Rの数値と色成分Bの数値との相互相関及び色成分Gの数値と色成分Bの数値との相互相関の各々が、画像における色成分R及び色成分G、色成分R及び色成分B、色成分G及び色成分Bそれぞれの関係するコンテンツ統計量として用いることができる。ここで、RGB値の各々が画像のコンテンツ特徴量である。
【0039】
上記画像の物理特性は、画像の各々をどのような物理特性で見るか(すなわち、物理特性により評価するか)を表しており、濃度特性、階調特性、色彩特性、空間周波数特性、解像度特性などを含んでいる。また、画像の所定領域は、画像の所定の区分領域を示しており、周波数区分(画像をすでに述べた空間周波数毎に分類)、方向区分(すでに述べた方向別における画像の情報の分類)、色彩区分(すでに述べた画素の色成分による分類)等を含んでいる。
ここで、周波数区分について補足する。一般的なフーリエ変換を用いて、画像から空間周波数算出した場合、画像全体における周波数と強度との対応関係を示す空間周波数特性が算出される。このようにして算出された空間周波数特性について周波数区分ごとに分割しても、画像の位置情報と空間周波数特性との関係を得ることができない。このため、本実施形態では、ウェーブレット変換等の位置情報を保持する周波数変換方法を用いて、画像から空間周波数空間を算出する。そして、画像の位置に基づいて分画した各分画画像における空間周波数特性に基づいて、空間周波数成分毎の統計量(例えば、相関などの統計量)を算出する。これにより、分画した画像同士が、空間周波数特性の観点から強い相関を有しているか否か等を認識することが可能となる。
【0040】
ここで、物理特性α1、スケール(解像度レベル)β1で求められた画像(特性画像)Iα1
β1と、物理特性α2、スケールβ2で求められた特性画像Iα2
β2との間の相関ベクトルを、コンテンツ統計量として算出する例について説明する。
【0041】
まず、特性画像Iα1
β1と特性画像Iα2
β2とは、それぞれN個に分割される。ただし、Nは任意の自然数である。特性画像Iα1
β1と特性画像Iα2
β2とは、例えば、方向区分として、画像の中心から、角度(360°/N)毎に放射状に伸ばした境界線により分画されることにより、N個に分割される。ここで、特性画像が画像における濃淡の強度特性を示す強度画像である場合には、その強度画像が分割される。また、特性画像が画像における色度特性を示す色度画像である場合には、画素値(R、G、B)の各成分、(R-G、Y-B)の各成分、或いは(L*、a*、b*)の各成分が示された色度画像が分割される。また、特性画像が空間周波数特性を示す画像である場合には、特性画像の元の画像が分割され、分割された各々の画像に対して、画像横方向の空間周波数、及び画像縦方向の空間周波数が示された空間周波数平面が生成される。或いは、特性画像の各々は、配置区分として、画像平面上を升目状にN個に分割されてもよい。この場合、特性画像は、例えば画像横方向にn1個、縦方向にn2個に等分画される。ただし、n1、n2の各々は、n1×n2=Nの関係をみたす自然数である。
【0042】
次に、特性画像Iα1
β1をN個に分画した各区分に対して、特性画像Iα2
β2をN個に分画した各区分との間の相関値が算出される。相関値は、例えば、以下の式(1)で示される。ここで、VPstat1は相関値、α1は特性画像I1の特性、β1は特性画像I1のスケール、α2は特性画像I2の特性、β2は特性画像I2のスケール、Nは特性画像I1、I2の区分数、S1は特性画像I1の一つの区分、S2は特性画像I2の一つの区分、νk
1は区分S1内の各画素値、νk
2は区分S2内の各画素値、wは特性画像の幅(横)方向の画素数、hは特性画像の高さ(縦)方向の画素数をそれぞれ示す。
【0043】
【0044】
式(1)に示される相関値が、特性画像Iα1
β1のN個の区分それぞれに対する、特性画像Iα2
β2のN個の区分との組み合わせ全てについて算出される。また相関値は、特性毎、スケール毎に算出される。つまり、特性数をNα、スケール数をNβとして、(Nα×Nβ×N)2個の相関値が算出され、結局、コンテンツ統計量(知覚統計量)としての相関値は、以下の式(2)に示すような、(Nα×Nβ×N)2次元のベクトルとなる。
【0045】
【0046】
あるいは、特性画像Iα1
β1をN個に分画した各区分に対して、特性画像Iα2
β2をN個に分画した各区分との間の関係について、以下の式(3)に示されるシフト相関値が算出されてもよい。ここで、VPstat3はシフト相関値、α1は特性画像I1の特性、β1は特性画像I1のスケール、α2は特性画像I2の特性、β2は特性画像I2のスケール、Nは特性画像I1、I2の区分数、S1は特性画像I1の一つの区分、S2は特性画像I2の一つの区分、mはシフト数、νk
1は区分S1内の各画素値、νk
2は区分S2内の各画素値、wは特性画像の幅(横)方向の画素数、hは特性画像の高さ(縦)方向の画素数をそれぞれ示す。
【0047】
【0048】
式(3)に示すシフト相関に基づくコンテンツ雰囲気量としての相関ベクトルは、シフト数mが取り得る値(0からN-1まで)に対応する相関値、つまり、N個の相関値が算出される。結局、コンテンツ統計量(知覚統計量)としてのシフト相関ベクトルは、(Nα×Nβ×N)2×N次元のベクトルとなる。
【0049】
また、特性画像Iα1
β1をN個に分画した各区分におけるコンテンツ特徴量(知覚特徴量)としての「強度」は、一つの要素が、以下の式(4)で示される(Nα×Nβ×N)次元のベクトルとなる。ここで、VPstat4はエネルギー、α1は特性画像I1の特性、β1は特性画像I1のスケール、Nは特性画像I1の区分数、S1は特性画像I1の一つの区分、νk
1は区分S1内の各画素値、wは特性画像の幅(横)方向の画素数、hは特性画像の高さ(縦)方向の画素数をそれぞれ示す。
【0050】
【0051】
式(4)のエネルギーに対応するコンテンツ統計量(知覚統計量)としての「エネルギー」は、一つの要素が、以下の式(5)に示される(Nα×Nβ×N)2次元のベクトルとなる。ここで、VPstat5はエネルギー相関、α1は特性画像I1の特性、β1は特性画像I1のスケール、α2は特性画像I2の特性、β2は特性画像I2のスケール、Nは特性画像I1、I2の区分数、S1は特性画像I1の一つの区分、S2は特性画像I2の一つの区分、νk
1は区分S1内の各画素値、νk
2は区分S2内の各画素値、wは特性画像の幅(横)方向の画素数、hは特性画像の高さ(縦)方向の画素数をそれぞれ示す。
【0052】
【0053】
図4は、本実施形態によるコンテンツ分類装置1が行なう分類対象画像群から元画像と同様の雰囲気及びテイストを有する画像を分類する処理(以下、単に分類処理という)の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ特徴量及びコンテンツ特徴量を求めるための演算式(モデル)がコンテンツ特徴量データベース16に書き込まれて記憶され、またコンテンツ統計量及びコンテンツ統計量を求めるための演算式(モデル)がコンテンツ統計量モデルデータベース17に書き込まれて記憶されていることを前提に説明する。
【0054】
ステップS10:
コンテンツ選択部10は、ユーザの操作により外部装置から入力された、画像を分類する際の基準となる元画像を、コンテンツ特徴量算出部110に対して出力する。
【0055】
ステップS11:
コンテンツ選択部10は、コンテンツデータベース15から、分類対象画像群を抽出する。そして、コンテンツ選択部10は、抽出した対象選択画像群のうちの一つの画像を分類対象画像としてコンテンツ特徴量算出部110に対して出力する。なお、コンテンツ選択部10は、外部メモリ、または通信ネットワークを介してユーザの操作により入力された画像群を、分類対象画像群として選択してもよい。
【0056】
ステップS12:
コンテンツ特徴量算出部110は、分類処理に用いる画像特徴量の種類を選択する。コンテンツ特徴量算出部110は、例えば、ユーザの操作により指定された画像特徴量の種類に対応する特徴量識別情報を、コンテンツ特徴量データベース16のコンテンツ特徴量テーブルにおいて検索する。そして、コンテンツ特徴量算出部110は、特徴量識別情報に対応するコンテンツ特徴量を求めるための特徴量演算式(モデル)をコンテンツ特徴量テーブルから読み出す。
【0057】
ステップS13:
コンテンツ統計量算出部111は、分類処理に用いる画像統計量の種類を選択する。コンテンツ統計量算出部111は、例えば、ユーザの操作により指定された画像統計量の種類に対応する、コンテンツ統計量モデルデータベース17のコンテンツ統計量モデルテーブルに記憶された統計量名称を選択する。コンテンツ統計量算出部111は、選択した統計量名称に対応する特徴量識別情報を、コンテンツ統計量モデルデータベース17のコンテンツ統計量モデルテーブルから読み出す。なお、ここでユーザにより指定されるコンテンツ統計量の種類は一つであってもよいし複数であってもよい。
【0058】
ステップS14:
コンテンツ特徴量算出部110は、読み出したコンテンツ特徴量を求めるための特徴量演算式(モデル)を用い、元画像の画像データ及び分類対象画像の画像データの各々から、それぞれコンテンツ特徴量を算出する。そして、コンテンツ特徴量算出部110は、算出した元画像及び分類対象画像の各々のコンテンツ特徴量をコンテンツ統計量算出部111に対して出力する。
【0059】
ステップS15:
コンテンツ統計量算出部111は、コンテンツ特徴量算出部110から供給される元画像及び分類対象画像の各々のコンテンツ特徴量を用い、元画像、分類対象画像それぞれのコンテンツ統計量を算出する。
【0060】
ステップS16:
コンテンツ雰囲気量算出部11は、元画像および分類対象画像の各々について、領域毎にとり得る二つの領域の組合せの、全ての組合せについて、当該二つの領域におけるコンテンツ統計量の間の関係性(例えば、相関値)を算出し、算出した関係性コンテンツ統計量の各々を要素とするベクトルをコンテンツ雰囲気量として構成する。
【0061】
ステップS17:
座標距離算出部12は、ユーザが設定したコンテンツ雰囲気量を軸とする雰囲気量空間において、元画像のコンテンツ雰囲気量の座標値と、分類対象画像のコンテンツ雰囲気量の座標値との間の距離である座標距離を算出する(求める)。例えば、コンテンツ雰囲気量が単数の場合、1次元雰囲気量空間における元画像のコンテンツ統計量の座標値と、分類対象画像のコンテンツ雰囲気量の座標値との間の距離が求められる。一方、コンテンツ統計量が複数(n≧2)次元のベクトルの場合、n次元雰囲気量空間における元画像のコンテンツ雰囲気量のベクトルの示す座標値と、分類対象画像のコンテンツ雰囲気量のベクトルの示す座標値との間の座標距離を求める。そして、座標距離算出部12は、求めた元画像及び分類対象画像のコンテンツ雰囲気量の座標間の座標距離を、コンテンツ分類部13に対して出力する。
【0062】
ステップS18:
コンテンツ分類部13は、分類対象画像群に含まれる画像全てについて、上記座標距離が算出されたか否かの判定を行う。このとき、座標距離判定部106は、分類対象画像群に含まれる画像全てについて上記座標距離が算出されている場合、処理をステップS18へ進める。一方、座標距離判定部106は、分類対象画像群に含まれる画像全てについて上記座標距離が算出されていない場合、処理をステップS19へ進める。
【0063】
ステップS19:
コンテンツ分類部13は、分類対象画像群に含まれる画像を、上記座標距離に基づいて分類する。コンテンツ分類部13は、分類対象画像群に含まれる画像全てについて、各画像に対応する上記座標距離の小さい順から大きい順に昇順にソートする。コンテンツ分類部13は、上記座標距離が最も小さい画像が最も元画像と同様の雰囲気及びテイストを有する画像として分類する。コンテンツ分類部13は、上記座標距離が大きくなるに従い、元画像と同様の雰囲気及びテイストを有しない画像として分類する。
また、コンテンツ出力部14は、分類コンテンツ記憶部18に対し、分類対象画像を分類した結果を、所定の画像フォーマットにより書き込んで記憶させる。
【0064】
ステップS20:
コンテンツ選択部10は、対象選択画像群に含まれる画像のうち、まだ分類していない画像を分類対象画像としてコンテンツ特徴量算出部110に対して出力する。そして、コンテンツ選択部10は、処理をステップS14へ進める。これにより、分類対象画像のコンテンツ特徴量、コンテンツ統計量、およびコンテンツ雰囲気量が求められ、再度、元画像との座標距離の判定が行われる。
【0065】
本実施形態においては、分類対象画像を分類する際、元画像と分類対象画像との各々のコンテンツ統計量それぞれの座標値間の座標距離をソートして分類対象画像を元画像と同様の雰囲気及びテイストを有する度合の高い順(座標距離の小さい順)に分類している。
しかしながら、上記座標距離が所定の閾値以下の分類対象画像を、元画像と同様の雰囲気及びテイストを有する画像として分類する構成としてもよい。また、座標距離の小さい順に、所定の個数(例えば10個)の画像を元画像と同様の雰囲気及びテイストを有する画像として分類する構成としてもよい。
【0066】
図5は、
図4に示すフローチャートにおける分類処理の処理結果を示す図である。
図5(a)は分類対象画像群(画像G-1~G-23、…)、
図5(b)は分類の基準とした元画像G-30、
図5(c)は
図5(a)に示す分類対象画像群の中で元画像G-30と同様な雰囲気及びテイストを有すると分類された上位10の画像である画像G-40~G-49をそれぞれ示す。
図5(d)は分類の基準とした元画像G-50、
図5(e)は
図5(a)に示す分類対象画像群の中で元画像G-50と同様な雰囲気及びテイストを有すると分類された上位10の画像である画像G-60~G-69をそれぞれ示す。
図5に示すように、実施形態のコンテンツ分類装置1により、分類対象画像群に含まれる画像の中から、元画像G-30(又はG-50)と同様な雰囲気及びテイストを有する画像が分類されたことが確認できる。
【0067】
第1の実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応する画像特徴量(コンテンツ特徴量)、および画像統計量(コンテンツ統計量)を、人間の視覚(知覚)系の神経機構の処理過程モデルを反映した画像統計量(コンテンツ統計量)として数値化し、統計量空間における座標値として示し、元画像と分類対象画像(対象コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(対象コンテンツ)を、不特定の画像群(分類対象画像群)の中から分類することが可能となる。
【0068】
なお、人の脳機能の解明が進むにしたがって、この他にも多くの視知覚特徴が発見されつつあり、それらを含めてもよい。
【0069】
<第2の実施形態>
以下、本発明の第2の実施形態について、図面を参照して説明する。
図6は、本発明の第2の実施形態によるコンテンツ分類装置1Aの構成例を示すブロック図である。
図6におけるコンテンツ分類装置1Aは、コンテンツ特徴量算出部110Aが機械学習により生成されたコンテンツ特徴量モデルを用いてコンテンツ特徴量を算出する点、及びコンテンツ統計量算出部111Aが機械学習により生成されたコンテンツ統計量モデルを用いてコンテンツ統計量を算出する点において、上記第1の実施形態と相違する。また、本実施形態では、コンテンツ分類装置1Aが学習済みモデルデータベース19を備える。なお、本実施形態においては、第1の実施形態による
図1の構成と同様の構成については同一の符号を付している。
以下、本実施形態においては、コンテンツを静止画像として説明するが、第1の実施形態と同様に、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
【0070】
以下、第2の実施形態によるコンテンツ分類装置1Aに対して、第1の実施形態のコンテンツ分類装置1と異なる構成及び動作のみの説明を行う。
コンテンツ特徴量算出部110Aは、コンテンツ特徴量を出力するコンテンツ特徴量モデルを機械学習により生成する。すなわち、ユーザがニューラルネットワークなどの推定モデルに対して、入力層を形成して教師画像の画像データ(全てのピクセルの各々の情報量)を入力する。また、上記推定モデルに対して、ユーザは出力層を形成して教師画像の画像データを出力とする。この推定モデルとしてのニューラルネットは、例えば、入力層、中間層及び出力層の3層から構成されている。ここで、中間層は、入力層への入力数及び出力層から出力数よりも、少ない入力数及び出力数により構成する。
【0071】
これにより、コンテンツ特徴量算出部110Aは、複数の異なる教師データの各々の画像データを入力とし、それぞれの教師画像の画像データが出力される推定モデル(オートエンコーダ:自己符号化器)の学習を行う。すなわち、コンテンツ特徴量算出部110Aは、教師画像の画像データが入力された場合、入力された教師画像と同様な画像が出力される推定モデルを、機械学習により生成する。そして、コンテンツ特徴量算出部110Aは、推定モデルを構成する入力層及び中間層(出力層の前段の層)の各々を、推定コンテンツ特徴量モデルとして抽出する。コンテンツ特徴量算出部110Aは、推定コンテンツ特徴量モデルの出力を推定コンテンツ特徴量(推定画像特徴量)として用いる。
また、コンテンツ特徴量算出部110Aは、機械学習により生成した上記推定モデルを学習済みモデルデータベース19に記憶させる。
【0072】
コンテンツ統計量算出部111Aは、コンテンツ統計量を出力するコンテンツ統計量モデルを機械学習により生成する。すなわち、ユーザがニューラルネットワークなどの推定モデルに対して、入力層を形成して教師画像のコンテンツ特徴量を入力する。ここでのコンテンツ特徴量が、例えば、第1の実施形態で示したコンテンツ特徴量、或いは第2の実施形態で示したコンテンツ特徴量算出部110Aが推定コンテンツ特徴量モデルから出力させた推定コンテンツ特徴量である。また、上記推定モデルに対して、ユーザは出力層を形成して教師画像の画像データを出力とする。この推定モデルとしてのニューラルネットは、例えば、入力層、中間層及び出力層の3層から構成されている。ここで、中間層は、入力層への入力数及び出力層から出力数よりも、少ない入力数及び出力数により構成する。
【0073】
これにより、コンテンツ統計量算出部111Aは、複数の異なる教師画像の各々のコンテンツ特徴量のデータを入力とし、それぞれの教師画像のコンテンツ特徴量が出力される推定モデルの学習を行う。すなわち、コンテンツ統計量算出部111Aは、教師画像のコンテンツ特徴量が入力された場合、入力された教師画像のコンテンツ特徴量と同様なコンテンツ特徴量が出力される推定モデル(オートエンコーダ:自己符号化器)を、機械学習により生成する。そして、コンテンツ特徴量算出部110Aは、推定モデルを構成する入力層及び中間層(出力層の前段の層)の各々を、推定コンテンツ統計量モデルとして抽出する。コンテンツ統計量算出部111Aは、推定コンテンツ統計量モデルの出力を推定コンテンツ統計量(推定画像統計量)として用いる。
また、コンテンツ統計量算出部111Aは、機械学習により生成した上記推定モデルを、学習済みモデルデータベース19に記憶させる。
【0074】
図7は、本実施形態によるコンテンツ分類装置1Aが行なう分類処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ特徴量算出部110Aにより生成され、教師画像の画像データが入力された場合、入力された教師画像と同様な画像が出力される推定モデルが、学習済みモデルデータベース19に書き込まれて記憶されていること、及びコンテンツ統計量及びコンテンツ統計量を求めるための演算式(モデル)がコンテンツ統計量モデルデータベース17に書き込まれて記憶されていることを前提に説明する。
なお、
図7のステップS10~S11、及びS16~S19の各々に示す処理については、
図4において同じ符号で示す処理と同様であるため、その説明を省略する。
【0075】
ステップS12A:
コンテンツ特徴量算出部110Aは、画像特徴量モデルを抽出する推定モデルを、学習済みモデルデータベース19から選択する。コンテンツ特徴量算出部110Aは、例えば、元画像、及び分類対象画像のデータ量等に応じて上記推定モデルを選択するようにしてよい。
【0076】
ステップS13A:
コンテンツ統計量算出部111Aは、画像統計量モデルを抽出する推定モデルを、学習済みモデルデータベース19から選択する。コンテンツ統計量算出部111Aは、例えば、分類する画像の数やカテゴリに応じて上記推定モデルを選択するようにしてよい。
【0077】
ステップS14A:
コンテンツ特徴量算出部110Aは、選択した推定モデルに、元画像、又は分類対象画像の画像データを入力することにより、元画像、又は分類対象画像の各々の画像における上記コンテンツ特徴量を算出する。
【0078】
ステップS15A:
コンテンツ統計量算出部111Aは、選択した推定モデルに、元画像、及び分類対象画像のコンテンツ特徴量を入力することにより、元画像と分類対象画像との間の画像統計量を算出する。
【0079】
図8は、本実施形態によるコンテンツ分類装置1Aにおけるコンテンツ特徴量算出部110Aが行なう推定コンテンツ特徴量を算出する処理の動作例を示すフローチャートである。
【0080】
ステップS21:
コンテンツ特徴量算出部110Aは、ユーザが入力する複数の教師画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの教師画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0081】
ステップS22:
コンテンツ特徴量算出部110Aは、上記教師画像の画像データの各ピクセルの情報を入力する入力層と、推定された推定画像の画像データのピクセルを出力する出力層の構成を設定する。そして、コンテンツ特徴量算出部110Aは、入力層から供給される画像データ及び出力層から出力される画像データに比較し、より少ないデータの入力数及び出力数を有する中間層を設定する。コンテンツ特徴量算出部110Aは、上記入力層、中間層及び出力層から構成されるニューラルネットの推定モデルを構成する。
【0082】
ステップS23:
コンテンツ特徴量算出部110Aは、上記推定モデルの入力層に対して、教師画像の画像データにおけるピクセルの情報を入力し、出力層から入力した教師画像の画像データと同様のピクセルの情報が出力されるように、中間層の機械学習を行う。コンテンツ特徴量算出部110Aは、上記機械学習の処理を、全ての教師画像の各々の画像データを用いて行い、それぞれの出力される画像データのピクセルの情報が、入力される教師画像の画像データのピクセルの情報と所定の範囲で類似した場合、その時点の推定モデルを元画像推定モデルとする。
【0083】
ステップS24:
コンテンツ特徴量算出部110Aは、学習により求めた元画像推定モデルにおける出力層を取り外し、入力層及び中間層からなる推定コンテンツ特徴量モデル(推定画像特徴量モデル)として抽出する。
【0084】
ステップS25:
コンテンツ特徴量算出部110Aは、中間層の出力である推定コンテンツ特徴量モデルを、コンテンツ特徴量を出力するモデルとして、学習済みモデルデータベース19に書き込んで記憶させる(登録する)。
【0085】
図9は、本実施形態によるコンテンツ分類装置1Aにおけるコンテンツ統計量算出部111Aが行なう推定コンテンツ統計量を算出する処理の動作例を示すフローチャートである。
【0086】
ステップS30:
コンテンツ統計量算出部111Aは、ユーザが入力する複数の教師画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの教師画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0087】
ステップS31:
ユーザは推定コンテンツ統計量モデルを算出する際に用いるコンテンツ特徴量(画像特徴量)の組合せを、コンテンツ分類装置1Aの入力手段を介して、コンテンツ統計量算出部111Aに対して入力する。
【0088】
ステップS32:
コンテンツ統計量算出部111Aは、コンテンツ特徴量算出部110Aに対して、教師画像の各々から、選択した組合せにおけるコンテンツ特徴量の算出を行わせる。
コンテンツ特徴量算出部110は、教師画像の各々において、上記組合せにおける種類のコンテンツ特徴量それぞれを求める。
【0089】
ステップS33:
コンテンツ統計量算出部111Aは、上記教師画像のコンテンツ特徴量のデータを入力する入力層と、推定されたコンテンツ特徴量のデータを出力する出力層の構成を設定する。そして、コンテンツ統計量算出部111Aは、入力層から供給される画像データ及び出力層から出力される画像データに比較し、より少ないデータの入力数及び出力数を有する中間層を設定する。コンテンツ統計量算出部111Aは、上記入力層、中間層及び出力層から構成されるニューラルネットの推定モデルを構成する。
【0090】
ステップS34:
コンテンツ統計量算出部111Aは、上記推定モデルの入力層に対して、教師画像の特徴量のデータを入力し、出力層から入力した教師画像の特徴量のデータと同様のデータが出力されるように、中間層の機械学習を行う。コンテンツ統計量算出部111Aは、上記機械学習の処理を、全ての教師画像の各々のコンテンツ特徴量の組合せを用いて行い、それぞれの出力されるコンテンツ特徴量のデータが、入力される教師画像のコンテンツ特徴量のデータと所定の範囲で類似した場合、その時点の推定モデルを元画像推定モデルとする。
【0091】
ステップS35:
コンテンツ統計量算出部111Aは、学習により求めた元画像推定モデルにおける出力層を取り外し、入力層及び中間層からなる推定コンテンツ統計量モデル(推定画像統計量モデル)として抽出する。
【0092】
ステップS36:
コンテンツ統計量算出部111Aは、中間層の出力である推定コンテンツ統計量をコンテンツ統計量とし、推定コンテンツ統計量モデルを、コンテンツ統計量を出力するモデルとして、学習済みモデルデータベース19に対して書き込んで記憶させる(登録する)。
【0093】
第2の実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応する画像特徴量(コンテンツ特徴量)および画像統計量(コンテンツ統計量)に基づいて、人間の視覚(知覚)系の神経機構の処理過程モデルを反映した画像雰囲気量(コンテンツ雰囲気量)として数値化し、雰囲気量空間における座標値として示し、元画像と分類対象画像(対象コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(対象コンテンツ)を、不特定の画像群(分類対象画像群)の中から分類することが可能となる。
また、本実施形態においては、教師画像の画像データを入力するオートエンコーダ(3層のニューラルネットワーク)の中間層をコンテンツ特徴量として用いるため、より脳における神経機構の特徴抽出に対応したコンテンツ特徴量を得ることができ、鑑賞対象の元画像に対して、第1の実施形態に比較してより近い感覚を有する他のコンテンツ(対象コンテンツ)を選択して分類することが可能となる。
【0094】
<第3の実施形態>
図10は、本発明の第3の実施形態によるコンテンツ分類装置1Bの構成例を示すブロック図である。
図10におけるコンテンツ分類装置1Bは、コンテンツ雰囲気量算出部11Bが、コンテンツ特徴量算出部110(110A)、及びコンテンツ統計量算出部111(111A)を用いずに、深層学習により生成された深層学習画像モデルを用いて、画像データからコンテンツ統計量を算出する点において、上記実施形態と相違する。また、コンテンツ分類装置1Bは、深層学習済みモデルデータベース20を備えている。第3の実施形態においては、第1の実施形態による
図1の構成と同様の構成については同一の符号を付している。
【0095】
以下、本実施形態においては、コンテンツを静止画像として説明するが、第1の実施形態と同様に、動画像、映像、音響及び音声等の他のコンテンツに対しても適用する構成としても良い。
以下、第3の実施形態によるコンテンツ分類装置1Bに対して、第1の実施形態のコンテンツ分類装置1と異なる構成及び動作のみの説明を行う。
【0096】
コンテンツ雰囲気量算出部11Bは、深層学習により深層学習画像モデルを生成し、生成した深層学習画像モデルを深層学習済みモデルデータベース20に記憶させる。
また、コンテンツ雰囲気量算出部11Bは、深層学習済みモデルデータベース20に記憶された深層学習画像モデルを用いて、元画像、及び分類対象画像の各々の画像データから、各画像に対する画像統計量を算出する。
深層学習済みモデルデータベース20は、深層学習により生成された深層学習画像モデルを、コンテンツ統計量を算出するためのコンテンツ統計量モデルとして記憶する。
【0097】
コンテンツ雰囲気量算出部11Bが生成する深層学習画像モデルの生成処理としては、以下の処理A1及び処理A2の2通りがある。
図11は、深層学習画像モデルの生成を行う処理A1の動作例を示すフローチャートである。この処理A1の場合、気にいった画像に対し、雰囲気が似ていると知覚する画像と似ていないと知覚する画像との各々を学習用画像と複数用意する。
ステップS40:
コンテンツ雰囲気量算出部11Bは、ユーザが入力する複数の学習用画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの学習用画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0098】
ステップS41:
コンテンツ雰囲気量算出部11Bは、中間層(プーリング層及び畳み込み層)が多層構造の深層ニューラルネットワークモデルに対し、上記学習用画像の画像データの各ピクセルの情報を入力する入力層と、正規化する全結合層である出力層とを設定する。この出力層は、「1」あるいは「0」との間の小数点の数値を出力する構成となっている。
【0099】
ステップS42:
コンテンツ雰囲気量算出部11Bは、上記深層ニューラルネットワークモデルの入力層に対し、気にいった画像と雰囲気が似ていると知覚する画像を入力した場合、出力層から似ていることを示す「1」に近い数値が出力されるように、また気にいった画像と雰囲気が似ていないと知覚する画像を入力した場合、出力層から似ていることを示す「0」に近い数値が出力されるように、各ネットワークの層の重みパラメータの最適化処理を行う。すなわち、コンテンツ雰囲気量算出部11Bは、深層ニューラルネットワークモデルに対し、クラス分類の機械学習を行い、学習結果として、深層学習画像モデルを生成する。
【0100】
このとき、コンテンツ雰囲気量算出部11Bは、学習させた深層ニューラルネットワークモデルに対し、学習用画像とは異なる気にいった画像と雰囲気が似ていると知覚する画像と、雰囲気が似ていないと知覚する画像とを入力し、学習させた深層ニューラルネットワークモデルに対する学習テスト(クロス・バリデーション)を行う。
そして、コンテンツ雰囲気量算出部11Bは、雰囲気が似ていると知覚する画像を深層ニューラルネットワークモデルに入力した際、出力層の出力する数値が予め設定した第1閾値以上となり、かつ雰囲気が似ていないと知覚する画像を深層ニューラルネットワークモデルに入力した際、出力層の出力する数値が予め設定した第2閾値以下となった場合、この深層ニューラルネットワークモデルを、気にいった画像に対する深層学習画像モデルとする。一方、コンテンツ雰囲気量算出部11Bは、上記学習テストにおいて、雰囲気が似ていると知覚する画像に対して、深層ニューラルネットワークモデルの出力層の出力する数値が予め設定した第1閾値未満、あるいは雰囲気が似ていないと知覚する画像に対して、深層ニューラルネットワークモデルの出力層の出力する数値が予め設定した第2閾値以上である場合、深層ニューラルネットワークモデルの再学習を行う。
【0101】
ステップS43:
コンテンツ雰囲気量算出部11Bは、生成した深層学習画像モデルから、多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、深層学習統計量(あるいは深層学習特徴量)それぞれとして抽出する。
【0102】
ステップS44:
コンテンツ雰囲気量算出部11Bは、生成した深層学習画像モデルと、抽出した深層学習統計量(深層学習特徴量)とを深層学習済みモデルデータベース20に対して書き込んで記憶させる(登録処理)。
上記処理A1を気にいった画像毎に行い、それぞれに対応する深層学習画像モデルを生成する。
【0103】
図12は、深層学習画像モデルの生成を行う処理A2の動作例を示すフローチャートである。この処理A2の場合、処理A1において生成した深層学習画像モデルの転移学習を行い、別の深層学習画像モデル(他の気にいった画像に対応する深層学習画像モデル)を生成する。
ステップS50:
コンテンツ雰囲気量算出部11Bは、ユーザが入力する複数の学習用画像の各々を、一旦、図示しない記憶部に書き込んで記憶する。これらの学習用画像の画像データは、縦×横の各々のピクセル数が同一に設定されている。
【0104】
ステップS51:
コンテンツ雰囲気量算出部11Bは、中間層(プーリング層及び畳み込み層)が多層構造の深層ニューラルネットワークモデルに対して接続する、上記学習用画像の画像データの各ピクセルの情報を入力する入力層と、正規化する全結合層である出力層とを設定する。この出力層は、「1」あるいは「0」との間の小数点の数値を出力する構成となっている。
【0105】
ステップS52:
ユーザがコンテンツ分類装置1Bに対して、所定の入力手段(不図示)により、気にいった画像に対応する深層学習画像モデルを生成する際に、深層ニューラルネットワークモデルを用いて新たな深層学習画像モデルを生成するか、あるいは他の気にいった画像の深層学習画像モデルを用いた転移学習により新たな深層学習画像モデルを生成するかの制御を行う。例えば、ユーザは、学習用画像が多量に用意できる気にいった画像に対する深層学習画像モデルを生成する場合、深層ニューラルネットワークモデルを機械学習により学習させ生成する制御を行う。一方、ユーザは、学習用画像が多量に用意できない気にいった画像に対する深層学習画像モデルを生成する場合、すでに学習により求められた他の気にいった画像に対応する深層学習画像モデルを転移学習させることにより、深層学習画像モデルを生成する制御を行う。
【0106】
このとき、コンテンツ雰囲気量算出部11Bは、ユーザが深層ニューラルネットワークモデルから、気にいった画像の深層学習画像モデルを新たに生成する処理を選択した場合、処理をステップS55へ進める。一方、コンテンツ雰囲気量算出部11Bは、ユーザが他の気にいった画像の深層学習画像モデルに対して転移学習を行い、気にいった画像の深層学習画像モデルを生成する処理を選択した場合、処理をステップS53へ進める。
【0107】
ステップS53:
コンテンツ雰囲気量算出部11Bは、すでに深層学習済みモデルデータベース20に記憶されている深層学習画像モデルのなかから、所定の深層学習モデルを生成する。例えば、ユーザが深層学習画像モデルを生成する対象の気にいった画像に対し、似ていないと知覚する他の気にいった画像の深層学習画像モデルを指定し、コンテンツ雰囲気量算出部11Bがこの深層学習画像モデルを転移学習に用いる深層学習画像モデルとして選択する。ここで、コンテンツ雰囲気量算出部11Bは、転移学習に用いる深層学習画像モデルを、深層学習済みモデルデータベース20から読み出す。
【0108】
ステップS54:
コンテンツ雰囲気量算出部11Bは、転移学習に用いるため、読み出した深層学習画像モデルから、入力層からユーザが指定あるいは予め指定されている中間層(適合層)までを、転移学習モデルとして抽出する。
そして、コンテンツ雰囲気量算出部11Bは、深層ニューラルネットワークモデルから、上記適合層以降の中間層を抽出し、上記転移学習モデルの適合層に接続し、かつ出力層を接続することにより、転移学習に用いる転移深層学習画像モデルを生成する。
【0109】
ステップS55:
コンテンツ雰囲気量算出部11Bは、深層学習済みモデルデータベース20に記憶されている深層ニューラルネットワークモデルから、所定の深層ニューラルネットワークモデルを選択して読み出す。
【0110】
ステップS56:
コンテンツ雰囲気量算出部11Bは、学習対象モデル(上記転移深層学習画像モデルあるいは上記深層ニューラルネットワークモデル)の入力層に対し、気にいった画像と雰囲気が似ていると知覚する画像を入力した場合、出力層から似ていることを示す「1」に近い数値が出力されるように、また気にいった画像と雰囲気が似ていないと知覚する画像を入力した場合、出力層から似ていないことを示す「0」に近い数値が出力されるように、各ネットワークの層の重みパラメータの最適化処理を行う。すなわち、コンテンツ雰囲気量算出部11Bは、学習対象モデルに対し、クラス分類の機械学習を行い、学習結果として、深層学習画像モデルを生成する。
【0111】
このとき、コンテンツ雰囲気量算出部11Bは、作成した学習対象モデルに対し、学習用画像とは異なる気にいった画像と雰囲気が似ていると知覚する画像と、雰囲気が似ていないと知覚する画像とを入力し、学習させた学習対象モデルに対する学習テストを行う。そして、コンテンツ雰囲気量算出部11Bは、雰囲気が似ていると知覚する画像を学習対象モデルに入力した際、出力層の出力する数値が予め設定した第1閾値以上となり、かつ雰囲気が似ていないと知覚する画像を学習対象モデルに入力した際、出力層の出力する数値が予め設定した第2閾値以下となった場合、この学習対象モデルを、気にいった画像に対する深層学習画像モデルとする。一方、コンテンツ雰囲気量算出部11Bは、上記学習テストにおいて、雰囲気が似ていると知覚する画像に対して学習対象モデルの出力層の出力する数値が予め設定した第1閾値未満、あるいは雰囲気が似ていないと知覚する画像に対して、学習対象モデルの出力層の出力する数値が予め設定した第2閾値以上である場合、学習対象モデルの再学習を行う。
【0112】
ステップS57:
コンテンツ雰囲気量算出部11Bは、生成した深層学習画像モデルから、多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、深層学習統計量(あるいは深層学習特徴量)それぞれとして抽出する。
【0113】
ステップS58:
コンテンツ雰囲気量算出部11Bは、生成した深層学習画像モデルと、抽出した深層学習統計量(深層学習特徴量)とを深層学習済みモデルデータベース20の深層学習統計量モデルテーブルに対して書き込んで記憶させる(登録処理)。
上記処理A2を気にいった画像毎に行い、それぞれに対応する深層学習画像モデルを生成する。
【0114】
図13は、本実施形態によるコンテンツ分類装置1Bが行なう、元画像と同様の雰囲気及びテイストを有する分類対象画像を分類する処理の動作例を示すフローチャートである。以下に示すフローチャートにおいては、すでに、コンテンツ統計量(あるいはコンテンツ特徴量)を求めるための演算式として深層学習画像モデルが深層学習済みモデルデータベース20に書き込まれて記憶されていることを前提に説明する。
なお、
図13のステップS64~S68の各々に示す処理については、
図4におけるステップS16~S20に示す処理と同様であるため、その説明を省略する。
【0115】
ステップS60:
コンテンツ選択部10は、ユーザの操作により、分類の基準となる元画像(気にいった画像)を、外部装置から入力して、コンテンツ雰囲気量算出部11Bに対して出力する。
【0116】
ステップS61:
コンテンツ選択部10は、コンテンツデータベース15から、分類対象画像群を抽出する。そして、コンテンツ選択部10は、抽出した対象選択画像群のうちの一つの画像を分類対象画像としてコンテンツ雰囲気量算出部11Bに対して出力する。なお、コンテンツ選択部10は、外部メモリ、または通信ネットワークを介してユーザの操作により入力された画像群を、分類対象画像群として選択してもよい。
【0117】
ステップS62:
コンテンツ雰囲気量算出部11Bは、元画像である気にいった画像に対応する深層学習画像モデルを、深層学習済みモデルデータベース20に記憶されている深層学習画像モデルのなかから選択する。
【0118】
ステップS63:
コンテンツ雰囲気量算出部11Bは、選択した深層学習画像モデルにより、元画像及び分類対象画像の各々の深層学習統計量(すなわち、コンテンツ統計量)を算出する。
すなわち、コンテンツ雰囲気量算出部11Bは、深層学習画像モデルの入力層に対して、元画像における各ピクセルの画素値を入力する。そして、コンテンツ雰囲気量算出部11Bは、深層学習画像モデルの多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、元画像の深層学習統計量として抽出する。
【0119】
また、同様に、コンテンツ雰囲気量算出部11Bは、深層学習画像モデルの入力層に対して、分類対象画像における各ピクセルの画素値を入力する。そして、コンテンツ雰囲気量算出部11Bは、深層学習画像モデルの多層構造の中間層におけるプーリング層及び畳み込み層の出力パラメータ、活性化関数の種類と出力されるパラメータなどの各々を、分類対象画像の深層学習統計量として抽出する。
【0120】
第3の実施形態によれば、鑑賞対象の元画像(元コンテンツ)に対して人間が抱く雰囲気やテイストなどの感覚に対応させ、人間の視覚(知覚)系の神経機構の処理過程を、深層ニューラルネットワークモデルを深層学習させて生成した深層学習画像モデルとして近似し、その出力から人間の視覚(知覚)系の神経機構の処理過程モデルを反映したコンテンツ雰囲気量を数値化し、コンテンツ雰囲気量空間における座標値として示し、元画像と分類対象画像(対象コンテンツ)との座標値間の座標距離を判定することにより、人間が抱く雰囲気やテイストなどの感覚(人間の脳の知覚処理)を、従来に比較してより正確に再現することができ、鑑賞対象の元画像と同様な感覚を有する他のコンテンツ(対象コンテンツ)を生成することが可能となる。
また、本実施形態においては、学習用画像の画像データを入力して、クラス分類した結果を得る深層ニューラルネットワークモデルを用いて深層学習画像モデルを生成し、この深層学習モデルの中間層をコンテンツ統計量モデルとしているため、より脳における神経機構の特徴抽出に対応したコンテンツ統計量を得ることができ、鑑賞対象の元画像に対して、第1の実施形態に比較してより近い感覚を有する他のコンテンツ(対象コンテンツ)を分類することが可能となる。
【0121】
なお、本発明におけるコンテンツ分類装置1(1A、1B)の全部または一部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませて実行することにより処理を行なってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0122】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
【0123】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
【符号の説明】
【0124】
1、1A、1B…コンテンツ分類装置
10…コンテンツ選択部
11、11A、11B…コンテンツ雰囲気量算出部
110、110A…コンテンツ特徴量算出部
111、111A…コンテンツ統計量算出部
12…座標距離算出部
13…コンテンツ分類部
14…コンテンツ出力部
15…コンテンツデータベース
16…コンテンツ特徴量データベース
17…コンテンツ統計量モデルデータベース
18…分類コンテンツ記憶部
19…学習済みモデルデータベース
20…深層学習済みモデルデータベース