(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-20
(45)【発行日】2024-02-29
(54)【発明の名称】学習装置、代表画像抽出装置及びプログラム
(51)【国際特許分類】
G06T 7/00 20170101AFI20240221BHJP
G06N 3/08 20230101ALI20240221BHJP
【FI】
G06T7/00 350C
G06N3/08
(21)【出願番号】P 2020075676
(22)【出願日】2020-04-21
【審査請求日】2023-03-01
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】前澤 桃子
(72)【発明者】
【氏名】望月 貴裕
(72)【発明者】
【氏名】遠藤 伶
【審査官】千葉 久博
(56)【参考文献】
【文献】特開2019-213065(JP,A)
【文献】特開2019-185359(JP,A)
【文献】特開2017-33372(JP,A)
【文献】特開2016-9909(JP,A)
【文献】特開2014-99027(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 7/00
G06N 3/08
(57)【特許請求の範囲】
【請求項1】
ニューラルネットワークを学習する学習装置において、
学習用番組映像をサンプリングして得られるフレーム画像を番組画像とし、前記番組画像に付与された複数段階のうちのいずれかの段階のスコアを第1正解スコアとし、所定画像に付与された複数段階のうちのいずれかの段階のスコアを第2正解スコアとし、前記ニューラルネットワークを、前記番組画像及び前記所定画像が交互に入力され、1次元のスコアが出力されるモデルとして、
前記番組画像及び前記第1正解スコアからなる番組学習データ、並びに前記所定画像及び前記第2正解スコアからなる所定学習データが格納されたメモリと、
前記メモリから前記番組学習データ及び前記所定学習データを読み出し、前記番組学習データ及び前記所定学習データを用いて、前記ニューラルネットワークを学習する学習部と、を備え、
前記学習部は、
前記ニューラルネットワークを用いて、前記番組学習データに含まれる前記番組画像から前記番組画像の1次元のスコアを第1スコアとして算出し、前記ニューラルネットワークを用いて、前記所定学習データに含まれる前記所定画像から前記所定画像の1次元のスコアを第2スコアとして算出するニューラルネットワーク部と、
前記ニューラルネットワーク部により算出された前記第1スコアと前記番組学習データに含まれる前記第1正解スコアとの間の誤差を第1誤差として算出し、前記第2スコアと前記所定学習データに含まれる前記第2正解スコアとの間の誤差を第2誤差として算出する誤差算出部と、
前記誤差算出部により算出された前記第1誤差及び前記第2誤差の和が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置において、
さらに、前記番組学習データを生成する番組学習データ生成部を備え、
前記番組学習データ生成部は、
前記学習用番組映像を前記番組画像にサンプリングするサンプリング処理部と、
前記学習用番組映像に対応した番組のホームページのURLへアクセスし、前記番組の静止画をダウンロードするダウンロード処理部と、
前記サンプリング処理部によりサンプリングされた前記番組画像について、前記ダウンロード処理部によりダウンロードされた前記静止画との間の類似度を算出する類似度算出部と、
前記類似度算出部により算出された前記類似度に基づいて、前記番組画像に対して前記第1正解スコアを付与し、前記番組画像及び前記第1正解スコアからなる前記番組学習データを前記メモリに格納する第1正解スコア付与部と、を備えたことを特徴とする学習装置。
【請求項3】
請求項2に記載の学習装置において、
前記所定学習データを生成する所定学習データ生成部を備え、
前記所定学習データ生成部は、
前記所定画像、及び前記所定画像に対して予め付与された複数段階のうちのいずれかの段階のラベルからなるオープンデータを入力し、前記ラベルを前記第2正解スコアに変換することで、前記所定画像に対して前記第2正解スコアを付与し、前記所定画像及び前記第2正解スコアからなる前記所定学習データを前記メモリに格納する第2正解スコア付与部を備えたことを特徴とする学習装置。
【請求項4】
請求項1から3までのいずれか一項に記載の学習装置において、
前記番組学習データの数をA個(Aは正の整数)、前記所定学習データの数をB個(Bは正の整数)、A<Bとし、B個からA個を減算した結果を(B-A)として、
前記学習部は、
A個の前記番組学習データ、及び、前記所定学習データに対する前記番組学習データの不足分である(B-A)個のデータであって、A個の前記番組学習データのいずれかまたは全てを用いて補充された前記番組学習データ、並びにB個の前記所定学習データを用いて、前記ニューラルネットワークを学習する、ことを特徴とする学習装置。
【請求項5】
番組映像から代表画像を抽出する代表画像抽出装置において、
前記番組映像をフレーム画像にサンプリングし、前記フレーム画像を番組画像として出力するサンプリング処理部と、
請求項1から4までのいずれか一項の学習装置により学習されたニューラルネットワークを用いて、前記サンプリング処理部により出力された前記番組画像から、前記番組画像の1次元のスコアを算出するスコア算出部と、
前記スコア算出部により算出された前記スコアに基づいて、前記サンプリング処理部により前記番組映像がサンプリングされて出力された全ての前記番組画像から、前記代表画像を選択する選択部と、を備えたことを特徴とする代表画像抽出装置。
【請求項6】
コンピュータを、請求項1から4までのいずれか一項に記載の学習装置として機能させるためのプログラム。
【請求項7】
コンピュータを、請求項5に記載の代表画像抽出装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像から代表画像を抽出する映像解析分野に用いる学習装置、代表画像抽出装置及びプログラムに関する。
【背景技術】
【0002】
従来、放送局では、視聴者の接触率向上を目的として、番組HP(ホームページ)の充実化が進んでいる。番組HPには、閲覧者に番組内容を大まかに把握してもらうために、番組映像から抽出した複数の代表画像を掲載するケースが多い。
【0003】
しかしながら、番組映像から代表画像を抽出するには大きな労力が必要である。このため、番組映像から代表画像を自動的に抽出する手法が提案されている(例えば、特許文献1、非特許文献1を参照)。
【0004】
例えば特許文献1の手法は、画像集合から人物の顔、シーン及びオブジェクトの判別結果、GPS(Global Positioning System:全地球無線測位システム)情報並びに類似度に基づいて、画像間の関連度を算出し、関連度及び撮影日に基づいて、代表画像を抽出するものである。
【0005】
また、非特許文献1の手法は、事前学習済みのGoogLeNetのニューラルネットワークを用いて、画像に対する芸術性の高低を判定するものである。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【文献】Xin Jin, et al.,“ILGNet:Inception modules with connected local and global features for efficient image aesthetic quality classification using domain adaptation.”,IET Computer Vision 13.2 (2018):206-212.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、番組映像から代表画像を抽出する際に、前述の特許文献1の手法では、GPS情報、撮影日等の特殊な情報を必要とする。また、画像に含まれる物体、顔等の一部の要素のみに着目しており、画像全体の芸術性を考慮していない。また、前述の非特許文献1の手法では、番組制作のノウハウを考慮していない。
【0009】
このため、代表画像を用いて作成した番組HPは、必ずしも有効なものにはなっておらず、閲覧者に対して番組内容を効果的に提示することができない場合がある、という問題があった。
【0010】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組映像から、番組制作のノウハウを考慮した代表画像を抽出可能な学習装置、代表画像抽出装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0011】
前記課題を解決するために、請求項1の学習装置は、ニューラルネットワークを学習する学習装置において、学習用番組映像をサンプリングして得られるフレーム画像を番組画像とし、前記番組画像に付与された複数段階のうちのいずれかの段階のスコアを第1正解スコアとし、所定画像に付与された複数段階のうちのいずれかの段階のスコアを第2正解スコアとし、前記ニューラルネットワークを、前記番組画像及び前記所定画像が交互に入力され、1次元のスコアが出力されるモデルとして、前記番組画像及び前記第1正解スコアからなる番組学習データ、並びに前記所定画像及び前記第2正解スコアからなる所定学習データが格納されたメモリと、前記メモリから前記番組学習データ及び前記所定学習データを読み出し、前記番組学習データ及び前記所定学習データを用いて、前記ニューラルネットワークを学習する学習部と、を備え、前記学習部が、前記ニューラルネットワークを用いて、前記番組学習データに含まれる前記番組画像から前記番組画像の1次元のスコアを第1スコアとして算出し、前記ニューラルネットワークを用いて、前記所定学習データに含まれる前記所定画像から前記所定画像の1次元のスコアを第2スコアとして算出するニューラルネットワーク部と、前記ニューラルネットワーク部により算出された前記第1スコアと前記番組学習データに含まれる前記第1正解スコアとの間の誤差を第1誤差として算出し、前記第2スコアと前記所定学習データに含まれる前記第2正解スコアとの間の誤差を第2誤差として算出する誤差算出部と、前記誤差算出部により算出された前記第1誤差及び前記第2誤差の和が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする。
【0012】
また、請求項2の学習装置は、請求項1に記載の学習装置において、さらに、前記番組学習データを生成する番組学習データ生成部を備え、前記番組学習データ生成部が、前記学習用番組映像を前記番組画像にサンプリングするサンプリング処理部と、前記学習用番組映像に対応した番組のホームページのURLへアクセスし、前記番組の静止画をダウンロードするダウンロード処理部と、前記サンプリング処理部によりサンプリングされた前記番組画像について、前記ダウンロード処理部によりダウンロードされた前記静止画との間の類似度を算出する類似度算出部と、前記類似度算出部により算出された前記類似度に基づいて、前記番組画像に対して前記第1正解スコアを付与し、前記番組画像及び前記第1正解スコアからなる前記番組学習データを前記メモリに格納する第1正解スコア付与部と、を備えたことを特徴とする。
【0013】
また、請求項3の学習装置は、請求項2に記載の学習装置において、前記所定学習データを生成する所定学習データ生成部を備え、前記所定学習データ生成部が、前記所定画像、及び前記所定画像に対して予め付与された複数段階のうちのいずれかの段階のラベルからなるオープンデータを入力し、前記ラベルを前記第2正解スコアに変換することで、前記所定画像に対して前記第2正解スコアを付与し、前記所定画像及び前記第2正解スコアからなる前記所定学習データを前記メモリに格納する第2正解スコア付与部を備えたことを特徴とする。
【0014】
また、請求項4の学習装置は、請求項1から3までのいずれか一項に記載の学習装置において、前記番組学習データの数をA個(Aは正の整数)、前記所定学習データの数をB個(Bは正の整数)、A<Bとし、B個からA個を減算した結果を(B-A)として、前記学習部が、A個の前記番組学習データ、及び、前記所定学習データに対する前記番組学習データの不足分である(B-A)個のデータであって、A個の前記番組学習データのいずれかまたは全てを用いて補充された前記番組学習データ、並びにB個の前記所定学習データを用いて、前記ニューラルネットワークを学習する、ことを特徴とする。
【0015】
さらに、請求項5の代表画像抽出装置は、番組映像から代表画像を抽出する代表画像抽出装置において、前記番組映像をフレーム画像にサンプリングし、前記フレーム画像を番組画像として出力するサンプリング処理部と、請求項1から4までのいずれか一項の学習装置により学習されたニューラルネットワークを用いて、前記サンプリング処理部により出力された前記番組画像から、前記番組画像の1次元のスコアを算出するスコア算出部と、前記スコア算出部により算出された前記スコアに基づいて、前記サンプリング処理部により前記番組映像がサンプリングされて出力された全ての前記番組画像から、前記代表画像を選択する選択部と、を備えたことを特徴とする。
【0016】
さらに、請求項6のプログラムは、コンピュータを、請求項1から4までのいずれか一項に記載の学習装置として機能させることを特徴とする。
【0017】
また、請求項7のプログラムは、コンピュータを、請求項5に記載の代表画像抽出装置として機能させることを特徴とする。
【発明の効果】
【0018】
以上のように、本発明によれば、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。
【図面の簡単な説明】
【0019】
【
図1】本発明の実施形態による学習装置の構成例を示すブロック図である。
【
図2】番組学習データ生成部の構成例を示すブロック図である。
【
図3】番組学習データ生成部の処理例を示すフローチャートである。
【
図4】番組学習データ生成部の他の構成例を示すフローチャートである。
【
図5】芸術性学習データ生成部の構成例を示すブロック図である。
【
図7】学習部の処理例を示すフローチャートである。
【
図9】NN部の具体的な構成例を説明する図である。
【
図10】本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。
【
図11】代表画像抽出装置を用いた第1実施例の番組HP作成システムを説明する図である。
【
図12】代表画像抽出装置を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。
【
図13】本発明の実施形態における学習処理の効果を説明する図である。
【発明を実施するための形態】
【0020】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。
図1は、本発明の実施形態による学習装置の構成例を示すブロック図である。
【0021】
この学習装置1は、番組学習データ生成部10、メモリ11,13、芸術性学習データ生成部12及び学習部14を備えている。学習装置1は、学習用番組映像及び芸術性評価オープンデータ等を用いて、後述する代表画像抽出装置2が番組映像から番組制作のノウハウを考慮した代表画像を抽出できるように、代表画像抽出装置2が使用するニューラルネットワークを学習する装置である。
【0022】
番組学習データ生成部10は、学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURL(Uniform Resource Locator)を入力する。そして、番組学習データ生成部10は、学習用番組映像をサンプリングして得られた複数のフレーム画像(以下、「番組画像」という。)のそれぞれについて、番組HPのURLへアクセスして取得した複数の静止画のそれぞれとの間の類似度を算出する。
【0023】
番組学習データ生成部10は、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データをメモリ11に格納する。
【0024】
これにより、メモリ11には、学習用番組映像をサンプリングして得られた全ての番組画像について、番組画像及び正解スコアからなる番組学習データが格納される。
【0025】
ここで、番組HPに掲載されている静止画は、番組制作スタッフがそのノウハウを生かすことで、番組映像から選択した代表画面であるといえる。このため、番組画像と静止画との間の類似度は、番組制作スタッフのノウハウが反映された値となり、結果として、番組画像の正解スコアは、番組制作スタッフのノウハウが反映された値となる。
【0026】
芸術性学習データ生成部12は、芸術性評価オープンデータを順次入力する。この芸術性評価オープンデータは、一切の制限を受けることなく、全ての人が入手し利用することが可能なデータであり、画像に対し、芸術性の観点で評価された正解ラベルが付与されている。芸術性評価オープンデータは、画像(以下、「芸術性評価画像」という。)、及び芸術性評価画像に対して予め付与された複数段階の評価が反映された正解ラベル(芸術性の高低を示すラベル)から構成される。
【0027】
芸術性学習データ生成部12は、入力した芸術性評価オープンデータのそれぞれについて、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換する。そして、芸術性学習データ生成部12は、芸術性評価画像及び正解スコアからなる芸術性学習データをメモリ13に格納する。正解ラベルは、前述のとおり高低を示すラベルであり、正解スコアは数値である。
【0028】
これにより、メモリ13には、複数の芸術性評価オープンデータについて、芸術性評価画像及び正解スコアからなる芸術性学習データが格納される。
【0029】
学習部14は、学習対象のニューラルネットワークを備えている。学習部14は、メモリ11から、番組画像及び正解スコアからなる番組学習データを読み出すと共に、メモリ13から、芸術性評価画像及び正解スコアからなる芸術性学習データを読み出す。そして、学習部14は、番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習する。このニューラルネットワークは、番組画像及び芸術性評価画像が交互に入力され、1次元のスコア(重要度)が出力されるモデルである。
【0030】
これにより、ニューラルネットワークに用いる最適なパラメータ(重み係数等)が得られる。このパラメータは、番組制作スタッフのノウハウが反映された値であり、後述する
図10に示す代表画像抽出装置2に備えたニューラルネットワークに用いられる。
【0031】
(番組学習データ生成部10)
次に、
図1に示した番組学習データ生成部10について詳細に説明する。
図2は、番組学習データ生成部10の構成例を示すブロック図であり、
図3は、番組学習データ生成部10の処理例を示すフローチャートである。この番組学習データ生成部10は、サンプリング処理部20、ダウンロード処理部21、類似度算出部22及び正解スコア付与部23を備えている。
【0032】
番組学習データ生成部10は、ハードディスクレコーダー等に蓄積された学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURLを入力する(ステップS301)。サンプリング処理部20は、学習用番組映像を入力し、ダウンロード処理部21は、対応する番組HPのURLを入力する。
【0033】
サンプリング処理部20は、学習用番組映像から一定間隔で、フレーム画像である番組画像をサンプリングする(ステップS302)。サンプリングされた全ての番組画像をP1,・・・,PNとする。Nは2以上の整数である。サンプリング処理部20は、番組画像P1,・・・,PNを類似度算出部22に出力する。
【0034】
ダウンロード処理部21は、番組HPのURLへアクセスし、番組HPに掲載されている全ての静止画をダウンロードする(ステップS303)。ダウンロードされた全ての静止画をP’1,・・・,P’Mとする。Mは2以上の整数である。ダウンロード処理部21は、静止画P’1,・・・,P’Mを類似度算出部22に出力する。
【0035】
類似度算出部22は、サンプリング処理部20から番組画像P1,・・・,PNを入力すると共に、ダウンロード処理部21から静止画P’1,・・・,P’Mを入力する。そして、類似度算出部22は、番組画像Pnについて、静止画P’mとの間の類似度Sn,mを算出する(ステップS304)。n=1,・・・,Nであり、m=1,・・・,Mである。
【0036】
類似度算出部22は、番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を正解スコア付与部23に出力する。
【0037】
正解スコア付与部23は、類似度算出部22から番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を入力する。そして、正解スコア付与部23は、番組画像Pnについて、類似度Sn,1,・・・,Sn,Mのうちの最大値B=maxmSn,mを求める(ステップS305)。
【0038】
正解スコア付与部23は、最大値Bが予め設定された閾値以上であるか否かを判定する(ステップS306)。正解スコア付与部23は、ステップS306において、最大値Bが閾値以上であると判定した場合(ステップS306:Y)、番組画像Pnに対し、正例の正解スコア(=1)を付与する(ステップS307)。
【0039】
一方、正解スコア付与部23は、ステップS306において、最大値Bが閾値以上でないと判定した場合(ステップS306:N)、番組画像Pnに対し、負例の正解スコア(=0)を付与する(ステップS308)。
【0040】
尚、正解スコア付与部23は、番組画像Pnに対し、0~1の範囲のスコアにおいて、2段階の正解スコア(正例(=1)または負例(=0))を付与するようにしたが、3段階以上の正解スコアを付与するようにしてもよい。例えば、3段階の正解スコアの場合、正解スコア付与部23は、最大値Bを閾値処理することで、番組画像Pnに対し、3段階の正解スコア(例えば0.0,0.5,1.0)のうちのいずれかを付与する。
【0041】
この場合、正解スコアの段階は、0~1の範囲において必ずしも等間隔である必要はなく、例えば0.0,0.7,1.0であってもよく、適切な間隔であればよい。また、正解スコアは、後述する
図5において芸術性評価画像の正解スコアと同様の範囲、例えば0~1の範囲で、その段階が設定されるものとする。
【0042】
また、正解スコア付与部23は、番組画像に対して、類似度算出部22から入力した類似度を正解スコアとして付与するようにしてもよい。この場合の類似度の範囲は0~1である。
【0043】
正解スコア付与部23は、ステップS307またはS308から移行して、番組画像及び正解スコアからなる番組学習データをメモリ11に格納する(ステップS309)。ステップS304~S309の処理は、N個の番組画像Pn(n=1,・・・,N)について行われ、メモリ11には、N個の番組学習データが格納される。
【0044】
これにより、番組画像Pnについて、番組HPからダウンロードされた静止画との間の類似度Sn,mが反映された正解スコアが付与され、番組学習データがメモリ11に格納される。類似度Sn,mが高いほど(代表画像に相応しいほど)、正解スコアは1または1に近い段階の値となり、類似度Sn,mが低いほど(代表画像に相応しくないほど)、正解スコアは0または0に近い段階の値となる。
【0045】
図4は、番組学習データ生成部10の他の構成例を示すフローチャートである。この番組学習データ生成部10は、サンプリング処理部20及び正解スコア付与部24を備えている。この番組学習データ生成部10は、学習用番組映像のみを入力し、番組HPのURLを入力しない。
【0046】
サンプリング処理部20は、学習用番組映像を入力し、
図2に示したサンプリング処理部20と同様の処理を行い、番組画像を正解スコア付与部24に出力する。
【0047】
正解スコア付与部24は、サンプリング処理部20から番組画像を入力し、番組画像を、図示しない表示装置に表示する。番組制作スタッフであるユーザは、表示装置に表示された番組画像を評価し、番組画像に対する正解スコアを判断する。例えば、2段階の正解スコアの場合、番組画像の評価が高いときに正解スコア(=1)が判断され、番組画像の評価が低いときに正解スコア(=0)が判断される。
【0048】
正解スコア付与部24は、番組制作スタッフの操作に従い、番組画像に対する正解スコアを入力する。そして、正解スコア付与部24は、番組画像に対して正解スコアを付与することで、番組画像及び正解スコアからなる番組学習データを生成し、これをメモリ11に格納する。
【0049】
これにより、番組画像について、番組制作スタッフのノウハウが反映された正解スコアが付与され、番組学習データがメモリ11に格納される。番組画像に対する評価が高いほど(代表画像として相応しいほど)、正解スコアは1または1に近い段階の値となり、番組画像に対する評価が低いほど(代表画像として相応しくないほど)、正解スコアは0または0に近い段階の値となる。
【0050】
(芸術性学習データ生成部12)
次に、
図1に示した芸術性学習データ生成部12について詳細に説明する。
図5は、芸術性学習データ生成部12の構成例を示すブロック図である。この芸術性学習データ生成部12は、正解スコア付与部25を備えている。
【0051】
正解スコア付与部25は、芸術性評価画像及び正解ラベルからなる芸術性評価オープンデータを順次入力する。
【0052】
正解スコア付与部25は、芸術性評価オープンデータのそれぞれについて、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換することで、芸術性評価オープンデータに含まれる芸術性評価画像に対して正解スコアを付与する。そして、正解スコア付与部25は、芸術性評価画像及び正解スコアからなる芸術性学習データをメモリ13に格納する。
【0053】
一般に、正解ラベルは数値化されていないため、正解ラベルを学習処理に用いることができない。このため、正解スコア付与部25は、正解ラベルを、数値で表した正解スコアに変換する。これにより、正解ラベルが反映され、かつ数値で表された正解スコアを、学習処理に用いることができる。
【0054】
所定の規則は、p段階の正解ラベルをq段階の正解スコアに変換する、予め設定された規則である。p,qは2以上の整数であり、p≠qであってもよいし、p=qであってもよい。
【0055】
所定の規則により、例えば、3段階の正解ラベルである「great」「good」及び「bad」が2段階の正解スコアに変換される。3段階の正解ラベルは、芸術性の高い順に「great」>「good」>「bad」である。正解ラベル(=great)は正解スコア(=1)に、正解ラベル(=good)は正解スコア(=1)に、正解ラベル(=bad)は正解スコア(=0)に変換される。
【0056】
また、所定の規則により、例えば、3段階の正解ラベルが3段階の正解スコアに変換される。正解ラベル(=great)は正解スコア(=1.0)に、正解ラベル(=good)は正解スコア(=0.5)に、正解ラベル(=bad)は正解スコア(=0.0)に変換される。
【0057】
尚、正解スコアの段階は、0~1の範囲において必ずしも等間隔である必要はなく、例えば0.0,0.7,1.0であってもよく、適切な間隔であればよい。また、正解スコアは、3段階を超える段階であってもよく、前述の番組画像の正解スコアと同様の範囲、例えば0~1の範囲で、その段階が設定されるものとする。
【0058】
正解スコア付与部25は、正解ラベルを正解スコアに変換する代わりに、番組制作スタッフの操作に従い、番組制作スタッフにより判断された正解スコアを入力することで、芸術性評価画像に対して正解スコアを付与するようにしてもよい。前述と同様に、正解スコアの段階は必ずしも等間隔である必要はない。
【0059】
具体的には、正解スコア付与部25は、芸術性評価オープンデータに含まれる芸術性評価画像及び正解ラベルを、図示しない表示装置に表示する。番組制作スタッフであるユーザは、表示装置に表示された正解ラベルを参照して芸術性評価画像を評価し、芸術性評価画像に対する正解スコアを判断する。
【0060】
正解スコア付与部25は、番組制作スタッフの操作に従い、芸術性評価画像に対する正解スコアを入力する。そして、正解スコア付与部25は、芸術性評価画像に対して正解スコアを付与することで、芸術性評価画像及び正解スコアからなる芸術性学習データを生成し、これをメモリ13に格納する。
【0061】
これにより、芸術性評価画像について、番組制作スタッフのノウハウが反映された正解スコアが付与され、芸術性学習データがメモリ13に格納される。芸術性評価画像に対する評価が高いほど(代表画像として相応しいほど)、正解スコアは1または1に近い段階の値となり、芸術性評価画像に対する評価が低いほど(代表画像として相応しくないほど)、正解スコアは0または0に近い段階の値となる。
【0062】
(学習部14)
次に、
図1に示した学習部14について詳細に説明する。
図6は、学習部14の構成例を示すブロック図であり、
図7は、学習部14の処理例を示すフローチャートである。
【0063】
この学習部14は、切り替え部30、NN(ニューラルネットワーク)部31、誤差算出部32及びパラメータ更新部33を備えている。学習部14は、ステップS707の処理にて終了条件を満たすまで、番組学習データ及び芸術性学習データの組毎に、ステップS701~S706の処理を行う。
【0064】
切り替え部30は、パラメータ更新部33から、番組学習データまたは芸術性学習データを示す切り替え信号を入力する。そして、切り替え部30は、切り替え信号が番組学習データを示している場合、メモリ11から、番組画像及び正解スコアからなる番組学習データを読み出す。一方、切り替え部30は、切り替え信号が芸術性学習データを示している場合、メモリ13から、芸術性評価画像及び正解スコアからなる芸術性学習データを読み出す(ステップS701)。
【0065】
これにより、番組学習データを示す切り替え信号が入力される毎に、メモリ11から、新たな番組学習データが読み出され、芸術性学習データを示す切り替え信号が入力される毎に、メモリ13から新たな芸術性学習データが読み出される。
【0066】
切り替え部30は、切り替え信号が番組学習データを示している場合、番組学習データに含まれる番組画像をNN部31に出力すると共に、番組画像に対応する正解スコアを誤差算出部32に出力する。
【0067】
一方、切り替え部30は、切り替え信号が芸術性学習データを示している場合、芸術性学習データに含まれる芸術性評価画像をNN部31に出力すると共に、芸術性評価画像に対応する正解スコアを誤差算出部32に出力する。
【0068】
NN部31は、切り替え部30から番組画像または芸術性評価画像のテンソルを入力する。そして、NN部31は、パラメータ更新部33によりパラメータが設定されたニューラルネットワークを用いて、番組画像または芸術性評価画像から1次元のスコアを算出し、スコアを誤差算出部32に出力する。
【0069】
誤差算出部32は、NN部31からスコアを入力すると共に、切り替え部30から正解スコアを入力し、両者の誤差を算出してパラメータ更新部33に出力する。例えば、誤差を算出する関数としては、MSE(平均二乗誤差)等の、誤差が大きいほど大きい値を出力する関数が用いられる。
【0070】
具体的には、NN部31は、切り替え部30から番組画像のテンソルを入力した場合、ニューラルネットワークを用いて、番組映像からスコアを算出する(ステップS702)。このニューラルネットワークとは、後述する
図8に示す特徴抽出用NN40及びスコア算出用NN41である。
【0071】
そして、誤差算出部32は、番組画像のスコアと番組学習データに含まれる当該番組画像の正解スコアとの間の誤差を算出する(ステップS703)。
【0072】
一方、NN部31は、切り替え部30から芸術性評価画像のテンソルを入力した場合、ニューラルネットワークを用いて、芸術性評価画像からスコアを算出する(ステップS704)。
【0073】
そして、誤差算出部32は、芸術性評価画像のスコアと芸術性学習データに含まれる当該芸術性評価画像の正解スコアとの間の誤差を算出する(ステップS705)。
【0074】
パラメータ更新部33は、誤差算出部32から番組画像の誤差及び芸術性評価画像の誤差を入力し、これらの誤差の和が小さくなるように、保持しているパラメータを更新する(ステップS706)。そして、パラメータ更新部33は、更新したパラメータをNN部31に設定する。
【0075】
ここで、パラメータ更新部33は、NN部31に設定したパラメータを保持しているものとする。
【0076】
尚、パラメータ更新部33は、パラメータを更新する処理として、例えばAdam、SGD(Stocastic Gradient Descent)、誤差逆伝播学習法(Backpropagation)等の一般的なニューラルネットワーク最適化手法を用いる。
【0077】
また、パラメータ更新部33は、番組画像及び芸術性評価画像を組として、所定数の組(例えば30組)毎に、パラメータを更新するようにしてもよい。具体的には、パラメータ更新部33は、所定数の組の誤差をそれぞれ入力し、所定数の組の誤差の和を算出し、当該誤差の和が小さくなるように、パラメータを更新する。
【0078】
パラメータ更新部33は、誤差算出部32から番組画像の誤差を入力した場合、次に芸術性評価画像の誤差を入力するために、芸術性学習データを示す切り替え信号を切り替え部30に出力する。
【0079】
一方、パラメータ更新部33は、誤差算出部32から芸術性評価画像の誤差を入力した場合、次に番組画像の誤差を入力するために、番組学習データを示す切り替え信号を切り替え部30に出力する。
【0080】
パラメータ更新部33は、ステップS706から移行して、パラメータ更新の終了条件を満たすか否かを判定する(ステップS707)。
【0081】
パラメータ更新部33は、ステップS707において、終了条件を満たさないと判定した場合(ステップS707:N)、ステップS701へ移行し、次の番組学習データ及び芸術性学習データの組について、ステップS701~S706の処理を行う。つまり、終了条件を満たすまで、番組学習データ及び芸術性学習データの組毎に、ステップS701~S706の処理が行われる。
【0082】
一方、パラメータ更新部33は、ステップS707において、終了条件を満たすと判定した場合(ステップS707:Y)、ステップS706の処理にて更新したパラメータを最適なパラメータとして出力する(ステップS708)。パラメータ更新部33により出力された最適なパラメータは、後述する
図10に示す代表画像抽出装置2に備えたスコア算出部51のニューラルネットワークに設定される。
【0083】
ここで、ステップS707における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。
【0084】
(NN部31)
次に、
図6に示したNN部31について詳細に説明する。
図8は、NN部31の構成例を示すブロック図である。このNN部31は、特徴抽出用NN40及びスコア算出用NN41を備えて構成される。
【0085】
特徴抽出用NN40は、番組画像または芸術性評価画像を入力データとして、パラメータ更新部33によりパラメータが設定されたニューラルネットワークの演算により、1024次元の画像特徴ベクトルの出力データを求める。
【0086】
スコア算出用NN41は、特徴抽出用NN40により求めた1024次元の画像特徴ベクトルを入力データとして、パラメータ更新部33によりパラメータが設定されたニューラルネットワークの演算により、1次元のスコアの出力データを求める。
【0087】
図9は、NN部31の具体的な構成例を説明する図であり、
図8に示したNN部31の構成を詳細に表したものである。
図9において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。
【0088】
番組画像または芸術性評価画像が入力される「Conv」のプーリング層α1から、1024次元の画像特徴ベクトルが出力される「Concat」の連結層α2までの各層により、特徴抽出用NN40が構成される。
【0089】
また、1024次元の画像特徴ベクトルが入力される「FC」の全結合層α3から、1次元のスコアが出力される「Sigmoid」のシグモイド関数α4の出力層までの各層により、スコア算出用NN41が構成される。
【0090】
このように、NN部31は、番組画像または芸術性評価画像から当該画像の1024次元の画像特徴ベクトルを算出する特徴抽出用NN40と、当該画像の1024次元の画像特徴ベクトルから1次元のスコアを算出するスコア算出用NN41から構成される。
【0091】
このNN部31により、番組画像または芸術性評価画像に付与された正解スコアの段階数に関わることなく、1次元のスコアが算出される。つまり、NN部31としては、番組画像または芸術性評価画像の段階数に応じて異なるニューラルネットワークを用意する必要がなく、段階数に依存することのない固定構成のニューラルネットワークを用意すればよい。
【0092】
以上のように、本発明の実施形態による学習装置1によれば、番組学習データ生成部10は、学習用番組映像をサンプリングして得られた番組画像について、番組HPのURLへアクセスして取得した静止画との間の類似度を算出する。そして、番組学習データ生成部10は、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データを生成する。
【0093】
芸術性学習データ生成部12は、芸術性評価オープンデータに含まれる正解ラベルを、所定の規則に従って正解スコアに変換し、芸術性評価画像及び正解スコアからなる芸術性学習データを生成する。
【0094】
学習部14は、番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習する。具体的には、NN部31は、ニューラルネットワークを用いて、番組学習データに含まれる番組画像から1次元のスコアを算出し、誤差算出部32は、番組画像のスコアと番組学習データに含まれる正解スコアとの間の誤差を算出する。また、NN部31は、芸術性評価画像についても1次元のスコアを算出し、誤差算出部32は、芸術性評価画像のスコアと芸術性学習データに含まれる正解スコアとの間の誤差を算出する。
【0095】
パラメータ更新部33は、番組画像の誤差及び芸術性評価画像の誤差の和が小さくなるように、ニューラルネットワークのパラメータを更新し、所定の終了条件を満たしたときのパラメータを最適なパラメータとして出力する。
【0096】
ここで、番組HPの静止画は、番組制作スタッフのノウハウを生かすことで生成された画像であるため、番組画像と静止画の類似度から算出された番組画像の正解スコアは、番組制作のノウハウを考慮したスコアとなる。
【0097】
これにより、番組画像の正解スコアを用いて学習されたニューラルネットワークも、番組制作のノウハウを考慮したものとなる。したがって、後述する代表画像抽出装置2は、学習装置1により学習されたニューラルネットワークを用いることにより、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
【0098】
また、メモリ11に格納された番組学習データの数がメモリ13に格納された芸術性学習データよりも少ない場合であっても、同じ番組学習データを繰り返し用いることにより、番組学習データの不足分を補充することができる。これにより、芸術性学習データと同数の番組学習データを用意することができ、同数の番組学習データ及び芸術性学習データを用いて、ニューラルネットワークを学習することができる。
【0099】
具体的には、メモリ11に格納された番組学習データの数をA個(Aは正の整数)、メモリ13に格納された芸術性学習データの数をB個(Bは正の整数)、A<B、番組学習データ及び芸術性学習データの差分、すなわちB個からA個を減算した結果を(B-A)とする。番組学習データ及び芸術性学習データの差分に相当する(B-A)個の番組学習データ(芸術性学習データに対する番組学習データの不足分)は、A個の番組学習データのいずれかまたは全てを使用することで補充される。すなわち、学習部14は、A個の番組学習データ、及び、不足分の(B-A)個のデータであって、A個の番組学習データのいずれかまたは全てを用いて補充された番組学習データ、並びにB個の芸術性学習データを用いて、ニューラルネットワークを学習する。この場合、A個の番組学習データ及び不足分の(B-A)個の番組学習データの合計数は、芸術性学習データの数と同じB個である。
【0100】
例えば、番組学習データの数がA=6,000であり、芸術性学習データの数がB=10,000である場合を想定する。この場合、芸術性学習データに対する番組学習データの不足分である(B-A)=4,000個の番組学習データは、A=6,000個の番組学習データの一部を用いて補充される。これにより、不足分の4,000個の番組学習データは、元のA=6,000個の番組学習データを用いて補充することができる。学習部14は、元のA=6,000個の番組学習データ及び不足分の4,000個の番組学習データ、並びに10,000個の芸術性学習データを用いて、ニューラルネットワークを学習する。
【0101】
また、番組学習データの数がA=6,000であり、芸術性学習データの数がB=25,000である場合を想定する。この場合、芸術性学習データに対する番組学習データの不足分である(B-A)=19,000個の番組学習データは、A=6,000個の番組学習データが3回重複して使用され、さらに、残りの1,000個については、A=6,000個の番組学習データの一部が使用される。これにより、不足分の19,000個の番組学習データは、元のA=6,000個の番組学習データを用いて補充することができる。学習部14は、元のA=6,000個の番組学習データ及び不足分の19,000個の番組学習データ、並びに25,000個の芸術性学習データを用いて、ニューラルネットワークを学習する。
【0102】
また、番組画像の正解スコアの段階数と芸術性評価画像の正解スコアの段階数が同じまたは異なる場合であっても、NN部31により、番組画像及び芸術性評価画像について統一した1次元のスコアが算出される。つまり、NN部31において、番組画像及び芸術性評価画像の段階数に依存することのない固定構成のニューラルネットワークを用いることができるから、段階数に応じて異なるニューラルネットワークを予め用意する必要がない。したがって、簡易な構成にて高精度の学習処理を実現することができる。
【0103】
図13は、本発明の実施形態における学習処理の効果を説明する図である。(1)は、非特許文献1の学習処理を示しており、特徴抽出用NN及びクラス分類用NNを用いて、2段階のクラス(2クラス)の正解スコアが付与された画像aのデータセットから、2クラスの確率分布が算出される。
【0104】
(2)は、一般的なマルチデータセットの学習処理を示している。特徴抽出用NN及び上側に示すクラス分類用NNを用いて、2クラスの正解スコアが付与された画像aのデータセットから、2クラスの確率分布が算出される。また、特徴抽出用NN及び下側に示すクラス分類用NNを用いて、3クラスの正解スコアが付与された画像bのデータセットから、3クラスの確率分布が算出される。
【0105】
(3)は、本発明の実施形態における学習処理を示しており、
図8に示したNN部31の特徴抽出用NN40及びスコア算出用NN41による処理に相当する。特徴抽出用NN40及びスコア算出用NN41を用いて、2クラスの正解スコアが付与された画像a(例えば番組画像)のデータセットから、1次元のスコアが算出される。また、特徴抽出用NN40及びスコア算出用NN41を用いて、3クラスの正解スコアが付与された画像b(例えば芸術性評価画像)のデータセットから、1次元のスコアが算出される。
【0106】
(3)において、2クラスのデータセットの場合、例えば第1のクラスの正解スコアは0.0、第2のクラスの正解スコアは1.0である。また、3クラスのデータセットの場合、例えば第1のクラスの正解スコアは0.0、第2のクラスの正解スコアは0.5、第3のクラスの正解スコアは1.0である。
【0107】
(2)において、2クラスのデータセットにおける第1のクラス及び3クラスのデータセットにおける第1のクラスについて、これらの正解スコアが意味する画像に対する評価度合いは、似ているが同じではない。例えば、2クラスのデータセットにおける第1のクラスの正解スコアが0.0、3クラスのデータセットにおける第1のクラスの正解スコアも0.0とする。この場合、両データセットのクラス数が異なるため、正解スコアが0.0の画像に対する評価の幅も異なることとなる。
【0108】
このため、(2)に示したとおり、2クラスのデータセット用のクラス分類用NNと、3クラスのデータセット用のクラス分類用NNとに分け、異なる2つのNNを用いる必要がある。
【0109】
しかしながら、例えば3クラスのデータセットの数が2クラスのデータセットよりも少ない場合には、特徴抽出用NN、上側に示すクラス分類用NN及び下側に示すクラス分類用NNの全体として、精度の高い学習を実現することができない。
【0110】
そこで、(3)に示したように、本発明の実施形態において、1次元のスコアを算出する、両データセットに共通のスコア算出用NN41を用いることで、データセットのクラス数に依存することなく、学習処理を実現することができる。
【0111】
このように、(2)に示したとおり、従来は、複数種類のデータセットを用いてニューラルネットワークを学習する場合、データセット毎に、異なるニューラルネットワークを用意する必要があった。これに対し、(3)に示したとおり、本発明の実施形態では、異なるニューラルネットワークを用意する必要はなく、単一のスコア算出用NN41を用いれば済む。つまり、簡易な構成にて高精度の学習処理を実現することができる。
【0112】
(3)に示す本発明の実施形態は、データセットのクラスとして、順序関係(例えば「great」>「good」>「bad」等)がある場合に、特に有効である。
【0113】
〔代表画像抽出装置〕
次に、
図1に示した学習装置1により学習されたニューラルネットワークを用いて、番組映像から代表画像を抽出する代表画像抽出装置について説明する。
図10は、本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。
【0114】
この代表画像抽出装置2は、サンプリング処理部50、スコア算出部51及び選択部52を備えている。サンプリング処理部50は、番組映像を入力し、番組映像から一定間隔で、フレーム画像である番組画像をサンプリングし、番組画像をスコア算出部51に出力する。
【0115】
尚、サンプリング処理部50は、番組映像をサンプリングして得られた全ての番組画像のうち、所定数の番組画像を予め選択し、選択した所定数の番組画像のみをスコア算出部51に出力するようにしてもよい。これにより、後段のスコア算出部51及び選択部52における処理負荷を低減することができる。
【0116】
スコア算出部51は、
図1に示した学習装置1により学習された学習済みニューラルネットワークを備えている。つまり、スコア算出部51は、学習装置1により出力された最適なパラメータを入力し、ニューラルネットワークに設定する。
【0117】
スコア算出部51は、サンプリング処理部50から番組画像のテンソルを入力し、ニューラルネットワークを用いて、番組画像からスコアを算出する。そして、スコア算出部51は、番組画像及び当該番組画像のスコアを選択部52に出力する。
【0118】
これにより、番組映像をサンプリングして得られた複数の番組画像のそれぞれについて、番組画像及び当該番組画像のスコアが算出され、選択部52に出力される。
【0119】
選択部52は、サンプリング処理部50によりサンプリングして得られた全ての番組画像のそれぞれについて、スコア算出部51から番組画像及びスコアを入力する。そして、選択部52は、スコアの降順に番組画像をソートし、全ての番組画像の中からスコアの高いC枚の番組画像を、代表画像に選択する。Cは1以上の整数であり、予め設定される。
【0120】
選択部52は、C枚の代表画像を時系列順にソートし、時系列順のC枚の代表画像を出力する。
【0121】
尚、選択部52は、全ての番組画像及びこれらに対応するスコアを入力し、閾値処理により、全ての番組画像をスコアに基づいて例えば3段階のクラスに分類し、上位のクラスの番組画像を代表画像に選択するようにしてもよい。選択部52は、必ずしもスコアを等間隔に区切ることで、番組画像を分類する必要はない。
【0122】
例えば、選択部52は、予め設定された閾値(例えば、0.25,0.75)を用いた閾値処理により、0.00≦スコア≦閾値0.25の場合、当該スコアの番組画像を第1の段階のクラスに分類する。また、選択部52は、閾値0.25<スコア<閾値0.75の場合、当該スコアの番組画像を第2の段階のクラスに分類し、閾値0.75≦スコア≦1.00の場合、当該スコアの番組画像を第3の段階のクラスに分類する。そして、選択部52は、第3の段階のクラスの番組画像を代表画像に選択する。
【0123】
以上のように、本発明の実施形態の代表画像抽出装置2によれば、スコア算出部51は、番組映像をサンプリングして得られた番組画像について、学習装置1により学習されたニューラルネットワークを用いて、スコアを算出する。
【0124】
選択部52は、番組映像をサンプリングして得られた全ての番組画像を、スコアの降順にソートし、スコアの高いC枚の番組画像を代表画像に選択し、C枚の代表画像を時系列順にソートして出力する。
【0125】
ここで、学習装置1により学習されたニューラルネットワークは、番組制作のノウハウを考慮して生成されたモデルである。したがって、このニューラルネットワークを用いることにより、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
【0126】
〔代表画像抽出装置2を用いた実施例〕
次に、
図10に示した代表画像抽出装置2を用いた実施例について説明する。
図11は、代表画像抽出装置2を用いた第1実施例の番組HP作成システムを説明する図である。この番組HP作成システム3は、番組HPの作成対象である番組についての番組EPG(Electronic Programming Guide:電子番組表)情報及び番組映像を用いて、番組HPを作成するシステムである。
【0127】
番組HP作成システム3は、代表画像抽出装置2、要約映像生成部100及び自動配置処理部101を備えて構成される。要約映像生成部100は、従来の処理により、番組映像から要約映像を生成する構成部であり、代表画像抽出装置2は、
図10に示した本発明の実施形態による装置であり、番組映像から例えば3枚の代表画像を抽出する。
【0128】
自動配置処理部101は、番組EPG情報、要約映像及び3枚の代表画像を、予め設定された位置に配置し、
図11に示すような番組HPを作成する。
【0129】
図12は、代表画像抽出装置2を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。この番組DVD販売HP作成システム4は、番組DVD販売HPの作成対象である番組DVDについてのDVD宣伝コメント、DVDパッケージ画像及び番組DVD動画を用いて、番組DVD販売HPを作成するシステムである。
【0130】
番組DVD販売HP作成システム4は、代表画像抽出装置2及び自動配置処理部102を備えて構成される。代表画像抽出装置2は、
図10に示した本発明の実施形態による装置であり、番組映像から例えば6枚の代表画像を抽出する。
【0131】
自動配置処理部102は、DVD宣伝コメント、DVDパッケージ画像及び6枚の代表画像を、予め設定された位置に配置し、
図12に示すような番組DVD販売HPを作成する。
【0132】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0133】
例えば、
図1に示した学習装置1は、番組画像に加え、芸術性評価オープンデータの芸術性評価画像を用いて、ニューラルネットワークを学習するようにしたが、番組画像のみを用いるようにしてもよい。また、学習装置1は、番組画像に加え、芸術性評価オープンデータ以外のオープンデータを用いるようにしてもよい。学習に用いるオープンデータは、画像、及び当該画像に対して所定の観点で評価が付与された正解ラベルからなるデータであれば何でもよい。
【0134】
また、
図8及び
図9に示したNN部31の特徴抽出用NN40は、1024次元の画像特徴ベクトルの出力データを求め、スコア算出用NN41は、1024次元の画像特徴ベクトルを入力データとして扱うようにした。この1024次元の画像ベクトルは例示であり、本発明における特徴抽出用NN40の出力データ及びスコア算出用NN41の入力データは、1024次元の画像ベクトルに限定されるものではない。
【0135】
尚、本発明の実施形態による学習装置1のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。本発明の実施形態による代表画像抽出装置2についても同様である。
【0136】
学習装置1に備えた番組学習データ生成部10、メモリ11,13、芸術性学習データ生成部12及び学習部14の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0137】
また、代表画像抽出装置2に備えたサンプリング処理部50、スコア算出部51及び選択部52の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0138】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0139】
1 学習装置
2 代表画像抽出装置
3 番組HP作成システム
4 番組DVD販売HP作成システム
10 番組学習データ生成部
11,13 メモリ
12 芸術性学習データ生成部
14 学習部
20 サンプリング処理部
21 ダウンロード処理部
22 類似度算出部
23,24,25 正解スコア付与部
30 切り替え部
31 NN(ニューラルネットワーク)部
32 誤差算出部
33 パラメータ更新部
40 特徴抽出用NN
41 スコア算出用NN
50 サンプリング処理部
51 スコア算出部
52 選択部
100 要約映像生成部
101,102 自動配置処理部
P1,・・・,PN,Pn 番組画像
P’1,・・・,P’M,P’m 静止画
Sn,m 類似度
B 最大値