IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧
特開2022-145075学習装置、代表画像抽出装置及びプログラム
<>
  • 特開-学習装置、代表画像抽出装置及びプログラム 図1
  • 特開-学習装置、代表画像抽出装置及びプログラム 図2
  • 特開-学習装置、代表画像抽出装置及びプログラム 図3
  • 特開-学習装置、代表画像抽出装置及びプログラム 図4
  • 特開-学習装置、代表画像抽出装置及びプログラム 図5
  • 特開-学習装置、代表画像抽出装置及びプログラム 図6
  • 特開-学習装置、代表画像抽出装置及びプログラム 図7
  • 特開-学習装置、代表画像抽出装置及びプログラム 図8
  • 特開-学習装置、代表画像抽出装置及びプログラム 図9
  • 特開-学習装置、代表画像抽出装置及びプログラム 図10
  • 特開-学習装置、代表画像抽出装置及びプログラム 図11
  • 特開-学習装置、代表画像抽出装置及びプログラム 図12
  • 特開-学習装置、代表画像抽出装置及びプログラム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022145075
(43)【公開日】2022-10-03
(54)【発明の名称】学習装置、代表画像抽出装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20220926BHJP
   G06N 3/08 20060101ALI20220926BHJP
【FI】
G06T7/00 350C
G06N3/08
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021046325
(22)【出願日】2021-03-19
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】前澤 桃子
(72)【発明者】
【氏名】遠藤 伶
(72)【発明者】
【氏名】望月 貴裕
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA01
5L096DA02
5L096EA39
5L096GA51
5L096HA11
5L096JA11
5L096JA22
5L096KA04
(57)【要約】
【課題】番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出する。
【解決手段】学習装置1の番組学習データ生成部10は、テーブル21から、ジャンルコードに対応するジャンラベルを読み出し、学習用番組画像にジャンルラベルを付与し、学習用番組画像、代表画像適性度及びジャンルラベルからなる学習データを生成する。学習部11は、学習データに含まれるジャンルラベルに基づきジャンルベクトルを生成し、NN部31を用いて、学習データに含まれる学習用番組画像及び生成したジャンルベクトルから重要度を計算する。学習部11は、学習データに含まれる代表画像適性度から正解スコアを付与し、重要度と正解スコアとの間の誤差が小さくなるように、NN部31のパラメータを更新する。
【選択図】図1
【特許請求の範囲】
【請求項1】
番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置において、
代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての1または複数のジャンルコードを学習用のジャンルコードとして入力し、
前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、
前記学習用番組画像、前記代表画像適性度及び1または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部と、
前記番組学習データ生成部により生成された前記学習データに含まれる1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、
前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、
前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部と、
を備えたことを特徴とする学習装置。
【請求項2】
請求項1に記載の学習装置において、
前記テーブルには、
1つの前記ジャンルコードと1つの前記ジャンルラベルとの間の対応関係、及び複数の前記ジャンルコードと1つの前記ジャンルラベルとの間の対応関係が定義されている、ことを特徴とする学習装置。
【請求項3】
請求項1または2に記載の学習装置において、
前記学習部は、
前記テーブルに定義された全ての前記ジャンルラベルの数を次元数として、当該次元数の要素からなるベクトルであって、前記学習データに含まれる1または複数の前記ジャンルラベルが反映された要素を含む前記ジャンルベクトルを生成するジャンルベクトル生成部と、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像、及び前記ジャンルベクトル生成部により生成された前記ジャンルベクトルから前記重要度を計算するニューラルネットワーク部と、
前記学習データに含まれる前記代表画像適性度から前記正解スコアを付与する正解スコア付与部と、
前記ニューラルネットワーク部により計算された前記重要度と前記正解スコア付与部により付与された前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、
を備えたことを特徴とする学習装置。
【請求項4】
請求項3に記載の学習装置において、
前記ニューラルネットワーク部は、
前記学習データに含まれる前記学習用番組画像を入力し、ニューラルネットワークの演算を行うことで画像特徴ベクトルを出力する画像特徴抽出ニューラルネットワークと、
前記ジャンルベクトルを入力し、ニューラルネットワークの演算を行うことでジャンル特徴ベクトルを出力するジャンル特徴抽出ニューラルネットワークと、
前記画像特徴抽出ニューラルネットワークにより出力された前記画像特徴ベクトル及び前記ジャンル特徴抽出ニューラルネットワークにより出力された前記ジャンル特徴ベクトルを加算し、特徴ベクトルを求める加算部と、
前記加算部により求めた前記特徴ベクトルを入力し、ニューラルネットワークの演算を行うことで前記重要度を出力する重要度計算ニューラルネットワークと、
を備えたことを特徴とする学習装置。
【請求項5】
番組映像から代表画像を抽出する代表画像抽出装置において、
前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部と、
前記番組映像の番組についての1または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、1または複数の前記ジャンルラベルを付与するジャンルラベル付与部と、
前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
請求項1から4までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部と、
前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部と、
を備えたことを特徴とする代表画像抽出装置。
【請求項6】
番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置を構成するコンピュータを、
代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての1または複数のジャンルコードを学習用のジャンルコードとして入力し、
前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、
前記学習用番組画像、前記代表画像適性度及び1または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部、及び、
前記番組学習データ生成部により生成された前記学習データに含まれる1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、
前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、
前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部として機能させるためのプログラム。
【請求項7】
番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、
前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部、
前記番組映像の番組についての1または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、1または複数の前記ジャンルラベルを付与するジャンルラベル付与部、
前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
請求項1から4までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部、及び、
前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像から代表画像を抽出する映像解析分野に用いる学習装置、代表画像抽出装置及びプログラムに関する。
【背景技術】
【0002】
従来、放送局では視聴者の接触率向上を目的として、番組HP(ホームページ)の充実化が進んでいる。番組HPには、閲覧者に番組内容を大まかに把握してもらうために、番組映像から抽出した複数の代表画像を掲載するケースが多い。
【0003】
しかしながら、番組映像から代表画像を抽出するには大きな労力が必要である。このため、番組映像から代表画像を自動的に抽出する手法が提案されている(例えば、特許文献1、非特許文献1を参照)。
【0004】
例えば特許文献1の手法は、画像集合から人物の顔、シーン及びオブジェクトの判別結果、GPS(Global Positioning System:全地球無線測位システム)情報並びに類似度に基づいて、画像間の関連度を算出し、関連度及び撮影日に基づいて、代表画像を抽出するものである。
【0005】
また、非特許文献1の手法は、事前学習済みのGoogLeNetのニューラルネットワークを用いて、画像に対する芸術性の高低を判定するものである。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第6149015号公報
【非特許文献】
【0007】
【非特許文献1】Xin Jin, et al.,“ILGNet:Inception modules with connected local and global features for efficient image aesthetic quality classification using domain adaptation.”,IET Computer Vision 13.2 (2018):206-212.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、番組映像から代表画像を抽出する際に、前述の特許文献1の手法では、GPS情報、撮影日等の特殊な情報を必要とする。また、前述の非特許文献1の手法では、番組制作のノウハウを考慮していない。
【0009】
このため、従来の手法では、番組映像のジャンル毎の特性を反映した代表画像を抽出することができず、また、番組制作のノウハウを反映した代表画像を抽出することができない、という問題があった。
【0010】
一般に、番組映像にはジャンルに応じた特性があり、代表画像は、ジャンル毎の番組の特性が反映されるべきである。ここで、ジャンル毎の番組の特性とは、当該ジャンルに属する番組が有する固有の性質をいう。例えばドラマ番組の映像の場合、主人公の顔が写っている画像が多いという特性があり、ニュース番組の映像の場合、CG等が埋め込まれている画像が多いという特性がある。
【0011】
このため、ドラマ番組の代表画像は、主人公の顔が写っている画像であることが望ましく、また、ニュース番組の代表画像は、CG等が埋め込まれている画像であることが望ましい。
【0012】
さらに、従来の手法により抽出された代表画像が番組HPに用いられた場合、その番組HPは必ずしも有効なものにはなっておらず、閲覧者に対して番組内容を効果的に提示することができない場合がある、という問題があった。
【0013】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出可能な学習装置、代表画像抽出装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0014】
前記課題を解決するために、請求項1の学習装置は、番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置において、代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての1または複数のジャンルコードを学習用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記学習用番組画像、前記代表画像適性度及び1または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部と、前記番組学習データ生成部により生成された前記学習データに含まれる1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部と、を備えたことを特徴とする。
【0015】
また、請求項2の学習装置は、請求項1に記載の学習装置において、前記テーブルには、1つの前記ジャンルコードと1つの前記ジャンルラベルとの間の対応関係、及び複数の前記ジャンルコードと1つの前記ジャンルラベルとの間の対応関係が定義されている、ことを特徴とする。
【0016】
また、請求項3の学習装置は、請求項1または2に記載の学習装置において、前記学習部が、前記テーブルに定義された全ての前記ジャンルラベルの数を次元数として、当該次元数の要素からなるベクトルであって、前記学習データに含まれる1または複数の前記ジャンルラベルが反映された要素を含む前記ジャンルベクトルを生成するジャンルベクトル生成部と、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像、及び前記ジャンルベクトル生成部により生成された前記ジャンルベクトルから前記重要度を計算するニューラルネットワーク部と、前記学習データに含まれる前記代表画像適性度から前記正解スコアを付与する正解スコア付与部と、前記ニューラルネットワーク部により計算された前記重要度と前記正解スコア付与部により付与された前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする。
【0017】
また、請求項4の学習装置は、請求項3に記載の学習装置において、前記ニューラルネットワーク部が、前記学習データに含まれる前記学習用番組画像を入力し、ニューラルネットワークの演算を行うことで画像特徴ベクトルを出力する画像特徴抽出ニューラルネットワークと、前記ジャンルベクトルを入力し、ニューラルネットワークの演算を行うことでジャンル特徴ベクトルを出力するジャンル特徴抽出ニューラルネットワークと、前記画像特徴抽出ニューラルネットワークにより出力された前記画像特徴ベクトル及び前記ジャンル特徴抽出ニューラルネットワークにより出力された前記ジャンル特徴ベクトルを加算し、特徴ベクトルを求める加算部と、前記加算部により求めた前記特徴ベクトルを入力し、ニューラルネットワークの演算を行うことで前記重要度を出力する重要度計算ニューラルネットワークと、を備えたことを特徴とする。
【0018】
さらに、請求項5の代表画像抽出装置は、番組映像から代表画像を抽出する代表画像抽出装置において、前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部と、前記番組映像の番組についての1または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、1または複数の前記ジャンルラベルを付与するジャンルラベル付与部と、前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、請求項1から4までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部と、前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部と、を備えたことを特徴とする。
【0019】
さらに、請求項6のプログラムは、番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置を構成するコンピュータを、代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての1または複数のジャンルコードを学習用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記学習用番組画像、前記代表画像適性度及び1または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部、及び、前記番組学習データ生成部により生成された前記学習データに含まれる1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部として機能させることを特徴とする。
【0020】
また、請求項7のプログラムは、番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部、前記番組映像の番組についての1または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する1または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、1または複数の前記ジャンルラベルを付与するジャンルラベル付与部、前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された1または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、請求項1から4までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部、及び、前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部として機能させることを特徴とする。
【発明の効果】
【0021】
以上のように、本発明によれば、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。
【図面の簡単な説明】
【0022】
図1】本発明の実施形態による学習装置の構成例を示すブロック図である。
図2】番組学習データ生成部の構成例を示すブロック図である。
図3】番組学習データ生成部の処理例を示すフローチャートである。
図4】学習部の構成例を示すブロック図である。
図5】学習部の処理例を示すフローチャートである。
図6】本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。
図7】本発明の実施形態による代表画像抽出装置の処理例を示すフローチャートである。
図8】(1)は、番組の大分類コードの例を説明する図である。(2)は、番組の中分類コードの例を説明する図である。
図9】テーブルのデータ構成例を示す図である。
図10】画像特徴抽出NNの具体的な構成例を説明する図である。
図11】(1)は、ジャンル特徴抽出NNの具体的な構成例を説明する図である。(2)は、重要度計算NNの具体的な構成例を説明する図である。
図12】代表画像抽出装置を用いた第1実施例の番組HP作成システムを説明する図である。
図13】代表画像抽出装置を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。
【発明を実施するための形態】
【0023】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態による学習装置の構成例を示すブロック図である。
【0024】
この学習装置1は、番組学習データ生成部10及び学習部11を備えている。学習装置1は、後述する代表画像抽出装置2が番組映像からジャンル毎の番組の特性を反映した代表画像を抽出できるように、学習用番組画像及びジャンルコード等を用いて、代表画像抽出装置2の使用するニューラルネットワーク(以下、「NN」と記述する。)を学習する装置である。
【0025】
番組学習データ生成部10は、学習用番組画像、及び当該学習用番組画像の番組についての1または複数のジャンルコード(学習用のジャンルコード)を入力する。学習用番組画像は、様々なジャンルの番組映像からサンプリングされたフレーム画像である。学習用番組画像には、代表画像としての適性の度合いを示すラベル(代表画像適性度)が付与されている。例えばラベルの段階数が3の場合の代表画像適性度は、great(適正度が非常に高い)、good(高い)及びbad(低い)のいずれかである。
【0026】
番組学習データ生成部10は、放送された全ての番組のジャンルコードを保持しているものとする。1つの番組に対して複数のジャンルコードが対応している場合もあり得る。
【0027】
番組学習データ生成部10は、ユーザ操作に従ってジャンルコードの示すジャンルを統合し、ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルを生成する。このテーブルは、後述する代表画像抽出装置2にて用いられる。
【0028】
番組学習データ生成部10は、学習用番組画像に1または複数のジャンルラベルを付与し、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる学習データを生成する。番組学習データ生成部10は、学習データを学習部11に出力する。番組学習データ生成部10、テーブル、代表画像適性度、ジャンルコード及びジャンルラベルの詳細については後述する。
【0029】
これにより、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる学習データが生成される。
【0030】
学習部11は、学習対象の複数のNNを備えている。学習部11は、番組学習データ生成部10から学習データを入力し、学習データを用いて複数のNNを学習する。
【0031】
これにより、複数のNNのそれぞれに用いる最適なパラメータ(重み係数等)が得られる。学習された複数のNNは、ジャンル毎の番組の特性が反映されたネットワークであり、学習により得られたパラメータは、ジャンル毎の番組の特性が反映された値であり、後述する代表画像抽出装置2にて用いられる。
【0032】
(番組学習データ生成部10)
次に、図1に示した番組学習データ生成部10について詳細に説明する。図2は、番組学習データ生成部10の構成例を示すブロック図であり、図3は、番組学習データ生成部10の処理例を示すフローチャートである。この番組学習データ生成部10は、ジャンル統合部20、テーブル21及びジャンルラベル付与部22を備えている。
【0033】
ジャンル統合部20は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組についての1または複数のジャンルコード(大分類コード及び中分類コード)を入力する(ステップS301)。
【0034】
ジャンル統合部20は、学習処理に先立ち、ユーザ操作に従って、放送された全ての番組のジャンルコード(大分類コード及び中分類コード)の示すジャンルを統合する(ステップS302)。この場合、ジャンル統合部20は、例えばジャンルコード毎の学習用番組画像の枚数を計算し、画面表示する。ユーザは、画面表示されたジャンルコード毎の学習用番組画像の枚数を参照しながら、ジャンルを統合するための操作を行う。
【0035】
ジャンル統合部20は、ユーザ操作に従った統合処理により、1または複数のジャンルコードと1つのジャンルラベルとの間の対応関係を定義したテーブル21を生成する(ステップS303)。テーブル21に定義されたジャンルラベルの数は、統合後のジャンル数Nであり、このジャンル数Nは、元のジャンルコードの数よりも少ない(同一の場合もあり得る)。
【0036】
ジャンル統合部20により生成されたテーブル21は、後述する図6に示す代表画像抽出装置2へ出力され、テーブル41として用いられる。
【0037】
ジャンル統合部20は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の1または複数のジャンルコードをジャンルラベル付与部22に出力する。
【0038】
図8(1)は、番組の大分類コードの例を説明する図であり、図8(2)は、番組の中分類コードの例を説明する図である。
【0039】
図8(1)に示すように、番組の大分類コードは14個あり、例えば大分類コード「0」は「ニュース/報道」を示し、大分類コード「1」は「スポーツ」を示す。
【0040】
また、図8(2)に示すように、番組の中分類コードは、大分類コード毎に個数が定められている。例えば大分類コード「0」の場合(「ニュース/報道」の場合)の中分類コード「0」は「定時・総合」を示し、大分類コード「0」の場合の中分類コード「1」は「天気」を示し、大分類コード「1」の場合(「スポーツ」の場合)の中分類コード「0」は「スポーツニュース」を示す。
【0041】
尚、番組の大分類(genre)及び中分類(subgenre)の詳細については、標準規格ARIB STD-B10「デジタル放送に使用する番組配列情報」第2部を参照されたい。
【0042】
ジャンル統合部20は、例えば図8(1)に示した大分類コード毎の学習用番組画像数を計算し、これを、図2には図示しない表示器に画面表示する。
【0043】
ジャンル統合部20は、大分類コード毎の学習用番組画像数を参照したユーザによるキー操作(ユーザ操作)に従い、極端に学習用番組画像数が少ないジャンルをなくすために、例えば大分類コード「3」の「ドラマ」、大分類コード「6」の「映画」、大分類コード「7」の「アニメ/特撮」、大分類コード「9」の「劇場/公演」、大分類コード「14」の「拡張」、及び大分類コード「15」の「その他」を1つのジャンルに統合する。また、ジャンル統合部20は、ユーザによるキー操作に従い、大分類コード「8」の「ドキュメンタリー/教養」及び大分類コード「11」の「福祉」を別の1つのジャンルに統合する。そして、ジャンル統合部20は、テーブル21を生成する。
【0044】
図9は、テーブル21のデータ構成例を示す図であり、前述の例により生成されたテーブル21を示している。テーブル21は、大分類コード及び中分類コード、及び当該大分類コード及び中分類コードに対応するジャンルラベルから構成される。
【0045】
前述の例では、大分類コード「0」の「ニュース/報道」、大分類コード「1」の「スポーツ」、大分類コード「2」の「情報/ワイドショー」、大分類コード「4」の「音楽」、大分類コード「5」の「バラエティ」及び大分類コード「10」の「趣味/教育」は統合されていない。このため、大分類コード「0」(及び当該大分類コード「0」の全ての中分類コード「0~9,10,15」)に対応してジャンルラベルaが定義されている。同様に、大分類コード「1,2,4,5,10」に対応してジャンルラベルb,c,d,e,hが定義されている。
【0046】
また、大分類コード「3」の「ドラマ」、大分類コード「6」の「映画」、・・・、及び大分類コード「15」の「その他」は統合されており、これらに対応してジャンルラベルfが定義されている。さらに、大分類コード「8」の「ドキュメンタリー/教養」及び大分類コード「11」の「福祉」は統合されており、これらに対応してジャンルラベルgが定義されている。
【0047】
このように、ジャンル統合部20により、ジャンルコードの示すジャンルの数を減らすことで、極端に学習用番組画像数が少ないジャンルをなくすように、テーブル21が生成される。
【0048】
これにより、極端に学習用番組画像数が少ないジャンルはなくなる。このため、後述する学習部11にて、後述する代表画像抽出装置2が番組映像から所望の代表画像を抽出するために用いるNNを学習することができる。
【0049】
図2及び図3に戻って、ジャンルラベル付与部22は、ジャンル統合部20から、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の1または複数のジャンルコードを入力する。
【0050】
ジャンルラベル付与部22は、テーブル21から、学習用番組画像の番組のジャンルコードに対応するジャンルラベルを読み出し(ステップS304)、学習用番組画像に、読み出したジャンルラベルを付与する(ステップS305)。
【0051】
ここで、ジャンルラベル付与部22は、ジャンル統合部20から、1つの学習用番組画像について複数のジャンルコードを入力した場合には、1つの学習用番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部22は、1つの学習用番組画像に対し、1つのジャンルラベルまたは複数のジャンルラベルを付与する。
【0052】
ジャンルラベル付与部22は、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる学習データを生成し、学習データを学習部11に出力する(ステップS306)。
【0053】
(学習部11)
次に、図1に示した学習部11について詳細に説明する。図4は、学習部11の構成例を示すブロック図であり、図5は、学習部11の処理例を示すフローチャートである。
【0054】
この学習部11は、ジャンルベクトル生成部30、NN部31、正解スコア付与部36、誤差算出部37及びパラメータ更新部38を備えている。NN部31は、画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35を備えている。学習部11は、ステップS507の処理にて終了条件を満たすまで、複数の学習データからなる組毎に、ステップS501~S506の処理を行う。
【0055】
学習部11は、番組学習データ生成部10から、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる学習データを入力する(ステップS501)。
【0056】
ジャンルベクトル生成部30は、学習データに含まれる1または複数のジャンルラベルを入力し、1または複数のジャンルラベルに基づいて、N次元のジャンルベクトルを生成する(ステップS502)。
【0057】
前述のとおり、Nはジャンル数であり、具体的には、図2に示したジャンル統合部20により図3のステップS303の処理にて生成されたテーブル21に定義されたジャンルラベルの数である。N次元のジャンルベクトルは、ジャンル数Nの要素(図9に示したテーブル21の例ではジャンルラベルa,・・・,hのそれぞれに対応する要素)からなり、学習データに含まれる1または複数のジャンルラベルが反映された要素を含むベクトルである。
【0058】
図9に示したテーブル21の例では、ジャンル数N=8である。例えば学習データに含まれるジャンルラベルがaの場合、ジャンルベクトル生成部30は、ジャンルベクトル(1,0,0,0,0,0,0,0)を生成する。また、学習データに含まれるジャンルラベルがe,fの場合、ジャンルベクトル生成部30は、ジャンルベクトル(0,0,0,0,1,1,0,0)を生成する。
【0059】
NN部31は、学習データに含まれる学習用番組画像を入力すると共に、ジャンルベクトル生成部30からジャンルベクトルを入力する。そして、NN部31は、パラメータ更新部38により更新されたパラメータが設定された画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35、並びに加算部34を用いて、学習用番組画像及びジャンルベクトルからスコアを計算し、これを重要度とする(ステップS503)。NN部31は、重要度を誤差算出部37に出力する。画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35の詳細については後述する。
【0060】
正解スコア付与部36は、処理に先立ち、ユーザ操作に従って、代表画像適性度のラベルの段階数に応じたスコア付与規則を予め設定する。正解スコア付与部36は、学習データに含まれる代表画像適性度を入力し、予め設定されたスコア付与規則を用いて、0.0~1.0の範囲内で代表画像適性度のラベルの段階数に応じた正解スコアを付与する(ステップS504)。正解スコア付与部36は、正解スコアを誤差算出部37に出力する。
【0061】
例えば代表画像適性度のラベルがgreat/good/badであり、段階数が3である場合、正解スコア付与部36は、ユーザ操作に従って、代表画像適性度のラベルgreat/good/badのそれぞれに対し、1.0/0.5/0.0を付与する。この場合、正解スコアは、0.0~1.0の範囲において必ずしも等間隔である必要はなく、例えば1.0/0.7/0.0であってもよく、適切な間隔で付与されるようにすればよい。
【0062】
誤差算出部37は、NN部31から重要度を入力すると共に、正解スコア付与部36から正解スコアを入力する。そして、誤差算出部37は、重要度と正解スコアとの間の誤差を算出し(ステップS505)、誤差をパラメータ更新部38に出力する。例えば誤差を算出する関数としては、MSE(平均二乗誤差)等の、誤差が大きいほど大きい値を出力する関数が用いられる。
【0063】
パラメータ更新部38は、画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35のパラメータを保持している。パラメータ更新部38は、誤差算出部37から誤差を入力し、誤差が小さくなるように、保持しているパラメータを更新する(ステップS506)。そして、パラメータ更新部38は、更新したパラメータをNN部31の画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35に設定する。
【0064】
尚、パラメータ更新部38は、パラメータを更新する処理として、例えばAdam、SGD(Stochastic Gradient Descent)、誤差逆伝播学習法(Backpropagation)等の一般的なNN最適化手法を用いる。
【0065】
パラメータ更新部38は、ステップS506から移行して、パラメータ更新の終了条件を満たすか否かを判定する(ステップS507)。
【0066】
パラメータ更新部38は、ステップS507において、終了条件を満たさないと判定した場合(ステップS507:N)、ステップS501へ移行し、次の学習データについて、ステップS501~S506の処理を行う。つまり、終了条件を満たすまで、学習データの組毎に、ステップS501~S506の処理が行われる。
【0067】
一方、パラメータ更新部38は、ステップS507において、終了条件を満たすと判定した場合(ステップS507:Y)、ステップS506の処理にて更新したパラメータを最適なパラメータとして出力する(ステップS508)。パラメータ更新部38により出力された最適なパラメータは、後述する図6に示す代表画像抽出装置2に備えた重要度計算部43のNNに設定される。
【0068】
ここで、ステップS507における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。
【0069】
このように、学習部11のNN部31により計算される重要度は、画像及びジャンルの特徴が反映された値であって、代表画像適性度が高いほど大きい値となり、代表画像適性度が低いほど小さい値となる。つまり、学習部11により学習されるNN部31は、ジャンル毎の番組の特性が反映され、かつ番組画像について代表画像としての傾向が反映された重要度を計算するネットワークとなる。
【0070】
そして、後述する図6の代表画像抽出装置2において、NN部31のパラメータが設定された当該NN部31と同じ構成のNNを用いることで、番組画像が代表画像としての傾向が高い場合は、大きい値の重要度を得ることができる。一方、番組画像が代表画像としての傾向が低い場合は、小さい値の重要度を得ることができる。
【0071】
(NN部31)
次に、図4に示したNN部31の画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35について詳細に説明する。
【0072】
図10は、画像特徴抽出NN32の具体的な構成例を説明する図であり、図11(1)は、ジャンル特徴抽出NN33の具体的な構成例を説明する図であり、図11(2)は、重要度計算NN35の具体的な構成例を説明する図である。
【0073】
図10図11(1)及び(2)において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。
【0074】
図10に示すように、画像特徴抽出NN32は、「Conv」の畳み込み層α1に学習用番組画像のデータを入力し、「Conv」の畳み込み層α1から「Concat」の連結層α2までのNNの演算を行う。そして、画像特徴抽出NN32は、「Concat」の連結層α2から、1024次元の画像特徴ベクトルを出力する。画像特徴抽出NN32により出力された1024次元の画像特徴ベクトルは、図4に示したNN部31の加算部34に入力される。
【0075】
図11(1)に示すように、ジャンル特徴抽出NN33は、「FC」の全結合層α3にN次元のジャンルベクトルを入力し、「FC」の全結合層α3及び「FC」の全結合層α4のNNの演算を行う。そして、ジャンル特徴抽出NN33は、「FC」の全結合層α4から、1024次元のジャンル特徴ベクトルを出力する。ジャンル特徴抽出NN33により出力された1024次元のジャンル特徴ベクトルは、図4に示したNN部31の加算部34に入力される。ここで、ジャンル特徴抽出NN33により出力されるジャンル特徴ベクトルの次元(サイズ)は、画像特徴抽出NN32により出力される画像特徴ベクトルの次元(サイズ)に等しい。
【0076】
図4に示したNN部31の加算部34は、画像特徴抽出NN32から1024次元の画像特徴ベクトルを入力すると共に、ジャンル特徴抽出NN33から1024次元のジャンル特徴ベクトルを入力する。そして、加算部34は、1024次元の画像特徴ベクトル及び1024次元のジャンル特徴ベクトルを加算し、加算結果である1024次元の特徴ベクトルを重要度計算NN35に出力する。
【0077】
図11(2)に示すように、重要度計算NN35は、「FC」の全結合層α5に1024次元の特徴ベクトルを入力し、「FC」の全結合層α5から「Sigmoid」のシグモイド関数の層α6までのNNの演算を行い、1次元のスコアを計算する。そして、重要度計算NN35は、「Sigmoid」のシグモイド関数の層α6から、1次元のスコアを重要度として図4に示した誤差算出部37に出力する。
【0078】
このように、NN部31は、学習用番組画像から1024次元の画像特徴ベクトルを計算する画像特徴抽出NN32、ジャンルベクトルから1024次元のジャンル特徴ベクトルを計算するジャンル特徴抽出NN33、1024次元の画像特徴ベクトル及び1024次元のジャンル特徴ベクトルを加算する加算部34、及び、加算結果である1024次元の特徴ベクトルから1次元のスコア(重要度)を計算する重要度計算NN35から構成される。
【0079】
このNN部31により、正解スコア付与部36が代表画像適性度から正解スコアを生成する際の正解スコアの段階数に関わることなく、1次元のスコアが算出される。つまり、NN部31としては、代表画像適性度の正解スコアの段階数に応じて異なるNNを用意する必要がなく、段階数に依存することのない固定構成のNNを用意すればよい。
【0080】
以上のように、本発明の実施形態による学習装置1によれば、番組学習データ生成部10は、学習用番組画像及びジャンルコードを入力し、ユーザ操作に従って生成したテーブル21から、ジャンルコードに対応するジャンルラベルを読み出す。そして、番組学習データ生成部10は、学習用番組画像にジャンルラベルを付与し、学習用番組画像、代表画像適性度及びジャンルラベルからなる学習データを生成する。
【0081】
学習部11は、学習データを用いてNN部31を学習する。具体的には、学習部11は、学習データに含まれるジャンルラベルに基づきジャンルベクトルを生成し、NN部31を用いて、学習データに含まれる学習用番組画像及びジャンルベクトルから重要度を計算する。
【0082】
学習部11は、学習データに含まれる代表画像適性度から正解スコアを付与し、重要度と正解スコアとの間の誤差が小さくなるように、NN部31のパラメータを更新することで、NN部31を学習する。
【0083】
ここで、代表画像適性度は、番組の代表画像として適しているか否かを示す指標であり、番組制作のノウハウが反映されているが、ジャンル毎の番組の特性は反映されていない。本発明の実施形態では、学習データとして、代表画像適性度に加え、ジャンルラベルを用いるようにした、これにより、ジャンルを取り入れた学習が行われるため、ジャンル毎の番組の特性を反映したNN部31(NN部31のパラメータ)が生成される。
【0084】
そして、後述する代表画像抽出装置2は、当該NN部31のパラメータが設定されたNN(NN部31と同じ構成のNN)を用いることで、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。
【0085】
〔代表画像抽出装置〕
次に、図1に示した学習装置1により学習されたNNを用いて、番組映像から代表画像を抽出する代表画像抽出装置について説明する。図6は、本発明の実施形態による代表画像抽出装置の構成例を示すブロック図であり、図7は、代表画像抽出装置の処理例を示すフローチャートである。
【0086】
この代表画像抽出装置2は、画像サンプリング部40、テーブル41、ジャンルラベル付与部42、重要度計算部43及び画像ソート部44を備えている。
【0087】
代表画像抽出装置2は、番組映像(当該番組映像を構成する全フレーム)及び当該番組映像の番組についての1または複数のジャンルコード(抽出用のジャンルコード)を入力する(ステップS701)。画像サンプリング部40は、番組映像を入力し、番組映像を一定時間間隔でサンプリングし、サンプリング後の番組画像群を取得する(ステップS702)。
【0088】
尚、代表画像抽出装置2は、番組映像を構成する全フレームを入力する代わりに、当該番組映像をサンプリングすることで得られたフレームのみ(サンプリングされた番組画像群)を入力するようにしてもよい。この場合、代表画像抽出装置2は、画像サンプリング部40を備える必要はなく、計算処理負荷を低減することができる。
【0089】
また、画像サンプリング部40は、番組映像をサンプリングして取得した番組画像群のうち、所定数の番組画像を選択し、選択した所定数の番組画像のみをジャンルラベル付与部42に出力するようにしてもよい。これにより、後段のジャンルラベル付与部42、重要度計算部43及び画像ソート部44における計算処理負荷を低減することができる。
【0090】
テーブル41には、学習装置1の番組学習データ生成部10に備えたジャンル統合部20により生成されたテーブル21と同じデータが格納されている。テーブル41は、当該代表画像抽出装置2の処理に先立って、テーブル21と同じデータが設定される。
【0091】
ジャンルラベル付与部42は、画像サンプリング部40から番組画像群を入力すると共に、番組映像の番組の1または複数のジャンルコードを入力する。そして、ジャンルラベル付与部42は、番組画像群のそれぞれについて、テーブル41から、番組画像の番組のジャンルコードに対応するジャンルラベルを読み出し(ステップS703)、番組画像に、読み出したジャンルラベルを付与する(ステップS704)。
【0092】
ここで、ジャンルラベル付与部42は、1つの番組画像について複数のジャンルコードを入力した場合には、1つの番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部42は、1つの番組画像に対し、1または複数のジャンルラベルを付与する。ジャンルラベル付与部42は、番組画像群のそれぞれについて、番組画像、及び1または複数のジャンルラベルを重要度計算部43に出力する。
【0093】
これにより、番組画像群のそれぞれについて、1または複数のジャンルラベルが付与される。
【0094】
重要度計算部43は、学習装置1により学習されたNN部31と同じ構成のNNを備えている。重要度計算部43に備えたNNには、当該代表画像抽出装置2の処理に先立って、NN部31と同じパラメータが設定される。
【0095】
重要度計算部43は、ジャンルラベル付与部42から、番組画像群のそれぞれについて、番組画像及び1または複数のジャンルラベルを入力する。そして、重要度計算部43は、NNを用いて、番組画像及び1または複数のジャンルラベルから重要度を計算する。
【0096】
具体的には、重要度計算部43は、図4及び図5に示したジャンルベクトル生成部30によるステップS502の処理と同様に、1または複数のジャンルラベルに基づいて、N次元のジャンルベクトルを生成する(ステップS705)。
【0097】
重要度計算部43は、図4に示したNN部31と同様の学習済みのNNを用いて、番組画像及びジャンルベクトルから重要度を計算する(ステップS706)。そして、重要度計算部43は、番組画像群のそれぞれについて、番組画像及び重要度を画像ソート部44に出力する。
【0098】
画像ソート部44は、重要度計算部43から、番組画像群のそれぞれについての番組画像及び重要度を入力する。そして、画像ソート部44は、重要度の降順に番組画像をソートし、全ての番組画像の中から重要度の高い所定数(1以上の整数)の番組画像を、代表画像(候補)として抽出する(ステップS707)。
【0099】
画像ソート部44は、所定数の代表画像を時系列順にソートし、時系列順の所定数の代表画像を出力する(ステップS708)。
【0100】
尚、画像ソート部44は、番組映像を構成する全ての番組画像及びこれらに対応する重要度を入力し、閾値処理により、全ての番組画像を重要度に基づいて例えば3段階のクラスに分類し、上位のクラスの番組画像を代表画像として抽出するようにしてもよい。画像ソート部44は、必ずしも重要度を等間隔に区切ることで、番組画像を分類する必要はない。
【0101】
例えば、画像ソート部44は、予め設定された閾値(例えば、0.25,0.75)を用いた閾値処理により、0.00≦重要度≦閾値0.25の場合、当該重要度の番組画像を第1の段階のクラスに分類する。また、画像ソート部44は、閾値0.25<重要度<閾値0.75の場合、当該重要度の番組画像を第2の段階のクラスに分類し、閾値0.75≦重要度≦1.00の場合、当該重要度の番組画像を第3の段階のクラスに分類する。そして、画像ソート部44は、第3の段階のクラスの番組画像を代表画像として抽出する。
【0102】
以上のように、本発明の実施形態の代表画像抽出装置2によれば、画像サンプリング部40は、番組映像を入力し、番組映像をサンプリングして番組画像群を取得する。ジャンルラベル付与部42は、番組画像群のそれぞれについて、番組映像の番組のジャンルコードを入力し、学習装置1により生成されたテーブル21と同じテーブル41から、ジャンルコードに対応するジャンラベルを読み出し、番組画像にジャンルラベルを付与する。
【0103】
重要度計算部43は、ジャンルラベルから正解スコアを付与し、番組画像群のそれぞれについて、学習装置1により学習されたNN部31と同じNNを用いて、番組画像及びジャンルラベルから重要度を計算する。
【0104】
画像ソート部44は、重要度の降順に番組画像をソートし、重要度の高い所定数の番組画像を代表画像として抽出し、出力する。
【0105】
ここで、代表画像抽出装置2が用いるNNは、学習装置1により学習されたNN部31と同じ構成であり、ジャンル毎の番組の特性を反映したネットワークである。したがって、このNNを用いることで、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。そして、例えば代表画像を用いて番組HPを作成するHP作成者は、作業量を大幅に減らすことができ、HPの充実化を図ることができる。
【0106】
〔代表画像抽出装置2を用いた実施例〕
次に、図6に示した代表画像抽出装置2を用いた実施例について説明する。図12は、代表画像抽出装置2を用いた第1実施例の番組HP作成システムを説明する図である。この番組HP作成システム3は、番組HPの作成対象である番組についての番組EPG(Electronic Programming Guide:電子番組表)情報及び番組映像を用いて、番組HPを作成するシステムである。
【0107】
番組HP作成システム3は、代表画像抽出装置2、要約映像生成部100及び自動配置処理部101を備えて構成される。要約映像生成部100は、従来の処理により、番組映像から要約映像を生成する構成部であり、代表画像抽出装置2は、図6に示した本発明の実施形態による装置であり、番組映像から例えば3枚の代表画像を抽出する。
【0108】
自動配置処理部101は、番組EPG情報、要約映像及び3枚の代表画像を、予め設定された位置に配置し、図12に示すような番組HPを作成する。
【0109】
図13は、代表画像抽出装置2を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。この番組DVD販売HP作成システム4は、番組DVD販売HPの作成対象である番組DVDについてのDVD宣伝コメント、DVDパッケージ画像及び番組DVD動画を用いて、番組DVD販売HPを作成するシステムである。
【0110】
番組DVD販売HP作成システム4は、代表画像抽出装置2及び自動配置処理部102を備えて構成される。代表画像抽出装置2は、図6に示した本発明の実施形態による装置であり、番組DVD動画から例えば6枚の代表画像を抽出する。
【0111】
自動配置処理部102は、DVD宣伝コメント、DVDパッケージ画像及び6枚の代表画像を、予め設定された位置に配置し、図13に示すような番組DVD販売HPを作成する。
【0112】
このように、代表画像抽出装置2により抽出された代表画像を用いる番組HP作成システム3及び番組DVD販売HP作成システム4により、充実したHPを作成することができる。
【0113】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0114】
例えば図1に示した学習装置1において、図10に示した画像特徴抽出NN32は、1024次元の画像特徴ベクトルの出力データを求め、図11(1)に示したジャンル特徴抽出NN33は、1024次元のジャンル特徴ベクトルの出力データを求めるようにした。また、図11(2)に示した重要度計算NN35は、加算部34により求めた1024次元の特徴ベクトルを入力するようにした。この1024次元の画像特徴ベクトル、ジャンル特徴ベクトル及び特徴ベクトルにおける次元数は例示であり、本発明は、次元数を1024次元に限定するものではない。
【0115】
尚、本発明の実施形態による学習装置1のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。本発明の実施形態による代表画像抽出装置2についても同様である。
【0116】
学習装置1に備えた番組学習データ生成部10及び学習部11の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0117】
また、代表画像抽出装置2に備えた画像サンプリング部40、テーブル41、ジャンルラベル付与部42、重要度計算部43及び画像ソート部44の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0118】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0119】
1 学習装置
2 代表画像抽出装置
3 番組HP(ホームページ)作成システム
4 番組DVD販売HP作成システム
10 番組学習データ生成部
11 学習部
20 ジャンル統合部
21,41 テーブル
22,42 ジャンルラベル付与部
30 ジャンルベクトル生成部
31 NN(ニューラルネットワーク)部
32 画像特徴抽出NN
33 ジャンル特徴抽出NN
34 加算部
35 重要度計算NN
36 正解スコア付与部
37 誤差算出部
38 パラメータ更新部
40 画像サンプリング部
43 重要度計算部
44 画像ソート部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13