特開2022-145075 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-145075学習装置、代表画像抽出装置及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022145075

(43)【公開日】2022-10-03

(54)【発明の名称】学習装置、代表画像抽出装置及びプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20220926BHJP

G06N 3/08 20060101ALI20220926BHJP

【ＦＩ】

G06T7/00 350C

G06N3/08

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2021046325

(22)【出願日】2021-03-19

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100121119

【弁理士】

【氏名又は名称】花村泰伸

(72)【発明者】

【氏名】前澤桃子

(72)【発明者】

【氏名】遠藤伶

(72)【発明者】

【氏名】望月貴裕

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096CA01

5L096DA02

5L096EA39

5L096GA51

5L096HA11

5L096JA11

5L096JA22

5L096KA04

(57)【要約】

【課題】番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出する。
【解決手段】学習装置１の番組学習データ生成部１０は、テーブル２１から、ジャンルコードに対応するジャンラベルを読み出し、学習用番組画像にジャンルラベルを付与し、学習用番組画像、代表画像適性度及びジャンルラベルからなる学習データを生成する。学習部１１は、学習データに含まれるジャンルラベルに基づきジャンルベクトルを生成し、ＮＮ部３１を用いて、学習データに含まれる学習用番組画像及び生成したジャンルベクトルから重要度を計算する。学習部１１は、学習データに含まれる代表画像適性度から正解スコアを付与し、重要度と正解スコアとの間の誤差が小さくなるように、ＮＮ部３１のパラメータを更新する。
【選択図】図１

【特許請求の範囲】

【請求項1】

番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置において、
代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての１または複数のジャンルコードを学習用のジャンルコードとして入力し、
前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、
前記学習用番組画像、前記代表画像適性度及び１または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部と、
前記番組学習データ生成部により生成された前記学習データに含まれる１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、
前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、
前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部と、
を備えたことを特徴とする学習装置。

【請求項2】

請求項１に記載の学習装置において、
前記テーブルには、
１つの前記ジャンルコードと１つの前記ジャンルラベルとの間の対応関係、及び複数の前記ジャンルコードと１つの前記ジャンルラベルとの間の対応関係が定義されている、ことを特徴とする学習装置。

【請求項3】

請求項１または２に記載の学習装置において、
前記学習部は、
前記テーブルに定義された全ての前記ジャンルラベルの数を次元数として、当該次元数の要素からなるベクトルであって、前記学習データに含まれる１または複数の前記ジャンルラベルが反映された要素を含む前記ジャンルベクトルを生成するジャンルベクトル生成部と、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像、及び前記ジャンルベクトル生成部により生成された前記ジャンルベクトルから前記重要度を計算するニューラルネットワーク部と、
前記学習データに含まれる前記代表画像適性度から前記正解スコアを付与する正解スコア付与部と、
前記ニューラルネットワーク部により計算された前記重要度と前記正解スコア付与部により付与された前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、
を備えたことを特徴とする学習装置。

【請求項4】

請求項３に記載の学習装置において、
前記ニューラルネットワーク部は、
前記学習データに含まれる前記学習用番組画像を入力し、ニューラルネットワークの演算を行うことで画像特徴ベクトルを出力する画像特徴抽出ニューラルネットワークと、
前記ジャンルベクトルを入力し、ニューラルネットワークの演算を行うことでジャンル特徴ベクトルを出力するジャンル特徴抽出ニューラルネットワークと、
前記画像特徴抽出ニューラルネットワークにより出力された前記画像特徴ベクトル及び前記ジャンル特徴抽出ニューラルネットワークにより出力された前記ジャンル特徴ベクトルを加算し、特徴ベクトルを求める加算部と、
前記加算部により求めた前記特徴ベクトルを入力し、ニューラルネットワークの演算を行うことで前記重要度を出力する重要度計算ニューラルネットワークと、
を備えたことを特徴とする学習装置。

【請求項5】

番組映像から代表画像を抽出する代表画像抽出装置において、
前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部と、
前記番組映像の番組についての１または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、１または複数の前記ジャンルラベルを付与するジャンルラベル付与部と、
前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
請求項１から４までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部と、
前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部と、
を備えたことを特徴とする代表画像抽出装置。

【請求項6】

番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置を構成するコンピュータを、
代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての１または複数のジャンルコードを学習用のジャンルコードとして入力し、
前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、
前記学習用番組画像、前記代表画像適性度及び１または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部、及び、
前記番組学習データ生成部により生成された前記学習データに含まれる１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、
前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、
前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部として機能させるためのプログラム。

【請求項7】

番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、
前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部、
前記番組映像の番組についての１または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、１または複数の前記ジャンルラベルを付与するジャンルラベル付与部、
前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、
請求項１から４までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部、及び、
前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像から代表画像を抽出する映像解析分野に用いる学習装置、代表画像抽出装置及びプログラムに関する。

【背景技術】

【0002】

従来、放送局では視聴者の接触率向上を目的として、番組ＨＰ（ホームページ）の充実化が進んでいる。番組ＨＰには、閲覧者に番組内容を大まかに把握してもらうために、番組映像から抽出した複数の代表画像を掲載するケースが多い。

【0003】

しかしながら、番組映像から代表画像を抽出するには大きな労力が必要である。このため、番組映像から代表画像を自動的に抽出する手法が提案されている（例えば、特許文献１、非特許文献１を参照）。

【0004】

例えば特許文献１の手法は、画像集合から人物の顔、シーン及びオブジェクトの判別結果、ＧＰＳ（Global Positioning System：全地球無線測位システム）情報並びに類似度に基づいて、画像間の関連度を算出し、関連度及び撮影日に基づいて、代表画像を抽出するものである。

【0005】

また、非特許文献１の手法は、事前学習済みのGoogLeNetのニューラルネットワークを用いて、画像に対する芸術性の高低を判定するものである。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特許第６１４９０１５号公報

【非特許文献】

【0007】

【非特許文献1】Xin Jin, et al.，“ILGNet：Inception modules with connected local and global features for efficient image aesthetic quality classification using domain adaptation.”，IET Computer Vision 13.2 (2018)：206-212.

【発明の概要】

【発明が解決しようとする課題】

【0008】

しかしながら、番組映像から代表画像を抽出する際に、前述の特許文献１の手法では、ＧＰＳ情報、撮影日等の特殊な情報を必要とする。また、前述の非特許文献１の手法では、番組制作のノウハウを考慮していない。

【0009】

このため、従来の手法では、番組映像のジャンル毎の特性を反映した代表画像を抽出することができず、また、番組制作のノウハウを反映した代表画像を抽出することができない、という問題があった。

【0010】

一般に、番組映像にはジャンルに応じた特性があり、代表画像は、ジャンル毎の番組の特性が反映されるべきである。ここで、ジャンル毎の番組の特性とは、当該ジャンルに属する番組が有する固有の性質をいう。例えばドラマ番組の映像の場合、主人公の顔が写っている画像が多いという特性があり、ニュース番組の映像の場合、ＣＧ等が埋め込まれている画像が多いという特性がある。

【0011】

このため、ドラマ番組の代表画像は、主人公の顔が写っている画像であることが望ましく、また、ニュース番組の代表画像は、ＣＧ等が埋め込まれている画像であることが望ましい。

【0012】

さらに、従来の手法により抽出された代表画像が番組ＨＰに用いられた場合、その番組ＨＰは必ずしも有効なものにはなっておらず、閲覧者に対して番組内容を効果的に提示することができない場合がある、という問題があった。

【0013】

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出可能な学習装置、代表画像抽出装置及びプログラムを提供することにある。

【課題を解決するための手段】

【0014】

前記課題を解決するために、請求項１の学習装置は、番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置において、代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての１または複数のジャンルコードを学習用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記学習用番組画像、前記代表画像適性度及び１または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部と、前記番組学習データ生成部により生成された前記学習データに含まれる１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部と、を備えたことを特徴とする。

【0015】

また、請求項２の学習装置は、請求項１に記載の学習装置において、前記テーブルには、１つの前記ジャンルコードと１つの前記ジャンルラベルとの間の対応関係、及び複数の前記ジャンルコードと１つの前記ジャンルラベルとの間の対応関係が定義されている、ことを特徴とする。

【0016】

また、請求項３の学習装置は、請求項１または２に記載の学習装置において、前記学習部が、前記テーブルに定義された全ての前記ジャンルラベルの数を次元数として、当該次元数の要素からなるベクトルであって、前記学習データに含まれる１または複数の前記ジャンルラベルが反映された要素を含む前記ジャンルベクトルを生成するジャンルベクトル生成部と、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像、及び前記ジャンルベクトル生成部により生成された前記ジャンルベクトルから前記重要度を計算するニューラルネットワーク部と、前記学習データに含まれる前記代表画像適性度から前記正解スコアを付与する正解スコア付与部と、前記ニューラルネットワーク部により計算された前記重要度と前記正解スコア付与部により付与された前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を備えたことを特徴とする。

【0017】

また、請求項４の学習装置は、請求項３に記載の学習装置において、前記ニューラルネットワーク部が、前記学習データに含まれる前記学習用番組画像を入力し、ニューラルネットワークの演算を行うことで画像特徴ベクトルを出力する画像特徴抽出ニューラルネットワークと、前記ジャンルベクトルを入力し、ニューラルネットワークの演算を行うことでジャンル特徴ベクトルを出力するジャンル特徴抽出ニューラルネットワークと、前記画像特徴抽出ニューラルネットワークにより出力された前記画像特徴ベクトル及び前記ジャンル特徴抽出ニューラルネットワークにより出力された前記ジャンル特徴ベクトルを加算し、特徴ベクトルを求める加算部と、前記加算部により求めた前記特徴ベクトルを入力し、ニューラルネットワークの演算を行うことで前記重要度を出力する重要度計算ニューラルネットワークと、を備えたことを特徴とする。

【0018】

さらに、請求項５の代表画像抽出装置は、番組映像から代表画像を抽出する代表画像抽出装置において、前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部と、前記番組映像の番組についての１または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、１または複数の前記ジャンルラベルを付与するジャンルラベル付与部と、前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、請求項１から４までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部と、前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部と、を備えたことを特徴とする。

【0019】

さらに、請求項６のプログラムは、番組映像から代表画像を抽出するために用いるニューラルネットワークを学習する学習装置を構成するコンピュータを、代表画像適性度が付与された学習用番組画像を入力すると共に、当該学習用番組画像の番組についての１または複数のジャンルコードを学習用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記学習用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記学習用番組画像、前記代表画像適性度及び１または複数の前記ジャンルラベルからなる学習データを生成する番組学習データ生成部、及び、前記番組学習データ生成部により生成された前記学習データに含まれる１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記ニューラルネットワークを用いて、前記学習データに含まれる前記学習用番組画像及び前記ジャンルベクトルから重要度を計算し、前記学習データに含まれる前記代表画像適性度から正解スコアを付与し、前記重要度と前記正解スコアとの間の誤差が小さくなるように、前記ニューラルネットワークのパラメータを更新することで、前記ニューラルネットワークを学習する学習部として機能させることを特徴とする。

【0020】

また、請求項７のプログラムは、番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、前記番組映像を入力し、当該番組映像をサンプリングして番組画像群を取得する画像サンプリング部、前記番組映像の番組についての１または複数のジャンルコードを抽出用のジャンルコードとして入力し、前記ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルから、前記抽出用のジャンルコードに対応する１または複数の前記ジャンルラベルを読み出し、前記画像サンプリング部により取得された前記番組画像群のそれぞれに、１または複数の前記ジャンルラベルを付与するジャンルラベル付与部、前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された１または複数の前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、請求項１から４までのいずれか一項に記載の学習装置により学習されたニューラルネットワークを用いて、当該番組画像及び前記ジャンルベクトルから重要度を計算する重要度計算部、及び、前記重要度計算部により計算された前記番組画像群のそれぞれについての前記重要度に基づいて、前記番組画像群をソートし、前記代表画像を抽出する画像ソート部として機能させることを特徴とする。

【発明の効果】

【0021】

以上のように、本発明によれば、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。

【図面の簡単な説明】

【0022】

【図1】本発明の実施形態による学習装置の構成例を示すブロック図である。

【図2】番組学習データ生成部の構成例を示すブロック図である。

【図3】番組学習データ生成部の処理例を示すフローチャートである。

【図4】学習部の構成例を示すブロック図である。

【図5】学習部の処理例を示すフローチャートである。

【図6】本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。

【図7】本発明の実施形態による代表画像抽出装置の処理例を示すフローチャートである。

【図8】（１）は、番組の大分類コードの例を説明する図である。（２）は、番組の中分類コードの例を説明する図である。

【図9】テーブルのデータ構成例を示す図である。

【図10】画像特徴抽出ＮＮの具体的な構成例を説明する図である。

【図11】（１）は、ジャンル特徴抽出ＮＮの具体的な構成例を説明する図である。（２）は、重要度計算ＮＮの具体的な構成例を説明する図である。

【図12】代表画像抽出装置を用いた第１実施例の番組ＨＰ作成システムを説明する図である。

【図13】代表画像抽出装置を用いた第２実施例の番組ＤＶＤ販売ＨＰ作成システムを説明する図である。

【発明を実施するための形態】

【0023】

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図１は、本発明の実施形態による学習装置の構成例を示すブロック図である。

【0024】

この学習装置１は、番組学習データ生成部１０及び学習部１１を備えている。学習装置１は、後述する代表画像抽出装置２が番組映像からジャンル毎の番組の特性を反映した代表画像を抽出できるように、学習用番組画像及びジャンルコード等を用いて、代表画像抽出装置２の使用するニューラルネットワーク（以下、「ＮＮ」と記述する。）を学習する装置である。

【0025】

番組学習データ生成部１０は、学習用番組画像、及び当該学習用番組画像の番組についての１または複数のジャンルコード（学習用のジャンルコード）を入力する。学習用番組画像は、様々なジャンルの番組映像からサンプリングされたフレーム画像である。学習用番組画像には、代表画像としての適性の度合いを示すラベル（代表画像適性度）が付与されている。例えばラベルの段階数が３の場合の代表画像適性度は、great（適正度が非常に高い）、good（高い）及びbad（低い）のいずれかである。

【0026】

番組学習データ生成部１０は、放送された全ての番組のジャンルコードを保持しているものとする。１つの番組に対して複数のジャンルコードが対応している場合もあり得る。

【0027】

番組学習データ生成部１０は、ユーザ操作に従ってジャンルコードの示すジャンルを統合し、ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルを生成する。このテーブルは、後述する代表画像抽出装置２にて用いられる。

【0028】

番組学習データ生成部１０は、学習用番組画像に１または複数のジャンルラベルを付与し、学習用番組画像、代表画像適性度及び１または複数のジャンルラベルからなる学習データを生成する。番組学習データ生成部１０は、学習データを学習部１１に出力する。番組学習データ生成部１０、テーブル、代表画像適性度、ジャンルコード及びジャンルラベルの詳細については後述する。

【0029】

これにより、学習用番組画像、代表画像適性度及び１または複数のジャンルラベルからなる学習データが生成される。

【0030】

学習部１１は、学習対象の複数のＮＮを備えている。学習部１１は、番組学習データ生成部１０から学習データを入力し、学習データを用いて複数のＮＮを学習する。

【0031】

これにより、複数のＮＮのそれぞれに用いる最適なパラメータ（重み係数等）が得られる。学習された複数のＮＮは、ジャンル毎の番組の特性が反映されたネットワークであり、学習により得られたパラメータは、ジャンル毎の番組の特性が反映された値であり、後述する代表画像抽出装置２にて用いられる。

【0032】

（番組学習データ生成部１０）
次に、図１に示した番組学習データ生成部１０について詳細に説明する。図２は、番組学習データ生成部１０の構成例を示すブロック図であり、図３は、番組学習データ生成部１０の処理例を示すフローチャートである。この番組学習データ生成部１０は、ジャンル統合部２０、テーブル２１及びジャンルラベル付与部２２を備えている。

【0033】

ジャンル統合部２０は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組についての１または複数のジャンルコード（大分類コード及び中分類コード）を入力する（ステップＳ３０１）。

【0034】

ジャンル統合部２０は、学習処理に先立ち、ユーザ操作に従って、放送された全ての番組のジャンルコード（大分類コード及び中分類コード）の示すジャンルを統合する（ステップＳ３０２）。この場合、ジャンル統合部２０は、例えばジャンルコード毎の学習用番組画像の枚数を計算し、画面表示する。ユーザは、画面表示されたジャンルコード毎の学習用番組画像の枚数を参照しながら、ジャンルを統合するための操作を行う。

【0035】

ジャンル統合部２０は、ユーザ操作に従った統合処理により、１または複数のジャンルコードと１つのジャンルラベルとの間の対応関係を定義したテーブル２１を生成する（ステップＳ３０３）。テーブル２１に定義されたジャンルラベルの数は、統合後のジャンル数Ｎであり、このジャンル数Ｎは、元のジャンルコードの数よりも少ない（同一の場合もあり得る）。

【0036】

ジャンル統合部２０により生成されたテーブル２１は、後述する図６に示す代表画像抽出装置２へ出力され、テーブル４１として用いられる。

【0037】

ジャンル統合部２０は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の１または複数のジャンルコードをジャンルラベル付与部２２に出力する。

【0038】

図８（１）は、番組の大分類コードの例を説明する図であり、図８（２）は、番組の中分類コードの例を説明する図である。

【0039】

図８（１）に示すように、番組の大分類コードは１４個あり、例えば大分類コード「０」は「ニュース／報道」を示し、大分類コード「１」は「スポーツ」を示す。

【0040】

また、図８（２）に示すように、番組の中分類コードは、大分類コード毎に個数が定められている。例えば大分類コード「０」の場合（「ニュース／報道」の場合）の中分類コード「０」は「定時・総合」を示し、大分類コード「０」の場合の中分類コード「１」は「天気」を示し、大分類コード「１」の場合（「スポーツ」の場合）の中分類コード「０」は「スポーツニュース」を示す。

【0041】

尚、番組の大分類（genre）及び中分類(subgenre)の詳細については、標準規格ＡＲＩＢＳＴＤ－Ｂ１０「デジタル放送に使用する番組配列情報」第２部を参照されたい。

【0042】

ジャンル統合部２０は、例えば図８（１）に示した大分類コード毎の学習用番組画像数を計算し、これを、図２には図示しない表示器に画面表示する。

【0043】

ジャンル統合部２０は、大分類コード毎の学習用番組画像数を参照したユーザによるキー操作（ユーザ操作）に従い、極端に学習用番組画像数が少ないジャンルをなくすために、例えば大分類コード「３」の「ドラマ」、大分類コード「６」の「映画」、大分類コード「７」の「アニメ／特撮」、大分類コード「９」の「劇場/公演」、大分類コード「１４」の「拡張」、及び大分類コード「１５」の「その他」を１つのジャンルに統合する。また、ジャンル統合部２０は、ユーザによるキー操作に従い、大分類コード「８」の「ドキュメンタリー／教養」及び大分類コード「１１」の「福祉」を別の１つのジャンルに統合する。そして、ジャンル統合部２０は、テーブル２１を生成する。

【0044】

図９は、テーブル２１のデータ構成例を示す図であり、前述の例により生成されたテーブル２１を示している。テーブル２１は、大分類コード及び中分類コード、及び当該大分類コード及び中分類コードに対応するジャンルラベルから構成される。

【0045】

前述の例では、大分類コード「０」の「ニュース／報道」、大分類コード「１」の「スポーツ」、大分類コード「２」の「情報／ワイドショー」、大分類コード「４」の「音楽」、大分類コード「５」の「バラエティ」及び大分類コード「１０」の「趣味／教育」は統合されていない。このため、大分類コード「０」（及び当該大分類コード「０」の全ての中分類コード「０～９，１０，１５」）に対応してジャンルラベルａが定義されている。同様に、大分類コード「１，２，４，５，１０」に対応してジャンルラベルｂ，ｃ，ｄ，ｅ，ｈが定義されている。

【0046】

また、大分類コード「３」の「ドラマ」、大分類コード「６」の「映画」、・・・、及び大分類コード「１５」の「その他」は統合されており、これらに対応してジャンルラベルｆが定義されている。さらに、大分類コード「８」の「ドキュメンタリー／教養」及び大分類コード「１１」の「福祉」は統合されており、これらに対応してジャンルラベルｇが定義されている。

【0047】

このように、ジャンル統合部２０により、ジャンルコードの示すジャンルの数を減らすことで、極端に学習用番組画像数が少ないジャンルをなくすように、テーブル２１が生成される。

【0048】

これにより、極端に学習用番組画像数が少ないジャンルはなくなる。このため、後述する学習部１１にて、後述する代表画像抽出装置２が番組映像から所望の代表画像を抽出するために用いるＮＮを学習することができる。

【0049】

図２及び図３に戻って、ジャンルラベル付与部２２は、ジャンル統合部２０から、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の１または複数のジャンルコードを入力する。

【0050】

ジャンルラベル付与部２２は、テーブル２１から、学習用番組画像の番組のジャンルコードに対応するジャンルラベルを読み出し（ステップＳ３０４）、学習用番組画像に、読み出したジャンルラベルを付与する（ステップＳ３０５）。

【0051】

ここで、ジャンルラベル付与部２２は、ジャンル統合部２０から、１つの学習用番組画像について複数のジャンルコードを入力した場合には、１つの学習用番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部２２は、１つの学習用番組画像に対し、１つのジャンルラベルまたは複数のジャンルラベルを付与する。

【0052】

ジャンルラベル付与部２２は、学習用番組画像、代表画像適性度及び１または複数のジャンルラベルからなる学習データを生成し、学習データを学習部１１に出力する（ステップＳ３０６）。

【0053】

（学習部１１）
次に、図１に示した学習部１１について詳細に説明する。図４は、学習部１１の構成例を示すブロック図であり、図５は、学習部１１の処理例を示すフローチャートである。

【0054】

この学習部１１は、ジャンルベクトル生成部３０、ＮＮ部３１、正解スコア付与部３６、誤差算出部３７及びパラメータ更新部３８を備えている。ＮＮ部３１は、画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３、加算部３４及び重要度計算ＮＮ３５を備えている。学習部１１は、ステップＳ５０７の処理にて終了条件を満たすまで、複数の学習データからなる組毎に、ステップＳ５０１～Ｓ５０６の処理を行う。

【0055】

学習部１１は、番組学習データ生成部１０から、学習用番組画像、代表画像適性度及び１または複数のジャンルラベルからなる学習データを入力する（ステップＳ５０１）。

【0056】

ジャンルベクトル生成部３０は、学習データに含まれる１または複数のジャンルラベルを入力し、１または複数のジャンルラベルに基づいて、Ｎ次元のジャンルベクトルを生成する（ステップＳ５０２）。

【0057】

前述のとおり、Ｎはジャンル数であり、具体的には、図２に示したジャンル統合部２０により図３のステップＳ３０３の処理にて生成されたテーブル２１に定義されたジャンルラベルの数である。Ｎ次元のジャンルベクトルは、ジャンル数Ｎの要素（図９に示したテーブル２１の例ではジャンルラベルａ，・・・，ｈのそれぞれに対応する要素）からなり、学習データに含まれる１または複数のジャンルラベルが反映された要素を含むベクトルである。

【0058】

図９に示したテーブル２１の例では、ジャンル数Ｎ＝８である。例えば学習データに含まれるジャンルラベルがａの場合、ジャンルベクトル生成部３０は、ジャンルベクトル（１，０，０，０，０，０，０，０）を生成する。また、学習データに含まれるジャンルラベルがｅ，ｆの場合、ジャンルベクトル生成部３０は、ジャンルベクトル（０，０，０，０，１，１，０，０）を生成する。

【0059】

ＮＮ部３１は、学習データに含まれる学習用番組画像を入力すると共に、ジャンルベクトル生成部３０からジャンルベクトルを入力する。そして、ＮＮ部３１は、パラメータ更新部３８により更新されたパラメータが設定された画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３及び重要度計算ＮＮ３５、並びに加算部３４を用いて、学習用番組画像及びジャンルベクトルからスコアを計算し、これを重要度とする（ステップＳ５０３）。ＮＮ部３１は、重要度を誤差算出部３７に出力する。画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３、加算部３４及び重要度計算ＮＮ３５の詳細については後述する。

【0060】

正解スコア付与部３６は、処理に先立ち、ユーザ操作に従って、代表画像適性度のラベルの段階数に応じたスコア付与規則を予め設定する。正解スコア付与部３６は、学習データに含まれる代表画像適性度を入力し、予め設定されたスコア付与規則を用いて、０．０～１．０の範囲内で代表画像適性度のラベルの段階数に応じた正解スコアを付与する（ステップＳ５０４）。正解スコア付与部３６は、正解スコアを誤差算出部３７に出力する。

【0061】

例えば代表画像適性度のラベルがgreat／good／badであり、段階数が３である場合、正解スコア付与部３６は、ユーザ操作に従って、代表画像適性度のラベルgreat／good／badのそれぞれに対し、１．０／０．５／０．０を付与する。この場合、正解スコアは、０．０～１．０の範囲において必ずしも等間隔である必要はなく、例えば１．０／０．７／０．０であってもよく、適切な間隔で付与されるようにすればよい。

【0062】

誤差算出部３７は、ＮＮ部３１から重要度を入力すると共に、正解スコア付与部３６から正解スコアを入力する。そして、誤差算出部３７は、重要度と正解スコアとの間の誤差を算出し（ステップＳ５０５）、誤差をパラメータ更新部３８に出力する。例えば誤差を算出する関数としては、ＭＳＥ（平均二乗誤差）等の、誤差が大きいほど大きい値を出力する関数が用いられる。

【0063】

パラメータ更新部３８は、画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３及び重要度計算ＮＮ３５のパラメータを保持している。パラメータ更新部３８は、誤差算出部３７から誤差を入力し、誤差が小さくなるように、保持しているパラメータを更新する（ステップＳ５０６）。そして、パラメータ更新部３８は、更新したパラメータをＮＮ部３１の画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３及び重要度計算ＮＮ３５に設定する。

【0064】

尚、パラメータ更新部３８は、パラメータを更新する処理として、例えばＡｄａｍ、ＳＧＤ（Stochastic Gradient Descent）、誤差逆伝播学習法（Backpropagation）等の一般的なＮＮ最適化手法を用いる。

【0065】

パラメータ更新部３８は、ステップＳ５０６から移行して、パラメータ更新の終了条件を満たすか否かを判定する（ステップＳ５０７）。

【0066】

パラメータ更新部３８は、ステップＳ５０７において、終了条件を満たさないと判定した場合（ステップＳ５０７：Ｎ）、ステップＳ５０１へ移行し、次の学習データについて、ステップＳ５０１～Ｓ５０６の処理を行う。つまり、終了条件を満たすまで、学習データの組毎に、ステップＳ５０１～Ｓ５０６の処理が行われる。

【0067】

一方、パラメータ更新部３８は、ステップＳ５０７において、終了条件を満たすと判定した場合（ステップＳ５０７：Ｙ）、ステップＳ５０６の処理にて更新したパラメータを最適なパラメータとして出力する（ステップＳ５０８）。パラメータ更新部３８により出力された最適なパラメータは、後述する図６に示す代表画像抽出装置２に備えた重要度計算部４３のＮＮに設定される。

【0068】

ここで、ステップＳ５０７における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。

【0069】

このように、学習部１１のＮＮ部３１により計算される重要度は、画像及びジャンルの特徴が反映された値であって、代表画像適性度が高いほど大きい値となり、代表画像適性度が低いほど小さい値となる。つまり、学習部１１により学習されるＮＮ部３１は、ジャンル毎の番組の特性が反映され、かつ番組画像について代表画像としての傾向が反映された重要度を計算するネットワークとなる。

【0070】

そして、後述する図６の代表画像抽出装置２において、ＮＮ部３１のパラメータが設定された当該ＮＮ部３１と同じ構成のＮＮを用いることで、番組画像が代表画像としての傾向が高い場合は、大きい値の重要度を得ることができる。一方、番組画像が代表画像としての傾向が低い場合は、小さい値の重要度を得ることができる。

【0071】

（ＮＮ部３１）
次に、図４に示したＮＮ部３１の画像特徴抽出ＮＮ３２、ジャンル特徴抽出ＮＮ３３、加算部３４及び重要度計算ＮＮ３５について詳細に説明する。

【0072】

図１０は、画像特徴抽出ＮＮ３２の具体的な構成例を説明する図であり、図１１（１）は、ジャンル特徴抽出ＮＮ３３の具体的な構成例を説明する図であり、図１１（２）は、重要度計算ＮＮ３５の具体的な構成例を説明する図である。

【0073】

図１０、図１１（１）及び（２）において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。

【0074】

図１０に示すように、画像特徴抽出ＮＮ３２は、「Conv」の畳み込み層α１に学習用番組画像のデータを入力し、「Conv」の畳み込み層α１から「Concat」の連結層α２までのＮＮの演算を行う。そして、画像特徴抽出ＮＮ３２は、「Concat」の連結層α２から、１０２４次元の画像特徴ベクトルを出力する。画像特徴抽出ＮＮ３２により出力された１０２４次元の画像特徴ベクトルは、図４に示したＮＮ部３１の加算部３４に入力される。

【0075】

図１１（１）に示すように、ジャンル特徴抽出ＮＮ３３は、「FC」の全結合層α３にＮ次元のジャンルベクトルを入力し、「FC」の全結合層α３及び「FC」の全結合層α４のＮＮの演算を行う。そして、ジャンル特徴抽出ＮＮ３３は、「FC」の全結合層α４から、１０２４次元のジャンル特徴ベクトルを出力する。ジャンル特徴抽出ＮＮ３３により出力された１０２４次元のジャンル特徴ベクトルは、図４に示したＮＮ部３１の加算部３４に入力される。ここで、ジャンル特徴抽出ＮＮ３３により出力されるジャンル特徴ベクトルの次元（サイズ）は、画像特徴抽出ＮＮ３２により出力される画像特徴ベクトルの次元（サイズ）に等しい。

【0076】

図４に示したＮＮ部３１の加算部３４は、画像特徴抽出ＮＮ３２から１０２４次元の画像特徴ベクトルを入力すると共に、ジャンル特徴抽出ＮＮ３３から１０２４次元のジャンル特徴ベクトルを入力する。そして、加算部３４は、１０２４次元の画像特徴ベクトル及び１０２４次元のジャンル特徴ベクトルを加算し、加算結果である１０２４次元の特徴ベクトルを重要度計算ＮＮ３５に出力する。

【0077】

図１１（２）に示すように、重要度計算ＮＮ３５は、「FC」の全結合層α５に１０２４次元の特徴ベクトルを入力し、「FC」の全結合層α５から「Sigmoid」のシグモイド関数の層α６までのＮＮの演算を行い、１次元のスコアを計算する。そして、重要度計算ＮＮ３５は、「Sigmoid」のシグモイド関数の層α６から、１次元のスコアを重要度として図４に示した誤差算出部３７に出力する。

【0078】

このように、ＮＮ部３１は、学習用番組画像から１０２４次元の画像特徴ベクトルを計算する画像特徴抽出ＮＮ３２、ジャンルベクトルから１０２４次元のジャンル特徴ベクトルを計算するジャンル特徴抽出ＮＮ３３、１０２４次元の画像特徴ベクトル及び１０２４次元のジャンル特徴ベクトルを加算する加算部３４、及び、加算結果である１０２４次元の特徴ベクトルから１次元のスコア（重要度）を計算する重要度計算ＮＮ３５から構成される。

【0079】

このＮＮ部３１により、正解スコア付与部３６が代表画像適性度から正解スコアを生成する際の正解スコアの段階数に関わることなく、１次元のスコアが算出される。つまり、ＮＮ部３１としては、代表画像適性度の正解スコアの段階数に応じて異なるＮＮを用意する必要がなく、段階数に依存することのない固定構成のＮＮを用意すればよい。

【0080】

以上のように、本発明の実施形態による学習装置１によれば、番組学習データ生成部１０は、学習用番組画像及びジャンルコードを入力し、ユーザ操作に従って生成したテーブル２１から、ジャンルコードに対応するジャンルラベルを読み出す。そして、番組学習データ生成部１０は、学習用番組画像にジャンルラベルを付与し、学習用番組画像、代表画像適性度及びジャンルラベルからなる学習データを生成する。

【0081】

学習部１１は、学習データを用いてＮＮ部３１を学習する。具体的には、学習部１１は、学習データに含まれるジャンルラベルに基づきジャンルベクトルを生成し、ＮＮ部３１を用いて、学習データに含まれる学習用番組画像及びジャンルベクトルから重要度を計算する。

【0082】

学習部１１は、学習データに含まれる代表画像適性度から正解スコアを付与し、重要度と正解スコアとの間の誤差が小さくなるように、ＮＮ部３１のパラメータを更新することで、ＮＮ部３１を学習する。

【0083】

ここで、代表画像適性度は、番組の代表画像として適しているか否かを示す指標であり、番組制作のノウハウが反映されているが、ジャンル毎の番組の特性は反映されていない。本発明の実施形態では、学習データとして、代表画像適性度に加え、ジャンルラベルを用いるようにした、これにより、ジャンルを取り入れた学習が行われるため、ジャンル毎の番組の特性を反映したＮＮ部３１（ＮＮ部３１のパラメータ）が生成される。

【0084】

そして、後述する代表画像抽出装置２は、当該ＮＮ部３１のパラメータが設定されたＮＮ（ＮＮ部３１と同じ構成のＮＮ）を用いることで、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。

【0085】

〔代表画像抽出装置〕
次に、図１に示した学習装置１により学習されたＮＮを用いて、番組映像から代表画像を抽出する代表画像抽出装置について説明する。図６は、本発明の実施形態による代表画像抽出装置の構成例を示すブロック図であり、図７は、代表画像抽出装置の処理例を示すフローチャートである。

【0086】

この代表画像抽出装置２は、画像サンプリング部４０、テーブル４１、ジャンルラベル付与部４２、重要度計算部４３及び画像ソート部４４を備えている。

【0087】

代表画像抽出装置２は、番組映像（当該番組映像を構成する全フレーム）及び当該番組映像の番組についての１または複数のジャンルコード（抽出用のジャンルコード）を入力する（ステップＳ７０１）。画像サンプリング部４０は、番組映像を入力し、番組映像を一定時間間隔でサンプリングし、サンプリング後の番組画像群を取得する（ステップＳ７０２）。

【0088】

尚、代表画像抽出装置２は、番組映像を構成する全フレームを入力する代わりに、当該番組映像をサンプリングすることで得られたフレームのみ（サンプリングされた番組画像群）を入力するようにしてもよい。この場合、代表画像抽出装置２は、画像サンプリング部４０を備える必要はなく、計算処理負荷を低減することができる。

【0089】

また、画像サンプリング部４０は、番組映像をサンプリングして取得した番組画像群のうち、所定数の番組画像を選択し、選択した所定数の番組画像のみをジャンルラベル付与部４２に出力するようにしてもよい。これにより、後段のジャンルラベル付与部４２、重要度計算部４３及び画像ソート部４４における計算処理負荷を低減することができる。

【0090】

テーブル４１には、学習装置１の番組学習データ生成部１０に備えたジャンル統合部２０により生成されたテーブル２１と同じデータが格納されている。テーブル４１は、当該代表画像抽出装置２の処理に先立って、テーブル２１と同じデータが設定される。

【0091】

ジャンルラベル付与部４２は、画像サンプリング部４０から番組画像群を入力すると共に、番組映像の番組の１または複数のジャンルコードを入力する。そして、ジャンルラベル付与部４２は、番組画像群のそれぞれについて、テーブル４１から、番組画像の番組のジャンルコードに対応するジャンルラベルを読み出し（ステップＳ７０３）、番組画像に、読み出したジャンルラベルを付与する（ステップＳ７０４）。

【0092】

ここで、ジャンルラベル付与部４２は、１つの番組画像について複数のジャンルコードを入力した場合には、１つの番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部４２は、１つの番組画像に対し、１または複数のジャンルラベルを付与する。ジャンルラベル付与部４２は、番組画像群のそれぞれについて、番組画像、及び１または複数のジャンルラベルを重要度計算部４３に出力する。

【0093】

これにより、番組画像群のそれぞれについて、１または複数のジャンルラベルが付与される。

【0094】

重要度計算部４３は、学習装置１により学習されたＮＮ部３１と同じ構成のＮＮを備えている。重要度計算部４３に備えたＮＮには、当該代表画像抽出装置２の処理に先立って、ＮＮ部３１と同じパラメータが設定される。

【0095】

重要度計算部４３は、ジャンルラベル付与部４２から、番組画像群のそれぞれについて、番組画像及び１または複数のジャンルラベルを入力する。そして、重要度計算部４３は、ＮＮを用いて、番組画像及び１または複数のジャンルラベルから重要度を計算する。

【0096】

具体的には、重要度計算部４３は、図４及び図５に示したジャンルベクトル生成部３０によるステップＳ５０２の処理と同様に、１または複数のジャンルラベルに基づいて、Ｎ次元のジャンルベクトルを生成する（ステップＳ７０５）。

【0097】

重要度計算部４３は、図４に示したＮＮ部３１と同様の学習済みのＮＮを用いて、番組画像及びジャンルベクトルから重要度を計算する（ステップＳ７０６）。そして、重要度計算部４３は、番組画像群のそれぞれについて、番組画像及び重要度を画像ソート部４４に出力する。

【0098】

画像ソート部４４は、重要度計算部４３から、番組画像群のそれぞれについての番組画像及び重要度を入力する。そして、画像ソート部４４は、重要度の降順に番組画像をソートし、全ての番組画像の中から重要度の高い所定数（１以上の整数）の番組画像を、代表画像（候補）として抽出する（ステップＳ７０７）。

【0099】

画像ソート部４４は、所定数の代表画像を時系列順にソートし、時系列順の所定数の代表画像を出力する（ステップＳ７０８）。

【0100】

尚、画像ソート部４４は、番組映像を構成する全ての番組画像及びこれらに対応する重要度を入力し、閾値処理により、全ての番組画像を重要度に基づいて例えば３段階のクラスに分類し、上位のクラスの番組画像を代表画像として抽出するようにしてもよい。画像ソート部４４は、必ずしも重要度を等間隔に区切ることで、番組画像を分類する必要はない。

【0101】

例えば、画像ソート部４４は、予め設定された閾値（例えば、０．２５，０．７５）を用いた閾値処理により、０．００≦重要度≦閾値０．２５の場合、当該重要度の番組画像を第１の段階のクラスに分類する。また、画像ソート部４４は、閾値０．２５＜重要度＜閾値０．７５の場合、当該重要度の番組画像を第２の段階のクラスに分類し、閾値０．７５≦重要度≦１．００の場合、当該重要度の番組画像を第３の段階のクラスに分類する。そして、画像ソート部４４は、第３の段階のクラスの番組画像を代表画像として抽出する。

【0102】

以上のように、本発明の実施形態の代表画像抽出装置２によれば、画像サンプリング部４０は、番組映像を入力し、番組映像をサンプリングして番組画像群を取得する。ジャンルラベル付与部４２は、番組画像群のそれぞれについて、番組映像の番組のジャンルコードを入力し、学習装置１により生成されたテーブル２１と同じテーブル４１から、ジャンルコードに対応するジャンラベルを読み出し、番組画像にジャンルラベルを付与する。

【0103】

重要度計算部４３は、ジャンルラベルから正解スコアを付与し、番組画像群のそれぞれについて、学習装置１により学習されたＮＮ部３１と同じＮＮを用いて、番組画像及びジャンルラベルから重要度を計算する。

【0104】

画像ソート部４４は、重要度の降順に番組画像をソートし、重要度の高い所定数の番組画像を代表画像として抽出し、出力する。

【0105】

ここで、代表画像抽出装置２が用いるＮＮは、学習装置１により学習されたＮＮ部３１と同じ構成であり、ジャンル毎の番組の特性を反映したネットワークである。したがって、このＮＮを用いることで、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。そして、例えば代表画像を用いて番組ＨＰを作成するＨＰ作成者は、作業量を大幅に減らすことができ、ＨＰの充実化を図ることができる。

【0106】

〔代表画像抽出装置２を用いた実施例〕
次に、図６に示した代表画像抽出装置２を用いた実施例について説明する。図１２は、代表画像抽出装置２を用いた第１実施例の番組ＨＰ作成システムを説明する図である。この番組ＨＰ作成システム３は、番組ＨＰの作成対象である番組についての番組ＥＰＧ（Electronic Programming Guide：電子番組表）情報及び番組映像を用いて、番組ＨＰを作成するシステムである。

【0107】

番組ＨＰ作成システム３は、代表画像抽出装置２、要約映像生成部１００及び自動配置処理部１０１を備えて構成される。要約映像生成部１００は、従来の処理により、番組映像から要約映像を生成する構成部であり、代表画像抽出装置２は、図６に示した本発明の実施形態による装置であり、番組映像から例えば３枚の代表画像を抽出する。

【0108】

自動配置処理部１０１は、番組ＥＰＧ情報、要約映像及び３枚の代表画像を、予め設定された位置に配置し、図１２に示すような番組ＨＰを作成する。

【0109】

図１３は、代表画像抽出装置２を用いた第２実施例の番組ＤＶＤ販売ＨＰ作成システムを説明する図である。この番組ＤＶＤ販売ＨＰ作成システム４は、番組ＤＶＤ販売ＨＰの作成対象である番組ＤＶＤについてのＤＶＤ宣伝コメント、ＤＶＤパッケージ画像及び番組ＤＶＤ動画を用いて、番組ＤＶＤ販売ＨＰを作成するシステムである。

【0110】

番組ＤＶＤ販売ＨＰ作成システム４は、代表画像抽出装置２及び自動配置処理部１０２を備えて構成される。代表画像抽出装置２は、図６に示した本発明の実施形態による装置であり、番組ＤＶＤ動画から例えば６枚の代表画像を抽出する。

【0111】

自動配置処理部１０２は、ＤＶＤ宣伝コメント、ＤＶＤパッケージ画像及び６枚の代表画像を、予め設定された位置に配置し、図１３に示すような番組ＤＶＤ販売ＨＰを作成する。

【0112】

このように、代表画像抽出装置２により抽出された代表画像を用いる番組ＨＰ作成システム３及び番組ＤＶＤ販売ＨＰ作成システム４により、充実したＨＰを作成することができる。

【0113】

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

【0114】

例えば図１に示した学習装置１において、図１０に示した画像特徴抽出ＮＮ３２は、１０２４次元の画像特徴ベクトルの出力データを求め、図１１（１）に示したジャンル特徴抽出ＮＮ３３は、１０２４次元のジャンル特徴ベクトルの出力データを求めるようにした。また、図１１（２）に示した重要度計算ＮＮ３５は、加算部３４により求めた１０２４次元の特徴ベクトルを入力するようにした。この１０２４次元の画像特徴ベクトル、ジャンル特徴ベクトル及び特徴ベクトルにおける次元数は例示であり、本発明は、次元数を１０２４次元に限定するものではない。

【0115】

尚、本発明の実施形態による学習装置１のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。本発明の実施形態による代表画像抽出装置２についても同様である。

【0116】

学習装置１に備えた番組学習データ生成部１０及び学習部１１の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0117】

また、代表画像抽出装置２に備えた画像サンプリング部４０、テーブル４１、ジャンルラベル付与部４２、重要度計算部４３及び画像ソート部４４の各機能も、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

【0118】

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

【符号の説明】

【0119】

１学習装置
２代表画像抽出装置
３番組ＨＰ（ホームページ）作成システム
４番組ＤＶＤ販売ＨＰ作成システム
１０番組学習データ生成部
１１学習部
２０ジャンル統合部
２１，４１テーブル
２２，４２ジャンルラベル付与部
３０ジャンルベクトル生成部
３１ＮＮ（ニューラルネットワーク）部
３２画像特徴抽出ＮＮ
３３ジャンル特徴抽出ＮＮ
３４加算部
３５重要度計算ＮＮ
３６正解スコア付与部
３７誤差算出部
３８パラメータ更新部
４０画像サンプリング部
４３重要度計算部
４４画像ソート部

【図1】