IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特開-代表画像抽出装置及びプログラム 図1
  • 特開-代表画像抽出装置及びプログラム 図2
  • 特開-代表画像抽出装置及びプログラム 図3
  • 特開-代表画像抽出装置及びプログラム 図4
  • 特開-代表画像抽出装置及びプログラム 図5
  • 特開-代表画像抽出装置及びプログラム 図6
  • 特開-代表画像抽出装置及びプログラム 図7
  • 特開-代表画像抽出装置及びプログラム 図8
  • 特開-代表画像抽出装置及びプログラム 図9
  • 特開-代表画像抽出装置及びプログラム 図10
  • 特開-代表画像抽出装置及びプログラム 図11
  • 特開-代表画像抽出装置及びプログラム 図12
  • 特開-代表画像抽出装置及びプログラム 図13
  • 特開-代表画像抽出装置及びプログラム 図14
  • 特開-代表画像抽出装置及びプログラム 図15
  • 特開-代表画像抽出装置及びプログラム 図16
  • 特開-代表画像抽出装置及びプログラム 図17
  • 特開-代表画像抽出装置及びプログラム 図18
  • 特開-代表画像抽出装置及びプログラム 図19
  • 特開-代表画像抽出装置及びプログラム 図20
  • 特開-代表画像抽出装置及びプログラム 図21
  • 特開-代表画像抽出装置及びプログラム 図22
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023033900
(43)【公開日】2023-03-13
(54)【発明の名称】代表画像抽出装置及びプログラム
(51)【国際特許分類】
   G06T 7/00 20170101AFI20230306BHJP
   G06N 3/08 20230101ALI20230306BHJP
【FI】
G06T7/00 350C
G06N3/08
【審査請求】未請求
【請求項の数】4
【出願形態】OL
(21)【出願番号】P 2021139842
(22)【出願日】2021-08-30
(71)【出願人】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】佐々木 桃子
(72)【発明者】
【氏名】遠藤 伶
(72)【発明者】
【氏名】望月 貴裕
【テーマコード(参考)】
5L096
【Fターム(参考)】
5L096AA06
5L096CA21
5L096DA01
5L096DA02
5L096EA39
5L096FA32
5L096GA34
5L096GA51
5L096GA55
5L096HA11
5L096JA03
5L096KA04
5L096KA11
(57)【要約】
【課題】番組映像から代表画像を抽出する際に、代表画像の傾向を考慮して、ジャンル毎の番組の特性を反映させるか否かを判断した上で、最も適切な代表画像を抽出可能とする。
【解決手段】代表画像抽出装置2は、番組画像、ジャンルラベル及び正解スコアがセットになった番組画像データを入力し、ジャンル情報ありモデルを選定するか、ジャンル情報なしモデルを選定するかを決定するNN選定部50と、その選定結果がジャンル情報ありモデルである場合、番組画像及びジャンルラベルからスコアを算出し、選定結果がジャンル情報なしモデルである場合、番組画像からスコアを算出する画像選定部51と、算出されたスコアに基づいて、番組画像群をソートし、代表画像を抽出する画像ソート部52と、を備える。
【選択図】図17
【特許請求の範囲】
【請求項1】
番組画像のジャンルラベルが入力データに含まれるモデルをジャンル情報ありモデルとし、前記ジャンルラベルが入力データに含まれないモデルをジャンル情報なしモデルとして、学習装置により学習された前記ジャンル情報ありモデルのニューラルネットワーク(ジャンル情報ありNN)及び前記ジャンル情報なしモデルのニューラルネットワーク(ジャンル情報なしNN)を用いて、番組映像から代表画像を抽出する代表画像抽出装置において、
前記番組画像、前記ジャンルラベル及び正解スコアがセットになった番組画像データを入力し、前記ジャンル情報ありモデル及び前記ジャンル情報なしモデルを用いてスコアをそれぞれ算出し、前記スコアと前記正解スコアとの間の誤差をそれぞれ算出し、それぞれの前記誤差に基づいて、前記ジャンル情報ありモデルを選定するか、または前記ジャンル情報なしモデルを選定するかを示す選定結果を決定するNN選定部と、
前記番組映像、及び前記番組映像のジャンルコードを入力すると共に、前記NN選定部により決定された前記選定結果を入力し、前記選定結果が前記ジャンル情報ありモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像、及び前記ジャンルコードに対応する前記ジャンルラベルに基づいて第1スコアを算出し、前記選定結果が前記ジャンル情報なしモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像に基づいて第2スコアを算出する画像選定部と、
前記画像選定部により算出された前記第1スコアまたは前記第2スコアに基づいて、前記番組映像をサンプリングして得た前記番組画像をソートし、前記代表画像を抽出する画像ソート部と、を備えたことを特徴とする代表画像抽出装置。
【請求項2】
請求項1に記載の代表画像抽出装置において、
前記画像選定部は、
当該画像選定部が入力した前記選定結果が前記ジャンル情報ありモデルを示している場合、当該画像選定部が入力した前記番組映像をサンプリングして番組画像群を生成する第1サンプリング処理部と、
前記ジャンルコードと前記ジャンルラベルとの間の対応関係を定義したテーブルから、当該画像選定部が入力した前記ジャンルコードに対応する前記ジャンルラベルを読み出し、前記第1サンプリング処理部により生成された前記番組画像群のそれぞれに、前記ジャンルラベルを付与するジャンルラベル付与部と、
前記第1サンプリング処理部により生成された前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記学習装置により学習された前記ジャンル情報ありNNを用いて、前記番組画像及び前記ジャンルベクトルから前記第1スコアを算出する第1スコア算出部と、
当該画像選定部が入力した前記選定結果が前記ジャンル情報なしモデルを示している場合、当該画像選定部が入力した前記番組映像をサンプリングして番組画像群を生成する第2サンプリング処理部と、
前記第2サンプリング処理部により生成された前記番組画像群のそれぞれについて、前記学習装置により学習された前記ジャンル情報なしNNを用いて、前記番組画像から前記第2スコアを算出する第2スコア算出部と、を備えたことを特徴とする代表画像抽出装置。
【請求項3】
請求項1または2に記載の代表画像抽出装置において、
前記NN選定部は、
前記番組画像、前記ジャンルラベル及び前記正解スコアがセットになった前記番組画像データを入力し、前記ジャンル情報ありNNを用いてスコアを算出し、前記スコアと前記正解スコアとの誤差を計算し、前記ジャンルラベル毎に前記誤差の和を求める第1モデル誤差計算部と、
前記番組画像データのうちの前記番組画像及び前記正解スコアを入力し、前記ジャンル情報なしNNを用いてスコアを算出し、前記スコアと前記正解スコアとの誤差を計算し、前記ジャンルラベル毎に前記誤差の和を求める第2モデル誤差計算部と、
前記ジャンルラベル毎に、前記第1モデル誤差計算部により求めた前記誤差の和と、前記第2モデル誤差計算部により求めた前記誤差の和とを比較し、前記誤差の和が小さい方のモデルを選定することを示す前記選定結果を決定する比較部と、を備えたことを特徴とする代表画像抽出装置。
【請求項4】
番組画像のジャンルラベルが入力データに含まれるモデルをジャンル情報ありモデルとし、前記ジャンルラベルが入力データに含まれないモデルをジャンル情報なしモデルとして、学習装置により学習された前記ジャンル情報ありモデルのニューラルネットワーク(ジャンル情報ありNN)及び前記ジャンル情報なしモデルのニューラルネットワーク(ジャンル情報なしNN)を用いて、番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、
前記番組画像、前記ジャンルラベル及び正解スコアがセットになった番組画像データを入力し、前記ジャンル情報ありモデル及び前記ジャンル情報なしモデルを用いてスコアをそれぞれ算出し、前記スコアと前記正解スコアとの間の誤差をそれぞれ算出し、それぞれの前記誤差に基づいて、前記ジャンル情報ありモデルを選定するか、または前記ジャンル情報なしモデルを選定するかを示す選定結果を決定するNN選定部、
前記番組映像、及び前記番組映像のジャンルコードを入力すると共に、前記NN選定部により決定された前記選定結果を入力し、前記選定結果が前記ジャンル情報ありモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像、及び前記ジャンルコードに対応する前記ジャンルラベルに基づいて第1スコアを算出し、前記選定結果が前記ジャンル情報なしモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像に基づいて第2スコアを算出する画像選定部、及び、
前記画像選定部により算出された前記第1スコアまたは前記第2スコアに基づいて、前記番組映像をサンプリングして得た前記番組画像をソートし、前記代表画像を抽出する画像ソート部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像から代表画像を抽出する映像解析分野に用いる代表画像抽出装置及びプログラムに関する。
【背景技術】
【0002】
従来、放送局では視聴者の接触率向上を目的として、番組HP(ホームページ)の充実化が進んでいる。番組HPには、閲覧者に番組内容を大まかに把握してもらうために、番組映像から抽出した複数の代表画像を掲載するケースが多い。
【0003】
しかしながら、番組映像から代表画像を抽出するには大きな労力が必要である。このため、番組映像から代表画像を自動的に抽出する手法が提案されている(例えば、特許文献1、非特許文献1を参照)。
【0004】
例えば特許文献1の手法は、画像集合から人物の顔、シーン及びオブジェクトの判別結果、GPS(Global Positioning System:全地球無線測位システム)情報並びに類似度に基づいて、画像間の関連度を算出し、関連度及び撮影日に基づいて、代表画像を抽出するものである。
【0005】
また、非特許文献1の手法は、事前学習済みのGoogLeNetのニューラルネットワーク(以下、「NN」と記述する。)を用いて、画像に対する芸術性の高低を判定するものである。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特許第6149015号公報
【非特許文献】
【0007】
【非特許文献1】Xin Jin, et al.,“ILGNet:Inception modules with connected local and global features for efficient image aesthetic quality classification using domain adaptation.”,IET Computer Vision 13.2 (2018):206-212.
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、番組映像から代表画像を抽出する際に、前述の特許文献1の手法では、GPS情報、撮影日等の特殊な情報を必要とする。また、前述の非特許文献1の手法では、番組制作のノウハウを考慮していない。
【0009】
このため、従来の手法では、番組映像のジャンル毎の特性を反映した代表画像を抽出することができず、また、番組制作のノウハウを反映した代表画像を抽出することができない、という問題があった。
【0010】
一般に、番組映像にはジャンルに応じた特性があり、代表画像は、ジャンル毎の番組の特性が反映されるべきである。ここで、ジャンル毎の番組の特性とは、当該ジャンルに属する番組が有する固有の性質をいう。例えばドラマ番組の映像の場合、主人公の顔が写っている画像が多いという特性があり、ニュース番組の映像の場合、CG等が埋め込まれている画像が多いという特性がある。
【0011】
このため、ドラマ番組の代表画像は、主人公の顔が写っている画像であることが望ましく、また、ニュース番組の代表画像は、CG等が埋め込まれている画像であることが望ましい。
【0012】
そこで、本件特許出願と同一の発明者は、ジャンル情報(ジャンルコード、ジャンルラベル等)を用いることにより、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出可能な学習装置、代表画像抽出装置及びプログラムを発明した(本件特許出願時に未公開の特願2021-46325号公報)。
【0013】
しかしながら、ジャンル毎の番組の特性を反映した代表画像を抽出する場合、例えば、ワイドショー番組等、1つの番組の中に様々なジャンルが含まれるような場合には、ジャンル情報がかえって悪影響を及ぼしてしまう。結局のところ、その番組映像に適した代表画像が抽出されない、という結果になってしまうことがあった。
【0014】
すなわち、番組映像には、ジャンル毎の番組の特性を反映した方が代表画像として適している場合と、ジャンルとは関係なく番組製作のノウハウを反映させた方が代表画像として適している場合とがある。そのため、全ての番組映像について、ジャンル毎の番組の特性を反映した代表画像を抽出したのでは、抽出された代表画像が番組HPに用いられた場合、その番組HPは必ずしも有効なものにはなっておらず、閲覧者に対して番組内容を効果的に提示することができない場合がある、という問題があった。
【0015】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、番組映像から代表画像を抽出する際に、代表画像の傾向を考慮して、ジャンル毎の番組の特性を反映させるか否かを判断した上で、最も適切な代表画像を抽出可能な代表画像抽出装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0016】
前記課題を解決するために、請求項1の代表画像抽出装置は、番組画像のジャンルラベルが入力データに含まれるモデルをジャンル情報ありモデルとし、前記ジャンルラベルが入力データに含まれないモデルをジャンル情報なしモデルとして、学習装置により学習された前記ジャンル情報ありモデルのニューラルネットワーク(ジャンル情報ありNN)及び前記ジャンル情報なしモデルのニューラルネットワーク(ジャンル情報なしNN)を用いて、番組映像から代表画像を抽出する代表画像抽出装置において、前記番組画像、前記ジャンルラベル及び正解スコアがセットになった番組画像データを入力し、前記ジャンル情報ありモデル及び前記ジャンル情報なしモデルを用いてスコアをそれぞれ算出し、前記スコアと前記正解スコアとの間の誤差をそれぞれ算出し、それぞれの前記誤差に基づいて、前記ジャンル情報ありモデルを選定するか、または前記ジャンル情報なしモデルを選定するかを示す選定結果を決定するNN選定部と、前記番組映像、及び前記番組映像のジャンルコードを入力すると共に、前記NN選定部により決定された前記選定結果を入力し、前記選定結果が前記ジャンル情報ありモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像、及び前記ジャンルコードに対応する前記ジャンルラベルに基づいて第1スコアを算出し、前記選定結果が前記ジャンル情報なしモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像に基づいて第2スコアを算出する画像選定部と、前記画像選定部により算出された前記第1スコアまたは前記第2スコアに基づいて、前記番組映像をサンプリングして得た前記番組画像をソートし、前記代表画像を抽出する画像ソート部と、を備えたことを特徴とする。
【0017】
また、請求項2の代表画像抽出装置は、請求項1に記載の代表画像抽出装置において、前記画像選定部が、当該画像選定部が入力した前記選定結果が前記ジャンル情報ありモデルを示している場合、当該画像選定部が入力した前記番組映像をサンプリングして番組画像群を生成する第1サンプリング処理部と、前記ジャンルコードと前記ジャンルラベルとの間の対応関係を定義したテーブルから、当該画像選定部が入力した前記ジャンルコードに対応する前記ジャンルラベルを読み出し、前記第1サンプリング処理部により生成された前記番組画像群のそれぞれに、前記ジャンルラベルを付与するジャンルラベル付与部と、前記第1サンプリング処理部により生成された前記番組画像群のそれぞれについて、前記ジャンルラベル付与部により付与された前記ジャンルラベルをベクトル化することで、ジャンルベクトルを生成し、前記学習装置により学習された前記ジャンル情報ありNNを用いて、前記番組画像及び前記ジャンルベクトルから前記第1スコアを算出する第1スコア算出部と、当該画像選定部が入力した前記選定結果が前記ジャンル情報なしモデルを示している場合、当該画像選定部が入力した前記番組映像をサンプリングして番組画像群を生成する第2サンプリング処理部と、前記第2サンプリング処理部により生成された前記番組画像群のそれぞれについて、前記学習装置により学習された前記ジャンル情報なしNNを用いて、前記番組画像から前記第2スコアを算出する第2スコア算出部と、を備えたことを特徴とする。
【0018】
また、請求項3の代表画像抽出装置は、請求項1または2に記載の代表画像抽出装置において、前記NN選定部が、前記番組画像、前記ジャンルラベル及び前記正解スコアがセットになった前記番組画像データを入力し、前記ジャンル情報ありNNを用いてスコアを算出し、前記スコアと前記正解スコアとの誤差を計算し、前記ジャンルラベル毎に前記誤差の和を求める第1モデル誤差計算部と、前記番組画像データのうちの前記番組画像及び前記正解スコアを入力し、前記ジャンル情報なしNNを用いてスコアを算出し、前記スコアと前記正解スコアとの誤差を計算し、前記ジャンルラベル毎に前記誤差の和を求める第2モデル誤差計算部と、前記ジャンルラベル毎に、前記第1モデル誤差計算部により求めた前記誤差の和と、前記第2モデル誤差計算部により求めた前記誤差の和とを比較し、前記誤差の和が小さい方のモデルを選定することを示す前記選定結果を決定する比較部と、を備えたことを特徴とする。
【0019】
さらに、請求項4のプログラムは、番組画像のジャンルラベルが入力データに含まれるモデルをジャンル情報ありモデルとし、前記ジャンルラベルが入力データに含まれないモデルをジャンル情報なしモデルとして、学習装置により学習された前記ジャンル情報ありモデルのニューラルネットワーク(ジャンル情報ありNN)及び前記ジャンル情報なしモデルのニューラルネットワーク(ジャンル情報なしNN)を用いて、番組映像から代表画像を抽出する代表画像抽出装置を構成するコンピュータを、前記番組画像、前記ジャンルラベル及び正解スコアがセットになった番組画像データを入力し、前記ジャンル情報ありモデル及び前記ジャンル情報なしモデルを用いてスコアをそれぞれ算出し、前記スコアと前記正解スコアとの間の誤差をそれぞれ算出し、それぞれの前記誤差に基づいて、前記ジャンル情報ありモデルを選定するか、または前記ジャンル情報なしモデルを選定するかを示す選定結果を決定するNN選定部、前記番組映像、及び前記番組映像のジャンルコードを入力すると共に、前記NN選定部により決定された前記選定結果を入力し、前記選定結果が前記ジャンル情報ありモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像、及び前記ジャンルコードに対応する前記ジャンルラベルに基づいて第1スコアを算出し、前記選定結果が前記ジャンル情報なしモデルを示している場合、前記番組映像をサンプリングして得た前記番組画像に基づいて第2スコアを算出する画像選定部、及び、前記画像選定部により算出された前記第1スコアまたは前記第2スコアに基づいて、前記番組映像をサンプリングして得た前記番組画像をソートし、前記代表画像を抽出する画像ソート部として機能させることを特徴とする。
【発明の効果】
【0020】
以上のように、本発明によれば、番組映像から代表画像を抽出する際に、ジャンル情報を取り入れたニューラルネットワーク(ジャンル情報ありNN)及びジャンル情報を取り入れていないニューラルネットワーク(ジャンル情報なしNN)を用いることにより、代表画像の傾向を考慮して、ジャンル毎の番組の特性を反映させるか否かを判断した上で、最も適切な代表画像を抽出することができる。
【図面の簡単な説明】
【0021】
図1】本発明の実施形態によるジャンル情報ありモデルにおける学習装置の構成例を示すブロック図である。
図2】本発明の実施形態によるジャンル情報なしモデルにおける学習装置の構成例を示すブロック図である。
図3】ジャンル情報ありモデルにおける番組学習データ生成部の構成例を示すブロック図である。
図4】ジャンル情報なしモデルにおける番組学習データ生成部の構成例を示すブロック図である。
図5】ジャンル情報ありモデルにおける番組学習データ生成部の処理例を示すフローチャートである。
図6】ジャンル情報なしモデルにおける番組学習データ生成部の処理例を示すフローチャートである。
図7】ジャンル情報ありモデルにおける学習部の構成例を示すブロック図である。
図8】ジャンル情報なしモデルにおける学習部の構成例を示すブロック図である。
図9】ジャンル情報ありモデルにおける学習部の処理例を示すフローチャートである。
図10】ジャンル情報なしモデルにおける学習部の処理例を示すフローチャートである。
図11】(1)は、番組の大分類コードの例を説明する図である。(2)は、番組の中分類コードの例を説明する図である。
図12】ジャンル情報ありモデルにおけるテーブルのデータ構成例を示す図である。
図13】ジャンル情報ありモデルにおける画像特徴抽出NNの具体的な構成例を説明する図である。
図14】(1)は、ジャンル特徴抽出NNの具体的な構成例を説明する図である。(2)は、重要度計算NNの具体的な構成例を説明する図である。
図15】ジャンル情報なしモデルにおけるNN部の構成例を示すブロック図である。
図16】ジャンル情報なしモデルにおけるNN部の具体的な構成例を説明する図である。
図17】本発明の実施形態による代表画像抽出装置の構成例を示すブロック図である。
図18】NN選定部の構成例を示すブロック図である。
図19】画像選定部の構成例を示すブロック図である。
図20】本発明の実施形態による代表画像抽出装置の処理例を示すフローチャートである。
図21】代表画像抽出装置を用いた第1実施例の番組HP作成システムを説明する図である。
図22】代表画像抽出装置を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。
【発明を実施するための形態】
【0022】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔学習装置〕
まず、本発明の実施形態による学習装置について説明する。図1は、本発明の実施形態によるジャンル情報ありモデルにおける学習装置の構成例を示すブロック図であり、図2は、本発明の実施形態によるジャンル情報なしモデルにおける学習装置の構成例を示すブロック図である。
【0023】
尚、ジャンル情報ありモデルとは、ジャンル情報を取り入れたモデルのことであり、例えばジャンルラベルが入力データに含まれるモデルである(図1及び後述する図7に示す学習装置1Aの学習部11Aを参照)。また、ジャンル情報なしモデルとは、ジャンル情報を取り入れていないモデルのことであり、例えばジャンルラベルが入力データに含まれないモデルである(図2及び後述する図8に示す学習装置1Bの学習部11Bを参照)。
【0024】
ジャンル情報ありモデルにおける学習装置1Aは、番組学習データ生成部10A及び学習部11Aを備えている。ジャンル情報ありモデルにおける学習装置1Aは、後述する代表画像抽出装置2が番組映像からジャンル毎の番組の特性を反映した代表画像を抽出できるように、学習用番組画像及びジャンルコード等を用いて、代表画像抽出装置2の使用する“ジャンル情報を取り入れたニューラルネットワーク(以下、「ジャンル情報ありNN」と記述する。)”を学習する装置である。
【0025】
ジャンル情報なしモデルにおける学習装置1Bは、番組学習データ生成部10B、メモリ12及び学習部11Bを備えている。ジャンル情報なしモデルにおける学習装置1Bは、学習用番組映像を用いて、後述する代表画像抽出装置2が番組映像から番組製作のノウハウを考慮した代表画像を抽出できるように、代表画像抽出装置2の使用する“ジャンル情報を取り入れていないニューラルネットワーク(以下、「ジャンル情報なしNN」と記述する。)”を学習する装置である。
【0026】
ジャンル情報ありモデルにおける番組学習データ生成部10Aは、学習用番組画像、及び当該学習用番組画像の番組についての1または複数のジャンルコード(学習用のジャンルコード)を入力する。学習用番組画像は、様々なジャンルの番組映像からサンプリングされたフレーム画像である。学習用番組画像には、代表画像としての適性の度合いを示すラベル(代表画像適性度)が付与されている。例えばラベルの段階数が3の場合の代表画像適性度は、great(適正度が非常に高い)、good(高い)及びbad(低い)のいずれかである。
【0027】
番組学習データ生成部10Aは、放送された全ての番組のジャンルコードを保持しているものとする。1つの番組に対して複数のジャンルコードが対応している場合もあり得る。
【0028】
番組学習データ生成部10Aは、ユーザ操作に従ってジャンルコードの示すジャンルを統合し、ジャンルコードとジャンルラベルとの間の対応関係を定義したテーブルを生成する。このテーブルは、後述する代表画像抽出装置2にて用いられる。
【0029】
番組学習データ生成部10Aは、学習用番組画像に1または複数のジャンルラベルを付与し、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる番組学習データを生成する。番組学習データ生成部10Aは、番組学習データを学習部11Aに出力する。番組学習データ生成部10A、テーブル、代表画像適性度、ジャンルコード及びジャンルラベルの詳細については後述する。
【0030】
これにより、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる番組学習データが生成される。
【0031】
ジャンル情報ありモデルにおける学習部11Aは、学習対象の複数のNN(ジャンル情ありNN)を備えている。学習部11Aは、番組学習データ生成部10Aから番組学習データを入力し、番組学習データを用いて複数のNN(ジャンル情報ありNN)を学習する。
【0032】
これにより、複数のNN(ジャンル情報ありNN)のそれぞれに用いる最適なパラメータ(重み係数等)が得られる。学習された複数のNN(ジャンル情報ありNN)は、ジャンル毎の番組の特性が反映されたネットワークであり、学習により得られたパラメータは、ジャンル毎の番組の特性が反映された値であり、後述する代表画像抽出装置2にて用いられる。
【0033】
一方、ジャンル情報なしモデルにおける番組学習データ生成部10Bは、学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURL(Uniform Resource Locator)を入力する。そして、番組学習データ生成部10Bは、学習用番組映像をサンプリングして得られた複数のフレーム画像(以下、「番組画像」という。)のそれぞれについて、番組HPのURLへアクセスして取得した複数の静止画のそれぞれとの間の類似度を算出する。
【0034】
番組学習データ生成部10Bは、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データをメモリ12に格納する。
【0035】
これにより、メモリ12には、学習用番組映像をサンプリングして得られた全ての番組画像について、番組画像及び正解スコアからなる番組学習データが格納される。
【0036】
ここで、番組HPに掲載されている静止画は、番組制作スタッフがそのノウハウを生かすことで、番組映像から選択した代表画面であるといえる。このため、番組画像と静止画との間の類似度は、番組制作スタッフのノウハウが反映された値となり、結果として、番組画像の正解スコアは、番組制作スタッフのノウハウが反映された値となる。
【0037】
ジャンル情報なしモデルにおける学習部11Bは、学習対象のNN(ジャンル情報なしNN)を備えている。学習部11Bは、メモリ12から、番組画像及び正解スコアからなる番組学習データを読み出す。そして、学習部11Bは、番組学習データを用いて、NN(ジャンル情報なしNN)を学習する。このNN(ジャンル情報なしNN)は、番組画像が入力され、1次元のスコア(重要度)が出力されるモデルである。
【0038】
これにより、NN(ジャンル情報なしNN)に用いる最適なパラメータ(重み係数等)が得られる。このパラメータは、番組制作スタッフのノウハウが反映された値であり、後述する代表画像抽出装置2に備えたNN(ジャンル情報なしNN)に用いられる。
【0039】
(番組学習データ生成部)
次に、図1図2に示した番組学習データ生成部10A,10Bについて詳細に説明する。図3は、ジャンル情報ありモデルにおける番組学習データ生成部10Aの構成例を示すブロック図であり、図4は、ジャンル情報なしモデルにおける番組学習データ生成部10Bの構成例を示すブロック図である。また、図5は、ジャンル情報ありモデルにおける番組学習データ生成部10Aの処理例を示すフローチャートであり、図6は、ジャンル情報なしモデルにおける番組学習データ生成部10Bの処理例を示すフローチャートである。
【0040】
ジャンル情報ありモデルにおける番組学習データ生成部10Aは、ジャンル統合部20、テーブル21及びジャンルラベル付与部22を備えている。また、ジャンル情報なしモデルにおける番組学習データ生成部10Bは、サンプリング処理部23、ダウンロード処理部24、類似度算出部25及び正解スコア付与部26を備えている。
【0041】
ジャンル統合部20は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組についての1または複数のジャンルコード(大分類コード及び中分類コード)を入力する(ステップS501)。
【0042】
ジャンル統合部20は、学習処理に先立ち、ユーザ操作に従って、放送された全ての番組のジャンルコード(大分類コード及び中分類コード)の示すジャンルを統合する(ステップS502)。この場合、ジャンル統合部20は、例えばジャンルコード毎の学習用番組画像の枚数を計算し、画面表示する。ユーザは、画面表示されたジャンルコード毎の学習用番組画像の枚数を参照しながら、ジャンルを統合するための操作を行う。
【0043】
ジャンル統合部20は、ユーザ操作に従った統合処理により、1または複数のジャンルコードと1つのジャンルラベルとの間の対応関係を定義したテーブル21を生成する(ステップS503)。テーブル21に定義されたジャンルラベルの数は、統合後のジャンル数Nであり、このジャンル数Nは、元のジャンルコードの数よりも少ない(同一の場合もあり得る)。
【0044】
ジャンル統合部20により生成されたテーブル21は、後述する図17図19に示す代表画像抽出装置2へ出力され、テーブル71として用いられる。
【0045】
ジャンル統合部20は、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の1または複数のジャンルコードをジャンルラベル付与部22に出力する。
【0046】
図11(1)は、番組の大分類コードの例を説明する図であり、図11(2)は、番組の中分類コードの例を説明する図である。
【0047】
図11(1)に示すように、番組の大分類コードは14個あり、例えば大分類コード「0」は「ニュース/報道」を示し、大分類コード「1」は「スポーツ」を示す。
【0048】
また、図11(2)に示すように、番組の中分類コードは、大分類コード毎に個数が定められている。例えば大分類コード「0」の場合(「ニュース/報道」の場合)の中分類コード「0」は「定時・総合」を示し、大分類コード「0」の場合の中分類コード「1」は「天気」を示し、大分類コード「1」の場合(「スポーツ」の場合)の中分類コード「0」は「スポーツニュース」を示す。
【0049】
尚、番組の大分類(genre)及び中分類(subgenre)の詳細については、標準規格ARIB STD-B10「デジタル放送に使用する番組配列情報」第2部を参照されたい。
【0050】
ジャンル統合部20は、例えば図11(1)に示した大分類コード毎の学習用番組画像数を計算し、これを、図3には図示しない表示器に画面表示する。
【0051】
ジャンル統合部20は、大分類コード毎の学習用番組画像数を参照したユーザによるキー操作(ユーザ操作)に従い、極端に学習用番組画像数が少ないジャンルをなくすために、例えば大分類コード「3」の「ドラマ」、大分類コード「6」の「映画」、大分類コード「7」の「アニメ/特撮」、大分類コード「9」の「劇場/公演」、大分類コード「14」の「拡張」、及び大分類コード「15」の「その他」を1つのジャンルに統合する。また、ジャンル統合部20は、ユーザによるキー操作に従い、大分類コード「8」の「ドキュメンタリー/教養」及び大分類コード「11」の「福祉」を別の1つのジャンルに統合する。そして、ジャンル統合部20は、テーブル21を生成する。
【0052】
図12は、ジャンル情報ありモデルにおけるテーブル21のデータ構成例を示す図であり、前述の例により生成されたテーブル21を示している。テーブル21は、大分類コード及び中分類コード、及び当該大分類コード及び中分類コードに対応するジャンルラベルから構成される。
【0053】
前述の例では、大分類コード「0」の「ニュース/報道」、大分類コード「1」の「スポーツ」、大分類コード「2」の「情報/ワイドショー」、大分類コード「4」の「音楽」、大分類コード「5」の「バラエティ」及び大分類コード「10」の「趣味/教育」は統合されていない。このため、大分類コード「0」(及び当該大分類コード「0」の全ての中分類コード「0~9,10,15」)に対応してジャンルラベルaが定義されている。同様に、大分類コード「1,2,4,5,10」に対応してジャンルラベルb,c,d,e,hが定義されている。
【0054】
また、大分類コード「3」の「ドラマ」、大分類コード「6」の「映画」、・・・、及び大分類コード「15」の「その他」は統合されており、これらに対応してジャンルラベルfが定義されている。さらに、大分類コード「8」の「ドキュメンタリー/教養」及び大分類コード「11」の「福祉」は統合されており、これらに対応してジャンルラベルgが定義されている。
【0055】
このように、ジャンル統合部20により、ジャンルコードの示すジャンルの数を減らすことで、極端に学習用番組画像数が少ないジャンルをなくすように、テーブル21が生成される。
【0056】
これにより、極端に学習用番組画像数が少ないジャンルはなくなる。このため、後述する学習部11Aにて、後述する代表画像抽出装置2が番組映像から所望の代表画像を抽出するために用いるNN(ジャンル情報ありNN)を学習することができる。
【0057】
図3及び図5に戻って、ジャンルラベル付与部22は、ジャンル統合部20から、代表画像適性度が付与された学習用番組画像、及び当該学習用番組画像の番組の1または複数のジャンルコードを入力する。
【0058】
ジャンルラベル付与部22は、テーブル21から、学習用番組画像の番組のジャンルコードに対応するジャンルラベルを読み出し(ステップS504)、学習用番組画像に、読み出したジャンルラベルを付与する(ステップS505)。
【0059】
ここで、ジャンルラベル付与部22は、ジャンル統合部20から、1つの学習用番組画像について複数のジャンルコードを入力した場合には、1つの学習用番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部22は、1つの学習用番組画像に対し、1つのジャンルラベルまたは複数のジャンルラベルを付与する。
【0060】
ジャンルラベル付与部22は、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる番組学習データを生成し、番組学習データを学習部11Aに出力する(ステップS506)。
【0061】
一方、ジャンル情報なしモデルにおける番組学習データ生成部10Bは、ハードディスクレコーダー等に蓄積された学習用番組映像、及び当該学習用番組映像の番組に対応した番組HPのURLを入力する(ステップS601)。サンプリング処理部23は、学習用番組映像を入力し、ダウンロード処理部24は、対応する番組HPのURLを入力する。
【0062】
サンプリング処理部23は、学習用番組映像から一定間隔で、フレーム画像である番組画像をサンプリングする(ステップS602)。サンプリングされた全ての番組画像をP1,・・・,PNとする。Nは2以上の整数である。サンプリング処理部23は、番組画像P1,・・・,PNを類似度算出部25に出力する。
【0063】
ダウンロード処理部24は、番組HPのURLへアクセスし、番組HPに掲載されている全ての静止画をダウンロードする(ステップS603)。ダウンロードされた全ての静止画をP’1,・・・,P’Mとする。Mは2以上の整数である。ダウンロード処理部24は、静止画P’1,・・・,P’Mを類似度算出部25に出力する。
【0064】
類似度算出部25は、サンプリング処理部23から番組画像P1,・・・,PNを入力すると共に、ダウンロード処理部24から静止画P’1,・・・,P’Mを入力する。そして、類似度算出部25は、番組画像Pnについて、静止画P’mとの間の類似度Sn,mを算出する(ステップS604)。n=1,・・・,Nであり、m=1,・・・,Mである。
【0065】
類似度算出部25は、番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を正解スコア付与部26に出力する。
【0066】
正解スコア付与部26は、類似度算出部25から番組画像Pn及び当該番組画像Pnの類似度Sn,m(Sn,1,・・・,Sn,M)を入力する。そして、正解スコア付与部26は、番組画像Pnについて、類似度Sn,1,・・・,Sn,Mのうちの最大値B=maxmn,mを求める(ステップS605)。
【0067】
正解スコア付与部26は、最大値Bが予め設定された閾値以上であるか否かを判定する(ステップS606)。正解スコア付与部26は、ステップS606において、最大値Bが閾値以上であると判定した場合(ステップS606:Y)、番組画像Pnに対し、正例の正解スコア(=1)を付与する(ステップS607)。
【0068】
一方、正解スコア付与部26は、ステップS606において、最大値Bが閾値以上でないと判定した場合(ステップS606:N)、番組画像Pnに対し、負例の正解スコア(=0)を付与する(ステップS608)。
【0069】
尚、正解スコア付与部26は、番組画像Pnに対し、0~1の範囲のスコアにおいて、2段階の正解スコア(正例(=1)または負例(=0))を付与するようにしたが、3段階以上の正解スコアを付与するようにしてもよい。例えば、3段階の正解スコアの場合、正解スコア付与部26は、最大値Bを閾値処理することで、番組画像Pnに対し、3段階の正解スコア(例えば0.0,0.5,1.0)のうちのいずれかを付与する。
【0070】
この場合、正解スコアの段階は、0~1の範囲において必ずしも等間隔である必要はなく、例えば0.0,0.7,1.0であってもよく、適切な間隔であればよい。また、正解スコアは、例えば0~1の範囲で、その段階が設定されるものとする。
【0071】
また、正解スコア付与部26は、番組画像に対して、類似度算出部25から入力した類似度を正解スコアとして付与するようにしてもよい。この場合の類似度の範囲は0~1である。
【0072】
正解スコア付与部26は、ステップS607またはS608から移行して、番組画像及び正解スコアからなる番組学習データをメモリ12に格納する(ステップS609)。ステップS604~S609の処理は、N個の番組画像Pn(n=1,・・・,N)について行われ、メモリ12には、N個の番組学習データが格納される。
【0073】
これにより、番組画像Pnについて、番組HPからダウンロードされた静止画との間の類似度Sn,mが反映された正解スコアが付与され、番組学習データがメモリ12に格納される。類似度Sn,mが高いほど(代表画像に相応しいほど)、正解スコアは1または1に近い段階の値となり、類似度Sn,mが低いほど(代表画像に相応しくないほど)、正解スコアは0または0に近い段階の値となる。
【0074】
(学習部)
次に、図1及び図2に示した学習部11A,11Bについて詳細に説明する。図7は、ジャンル情報ありモデルにおける学習部11Aの構成例を示すブロック図であり、図8は、ジャンル情報なしモデルにおける学習部11Bの構成例を示すブロック図である。また、図9は、ジャンル情報ありモデルにおける学習部11Aの処理例を示すフローチャートであり、図10は、ジャンル情報なしモデルにおける学習部11Bの処理例を示すフローチャートである。
【0075】
ジャンル情報ありモデルにおける学習部11Aは、ジャンルベクトル生成部30、NN部31A、正解スコア付与部36、誤差算出部37A及びパラメータ更新部38Aを備えている。NN部31Aは、画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35を備えている。学習部11Aは、ステップS907の処理にて終了条件を満たすまで、複数の番組学習データからなる組毎に、ステップS901~S906の処理を行う。
【0076】
学習部11Aは、番組学習データ生成部10Aから、学習用番組画像、代表画像適性度及び1または複数のジャンルラベルからなる番組学習データを入力する(ステップS901)。
【0077】
ジャンルベクトル生成部30は、番組学習データに含まれる1または複数のジャンルラベルを入力し、1または複数のジャンルラベルに基づいて、N次元のジャンルベクトルを生成する(ステップS902)。
【0078】
前述のとおり、Nはジャンル数であり、具体的には、図3に示したジャンル統合部20により図5のステップS503の処理にて生成されたテーブル21に定義されたジャンルラベルの数である。N次元のジャンルベクトルは、ジャンル数Nの要素(図12に示したテーブル21の例ではジャンルラベルa,・・・,hのそれぞれに対応する要素)からなり、番組学習データに含まれる1または複数のジャンルラベルが反映された要素を含むベクトルである。
【0079】
図12に示したテーブル21の例では、ジャンル数N=8である。例えば番組学習データに含まれるジャンルラベルがaの場合、ジャンルベクトル生成部30は、ジャンルベクトル(1,0,0,0,0,0,0,0)を生成する。また、番組学習データに含まれるジャンルラベルがe,fの場合、ジャンルベクトル生成部30は、ジャンルベクトル(0,0,0,0,1,1,0,0)を生成する。
【0080】
ジャンル情報ありモデルにおけるNN部31Aは、番組学習データに含まれる学習用番組画像を入力すると共に、ジャンルベクトル生成部30からジャンルベクトルを入力する。そして、NN部31Aは、パラメータ更新部38Aにより更新されたパラメータが設定された画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35、並びに加算部34を用いて、学習用番組画像及びジャンルベクトルからスコアを計算し、これを重要度とする(ステップS903)。NN部31Aは、スコア(重要度)を誤差算出部37Aに出力する。画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35の詳細については後述する。
【0081】
正解スコア付与部36は、処理に先立ち、ユーザ操作に従って、代表画像適性度のラベルの段階数に応じたスコア付与規則を予め設定する。正解スコア付与部36は、番組学習データに含まれる代表画像適性度を入力し、予め設定されたスコア付与規則を用いて、0.0~1.0の範囲内で代表画像適性度のラベルの段階数に応じた正解スコアを付与する(ステップS904)。正解スコア付与部36は、正解スコアを誤差算出部37Aに出力する。
【0082】
例えば代表画像適性度のラベルがgreat/good/badであり、段階数が3である場合、正解スコア付与部36は、ユーザ操作に従って、代表画像適性度のラベルgreat/good/badのそれぞれに対し、1.0/0.5/0.0を付与する。この場合、正解スコアは、0.0~1.0の範囲において必ずしも等間隔である必要はなく、例えば1.0/0.7/0.0であってもよく、適切な間隔で付与されるようにすればよい。
【0083】
誤差算出部37Aは、NN部31Aからスコア(重要度)を入力すると共に、正解スコア付与部36から正解スコアを入力する。そして、誤差算出部37Aは、スコア(重要度)と正解スコアとの間の誤差を算出し(ステップS905)、誤差をパラメータ更新部38Aに出力する。例えば誤差を算出する関数としては、MSE(平均二乗誤差)等の、誤差が大きいほど大きい値を出力する関数が用いられる。
【0084】
パラメータ更新部38Aは、画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35のパラメータを保持している。パラメータ更新部38Aは、誤差算出部37Aから誤差を入力し、誤差(誤差の和)が小さくなるように、保持しているパラメータを更新する(ステップS906)。そして、パラメータ更新部38Aは、更新したパラメータをNN部31Aの画像特徴抽出NN32、ジャンル特徴抽出NN33及び重要度計算NN35に設定する。
【0085】
尚、パラメータ更新部38Aは、パラメータを更新する処理として、例えばAdam、SGD(Stochastic Gradient Descent)、誤差逆伝播学習法(Backpropagation)等の一般的なNN最適化手法を用いる。
【0086】
パラメータ更新部38Aは、ステップS906から移行して、パラメータ更新の終了条件を満たすか否かを判定する(ステップS907)。
【0087】
パラメータ更新部38Aは、ステップS907において、終了条件を満たさないと判定した場合(ステップS907:N)、ステップS901へ移行し、次の番組学習データについて、ステップS901~S906の処理を行う。つまり、終了条件を満たすまで、番組学習データの組毎に、ステップS901~S906の処理が行われる。
【0088】
一方、パラメータ更新部38Aは、ステップS907において、終了条件を満たすと判定した場合(ステップS907:Y)、ステップS906の処理にて更新したパラメータを最適なパラメータとして出力する(ステップS908)。パラメータ更新部38Aにより出力された最適なパラメータは、後述する図17図19に示す代表画像抽出装置2に備えたジャンル情報ありNN61A及びスコア算出部74AのNNに設定される。
【0089】
ここで、ステップS907における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。
【0090】
このように、学習部11AのNN部31Aにより計算されるスコア(重要度)は、画像及びジャンルの特徴が反映された値であって、代表画像適性度が高いほど大きい値となり、代表画像適性度が低いほど小さい値となる。つまり、学習部11Aにより学習されるNN部31Aは、ジャンル毎の番組の特性が反映され、かつ番組画像について代表画像としての傾向が反映されたスコア(重要度)を計算するネットワークとなる。
【0091】
そして、後述する図17図19の代表画像抽出装置2において、NN部31Aのパラメータが設定された当該NN部31Aと同じ構成のNNを用いることで、番組画像が代表画像としての傾向が高い場合は、大きい値のスコア(重要度)を得ることができる。一方、番組画像が代表画像としての傾向が低い場合は、小さい値のスコア(重要度)を得ることができる。
【0092】
一方、ジャンル情報なしモデルにおける学習部11Bは、NN部31B、誤差算出部37B及びパラメータ更新部38Bを備えている。学習部11Bは、ステップS1005の処理にて終了条件を満たすまで、番組学習データ毎に、ステップS1001~S1004の処理を行う。
【0093】
ジャンル情報なしモデルにおけるNN部31Bは、メモリ12から、番組画像及び正解スコアからなる番組学習データを読み出す(ステップS1001)。そして、NN部31Bは、パラメータ更新部38Bによりパラメータが設定されたニューラルネットワークを用いて、番組画像から1次元のスコアを算出し、スコアを誤差算出部37Bに出力する(ステップS1002)。このニューラルネットワークとは、後述する図15に示す特徴抽出用NN40及びスコア算出用NN41である。
【0094】
誤差算出部37Bは、NN部31Bからスコアを入力すると共に、番組学習データの正解スコアを入力し、両者の誤差を算出してパラメータ更新部38Bに出力する(ステップS1003)。例えば、誤差を算出する関数としては、MSE(平均二乗誤差)等の、誤差が大きいほど大きい値を出力する関数が用いられる。
【0095】
パラメータ更新部38Bは、誤差算出部37Bから番組画像の誤差を入力し、誤差(誤差の和)が小さくなるように、保持しているパラメータを更新する(ステップS1004)。そして、パラメータ更新部38Bは、更新したパラメータをNN部31Bに設定する。
【0096】
ここで、パラメータ更新部38Bは、NN部31Bに設定したパラメータを保持しているものとする。
【0097】
尚、パラメータ更新部38Bは、パラメータを更新する処理として、例えばAdam、SGD(Stocastic Gradient Descent)、誤差逆伝播学習法(Backpropagation)等の一般的なニューラルネットワーク最適化手法を用いる。
【0098】
パラメータ更新部38Bは、ステップS1004から移行して、パラメータ更新の終了条件を満たすか否かを判定する(ステップS1005)。
【0099】
パラメータ更新部38Bは、ステップS1005において、終了条件を満たさないと判定した場合(ステップS1005:N)、ステップS1001へ移行し、次の番組学習データについて、ステップS1001~S1004の処理を行う。つまり、終了条件を満たすまで、番組学習データ毎に、ステップS1001~S1004の処理が行われる。
【0100】
一方、パラメータ更新部38Bは、ステップS1005において、終了条件を満たすと判定した場合(ステップS1005:Y)、ステップS1004の処理にて更新したパラメータを最適なパラメータとして出力する(ステップS1006)。パラメータ更新部38Bにより出力された最適なパラメータは、後述する図17図19に示す代表画像抽出装置2に備えたジャンル情報なしNN61B及びスコア算出部74Bのニューラルネットワークに設定される。
【0101】
ここで、ステップS1005における終了条件は、例えば、予め設定された回数分のパラメータ更新が行われたか否か、パラメータの更新量が予め設定された閾値よりも小さいか否かの条件等である。
【0102】
(NN部)
次に、図7に示したNN部31Aの画像特徴抽出NN32、ジャンル特徴抽出NN33、加算部34及び重要度計算NN35について詳細に説明する。
【0103】
図13は、ジャンル情報ありモデルにおける画像特徴抽出NN32の具体的な構成例を説明する図であり、図14(1)は、ジャンル特徴抽出NN33の具体的な構成例を説明する図であり、図14(2)は、重要度計算NN35の具体的な構成例を説明する図である。
【0104】
図13図14(1)及び(2)において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。
【0105】
図13に示すように、画像特徴抽出NN32は、「Conv」の畳み込み層α1に学習用番組画像のデータを入力し、「Conv」の畳み込み層α1から「Concat」の連結層α2までのNNの演算を行う。そして、画像特徴抽出NN32は、「Concat」の連結層α2から、1024次元の画像特徴ベクトルを出力する。画像特徴抽出NN32により出力された1024次元の画像特徴ベクトルは、図7に示したNN部31Aの加算部34に入力される。
【0106】
図14(1)に示すように、ジャンル特徴抽出NN33は、「FC」の全結合層α3にN次元のジャンルベクトルを入力し、「FC」の全結合層α3及び「FC」の全結合層α4のNNの演算を行う。そして、ジャンル特徴抽出NN33は、「FC」の全結合層α4から、1024次元のジャンル特徴ベクトルを出力する。ジャンル特徴抽出NN33により出力された1024次元のジャンル特徴ベクトルは、図7に示したNN部31Aの加算部34に入力される。ここで、ジャンル特徴抽出NN33により出力されるジャンル特徴ベクトルの次元(サイズ)は、画像特徴抽出NN32により出力される画像特徴ベクトルの次元(サイズ)に等しい。
【0107】
図7に示したNN部31Aの加算部34は、画像特徴抽出NN32から1024次元の画像特徴ベクトルを入力すると共に、ジャンル特徴抽出NN33から1024次元のジャンル特徴ベクトルを入力する。そして、加算部34は、1024次元の画像特徴ベクトル及び1024次元のジャンル特徴ベクトルを加算し、加算結果である1024次元の特徴ベクトルを重要度計算NN35に出力する。
【0108】
図14(2)に示すように、重要度計算NN35は、「FC」の全結合層α5に1024次元の特徴ベクトルを入力し、「FC」の全結合層α5から「Sigmoid」のシグモイド関数の層α6までのNNの演算を行い、1次元のスコアを計算する。そして、重要度計算NN35は、「Sigmoid」のシグモイド関数の層α6から、1次元のスコアを重要度として図7に示した誤差算出部37Aに出力する。
【0109】
このように、NN部31Aは、学習用番組画像から1024次元の画像特徴ベクトルを計算する画像特徴抽出NN32、ジャンルベクトルから1024次元のジャンル特徴ベクトルを計算するジャンル特徴抽出NN33、1024次元の画像特徴ベクトル及び1024次元のジャンル特徴ベクトルを加算する加算部34、及び、加算結果である1024次元の特徴ベクトルから1次元のスコア(重要度)を計算する重要度計算NN35から構成される。
【0110】
このNN部31Aにより、正解スコア付与部36が代表画像適性度から正解スコアを生成する際の正解スコアの段階数に関わることなく、1次元のスコアが算出される。つまり、NN部31Aとしては、代表画像適性度の正解スコアの段階数に応じて異なるNNを用意する必要がなく、段階数に依存することのない固定構成のNNを用意すればよい。
【0111】
以上のように、ジャンル情報ありモデルにおける学習装置1Aによれば、番組学習データ生成部10Aは、学習用番組画像及びジャンルコードを入力し、ユーザ操作に従って生成したテーブル21から、ジャンルコードに対応するジャンルラベルを読み出す。そして、番組学習データ生成部10Aは、学習用番組画像にジャンルラベルを付与し、学習用番組画像、代表画像適性度及びジャンルラベルからなる番組学習データを生成する。
【0112】
ジャンル情報ありモデルにおける学習部11Aは、番組学習データを用いてジャンル情報ありモデルにおけるNN部31Aを学習する。具体的には、学習部11Aは、番組学習データに含まれるジャンルラベルに基づきジャンルベクトルを生成し、NN部31Aを用いて、番組学習データに含まれる学習用番組画像及びジャンルベクトルからスコア(重要度)を計算する。
【0113】
学習部11Aは、番組学習データに含まれる代表画像適性度から正解スコアを付与し、スコア(重要度)と正解スコアとの間の誤差が小さくなるように、NN部31Aのパラメータを更新することで、NN部31Aを学習する。
【0114】
ここで、代表画像適性度は、番組の代表画像として適しているか否かを示す指標であり、番組制作のノウハウが反映されているが、ジャンル毎の番組の特性は反映されていない。本発明の実施形態では、番組学習データとして、代表画像適性度に加え、ジャンルラベルを用いるようにした、これにより、ジャンルを取り入れた学習が行われるため、ジャンル毎の番組の特性を反映したNN部31A(NN部31Aのパラメータ)が生成される。
【0115】
そして、後述する代表画像抽出装置2は、当該NN部31Aのパラメータが設定されたNN(NN部31Aと同じ構成のNN)を用いる場合には、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。
【0116】
次に、図8に示したジャンル情報なしモデルにおけるNN部31Bについて詳細に説明する。図15は、ジャンル情報なしモデルにおけるNN部31Bの構成例を示すブロック図である。このNN部31Bは、特徴抽出用NN40及びスコア算出用NN41を備えて構成される。
【0117】
特徴抽出用NN40は、番組画像を入力し、番組画像を入力データとして、パラメータ更新部38Bによりパラメータが設定されたニューラルネットワークの演算により、1024次元の画像特徴ベクトルの出力データを求める。そして、特徴抽出用NN40は、1024次元の画像特徴ベクトルをスコア算出用NN41に出力する。
【0118】
スコア算出用NN41は、特徴抽出用NN40から1024次元の画像特徴ベクトルを入力し、これを入力データとして、パラメータ更新部38Bによりパラメータが設定されたニューラルネットワークの演算により、1次元のスコアの出力データを求める。そして、スコア算出用NN41はスコアを出力する。
【0119】
図16は、ジャンル情報なしモデルにおけるNN部31Bの具体的な構成例を説明する図であり、図15に示したNN部31Bの構成を詳細に表したものである。図16において、「Conv」は畳み込み層を、「MaxPool」は最大値を抽出するプーリング層を、「LocalResponseNorm」は正規化層をそれぞれ示す。また、「Inception Module」は「GoogLeNet」に含まれる技術であり、畳み込み層及びプーリング層を示す。また、「AveragePool」は平均値を算出するプーリング層を、「FC」は全結合層を、「Concat」は連結層を、「Sigmoid」はシグモイド関数を用いる層をそれぞれ示す。また、「Kernel」はフィルタサイズを、「dim」は次元数をそれぞれ示す。
【0120】
番組画像または芸術性評価画像が入力される「Conv」のプーリング層β1から、1024次元の画像特徴ベクトルが出力される「Concat」の連結層β2までの各層により、特徴抽出用NN40が構成される。
【0121】
また、1024次元の画像特徴ベクトルが入力される「FC」の全結合層β3から、1次元のスコアが出力される「Sigmoid」のシグモイド関数β4の出力層までの各層により、スコア算出用NN41が構成される。
【0122】
このように、NN部31Bは、番組画像から当該画像の1024次元の画像特徴ベクトルを算出する特徴抽出用NN40と、当該画像の1024次元の画像特徴ベクトルから1次元のスコアを算出するスコア算出用NN41から構成される。
【0123】
このNN部31Bにより、番組画像に付与された正解スコアの段階数に関わることなく、1次元のスコアが算出される。つまり、NN部31Bとしては、番組画像の段階数に応じて異なるニューラルネットワークを用意する必要がなく、段階数に依存することのない固定構成のニューラルネットワークを用意すればよい。
【0124】
以上のように、ジャンル情報なしモデルにおける学習装置1Bによれば、番組学習データ生成部10Bは、学習用番組映像をサンプリングして得られた番組画像について、番組HPのURLへアクセスして取得した静止画との間の類似度を算出する。そして、番組学習データ生成部10Bは、類似度に基づいて、番組画像に対して正解スコアを付与し、番組画像及び正解スコアからなる番組学習データを生成する。
【0125】
ジャンル情報なしモデルにおける学習部11Bは、番組学習データを用いて、ニューラルネットワークを学習する。具体的には、NN部31Bは、ニューラルネットワークを用いて、番組学習データに含まれる番組画像から1次元のスコアを算出し、誤差算出部37Bは、番組画像のスコアと番組学習データに含まれる正解スコアとの間の誤差を算出する。
【0126】
パラメータ更新部38Bは、番組画像の誤差が小さくなるように、ニューラルネットワークのパラメータを更新し、所定の終了条件を満たしたときのパラメータを最適なパラメータとして出力する。
【0127】
ここで、番組HPの静止画は、番組制作スタッフのノウハウを生かすことで生成された画像であるため、番組画像と静止画の類似度から算出された番組画像の正解スコアは、番組制作のノウハウを考慮したスコアとなる。
【0128】
これにより、番組画像の正解スコアを用いて学習されたニューラルネットワークも、番組制作のノウハウを考慮したものとなる。したがって、後述する代表画像抽出装置2は、学習装置1Bにより学習されたニューラルネットワークを用いる場合には、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
【0129】
〔代表画像抽出装置〕
次に、図1及び図2に示した学習装置1A,1Bにより学習されたNNを用いて、番組映像から代表画像を抽出する代表画像抽出装置について説明する。図17は、本発明の実施形態による代表画像抽出装置2の構成例を示すブロック図である。
【0130】
この代表画像抽出装置2は、NN選定部50、画像選定部51及び画像ソート部52を備えている。図18は、NN選定部50の構成例を示すブロック図であり、図19は、画像選定部51の構成例を示すブロック図である。また、図20は、代表画像抽出装置2の処理例を示すフローチャートである。
【0131】
図18に示すように、NN選定部50は、ジャンル情報ありNN61A、誤差算出部62A及び誤差加算部63Aを備えたジャンル情報ありモデル誤差計算部60Aと、ジャンル情報なしNN61B、誤差算出部62B及び誤差加算部63Bを備えたジャンル情報なしモデル誤差計算部60Bと、比較部64及びメモリ65を備えている。
【0132】
ジャンル情報ありNN61Aは、ジャンル情報ありモデルにおける学習装置1Aにより学習されたNNであり、当該代表画像抽出装置2の処理に先立って、NN部31Aと同じパラメータが設定される。ジャンル情報ありNN61Aは、番組画像と、ジャンルラベルと、正解スコアとがセットになった形式の番組画像データのうち、番組画像及びジャンルラベルを入力し、スコアを出力する。
【0133】
誤差算出部62Aは、ジャンルラベル毎に、ジャンル情報ありNN61Aが出力したスコアと、元の番組画像データの正解スコアとに基づいて、その誤差を算出する算出部である。誤差加算部63Aは、ジャンルラベル毎に、誤差算出部62Aが算出した誤差を累積して誤差の和を計算する加算部である。
【0134】
ジャンル情報なしNN61Bは、ジャンル情報なしモデルにおける学習装置1Bにより学習されたNNであり、当該代表画像抽出装置2の処理に先立って、NN部31Bと同じパラメータが設定される。ジャンル情報なしNN61Bは、番組画像データのうちの番組画像を入力し、スコアを出力する。
【0135】
誤差算出部62Bは、ジャンルラベル毎に、ジャンル情報なしNN61Bが出力したスコアと、元の番組画像データの正解スコアとに基づいて、その誤差を算出する算出部である。誤差加算部63Bは、ジャンルラベル毎に、誤差算出部62Bが算出した誤差を累積して誤差の和を計算する加算部である。誤差加算部63Bにより計算された誤差の和は、誤差加算部63Aにより計算された誤差の和に対応し、ジャンルラベル毎のデータとなる。
【0136】
比較部64は、ジャンル情報ありモデル誤差計算部60Aの誤差加算部63Aが計算した誤差の和と、ジャンル情報なしモデル誤差計算部60Bの誤差加算部63Bが計算した誤差の和とを比較して、すなわち、ジャンル情報ありモデルにおけるジャンル毎の蓄積された誤差の和と、ジャンル情報なしモデルにおけるジャンル毎の蓄積された誤差の和とを比較して、どちらの誤差の和が小さいかを判断する比較部である。そして、比較部64は、ジャンルラベル毎に、ジャンル情報ありモデルを使用した場合と、ジャンル情報なしモデルを使用した場合のどちらの誤差の和が小さいかを判断し、誤差の和の小さい方を選定(使用すると決定)してメモリ65に記憶する。つまり、比較部64は、ジャンルラベル、及び誤差の和の小さい方の選定結果(ジャンル情報ありモデルを使用するか、またはジャンル情報なしモデルを使用するかを示す選定結果)をメモリ65に記憶する。
【0137】
ジャンル情報ありNN61Aが入力するデータも、ジャンル情報なしNN61Bが入力するデータも、ジャンル情報ありモデルの学習処理で用いた番組学習データと同じ形式の、番組画像と、ジャンルラベルと、正解スコアとがセットになった形式の番組画像データ(番組画像群)である。ジャンルラベル毎に求めた誤差の和が比較され、各ジャンルでどちらのモデルを採用するかが決定される。
【0138】
メモリ65は、比較部64により選定された結果、すなわち、ジャンル情報ありモデルを使用するか、またはジャンル情報なしモデルを使用するかを示す選定結果と、元の番組画像データのジャンルラベルとを対応付けて記憶するメモリである。そして、画像選定部51の切り替え部70により、メモリ65からジャンルラベルに対応する選定結果が読み出される。
【0139】
当該代表画像抽出装置2の処理に先立って、NN選定部50により、ジャンルラベル毎に、ジャンル情報ありモデルを使用するか、またはジャンル情報なしモデルを使用するかを示す選定結果が決定され、メモリ65に記憶される。
【0140】
図19に示すように、画像選定部51は、切り替え部70、テーブル71、ジャンルラベル付与部72、サンプリング処理部73A,73B及びスコア算出部(NN)74A,74Bを備えている。
【0141】
切り替え部70は、番組映像及び当該番組映像のジャンルコードを入力し、テーブル71から当該ジャンルコードに対応するジャンルラベルを読み出し、NN選定部50のメモリ65から当該ジャンルラベルに対応する選定結果を読み出す(ステップS2001)。
【0142】
ここで、切り替え部70は、番組映像のジャンルコードとして複数のジャンルコードを入力した場合には、テーブル71から複数の異なるジャンルラベルを読み出すこともあり得る。切り替え部70は、複数の異なるジャンルラベルに対応する選定結果がジャンル情報ありモデル及びジャンル情報なしモデルを示している場合、選定結果がジャンル情報ありモデルである数と、ジャンル情報なしモデルである数とを比較し、数の多い方の選定結果を特定し、後述するステップS2002の判定処理を行う。選定結果がジャンル情報ありモデルである数と、ジャンル情報なしモデルである数とが同じである場合には、予め設定された選定結果が特定される。
【0143】
テーブル71には、ジャンル情報ありモデルにおける学習装置1Aの番組学習データ生成部10Aに備えたジャンル統合部20により生成されたテーブル21に記憶されているデータと同じデータが格納されている。テーブル71には、当該代表画像抽出装置2の処理に先立って、テーブル21と同じデータが設定される。
【0144】
NN選定部50から入力した選定結果が、ジャンル情報ありモデルを使用するという選定結果だった場合(ステップS2002:Y)、切り替え部70は、入力した番組映像をサンプリング処理部73Aへ出力し、入力したジャンルコードをジャンルラベル付与部72へ出力する。
【0145】
サンプリング処理部73Aは、切り替え部70から番組映像を入力し、番組映像から一定間隔で、フレーム画像である番組画像をサンプリングして番組画像群を生成し、番組画像群のそれぞれをジャンルラベル付与部72に出力する。
【0146】
尚、サンプリング処理部73Aは、番組映像をサンプリングして得られた全ての番組画像のうち、所定数の番組画像を予め選択し、選択した所定数の番組画像のみをジャンルラベル付与部72に出力するようにしてもよい。これにより、ジャンルラベル付与部72及びスコア算出部74Aにおける処理負荷を低減することができる。
【0147】
ジャンルラベル付与部72は、サンプリング処理部73Aから番組画像群のそれぞれを入力すると共に、切り替え部70からジャンルコードを入力し、テーブル71からジャンルコードに対応するジャンルラベルを読み出し(ステップS2003)、番組画像群のそれぞれに、読み出したジャンルラベルを付与する(ステップS2004)。
【0148】
ここで、ジャンルラベル付与部72は、複数の異なるジャンルコードを入力した場合には、1つの番組画像に対して複数のジャンルラベルを付与する場合もあり得る。つまり、ジャンルラベル付与部72は、1つの番組画像に対し、1または複数のジャンルラベルを付与する。ジャンルラベル付与部72は、番組画像群のそれぞれについて、番組画像、及び1または複数のジャンルラベルをスコア算出部74Aに出力する。
【0149】
これにより、番組画像群のそれぞれについて、1または複数のジャンルラベルが付与される。
【0150】
尚、ジャンルラベル付与部72は、番組映像をサンプリングして得られた全ての番組画像のうち、所定数の番組画像を予め選択し、選択した所定数の番組画像、及び1または複数のジャンルラベルをスコア算出部74Aに出力するようにしてもよい。これにより、スコア算出部74Aにおける処理負荷を低減することができる。
【0151】
スコア算出部74Aは、図1及び図7に示したジャンルあり情報モデルにおける学習装置1Aにより学習されたNN部31Aと同じ構成のジャンル情報ありNNを備えている。スコア算出部74Aに備えたNNには、当該代表画像抽出装置2の処理に先立って、NN部31Aと同じパラメータが設定される。つまり、スコア算出部74Aは、学習装置1Aにより出力された最適なパラメータを入力し、ジャンル情報ありNNに設定する。
【0152】
スコア算出部74Aは、ジャンルラベル付与部72から、番組画像群のそれぞれについて、番組画像及び1または複数のジャンルラベルを入力する。そして、スコア算出部74Aは、ジャンルあり情報NNを用いて、番組画像及び1または複数のジャンルラベルからスコアを算出する。
【0153】
具体的には、スコア算出部74Aは、図7及び図9に示したジャンルベクトル生成部30によるステップS902の処理と同様に、1または複数のジャンルラベルに基づいて、N次元のジャンルベクトルを生成する(ステップS2005)。
【0154】
スコア算出部74Aは、図7に示したジャンル情報ありNN部31Aと同様の学習済みのジャンル情報ありNNを用いて、番組画像及びジャンルベクトルからスコアを算出する(ステップS2006)。そして、スコア算出部74Aは、番組画像群のそれぞれについて、番組画像及びスコアを画像ソート部52に出力する。
【0155】
画像ソート部52は、画像選定部51のスコア算出部74Aから、番組画像群のそれぞれについての番組画像及びスコアを入力する。そして、画像ソート部52は、スコアの降順に番組画像をソートし、全ての番組画像の中からスコアの高い所定数(1以上の整数)の番組画像を、代表画像(候補)として抽出する(ステップS2008)。
【0156】
画像ソート部52は、所定数の代表画像を時系列順にソートし、時系列順の所定数の代表画像を出力する(ステップS2009)。
【0157】
一方、NN選定部50から入力した選定結果が、ジャンル情報ありモデルを使用するという選定結果でない場合(ステップS2002:N)、すなわちジャンル情報なしモデルを使用するという選定結果である場合、切り替え部70は、番組映像をサンプリング処理部73Bへ出力する。
【0158】
サンプリング処理部73Bは、サンプリング処理部73Aと同様に、番組映像を入力し、番組映像から一定間隔で、フレーム画像である番組画像をサンプリングして番組画像群を生成し、番組画像群のそれぞれをスコア算出部74Bに出力する。
【0159】
尚、サンプリング処理部73Bは、サンプリング処理部73Aと同様に、番組映像をサンプリングして得られた全ての番組画像のうち、所定数の番組画像を予め選択し、選択した所定数の番組画像のみをスコア算出部74Bに出力するようにしてもよい。これにより、スコア算出部74Bにおける処理負荷を低減することができる。
【0160】
スコア算出部74Bは、図2及び図8に示したジャンルなし情報モデルにおける学習装置1Bにより学習されたNN部31Bと同じ構成のジャンル情報なしNNを備えている。スコア算出部74Bに備えたNNには、当該代表画像抽出装置2の処理に先立って、NN部31Bと同じパラメータが設定される。つまり、スコア算出部74Bは、学習装置1Bにより出力された最適なパラメータを入力し、ジャンル情報なしNNに設定する。
【0161】
スコア算出部74Bは、サンプリング処理部73Bから番組画像群のそれぞれを入力し、ジャンル情報なしNNを用いて、番組画像からスコアを算出する(ステップS2007)。そして、スコア算出部74Bは、番組画像及び当該番組画像のスコアを画像ソート部52に出力する。
【0162】
これにより、番組映像をサンプリングして得られた番組画像群のそれぞれについて、当該番組画像のスコアが算出され、番組画像及び当該番組画像のスコアが画像ソート部52に出力される。
【0163】
画像ソート部52は、サンプリング処理部73Bによりサンプリングして得られた番組画像群のそれぞれについて、スコア算出部74Bから番組画像及びスコアを入力する。そして、画像ソート部52は、スコアの降順に番組画像をソートし、全ての番組画像の中からスコアの高い所定数(1以上の整数)の番組画像を、代表画像(候補)として抽出する(ステップS2008)。
【0164】
画像ソート部52は、所定数の代表画像を時系列順にソートし、時系列順の所定数の代表画像を出力する(ステップS2009)。
【0165】
尚、画像ソート部52は、番組映像を構成する全ての番組画像及びこれらに対応するスコアを入力し、閾値処理により、全ての番組画像をスコアに基づいて例えば3段階のクラスに分類し、上位のクラスの番組画像を代表画像として抽出するようにしてもよい。画像ソート部52は、必ずしもスコアを等間隔に区切ることで、番組画像を分類する必要はない。
【0166】
例えば、画像ソート部52は、予め設定された閾値(例えば、0.25,0.75)を用いた閾値処理により、0.00≦スコア≦閾値0.25の場合、当該スコアの番組画像を第1の段階のクラスに分類する。また、画像ソート部52は、閾値0.25<スコア<閾値0.75の場合、当該スコアの番組画像を第2の段階のクラスに分類し、閾値0.75≦スコア≦1.00の場合、当該スコアの番組画像を第3の段階のクラスに分類する。そして、画像ソート部52は、第3の段階のクラスの番組画像を代表画像として抽出する。
【0167】
ここで、代表画像抽出装置2が用いるジャンル情報ありNNは、学習装置1Aにより学習されたNN部31Aと同じ構成であり、ジャンル毎の番組の特性を反映したネットワークである。したがって、このジャンル情報ありNNを用いることで、番組映像から、ジャンル毎の番組の特性を反映した代表画像を抽出することができる。そして、例えば代表画像を用いて番組HPを作成するHP作成者は、作業量を大幅に減らすことができ、HPの充実化を図ることができる。
【0168】
また、代表画像抽出装置2が用いるジャンル情報なしNNは、学習装置1Bにより学習されたNN部31Bと同じ構成であり、番組制作のノウハウを考慮して生成されたモデルである。したがって、このジャンル情報なしNNを用いることにより、番組映像から、番組制作のノウハウを考慮した代表画像を抽出することができる。また、番組映像以外の特殊なデータを用いることなく、代表画像を抽出することができるから、処理負荷を低減することができる。そして、代表画像を用いて番組HPを作成する際には、作業量を大幅に減らすことができる。
【0169】
以上のように、代表画像抽出装置2によれば、番組映像から代表画像を抽出する際に、ジャンル情報を取り入れたNN(ジャンル情報ありNN)及びジャンル情報を取り入れていないNN(ジャンル情報なしNN)を用いることにより、代表画像の傾向を考慮して、ジャンル毎の番組の特性を反映させるか否かを判断した上で、最も適切な代表画像を抽出することができる。
【0170】
〔代表画像抽出装置2を用いた実施例〕
次に、図17図19に示した代表画像抽出装置2を用いた実施例について説明する。図21は、代表画像抽出装置2を用いた第1実施例の番組HP作成システムを説明する図である。この番組HP作成システム3は、番組HPの作成対象である番組についての番組EPG(Electronic Programming Guide:電子番組表)情報及び番組映像を用いて、番組HPを作成するシステムである。
【0171】
番組HP作成システム3は、代表画像抽出装置2、要約映像生成部100及び自動配置処理部101を備えて構成される。要約映像生成部100は、従来の処理により、番組映像から要約映像を生成する構成部であり、代表画像抽出装置2は、図17図19に示した本発明の実施形態による装置であり、番組映像から例えば3枚の代表画像を抽出する。
【0172】
自動配置処理部101は、番組EPG情報、要約映像及び3枚の代表画像を、予め設定された位置に配置し、図21に示すような番組HPを作成する。
【0173】
図22は、代表画像抽出装置2を用いた第2実施例の番組DVD販売HP作成システムを説明する図である。この番組DVD販売HP作成システム4は、番組DVD販売HPの作成対象である番組DVDについてのDVD宣伝コメント、DVDパッケージ画像及び番組DVD動画を用いて、番組DVD販売HPを作成するシステムである。
【0174】
番組DVD販売HP作成システム4は、代表画像抽出装置2及び自動配置処理部102を備えて構成される。代表画像抽出装置2は、図17図19に示した本発明の実施形態による装置であり、番組DVD動画から例えば6枚の代表画像を抽出する。
【0175】
自動配置処理部102は、DVD宣伝コメント、DVDパッケージ画像及び6枚の代表画像を、予め設定された位置に配置し、図22に示すような番組DVD販売HPを作成する。
【0176】
このように、代表画像抽出装置2により抽出された代表画像を用いる番組HP作成システム3及び番組DVD販売HP作成システム4により、充実したHPを作成することができる。
【0177】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0178】
例えば図1に示した学習装置1Aにおいて、図13に示した画像特徴抽出NN32は、1024次元の画像特徴ベクトルの出力データを求め、図14(1)に示したジャンル特徴抽出NN33は、1024次元のジャンル特徴ベクトルの出力データを求めるようにした。また、図14(2)に示した重要度計算NN35は、加算部34により求めた1024次元の特徴ベクトルを入力するようにした。この1024次元の画像特徴ベクトル、ジャンル特徴ベクトル及び特徴ベクトルにおける次元数は例示であり、本発明は、次元数を1024次元に限定するものではない。
【0179】
尚、本発明の実施形態による学習装置1A,1Bのハードウェア構成としては、通常のコンピュータを使用することができる。学習装置1A,1Bは、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。本発明の実施形態による代表画像抽出装置2についても同様である。
【0180】
学習装置1A,1Bに備えた番組学習データ生成部10A,10B及び学習部11A,11Bの各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0181】
また、代表画像抽出装置2に備えたNN選定部50、画像選定部51及び画像ソート部52の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0182】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0183】
1A,1B 学習装置
2 代表画像抽出装置
3 番組HP(ホームページ)作成システム
4 番組DVD販売HP作成システム
10A,10B 番組学習データ生成部
11A,11B 学習部(NN)
12,65 メモリ
20 ジャンル統合部
21,71 テーブル
22,72 ジャンルラベル付与部
23,73A,73B サンプリング処理部
24 ダウンロード処理部
25 類似度算出部
26,36 正解スコア付与部
30 ジャンルベクトル生成部
31A,31B NN(ニューラルネットワーク)部
32 画像特徴抽出NN
33 ジャンル特徴抽出NN
34 加算部
35 重要度計算NN
37A,37B 誤差算出部
38A,38B パラメータ更新部
40 特徴抽出用NN
41 スコア算出用NN
50 NN選定部
51 画像選定部(NN)
52 画像ソート部
60A ジャンル情報ありモデル誤差計算部
60B ジャンル情報なしモデル誤差計算部
61A ジャンル情報ありNN
61B ジャンル情報なしNN
62A,62B 誤差算出部
63A,63B 誤差加算部
64 比較部
70 切り替え部
74A,74B スコア算出部(NN)
100 要約映像生成部
101,102 自動配置処理部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22