IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

<>
  • 特許-映像抽出装置及びプログラム 図1
  • 特許-映像抽出装置及びプログラム 図2
  • 特許-映像抽出装置及びプログラム 図3
  • 特許-映像抽出装置及びプログラム 図4
  • 特許-映像抽出装置及びプログラム 図5
  • 特許-映像抽出装置及びプログラム 図6
  • 特許-映像抽出装置及びプログラム 図7
  • 特許-映像抽出装置及びプログラム 図8
  • 特許-映像抽出装置及びプログラム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-09
(45)【発行日】2024-05-17
(54)【発明の名称】映像抽出装置及びプログラム
(51)【国際特許分類】
   H04N 21/8549 20110101AFI20240510BHJP
   G06T 7/00 20170101ALI20240510BHJP
【FI】
H04N21/8549
G06T7/00 350C
【請求項の数】 5
(21)【出願番号】P 2020073124
(22)【出願日】2020-04-15
(65)【公開番号】P2021170724
(43)【公開日】2021-10-28
【審査請求日】2023-03-01
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100121119
【弁理士】
【氏名又は名称】花村 泰伸
(72)【発明者】
【氏名】▲高▼橋 真央
(72)【発明者】
【氏名】太田 善久
【審査官】富樫 明
(56)【参考文献】
【文献】特開2012-010265(JP,A)
【文献】国際公開第2019/194906(WO,A1)
【文献】特開2017-098637(JP,A)
【文献】特開2013-239796(JP,A)
【文献】特開2001-202522(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00-21/858
G06T 7/00
(57)【特許請求の範囲】
【請求項1】
映像から区間映像を抽出する映像抽出装置において、
前記映像を所定の分割点にて分割し、複数のサブカット映像を抽出する分割部と、
前記分割部により分割された前記複数のサブカット映像のそれぞれを、複数のフレーム画像にサンプリングするサンプリング部と、
前記サンプリング部によりサンプリングされた前記複数のフレーム画像のそれぞれについて、予め学習されたニューラルネットワークを用いてフレームスコアを求めるニューラルネットワーク部と、
前記分割部により分割された前記複数のサブカット映像のそれぞれについて、前記ニューラルネットワーク部により求めた前記フレームスコアに基づきサブカットスコアを算出するサブカットスコア算出部と、
前記複数のサブカット映像のそれぞれに対応する前記複数のフレーム画像のうち、最大の前記フレームスコアを有するフレーム画像を特定し、特定した前記フレーム画像を含む所定時間のサブカット映像の切り出し区間から、切り出し映像を抽出する切り出し部と、
前記切り出し部により抽出された前記切り出し映像、前記サブカット映像、並びに前記サブカットスコア算出部により算出された前記サブカットスコアを組として、
前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像を前記区間映像として出力する抽出部と、
を備えたことを特徴とする映像抽出装置。
【請求項2】
請求項1に記載の映像抽出装置において、
前記抽出部は、
前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像及び前記サブカット映像を前記区間映像として出力する、ことを特徴とする映像抽出装置。
【請求項3】
請求項1または2に記載の映像抽出装置において、
前記分割部は、
前記分割点から所定時間後の時点を基準点とし、前記基準点から順番にそれ以降のフレーム画像を第1フレーム画像としてそれぞれ抽出し、前記分割点のフレーム画像と前記第1フレーム画像との間の類似性の程度を示す類似性評価値を算出し、前記類似性評価値が所定のしきい値よりも小さいと判定した最初の前記第1フレーム画像の時点を新しい分割点に設定し、前記分割点と前記新しい分割点との間の映像をサブカット映像として抽出する、ことを特徴とする映像抽出装置。
【請求項4】
請求項1または2に記載の映像抽出装置において、
前記切り出し部は、
前記サブカット映像の前記切り出し区間から前記切り出し映像を抽出する際に、前記切り出し区間が隣のサブカット映像に跨っている場合、前記切り出し区間が前記サブカット映像の区間に含まれ、かつ前記切り出し区間の端が前記サブカット映像の端に接するように、前記切り出し区間をシフトし、シフト後の前記切り出し区間から前記切り出し映像を抽出する、ことを特徴とする映像抽出装置。
【請求項5】
コンピュータを、請求項1から4までのいずれか一項に記載の映像抽出装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、区間映像を抽出する映像抽出装置及びプログラムに関する。
【背景技術】
【0002】
従来、映像を短くまとめた要約映像を生成する映像要約装置が知られている(例えば、非特許文献1を参照)。例えば放送局においては、番組映像から生成された要約映像は、番組の視聴誘導を行うために用いられる。より詳細には、要約映像は、番組の放送前の番組PRに用いられ、また、放送後の番組ダイジェストとしても用いられ、例えばインターネットを介して視聴者へ提示される。
【0003】
また、AIを用いて要約映像を生成する手法も提案されている(例えば、非特許文献2を参照)。この手法は、ニュース番組等の5~10分のVTRシーンから30秒~1分の要約映像を生成する際に、VTRシーンに入る前の導入部分である前説シーンを用いて、VTRシーンから、要約映像に使用する区間映像を抽出するものである。
【0004】
具体的には、この手法を実現する映像抽出装置は、画像認識モデルを用いて、元の映像を前説シーンとVTRシーンとに分離し、分離したVTRシーンを、切り替わり点を境にして複数のシーンに分割する。そして、映像抽出装置は、音声認識モデルを用いて、分離した前説シーン及び分割した複数のシーンについてテキストデータを生成する。
【0005】
映像抽出装置は、前説シーンと複数のシーンのそれぞれとの間の類似度を、テキストデータに基づいて算出し、複数のシーンから類似度の高いシーンを区間映像として抽出する。そして、抽出された区間映像を用いて要約映像が生成される。
【先行技術文献】
【非特許文献】
【0006】
【文献】“要約映像自動生成技術”、[online]、一般財団法人NHKエンジニアリングシステム、[令和2年3月12日検索]、インターネット<URL:www.nes.or.jp/transfer/catalog/2016/01/52b/>
【文献】宮原駿太、“AIを用いた動画要約システム”、放送技術、兼六館出版、2018年11月、pp.107-109
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、前述の非特許文献2の映像抽出装置では、実際の番組制作の知見が反映された区間映像を抽出することができず、結果として、利用者のニーズに合う要約映像を生成することができないという問題があった。
【0008】
一般に、要約映像を生成する際には、番組映像の各カット(カット映像)から切り出された区間映像、及びカット全体の映像であるカット映像のうちのいずれか一方が用いられる。このため、いずれか一方の映像から生成された要約映像を番組の視聴誘導のために用いた場合には、効果を十分に得ることができない。
【0009】
また、要約映像を生成する際に、「短めの区間映像を多めにしたい」「長い区間映像を多用してじっくり見せたい」「短い区間映像と長い区間映像を適度に混ぜて変化のある映像にしたい」等の利用者の多様なニーズに対応することができないという問題もあった。
【0010】
一方で、要約映像は、前述のとおり番組の視聴誘導を目的として、番組の放送前には番組PRとして用いられ、インターネットを介して視聴者へ提示される。
【0011】
しかしながら、視聴者は、要約映像を視聴し、それが番組PR用であると認識すると、その視聴を止めてしまう傾向がある。なぜならば、要約映像を視聴したとしても、得られる情報が少なく、番組PR用の要約映像では内容が不十分であり、面白みが感じられないからである。
【0012】
このため、視聴者が要約映像の視聴を途中で止めることのないように、それ自体に内容があり、かつ面白い要約映像が作成されることが所望されていた。このような要約映像が作成されることにより、番組の視聴誘導を一層実現することができるからである。これを実現するためには、面白い要約映像、すなわち画力のある要約映像が作成できるように、番組映像から画力のある区間映像を抽出する必要がある。
【0013】
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、要約映像を生成するために、画力のある区間映像を元の映像から抽出可能な映像抽出装置及びプログラムを提供することにある。
【課題を解決するための手段】
【0014】
前記課題を解決するために、請求項1の映像抽出装置は、映像から区間映像を抽出する映像抽出装置において、前記映像を所定の分割点にて分割し、複数のサブカット映像を抽出する分割部と、前記分割部により分割された前記複数のサブカット映像のそれぞれを、複数のフレーム画像にサンプリングするサンプリング部と、前記サンプリング部によりサンプリングされた前記複数のフレーム画像のそれぞれについて、予め学習されたニューラルネットワークを用いてフレームスコアを求めるニューラルネットワーク部と、前記分割部により分割された前記複数のサブカット映像のそれぞれについて、前記ニューラルネットワーク部により求めた前記フレームスコアに基づきサブカットスコアを算出するサブカットスコア算出部と、前記複数のサブカット映像のそれぞれに対応する前記複数のフレーム画像のうち、最大の前記フレームスコアを有するフレーム画像を特定し、特定した前記フレーム画像を含む所定時間のサブカット映像の切り出し区間から、切り出し映像を抽出する切り出し部と、前記切り出し部により抽出された前記切り出し映像、前記サブカット映像、並びに前記サブカットスコア算出部により算出された前記サブカットスコアを組として、前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像を前記区間映像として出力する抽出部と、を備えたことを特徴とする。
【0015】
また、請求項2の映像抽出装置は、請求項1に記載の映像抽出装置において、前記抽出部が、前記複数のサブカット映像のそれぞれに対応する組のうち、所定のしきい値以上の前記サブカットスコアを有する前記組を抽出し、抽出した前記組の前記切り出し映像及び前記サブカット映像を前記区間映像として出力する、ことを特徴とする。
【0016】
また、請求項3の映像抽出装置は、請求項1または2に記載の映像抽出装置において、前記分割部が、前記分割点から所定時間後の時点を基準点とし、前記基準点から順番にそれ以降のフレーム画像を第1フレーム画像としてそれぞれ抽出し、前記分割点のフレーム画像と前記第1フレーム画像との間の類似性の程度を示す類似性評価値を算出し、前記類似性評価値が所定のしきい値よりも小さいと判定した最初の前記第1フレーム画像の時点を新しい分割点に設定し、前記分割点と前記新しい分割点との間の映像をサブカット映像として抽出する、ことを特徴とする。
【0017】
また、請求項4の映像抽出装置は、請求項1または2に記載の映像抽出装置において、前記切り出し部が、前記サブカット映像の前記切り出し区間から前記切り出し映像を抽出する際に、前記切り出し区間が隣のサブカット映像に跨っている場合、前記切り出し区間が前記サブカット映像の区間に含まれ、かつ前記切り出し区間の端が前記サブカット映像の端に接するように、前記切り出し区間をシフトし、シフト後の前記切り出し区間から前記切り出し映像を抽出する、ことを特徴とする。
【0018】
さらに、請求項5のプログラムは、コンピュータを、請求項1から4までのいずれか一項に記載の映像抽出装置として機能させることを特徴とする。
【発明の効果】
【0019】
以上のように、本発明によれば、要約映像を生成するために、画力のある区間映像を元の映像から抽出することができる。
【図面の簡単な説明】
【0020】
図1】本発明の実施形態による映像抽出装置の構成例を示すブロック図である。
図2】分割部の処理例(類似性評価による分割処理)を示すフローチャートである。
図3図2の説明を補充する図である。
図4】切り出し部の処理例を示すフローチャートである。
図5図4の説明を補充する図である。
図6】切り出し区間が終端の分割点を跨ぐ場合の処理を説明する図である。
図7】抽出部の処理例を示すフローチャートである。
図8図7の説明を補充する図である。
図9】学習装置の構成例を示すブロック図である。
【発明を実施するための形態】
【0021】
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、元の映像を複数のサブカット映像SBに分割し、ニューラルネットワークを用いて、サブカット映像SBを構成するフレーム画像F毎にスコア(フレームスコアFS)を求め、フレームスコアFSに基づいて切り出し映像KIを抽出し、サブカット映像SB及び切り出し映像KIを区間映像KUとして特定することを特徴とする。ニューラルネットワークとしては、画力の有無が付与されたフレーム画像Fを学習データとし、当該学習データにより学習されたモデルが用いられる。
【0022】
これにより、要約映像を生成するために、画力のある区間映像KUを元の映像から抽出することができる。
【0023】
〔映像抽出装置〕
まず、本発明の実施形態による映像抽出装置について説明する。図1は、本発明の実施形態による映像抽出装置の構成例を示すブロック図である。この映像抽出装置1は、分割部10、サンプリング部11、NN(ニューラルネットワーク)部12、サブカットスコア算出部13、切り出し部14及び抽出部15を備えている。
【0024】
(分割部10)
分割部10は、番組映像等の映像を入力し、映像に対し、所定の手法を用いて分割点を検出し、映像を分割点にて分割することで、複数のサブカット映像SBを抽出する。そして、分割部10は、サブカット映像SBをサンプリング部11及び切り出し部14に出力する。「サブカット」は、分割部10により映像が分割される単位(分割単位)をいう。
【0025】
所定の手法として、例えばカット点検出処理、及び類似性評価による分割処理がある。分割部10は、カット点検出処理を用いる場合、映像を構成する複数のフレーム映像において、連続するフレーム画像間で大きく画が変化した時点を分割点として検出し、サブカット映像SBを抽出する。カット点検出処理は既知であり、詳細については、例えば特許第4714647号公報または特許第5026152号公報を参照されたい。
【0026】
また、分割部10は、類似性評価による分割処理を用いる場合、検出済みの分割点のフレーム画像と所定時間以降のフレーム画像との間の類似性を評価し、画が大きく変化した時点を新しい分割点とし、サブカット映像SBを抽出する。
【0027】
尚、分割部10は、カット点検出処理により、映像からカット映像を抽出し、類似性評価による分割処理により、カット映像からサブカット映像SBを抽出するようにしてもよい。
【0028】
図2は、分割部10の処理例(類似性評価による分割処理)を示すフローチャートであり、図3は、図2の説明を補充する図である。分割部10は、映像を入力し(ステップS201)、直近に検出済みの分割点を前の分割点(初期の場合は、映像の先頭の時点)として、前の分割点のフレーム画像FBを抽出する。
【0029】
分割部10は、前の分割点から所定時間T1後の時点を基準点とし、映像から基準点のフレーム画像FAを抽出する(ステップS202)。
【0030】
所定時間T1は、サブカット映像SBが細かく分割されないようにするための時間期間であり、予め設定される。例えば7秒である。この所定時間T1の区間においては、サブカット映像SBは分割されない。
【0031】
分割部10は、前の分割点のフレーム画像FBとフレーム画像FAとの間の類似性評価値Sを算出する(ステップS203)。類似性評価値Sは、両画像が類似していればいるほど高い値となり、両画像が類似していなければいないほど低い値となる。
【0032】
例えば、分割部10は、フレーム画像FBのRGB値の平均値を算出すると共に、フレーム画像FAのRGB値の平均値を算出し、両平均値の差の絶対値を算出する。そして、分割部10は、差の絶対値が小さいほど類似性が高く、差の絶対値が大きいほど類似性が低いものと判断し、例えば差の絶対値に反比例する類似性評価値Sを算出する。
【0033】
分割部10は、類似性評価値Sが予め設定されたしきい値TH1よりも小さいか否かを判定する(ステップS204)。分割部10は、ステップS204において、類似性評価値Sがしきい値TH1よりも小さくないと判定した場合(ステップS204:N)、すなわち両画像が類似していると判定した場合、映像から次の順番のフレーム画像FAを抽出する(ステップS205)。そして、分割部10は、ステップS203,S204の処理を行う。
【0034】
次の順番のフレーム画像FAとは、前の分割点から時間的に離れる方向のフレーム画像FAであって、ステップS203,S204の処理が行われたフレーム画像FAに対し、その次にサンプリングされたフレーム画像FAをいう。
【0035】
一方、分割部10は、ステップS204において、類似性評価値Sがしきい値TH1よりも小さいと判定した場合(ステップS204:Y)、すなわち両画像が類似していないと判定した場合、当該フレーム画像FAに対応する時点を新しい分割点に設定する(ステップS206)。
【0036】
分割部10は、映像から、前の分割点と新しい分割点との間の区間の映像をサブカット映像SB(図3の例ではサブカット映像SB2)として抽出し、サブカット映像SBをサンプリング部11及び切り出し部14に出力する(ステップS207)。そして、分割部10は、新しい分割点を前の分割点に設定し、図2に示す処理を行う。
【0037】
このように、分割部10の類似性評価による分割処理にて、前の分割点のフレーム画像FBと所定時間T1後の時点以降のフレーム画像FAとの間の類似性が順次評価され、類似していないと判定したフレーム画像FAが特定される。そして、特定されたフレーム画像FAの時点を新しい分割点とし、サブカット映像SBが抽出される。
【0038】
(サンプリング部11)
図1に戻って、サンプリング部11は、分割部10からサブカット映像SBを入力し、サブカット映像SBを複数のフレーム画像Fにサンプリングする。そして、サンプリング部11は、フレーム画像FをNN部12及び切り出し部14に出力する。
【0039】
例えば、サンプリング部11は、映像を1秒毎に等間隔にサンプリングし、映像から1秒毎のフレーム画像Fを抽出する。
【0040】
このように、サンプリング部11により、サブカット映像SBからサンプリングした複数のフレーム画像Fが抽出される。
【0041】
(NN部12)
NN部12は、後述する学習装置100により学習されたNNであり、後述する学習装置100により得られた最適なパラメータ(重み係数等)が予め設定される。NNとしては、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)等が用いられる。
【0042】
NN部12は、サンプリング部11からフレーム画像Fを入力し、NNを用いて、フレーム画像Fから当該フレーム画像Fのスコア(フレームスコアFS)を求め、フレームスコアFSをサブカットスコア算出部13及び切り出し部14に出力する。
【0043】
NNは、後述する学習装置100により、画力の有無が付与されたフレーム画像を学習データとして学習されるため、フレームスコアFSは、フレーム画像Fの画力の程度を表すスコアであるといえる。
【0044】
ここで、画力とは、利用者に与えるインパクトまたは注目度をいう。つまり、画力が有るとは、利用者に対して短時間でインパクトを与える程度が高いこと、注目度が高いことを意味し、画力が無いとは、利用者に対して短時間でインパクトを与える程度が低いこと、注目度が低いことを意味する。
【0045】
このように、NN部12により、フレーム画像Fについて画力の程度を示すフレームスコアFSが求められる。
【0046】
(サブカットスコア算出部13)
サブカットスコア算出部13は、NN部12からフレームスコアFSを入力する。そして、サブカットスコア算出部13は、サブカット映像SBに対応する(を構成する)複数のフレーム画像FのフレームスコアFSを用いて、1つのフレーム画像FあたりのフレームスコアFSの平均値をサブカットスコアSSとして算出する。サブカットスコアSSは、サブカット映像SBのスコアであり、サブカット映像SBの画力の程度を表すスコアである。サブカットスコア算出部13は、サブカットスコアSSを抽出部15に出力する。
【0047】
このように、サブカットスコア算出部13により、サブカット映像SBのサブカットスコアSSが算出される。
【0048】
(切り出し部14)
切り出し部14は、分割部10からサブカット映像SBを入力すると共に、サンプリング部11から、サブカット映像SBに対応する複数のフレーム画像Fを入力する。また、切り出し部14は、NN部12から、サブカット映像SBに対応する複数のフレーム画像FにおけるそれぞれのフレームスコアFSを入力する。
【0049】
切り出し部14は、サブカット映像SB内において、フレームスコアFSの最も高いフレーム画像Fを中心として、所定時間T2の映像を切り出し映像KIとして抽出する。
【0050】
切り出し部14は、切り出し映像KI及びサブカット映像SBを区間映像KUとして抽出部15に出力する。切り出し映像KIは、サブカット映像SB内において、最も画力の強いフレーム画像Fを含む映像であり、1つのサブカット映像SB内で1つの切り出し映像KIが存在する。
【0051】
図4は、切り出し部14の処理例を示すフローチャートであり、図5は、図4の説明を補充する図である。
【0052】
切り出し部14は、分割部10からサブカット映像SBを入力する(ステップS401)。また、切り出し部14は、サンプリング部11からサブカット映像SBに対応する複数のフレーム画像F1,・・・,FNを入力する(ステップS402)。Nは2以上の整数である。フレーム画像F1,・・・,FNは、サンプリング部11によりサブカット映像SBから得られた画像である。
【0053】
切り出し部14は、NN部12から、サブカット映像SBに対応する複数のフレーム画像F1,・・・,FNにおけるそれぞれのフレームスコアFS1,・・・,FSNを入力する(ステップS403)。
【0054】
切り出し部14は、N個のフレームスコアFS1,・・・,FSNのうち最大のフレームスコアFSを特定することで、N個のフレーム画像F1,・・・,FNのうち、フレームスコアFSが最大のフレーム画像F(図5の場合、フレーム画像F4)を特定する(ステップS404)。
【0055】
切り出し部14は、サブカット映像SBから、フレーム画像F4の時点(図5のα)を中心に、前後の所定時間T2を切り出し区間とした映像を、切り出し映像KIとして抽出する(ステップS405)。
【0056】
尚、切り出し映像KIの中心は、必ずしもフレーム画像F4の時点である必要はない。切り出し部14は、ステップS405において、サブカット映像SBから、フレーム画像F4の時点を含む所定時間T2の映像を、切り出し映像KIとして抽出すればよい。
【0057】
所定時間T2は、切り出し区間であり予め設定される。尚、時間T2としては、実際の番組制作スタッフへのインタビューから得られた知見により、例えばT2=3.5秒が望ましいが、利用者のユーザ操作により変更できるようにしてもよい。
【0058】
切り出し部14は、切り出し映像KI及びサブカット映像SBを区間映像KUとして抽出部15に出力する(ステップS406)。
【0059】
このように、切り出し部14により、サブカット映像SB内において、画力のあるフレーム画像Fを含む切り出し映像KIが抽出され、切り出し映像KI及びサブカット映像SBが区間映像KUとして出力される。
【0060】
図6は、切り出し区間が終端の分割点を跨ぐ場合の処理を説明する図である。前述のとおり、切り出し部14は、ステップS405において、サブカット映像SBから、所定時間T2の切り出し区間の切り出し映像KIを抽出する。
【0061】
しかしながら、図6に示すとおり、サブカット映像SB1,SB2が連続しており、サブカット映像SB1から抽出される切り出し映像KIの切り出し区間が、サブカット映像SB1の終端の分割点を跨ぐ場合もあり得る。この場合、切り出し映像KIは、サブカット映像SB1の後方部分及びサブカット映像SB2の前方部分から構成されることとなる。切り出し映像KIは、本来的に、サブカット映像SB1内において画力のある映像として抽出されるべきである。
【0062】
そこで、切り出し区間の全てがサブカット映像SB1の区間に含まれるように、かつ切り出し区間の終端がサブカット映像SB1の終端の分割点に接するように、切り出し区間をサブカット映像SB1の方向へずらす(シフトする)ようにした。
【0063】
具体的には、切り出し部14は、フレームスコアFSが最大のフレーム画像Fの時点を中心に、前後の所定時間T2を切り出し区間に設定する。そして、切り出し部14は、切り出し区間がサブカット映像SB1の終端の分割点を跨いでいると判断した場合、跨いでいる区間の時間長(跨ぎ時間長)を求める。
【0064】
切り出し部14は、切り出し区間の全てがサブカット映像SB1の区間に含まれ、かつ切り出し区間の終端がサブカット映像SB1の終端の分割点に接するように、切り出し区間を、跨ぎ時間長の区間だけサブカット映像SB1の方向へシフトする。そして、切り出し部14は、サブカット映像SB1から、シフト後の切り出し区間の切り出し映像KIを抽出する。
【0065】
尚、切り出し区間が始端の分割点を跨ぐ場合も同様である。具体的には、切り出し部14は、切り出し区間がサブカット映像SB1の始端の分割点を跨いでいると判断した場合、跨ぎ時間長を求める。そして、切り出し部14は、切り出し区間の全てがサブカット映像SB1の区間に含まれ、かつ切り出し区間の始端がサブカット映像SB1の始端の分割点に接するように、切り出し区間を、跨ぎ時間長の区間だけサブカット映像SB1の方向へシフトする。そして、切り出し部14は、サブカット映像SB1から、シフト後の切り出し区間の切り出し映像KIを抽出する。
【0066】
このように、切り出し区間が端(始端または終端)の分割点を跨ぐ場合には、切り出し区間は、その全てがサブカット映像SB1の区間に含まれるように、かつ切り出し区間の端がサブカット映像SB1の端の分割点に接するように、サブカット映像SB1の方向へシフトする。これにより、切り出し映像KIは、1つのサブカット映像SB内において画力のある映像として抽出され、隣り合う2つのサブカット映像SBから抽出されることはない。
【0067】
(抽出部15)
図1に戻って、抽出部15は、切り出し部14から、映像に対応する(を構成する)複数のサブカット映像SBのそれぞれについて、区間映像KU(切り出し映像KI及びサブカット映像SB)を入力する。また、抽出部15は、サブカットスコア算出部13から、映像に対応する複数のサブカット映像SBにおけるそれぞれのサブカットスコアSSを入力する。
【0068】
ここで、区間映像KU及びサブカットスコアSSを組とする。組の数は、映像に対応する複数のサブカット映像SBの数である。
【0069】
抽出部15は、サブカットスコアSSを降順に(サブカットスコアSSが降順となるように)組をソートし、上位の(所定のしきい値TH2以上のサブカットスコアSSに対応する)組を特定し、特定した組の区間映像KUを区間映像KU’(切り出し映像KI’及びサブカット映像SB’)として特定し、これを出力する。そして、利用者は、抽出部15から出力された区間映像KU’を用いて要約映像を生成する。しきい値TH2は、予め設定される。
【0070】
図7は、抽出部15の処理例を示すフローチャートであり、図8は、図7の説明を補充する図である。抽出部15は、区間映像KU(切り出し映像KI及びサブカット映像SB)及びサブカットスコアSSの組(KU,SS)の全てを入力する(ステップS701)。組(KU,SS)の全てとは、映像に対応する複数のサブカット映像SBの数分の組である。
【0071】
抽出部15は、図8の上部に示すように、映像に対応する複数のサブカット映像SBの数分の区間映像KUである切り出し映像KI1,・・・,KIM及びサブカット映像SB1,・・・,SBMを入力する。また、抽出部15は、図8には図示しないサブカットスコアSS1,・・・,SSMを入力する。つまり、抽出部15は、映像に対応する複数のサブカット映像SBの数分の組(KU1,SS1),・・・,(KUM,SSM)を入力する。Mは2以上の整数である。
【0072】
映像に対応する複数のサブカット映像SBを、サブカット映像SB1,・・・,SBMとする。また、複数のサブカット映像SBのそれぞれに対応する切り出し映像KIを、切り出し映像KI1,・・・,KIMとする。
【0073】
抽出部15は、組(KU1,SS1),・・・,(KUM,SSM)をサブカットスコアSSの降順にソートする(ステップS702)。これにより、図8の中央部に示すように、サブカットスコアSSが降順となるように、例えば切り出し映像KI10及びサブカット映像SB10、切り出し映像KI21及びサブカット映像SB21、切り出し映像KI1及びサブカット映像SB1、・・・の順番に配列される。
【0074】
抽出部15は、サブカットスコアSSがしきい値TH2以上であることを満たす組(KU’,SS’)を特定する(ステップS703)。そして、抽出部15は、ステップS703にて特定した組(KU’,SS’)の区間映像KU’(切り出し映像KI’及びサブカット映像SB’)を出力する(ステップS704)。
【0075】
これにより、図8の下部に示すように、例えば切り出し映像KI10及びサブカット映像SB10、切り出し映像KI21及びサブカット映像SB21、切り出し映像KI1及びサブカット映像SB1、・・・、並びに切り出し映像KI19及びサブカット映像SB19が出力される。
【0076】
このように、切り出し部14により、映像に対応する複数のサブカット映像SBの数分の区間映像KUのうち、しきい値TH2以上の区間映像KU’が特定され、区間映像KU’が出力される。
【0077】
以上のように、本発明の実施形態による映像抽出装置1によれば、分割部10は、映像から分割点を検出し、映像を分割点にて分割することで、複数のサブカット映像SBを抽出する。サンプリング部11は、サブカット映像SBを複数のフレーム画像Fにサンプリングする。
【0078】
NN部12は、NNを用いて、フレーム画像FのスコアであるフレームスコアFSを求める。NN部12は、インパクトの有無を表す画力の有無が付与されたフレーム画像を学習データとして学習されたモデルであり、後述する学習装置100により、NN部12にて用いるパラメータが最適化される。
【0079】
サブカットスコア算出部13は、サブカット映像SBにおけるフレーム画像FあたりのフレームスコアFSの平均値を、サブカットスコアSSとして算出する。
【0080】
切り出し部14は、サブカット映像SB内において、フレームスコアFSの最も高いフレーム画像Fを中心として、所定時間T2の映像を切り出し映像KIとして抽出し、切り出し映像KI及びサブカット映像SBを区間映像KUとして出力する。
【0081】
抽出部15は、サブカットスコアSSを降順に、映像に対応する複数のサブカット映像SBの数分の区間映像KUをソートし、上位の区間映像KU’を特定し、特定した区間映像KU’の切り出し映像KI’及びサブカット映像SB’を出力する。
【0082】
これにより、要約映像を生成するために、画力のある区間映像KU’を元の映像から抽出することができる。そして、利用者は、実際の番組制作の知見である画力を反映した要約映像、すなわち1つのコンテンツとして完結し、視聴者が見てそれだけで楽しめる要約映像を作成することができる。
【0083】
また、サブカット映像SBに対する2種類の区間映像KU’である切り出し映像KI’及びサブカット映像SB’を利用者へ提示することで、「短めの区間動画を多めにしたい」「長い区間動画を多用してじっくり見せたい」「短い区間と長い区間を適度に混ぜて変化のある映像にしたい」等の、利用者の多様なニーズに対応することができる。
【0084】
〔学習装置〕
次に、本発明の実施形態による映像抽出装置1に備えたNN部12を学習する学習装置について説明する。図9は、学習装置の構成例を示すブロック図である。この学習装置100は、サンプリング部110、画力付与部111、メモリ112及び学習部113を備えている。学習装置100は、図1に示した映像抽出装置1のNN部12が用いるパラメータを最適化する装置である。
【0085】
サンプリング部110は、番組映像等の映像を入力し、図1に示したサンプリング部11と同様に、映像をフレーム画像Fにサンプリングし、フレーム画像Fを画力付与部111に出力する。例えば50本程度の映像から、等間隔でサンプリングされた数千枚程度のフレーム画像Fからなる画像集合が生成される。
【0086】
画力付与部111は、サンプリング部110からフレーム画像Fを入力し、フレーム画像Fを利用者である実際の番組制作スタッフへ提示することで、利用者の操作により、フレーム画像Fに対する画力の有無の情報を入力する。
【0087】
画力の有無は、インパクトのある画像であるか否か、すなわち番組の代表画像に適しているか否かにより設定される。利用者は、フレーム画像Fについて、番組の代表画像に適していると判断した場合、画力付与部111は、利用者の操作により、画力有りを入力する。一方、利用者は、フレーム画像Fについて、番組の代表画像に適していないと判断した場合、画力付与部111は、利用者の操作により、画力無しを入力する。
【0088】
画力付与部111は、番組の代表画像に適していると判断された画力有りを入力した場合、当該フレーム画像Fに正例を付与する。一方、画力付与部111は、番組の代表画像に適していないと判断された画力無しを入力した場合、当該フレーム画像Fに負例を付与する。
【0089】
画力付与部111は、正例または負例が付与されたフレーム画像Fを学習データとして、メモリ112に格納する。
【0090】
学習部113は、NN部120及びパラメータ更新部121を備えている。NN部120は、図1に示したNN部12に対応する。学習部113は、メモリ112から正例または負例が付与されたフレーム画像Fを入力し、正例または負例が付与されたフレーム画像Fを用いて、NN部120のパラメータを最適化する。
【0091】
具体的には、NN部120は、フレーム画像Fを入力し、NNを用いて、フレーム画像FからフレームスコアFSを求め、フレームスコアFSをパラメータ更新部121に出力する。
【0092】
パラメータ更新部121は、NN部120からフレームスコアFSを入力すると共に、フレーム画像Fに付与された正例または負例を入力する。そして、パラメータ更新部121は、フレームスコアFS及び正例または負例に基づいて誤差を求め、誤差に基づいて、NN部120が使用するパラメータを更新する。パラメータ更新部121は、例えば誤差伝播法によりパラメータを最適化する。最適化されたパラメータは、図1に示したNN部12に設定される。
【0093】
NNとしては、図1に示したNN部12と同様に、畳み込みニューラルネットワーク等が用いられる。
【0094】
以上のように、図9に示した学習装置100によれば、画力の有無が付与されたフレーム画像Fを学習データとして、NN部120が学習され、最適なパラメータが生成される。そして、最適なパラメータは、図1に示したNN部12に用いられる。
【0095】
これにより、映像抽出装置1は、学習装置100により生成されたパラメータを用いることで、画力の強いフレーム画像Fについては高いフレームスコアFSを求め、画力の弱いフレーム画像Fについては低いフレームスコアFSを求める。そして、映像抽出装置1は、要約映像を生成するために、画力のある区間映像KU’を元の映像から抽出することができる。
【0096】
以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。
【0097】
尚、本発明の実施形態による映像抽出装置1のハードウェア構成としては、通常のコンピュータを使用することができる。映像抽出装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。学習装置100についても同様である。
【0098】
映像抽出装置1に備えた分割部10、サンプリング部11、NN部12、サブカットスコア算出部13、切り出し部14及び抽出部15の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0099】
また、学習装置100に備えたサンプリング部110、画力付与部111、メモリ112及び学習部113の各機能も、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現される。
【0100】
これらのプログラムは、前記記憶媒体に格納されており、CPUに読み出されて実行される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD-ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
【符号の説明】
【0101】
1 映像抽出装置
10 分割部
11 サンプリング部
12 NN(ニューラルネットワーク)部
13 サブカットスコア算出部
14 切り出し部
15 抽出部
100 学習装置
110 サンプリング部
111 画力付与部
112 メモリ
113 学習部
120 NN部
121 パラメータ更新部
SB,SB’ サブカット映像
FS フレームスコア
KI,KI’ 切り出し映像
FA 基準点のフレーム画像
FB 前の分割点のフレーム画像
KU,KU’ 区間映像
S 類似性評価値
SS,SS’ サブカットスコア
TH1,TH2 しきい値
図1
図2
図3
図4
図5
図6
図7
図8
図9