特許第6557592号(P6557592)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許6557592映像シーン分割装置及び映像シーン分割プログラム
<>
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000002
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000003
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000004
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000005
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000006
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000007
  • 特許6557592-映像シーン分割装置及び映像シーン分割プログラム 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6557592
(24)【登録日】2019年7月19日
(45)【発行日】2019年8月7日
(54)【発明の名称】映像シーン分割装置及び映像シーン分割プログラム
(51)【国際特許分類】
   H04N 5/91 20060101AFI20190729BHJP
   H04N 5/76 20060101ALI20190729BHJP
   H04N 21/845 20110101ALI20190729BHJP
   G06F 16/70 20190101ALI20190729BHJP
   G06F 16/75 20190101ALI20190729BHJP
【FI】
   H04N5/91
   H04N5/76
   H04N21/845
   G06F16/70
   G06F16/75
【請求項の数】7
【全頁数】12
(21)【出願番号】特願2015-244026(P2015-244026)
(22)【出願日】2015年12月15日
(65)【公開番号】特開2017-112448(P2017-112448A)
(43)【公開日】2017年6月22日
【審査請求日】2018年10月29日
【権利譲渡・実施許諾】特許権者において、実施許諾の用意がある。
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】住吉 英樹
(72)【発明者】
【氏名】河合 吉彦
【審査官】 川中 龍太
(56)【参考文献】
【文献】 特開2014−225118(JP,A)
【文献】 特開2007−134986(JP,A)
【文献】 特開2011−008509(JP,A)
【文献】 特開2008−083894(JP,A)
【文献】 特開2006−254486(JP,A)
【文献】 特開2014−137637(JP,A)
【文献】 特開2010−251913(JP,A)
【文献】 韓国公開特許第10−2013−0061865(KR,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/76 − 5/956
H04N 5/222− 5/257
H04N 21/00 − 21/858
G11B 27/00 − 27/06
G06F 16/70
G06F 16/75
(57)【特許請求の範囲】
【請求項1】
映像のフレーム間の画像データの差分に基づいて、当該映像の不連続点であるショット境界を検出するショット境界検出部と、
前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、
前記静止画像毎の被写体を認識する被写体認識部と、
前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、
前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える映像シーン分割装置。
【請求項2】
前記被写体認識部は、前記静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の前記被写体を識別する請求項1に記載の映像シーン分割装置。
【請求項3】
前記ヒストグラム生成部は、前記ショットの期間において前記被写体が認識された前記静止画像の数を正規化した度数、又は前記被写体が認識された前記静止画像に対応する前記ショットの期間内の時間を正規化した度数の分布を、前記ヒストグラムとして生成する請求項1又は請求項2に記載の映像シーン分割装置。
【請求項4】
前記ヒストグラム生成部は、前記被写体のグループに対して前記ヒストグラムを生成する請求項1から請求項3のいずれかに記載の映像シーン分割装置。
【請求項5】
前記シーン境界判定部は、前記ヒストグラムにおける度数が上位所定数の前記被写体のみからなる部分ヒストグラムに基づいて、前記シーン境界を判定する請求項1から請求項4のいずれかに記載の映像シーン分割装置。
【請求項6】
前記シーン境界判定部は、シーンにおける前記被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、前記シーン境界の判定結果を調整する請求項1から請求項5のいずれかに記載の映像シーン分割装置。
【請求項7】
コンピュータを、請求項1から請求項6のいずれかに記載の映像シーン分割装置として機能させるための映像シーン分割プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像コンテンツをシーンに分割するための装置及びプログラムに関する。
【背景技術】
【0002】
従来、統計的な手法を用いて、画像の中の被写体をソフトウェアにより認識してメタデータを付与することにより、画像検索等のアプリケーションが実現されてきた。
【0003】
ところで、テレビ番組等の映像コンテンツは、図7にイメージを示すように、階層構造で表現されることが多い。具体的には、より小さな単位から、フレーム、ショット、シーン、コンテンツ(番組映像)と呼ばれる。
【0004】
ショットは、撮影時のカメラの切り替わり点を境界とし、長さは数秒〜数十秒と短い。一般的な1時間程度の番組では、ショット数は100〜1000程度と多くなるので、ショットの羅列から番組全体の構造を把握することは容易ではない。例えば、ドラマ等、複数のショットの組み合わせにより映像の意味を表現する番組の場合、単一のショットだけでは映像の意味が理解できないことが多い。このため、映像検索の利用者は、映像分割の単位としてショットは細かすぎると感じることが多い。
また、映像検索において検索結果を提示する場合、コンテンツの内容を構造的に示したり、必要な映像を意味的な単位で再生したりする機能が望まれている。
【0005】
このような状況において、例えば、色、模様又は音の連続性に着目し、この連続性の途切れた点を境界として映像を分割する手法が提案されている(例えば、特許文献1及び2参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2004−280669号公報
【特許文献2】特開2008−5167号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、シーンは、映像編集者によって意味付けされた複数のショットにより構成される区間であり、コンテンツ内で表現されている場所又は時を同じくすることが多い。このため、従来手法で用いられる映像又は音声信号の連続性が示す区間と、人の考える意味区間とは乖離が大きく、利用者の希望する境界で分割されないことが多かった。
このように、意味的な映像内容の境界であるシーン境界を自動的に検出することは難しかった。
【0008】
本発明は、映像コンテンツを適切にシーンに分割できる映像シーン分割装置及び映像シーン分割プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
本発明に係る映像シーン分割装置は、映像のフレーム間の画像データの差分に基づいて、当該映像の不連続点であるショット境界を検出するショット境界検出部と、前記ショット境界により分割されたショット毎に複数の静止画像を抽出する静止画像抽出部と、前記静止画像毎の被写体を認識する被写体認識部と、前記ショットそれぞれについて、前記被写体の出現頻度を示すヒストグラムを生成するヒストグラム生成部と、前記ヒストグラムの類似度に基づいて、当該ヒストグラムの不連続点であるシーン境界を判定するシーン境界判定部と、を備える。
【0010】
前記被写体認識部は、前記静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の前記被写体を識別してもよい。
【0011】
前記ヒストグラム生成部は、前記ショットの期間において前記被写体が認識された前記静止画像の数を正規化した度数、又は前記被写体が認識された前記静止画像に対応する前記ショットの期間内の時間を正規化した度数の分布を、前記ヒストグラムとして生成してもよい。
【0012】
前記ヒストグラム生成部は、前記被写体のグループに対して前記ヒストグラムを生成してもよい。
【0013】
前記シーン境界判定部は、前記ヒストグラムにおける度数が上位所定数の前記被写体のみからなる部分ヒストグラムに基づいて、前記シーン境界を判定してもよい。
【0014】
前記シーン境界判定部は、シーンにおける前記被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、前記シーン境界の判定結果を調整してもよい。
【0015】
本発明に係る映像シーン分割プログラムは、コンピュータを、前記映像シーン分割装置として機能させる。
【発明の効果】
【0016】
本発明によれば、映像コンテンツを適切にシーンに分割できる。
【図面の簡単な説明】
【0017】
図1】実施形態に係る映像シーン分割装置の機能構成を示すブロック図である。
図2】実施形態に係るショット境界の検出及び静止画像の抽出の具体例を示す図である。
図3】実施形態に係るシーン分割の手順を示す概略図である。
図4】実施形態に係る制御部による処理を示すフローチャートである。
図5】実施形態に係る番組ジャンルに基づいた被写体への重み付けの例を示す図である。
図6】実施形態に係る映像編集の知見に基づくシーン分割の例を示す図である。
図7】映像コンテンツの階層的な単位のイメージを示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る映像シーン分割装置1の機能構成を示すブロック図である。
【0019】
映像シーン分割装置1は、ショット境界検出部11と、静止画像抽出部12と、被写体認識部13と、ヒストグラム生成部14と、シーン境界判定部15とを含む制御部10、及び記憶部20を備えた情報処理装置(コンピュータ)である。
【0020】
制御部10は、映像シーン分割装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、前述のハードウェアと協働し、本実施形態における各種機能を実現している。制御部10は、CPU(Central Processing Unit)であってよい。
【0021】
記憶部20は、ハードウェア群を映像シーン分割装置1として機能させるための各種プログラム、本実施形態の各種機能を制御部10に実行させるためのプログラム、及び各種データ等を記憶する。記憶部20が記憶するデータには、処理対象である映像データ、及び処理後のシーン分割データの他、シーン分割に関する後述の判断基準のデータが含まれる。
【0022】
ショット境界検出部11は、映像データを構成するフレーム間の画像データの差分に基づいて、連続して収録された映像が途切れる不連続点であるショット境界を検出する。
具体的には、ショット境界検出部11は、1フレーム毎に、直前のフレームとの間で画像データの差分を求める。そして、この差分値が第1閾値を超えた場合に、ショット境界検出部11は、この第1閾値を超えた前後のフレームの間を、ショット境界として検出する。なお、画像データの差分は、画像データに含まれる画素値の変化量の合計又は平均、あるいは輝度ヒストグラムの変化量等、フレーム間での画像の変化の度合いを評価する値として適宜設定される。
【0023】
静止画像抽出部12は、ショット境界により分割されたショット毎に、1以上の静止画像を抽出する。
具体的には、静止画像抽出部12は、画像データの差分の累積が第2閾値を超える度に、この第2閾値を超えたフレームを、静止画像として抽出する。
【0024】
図2は、本実施形態に係るショット境界の検出及び静止画像の抽出の具体例を示す図である。
ショット境界検出部11は、映像コンテンツを構成する時間的に連続するフレームを順に比較し、画像データの差分を算出する。
【0025】
ショット境界検出部11は、算出した差分値がショット境界の閾値(第1閾値)Xを超えた場合に、直前のフレームとの間をショット境界として検出する。
【0026】
静止画像抽出部12は、ショット境界の前後のフレーム、すなわちショット内の最初と最後のフレームP1及びP2を、ショットを代表する静止画像(サムネイル)として抽出する。
【0027】
また、静止画像抽出部12は、例えば、ショット境界検出部11により計算されたフレーム間の差分値をショット毎に累積しており、累積値がサムネイル出力の閾値(第2閾値)Y1、Y2、Y3、Y4、・・・を超える度に、この時のフレームP3、P4、P5、P6、・・・を、ショット内で比較的大きく変動した静止画像として、さらに抽出してもよい。
なお、静止画像抽出部12は、一定時間間隔(例えば、10フレーム毎、1秒毎等)で静止画像を抽出してもよい。
【0028】
このとき、静止画像抽出部12は、抽出した静止画像を、映像の先頭から順に付与されるショット番号、及びフレームを識別する時刻情報と共に、記憶部20に記憶する。
【0029】
被写体認識部13は、抽出された静止画像毎に、画像内の被写体を認識する。
具体的には、被写体認識部13は、予め想定されている特定の複数の被写体を学習しておき、これらの被写体が静止画像に含まれているか否かを判定する。
【0030】
事前に学習する被写体は、対象となる映像コンテンツの内容又は分野等により適宜選択される。例えば、ドラマであれば登場人物の顔というように、処理対象とする映像コンテンツに頻繁に登場する被写体が予め学習される。
このとき、映像コンテンツに登場する広範囲な被写体を認識できるように多数の被写体が学習されることが望ましいが、認識可能な被写体が限定される場合には、番組内での登場頻度が高いと想定される被写体が選択される。
【0031】
被写体認識部13は、例えばBag−of−visual−words法等の画像データ内の特徴量に基づく個人の識別を可能とする技術を用い、映像コンテンツ中に登場する人物(Aさん、Bさん、・・・)を特定する。
あるいは、被写体認識部13は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体それぞれを特定することなく、仮のラベル(Aクラスタ、Bクラスタ、・・・)によって識別してもよい。
【0032】
ヒストグラム生成部14は、ショットそれぞれについて、被写体毎に出現数、すなわち被写体が含まれる静止画像の数をカウントし、被写体の出現頻度を示すヒストグラムを生成する。
このとき、ヒストグラム生成部14は、例えば次の(1)又は(2)のように正規化した度数の分布として、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられる。
【0033】
(1)ヒストグラム生成部14は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、ヒストグラムとして生成する。
(2)ヒストグラム生成部14は、被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。
【0034】
また、ヒストグラム生成部14は、映像コンテンツの種類に応じて、複数の被写体からなるグループに対してヒストグラムを生成してもよい。例えば、ドラマでは、登場人物を家族又はサークル等のグループとして扱ったり、人物が被写体の中心とならない紀行番組では、人物を1グループにまとめ、「人物」を山、海等の他の被写体と同じレベルとして扱ったりできる。
【0035】
シーン境界判定部15は、生成されたヒストグラムの類似度に基づいて、一連のヒストグラムの不連続点であるシーン境界を判定する。
具体的には、シーン境界判定部15は、シーンに出現する被写体の連続性を判定するために、ショット単位に生成したヒストグラム間の類似度を求め、例えば類似度が一定以下の場合に連続性が途切れ場面が切り替わったと判定する。
なお、ヒストグラム間の類似度の判定には、ヒストグラムインターセクション等の手法が利用されてよい。また、例えば、上位一定数の被写体が同時に変化した、又は一定の割合以上が変化した点を場面の分割点と判定する等、簡易的な手法が利用されてもよい。
【0036】
図3は、本実施形態に係るシーン分割の手順を示す概略図である。
映像シーン分割装置1は、入力された映像をショット1〜4に分割すると、それぞれのショットから複数の静止画像(サムネイル)を抽出する。
【0037】
続いて、映像シーン分割装置1は、各静止画像から被写体A〜Dを認識し、出現回数に基づく正規化されたヒストグラムを生成する。
映像シーン分割装置1は、生成されたヒストグラムについて、時系列に前後の類似度を算出し、類似度が閾値に満たないショット3とショット4との境界を、シーン境界として判定する。
【0038】
ここで、連続性の判定を単一の被写体で行うと過剰に分割されやすい。また、認識数(登場回数)が少ない被写体を選択すると、被写体認識処理による誤検出の影響を受けることが多い。
そこで、シーン境界判定部15は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムに基づいて、シーン境界を判定する。例えば、ヒストグラムに現れている上位所定数(例えば3)の被写体、又は一定の割合(例えば50%)に注目して類似度を計算する方法が採用される。
【0039】
図4は、本実施形態に係る制御部10による処理を示すフローチャートである。
ステップS1において、ショット境界検出部11は、映像コンテンツに含まれる一連のフレームから、ショット境界を検出し、映像を複数のショットに分割する。
【0040】
ステップS2において、静止画像抽出部12は、ステップS1で分割されたショット毎に、複数の静止画像(サムネイル)を抽出する。
【0041】
ステップS3において、被写体認識部13は、ステップS2で抽出された静止画像毎に、被写体を認識する。
【0042】
ステップS4において、ヒストグラム生成部14は、ステップS3で認識された被写体の出現頻度を表すヒストグラムを生成する。
【0043】
ステップS5において、シーン境界判定部15は、ステップS4で生成されたヒストグラムを、時系列に順に選択していく。
【0044】
ステップS6において、シーン境界判定部15は、ステップS5で選択したヒストグラムと、直前に選択されたヒストグラムとの類似度を算出する。
【0045】
ステップS7において、シーン境界判定部15は、ステップS6で算出した類似度が所定の閾値より小さいか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS9に移る。
【0046】
ステップS8において、シーン境界判定部15は、ステップS7で類似度が小さいと判定されたショット境界を、シーン境界として判定する。
【0047】
ステップS9において、シーン境界判定部15は、ヒストグラムが最後まで選択され映像が終了したか否かを判定する。この判定がYESの場合、処理は終了し、判定がNOの場合、処理はステップS5に戻る。
【0048】
<変形例>
前述の統計に基づいたヒストグラムの類似度による連続性の判断基準は、映像コンテンツ制作・編集のセオリーに基づいて、例えば、以下の(A)又は(B)の判断基準が用いられてもよい。あるいは、前述の手法により判定されたシーン境界がこれらの判断基準によって調整されてもよい。
シーンは、人手により作られた構造であるが、番組映像の編集には、一定のセオリーもあり、番組映像に関する知識を利用することで、シーン検出の誤りが低減される。
【0049】
(A)番組ジャンルを考慮した連続性の判断基準
ヒストグラム生成部14及びシーン境界判定部15は、番組ジャンルに基づいて、被写体に対する重みづけを調整してもよい。
例えば、ドラマ等、人物が被写体の中心となり、個人が重要な被写体である場合と、紀行系番組等、特定個人よりも、人物と他の被写体との変化がシーンを分割する要因となる場合とでは、人物と自然物との重みを変化させ、連続性の判断基準を別に設ける。
【0050】
具体的には、ドラマ等では、個人を認識した上で、登場人物をセット(ABグループ、BCDグループ等)で扱い、セット毎の分布であるヒストグラムが用いられる。一方、紀行等の人物が被写体の中心とならない映像コンテンツでは、人物は全て1グループにまとめ、他の被写体(山、海等)との境界に、より重みが付けられる。
【0051】
図5は、本実施形態に係る番組ジャンルに基づいた被写体への重み付けの例を示す図である。
ドラマの場合(a)、人物A及びBが登場するショットと、人物C及びDが登場するショットとの境界がシーン境界として判定されている。
また、人物C及びDが同一グループの場合、人物C及びDが登場するショットと、人物Dのみが登場するショットとは、被写体が同一グループであるため、同一のシーンとして判定されている。
【0052】
なお、シーン境界判定部15は、グループに属する被写体の全員が登場しているショットを同一のシーンと判定してもよいし、一定以上、又はいずれかが登場しているショットを同一のシーンと判定してもよい。これらの判断基準は、番組ジャンル及びグループの種類等により適宜設定されてよい。
【0053】
紀行の場合(b)、被写体が風景のショットから被写体が人物Eのショットへの遷移を、シーン境界として判定されている。同様に、被写体が人物Gのショットから被写体が動物のショットへの遷移を、シーン境界として判定されている。
また、人物E、F又はGが登場する複数のショットは、被写体が同一グループであると判断され、同一のシーンとして判定されている。
【0054】
(B)映像編集の知見を利用した連続性の判断基準
シーン境界判定部15は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、シーン境界の判定結果を調整してもよい。
例えば、人の顔が交互に映されるようなドラマ等の番組では、個人の顔に注目した場合、シーンが細切れになってしまう場合がある。そこで、一般的な編集技法である、2人の人物を交互に映すモンタージュ技法と呼ばれる対話シーンの知識を組み込むことで、顔が交互に被写体となるショットの連続は、1つの対話シーンとして適切に判定される。これにより、シーンの過分割が抑制される。
【0055】
図6は、本実施形態に係る映像編集の知見に基づくシーン分割の例を示す図である。
ヒストグラムの類似度に基づく統計的な手法のみの場合(a)、人物Aが登場するショットと、人物Bが登場するショットとがシーン境界として判定され、複数のシーン1〜4に細かく分割されている。
【0056】
対話シーンの人物が交互に登場する特徴を判断基準とする場合(b)、人物A又はBのいずれかが交互に登場する複数のショットが1つのシーンとして判定され、人物A及びBが登場するショットとの間がシーン境界と判定されている。
【0057】
ここで、被写体認識部13は、人物の顔を認識した際に、顔の位置(例えば、中心位置)も、ショット番号、フレーム時刻、人物ID等と共に保存することが好ましい。これにより、シーン境界判定部15は、例えば、前述の対話のシーン(図6)において、人物A及び人物Bが映されている位置の特徴(人物Aは画面左寄り、人物Bは画面右寄り等)を加味して、精度よくシーン分割を行える。
【0058】
以上のように、本実施形態によれば、映像シーン分割装置1は、ショット毎に抽出された静止画像の被写体について、出現頻度を示すヒストグラムの類似度に基づいて、ショット間での被写体の出現の連続性を判断し、不連続点におけるシーンの切り替えを判定する。
したがって、映像シーン分割装置1は、映像の内容を表す被写体の認識結果を用い、より意味内容に近い形で、映像コンテンツを意味的な区間の切れ目であるシーンに適切に分割できる。
この結果、映像の検索又は再利用時に、人の感覚により近い意味的な単位であるシーンの単位で表示及び再生が可能になる。また、映像検索の結果をコンテンツ単位で提示する場合、意味区間であるシーン毎に整理して提示することで、コンテンツ全体の概要が把握しやすくなるので、映像検索又はメタデータの付与等の2次利用が容易になる。
【0059】
また、映像シーン分割装置1は、ショットの期間から抽出された複数の静止画像から被写体毎のヒストグラムを生成するので、被写体認識における誤認識又は見落とし等によるノイズを低減でき、シーン分割の精度が向上する。
【0060】
映像シーン分割装置1は、フレーム間の差分が第1の閾値を超えた場合にショット境界を検出し、ショット毎にフレーム間の差分の累積値が第2閾値を超えた場合に静止画像(サムネイル)を抽出する。
したがって、映像シーン分割装置1は、簡易なルールに基づいて効率的に映像をショットに分割し、ショットそれぞれの内容を特徴づける静止画像を抽出できる。
【0061】
映像シーン分割装置1は、静止画像に含まれる所定の特徴量に基づくクラスタリングにより、複数の被写体を識別できる。これにより、映像シーン分割装置1は、被写体を特定するために予め学習することなく、未知の被写体それぞれを識別できる。
【0062】
映像シーン分割装置1は、ショットの期間において被写体が認識された静止画像の数を正規化した度数の分布を、又は被写体が認識された静止画像に対応するショットの期間内の時間を正規化した度数の分布を、ヒストグラムとして生成する。
これらの正規化の手法により、映像シーン分割装置1は、ショットの期間内に各被写体が出現した信頼度を表現する。これにより、ショット毎のヒストグラムにおける度数の最大は一定値に揃えられ、ショット間でのヒストグラムの比較がより正確に行える。
【0063】
映像シーン分割装置1は、被写体のグループに対して前記ヒストグラムを生成することで、番組ジャンルに応じて、より適切なヒストグラムを用いることができ、適切なシーン境界を判定でき、シーン境界の過分割が低減される。
【0064】
映像シーン分割装置1は、ヒストグラムにおける度数が上位所定数の被写体のみからなる部分ヒストグラムを比較することにより、シーン境界を判定する。これにより、出現頻度が低い被写体、又は誤認識等によるノイズを低減し、精度よくシーン分割できる。
【0065】
映像シーン分割装置1は、シーンにおける被写体の時間軸及び位置に関して予め記憶された出現パターンに基づいて、番組映像の編集に関する知識を利用した判断基準によりシーン境界を判定できる。これにより、被写体認識の誤りによる影響や、シーン境界の過分割が低減される。
【0066】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0067】
本実施形態では、映像シーン分割装置の構成と動作について説明したが、本発明はこれに限られず、各構成要素を備え、映像をシーンに分割するための方法、又はプログラムとして構成されてもよい。
【0068】
さらに、映像シーン分割装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
【0069】
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【0070】
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
【符号の説明】
【0071】
1 映像シーン分割装置
10 制御部
11 ショット境界検出部
12 静止画像抽出部
13 被写体認識部
14 ヒストグラム生成部
15 シーン境界判定部
20 記憶部
図1
図2
図3
図4
図5
図6
図7