特開2022-190958 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2022-190958ショット境界検出装置、ショット境界学習装置及びそれらのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022190958

(43)【公開日】2022-12-27

(54)【発明の名称】ショット境界検出装置、ショット境界学習装置及びそれらのプログラム

(51)【国際特許分類】

G06T 7/00 20170101AFI20221220BHJP

【ＦＩ】

G06T7/00 350C

【審査請求】未請求

【請求項の数】9

【出願形態】ＯＬ

(21)【出願番号】P 2021099504

(22)【出願日】2021-06-15

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】河合吉彦

【テーマコード（参考）】

5L096

【Ｆターム（参考）】

5L096AA06

5L096BA08

5L096CA04

5L096DA02

5L096FA37

5L096HA02

5L096HA08

5L096HA11

5L096JA03

5L096JA11

5L096JA18

5L096KA04

5L096KA15

(57)【要約】

【課題】複数のフレーム画像に渡るショット境界を正確に検出できるショット境界検出装置を提供する。
【解決手段】ショット境界検出装置１は、画像特徴量を算出する画像特徴量算出部１１と、物体特徴ニューラルネットワークを用いて、物体特徴量を算出する物体特徴量算出部１２と、画像特徴量及び物体特徴量が結合した結合特徴量を算出する特徴量結合部１３と、結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する判定部１４と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するショット境界検出装置であって、
前記フレーム画像の物理的な特徴量である画像特徴量を算出する画像特徴量算出部と、
物体の種類を示す物体ラベルが付与された学習用画像群を予め学習した物体特徴ニューラルネットワークを用いて、前記フレーム画像の内容が反映された物体特徴量を算出する物体特徴量算出部と、
前記画像特徴量及び前記物体特徴量が結合した結合特徴量を算出する特徴量結合部と、
前記結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定する判定部と、
を備えることを特徴とするショット境界検出装置。

【請求項2】

前記物体特徴量算出部は、前記物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを用いて、前記物体特徴量を算出することを特徴とする請求項１に記載のショット境界検出装置。

【請求項3】

前記画像特徴量算出部は、予め学習した画像特徴量ニューラルネットワークを用いて、前記フレーム画像列から前記画像特徴量を算出し、
前記判定部は、予め学習した境界判定ニューラルネットワークを用いて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定することを特徴とする請求項１又は請求項２に記載のショット境界検出装置。

【請求項4】

フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するショット境界学習装置であって、
前記フレーム画像の物理的な特徴量である画像特徴量を算出するための画像特徴量ニューラルネットワークを学習する画像特徴量学習部と、
前記フレーム画像の内容が反映された物体特徴量を算出するための物体特徴ニューラルネットワークを学習する物体特徴量学習部と、
前記画像特徴量及び前記物体特徴量が結合した結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定するための境界判定ニューラルネットワークを学習するショット境界学習部と、
を備えることを特徴とするショット境界学習装置。

【請求項5】

第１学習段階として、
前記物体特徴量学習部は、撮影された物体の種類を示す物体ラベルが付与された第１学習用画像群から、前記物体ラベル毎のスコアを出力するように前記物体特徴ニューラルネットワークを学習し、
第２学習段階として、
前記画像特徴量学習部は、前記ショット境界であるか否かを示すショット境界ラベルが付与された第２学習用画像群から、前記画像特徴量ニューラルネットワークを学習し、
前記物体特徴量学習部は、前記第２学習用画像群から、前記物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを前記物体特徴量として出力するように前記物体特徴ニューラルネットワークを再度学習し、
前記ショット境界学習部は、前記結合特徴量に基づいて、前記境界判定ニューラルネットワークを学習することを特徴とする請求項４に記載のショット境界学習装置。

【請求項6】

フレーム画像が連続するフレーム画像列から、複数の前記フレーム画像に渡るショット境界を検出するショット境界検出装置であって、
前記フレーム画像の物理的な特徴量である画像特徴量を算出する画像特徴量算出部と、
-前記フレーム画像の内容が反映された物体特徴量を算出する物体特徴量算出部と、
前記画像特徴量及び前記物体特徴量が結合した結合特徴量を算出する特徴量結合部と、
前記結合特徴量に基づいて、前記ショット境界が前記フレーム画像列に含まれるか否かを判定する判定部と、
を備えることを特徴とするショット境界検出装置。

【請求項7】

前記判定部は、機械学習により、前記ショット境界が前記フレーム画像列に含まれるか否かを判定することを特徴とする請求項６に記載のショット境界検出装置。

【請求項8】

コンピュータを、請求項１から請求項３の何れか一項、請求項６又は請求項７に記載のショット境界検出装置として機能させるためのプログラム。

【請求項9】

コンピュータを、請求項４又は請求項５に記載のショット境界学習装置として機能させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ショット境界検出装置、ショット境界学習装置及びそれらのプログラムに関する。

【背景技術】

【0002】

ショットとは、一台のカメラで連続して撮影された映像の区間のことであり、映像の基本単位である。また、ショット境界とは、ショットの切り替え点のことである。映像の要約や検索といった映像処理の際には、入力映像からショット境界を検出し、ショットに分割する作業が必要不可欠となる。

【0003】

ショット境界検出の基本的なアプローチは、同一ショットに属する連続した２枚のフレーム画像の類似性が高く、その類似性の高さがショット境界で失われるという経験的知識に基づいて行われている。具体的な処理の流れとしては、連続した２枚のフレーム画像間の類似度を計算する。そして、類似度が閾値以上の場合、２枚のフレーム画像が同一ショットに属すると判定し、類似度が閾値よりも低い場合、２枚のフレーム画像の間にショット境界があると判断する。フレーム画像間の類似度（正確には差異）を表す指標としては、画素値の差分の総和や色ヒストグラムの差分があげられる。また、ディゾルブやフェードなどの複数のフレーム画像に渡るショット境界を検出する場合、連続したフレーム画像列を入力すればよい。

【0004】

近年、機械学習によってショット境界を検出する手法が用いられている。例えば、機械学習によるショット境界検出のアプローチには、２枚のフレーム画像から輝度又は色の差分などの物理的な特徴量を求め、それらを特徴ベクトルとしてサポートベクターマシン（ＳＶＭ）で判定するものがある。

【0005】

図１０（ａ）には、隣接する２枚のフレーム画像から特徴量を算出し、その間にショット境界が存在するか否かをＳＶＭで検出する手法を図示した。具体的には、フレーム画像をＮ個のブロックに分割し、各ブロックから輝度ヒストグラムの差分を算出する。そして、輝度ヒストグラムの差分を連結し、特徴ベクトル（ｄ_{ｉ，０，０}，…，ｄ_{ｉ，ｊ，ｃ}，…，ｄ_{ｉ，Ｎ，Ｍ}）を生成する。ここで、輝度ヒストグラムの絶対差分ｄ_{ｉ，ｊ，ｃ}は、以下の式（１）で表される。なお、ｄ_{ｉ，ｊ，ｃ}は、ｉ番目のフレーム画像のｊ番目のブロックにおいて、Ｍ段階で表される輝度レベルｃを有する画素の総数を表す（但し、ｉ＝１，２，…，ｋ）。

【0006】

【数1】

【0007】

なお、物理的な特徴量として、ブロック毎の輝度ヒストグラムの絶対差分ではなく、ブロック内の各画素の輝度の平均値の差分、エッジ方向毎に画素の頻度を求めたエッジ方向ヒストグラム、ＳＵＲＦを利用してもよい（非特許文献１）。

【0008】

図１０（ｂ）に示すように、ニューラルネットワークを利用して、ショット境界を検出する手法も提案されている（非特許文献２及び３）。ＳＶＭを用いる手法との違いは、２枚のフレーム画像をそのままニューラルネットワークに入力し、ショット境界を検出する点である。複数のフレーム画像に渡るショット境界を検出する場合、ＳＶＭと同様、連続したフレーム画像列を入力すればよい。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】H. Bay, T. Tuytelaars, and L. Van Gool. SURF: Speeded-up robust features, ECCV2006.

【非特許文献2】M. Gygli: Ridiculously Fast Shot Boundary Detection with Fully Convolutional Neural Networks, arXiv:1705.08214v1, 2017.

【非特許文献3】T. Soucek, J. Moravec, J. Lokoc: TransNet: A deep network for fast detection of common shot transitions, arXiv:1906.03363v1, 2019.

【発明の概要】

【発明が解決しようとする課題】

【0010】

複数のフレーム画像に渡ってショットを切り替える手法のひとつとして、２次元的又は３次元的なショット境界の移動、拡大又は縮小などを組み合わせたものがある（トランジションと呼ばれる場合もある）。前記した従来手法では、輝度、色又はエッジなどの物理的な特徴量のみを用いるため、これらのショット境界を正確に検出できないという問題がある。

【0011】

図１１（ａ）及び図１１（ｂ）に示すように、複数のフレーム画像に渡って徐々に、ショットＡからショットＢに切り替える場合を考える。図１１（ａ）の例は、ショットＢの領域が徐々に拡大してショットＡからショットＢに切り替わるものである。また、図１１（ｂ）の例は、画面右側からショットＢの領域が画面左側に移動し、ショットＡからショットＢに切り替わるものである。図１１（ａ）及び図１１（ｂ）の何れも、ショットの切り替え方法として一般的なものである。

【0012】

ここで、ショット境界か否かの判定が困難となる場合を考える。図１１（ａ）の例では、室内から玄関を通って室外に出るシーンの場合、ショット境界として判定すべきではない。図１１（ｂ）の例では、ビルの角から向こう側をのぞくシーンや、縦に線がある単一のオブジェクトをパンで撮影するシーンの場合、ショット境界と判別すべきでない。特に、ＣＧを多用した映像やアニメーションの場合には、ショット境界か否かの判断が困難となるケースが多い。ＣＧは実写と異なるため、例えば、ドアのつもりで描かれている枠なのか、又は、次のショットをドア風の枠で囲っているだけなのか、たまたまドアに見えるだけなのかなど、ショット境界か否かの判定が困難な場合が想定される。

【0013】

そこで、本発明は、複数のフレーム画像に渡るショット境界を正確に検出できるショット境界検出装置、ショット境界学習装置及びそれらのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0014】

前記課題を解決するため、本発明に係るショット境界検出装置は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するショット境界検出装置であって、画像特徴量算出部と、物体特徴量算出部と、特徴量結合部と、判定部と、を備える構成とした。

【0015】

かかる構成によれば、画像特徴量算出部は、フレーム画像の物理的な特徴量である画像特徴量を算出する。
物体特徴量算出部は、物体の種類を示す物体ラベルが付与された学習用画像群を予め学習した物体特徴ニューラルネットワークを用いて、フレーム画像の内容が反映された物体特徴量を算出する。
なお、物体特徴量算出部は、物体特徴ニューラルネットワークではなく、エッジなどの一般的な画像特徴に基づく物体特徴量や、ニューラルネットワーク以外の機械学習により物体特徴量を算出してもよい。

【0016】

特徴量結合部は、画像特徴量及び物体特徴量が結合した結合特徴量を算出する。
判定部は、結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する。

【0017】

また、前記課題を解決するため、本発明に係るショット境界学習装置は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するショット境界学習装置であって、画像特徴量学習部と、物体特徴量学習部と、ショット境界学習部と、を備える構成とした。

【0018】

かかる構成によれば、画像特徴量学習部は、フレーム画像の物理的な特徴量である画像特徴量を算出するための画像特徴量ニューラルネットワークを学習する。
物体特徴量学習部は、フレーム画像の内容が反映された物体特徴量を算出するための物体特徴ニューラルネットワークを学習する。
ショット境界学習部は、画像特徴量及び物体特徴量が結合した結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するための境界判定ニューラルネットワークを学習する。

【0019】

すなわち、複数のフレーム画像に渡るショット境界を正確に検出するためには、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮する必要がある。そこで、本発明は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることで、より正確にショット境界を検出できるようにした。

【0020】

なお、本発明は、コンピュータを、前記したショット境界検出装置又はショット境界学習装置として機能させるためのプログラムで実現することもできる。

【発明の効果】

【0021】

本発明によれば、複数のフレーム画像に渡るショット境界を正確に検出することができる。

【図面の簡単な説明】

【0022】

【図1】第１実施形態に係るショット境界検出装置の構成を示すブロック図である。

【図2】第１実施形態において、画像特徴量ニューラルネットワークの一例を説明する説明図である。

【図3】第１実施形態において、畳み込みニューラルネットワークの一例を説明する説明図である。

【図4】第１実施形態において、物体特徴ニューラルネットワークの一例を説明する説明図である。

【図5】第１実施形態において、特徴ベクトルの変換を説明する説明図である。

【図6】第１実施形態に係るショット境界検出装置の動作を示すフローチャートである。

【図7】第１実施形態に係るショット境界学習装置の構成を示すブロック図である。

【図8】（ａ）及び（ｂ）は、第１実施形態においてショット境界学習装置の学習を説明する説明図である。

【図9】第１実施形態に係るショット境界検出装置の構成を示すブロック図である。

【図10】（ａ）及び（ｂ）は、従来のショット境界検出手法を説明する説明図である。

【図11】（ａ）及び（ｂ）は、複数のフレーム画像に渡るショット境界の一例を説明する説明図である。

【発明を実施するための形態】

【0023】

以下、本発明の各実施形態について図面を参照して説明する。但し、以下に説明する各実施形態は、本発明の技術思想を具体化するためのものであって、特定的な記載がない限り、本発明を以下のものに限定しない。また、同一の手段には同一の符号を付し、説明を省略する場合がある。

【0024】

（第１実施形態）
［ショット境界検出装置の構成］
図１を参照し、第１実施形態に係るショット境界検出装置１の構成について説明する。
ショット境界検出装置１は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するものである。本実施形態では、ショット境界検出装置１は、後記するショット境界学習装置２（図７）で学習したニューラルネットワークを用いて、ショット境界を検出することとする。図１に示すように、ショット境界検出装置１は、画像入力部１０と、画像特徴量算出部１１と、物体特徴量算出部１２と、特徴量結合部１３と、判定部１４とを備える。

【0025】

画像入力部１０は、ショット境界の検出対象となるフレーム画像列（映像）が入力されるものである。このフレーム画像列は、その内容や長さが特に制限されない。そして、画像入力部１０は、入力されたフレーム画像列を画像特徴量算出部１１及び物体特徴量算出部１２に出力する。

【0026】

画像特徴量算出部１１は、フレーム画像の物理的な特徴量である画像特徴量を算出するものである。本実施形態では、画像特徴量算出部１１は、予め学習した画像特徴量ニューラルネットワークを用いて、画像入力部１０より入力されたフレーム画像列から画像特徴量を算出する。

【0027】

ここで、画像特徴量算出部１１は、画像特徴量ニューラルネットワークとして、畳み込みニューラルネットワークを利用できる。例えば、畳み込みニューラルネットワークでは、図２に示すように、連続する３枚のフレーム画像ｉ，ｉ＋１，ｉ＋２において、空間方向（ｘ方向、ｙ方向）及び時間方向（ｚ方向）の３次元畳み込みフィルタを利用できる。図３に示すように、畳み込みニューラルネットワークは、畳み込み層（Ｃｏｎｖ１～４）と、最大プーリング層（Ｍａｘｐｏｏｌｉｎｇ）とを交互に適用する構造を有する。なお、図３では、Ｃｏｎｖ１～４の後ろに、カーネルサイズ及び出力チャンネルを記載した。例えば、Ｃｏｎｖ１は、カーネルサイズが５×５×３であり、出力チャンネルが４８である。

【0028】

その他、画像特徴量算出部１１は、画像特徴量ニューラルネットワークとして、ＡｌｅｘＮｅｔ、ＲｅｓＮｅｔなどの一般的なニューラルネットワークを利用してもよい（参考文献１，２）。

【0029】

参考文献１：Alex Krizhevsky & Ilya Sutskever & Geoffrey E. Hinton：ImageNet Classification with Deep Convolutional Neural Networks, 2012.
参考文献２：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun：Deep Residual Learning for Image Recognition, arXiv:1512.03385, 2015.

【0030】

画像特徴量算出部１１は、算出した画像特徴量（画像特徴量ニューラルネットワークが出力したスコア）を特徴量結合部１３に出力する。なお、画像特徴量の出力形式については、詳細を後記する。

【0031】

物体特徴量算出部１２は、物体特徴ニューラルネットワークを用いて、フレーム画像の内容が反映された物体特徴量を算出するものである。本実施形態では、画像入力部１０より入力されたフレーム画像列から物体特徴量を算出する。

【0032】

なお、物体特徴ニューラルネットワークとは、物体の種類を示す物体ラベルが付与された学習用画像群を予め学習したニューラルネットワークのことである。また、物体ラベルとは、各フレーム画像に含まれる様々な物体（例えば、自動車、バイク、テーブル）の種類を示すラベルのことである。つまり、物体特徴ニューラルネットワークは、物体ラベルが付与された大量の学習用画像を用いて事前に学習したものであり、フレーム画像を入力すると、物体ラベル毎のスコア（確率値）を出力する。例えば、物体特徴ニューラルネットワークとして、ＳＳＤ(Single Shot Multibox Detector)、ＡｌｅｘＮｅｔ、ＲｅｓＮｅｔなどの一般的なニューラルネットワークを利用できる（参考文献３）。

【0033】

参考文献３：Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg: SSD: Single Shot MultiBox Detector, ECCV2016.

【0034】

ここで、物体特徴量算出部１２は、以下で説明する理由により、物体特徴ニューラルネットワークの出力層より予め設定した数だけ前の層のスコアを用いて、物体特徴量を算出することが好ましい。図４に示すように、一般的な畳み込みニューラルネットワークは、畳み込み層（Ｃｏｎｖ）及びプーリング層（Ｐｏｏｌ）が交互に続いた後、数層の全結合層（Ｆｃ）が続く構造を有する。後段の全結合層の出力は、物体ラベル毎のスコアという意味合いが大きく、物体ラベルの種類に大きく依存すると考えられる。従って、当初想定されていなかった物体が映っていた場合、全結合層の出力を使用すると、ショット境界を正確に検出できない可能性がある。

【0035】

一方、前段の各層の出力は、物体の種類を判定するための材料となる特徴量という意味合いが大きく、物体ラベルの種類にさほど依存せず、汎用性が高いと考えられる。つまり、前段の各層の出力は、フレーム画像から抽出した物体の汎用的な特徴を表していると考えられる。従って、当初想定されていなかった物体が映っていた場合でも、前段の各層の出力を使用すれば、ショット境界を正確に検出できる。そこで、物体特徴ニューラルネットワークが畳み込みニューラルネットワークの場合、全結合層の直前に位置するプーリング層の出力（スコア）を用いることが好ましい。

【0036】

物体特徴量算出部１２は、算出した物体特徴量（物体特徴ニューラルネットワークが出力したスコア）を特徴量結合部１３に出力する。なお、物体特徴量の出力形式については、詳細を後記する。

【0037】

特徴量結合部１３は、画像特徴量及び物体特徴量が結合した結合特徴量を算出し、算出した結合特徴量を判定部１４に出力するものである。本実施形態では、特徴量結合部１３は、以下で説明する第１の結合手法又は第２の結合手法の何れかを利用することとする。

【0038】

＜第１の結合手法：１次元の特徴ベクトル＞
第１の結合手法は、画像特徴量算出部１１から入力された画像特徴量及び物体特徴量算出部１２から入力された物体特徴量を１次元のベクトルとして結合する手法である。具体的には、特徴量結合部１３は、長さｍの画像特徴ベクトルと長さｎの物体特徴ベクトルをそれぞれ１次元に変換した後、両特徴ベクトルを連結することで、長さ（ｍ＋ｎ）の結合特徴ベクトルを生成する。また、特徴量結合部１３は、長さｍの画像特徴ベクトルと長さｎの物体特徴ベクトルそれぞれ１次元に変換した後、両特徴ベクトルを加算することで、結合特徴ベクトルを生成してもよい。

【0039】

ここで、画像特徴量及び物体特徴量の出力形式を補足する。例えば、平坦化を行うことで、画像特徴ベクトル及び物体特徴ベクトルをそれぞれ１次元のベクトルに変換できる。この平坦化とは、ｎ行ｍ列の２次元の情報を、長さがｎ×ｍの１次元のベクトルに変換する処理のことである。図５に示すように、畳み込みニューラルネットワークでは、フレーム画像内で位置を変えながら畳み込みを行い、畳み込み層から２次元の情報を出力する。そして、畳み込みニューラルネットワークでは、平坦化として、２次元の情報を１次元に変換し、全結合層に入力する。

【0040】

なお、特徴ベクトル同士を加算する場合、画像特徴量算出部１１及び物体特徴量算出部１２では、画像特徴ベクトル及び物体特徴ベクトルの長さを等しくする必要がある（ｍ＝ｎ）。ニューラルネットワークでは、全結合層を１層追加するだけで、特徴ベクトルの長さを任意に調整できる。

【0041】

＜第２の結合手法：３次元特徴量＞
第２の結合手法は、画像特徴量算出部１１から入力された画像特徴量及び物体特徴量算出部１２から入力された物体特徴量を、２次元の情報（画像内における各画素の位置情報ｋ，ｌ）を保持したまま結合する手法である。つまり、特徴量結合部１３は、ｋ×ｌ×ｃ１の３次元の画像特徴量と、ｋ×ｌ×ｃ２の３次元の物体特徴量とを結合する。具体的には、特徴量結合部１３は、画像特徴量及び物体特徴量を特徴チャンネル方向に連結し、ｋ×ｌ×（ｃ１＋ｃ２）の行列を３次元特徴量として生成する。
なお、ｋ及びｌは、フレーム画像における縦方向及び横方向の次元に相当するものである。ｃ１及びｃ２は、特徴チャンネル（特徴量の種類）を表す次元である。

【0042】

ここで、２次元の情報を保持する場合において、画像特徴量及び物体特徴量の出力形式を補足する。この場合、画像特徴量算出部１１及び物体特徴量算出部１２では、画像特徴ベクトル及び物体特徴ベクトルを平坦化せず、２次元の情報を保持したまま特徴量結合部１３に出力すればよい。

【0043】

この他、特徴量結合部１３は、画像特徴量及び物体特徴量の行列を加算し、３次元特徴量を生成してもよい。この場合、画像特徴量算出部１１及び物体特徴量算出部１２では、特徴チャンネルｃ１及びｃ２の長さを等しくする必要がある。ニューラルネットワークでは、カーネルサイズを１×１、出力チャンネル数を目的のチャンネル数とした畳み込み層を１層追加するだけで、チャンネル数を任意に調整できる。

【0044】

図１に戻り、ショット境界検出装置１の説明を続ける。
判定部１４は、特徴量結合部１３から入力された結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するものである。本実施形態では、判定部１４は、予め学習した境界判定ニューラルネットワークを用いて、ショット境界がフレーム画像列に含まれるか否かを判定する。

【0045】

ここで、判定部１４は、境界判定ニューラルネットワークとして、画像特徴量算出部１１と同様、畳み込み層と最大プーリング層とを交互に連結した畳み込みニューラルネットワークを利用できる。また、判定部１４は、境界判定ニューラルネットワークとして、ＡｌｅｘＮｅｔ、ＲｅｓＮｅｔなどの一般的なニューラルネットワークを利用できる。

【0046】

判定部１４は、ショット境界がフレーム画像列に含まれるか否かの判定結果を任意の手法で出力する。例えば、判定部１４は、判定結果をディスプレイ（不図示）に表示してもよく、他のコンピュータに判定結果を送信してもよい。

【0047】

［ショット境界検出装置の動作］
図６を参照し、ショット境界検出装置１の動作について説明する。
図６に示すように、ステップＳ１において、ショット境界検出装置１は、画像入力部１０に入力された全フレーム画像の処理が完了したか否かを判定する。

【0048】

処理が完了していない場合（ステップＳ１でＮｏ）、ショット境界検出装置１は、ステップＳ２の処理に進む。
処理が完了した場合（ステップＳ１でＹｅｓ）、ショット境界検出装置１は、動作を終了する。

【0049】

ステップＳ２において、画像特徴量算出部１１は、フレーム画像ｉから画像特徴量を算出する。
ステップＳ３において、物体特徴量算出部１２は、フレーム画像ｉから物体特徴量を算出する。
ステップＳ４において、特徴量結合部１３は、ステップＳ２の画像特徴量及びステップＳ３の物体特徴量が結合した結合特徴量を算出する。

【0050】

ステップＳ５において、判定部１４は、ステップＳ４の結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定する。
ステップＳ６において、ショット境界検出装置１は、カウンタｉをインクリメントし、ステップＳ１の処理に戻る。

【0051】

［ショット境界学習装置の構成］
図７を参照し、第１実施形態に係るショット境界学習装置２の構成について説明する。
ショット境界学習装置２は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するためのニューラルネットワークを学習するものである。図７に示すように、ショット境界学習装置２は、画像入力部２０と、画像特徴量学習部２１と、物体特徴量学習部２２と、ショット境界学習部２３とを備える。

【0052】

画像入力部２０は、ニューラルネットワークの学習対象となるフレーム画像列（第１学習用画像群、第２学習用画像群）が入力されるものである。そして、画像入力部２０は、入力されたフレーム画像列を画像特徴量学習部２１及び物体特徴量学習部２２に出力する。

【0053】

画像特徴量学習部２１は、画像特徴量算出部１１（図１）が用いる画像特徴量ニューラルネットワークを学習するものである。
物体特徴量学習部２２は、物体特徴量算出部１２が用いる物体特徴ニューラルネットワークを学習するものである。
ショット境界学習部２３は、判定部１４が用いる境界判定ニューラルネットワークを学習するものである。

【0054】

＜ニューラルネットワークの学習＞
図８を参照し、ニューラルネットワークの学習手法を詳細に説明する。
ここで、ショット境界学習装置２は、ニューラルネットワークの学習を２段階で行うので順に説明する。

【0055】

図８（ａ）に示すように、第１学習段階では、物体ラベルが付与された第１学習用画像群を画像入力部２０に入力し、物体特徴ニューラルネットワークＮ１を学習する。具体的には、物体特徴量学習部２２は、撮影された物体の種類を示す物体ラベルが付与された第１学習用画像群から、物体ラベル毎のスコアを出力するように物体特徴ニューラルネットワークＮ１を学習する。例えば、物体特徴ニューラルネットワークＮ１の出力は、バイクのスコアが「０．９９」、自動車のスコア「０．１０」のように、物体ラベル毎のスコア（確率値）が格納されたベクトルとなる。

【0056】

図８（ｂ）に示すように、第２学習段階では、ショット境界ラベルが付与された第２学習用画像群を画像入力部２０に入力し、境界判定ニューラルネットワークＮ３を学習する。この第２学習段階は、第１学習段階が終了した後に行う。

【0057】

具体的には、画像特徴量学習部２１は、ショット境界であるか否かを示すショット境界ラベルが付与された第２学習用画像群から、ランダムな値を初期値として、画像特徴量ニューラルネットワークＮ２を学習する。この画像特徴量ニューラルネットワークＮ２は、最後尾の層を出力する（ハッチングで図示）。

【0058】

続いて、物体特徴量学習部２２は、第２学習用画像群から、第１学習段階で学習したパラメータを初期値として、出力層より予め設定した数だけ前の層のスコアを物体特徴量として出力するように物体特徴ニューラルネットワークＮ１を再度学習する。この物体特徴ニューラルネットワークＮ１は、前記したように、物体の汎用的な特徴を表すことから、全結合層の直前に位置する層を出力する（ハッチングで図示）。

【0059】

続いて、ショット境界学習部２３は、画像特徴量及び物体特徴量が結合した結合特徴量に基づいて、境界判定ニューラルネットワークＮ３を学習する。つまり、ショット境界学習部２３は、物体特徴ニューラルネットワークＮ１及び画像特徴量ニューラルネットワークＮ２の出力が結合した結合特徴量を入力し、ランダムな値を初期値として学習を行う。この境界判定ニューラルネットワークＮ３は、ショット境界であるか否かのスコアを出力する。

【0060】

［作用・効果］
以上のように、第１実施形態では、ショット境界検出装置１及びショット境界学習装置２は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることとした。これにより、ショット境界検出装置１は、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮することが可能となり、より正確にショット境界を検出できる。

【0061】

さらに、ショット境界学習装置２は、物体特徴ニューラルネットワークＮ１を事前に学習した後、その物体特徴ニューラルネットワークＮ１の学習結果を境界判定ニューラルネットワークＮ３に反映させて再度学習する。これにより、ショット境界検出装置１は、ショット境界検出の正確性をさらに向上させることができる。

【0062】

（第２実施形態）
［ショット境界検出装置の構成］
図９を参照し、第２実施形態に係るショット境界検出装置３の構成について説明する。
ショット境界検出装置３は、フレーム画像が連続するフレーム画像列から、複数のフレーム画像に渡るショット境界を検出するものである。本実施形態では、ショット境界検出装置３は、サポートベクターマシン（ＳＶＭ：Support Vector Machine）などの機械学習を用いて、ショット境界を検出することとする。図９に示すように、ショット境界検出装置３は、画像入力部３０と、画像特徴量算出部３１と、物体特徴量算出部３２と、特徴量結合部３３と、判定部３４とを備える。

【0063】

画像入力部３０は、ショット境界の検出対象となるフレーム画像列（映像）が入力されるものである。そして、画像入力部３０は、入力されたフレーム画像列を画像特徴量算出部３１及び物体特徴量算出部３２に出力する。

【0064】

画像特徴量算出部３１は、フレーム画像の物理的な特徴量である画像特徴量を算出し、算出した画像特徴量を特徴量結合部１３に出力するものである。本実施形態では、画像特徴量算出部３１は、画像入力部１０より入力されたフレーム画像列から、輝度値やエッジなどの情報に基づいて、フレーム画像間の類似性を示す画像特徴量を算出する。例えば、画像特徴量算出部３１は、画像特徴量として、ブロック毎の輝度ヒストグラムの絶対差分を算出する。また、画像特徴量算出部３１は、画像特徴量として、ＳＵＲＦなどの特徴ベクトルを算出してもよい。

【0065】

この他、画像特徴量算出部３１は、式（２）に示すように輝度値の絶対差分、又は、式（３）に示すように輝度値の絶対差分二乗和を画像特徴量として算出してもよい。なお、ｆ_ｉ（ｘ，ｙ）は、ｉ番目のフレーム画像の座標（ｘ，ｙ）における画素値（輝度値）を表す。また、ｘ，ｙ∈ｊは、ｉ番目のフレーム画像でｊ番目のブロックに所属する座標値を表す。

【0066】

【数2】

【0067】

物体特徴量算出部３２は、フレーム画像の内容が反映された物体特徴量を算出するものである。本実施形態では、物体特徴量算出部３２は、物体特徴量として、物体の種類を区別できるように、物体の汎用的な特徴を表す特徴量を表すベクトルを算出する。この物体特徴量は、同種の物体の場合、近似した値となり、異なる種類の物体の場合、異なる値となればよい。例えば、物体特徴量としては、ＳＩＦＴ（Scale-Invariant Feature Transform）、ＳＵＲＦ、ＨＯＧ（Histograms of Oriented Gradients）などの局所特徴量を利用するＢａｇｏｆＶｉｓｕａｌＷｏｒｄｓがあげられる。また、物体特徴量として、フレーム画像の各領域に含まれる画素の画素値の平均値、又は、フレーム画像の周波数特徴量を用いてもよい。そして、物体特徴量算出部３２は、算出した物体特徴量を特徴量結合部３３に出力する。

【0068】

特徴量結合部３３は、画像特徴量及び物体特徴量が結合した結合特徴量を算出するものである。本実施形態では、特徴量結合部３３は、画像特徴量算出部３１から入力された画像特徴量及び物体特徴量算出部３２から入力された物体特徴量算を結合した多次元の特徴量を算出する。そして、特徴量結合部３３は、算出した結合特徴量を判定部３４に出力する。

【0069】

判定部３４は、特徴量結合部３３から入力された結合特徴量に基づいて、ショット境界がフレーム画像列に含まれるか否かを判定するものである。本実施形態では、判定部３４は、ＳＶＭなどの一般的な機械学習により、ショット境界がフレーム画像列に含まれるか否かを判定する。例えば、判定部３４は、予めパラメータを学習したＳＶＭに結合特徴量を入力することで、ＳＶＭから判定結果が得られる。

【0070】

判定部３４は、ショット境界がフレーム画像列に含まれるか否かの判定結果を任意の手法で出力する。例えば、判定部３４は、判定結果をディスプレイ（不図示）に表示してもよく、他のコンピュータに定結果を送信してもよい。

【0071】

以下、ショット境界検出装置３での学習手法を補足する。
機械学習としてＳＶＭを用いる場合、ショット境界検出装置３では、教師あり学習を行えばよい。具体的には、画像入力部３０には、ショット境界であるか否かを示すショット境界ラベルが付与された学習用画像を入力する。また、画像特徴量算出部３１及び物体特徴量算出部３２は、前記と同様、境界ラベルが付与された学習用画像から画像特徴量及び物体特徴量をそれぞれ算出する。また、特徴量結合部３３は、前記と同様、境界ラベルが付与された学習用画像についての結合特徴量を算出する。そして、判定部３４は、ＳＶＭの判定結果と境界ラベルとの誤差が少なくなるようにＳＶＭのパラメータを学習する。

【0072】

［作用・効果］
以上のように、第２実施形態では、ショット境界検出装置３は、従来の物理的な画像特徴量に加えて、フレーム画像の内容を反映した物体特徴量を用いることとした。これにより、ショット境界検出装置３は、各ショットに映っている物体の種類や各ショットに映っている物体の関係などのフレーム画像の内容を考慮することが可能となり、より正確にショット境界を検出できる。

【0073】

以上、各実施形態を詳述してきたが、本発明は前記した実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

【0074】

前記した第２実施形態では、機械学習としてＳＶＭを用いることとして説明したが、これに限定されない。例えば、機械学習として、決定木、遺伝的アルゴリズム、ベイジアンネットワークなどの教師あり学習を用いることができる。

【0075】

前記した各実施形態では、ショット境界検出装置及びショット境界学習装置を独立したハードウェアとして説明したが、本発明は、これに限定されない。例えば、本発明は、コンピュータが備えるＣＰＵ、メモリ、ハードディスク等のハードウェア資源を、前記したショット境界検出装置又はショット境界学習装置装置として動作させるプログラムで実現することもできる。これらプログラムは、通信回線を介して配布してもよく、ＣＤ－ＲＯＭやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。

【符号の説明】

【0076】

１，３ショット境界検出装置
１０，３０画像入力部
１１，３１画像特徴量算出部
１２，３２物体特徴量算出部
１３，３３特徴量結合部
１４，３４判定部
２ショット境界学習装置
２０画像入力部
２１画像特徴量学習部
２２物体特徴量学習部
２３ショット境界学習部

【図1】