特許7552155 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ 株式会社ＪＶＣケンウッドの特許一覧

特許7552155映像処理装置、映像処理方法、及びモデル生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-09

(45)【発行日】2024-09-18

(54)【発明の名称】映像処理装置、映像処理方法、及びモデル生成装置

(51)【国際特許分類】

H04N 5/91 20060101AFI20240910BHJP

G10L 15/10 20060101ALI20240910BHJP

G10L 15/06 20130101ALI20240910BHJP

H04N 21/45 20110101ALI20240910BHJP

【ＦＩ】

H04N5/91

G10L15/10 200W

G10L15/06 500Z

H04N21/45

【請求項の数】 5

(21)【出願番号】P 2020145474

(22)【出願日】2020-08-31

(65)【公開番号】P2022040665

(43)【公開日】2022-03-11

【審査請求日】2023-04-28

(73)【特許権者】

【識別番号】308036402

【氏名又は名称】株式会社ＪＶＣケンウッド

(74)【代理人】

【識別番号】100083806

【弁理士】

【氏名又は名称】三好秀和

(74)【代理人】

【識別番号】100101247

【弁理士】

【氏名又は名称】高橋俊一

(72)【発明者】

【氏名】日昔崇

【審査官】醍醐一貴

(56)【参考文献】

【文献】特開２００４－３０９９２０（ＪＰ，Ａ）

【文献】特開２００１－０６９４３７（ＪＰ，Ａ）

【文献】特開２００７－３３６２８３（ＪＰ，Ａ）

【文献】特開２００８－０２１２２５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｎ２１／００－２１／８５８

Ｈ０４Ｎ５／７６－５／７７５

Ｈ０４Ｎ５／８０－５／９０７

Ｈ０４Ｎ５／９１－５／９５６

Ｇ１０Ｌ１５／００－１７／２６

(57)【特許請求の範囲】

【請求項1】

スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出する抽出部と、
前記抽出部によって抽出された前記基準シーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンをハイライトシーンとして生成する生成部と、を備え、
前記特徴のある動作または前記特徴のある音声は、前記スポーツ映像に係る競技ごとにモデルとして予め生成されて記憶装置に記憶されており、かつ生成されたモデルは前記競技の試合が中断しているときのモデルであり、
前記抽出部は前記記憶装置に記憶されている前記モデルを用いて前記基準シーンを抽出する
ことを特徴とする映像処理装置。

【請求項2】

前記特徴のある動作とは前記競技の試合が中断しているときの喜びの動作、または競技特有の動作であり、前記特徴のある音声とは特定の文言を含む音声、または所定以上の音量を有する音声であることを特徴とする請求項１に記載の映像処理装置。

【請求項3】

前記競技の試合が中断しているときとは、試合中断の合図を起点としてその後再度試合開始の合図が行われるまでの間を意味することを特徴とする請求項２に記載の映像処理装置。

【請求項4】

スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出し、
抽出された前記基準シーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンをハイライトシーンとして生成する映像処理方法であって、
前記特徴のある動作または前記特徴のある音声は、前記スポーツ映像に係る競技ごとにモデルとして予め生成されて記憶装置に記憶されており、かつ生成されたモデルは前記競技の試合が中断しているときのモデルであり、
前記記憶装置に記憶されている前記モデルを用いて前記基準シーンを抽出する、
ことを特徴とする映像処理方法。

【請求項5】

請求項１～３いずれか１項に記載の映像処理装置が用いるモデルを生成するモデル生成装置であって、
前記スポーツ映像をディープラーニングを用いて競技ごとに分類し、競技ごとに特徴のある表情を示す表情モデル、特徴のある動作を示す動作モデル、及び特徴のある音声を示す音声モデルをそれぞれ生成するモデル生成部を備えることを特徴とするモデル生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像処理装置、映像処理方法、及びモデル生成装置に関する。

【背景技術】

【0002】

従来よりハイライトシーンを生成する発明が知られている（特許文献１）。特許文献１に記載された発明は、歓声の音量が所定値より大きい場合、そのシーンをハイライトシーンとして生成する。

【先行技術文献】

【特許文献】

【0003】

【文献】特開２０１２－１４７２９６号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、歓声が大きい場合であっても選手を映していないシーンがあり、そのようなシーンはハイライトシーンとして必ずしも適切ではない。

【0005】

本発明は、上記問題に鑑みて成されたものであり、その目的は、適切なハイライトシーンを生成可能な映像処理装置、映像処理方法、及びモデル生成装置を提供することである。

【課題を解決するための手段】

【0006】

本発明の一態様に係る映像処理装置は、スポーツ映像から特徴のある動作または特徴のある音声が含まれる基準シーンを抽出する抽出部と、抽出部によって抽出された基準シーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンをハイライトシーンとして生成する生成部とを備える。

【発明の効果】

【0007】

本発明によれば、適切なハイライトシーンの生成が可能となる。

【図面の簡単な説明】

【0008】

【図1】図１は、本発明の本実施形態に係る映像処理装置１０及びモデル生成装置５０の概略構成図である。

【図2】図２は、ハイライトシーン抽出方法の一例を説明する図である。

【図3】図３は、ハイライトシーン抽出方法の他の例を説明する図である。

【図4】図４は、本発明の本実施形態に係る映像処理装置１０の一動作例を説明するフローチャートである。

【発明を実施するための形態】

【0009】

以下、本発明の実施形態について、図面を参照して説明する。図面の記載において同一部分には同一符号を付して説明を省略する。

【0010】

（映像処理装置の構成例）
映像処理装置１０は、ハイライトシーンを抽出し、抽出したハイライトシーンをハイライト映像として生成する装置である。ハイライトシーンが複数存在する場合、複数のハイライトシーンをつなげたものがハイライト映像となる。本実施形態においてハイライトシーンとは、いわゆるスポーツの見どころを意味し、典型的にはスポーツの得点シーンである。ただしスポーツによっては得点シーンがないスポーツもある（例えば相撲）。得点シーンがない相撲においてハイライトシーンとは力士の技が決まったシーンなどが該当する。本実施形態では映像処理装置１０はモデル生成装置５０とは異なる装置として説明するが、モデル生成装置５０が有する一部の機能またはすべての機能は映像処理装置１０に組み込まれてもよい。

【0011】

図１を参照して、映像処理装置１０及びモデル生成装置５０の構成の一例について説明する。まず最初に映像処理装置１０について説明する。図１に示すように映像処理装置１０は、記憶装置１１と、制御部１２と、インターフェース１３とを備える。

【0012】

記憶装置１１は、映像取得機器２０によって取得されたコンテンツを録画または記録する装置であり、典型的にはレコーダーである。このようなレコーダーは一例としてＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）から構成される。なお記憶装置１１としてクラウドコンピューティングを利用したクラウドストレージが用いられてもよい。したがって映像処理装置１０は必ずしも記憶装置１１を備える必要はない。

【0013】

映像取得機器２０は一例としてテレビ番組を取得する装置であり、典型的にはテレビである。また映像取得機器２０は、インターネット回線を通じて映像コンテンツを取得するスマートフォン、タブレット端末、パーソナルコンピュータ、ゲーム機であってもよい。テレビ番組もしくは映像コンテンツにはスポーツ中継、ドラマ、映画、ドキュメンタリー、アニメ、ニュースなどが含まれるところ、本実施形態においてハイライトシーン抽出の対象となるのはスポーツ中継である。スポーツの種類に関して、テレビあるいはインターネット回線を通じて提供されるスポーツであればハイライトシーン抽出の対象となる。テレビあるいはインターネット回線を通じて提供される代表的なスポーツとして、野球、バスケットボール、アメリカンフットボール、アイスホッケー、サッカー、テニス、バレーボール、卓球、ラグビー、クリケット、フェンシング、ゴルフ、相撲などが挙げられる。本実施形態ではスポーツ中継及びスポーツコンテンツを総称してスポーツ映像と表現する。したがってスポーツ映像にはテレビを通じて取得されるスポーツ中継、及びインターネット回線を通じて取得されるスポーツコンテンツが含まれる。ただし説明を簡略化するため、以下ではハイライトシーン抽出の対象をテレビ番組とする。なお映像取得機器２０の機能は映像処理装置１０に組み込まれてもよい。この場合、映像処理装置１０は持ち運びが容易なビデオカメラとして機能しうる。持ち運びが容易なビデオカメラはハンディカメラと呼ばれる場合もある。上述のスポーツ映像には一般的なユーザがビデオカメラで撮影したスポーツ映像も含まれる。

【0014】

インターフェース１３は一例として、ネットワークアダプタなどのハードウェア、通信用ソフトウェア、あるいはこれらの組み合わせとして実装され、有線または無線の通信を実現できるように構成されている。またインターフェース１３はデータを送受信するための入力部及び出力部としての機能を有する。

【0015】

インターフェース１３はユーザ端末３０との通信、及びネットワーク４０を介したモデル生成装置５０との通信に用いられる。ユーザ端末３０はユーザによって操作される装置であり、典型的にはレコーダーを操作するためのリモコンである。ただしユーザ端末３０はリモコンに限定されない。ユーザ端末３０はスマートフォン、タブレット端末、パーソナルコンピュータ、ゲーム機であってもよい。本実施形態ではユーザ端末３０をリモコンとして説明する。ネットワーク４０は、無線または有線の何れかの方式、あるいは両方の方式によって構成されてもよく、ネットワーク４０にはインターネットが含まれてもよい。本実施形態では、映像処理装置１０とモデル生成装置５０は無線通信方式によってネットワーク４０と接続する。

【0016】

ユーザはリモコン（ユーザ端末３０）を操作してハイライトシーンを抽出したいスポーツ中継番組を選択する。すなわち本実施形態において、ハイライトシーンを抽出したいスポーツ中継番組は記憶装置１１に録画されていることが前提となる。ユーザがリモコンを操作してハイライトシーンを抽出したいスポーツ中継番組を選択したとき、リモコンから送信された信号はインターフェース１３を介して制御部１２に出力される。制御部１２は受信した信号に基づいてユーザによって選択されたスポーツ中継番組のハイライトシーンを抽出する。

【0017】

制御部１２は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、メモリ、及び入出力部などを備える汎用のマイクロコンピュータである。ＣＰＵ、メモリ、入出力部などは図示しないバスを介して電気的に接続されている。マイクロコンピュータには、映像処理装置１０として機能させるためのコンピュータプログラムがインストールされている。コンピュータプログラムを実行することにより、マイクロコンピュータは映像処理装置１０が備える複数の情報処理回路として機能する。なおここではソフトウェアによって映像処理装置１０が備える複数の情報処理回路を実現する例を示すが、もちろん、以下に示す各情報処理を実行するための専用のハードウェアを用意して情報処理回路を構成することも可能である。また、複数の情報処理回路を個別のハードウェアにより構成してもよい。制御部１２は、複数の情報処理回路として、映像分析部１４と、ハイライト抽出部１７を備える。また映像分析部１４は競技特定部１５と、特徴検出部１６とに分類される。

【0018】

競技特定部１５は、ユーザ端末３０から発信された信号を受信したとき、ユーザによって選択されたスポーツ中継番組（競技）の種類を特定する。特定方法の一例を説明する。記憶装置１１にスポーツ中継番組が録画されたときに、録画されたスポーツ中継番組の種類を示すタグ情報が同時に記憶される場合がある。このような場合競技特定部１５はタグ情報を参照することによりスポーツ中継番組の種類を特定することが可能となる。あるいは競技特定部１５はスポーツ中継番組の映像を分析しスポーツ中継番組の種類を特定してもよい。例えばコートまたはグラウンドにラインが引かれている場合、３ポイントラインが検出されればバスケットボール、センターサークル及びペナルティボックスが検出されればサッカーという特定が可能である。またユニフォームの形状、競技に使用されるボールの形状、選手の人数などからも特定が可能である。競技特定部１５は特定したスポーツ中継番組の種類を特徴検出部１６に出力する。

【0019】

特徴検出部１６は、ユーザによって選択されたスポーツ中継番組を分析し、特徴のある表情、特徴のある動作、及び特徴のある音声を検出する。特徴のある表情、特徴のある動作の検出には周知の映像認識技術が用いられる。映像認識技術の一例としてモデル（テンプレート）を用いたテンプレートマッチングが挙げられる。テンプレートマッチングとはモデルの位置及び大きさを変えながらマッチングを行い、類似度の高いシーンを検出する技術である。類似度の指標にはＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｆｆｅｒｅｎｃｅ）、ＳＡＤ（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ）などが用いられる。これらは周知技術であるため詳細な説明は省略する。

【0020】

特徴のある表情とは一例として選手の喜びの表情である。特徴のある動作とは、選手のガッツポーズ、選手が手を挙げて観客に応えている動作、選手同士のハイタッチ、選手の拍手もしくは観客の拍手などが挙げられる。すなわち特徴のある動作とは喜びを示す動作である。特徴のある音声の検出には周知の音声認識技術が用いられる。特徴のある音声とは一例として「やったー」、「ｃｏｍｅｏｎ」などの選手が得点した際の特定の文言が挙げられる。あるいは所定以上の音量を有する音声も特徴のある音声に含まれる。

【0021】

特徴のある表情、及び特徴のある動作のモデルはモデル生成装置５０によって生成される。詳細は後述するが、モデル生成装置５０は一例としてディープラーニングを用いて特徴のある表情、及び特徴のある動作のモデルを生成する。

【0022】

特徴検出部１６は、スポーツ中継番組を所定時間ごとに区切って分析する。例えばスポーツ中継番組がサッカーである場合、前半戦であれば試合時間は４５分であるから、特徴検出部１６は映像を５分単位で分割し、９つのパートに分けて分析する。特徴検出部１６はテンプレートマッチング及び音声認識技術を用いて検出した特徴のある表情、特徴のある動作、及び特徴のある音声をハイライト抽出部１７に出力する。なお５分という時間は一例であってコンピュータの性能などに応じて適宜変更されうる。

【0023】

ハイライト抽出部１７（抽出部、生成部）は、特徴検出部１６によって検出された特徴のある表情、特徴のある動作、及び特徴のある音声を含むシーン（以下基準シーンと呼ぶ場合がある）とその前後のシーンをハイライトシーンとして抽出する。前後のシーンとは基準シーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンと定義される。ハイライト抽出部１７は抽出したハイライトシーンをハイライト映像として記憶装置１１に記憶する。なおハイライトシーンが複数抽出された場合、ハイライト抽出部１７は複数のハイライトシーンをつなげて１つのハイライト映像を生成する。

【0024】

ハイライト映像が記憶装置１１に記憶されたとき、映像処理装置１０はインターフェース１３を介してハイライト映像の生成が完了した旨をユーザに伝えてもよい。これによりユーザはハイライト映像を楽しむことができる。

【0025】

次にモデル生成装置５０について説明する。図１に示すようにモデル生成装置５０は、サーバ５１と、制御部５２と、記憶装置５５と、インターフェース５６とを備える。モデル生成装置５０の設置場所は特に限定されないが、例えばモデル生成装置５０は、モデル生成装置５０を管理する事業者が保有する管理センタに設置される。

【0026】

サーバ５１には過去のスポーツ中継番組及びスポーツコンテンツが多数記憶されている。またサーバ５１には今後放送されるスポーツ中継番組及びスポーツコンテンツも記憶される。なお記憶媒体として機能する構造物であればサーバでなくてもよい。記憶媒体として機能する構造物として、カセットテープ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＢＬＵ－ＲＡＹディスクなどが挙げられる。

【0027】

制御部５２は制御部１２と同様に汎用のマイクロコンピュータである。制御部５２は複数の情報処理回路として、映像取得部５３と、モデル生成部５４を備える。

【0028】

映像取得部５３はサーバ５１から過去に記憶されたスポーツ中継番組及びスポーツコンテンツを取得する。映像取得部５３は取得したスポーツ中継番組及びスポーツコンテンツをモデル生成部５４に出力する。

【0029】

モデル生成部５４は映像取得部５３から取得したスポーツ中継番組及びスポーツコンテンツを分析してモデルを生成する。ここでいうモデルは上述したように特徴のある表情のモデル、及び特徴のある動作のモデルである。これらのモデルが映像認識技術で用いられる。モデルの生成には周知のＡＩ技術が用いられる。ＡＩ技術の一例としてディープラーニングが用いられる。ディープラーニングではニューラルネットワークを利用して大量の映像データ（スポーツ中継番組及びスポーツコンテンツに係るデータ）から特徴量（特徴のある表情、特徴のある動作）を抽出する。これにより多くのスポーツで共通する喜びの表情、ガッツポーズといった特徴に加えて、スポーツごとにそのスポーツ独特の動作の特徴を抽出することが可能となる。音声についても同様である。またディープラーニングでは入力された音声データの音の強弱、周波数、音量、特定の言葉などの特徴量を抽出し音声モデルが生成される。スポーツ映像がニューラルネットワークに入力されるとき、スポーツ映像は競技ごとに分類され、分類された映像がニューラルネットワークに入力される。ニューラルネットワークによって分類された映像が学習され競技ごとに特徴のある表情のモデル、特徴のある動作のモデル、及び特徴のある音声のモデルが生成される。このようにして生成されたモデルは記憶装置５５に記憶される。なお以下ではモデル生成部５４によって生成された特徴のある表情を示すモデルを表情モデル、特徴のある動作を示すモデルを動作モデル、特徴のある音声のモデルを音声モデルと呼ぶ場合がある。

【0030】

モデル生成装置５０はネットワーク４０を介してモデルを映像処理装置１０に送信する。送信されたモデルは記憶装置１１に記憶される。記憶装置１１に記憶されたモデルはハイライトシーンを抽出する際に呼び出される。

【0031】

次に、図２～３を参照してハイライトシーン抽出方法の一例を説明する。図２～３において競技はサッカーである。

【0032】

図２に示す横軸はサッカーの試合時間である。図２において、試合が開始して３０分の時点で得点がうまれ、３０分５秒の時点で得点した選手がガッツポーズし、観客の歓声が大きくなっている。このようなシーンを有するサッカー中継番組において、ユーザがハイライトシーン抽出を希望したとする。上述したようにユーザの希望はリモコンによって操作される。

【0033】

まず最初に競技特定部１５は、リモコンから発信された信号を受信したとき、ユーザによって選択されたスポーツ中継番組（競技）の種類を特定する。ここではサッカーが特定されたとする。次に特徴検出部１６は、記憶装置１１を参照してサッカーに関する表情モデル、動作モデル、音声モデルを取得する。特徴検出部１６はサッカー中継番組を所定時間ごとに区切って分析を開始する。ここでは２５分～３５分までが区切られた１つのパートとする。特徴検出部１６は２５分～３５分の映像において、表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンがないか分析する。分析の結果、特徴検出部１６は３０分５秒のシーンにおいて、選手の喜びの表情、選手のガッツポーズ、所定以上の音量を有する音声（歓声）を検出する。

【0034】

ハイライト抽出部１７は３０分５秒のシーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンを抽出する。図２に示す例では第１所定時間は１０秒であり、第１シーンは２９分５５秒時点のシーンである。第２所定時間は５秒であり、第２シーンは３０分１０秒時点のシーンである。図２に示す例ではハイライトシーンは１５秒となる。

【0035】

サッカーで選手が得点した場合、その後のシーンとして、得点した選手が喜んでいるシーン、得点した選手がガッツポーズしているシーン、大きな歓声が上がったシーンが挙げられる。本実施形態によれば、得点シーンが発生した後のシーンの特徴を検出し、そのシーンの前後のシーンを含むシーンをハイライトシーンとして生成する。これにより、得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。また音声の他に選手の表情及び選手の動作も考慮してハイライトシーンが生成されるため、従来技術と比較して適切なハイライトシーンの生成が可能となる。

【0036】

なお、特徴検出部１６は表情モデル、動作モデル、音声モデルが時間差なく一致するあるいは類似するシーンを抽出する。ただしある程度の時間差は許容されてもよい。許容される時間差は特に限定されないが、例えば１～２秒の範囲で設定されてもよい。

【0037】

図２に示す例では基準シーンの前後のシーンを含むようにしたがこれに限定されない。例えば図３に示すように基準シーンから第１所定時間（１０秒）だけ戻った第１シーンまでをハイライトシーンとして抽出してもよい。この場合であっても得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして抽出することが可能となる。

【0038】

次に、図４のフローチャートを参照して、映像処理装置１０の一動作例を説明する。

【0039】

ステップＳ１０１において、制御部１２がユーザ端末３０から発信された信号を受信したとき（ステップＳ１０１でＹＥＳ）、処理はステップＳ１０３に進む。ユーザ端末３０から信号が発信されていないとき（ステップＳ１０１でＮＯ）、処理は待機する。

【0040】

ステップＳ１０３において、競技特定部１５はユーザによって選択されたスポーツ中継番組を記憶装置１１から取得し、スポーツ中継番組の種類を特定する。ここではスポーツ中継番組の種類がサッカーであると特定されたとする。処理はステップＳ１０５に進み、特徴検出部１６は記憶装置１１を参照してサッカーに関する表情モデル、動作モデル、音声モデルを取得する。

【0041】

処理はステップＳ１０７に進み、特徴検出部１６はサッカー中継番組を所定時間ごとに区切って分析を開始する。特徴検出部１６は区切られたそれぞれのパートにおいて周知の映像認識技術及び音声認識技術を用いて表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンがないか分析する。

【0042】

処理はステップＳ１０９に進み、表情モデル、動作モデル、音声モデルと一致するあるいは類似するシーンが検出されたとき、そのシーンを基準シーンとして抽出する。ハイライト抽出部１７は基準シーンを基準として、第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンを抽出する。これによりハイライトシーンが抽出される。処理はステップＳ１１１に進み、ハイライト抽出部１７は抽出したハイライトシーンをハイライト映像として記憶装置１１に記憶する。

【0043】

（作用効果）
以上説明したように、本実施形態に係る映像処理装置１０によれば、以下の作用効果が得られる。

【0044】

映像処理装置１０はスポーツ映像から特徴のある動作及び特徴のある音声が含まれる基準シーンを抽出し、抽出された基準シーンを基準として第１所定時間だけ戻った第１シーンから第２所定時間だけ進んだ第２シーンまでを含むシーンをハイライトシーンとして生成する。本実施形態によれば、得点シーンが発生した後のシーンの特徴を検出し、そのシーンの前後のシーンを含むシーンをハイライトシーンとして生成する。これにより、得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。また音声の他に選手の表情及び選手の動作も考慮してハイライトシーンが生成されるため、従来技術と比較して適切なハイライトシーンの生成が可能となる。なお上述の実施形態では特徴のある動作と特徴のある音声の両方を用いたが、必ずしもこれに限定されない。映像処理装置１０はスポーツ映像から特徴のある動作または特徴のある音声のどちらか一方が含まれる基準シーンを抽出し、ハイライトシーンを生成してもよい。

【0045】

上述の実施形態に記載される各機能は、１または複数の処理回路により実装され得る。処理回路は、電気回路を含む処理装置等のプログラムされた処理装置を含む。処理回路は、また、記載された機能を実行するようにアレンジされた特定用途向け集積回路（ＡＳＩＣ）や回路部品等の装置を含む。

【0046】

上記のように、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。

【0047】

得点シーンが発生した後のシーンの他の例として、バスケットボールであればダンクでゴールが壊れたシーン、テニスであればボールボーイがボールを拾ったシーン（ダブルフォルトであれば得点が入ったことになる）、バレーボールであれば選手が円陣を組んだシーンなどが該当する。

【0048】

ハイライトシーンは得点シーンに限定されない。サッカーであればオフサイドシーン、イエローカードあるいはレッドカードを主審が出したシーン、所定時間以上一人の選手がドリブルを続けるシーンなどもハイライトシーンになりうる。このような得点が絡まないシーンでは選手の喜びの表情は発生しにくいため、生成されるモデルは動作モデル及び音声モデルの２つになる。

【0049】

ハイライトシーン抽出の対象となるスポーツは限定されてもよい。例えば自陣と敵陣に分かれて得点を競うスポーツのみをハイライトシーン抽出の対象としてもよい。自陣と敵陣に分かれて得点を競うスポーツには、サッカー、バスケットボール、アメリカンフットボール、アイスホッケー、テニス、バドミントン、バレーボール、卓球、ラグビー、フットサルなどが含まれる。これらのスポーツにおいても上述で説明したサッカーのように本実施形態によれば得点シーンそのものを抽出することなく、得点シーンを含むシーンをハイライトシーンとして生成することが可能となる。

【0050】

もちろんこれらの自陣と敵陣に分かれて得点を競うスポーツにおいてもハイライトシーンは得点シーンに限定されない。アイスホッケーであれば観客席前のアクリル板が割れるシーンはハイライトシーンになりうる。テニス、バドミントン、バレーボールであればチャレンジシーンはハイライトシーンになりうる。これらのシーン及びその前後のシーンを抽出すればハイライトシーンの生成が可能となる。なおチャレンジシーンとは、判定に疑義がある場合にビデオ映像などによる判定の再確認を要求する、いわゆる「チャレンジ」を行ったシーンを意味する。

【0051】

また試合終了間際もハイライトシーンになりうる。

【0052】

モデル生成装置５０は、スポーツ中継番組において試合が中断しているときの映像のみを用いて特徴のある表情、特徴のある動作、及び特徴のある音声のモデルを生成してもよい。例えばサッカーであれば試合が中断しているときの映像とは、得点がうまれてから主審が試合開始のホイッスルを鳴らすまでの映像、ファールなどの原因で主審がホイッスルを鳴らしてから再度主審が試合開始のホイッスルを鳴らすまでの映像などである。すなわち競技の試合が中断しているときとは、試合中断の合図を起点としてその後再度試合開始の合図が行われるまでの間と定義されてもよい。また乱闘シーンはすべてのスポーツにおいて試合が中断しているときのシーンである。

【0053】

また映像分析の際に、表情モデル、動作モデル、音声モデルとの一致度の検出にさらに追加して、画角の中心に映る選手が一定以上の大きさか否か、画角の中心に映る選手の周りの選手は同じユニフォームを着ているか、グラウンド内かなどを考慮してもよい。

【0054】

上述の実施形態ではユーザによって選択されたスポーツ中継番組のハイライトシーンを抽出したがこれに限定されない。ユーザの指示とは関係なく、記憶装置１１にスポーツ中継番組が記憶されていれば制御部１２は記憶されているスポーツ中継番組のハイライトシーンを自動的に抽出してもよい。

【符号の説明】

【0055】

１０映像処理装置
１１、５５記憶装置
１２、５２制御部
１３、５６インターフェース
１４映像分析部
１５競技特定部
１６特徴検出部
１７ハイライト抽出部
２０映像取得機器
３０ユーザ端末
４０ネットワーク
５０モデル生成装置
５１サーバ
５３映像取得部
５４モデル生成部

【図1】