特許7519847 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特許7519847映像切出装置、システム、およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-11

(45)【発行日】2024-07-22

(54)【発明の名称】映像切出装置、システム、およびプログラム

(51)【国際特許分類】

G06T 7/11 20170101AFI20240712BHJP

G06T 7/00 20170101ALI20240712BHJP

G06T 3/00 20240101ALI20240712BHJP

H04N 23/60 20230101ALI20240712BHJP

【ＦＩ】

G06T7/11

G06T7/00 350C

G06T3/00 775

H04N23/60 500

【請求項の数】 4

(21)【出願番号】P 2020149037

(22)【出願日】2020-09-04

(65)【公開番号】P2022043651

(43)【公開日】2022-03-16

【審査請求日】2023-08-04

【新規性喪失の例外の表示】特許法第３０条第２項適用発行日：令和２年（西暦２０２０年）５月２０日，名称：「２０２０年度ＮＨＫ中国地方放送技術報告会」予稿，発行者：ＮＨＫ広島拠点放送局技術部

【新規性喪失の例外の表示】特許法第３０条第２項適用報告会の実施日：令和２年（西暦２０２０年）５月２６日，報告会の名称：２０２０年度ＮＨＫ中国地方放送技術報告会，主催者：２０２０年度ＮＨＫ中国地方放送技術報告会事務局（ＮＨＫ広島拠点放送局技術部），開催方法：インターネットによる通信を用いた電子会議として開催

【新規性喪失の例外の表示】特許法第３０条第２項適用発行日：令和２年（西暦２０２０年）７月１３日，名称及び号：電波タイムズ第７１４０号，ページ：第３面，記事見出し「ＮＨＫ第７３回全国技術報告会」、「最優秀賞は小窓切出装置「ＢｅａｕｔｙＲＯＩ」の開発」

(73)【特許権者】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】100141139

【弁理士】

【氏名又は名称】及川周

(74)【代理人】

【識別番号】100171446

【弁理士】

【氏名又は名称】高田尚幸

(74)【代理人】

【識別番号】100114937

【弁理士】

【氏名又は名称】松本裕幸

(74)【代理人】

【識別番号】100171930

【弁理士】

【氏名又は名称】木下郁一郎

(72)【発明者】

【氏名】藤井翔子

(72)【発明者】

【氏名】大西智也

【審査官】伊知地和之

(56)【参考文献】

【文献】特開２００３－１５７４３５（ＪＰ，Ａ）

【文献】特開２００２－１８５８５１（ＪＰ，Ａ）

【文献】国際公開第２０２０／１７０６０６（ＷＯ，Ａ１）

【文献】特開２０１３－０４１２７３（ＪＰ，Ａ）

【文献】河合吉彦，テレビ映像における顔認識技術，ＮＨＫ技研Ｒ＆ＤＮｏ．１６４，日本放送協会，2017年08月15日，pp.23～30

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｔ１／００－１／４０

Ｇ０６Ｔ３／００－５／９４

Ｇ０６Ｔ７／００－７／９０

Ｇ０６Ｖ１０／００－２０／９０

Ｇ０６Ｖ３０／４１８

Ｇ０６Ｖ４０／１６

Ｇ０６Ｖ４０／２０

Ｈ０４Ｎ２３／００

Ｈ０４Ｎ２３／４０－２３／７６

Ｈ０４Ｎ２３／９０－２３／９５９

ＣＳＤＢ（日本国特許庁）

(57)【特許請求の範囲】

【請求項1】

取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第１領域情報を出力する認識部と、
前記映像フレームの系列に対応する前記第１領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第２領域情報にフィルター処理を適用して前記第２領域情報を補正して、前記映像フレームから、補正後の前記第２領域情報に基づく切出し映像を切出して出力する切出部と、
映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、前記候補の中から選択された前記小窓デザインを出力する操作部と、
前記小窓デザインの小窓に、前記切出部が切出した前記切出し映像をはめこんだフィル信号を生成して出力する生成部と、
を備え、
前記認識部は、前記映像フレームから複数の前記顔領域を検出して、それぞれの前記顔領域に対応する前記第１領域情報を出力するとともに、検出したそれぞれの前記顔領域の人物認識処理を行うことによって人物を特定するラベル情報を前記第１領域情報に関連付けて出力するものであり、
前記操作部は、前記小窓に関連付けた前記ラベル情報を含む前記小窓デザインの候補を提示するとともに、選択された前記小窓デザインを出力するものであり、
前記切出部は、選択された前記小窓デザインが持つ小窓のサイズに基づいて前記切出し映像を切出して、切出した前記切出し映像を、前記ラベル情報と関連付けて前記生成部に渡すものであり、
前記生成部は、前記切出し映像を、前記ラベル情報によって関連付けられる前記小窓にはめ込んで前記フィル信号を生成するものである、
映像切出装置。

【請求項2】

前記認識部は、機械学習可能なモデルを持ち、
前記モデルは、入力される前記映像フレームに基づいて、前記顔領域が顔を含む度合いを示す第１情報と、前記領域と人物ごとの前記ラベル情報との関連の度合いを示す第２情報とを出力するように機械学習済みであり、
前記認識部は、前記第１情報に基づいて前記顔領域を検出するとともに、前記第２情報に基づいて前記顔領域についての前記ラベル情報を特定する、
請求項１に記載の映像切出装置。

【請求項3】

請求項１または２に記載の映像切出装置と、
前記映像切出装置の前記生成部が出力する前記フィル信号と、前記映像フレームとは別の映像と、を合成する映像スイッチャーと、
を備え、
前記映像切出装置の前記生成部は、前記小窓のサイズおよび位置を表すキー信号を出力し、
前記映像スイッチャーは、前記キー信号を前記フィル信号のマスクとして適用して、前記フィル信号の透明度を調整可能としている、
システム。

【請求項4】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、映像切出装置、システム、およびプログラムに関する。

【背景技術】

【0002】

放送局（テレビ局）では、人員の省力化も求められている。例えば、地域局でのニュース番組送出業務は、少人数での対応を行うことが必要であるため、効率化を狙って、ロボットカメラも使用されている。従来技術におけるロボットカメラは、事前に決められたショットメモリーでの運用を前提としているため、突発的な細かい演出に対応することは困難である。

【0003】

一方、テレビ放送では、近年、小窓演出（ピクチャーインピクチャー）の手法も多用されている。従来技術を用いて小窓演出の映像（小窓付き映像）を生成するためには、出演者数に合わせた台数のカメラ（出演者（アナウンサーやキャスター等）が２名の場合には、２台のカメラ）の映像と、中継映像とを、映像卓においてＤＶＥ合成することで小窓付き映像を生成している。

【0004】

特許文献１の例えば請求項１には、特定の人物の顔画像を検出し続けるシステムが記載されている。そのシステムは、ライブ映像のフレーム画像の中から顔画像を検出してウィンドウとして捉え、顔画像を検出する都度、検出された顔画像を特定の人物の顔画像と照合するものである。

【先行技術文献】

【特許文献】

【0005】

【文献】特開２０１６－２１２６１５号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

従来技術によって上記の小窓演出の映像を生成する場合、地域局での限られた台数のカメラのうちの、出演者数に合わせた台数（例えば２台）のカメラを占有することにもなる。その場合、その前後の番組の演出が制限されてしまうという問題もある。また、事前にＤＶＥ調整を行う必要もある。

【0007】

また、上記の小窓演出の映像を生成するためには、出演者（アナウンサーやキャスター等）の動きに合わせた、細かなカメラ操作（フレーミング）が必要とされる。例えばベースカメラからアナウンサーやキャスター等の顔を自動的に検出しようとしても、特許文献１に記載されている技術では、放送における小窓映像として使用できる程度の顔の映像をうまく切出すことは不可能である。

【0008】

本発明は、上記のような事情を考慮して為されたものであり、少ない台数のカメラの映像を基に、自動的に、小窓演出に用いることが可能な顔の映像を切出すことのできる映像切出装置、システム、およびプログラムを提供しようとするものである。

【課題を解決するための手段】

【0009】

［１］上記の課題を解決するため、本発明の一態様による映像切出装置は、取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第１領域情報を出力する認識部と、前記映像フレームの系列に対応する前記第１領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第２領域情報にフィルター処理を適用して前記第２領域情報を補正して、前記映像フレームから、補正後の前記第２領域情報に基づく切出し映像を切出して出力する切出部と、を備える。

【0010】

［２］また、本発明の一態様は、上記の映像切出装置において、映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、前記候補の中から選択された前記小窓デザインを出力する操作部と、前記小窓デザインの小窓に、前記切出部が切出した前記切出し映像をはめこんだフィル信号を生成して出力する生成部と、をさらに備え、前記切出部は、選択された前記小窓デザインが持つ小窓のサイズに基づいて前記切出し映像を切出して前記生成部に渡す、ものである。

【0011】

［３］また、本発明の一態様は、上記の映像切出装置において、前記認識部は、前記映像フレームから複数の前記顔領域を検出して、それぞれの前記顔領域に対応する前記第１領域情報を出力するとともに、検出したそれぞれの前記顔領域の人物認識処理を行うことによって人物を特定するラベル情報を前記第１領域情報に関連付けて出力するものであり、前記操作部は、前記小窓に関連付けた前記ラベル情報を含む前記小窓デザインの候補を提示するとともに、選択された前記小窓デザインを出力するものであり、前記切出部は、切出した前記切出し映像を、前記ラベル情報と関連付けて前記生成部に渡すものであり、前記生成部は、前記切出し映像を、前記ラベル情報によって関連付けられる前記小窓にはめ込んで前記フィル信号を生成するものである。

【0012】

［４］また、本発明の一態様は、上記の映像切出装置において、前記認識部は、機械学習可能なモデルを持ち、前記モデルは、入力される前記映像フレームに基づいて、前記顔領域が顔を含む度合いを示す第１情報と、前記領域と人物ごとの前記ラベル情報との関連の度合いを示す第２情報とを出力するように機械学習済みであり、前記認識部は、前記第１情報に基づいて前記顔領域を検出するとともに、前記第２情報に基づいて前記顔領域についての前記ラベル情報を特定するものである。

【0013】

［５］また、本発明の一態様によるシステムは、上記［２］から［４］までのいずれか一項に記載の映像切出装置と、前記映像切出装置の前記生成部が出力する前記フィル信号と、前記映像フレームとは別の映像と、を合成する映像スイッチャーと、を備え、前記映像切出装置の前記生成部は、前記小窓のサイズおよび位置を表すキー信号を出力し、前記映像スイッチャーは、前記キー信号を前記フィル信号のマスクとして適用して、前記フィル信号の透明度を調整可能としている、ものである。

【0014】

［６］また、本発明の一態様は、取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第１領域情報を出力する認識部と、前記映像フレームの系列に対応する前記第１領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第２領域情報にフィルター処理を適用して前記第２領域情報を補正して、前記映像フレームから、補正後の前記第２領域情報に基づく切出し映像を切出して出力する切出部と、を備える映像切出装置、としてコンピューターを機能させるためのプログラムである。

【発明の効果】

【0015】

本発明によれば、１台のカメラの映像から、人物の顔の映像を、自動的に切出すことができる。また、切出す顔の映像は、人間のカメラマンがカメラを操作したときのように自然なものとすることができる。

【図面の簡単な説明】

【0016】

【図1】本発明の実施形態による映像切出装置の概略機能構成を示すブロック図である。

【図2】同実施形態が対象とするベースカメラ映像に含まれる映像フレームの例を示す概略図である。

【図3】同実施形態の認識部によって顔の検出および人物の認識が行われた領域を示す概略図である。

【図4】同実施形態による認識部と操作部の処理の結果に基づいて、切出部が切出した２人の顔の映像である。

【図5】同実施形態による生成部が生成するＫＥＹ信号の一例を示す概略図である。

【図6】同実施形態による生成部が生成するＦＩＬＬ信号の一例を示す概略図である。

【図7】顔の映像と合成するための中継映像またはＶＴＲ映像の一例を示す概略図である。

【図8】同実施形態による切出部が切出した顔の映像と、中継映像またはＶＴＲ映像とを、映像スイッチャーが合成して出力した映像の例を示す概略図である。

【図9】同実施形態による操作部が提供する操作用画面の構成例を示す概略図である。

【図10】同実施形態の変形例において操作部が提供する操作用画面の構成例を示す概略図である。

【図11】同実施形態による学習部におけるモデル構築時の学習精度を示すグラフである。

【発明を実施するための形態】

【0017】

次に、本発明の一実施形態について、図面を参照しながら説明する。

【0018】

図１は、本実施形態による映像切出装置の概略機能構成を示すブロック図である。図示するように、映像切出装置１は、認識部１１と、切出部１２と、生成部１３と、学習部２１と、操作部２２とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ（ＳＳＤ）といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。なお、映像切出装置１や映像スイッチャー２（ＳＷ）を含んだ、映像コンテンツ制作のための構成を「システム」と呼んでもよい。

【0019】

認識部１１は、外部から入力されるベースカメラ映像に映っている顔を検出する。つまり、認識部１１は、取得した映像フレームから顔領域を検出して、検出した顔領域の位置（座標値等）を表す第１領域情報を出力する。また、認識部１１は、映像フレームから複数の顔領域を検出することができる。また、認識部１１は、検出した顔領域の人物認識処理を行い、人物を特定する。認識部１１は、前記映像フレームから複数の顔領域を検出した場合、それぞれの顔領域に対応する第１領域情報を出力する。認識部１１は、映像フレームが複数の顔領域を含む場合にも、それぞれの顔領域に対応する第１領域情報を出力するとともに、検出したそれぞれの領域の人物認識処理を行うことによって当該顔の人物を特定するラベル情報を領域情報に関連付けて出力することができる。つまり、認識部１１は、ベースカメラ映像を基に、顔が映っている映像内の領域情報と、その人物を識別する情報（人名等）とを出力する。なお、認識部１１は、ベースカメラ映像に含まれる例えばすべての映像フレームについて、顔の検出および人物の認識の処理を行う。ベースカメラ映像内に複数の顔が映っている場合には、認識部１１は、それらのすべての顔を検出し、人物を認識することができる。なお、上記の領域情報とは、例えば、映像フレーム内において顔が検出された領域を表す顔検出枠の座標値である。認識部１１は、機械学習可能なモデルを用いて、顔の検出および人物の認識を行う。なお、機械学習可能なモデル自体は、既存の技術を用いて実現可能である。認識部１１は、例えば、既存技術である畳み込みニューラルネットワーク（ＣＮＮ）を用いて、上記のモデルを構築する。モデルの構築には、一例として、グーグル（Ｇｏｏｇｌｅ）社のライブラリＴｅｎｓｏｒＦｌｏｗを用いることができる。認識部１１が持つモデルの学習を、後述する学習部２１が予め行っておくようにする。認識部１１のモデルの学習には、一例として、機械学習ライブラリＤｌｉｂを用いることができる。

【0020】

なお、認識部１１のより具体的な処理は、次の通りである。認識部１１が持つ畳み込みニューラルネットワーク（機械学習可能なモデル）は、ベースカメラ映像の映像フレームを入力し、当該映像フレーム内の各領域（顔領域の候補）に対応する第１出力値を出力する。第１出力値は、顔らしさ（顔を含む度合い）を示す数値である。認識部１１は、この第１出力値が所定の閾値以上である領域を、顔領域として検出する。また、この畳み込みニューラルネットワークは、当該映像フレーム内の各領域に対応する第２出力値を出力する。第２出力値は、特定の人物らしさ（前記領域と人物ごとのラベル情報との関連の度合い）を示す数値である。認識部１１は、この第２出力値に基づいて、当該領域に映っている人物を認識する。つまり、認識部１１は、前記第１情報に基づいて顔領域を検出するとともに、前記第２情報に基づいて顔領域についてのラベル情報を特定する。認識部１１は、認識結果である人物を特定する情報（例えば、人名のラベル）を出力する。なお、上記の畳み込みニューラルネットワークは、第１出力値に基づいて顔として検出された領域のみについて、第２出力値を求めるようにしてもよい。あるいは、上記の畳み込みニューラルネットワークは、第１出力値と第２出力値とを、別々に求めてもよいし、同時に求めてもよい。つまり、畳み込みニューラルネットワークは、入力される映像フレームに基づいて、領域が顔を含む度合いを示す第１出力値（第１情報）と、領域と人物を特定するラベル情報との関連の度合いを示す第２出力値（第２情報）とを出力するように機械学習済みである。認識部１１は、第１出力値に基づいて顔領域を検出するとともに、第２出力値に基づいてその領域についてのラベル情報を特定する。

【0021】

切出部１２は、ベースカメラ映像から、顔の映像を切出し、切出した映像を生成部１３に渡す。具体的には、切出部１２は、映像フレームの系列に対応する第１領域情報（検出された顔領域の位置を表す情報）の系列と、指定された切出しサイズと、から算出される、切出し位置を表す第２領域情報にフィルター処理を適用して第２領域情報を補正して、前記映像フレームから、補正後の第２領域情報に基づく切出し映像を切出して出力する。つまり、切出部１２は、補正後の第２領域情報に基づいて、映像フレームの部分画像の系列を切出して出力する。本実施形態では、切出部１２は、認識部１１から受け取った顔領域の座標値と、後述する操作部２２で選択された小窓デザインの情報に基づいて、小窓の切出し座標値を算出し、その切出し座標値に基づいて、ベースカメラ映像から顔の映像を切出す。切出部１２は、選択された小窓デザインが持つ小窓のサイズに基づいて切出し映像を切出して生成部１３に渡す。なお、切出部１２は、小窓デザインの情報を、操作部２２から受け取る。小窓デザインの情報は、映像フレーム内における小窓のサイズおよび位置の情報を含む。小窓デザインの情報は、例えば、小窓の出力座標値を含む。小窓が矩形である場合に、出力座標値は、例えば、矩形の左上隅の画素の座標と、右下隅の画素の座標とである。この出力座標値は、小窓のサイズと位置の両方を表す座標である。また、この出力座標値から、矩形の小窓の縦横比も算出可能である。切出部１２は、認識部１１から、映像フレームの系列に対応する顔の領域情報の系列を受け取る。切出部１２は、領域情報の系列と選択された小窓デザインの情報とに基づいて算出された領域情報の系列にフィルター処理（例えば、カルマンフィルター）を適用して領域情報を補正して、映像フレームから、補正後の領域情報に基づく切出し映像を出力する。切出し座標値の算出については、後でさらに詳しく説明する。切出部１２は、切出し映像（複数の小窓に対応するものであってもよい）を生成部１３に渡す。なお、切出部１２は、選択された小窓デザインが持つ小窓の出力座標値から算出した縦横比に合わせたサイズの切出し映像を出力して生成部１３に渡すようにしてよい。選択された小窓デザインが、特定の人物のラベル情報に関連付けられている場合には、切出部１２は、切出した切出し映像を、当該ラベル情報と関連付けて生成部１３に渡すようにしてよい。

【0022】

生成部１３は、切出部１２で切出された切出し映像と、選択された小窓デザインの情報に基づいてＦＩＬＬ信号（フィル信号）とＫＥＹ信号（キー信号）を生成する。ＦＩＬＬ信号およびＫＥＹ信号については、後で別の図面を参照しながら説明する。生成部１３は、生成したＦＩＬＬ信号およびＫＥＹ信号を、外部に出力する。生成部１３は、生成したＦＩＬＬ信号およびＫＥＹ信号を、例えば外部の映像スイッチャー２に渡す。生成部１３は、例えば操作部２２において選択された小窓デザインの小窓領域に、切出部１２が出力した切出し映像をはめこんだＦＩＬＬ信号と抜きたい形状を表すＫＥＹ信号を生成して出力する。つまり、生成部１３は、小窓デザインの小窓に、切出部１２が切出した切出し映像をはめこんだＦＩＬＬ信号を生成して出力する。また、生成部１３は、小窓のサイズおよび位置を表すＫＥＹ信号を生成して出力する。選択された小窓デザインが、特定の人物のラベル情報に関連付けられている場合には、生成部１３は、ラベル情報で特定される切出し映像を、当該ラベル情報によって関連付けられる小窓領域にはめ込んでＦＩＬＬ信号を生成するようにしてよい。

【0023】

学習部２１は、認識部１１が持つ、顔の検出および人物の認識のためのモデルの学習を行う。学習用データには、番組に出演する可能性のある者（例えば、放送局のアナウンサーとキャスター）の顔画像データと、その認識結果の正解データ（人名）とを用いる。顔画像データは、例えば、放送時のベースカメラ映像の動画から常時収集しておくことができる。正解データ（人名）は、例えば、人手で付与するようにする。なお、学習用データとは別に、学習済みモデルが未知のデータに対してもうまく機能するか否かを表す汎化性能の評価用のデータを準備してもよい。

【0024】

操作部２２は、操作者の操作に基づいて、切出部１２に対して、ベースカメラ映像からの顔の映像の切出しを指示する。本実施形態では、操作部２２は、ベースカメラ映像を、操作用画面に表示する。このとき、操作部２２は、認識部１１が出力した顔検出枠の領域情報に基づいて、矩形枠を示すようにしてよい。また、その矩形枠に付随して、認識部１１による人物の認識結果である人名等を、併せて表示するようにしてよい。また、操作部２２は、どの人物の映像をどの位置に出力するかを表す選択肢（送出用のアイコン）を、操作用画面に表示する。これにより、操作者は、どの人物をどの位置に出力させるか（小窓デザインの情報）を、直感的に選択することができる。操作者によるこの選択に基づき、操作部２２は、どの人物の映像を切出して、どの位置に出力するかを、切出部１２に対して指示することができる。なお、操作部２２が、小窓映像の切替え効果（例えば、「カットイン／アウト」や「フェードイン／アウト」））を、切出部１２に指示するようにしてもよい。つまり、操作部２２は、映像フレーム内における小窓の出力位置や枠の色等の情報を含む小窓デザインの候補を提示する。操作部２２は、候補の中から操作者によって選択された小窓デザインの情報を、切出部１２に渡す。なお、操作用画面の具体例については、後で別の図を参照しながら説明する。つまり、操作部２２は、映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、それらの候補の中から選択された小窓デザインを出力する。

【0025】

小窓デザインは、人物を特定するラベル情報と関連付けられたものであってもよい。つまり、この場合、操作部２２は、小窓領域に関連付けたラベル情報を含む小窓デザインの候補を画面に提示するとともに、選択された小窓デザインの情報を出力する。つまり、操作部２２は、選択された小窓デザインの情報を切出部１２に渡す。

【0026】

図１における映像スイッチャー２は、生成部１３から渡されるＦＩＬＬ信号およびＫＥＹ信号と、別系統の中継映像またはＶＴＲ映像とを用いて、出力映像を生成する。つまり、映像スイッチャー２は、映像切出装置１の生成部１３が出力するＫＥＹ信号をマスクのように使用してＦＩＬＬ信号のアルファチャンネルとして適用することで、抜き具合や透明度を自由に調整しながら小窓映像を、映像フレームとは別の映像（中継映像またはＶＴＲ映像）に合成する。つまり、映像スイッチャー２は、映像切出装置１の生成部１３が出力するＦＩＬＬ信号と、その映像フレームとは別の映像と、を合成する。また、映像スイッチャー２は、ＫＥＹ信号をＦＩＬＬ信号のマスクとして適用して、ＦＩＬＬ信号の透明度を調整可能としている。映像スイッチャー２が入出力するそれぞれの映像については、後で別の図を参照しながら説明する。

【0027】

ここで、切出部１２による処理の詳細について説明する。切出部１２は、認識部１１によって検出された顔領域の座標値と操作部２２で選択された小窓デザインの情報に基づいて算出された小窓の切出し座標値をそのまま用いるのではなく、切出し座標値の補正を行ってから映像の切出しを行う。認識部１１における顔検出および人物認識の処理には例えば１００ミリ秒といった程度の時間を要する。したがって、切出部１２は、遅延を抑えるために、認識部１１に入力される系統とは別の系統でベースカメラ映像を取得し、映像の切出しを行う。切出部１２は、例えば、カルマンフィルターを用いて、下の式（１）によって切出し座標値の補正を行う。

【0028】

【数1】

【0029】

上の式（１）において、ｔは離散的な時刻である（ｔ＝１，２，・・・・）。ｔが映像フレームの通し番号であると捉えてもよい。ｙ_ｔは、誤差を含む観測値、即ち、時刻ｔにおいて認識部１１が検出した顔領域の座標値と操作部２２で選択された小窓デザインの情報に基づいて算出された小窓の切出し座標値である。

【0030】

【数2】

【0031】

は、観測前の推定値である。

【0032】

【数3】

【0033】

は、観測後の推定値（最適な現在の状態）である。なお、Ｋ_ｔは、カルマンゲインである。

【0034】

上の式（１）で求められる最適状態の座標値を用いることにより、滑らかに顔の映像を切出すことができる。なお、カルマンゲインＫ_ｔの値を調整可能としてもよい。カルマンゲインＫ_ｔの値を調整することにより、映されている人物の動きが比較的大きいときには切出し座標値も機敏に反応し、映されている人物の動きが比較的小さいときには切出し座標値が固定される傾向があるようにすることができる。つまり、切出部１２は、まるで人間のカメラマンがカメラのフレーミング位置を操作しているかのように、小窓映像用の顔の映像を切出すことができる。言い換えれば、映されている人物の動きが比較的大きいときには、切出部１２は、観測値ｙ_ｔがより強く反映されるようにする。逆に映されている人物の動きが比較的小さいときには、切出部１２は、観測前推定値

【0035】

【数4】

【0036】

がより強く反映されるようにする。

【0037】

カルマンフィルターを用いることによってベースカメラ映像からの顔の映像の切出しを良好に行えるようになった。言い換えれば、顔の映像の切出しが安定化した。つまり、人間のカメラマンが撮影する場合に近い小窓映像を得られるようになった。これは、座標値の様々な補正方法についての試行錯誤を重ねた結果であり、本実施形態に特有の効果である。

【0038】

次に、図２から図８までの各図を参照しながら、映像切出装置１を用いて出力映像を作成するまでの処理の過程を説明する。

【0039】

図２は、ベースカメラ映像に含まれる映像フレームの例を示す概略図である。図示するように、１台のカメラで撮影されるベースカメラ映像の各フレームは、複数の（この図の例では２名の）出演者の顔を含んでいる。このようなベースカメラ映像の各フレームを基に、認識部１１は、顔の検出および人物の認識の処理を行う。

【0040】

図３は、認識部１１によって、顔の検出および人物の認識が行われた領域を示す概略図である。図３では、図２の映像フレーム内の２人の顔が検出され、その領域（顔検出枠）を示す枠線が描かれている。また、各々の領域に、人物を識別するラベル（人名等の情報）が付加されてもよい。

【0041】

図４は、認識部１１と操作部２２の処理の結果に基づいて、切出部１２が切出した２人の顔の映像である。切出部１２が切出す領域の座標値は、必ずしも、認識部１１と操作部２２の処理の結果に基づいて算出された小窓の切出し座標値と同一でなくてもよい。切出部１２は、例えば前述のカルマンフィルターの処理によって、切出し座標値を補正してもよい。なお、図４（Ａ）および図４（Ｂ）のそれぞれは、切出された出演者の顔の映像である。

【0042】

図５は、生成部１３が生成するＫＥＹ信号の一例を示す概略図である。このＫＥＹ信号における２つの白の領域が、それぞれ、小窓領域である。この小窓領域のそれぞれは、例えば図４（Ａ）および図４（Ｂ）の顔の映像を抜き出すための領域である。この小窓領域は矩形や円形、楕円形等の任意の形状とする。ＫＥＹ信号における小窓領域の情報は、小窓デザインとして予め決定される。このＫＥＹ信号におけるハッチングの領域は、例えば中継映像あるいはＶＴＲ映像のための領域である。生成部１３が生成したＫＥＹ信号は、例えば図１内の映像スイッチャー２に渡される。

【0043】

図６は、生成部１３が生成するＦＩＬＬ信号の一例を示す概略図である。ＦＩＬＬ信号における小窓の出力位置や枠の色等の情報は、小窓デザインとして予め決定される。生成部１３が生成したＦＩＬＬ信号は、例えば図１内の映像スイッチャー２に渡される。

【0044】

図７は、顔の映像と合成するための中継映像またはＶＴＲ映像の一例を示す概略図である。中継映像は、番組制作時の中継先のカメラで撮影された映像である。中継映像は、中継先から、適宜伝送される。ＶＴＲ映像は、予め撮影および編集が行われ、ＶＴＲ映像として記録媒体（磁気ハードディスク装置等）に記録されていた映像である。ＶＴＲ映像は、必要に応じて上記記録媒体から読み出され、再生される。

【0045】

図８は、切出部１２が切出した顔の映像（図４の（Ａ）および（Ｂ））と、図７の中継映像またはＶＴＲ映像とを、映像スイッチャー２が合成して出力した映像の例を示す概略図である。言い換えれば、図８の出力映像は、図５のＫＥＹ信号および図６のＦＩＬＬ信号と、図７の中継映像またはＶＴＲ映像とを、映像スイッチャー２が合成して出力した映像である。

【0046】

図９は、操作部２２が提供する操作用画面の構成例を示す概略図である。操作者は、この操作用画面を見ながら小窓演出のための操作を行うことができる。図示するように、本例の操作用画面は、ベースカメラ映像表示領域１０１と、小窓デザイン選択領域１０２と、テイクボタン１０３と、クリアボタン１０４とを含むように構成される。なお、操作用画面が、これらの画面要素以外の要素をさらに含むようにしてもよい。

【0047】

図９の操作用画面において、ベースカメラ映像表示領域１０１は、ベースカメラ映像を表示するための領域である。なお、ベースカメラ映像表示領域１０１において、認識部１１が検出した領域を表す顔検出枠を表示するようにしてもよい。小窓デザイン選択領域１０２は、小窓デザインを操作者が選択可能とするための表示領域である。小窓デザインは、人物を特定するためのラベル（図示する例における「Ｓａｋａｍｏｔｏ」等）と、その小窓の出力位置や枠の色等の情報を含む。同図においては、４種類の小窓デザインを示しているが、小窓デザイン選択領域１０２をスクロール可能にして、より多くの小窓デザインの中から操作者が選択できるようにしてよい。操作者は、マウスの操作あるいはタッチパネルの操作を行うことによって、小窓デザインを選択するための選択カーソル（図示する例における太枠）を動かして、所望の小窓デザインを選択することができる。テイクボタン１０３およびクリアボタン１０４のそれぞれは、操作者が、マウスクリックの操作あるいはタッチパネルのタッチ操作等に依って、押下することのできるボタンである。テイクボタン１０３は、上記の小窓デザイン選択領域１０２において、その時点で選択カーソルによってフォーカスされている小窓デザインを採用するためのボタンである。テイクボタン１０３が押下されると、操作部２２は、そのパターンに基づいた小窓映像を生成するよう、切出部１２に対する指示を行い、その情報は切出部１２から生成部１３へも渡される。クリアボタン１０４は、小窓演出を解除するためのボタンである。クリアボタン１０４が押下されると、操作部２２は、小窓切出しを解除するよう、切出部１２に対する指示を行う。

【0048】

なお、上述した映像切出装置１の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

【0049】

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

【0050】

［変形例］
上記実施形態では、認識部１１が、映像フレーム内の顔の検出と、その人物の認識処理とを行った。変形例では、認識部１１が映像フレーム内の顔の検出を行うが、その人物の認識処理は行われない。つまり、認識部１１が顔の領域情報を求めるが、その人物を特定する情報は求められない。

【0051】

本変形例では、一例として、スタジオにいる出演者の映像をメイン映像として、遠隔地にいる出演者（例えば、自宅等から番組に参加するリモート出演者）の映像を小窓映像として表示する演出を想定する。

【0052】

図１０は、この変形例において操作部２２が提供する操作用画面の構成例を示す概略図である。図示するように、変形例の操作用画面は、リモート映像表示領域２０１と、小窓デザイン選択領域２０２と、テイクボタン１０３と、クリアボタン１０４とを含むように構成される。なお、操作用画面が、これらの画面要素以外の要素をさらに含むようにしてもよい。

【0053】

図１０の操作用画面において、リモート映像表示領域２０１は、遠隔地から出演する出演者の映像を表示するための領域である。小窓デザイン選択領域２０２は、小窓デザインを操作者が選択可能とするための表示領域である。この変形例においては、小窓デザインは、人物を特定するためのラベルの情報を持たない。つまり、汎用の人物用の小窓デザインである。また、この変形例では、小窓デザインを選択できるようにしている。テイクボタン１０３およびクリアボタン１０４は、それぞれ、図９を参照しながら説明したボタンと同様のものである。

【0054】

この変形例において、認識部１１は、リモート映像の中の顔を検出する処理を行う。しかしながら、認識部１１は人物の認識を行わない。つまり、認識部１１は、検出された顔領域に対応する人物を特定するラベル情報を出力しない。この変形例では、リモート映像に映っている人物は、通常は、１人である。なお、顔の検出の方法は、既に説明した通りである。

【0055】

この変形例において、操作部２２は、操作者によって選択された小窓デザインの情報を、切出部１２に渡す。小窓デザインは、小窓の出力位置や枠の色等の情報を含む。しかし、小窓デザインは、人物を特定するためのラベル情報を含まない。

【0056】

この変形例において、切出部１２は、認識部１１から受け取った領域情報と操作部２２で選択された小窓デザインの情報に基づいて、顔の映像の切出しを行って、生成部１３に渡す。ただし、切出部１２は、顔の映像に対応するラベル情報を出力しない。切出部１２は、操作部２２から渡される小窓デザインの情報に基づいて、定められた小窓の出力座標値から算出した縦横比に合わせたサイズで、顔の映像を切出す。なお、切出部１２が、カルマンフィルターを用いて切出し座標値の補正を行う点は、既に説明した通りである。切出部１２は、切出した映像と、小窓デザインの情報とを、生成部１３に渡す。

【0057】

この変形例において、生成部１３は、小窓デザインの情報に基づいて顔の映像をはめ込んだＦＩＬＬ信号と抜きたい形状を表すＫＥＹ信号を生成して出力する。これにより、外部の映像スイッチャー２は、メイン映像に顔の映像を合成して小窓付き映像として出力することができるようになる。

【0058】

以上のように、変形例では、リモート映像に含まれる顔の映像を自動的に切出して、メイン映像内の小窓領域にはめ込むことが可能となる。なお、変形例では、切出す顔の人物認識処理を行わないため、未知の人物の顔にも対応して処理することが可能である。このような変形例を利用することにより、例えば、遠隔地にいる出演者の顔の映像を自動的に適切にフレーミングして、小窓領域の中にはめ込んだ映像を生成することが可能となる。遠隔地にいる出演者を映すカメラは、無人で、置かれた状態で出演者を撮影する場合も多いが、このような場合にも適切に顔の映像を切出して処理することが可能となる。

【0059】

［作用と効果］
以上説明したように、上記の実施形態（変形例を含む）によれば、認識部１１が、映像フレーム内の顔領域を自動的に検出する。認識部１１は、その検出した領域の座標値を表す領域情報を出力する。切出部１２は、領域情報と操作部２２で選択された小窓デザインの情報に基づいて算出された領域情報にフィルター処理を適用して領域情報の補正を行う。認識部１１の領域情報と操作部２２で選択された小窓デザインの情報に基づいて算出される領域情報の系列が誤差を含む系列であると捉えた場合に、切出部１２が求める補正後の領域情報は、誤差を除いた、領域情報の推定値の系列である。つまり、フィルター処理により誤差を除去できる。フィルター処理の一例は、カルマンフィルターである。これにより、人物をフレーミングするためのカメラ操作を不要とすることができる。つまり、切出し対象の映像を、置いたままの状態のカメラで撮影することができる。また、１台のカメラが複数の人物を撮影するように置くことができる。この場合、撮影された映像には、複数の人物の顔が含まれる。認識部１１は、それぞれの顔領域を検出することができる。認識部１１は、人物の認識処理を行ってよい。認識部１１は、人物の認識処理結果に基づいて、特定の人物に対応したラベル情報を、領域情報とともに出力することができる。操作部２２は、操作者による操作等に基づいて、小窓デザインを選択する。切出部１２は、小窓デザインに基づいて顔の映像を切出すことができる。生成部１３は、小窓デザインに基づく小窓領域に、顔の映像をはめ込んだＦＩＬＬ信号と抜きたい形状を表すＫＥＹ信号を生成し、出力する。小窓デザインは特定の人物のラベル情報と関連付けられていてもよい。

【0060】

これにより、映像コンテンツの制作のための人員を省力化できる。また、１台のカメラの映像から複数の人物の顔の切出しを行える。よって、台数に限りのあるカメラを有効に使った映像コンテンツの演出が可能になる。

【0061】

以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

【0062】

［検証］
ＮＨＫ広島放送局の夕方のニュース番組「お好みワイドひろしま」の中継コーナーの映像を用いて、本実施形態による映像切出装置１の小窓切出し機能を検証した。この検証では、ベースカメラ映像と同期信号とをＰＣに入力し、ＰＣ出力のＦＩＬＬ信号およびＫＥＹ信号をＮＣ副調映像卓の汎用スーパー列へ接続し、中継映像に合成した。その結果、当該中継コーナーの約１０分間において、小窓デザインの自由な切替えをリアルタイムに行えることを確認することができた。

【0063】

［学習精度］
図１１は、上記実施形態の映像切出装置１の学習部２１のモデル構築時における学習精度を示すグラフである。このグラフにおける横軸は、学習のエポック数である。エポック数は、訓練データ（学習用データ）全体を繰り返し学習させる回数のことである。また、縦軸は、学習精度である。丸印でプロットしたグラフは、訓練データに含まれる顔画像の認識精度である。×印でプロットしたグラフは、テストデータ、即ち学習用データには含まれない顔画像の認識精度である。図示するように、訓練データに関しても、テストデータに関しても、エポック数が２５を超えるあたりから、認識精度が立ち上がり、エポック数３０以上では認識精度が８０％台またはそれ以上となっている。エポック数が概ね３４～３５以上では、訓練データに関しても、テストデータに関しても、認識精度が９０％台となっている。また、エポック数が概ね３４～３５以上の領域において、テストデータを用いた場合の精度が、訓練データを用いた場合の精度をほぼ上回っており、良好な学習ができていることを示している。つまり、構築されたモデルは過学習されておらず、汎化性能の高いモデルが得られていることを示している。

【産業上の利用可能性】

【0064】

本発明は、例えば、映像コンテンツ（放送番組等）の制作等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

【符号の説明】

【0065】

１映像切出装置
２映像スイッチャー（ＳＷ）
１１認識部
１２切出部
１３生成部
２１学習部
２２操作部
１０１ベースカメラ映像表示領域
１０２小窓デザイン選択領域
１０３テイクボタン
１０４クリアボタン
２０１リモート映像表示領域
２０２小窓デザイン選択領域

【図1】