(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-11
(45)【発行日】2024-07-22
(54)【発明の名称】映像切出装置、システム、およびプログラム
(51)【国際特許分類】
G06T 7/11 20170101AFI20240712BHJP
G06T 7/00 20170101ALI20240712BHJP
G06T 3/00 20240101ALI20240712BHJP
H04N 23/60 20230101ALI20240712BHJP
【FI】
G06T7/11
G06T7/00 350C
G06T3/00 775
H04N23/60 500
(21)【出願番号】P 2020149037
(22)【出願日】2020-09-04
【審査請求日】2023-08-04
【新規性喪失の例外の表示】特許法第30条第2項適用 発行日:令和2年(西暦2020年)5月20日,名称:「2020年度 NHK中国地方 放送技術報告会」予稿,発行者:NHK広島拠点放送局技術部
【新規性喪失の例外の表示】特許法第30条第2項適用 報告会の実施日:令和2年(西暦2020年)5月26日,報告会の名称:2020年度 NHK中国地方 放送技術報告会,主催者:2020年度 NHK中国地方 放送技術報告会 事務局(NHK広島拠点放送局技術部),開催方法:インターネットによる通信を用いた電子会議として開催
【新規性喪失の例外の表示】特許法第30条第2項適用 発行日:令和2年(西暦2020年)7月13日,名称及び号:電波タイムズ 第7140号,ページ:第3面,記事見出し「NHK 第73回全国技術報告会」、「最優秀賞は小窓切出装置「BeautyROI」の開発」
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】藤井 翔子
(72)【発明者】
【氏名】大西 智也
【審査官】伊知地 和之
(56)【参考文献】
【文献】特開2003-157435(JP,A)
【文献】特開2002-185851(JP,A)
【文献】国際公開第2020/170606(WO,A1)
【文献】特開2013-041273(JP,A)
【文献】河合吉彦,テレビ映像における顔認識技術,NHK技研R&D No.164,日本放送協会 ,2017年08月15日,pp.23~30
(58)【調査した分野】(Int.Cl.,DB名)
G06T 1/00 - 1/40
G06T 3/00 - 5/94
G06T 7/00 - 7/90
G06V 10/00 - 20/90
G06V 30/418
G06V 40/16
G06V 40/20
H04N 23/00
H04N 23/40 - 23/76
H04N 23/90 - 23/959
CSDB(日本国特許庁)
(57)【特許請求の範囲】
【請求項1】
取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第1領域情報を出力する認識部と、
前記映像フレームの系列に対応する前記第1領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第2領域情報にフィルター処理を適用して前記第2領域情報を補正して、前記映像フレームから、補正後の前記第2領域情報に基づく切出し映像を切出して出力する切出部
と、
映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、前記候補の中から選択された前記小窓デザインを出力する操作部と、
前記小窓デザインの小窓に、前記切出部が切出した前記切出し映像をはめこんだフィル信号を生成して出力する生成部と、
を備え、
前記認識部は、前記映像フレームから複数の前記顔領域を検出して、それぞれの前記顔領域に対応する前記第1領域情報を出力するとともに、検出したそれぞれの前記顔領域の人物認識処理を行うことによって人物を特定するラベル情報を前記第1領域情報に関連付けて出力するものであり、
前記操作部は、前記小窓に関連付けた前記ラベル情報を含む前記小窓デザインの候補を提示するとともに、選択された前記小窓デザインを出力するものであり、
前記切出部は、選択された前記小窓デザインが持つ小窓のサイズに基づいて前記切出し映像を切出して、切出した前記切出し映像を、前記ラベル情報と関連付けて前記生成部に渡すものであり、
前記生成部は、前記切出し映像を、前記ラベル情報によって関連付けられる前記小窓にはめ込んで前記フィル信号を生成するものであ
る、
映像切出装置。
【請求項2】
前記認識部は、機械学習可能なモデルを持ち、
前記モデルは、入力される前記映像フレームに基づいて、前記顔領域が顔を含む度合いを示す第1情報と、前記領域と人物ごとの前記ラベル情報との関連の度合いを示す第2情報とを出力するように機械学習済みであり、
前記認識部は、前記第1情報に基づいて前記顔領域を検出するとともに、前記第2情報に基づいて前記顔領域についての前記ラベル情報を特定する、
請求項
1に記載の映像切出装置。
【請求項3】
請求項
1または2に記載の映像切出装置と、
前記映像切出装置の前記生成部が出力する前記フィル信号と、前記映像フレームとは別の映像と、を合成する映像スイッチャーと、
を備え、
前記映像切出装置の前記生成部は、前記小窓のサイズおよび位置を表すキー信号を出力し、
前記映像スイッチャーは、前記キー信号を前記フィル信号のマスクとして適用して、前記フィル信号の透明度を調整可能としている、
システム。
【請求項4】
取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第1領域情報を出力する認識部と、
前記映像フレームの系列に対応する前記第1領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第2領域情報にフィルター処理を適用して前記第2領域情報を補正して、前記映像フレームから、補正後の前記第2領域情報に基づく切出し映像を切出して出力する切出部と、
映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、前記候補の中から選択された前記小窓デザインを出力する操作部と、
前記小窓デザインの小窓に、前記切出部が切出した前記切出し映像をはめこんだフィル信号を生成して出力する生成部と、
を備え、
前記認識部は、前記映像フレームから複数の前記顔領域を検出して、それぞれの前記顔領域に対応する前記第1領域情報を出力するとともに、検出したそれぞれの前記顔領域の人物認識処理を行うことによって人物を特定するラベル情報を前記第1領域情報に関連付けて出力するものであり、
前記操作部は、前記小窓に関連付けた前記ラベル情報を含む前記小窓デザインの候補を提示するとともに、選択された前記小窓デザインを出力するものであり、
前記切出部は、選択された前記小窓デザインが持つ小窓のサイズに基づいて前記切出し映像を切出して、切出した前記切出し映像を、前記ラベル情報と関連付けて前記生成部に渡すものであり、
前記生成部は、前記切出し映像を、前記ラベル情報によって関連付けられる前記小窓にはめ込んで前記フィル信号を生成するものである、
映像切出装置、としてコンピューターを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像切出装置、システム、およびプログラムに関する。
【背景技術】
【0002】
放送局(テレビ局)では、人員の省力化も求められている。例えば、地域局でのニュース番組送出業務は、少人数での対応を行うことが必要であるため、効率化を狙って、ロボットカメラも使用されている。従来技術におけるロボットカメラは、事前に決められたショットメモリーでの運用を前提としているため、突発的な細かい演出に対応することは困難である。
【0003】
一方、テレビ放送では、近年、小窓演出(ピクチャーインピクチャー)の手法も多用されている。従来技術を用いて小窓演出の映像(小窓付き映像)を生成するためには、出演者数に合わせた台数のカメラ(出演者(アナウンサーやキャスター等)が2名の場合には、2台のカメラ)の映像と、中継映像とを、映像卓においてDVE合成することで小窓付き映像を生成している。
【0004】
特許文献1の例えば請求項1には、特定の人物の顔画像を検出し続けるシステムが記載されている。そのシステムは、ライブ映像のフレーム画像の中から顔画像を検出してウィンドウとして捉え、顔画像を検出する都度、検出された顔画像を特定の人物の顔画像と照合するものである。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
従来技術によって上記の小窓演出の映像を生成する場合、地域局での限られた台数のカメラのうちの、出演者数に合わせた台数(例えば2台)のカメラを占有することにもなる。その場合、その前後の番組の演出が制限されてしまうという問題もある。また、事前にDVE調整を行う必要もある。
【0007】
また、上記の小窓演出の映像を生成するためには、出演者(アナウンサーやキャスター等)の動きに合わせた、細かなカメラ操作(フレーミング)が必要とされる。例えばベースカメラからアナウンサーやキャスター等の顔を自動的に検出しようとしても、特許文献1に記載されている技術では、放送における小窓映像として使用できる程度の顔の映像をうまく切出すことは不可能である。
【0008】
本発明は、上記のような事情を考慮して為されたものであり、少ない台数のカメラの映像を基に、自動的に、小窓演出に用いることが可能な顔の映像を切出すことのできる映像切出装置、システム、およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0009】
[1]上記の課題を解決するため、本発明の一態様による映像切出装置は、取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第1領域情報を出力する認識部と、前記映像フレームの系列に対応する前記第1領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第2領域情報にフィルター処理を適用して前記第2領域情報を補正して、前記映像フレームから、補正後の前記第2領域情報に基づく切出し映像を切出して出力する切出部と、を備える。
【0010】
[2]また、本発明の一態様は、上記の映像切出装置において、映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、前記候補の中から選択された前記小窓デザインを出力する操作部と、前記小窓デザインの小窓に、前記切出部が切出した前記切出し映像をはめこんだフィル信号を生成して出力する生成部と、をさらに備え、前記切出部は、選択された前記小窓デザインが持つ小窓のサイズに基づいて前記切出し映像を切出して前記生成部に渡す、ものである。
【0011】
[3]また、本発明の一態様は、上記の映像切出装置において、前記認識部は、前記映像フレームから複数の前記顔領域を検出して、それぞれの前記顔領域に対応する前記第1領域情報を出力するとともに、検出したそれぞれの前記顔領域の人物認識処理を行うことによって人物を特定するラベル情報を前記第1領域情報に関連付けて出力するものであり、前記操作部は、前記小窓に関連付けた前記ラベル情報を含む前記小窓デザインの候補を提示するとともに、選択された前記小窓デザインを出力するものであり、前記切出部は、切出した前記切出し映像を、前記ラベル情報と関連付けて前記生成部に渡すものであり、前記生成部は、前記切出し映像を、前記ラベル情報によって関連付けられる前記小窓にはめ込んで前記フィル信号を生成するものである。
【0012】
[4]また、本発明の一態様は、上記の映像切出装置において、前記認識部は、機械学習可能なモデルを持ち、前記モデルは、入力される前記映像フレームに基づいて、前記顔領域が顔を含む度合いを示す第1情報と、前記領域と人物ごとの前記ラベル情報との関連の度合いを示す第2情報とを出力するように機械学習済みであり、前記認識部は、前記第1情報に基づいて前記顔領域を検出するとともに、前記第2情報に基づいて前記顔領域についての前記ラベル情報を特定するものである。
【0013】
[5]また、本発明の一態様によるシステムは、上記[2]から[4]までのいずれか一項に記載の映像切出装置と、前記映像切出装置の前記生成部が出力する前記フィル信号と、前記映像フレームとは別の映像と、を合成する映像スイッチャーと、を備え、前記映像切出装置の前記生成部は、前記小窓のサイズおよび位置を表すキー信号を出力し、前記映像スイッチャーは、前記キー信号を前記フィル信号のマスクとして適用して、前記フィル信号の透明度を調整可能としている、ものである。
【0014】
[6]また、本発明の一態様は、取得した映像フレームから顔領域を検出して、検出した前記顔領域の位置を表す第1領域情報を出力する認識部と、前記映像フレームの系列に対応する前記第1領域情報の系列と、指定された切出しサイズと、から算出される切出し位置を表す第2領域情報にフィルター処理を適用して前記第2領域情報を補正して、前記映像フレームから、補正後の前記第2領域情報に基づく切出し映像を切出して出力する切出部と、を備える映像切出装置、としてコンピューターを機能させるためのプログラムである。
【発明の効果】
【0015】
本発明によれば、1台のカメラの映像から、人物の顔の映像を、自動的に切出すことができる。また、切出す顔の映像は、人間のカメラマンがカメラを操作したときのように自然なものとすることができる。
【図面の簡単な説明】
【0016】
【
図1】本発明の実施形態による映像切出装置の概略機能構成を示すブロック図である。
【
図2】同実施形態が対象とするベースカメラ映像に含まれる映像フレームの例を示す概略図である。
【
図3】同実施形態の認識部によって顔の検出および人物の認識が行われた領域を示す概略図である。
【
図4】同実施形態による認識部と操作部の処理の結果に基づいて、切出部が切出した2人の顔の映像である。
【
図5】同実施形態による生成部が生成するKEY信号の一例を示す概略図である。
【
図6】同実施形態による生成部が生成するFILL信号の一例を示す概略図である。
【
図7】顔の映像と合成するための中継映像またはVTR映像の一例を示す概略図である。
【
図8】同実施形態による切出部が切出した顔の映像と、中継映像またはVTR映像とを、映像スイッチャーが合成して出力した映像の例を示す概略図である。
【
図9】同実施形態による操作部が提供する操作用画面の構成例を示す概略図である。
【
図10】同実施形態の変形例において操作部が提供する操作用画面の構成例を示す概略図である。
【
図11】同実施形態による学習部におけるモデル構築時の学習精度を示すグラフである。
【発明を実施するための形態】
【0017】
次に、本発明の一実施形態について、図面を参照しながら説明する。
【0018】
図1は、本実施形態による映像切出装置の概略機能構成を示すブロック図である。図示するように、映像切出装置1は、認識部11と、切出部12と、生成部13と、学習部21と、操作部22とを含んで構成される。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。なお、映像切出装置1や映像スイッチャー2(SW)を含んだ、映像コンテンツ制作のための構成を「システム」と呼んでもよい。
【0019】
認識部11は、外部から入力されるベースカメラ映像に映っている顔を検出する。つまり、認識部11は、取得した映像フレームから顔領域を検出して、検出した顔領域の位置(座標値等)を表す第1領域情報を出力する。また、認識部11は、映像フレームから複数の顔領域を検出することができる。また、認識部11は、検出した顔領域の人物認識処理を行い、人物を特定する。認識部11は、前記映像フレームから複数の顔領域を検出した場合、それぞれの顔領域に対応する第1領域情報を出力する。認識部11は、映像フレームが複数の顔領域を含む場合にも、それぞれの顔領域に対応する第1領域情報を出力するとともに、検出したそれぞれの領域の人物認識処理を行うことによって当該顔の人物を特定するラベル情報を領域情報に関連付けて出力することができる。つまり、認識部11は、ベースカメラ映像を基に、顔が映っている映像内の領域情報と、その人物を識別する情報(人名等)とを出力する。なお、認識部11は、ベースカメラ映像に含まれる例えばすべての映像フレームについて、顔の検出および人物の認識の処理を行う。ベースカメラ映像内に複数の顔が映っている場合には、認識部11は、それらのすべての顔を検出し、人物を認識することができる。なお、上記の領域情報とは、例えば、映像フレーム内において顔が検出された領域を表す顔検出枠の座標値である。認識部11は、機械学習可能なモデルを用いて、顔の検出および人物の認識を行う。なお、機械学習可能なモデル自体は、既存の技術を用いて実現可能である。認識部11は、例えば、既存技術である畳み込みニューラルネットワーク(CNN)を用いて、上記のモデルを構築する。モデルの構築には、一例として、グーグル(Google)社のライブラリTensorFlowを用いることができる。認識部11が持つモデルの学習を、後述する学習部21が予め行っておくようにする。認識部11のモデルの学習には、一例として、機械学習ライブラリDlibを用いることができる。
【0020】
なお、認識部11のより具体的な処理は、次の通りである。認識部11が持つ畳み込みニューラルネットワーク(機械学習可能なモデル)は、ベースカメラ映像の映像フレームを入力し、当該映像フレーム内の各領域(顔領域の候補)に対応する第1出力値を出力する。第1出力値は、顔らしさ(顔を含む度合い)を示す数値である。認識部11は、この第1出力値が所定の閾値以上である領域を、顔領域として検出する。また、この畳み込みニューラルネットワークは、当該映像フレーム内の各領域に対応する第2出力値を出力する。第2出力値は、特定の人物らしさ(前記領域と人物ごとのラベル情報との関連の度合い)を示す数値である。認識部11は、この第2出力値に基づいて、当該領域に映っている人物を認識する。つまり、認識部11は、前記第1情報に基づいて顔領域を検出するとともに、前記第2情報に基づいて顔領域についてのラベル情報を特定する。認識部11は、認識結果である人物を特定する情報(例えば、人名のラベル)を出力する。なお、上記の畳み込みニューラルネットワークは、第1出力値に基づいて顔として検出された領域のみについて、第2出力値を求めるようにしてもよい。あるいは、上記の畳み込みニューラルネットワークは、第1出力値と第2出力値とを、別々に求めてもよいし、同時に求めてもよい。つまり、畳み込みニューラルネットワークは、入力される映像フレームに基づいて、領域が顔を含む度合いを示す第1出力値(第1情報)と、領域と人物を特定するラベル情報との関連の度合いを示す第2出力値(第2情報)とを出力するように機械学習済みである。認識部11は、第1出力値に基づいて顔領域を検出するとともに、第2出力値に基づいてその領域についてのラベル情報を特定する。
【0021】
切出部12は、ベースカメラ映像から、顔の映像を切出し、切出した映像を生成部13に渡す。具体的には、切出部12は、映像フレームの系列に対応する第1領域情報(検出された顔領域の位置を表す情報)の系列と、指定された切出しサイズと、から算出される、切出し位置を表す第2領域情報にフィルター処理を適用して第2領域情報を補正して、前記映像フレームから、補正後の第2領域情報に基づく切出し映像を切出して出力する。つまり、切出部12は、補正後の第2領域情報に基づいて、映像フレームの部分画像の系列を切出して出力する。本実施形態では、切出部12は、認識部11から受け取った顔領域の座標値と、後述する操作部22で選択された小窓デザインの情報に基づいて、小窓の切出し座標値を算出し、その切出し座標値に基づいて、ベースカメラ映像から顔の映像を切出す。切出部12は、選択された小窓デザインが持つ小窓のサイズに基づいて切出し映像を切出して生成部13に渡す。なお、切出部12は、小窓デザインの情報を、操作部22から受け取る。小窓デザインの情報は、映像フレーム内における小窓のサイズおよび位置の情報を含む。小窓デザインの情報は、例えば、小窓の出力座標値を含む。小窓が矩形である場合に、出力座標値は、例えば、矩形の左上隅の画素の座標と、右下隅の画素の座標とである。この出力座標値は、小窓のサイズと位置の両方を表す座標である。また、この出力座標値から、矩形の小窓の縦横比も算出可能である。切出部12は、認識部11から、映像フレームの系列に対応する顔の領域情報の系列を受け取る。切出部12は、領域情報の系列と選択された小窓デザインの情報とに基づいて算出された領域情報の系列にフィルター処理(例えば、カルマンフィルター)を適用して領域情報を補正して、映像フレームから、補正後の領域情報に基づく切出し映像を出力する。切出し座標値の算出については、後でさらに詳しく説明する。切出部12は、切出し映像(複数の小窓に対応するものであってもよい)を生成部13に渡す。なお、切出部12は、選択された小窓デザインが持つ小窓の出力座標値から算出した縦横比に合わせたサイズの切出し映像を出力して生成部13に渡すようにしてよい。選択された小窓デザインが、特定の人物のラベル情報に関連付けられている場合には、切出部12は、切出した切出し映像を、当該ラベル情報と関連付けて生成部13に渡すようにしてよい。
【0022】
生成部13は、切出部12で切出された切出し映像と、選択された小窓デザインの情報に基づいてFILL信号(フィル信号)とKEY信号(キー信号)を生成する。FILL信号およびKEY信号については、後で別の図面を参照しながら説明する。生成部13は、生成したFILL信号およびKEY信号を、外部に出力する。生成部13は、生成したFILL信号およびKEY信号を、例えば外部の映像スイッチャー2に渡す。生成部13は、例えば操作部22において選択された小窓デザインの小窓領域に、切出部12が出力した切出し映像をはめこんだFILL信号と抜きたい形状を表すKEY信号を生成して出力する。つまり、生成部13は、小窓デザインの小窓に、切出部12が切出した切出し映像をはめこんだFILL信号を生成して出力する。また、生成部13は、小窓のサイズおよび位置を表すKEY信号を生成して出力する。選択された小窓デザインが、特定の人物のラベル情報に関連付けられている場合には、生成部13は、ラベル情報で特定される切出し映像を、当該ラベル情報によって関連付けられる小窓領域にはめ込んでFILL信号を生成するようにしてよい。
【0023】
学習部21は、認識部11が持つ、顔の検出および人物の認識のためのモデルの学習を行う。学習用データには、番組に出演する可能性のある者(例えば、放送局のアナウンサーとキャスター)の顔画像データと、その認識結果の正解データ(人名)とを用いる。顔画像データは、例えば、放送時のベースカメラ映像の動画から常時収集しておくことができる。正解データ(人名)は、例えば、人手で付与するようにする。なお、学習用データとは別に、学習済みモデルが未知のデータに対してもうまく機能するか否かを表す汎化性能の評価用のデータを準備してもよい。
【0024】
操作部22は、操作者の操作に基づいて、切出部12に対して、ベースカメラ映像からの顔の映像の切出しを指示する。本実施形態では、操作部22は、ベースカメラ映像を、操作用画面に表示する。このとき、操作部22は、認識部11が出力した顔検出枠の領域情報に基づいて、矩形枠を示すようにしてよい。また、その矩形枠に付随して、認識部11による人物の認識結果である人名等を、併せて表示するようにしてよい。また、操作部22は、どの人物の映像をどの位置に出力するかを表す選択肢(送出用のアイコン)を、操作用画面に表示する。これにより、操作者は、どの人物をどの位置に出力させるか(小窓デザインの情報)を、直感的に選択することができる。操作者によるこの選択に基づき、操作部22は、どの人物の映像を切出して、どの位置に出力するかを、切出部12に対して指示することができる。なお、操作部22が、小窓映像の切替え効果(例えば、「カットイン/アウト」や「フェードイン/アウト」))を、切出部12に指示するようにしてもよい。つまり、操作部22は、映像フレーム内における小窓の出力位置や枠の色等の情報を含む小窓デザインの候補を提示する。操作部22は、候補の中から操作者によって選択された小窓デザインの情報を、切出部12に渡す。なお、操作用画面の具体例については、後で別の図を参照しながら説明する。つまり、操作部22は、映像フレーム内における小窓のサイズおよび位置の情報を含む小窓デザインの候補を提示するとともに、それらの候補の中から選択された小窓デザインを出力する。
【0025】
小窓デザインは、人物を特定するラベル情報と関連付けられたものであってもよい。つまり、この場合、操作部22は、小窓領域に関連付けたラベル情報を含む小窓デザインの候補を画面に提示するとともに、選択された小窓デザインの情報を出力する。つまり、操作部22は、選択された小窓デザインの情報を切出部12に渡す。
【0026】
図1における映像スイッチャー2は、生成部13から渡されるFILL信号およびKEY信号と、別系統の中継映像またはVTR映像とを用いて、出力映像を生成する。つまり、映像スイッチャー2は、映像切出装置1の生成部13が出力するKEY信号をマスクのように使用してFILL信号のアルファチャンネルとして適用することで、抜き具合や透明度を自由に調整しながら小窓映像を、映像フレームとは別の映像(中継映像またはVTR映像)に合成する。つまり、映像スイッチャー2は、映像切出装置1の生成部13が出力するFILL信号と、その映像フレームとは別の映像と、を合成する。また、映像スイッチャー2は、KEY信号をFILL信号のマスクとして適用して、FILL信号の透明度を調整可能としている。映像スイッチャー2が入出力するそれぞれの映像については、後で別の図を参照しながら説明する。
【0027】
ここで、切出部12による処理の詳細について説明する。切出部12は、認識部11によって検出された顔領域の座標値と操作部22で選択された小窓デザインの情報に基づいて算出された小窓の切出し座標値をそのまま用いるのではなく、切出し座標値の補正を行ってから映像の切出しを行う。認識部11における顔検出および人物認識の処理には例えば100ミリ秒といった程度の時間を要する。したがって、切出部12は、遅延を抑えるために、認識部11に入力される系統とは別の系統でベースカメラ映像を取得し、映像の切出しを行う。切出部12は、例えば、カルマンフィルターを用いて、下の式(1)によって切出し座標値の補正を行う。
【0028】
【0029】
上の式(1)において、tは離散的な時刻である(t=1,2,・・・・)。tが映像フレームの通し番号であると捉えてもよい。ytは、誤差を含む観測値、即ち、時刻tにおいて認識部11が検出した顔領域の座標値と操作部22で選択された小窓デザインの情報に基づいて算出された小窓の切出し座標値である。
【0030】
【0031】
は、観測前の推定値である。
【0032】
【0033】
は、観測後の推定値(最適な現在の状態)である。なお、Ktは、カルマンゲインである。
【0034】
上の式(1)で求められる最適状態の座標値を用いることにより、滑らかに顔の映像を切出すことができる。なお、カルマンゲインKtの値を調整可能としてもよい。カルマンゲインKtの値を調整することにより、映されている人物の動きが比較的大きいときには切出し座標値も機敏に反応し、映されている人物の動きが比較的小さいときには切出し座標値が固定される傾向があるようにすることができる。つまり、切出部12は、まるで人間のカメラマンがカメラのフレーミング位置を操作しているかのように、小窓映像用の顔の映像を切出すことができる。言い換えれば、映されている人物の動きが比較的大きいときには、切出部12は、観測値ytがより強く反映されるようにする。逆に映されている人物の動きが比較的小さいときには、切出部12は、観測前推定値
【0035】
【0036】
がより強く反映されるようにする。
【0037】
カルマンフィルターを用いることによってベースカメラ映像からの顔の映像の切出しを良好に行えるようになった。言い換えれば、顔の映像の切出しが安定化した。つまり、人間のカメラマンが撮影する場合に近い小窓映像を得られるようになった。これは、座標値の様々な補正方法についての試行錯誤を重ねた結果であり、本実施形態に特有の効果である。
【0038】
次に、
図2から
図8までの各図を参照しながら、映像切出装置1を用いて出力映像を作成するまでの処理の過程を説明する。
【0039】
図2は、ベースカメラ映像に含まれる映像フレームの例を示す概略図である。図示するように、1台のカメラで撮影されるベースカメラ映像の各フレームは、複数の(この図の例では2名の)出演者の顔を含んでいる。このようなベースカメラ映像の各フレームを基に、認識部11は、顔の検出および人物の認識の処理を行う。
【0040】
図3は、認識部11によって、顔の検出および人物の認識が行われた領域を示す概略図である。
図3では、
図2の映像フレーム内の2人の顔が検出され、その領域(顔検出枠)を示す枠線が描かれている。また、各々の領域に、人物を識別するラベル(人名等の情報)が付加されてもよい。
【0041】
図4は、認識部11と操作部22の処理の結果に基づいて、切出部12が切出した2人の顔の映像である。切出部12が切出す領域の座標値は、必ずしも、認識部11と操作部22の処理の結果に基づいて算出された小窓の切出し座標値と同一でなくてもよい。切出部12は、例えば前述のカルマンフィルターの処理によって、切出し座標値を補正してもよい。なお、
図4(A)および
図4(B)のそれぞれは、切出された出演者の顔の映像である。
【0042】
図5は、生成部13が生成するKEY信号の一例を示す概略図である。このKEY信号における2つの白の領域が、それぞれ、小窓領域である。この小窓領域のそれぞれは、例えば
図4(A)および
図4(B)の顔の映像を抜き出すための領域である。この小窓領域は矩形や円形、楕円形等の任意の形状とする。KEY信号における小窓領域の情報は、小窓デザインとして予め決定される。このKEY信号におけるハッチングの領域は、例えば中継映像あるいはVTR映像のための領域である。生成部13が生成したKEY信号は、例えば
図1内の映像スイッチャー2に渡される。
【0043】
図6は、生成部13が生成するFILL信号の一例を示す概略図である。FILL信号における小窓の出力位置や枠の色等の情報は、小窓デザインとして予め決定される。生成部13が生成したFILL信号は、例えば
図1内の映像スイッチャー2に渡される。
【0044】
図7は、顔の映像と合成するための中継映像またはVTR映像の一例を示す概略図である。中継映像は、番組制作時の中継先のカメラで撮影された映像である。中継映像は、中継先から、適宜伝送される。VTR映像は、予め撮影および編集が行われ、VTR映像として記録媒体(磁気ハードディスク装置等)に記録されていた映像である。VTR映像は、必要に応じて上記記録媒体から読み出され、再生される。
【0045】
図8は、切出部12が切出した顔の映像(
図4の(A)および(B))と、
図7の中継映像またはVTR映像とを、映像スイッチャー2が合成して出力した映像の例を示す概略図である。言い換えれば、
図8の出力映像は、
図5のKEY信号および
図6のFILL信号と、
図7の中継映像またはVTR映像とを、映像スイッチャー2が合成して出力した映像である。
【0046】
図9は、操作部22が提供する操作用画面の構成例を示す概略図である。操作者は、この操作用画面を見ながら小窓演出のための操作を行うことができる。図示するように、本例の操作用画面は、ベースカメラ映像表示領域101と、小窓デザイン選択領域102と、テイクボタン103と、クリアボタン104とを含むように構成される。なお、操作用画面が、これらの画面要素以外の要素をさらに含むようにしてもよい。
【0047】
図9の操作用画面において、ベースカメラ映像表示領域101は、ベースカメラ映像を表示するための領域である。なお、ベースカメラ映像表示領域101において、認識部11が検出した領域を表す顔検出枠を表示するようにしてもよい。小窓デザイン選択領域102は、小窓デザインを操作者が選択可能とするための表示領域である。小窓デザインは、人物を特定するためのラベル(図示する例における「Sakamoto」等)と、その小窓の出力位置や枠の色等の情報を含む。同図においては、4種類の小窓デザインを示しているが、小窓デザイン選択領域102をスクロール可能にして、より多くの小窓デザインの中から操作者が選択できるようにしてよい。操作者は、マウスの操作あるいはタッチパネルの操作を行うことによって、小窓デザインを選択するための選択カーソル(図示する例における太枠)を動かして、所望の小窓デザインを選択することができる。テイクボタン103およびクリアボタン104のそれぞれは、操作者が、マウスクリックの操作あるいはタッチパネルのタッチ操作等に依って、押下することのできるボタンである。テイクボタン103は、上記の小窓デザイン選択領域102において、その時点で選択カーソルによってフォーカスされている小窓デザインを採用するためのボタンである。テイクボタン103が押下されると、操作部22は、そのパターンに基づいた小窓映像を生成するよう、切出部12に対する指示を行い、その情報は切出部12から生成部13へも渡される。クリアボタン104は、小窓演出を解除するためのボタンである。クリアボタン104が押下されると、操作部22は、小窓切出しを解除するよう、切出部12に対する指示を行う。
【0048】
なお、上述した映像切出装置1の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0049】
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
【0050】
[変形例]
上記実施形態では、認識部11が、映像フレーム内の顔の検出と、その人物の認識処理とを行った。変形例では、認識部11が映像フレーム内の顔の検出を行うが、その人物の認識処理は行われない。つまり、認識部11が顔の領域情報を求めるが、その人物を特定する情報は求められない。
【0051】
本変形例では、一例として、スタジオにいる出演者の映像をメイン映像として、遠隔地にいる出演者(例えば、自宅等から番組に参加するリモート出演者)の映像を小窓映像として表示する演出を想定する。
【0052】
図10は、この変形例において操作部22が提供する操作用画面の構成例を示す概略図である。図示するように、変形例の操作用画面は、リモート映像表示領域201と、小窓デザイン選択領域202と、テイクボタン103と、クリアボタン104とを含むように構成される。なお、操作用画面が、これらの画面要素以外の要素をさらに含むようにしてもよい。
【0053】
図10の操作用画面において、リモート映像表示領域201は、遠隔地から出演する出演者の映像を表示するための領域である。小窓デザイン選択領域202は、小窓デザインを操作者が選択可能とするための表示領域である。この変形例においては、小窓デザインは、人物を特定するためのラベルの情報を持たない。つまり、汎用の人物用の小窓デザインである。また、この変形例では、小窓デザインを選択できるようにしている。テイクボタン103およびクリアボタン104は、それぞれ、
図9を参照しながら説明したボタンと同様のものである。
【0054】
この変形例において、認識部11は、リモート映像の中の顔を検出する処理を行う。しかしながら、認識部11は人物の認識を行わない。つまり、認識部11は、検出された顔領域に対応する人物を特定するラベル情報を出力しない。この変形例では、リモート映像に映っている人物は、通常は、1人である。なお、顔の検出の方法は、既に説明した通りである。
【0055】
この変形例において、操作部22は、操作者によって選択された小窓デザインの情報を、切出部12に渡す。小窓デザインは、小窓の出力位置や枠の色等の情報を含む。しかし、小窓デザインは、人物を特定するためのラベル情報を含まない。
【0056】
この変形例において、切出部12は、認識部11から受け取った領域情報と操作部22で選択された小窓デザインの情報に基づいて、顔の映像の切出しを行って、生成部13に渡す。ただし、切出部12は、顔の映像に対応するラベル情報を出力しない。切出部12は、操作部22から渡される小窓デザインの情報に基づいて、定められた小窓の出力座標値から算出した縦横比に合わせたサイズで、顔の映像を切出す。なお、切出部12が、カルマンフィルターを用いて切出し座標値の補正を行う点は、既に説明した通りである。切出部12は、切出した映像と、小窓デザインの情報とを、生成部13に渡す。
【0057】
この変形例において、生成部13は、小窓デザインの情報に基づいて顔の映像をはめ込んだFILL信号と抜きたい形状を表すKEY信号を生成して出力する。これにより、外部の映像スイッチャー2は、メイン映像に顔の映像を合成して小窓付き映像として出力することができるようになる。
【0058】
以上のように、変形例では、リモート映像に含まれる顔の映像を自動的に切出して、メイン映像内の小窓領域にはめ込むことが可能となる。なお、変形例では、切出す顔の人物認識処理を行わないため、未知の人物の顔にも対応して処理することが可能である。このような変形例を利用することにより、例えば、遠隔地にいる出演者の顔の映像を自動的に適切にフレーミングして、小窓領域の中にはめ込んだ映像を生成することが可能となる。遠隔地にいる出演者を映すカメラは、無人で、置かれた状態で出演者を撮影する場合も多いが、このような場合にも適切に顔の映像を切出して処理することが可能となる。
【0059】
[作用と効果]
以上説明したように、上記の実施形態(変形例を含む)によれば、認識部11が、映像フレーム内の顔領域を自動的に検出する。認識部11は、その検出した領域の座標値を表す領域情報を出力する。切出部12は、領域情報と操作部22で選択された小窓デザインの情報に基づいて算出された領域情報にフィルター処理を適用して領域情報の補正を行う。認識部11の領域情報と操作部22で選択された小窓デザインの情報に基づいて算出される領域情報の系列が誤差を含む系列であると捉えた場合に、切出部12が求める補正後の領域情報は、誤差を除いた、領域情報の推定値の系列である。つまり、フィルター処理により誤差を除去できる。フィルター処理の一例は、カルマンフィルターである。これにより、人物をフレーミングするためのカメラ操作を不要とすることができる。つまり、切出し対象の映像を、置いたままの状態のカメラで撮影することができる。また、1台のカメラが複数の人物を撮影するように置くことができる。この場合、撮影された映像には、複数の人物の顔が含まれる。認識部11は、それぞれの顔領域を検出することができる。認識部11は、人物の認識処理を行ってよい。認識部11は、人物の認識処理結果に基づいて、特定の人物に対応したラベル情報を、領域情報とともに出力することができる。操作部22は、操作者による操作等に基づいて、小窓デザインを選択する。切出部12は、小窓デザインに基づいて顔の映像を切出すことができる。生成部13は、小窓デザインに基づく小窓領域に、顔の映像をはめ込んだFILL信号と抜きたい形状を表すKEY信号を生成し、出力する。小窓デザインは特定の人物のラベル情報と関連付けられていてもよい。
【0060】
これにより、映像コンテンツの制作のための人員を省力化できる。また、1台のカメラの映像から複数の人物の顔の切出しを行える。よって、台数に限りのあるカメラを有効に使った映像コンテンツの演出が可能になる。
【0061】
以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【0062】
[検証]
NHK広島放送局の夕方のニュース番組「お好みワイドひろしま」の中継コーナーの映像を用いて、本実施形態による映像切出装置1の小窓切出し機能を検証した。この検証では、ベースカメラ映像と同期信号とをPCに入力し、PC出力のFILL信号およびKEY信号をNC副調映像卓の汎用スーパー列へ接続し、中継映像に合成した。その結果、当該中継コーナーの約10分間において、小窓デザインの自由な切替えをリアルタイムに行えることを確認することができた。
【0063】
[学習精度]
図11は、上記実施形態の映像切出装置1の学習部21のモデル構築時における学習精度を示すグラフである。このグラフにおける横軸は、学習のエポック数である。エポック数は、訓練データ(学習用データ)全体を繰り返し学習させる回数のことである。また、縦軸は、学習精度である。丸印でプロットしたグラフは、訓練データに含まれる顔画像の認識精度である。×印でプロットしたグラフは、テストデータ、即ち学習用データには含まれない顔画像の認識精度である。図示するように、訓練データに関しても、テストデータに関しても、エポック数が25を超えるあたりから、認識精度が立ち上がり、エポック数30以上では認識精度が80%台またはそれ以上となっている。エポック数が概ね34~35以上では、訓練データに関しても、テストデータに関しても、認識精度が90%台となっている。また、エポック数が概ね34~35以上の領域において、テストデータを用いた場合の精度が、訓練データを用いた場合の精度をほぼ上回っており、良好な学習ができていることを示している。つまり、構築されたモデルは過学習されておらず、汎化性能の高いモデルが得られていることを示している。
【産業上の利用可能性】
【0064】
本発明は、例えば、映像コンテンツ(放送番組等)の制作等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0065】
1 映像切出装置
2 映像スイッチャー(SW)
11 認識部
12 切出部
13 生成部
21 学習部
22 操作部
101 ベースカメラ映像表示領域
102 小窓デザイン選択領域
103 テイクボタン
104 クリアボタン
201 リモート映像表示領域
202 小窓デザイン選択領域