(58)【調査した分野】(Int.Cl.,DB名)
前記出力映像生成部は、前記視線ヒストグラム及び前記音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す
請求項1から請求項4の何れか一項に記載の映像処理装置。
前記出力映像生成部は、前記視線ヒストグラム及び前記音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す
請求項1から請求項5の何れか一項に記載の映像処理装置。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態による映像処理装置、映像処理方法及びプログラムについて図面を参照して説明する。
【0011】
<第1の実施形態>
まず、第1の実施形態について説明する。
図1は、本実施形態による映像処理システムの構成を示す概略図である。
映像処理システム100は、映像処理装置1と、全方位カメラ2と、3Dマイクロホン3とを備える。全方位カメラ2と3Dマイクロホン3とは任意の同じ場所に設置される。全方位カメラ2及び3Dマイクロホン3と映像処理装置1とは、有線又は無線により通信接続している。
全方位カメラ2は、設置された場所から360度全ての方位を撮像するカメラである。3Dマイクロホン3は、設置された場所から360度全ての方位の音声を取得するマイクロホンである。
【0012】
映像処理装置1は、全方位カメラ2が撮像した撮像映像及び3Dマイクロホン3が収音した音声に基づいて、撮像映像における注目したい人物に焦点を当てた映像を生成して出力する装置である。図示するように、映像処理装置1は、映像データ取得部11と、音声データ取得部12と、人物判定ブロック生成部13と、視線ヒストグラム生成部14と、音配図生成部15と、出力映像生成部16と、出力部17とを備える。
【0013】
映像データ取得部11は、撮像映像を示す映像データを全方位カメラ2から取得する。
音声データ取得部12は、撮像映像に対応する音声を示す音声データを3Dマイクロホン3から取得する。
【0014】
人物判定ブロック生成部13は、全方位カメラ2から取得した各人物の映像データからパノラマ画像を生成し、当該パノラマ画像において各人物それぞれに対応する人物判定ブロックを生成する。
【0015】
視線ヒストグラム生成部14は、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの有効な視線の数を示す視線ヒストグラムを生成する。視線ヒストグラムは、人物判定ブロックごとの集まった視線を示す。視線ヒストグラム生成部14は、人物の視線が他の人物の人物判定ブロックにある場合に、当該視線が有効であると判定する。一方、視線ヒストグラム生成部14は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線が無効であると判定する。
音配図生成部15は、3Dマイクロホン3から取得した各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する。
【0016】
出力映像生成部16は、有効な視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから中心人物に焦点を当てた出力映像を生成する。例えば、出力映像生成部16は、発信源の人物判定ブロック数が所定の閾値を超えている場合に、音配図の有効度が低いと判定する。また、出力映像生成部16は、有効な視線を有する人物判定ブロック数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、出力映像生成部16は、無効な視線の数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、出力映像生成部16は、視線ヒストグラム及び音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す。また、出力映像生成部16は、視線ヒストグラム及び音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す。また、出力映像生成部16は、出力映像に映す候補となる人物が最大人数の閾値を超える場合には、視線の少ない人物から順に除外する。また、出力映像生成部16は、3Dマイクロホン3から取得した音声データを出力映像に合成し、出力部17に出力する。
出力部17は、音声データが合成された出力映像を外部のコンピュータや表示装置に出力する。
【0017】
続いて、本映像処理装置1の動作について説明する。
図2は、本実施形態による映像処理装置における動作を説明するための動作説明図である。
本図には、人物A〜人物Fが、全方位カメラ2及び3Dマイクロホン3を円形に囲んで会議等をしている場合を例示する。全方位カメラ2及び3Dマイクロホン3は、同一の場所に設置されている。本例では、人物Cが発言しており、人物A、人物B、人物D及び人物Eの視線が人物Cに向いており、人物Cの視線が人物Bに向いており、人物Fの視線が人物Eに向いている。
【0018】
まず、人物判定ブロック生成部13が、全方位カメラ2が撮像した360度全方位の映像データをパノラマ展開したパノラマ画像201を生成する。パノラマ画像201には、−180度から180度までの360度の映像が展開される。続いて、人物判定ブロック生成部13は、パノラマ画像201から1人以上の人物の顔検出を行い、当該人物の顔の中心位置を算出する。人物判定ブロック生成部13は、パノラマ画像201が360度の映像であることから、その横幅の長さを利用して、人物の顔の中心位置が映像の何度の位置にあるかを判定する。そして、人物判定ブロック生成部13は、顔検出された人物の人数でパノラマ画像201を分割し、各人物の顔の中心位置の角度に基づいて各人物それぞれを判定する人物判定ブロック202を生成する。図示する例では、人物判定ブロック生成部13は、各人物A〜人物Fの人物判定ブロックとして、パノラマ画像201を人物Aに対応するブロックAと、人物Bに対応するブロックBと、人物Cに対応するブロックCと、人物Dに対応するブロックDと、人物Eに対応するブロックEと、人物Fに対応するブロックFとに分割している。なお、人物判定ブロック生成部13は、人物が少ないと人物判定ブロックが大きくなりすぎてしまうことを考慮し、人物判定ブロックの最大角の閾値を設定し、分割した角度が最大角の閾値を超える場合には、人物判定ブロックの角度を最大角の閾値とする。
【0019】
続いて、視線ヒストグラム生成部14が、遠隔視線推定技術により、撮像映像における各人物の視線方向を検知する。例えば、視線ヒストグラム生成部14は、顔認証技術および、顔特徴点検出技術を用いて視線検知に必要な目頭や目尻、瞳など目の周囲の特徴点位置を正確に特定することで、視線方向を検知する。そして、視線ヒストグラム生成部14は、各人物の視線方向にある人物判定ブロックを判定する。視線ヒストグラム生成部14は、人物判定ブロックに視線をプロットし(以下、プロットした視線を「視線プロット」と称する。)、視線プロット及び人物判定ブロックごとの有効な視線プロットの数を示す視線ヒストグラム203を生成する。視線ヒストグラム生成部14は、人物の視線が他の人物の人物判定ブロックにある場合に、当該視線プロットが有効であると判定する。一方、視線ヒストグラム生成部14は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線プロットが無効であると判定する。
【0020】
続いて、音配図生成部15が、音声方向を判定する技術を用いて、3Dマイクロホン3から取得した音声データに基づいて音の発信源の方向を判定し、発信源の人物判定ブロックを示す音配
図204を生成する。音配
図204は、3Dマイクロホン3を用いて取得した音声データから、360度全方向の空間内の各音源の位置を可視化できる。例えば、音配図生成部15は、音の強度を求め、音源の方位角と仰角、3Dマイクロホン3の位置を中心とする球面での音の強度分布図を生成する。
【0021】
そして、出力映像生成部16が、視線ヒストグラム203及び音配
図204に基づいて出力映像205を生成する。本図に示す例では、出力映像生成部16は、人物B、人物C及び人物Eが視線を集めている(有効な視線プロットを有する)ことから、人物B、人物C及び人物Eを映した出力映像205を生成している。このとき、出力映像生成部16は、人物Cが最も多く視線を受けており、かつ発言しているため、人物Cが中心人物であると判定し、人物Cを最も大きく中心に映し、人物B及び人物Eを人物Cより小さく映している。
【0022】
また、出力映像生成部16は、視線ヒストグラム及び音配図それぞれについて、情報の有効度の高低により映し出す中心人物の判定基準を決定する。以下、視線ヒストグラム及び音配図の有効度に基づく中心人物の判定基準について具体例を用いて詳細に説明する。
【0023】
(第1ケース)
まず、視線が特定の人物に集中していて、音声が分散している第1ケースの場合について説明する。例えば、運動会のように、視線が中心人物に集まり声援などで音声が分散している場合、音声の発信源となる人物が注目すべき人物とはならないため、視線が集中している人物が中心人物だと判定すべきである。そのため、映像処理装置1は、音配図及び視線ヒストグラムそれぞれの有効度を判定し、有効度の高い情報を優先的に利用して中心人物を特定する。
【0024】
図3は、本実施形態による映像処理装置が第1ケースの場合に生成する出力映像について説明するための図である。
図示する例では、人物A〜人物Iが撮像映像に映っている。また、本例では、音声が分散しており、人物C〜人物Gの視線が人物Aに向いており、人物H及び人物Iの視線が人物Bに向いている。
【0025】
撮像映像をパノラマ展開したパノラマ画像301には、人物A〜人物Iが映っている。また、視線ヒストグラム302では、人物Aが最も多い4つの視線プロットを有し、人物Bがその次に多い2つの視線プロット有しており、人物C〜Iは視線プロットを有していない。すなわち、人物A及び人物Bに視線が集中している。一方、音配
図303では、人物A及び人物Bは音声データを持っておらず、人物C〜Iが音声データを持っている。ここでは、音声データを持つ又は音声データを有するとは、音配図において音声の発信源であることを示す。
【0026】
出力映像生成部16は、映像における中心人物の頻繁な移り変わりを防ぐために使用する任意の一定時間(以下、「判定時間」とする。)のうち、音配図において音声データを持つ人物の人数が全体の人数に対する任意の一定の割合(以下、「第1の閾値の割合」とする。)を超えると、音声が分散しているとしその有効度が低いと判定する。全体の人数は、撮像映像に映っている人物全員の人数である。一方、出力映像生成部16は、判定時間のうち、音配図において音声データを持つ人物の人数が第1の閾値の割合以下である場合には、音配図の有効度が高いと判定する。本図に示す例では、出力映像生成部16は、音声データを持つ人物が第1の閾値の割合を超えているため、音配
図303の有効度が低いと判定する。
【0027】
また、出力映像生成部16は、視線ヒストグラムについても音配図と同時にその有効度について判定する。出力映像生成部16は、判定時間のうち、視線ヒストグラムにおける有効な視線プロットを有する人物の人数が全体の人数に対する任意の一定の割合(以下、「第2の閾値の割合」とする。)を超えると、視線が分散しているとしその有効度が低いと判定する。また、出力映像生成部16は、判定時間のうち、視線ヒストグラムにおける無効な視線プロットの数が全体の人数に対する任意の一定の割合(以下、「第3の閾値の割合」とする。)を超えた場合にも、視線が分散しているとしその有効度が低いと判定する。一方、出力映像生成部16は、判定時間のうち、視線ヒストグラムにおける有効な視線プロットを有する人物の人数が第2の閾値の割合以下であって、無効な視線プロットの数が第3の閾値の割合以下であるには、視線ヒストグラムの有効度が高いと判定する。なお、第1の閾値の割合、第2の閾値の割合及び第3の閾値の割合は、同一の割合であってもよいし、それぞれ異なる割合であってもよい。本図に示す例では、出力映像生成部16は、視線ヒストグラム302における有効な視線プロットを有する人物の人数が第2の閾値の割合以下であって、無効な視線プロットが第3の閾値の割合以下であるため、視線ヒストグラム302の有効度が高いと判定する。
【0028】
本例においては、出力映像生成部16は、視線ヒストグラム302の有効度が高く、音配
図303の有効度が低いため、各人物の視線方向の信頼性が高いと判定し、視線が多く集まっている人物から順番に注目した出力映像304を生成する。本例における出力映像304では、視線が最も多く集まっている人物Aを最も大きく映し、次に視線が集まっている人物Bを人物Aより小さく映し出している。
【0029】
(第2ケース)
次に、視線が分散していて、音声が特定の人物に集中している第2ケースの場合について説明する。例えば、会議のように、各人物が手元の資料を読みながら発言者の話を聞いている場合、各人物はそれぞれ自分の手元を見ていて視線が分散しており、音声は発言者に集中しているため、発言者が中心人物だと判定すべきである。
【0030】
図4は、本実施形態による映像処理装置が第2ケースの場合に生成する出力映像について説明するための図である。
図示する例では、人物A〜人物Fが撮像映像に映っている。また、本例では、各人物の視線は分散しており、人物Cのみが発言している。
【0031】
本例における視線ヒストグラム402では、人物Bのみが有効な1つの視線プロットを有しており、他の視線プロットは無効である。一方、本例における音配
図403では、人物Cのみが音声データを持っている。
【0032】
よって、本図に示す例では、出力映像生成部16は、無効な視線プロットの数が第3の閾値の割合を超えているため、視線ヒストグラム402の有効度が低いと判定する。また、出力映像生成部16は、音声データを持つ人物の人数が第1の閾値の割合以下であるため、音配
図403の有効度が高いと判定する。出力映像生成部16は、視線ヒストグラム402の有効度が低く、音配
図403の有効度が高いため、音声方向の信頼性が高いと判定し、発言している人物に注目した出力映像404を生成する。本例における出力映像404では、発言している人物Cをズームして大きく映し出している。
【0033】
(第3ケース)
次に、視線が集中していて、音声も集中している第3ケースの場合について説明する。第1ケース及び第2ケースでは、視線ヒストグラム又は音配図それぞれの有効度の高低に差がある場合について説明したが、第3ケースでは視線ヒストグラム及び音配図ともにその有効度が高い場合について説明する。
【0034】
図5は、本実施形態による映像処理装置が第3ケースの場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像501には、人物A〜人物Fが映っている。また、人物A及び人物Fの視線は人物Bに向けられており、人物B、人物D及び人物Eの視線は人物Cに向けられている。また、人物Eが発言している。
【0035】
そのため、本例における視線ヒストグラム502では、人物Bが2つの有効な視線プロットを有しており、人物Cが3つの有効な視線プロットを有している。また、本例における音配
図503では、人物Eのみが音声データを持っている。
【0036】
出力映像生成部16は、有効な視線プロットを有する人物の人数が第2の閾値の割合以下であって、無効な視線プロットの数が第3の閾値の割合以下であるため、視線ヒストグラム502の有効度が高いと判定する。また、出力映像生成部16は、音声データを持つ人物の人数が第1の閾値の割合以下であるため、音配
図503の有効度が高いと判定する。出力映像生成部16は、視線ヒストグラム502及び音配
図503の有効度がともに高い場合には、視線プロットを有する人物の人数と音声データを持つ人物の人数とを比較し、その人数の少ない方を情報の密度が高いとして、より中心人物を捉えた情報だと判定し、その情報を優先して使用する。
【0037】
本例においては、出力映像生成部16は、視線プロットを有する人物が2人(人物B及び人物C)であり、音声データを持つ人物が1人(人物E)であるため、音配
図503の情報密度が高いと判定する。そして、出力映像生成部16は、音配
図503において音声データを持つ人物Eが最も中心人物であるとして画面の中心に大きく映し出す出力映像504を生成する。また、出力映像生成部16は、視線ヒストグラム502において有効な視線プロットの数が多い順番に優先して人物C、人物Bを人物Eより小さく出力映像504に映し出す。本例に示す出力映像504では、発言者である人物Eが中心に大きく映し出され、視線プロットの数が最も多い人物Cがその次に大きく映し出され、視線プロットの数が次に多い人物Bが最も小さく映し出されている。なお、出力映像生成部16は、視線プロットを有する人物の人数と音声データを持つ人物の人数とが同数である場合には、視線プロットを有する人物を画面の左側に配置し、音声データを持つ人物を画面の右側に配置する等、視線と音声との間に情報の優先度をつけずに各人物を映し出してもよい。
【0038】
(第4ケース)
次に、視線が分散していて、音声も分散している第4ケースの場合について説明する。第1ケース及び第2ケースでは、視線ヒストグラム又は音配図それぞれの有効度の高低に差がある場合について説明したが、第4ケースでは視線ヒストグラム及び音配図ともにその有効度が低い場合について説明する。
【0039】
図6は、本実施形態による映像処理装置が第4ケースの場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像601には、人物A〜人物Lが映っている。また、本例における視線ヒストグラム602では、人物Bが1つの有効な視線プロットを有しており、人物Cが2つの有効な視線プロットを有しており、人物Dが3つの有効な視線プロットを有しており、人物Eが3つの有効な視線プロットを有しており、人物Fが1つの有効な視線プロットを有しており、人物Hが1つの有効な視線プロットを有しており、人物Iが1つの有効な視線プロットを有している。また、本例における音配
図603では、人物D〜人物Jが音声データを持っている。
【0040】
出力映像生成部16は、有効な視線プロットを有する人物の人数が第2の閾値の割合を超えているため、視線ヒストグラム602の有効度が低いと判定する。同様に、出力映像生成部16は、音声データを持つ人物の人数が第1の閾値の割合を超えているため、音配
図603の有効度が低いと判定する。出力映像生成部16は、視線ヒストグラム602及び音配
図603の有効度がともに低い場合には、中心人物が定まっていない空間であると判定し、有効な視線プロットを有する人物及び音声データを持つ人物全員を映す出力映像604を生成する。図示する出力映像604では、有効な視線プロット又は音声データを有する人物B〜人物J全員が映し出されている。
【0041】
なお、出力映像生成部16は、有効な視線プロット又は音声データを有する人物が多い場合には、映し出す最大人数の閾値によりその人数を制限してもよい。
【0042】
図7は、本実施形態による映像処理装置が映し出す人数を制限する場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像701には、人物A〜人物Lが映っている。また、本例における視線ヒストグラム702では、人物Cが2つの有効な視線プロットを有しており、人物Dが4つの有効な視線プロットを有しており、人物Eが6つの有効な視線プロットを有している。また、本例における音配
図703では、人物H〜人物Jが音声データを持っている。
【0043】
出力映像生成部16は、有効な視線プロットを有する人物の人数が第2の閾値の割合以下であって、無効な視線プロットの数が第3の閾値の割合以下であるため、視線ヒストグラム702の有効度が高いと判定する。また、出力映像生成部16は、音声データを持つ人物の数が第1の閾値の割合以下であるため、音配
図703の有効度が高いと判定する。視線ヒストグラム702における有効な視線プロットを有する人物は3人であり、音配
図703における音声データを持つ人物は3人であるため、映し出される人物の候補となる人数は6人である。ここで、出力映像生成部16は、視線ヒストグラム及び音配図の有効度がともに高い場合であって、候補となる人数が最大人数の閾値より多い場合には、有効な視線プロットの少ない人物から順に候補から除外する。本例では、出力映像生成部16は、最大人数の閾値は5人であるため、有効な視線プロットの最も少ない人物Cを除外し、映し出す人物を最大人数の閾値である5人に制限する。本例に示す出力映像704には、人物D、人物E、人物H、人物I及び人物Jの5人が映し出されている。出力映像704では、画面左側に有効な視線プロットを有する人物E及び人物Dが映し出され、画面右側に音声データを有する人物H、人物I及び人物Jが映し出されている。なお、出力映像704において、有効な視線プロットを最も有する人物Eは、人物Dより大きく映し出されている。
【0044】
なお、本例では、最大人数の閾値が5人である場合について説明しているが、最大人数の閾値はこれに限らず、1人以上であればよい。また、本例では、視線ヒストグラム及び音配図の有効度がともに高い場合について説明したが、視線ヒストグラム及び音配図の有効度がともに低い場合にも同様に、出力映像生成部16は、候補となる人数が最大人数の閾値を超えているときは、有効な視線プロットの少ない人物から順に候補から除外してもよい。
【0045】
図8は、本実施形態による映像処理装置が実行する映像処理の手順を示すフローチャートである。
まず、人物判定ブロック生成部13が、全方位カメラ2から取得した撮像映像をパノラマ展開し、パノラマ画像を生成する(ステップS101)。続いて、人物判定ブロック生成部13は、パノラマ画像を分割し、各人物それぞれを判定する人物判定ブロックを生成する(ステップS102)。
【0046】
続いて、視線ヒストグラム生成部14が、撮像映像における各人物の視線方向を検知し、検知した視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線プロットを示す視線ヒストグラムを生成する(ステップS103)。
続いて、音配図生成部15が、3Dマイクロホン3から取得した音声データに基づいて音の発信源の方向を判定し、発信源の人物判定ブロックを示す音配図を生成する(ステップS104)。
【0047】
続いて、出力映像生成部16が、視線ヒストグラム及び音配図の有効度を判定し、有効度の高い情報を優先的に使用し、映像データを編集して出力映像を生成する(ステップS105)。また、出力映像生成部16が、対応する音声データを出力映像に合成する。
続いて、出力部17が、音声データが合成された出力映像を出力する(ステップS106)。その後、処理を終了する。
【0048】
このように、本実施形態によれば、映像処理装置1は、カメラが撮像した各人物の映像データからパノラマ画像を生成し、当該パノラマ画像において各人物それぞれに対応する人物判定ブロックを生成する人物判定ブロック生成部13と、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する視線ヒストグラム生成部14と、各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する音配図生成部15と、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する出力映像生成部16と、を備える。
【0049】
このような構成により、撮像映像に映る各人物の視線と音声との両方を利用して、撮像映像における中心人物を精度良く判定することができる。また、視線又は音声のうちいずれか一方のデータしかない場合であっても、中心人物を判定することができる。また、取得した映像及び音声から自動的に人物を判定して映像を編集するため、使用者は映像の編集技術を必要としない。すなわち、映像及び音声から注目したい人物に焦点を当てた映像を自動的に生成することができるため、撮像技術や映像の編集技術を持たない人であっても、一定品質の映像を記録・配信する事が可能である。
【0050】
また、視線ヒストグラム及び音配図の優先度に基づいて出力映像を生成しているため、運動会等の学校行事、会議、コンサートホール、イベント会場等、異なる状況下であっても、それぞれの状況に応じた中心人物を精度良く判定することができる。よって、本発明による映像処理装置1は、学校行事の記録、会議、コンサートホール、イベント会場等、様々なシーンで利用することができる。
【0051】
また、出力映像生成部16は、発信源の人物判定ブロック数が所定の閾値を超えている場合に、音配図の有効度が低いと判定する。このような構成により、音声が分散している場合には、視線ヒストグラムのデータを優先して使用するため、例えば運動会等で、視線が中心人物に集まり声援などで音声が分散している場合であっても、中心人物を精度良く判定することができる。
【0052】
また、出力映像生成部16は、視線を有する人物判定ブロック数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、視線ヒストグラム生成部14は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線が無効であると判定し、出力映像生成部16は、無効な視線の数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。このような構成により、視線が分散している場合には、音配図のデータを優先して使用するため、例えば会議等で、各人物が手元の資料を読みながら発言者の話を聞いている場合であっても、中心人物を精度良く判定することができる。
【0053】
また、出力映像生成部16は、視線ヒストグラム及び音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す。このような構成により、より密度の高い情報を優先して使用することができるため、中心人物を精度良く判定することができる。
【0054】
また、出力映像生成部16は、視線ヒストグラム及び音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す。このような構成により、中心人物が定まっていない空間である場合に、視線を集めている人物や発言者全員を映し出すことができる。
【0055】
また、出力映像生成部16は、出力映像に映す候補となる人物が最大人数の閾値を超える場合には、視線の少ない人物から順に除外する。このような構成により、候補となる人物が多い場合に、映し出す人数を制限して、より中心となる人物を優先して映し出すことができる。
【0056】
<第2の実施形態>
続いて第2の実施形態について説明する。
図9は、映像処理装置の最小構成を示す図である。
映像処理装置1は、少なくとも、人物判定ブロック生成部13と、視線ヒストグラム生成部14と、音配図生成部15と、出力映像生成部16とを備えればよい。
人物判定ブロック生成部13は、カメラが撮像した各人物の映像データにおいて各人物それぞれに対応する人物判定ブロックを生成する。
視線ヒストグラム生成部14は、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する。
音配図生成部15は、人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する。
出力映像生成部16は、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する。
本実施形態によれば、映像及び音声から注目したい人物に焦点を当てた映像を自動的に生成することができる。
【0057】
以上本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
【0058】
なお、上述した映像処理装置1における各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した各処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0059】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【解決手段】映像処理装置は、カメラが撮像した各人物の映像データにおいて各人物それぞれに対応する人物判定ブロックを生成し、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成し、各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成し、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する。