(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
映像コミュニケーション装置等において、しばしば映像音響信号から特定のオブジェクト(人や物体など)に注目して視聴したいという要望がある。特定オブジェクトへの注目処理に関し、映像信号における注目処理を映像注目処理とし、音響信号における注目処理を音響注目処理とする。
【0003】
図18を用いて映像注目処理の一例について説明する。元映像フレーム71に、4つのオブジェクト(オブジェクトA74、オブジェクトB75、オブジェクトC76、オブジェクトD77)が含まれているとする。オブジェクトとは撮影された映像空間を構成する物体であり、例えば人物や自動車、建物などである。元映像フレーム71内では、これらのオブジェクトの位置を示す矩形が点線で表示されている。ここで、元映像フレーム71内における注目領域を、注目領域73で示す実線矩形とする。注目処理映像72は、注目領域73に対して映像注目処理を施した一例である。注目処理映像72は、注目領域を拡大して表示幅が最大となるように表示した例である。
【0004】
音響注目処理の一例として、注目するオブジェクトに対応した音響信号だけを再生する方法がある。この場合、元映像フレーム71では、注目領域73を指定するとその内部に含まれるオブジェクトD77のみの音声が再生されることになる。
【0005】
上述のような注目処理により、視聴者が興味のある領域だけを詳細に観察することが可能となる。
【0006】
映像中の音を発する特定オブジェクトへの注目処理を実現するには、音源となっている映像オブジェクトを抽出し、それぞれのオブジェクトが発生する音と映像を分離する必要があった。そこで、このような技術に関連する一例が、特許文献1に記載されている。
【0007】
特許文献1によれば、TV会議システムにおいて複数のカメラと複数のマイクを用い、注目領域として特定のカメラ映像を選択すると、その映像に近い位置のマイクのみを動作させることで、注目領域に適した音声を収録・再生することが記載されている。すなわち、1つのオブジェクトに対して、特定のカメラとマイクとを固定することにより、映像オブジェクトと音響オブジェクトとを対応づけて分離している。
【0008】
また、関連する技術として、音源方向検出を利用したオブジェクト分離方法がある。
図19に関連するオブジェクト分離装置を示す。
【0009】
このオブジェクト分離装置は、映像オブジェクト分離部901と、音源方向検出部902とから構成される。そして、映像信号は映像オブジェクト分離部901に入力され、音響信号は音源方向検出部902に入力される。
【0010】
音源方向検出部902は、マルチチャンネルの音響信号を用いて音源方向を検出する。音源方向の検出方法の一例として、複数の指向性マイクの信号を比較して、最も音量の大きいマイクの向いている方向を音源方向とする方法がある。もう一つの音源方向検出方法として、音響ビームフォーミング技術がある。これは、複数のマイク信号の位相差が最も小さくなる方向を音源方向と見なし、信号処理によって音源方向を推定する公知の技術である。なお、音源方向検出部902によって求められる音源方向は一つである。
【0011】
映像オブジェクト分離部901は、音源方向検出部902で求められた方向情報を用いて、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、
図18におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような、人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。
【0012】
映像オブジェクト分離部901の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断する。映像オブジェクト分離部901は、パターン認識等で検出されたオブジェクト候補の中から、音源方向検出部902で求められた方向に存在するオブジェクトを一つ選択して出力する。映像は空間中の限定された領域を投影したものなので、正確には音源方向に最も近い映像オブジェクトを選択して出力する。
【0013】
このように
図19のオブジェクト分離装置は、音源方向にある映像オブジェクトを分離することで、音と映像の対応付けされたオブジェクト信号を分離することが可能となる。
【発明を実施するための形態】
【0023】
本発明の実施の形態の概要を説明する。
【0024】
図1を参照すると、本発明は、映像オブジェクト分離部1と、音響オブジェクト分離部2と、相関対応付け部3とから構成されている。
【0025】
映像オブジェクト分離部1は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、
図2におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。尚、分離する映像オブジェクトは、複数あってよい。
【0026】
音響オブジェクト分離部2は、入力された音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。
【0027】
相関対応付け部3は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関とを求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。
【0028】
以下に、本発明の実施の形態を、図面を参照して詳細に説明する。
<第1の実施の形態>
第1の実施の形態を説明する。
【0029】
図3を参照すると、第1の実施の形態は、映像オブジェクト分離部11と、音響オブジェクト分離部21と、相関対応付け部31とから構成されている。
【0030】
映像オブジェクト分離部11は、映像信号から映像フレーム内の映像オブジェクトを分離する。映像オブジェクトの例として、
図2におけるオブジェクトA74,オブジェクトB75,オブジェクトC76のような人物オブジェクトがある。またその他、自動車、建物や、草木、など、空間を構成する物体を、映像オブジェクトと見なすことができる。映像オブジェクト分離部1の例として、パターン認識を利用した物体検出方法がある。予め映像オブジェクト画像のテンプレートを作成し、このテンプレートを用いて映像フレーム全体にテンプレートマッチングを施す。テンプレートとの相関値がしきい値以上であれば、所望の映像オブジェクトが存在するものと判断して、該当する部分領域を映像オブジェクト信号として分離する。尚、分離する映像オブジェクトは、複数あってよい。
【0031】
音響オブジェクト分離部21は、入力されたマルチチャンネルの音響信号を、複数の音源信号に分離する部である。ここで、分離された音源信号を音響オブジェクトと呼ぶ。音響オブジェクト分離部2において、オブジェクト分離情報を生成する方法として、ブラインド信号源分離(Blind Source Separation)や、独立成分分析(Independent Component Analysis)と呼ばれる手法を用いることができる。ブラインド信号源分離および独立成分分析の方法に関連する技術は、非特許文献1(2005年、「スピーチ・エンハンスメント」、シュプリンガー、(Speech Enhancement, Springer, 2005, pp. 271-369)、271ページから369ページ。)に開示されている。適切なパラメータ設定を行うことで、音響オブジェクト分離部2は、入力オーディオ信号から自動的に音源信号に分離することができる。
【0032】
相関対応付け部31は、複数の映像オブジェクトと複数の音響オブジェクトとを入力し、映像オブジェクトと音響オブジェクトとの相関を求め、音響オブジェクトが映像フレーム中のどの位置にある映像オブジェクトに対応するのかを特定する。すなわち、音響オブジェクト(音源)が映像フレーム中のどこから発生しているかを求める。対応付け処理は、映像と、音響とのそれぞれのオブジェクトから特徴ベクトルを抽出し、それらの相関を取って最も相関値の高い組み合わせを求めることによって実現する。特徴ベクトルの一例としては、時間周波数特徴や、カテゴリ帰属度などがある。
【0033】
このようにして、映像オブジェクトと音響オブジェクトとを対応付ける。
<第2の実施の形態>
第2の実施の形態を説明する。
【0034】
図4を参照すると、第2の実施の形態は、映像オブジェクト分離部12と、音響オブジェクト分離部22と、相関対応付け部32とから構成されている。
【0035】
尚、映像オブジェクト分離部12と音響オブジェクト分離部22とは、第1の実施の形態の映像オブジェクト分離部11と映像オブジェクト分離部11と同様なものなので、詳細な説明は省略する。
【0036】
相関対応付け部32は、
図5に示す如く、映像カテゴリ判別部321と、音響カテゴリ判別部322と、カテゴリ対応付け部323とから構成されている。
【0037】
映像カテゴリ判別部321は、映像オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の顔、女性の顔、子供の顔、男性の全身、女性の全身、子供の全身、自動車、電車、PC、ディスプレイなどがある。判別されたオブジェクトのカテゴリは、後段の処理によって、映像フレームに存在する音響オブジェクトの特定に用いられる。
【0038】
映像カテゴリ判別部321の動作の一例を以下に述べる。予めいくつかの映像カテゴリを決めておき、それぞれのカテゴリに対応する典型的な画像群をテンプレートとして用意する。ビデオオブジェクト領域画素とテンプレートとのパターンマッチングを行い、最も類似度が大きいカテゴリに当該映像オブジェクトを分類することによって、帰属カテゴリを特定する。また、類似度を各カテゴリへの帰属度として算出する方法もある。パターンマッチングの方法としては、正規化相関法などの公知の技術を用いることができる。
【0039】
音響カテゴリ判別部322は、音響オブジェクトのカテゴリを特定、またはカテゴリへの帰属度を算出する部である。オブジェクトのカテゴリ例として、男性の声、女性の声、子供の声、自動車音、電車音、空調音、キーボード音、マウスクリック音、周辺ノイズ、などがある。
【0040】
音響カテゴリ判別部322の動作の一例を以下に述べる。予めいくつかの音響カテゴリを決めておき、それぞれのカテゴリに対応する典型的な音源データを用意する。オーディオオブジェクトの波形と、前記音源データの波形とのマッチングを行い、最も類似度が大きいカテゴリに当該音響オブジェクトを分類することによって、帰属カテゴリを特定する。また各類似度を各カテゴリへの帰属度として算出する方法もある。
【0041】
カテゴリ対応付け部323は、映像オブジェクトのカテゴリと音響オブジェクトのカテゴリとを対応付けし、映像オブジェクトと音響オブジェクトとの対応付けを行う。カテゴリ対応付け部323の動作の一例を、
図6を用いて説明する。
映像フレーム111において、映像オブジェクトのカテゴリとして男性の顔112、女性の顔113、自動車114が存在する。映像オブジェクト群をオブジェクトリスト115に示す。
【0042】
映像フレーム111において音響オブジェクトのカテゴリとして、自動車の音、女性の声、男性の声、ノイズが分類されている。音響オブジェクト群を音響オブジェクトリスト116に示す。自動車は自動車の音に対応し、男性の声は男性の顔に対応し、女性の声は女性の顔に対応することは容易に判断することができる。
【0043】
しかし、ノイズの音響オブジェクトだけは対応する映像オブジェクトが存在しない。
【0044】
以上の処理によって、オブジェクト対応表117を生成することができる。オブジェクト対応表117によって、各音響オブジェクトがどの映像オブジェクトに対応しているか、そしてオブジェクトの映像フレーム中の座標値を求めることができる。
【0045】
尚、オブジェクト対応表117はカテゴリを一意に特定する例であるが、カテゴリ対応付け部323の実現方法の一例としてカテゴリ帰属度を特徴量として、オブジェクト同士の特徴量の相関を求めて対応付けする方法もある。カテゴリ帰属度は、各カテゴリとの類似度で構成される特徴ベクトルであり、(男、女、自動車)=(1.0, 0.5, 0.2)等の値で表現される。この特徴ベクトルが最も近い組み合わせを取ることによって、映像オブジェクトと音響オブジェクトとの対応付けを実現することができる。
【0046】
相関対応付け部32によって、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とは出力される。
<第3の実施の形態>
第3の実施の形態を説明する。
【0047】
図7を参照すると、第3の実施の形態は、映像オブジェクト分離部13と、音響オブジェクト分離部23と、相関対応付け部33とから構成されている。
【0048】
音響オブジェクト分離部23は、音響オブジェクト分離部21と同様に動作して、音響オブジェクトを分離して出力する。
【0049】
映像オブジェクト分離部13は、人物検出部131を有している。この人物検出部131は、パターン認識を用いて人物領域を映像オブジェクトとして抽出する。人物領域を抽出する方法として、人物の顔領域を検出する方法があり、例えば、非特許文献2(M.Turk, A.Pentland, “Face Recognition on Using Eigenfaces,”Proceedings of IEEE, CVPR91, pp.586-591 (1991))などに記載されている。
【0050】
映像オブジェクト分離部13は、
図8に示す如く、人物検出部131を用いて人物領域を検出し、人物領域を映像オブジェクトとして分離する。
【0051】
相関対応付け部33は、
図9に示す如く、動き検出部331と、音声区間検出部332と、AV信号相関部333とから構成されている。
【0052】
動き検出部331は、人物領域内の唇などの部分領域に着目し、部分領域のフレーム間差分を過去t時間にわたって求め、映像動きパターンを出力する。映像動きパターンは領域内の画素値の時間変化を表す。
【0053】
音声区間検出部332は、音響オブジェクトごとに、過去t時間にわたって音声区間が存在するかどうかを求め、音声区間パターンを出力する。
【0054】
AV信号相関対応付け部333は、動き検出部331からの映像動きパターンと、音声区間検出部332からの音声区間パターンとを対応付けし、相関の高い組み合わせを求めることによって、人物の映像オブジェクトに対応した音響オブジェクトを同定する。
【0055】
図10を参照して、具体的なAV信号相関対応付け部333の動作を説明する。
【0056】
例えば、映像フレーム121において、人物検出部131によってオブジェクトJ122と、オブジェクトK123が検出されている。これらの人物領域内の部分領域である唇部分におけるフレーム間差分が、唇領域フレーム間差分124に示されている。唇領域フレーム間差分124に対し、適当なしきい値によって2値化することによって動きパターン125が得られる。
【0057】
また、音響オブジェクトに対して音声区間検出を行った結果を音声区間パターン126とする。動きパターン125と、音声区間パターン126とを比較すると、オブジェクトJの動きパターンと、第一の音声区間パターン127との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトKの動きパターンと、第二の音声区間パターン128との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトJの音源信号が第一の音響オブジェクトであり、オブジェクトKの音源信号が第二の音響オブジェクトであることが分かる。
【0058】
そして、AV信号相関対応付け部333によって映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。
【0059】
次に、AV信号相関対応付け部333における具体的な相関値の計算方法を示す。
【0060】
図11に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx201と、0と1とに2値化された音声区間パターンby202の例を示す。ここで、動きパターンbx201は上述した動きパターン125に相当するものであり、音声区間パターンby202は上述した音声区間パターン126に相当するものである。
【0061】
予め決められた時間間隔Tを用いて、時刻aからT時間の相関値Sは、数1を用いて算出することができる。
【0062】
【数1】
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
【0063】
他のAV信号相関対応付け部333における相関値の計算方法を示す。
【0064】
図12に、映像のフレーム間差分の積分値を0と1とに2値化して得られた時系列の動きパターンbx211と、0と1とに2値化された音声区間パターンby212とを示す。ここで、動きパターンbx211は上述した動きパターン125に相当するものであり、音声区間パターンby212は上述した音声区間パターン126に相当するものである。
【0065】
動きパターンbxがスターとする時間(0から1に変化する時間)をt1xとし、終了時間(1から0に変化する時間)をt2xとする。また、音声区間パターンbyが立ち上がる時間(0から1に変化する時間)をt1yとし、終了時間(1から0に変化する時間)をt2yとする。そして時間差を数2のTdによって算出する。音と映像の組み合わせの中で、時間差Tdが小さほど対応していると考えて、音と映像の対応付けを行なう。
【0066】
【数2】
尚、スタート時間だけを比較することで対応付けを行なうことも可能である。この場合には、式103に示す時間差Td2を用いて時間差を算出する。
【0067】
他のAV信号相関対応付け部333における相関値の計算方法を示す。
【0068】
AV信号相関対応付け部333は、動き検出部331からの映像動きパターン(フレーム間差分)と、音声区間検出部332からの音声区間パターンとを入力する。そして、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222とを求める。
図13に、映像のフレーム間差分の積分値の時系列動きパターンM221と、音響オブジェクトの音声信号パワーJ222との一例を示す。
【0069】
このとき、映像オブジェクトと音響オブジェクトとの時刻aからT時間における相関値S2は、予め決められた時間間隔Tを用いて、数3を用いて算出することができる。
【0070】
【数3】
また、数4のS3のように、MとJとの相関係数を相関値として算出することもできる。
【0071】
【数4】
そして、音と映像の組み合わせの中から、相関値Sが大きい組み合わせを選択することによって対応付けを行なう。
【0072】
尚、上述したAV信号相関対応付け部333における相関値の計算方法において、動きパターンを映像オブジェクトの動きベクトルから算出するようにしても良い。
【0073】
この場合、
図14に示すように、時刻tから時刻t+1までの、映像オブジェクトの動きベクトルを求める。動きベクトルの算出方法として、テンプレートマッチング法などがある。これは時刻tでオブジェクトが占める部分領域画像をテンプレートとし、t+1の映像中から類似パターンが存在する位置をテンプレートマッチングで探索する方法である。これにより、映像オブジェクトの時刻tからt+1の動きベクトルを算出することができる。次に、動きベクトル233の長さを求める。本実施の形態では、動きベクトルの長さを、上述したフレーム間差分の積分値に置き換えて動きパターンを生成し、相関値を算出する。
<第4の実施の形態>
第4の実施の形態を説明する。
【0074】
図15を参照すると、第4の実施の形態は、映像オブジェクト分離部14と、音響オブジェクト分離部24と、相関対応付け部34とから構成されている。
【0075】
映像オブジェクト分離部14は、映像オブジェクト分離部11と同様に動作して、映像オブジェクトを分離して出力する。音響オブジェクト分離部24は、音響オブジェクト分離部21と同様に動作して、音響オブジェクトを分離して出力する。
【0076】
相関対応付け部34は、
図16に示す如く、映像動作検出部341と、動作音区間検出部342と、AV信号相関対応付け部343とから構成されている。
【0077】
映像動作検出部341は、映像オブジェクトが存在する部分領域に着目し、前記部分領域のフレーム間差分を過去t時間にわたって求め、動きパターンを出力する。動きパターンは領域内の画素値の時間変化を表す。
【0078】
動作音区間検出部342は、音響オブジェクトごとに、過去t時間にわたって動作音が存在するかどうかを求め、動作音区間パターンを出力する。動作音の一例として、自動車のエンジン音や、人物の歩く足音などがある。
【0079】
AV信号相関対応付け部343は、前記映像動きパターンと前記動作音区間パターンとを比較して相関の高い組み合わせを求め、映像オブジェクトに対応した音響オブジェクトを同定する。
【0080】
図17を参照してAV信号相関対応付け部343の動作を説明する。
【0081】
映像フレーム131において、映像オブジェクト分離部14によってオブジェクトL132と、オブジェクトM133が検出されている。映像動作検出部341は、これらのオブジェクトが存在する部分領域のフレーム間差分を算出し(
図17中、オブジェクト領域フレーム間差分134)、オブジェクト領域フレーム間差分134に対し、適当なしきい値によって2値化することによって動きパターン135を算出する。
【0082】
また、動作音区間検出部342は、音響オブジェクトに対して動作音区間検出を行った結果を動作音区間パターン136とする。
【0083】
AV信号相関対応付け部343は、動きパターン135と、動作音区間パターン136とを比較し、オブジェクトLの動きパターンと、第一の音声区間パターン137との間に高い相関があることが分かるので、これらのオブジェクトが同一であると判断する。また、オブジェクトMの動きパターンと、第二の音声区間パターン138との間に高い相関があるので、同様にこれらのオブジェクトが同一であると判断する。このようにして、オブジェクトLの音源信号が第一の音響オブジェクトであり、オブジェクトMの音源信号が第二の音響オブジェクトであることが分かる。
【0084】
AV信号相関対応付け部343は、映像と音との対応付けを行った後に、映像オブジェクト信号と、音響オブジェクト信号とを出力する。
【0085】
また、相関値の算出は、上記第3の実施の形態で説明した相関値の計算方法を用いることができる。
【0086】
尚、上述した実施の形態では各部をハードウェアで構成したが、プログラムで動作するCPU等の情報処理装置で構成しても良い。この場合、プログラムは、上述した動作をCPU等に実行させる。
【0087】
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも上記実施の形態に限定されるものではなく、その技術的思想の範囲内において様々に変形し実施することが出来る。