【文献】
PULKKI, Ville,"Directional audio codingin spatial sound reproduction and stereo upmixing",28th International Conference,米国,Audio Engineering Society,2006年 6月 1日,paper number 7-1,[オンライン],[検索日 2017.12.26],インターネット:<URL:http://www.aes.org/e-lib/browse.cfm?elib=13847>,URL,http://www.aes.org/e-lib/browse.cfm?elib=13847
(58)【調査した分野】(Int.Cl.,DB名)
前記2つ以上の音声出力信号のそれぞれの前記パンニング利得関数は、前記パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の前記1つ以上のグローバル最大値のそれぞれについて、前記パンニング利得関数が前記グローバル最大値に対してよりも大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、そして、
前記2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号のペアのそれぞれについて、前記第1の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の少なくとも1つが、前記第2の音声出力信号の前記パンニング利得関数の前記1つ以上のグローバル最大値の何れとも異なること、
を特徴とする請求項1に記載のシステム。
前記利得関数計算モジュール(104)は、測定パラメータをさらに受信するように構成され、前記パンニング利得関数と前記窓利得関数との少なくとも1つが、前記測定パラメータに依存すること、
を特徴とする請求項1〜請求項3のいずれかに記載のシステム。
前記信号プロセッサ(105)は、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、到来方向の拡がりを実行することによって、または、非相関性を実行することによって、前記2つ以上の音声出力信号を生成するように構成されていること、
を特徴とする請求項5または請求項6に記載のシステム。
前記直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成し、前記分解モジュール(101)は、前記2つ以上の音声入力信号の別の直進信号コンポーネントを含む前記1つ以上の別の直進コンポーネント信号を生成するように構成され、
前記到来方向および1つ以上の別の到来方向は、2つ以上の到来方向のグループを形成し、前記2つ以上の到来方向の前記グループのそれぞれの到来方向は、前記2つ以上の直進コンポーネント信号の前記グループの正確に1つの直進コンポーネント信号に割り当てられ、前記2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と前記2つの到達方向の前記到来方向の数とが等しく、
前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループと前記2つ以上の到達方向の前記グループとを受信するように構成され、そして、
前記2つ以上の音声出力信号のそれぞれの音声出力信号について、
前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記到来方向に依存して、直進利得を決定するように構成され、
前記信号プロセッサ(105)は、前記2つ以上の直進コンポーネント信号の前記グループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の前記直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成され、そして、
前記信号プロセッサ(105)は、前記音声出力信号を生成するために、前記1つ以上の処理された拡散信号のうちの1つと、前記2つ以上の処理された信号の前記グループのそれぞれの処理された信号と、を結合するように構成されていること、
を特徴とする請求項1〜請求項8のいずれかに記載のシステム。
コンピュータプログラムがコンピュータ上もしくは信号プロセッサ上で実行されると、前記コンピュータもしくは前記信号プロセッサが請求項13または請求項14の方法を実行する、コンピュータプログラム。
【発明の概要】
【発明が解決しようとする課題】
【0010】
従って、本発明の目的は、音声信号処理のための改善された概念を提供することである。本発明の目的は、請求項1に従うシステム、請求項13に従う装置、請求項14に従う方法、請求項15に従う方法、および請求項16に従うコンピュータプログラムにより解決される。
【課題を解決するための手段】
【0011】
1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネント
を含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、
到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
【0012】
実施の形態に従って、概念は、再創成された音響イメージが、例えば、望ましい空間イメージに矛盾しないように、空間音録音および再生を達成するために提供され、例えば、遠端側のユーザーまたは映像イメージによって決定される。提案された取り組みは、捕らえられた音を直進音コンポーネントと拡散音コンポーネントとに分解することを我々に許す近端側で、マイクロフォン配列を用いる。取り出された音コンポーネントは、その時、遠端側に送信される。矛盾しない空間音再生は、例えば、取り出された直進音および拡散音の重み付けされた合計によって実現される。重み付けは、再生された音が矛盾しない望ましい空間イメージに依存し、例えば、重み付けは、音声録音を誉める、例えばビデオカメラの視方向およびズーミングファクターに依存する。直進音および拡散音を取り出すためのインフォームドマルチチャネルフィルタを採用する概念が、提供される。
【0013】
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、パンニング利得関数は、例えば、前記音声出力信号に割り当てられ、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値を含み、パンニング関数リターン値は、例えば、前記パンニング関数議論値のそれぞれに割り当てられ、前記パンニング利得関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング利得関数が、例えば、前記パンニング関数議論値の前記1つに割り当てられているパンニング関数リターン値を戻すように構成され、そして、信号プロセッサは、例えば、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の方向依存議論値に依存している2つ以上の音声出力信号のそれぞれを決定するように構成され、前記方向依存議論値は、
到来方向に依存する。
【0014】
実施の形態において、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値より大きいパンニング関数リターン値を戻す別のパンニング関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号の
ペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
【0015】
実施の形態に従って、信号プロセッサは、例えば、窓利得関数に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成され、窓利得関数は、例えば、窓関数議論値を受信するとき、窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、例えば、何れの窓関数リターン値よりも大きい窓関数リターン値を戻すように構成され、仮に窓関数議論値が、例えば、下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。
【0016】
実施の形態において、信号プロセッサは、例えば、
到来方向について視方向の角度シフトを示している配向情報をさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、配向情報に依存する。または、利得関数計算モジュールは、例えば、ズーム情報をさらに受信するように構成され、ズーム情報は、カメラの開口角度を示し、パンニング利得関数と窓利得関数との少なくとも1つが、ズーム情報に依存する。または、利得関数計算モジュールは、例えば、測定パラメータをさらに受信するように構成され、パンニング利得関数と窓利得関数との少なくとも1つが、測定パラメータに依存する。
【0017】
実施の形態に従って、信号プロセッサは、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、距離情報に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
【0018】
実施の形態に従って、信号プロセッサは、例えば、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向であるオリジナルの
到来方向に依存しているオリジナルの角度値を受信するように構成され、そして、例えば、距離情報を受信するように構成されている。信号プロセッサは、例えば、オリジナル角度値に依存し、かつ、距離情報に依存している修正された角度値を計算するように構成されている。そして、信号プロセッサは、例えば、修正された角度値に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
【0019】
実施の形態に従って、信号プロセッサは、例えば、ローパスフィルタリングを実行することによって、または、遅延直進音を追加することによって、または、直進音の減衰を実行することによって、または、時間的円滑化を実行することによって、または、
到来方向の拡がりを実行することによって、または、非相関性を実行することによって、1つ以上の音声出力信号を生成するように構成されている。
【0020】
実施の形態において、信号プロセッサは、例えば、2つ以上の音声出力チャンネルを生成するように構成されている。信号プロセッサは、例えば、中間的拡散信号を得るために、拡散利得を拡散コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、例えば、非相関性を実行することによって、中間的拡散信号から1つ以上の非相関性信号を生成するように構成されている。1つ以上の非相関性信号は、1つ以上の処理された拡散信号を形成する。または、中間的拡散信号および1つ以上の非相関性信号は、1つ以上の処理された拡散信号を形成する。
【0021】
実施の形態に従って、直進コンポーネント信号および1つ以上の別の直進コンポーネント信号は、2つ以上の直進コンポーネント信号のグループを形成する。分解モジュールは、例えば、2つ以上の音声入力信号の別の直進信号コンポーネントを含む1つ以上の別の直進コンポーネント信号を生成するように構成されている。
到来方向および1つ以上の別の
到来方向は、2つ以上の
到来方向のグループを形成する。2つ以上の
到来方向のグループのそれぞれの
到来方向は、例えば、2つ以上の直進コンポーネント信号のグループの正確に1つの直進コンポーネント信号に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と2つの
到来方向の
到来方向の数とは、例えば等しい。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループと2つ以上の
到来方向のグループとを受信するように構成されている。そして、1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の
到来方向に依存している直進利得を決定するように構成されている。信号プロセッサは、例えば、2つ以上の直進コンポーネント信号のグループのそれぞれの直進コンポーネント信号毎に、前記直進コンポーネント信号の直進利得を前記直進コンポーネント信号に適用することによって、2つ以上の処理された直進信号のグループを生成するように構成されている。そして、信号プロセッサは、例えば、前記音声出力信号を生成するために、1つ以上の処理された拡散信号のうちの1つと、2つ以上の処理された信号のグループのそれぞれの処理された信号と、を結合するように構成されている。
【0022】
実施の形態において、2つ以上の直進コンポーネント信号のグループの直進コンポーネント信号の数プラス1は、例えば、受信インタフェースによって受信されている音声入力信号の数より小さい。
【0023】
さらに、上述したシステム
を含む補聴器または補助聞き取り装置が、例えば、提供される。
【0024】
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネント
を含む直進コンポーネント信号を受信するように構成されている。信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を受信するように構成されている、信号プロセッサは、方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、
到来方向に依存して直進利得を決定するように構成されている。信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成されている。そして、信号プロセッサは、音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。
【0025】
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネント
を含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、
到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
【0026】
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネント
を含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を受信し、
方向情報を受信し、前記方向情報は2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、
到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用し、そして、音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
【0027】
さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータ上もしくは信号プロセッサ上で実行されると、前述の方法の1つを実行するように構成され、その結果、前述の方法のそれぞれが、コンピュータプログラムの1つによって実行される。
【0028】
さらに、1つ以上の音声出力信号を生成するためのシステムが提供される。システムは、分解モジュールと、信号プロセッサと、出力インタフェースとを備えている。分解モジュールは、2つ以上の音声入力信号を受信するように構成され、分解モジュールは、2つ以上の音声入力信号の直進信号コンポーネント
を含む直進コンポーネント信号を生成するように構成され、そして、分解モジュールは、2つ以上の音声入力信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を生成するように構成されている。信号プロセッサは、直進コンポーネント信号および拡散信号コンポーネント信号および方向情報を受信するように構成され、方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存する。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、
到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、前記処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値に戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、
到来方向に依存して、1つ以上の利得関数の利得関数の前記利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
【0029】
実施の形態に従って、利得関数計算モジュールは、例えば、1つ以上の利得関数のそれぞれの利得関数のために、ルックアップ・テーブルを生成するように構成され、ルックアップ・テーブルは複数のエントリー
を含み、ルックアップ・テーブルのそれぞれのエントリーは利得関数議論値のうちの1つと、1つの利得関数議論値に割り当てられている利得関数リターン値とを含み、利得関数計算モジュールは、例えば、それぞれの利得関数のルックアップ・テーブルを持続的な又は非持続的なメモリーに記憶するように構成され、信号変更器は、例えば、メモリーに記憶されている1つ以上のルックアップ・テーブルのうちの1つから、前記利得関数リターン値を読み出すことによって、前記方向依存議論値に割り当てられている利得関数リターン値を得るように構成されている。
【0030】
実施の形態において、信号プロセッサは、例えば、2つ以上の音声出力信号を決定するように構成され、利得関数計算モジュールは、例えば、2つ以上の利得関数を計算するように構成され、2つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられているパンニング(パノラマ的効果を得るために上下左右に回転すること)利得関数を計算するように構成され、信号変更器は、例えば、前記パンニング利得関数に依存している前記音声出力信号を生成するように構成されている。
【0031】
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、例えば、前記パンニング利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記パンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が、前記グローバル最大値のためより大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号の
ペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値の何れとも異なる。
【0032】
実施の形態に従って、2つ以上の音声出力信号のそれぞれの音声出力信号のために、利得関数計算モジュールは、例えば、2つ以上の利得関数のうちの1つとして、前記音声出力信号に割り当てられている窓利得関数を計算するように構成され、信号変更器は、例えば、前記窓利得関数に依存している前記音声出力信号を生成するように構成され、仮に前記窓利得関数の議論値が、下部の窓閾値より大きく、かつ、上部の窓閾値より小さいならば、窓利得関数は、何れの利得関数リターン値よりも大きい利得関数リターン値を戻すように構成され、仮に窓関数議論値が下部の窓閾値より小さく、あるいは、上部の窓閾値より大きいならば、窓利得関数は、前記窓利得関数によって戻されるように構成されている。
【0033】
実施の形態において、2つ以上の音声出力信号のそれぞれの窓利得関数は、前記窓利得関数の利得関数議論値のうちの1つである1つ以上のグローバル最大値を持ち、前記窓利得関数の1つ以上のグローバル最大値のそれぞれのために、窓利得関数が前記グローバル最大値より大きい利得関数リターン値を戻す別の利得関数議論値は存在せず、2つ以上の音声出力信号の第1の音声出力信号および第2の音声出力信号の
ペアのそれぞれについて、第1の音声出力信号の窓利得関数の1つ以上のグローバル最大値の少なくとも1つが、例えば、第2の音声出力信号の窓利得関数の1つ以上のグローバル最大値の1つと等しい。
【0034】
実施の形態に従って、利得関数計算モジュールは、例えば、
到来方向についての視方向の角度シフトを示している配向情報を更に受信するように構成され、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
【0035】
実施の形態において、利得関数計算モジュールは、例えば、配向情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
【0036】
実施の形態に従って、利得関数計算モジュールは、例えば、ズーム情報を更に受信するように構成され、ズーム情報はカメラの開口角度を示し、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
【0037】
実施の形態において、利得関数計算モジュールは、例えば、ズーム情報に依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
【0038】
実施の形態に従って、利得関数計算モジュールは、例えば、映像イメージと音響イメージとを位置合わせするための測定パラメータを更に受信するように構成され、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれのパンニング利得関数を生成するように構成されている。
【0039】
実施の形態において、利得関数計算モジュールは、例えば、測定パラメータに依存している音声出力信号のそれぞれの窓利得関数を生成するように構成されている。
【0040】
前述の実施の形態の1つに従って、利得関数計算モジュールは、例えば、映像イメージについての情報を受信するように構成され、利得関数計算モジュールは、例えば、映像イメージについての情報に依存して、音源の知覚的拡がりを実現するために、複合利得を戻すぼけ関数を生成するように構成されている。
【0041】
さらに、1つ以上の音声出力信号を生成するための装置が提供される。装置は、信号プロセッサと、出力インタフェースと、を備えている。信号プロセッサは、2つ以上のオリジナル音声信号の直進信号コンポーネント
を含む直進コンポーネント信号を受信するように構成され、信号プロセッサは、2つ以上のオリジナル音声信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を受信するように構成され、信号プロセッサは、方向情報を受信するように構成され、前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存している。さらに、信号プロセッサは、拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成するように構成されている。1つ以上の音声出力信号のそれぞれの音声出力信号のために、信号プロセッサは、
到来方向に依存して直進利得を決定するように構成され、信号プロセッサは、処理された直進信号を得るために、前記直進利得を直進コンポーネント信号に適用するように構成され、そして、信号プロセッサは、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号のうちの1つとを結合するように構成されている。出力インタフェースは、1つ以上の音声出力信号を出力するように構成されている。信号プロセッサは、1つ以上の利得関数を計算するための利得関数計算モジュールを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられた利得関数リターン値を戻すように構成されている。さらに、信号プロセッサは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、
到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択するための信号変更器を更に含む。
【0042】
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上の音声入力信号を受信し、
2つ以上の音声入力信号の直進信号コンポーネント
を含む直進コンポーネント信号を生成し、
2つ以上の音声入力信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を生成し、
2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存している方向情報を受信し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、
到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
【0043】
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、
到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
【0044】
さらに、1つ以上の音声出力信号を生成するための方法が提供される。方法は、
2つ以上のオリジナル音声信号の直進信号コンポーネント
を含む直進コンポーネント信号を受信し、
2つ以上のオリジナル音声信号の拡散信号コンポーネント
を含む拡散コンポーネント信号を受信し、
方向情報を受信し、方向情報は2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存し、
拡散コンポーネント信号に依存している1つ以上の処理された拡散信号を生成し、
1つ以上の音声出力信号のそれぞれの音声出力信号のために、
到来方向に依存して直進利得を決定し、処理された直進信号を得るために直進コンポーネント信号に前記直進利得を適用して、そして、前記音声出力信号を生成するために、処理された直進信号と1つ以上の処理された拡散信号の1つとを結合し、そして、
1つ以上の音声出力信号を出力すること、を含む。
【0045】
1つ以上の音声出力信号を生成することは、1つ以上の利得関数を計算することを含み、1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含み、利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられ、前記利得関数が前記利得関数議論値のうちの1つを受信するとき、前記利得関数が、前記利得関数議論値のうちの1つに割り当てられている利得関数リターン値を戻すように構成されている。さらに、1つ以上の音声出力信号を生成することは、前記利得関数から方向依存議論値に割り当てられている利得関数リターン値を得るために、および、前記利得関数から得られた前記利得関数リターン値に依存する1つ以上の音声出力信号のうちの少なくとも1つの音声出力信号の利得値を決定するために、
到来方向に依存して、1つ以上の利得関数の利得関数の利得関数議論値から前記方向依存議論値を選択することを含む。
【0046】
さらに、コンピュータプログラムが提供される。コンピュータプログラムのそれぞれは、コンピュータ上もしくは信号プロセッサ上で実行されると、前述の方法の1つを実行するように構成され、その結果、前述の方法のそれぞれが、コンピュータプログラムの1つによって実行される。
【0047】
以下において、本発明の実施の形態が図面を参照して詳細に説明される。
【発明を実施するための形態】
【0049】
図1aは、1つ以上の音声出力信号を生成するためのシステムを説明する。システムは、分解モジュール101と信号プロセッサ105と出力インタフェース106と
を含む。
【0050】
分解モジュール101は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の直進信号コンポーネント
を含む直進コンポーネント信号X
dir(k,n)を生成するように構成されている。さらに、分解モジュール101は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の拡散信号コンポーネント
を含む拡散コンポーネント信号X
diff(k,n)を生成するように構成されている。
【0051】
信号プロセッサ105は、直進コンポーネント信号X
dir(k,n)と拡散コンポーネント信号X
diff(k,n)と方向情報とを受信するように構成され、前記方向情報は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の直進信号コンポーネントの
到来方向に依存している。
【0052】
さらに、信号プロセッサ105は、拡散コンポーネント信号X
diff(k,n)に依存している1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)を生成するように構成されている。
【0053】
1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)のそれぞれの音声出力信号Y
i(k,n)のために、信号プロセッサ105は、
到来方向に依存して直進利得G
i(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Y
dir,i(k,n)を得るために、前記直進利得G
i(k,n)を直進コンポーネント信号X
dir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、音声出力信号Y
i(k,n)を生成するために、前記処理された直進信号Y
dir,i(k,n)と1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)の1つY
diff,i(k,n)とを結合するように構成されている。
【0054】
出力インタフェース106は、1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を出力するように構成されている。
【0055】
概説したように、方向情報は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…x
p(k,n)の直進信号コンポーネントの
到来方向φ(k,n)に依存する。例えば、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…x
p(k,n)の直進信号コンポーネントの
到来方向は、例えば方向情報自身である。または、例えば方向情報は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…x
p(k,n)の直進信号コンポーネントの伝播方向である。
到来方向が、受信マイクロフォン配列から音源までを示しながら、伝播方向は、音源から受信マイクロフォン配列までを示す。従って、伝播方向は、
到来方向の逆方向を正確に示し、それ故、到達の方向に依存する。
【0056】
1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)の1つY
i(k,n)を生成するために、信号プロセッサ105は、
到来方向に依存して、直進利得G
i(k,n)を決定し、
処理された直進信号Y
dir,i(k,n)を得るために、前記直進利得G
i(k,n)を直進コンポーネント信号X
dir(k,n)に適用し、
前記音声出力信号Y
i(k,n)を生成するために、前記処理された直進信号Y
dir,i(k,n)と1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)の1つY
diff,i(k,n)とを結合する。
【0057】
これは、Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を生成するべき1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)のそれぞれに対して実行される。信号プロセッサは、例えば、1つ、2つ、3つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を生成するように構成される。
【0058】
1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)に関して、実施の形態に従って、信号プロセッサ105は、例えば、拡散利得Q(k,n)を拡散コンポーネント信号X
diff(k,n)に適用することによって、1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)を生成するように構成されている。
【0059】
分解モジュール101は、例えば、1つ以上の音声入力信号を、直進コンポーネント信号と拡散コンポーネント信号とに分解することによって、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…x
p(k,n)の直進信号コンポーネント
を含む直進コンポーネント信号X
dir(k,n)と、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…x
p(k,n)の拡散信号コンポーネント
を含む拡散コンポーネント信号X
diff(k,n)とを生成するように構成されている。
【0060】
特定の実施の形態において、信号プロセッサ105は、例えば、2つ以上の音声出力チャンネルY
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を生成するように構成されている。信号プロセッサ105は、例えば、中間的な拡散信号を得るために、拡散利得Q(k,n)を拡散コンポーネント信号X
diff(k,n)に適用するように構成されている。さらに、信号プロセッサ105は、例えば、非相関性を実施して、中間的な拡散信号から1つ以上の非相関性信号を生成するように構成されている。1つ以上の非相関性信号は、1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)を形成する。または、中間的な拡散信号および1つ以上の非相関性信号は、1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)を形成する。
【0061】
例えば、処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)の数と、音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)と、は等しい。
【0062】
中間的な拡散信号から1つ以上の非相関性信号を生成することは、例えば、遅延を中間的な拡散信号に適用することによって、あるいは、ノイズ爆発によって中間的な拡散信号を巻き込むことによって、あるいは、インパルス反応などによって中間的な拡散信号を巻き込むことによって実行される。最先端非相関性技術のどのような別の主張も、例えば、代わりに又は付加的に適用される。
【0063】
v個の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)に対して、v個の直進利得G
1(k,n)、G
2(k,n)、…、G
v(k,n)のv個の決定と、1つ以上の直進コンポーネント信号X
dir(k,n)に各利得のv個の応用が、例えば、v個の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を得るために用いられる。
【0064】
ただ1つの拡散コンポーネント信号X
diff(k,n)と、ただ1つの信号拡散利得Q(k,n)のただ1つの決定と、拡散コンポーネント信号X
diff(k,n)への拡散利得Q(k,n)のただ1つの応用とが、例えば、v個の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を得るために必要である。非相関性を達成するために、非相関性技術が、拡散コンポーネント信号に既に適用された後の拡散利得にのみ適用される。
【0065】
図1aの実施の形態に従って、同じ処理された拡散信号Y
diff(k,n)は、音声出力信号のうちの対応する一つ(Y
i(k,n))を得るために、処理された直進信号のうちの対応する一つ(Y
dir,i(k,n))と結合される。
【0066】
図1aの実施の形態は、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の直進信号コンポーネントの
到来方向を考慮する。従って、音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)は、直進コンポーネント信号X
dir(k,n)と
到来方向に依存している拡散コンポーネント信号X
diff(k,n)とを柔軟に適合することによって生成される。高度な適応化可能性が達成される。
【0067】
実施の形態に従って、音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)は、例えば、時間−周波数領域のそれぞれの時間−周波数ビン(k,n)のために決定される。
【0068】
実施の形態に従って、分解モジュール101は、例えば、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)を受信するように構成されている。別の実施の形態において、分解モジュール101は、例えば、3つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)を受信するように構成されている。分解モジュール101は、例えば、2つ以上(または、3つ以上)の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)を、マルチチャネル信号でない拡散コンポーネント信号X
diff(k,n)と、1つ以上の直進コンポーネント信号X
dir(k,n)とに分解するように構成されている。音声信号がマルチチャネル信号でないことは、音声信号が1つより多い音声チャンネルを含まないことを意味する。従って、複数の音声入力信号の音声情報は、2つのコンポーネント信号(X
dir(k,n),X
diff(k,n))の中で(そして、可能ならば、追加の副情報の中で)送信される。それは効率的な送信を許す。
【0069】
信号プロセッサ105は、例えば、前記音声出力信号Y
i(k,n)のための直進利得G
i(k,n)を決定することによって、そして、前記音声出力信号Y
i(k,n)のための処理された直進信号Y
dir,i(k,n)を得るために、前記直進利得G
i(k,n)を1つ以上の直進コンポーネント信号X
dir(k,n)に適用することによって、そして、前記音声出力信号Y
i(k,n)を生成するために、前記前記音声出力信号Y
i(k,n)のための処理された直進信号Y
dir,i(k,n)と、処理された拡散信号Y
diff(k,n)と、を結合することによって、2つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)のそれぞれの音声出力信号Y
i(k,n)を生成するように構成されている。出力インタフェース106は、2つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を出力するように構成されている。ただ1つの処理された拡散信号Y
diff(k,n)を決定することによって、2つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を生成することは、特に有利である。
【0070】
図1bは、1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を生成するための装置を、実施の形態に従って説明する。装置は、
図1aのシステムのいわゆる「遠端」側を実施する。
【0071】
図1bの装置は、信号プロセッサ105と出力インタフェース106と
を含む。
【0072】
信号プロセッサ105は、2つ以上のオリジナルの音声信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)(例えば、
図1aの音声入力信号)の直進信号コンポーネント
を含む直進コンポーネント信号X
dir(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、2つ以上のオリジナルの音声信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の拡散信号コンポーネント
を含む拡散コンポーネント信号X
diff(k,n)を受信するように構成されている。さらに、信号プロセッサ105は、方向情報を受信するように構成されている。前記方向情報は、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向に依存している。
【0073】
信号プロセッサ105は、拡散コンポーネント信号X
diff(k,n)に依存している1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)を生成するように構成されている。
【0074】
1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)のそれぞれの音声出力信号Y
i(k,n)のために、信号プロセッサ105は、
到来方向に依存して、直進利得G
i(k,n)を決定するように構成されている。信号プロセッサ105は、処理された直進信号Y
dir,i(k,n)を得るために、前記直進利得G
i(k,n)を直進コンポーネント信号X
dir(k,n)に適用するように構成されている。そして、信号プロセッサ105は、前記音声出力信号Y
i(k,n)を生成するために、前記処理された直進信号Y
dir,i(k,n)と1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)の1つX
diff,i(k,n)とを結合するように構成されている。
【0075】
出力インタフェース106は、1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)を出力するように構成されている。
【0076】
以下のシステムに関連して説明された信号プロセッサ105の全ての構成は、また、
図1bに従っている装置の中で実施される。これは、特に、以下に説明される信号変更器103および利得関数計算モジュール104の様々な構成と関連する。同ことが、以下に説明された概念の様々な応用例のために適用される。
【0077】
図1cは別の実施の形態に従っているシステムを示す。
図1cにおいて、
図1aの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値
を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
【0078】
さらに、信号プロセッサ105は、
到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
【0079】
図1dは別の実施の形態に従っているシステムを説明する。
図1dにおいて、
図1bの信号生成器105は、1つ以上の利得関数を計算するための利得関数計算モジュール104を更に含む。1つ以上の利得関数のそれぞれの利得関数は、複数の利得関数議論値を含む。利得関数リターン値は、前記利得関数議論値のそれぞれに割り当てられる。前記利得関数が、前記利得関数議論値の1つを受信するとき、前記利得関数は、前記利得関数議論値の前記1つに割り当てられている利得関数リターン値を戻すように構成されている。
【0080】
さらに、信号プロセッサ105は、
到来方向に依存して、直進依存議論値を、1つ以上の利得関数の利得関数の利得関数議論値から選択するための、そして、前記利得関数から前記方向依存議論値に割り当てられている利得関数リターン値を得るための、そして、前記利得関数から得られた前記利得関数リターン値に依存している1つ以上の音声出力のうちの少なくとも1つの利得値を決定するための信号変更器103を更に含む。
【0081】
実施の形態は、音響イメージが、例えば遠端側で音声を誉めている映像によって決定される望ましい空間イメージに矛盾しないように、空間音を録音して再生することを提供する。いくつかの実施の形態が、騒々しい近端側に置かれたマイクロフォン配列による録音に基づいている。実施の形態は、例えば、カメラの映像ズームに矛盾しない音響ズームを提供する。例えば、ズーミングしているとき、スピーカーの直進音は、映像イメージおよび音響イメージが位置合わせされるように、スピーカーが、ズームされた映像イメージの中に置かれた方向から再生される。仮に、スピーカーが、ズーミングした後に、映像イメージの外に(または、望ましい空間領域の外に)置かれているならば、これらのスピーカーの直進音は、これらのスピーカーがもう見えないように、または、例えば、これらのスピーカーからの直進音が望まれないように弱められる。さらに、直進対反射比率は、例えば、映像カメラのより小さい開口角度を擬態するためにズーミングするとき、増大する。
【0082】
実施の形態は、近端側の2つの最近のマルチチャネルフィルタを適用することによって、録音されたマイクロフォン信号を、音源の直進音と拡散音(例えば鳴り響く音)とに分離する概念に基づく。これらのマルチチャネルフィルタは、例えば、直進音のDOAのような音フィールドのパラメータ情報に基づく。いくつかの実施の形態において、直進音と拡散音の分離は、例えば、パラメータ情報と共に遠端側に送信される。
【0083】
例えば、遠端側で、特定の重み付けが、例えば、結果として生じている音声出力信号が、望ましい空間イメージに矛盾しないように、再生された音響イメージを適合する取り出された直進音と拡散音とに適用される。これらの重み付けは、例えば音響ズーム効果および依存を、例えば直進音の
到来方向(DOA)上に、および、例えばズーミングファクターおよび/またはカメラの視方向上にモデルを作る。最終的な音声出力信号は、例えば、それ故、重み付けされた直進音と拡散音とを合計することによって得られる。
【0084】
提供された概念は、消費者装置で前記ビデオ録音シナリオまたはテレビ会議シナリオにおいて、有効な使用を実現する。例えば、ビデオ録音シナリオにおいて、それは、例えば、再創成された空間イメージをまだコントロールすることができる間、取り出された直進音および拡散音(あるいは、すべてのマイクロフォン信号)を蓄えるまたは送信することについて十分である。
【0085】
これは、仮に例えば、映像ズームがポスト処理ステップ(デジタルズーム)に応用されるならば、音響イメージが、オリジナルのマイクロフォン信号を蓄えてアクセスする必要なく、従ってまだ修正できることを意味している。テレビ会議シナリオにおいても、提案された概念は有効に使われる。なぜなら、遠端側で空間音再生をコントロールして(例えばスピーカーセットアップを変更して)、音響イメージおよび映像イメージを位置合わせすることがまだできる間、直進音および拡散音の取り出しは、近端側で実行されるからである。従って、副情報として、少しの音声信号および推定DOAのみを送信することが必要であるけれども、遠端側のコンピュータ処理の複雑さは低い。
【0086】
図2は実施の形態に従っているシステムを説明する。近端側はモジュール101と102と
を含む。遠端側はモジュール105と106と
を含む。モジュール105自身は、モジュール103と104と
を含む。参照が近端側と遠端側にされるとき、いくつかの実施の形態において、第1の装置が近端側(例えば、モジュール101と102と
を含む)を実行し、第2の装置が遠端側(例えば、モジュール103と104と
を含む)を実行することが理解される。一方、別の実施の形態において、1つの装置が、遠端側だけでなく近端側を実行する。そのような1つの装置は、例えば、モジュール101と102と103と104と
を含む。
【0087】
特に、
図2は、分解モジュール101と、パラメータ推定モジュール102と、信号プロセッサ105と、出力インタフェース106と
を含む実施の形態に従っているシステムを説明する。
図2において、信号プロセッサ105は、利得関数計算モジュール104と信号変更器103とを含む。信号プロセッサ105と出力インタフェース106とは、例えば、
図1bによって説明される装置を実現する。
【0088】
図2において、とりわけ、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)を受信するように構成されている。さらに、パラメータ推定モジュール102は、例えば、2つ以上の音声入力信号に依存している2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の直進信号コンポーネントの
到来方向を推定するように構成されている。信号プロセッサ105は、例えば、パラメータ推定モジュール102から2つ以上の音声入力信号の直進信号コンポーネントの
到来方向を含む
到来方向情報を受信するように構成されている。
【0089】
図2のシステムの入力は、時間−周波数領域(周波数はkを示し、時間はnを示す)のM個のマイクロフォン信号X
1...M(k,n)から成る。マイクロフォンにより捕らえられる音フィールドが、それぞれの(k,n)のために、等方性拡散フィールドを伝播している平面波から成ることが、例えば、推定される。平面波が音源(例えばスピーカー)の直進音をモデル作成する一方、拡散音が反射をモデル作成する。
【0090】
そのようなモデルに従って、m番目のマイクロフォン信号は式(1)として書かれる。
X
m(k,n)=X
dir,m(k,n)+X
diff,m(k,n)+X
n,m(k,n) (1)
ここで、X
dir,m(k,n)は、測定された直進音(平面波)であり、X
diff,m(k,n)は、測定された拡散音であり、X
n,m(k,n)は、雑音コンポーネント(例えば、マイクロフォン自身の雑音)である。
【0091】
図2の分解(直進/拡散分解)モジュール101において、直進音X
dir(k,n)および拡散音X
diff(k,n)は、マイクロフォン信号から取り出される。例えば、この目的のために、以下に説明されるインフォームドマルチチャネルフィルタが用いられる。直進/拡散分解のために、音フィールドについての特定のパラメータ情報は、例えば、直進音φ(k,n)のDOAを採用する。このパラメータ情報は、例えば、パラメータ推定モジュール102の中のマイクロフォン信号から推定される。直進音のDOAφ(k,n)以外、いくつかの実施の形態において、距離情報r(k,n)が、例えば推定される。この距離情報は、例えば、マイクロフォン配列と平面波を放出している音源との間の距離を示す。パラメータ推定のために、距離推定器および/または最先端のDOA推定器が、例えば、用いられる。対応する推定器が、例えば、以下で示される。
【0092】
取り出された直進音X
dir(k,n)と取り出された拡散音X
diff(k,n)と推定された直進音のパラメータ情報(例えば、DOAφ(k,n)および/または距離r(k,n))は、例えば、望ましい空間イメージと共に空間音を生成するために、例えば、音響ズーム効果を創生するために、記憶されて遠端側に送信され、または、直ぐに使用される。
【0093】
望ましい音響イメージ、例えば、音響ズーム効果は、取り出された直進音X
dir(k,n)と、取り出された拡散音X
diff(k,n)と、推定されたパラメータ情報φ(k,n)、および/または、r(k,n)と、を使って信号変更器103の中で生成される。
【0094】
信号変更器103は、例えば、それが、望ましい空間イメージと矛盾しないように、音響イメージを再創成する時間−周波数領域の中の1つ以上の出力信号Y
i(k,n)を計算する。例えば、出力信号Y
i(k,n)は、音響ズーム効果を擬態する。これらの信号は、最終的に、時間領域に戻して変換され、例えばスピーカーまたはヘッドホーンで再生される。i番目の出力信号Y
i(k,n)は、取りだされた直進音X
dir(k,n)および拡散音X
diff(k,n)の重み付けされた合計として、例えば、式(2a)と式(2b)とで計算される。
【0095】
式(2a)および式(2b)において、重み付けG
i(k,n)およびQは、望ましい音響イメージ、例えば音響ズーム効果を創生するために用いられるパラメータである。例えば、ズーミングのとき、パラメータQは、再生された拡散音が弱められるように、減らされる。
【0096】
さらに、重み付けG
i(k,n)と共に、それは、直進音が、映像および音響イメージが位置合わせされるように再生される方向からコントロールされる。さらに、音響ぼやけ効果は、直進音に位置合わせされる。
【0097】
いくつかの実施の形態において、重み付けG
i(k,n)およびQは、例えば、利得選択ユニット201および202の中で決定される。これらのユニットは、例えば、推定されたパラメータ情報φ(k,n)およびr(k,n)に依存している、g
iとqとによって示された2つの利得関数から、適切な重み付けG
i(k,n)およびQを選択する。数学的に式(3a)と式(3b)とによって表現する。
G
i(k,n)=g
i(φ,r) (3a)
Q(k,n)=q(r) (3b)
【0098】
いくつかの実施の形態において、利得関数g
iおよびqは、応用に依存し、例えば、利得関数計算モジュール104の中で生成される。利得関数は、重み付けG
i(k,n)およびQが、望ましい矛盾のない空間イメージが得られるように、与えられたパラメータ情報φ(k,n)および/またはr(k,n)のための式(2a)において使われるべきことを示す。
【0099】
例えば、映像カメラでズーミングするとき、利得関数は適合され、その結果、音は、音源がビデオの中で見える方向から再生される。重み付けG
i(k,n)とQ、および、潜在的な利得関数g
iとqは、更に以下に説明される。重み付けG
i(k,n)とQ、および、潜在的な利得関数g
iとqは、例えば、複雑な値であることに注目するべきである。利得関数を計算することは、ズーミングファクターや映像イメージの幅や望ましい視方向やスピーカーセットアップなどの情報を必要とする。
【0100】
別の実施の形態において、重み付けG
i(k,n)およびQは、モジュール104において最初に利得関数を計算して、それから、利得選択ユニット201および202の中で計算された利得関数から重み付けG
i(k,n)およびQを選択する代わりに、信号変更器103内で直接に計算される。
【0101】
実施の形態に従って、1つの時間−周波数当たり1つ以上の平面波が、例えば、特に処理される。例えば、2つの異なる方向から同じ周波数帯の2つ以上の平面波が、例えば、マイクロフォン配列によって同じ時間ポイントに録音されるように到達する。これらの2つの平面波は、それぞれ、異なる
到来方向を持つ。そのようなシナリオにおいて、2つ以上の平面波の直進信号コンポーネントおよびそれらの
到来方向が、例えば、別々に考慮される。
【0102】
実施の形態に従って、直進コンポーネント信号X
dir1(k,n)と1つ以上の別の直進コンポーネント信号X
dir2(k,n)、…、X
dir q(k,n)は、例えば、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)…、X
dir q(k)のグループを形成する。分解モジュール101は、例えば、2つ以上の音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の別の直進信号コンポーネント
を含む1つ以上の別の直進コンポーネント信号X
dir2(k,n)、…、X
dir q(k,n)を生成するように構成されている。
【0103】
到来方向と1つ以上の別の
到来方向は、2つ以上の
到来方向のグループを形成する。2つ以上の
到来方向のグループのそれぞれの
到来方向は、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)、…、X
dir q,m(k,n)のグループの1つの直進コンポーネント信号X
dir j(k,n)に正確に割り当てられる。2つ以上の直進コンポーネント信号の直進コンポーネント信号の数と、2つの
到来方向の
到来方向の数とは等しい。
【0104】
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)、…、X
dir q(k,n)のグループと、2つ以上の
到来方向のグループとを受信するように構成されている。
【0105】
1つ以上の音声出力信号Y
1(k,n)、Y
2(k,n)、…、Y
v(k,n)のそれぞれの音声出力信号Y
i(k,n)のために、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)、…、X
dir q(k,n)のグループのそれぞれの直進コンポーネント信号X
dir j(k,n)のために、前記直進コンポーネント信号X
dir j(k,n)の
到来方向に依存している直進利得G
j,i(k,n)を決定するように構成され、
信号プロセッサ105は、例えば、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)、…、X
dir q(k,n)のグループのそれぞれの直進コンポーネント信号X
dir j(k,n)のために、前記直進コンポーネント信号X
dir j(k,n)の直進利得G
j,i(k,n)を前記直進コンポーネント信号X
dir j(k,n)に適用することによって、2つ以上の処理された直進信号Y
dir1,i(k,n)、Y
dir2,i(k,n)、…、Y
dir q,i(k,n)のグループを生成するように構成され、そして、
信号プロセッサ105は、例えば、前記音声出力信号Y
i(k,n)を生成するために、1つ以上の処理された拡散信号Y
diff,1(k,n)、Y
diff,2(k,n)、…、Y
diff,v(k,n)の1つY
diff,i(k,n)と、2つ以上の処理された信号Y
dir1,i(k,n)、Y
dir2,i(k,n)、…、Y
dir q,i(k,n)のグループのそれぞれの処理された信号Y
dir j,i(k,n)とを結合するように構成されている。
【0106】
従って、仮に、2つ以上の平面波が別々に考慮されるならば、式(1)のモデルは次のようになる。
X
m(k,n)=X
dir1,m(k,n)+X
dir2,m(k,n)+…+X
dir q,m(k,n)+X
diff,m(k,n)+ X
n,m(k,n)
そして、重み付けは、例えば、式(2a)および式(2b)に相似して、次のように計算される。
Y
i(k,n)=G
1,i(k,n)X
dir1(k,n)+G
2,i(k,n)X
dir2(k,n)+…+G
q,i(k,n)X
dir q(k,n)+QX
diff,m(k,n)
=Y
dir1,i(k,n)+Y
dir2,i(k,n)+…+Y
dir q,i(k,n)+Y
diff,i(k,n)
【0107】
ほんのわずかの直進コンポーネント信号と拡散コンポーネント信号と副情報が、近端側から遠端側に送信されるだけで十分である。実施の形態において、2つ以上の直進コンポーネント信号X
dir1(k,n)、X
dir2(k,n)、…、X
dir q(k,n)プラス1のグループの直進コンポーネント信号の数は、受信インタフェース101によって受信されている音声入力信号x
1(k,n)、x
2(k,n)、…、x
p(k,n)の数より小さい。(インデックス:q+1<pを使って)「プラス1」は、必要な拡散コンポーネント信号X
diff(k,n)を表す。
【0108】
以下において、説明は、1つの平面波と、1つの
到来方向と、1つの直進コンポーネント信号とについて提供される。説明された概念は、1つ以上の平面波、1つ以上の
到来方向と、1つ以上の直進コンポーネント信号とについて、等しく適用可能であることが理解される。
【0109】
以下において、直進音および拡散音取り出しが説明される。直進/拡散分解を実現する
図2の分解モジュール101の実用的な実現が、提供される。
【0110】
実施の形態において、矛盾のない空間音再生を実現するために、[8]および[9]に記載された2つの最近提案されたインフォームド線形的強制最小変化(LCMV)フィルタの出力が結合される。それは、DirAC(方向性音声コード化)の中の同様な音フィールドモデルを推定する望ましい任意の反応と共に、直進音および拡散音の正確なマルチチャネルの取り出しを可能にする。これらのフィルタを結合するための具体的な方法は、以下において説明される。
【0111】
先ず、実施の形態に従って直進音の取り出しが説明される。
【0112】
直進音は、[8]に記載された最近提案されたインフォームド空間フィルタを使って取り出される。このフィルタは、以下において簡単に報告され、それから、
図2に従って実施の形態において使われるように公式化される。
【0114】
ここで、a(k,φ)は、いわゆる配列伝播ベクトルである。このベクトルのm番目の要素は、配列のm番目のマイクロフォンと参照マイクロフォンとの間の直進音の相対的移転関数である(一般性の損失なく、ポジションd1の最初のマイクロフォンが、以下の説明において使われる)。このベクトルは、直進音のDOAφ(k,n)に依存する。
【0115】
配列伝播ベクトルは、例えば、[8]において定義される。[8]の式(6)において、配列伝播ベクトルは以下の式に従って定義される。
a(k,φ
l)=[a
1(k,φ
l)・・・a
M(k,φ
l)]
T
ここで、φ
lは、l番目の平面波の
到来方向の方位角度である。従って、配列伝播ベクトルは
到来方向に依存する。仮に、1つの平面波mのみが存在するか、または考慮されるならば、インデックスlは省略される。
【0116】
[8]の式(6)に従って、1番目からi番目へのマイクロフォンにl番目の平面波の移相シフトを説明する配列伝播ベクトルaのi番目の要素a
iは、以下の式に従って定義される。
a
i(k,φ
l)=exp{jkr
isinφ
l(k,n)}
例えば、r
iは、1番目とi番目のマイクロフォンとの間の距離に等しく、κは平面波の波数を示し、jは虚数である。
【0117】
配列伝播ベクトルaとその要素a
iについてのより多くの情報は、明示的に含まれている[8]の中に見付けられる。
【0118】
式(5)のM×M行列Φ
u(k,n)は、[8]で説明されたように決定されるノイズおよび拡散音のパワースペクトル密度(PSD)行列である。式(5)に対する解決策は、以下の式(7)と式(8)によって与えられる。
【0119】
フィルタを計算するのには、配列伝播ベクトルa(k,φ)が必要である。それは、直進音のDOAφ(k,n)が[8]で推定された後に決定できる。上述のように、配列伝播ベクトルとそのようなフィルタとは、DOAに依存する。DOAは以下で説明されるように推定される。
【0120】
[8]において提案されたインフォームド空間フィルタ、例えば、式(4)と(7)とを使って直進音を取り出すことは、
図2の実施の形態において直接使えない。事実、計算は、直進音利得G
i(k,n)と同様にマイクロフォン信号x(k,n)を必要とする。
図2において見られように、マイクロフォン信号x(k,n)は近端側でのみ入手可能であり、一方、直進音利得G
i(k,n)は遠端側でのみ入手可能である。
【0121】
本発明の実施の形態においてインフォームド空間フィルタを使うために、修正が提供される。我々は式(7)を式(4)に代入して、以下の式(9)を導く。
【0123】
従って、実施の形態に従って、分解モジュール101は、例えば、フィルタを、以下の式に従う2つ以上の音声入力信号に適用することによって、直進コンポーネント信号を生成するように構成されている。
ここで、Φ
u(k,n)は、2つ以上の音声入力信号の雑音および拡散音のパワースペクトル密度行列を示す。a(k,φ)は配列伝播ベクトルを示す。そして、φは、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向の方位角度を示す。
【0124】
図3は、実施の形態に従って、直進/拡散分解を実施しているパラメータ推定モジュール102と分解モジュール101とを示す。
【0125】
図3によって示された実施の形態は、直進音取り出しモジュール203による直進音取り出しと、拡散音取り出しモジュール204による拡散音取り出しを実現する。
【0126】
直進音の取り出しは、直進音取り出しモジュール203の中で、式(10)において与えられるように、フィルタの重み付けをマイクロフォン信号に適用することによって実行される。直進フィルタの重み付けは、例えば式(8)によって実現できる直進重み付け計算ユニット301の中で計算される。例えば式(9)の利得G
i(k,n)は、その時、
図2に示されるように遠端側で適用される。
【0127】
以下において、拡散音の取り出しが説明される。拡散音取り出しは、例えば、
図3の拡散音取り出しモジュール204によって実施される。拡散フィルタの重み付けは、例えば、以下において説明されるように、
図3の拡散重み付け計算ユニット302の中で計算される。
【0128】
実施の形態において、拡散音は、例えば、[9]において最近提案された空間フィルタを使って取り出される。式(2a)および
図2の中の拡散音X
diff(k,n)は、例えば、第2空間フィルタをマイクロフォン信号に適用することによって推定される。例えば、
【0129】
拡散音h
diff(k,n)のために最適なフィルタを見つけるために、我々は、[9]において最近提案されたフィルタを考慮する。そのフィルタは、フィルタ出力でのノイズを最小化しながら、望ましい任意の反応によって、拡散音を取り出すことができる。空間白色ノイズのために、フィルタは、式(12)によって与えられる。
【0130】
図3は、実施の形態に従って、拡散音取り出しを更に示す。拡散音取り出しは、式(11)において与えられるよう、フィルタの重み付けをマイクロフォン信号に適用することによって、拡散音取り出しモジュール204の中で実行される。フィルタの重み付けは、例えば式(13)を採用することによって実現される拡散重み付け計算ユニット302の中で計算される。
【0131】
以下において、パラメータ推定が示される。パラメータ推定は、例えば、パラメータ推定モジュール102によって指揮される。その中で、録音された音場面についてパラメータ情報が、例えば、推定される。このパラメータの情報は、分解モジュール101の中の2つの空間フィルタを計算するために、そして、信号変更器103の中の矛盾しない空間音声再生における利得選択のために採用される。
【0132】
先ず、DOA情報の決定/推定が示される。
【0133】
以下において、実施の形態が示される。パラメータ推定モジュール(102)は、直進音のための、例えば、音源位置から発生し、マイクロフォン配列に到達する平面波のためのDOA推定器を含む。一般性の損失無しで、1つの平面波が、時間および周波数毎に存在することが仮定される。別の実施の形態は、複数の平面波が存在する場合を考慮し、ここで示された1つの平面波概念を複数の平面波に拡張することは容易である。従って、本発明は複数の平面波を持つ実施の形態もカバーする。
【0134】
狭周波数帯域DOAは、ESPRIT[10]やルートMUSIC[11]などの最先端の狭周波数帯域DOA推定器の1つを使って、マイクロフォン信号から推定される。方位角度φ(k,n)の代わりに、DOA情報も、マイクロフォン配列に到達する1つ以上の波のために、空間周波数μ[k|φ(k,n)]または移相シフトまたは伝播ベクトルa[k|φ(k,n)]の形式で提供される。DOA情報が、また、外的に提供されることは注目するべきである。例えば、平面波のDOAは、人の話し手が音響場面を形成すると仮定している顔面認識アルゴリズムと共にビデオカメラによって決定される。
【0135】
最後に、DOA情報は、また、3Dにおいて(3次元において)推定されることに注目するべきである。その場合、方位角度φ(k,n)および昇降角度θ(k,n)は、パラメータ推定モジュール102の中で推定され、平面波のDOAは、そのような場合において、例えば、(φ,θ)として提供される。
【0136】
従って、参照が、以下でDOAの方位角度にされるとき、全ての説明が、DOAの昇降角度に、または、DOAの方位角度から引き出された角度に、または、DOAの昇降角度から引き出された角度に、またはDOAの方位角度および昇降角度から引き出された角度に適用可能であることが理解される。より一般的には、下に提供された全ての説明は、DOAに依存しているどの角度にも等しく適用可能である。
【0137】
次に、距離情報決定/推定が示される。
【0138】
いくつかの実施の形態が、DOAと距離とに基づいて、一番上の音響ズームと関連する。そのような実施の形態において、パラメータ推定モジュール102は、例えば、2つのサブモジュール、例えば、上述のDOA推定器サブモジュールと、録音位置から音源r(k,n)までの距離を推定する距離推定サブモジュールとを含む。そのような実施の形態において、例えば、録音しているマイクロフォン配列に到達するそれぞれの平面波が、音源から創生し、直線に沿ってマイクロフォン配列に伝播すること(それは、また、直進伝播パスとしても知られている)が仮定される。
【0139】
いくつかの最先端の取り組みが、マイクロフォン信号を使う距離推定のために存在する。例えば、音源までの距離は、[12]の中に示されているように、マイクロフォン信号間のパワー比率を計算することによって見付けられる。あるいは、音響の囲い(例えば部屋)の中の音源r(k,n)までの距離が、推定された信号対拡散比率(SDR)[13]に基づいて計算される。SDR推定は、その時、距離を計算するために、(既知の、または、最先端の方法を用いて推定された)部屋の反響時間と結合される。高SDRに対して、直進音エネルギーは、音源までの距離が小さいことを示す拡散音に比較して高い。SDR値が低いとき、直進音パワーは部屋反響に比べて弱い。それは音源までの大きな距離を示す。
【0140】
別の実施の形態において、パラメータ推定モジュール102の中の距離計算モジュールを採用することによって、距離を計算/推定する代わりに、外部の距離情報が、例えば、映像システムから受信される。例えば、映像において使用される最先端の技術が、例えば採用される。それは、距離情報、例えば飛行時間(ToF)と、ステレオスコープ映像と、構造化された光とを提供できる。例えば、ToFカメラにおいて、音源までの距離は、カメラによって放射され、音源まで伝達し、そして、カメラセンサーに戻った光信号の測定された飛行時間から計算される。コンピュータステレオ映像は、例えば、音源までの距離を計算するために、映像イメージが捕らえられる2つの有利な地点を利用する。
【0141】
または、例えば、構造化された光カメラが採用される。そこでは、画素の既知のパターンが、映像場面に投影される。投影後の変形の分析は、映像システムが、音源までの距離を推定することを可能にする。それぞれの時間−周波数ビンのための距離情報r(k,n)が、矛盾のない音声場面再生のために必要であることは注目するべきである。仮に、距離情報が、映像システムによって外部的に提供されるならば、DOAφ(k,n)に対応する音源r(k,n)までの距離は、例えば、その特定の方向φ(k,n)に対応する映像システムから、距離値として選択される。
【0142】
以下において、矛盾のない音響場面再生が考慮される。先ず、DOAに基づく音響場面再生が考慮される。
【0143】
音響場面再生は、録音された音響場面と矛盾しないように実行される。または、音響場面再生は、映像イメージに矛盾しないように実行される。対応している映像情報は、映像イメージに一貫して達成するために提供される。
【0145】
いくつかの実施の形態において、パラメータG
i(k,n)とQとは、利得関数計算モジュール104によって提供された2つの利得関数g
i(φ(k,n))とq(k,n)とから、それぞれ利得選択ユニット201と202との中で選択される。
【0146】
実施の形態に従って、G
i(k,n)は、例えば、DOA情報のみに基づいて選択され、Qは、例えば、一定値を持つ。しかし、別の実施の形態において、別の重み付けG
i(k,n)は、例えば、別の情報に基づいて決定され、重み付けQは、例えば、変化して決定される。
【0147】
先ず、実施が考慮され、それは、録音された音響場面と矛盾なく実現する。後に、考えられるイメージ情報/映像イメージと矛盾なく実現する実施の形態が考慮される。
【0148】
以下において、重み付けG
i(k,n)とQとの計算が、録音された音響場面と矛盾しない音響場面を再生するために示される。例えば、その結果、再生システムのスイートスポットに置かれた聴衆は、録音された音場面の中の音源のDOAから到達し、そして、音源録音された場面の中の同じパワーを持ち、そして、サラウンド拡散音の同じ知覚を再生する音源に気づく。
【0149】
既知のスピーカーセットアップのために、方向φ(k,n)から音源の再生が、例えば、推定DOAφ(k,n)のための利得関数計算モジュール104によって提供された固定ルックアップ・テーブルから、利得選択ユニット201の中の直進音利得G
i(k,n)を選択すること(「直進利得選択」)によって達成される。それは、以下の式のように書かれる。
G
i(k,n)=g
i(φ(k,n)) (15)
ここで、g
i(φ)=p
i(φ)は、i番目のスピーカーのために全てのDOAに亘ってパンニング利得を戻す関数である。パンニング利得関数p
i(φ)は、スピーカーセットアップとパンニング体系に依存する。
【0150】
ステレオの再生において左右のスピーカーのためのベクトルに基づいた振幅パンニング(VBAP)[14]によって定義されるパンニング利得関数p
i(φ)の例は、
図5aにおいて示される。
【0151】
図5aにおいて、ステレオセットアップのためのVBAPパンニング利得関数p
b,iの例が示され、
図5bにおいて、矛盾しない再生のためのパンニング利得が示される。
【0152】
例えば、仮に、直進音がφ(k,n)=30°から到達するならば、右のスピーカー利得はG
r(k,n)=g
r(30°)=p
r(30°)=1であり、左のスピーカー利得はG
l(k,n)=g
l(30°)=p
l(30°)=0である。φ(k,n)=0°から到達する直進音に対して、最終的なステレオスピーカー利得は、G
r(k,n)=G
l(k,n)=√(0.5)である。
【0153】
実施の形態において、パンニング利得関数、例えばp
i(φ)は、例えば、立体音再生の場合の中のヘッド関連移転関数(HRTF)である。
【0154】
例えば、仮に、HRTF g
i(φ)=p
i(φ)が複合値を戻すならば、利得選択ユニット201において選択された直進音利得G
i(k,n)は、例えば、複合値にされる。
【0155】
仮に、3つ以上の音声出力信号が生成されるならば、対応している最先端パンニング概念は、例えば、入力信号を3以上の音声出力信号へパンニングすることが採用される。例えば、3つ以上の音声出力信号のためのVBAPが採用される。
【0156】
矛盾しない音響場面再生において、拡散音のパワーは、録音された場面の中と同じであり続ける。従って、例えば、等しく間隔をおいて配置されたスピーカーを持つスピーカーシステムに対して、拡散音利得は、以下の式(16)のように一定の値を持つ。
Q=q
i=1/√I (16)
ここで、Iは、出力スピーカーチャンネルの数である。これは、利得関数計算モジュール104が、再生で利用可能なスピーカーの数に依存しているi番目のスピーカー(または、ヘッドホーンチャンネル)のための1つの出力値を提供することを意味する、この値は、全ての周波数に亘る拡散利得Qとして使われる。i番目のスピーカーチャンネルのための最終的な拡散音Y
diff,i(k,n)は、式(2b)の中に得られたY
diff(k,n)を無関連にすることによって得られる。
【0158】
今や、映像場面との一貫性を達成する実施の形態に従う音声出力信号生成が、示される。特に、映像場面と矛盾しない音響場面を再生するために採用される実施の形態に従う重み付きG
i(k,n)およびQの計算が、示される。それは、音源からの直進音が、映像/イメージの中で音源が見える方向から再生される音響イメージを再創生することを目指す。
【0159】
図4に描かれた幾何学が考慮される。Iは映像カメラの視方向に対応する。一般性を損失することなく、Iは座標系のY軸を定義する。
【0160】
描かれた(x、y)座標系の中の直進音のDOAの方位は、φ(k,n)によって与えられる。x軸上の音源の位置は、x
g(k,n)によって与えられる。ここで、全ての音源がx軸に対して同じ距離gに置かれることが仮定される。例えば、音源位置は、光学において焦点面として参照される左の点線上に置かれる。この仮定が、映像イメージおよび音響イメージが位置合わせされ、実際の距離値gが、提供された処理のために必要ではないことを保証するためのみに作られることに注目するべきである。
【0161】
再生側(遠端側)では、ディスプレイはbに置かれ、ディスプレイ上の音源の位置はx
b(k,n)によって与えられる。さらに、x
dは、ディスプレイサイズ(または、いくつかの実施の形態において、例えばx
dはディスプレイサイズの半分を示す)である。φ
dは、対応している最大映像角度である。Sは、音再生システムのスイートスポットである。φ
b(k,n)は、直進音が映像イメージおよび音響のイメージが位置合わせされるように再生されるべき角度である。φ
b(k,n)は、x
b(k,n)、および、スイートスポットSとbに置かれたディスプレイとの間の距離に依存する。さらに、x
b(k,n)は、カメラから音源までの距離gや、イメージセンサーサイズや、ディスプレイサイズx
dなどのいくつかのパラメータに依存する。あいにく、これらのパラメータのうちの少なくともいくつかは、しばしば、実際に未知である。その結果、x
b(k,n)およびφ
b(k,n)は、与えられたDOA φ
g(k,n)のために決定できない。しかし、光学システムが線形であると仮定すると、式(17)に従う。
tanφ
b(k,n)=c tanφ(k,n) (17)
ここで、cは、前記の未知のパラメータを補償している未知の定数である。仮に、全ての音源位置がx軸に対して同じ距離gを持つなら、cは定数のみであることは注目するべきである。
【0162】
以下において、cは、映像イメージおよび音響イメージが矛盾しないまでの測定段階の間、適合されるべき測定パラメータであると仮定される。測定を実行するため、音源は焦点面上に置かれるべきで、cの値は、映像イメージおよび音響イメージが位置合わせされるように見つけられる。いったん測定されたら、cの値は不変のままであり、直進音が再生されるべき角度は、以下の式(18)によって与えられる。
φ
b(k,n)=tan
-1[c tan(φ(k,n))]) (18)
【0163】
音響場面および映像場面の両方が矛盾しないことを保証するために、オリジナルのパンニング関数p
i(φ)は、矛盾のない(修正された)のパンニング関数p
b,i(φ)に修正される。直進音利得G
i(k,n)は、以下の式(19)と(20)とに従って選択される。
G
i(k,n)=g
i(φ(k,n)) (19)
g
i(φ)=p
b,i(φ) (20)
ここで、p
b,i(φ)は、全ての可能な音源DOAに亘るi番目のスピーカーのためのパンニング利得を戻している、矛盾のないパンニング関数である。cの固定値に対して、そのような矛盾のないパンニング関数は、利得関数計算モジュール104の中で、以下の式(21)のようなオリジナル(例えばVBAP)のパンニング利得表から計算される。
p
b,i(φ)=p
i(tan
-1[c tanφ]) (21)
【0164】
従って、実施の形態において、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号のために、直進利得G
i(k,n)が以下の式に従って定義されるように、決定するように構成される。
G
i(k,n)=p
i(tan
-1[c tan(φ(k,n))])
ここで、iは前記音声出力信号のインデックスを示す。kは周波数を示す。nは時間を示す。G
i(k,n)は直進利得を示す。φ(k,n)は、
到来方向(例えば、
到来方向の方位角度)に依存している角度を示す。cは定数値を示す。p
iはパンニング関数を示す。
【0165】
実施の形態において、直進音利得G
i(k,n)は、推定されたDOA φ(k,n)に基づいて、式(19)を使って1回(測定段階の後で)計算される利得関数計算モジュール104によって提供された固定ルックアップ・テーブルから、利得選択ユニット201の中で選択される。
【0166】
それから、実施の形態に従って、信号プロセッサ105は、例えば、1つ以上の音声出力信号のそれぞれの音声出力信号毎に、前記音声出力信号のための直進利得を、
到来方向に依存しているルックアップ・テーブルから得るように構成されている。
【0167】
実施の形態において、信号プロセッサ105は、直進利得関数g
i(k,n))のためのルックアップ・テーブルを計算する。例えば、全ての可能な十分な角度、例えば1°、2°、3°…のために、DOAの方位値φ毎に、直進利得G
i(k,n)が事前に計算されて記憶される。そして、
到来方向の現在の方位値φが受信されるとき、信号プロセッサ105は、ルックアップ・テーブルから現在の方位値φのための直進利得G
i(k,n)を読み取る。(現在の方位値φは、例えばルックアップ・テーブル議論値であり、直進利得G
i(k,n)は、例えばルックアップ・テーブルリターン値である。)。DOAの方位φの代わりに、別の実施の形態において、ルックアップ・テーブルは、
到来方向に依存しているどのような角度に対しても計算される。これは利点を持つ。利得値は、いつも全ての時間ポイントのために、または、全ての時間−周波数ビンのために計算される必要があるわけではない。けれども代わりに、ルックアップ・テーブルは1回計算されると、それからは、受信された角度φのために、直進利得G
i(k,n)がルックアップ・テーブルから読み取られる。
【0168】
従って、実施の形態に従って、信号プロセッサ105は、例えば、ルックアップ・テーブルを計算するように構成されている。ルックアップ・テーブルは複数のエントリーを含む。エントリーのそれぞれは、ルックアップ・テーブル議論値と、前記議論値に割り当てられているルックアップ・テーブルリターン値と
を含む。信号プロセッサ105は、例えば、
到来方向に依存しているルックアップ・テーブルのルックアップ・テーブル議論値のうちの1つを選択することによって、ルックアップ・テーブルからルックアップ・テーブルリターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、例えば、ルックアップ・テーブルから得られたルックアップ・テーブルリターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのために、利得値を決定するように構成されている。
【0169】
信号プロセッサ105は、例えば、別の利得値を決定するために、別の
到来方向に依存しているルックアップ・テーブル議論値のうちの別の1つを選択することによって(同じ)ルックアップ・テーブルから、ルックアップ・テーブルリターン値のうちの別の1つを得るように構成されている。例えば、信号プロセッサは、例えば、前記別の
到来方向に依存する後の方の時間ポイントに、別の方向の情報を受信する。
【0170】
VBAPパンニングおよび矛盾のないパンニング利得関数の例が、
図5aと5bの中に示される。
【0171】
パンニング利得表を再計算する代わりに、ディスプレイのためのDOAφ
b(k,n)を二者択一的に推定し、それをφ
i(φ
b(k,n))としてオリジナルのパンニング関数に適用することに注目するべきである。以下の関係が続く限り、これは真実である。
p
b,i(φ(k,n))=p
i(φ
b(k,n)) (22)
【0172】
しかし、これは、利得関数計算モジュール104が、入力として推定されたDOA φ(k,n)を受信することを必要とする。そして、例えば、式(18)に従って実行したDOA再推定が、その時、時間インデックスn毎に実施される。
【0173】
拡散音再生に関して、映像無しの場合のために示されたと同じ方法で処理されるとき、例えば、拡散音のパワーが、録音された場面の中の拡散パワーと同じままで、そして、スピーカー信号がY
diff(k,n)の無相関のバージョンであるとき、音響イメージおよび映像イメージが矛盾なく再生される。等しく間隔をおいて配置されたスピーカーのために、拡散音利得は、例えば式(16)によって与えられる一定の値を持つ。結果として、利得関数計算モジュール104は、全ての周波数に亘る拡散利得Qとして使われるi番目のスピーカー(または、ヘッドホーンチャンネル)のための1つの出力値を提供する。i番目のスピーカーチャンネルのための最終的な拡散音Y
diff,i(k,n)が、例えば、式(2b)によって与えられるように、Y
diff(k,n)を無相関にすることによって得られる。
【0174】
今や、DOAに基づく音響ズームが提供される実施の形態が考慮される。そのような実施の形態において、映像ズームと矛盾しない音響ズームのための処理が考慮される。この矛盾のない音声−映像ズームは、例えば、
図2の信号変更器103の中で描かれた式(2a)の中で採用された重み付けG
i(k,n)とQとを適合することによって達成される。
【0175】
実施の形態において、直進利得G
i(k,n)は、例えば、利得選択ユニット201の中で、パラメータ推定モジュール102の中で推定されたDOAに基づいて、利得関数計算モジュール104において計算された直進利得関数g
i(k,n)から選択される。拡散利得Qは、利得選択ユニット202の中で、利得関数計算モジュール104において計算された拡散利得関数q(β)から選択される。別の実施の形態において、直進利得G
i(k,n)および拡散利得Qは、先ずそれぞれの利得関数を計算して次に利得を選択すること無く、信号変更器103によって計算される。
【0176】
上で説明した実施の形態と対比すると、拡散利得関数q(β)は、ズームファクターβに基づいて決定されることに注目するべきである。実施の形態において、距離情報は使用されず、従って、そのような実施の形態においては、それはパラメータ推定モジュール102の中で推定されない。
【0177】
式(2a)の中のズームパラメータG
i(k,n)およびQを引き出すために、
図4の幾何学が考慮される。図の中に示されたパラメータは、上記実施の形態の
図4について説明されたそれらと相似である。
【0178】
上で説明された実施の形態と同様に、全ての音源は焦点面上に置かれることが仮定される。焦点面は、x軸に対して距離gで平行に置かれる。いくつかの自動焦点システムは、g、例えば焦点面までの距離を提供することができることに注目するべきである。これは、イメージの中の全ての音源が鋭いと仮定することを可能にする。再生(遠端)側において、ディスプレイ上のDOA φ
b(k,n)および位置x
b(k,n)は、カメラからの音源の距離gやイメージセンサーサイズやディスプレイサイズx
dやカメラのズーミングファクター(例えば、カメラの開口角度)βなどの多くのパラメータに依存する。光学システムが線形であると仮定すると、式(23)に従う。
tanφ
b(k,n)=βc tanφ(k,n) (23)
ここで、cは、未知の光学パラメータを補償する測定パラメータである。β≧1は、ユーザーコントロールされたズーミングファクターである。映像カメラにおいて、ファクターβでのズーミングは、βをx
b(k,n)に乗算することと等しいことに注目するべきである。さらに、仮に、全ての音源位置が、x軸まで同じ距離gを持つならば、cは定数のみである。この場合において、cは、映像イメージと音響イメージとが位置合わせされるように、1回適合される測定パラメータとして考慮される。直進音利得G
i(k,n)は、式(24)および(25)のように、直進利得関数g
i(φ)から選択される。
G
i(k,n)=g
i(φ(k,n)) (24)
g
i(φ)=p
b,i(φ)w
b(φ) (25)
ここで、p
b,i(φ)は、パンニング利得関数を示す。w
b(φ)は、矛盾のない音声−映像ズームのための窓利得関数である。矛盾のない音声−映像ズームのためのパンニング利得関数は、利得関数計算モジュール104の中で、以下の式(26)のように、オリジナル(例えばVBAP)のパンニング利得関数p
i(φ)から計算される。
p
b,i(φ)=p
i(tan
-1[βc tanφ]) (26)
【0179】
従って、例えば利得選択ユニット201の中で選択された直進音利得G
i(k,n)は、利得関数計算モジュール104の中で計算された検索パンニング表から、推定されたDOA φ(k,n)に基づいて決定される。仮に、βが変わらないならば、それは固定される。いくつかの実施の形態において、p
b,i(φ)は、例えば、ズームファクターβが修正されるたびに、式(26)を採用することによって、再計算される必要があることに注目するべきである。
【0180】
β=1とβ=3のためのステレオパンニング利得関数の例が、
図6において示される(
図6aおよび
図6bを参照してください)。特に、
図6aは、β=1のためのパンニング利得関数p
b,iの一例を示す。
図6bは、β=3でズーミングした後のパンニング利得を示す。
図6cは、角度シフトを伴うβ=3でズーミングした後のパンニング利得を示す。
【0181】
例において認められるように、直進音がφ(k,n)=10°から到達するとき、左のスピーカーのためのパンニング利得は、大きいβ値のために増大する一方、右のスピーカーおよびβ=3のためのパンニング関数は、β=1のためより小さい値を戻す。そのようなパンニングは、ズームファクターβが増大されるとき、知覚された音源位置を外側方向にもっと効果的に移動する。
【0182】
実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声出力信号を決定するように構成されている。2つ以上の音声出力信号の音声出力信号のそれぞれのために、パンニング利得関数は、前記音声出力信号に割り当てられる。
【0183】
2つ以上の音声出力信号のそれぞれのパンニング利得関数は、複数のパンニング関数議論値
を含む。パンニング関数リターン値は、前記パンニング関数議論値のそれぞれに割り当てられる。前記パンニング関数が、前記パンニング関数議論値の1つを受信するとき、前記パンニング関数は、前記パンニング関数議論値のうちの前記1つに割り当てられているパンニング関数リターン値を戻すように構成される。
【0184】
信号プロセッサ105は、前記音声出力信号に割り当てられているパンニング利得関数のパンニング関数議論値の直進依存議論値に依存して、2つ以上の音声出力信号のそれぞれを決定するように構成されている。前記直進依存議論値は、
到来方向に依存する。
【0185】
実施の形態に従って、2つ以上の音声出力信号のそれぞれのパンニング利得関数は、パンニング関数議論値のうちの1つである1つ以上のグローバル最大値を持つ。それぞれのパンニング利得関数の1つ以上のグローバル最大値のそれぞれに対して、前記パンニング利得関数が前記グローバル最大値のためより大きいパンニング関数リターン値を戻すための別のパンニング関数議論値は、存在しない。
【0186】
2つ以上の音声出力信号の第1音声出力信号および第2音声出力信号の
ペアのそれぞれについて、第1の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの少なくとも1つは、第2の音声出力信号のパンニング利得関数の1つ以上のグローバル最大値のうちの何れとも相違する。
【0187】
要するに、パンニング関数は、種々のパンニング関数のグローバル最大値(の少なくとも1つ)が相違するように実施される。
【0188】
例えば、
図6aにおいて、p
b,l(φ)のローカル最大値は、−45°から−28°までの範囲内にあり、p
b,r(φ)のローカル最大値は、+28°から+45°までの範囲内にある。従って、グローバル最大値は相違する。
【0189】
例えば、
図6bにおいて、p
b,l(φ)のローカル最大値は、−45°から−8°までの範囲内にあり、p
b,r(φ)のローカル最大値は、+8°から+45°までの範囲内にある。従って、グローバル最大値も相違する。
【0190】
例えば、
図6cにおいて、p
b,l(φ)のローカル最大値は、−45°から+2°までの範囲内にあり、p
b,r(φ)のローカル最大値は、+18°から+45°までの範囲内にある。従って、グローバル最大値も相違する。
【0191】
パンニング利得関数は、例えば、ルックアップ・テーブルとして実施される。
【0192】
そのような実施の形態において、信号プロセッサ105は、例えば、音声出力信号のうちの少なくとも1つのパンニング利得関数のためのパンニングルックアップ・テーブルを計算するように構成されている。
【0193】
音声出力信号のうちの前記少なくとも1つのそれぞれの音声出力信号のパンニングルックアップ・テーブルは、例えば、複数のエントリーからなる。エントリーのそれぞれは、前記音声出力信号のパンニング利得関数のパンニング関数議論値と、前記パンニング関数議論値に割り当てられているパンニング利得関数のパンニング関数リターン値とからなる。信号プロセッサ105は、
到来方向に依存して、パンニングルックアップ・テーブルから方向依存議論値を選択することによって、前記パンニングルックアップ・テーブルからパンニング関数リターン値の1つを得るように構成されている。信号プロセッサ105は、前記パンニングルックアップ・テーブルから得られた前記パンニング関数リターン値のうちの1つに依存して、前記音声出力信号のための利得値を決定するように構成されている。
【0194】
以下において、直進音窓を採用する実施の形態が示される。そのような実施の形態に従って、矛盾しないズームw
b(φ)のための直進音窓が、式(27)に従って計算される。
w
b(φ)=w(tan
-1[βc tanφ]) (27)
ここで、仮に、音源が、ズームファクターβのための映像イメージの外の位置に写像されるならば、w
b(φ)は、直進音を弱める音響ズームのための窓利得関数である。
【0195】
窓関数w(φ)が例えばβ=1に設定されると、その結果、映像イメージの外にある音源の直進音は、望みのレベルに減らされる。そして、それは、例えば、式(27)を採用されることによって再計算され、毎回、ズームパラメータが変わる。w
b(φ)は、全てのスピーカーチャンネルに対して同じであることに注目するべきである。β=1とβ=3の窓関数例が、
図7aと
図7bに示される。そこでは、β値が増大すると、窓幅が減少する。
【0196】
図7において、矛盾のない窓利得関数の例が示される。特に、
図7aは、ズーミング無し(ズームファクターβ=1)の窓利得関数w
bを示す。
図7bは、ズーミング(ズームファクターβ=3)した後の窓利得関数を示す。
図7cは、角度シフトを伴うズーミング(ズームファクターβ=3)した後の窓利得関数を示す。例えば、角度シフトは、視方向に対して窓の回転を実現する。
【0197】
例えば、
図7aと
図7bと
図7cとにおいて、仮に、DOA φが窓内に位置するならば、窓利得関数は1の利得に戻る。仮に、DOA φが窓外に位置するならば、窓利得関数は0.18の利得に戻る。仮に、DOA φが窓の境界に位置するならば、窓利得関数は0.18と1との間の利得に戻る。
【0198】
実施の形態に従って、信号プロセッサ105は、窓利得関数に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数は、窓関数議論値を受信すると、窓関数リターン値を戻すように構成されている。
【0199】
仮に、窓関数議論値が、下部の窓閾値より大きく、上部の窓閾値より小さいならば、窓利得関数は、何れの窓関数リターン値より大きい窓関数リターン値を戻すように構成され、仮に、窓関数議論値が、下部の窓閾値より小さいか、または、上部の窓閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように構成されている。
【0200】
例えば、以下の式(27)において、
w
b(φ)=w(tan
-1[βc tanφ]) (27)
到来方向φの方位角度は、窓利得関数w
b(φ)の窓関数議論値である。窓利得関数w
b(φ)は、ズーム情報、ここでは、ズームファクターβに依存する。
【0201】
窓利得関数の定義を説明するために、
図7aが参照される。
【0202】
仮に、DOA φの方位角度が、−20°(下部の閾値)より大きく、+20°(上部の閾値)より小さいならば、窓利得関数によって戻された全ての値は0.6より大きい。さもなければ、仮に、DOA φの方位角度が、−20°(下部の閾値)より小さく、または、+20°(上部の閾値)より大きいならば、窓利得関数によって戻された全ての値は0.6より小さい。
【0203】
実施の形態において、信号プロセッサ105は、ズーム情報を受信するように構成されている。さらに、信号プロセッサ105は、窓利得関数がズーム情報に依存する窓利得関数に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
【0204】
これは、仮に、別の値が下部/上部の閾値として考慮される、または、仮に、別の値がリターン値として考慮されるならば、
図7bと
図7cの(修正された)窓利得関数に対して認められる。
図7aと
図7bと
図7cとにおいて、窓利得関数はズーム情報(ズームファクターβ)に依存することが認められる。
【0205】
窓利得関数は、例えば、ルックアップ・テーブルとして実施される。そのような実施の形態において、信号プロセッサ105は、窓ルックアップ・テーブルを計算するように構成されている。窓ルックアップ・テーブルは、複数のエントリーを含む。エントリーのそれぞれは、窓利得関数の窓関数議論値と、前記窓関数議論値に割り当てられている窓利得関数の窓関数リターン値とからなる。信号プロセッサ105は、
到来方向に依存している窓ルックアップ・テーブルの窓関数議論値のうちの1つを選択することによって、窓ルックアップ・テーブルから窓関数リターン値のうちの1つを得るように構成されている。さらに、信号プロセッサ105は、窓ルックアップ・テーブルから得られた窓関数リターン値のうちの前記1つに依存している1つ以上の音声出力信号の少なくとも1つのための利得値を決定するように構成されている。
【0206】
ズーミング概念に加えて、窓とパンニング関数とは、シフト角度θによってシフトされる。この角度は、カメラの視方向Iの回転に、または、カメラのデジタルズームとの相似によって映像イメージ内での移動に対応する。前者の場合において、カメラの回転角度は、ディスプレイ上の角度のために、例えば式(23)と同様に再計算される。後者の場合において、θは、窓の直進シフトと、矛盾しない音響ズームのためのパンニング関数(例えば、w
b(φ)およびp
b,i(φ))とである。両方の関数をシフトする例示が
図5cおよび
図6cに記載されている。
【0207】
パンニング利得と窓関数を再計算する代わりに、例えば式(23)に従って、ディスプレイのためのDOA φ
b(k,n)を計算し、それを、p
i(φ)およびw(φb)として、オリジナルのパンニングおよび窓関数の中にそれぞれ適用することに注目するべきである。以下の関係が続く間、そのような処理は等価である。
p
b,i(φ(k,n))=p
i(φ
b(k,n)) (28)
w
b(φ(k,n))=w(φ
b(k,n)) (29)
【0208】
しかし、これは、利得関数計算モジュール104が、入力として推定されたDOA φ(k,n)と、例えば式(18)に従うDOA再計算を受信することを必要とする。式(18)は、例えば、それぞれの連続的な時間フレームの中で、仮にβが変更されるか、または、変更されないかに関係無く、実行される。
【0209】
拡散音について、例えば利得関数計算モジュール104の中で、拡散利得関数q(β)を計算することは、再生のために利用可能なスピーカーIの数の知識だけを必要とする。従って、それは、映像カメラまたはディスプレイのパラメータから独立して設定される。
【0210】
例えば、等しく間隔をおいて配置されたスピーカーのために、式(2a)の実数値の拡散音利得Q∈[0,1/√I]が、ズームパラメータβに基づいて、利得選択ユニット202の中で選択される。拡散利得を使用する目的は、ズーミングファクター、例えば、再生された信号のDRRを増大させるズーミングに依存している拡散音を弱めることである。これは、より大きいβのためにQを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミングは、例えば、自然な音響の対応は、より少ない拡散音を捕える、より多い直進的なマイクロフォンである。
【0211】
この効果を擬態するために、実施の形態は、例えば、
図8に示された利得関数を採用する。
図8は、拡散利得関数q(β)の例を示す。
【0212】
別の実施の形態において、利得関数は異なって定義される。i番目のスピーカーチャンネルのための最終的な拡散音Y
diff,i(k,n)は、例えば式(2b)に従って、Y
diff(k,n)を無相関にすることによって達成される。
【0213】
以下において、DOAと距離とに基づく音響ズームが考慮される。
【0214】
いくつかの実施の形態に従って、信号プロセッサ105は、例えば、距離情報を受信するように構成されている。信号プロセッサ105は、例えば、距離情報に依存している1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
【0215】
いくつかの実施の形態は、推定されたDOA φ(k,n)と距離値r(k,n)との両方に基づく矛盾しない音響ズームのための処理を採用する。これらの実施の形態の概念も、録音された音響の場面を位置合わせするために、ズーミング無しで映像に適用される。そこでは、音源は、映像イメージの中で鋭く現れない音源のために、例えば、カメラの焦点面上に置かれない音源のために、音響のぼやけている効果を創成することを我々に入手可能にする距離情報r(k,n)において、以前に推定されたと同じ距離に置かれない。
【0216】
矛盾のない音再生、例えば、異なる距離に置かれた音源のためにぼやけている音響ズームを容易にするため、利得G
i(k,n)およびQは、2つの推定されたパラメータ、つまりφ(k,n)とr(k,n)とに基づいて、そしてズームファクターβに依存して、
図2の信号変更器103の中に描かれた式(2a)において適合される。仮にズーミングが関係しないならば、βはβ=1に設定される。
【0217】
パラメータφ(k,n)およびr(k,n)は、例えば、上で説明したパラメータ推定モジュール102の中で推定される。この実施の形態において、直進利得G
i(k,n)は、1つ以上の直進利得関数g
i,j(k,n)(それは、例えば、利得関数計算モジュール104の中で計算される。)からのDOAと距離情報とに基づいて、(例えば、利得選択ユニット201の中で選択されることによって)決定される。上の実施の形態で示されたと同様に、拡散利得Qは、利得関数計算モジュール104の中でズームファクターβに基づいて計算された拡散利得関数q(β)から、例えば、利得選択ユニット202の中で選択される。
【0218】
別の実施の形態において、直進利得G
i(k,n)および拡散利得Qは、先ずそれぞれの利得関数を計算してそれから利得を選択すること無く、信号変更器103によって計算される。
【0219】
異なる距離の音源のための音響場面再生および音響ズーミングを説明するために、
図9が参照される。
図9において示されたパラメータは、上で説明されたそれらと相似である。
【0220】
図9において、音源は、x軸に対して距離R(k,n)の位置P′に置かれる。距離r、例えば、(k,n)−特定(時間−周波数−特定:r(k,n)は、音源位置と焦点面(gを通過している左の垂直線)との間の距離を示すである。いくつかの自動焦点システムが、g、例えば焦点面までの距離を提供することができることに注目するべきである。
【0221】
マイクロフォン配列の観点から直進音のDOAは、φ’(k,n)によって示される。
別の実施の形態と対比すると、全ての音源がカメラレンズから同じ距離gに置かれることは仮定されない。従って、例えば位置P′は、x軸に対して任意の距離R(k,n)を持つことができる。
【0222】
仮に、音源が焦点面に置かれないならば、音源は映像の中でぼやけているように見える。さらに、実施の形態は、仮に音源が点線910上の何れかの位置に置かれるならば、それは映像の中の同じ位置x
b(k,n)に見えるという発見に基づく。しかし、実施の形態は、仮に、点線910に沿って音源が動くならば、直進音の推定されたDOA φ’
(k,n)が変更するという発見に基づく。すなわち、仮に、音源がY軸に対して平行に移動するならば、実施の形態によって採用された発見に基づいて、推定されたDOA φ’
(k,n)は、x
b(それから、音が再生されるべきDOA φ
b(k,n))が同じであり続ける間は、変化する。その結果、仮に、推定されたDOA φ’(k,n)が遠端
側に送信されて、前の実施の形態において示された音の再生のために使われるならば、仮に音源がその距離R(k,n)を変更するならば、音響および映像イメージはもう位置合わせされない。
【0223】
この効果を補償して、矛盾のない音再生を達成するために、例えば、パラメータ推定モジュール102の中で実行されるDOA推定が、まるで音源が位置Pの焦点面上に置かれるかのように直進音のDOAを推定する。この位置は焦点面のP′の投影を表す。対応するDOAは、
図9のφ(k,n)によって示され、前の実施の形態と同様に、矛盾のない音再生のために遠端側で使われる。仮に、rとgとが知られているならば、(修正された)DOA φ(k,n)は、幾何学の考慮に基づいて、推定された(オリジナルの)DOA φ’(k,n)から計算される。
【0224】
例えば、
図9において、信号プロセッサ105は、以下の式に従ってφ’(k,n)r
とgとからφ(k,n)を計算する。
φ=arctan[tanφ´・(r+g)/g]
【0225】
従って、実施の形態に従って、信号プロセッサ105は、例えば、2つ以上の音声入力信号の直進信号コンポーネントの
到来方向である
到来方向のオリジナルの方位角度φ’(k,n)を受信するように構成され、そして、距離情報rを更に受信するように構成されている。信号プロセッサ105は、例えば、オリジナルの
到来方向の方位角度φ’(k,n)、および、距離情報rとgとに依存して、
到来方向の修正された方位角度φ(k,n)を計算するように構成されている。信号プロセッサ105は、例えば、修正された
到来方向の方位角度φ(k,n)に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。
【0226】
必要な距離情報は、上で説明したように推定される(焦点面の距離gは、レンズシステムまたは自動焦点情報から得られる)。例えば、この実施の形態において、音源と焦点面との間の距離r(k,n)は、(写像された)DOA φ(k,n)と共に遠端側に送信されることは注目するべきである。
【0227】
さらに、映像ズームに対する相似によって、焦点面から大きな距離rにある音源は、イメージの中で鋭く見えない。この効果は、光学においていわゆるフィールド深さ(DOF)として有名である。それは、映像イメージの中で満足して鋭く見える音源距離の範囲を定義する。
【0228】
距離rの関数としてのDOF曲線の例が、
図10aに示される。
【0229】
図10は、フィールド深さの図例(
図10a)と、ローパスフィルタの遮断周波数の図例(
図10b))と、繰り返し直進音のためのミリ秒の時間遅延の図例(
図10c)とを示す。
【0230】
図10aにおいて、焦点面から小さい距離の音源は、まだ鋭い。けれども、焦点面から大きい距離(より近いまたはカメラから更に遠いのいずれか一方)の音源は、ぼやけるように見える。従って、実施の形態に従って、対応する音源は、それらの映像および音響イメージが矛盾のないようにぼやける。
【0231】
音響のぼやけと矛盾のない空間音再生を実現する式(2a)の利得G
i(k,n)およびQを引き出すために、P(φ,r)に置かれた音源がディスプレイ上に現われる角度が、考慮される。ぼやけた音源は、以下の式(30)で表示される。
tanφ
b(k,n)=βc tanφ(k,n) (30)
ここで、cは測定パラメータである。β≧1は、ユーザーコントロールされたズームファクターである。φ(k,n)は、(写像された)DOAであり、例えば、パラメータ推定モジュール102の中で推定される。前述したように、そのような実施の形態の直進利得G
i(k,n)は、例えば、複数の直進利得関数g
i,jから計算される。特に、2つの利得関数g
i,1(φ(k,n))およびg
i,2(r(k,n))が、例えば使われる。最初の利得関数はDOA φ(k,n)に依存し、2番目の利得関数は距離r(k,n)に依存する。直進利得G
i(k,n)は、式(31)と式(32)と式(33)とで計算される。
G
i(k,n)=g
i、1(φ(k,n))g
i、2(r(k,n)) (31)
g
i、1(φ)=p
b,i(φ)w
b(φ) (32)
g
i、2(r)=b(r) (33)
ここで、p
b,i(φ)は、パンニング利得関数を示す(音が右の方向から再生されることを保証するために)。w
b(φ)は、窓利得関数である(仮に音源が映像の中で見えないならば、直進音が弱められることを保証するために)。b(r)は、ぼけ関数である(仮に、それらが焦点面上に置かれないならば、音源を音響的にぼやけさせるために)。
【0232】
全ての利得関数が、定義された周波数依存(簡潔さのためにここでは省略される)であることは注目するべきである。この実施の形態において、直進利得G
iが、式(32)に示すように、2つの異なる利得関数から選択されて乗算される利得によって見つけられることは更に注目するべきである。
【0233】
両方の利得関数p
b,i(φ)とw
b(φ)とは、上の説明のように相似に定義される。それらは、例えば式(26)と(27)とを使用して、例えば、利得関数計算モジュール104の中で計算される。それらは、ズームファクターβが変わらない限り、固定され続ける。これらの2つの関数の詳細な説明は、上で提供されている。ぼけ関数b(r)は、音源のぼやけ(例えば知覚の拡がり)を引き起こす複合利得を戻す。従って、全体利得関数g
iが、一般に、複素数も戻す。シンプルさのために、以下において、ぼやけることは焦点面までの距離の関数b(r)として示される。
【0234】
ぼやけ効果は、以下のぼやけ効果、ローパスフィルタリングや、遅延された直進音の追加や、直進音減衰や、時間的円滑化および/またはDOA拡がりの選択された1つまたは組み合わせとして得られる。従って、実施の形態に従って、信号プロセッサ105は、例えば、ローパスフィルタリングを実施することによって、または、遅延された直進音を追加することによって、または、直進音の減衰を実施することによって、または、時間的円滑化を実施することによって、または、
到来方向の拡がりを実施することによって、1つ以上の音声出力信号を生成するように構成されている。
【0235】
ローパスフィルタリング:映像において、鋭くない映像イメージはローパスフィルタリングによって得られる。それは、映像イメージの中の隣接ピクセルを効果的に合併する。相似によって、音響のぼやけ効果は、焦点面までの音源の推定距離rに基づいて選択された遮断周波数を持つ直進音のローパスフィルタリングによって、得られる。この場合、ぼけ関数b(r,k)は、周波数kと距離rとのためのローパスフィルタ利得を戻す。16kHzのサンプリング周波数のための一次のローパスフィルタの遮断周波数のための例示曲線が、
図10bに示される。小さい距離rに対して、遮断周波数はナイキスト周波数に近く、殆んどのローパスフィルタリングは効果的に実行されない。より大きい距離値に対して、遮断周波数は、音響イメージが十分にぼやける3kHzで、それが平らになるまで減少する。
【0236】
遅延された直進音の追加:音源の音響イメージが鋭くないようにするために、例えば、我々は、いくらかの遅延τ(例えば1m秒と30m秒との間)の後に、直進音を弱めることを繰り返すことによって、直進音を無相関にする。そのような処理は、例えば、式(34)の複雑な利得関数に従って実行される。
b(r,k)=1+α(r)e
-jωτ
(r) (34)
ここで、αは、繰り返された音のための減衰利得を示す。τは、直進音が繰り返される後の遅延である。(m秒の)例示遅延曲線は、
図10cの中で示される。小さな距離に対して、遅延された信号は繰り返されない。αは0に設定される。より大きい距離に対して、時間遅延は増加する距離と共に増大する。それは、音源を知覚的に拡げることを引き起こす。
【0237】
直進音減衰:直進音は一定のファクターによって弱められるとき、音源もぼやけるように知覚される。この場合、b(r)=定数<1である。上述されたように、ぼけ関数b(r)は、記述のぼやけ効果のいくつか、または、これらの効果の組み合わせから成る。さらに、音源をぼやけさせる二者択一的処理が、使われる。
【0238】
時間的円滑化:時間に亘る直進音の円滑化は、例えば、音源を知覚的にぼやけさせるために使用される。これは、時間に亘る取り出された直進信号の包絡線を円滑にすることによって達成される。
【0239】
DOA拡がり:音源を鋭くしないための別の方法は、推定された方向だけの代わりに方向の範囲から音源信号を再生することの中に存在する。これは、角度をランダム化すること、例えば、ランダムな角度を、推定されたφの周りに集中されたガウス分布から取り去ることによって達成される。そのような分布の変化を増大させること、そして、可能なDOAの範囲を広げることが、ぼやけの知覚を増大する。
【0240】
上で説明した相似により、利得関数計算モジュール104の中で拡散利得関数q(β)を計算することは、いくつかの実施の形態において、再生のために利用可能なスピーカーの数Iの知識だけを必要とする。従って、拡散利得関数q(β)は、そのような実施の形態において、応用のために要求されるように設定される。例えば、等しく間隔をおいて配置されたスピーカーのために、式(2a)の中の実数値の拡散音利得Q∈[0,1/√I]が、ズームパラメータβに基づいて、利得選択ユニット202の中で選択される。拡散利得を使うことの目的は、ズーミングファクターに依存して、拡散音を弱めることである。例えば、ズーミングは、再生された信号のDRRを増大する。これは、より大きいβに対して、Qを下げることによって達成される。事実、カメラの開口角度がより小さくなる手段の中のズーミング、例えば自然な音響の一致は、より小さい拡散音を捕える、より直進的なマイクロフォンである。この効果を擬態するために、私達は、例えば、
図8の中で示された利得関数を使うことができる。明らかに、利得関数も異なって定義される。任意で、i番目のスピーカーチャンネルのための最終的な拡散音Y
diff,i(k,n)が、式(2b)の中で得られたY
diff(k,n)を無相関にすることによって得られる。
【0241】
今や、実施の形態は、補聴器および補助聞き取り装置への応用を実現することが考慮される。
図11はそのような補聴器応用を示す。
【0242】
いくつかの実施の形態は、立体音の補聴器に関連する。この場合、それぞれの補聴器は、少なくとも1つのマイクロフォンを装備され、2つの補聴器の間で情報が交換されると仮定される。いくらかの補聴損失のため、聴覚障害の人は、望みの音に焦点を絞ること(例えば、特定のポイントまたは方向から来る音に集中すること)が難しいことを経験する。聴覚障害の人の脳が、補聴器によって再生される音を処理することを助けるために、音響イメージは、補聴器ユーザーの焦点ポイントまたは焦点方向と矛盾しない。焦点ポイントまたは焦点方向が、予め決められる、または、ユーザーが定義する、または、脳−機械インタフェースにより定義される、ことは想像可能である。そのような実施の形態は、望ましい音(焦点ポイントまたは焦点方向から到達するように仮定される)と、望ましくない音とが、空間的に分離して現れることを保証する。
【0243】
そのような実施の形態において、直進音の方向は、異なる方法で推定される。実施の形態に従って、方向は、両方の補聴器を使って決定される相互聴覚レベル差(ILD)および/または相互聴覚時間差(ITD)に基づいて決定される([15]と[16]とを参照してください)。
【0244】
別の実施の形態に従って、左右の直進音の方向は、少なくとも2つのマイクロフォンを装備される補聴器を独立して使用して推定される([17]を参照してください)。推定された方向は、左右の補聴器で音圧レベルに基づいて、または、左右の補聴器で空間的コヒーレンスに基づいて、細かい。頭を影で覆っている効果(ヘッドシャドウ効果)のため、異なる推定器が、異なる周波数帯のために採用される(例えば、高周波のILDおよび低周波のITD)。
【0245】
いくつかの実施の形態において、直進音信号および拡散音信号は、例えば、前述のインフォームド空間フィルタリング技術を使用して推定される。この場合、左右の補聴器で受信されるような直進音および拡散音は、別々に(例えば、参照マイクロフォンを交換することによって)推定される。または、左右の出力信号は、それぞれ、左右の補聴器出力のための利得関数を使用して生成される。同様に、異なるスピーカーまたはヘッドホーン信号は、前の実施の形態において得られる。
【0246】
望ましい音と望ましくない音を空間的に分離するために、前記の実施の形態の中で説明した音響ズームが適用される。この場合、焦点ポイントまたは焦点方向は、ズームファクターを決定する。
【0247】
従って、実施の形態に従って、補聴器または補助聞き取り装置が提供される。補聴器または補助聞き取り機器は、上で説明したシステムを含む。信号プロセッサ105は、例えば焦点方向または焦点ポイントに依存して、1つ以上の音声出力信号のそれぞれのための直進利得を決定する。
【0248】
実施の形態において、上で説明したシステムの信号プロセッサ105は、例えば、ズーム情報を受信するように構成されている。上で説明したシステムの信号プロセッサ105は、例えば、窓利得関数に依存して、1つ以上の音声出力信号のそれぞれの音声出力信号を生成するように構成されている。窓利得関数はズーム情報に依存する。
図7aと
図7bと
図7cに関連して説明したと同じ概念が、採用される。
【0249】
仮に、窓関数議論が、焦点方向または焦点ポイントに依存して、下部の閾値より大きく、上部の閾値より小さいならば、窓利得関数は、どの窓利得より大きい窓利得に戻すように、仮に、窓関数議論が下部の閾値より小さいか、または、上部の閾値より大きいならば、窓利得関数は、窓利得関数によって戻されるように、構成されている。
【0250】
例えば、焦点方向の場合、焦点方向自身は窓関数議論である(従って、窓関数議論は焦点方向に依存する)。焦点位置の場合、窓関数議論は、例えば、焦点位置から引き出される。
【0251】
同様に、本発明は、補助聞き取り装置またはグーグル・グラス(商標名)などの装置を含む他の装着可能な装置に適用される。いくつかの装着可能な装置も、対象物から装置を装着している人までの距離を推定するために使用される1つ以上のカメラまたはToFセンサーを装備されることに注目するべきである。
【0252】
いくつかの面が装置の文脈の中で説明されるけれども、これらの面も、対応する方法の説明を表すことは明確である。ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。相似的に、方法ステップの文脈の中で説明した面も、対応するブロックまたはアイテムまたは対応する装置の特徴を表す。
【0253】
本発明の分解された信号は、デジタル記憶媒体に記録される、または、無線送信媒体などの送信媒体、または、インターネットなどの有線送信媒体で送信される。
【0254】
特定の実施要件に依存して、本発明の実施の形態は、ハードウェアまたはソフトウェアにおいて実施される。実施は、それぞれの方法が実行されるプログラム化可能なコンピュータシステムと協働する(または、協働する可能性がある)、その上に記録された電気的に読み取り可能な制御信号を持っているデジタル記憶媒体(例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはフラッシュメモリ〉を使用して実行される。
【0255】
本発明に従って、いくつかの実施の形態は、プログラム化可能なコンピュータシステムと協働する可能性がある電気的に読み取り可能な制御信号を持っている非一時的なデータキャリアから成る。ここに説明された方法のうちの1つは実行される。
【0256】
一般に、本発明の実施の形態は、プログラムコードを持つコンピュータプログラム製品として実施される。コンピュータプログラム製品がコンピュータ上を稼働するとき、プログラムコードは、方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械読み取り可能なキャリアに記録される。
【0257】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムから成り、機械読み取り可能なキャリア上に記録される。
【0258】
すなわち、本発明の方法の実施の形態は、従って、コンピュータプログラムがコンピュータ上を稼働するとき、ここに説明された方法のうちの1つを実行するためのプログラムコードを持っているコンピュータプログラムである。
【0259】
本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含み、そこに記録されたデータキャリア(または、デジタル記憶媒体、または、コンピュータ可読メディア)である。
【0260】
本発明の方法の別の実施の形態は、従って、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号の連続は、例えばデータ通信接続を経て(例えばインターネットを経て)、転送されるように構成される。
【0261】
別の実施の形態は、例えば、処理手段、例えば、ここに説明された方法のうちの1つを実行するように構成または採用された、コンピュータまたはプログラム可能な論理装置から成る。
【0262】
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを、その上にインストールしているコンピュータから成る。
【0263】
いくつかの実施の形態において、プログラム可能な論理装置(例えば、フィールドプログラム可能ゲートアレイ)は、ここに説明された方法の関数のうちの幾つかまたは全てを実行するために使用される。幾つかの実施の形態において、フィールドプログラム可能ゲートアレイは、ここに説明された方法のうちの1つを実行するために、マイクロプロセッサーと協働される。一般に、方法は、好ましくは、どのハードウェア装置によっても実行される。
【0264】
上記の説明された実施の形態は、単に、本発明の原則のために説明される。ここに説明された配列と詳細の部分変形と変化とが当業者に明白であることは理解される。それは意思である。従って、ここの実施の形態の記述と説明を経て提供された特定の詳細ではなく、差し迫った特許請求の範囲によってのみ制限される。
【0265】
参考文献
[1] Y. Ishigaki, M. Yamamoto, K. Totsuka, and N. Miyaji, "Zoom microphone," in Audio Engineering Society Convention 67, Paper 1713, October 1980.
[2] M. Matsumoto, H. Naono, H. Saitoh, K. Fujimura, and Y. Yasuno, "Stereo zoom microphone for consumer video cameras," Consumer Electronics, IEEE Transactions on, vol. 35, no. 4, pp. 759-766, November 1989. August 13, 2014
[3] T. van Waterschoot, W. J. Tirry, and M. Moonen, "Acoustic zooming by multi microphone sound scene manipulation," J. Audio Eng. Soc, vol. 61, no. 7/8, pp. 489-507, 2013.
[4] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.
[5] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, Paper 8120, London UK, May 2010.
[6] O. Thiergart, G. Del Galdo, M. Taseska, and E. Habets, "Geometry-based spatial sound acquisition using distributed microphone arrays," Audio, Speech, and Language Processing, IEEE Transactions on, vol. 21, no. 12, pp. 2583-2594, December 2013.
[7] K. Kowalczyk, O. Thiergart, A. Craciun, and E. A. P. Habets, "Sound acquisition in noisy and reverberant environments using virtual microphones," in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on, October 2013.
[8] O. Thiergart and E. A. P. Habets, "An informed LCMV filter based on multiple instantaneous direction-of-arrival estimates," in Acoustics Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 659-663.
[9] O. Thiergart and E. A. P. Habets, "Extracting reverberant sound using a linearly constrained minimum variance spatial filter," Signal Processing Letters, IEEE, vol. 21, no. 5, pp. 630-634, May 2014.
[10] R. Roy and T. Kailath, "ESPRIT-estimation of signal parameters via rotational invariance techniques," Acoustics, Speech and Signal Processing, IEEE Transactions on, vol. 37, no. 7, pp. 984-995, July 1989.
[11] B. Rao and K. Hari, "Performance analysis of root-music," in Signals, Systems and Computers, 1988. Twenty-Second Asilomar Conference on, vol. 2, 1988, pp. 578-582.
[12] H. Teutsch and G. Elko, "An adaptive close-talking microphone array," in Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, 2001, pp. 163-166.
[13] O. Thiergart, G. D. Galdo, and E. A. P. Habets, "On the spatial coherence in mixed sound fields and its application to signal-to-diffuse ratio estimation," The Journal of the Acoustical Society of America, vol. 132, no. 4, pp. 2337-2346, 2012.
[14] V. Pulkki, "Virtual sound source positioning using vector base amplitude panning," J. Audio Eng. Soc, vol. 45, no. 6, pp. 456-466, 1997.
[15] J. Blauert, Spatial hearing, 3rd ed. Hirzel-Verlag, 2001.
[16] T. May, S. van de Par, and A. Kohlrausch, "A probabilistic model for robust localization based on a binaural auditory front-end," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 1, pp. 1-13, 2011.
[17] J. Ahonen, V. Sivonen, and V. Pulkki, "Parametric spatial sound processing applied to bilateral hearing aids," in AES 45th International Conference, Mar. 2012.