【文献】
石井三知夫,外2名,マイクロホンアレーを用いた複数種音源位置推定及び種別判定,映像情報メディア学会技術報告,日本,社団法人映像情報メディア学会,2009年 2月28日,Vol.33, No.11,pp.33-36
(58)【調査した分野】(Int.Cl.,DB名)
前記信号プロセッサ(110)は、複数のサブバンド信号を含む時間周波数領域伝送信号を得るために前記記録された透かしを入れたオーディオ信号(rx1、rx2)を時間領域から時間周波数領域に変換するための分析モジュール(711、712、71N)を含む、請求項1に記載の装置(100)。
前記信号プロセッサ(110)は、サブバンド信号の処理された複素係数を含む平均化された周期的なブロックを決定することによって前記平均化された複素係数を生成するように構成される、請求項4に記載の装置(100)。
前記信号プロセッサ(110)は、前記レシーバに特有の情報として位相情報を決定するように構成され、前記信号プロセッサ(110)は、決定された平均化された複素係数に基づいて前記位相情報として平均化された位相値を決定するように構成され、さらに、前記信号プロセッサ(110)は、前記複数のサブバンド信号のうちの1つの処理された複素係数を含む平均化された周期的なブロックを決定することによって前記平均化された複素係数を生成するように構成される、請求項2に記載の装置(100)。
前記信号プロセッサ(110)は、前記サブバンド信号の前記処理された複素係数のうちの少なくとも2つを結合することによって前記平均化された複素係数を決定するように構成され、前記処理された複素係数は、等しい位相値または弧度法において0.5ラジアンを超えないで異なる位相値を有する、請求項5または請求項6に記載の装置(100)。
前記信号プロセッサ(110)は、前記複素係数のうちの少なくとも1つの前記位相値を所定の数だけ変えることによって前記処理された複素係数を生成するように構成される、請求項5ないし請求項7のうちの1つに記載の装置(100)。
前記信号プロセッサ(110)は、前記記録された透かしを入れたオーディオ信号(rx1、rx2)に埋め込まれる前記埋め込まれた透かしの透かし署名の第1のビットを符号化する前記処理された複素係数のうちの少なくとも1つの位置を示す同期ヒット位置を決定するように構成される、請求項5ないし請求項8のうちの1つに記載の装置(100)。
【発明を実施するための形態】
【0029】
1.
図1による方向情報を提供するための装置
【0030】
図1は、実施形態による埋め込まれた透かしを有する再生されたオーディオ信号に基づいて方向情報を提供するための装置100を示す。装置100は、信号プロセッサ110を含む。信号プロセッサ110は、異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの受信された透かしを入れたオーディオ信号rx1、rx2を処理するように構成される。少なくとも2つのオーディオレシーバは、少なくとも2つの受信された透かしを入れたオーディオ信号を得るために再生されたオーディオ信号の音波を記録するように構成される。それぞれの受信された透かしを入れたオーディオ信号rx1、rx2は、埋め込まれた透かしを含む。さらに、信号プロセッサ110は、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2を得るために受信された透かしを入れたオーディオ信号を処理するように構成される。レシーバに特有の情報rsi1、rsi2は、受信された透かしを入れたオーディオ信号rx1、rx2に埋め込まれる透かしに依存する。さらに、方向情報を提供するための装置100は、方向情報プロバイダ120を含む。方向情報プロバイダは、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2に基づいて方向情報diを提供するように構成される。
【0031】
2.
図2によるアプリケーションシナリオ
【0032】
図2は、方向情報を提供するための装置100が、2つのオーディオレシーバ221、222から2つの透かしを入れたオーディオ信号rx1、rx2を受信するシナリオを示す。
図2において、透かしを含むオーディオ信号awmは、音波swとしてラウドスピーカ210によって再生される。音波swは、少なくとも2つの受信されたオーディオ信号rx1、rx2を得るために少なくとも2つのオーディオレシーバ221、222、例えば2つのマイクロホンによって記録される。それぞれの受信されたオーディオ信号rx1、rx2は、埋め込まれた透かしを含む。
【0033】
そして、受信された透かしを入れたオーディオ信号rx1、rx2は、方向情報を提供するための装置100の信号プロセッサ110に入力される。信号プロセッサ110は、受信された透かしを入れたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2を得るために受信された透かしを入れたオーディオ信号rx1、rx2を処理するように構成される。レシーバに特有の情報は、受信された透かしを入れたオーディオ信号に含まれる透かしに依存する位相情報であってもよい。さらに、位相情報は、オーディオレシーバの空間位置に依存する。例えば、透かしを含む再生されたオーディオ信号の音波は、第2のオーディオレシーバ222よりも、第1のオーディオレシーバ221に、わずかに早く到着し得る。したがって、第1の受信された信号rx1における透かしは、第2の受信された信号rx2におけるものよりもわずかに早く受信される。一般に、両方の受信された信号rx1、rx2は、よく似ている。しかしながら、両方の信号が互いに時間的にわずかにずれているので、両方の受信された信号rx1、rx2を時間領域から時間周波数領域に変換することは、一般に、同じ周波数サブバンドおよび時間インデックスに関する両方の周波数領域信号の異なる位相値をもたらす。
【0034】
信号プロセッサ110は、レシーバに特有の情報rsi1、rsi2を方向情報プロバイダ120に送る。方向情報プロバイダ120は、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2に基づいて方向情報diを提供するように構成される。例えば、方向情報diは、位相情報に基づいて提供され得る。第1の受信された信号rx1の第1の位相値および第2の受信された信号rx2の第2の位相値は、例えば位相差を計算することによって処理され得る。計算された位相差に基づいて、方向情報プロバイダ120は、方向情報diを決定し得る。例えば、再生されたオーディオ信号の音波が生じ得る可能な方向が、決定され得る。
【0036】
以下において、透かしに関する背景情報を提供するために、エンコーダにおける透かし生成は、
図3a〜
図5に表される図面に関して説明される。時間周波数領域において透かしを生成する透かしを入れる技術は、参照によりここに組み込まれる、欧州特許出願、出願番号第10154953.3、10154960.8、10154964.0、10154948.3、10154956.6および10154951.7に示される。
【0037】
基本的に、透かしは、別の信号、例えばオーディオ信号において隠される符号化されたビット署名である。ビット署名は、複数の周波数バンド(サブバンド)を使用して符号化され得る。
【0038】
図3a〜
図3cは、異なる周波数バンドにおいて符号化される透かし署名の2進値を示す。透かしが情報を送信するために用いられ得るにもかかわらず、以下において、透かし署名を送信するために透かしを用いる態様に注目する。
【0039】
一般に、透かし署名は、ビットの任意のシーケンス、例えばビットシーケンス[1,1,−1,1,−1,−1]であってもよい。
図3aは、対応する透かし署名310を示す。
【0040】
透かしビットシーケンスは、拡散シーケンスを用いることによって周波数において拡散される。例えば、透かし署名をm個の周波数バンドに拡散するために、m個の値を含む拡散ベクトルが、使用され得る。最も単純な場合、1s、例えば[1,1,1]だけを含む拡散ベクトルが、使用され得り、それは、透かし署名がそれぞれの周波数バンドごとにコピーされることををもたらす。より高度な実施形態において、拡散ベクトルは、−1s、例えば[1,−1,1]を含んでもよく、それは、透かし署名がそれぞれの−1ビットのためのそれぞれの周波数バンドにおいて符号化されるためにコピーされる前に反転されることをもたらす。
図3bは、周波数拡散された透かし320を得るために拡散ベクトル[1,−1,1,−1]を使用することによって周波数拡散される上述の透かし署名を示す。
【0041】
周波数拡散された透かしは、拡散ベクトルを使用することによって時間領域において拡散されてもよい。例えば、時間拡散のためのベクトル[1,−1]を使用することによって、周波数拡散された透かし署名のそれぞれは、最初にその元の形式で符号化され得り、そして、さらに、符号化されるために反転され得る。
図3cは、周波数拡散されさらに時間拡散された透かし署名330を示し、時間拡散は、拡散ベクトル[1,−1]を使用することによって行われている。
【0042】
周波数においておよびおそらく時間において拡散された後に、透かし署名は、繰り返して符号化され得る。
【0044】
ストリームの開始時に、すなわちj=0の場合に、b
diff(i,j−1)が1に設定される。
【0046】
上述の埋め込みプロセスは、対蹠的BPSK変調スキームを参照し、すなわち、符号化された情報ビットが、単にビット形成関数の符号を変える。あるいは、2つ以上のビットをグループ化することができ、さらに、より高次の変調コンステレーション(例えばQAMまたはM−PSKなど)を用いることができる。差動符号化を、例えば、差動的に符号化されたQPSKにおいて、共通に行うように、さらに適用することができる。
【0047】
ビットごとのビット整形は、心理音響処理モジュール102によって制御される反復プロセスにおいて繰り返される。反復は、それを聞こえなく保つ間に透かしにできるだけ多くのエネルギーを割り当てるために、重みγ(i,j)を微調整することが必要な場合がある。
【0049】
ビット形成ベースバンド関数g
iT(t)は、通常、T
bよりも非常に長い時間間隔の間、ゼロでないが、主要なエネルギーは、ビット間隔内に集中している。例が
図9aに示され、同じビット形成ベースバンド関数が2つの隣接するビットのためにプロットされる。
図9aにおいて、T
b=40msである。T
bの選択および関数の形は、システムにかなりの影響を及ぼす。実際に、より長いシンボルは、より狭い周波数応答を提供する。これは、特に反響する環境において有益である。実際に、そのようなシナリオにおいて、透かしを入れた信号は、それぞれが異なる伝搬時間によって特徴づけられるいくつかの伝搬経路を介してマイクロホンに達する。結果として生じるチャンネルは、強い周波数選択性を示す。時間領域において解釈すると、より長いシンボルは、ビット間隔に匹敵する遅延を有する反響が建設的干渉を生じるように有益であり、それらは、受信された信号エネルギーを増加することを意味する。それにもかかわらず、より長いシンボルは、いくつかの欠点ももたらし、より大きい重なりは、シンボル間干渉(ISI)をもたらし得り、さらに、心理音響処理モジュールがより短いシンボルの場合よりも少ないエネルギーを可能にするようにオーディオ信号において隠すことを確かにより困難にする。
【0051】
図5は、透かし挿入器500のブロック概略図を示す。エンコーダ側で、透かし信号501bは、2進データ501aから、さらに、心理音響処理モジュール502で交換される情報504、505に基づいて、処理ブロック501(また透かしジェネレータとしても指定される)において生成される。ブロック502から提供される情報は、透かしが聞こえないことを典型的に保証する。透かしジェネレータ501によって生成される透かしは、オーディオ信号506に加えられる。
【0052】
上述したように、重み付け係数γ(i,j)は、サブバンドごとに波形s
i;j(t)を計算するために必要である。重み付け係数γ(i,j)の目的は、結果として生じる透かしを入れた信号507において聞こえない透かしを隠すことである。重み付け係数γ(i,j)は、3つの部分を含む心理音響処理モジュール502によって提供される。第1の部分は、時間オーディオ信号を時間/周波数領域に変換する分析モジュールである。この分析モジュールは、異なる時間/周波数分解能において平行分析を行い得る。分析モジュールの後、時間/周波数データは、心理音響モデル(PAM)に転送され、そこにおいて、透かし信号のためのマスキング閾値は、心理音響的な考慮に従って計算される。マスキング閾値は、サブバンドおよび時間ブロックごとにオーディオ信号において隠すことができるエネルギー量を示す。心理音響処理モジュール502において最後のブロックは、振幅計算モジュールである。このモジュールは、マスキング閾値が満足されるように、すなわち、埋め込まれたエネルギーがマスキング閾値によって定義されるエネルギー以下であるように、透かし信号の生成において用いられる振幅ゲインを決定する。
【0053】
図6aにおいて、単一のラウドスピーカ610が、透かしを入れたオーディオ信号awmの再生のために用いられる。最初のステップとして、透かし信号wmは、透かしを入れたオーディオ信号awmを得るために結合ユニット605によってオーディオ信号aと結合される。透かし信号wmは、
図3a〜
図4に関して述べられるようにつくられ得る。透かしを入れた信号awmは、
図5に関して述べられるように、透かしジェネレータによって生成され得る。例えば、透かし信号wmは、オーディオ信号aに加えられ得る。
【0054】
そして、結合ユニット装置605によって行われる結合から生じる透かしを入れたオーディオ信号awmは、ラウドスピーカ610によって再生され、さらに、N個の信号s
1,s
2,・・・,s
Nが得られるように、センサ621、622、62N、例えばマイクロホンアレイのN個のマイクロホンによって記録される。記録された信号s
1,s
2,・・・,s
Nは、透かしを入れたラウドスピーカ信号を含むだけでなく、干渉ノイズ、例えば室内の話し手および反響によって生じる効果も含む。そして、記録された信号s
1,s
2,・・・,s
Nは、実施形態による方向情報を提供するための装置100に入力される。装置100は、方向情報を決定しさらに出力し、例えば、それは、到来方向(DoA)を決定しさらに出力し得る。
【0055】
しかしながら、他の構成において、複数のラウドスピーカ611,612,・・・,61Nは、複数の透かしを入れた信号awm
1,awm
2,・・・,awm
Mを出力するように構成され得る。これは、
図6bに示される。異なる透かし信号wm
1,wm
2,・・・,wm
Mは、オーディオ信号a
1,a
2,・・・,a
M、例えばホームシアタ再生のために用いられるオーディオアイテムのパンされたチャンネルに加えられる。現在のシナリオのための処理は、1つのラウドスピーカだけが透かしを入れた信号を再生している状況と似ている。
【0056】
4.
図7による方向情報を提供するための装置
【0057】
図7は、実施形態による方向情報を提供するための装置100を示す。複数の受信された透かしを入れたオーディオ信号s
1,s
2,・・・,s
N、例えば
図6に表されるマイクロホン621,622,・・・,62Nによって記録され得る信号が示される。時間領域において表される受信された透かしを入れた信号s
1,s
2,・・・,s
Nは、時間周波数領域に変換されさらに正規化されるために分析モジュール711,712,・・・,71Nに送られる。
【0058】
4.1 分析モジュール711,712,・・・,71N
【0059】
分析モジュール711,712,・・・,71Nを説明するために、受信された透かしを入れたオーディオ信号のうちの1つが考慮される。分析モジュールのうちの1つは、分析フィルタバンクを使用することによって透かしを入れたオーディオ信号を時間領域から時間周波数領域に変換する。フィルタバンクの入力は、それぞれの透かしを入れたオーディオ信号である。その出力は、時刻jでi番目のブランチまたはサブバンドのための複素係数b
iAFB(j)である。これらの値は、中心周波数f
iおよび時間j・Tbで信号の振幅およびの位相に関する情報を含む。
【0061】
比率1=T
bを用いて係数b
iAFB(t)を得るために、連続出力b
iAFB(t)は、サンプリングされなければならない。ビットの正しいタイミングがレシーバによって知られている場合、比率1=T
bを用いるサンプリングが、十分である。しかしながら、ビット同期がまだ知られていないので、サンプリングは、比率N
os/T
bを用いて行われ、N
osは、分析フィルタバンクオーバーサンプリング係数である。十分に大きいN
os(例えばN
os=4)を選択することによって、少なくとも1つのサンプリングサイクルが理想的なビット同期に十分に近いことを保証することができる。最良のオーバーサンプリング層についての決定は、同期化プロセスの間、行われるので、すべてのオーバーサンプリングされたデータは、その時まで保たれる。
【0062】
i番目のブランチの出力で、係数b
iAFB(j,k)を有し、jは、ビットナンバーまたは時刻を示し、さらに、kは、この単一のビット内のオーバーサンプリング位置を示し、k=1;2;・・・,N
osである。
【0063】
図8aは、時間周波数平面上の係数の位置の例示的な概要を与える。
図8aにおいて、オーバーサンプリング係数は、N
os=2である。長方形の高さおよび幅は、それぞれ、対応する係数b
iAFB(j,k)によって表される信号の部分の帯域幅および時間間隔を示す。
【0064】
サブバンド周波数f
iが特定の間隔Δfの倍数として選択される場合、分析フィルタバンクを、高速フーリエ変換(FFT)を用いて効率的に実施することができる。
【0066】
n>1のための正規化は、上述の式の直接的な拡張である。正規化は、サブバンドiごとにおよび時刻jごとに行われる。
【0067】
さらに、正規化係数は、1つのマイクロホンだけのために計算され得り、そして、到来方向推定がレシーバに特有の情報の振幅も用いる場合に、すべてのマイクロホンに適用され得る。
【0068】
図8bは、サブバンド信号を示し、2つの透かし信号部分WM1およびWM2は、時間多重化される。サブバンド信号は、第1のラウドスピーカからの第1のオーディオソースLS1のサウンド部分と第2のラウドスピーカからの第2のサウンドソースLS2のサウンド部分とを含む。さらに、サブバンド信号は、第1のラウドスピーカからの透かし信号部分WM1または第2のラウドスピーカからの透かし信号部分WM2も含む。
【0070】
図7に戻って、時間周波数領域への変換および正規化の後、時間周波数領域信号S
1,S
2,・・・,S
Nは、選択モジュール720に送られる。選択モジュール720は、利用できる信号S
1,S
2,・・・,S
Nのいずれが後の同期を実行するために用いられるべきかを決定する。いくつかの可能性が、信号のいずれかを選ぶ選択モジュール720のために存在する。実施形態において、選択モジュール720は、入力信号S
1,S
2,・・・,S
Nのうちの1つをランダムに選択するように構成される。例えば、選択モジュールは、時間周波数領域信号S
1を選択し得る。他の実施形態において、選択モジュール720は、信号S
1,S
2,・・・,S
Nを平均化しさらに平均化された信号を用いるように構成される。
【0073】
これは、チャンネルが、通常、それぞれのサブバンドにおいて異なる位相回転を導入するので、サブバンドごとに別に行われなければならない。
【0074】
差動デコーダ730は、最初に2つの連続した係数の位相における差を計算し、そして、位相の実数部分をとることによって、いわゆるソフトビットを得るために、入力された信号を差動的に復号化する。結果として生じるソフトビットが任意の実数値をとることができ、さらに、ビットについてのハード決定がまだ行われていないことに留意すべきである。ソフトビットが任意の実数値をとることができるので、それらは、必ずしも、−1または1である必要がないが、その代わりに、−1または1と異なる実数値、例えば0.92、−0.88、0.97などを有し得る。
【0076】
そして、差動デコーダ730は、ソフトビットストリームを統合モジュール740に送り、それは、同期の精度をさらに改善するためにいくつかの同期署名にわたって時間においてソフトビットストリームを統合する。
【0078】
統合モジュール740が、これからさらに詳細に説明される。単一のラウドスピーカによって生成される1つの透かし署名wm1だけが使用されるときに、透かし署名wm1は、透かし署名wm1の最後のビットが送信されるときに透かし署名wm1の第1のビットが次に続くなどのように、繰り返して送信される。
図9aは、対応するシーケンスを表す。使用された(例えば時間拡散された)透かし署名wm1だけがN個のビットを含む場合、ビットシーケンスは、N個のビットの後に繰り返され、そして、透かし署名だけが、長さN個のビットの同期ブロックsyncを形成する。
【0079】
しかしながら、すでに上で説明したように、システムは、複数のラウドスピーカを含み得る。それぞれのラウドスピーカの到来方向の推定を得るために、記録された信号のどの部分が特定のラウドスピーカによって放出されたかを決定することが必要である。したがって、透かし信号は、多重化されなければならない。異なる可能な方法があり、それらは、通信、すなわち符号分割多元接続(CDMA)、周波数分割多元接続(FDMA)および時分割多元接続(TDMA)においてよく知られている。実施形態において、時分割多元接続が使用される。記録された信号のどの部分が特定のラウドスピーカに属するかを決定するために、異なる透かし署名が、異なるラウドスピーカ信号に埋め込まれる。
図10は、2つのラウドスピーカおよび6つのシーケンスを含む同期署名の使用のための時間多重化を示す。
【0080】
このように、異なるラウドスピーカは、異なる透かし、例えば、時間多重化され得る2つの透かしwm1、wm2を送信し得る。両方の(例えば時間拡散された)透かしのビット数がNであると仮定する。最初に、第1の透かし署名wm1が、送信される。その後、第2の透かし署名が、送信される。そして、第1の透かし署名wm1は、再び送信され、第2の透かし署名wm2などが続く。それから、同期ブロックsyncは、透かしwm1、wm2を含み、さらに、2・N個のビットを有する。
図9bは、2つの多重化された透かし署名を用いる述べられたシナリオを表す。
【0083】
統合モジュールは、異なる同期ブロックの複数のソフトビットが透かし復号化プロセスの堅牢性を改善するために加えられるように、ソフトビットを統合するように構成される。
【0084】
最初に、差動的に復号化されたビットを含むビットストリームは、N
sync個のビットを有する後の周期的なブロックp1、p2、p3に分割される。この時点で、統合モジュール740は、同期ブロックの開始位置を認識していない。しかしながら、これは、差動的に復号化されたビットストリームの周期性が同期ブロックの開始点に依存しないが、その代わりに同期ブロックの長さに依存するので、必要でない。そのために、同期ブロックの第1のビットは、周期的なブロック内のどこかに位置し得る。
図9cは、このシナリオを示す。
【0086】
この式において、iは、考慮されたサブバンドであり、Kは、平均化される同期ブロックの数を表し、kは、考慮される現在の同期ブロックを表し、さらに、jは、周期的なブロック内に考慮されるビット位置である。平均化された同期ブロックは、N
sync個のビット、すなわちb
iavg(0),b
iavg(1),b
iavg(2),・・・,b
iavg(N
sync−1)を有する。
【0087】
第1の透かし署名の第1のビットは、平均化された同期ブロックp0においてどこかに位置し得る。
図9dは、平均化された同期ブロックp0を示すシナリオを示す。
【0089】
統合モジュール740によって行われる統合は、平均化されたソフトビットを生成し、または、オーバーサンプリングの場合には、平均化された同期ブロックp0のビットの1つごとに複数のN
osのソフトビット値候補を生成する。
【0090】
スピーチ信号が透かしキャリアとして働くさらなる実施形態において、統合は、特に重要であり、なぜなら、それらが透かし信号なしでたびたびギャップを含むからである。これによって、ソフトビットストリームにおいて実在するエラーは、通常、時間において統合が行われるときに低減される。
【0092】
ビットストリームが時間において統合された後、統合モジュール740は、統合されたソフトビットストリームを堅牢な同期を実行する同期モジュール750に送る。さらに詳細には、同期モジュール750は、埋め込まれた同期署名を用いる相関を実行する。これから生じるものは、同期ヒット位置である。同期モジュール750における同期は、これからさらに詳細に説明される。
【0093】
同期モジュール750のタスクは、平均化された同期ブロック内の1つ以上の透かしの時間的アライメントを見つけることである。
【0094】
符号化されたデータにデコーダを同期する問題が2つある。最初のステップにおいて、分析フィルタバンクは、符号化されたデータによってアライメントされなければならなく、すなわち、モジュレータにおいて合成に用いられるビット整形関数g
iT(t)は、分析のために用いられるフィルタg
iR(t)によってアライメントされなければならない。この問題は、
図12aに示され、分析フィルタは、合成フィルタと同一である。上部に、3つのビットが見える。説明を簡単にするために、全3つのビットのための波形は、スケールされない。異なるビット間の時間的オフセットは、T
bである。下部は、デコーダで同期の問題を示し、フィルタを、異なる時刻に適用することができるが、曲線1299aだけが、正しく、さらに、最良の信号対ノイズ比SNRおよび信号対妨害比SIRで第1のビットを抽出することができる。実際に、正しくないアライメントは、SNRおよびSIRの両方の劣化をもたらす。この第1のアライメントの問題を「ビット同期」と呼ぶ。一旦、ビット同期が達成されると、ビットを、最適に抽出することができる。しかしながら、透かし署名がどこで開始するかを知ることが必要な場合がある。この問題は、
図12bに示され、メッセージ同期と呼ばれる。復号化されたビットのストリームにおいて、太い矢印1299bによってマークされる開始位置だけが、正しく、さらに、k番目のメッセージを復号化することができる。
【0095】
基本的な同期概念を説明するために、最初に、1つのラウドスピーカだけが単一の透かし署名を出力するシステムを参照する。したがって、平均化された同期ブロックは、単一の透かし署名のビットだけを含む。透かし署名は、同期署名と呼ばれる場合がある。
【0096】
さらに、用語同期シーケンスを参照する。同期署名は、複数の同期シーケンスを含み得る。最も単純な場合、同期シーケンスは、単一のビットだけを含み得る。しかしながら、同期署名が複数のビットを含むことも可能である。
【0097】
最初にメッセージ同期について述べる。同期署名は、透かしを入れたオーディオ信号において連続的にさらに周期的に埋め込まれる所定の順序においてN
s個の同期シーケンスからなると仮定される。同期モジュール750は、同期シーケンスの時間的アライメントを検索することができる。
【0098】
同期モジュールは、同期シーケンスの時間的アライメントを見つけることによって、それぞれの同期署名の開始を確認することができる。新しい同期署名が開始する時間的位置を同期ヒットと呼ぶ。
【0099】
同期モジュールの処理ブロックは、
図11aおよび
図11bに表される。同期サポートユニットは、同期署名相関器1201の出力を分析することによって、すぐにビット同期およびメッセージ同期を行う。時間/周波数領域におけるデータ204は、分析モジュールによって提供される。ビット同期がまだ利用できないので、分析モジュールは、係数N
osを用いてデータをオーバーサンプリングする。
【0100】
入力データの説明が、
図12cに与えられる。この例のために、N
os=4、N
t=2およびN
s=3をとっている。また、N
osは、オーバーサンプリング係数を示し、N
tは、時間拡散係数を示し、さらに、N
sは、同期シーケンスの数を示す。このように、換言すれば、同期署名は、(a、b、およびcで示される)3つのシーケンスからなる。時間拡散は、拡散シーケンスc
t=[1 1]
Tを用いるこの場合に、単に時間領域において2回それぞれのビットを繰り返す。
【0101】
正確な同期ヒットは、矢印で示され、さらに、それぞれの同期署名の開始に対応する。同期署名の周期は、N
t・N
os・n
s=N
sblであり、それは、2・4・3=24である。
【0102】
平均化された同期ブロックの周期性のために、統合モジュール740によって出力されるような平均化された同期ブロックを考慮するだけで十分である。同期ブロックは、
図12dに表されるように1つの同期ヒットを含まなければ(または典型的に含まなければ)ならない。平均化された同期ブロックのビットのそれぞれは、候補同期ヒットである。
図12dにおいて、平均化された同期ブロックは、説明のためだけに図において複製された形式で示される。ブロック1201のタスクは、同期ブロックの候補ビットのそれぞれのための尤度測度を計算することである。そして、この情報は、同期ヒットを計算するブロック1204に送られる。
【0103】
N
sbl個の候補同期位置のそれぞれのために、同期署名相関器は、尤度測度を計算し、後者が大きいほど、時間的アライメント(ビットおよび部分的なまたは完全なメッセージ同期の両方)が見られるという可能性が大きい。処理ステップは、
図11cに表される。
【0104】
したがって、異なる位置選択と関連した尤度値のシーケンス1201aが得られ得る。ブロック1301は、時間的逆拡散を行い、すなわち、すべてのN
t個のビットに時間的拡散シーケンスc
tを乗算し、そして、それらを合計する。これは、N
f個の周波数サブバンドのそれぞれのために行われる。
【0105】
図13aは例を示す。前のセクションにおいて述べられるような同じパラメータをとり、すなわち、N
os=4、N
t=2およびN
s=3をとる。候補同期位置が、マークされる。N
osオフセットを用いて、そのビットから、N
t・N
sは、N
s個のビットが残されるように、ブロック1301およびシーケンスc
tを用いる時間逆拡散によってとられる。
【0106】
ブロック1302において、ビットは、N
s個の拡散シーケンスでエレメントごとに乗算される(
図13bを参照)。
【0107】
ブロック1303において、周波数逆拡散が行われ、すなわち、それぞれのビットが、拡散シーケンスc
fで乗算され、そして、周波数に沿って合計される。
【0108】
この時点で、同期位置が正しい場合、N
s個の復号化されたビットを有する。ビットがレシーバに知られないので、ブロック1304は、N
s個の値の絶対値および合計をとることによって尤度測度を計算する。
【0109】
ブロック1304の出力は、原理的に、同期署名を探す非コヒーレント相関器である。実際に、小さいN
sを選択するとき、すなわち部分的なメッセージ同期モードのときに、相互に直交する同期シーケンス(例えば、a、b、c)を用いることが可能である。そうすることで、相関器が署名によって正しくアライメントされないときに、その出力は、非常に少なく、理想的にはゼロである。完全なメッセージ同期モードを用いるときに、できるだけ多くの直交する同期シーケンスを用いることがアドバイスされ、そして、それらが用いられる順序を注意深く選択することによって署名をつくる。この場合、良好な自動相関関数を用いて拡散シーケンスを探すときのように、同じ理論を適用することができる。相関器がわずかにミスアライメントされるだけのときに、相関器の出力は、理想的な場合においてさえゼロでないが、とにかく、分析フィルタが信号エネルギーを最適に捕えることができないので、完全なアライメントと比較してより小さい。
【0110】
この同期ヒット計算ブロックは、同期位置がどこにあるかを決定するために、同期署名相関器の出力を分析する。システムがT
b/4までのミスアライメントに対してかなり堅牢であり、さらに、T
bとして通常約40msがとられるので、より安定な同期を達成するために時間とともに1201の出力を統合することが可能である。これの可能な実施は、指数的に減衰するインパルス応答を用いて時間に沿って適用されるIIRフィルタによって与えられる。あるいは、従来のFIR移動平均フィルタを適用することができる。一旦、平均化が行われると、異なるN
t・N
sに沿った第2の相関が行われる(「異なる位置選択」)。実際に、同期関数の自己相関関数が知られるという情報を利用したい。これは、最大尤度推定器(Maximum Likelihood estimator)に対応する。その考えが
図13cに示される。曲線は、時間的統合の後のブロック1201の出力を示す。同期ヒットを決定する1つの可能性は、単にこの関数の最大を見つけることである。
図13dにおいて、同期署名の自己相関関数でフィルタにかけられる(黒色の)同じ関数が見られる。結果として生じる関数は、より太い線によって示される。この場合、最大が、際立っており、さらに、同期ヒットの位置を与える。2つの方法は、高いSNRのためにかなり類似しているが、第2の方法は、低いSNR領域において非常により良好に機能する。一旦、同期ヒットが見られると、それらは、データを復号化する透かし抽出器202に送られる。
【0112】
システムは、異なるラウドスピーカによって出力される2つ以上の透かし署名を使用してもよく、透かし署名は、時間多重化される。
図10は、そのような時間多重化された透かし署名を示す。そのような場合、同期モジュール750は、埋め込まれた透かし署名の1つごとに別に検索する。したがって、それは、用いられるラウドスピーカおよび異なる透かし信号と同数の同期ヒット位置を検出し、さらに、これらの同期ヒット位置を方向推定器760に送る。
【0113】
これによれば、同期署名の同期ヒット位置を見つける上述の概念は、透かしごとに繰り返して適用される。このように、透かしごとに、平均化された同期ブロック内の同期ヒット位置が決定される。それぞれの透かしの同期ヒット位置の決定は、透かしの1つごとに
図11a〜
図13dに関して説明されるように、繰り返して行われ、考慮された透かしの透かし署名は、同期署名として使用される。
【0114】
そして、記録された信号は、M個のセグメントに分割され、M個のセグメントのそれぞれは、特定のラウドスピーカの特定の透かしに属する。それから、到来方向の推定が、セグメントごとに行われる。その結果、方向推定器760は、M個の出力を有し、それぞれは、特定のラウドスピーカによって放出されるサウンドの到来方向を表す。
【0115】
同期モジュール750は、平均化された同期ブロック内の1つ以上の同期ヒット位置を提供し、さらに、同期ヒット位置を方向推定器760に送る。
【0116】
他の実施態様において、透かしが連続的に埋め込まれ、さらに、1つのラウドスピーカだけが用いられる場合、同期ヒットが計算されることが必ずしも必要でない。これがそうでない場合、同期は、方向推定のための開始点を見つけるために実行されなければならない。
【0117】
4.6 統合モジュール741,742,・・・,74N
【0118】
図7に戻って、分析モジュール711,712,・・・,71Nは、時間周波数領域信号S
1,S
2,・・・,S
Nを選択モジュール720に提供するだけでなく、信号S
1,S
2,・・・,S
Nを統合モジュール741,742,・・・,74Nにも提供する。統合モジュール741,742,・・・,74Nに送られるものは、実際に、選択モジュール720に提供されるものと同じ係数である(オーバーサンプリングされた)正規化された複素係数b
inorm(j,q)である。
【0119】
しかしながら、差動復号化の後に失われる、複素係数に含まれる位相情報が必要であるので、差動復号化は、オーバーサンプリングされた正規化された複素係数が統合モジュール741,742,・・・,74Nに送られる前に、実行されない。その代わりに、信号の位相情報は、保たれなければならない。差動復号化を適用することによって、この情報は廃棄される。
【0120】
統合モジュール741,742,・・・,74Nのそれぞれにおいておよびサブバンドiごとに、最初に、オーバーサンプリングされた正規化された複素係数を含むストリームは、後の周期的なブロックp11、p12、p13に分割される。複素係数ストリームは、差動的に復号化されたビットストリームが周期的なブロックp1、p2、p3に分割されるように、ブロックにおいて正確に同じ方法で分割される。対応する時間インデックスおよび(オーバーサンプリング位置)を用いるビットおよびサンプルは、対応する周期的なブロックに含まれる。
【0121】
これは、
図7および
図14に関して説明される。
図7において、信号s1は、分析モジュール711に提供され得る。分析モジュール711は、複数のサブバンド信号を含む時間周波数領域信号S1を生成し、サブバンド信号のそれぞれは、複素係数のストリームとして表される。実施形態において、選択モジュール720は、後の同期が時間周波数領域信号S1に基づいて実行されるように、S1を選択し得る。
【0122】
図14において、時間周波数領域信号S1の特定のサブバンドが考慮される。このサブバンドは、複素係数c(i,j)を含み得り、iは、サブバンドを示し、さらに、jは、時間インデックスを示す。例えば、このサブバンドの複素係数c(i,1)、c(i,2)、c(i,3)、c(i,4)、c(i,5)およびc(i,6)を考慮する。差動デコーダによるこれらの値に基づく差動復号化は、6つのソフトビット、すなわち、c(i,1)および前のサブバンドサンプルに基づくd(i,1)、c(i,2)および前のc(i,1)に基づくd(i,2)、c(i,3)および前のc(i,2)に基づくd(i,3)、c(i,4)および前のc(i,3)に基づくd(i,4)、c(i,5)および前のc(i,4)に基づくd(i,5)、およびc(i,6)および前のc(i,5)に基づくd(i,6)を提供する。d(i、j)において、iは、サブバンドを表し、さらに、jは、時間インデックスを表す。
【0123】
周波数バンドiの複素係数は、
図7の統合モジュール741にも送られる。統合モジュール740は、これから、ソフトビットd(i,1)、d(i,2)、d(i,3)、d(i,4)、d(i,5)、d(i,6)を含む差動的に復号化されたビットストリームを、d(i,1)、d(i,2)およびd(i,3)を含む第1の周期的なブロックp1と、d(i,4)、d(i,5)およびd(i,6)を含む第2の周期的なブロックp2とに分割する場合、複素係数c(i,1)、c(i,2)、c(i,3)、c(i,4)、c(i,5)およびc(i,6)も、2つのブロックに、すなわち、複素係数c(i,1)、c(i,2)およびc(i,3)を含む第1のブロックと、複素係数c(i,4)、c(i,5)およびc(i,6)を含む第2のブロックとに分割される(
図14を参照)。
【0124】
同じことが、これらの信号が差動デコーダによって実行される差動復号化のために用いられなかった場合であっても、他の分析モジュール71Nによって生成される他の時間周波数領域信号S
Nのために適用される。
【0125】
上述の概念は、オーバーサンプリングが考慮される場合、等しく適用できる。オーバーサンプリングされたソフトビットb(i,j,q)が第1および第2の周期的なブロックp1およびp2に分割される場合、複素係数c(i,j,q)も、2つのブロックp11およびp12に分割される。(ここで、iは、サブバンドを示し、jは、時間インデックスを示し、さらに、qは、オーバーサンプリング位置を示す。)第1の周期的なブロックp1がソフトビットb(i,j,q)を含む場合、第1のブロックp11は、同じインデックスj、qを用いる複素係数c(i,j,q)を含む。第2の周期的なブロックp2がソフトビットb(i,j,q)を含む場合、第2のブロックp12も、同じインデックスj、qを用いる複素係数c(i,j,q)を含む。
【0126】
このように、統合モジュール741,742,・・・,74Nによって生成される周期的なブロックp11、p12、p13のそれぞれの長さは、統合モジュール740によって生成される周期的なブロックp1、p2、p3の長さに対応する。
【0128】
この式において、Kは、平均化される考慮されたサブバンドiの周期的なブロックの数を表し、kは、考慮される現在の周期的なブロックを表し、さらに、jは、周期的なブロック内の複素係数の位置である。
【0130】
平均化された周期的なブロックは、周波数バンドおよび信号ごとに決定される。
【0131】
平均化された周期的なブロックを形成するこの効果が、
図15aおよび
図15bに関して説明される。
図15aおよび
図15bは、統合が透かし信号の求められている位相情報を得る際にどのように役立つかを説明する。
【0132】
いくつかのラウドスピーカを用いるときに、よく知られた現象、すなわちファントムイメージソースが起こる。このシナリオにおいて、放出されたサウンドは、それがラウドスピーカ間に位置するソースによって再生されたかのように知覚される。これは、到来方向の推定のための場合でもあり、その理由は、記録された透かし信号のオーディオ部分が、透かし部分に比例して倍増するからである。この問題のための解決策は、これからさらに詳細に説明される統合モジュール441,442,・・・,44Nの使用である。
【0135】
ビット統合の後、異なるマイクロホン611,612,・・・,61Nの受信された信号S
1,S
2,・・・,S
Nごとの、および、周波数バンドiごとの統合された複素係数が、利用できる。
【0136】
しばらくの間、オーバーサンプリングを考慮せず、本発明が基づくいくつかの原理を説明する。この実施形態との関連で使用されるような位相変調は、いくつかの基本的な考えに基づく。それぞれのサンプリングされた複素係数が符号化されたビット位置に対応すると仮定すれば、現在のサンプルの位相値は、前のサンプルの位相値と比較される。例えば、2進位相シフトキーイング(BPSK)を考慮する。両方のサンプルの位相値が同一である場合、これは、第1の符号化されたビット値に対応し、例えば、符号化されたビット値は、1である。しかしながら、両方の位相値が例えば180度(または±π)だけ異なる場合、これは、第2の符号化されたビット値に対応し、例えば、符号化されたビット値は、−1である。このように、例えば、2進位相シフトキーイングを使用する位相変調のために、後のビット位置のサンプルは、同じ位相値または180度(±π)だけ異なる位相値を有することが必須である。したがって、位相変調された値を符号化するときに、変調は、後のビット位置に対応するサンプルの位相値が等しいかまたは符号化されたビット値に応じて180度だけ異なるように使用される。
【0137】
特定の透かし署名および特定の周波数バンドに関して、ラウドスピーカは、位相変調によって符号化されるビットシーケンスを送信する。すべてのオーディオレシーバ、例えばマイクロホンは、位相調整されたビットシーケンスを受信する。受信されたオーディオ信号S
1,S
2,・・・,S
Nの後のビット位置に対応するサンプルの位相差は、異なるマイクロホンのすべての信号のために(ほとんど)同じであるべきである。2つのマイクロホンが同時にオーディオ信号の同じ部分を受信する場合、絶対位相値も同一であるべきである。しかしながら、マイクロホンが間隔を離して置かれるので(それらがわずかにだけ間隔を離して置かれ得るにもかかわらず)、第1のマイクロホンは、例えば、第1のマイクロホンが第2のマイクロホンよりもラウドスピーカに近い場合、第2のマイクロホンよりもわずかに早くオーディオ信号の同じ部分を受信し得る。2つの受信された時間領域信号の時間におけるそのような差は、2つの受信された周波数領域信号、例えば時間周波数領域信号の位相における差をもたらす。したがって、2つのマイクロホンによって受信される2つの透かしを入れた信号の位相差は、2つのマイクロホンの位置に関連して透かしを入れた信号を放出したラウドスピーカの位置に関する情報を含む。
【0139】
統合モジュール741,742,・・・,74Nは、周波数バンドおよび信号ごとに決定される平均化された周期的なブロックを、すでに同期ヒット位置を受信している方向推定器760に送る。そして、方向推定器760は、平均化された周期的なブロックごとに同期ヒット位置によって示される入力データの部分において、到来方向の推定を実行する。
【0140】
以下において、システムが単一の透かしを送信する1つのラウドスピーカだけを含む状況に注目する。しかしながら、本発明は、複数の透かしが送信される場合において、等しく適用できる。この場合、1つの同期ヒット位置は、送信された透かしごとに提供され、そして、平均化された周期的なブロックは、同期ヒット位置に基づいてさらに透かしの長さに基づいて、異なるセグメントに分割される。そして、以下の概念は、透かし署名および平均化された周期的なブロックのそのセグメントごとに適用される。
【0141】
4.7.1 正しくないオーバーサンプリング位置でのサンプルの廃棄
【0142】
最初のステップにおいて、方向推定器は、平均化された周期的なブロックに基づいてサンプル統合を実行する。そのオーバーサンプリング位置だけが、同期ヒット位置による正しいオーバーサンプリング位置として示されるビットごとに考慮される。他のすべてのオーバーサンプリング位置は、廃棄されさらにサンプル統合において考慮されない。
【0144】
そして、透かし署名は、第1の透かし署名の第1のビットから開始してビットごとに考慮される。平均化された周期的なブロックにおいて対応するサンプル値の位置は、同期ヒット位置によって示される。透かし署名のすべてのビットおよびそれらの対応するサンプル値が考慮される。変調スキームとしてBPSKを用いる実施形態において、1のビット値は、現在のおよび前のサンプルの等しい位相値によって示される一方で、−1のビット値は、現在のおよび前のサンプルの180度の位相差によって示される。これは、
図15cに示される。複素係数のサンプル値のシーケンスは、1510で表される。ビットシーケンス1515は、差動符号化が使用されると仮定する符号化されたビットを示す。同期モジュールは、これから、すべての複素係数が不変の複素係数をそのままにすることによってまたはその位相値を180度だけ変えることによっておおよそ同じ位相値を有するように、平均化された複素係数1520の処理されたシーケンスを生成する。複素係数の位相値が180度だけ変えられるかどうかの決定は、透かしの符号化されたビットシーケンスを評価することに基づいて決定される。
【0145】
例えば、透かし署名に基づいて、装置は、ビット値が所望の第1の位相値を有する複素係数を用いることによって符号化されているかどうか、または、ビット値が望まれていない第2の位相値を有する複素係数を用いることによって符号化されているかどうかを計算し得る。対応するサンプル値が望まれていない第2の位相値を有すると決定されている場合、この複素係数の位相値は、180度だけ変えられる。
【0146】
これによって、第1の絶対位相値を有するかまたは第1の位相値と約180度だけ異なる第2の絶対位相値を有する周波数バンドの複素係数を処理する前の間に、平均化された複素係数の処理されたシーケンスの特定の周波数バンドのための複素係数の絶対位相値は、特定のマイクロホンの特定の周波数領域信号に関するすべての複素係数について現在ほとんど同じである。
【0148】
サンプルの位相を調整した後に、すべての複素係数は、おおよそ同じ値を用いる位相値を有する。同期モジュール750は、これから、サンプルごとに基づいて統合を行う。考慮された透かし署名に関するすべての残りのサンプル値(正しいオーバーサンプリング位置を用いるサンプリング値)は、統合され、すなわち平均化され、例えば、平均化された複素係数1530を得るために、加えられさらに加えられたサンプルの数で分割される。
【0149】
2つの効果が得られる。第1の効果として、より安定な絶対位相値が得られる。異なるサンプルは、異なる位相値が正確に同じ絶対位相値でないがおおよそ同じ絶対位相値を有するように、チャンネル内の変動にさらされ得る。第2の効果として、平均化されたサンプル内のオーディオ信号の効果が最小化される一方で、透かし署名の効果が強調される。
【0150】
このように、異なるマイクロホン611,612,・・・,61Nのための平均化された複素係数の1つごとにさらに周波数バンドiごとに、(絶対)位相値を決定することができる。位相値は、平均化された位相値である。複素係数が複素数であるので、複素係数の絶対位相値は、複素係数の位相値(偏角)を決定することによって決定され得る。
【0151】
しかしながら、異なる周波数バンドの複素係数が
図15dに示されるように異なる位相値を有し得ることに留意すべきである。
【0153】
決定された位相情報に基づいて、様々なタイプの方向情報が、他の決定概念に基づいて決定され得る。マイクロホンアレイの構成および入力信号間の位相差の使用に依存する方法、例えば方向オーディオ符号化(Directional Audio Coding(DirAC))または回転不変技術を介する信号パラメータの推定(Estimation of Signal Parameters via Rotational Invariance Techniques(ESPRIT))を用いることによって、到来方向の推定が得られる。
【0154】
DirACにおいて、音場は、B−フォーマットマイクロホン信号を用いることによって分析され、それは、全方向性信号w(t)およびデカルト座標系のx、yおよびz軸に対応する3つダイポール信号x(t)、y(t)、z(t)を含む。
【0155】
図16は、それらが3つのマイクロホン対を形成するように、6つのマイクロホンのマイクロホン配置を示す。第1のマイクロホン対mx1、mx2は、デカルト座標系のx軸上に位置すると仮定される。第2のマイクロホン対my1、my2は、それがデカルト座標系のy軸上に位置すると仮定することができるように配置される。さらに、第3のマイクロホン対mz1、mz2は、それがデカルト座標系のz軸上に位置すると仮定することができるように配置される。
【0172】
実施形態において、到来方向ベクトルは、以下のように計算された位相値に基づいて決定される。
【0173】
上で説明したように、
図17に戻って、絶対位相値のための位相差Δνx、ΔνyおよびΔνzは、Δνx=νx1−νx2、Δνy=νy1−νy2、およびΔνz=νz1−νz2を適用することによって計算され得る。
【0174】
実施形態において、マイクロホンmx1およびmx2間の距離dxと、マイクロホンmy1およびmy2間の距離dyと、マイクロホンmz1およびmz2間の距離dzとが、等しいと仮定される。
【0178】
到来方向ベクトルは、
図18a〜
図18dに関して説明される。より良好な説明のために、2次元のxy平面における状況が説明される。マイクロホンmx1およびmx2間の距離dxと、マイクロホンmy1およびmy2間の距離dyとが、等しいと仮定される。しかしながら、与えられる説明も、3次元の場合に、さらに、マイクロホンの距離が等しくないが位相差ΔνxおよびΔνyが例えば距離係数を適用することによって調整されている状況に、適用される。
【0179】
到来方向ベクトルa=(Δνx,Δνy,Δνz)を考慮する。その成分Δνx、Δνy、Δνzは、上述の実施形態によって得られるような位相差である。説明のために、ベクトルa’=(Δνx,Δνy)のxおよびy成分だけを考慮する。
【0180】
図18aにおいて、2成分の到来方向ベクトルa’=(0,1)を考慮する。
【0181】
ベクトルΔνxのx成分が0であり、すなわち、位相差が両方のマイクロホンmx1およびmx2によって受信される信号の絶対位相値に関して存在しない。このように、対応するオーディオ波は、同時に両方のマイクロホンmx1およびmx2をヒットし、さらに、サウンドソースが両方のマイクロホンmx1およびmx2から等間隔を離して置かれると仮定される。その結果、到来方向ベクトルa’は、負でもなく正でもない。
【0182】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0183】
図18bにおいて、2成分の到来方向ベクトルa’=(−1,0)が考慮される。
【0184】
ベクトルΔνyのy成分が0であり、すなわち、位相差が両方のマイクロホンmy1およびmy2によって受信される信号の絶対位相値に関して存在しない。このように、対応するオーディオ波は、同時に両方のマイクロホンmy1およびmy2をヒットし、さらに、サウンドソースが両方のマイクロホンmy1およびmy2から等間隔を離して置かれると仮定される。その結果、到来方向ベクトルa’は、負でもなく正でもない。
【0185】
ベクトルΔνxのx成分は、−1である。Δνx=νx1−νx2であるので、これは、絶対位相値νx2が絶対位相値νx1よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx1よりもマイクロホンmx2に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の負の方向を示す。
【0186】
図18cにおいて、2成分の到来方向ベクトルa’=(1,1)を考慮する。
【0187】
ベクトルΔνxのx成分は、1である。Δνx=νx1−νx2であるので、これは、絶対位相値νx1が絶対位相値νx2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx2よりもマイクロホンmx1に早く到着したことを示す。このように、到来方向ベクトルa’は、x軸の正の方向を示す。
【0188】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0189】
位相差ΔνxおよびΔνyが等しいので、さらに、対応するオーディオ波がx方向においてもyx方向においても同じように速く伝搬すると仮定することができるので、到来方向ベクトルのx成分およびy成分は、等しい値を有する。
【0190】
図18dにおいて、2成分の到来方向ベクトルa’=(2,1)が考慮される。
【0191】
ベクトルΔνxのy成分は、2である。Δνx=νx1−νx2であるので、これは、絶対位相値νx1が絶対位相値νx2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx2よりもマイクロホンmx1に早く到着したことを示す。このように、到来方向ベクトルa’は、x軸の正の方向を示す。
【0192】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0193】
位相差ΔνxおよびΔνyが等しいので、さらに、対応するオーディオ波がy方向においてよりもx方向において速く伝搬し、さらに、x方向におけるその速度がy方向における速度の2倍であると仮定することができるので、x成分は、到来方向ベクトルのy成分のサイズの2倍である。
【0194】
複数の周波数バンドに基づく到来方向ベクトルの決定
【0196】
そして、平均到来方向ベクトルが決定され得る。平均化は、例えば、複数の到来方向ベクトルを加えることによって、さらに、得られたベクトルの成分を平均化される正規化された到来方向ベクトルの数で分割することによって、達成され得る。
【0197】
実施形態において、方位角および仰角は、方向オーディオ符号化(Directional Audio Coding(DirAC))との関連で使用される方法を用いて決定された到来方向ベクトルに基づいて計算され得る。
【0198】
複素数のレシーバに特有の情報を用いる到来方向ベクトルの他の推定
【0199】
さらなる実施形態において、考慮された周波数バンドiのための考慮された透かし署名に関する複素数値を、方向オーディオ符号化(Directional Audio Coding(DirAC))技術を用いて到来方向を推定するために用いることができる。
【0200】
Δpxは、
図16からマイクロホンmx1およびmx2から得られる複素数値間の差を示す。同様に、ΔpyおよびΔpzは、yおよびz軸のために得られる。さらなるp0は、すべてのマイクロホンで得られる複素数値の平均である。
【0204】
図19は、2次元のシナリオにおいて位置推定を示す。そこで、ラウドスピーカの位置が知られていると仮定する。ラウドスピーカおよび記録マイクロホンのアレイが同じ平面に位置するとさらに仮定する。
【0205】
到来方向ベクトルは、上述の実施形態のうちの1つに従って、ラウドスピーカの1つごとに決定される。第1のラウドスピーカの到来方向ベクトルは、第1のラウドスピーカを示す。第2のラウドスピーカの到来方向ベクトルは、第2のラウドスピーカを示す。
【0206】
基本的に、到来方向ベクトルは、ラウドスピーカから音波の到来方向を示し、ベクトルの成分は、デカルト座標系に関して表され得る。しかしながら、実施形態において、座標系の軸は、マイクロホンの位置によって定義される。mx1およびmx2の位置は、x軸を定義し、さらに、my1およびmy2の位置は、到来方向ベクトルが参照する座標系のy軸を定義する。
【0207】
マイクロホンアレイの方向が知られている場合、さらに、2つのラウドスピーカの(絶対)位置が知られている場合、2つの到来方向ベクトルは、マイクロホンアレイの位置を定義するために2次元の場合において十分である。これは、
図19に示される。
【0208】
そのような実施形態において、位置推定のための装置は、透かし署名を含む音波を出力するラウドスピーカごとに到来方向ベクトルを計算するように構成される。2次元の平面において第1の線が計算され、それは、第1のラウドスピーカの到来方向ベクトルと平行であり、さらに、それは、第1のラウドスピーカの位置を横切る。さらに、2次元の平面において第2の線が計算され、それは、第2のラウドスピーカの到来方向ベクトルと平行であり、さらに、それは、第2のラウドスピーカの位置を横切る。そして、2次元の平面において第1および第2の線の交点が計算され、交点は、マイクロホンアレイの位置を決定する。
【0209】
さらなる実施形態において、述べられた概念が環境において適用され、マイクロホンアレイおよびラウドスピーカは、2次元の平面に位置せず、3次元の到来方向ベクトル(3つの成分を用いる到来方向ベクトル)を適用する。そこで、ラウドスピーカの位置が知られていると仮定される。装置は、決定された到来方向ベクトルと平行する線を計算し、計算された線は、それらの到来方向ベクトルのラウドスピーカのラウドスピーカ位置を横切る。すべての計算された線が互いに交差する点が、マイクロホンアレイの決定された位置である。
【0210】
説明のために、2次元の場合に戻る。マイクロホンアレイの方向が知られていない場合、2つのラウドスピーカの2つの到来方向ベクトルは、マイクロホンアレイの位置を決定するために十分でない。そのようなシナリオにおいて、第1および第2の到来方向ベクトル間の角度αを計算することができるが、マイクロホンアレイの方向ひいてはマイクロホンアレイによって定義される座標系の方向が知られていないので、マイクロホンアレイの位置は、(例えば第2の座標系を参照して表される)ラウドスピーカの位置が知られていた場合であっても、一義的に定義することができない。これは、
図20aに示される。
【0211】
しかしながら、透かし署名を含む第3のオーディオ波を出力する第3のラウドスピーカを使用することによって、曖昧さを解決することができる。これは、
図20bに関して説明される。少なくとも3つのラウドスピーカ(M≧3)の到来方向が推定される場合、マイクロホンアレイの空間位置も、決定することができる。
図21は、対応する位置推定器を示す。3つのラウドスピーカを用いるときに、ラウドスピーカおよび記録ユニットが共通の平面にあると仮定される。しかしながら、ラウドスピーカの空間位置は、レシーバで知られなければならない。この情報に依存して、位置推定器800において連立非線形方程式を解くことによって記録位置を得ることが可能である。
【0212】
図20bの実施形態において、位置推定のための装置は、第1のラウドスピーカの第1の到来方向ベクトル、第2のラウドスピーカの第2の到来方向ベクトルおよび第3のラウドスピーカの第3の到来方向ベクトルを計算する。そして、第1および第2の到来方向ベクトル間の第1の角度αと、第2および第3の到来方向ベクトル間の第2の角度δとが、計算され得る。それから、決定推定のための装置は、3つの線のそれぞれがラウドスピーカ位置を横切り、さらに、決定された点が互いに決定された角度関係を有するように、2次元の平面において点を決定する。すなわち、第1のラウドスピーカ位置を横切る第1の線および第2のラウドスピーカ位置を横切る第2の線は、それらの交差角度が第1の角度に等しいように、決定された点において互いに交差する。第2のラウドスピーカ位置を横切る第2の線および第3のラウドスピーカ位置を横切る第3の線は、それらの交差角度が第2の角度に等しいように、決定された点において互いに交差する。決定された点は、マイクロホンアレイの位置である。
【0213】
さらなる実施形態において、位置推定器は、その方向が3次元の場合のために、すなわちラウドスピーカおよびマイクロホンアレイのすべてが2次元の平面において位置しない立体配置のために、知られていないマイクロホンアレイの位置を決定する。決定は、3次元の到来方向ベクトル、すなわち3つの成分を有する到来方向ベクトルを使用することによって、上述の概念に基づいて達成される。
【0214】
図22は、実施形態による空間位置推定のための装置を示す。空間位置推定のための装置は、上述の実施形態の1つによる方向情報を提供するための装置100を含み、それは、受信された透かしを入れたオーディオ信号rx1、rx2を処理する。さらに、空間位置推定のための装置は、空間位置推定のための装置の位置を推定するための位置推定器300を含む。位置推定器は、方向情報を提供するための装置によって提供される方向情報に基づいて空間位置推定のための装置の位置を推定するように構成される。
【0215】
いくつかの態様が装置との関連で記載されているにもかかわらず、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載されている態様は、対応するブロック若しくはアイテムまたは対応する装置の特徴の説明も表す。
【0216】
本発明の分解された信号は、デジタル記憶媒体に保存することができ、または、例えば無線伝送媒体や例えばインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0217】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に可読の制御信号が格納される、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを用いて実行することができる。
【0218】
本発明によるいくつかの実施形態は、ここに記載される方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に可読の制御信号を有する一時的でないデータキャリアを含む。
【0219】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、それらの方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械可読のキャリアに格納されてもよい。
【0220】
他の実施形態は、機械可読のキャリアに格納される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0221】
したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、ここに記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0222】
したがって、本発明の方法のさらなる実施形態は、それに記録される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読の媒体)である。
【0223】
したがって、本発明の方法のさらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成されてもよい。
【0224】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するように構成されまたは適している処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。
【0225】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0226】
いくつかの実施形態において、プログラム可能な論理デバイス(例えばフィールドプログラム可能なゲートアレイ)は、ここに記載される方法の機能のいくらかまたはすべてを実行するために用いられてもよい。いくつかの実施形態において、フィールドプログラム可能なゲートアレイは、ここに記載される方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。一般的に、その方法は、好ましくは、いかなるハードウェア装置によっても実行される。
【0227】
上述の実施形態は、本発明の原理のために単に例示するだけである。ここに記載される構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、本発明は、特許請求の範囲によってだけ制限され、ここに実施形態の記述および説明として示される具体的な詳細によって制限されないと意図される。