特許第5941545号(P5941545)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許5941545透かしを入れたオーディオ信号およびマイクロホンアレイを用いる到来方向推定
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5941545
(24)【登録日】2016年5月27日
(45)【発行日】2016年6月29日
(54)【発明の名称】透かしを入れたオーディオ信号およびマイクロホンアレイを用いる到来方向推定
(51)【国際特許分類】
   G10L 19/018 20130101AFI20160616BHJP
   G10L 19/00 20130101ALI20160616BHJP
   G10L 25/51 20130101ALI20160616BHJP
【FI】
   G10L19/018
   G10L19/00 330Z
   G10L25/51 400
【請求項の数】16
【全頁数】42
(21)【出願番号】特願2014-527673(P2014-527673)
(86)(22)【出願日】2012年8月31日
(65)【公表番号】特表2014-527649(P2014-527649A)
(43)【公表日】2014年10月16日
(86)【国際出願番号】EP2012066964
(87)【国際公開番号】WO2013030339
(87)【国際公開日】20130307
【審査請求日】2014年4月28日
(31)【優先権主張番号】11179591.0
(32)【優先日】2011年8月31日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ティールガルト オリヴァー
(72)【発明者】
【氏名】デル ガルド ジョヴァンニ
(72)【発明者】
【氏名】コルベック フロリアン
(72)【発明者】
【氏名】クラチウン アレクサンドラ
(72)【発明者】
【氏名】クレーゲロウ シュテファン
(72)【発明者】
【氏名】ボーサム ユリアーネ
(72)【発明者】
【氏名】ブリーム トビアス
【審査官】 間宮 嘉誉
(56)【参考文献】
【文献】 特開2008−64568(JP,A)
【文献】 特開2009−80309(JP,A)
【文献】 特開2010−156741(JP,A)
【文献】 特開2011−139378(JP,A)
【文献】 米国特許出願公開第2004/0169581(US,A1)
【文献】 特開2010−169443(JP,A)
【文献】 石井三知夫,外2名,マイクロホンアレーを用いた複数種音源位置推定及び種別判定,映像情報メディア学会技術報告,日本,社団法人映像情報メディア学会,2009年 2月28日,Vol.33, No.11,pp.33-36
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
G10L 25/00−25/93
(57)【特許請求の範囲】
【請求項1】
埋め込まれた透かしを有する再生されたオーディオ信号(awm)に基づいて方向情報を提供するための装置(100)であって、
異なる空間位置で少なくとも2つのオーディオレシーバ(221、222)によって記録される少なくとも2つの記録された透かしを入れたオーディオ信号(rx1、rx2)を処理するように構成される信号プロセッサ(110)であって、前記オーディオレシーバ(221、222)は、前記記録された透かしを入れたオーディオ信号(rx1、rx2)を得るために前記再生されたオーディオ信号(awm)の音波を記録するように構成され、それぞれの記録された透かしを入れたオーディオ信号(rx1、rx2)は、前記埋め込まれた透かしを含み、前記信号プロセッサ(110)は、記録された透かしを入れたオーディオ信号(rx1、rx2)ごとレシーバに特有の情報として位相情報を得るために前記記録された透かしを入れたオーディオ信号(rx1、rx2)を処理するように構成され、前記レシーバに特有の情報は、前記記録された透かしを入れたオーディオ信号(rx1、rx2)に埋め込まれる前記埋め込まれた透かしに依存する、信号プロセッサ、および
記録された透かしを入れたオーディオ信号(rx1、rx2)ごと前記レシーバに特有の情報に基づいて方向情報を提供するための方向情報プロバイダ(120)を含む、装置。
【請求項2】
前記信号プロセッサ(110)は、複数のサブバンド信号を含む時間周波数領域伝送信号を得るために前記記録された透かしを入れたオーディオ信号(rx1、rx2)を時間領域から時間周波数領域に変換するための分析モジュール(711、712、71N)を含む、請求項1に記載の装置(100)。
【請求項3】
前記信号プロセッサ(110)は、前記レシーバに特有の情報として複素数を決定するように構成される、請求項1または請求項2に記載の装置(100)。
【請求項4】
前記信号プロセッサ(110)は、決定された平均化された複素係数に基づいて前記位相情報として平均化された位相値を決定するように構成される、請求項1ないし請求項3のうちの1つに記載の装置(100)。
【請求項5】
前記信号プロセッサ(110)は、サブバンド信号の処理された複素係数を含む平均化された周期的なブロックを決定することによって前記平均化された複素係数を生成するように構成される、請求項4に記載の装置(100)。
【請求項6】
前記信号プロセッサ(110)は、前記レシーバに特有の情報として位相情報を決定するように構成され、前記信号プロセッサ(110)は、決定された平均化された複素係数に基づいて前記位相情報として平均化された位相値を決定するように構成され、さらに、前記信号プロセッサ(110)は、前記複数のサブバンド信号のうちの1つの処理された複素係数を含む平均化された周期的なブロックを決定することによって前記平均化された複素係数を生成するように構成される、請求項2に記載の装置(100)。
【請求項7】
前記信号プロセッサ(110)は、前記サブバンド信号の前記処理された複素係数のうちの少なくとも2つを結合することによって前記平均化された複素係数を決定するように構成され、前記処理された複素係数は、等しい位相値または弧度法において0.5ラジアンを超えないで異なる位相値を有する、請求項5または請求項6に記載の装置(100)。
【請求項8】
前記信号プロセッサ(110)は、前記複素係数のうちの少なくとも1つの前記位相値を所定の数だけ変えることによって前記処理された複素係数を生成するように構成される、請求項5ないし請求項7のうちの1つに記載の装置(100)。
【請求項9】
前記信号プロセッサ(110)は、透かし署名の第1のビットを符号化する複素係数の位置を示す同期ヒット位置を決定するように構成される、請求項1ないし請求項8のうちの1つに記載の装置(100)。
【請求項10】
前記信号プロセッサ(110)は、前記記録された透かしを入れたオーディオ信号(rx1、rx2)に埋め込まれる前記埋め込まれた透かしの透かし署名の第1のビットを符号化する前記処理された複素係数のうちの少なくとも1つの位置を示す同期ヒット位置を決定するように構成される、請求項5ないし請求項8のうちの1つに記載の装置(100)。
【請求項11】
前記方向情報プロバイダ(120)は、方向情報を決定しさらに提供するための複素数を使用するように構成される、請求項1ないし請求項10のうちの1つに記載の装置(100)。
【請求項12】
前記方向情報プロバイダ(120)は、方向情報として到来方向ベクトルを提供するように構成される、請求項1ないし請求項11のうちの1つに記載の装置(100)。
【請求項13】
空間位置推定のための装置であって、
請求項1ないし請求項11のうちの1つに記載の方向情報を提供するための装置(100)、および
空間位置推定のための前記装置の位置を推定するための位置推定器(300)であって、前記位置推定器(300)は、方向情報を提供するための前記装置によって提供される前記方向情報に基づいて空間位置推定のための前記装置の前記位置を推定するように構成される、位置推定器を含む、装置。
【請求項14】
方向情報を提供するための方法であって、
透かしを入れたオーディオ信号を受信するステップであって、それぞれの記録された透かしを入れたオーディオ信号(rx1、rx2)は、埋め込まれた透かしを含む、ステップ、
記録された透かしを入れたオーディオ信号(rx1、rx2)ごとレシーバに特有の情報として位相情報を決定するために異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの記録された透かしを入れたオーディオ信号(rx1、rx2)を処理するステップであって、前記レシーバに特有の情報は、前記記録された透かしを入れたオーディオ信号(rx1、rx2)に埋め込まれる前記埋め込まれた透かしに依存する、ステップ、および
記録された透かしを入れたオーディオ信号(rx1、rx2)ごと前記レシーバに特有の情報に基づいて方向情報を提供するステップを含む、方法。
【請求項15】
請求項14に記載の空間位置推定のための方法であって、
前記透かしを入れたオーディオ信号を受信するステップは、少なくとも2つのオーディオレシーバのアレイを使用することによって行われ、それぞれの記録された透かしを入れたオーディオ信号(rx1、rx2)は、埋め込まれた透かしを含み、さらに
前記方法は、前記少なくとも2つのオーディオレシーバでの前記アレイの位置を推定するステップをさらに含み、前記位置は、前記方向情報に基づいて決定される、方法。
【請求項16】
コンピュータまたはプロセッサによって実行されるときに、請求項14または請求項15に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えばラウドスピーカなどの音響ソースの到来方向を決定すること、並びに空間位置推定のための装置および方法に関する。
【背景技術】
【0002】
例えばローカライゼーション推定および入力信号の到来方向の推定などのサウンドシーンの幾何学的な情報を検索することは、この情報が例えば音響反響制御、シーン分析、ビーム形成、および分散された音響センサのための信号処理などの様々なアプリケーションにおいて有用であるので、ますます重要になっている。
【0003】
例えば、記録されたオーディオ信号を分析する方法があり、そこにおいて、透かし信号は、単一のラウドスピーカがオーディオアイテムを再生しさらにマイクロホンアレイが記録を行うために利用できる場合、埋め込まれない。他のサウンドソース、例えば人間の話し手または別の干渉物が存在しない場合、例えば、方向オーディオ符号化(Directional Audio Coding)を介して、到来方向を推定することが可能である。文献Jukka Ahonen, Giovanni Del Galdo, Markus Kallinger, Fabian Kuech, Ville Pulkki, and Richard Schultz-Amling, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding", in Audio Engineering Society Convention 124, 5, 2008を参照する。別のソースが、その到来方向が望まれていないサウンドを同時に放出すると、正しい入射角の決定が妨げられる。現在の信号が異なる空間位置から生じる場合、到来方向の2つの異なる推定を得る。この場合、望ましいサウンド信号に関するさらなる情報が必要である。
【0004】
単に1つよりも多いラウドスピーカを有する再生システムのシナリオにおいて、再生された信号が異なる場合、前に説明されたアプローチを用いて到来方向を推定することが可能である。しかしながら、同様のオーディオアイテムが再生される場合、すなわちステレオセットアップにおいて、よく知られた現象、すなわちファントムイメージソースが起こる。これは、サウンドがラウドスピーカ間に位置する仮想ソースによって再生されたかのように知覚されることを意味する。この場合、入射角の推定が失敗する。
【0005】
再生システムの較正を含む特別なアプリケーションのために、例えばMLSまたはスイープ信号を再生する他のよく知られた方法が存在し、それらは、再生されたサウンドの入射角を決定するために用いられる。文献Giovanni Del Galdo, Matthias Lang, Jose Angel Pineda Pardo, Andreas Silzle, and Oliver Thiergart, "Acoustic measurement system for 3-D loudspeaker set-ups", in Audio Engineering Society Conference: Spatial Audio: Sense the Sound of Space, 10 2010を参照する。しかしながら、これらの信号は、聞こえかつたびたびうるさい。さらに、較正は、再生システムを用いることができる前に実行される必要がある。したがって、透かしを入れたオーディオ信号の使用は、システム操作の間に校正を実行することができることを考慮して行うことが好ましい。
【0006】
センサの方向または位置を決定するためのよく用いられた技術は、無線周波数信号および様々なセンサを使用する。この技術に基づく方法が良好な推定を提供するが、それらは、無線周波数信号が禁止されるかまたは用いることが困難である領域において適用できない。さらに、そのようなシナリオにおいて、無線周波数センサが、取り付けられなければならない。
【0007】
また、透かし信号を用いる別の方法が、Ryuki Tachibana, Shuichi Shimizu, Seiji Kobayashi, and Taiga Nakamura, "An audio watermarking method using a two-dimensional pseudo-random array", Signal Process., vol. 82, pp. 1455-1469, October 2002に示される。ここで、記録位置は、1つのマイクロホンだけを用いることおよびいくつかの放出された透かしを入れたオーディオ信号の到来の遅延時間を測定することによって推定される。このシナリオにおいて、利用できる方向情報がなく、さらに、システムは、最小数のラウドスピーカの使用に制限される。
【0008】
上述のように、従来技術は、いくつかの問題を示す。いくつかの従来技術の方法によれば、所望のラウドスピーカに対応しないファントムソースがローカライズされ得る。他の従来技術の方法は、それらが室内において他のソースをローカライズしまたはそれらがラウドスピーカを実際に用いるライブ環境において再生されない特別な測定信号を必要とするという問題を示す。
【先行技術文献】
【非特許文献】
【0009】
【非特許文献1】Jukka Ahonen, Giovanni Del Galdo, Markus Kallinger, Fabian Kuech, Ville Pulkki, and Richard Schultz-Amling, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding", in Audio Engineering Society Convention 124, 5, 2008
【非特許文献2】Giovanni Del Galdo, Matthias Lang, Jose Angel Pineda Pardo, Andreas Silzle, and Oliver Thiergart, "Acoustic measurement system for 3-D loudspeaker set-ups", in Audio Engineering Society Conference: Spatial Audio: Sense the Sound of Space, 10 2010
【非特許文献3】Ryuki Tachibana, Shuichi Shimizu, Seiji Kobayashi, and Taiga Nakamura, "An audio watermarking method using a two-dimensional pseudo-random array", Signal Process., vol. 82, pp. 1455-1469, October 2002
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明の目的は、伝送信号の到来方向を決定するための改良された概念を提供することである。本発明の別の態様によれば、空間位置推定のための改良された概念が提供される。
【課題を解決するための手段】
【0011】
本発明の目的は、請求項1に記載の方向情報を提供するための装置、請求項12に記載の方向情報を提供するための方法、請求項13に記載の方向情報を提供するためのコンピュータプログラム、請求項14に記載の空間位置推定のための装置、請求項15に記載の空間位置推定のための方法および請求項16に記載の空間位置推定のためのコンピュータプログラムによって解決される。
【0012】
埋め込まれた透かしを有する再生されたオーディオ信号に基づいて方向情報を提供するための装置が提供される。装置は、異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの受信された透かしを入れたオーディオ信号を処理するように構成される信号プロセッサを含む。オーディオレシーバは、受信された透かしを入れたオーディオ信号を得るために再生されたオーディオ信号の音波を記録するように構成される。それぞれの受信された透かしを入れたオーディオ信号は、埋め込まれた透かしを含む。信号プロセッサは、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報を得るために受信された透かしを入れたオーディオ信号を処理するように構成される。さらに、レシーバに特有の情報は、受信された透かしを入れたオーディオ信号に埋め込まれる埋め込まれた透かしに依存する。さらに、装置は、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報に基づいて方向情報を提供するための方向情報プロバイダを含む。
【0013】
実施形態は、方向情報、例えばラウドスピーカによって再生されるオーディオ信号の到来方向(DoA)を決定するために用いられる方法を述べる。信号は、時間周波数領域において生成された聞こえない透かし信号のためのキャリアとして働く。それは、少なくとも2つのマイクロホンを含むマイクロホンアレイによって記録される。これに続いて、記録は、埋め込まれた透かし信号を検出する目的でさらに処理される。一旦、透かしがリカバーされると、それを、アレイの方向に関連してサウンド源の方向を推定するために用いることができる。アプリケーションに応じて、この概念を、任意の数のラウドスピーカを含むセットアップにさらに適応しおよび適用することができる。
【0014】
実施形態において、信号プロセッサは、複数のサブバンド信号を含む時間周波数領域伝送信号を得るために受信された透かしを入れたオーディオ信号を時間領域から時間周波数領域に変換するための分析モジュールを含む。実施形態において、信号プロセッサは、レシーバに特有の情報として複素数を決定するように構成され得る。例えば、複素数は、オーディオレシーバのうちの1つによって記録される透かしを入れたオーディオ信号の複素係数または平均化された複素係数の値を示し得る。さらなる実施態様において、信号プロセッサは、レシーバに特有の情報として位相情報を決定するように構成され得る。例えば、位相情報は、オーディオレシーバのうちの1つによって記録される透かしを入れたオーディオ信号の位相値または平均化された位相値であってもよい。さらなる実施形態において、信号プロセッサは、レシーバに特有の情報としてオーディオレシーバのうちの1つによって記録される透かしを入れたオーディオ信号の振幅値または平均化された振幅値を決定するように構成され得る。
【0015】
実施形態によれば、信号プロセッサは、決定された平均化された複素係数に基づいて位相情報として平均化された位相値を決定するように構成される。信号プロセッサは、サブバンド信号の処理された複素係数を含む平均化された周期的なブロックを決定することによって平均化された複素係数を生成するように構成され得る。
【0016】
実施形態において、信号プロセッサは、サブバンド信号の少なくとも2つの処理された複素係数を結合することによって平均化された複素係数を決定するように構成され、処理された複素係数は、等しい位相値または弧度法において0.5ラジアンを超えずに異なる位相値を有する。信号プロセッサは、対蹠的BPSKが変調スキームとして用いられるときに、所定の数だけ例えば180°だけ複素係数の位相値を変えることによって、または、用いられる変調スキームおよび知られた埋め込まれたシーケンスに依存する適切な位相値によって、処理された複素係数を生成するようにさらに構成され得る。
【0017】
実施形態によれば、信号プロセッサは、透かし署名の第1のビットを符号化する複素係数の位置を示す同期ヒット位置を決定するように構成される。
【0018】
方向情報プロバイダは、方向情報を決定しさらに提供するために位相値を使用するように構成され得る。さらに、方向情報プロバイダは、方向情報として到来方向ベクトルを提供するように構成され得る。
【0019】
さらに、方向情報を提供するための方法が提供される。方法は、透かしを入れたオーディオ信号を受信するステップであって、それぞれの受信された透かしを入れたオーディオ信号は、埋め込まれた透かしを含む、ステップと、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報を決定するために異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの受信された透かしを入れたオーディオ信号を処理するステップであって、レシーバに特有の情報は、受信された透かしを入れたオーディオ信号に埋め込まれる埋め込まれた透かしに依存する、ステップと、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報に基づいて方向情報を提供するステップとを含む。
【0020】
さらに、空間位置推定のための装置が提供される。装置は、実施形態による方向情報を提供するための装置と、空間位置推定のための装置の位置を推定するための位置推定器であって、位置推定器は、方向情報を提供するための装置によって提供される方向情報に基づいて空間位置推定のための装置の位置を推定するように構成される、位置推定器とを含む。
【0021】
空間位置推定のための概念は、十分な数のラウドスピーカが利用できさらにそれらの空間位置が知られていれば、マイクロホンアレイの空間記録位置を決定することに基づく。例えば、3つのラウドスピーカが、共通の平面においてマイクロホンアレイの位置を決定するために使用され得る。提案された概念が方位角の決定に制限されないことに言及すべきである。これに加えて、仰角を、用いられた方向推定方法に応じて推定することができる。
【0022】
さらに、空間位置推定のための方法が提供される。方法は、少なくとも2つのオーディオレシーバのアレイを使用することによって透かしを入れたオーディオ信号を受信するステップであって、それぞれの受信された透かしを入れたオーディオ信号は、埋め込まれた透かしを含む、ステップと、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報を決定するために異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの受信された透かしを入れたオーディオ信号を処理するステップであって、レシーバに特有の情報は、受信された透かしを入れたオーディオ信号に埋め込まれる埋め込まれた透かしに依存する、ステップと、受信された透かしを入れたオーディオ信号ごとにレシーバに特有の情報に基づいて方向情報を提供するステップと、少なくとも2つのオーディオレシーバのアレイの位置を推定するステップであって、位置は、方向情報に基づいて決定される、ステップとを含む。
【0023】
可能なアプリケーションの例は、例えば、特定のオーディオ信号の再生に反応することができる玩具であり、例えば、アクション人形が、特定のTV連続番組が再生されるときにTVの方にその頭部を動かすことができる。
【0024】
さらなるアプリケーションの例は、再生システムの較正であり、本発明を、会議がすでに進行しまたはオーディオアイテムが再生される間に、再生システム、例えば通信会議のためのセットアップまたはホームシアタシステムを自動的に校正するために、用いることができる。この場合、前の較正は、必要でない。
【0025】
さらに、オーディオ信号のチャンネルを、提供された方向情報に応じて特定の位置で特定のラウドスピーカのサウンドを大きくしまたは小さくするために操作することができる。さらに、ユーザには、提供された方向情報に応じてサウンドシステムのラウドスピーカを最適に配置する方法を、システムによって指示することができる。
【0026】
さらなるアプリケーションの例は、空間位置推定のための上述の装置である。
【0027】
好適な実施形態が、図面に関して説明される。
【図面の簡単な説明】
【0028】
図1図1は、実施形態による方向情報を提供するための装置の概略ブロック図を示す。
図2図2は、実施形態によるアプリケーションシナリオにおいて方向情報を提供するための装置を示す。
図3a図3a〜図3cは、周波数拡散および時間拡散である透かしを示す。
図3b図3a〜図3cは、周波数拡散および時間拡散である透かしを示す。
図3c図3a〜図3cは、周波数拡散および時間拡散である透かしを示す。
図4図4は、透かし信号を生成するためのモジュレータを示す。
図5図5は、透かしを入れた信号を生成するための装置を表す。
図6a図6a〜図6bは、実施形態によるさらなるアプリケーションシナリオにおいて方向情報を提供するための装置を示す。
図6b図6a〜図6bは、実施形態によるさらなるアプリケーションシナリオにおいて方向情報を提供するための装置を示す。
図7図7は、実施形態による方向情報を提供するための装置の構成要素を示す。
図8a図8aは、実施形態によるオーバーサンプリングが使用されるときに時間周波数平面における係数の位置の例示的な概要を提供する。
図8b図8bは、埋め込まれた透かしを含む時間周波数領域サブバンド信号を示す。
図9a図9a〜図9dは、実施形態による透かし署名、同期ブロック、周期的なブロックおよび平均化された同期ブロックを表す。
図9b図9a〜図9dは、実施形態による透かし署名、同期ブロック、周期的なブロックおよび平均化された同期ブロックを表す。
図9c図9a〜図9dは、実施形態による透かし署名、同期ブロック、周期的なブロックおよび平均化された同期ブロックを表す。
図9d図9a〜図9dは、実施形態による透かし署名、同期ブロック、周期的なブロックおよび平均化された同期ブロックを表す。
図10図10は、実施形態による多重化された透かしを示す。
図11a図11a〜図11bは、同期サポートユニットの実施代替案のブロック概略図を示す。
図11b図11a〜図11bは、同期サポートユニットの実施代替案のブロック概略図を示す。
図11c図11cは、同期署名相関器のブロック概略図を示す。
図12a図12aは、透かしの時間的アライメントを見つける問題のグラフ表現を示す。
図12b図12bは、メッセージの開始を確認する問題のグラフ表現を示す。
図12c図12cは、同期のために用いられるデータのグラフ表現を示す。
図12d図12dは、同期ヒットを確認する概念のグラフ表現を示す。
図13a図13aは、時間的逆拡散のための例のグラフ表現を示す。
図13b図13bは、ビットおよび拡散シーケンス間のエレメントごとの乗算のための例のグラフ表現を示す。
図13c図13cは、時間的平均化の後の同期署名相関器の出力のグラフ表現を示す。
図13d図13dは、同期署名の自己相関関数でフィルタにかけられる同期署名相関器の出力のグラフ表現を示す。
図14図14は、差動的に復号化されたビットを含む周期的なブロックおよび複素係数を含む周期的なブロックの関係を示す。
図15a図15aは、オーディオ信号部分および透かし信号部分の複素ベクトルを表す。
図15b図15bは、オーディオ信号部分の平均化された複素ベクトルおよび透かし信号部分の平均化された複素ベクトルを表す。
図15c図15cは、異なるステージでのサンプル統合を示す。
図15d図15dは、異なるサブバンドの2つの統合された複素係数ベクトルを示す。
図16図16は、デカルト座標系の軸に沿って配置される6つのマイクロホンを示す。
図17図17は、実施形態によるxy平面における方位角決定を示す。
図18a図18a〜図18dは、実施形態による決定される到来方向ベクトルを表す。
図18b図18a〜図18dは、実施形態による決定される到来方向ベクトルを表す。
図18c図18a〜図18dは、実施形態による決定される到来方向ベクトルを表す。
図18d図18a〜図18dは、実施形態による決定される到来方向ベクトルを表す。
図19図19は、実施形態による位置推定を示す。
図20a図20a〜図20bは、位置推定の課題および解決策を表す。
図20b図20a〜図20bは、位置推定の課題および解決策を表す。
図21図21は、実施形態による位置推定のための装置を示す。
図22図22は、実施形態による空間位置推定のための装置を示す。
【発明を実施するための形態】
【0029】
1. 図1による方向情報を提供するための装置
【0030】
図1は、実施形態による埋め込まれた透かしを有する再生されたオーディオ信号に基づいて方向情報を提供するための装置100を示す。装置100は、信号プロセッサ110を含む。信号プロセッサ110は、異なる空間位置で少なくとも2つのオーディオレシーバによって記録される少なくとも2つの受信された透かしを入れたオーディオ信号rx1、rx2を処理するように構成される。少なくとも2つのオーディオレシーバは、少なくとも2つの受信された透かしを入れたオーディオ信号を得るために再生されたオーディオ信号の音波を記録するように構成される。それぞれの受信された透かしを入れたオーディオ信号rx1、rx2は、埋め込まれた透かしを含む。さらに、信号プロセッサ110は、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2を得るために受信された透かしを入れたオーディオ信号を処理するように構成される。レシーバに特有の情報rsi1、rsi2は、受信された透かしを入れたオーディオ信号rx1、rx2に埋め込まれる透かしに依存する。さらに、方向情報を提供するための装置100は、方向情報プロバイダ120を含む。方向情報プロバイダは、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2に基づいて方向情報diを提供するように構成される。
【0031】
2. 図2によるアプリケーションシナリオ
【0032】
図2は、方向情報を提供するための装置100が、2つのオーディオレシーバ221、222から2つの透かしを入れたオーディオ信号rx1、rx2を受信するシナリオを示す。図2において、透かしを含むオーディオ信号awmは、音波swとしてラウドスピーカ210によって再生される。音波swは、少なくとも2つの受信されたオーディオ信号rx1、rx2を得るために少なくとも2つのオーディオレシーバ221、222、例えば2つのマイクロホンによって記録される。それぞれの受信されたオーディオ信号rx1、rx2は、埋め込まれた透かしを含む。
【0033】
そして、受信された透かしを入れたオーディオ信号rx1、rx2は、方向情報を提供するための装置100の信号プロセッサ110に入力される。信号プロセッサ110は、受信された透かしを入れたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2を得るために受信された透かしを入れたオーディオ信号rx1、rx2を処理するように構成される。レシーバに特有の情報は、受信された透かしを入れたオーディオ信号に含まれる透かしに依存する位相情報であってもよい。さらに、位相情報は、オーディオレシーバの空間位置に依存する。例えば、透かしを含む再生されたオーディオ信号の音波は、第2のオーディオレシーバ222よりも、第1のオーディオレシーバ221に、わずかに早く到着し得る。したがって、第1の受信された信号rx1における透かしは、第2の受信された信号rx2におけるものよりもわずかに早く受信される。一般に、両方の受信された信号rx1、rx2は、よく似ている。しかしながら、両方の信号が互いに時間的にわずかにずれているので、両方の受信された信号rx1、rx2を時間領域から時間周波数領域に変換することは、一般に、同じ周波数サブバンドおよび時間インデックスに関する両方の周波数領域信号の異なる位相値をもたらす。
【0034】
信号プロセッサ110は、レシーバに特有の情報rsi1、rsi2を方向情報プロバイダ120に送る。方向情報プロバイダ120は、受信されたオーディオ信号rx1、rx2ごとにレシーバに特有の情報rsi1、rsi2に基づいて方向情報diを提供するように構成される。例えば、方向情報diは、位相情報に基づいて提供され得る。第1の受信された信号rx1の第1の位相値および第2の受信された信号rx2の第2の位相値は、例えば位相差を計算することによって処理され得る。計算された位相差に基づいて、方向情報プロバイダ120は、方向情報diを決定し得る。例えば、再生されたオーディオ信号の音波が生じ得る可能な方向が、決定され得る。
【0035】
3. 透かし生成
【0036】
以下において、透かしに関する背景情報を提供するために、エンコーダにおける透かし生成は、図3a〜図5に表される図面に関して説明される。時間周波数領域において透かしを生成する透かしを入れる技術は、参照によりここに組み込まれる、欧州特許出願、出願番号第10154953.3、10154960.8、10154964.0、10154948.3、10154956.6および10154951.7に示される。
【0037】
基本的に、透かしは、別の信号、例えばオーディオ信号において隠される符号化されたビット署名である。ビット署名は、複数の周波数バンド(サブバンド)を使用して符号化され得る。
【0038】
図3a〜図3cは、異なる周波数バンドにおいて符号化される透かし署名の2進値を示す。透かしが情報を送信するために用いられ得るにもかかわらず、以下において、透かし署名を送信するために透かしを用いる態様に注目する。
【0039】
一般に、透かし署名は、ビットの任意のシーケンス、例えばビットシーケンス[1,1,−1,1,−1,−1]であってもよい。図3aは、対応する透かし署名310を示す。
【0040】
透かしビットシーケンスは、拡散シーケンスを用いることによって周波数において拡散される。例えば、透かし署名をm個の周波数バンドに拡散するために、m個の値を含む拡散ベクトルが、使用され得る。最も単純な場合、1s、例えば[1,1,1]だけを含む拡散ベクトルが、使用され得り、それは、透かし署名がそれぞれの周波数バンドごとにコピーされることををもたらす。より高度な実施形態において、拡散ベクトルは、−1s、例えば[1,−1,1]を含んでもよく、それは、透かし署名がそれぞれの−1ビットのためのそれぞれの周波数バンドにおいて符号化されるためにコピーされる前に反転されることをもたらす。図3bは、周波数拡散された透かし320を得るために拡散ベクトル[1,−1,1,−1]を使用することによって周波数拡散される上述の透かし署名を示す。
【0041】
周波数拡散された透かしは、拡散ベクトルを使用することによって時間領域において拡散されてもよい。例えば、時間拡散のためのベクトル[1,−1]を使用することによって、周波数拡散された透かし署名のそれぞれは、最初にその元の形式で符号化され得り、そして、さらに、符号化されるために反転され得る。図3cは、周波数拡散されさらに時間拡散された透かし署名330を示し、時間拡散は、拡散ベクトル[1,−1]を使用することによって行われている。
【0042】
周波数においておよびおそらく時間において拡散された後に、透かし署名は、繰り返して符号化され得る。
【0043】
【0044】
ストリームの開始時に、すなわちj=0の場合に、bdiff(i,j−1)が1に設定される。
【0045】
【0046】
上述の埋め込みプロセスは、対蹠的BPSK変調スキームを参照し、すなわち、符号化された情報ビットが、単にビット形成関数の符号を変える。あるいは、2つ以上のビットをグループ化することができ、さらに、より高次の変調コンステレーション(例えばQAMまたはM−PSKなど)を用いることができる。差動符号化を、例えば、差動的に符号化されたQPSKにおいて、共通に行うように、さらに適用することができる。
【0047】
ビットごとのビット整形は、心理音響処理モジュール102によって制御される反復プロセスにおいて繰り返される。反復は、それを聞こえなく保つ間に透かしにできるだけ多くのエネルギーを割り当てるために、重みγ(i,j)を微調整することが必要な場合がある。
【0048】
【0049】
ビット形成ベースバンド関数giT(t)は、通常、Tbよりも非常に長い時間間隔の間、ゼロでないが、主要なエネルギーは、ビット間隔内に集中している。例が図9aに示され、同じビット形成ベースバンド関数が2つの隣接するビットのためにプロットされる。図9aにおいて、Tb=40msである。Tbの選択および関数の形は、システムにかなりの影響を及ぼす。実際に、より長いシンボルは、より狭い周波数応答を提供する。これは、特に反響する環境において有益である。実際に、そのようなシナリオにおいて、透かしを入れた信号は、それぞれが異なる伝搬時間によって特徴づけられるいくつかの伝搬経路を介してマイクロホンに達する。結果として生じるチャンネルは、強い周波数選択性を示す。時間領域において解釈すると、より長いシンボルは、ビット間隔に匹敵する遅延を有する反響が建設的干渉を生じるように有益であり、それらは、受信された信号エネルギーを増加することを意味する。それにもかかわらず、より長いシンボルは、いくつかの欠点ももたらし、より大きい重なりは、シンボル間干渉(ISI)をもたらし得り、さらに、心理音響処理モジュールがより短いシンボルの場合よりも少ないエネルギーを可能にするようにオーディオ信号において隠すことを確かにより困難にする。
【0050】
【0051】
図5は、透かし挿入器500のブロック概略図を示す。エンコーダ側で、透かし信号501bは、2進データ501aから、さらに、心理音響処理モジュール502で交換される情報504、505に基づいて、処理ブロック501(また透かしジェネレータとしても指定される)において生成される。ブロック502から提供される情報は、透かしが聞こえないことを典型的に保証する。透かしジェネレータ501によって生成される透かしは、オーディオ信号506に加えられる。
【0052】
上述したように、重み付け係数γ(i,j)は、サブバンドごとに波形si;j(t)を計算するために必要である。重み付け係数γ(i,j)の目的は、結果として生じる透かしを入れた信号507において聞こえない透かしを隠すことである。重み付け係数γ(i,j)は、3つの部分を含む心理音響処理モジュール502によって提供される。第1の部分は、時間オーディオ信号を時間/周波数領域に変換する分析モジュールである。この分析モジュールは、異なる時間/周波数分解能において平行分析を行い得る。分析モジュールの後、時間/周波数データは、心理音響モデル(PAM)に転送され、そこにおいて、透かし信号のためのマスキング閾値は、心理音響的な考慮に従って計算される。マスキング閾値は、サブバンドおよび時間ブロックごとにオーディオ信号において隠すことができるエネルギー量を示す。心理音響処理モジュール502において最後のブロックは、振幅計算モジュールである。このモジュールは、マスキング閾値が満足されるように、すなわち、埋め込まれたエネルギーがマスキング閾値によって定義されるエネルギー以下であるように、透かし信号の生成において用いられる振幅ゲインを決定する。
【0053】
図6aにおいて、単一のラウドスピーカ610が、透かしを入れたオーディオ信号awmの再生のために用いられる。最初のステップとして、透かし信号wmは、透かしを入れたオーディオ信号awmを得るために結合ユニット605によってオーディオ信号aと結合される。透かし信号wmは、図3a〜図4に関して述べられるようにつくられ得る。透かしを入れた信号awmは、図5に関して述べられるように、透かしジェネレータによって生成され得る。例えば、透かし信号wmは、オーディオ信号aに加えられ得る。
【0054】
そして、結合ユニット装置605によって行われる結合から生じる透かしを入れたオーディオ信号awmは、ラウドスピーカ610によって再生され、さらに、N個の信号s1,s2,・・・,sNが得られるように、センサ621、622、62N、例えばマイクロホンアレイのN個のマイクロホンによって記録される。記録された信号s1,s2,・・・,sNは、透かしを入れたラウドスピーカ信号を含むだけでなく、干渉ノイズ、例えば室内の話し手および反響によって生じる効果も含む。そして、記録された信号s1,s2,・・・,sNは、実施形態による方向情報を提供するための装置100に入力される。装置100は、方向情報を決定しさらに出力し、例えば、それは、到来方向(DoA)を決定しさらに出力し得る。
【0055】
しかしながら、他の構成において、複数のラウドスピーカ611,612,・・・,61Nは、複数の透かしを入れた信号awm1,awm2,・・・,awmMを出力するように構成され得る。これは、図6bに示される。異なる透かし信号wm1,wm2,・・・,wmMは、オーディオ信号a1,a2,・・・,aM、例えばホームシアタ再生のために用いられるオーディオアイテムのパンされたチャンネルに加えられる。現在のシナリオのための処理は、1つのラウドスピーカだけが透かしを入れた信号を再生している状況と似ている。
【0056】
4. 図7による方向情報を提供するための装置
【0057】
図7は、実施形態による方向情報を提供するための装置100を示す。複数の受信された透かしを入れたオーディオ信号s1,s2,・・・,sN、例えば図6に表されるマイクロホン621,622,・・・,62Nによって記録され得る信号が示される。時間領域において表される受信された透かしを入れた信号s1,s2,・・・,sNは、時間周波数領域に変換されさらに正規化されるために分析モジュール711,712,・・・,71Nに送られる。
【0058】
4.1 分析モジュール711,712,・・・,71N
【0059】
分析モジュール711,712,・・・,71Nを説明するために、受信された透かしを入れたオーディオ信号のうちの1つが考慮される。分析モジュールのうちの1つは、分析フィルタバンクを使用することによって透かしを入れたオーディオ信号を時間領域から時間周波数領域に変換する。フィルタバンクの入力は、それぞれの透かしを入れたオーディオ信号である。その出力は、時刻jでi番目のブランチまたはサブバンドのための複素係数biAFB(j)である。これらの値は、中心周波数fiおよび時間j・Tbで信号の振幅およびの位相に関する情報を含む。
【0060】
【0061】
比率1=Tbを用いて係数biAFB(t)を得るために、連続出力biAFB(t)は、サンプリングされなければならない。ビットの正しいタイミングがレシーバによって知られている場合、比率1=Tbを用いるサンプリングが、十分である。しかしながら、ビット同期がまだ知られていないので、サンプリングは、比率Nos/Tbを用いて行われ、Nosは、分析フィルタバンクオーバーサンプリング係数である。十分に大きいNos(例えばNos=4)を選択することによって、少なくとも1つのサンプリングサイクルが理想的なビット同期に十分に近いことを保証することができる。最良のオーバーサンプリング層についての決定は、同期化プロセスの間、行われるので、すべてのオーバーサンプリングされたデータは、その時まで保たれる。
【0062】
i番目のブランチの出力で、係数biAFB(j,k)を有し、jは、ビットナンバーまたは時刻を示し、さらに、kは、この単一のビット内のオーバーサンプリング位置を示し、k=1;2;・・・,Nosである。
【0063】
図8aは、時間周波数平面上の係数の位置の例示的な概要を与える。図8aにおいて、オーバーサンプリング係数は、Nos=2である。長方形の高さおよび幅は、それぞれ、対応する係数biAFB(j,k)によって表される信号の部分の帯域幅および時間間隔を示す。
【0064】
サブバンド周波数fiが特定の間隔Δfの倍数として選択される場合、分析フィルタバンクを、高速フーリエ変換(FFT)を用いて効率的に実施することができる。
【0065】
【0066】
n>1のための正規化は、上述の式の直接的な拡張である。正規化は、サブバンドiごとにおよび時刻jごとに行われる。
【0067】
さらに、正規化係数は、1つのマイクロホンだけのために計算され得り、そして、到来方向推定がレシーバに特有の情報の振幅も用いる場合に、すべてのマイクロホンに適用され得る。
【0068】
図8bは、サブバンド信号を示し、2つの透かし信号部分WM1およびWM2は、時間多重化される。サブバンド信号は、第1のラウドスピーカからの第1のオーディオソースLS1のサウンド部分と第2のラウドスピーカからの第2のサウンドソースLS2のサウンド部分とを含む。さらに、サブバンド信号は、第1のラウドスピーカからの透かし信号部分WM1または第2のラウドスピーカからの透かし信号部分WM2も含む。
【0069】
4.2 選択モジュール720
【0070】
図7に戻って、時間周波数領域への変換および正規化の後、時間周波数領域信号S1,S2,・・・,SNは、選択モジュール720に送られる。選択モジュール720は、利用できる信号S1,S2,・・・,SNのいずれが後の同期を実行するために用いられるべきかを決定する。いくつかの可能性が、信号のいずれかを選ぶ選択モジュール720のために存在する。実施形態において、選択モジュール720は、入力信号S1,S2,・・・,SNのうちの1つをランダムに選択するように構成される。例えば、選択モジュールは、時間周波数領域信号S1を選択し得る。他の実施形態において、選択モジュール720は、信号S1,S2,・・・,SNを平均化しさらに平均化された信号を用いるように構成される。
【0071】
4.3 差動デコーダ730
【0072】
【0073】
これは、チャンネルが、通常、それぞれのサブバンドにおいて異なる位相回転を導入するので、サブバンドごとに別に行われなければならない。
【0074】
差動デコーダ730は、最初に2つの連続した係数の位相における差を計算し、そして、位相の実数部分をとることによって、いわゆるソフトビットを得るために、入力された信号を差動的に復号化する。結果として生じるソフトビットが任意の実数値をとることができ、さらに、ビットについてのハード決定がまだ行われていないことに留意すべきである。ソフトビットが任意の実数値をとることができるので、それらは、必ずしも、−1または1である必要がないが、その代わりに、−1または1と異なる実数値、例えば0.92、−0.88、0.97などを有し得る。
【0075】
【0076】
そして、差動デコーダ730は、ソフトビットストリームを統合モジュール740に送り、それは、同期の精度をさらに改善するためにいくつかの同期署名にわたって時間においてソフトビットストリームを統合する。
【0077】
4.4 統合モジュール740
【0078】
統合モジュール740が、これからさらに詳細に説明される。単一のラウドスピーカによって生成される1つの透かし署名wm1だけが使用されるときに、透かし署名wm1は、透かし署名wm1の最後のビットが送信されるときに透かし署名wm1の第1のビットが次に続くなどのように、繰り返して送信される。図9aは、対応するシーケンスを表す。使用された(例えば時間拡散された)透かし署名wm1だけがN個のビットを含む場合、ビットシーケンスは、N個のビットの後に繰り返され、そして、透かし署名だけが、長さN個のビットの同期ブロックsyncを形成する。
【0079】
しかしながら、すでに上で説明したように、システムは、複数のラウドスピーカを含み得る。それぞれのラウドスピーカの到来方向の推定を得るために、記録された信号のどの部分が特定のラウドスピーカによって放出されたかを決定することが必要である。したがって、透かし信号は、多重化されなければならない。異なる可能な方法があり、それらは、通信、すなわち符号分割多元接続(CDMA)、周波数分割多元接続(FDMA)および時分割多元接続(TDMA)においてよく知られている。実施形態において、時分割多元接続が使用される。記録された信号のどの部分が特定のラウドスピーカに属するかを決定するために、異なる透かし署名が、異なるラウドスピーカ信号に埋め込まれる。図10は、2つのラウドスピーカおよび6つのシーケンスを含む同期署名の使用のための時間多重化を示す。
【0080】
このように、異なるラウドスピーカは、異なる透かし、例えば、時間多重化され得る2つの透かしwm1、wm2を送信し得る。両方の(例えば時間拡散された)透かしのビット数がNであると仮定する。最初に、第1の透かし署名wm1が、送信される。その後、第2の透かし署名が、送信される。そして、第1の透かし署名wm1は、再び送信され、第2の透かし署名wm2などが続く。それから、同期ブロックsyncは、透かしwm1、wm2を含み、さらに、2・N個のビットを有する。図9bは、2つの多重化された透かし署名を用いる述べられたシナリオを表す。
【0081】
【0082】
【0083】
統合モジュールは、異なる同期ブロックの複数のソフトビットが透かし復号化プロセスの堅牢性を改善するために加えられるように、ソフトビットを統合するように構成される。
【0084】
最初に、差動的に復号化されたビットを含むビットストリームは、Nsync個のビットを有する後の周期的なブロックp1、p2、p3に分割される。この時点で、統合モジュール740は、同期ブロックの開始位置を認識していない。しかしながら、これは、差動的に復号化されたビットストリームの周期性が同期ブロックの開始点に依存しないが、その代わりに同期ブロックの長さに依存するので、必要でない。そのために、同期ブロックの第1のビットは、周期的なブロック内のどこかに位置し得る。図9cは、このシナリオを示す。
【0085】
【0086】
この式において、iは、考慮されたサブバンドであり、Kは、平均化される同期ブロックの数を表し、kは、考慮される現在の同期ブロックを表し、さらに、jは、周期的なブロック内に考慮されるビット位置である。平均化された同期ブロックは、Nsync個のビット、すなわちbiavg(0),biavg(1),biavg(2),・・・,biavg(Nsync−1)を有する。
【0087】
第1の透かし署名の第1のビットは、平均化された同期ブロックp0においてどこかに位置し得る。図9dは、平均化された同期ブロックp0を示すシナリオを示す。
【0088】
【0089】
統合モジュール740によって行われる統合は、平均化されたソフトビットを生成し、または、オーバーサンプリングの場合には、平均化された同期ブロックp0のビットの1つごとに複数のNosのソフトビット値候補を生成する。
【0090】
スピーチ信号が透かしキャリアとして働くさらなる実施形態において、統合は、特に重要であり、なぜなら、それらが透かし信号なしでたびたびギャップを含むからである。これによって、ソフトビットストリームにおいて実在するエラーは、通常、時間において統合が行われるときに低減される。
【0091】
4.5 同期モジュール750
【0092】
ビットストリームが時間において統合された後、統合モジュール740は、統合されたソフトビットストリームを堅牢な同期を実行する同期モジュール750に送る。さらに詳細には、同期モジュール750は、埋め込まれた同期署名を用いる相関を実行する。これから生じるものは、同期ヒット位置である。同期モジュール750における同期は、これからさらに詳細に説明される。
【0093】
同期モジュール750のタスクは、平均化された同期ブロック内の1つ以上の透かしの時間的アライメントを見つけることである。
【0094】
符号化されたデータにデコーダを同期する問題が2つある。最初のステップにおいて、分析フィルタバンクは、符号化されたデータによってアライメントされなければならなく、すなわち、モジュレータにおいて合成に用いられるビット整形関数giT(t)は、分析のために用いられるフィルタgiR(t)によってアライメントされなければならない。この問題は、図12aに示され、分析フィルタは、合成フィルタと同一である。上部に、3つのビットが見える。説明を簡単にするために、全3つのビットのための波形は、スケールされない。異なるビット間の時間的オフセットは、Tbである。下部は、デコーダで同期の問題を示し、フィルタを、異なる時刻に適用することができるが、曲線1299aだけが、正しく、さらに、最良の信号対ノイズ比SNRおよび信号対妨害比SIRで第1のビットを抽出することができる。実際に、正しくないアライメントは、SNRおよびSIRの両方の劣化をもたらす。この第1のアライメントの問題を「ビット同期」と呼ぶ。一旦、ビット同期が達成されると、ビットを、最適に抽出することができる。しかしながら、透かし署名がどこで開始するかを知ることが必要な場合がある。この問題は、図12bに示され、メッセージ同期と呼ばれる。復号化されたビットのストリームにおいて、太い矢印1299bによってマークされる開始位置だけが、正しく、さらに、k番目のメッセージを復号化することができる。
【0095】
基本的な同期概念を説明するために、最初に、1つのラウドスピーカだけが単一の透かし署名を出力するシステムを参照する。したがって、平均化された同期ブロックは、単一の透かし署名のビットだけを含む。透かし署名は、同期署名と呼ばれる場合がある。
【0096】
さらに、用語同期シーケンスを参照する。同期署名は、複数の同期シーケンスを含み得る。最も単純な場合、同期シーケンスは、単一のビットだけを含み得る。しかしながら、同期署名が複数のビットを含むことも可能である。
【0097】
最初にメッセージ同期について述べる。同期署名は、透かしを入れたオーディオ信号において連続的にさらに周期的に埋め込まれる所定の順序においてNs個の同期シーケンスからなると仮定される。同期モジュール750は、同期シーケンスの時間的アライメントを検索することができる。
【0098】
同期モジュールは、同期シーケンスの時間的アライメントを見つけることによって、それぞれの同期署名の開始を確認することができる。新しい同期署名が開始する時間的位置を同期ヒットと呼ぶ。
【0099】
同期モジュールの処理ブロックは、図11aおよび図11bに表される。同期サポートユニットは、同期署名相関器1201の出力を分析することによって、すぐにビット同期およびメッセージ同期を行う。時間/周波数領域におけるデータ204は、分析モジュールによって提供される。ビット同期がまだ利用できないので、分析モジュールは、係数Nosを用いてデータをオーバーサンプリングする。
【0100】
入力データの説明が、図12cに与えられる。この例のために、Nos=4、Nt=2およびNs=3をとっている。また、Nosは、オーバーサンプリング係数を示し、Ntは、時間拡散係数を示し、さらに、Nsは、同期シーケンスの数を示す。このように、換言すれば、同期署名は、(a、b、およびcで示される)3つのシーケンスからなる。時間拡散は、拡散シーケンスct=[1 1]Tを用いるこの場合に、単に時間領域において2回それぞれのビットを繰り返す。
【0101】
正確な同期ヒットは、矢印で示され、さらに、それぞれの同期署名の開始に対応する。同期署名の周期は、Nt・Nos・ns=Nsblであり、それは、2・4・3=24である。
【0102】
平均化された同期ブロックの周期性のために、統合モジュール740によって出力されるような平均化された同期ブロックを考慮するだけで十分である。同期ブロックは、図12dに表されるように1つの同期ヒットを含まなければ(または典型的に含まなければ)ならない。平均化された同期ブロックのビットのそれぞれは、候補同期ヒットである。図12dにおいて、平均化された同期ブロックは、説明のためだけに図において複製された形式で示される。ブロック1201のタスクは、同期ブロックの候補ビットのそれぞれのための尤度測度を計算することである。そして、この情報は、同期ヒットを計算するブロック1204に送られる。
【0103】
sbl個の候補同期位置のそれぞれのために、同期署名相関器は、尤度測度を計算し、後者が大きいほど、時間的アライメント(ビットおよび部分的なまたは完全なメッセージ同期の両方)が見られるという可能性が大きい。処理ステップは、図11cに表される。
【0104】
したがって、異なる位置選択と関連した尤度値のシーケンス1201aが得られ得る。ブロック1301は、時間的逆拡散を行い、すなわち、すべてのNt個のビットに時間的拡散シーケンスctを乗算し、そして、それらを合計する。これは、Nf個の周波数サブバンドのそれぞれのために行われる。
【0105】
図13aは例を示す。前のセクションにおいて述べられるような同じパラメータをとり、すなわち、Nos=4、Nt=2およびNs=3をとる。候補同期位置が、マークされる。Nosオフセットを用いて、そのビットから、Nt・Nsは、Ns個のビットが残されるように、ブロック1301およびシーケンスctを用いる時間逆拡散によってとられる。
【0106】
ブロック1302において、ビットは、Ns個の拡散シーケンスでエレメントごとに乗算される(図13bを参照)。
【0107】
ブロック1303において、周波数逆拡散が行われ、すなわち、それぞれのビットが、拡散シーケンスcfで乗算され、そして、周波数に沿って合計される。
【0108】
この時点で、同期位置が正しい場合、Ns個の復号化されたビットを有する。ビットがレシーバに知られないので、ブロック1304は、Ns個の値の絶対値および合計をとることによって尤度測度を計算する。
【0109】
ブロック1304の出力は、原理的に、同期署名を探す非コヒーレント相関器である。実際に、小さいNsを選択するとき、すなわち部分的なメッセージ同期モードのときに、相互に直交する同期シーケンス(例えば、a、b、c)を用いることが可能である。そうすることで、相関器が署名によって正しくアライメントされないときに、その出力は、非常に少なく、理想的にはゼロである。完全なメッセージ同期モードを用いるときに、できるだけ多くの直交する同期シーケンスを用いることがアドバイスされ、そして、それらが用いられる順序を注意深く選択することによって署名をつくる。この場合、良好な自動相関関数を用いて拡散シーケンスを探すときのように、同じ理論を適用することができる。相関器がわずかにミスアライメントされるだけのときに、相関器の出力は、理想的な場合においてさえゼロでないが、とにかく、分析フィルタが信号エネルギーを最適に捕えることができないので、完全なアライメントと比較してより小さい。
【0110】
この同期ヒット計算ブロックは、同期位置がどこにあるかを決定するために、同期署名相関器の出力を分析する。システムがTb/4までのミスアライメントに対してかなり堅牢であり、さらに、Tbとして通常約40msがとられるので、より安定な同期を達成するために時間とともに1201の出力を統合することが可能である。これの可能な実施は、指数的に減衰するインパルス応答を用いて時間に沿って適用されるIIRフィルタによって与えられる。あるいは、従来のFIR移動平均フィルタを適用することができる。一旦、平均化が行われると、異なるNt・Nsに沿った第2の相関が行われる(「異なる位置選択」)。実際に、同期関数の自己相関関数が知られるという情報を利用したい。これは、最大尤度推定器(Maximum Likelihood estimator)に対応する。その考えが図13cに示される。曲線は、時間的統合の後のブロック1201の出力を示す。同期ヒットを決定する1つの可能性は、単にこの関数の最大を見つけることである。図13dにおいて、同期署名の自己相関関数でフィルタにかけられる(黒色の)同じ関数が見られる。結果として生じる関数は、より太い線によって示される。この場合、最大が、際立っており、さらに、同期ヒットの位置を与える。2つの方法は、高いSNRのためにかなり類似しているが、第2の方法は、低いSNR領域において非常により良好に機能する。一旦、同期ヒットが見られると、それらは、データを復号化する透かし抽出器202に送られる。
【0111】
複数の透かし署名
【0112】
システムは、異なるラウドスピーカによって出力される2つ以上の透かし署名を使用してもよく、透かし署名は、時間多重化される。図10は、そのような時間多重化された透かし署名を示す。そのような場合、同期モジュール750は、埋め込まれた透かし署名の1つごとに別に検索する。したがって、それは、用いられるラウドスピーカおよび異なる透かし信号と同数の同期ヒット位置を検出し、さらに、これらの同期ヒット位置を方向推定器760に送る。
【0113】
これによれば、同期署名の同期ヒット位置を見つける上述の概念は、透かしごとに繰り返して適用される。このように、透かしごとに、平均化された同期ブロック内の同期ヒット位置が決定される。それぞれの透かしの同期ヒット位置の決定は、透かしの1つごとに図11a〜図13dに関して説明されるように、繰り返して行われ、考慮された透かしの透かし署名は、同期署名として使用される。
【0114】
そして、記録された信号は、M個のセグメントに分割され、M個のセグメントのそれぞれは、特定のラウドスピーカの特定の透かしに属する。それから、到来方向の推定が、セグメントごとに行われる。その結果、方向推定器760は、M個の出力を有し、それぞれは、特定のラウドスピーカによって放出されるサウンドの到来方向を表す。
【0115】
同期モジュール750は、平均化された同期ブロック内の1つ以上の同期ヒット位置を提供し、さらに、同期ヒット位置を方向推定器760に送る。
【0116】
他の実施態様において、透かしが連続的に埋め込まれ、さらに、1つのラウドスピーカだけが用いられる場合、同期ヒットが計算されることが必ずしも必要でない。これがそうでない場合、同期は、方向推定のための開始点を見つけるために実行されなければならない。
【0117】
4.6 統合モジュール741,742,・・・,74N
【0118】
図7に戻って、分析モジュール711,712,・・・,71Nは、時間周波数領域信号S1,S2,・・・,SNを選択モジュール720に提供するだけでなく、信号S1,S2,・・・,SNを統合モジュール741,742,・・・,74Nにも提供する。統合モジュール741,742,・・・,74Nに送られるものは、実際に、選択モジュール720に提供されるものと同じ係数である(オーバーサンプリングされた)正規化された複素係数binorm(j,q)である。
【0119】
しかしながら、差動復号化の後に失われる、複素係数に含まれる位相情報が必要であるので、差動復号化は、オーバーサンプリングされた正規化された複素係数が統合モジュール741,742,・・・,74Nに送られる前に、実行されない。その代わりに、信号の位相情報は、保たれなければならない。差動復号化を適用することによって、この情報は廃棄される。
【0120】
統合モジュール741,742,・・・,74Nのそれぞれにおいておよびサブバンドiごとに、最初に、オーバーサンプリングされた正規化された複素係数を含むストリームは、後の周期的なブロックp11、p12、p13に分割される。複素係数ストリームは、差動的に復号化されたビットストリームが周期的なブロックp1、p2、p3に分割されるように、ブロックにおいて正確に同じ方法で分割される。対応する時間インデックスおよび(オーバーサンプリング位置)を用いるビットおよびサンプルは、対応する周期的なブロックに含まれる。
【0121】
これは、図7および図14に関して説明される。図7において、信号s1は、分析モジュール711に提供され得る。分析モジュール711は、複数のサブバンド信号を含む時間周波数領域信号S1を生成し、サブバンド信号のそれぞれは、複素係数のストリームとして表される。実施形態において、選択モジュール720は、後の同期が時間周波数領域信号S1に基づいて実行されるように、S1を選択し得る。
【0122】
図14において、時間周波数領域信号S1の特定のサブバンドが考慮される。このサブバンドは、複素係数c(i,j)を含み得り、iは、サブバンドを示し、さらに、jは、時間インデックスを示す。例えば、このサブバンドの複素係数c(i,1)、c(i,2)、c(i,3)、c(i,4)、c(i,5)およびc(i,6)を考慮する。差動デコーダによるこれらの値に基づく差動復号化は、6つのソフトビット、すなわち、c(i,1)および前のサブバンドサンプルに基づくd(i,1)、c(i,2)および前のc(i,1)に基づくd(i,2)、c(i,3)および前のc(i,2)に基づくd(i,3)、c(i,4)および前のc(i,3)に基づくd(i,4)、c(i,5)および前のc(i,4)に基づくd(i,5)、およびc(i,6)および前のc(i,5)に基づくd(i,6)を提供する。d(i、j)において、iは、サブバンドを表し、さらに、jは、時間インデックスを表す。
【0123】
周波数バンドiの複素係数は、図7の統合モジュール741にも送られる。統合モジュール740は、これから、ソフトビットd(i,1)、d(i,2)、d(i,3)、d(i,4)、d(i,5)、d(i,6)を含む差動的に復号化されたビットストリームを、d(i,1)、d(i,2)およびd(i,3)を含む第1の周期的なブロックp1と、d(i,4)、d(i,5)およびd(i,6)を含む第2の周期的なブロックp2とに分割する場合、複素係数c(i,1)、c(i,2)、c(i,3)、c(i,4)、c(i,5)およびc(i,6)も、2つのブロックに、すなわち、複素係数c(i,1)、c(i,2)およびc(i,3)を含む第1のブロックと、複素係数c(i,4)、c(i,5)およびc(i,6)を含む第2のブロックとに分割される(図14を参照)。
【0124】
同じことが、これらの信号が差動デコーダによって実行される差動復号化のために用いられなかった場合であっても、他の分析モジュール71Nによって生成される他の時間周波数領域信号SNのために適用される。
【0125】
上述の概念は、オーバーサンプリングが考慮される場合、等しく適用できる。オーバーサンプリングされたソフトビットb(i,j,q)が第1および第2の周期的なブロックp1およびp2に分割される場合、複素係数c(i,j,q)も、2つのブロックp11およびp12に分割される。(ここで、iは、サブバンドを示し、jは、時間インデックスを示し、さらに、qは、オーバーサンプリング位置を示す。)第1の周期的なブロックp1がソフトビットb(i,j,q)を含む場合、第1のブロックp11は、同じインデックスj、qを用いる複素係数c(i,j,q)を含む。第2の周期的なブロックp2がソフトビットb(i,j,q)を含む場合、第2のブロックp12も、同じインデックスj、qを用いる複素係数c(i,j,q)を含む。
【0126】
このように、統合モジュール741,742,・・・,74Nによって生成される周期的なブロックp11、p12、p13のそれぞれの長さは、統合モジュール740によって生成される周期的なブロックp1、p2、p3の長さに対応する。
【0127】
【0128】
この式において、Kは、平均化される考慮されたサブバンドiの周期的なブロックの数を表し、kは、考慮される現在の周期的なブロックを表し、さらに、jは、周期的なブロック内の複素係数の位置である。
【0129】
【0130】
平均化された周期的なブロックは、周波数バンドおよび信号ごとに決定される。
【0131】
平均化された周期的なブロックを形成するこの効果が、図15aおよび図15bに関して説明される。図15aおよび図15bは、統合が透かし信号の求められている位相情報を得る際にどのように役立つかを説明する。
【0132】
いくつかのラウドスピーカを用いるときに、よく知られた現象、すなわちファントムイメージソースが起こる。このシナリオにおいて、放出されたサウンドは、それがラウドスピーカ間に位置するソースによって再生されたかのように知覚される。これは、到来方向の推定のための場合でもあり、その理由は、記録された透かし信号のオーディオ部分が、透かし部分に比例して倍増するからである。この問題のための解決策は、これからさらに詳細に説明される統合モジュール441,442,・・・,44Nの使用である。
【0133】
【0134】
【0135】
ビット統合の後、異なるマイクロホン611,612,・・・,61Nの受信された信号S1,S2,・・・,SNごとの、および、周波数バンドiごとの統合された複素係数が、利用できる。
【0136】
しばらくの間、オーバーサンプリングを考慮せず、本発明が基づくいくつかの原理を説明する。この実施形態との関連で使用されるような位相変調は、いくつかの基本的な考えに基づく。それぞれのサンプリングされた複素係数が符号化されたビット位置に対応すると仮定すれば、現在のサンプルの位相値は、前のサンプルの位相値と比較される。例えば、2進位相シフトキーイング(BPSK)を考慮する。両方のサンプルの位相値が同一である場合、これは、第1の符号化されたビット値に対応し、例えば、符号化されたビット値は、1である。しかしながら、両方の位相値が例えば180度(または±π)だけ異なる場合、これは、第2の符号化されたビット値に対応し、例えば、符号化されたビット値は、−1である。このように、例えば、2進位相シフトキーイングを使用する位相変調のために、後のビット位置のサンプルは、同じ位相値または180度(±π)だけ異なる位相値を有することが必須である。したがって、位相変調された値を符号化するときに、変調は、後のビット位置に対応するサンプルの位相値が等しいかまたは符号化されたビット値に応じて180度だけ異なるように使用される。
【0137】
特定の透かし署名および特定の周波数バンドに関して、ラウドスピーカは、位相変調によって符号化されるビットシーケンスを送信する。すべてのオーディオレシーバ、例えばマイクロホンは、位相調整されたビットシーケンスを受信する。受信されたオーディオ信号S1,S2,・・・,SNの後のビット位置に対応するサンプルの位相差は、異なるマイクロホンのすべての信号のために(ほとんど)同じであるべきである。2つのマイクロホンが同時にオーディオ信号の同じ部分を受信する場合、絶対位相値も同一であるべきである。しかしながら、マイクロホンが間隔を離して置かれるので(それらがわずかにだけ間隔を離して置かれ得るにもかかわらず)、第1のマイクロホンは、例えば、第1のマイクロホンが第2のマイクロホンよりもラウドスピーカに近い場合、第2のマイクロホンよりもわずかに早くオーディオ信号の同じ部分を受信し得る。2つの受信された時間領域信号の時間におけるそのような差は、2つの受信された周波数領域信号、例えば時間周波数領域信号の位相における差をもたらす。したがって、2つのマイクロホンによって受信される2つの透かしを入れた信号の位相差は、2つのマイクロホンの位置に関連して透かしを入れた信号を放出したラウドスピーカの位置に関する情報を含む。
【0138】
4.7 方向推定器760
【0139】
統合モジュール741,742,・・・,74Nは、周波数バンドおよび信号ごとに決定される平均化された周期的なブロックを、すでに同期ヒット位置を受信している方向推定器760に送る。そして、方向推定器760は、平均化された周期的なブロックごとに同期ヒット位置によって示される入力データの部分において、到来方向の推定を実行する。
【0140】
以下において、システムが単一の透かしを送信する1つのラウドスピーカだけを含む状況に注目する。しかしながら、本発明は、複数の透かしが送信される場合において、等しく適用できる。この場合、1つの同期ヒット位置は、送信された透かしごとに提供され、そして、平均化された周期的なブロックは、同期ヒット位置に基づいてさらに透かしの長さに基づいて、異なるセグメントに分割される。そして、以下の概念は、透かし署名および平均化された周期的なブロックのそのセグメントごとに適用される。
【0141】
4.7.1 正しくないオーバーサンプリング位置でのサンプルの廃棄
【0142】
最初のステップにおいて、方向推定器は、平均化された周期的なブロックに基づいてサンプル統合を実行する。そのオーバーサンプリング位置だけが、同期ヒット位置による正しいオーバーサンプリング位置として示されるビットごとに考慮される。他のすべてのオーバーサンプリング位置は、廃棄されさらにサンプル統合において考慮されない。
【0143】
4.7.2 −1ビットの反転
【0144】
そして、透かし署名は、第1の透かし署名の第1のビットから開始してビットごとに考慮される。平均化された周期的なブロックにおいて対応するサンプル値の位置は、同期ヒット位置によって示される。透かし署名のすべてのビットおよびそれらの対応するサンプル値が考慮される。変調スキームとしてBPSKを用いる実施形態において、1のビット値は、現在のおよび前のサンプルの等しい位相値によって示される一方で、−1のビット値は、現在のおよび前のサンプルの180度の位相差によって示される。これは、図15cに示される。複素係数のサンプル値のシーケンスは、1510で表される。ビットシーケンス1515は、差動符号化が使用されると仮定する符号化されたビットを示す。同期モジュールは、これから、すべての複素係数が不変の複素係数をそのままにすることによってまたはその位相値を180度だけ変えることによっておおよそ同じ位相値を有するように、平均化された複素係数1520の処理されたシーケンスを生成する。複素係数の位相値が180度だけ変えられるかどうかの決定は、透かしの符号化されたビットシーケンスを評価することに基づいて決定される。
【0145】
例えば、透かし署名に基づいて、装置は、ビット値が所望の第1の位相値を有する複素係数を用いることによって符号化されているかどうか、または、ビット値が望まれていない第2の位相値を有する複素係数を用いることによって符号化されているかどうかを計算し得る。対応するサンプル値が望まれていない第2の位相値を有すると決定されている場合、この複素係数の位相値は、180度だけ変えられる。
【0146】
これによって、第1の絶対位相値を有するかまたは第1の位相値と約180度だけ異なる第2の絶対位相値を有する周波数バンドの複素係数を処理する前の間に、平均化された複素係数の処理されたシーケンスの特定の周波数バンドのための複素係数の絶対位相値は、特定のマイクロホンの特定の周波数領域信号に関するすべての複素係数について現在ほとんど同じである。
【0147】
4.7.3 サンプル統合
【0148】
サンプルの位相を調整した後に、すべての複素係数は、おおよそ同じ値を用いる位相値を有する。同期モジュール750は、これから、サンプルごとに基づいて統合を行う。考慮された透かし署名に関するすべての残りのサンプル値(正しいオーバーサンプリング位置を用いるサンプリング値)は、統合され、すなわち平均化され、例えば、平均化された複素係数1530を得るために、加えられさらに加えられたサンプルの数で分割される。
【0149】
2つの効果が得られる。第1の効果として、より安定な絶対位相値が得られる。異なるサンプルは、異なる位相値が正確に同じ絶対位相値でないがおおよそ同じ絶対位相値を有するように、チャンネル内の変動にさらされ得る。第2の効果として、平均化されたサンプル内のオーディオ信号の効果が最小化される一方で、透かし署名の効果が強調される。
【0150】
このように、異なるマイクロホン611,612,・・・,61Nのための平均化された複素係数の1つごとにさらに周波数バンドiごとに、(絶対)位相値を決定することができる。位相値は、平均化された位相値である。複素係数が複素数であるので、複素係数の絶対位相値は、複素係数の位相値(偏角)を決定することによって決定され得る。
【0151】
しかしながら、異なる周波数バンドの複素係数が図15dに示されるように異なる位相値を有し得ることに留意すべきである。
【0152】
4.7.4 方向決定
【0153】
決定された位相情報に基づいて、様々なタイプの方向情報が、他の決定概念に基づいて決定され得る。マイクロホンアレイの構成および入力信号間の位相差の使用に依存する方法、例えば方向オーディオ符号化(Directional Audio Coding(DirAC))または回転不変技術を介する信号パラメータの推定(Estimation of Signal Parameters via Rotational Invariance Techniques(ESPRIT))を用いることによって、到来方向の推定が得られる。
【0154】
DirACにおいて、音場は、B−フォーマットマイクロホン信号を用いることによって分析され、それは、全方向性信号w(t)およびデカルト座標系のx、yおよびz軸に対応する3つダイポール信号x(t)、y(t)、z(t)を含む。
【0155】
図16は、それらが3つのマイクロホン対を形成するように、6つのマイクロホンのマイクロホン配置を示す。第1のマイクロホン対mx1、mx2は、デカルト座標系のx軸上に位置すると仮定される。第2のマイクロホン対my1、my2は、それがデカルト座標系のy軸上に位置すると仮定することができるように配置される。さらに、第3のマイクロホン対mz1、mz2は、それがデカルト座標系のz軸上に位置すると仮定することができるように配置される。
【0156】
【0157】
方位角の決定
【0158】
【0159】
【0160】
【0161】
【0162】
【0163】
【0164】
【0165】
【0166】
【0167】
【0168】
【0169】
【0170】
【0171】
到来方向ベクトルの他の決定
【0172】
実施形態において、到来方向ベクトルは、以下のように計算された位相値に基づいて決定される。
【0173】
上で説明したように、図17に戻って、絶対位相値のための位相差Δνx、ΔνyおよびΔνzは、Δνx=νx1−νx2、Δνy=νy1−νy2、およびΔνz=νz1−νz2を適用することによって計算され得る。
【0174】
実施形態において、マイクロホンmx1およびmx2間の距離dxと、マイクロホンmy1およびmy2間の距離dyと、マイクロホンmz1およびmz2間の距離dzとが、等しいと仮定される。
【0175】
【0176】
【0177】
【0178】
到来方向ベクトルは、図18a〜図18dに関して説明される。より良好な説明のために、2次元のxy平面における状況が説明される。マイクロホンmx1およびmx2間の距離dxと、マイクロホンmy1およびmy2間の距離dyとが、等しいと仮定される。しかしながら、与えられる説明も、3次元の場合に、さらに、マイクロホンの距離が等しくないが位相差ΔνxおよびΔνyが例えば距離係数を適用することによって調整されている状況に、適用される。
【0179】
到来方向ベクトルa=(Δνx,Δνy,Δνz)を考慮する。その成分Δνx、Δνy、Δνzは、上述の実施形態によって得られるような位相差である。説明のために、ベクトルa’=(Δνx,Δνy)のxおよびy成分だけを考慮する。
【0180】
図18aにおいて、2成分の到来方向ベクトルa’=(0,1)を考慮する。
【0181】
ベクトルΔνxのx成分が0であり、すなわち、位相差が両方のマイクロホンmx1およびmx2によって受信される信号の絶対位相値に関して存在しない。このように、対応するオーディオ波は、同時に両方のマイクロホンmx1およびmx2をヒットし、さらに、サウンドソースが両方のマイクロホンmx1およびmx2から等間隔を離して置かれると仮定される。その結果、到来方向ベクトルa’は、負でもなく正でもない。
【0182】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0183】
図18bにおいて、2成分の到来方向ベクトルa’=(−1,0)が考慮される。
【0184】
ベクトルΔνyのy成分が0であり、すなわち、位相差が両方のマイクロホンmy1およびmy2によって受信される信号の絶対位相値に関して存在しない。このように、対応するオーディオ波は、同時に両方のマイクロホンmy1およびmy2をヒットし、さらに、サウンドソースが両方のマイクロホンmy1およびmy2から等間隔を離して置かれると仮定される。その結果、到来方向ベクトルa’は、負でもなく正でもない。
【0185】
ベクトルΔνxのx成分は、−1である。Δνx=νx1−νx2であるので、これは、絶対位相値νx2が絶対位相値νx1よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx1よりもマイクロホンmx2に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の負の方向を示す。
【0186】
図18cにおいて、2成分の到来方向ベクトルa’=(1,1)を考慮する。
【0187】
ベクトルΔνxのx成分は、1である。Δνx=νx1−νx2であるので、これは、絶対位相値νx1が絶対位相値νx2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx2よりもマイクロホンmx1に早く到着したことを示す。このように、到来方向ベクトルa’は、x軸の正の方向を示す。
【0188】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0189】
位相差ΔνxおよびΔνyが等しいので、さらに、対応するオーディオ波がx方向においてもyx方向においても同じように速く伝搬すると仮定することができるので、到来方向ベクトルのx成分およびy成分は、等しい値を有する。
【0190】
図18dにおいて、2成分の到来方向ベクトルa’=(2,1)が考慮される。
【0191】
ベクトルΔνxのy成分は、2である。Δνx=νx1−νx2であるので、これは、絶対位相値νx1が絶対位相値νx2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmx2よりもマイクロホンmx1に早く到着したことを示す。このように、到来方向ベクトルa’は、x軸の正の方向を示す。
【0192】
ベクトルΔνyのy成分は、1である。Δνy=νy1−νy2であるので、これは、絶対位相値νy1が絶対位相値νy2よりも大きく、ひいては、それぞれのオーディオ波がマイクロホンmy2よりもマイクロホンmy1に早く到着したことを示す。このように、到来方向ベクトルa’は、y軸の正の方向を示す。
【0193】
位相差ΔνxおよびΔνyが等しいので、さらに、対応するオーディオ波がy方向においてよりもx方向において速く伝搬し、さらに、x方向におけるその速度がy方向における速度の2倍であると仮定することができるので、x成分は、到来方向ベクトルのy成分のサイズの2倍である。
【0194】
複数の周波数バンドに基づく到来方向ベクトルの決定
【0195】
【0196】
そして、平均到来方向ベクトルが決定され得る。平均化は、例えば、複数の到来方向ベクトルを加えることによって、さらに、得られたベクトルの成分を平均化される正規化された到来方向ベクトルの数で分割することによって、達成され得る。
【0197】
実施形態において、方位角および仰角は、方向オーディオ符号化(Directional Audio Coding(DirAC))との関連で使用される方法を用いて決定された到来方向ベクトルに基づいて計算され得る。
【0198】
複素数のレシーバに特有の情報を用いる到来方向ベクトルの他の推定
【0199】
さらなる実施形態において、考慮された周波数バンドiのための考慮された透かし署名に関する複素数値を、方向オーディオ符号化(Directional Audio Coding(DirAC))技術を用いて到来方向を推定するために用いることができる。
【0200】
Δpxは、図16からマイクロホンmx1およびmx2から得られる複素数値間の差を示す。同様に、ΔpyおよびΔpzは、yおよびz軸のために得られる。さらなるp0は、すべてのマイクロホンで得られる複素数値の平均である。
【0201】
【0202】
【0203】
記録ユニットの位置推定
【0204】
図19は、2次元のシナリオにおいて位置推定を示す。そこで、ラウドスピーカの位置が知られていると仮定する。ラウドスピーカおよび記録マイクロホンのアレイが同じ平面に位置するとさらに仮定する。
【0205】
到来方向ベクトルは、上述の実施形態のうちの1つに従って、ラウドスピーカの1つごとに決定される。第1のラウドスピーカの到来方向ベクトルは、第1のラウドスピーカを示す。第2のラウドスピーカの到来方向ベクトルは、第2のラウドスピーカを示す。
【0206】
基本的に、到来方向ベクトルは、ラウドスピーカから音波の到来方向を示し、ベクトルの成分は、デカルト座標系に関して表され得る。しかしながら、実施形態において、座標系の軸は、マイクロホンの位置によって定義される。mx1およびmx2の位置は、x軸を定義し、さらに、my1およびmy2の位置は、到来方向ベクトルが参照する座標系のy軸を定義する。
【0207】
マイクロホンアレイの方向が知られている場合、さらに、2つのラウドスピーカの(絶対)位置が知られている場合、2つの到来方向ベクトルは、マイクロホンアレイの位置を定義するために2次元の場合において十分である。これは、図19に示される。
【0208】
そのような実施形態において、位置推定のための装置は、透かし署名を含む音波を出力するラウドスピーカごとに到来方向ベクトルを計算するように構成される。2次元の平面において第1の線が計算され、それは、第1のラウドスピーカの到来方向ベクトルと平行であり、さらに、それは、第1のラウドスピーカの位置を横切る。さらに、2次元の平面において第2の線が計算され、それは、第2のラウドスピーカの到来方向ベクトルと平行であり、さらに、それは、第2のラウドスピーカの位置を横切る。そして、2次元の平面において第1および第2の線の交点が計算され、交点は、マイクロホンアレイの位置を決定する。
【0209】
さらなる実施形態において、述べられた概念が環境において適用され、マイクロホンアレイおよびラウドスピーカは、2次元の平面に位置せず、3次元の到来方向ベクトル(3つの成分を用いる到来方向ベクトル)を適用する。そこで、ラウドスピーカの位置が知られていると仮定される。装置は、決定された到来方向ベクトルと平行する線を計算し、計算された線は、それらの到来方向ベクトルのラウドスピーカのラウドスピーカ位置を横切る。すべての計算された線が互いに交差する点が、マイクロホンアレイの決定された位置である。
【0210】
説明のために、2次元の場合に戻る。マイクロホンアレイの方向が知られていない場合、2つのラウドスピーカの2つの到来方向ベクトルは、マイクロホンアレイの位置を決定するために十分でない。そのようなシナリオにおいて、第1および第2の到来方向ベクトル間の角度αを計算することができるが、マイクロホンアレイの方向ひいてはマイクロホンアレイによって定義される座標系の方向が知られていないので、マイクロホンアレイの位置は、(例えば第2の座標系を参照して表される)ラウドスピーカの位置が知られていた場合であっても、一義的に定義することができない。これは、図20aに示される。
【0211】
しかしながら、透かし署名を含む第3のオーディオ波を出力する第3のラウドスピーカを使用することによって、曖昧さを解決することができる。これは、図20bに関して説明される。少なくとも3つのラウドスピーカ(M≧3)の到来方向が推定される場合、マイクロホンアレイの空間位置も、決定することができる。図21は、対応する位置推定器を示す。3つのラウドスピーカを用いるときに、ラウドスピーカおよび記録ユニットが共通の平面にあると仮定される。しかしながら、ラウドスピーカの空間位置は、レシーバで知られなければならない。この情報に依存して、位置推定器800において連立非線形方程式を解くことによって記録位置を得ることが可能である。
【0212】
図20bの実施形態において、位置推定のための装置は、第1のラウドスピーカの第1の到来方向ベクトル、第2のラウドスピーカの第2の到来方向ベクトルおよび第3のラウドスピーカの第3の到来方向ベクトルを計算する。そして、第1および第2の到来方向ベクトル間の第1の角度αと、第2および第3の到来方向ベクトル間の第2の角度δとが、計算され得る。それから、決定推定のための装置は、3つの線のそれぞれがラウドスピーカ位置を横切り、さらに、決定された点が互いに決定された角度関係を有するように、2次元の平面において点を決定する。すなわち、第1のラウドスピーカ位置を横切る第1の線および第2のラウドスピーカ位置を横切る第2の線は、それらの交差角度が第1の角度に等しいように、決定された点において互いに交差する。第2のラウドスピーカ位置を横切る第2の線および第3のラウドスピーカ位置を横切る第3の線は、それらの交差角度が第2の角度に等しいように、決定された点において互いに交差する。決定された点は、マイクロホンアレイの位置である。
【0213】
さらなる実施形態において、位置推定器は、その方向が3次元の場合のために、すなわちラウドスピーカおよびマイクロホンアレイのすべてが2次元の平面において位置しない立体配置のために、知られていないマイクロホンアレイの位置を決定する。決定は、3次元の到来方向ベクトル、すなわち3つの成分を有する到来方向ベクトルを使用することによって、上述の概念に基づいて達成される。
【0214】
図22は、実施形態による空間位置推定のための装置を示す。空間位置推定のための装置は、上述の実施形態の1つによる方向情報を提供するための装置100を含み、それは、受信された透かしを入れたオーディオ信号rx1、rx2を処理する。さらに、空間位置推定のための装置は、空間位置推定のための装置の位置を推定するための位置推定器300を含む。位置推定器は、方向情報を提供するための装置によって提供される方向情報に基づいて空間位置推定のための装置の位置を推定するように構成される。
【0215】
いくつかの態様が装置との関連で記載されているにもかかわらず、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載されている態様は、対応するブロック若しくはアイテムまたは対応する装置の特徴の説明も表す。
【0216】
本発明の分解された信号は、デジタル記憶媒体に保存することができ、または、例えば無線伝送媒体や例えばインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
【0217】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)電子的に可読の制御信号が格納される、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを用いて実行することができる。
【0218】
本発明によるいくつかの実施形態は、ここに記載される方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に可読の制御信号を有する一時的でないデータキャリアを含む。
【0219】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、それらの方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械可読のキャリアに格納されてもよい。
【0220】
他の実施形態は、機械可読のキャリアに格納される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0221】
したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、ここに記載される方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0222】
したがって、本発明の方法のさらなる実施形態は、それに記録される、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読の媒体)である。
【0223】
したがって、本発明の方法のさらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成されてもよい。
【0224】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するように構成されまたは適している処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。
【0225】
さらなる実施形態は、ここに記載される方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0226】
いくつかの実施形態において、プログラム可能な論理デバイス(例えばフィールドプログラム可能なゲートアレイ)は、ここに記載される方法の機能のいくらかまたはすべてを実行するために用いられてもよい。いくつかの実施形態において、フィールドプログラム可能なゲートアレイは、ここに記載される方法のうちの1つを実行するために、マイクロプロセッサと協働してもよい。一般的に、その方法は、好ましくは、いかなるハードウェア装置によっても実行される。
【0227】
上述の実施形態は、本発明の原理のために単に例示するだけである。ここに記載される構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、本発明は、特許請求の範囲によってだけ制限され、ここに実施形態の記述および説明として示される具体的な詳細によって制限されないと意図される。
図1
図2
図3a
図3b
図3c
図4
図5
図6a
図6b
図7
図8a
図8b
図9a
図9b
図9c
図9d
図10
図11a
図11b
図11c
図12a
図12b
図12c
図12d
図13a
図13b
図13c
図13d
図14
図15a
図15b
図15c
図15d
図16
図17
図18a
図18b
図18c
図18d
図19
図20a
図20b
図21
図22