特許7453997 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許7453997ＤｉｒＡＣベースの空間オーディオ符号化のためのパケット損失隠蔽

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
2
3a
3b
4a
4b
5
6a
6b

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-12

(45)【発行日】2024-03-21

(54)【発明の名称】ＤｉｒＡＣベースの空間オーディオ符号化のためのパケット損失隠蔽

(51)【国際特許分類】

G10L 19/005 20130101AFI20240313BHJP

G10L 19/00 20130101ALI20240313BHJP

G10L 19/008 20130101ALI20240313BHJP

【ＦＩ】

G10L19/005

G10L19/00 330B

G10L19/008 200

【請求項の数】 19

(21)【出願番号】P 2021573366

(86)(22)【出願日】2020-06-05

(65)【公表番号】

(43)【公表日】2022-08-18

(86)【国際出願番号】 EP2020065631

(87)【国際公開番号】W WO2020249480

(87)【国際公開日】2020-12-17

【審査請求日】2022-02-04

(31)【優先権主張番号】19179750.5

(32)【優先日】2019-06-12

(33)【優先権主張国・地域又は機関】EP

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100134119

【弁理士】

【氏名又は名称】奥町哲行

(72)【発明者】

【氏名】フックス・ギヨーム

(72)【発明者】

【氏名】ムルトラス・マーカス

(72)【発明者】

【氏名】ドーラ・ステファン

(72)【発明者】

【氏名】アイヒェンシアー・アンドレア

【審査官】大野弘

(56)【参考文献】

【文献】特表２０１６－５２８５３５（ＪＰ，Ａ）

【文献】特表２０１５－５３２０６２（ＪＰ，Ａ）

【文献】国際公開第２０１８／０６０５５０（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１９／００５

Ｇ１０Ｌ１９／００８

Ｇ１０Ｌ１９／００

(57)【特許請求の範囲】

【請求項1】

空間オーディオパラメータの損失隠蔽のための方法（１００）であって、前記空間オーディオパラメータが少なくとも到来方向情報を含み、前記方法が、コンピュータによって実行されるステップとして、
少なくとも第１の到来方向情報（ａｚｉ１、ｅｌｅ１）を含む空間オーディオパラメータの第１のセットを受信するステップ（１１０）と、
少なくとも第２の到来方向情報（ａｚｉ２、ｅｌｅ２）を含む空間オーディオパラメータの第２のセットを受信するステップ（１２０）と、
少なくとも前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）または前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）の一部が失われるかまたは損傷している場合、第２のセットの前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）を、前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）から導出された置換到来方向情報と置き換えるステップと、を含み、
前記置き換えるステップが、前記置換到来方向情報をディザリングするステップを含み、および／または、
前記置き換えるステップが、前記置換到来方向情報を取得するために前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）にランダムノイズを注入することを含む、方法（１００）。

【請求項2】

前記空間オーディオパラメータの第１のセット（１番目のセット）および第２のセット（２番目のセット）が、それぞれ、第１の拡散情報および第２の拡散情報（Ψ１、Ψ２）を含む、請求項１に記載の方法（１００）。

【請求項3】

前記第１または第２の拡散情報（Ψ１、Ψ２）が、少なくとも１つの到来方向情報に関する少なくとも１つのエネルギー比から導出される、請求項２に記載の方法（１００）。

【請求項4】

前記方法が、第２のセット（２番目のセット）の前記第２の拡散情報（Ψ２）を、前記第１の拡散情報（Ψ１）から導出された置換拡散度情報によって置き換えることをさらに含む、請求項２または３に記載の方法（１００）。

【請求項5】

前記置換到来方向情報が、前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）にしたがう、請求項１から４のいずれか一項に記載の方法（１００）。

【請求項6】

前記注入するステップが、前記第１または第２の拡散情報（Ψ１、Ψ２）が高い拡散度を示す場合に、および／または、前記第１または第２の拡散情報（Ψ１、Ψ２）が前記拡散情報の所定の閾値を上回っている場合に実行される、請求項１、２、３、４、または５に記載の方法（１００）。

【請求項7】

前記拡散情報が、前記空間オーディオパラメータの第１のセット（１番目のセット）および／または第２のセット（２番目のセット）によって記述されるオーディオシーンの指向性成分と非指向性成分との間の比を含むか、またはそれに基づく、請求項６に記載の方法（１００）。

【請求項8】

前記注入されるランダムノイズが、前記第１および／または第２の拡散情報（Ψ１、Ψ２）に依存し、および／または、
前記注入されるランダムノイズが、前記第１および／または第２の拡散情報（Ψ１、Ψ２）に依存する係数によってスケーリングされる、請求項１から７のいずれか一項に記載の方法（１００）。

【請求項9】

前記空間オーディオパラメータの第１のセット（１番目のセット）および／または第２のセット（２番目のセット）によって記述されるオーディオシーンの音調性を解析するステップ、または、前記音調性を記述する音調性値を取得するために前記空間オーディオパラメータの第１のセット（１番目のセット）および／または第２のセット（２番目のセット）に属する送信されたダウンミックスの音調性を解析するステップをさらに含み、
前記注入されるランダムノイズが前記音調性値に依存する、請求項１から８のいずれか一項に記載の方法（１００）。

【請求項10】

前記ランダムノイズが、前記音調性値の逆数と共に減少する係数によって、または前記音調性が増加する場合にスケールダウンされる、請求項９に記載の方法（１００）。

【請求項11】

前記方法（１００）が、前記置換到来方向情報を取得するために前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）を外挿するステップを含む、請求項１から１０のいずれか一項に記載の方法（１００）。

【請求項12】

前記外挿することが、空間オーディオパラメータの１つ以上のセットに属する１つ以上の追加の到来方向情報に基づく、請求項１１に記載の方法（１００）。

【請求項13】

前記第１および／または第２の拡散情報（Ψ１、Ψ２）が低い拡散度を示す場合、または、前記第１および／または第２の拡散情報（Ψ１、Ψ２）が拡散情報の所定の閾値を下回る場合、前記外挿が実行される、請求項１１または１２に記載の方法（１００）。

【請求項14】

前記空間オーディオパラメータの第１のセット（１番目のセット）が、第１の時点および／または第１のフレームに属し、前記空間オーディオパラメータの第２のセット（２番目のセット）が、第２の時点および／または第２のフレームに属し、または
前記空間オーディオパラメータの第１のセット（１番目のセット）が、第１の時点に属し、前記第２の時点が、前記第１の時点の後であり、または前記第２のフレームが、前記第１のフレームの後である、請求項１から１３のいずれか一項に記載の方法（１００）。

【請求項15】

前記空間オーディオパラメータの第１のセット（１番目のセット）が、第１の周波数帯域についての空間オーディオパラメータの第１のサブセットと、第２の周波数帯域についての空間オーディオパラメータの第２のサブセットとを含み、および／または、
前記空間オーディオパラメータの第２のセット（２番目のセット）が、前記第１の周波数帯域についての空間オーディオパラメータの別の第１のサブセットと、前記第２の周波数帯域についての空間オーディオパラメータの別の第２のサブセットとを含む、請求項１から１４のいずれか一項に記載の方法（１００）。

【請求項16】

ＤｉｒＡＣ符号化オーディオシーンを復号するための方法（２００）であって、
コンピュータによって実行されるステップとして、
ダウンミックス、空間オーディオパラメータの第１のセットおよび空間オーディオパラメータの第２のセットを含む前記ＤｉｒＡＣ符号化オーディオシーンを復号するステップと、
請求項１から１５のいずれか一項に記載の方法（１００）のステップのうちの１つにしたがって前記方法を実行するステップと、を含む、方法（２００）。

【請求項17】

コンピュータ上で実行されると、請求項１から１６
のいずれか一項に記載の方法（１００、２００）を実行するためのプログラムコードを有するコンピュータプログラムを記憶したコンピュータ可読デジタル記憶媒体。

【請求項18】

空間オーディオパラメータの損失隠蔽のための損失隠蔽装置（５０）であって、前記空間オーディオパラメータが、少なくとも到来方向情報を含み、前記装置が、
第１の到来方向情報（ａｚｉ１、ｅｌｅ１）を含む空間オーディオパラメータの第１のセットを受信し（１１０）、第２の到来方向情報（ａｚｉ２、ｅｌｅ２）を含む空間オーディオパラメータの第２のセットを受信する（１２０）ための受信機（５２）と、
少なくとも前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）または前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）の一部が失われるかまたは損傷している場合、前記第２のセットの前記第２の到来方向情報（ａｚｉ２、ｅｌｅ２）を、前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）から導出された置換到来方向情報によって置き換えるためのプロセッサ（５４）と、を備え、
前記置き換えが、前記置換到来方向情報をディザリングするステップを含み、および／または、
前記置き換えが、前記置換到来方向情報を取得するために前記第１の到来方向情報（ａｚｉ１、ｅｌｅ１）にランダムノイズを注入することを含む、損失隠蔽装置（５０）。

【請求項19】

請求項１８に記載の損失隠蔽装置を備える、ＤｉｒＡＣ符号化オーディオシーン用のデコーダ（７０）。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、空間オーディオパラメータの損失隠蔽のための方法、ＤｉｒＡＣ符号化オーディオシーンを復号するための方法、および対応するコンピュータプログラムに関する。さらなる実施形態は、空間オーディオパラメータの損失隠蔽のための損失隠蔽装置、およびパケット損失隠蔽装置を備えるデコーダに関する。好ましい実施形態は、空間画像が指向性オーディオ符号化（ＤｉｒＡＣ）パラダイムによってパラメトリックに符号化されたオーディオシーンの伝送中に発生するフレームまたはパケットの損失および破損による品質劣化を補償するための概念／方法を説明する。
序論

【0002】

音声およびオーディオ通信は、送信中のパケット損失に起因して異なる品質問題を受ける可能性がある。実際に、ビットエラーやジッタなどのネットワーク内の悪い条件は、いくつかのパケットの損失につながる可能性がある。これらの損失は、受信機側において再構築された音声またはオーディオ信号の知覚品質を大幅に低下させるクリック、プロップまたは望ましくない消音のような深刻なアーチファクトをもたらす。パケット損失の悪影響に対抗するために、パケット損失隠蔽（ＰＬＣ）アルゴリズムが従来の音声およびオーディオ符号化方式で提案されている。そのようなアルゴリズムは、通常、受信ビットストリーム内の欠落データを隠すために合成オーディオ信号を生成することによって受信機側で動作する。

【0003】

ＤｉｒＡＣは、空間パラメータのセットおよびダウンミックス信号によって音場をコンパクト且つ効率的に表す知覚的に動機付けされた空間オーディオ処理技術である。ダウンミックス信号は、一次アンビソニックス（ＦＡＯ）としても知られるＡフォーマットまたはＢフォーマットなどのオーディオフォーマットのモノラル、ステレオ、またはマルチチャネル信号とすることができる。ダウンミックス信号は、時間／周波数単位当たりの到来方向（ＤＯＡ）および拡散度に関してオーディオシーンを記述する空間ＤｉｒＡＣパラメータによって補完される。ストレージ、ストリーミングまたは通信アプリケーションでは、ダウンミックス信号は、各チャネルのオーディオ波形を保存することを目的として、従来のコアコーダ（例えば、ＥＶＳ、またはＥＶＳのステレオ／マルチチャネル拡張、または任意の他のモノ／ステレオ／マルチチャネルコーデック）によって符号化される。コアのコアコーダは、ＣＥＬＰなどの時間領域で動作する変換ベースの符号化方式または音声符号化方式の周りに構築されることができる。次いで、コアコーダは、パケット損失隠蔽（ＰＬＣ）アルゴリズムなどの既存のエラー回復ツールを統合することができる。
一方、ＤｉｒＡＣ空間パラメータを保護する既存の解決策はない。したがって、改善された手法が必要とされている。

【発明の概要】

【発明が解決しようとする課題】

【0004】

本発明の目的は、ＤｉｒＡＣの文脈における損失隠蔽の概念を提供することである。

【課題を解決するための手段】

【0005】

この目的は、独立請求項の主題によって解決された。

【0006】

本発明の実施形態は、空間オーディオパラメータの損失隠蔽のための方法を提供し、空間オーディオパラメータは、少なくとも到来方向情報を含む。本方法は、以下のステップを含む：
・第１の到来方向情報および第１の拡散度情報を含む空間オーディオパラメータの第１のセットを受信すること；
・第２の到来方向情報および第２の拡散度情報を含む、空間オーディオパラメータの第２のセットを受信すること；および

【0007】

・少なくとも第２の到来方向情報または第２の到来方向情報の一部が失われた場合に、第２のセットの第２の到来方向情報を第１の到来方向情報から導出された置換到来方向情報によって置き換えること。

【0008】

本発明の実施形態は、到来情報の損失または損傷の場合、失われた／損傷した到来情報は、別の利用可能な到来情報から導出された到来情報によって置き換えられることができるという知見に基づいている。例えば、第２の到来情報が失われた場合、第１の到来情報によって置き換えられることができる。換言すれば、これは、実施形態が、以前良好に受信された指向性情報およびディザリングを使用することによって回復された伝送損失の場合の指向性情報である空間パラメトリックオーディオのパケット損失隠蔽料金を提供することを意味する。したがって、実施形態は、直接パラメータによって符号化された空間オーディオサウンドの送信におけるパケット損失に対抗することを可能にする。

【0009】

さらなる実施形態は、空間オーディオパラメータの第１のセットおよび第２のセットがそれぞれ第１の拡散情報および第２の拡散情報を含む方法を提供する。そのような場合、方策は、以下のとおりとすることができる：実施形態によれば、第１または第２の拡散情報は、少なくとも１つの到来方向情報に関連する少なくとも１つのエネルギー比から導出される。実施形態によれば、本方法は、第２のセットの第２の拡散度情報を、第１の拡散度情報から導出された置換拡散度情報によって置き換えることをさらに含む。これは、拡散がフレーム間であまり変化しないという仮定に基づく、いわゆるホールドストラテジの一部である。このため、単純であるが効果的な手法は、送信中に失われたフレームの最後の良好に受信されたフレームのパラメータを保持することである。この全体的な方策の別の部分は、第２の到来情報を第１の到来情報によって置き換えることであるが、それは基本的な実施形態の文脈で説明された。空間画像は経時的に比較的安定していなければならないと一般に考えることが安全であり、これは、ＤｉｒＡＣパラメータ、すなわちおそらくフレーム間であまり変化しない到来方向に対して変換されることができる。

【0010】

さらなる実施形態によれば、置換到来方向情報は、第１の到来方向情報にしたがう。そのような場合、方向のディザリングと呼ばれる方策が使用されることができる。ここで、置き換えるステップは、実施形態によれば、置換到来方向情報をディザリングするステップを含むことができる。代替的または追加的に、置き換えるステップは、ノイズが第１の到来方向情報であるときに注入して置換到来方向情報を取得することを含んでもよい。そして、ディザリングは、同じフレームに使用する前に前の方向にランダムノイズを注入することによって、レンダリングされた音場をより自然でより快適にするのに役立つことができる。実施形態によれば、注入するステップは、第１または第２の拡散情報が高い拡散度を示す場合に実行されることが好ましい。あるいは、第１または第２の拡散情報が、高い拡散度を示す拡散情報に対して所定の閾値を上回る場合に実行されてもよい。さらなる実施形態によれば、拡散情報は、空間オーディオパラメータの第１のセットおよび／または第２のセットによって記述されるオーディオシーンの指向性成分と非指向性成分との間の比に対してより多くの空間を含む。実施形態によれば、注入されるランダムノイズは、第１および第２の拡散情報に依存する。あるいは、注入されるランダムノイズは、第１および／または第２の拡散情報に依存する係数によってスケーリングされる。したがって、実施形態によれば、本方法は、音調性を記述する音調性値を取得するために、第１の空間オーディオパラメータおよび／または第２の空間オーディオパラメータに属する送信されたダウンミックスの音調性を解析する、空間オーディオパラメータの第１のセットおよび／または第２のセットによって記述されるオーディオシーンの音調性を解析するステップをさらに含むことができる。そして、注入されるランダムノイズは、音調性値に依存する。実施形態によれば、スケーリングダウンは、音調性値の逆数と共に減少する係数によって、または音調性が増加する場合に実行される。

【0011】

さらなる方策によれば、第１の到来方向情報を推定して置換到来方向情報を取得するステップを含む方法が使用されることができる。この手法によれば、オーディオシーン内のサウンドイベントのディレクトリを推定して、推定されたディレクトリを外挿することが想定されることができる。これは、音響イベントが空間内および点音源（拡散度が低い直接モデル）として十分に局在している場合に特に関連する。実施形態によれば、外挿は、空間オーディオパラメータの１つ以上のセットに属する１つ以上の追加の到来方向情報に基づく。実施形態によれば、第１および／または第２の拡散情報が低い拡散度を示す場合、または第１および／または第２の拡散情報が拡散情報の所定の閾値を下回る場合、外挿が実行される。

【0012】

実施形態によれば、空間オーディオパラメータの第１のセットは、第１の時点および／または第１のフレームに属し、空間オーディオパラメータの第２のセットの双方は、第２の時点または第２のフレームに属する。あるいは、第２の時点は第１の時点の後であり、または第２のフレームは第１のフレームの後である。ほとんどの空間オーディオパラメータのセットが外挿に使用される実施形態に戻ると、好ましくは、例えば互いに後続する複数の時点／フレームに属するより多くの空間オーディオパラメータのセットが使用されることは明らかである。

【0013】

さらなる実施形態によれば、空間オーディオパラメータの第１のセットは、第１の周波数帯域についての空間オーディオパラメータの第１のサブセットと、第２の周波数帯域についての空間オーディオパラメータの第２のサブセットとを含む。空間オーディオパラメータの第２のセットは、第１の周波数帯域についての空間オーディオパラメータの別の第１のサブセットと、第２の周波数帯域についての空間オーディオパラメータの別の第２のサブセットとを含む。

【0014】

別の実施形態は、ダウンミックスと、空間オーディオパラメータの第１のセットと、空間オーディオパラメータの第２のセットとを含むＤｉｒＡＣ符号化オーディオシーンを復号するステップを含む、ＤｉｒＡＣ符号化オーディオシーンを復号するための方法を提供する。この方法は、上述した隠蔽の損失のための方法のステップをさらに含む。

【0015】

実施形態によれば、上述した方法は、コンピュータ実装されてもよい。したがって、実施形態は、以前の請求項のいずれか一項に記載の方法を有するコンピュータ上で実行されると、実行するためのプログラムコードを有するコンピュータプログラムを記憶したコンピュータ可読記憶媒体に言及した。

【0016】

別の実施形態は、空間オーディオパラメータ（少なくとも到来方向情報を含む）の損失隠蔽のための損失隠蔽装置に関する。この装置は、受信機およびプロセッサを備える。受信機は、空間オーディオパラメータの第１のセットおよび空間オーディオパラメータの第２のセットを受信するように構成される（上記参照）。プロセッサは、第２の到来方向情報が失われたかまたは損傷した場合に、第２のセットの第２の到来方向情報を第１の到来方向情報から導出された置換到来方向情報によって置き換えるように構成される。別の実施形態は、損失隠蔽装置を備えるＤｉｒＡＣ符号化オーディオ方式のデコーダに関する。
本発明の実施形態は、添付の図面を参照して以下に説明される。

【図面の簡単な説明】

【0017】

【図1a】ＤｉｒＡＣ解析および合成を示す概略ブロック図を示している。

【図1b】ＤｉｒＡＣ解析および合成を示す概略ブロック図を示している。

【図2】低ビットレート３ＤオーディオコーダにおけるＤｉｒＡＣ解析および合成の概略詳細ブロック図を示している。

【図3a】基本的な実施形態にかかる損失隠蔽のための方法の概略フローチャートを示している。

【図3b】基本的な実施形態にかかる概略的な損失隠蔽装置を示している。

【図4a】実施形態を例示するために、ＤＤＲ（図４ａのウィンドウサイズＷ＝１６）の測定された拡散度関数の概略図を示している。

【図4b】実施形態を例示するために、ＤＤＲ（図４ｂのウィンドウサイズＷ＝５１２）の測定された拡散度関数の概略図を示している。

【図5】実施形態を説明するために、拡散度の関数で測定された方向（方位角および仰角）の概略図を示している。

【図6a】実施形態にかかるＤｉｒＡＣ符号化オーディオシーンを復号するための方法の概略フローチャートを示している。

【図6b】実施形態にかかるＤｉｒＡＣ符号化オーディオシーン用のデコーダの概略ブロック図を示している。

【発明を実施するための形態】

【0018】

以下、添付の図面を参照して本発明の実施形態が以下に説明されるが、同一または類似の機能を有する対象物／要素には同一の参照符号が与えられ、その結果、その説明は相互に適用可能且つ交換可能である。本発明の実施形態を詳細に記載する前に、ＤｉｒＡＣの序論が与えられる。

【0019】

ＤｉｒＡＣの序論：ＤｉｒＡＣは、知覚的に動機付けされた空間音響再生である。ある時点において、１つの重要な帯域について、聴覚システムの空間分解能は、方向について１つのキューを復号し、両耳間コヒーレンスについて別のキューを復号することに限定されると仮定する。

【0020】

これらの仮定に基づいて、ＤｉｒＡＣは、無指向性拡散ストリームおよび指向性非拡散ストリームの２つのストリームをクロスフェードすることによって１つの周波数帯域の空間音を表す。ＤｉｒＡＣ処理は、以下の２つの段階で実行される：
第１の段階は、図１ａによって示される解析であり、第２の段階は、図１ｂによって示される合成である。

【0021】

図１ａは、マイクロフォン信号Ｗ、Ｘ、ＹおよびＺを受信する１つ以上の帯域通過フィルタ１２ａ～ｎを備える解析段１０と、エネルギーについての解析段１４ｅと、強度についての解析段１４ｉとを示している。時間的に配置することによって、拡散度Ψ（参照符号１６ｄを参照されたい）が判定されることができる。拡散度Ψは、エネルギー１４ｃおよび強度１４ｉの解析に基づいて判定される。強度および解析１４ｉに基づいて、方向１６ｅが判定されることができる。方向判定の結果が方位角および仰角である。Ψ、ａｚｉおよびｅｌｅがメタデータとして出力される。これらのメタデータは、図１ｂによって示される合成エンティティ２０によって使用される。

【0022】

図１ｂによって示される合成エンティティ２０は、第１のストリーム２２ａおよび第２のストリーム２２ｂを含む。第１のストリームは、複数の帯域通過フィルタ１２ａ～ｎと、仮想マイクロフォン用の計算エンティティ２４とを備える。第２のストリーム２２ｂは、メタデータを処理するための手段、すなわち、拡散度パラメータについては２６、方向パラメータについては２７を備える。さらにまた、合成段階２０では、相関除去器２８が使用され、この相関除去エンティティ２８は、２つのストリーム２２ａ、２２ｂのデータを受信する。相関除去器２８の出力は、スピーカ２９に供給されることができる。
ＤｉｒＡＣ解析段階では、Ｂフォーマットの一次一致マイクロフォンが入力として考慮され、音の拡散度および到来方向が周波数領域において解析される。

【0023】

ＤｉｒＡＣ合成段階では、音は、非拡散ストリームおよび拡散ストリームの２つのストリームに分割される。非拡散ストリームは、ベクトルベース振幅パンニング（ＶＢＡＰ）［２］を使用することによって行われることができる振幅パンニングを使用して点源として再生される。拡散ストリームは、包囲の感覚に関与し、相互に相関のない信号をスピーカに伝達することによって生成される。

【0024】

以下では空間メタデータまたはＤｉｒＡＣメタデータとも呼ばれるＤｉｒＡＣパラメータは、拡散度および方向のタプルからなる。方向は、方位角および仰角の２つの角度によって球面座標において表されることができ、拡散度は、０から１の間のスカラー係数である。

【0025】

以下、ＤｉｒＡＣ空間オーディオコーディングのシステムが図２に関して説明される。図２は、二段階ＤｉｒＡＣ解析１０’およびＤｉｒＡＣ合成２０’を示している。ここで、ＤｉｒＡＣ解析は、フィルタバンク解析１２、方向推定器１６ｉ、および拡散度推定器１６ｄを備える。１６ｉおよび１６ｄは、いずれも拡散度／方向データを空間メタデータとして出力する。このデータは、エンコーダ１７を使用して符号化されることができる。直接解析２０’は、空間メタデータデコーダ２１と、出力合成２３と、スピーカＦＯＡ／ＨＯＡに信号を出力することを可能にするフィルタバンク合成１２とを備える。

【0026】

空間メタデータを処理する上述した直接解析段階１０’および直接合成段階２０’と並行して、ＥＶＳエンコーダ／デコーダが使用される。解析側では、入力信号Ｂフォーマットに基づいてビームフォーミング／信号選択が行われる（ビーム形成／信号選択エンティティ１５を参照されたい）。そして、信号は、ＥＶＳ符号化される（参照符号１７を参照されたい）。そして、信号は、ＥＶＳ符号化される。合成側（参照符号２０’を参照されたい）では、ＥＶＳデコーダ２５が使用される。このＥＶＳデコーダは、フィルタバンク解析１２に信号を出力し、フィルタバンク解析１２は、その信号を出力合成２３に出力する。
ここで、直接解析／直接合成１０’／２０’の構造について説明されたため、機能性について詳細に説明する。

【0027】

エンコーダ解析１０’は、通常、Ｂフォーマットの空間オーディオシーン。あるいは、ＤｉｒＡＣ解析は、オーディオオブジェクトもしくはマルチチャネル信号または任意の空間オーディオフォーマットの組み合わせのような異なるオーディオフォーマットを解析するように調整されることができる。ＤｉｒＡＣ解析は、入力されたオーディオシーンからパラメトリック表現を抽出する。到来方向（ＤＯＡ）および時間－周波数単位ごとに測定された拡散度がパラメータを形成する。ＤｉｒＡＣ解析の後には、ＤｉｒＡＣパラメータを量子化および符号化して低ビットレートパラメトリック表現を取得する空間メタデータエンコーダが続く。

【0028】

パラメータと共に、異なるソースまたはオーディオ入力信号から導出されたダウンミックス信号は、従来のオーディオコアコーダによる送信のために符号化される。好ましい実施形態では、ダウンミックス信号を符号化するためにＥＶＳオーディオコーダが好ましいが、本発明は、このコアコーダに限定されず、任意のオーディオコアコーダに適用されることができる。ダウンミックス信号は、トランスポートチャネルと呼ばれる異なるチャネルからなる：信号は、例えば、目標ビットレートに応じて、Ｂフォーマット信号、ステレオペア、またはモノラルダウンミックスを構成する４つの係数信号とすることができる。符号化空間パラメータおよび符号化オーディオビットストリームは、通信チャネルを介して送信される前に多重化される。

【0029】

デコーダでは、トランスポートチャネルは、コアデコーダによって復号され、ＤｉｒＡＣメタデータは、復号されたトランスポートチャネルによってＤｉｒＡＣ合成に搬送される前に最初に復号される。ＤｉｒＡＣ合成は、復号されたメタデータを使用して、直接音ストリームの再生および拡散音ストリームとの混合を制御する。再生音場は、任意のスピーカレイアウトで再生されることができ、またはアンビソニックスフォーマット（ＨＯＡ／ＦＯＡ）において任意の順序で生成されることができる。

【0030】

ＤｉｒＡＣパラメータ推定：各周波数帯域において、音の拡散度とともに音の到来方向が推定される。入力Ｂフォーマット成分

の時間周波数解析から、圧力および速度ベクトルは、以下のように判定されることができる：

【0031】

ここで、ｉは入力のインデックスであり、

および

は時間周波数タイルの時間および周波数インデックスであり、

はデカルト単位ベクトルを表す。

および

は、強度ベクトルの計算によってＤｉｒＡＣパラメータ、すなわちＤＯＡおよび拡散度を計算するために使用される：

、
ここで、

は複素共役を示す。合成音場の拡散度は、以下によって与えられる：

ここで、

は時間平均演算子を示し、

は音速を示し、

は以下によって与えられる音場エネルギーを示す：

音場の拡散度は、０から１の値を有する音響強度とエネルギー密度との比として定義される。
到来方向（ＤＯＡ）は、以下のように定義される単位ベクトル

によって表される。

【0032】

到来方向は、Ｂフォーマット入力のエネルギー解析によって判定され、強度ベクトルの反対方向として定義されることができる。方向はデカルト座標で定義されるが、単位半径、方位角および仰角によって定義される球面座標に容易に変換されることができる。

【0033】

送信の場合、パラメータは、ビットストリームを介して受信機側に送信される必要がある。限られた容量のネットワークを介したロバストな伝送のために、ＤｉｒＡＣパラメータのための効率的な符号化方式を設計することによって達成されることができる低ビットレートビットストリームが好ましい。それは、例えば、異なる周波数帯域および／または時間単位にわたってパラメータを平均化することによる周波数帯域グループ化、予測、量子化、およびエントロピー符号化などの技術を使用することができる。デコーダでは、ネットワーク内でエラーが発生しなかった場合に、送信されたパラメータが時間／周波数単位（ｋ、ｎ）ごとに復号されることができる。しかしながら、ネットワーク条件が適切なパケット送信を保証するのに十分でない場合、送信中にパケットが失われる可能性がある。本発明は、後者の場合の解決策を提供することを目的とする。

【0034】

本来、ＤｉｒＡＣは、一次アンビソニックス信号としても知られるＢフォーマット記録信号を処理するためのものであった。しかしながら、解析は、無指向性または指向性マイクロフォンを組み合わせた任意のマイクロフォンアレイに容易に拡張されることができる。この場合、ＤｉｒＡＣパラメータの本質は不変であるため、本発明は依然として重要である。

【0035】

さらに、メタデータとしても知られるＤｉｒＡＣパラメータは、空間オーディオコーダに搬送される前に、マイクロフォン信号処理中に直接計算されることができる。ＤｉｒＡＣに基づく空間符号化システムは、次に、メタデータおよびダウンミックス信号のオーディオ波形の形態のＤｉｒＡＣパラメータと同等または類似の空間オーディオパラメータによって直接供給される。ＤｏＡおよび拡散度は、入力メタデータからパラメータ帯域ごとに容易に導出されることができる。そのような入力フォーマットは、ＭＡＳＡ（メタデータ支援空間オーディオ）フォーマットと呼ばれることがある。ＭＡＳＡは、システムが、空間パラメータを計算するために必要なマイクロフォンアレイの特異性およびそれらの形状因子を無視することを可能にする。これらは、マイクロフォンを組み込んだ装置に固有の処理を使用して空間オーディオ符号化システムの外部で導出される。

【0036】

本発明の実施形態は、図２に示すような空間符号化システムを使用することができ、ＤｉｒＡＣベースの空間オーディオエンコーダおよびデコーダが示されている。実施形態は、図３ａおよび図３ｂに関して説明され、ＤｉｒＡＣモデルへの拡張は、前に説明される。

【0037】

ＤｉｒＡＣモデルは、実施形態によれば、同じ時間／周波数タイルを有する異なる指向性成分を可能にすることによって拡張されることもできる。それは、以下の２つの主な方法で拡張されることができる：

【0038】

第１の拡張は、Ｔ／Ｆタイルごとに２つ以上のＤｏＡを送信することからなる。そして、各ＤｏＡは、エネルギーまたはエネルギー比に関連付けられなければならない。例えば、第ｌのＤｏＡは、指向性成分のエネルギーとオーディオシーン全体のエネルギーとの間のエネルギー比

に関連付けられることができる：

【0039】

ここで、

は、第ｌの方向に関連付けられた強度ベクトルである。Ｌ個のＤｏＡがそれらのＬ個のエネルギー比と共に伝送される場合、拡散度は、Ｌ個のエネルギー比から以下のように推定されることができる：

【0040】

ビットストリームで伝送される空間パラメータは、Ｌ個のエネルギー比と共にＬ個の方向であってもよく、またはこれらの最新のパラメータはまた、Ｌ－１個のエネルギー比＋拡散度パラメータに変換されることもできる。

【0041】

第２の拡張は、２Ｄまたは３Ｄ空間を非重複セクタに分割し、各セクタについてＤｉｒＡＣパラメータのセット（ＤｏＡ＋セクタごとの拡散度）を送信することからなる。次に、［５］において紹介した高次ＤｉｒＡＣについて説明する。
双方の拡張部は、実際に組み合わせられることができ、本発明は、双方の拡張部に関連する。

【0042】

図３ａおよび図３ｂは、本発明の実施形態を示し、図３ａは、基本概念／使用される方法１００に焦点を合わせた手法を示し、使用される装置５０は、図３ｂによって示されている。
図３ａは、基本ステップ１１０、１２０および１３０を含む方法１００を示している。

【0043】

第１のステップ１１０および１２０は、互いに同等であり、すなわち空間オーディオパラメータのセットの受信を指す。第１のステップ１１０では、第１のセットが受信され、第２のステップ１２０では、第２のセットが受信される。さらに、さらなる受信ステップが存在してもよい（図示せず）。第１のセットは、第１の時点／第１のフレームを指すことができ、第２のセットは、第２の（後続の）時点／第２の（後続の）フレームを指すことができることなどに留意されたい。上述したように、第１のセットおよび第２のセットは、拡散情報（Ψ）および／または方向情報（方位角および仰角）を含むことができる。この情報は、空間メタデータエンコーダを使用することによって符号化されることができる。ここで、第２の情報セットが送信中に失われるかまたは損傷されると仮定する。この場合、第２のセットは、第１のセットによって置き換えられる。これは、ＤｉｒＡＣパラメータのような空間オーディオパラメータのパケット損失隠蔽を可能にする。

【0044】

パケット損失の場合、品質への影響を制限するために、失われたフレームの消去されたＤｉｒＡＣパラメータが元に戻される必要がある。これは、過去に受信したパラメータを考慮することによって欠落パラメータを合成的に生成することによって達成されることができる。不安定な空間画像は、不快でアーチファクトとして知覚される可能性があるが、厳密に一定の空間画像は、不自然として知覚されることがある。

【0045】

図３ａによって説明した手法１００は、図３ｂによって示されるようにエンティティ５０によって実行されることができる。損失隠蔽のための装置５０は、インターフェース５２およびプロセッサ５４を備える。インターフェースを介して、空間オーディオパラメータのセットΨ１、ａｚｉ１、ｅｌｅ１、Ψ２、ａｚｉ２、ｅｌｅ２、Ψｎ、ａｚｉｎ、ｅｌｅが受信されることができる。プロセッサ５４は、受信したセットを解析し、失われたセットまたは損傷したセットの場合、例えば以前に受信したセットまたは同等のセットによって、失われたセットまたは損傷したセットを置き換える。これらの異なる方策が使用されることができ、これについては後述する。

【0046】

ホールドストラテジ：空間画像は、経時的に比較的安定していなければならないと考えるのが一般的に安全であり、これは、ＤｉｒＡＣパラメータ、すなわちフレーム間であまり変化しない到来方向および拡散に対して変換されることができる。このため、単純であるが効果的な手法は、送信中に失われたフレームの最後の良好に受信されたフレームのパラメータを保持することである。

【0047】

方向の推定：あるいは、オーディオシーン内の音響イベントの軌跡を推定し、次いで推定された軌跡を外挿しようと試みることが想定されることができる。音イベントが点音源として空間内に十分に局在化され、それが低い拡散度によってＤｉｒＡＣモデルに反映される場合に特に関連する。推定された軌跡は、過去の方向の観測値から計算されることができ、これらの点の間に曲線をフィッティングすることができ、補間または平滑化のいずれかを発展させることができる。回帰解析もまた使用されることができる。次いで、観察されたデータの範囲を超えてフィッティングされた曲線を評価することによって外挿が行われる。

【0048】

ＤｉｒＡＣでは、方向は、極座標で表現され、量子化され、符号化されることが多い。しかしながら、通常、２πを法とする演算の処理を回避するために、デカルト座標で方向を処理し、次いで軌跡を処理することがより便利である。

【0049】

方向のディザリング：音イベントがより拡散すると、方向はあまり意味がなく、確率的プロセスの実現と考えることができる。そして、ディザリングは、失われたフレームに使用する前に前の方向にランダムノイズを注入することによって、レンダリングされた音場をより自然でより快適にするのに役立つことができる。注入ノイズおよびその分散は、拡散度の関数とすることができる。

【0050】

標準的なＤｉｒＡＣオーディオシーン解析を使用して、モデルの方向の精度および有意性に対する拡散度の影響を調べることができる。平面波成分と拡散場成分との間に直接拡散エネルギー比（ＤＤＲ）が与えられる人工Ｂフォーマット信号を使用して、得られたＤｉｒＡＣパラメータおよびその精度を解析することができる。
理論的な拡散度

は、直接拡散エネルギー比（ＤＤＲ）

の関数であり、以下のように表される：

ここで、

および

は、それぞれ、平面波および拡散度であり、

は、ｄＢスケールで表されたＤＤＲである。

【0051】

もちろん、議論された３つの方策のうちの１つまたは組み合わせが使用されることができる。使用される方策は、受信された空間オーディオパラメータセットに応じてプロセッサ５４によって選択される。このために、実施形態によれば、オーディオパラメータが解析されて、オーディオシーンの特性にしたがって、より具体的には拡散度にしたがって異なる方策の適用を可能にすることができる。

【0052】

これは、実施形態によれば、プロセッサ５４が、以前に良好に受信された指向性情報およびディザリングを使用することによって空間パラメトリックオーディオのパケット損失隠蔽を提供するように構成されることを意味する。さらなる実施形態によれば、ディザリングは、オーディオシーンの指向性成分と無指向性成分との間の推定された拡散度またはエネルギー比の関数である。実施形態によれば、ディザリングは、送信されたダウンミックス信号の測定された音調性の関数である。したがって、解析器は、推定された拡散度、エネルギー比および／または音調性に基づいて解析を実行する。

【0053】

図３ａおよび図３ｂでは、測定された拡散度は、０度の方位角および０度の仰角に配置された独立したピンクノイズによって、球および平面波上に均等に配置されたＮ＝４６６の無相関ピンクノイズを有する拡散場をシミュレートすることによって、ＤＤＲの関数で与えられる。ＤｉｒＡＣ解析で測定された拡散度は、観測窓の長さＷが十分に大きい場合、理論的な拡散度の良好な推定値であることが確認された。これは、拡散度が長期特性を有することを意味し、これは、パケット損失の場合のパラメータが、以前に良好に受信された値を単に保持することによって良好に予測されることができることを確認する。

【0054】

一方、方向パラメータの推定はまた、図４に報告されている真の拡散度の関数で評価されることもできる。推定された平面波位置の仰角および方位角は、拡散度とともに標準偏差が大きくなるグランドトゥルース位置（０度方位角および０度仰角）からずれていることが示されることができる。拡散度が１の場合、標準偏差は、０度から３６０度の間で定義された方位角に対して約９０度であり、均一な分布の完全にランダムな角度に対応する。換言すれば、方位角は意味をなさない。仰角についても同様の観察が行われることができる。一般に、推定される方向の精度およびその有意性は、拡散度とともに低下している。そして、ＤｉｒＡＣ内の方向は、経時的に変動し、拡散度の分散関数を用いてその期待値から逸脱すると予想される。この自然な分散は、ＤｉｒＡＣモデルの一部であり、オーディオシーンの忠実な再生に不可欠である。実際に、拡散度が高くてもＤｉｒＡＣの方向成分を一定の方向にレンダリングすることは、実際にはより広く知覚されるべき点源を生成する。

【0055】

上記で明らかにされた理由のために、本発明者らは、ホールドストラテジの上部の方向にディザリングを適用することを提案する。ディザリングの振幅は、拡散度の関数とされ、例えば、図４に描かれたモデルにしたがうことができる。標準偏差が以下のように表される、仰角および仰角測定角度の２つのモデルが導出されることができる：

ＤｉｒＡＣパラメータ隠蔽の擬似コードは、以下のようにすることができる：
for k in frame_start:frame_end
{
if(bad_frame_indicator[k])
{
for band in band_start:band_end
{
diff_index = diffuseness_index[k-1][band];
diffuseness[k][band] = unquantize_diffuseness(diff_index);

azimuth_index[k][b] = azimuth_index[k-1][b];
azimuth[k][b] = unquantize_azimuth(azimuth_index[k][b])
azimuth[k][b] = azimuth[k][b] + random() * dithering_azi_scale[diff_index]

elevation_index[k][b] = elevation_index[k-1][b];
elevation[k][b] = unquantize_elevation(elevation_index[k][b])

elevation[k][b] = elevation[k][b] + random() * dithering_ele_scale[diff_index]
}
else
{
for band in band_start:band_end
{
diffuseness_index[k][b] = read_diffusess_index()
azimuth_index[k][b] = read_azimuth _index()
elevation_index[k][b] = read_elevation_index()

diffuseness[k][b] = unquantize_diffuseness(diffuseness_index[k][b])
azimuth[k][b] = unquantize_azimuth(azimuth_index[k][b])
elevation[k][b] = unquantize_elevation(elevation_index[k][b])
}

output_frame[k] = Dirac_synthesis(diffuseness[k][b], azimuth[k][b], elevation[k][b])
}

【0056】

ここで、ｂａｄ＿ｆｒａｍｅ＿ｉｎｄｉｃａｔｏｒ［ｋ］は、インデックスｋのフレームが良好に受信されたか否かを示すフラグである。良好なフレームの場合、ＤｉｒＡＣパラメータは、所与の周波数範囲に対応する各パラメータ帯域について読み取られ、復号され、量子化されない。不良フレームの場合、拡散度は、同じパラメータ帯域において最後の良好に受信されたフレームから直接保持されるが、方位角および仰角は、拡散度インデックスの係数関数によってスケーリングされたランダム値の注入によって最後の良好に受信されたインデックスを逆量子化することから導出される。関数ｒａｎｄｏｍ（）は、所与の分布にしたがってランダム値を出力する。ランダムプロセスは、例えば、平均および単位分散が０の標準正規分布にしたがうことができる。あるいは、例えば以下の擬似コードを使用して、－１と１との間の一様分布にしたがうか、または三角形確率密度にしたがうことができる。
random()
{
rand_val = uniform_random();
if( rand_val <= 0.0f )
{
return 0.5f * sqrt(rand_val + 1.0f) - 0.5f;
}
else
{
return 0.5f - 0.5f * sqrt(1.0f - rand_val);
}
}

【0057】

ディザリングスケールは、同じパラメータ帯域で最後の良好に受信されたフレームから継承された拡散度インデックスの関数であり、図４から推定されたモデルから導出されることができる。例えば、拡散度が８個のインデックスで符号化される場合、それらは、以下の表に対応することができる：
dithering_azi_scale[8] = {
6.716062e-01f, 1.011837e+00f, 1.799065e+00f, 2.824915e+00f, 4.800879e+00f, 9.206031e+00f, 1.469832e+01f, 2.566224e+01f
};

dithering_ele_scale[8] = {
6.716062e-01f, 1.011804e+00f, 1.796875e+00f, 2.804382e+00f, 4.623130e+00f, 7.802667e+00f, 1.045446e+01f, 1.379538e+01f
};

【0058】

さらに、ディザリング強度はまた、ダウンミックス信号の性質に応じて操作されることもできる。実際に、非常に音調性の高い信号は、非音調信号としてより局所的な音源として知覚される傾向がある。したがって、ディザリングは、次に、音調アイテムのディザリング効果を減少させることによって、伝達されたダウンミックスの音調性の機能において調整されることができる。音調性は、例えば、長期予測利得を計算することによって時間領域で、またはスペクトル平坦性を測定することによって周波数領域で測定されることができる。

【0059】

図６ａおよび図６ｂに関して、ＤｉｒＡＣ符号化オーディオシーンを復号するための方法（図６ａ、方法２００を参照されたい）およびＤｉｒＡＣ符号化オーディオシーンのためのデコーダ１７（図６ｂを参照されたい）を参照するさらなる実施形態について説明する。

【0060】

図６ａは、方法１００のステップ１１０、１２０および１３０と、復号の追加のステップ２１０とを含む新しい方法２００を示している。復号するステップは、空間オーディオパラメータの第１のセットおよび空間オーディオパラメータの第２のセットの使用によるダウンミックス（図示せず）を含むＤｉｒＡＣ符号化オーディオシーンの復号を可能にし、ここで、置き換えられた第２のセットが使用され、ステップ１３０によって出力される。この概念は、図６ｂによって示される装置１７によって使用される。図６ｂは、空間オーディオパラメータ１５の損失隠蔽のためのプロセッサとＤｉｒＡＣデコーダ７２とを備えるデコーダ７０を示している。ＤｉｒＡＣデコーダ７２、またはより詳細にはＤｉｒＡＣデコーダ７２のプロセッサは、ダウンミックス信号および空間オーディオパラメータのセットを、例えばインターフェース５２から直接受信し、および／または上述した手法にしたがってプロセッサ５２によって処理される。

【0061】

いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。方法ステップの一部または全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されることができる。いくつかの実施形態では、いくつかの１つ以上の最も重要な方法ステップが、そのような装置によって実行されることができる。

【0062】

本発明の符号化された音声信号は、デジタル記憶媒体に記憶されることができるか、または無線伝送媒体などの伝送媒体またはインターネットなどの有線伝送媒体上で送信されることができる。

【0063】

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。したがって、デジタル記憶媒体は、コンピュータ可読とすることができる。

【0064】

本発明にかかるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。

【0065】

一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。
他の実施形態は、機械可読キャリアに記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを備える。

【0066】

換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0067】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをその上に記録して含むデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

【0068】

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

【0069】

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。
さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。

【0070】

本発明にかかるさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイル装置、メモリ装置などとすることができる。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

【0071】

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。

【0072】

上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、他の当業者にとって明らかであることが理解される。したがって、本明細書の実施形態の記載および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図される。

【0073】

参考文献
［１］Ｖ．Ｐｕｌｋｋｉ，Ｍ－Ｖ．Ｌａｉｔｉｎｅｎ，Ｊ．Ｖｉｌｋａｍｏ，Ｊ．Ａｈｏｎｅｎ，Ｔ．Ｌｏｋｋｉ，ａｎｄＴ．Ｐｉｈｌａｊａｍａｅｋｉ， “Ｄｉｒｅｃｔｉｏｎａｌａｕｄｉｏｃｏｄｉｎｇ－ｐｅｒｃｅｐｔｉｏｎ－ｂａｓｅｄｒｅｐｒｏｄｕｃｔｉｏｎｏｆｓｐａｔｉａｌｓｏｕｎｄ”，ＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎｔｈｅＰｒｉｎｃｉｐｌｅｓａｎｄＡｐｐｌｉｃａｔｉｏｎｏｎＳｐａｔｉａｌＨｅａｒｉｎｇ，Ｎｏｖ．２００９，Ｚａｏ；Ｍｉｙａｇｉ，Ｊａｐａｎ．

【0074】

［２］Ｖ．Ｐｕｌｋｋｉ， “Ｖｉｒｔｕａｌｓｏｕｒｃｅｐｏｓｉｔｉｏｎｉｎｇｕｓｉｎｇｖｅｃｔｏｒｂａｓｅａｍｐｌｉｔｕｄｅｐａｎｎｉｎｇ”，Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，４５（６）：４５６－４６６，Ｊｕｎｅ１９９７．

【0075】

［３］Ｊ．ＡｈｏｎｅｎａｎｄＶ．Ｐｕｌｋｋｉ， “Ｄｉｆｆｕｓｅｎｅｓｓｅｓｔｉｍａｔｉｏｎｕｓｉｎｇｔｅｍｐｏｒａｌｖａｒｉａｔｉｏｎｏｆｉｎｔｅｎｓｉｔｙｖｅｃｔｏｒｓ”，ｉｎＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｃａｔｉｏｎｓｏｆＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇｔｏＡｕｄｉｏａｎｄＡｃｏｕｓｔｉｃｓＷＡＳＰＡＡ，ＭｏｈｏｎｋＭｏｕｎｔａｉｎＨｏｕｓｅ，ＮｅｗＰａｌｔｚ，２００９．

【0076】

［４］Ｔ．Ｈｉｒｖｏｎｅｎ，Ｊ．Ａｈｏｎｅｎ，ａｎｄＶ．Ｐｕｌｋｋｉ， “ＰｅｒｃｅｐｔｕａｌｃｏｍｐｒｅｓｓｉｏｎｍｅｔｈｏｄｓｆｏｒｍｅｔａｄａｔａｉｎＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇａｐｐｌｉｅｄｔｏａｕｄｉｏｖｉｓｕａｌｔｅｌｅｃｏｎｆｅｒｅｎｃｅ”，ＡＥＳ１２６ｔｈＣｏｎｖｅｎｔｉｏｎ２００９，Ｍａｙ７－１０，Ｍｕｎｉｃｈ，Ｇｅｒｍａｎｙ．

【0077】

［５］Ａ．Ｐｏｌｉｔｉｓ，Ｊ．ＶｉｌｋａｍｏａｎｄＶ．Ｐｕｌｋｋｉ， “Ｓｅｃｔｏｒ－ＢａｓｅｄＰａｒａｍｅｔｒｉｃＳｏｕｎｄＦｉｅｌｄＲｅｐｒｏｄｕｃｔｉｏｎｉｎｔｈｅＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃＤｏｍａｉｎ，“ ｉｎＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．９，ｎｏ．５，ｐｐ．８５２－８６６，Ａｕｇ．２０１５．

【図1a】