特許5956994 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ディーティーエス・インコーポレイテッドの特許一覧

特許5956994拡散音の空間的オーディオの符号化及び再生

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
5B
5C
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5956994

(24)【登録日】2016年6月24日

(45)【発行日】2016年7月27日

(54)【発明の名称】拡散音の空間的オーディオの符号化及び再生

(51)【国際特許分類】

H04R 3/00 20060101AFI20160714BHJP

H04S 5/02 20060101ALI20160714BHJP

G10L 19/00 20130101ALI20160714BHJP

【ＦＩ】

H04R3/00 310

H04S5/02 B

G10L19/00 330B

【請求項の数】5

【全頁数】33

(21)【出願番号】特願2013-528298(P2013-528298)

(86)(22)【出願日】2011年9月8日

(65)【公表番号】特表2013-541275(P2013-541275A)

(43)【公表日】2013年11月7日

(86)【国際出願番号】US2011050885

(87)【国際公開番号】WO2012033950

(87)【国際公開日】20120315

【審査請求日】2014年8月19日

(31)【優先権主張番号】61/380,975

(32)【優先日】2010年9月8日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】503206684

【氏名又は名称】ディーティーエス・インコーポレイテッド

【氏名又は名称原語表記】ＤＴＳ，Ｉｎｃ．

(74)【代理人】

【識別番号】100092093

【弁理士】

【氏名又は名称】辻居幸一

(74)【代理人】

【識別番号】100082005

【弁理士】

【氏名又は名称】熊倉禎男

(74)【代理人】

【識別番号】100067013

【弁理士】

【氏名又は名称】大塚文昭

(74)【代理人】

【識別番号】100086771

【弁理士】

【氏名又は名称】西島孝喜

(74)【代理人】

【識別番号】100109070

【弁理士】

【氏名又は名称】須田洋之

(74)【代理人】

【識別番号】100109335

【弁理士】

【氏名又は名称】上杉浩

(74)【代理人】

【識別番号】100120525

【弁理士】

【氏名又は名称】近藤直樹

(72)【発明者】

【氏名】ジョットジャン−マルク

(72)【発明者】

【氏名】ジョンストンジェームズディー

(72)【発明者】

【氏名】ヘイスティングススティーヴンアール

【審査官】武田裕司

(56)【参考文献】

【文献】特開２００５−２２９６１２（ＪＰ，Ａ）

【文献】特開昭６３−２５４４９５（ＪＰ，Ａ）

【文献】特開２００１−０６７０８９（ＪＰ，Ａ）

【文献】特表２００８−５３６１８３（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｈ０４Ｒ３／００

Ｇ１０Ｌ１９／００

Ｈ０４Ｓ５／０２

(57)【特許請求の範囲】

【請求項1】

音声を表す符号化デジタルオーディオ信号を調節するための方法であって、
聴取環境での前記オーディオ信号データの所望のレンダリングをパラメータで表す符号化メタデータを受信する段階を含み、
前記メタデータが、少なくとも１つのオーディオチャンネルに知覚的に拡散されたオーディオ効果を構成するように復号化することができる、少なくとも１つのパラメータを含み、
前記方法は更に、
前記デジタルオーディオ信号を、前記パラメータに応じて構成された前記知覚的に拡散されたオーディオ効果を用いて処理して、処理済みデジタルオーディオ信号を生成する段階を含み、前記処理は、
少なくとも２つのオーディオチャンネルを少なくとも１つのユーティリティ拡散器を使用して非相関にする段階と、
前記オーディオ信号を、時間領域又は周波数領域の全域通過フィルタを用いてフィルタリングする段階と、
前記メタデータを復号化して、所望の拡散密度を表す少なくとも１つの第２のパラメータを得る段階と、を更に含み、
前記拡散音チャンネルは、前記第２のパラメータに応答して前記拡散密度を近似するように構成される、方法。

【請求項2】

前記ユーティリティ拡散器は、少なくとも１つの短減衰リバーブレータを含む、請求項１に記載の方法。

【請求項3】

前記短減衰リバーブレータは、経時的減衰の尺度（Ｔ６０）が、０．５秒又はそれ以下であるように構成される、請求項２に記載の方法。

【請求項4】

前記短減衰リバーブレータは、Ｔ６０が、周波数全域で実質的に一定であるように構成される、請求項３に記載の方法。

【請求項5】

前記デジタルオーディオ信号を処理する段階は、少なくとも２つの出力チャンネルに成分を有する処理済みオーディオ信号を生成する段階を含み、
前記少なくとも２つの出力チャンネルは、少なくとも１つの直接音チャンネルと少なくとも１つの拡散音チャンネルとを含み、
前記拡散音チャンネルは、前記オーディオ信号から周波数領域疑似残響フィルタを用いて処理することによって得られる、請求項２に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

（関連出願の相互参照）
本出願は、２０１０年９月８日出願の米国仮出願第６１／３８０，９７５号の優先権を主張する。

【0002】

（技術分野）
本発明は、一般的に高忠実性オーディオ再生に関し、より具体的には、デジタルオーディオ、特に符号化又は圧縮された多チャンネルオーディオ信号の生成、送信、記録、及び再生に関する。

【背景技術】

【0003】

デジタルオーディオの記録、送信、及び再生は、オーディオ情報及び／又はビデオ情報を記録又はリスナに送るために標準精細ＤＶＤ、高精細光媒体（例えば「ブルーレイディスク」）又は磁気ストレージ（ハードディスク）等の幾つかの媒体を利用されている。また、無線、マイクロ波、光ファイバ、又はケーブルネットワーク等の一過性の送信チャンネルは、デジタルオーディオを送信するために用いられる。オーディオ及びビデオの送信において利用可能な帯域幅の増大により、様々な多チャンネル圧縮オーディオフォーマットが広くの採用されることになった。１つのかかる一般的なフォーマットは、ＤＴＳ，Ｉｎｃ．に譲渡された米国特許第５，９７４，３８０号、米国特許第５，９７８，７６２号、及び米国特許第６，４８７，５３５号に説明されている（「ＤＴＳ」サラウンド音響という商標の下で広く利用可能である）。

【0004】

家庭での視聴に向けて消費者に配信されるオーディオコンテンツの多くは、劇場公開される長編映画に対応する。一般的にサウンドトラックは、かなり大きな劇場環境の中での上映に向けて映像とミックスされる。一般的にこのサウンドトラックは、リスナ（劇場内で着席している）が、１つ又はそれ以上のスピーカには近いが、他のスピーカからは遠い可能性があると仮定する。一般的に会話は、中央前方のチャンネルに制限される。左／右及び周辺のイメージングは、仮定される座席配列と劇場のサイズとの両方によって制約される。要するに劇場サウンドトラックは、大きい劇場内での再生に最適なミックスで構成される。

【0005】

一方、家庭のリスナは、一般的に、説得力のある空間的音響イメージをより明確に与えるように構成された高品質のサラウンド音響スピーカを備える小さい部屋の中に着席する。ホームシアターは小型で残響時間は短い。家庭での聴取と映画館での聴取とに向けて異なるミックスを提供することは可能ではあるが殆ど行われない（おそらくは経済性の理由から）。従来のコンテンツでは、異なるミックスを提供することは、元のマルチトラック「ステム（ｓｔｅｍ）」（元のミックスされていない音響ファイル）を利用できないことから（又は権利を得るのが困難であることから）一般的に可能ではない。大きい部屋及び小さい部屋の両方に対して映像とのミックスを行う音響技師は妥協する必要がある。残響音又は拡散音のサウンドトラック内への導入は、様々な再生空間の残響特性の差異によって特に問題である。

【0006】

この状況は、ホームシアターリスナにとって、高価なサラウンド音響システムに出資したリスナにとってさえも、最適とはいえない音響体験しかできない。

【0007】

Ｂａｕｍｇａｒｔｅ他は、米国特許第７，５８３，８０５号において、パラメトリック符号化におけるチャンネル間相関キューに基づくオーディオ信号のステレオ及びマルチチャンネル合成のためのシステムを提案している。Ｂａｕｍｇａｒｔｅ他のシステムは、送信される組み合わせ（和）信号から生じる拡散音を発生させる。Ｂａｕｍｇａｒｔｅ他のシステムは、明らかに遠隔会議等の低ビットレート用途を意図したものである。前述の特許は、疑似拡散信号を周波数領域表現で生成するために、時間−周波数変換手法、フィルタ、及び残響を使用することを開示する。開示された手法は、ミックス技術者に芸術的な制御を与えるものではなく、記録中に測定されるチャンネル間コヒーレンスに基づいて、限られた範囲の疑似残響信号を合成することにしか適していない。開示されている「拡散」信号は、人間の耳が必然的に弁別することになる適切な種類の「拡散」又は「非相関」ではなく、オーディオ信号の解析的測定に基づく。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】米国特許第５，９７４，３８０号公報

【特許文献2】米国特許第５，９７８，７６２号公報

【特許文献3】米国特許第６，４８７，５３５号公報

【特許文献4】米国特許第７，５８３，８０５号公報

【特許文献5】米国特許出願ＵＳ第２００９／００６０２３６Ａ１号公報

【非特許文献】

【0009】

【非特許文献1】ＢｒｉａｎＣ．Ｊ．Ｍｏｏｒｅ著「ＴｈｅＰｓｙｃｈｏｌｏｇｙｏｆＨｅａｒｉｎｇ（聴取の心理学）」

【非特許文献2】Ｆａｌｌｅｒ，Ｃ．著「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ（パラメトリック多チャンネルオーディオ符号化：コヒーレンスキューの合成）」、ＩＥＥＥＴｒａｎｓ．ｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（オーディオ、音声、及び言語の処理に関するＩＥＥＥ会報）、第１４巻第１号、２００６年１月

【非特許文献3】Ｋｅｎｄａｌｌ，Ｇ．著「Ｔｈｅｄｅｃｏｒｒｅｌａｔｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓａｎｄｉｔｓｉｍｐａｃｔｏｎｓｐａｔｉａｌｉｍａｇｅｒｙ（オーディオ信号の非相関及び空間イメージングに対するその影響）」、ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ（コンピュータ音楽誌）、第１９巻第４号、１９９５年冬

【非特許文献4】Ｂｏｕｅｒｉ，Ｍ．及びＫｙｒｉａｋａｋｉｓ，Ｃ．著「Ａｕｄｉｏｓｉｇｎａｌｄｅｃｏｒｒｅｌａｔｉｏｎｂａｓｅｄｏｎａｃｒｉｔｉｃａｌｂａｎｄａｐｐｒｏａｃｈ（臨界帯域手法に基づくオーディオ信号非相関）」、１１７ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ（第１１７回ＡＥＳ会議）、２００４年１０月

【非特許文献5】Ｊｏｔ，Ｊ．−Ｍ．及びＣｈａｉｇｎｅ，Ａ．著「Ｄｉｇｉｔａｌｄｅｌａｙｎｅｔｗｏｒｋｓｆｏｒｄｅｓｉｇｎｉｎｇａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｏｒｓ（疑似反響器を設計するためのデジタル遅延ネットワーク）」、９０ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ（第９０回ＡＥＳ会議）、１９９１年２月

【発明の概要】

【発明が解決しようとする課題】

【0010】

Ｂａｕｍｇａｒｔｅの特許に開示されている残響手法は比較的計算要求が厳しいので、実用的な実装には非効率的である。

【課題を解決するための手段】

【0011】

本発明によると、コンテンツプロデューサによって制御され、拡散の望ましい度合い及び品質を表す時変メタデータとの同期関係で「ドライ」オーディオトラック又は「ステム」を符号化、送信、又は記録することによって多チャンネルオーディオを処理する。オーディオトラックは、拡散パラメータ並びに好ましくは更にミックスパラメータ及び遅延パラメータを表す同期されたメタデータに関連して圧縮及び送信される。拡散メタデータからのオーディオステムの分離は、局所再生環境の特性を考慮した受信器での再生のカスタマイズを容易にする。

【0012】

本発明の第１の態様では、音声を表す符号化デジタルオーディオ信号を調節するための方法が提供される。本方法は、聴取環境でのオーディオ信号データの所望のレンダリングをパラメータで表す符号化メタデータを受信する段階を含む。メタデータは、少なくとも１つのオーディオチャンネルに知覚的に拡散されたオーディオ効果を構成するように復号化できる少なくとも１つのパラメータを含む。本方法は、デジタルオーディオ信号を、パラメータに応じて構成された知覚的に拡散されたオーディオ効果を用いて処理して、処理済みデジタルオーディオ信号を生成する段階を含む。

【0013】

別の実施形態では、デジタルオーディオ入力信号を送信又は記録するために調節する方法が提供される。本方法は、デジタルオーディオ信号を圧縮して、符号化デジタルオーディオ信号を生成する段階を含む。本方法は、ユーザ入力に応じて、所望の再生信号を生成するためにデジタルオーディオ信号の少なくとも１つのチャンネルに適用すべきユーザ選択可能な拡散特性を表すメタデータのセットを生成する段階に続く。本方法は、符号化デジタルオーディオ信号とメタデータのセットとを同期関係で多重化して、組み合わせた符号化信号を生成する段階で終了する。

【0014】

別の実施形態では、再生のためのデジタル化オーディオ信号を符号化及び再生するための方法が提供される。本方法は、デジタル化オーディオ信号を符号化して符号化オーディオ信号を生成する段階を含む。本方法は、ユーザ入力に応じて、符号化オーディオ信号と同期関係で時変レンダリングパラメータのセットを符号化する段階に続く。レンダリングパラメータは、可変の知覚的に拡散された効果のユーザ選択を表す。

【0015】

本発明の第２の態様では、デジタル表現オーディオデータが記録された記録済みデータ記憶媒体が提供される。記録済みデータ記憶媒体は、多チャンネルオーディオ信号を表しデータフレームへフォーマットされた圧縮オーディオデータと、圧縮オーディオデータとの同期関係を伝達するようにフォーマットされたユーザ選択の時変レンダリングパラメータのセットとを含む。レンダリングパラメータは、再生時に多チャンネルオーディオ信号を修正するために適用されることになる時変拡散効果のユーザ選択を表す。

【0016】

別の実施形態では、デジタルオーディオ信号と同期関係でレンダリングパラメータを受信するように構成されたパラメータ復号化モジュールを備える、デジタルオーディオ信号を調節するための構成可能オーディオ拡散プロセッサが提供される。拡散プロセッサの好ましい実施形態では、デジタルオーディオ信号を受信して、パラメータ復号化モジュールからの制御に応答するように構成可能なリバーブレータモジュールが構成される。リバーブレータモジュールは、パラメータ復号化モジュールからの制御に応答して時間減衰定数を変化させるように動的に再構成可能である。

【0017】

本発明の第３の態様では、符号化オーディオ信号を受信して、複製復号化オーディオ信号を生成する方法が提供される。符号化オーディオ信号は、多チャンネルオーディオ信号を表すオーディオデータと、オーディオデータとの同期関係を伝達するようにフォーマットされたユーザ選択の時変レンダリングパラメータのセットとを含む。本方法は、符号化オーディオ信号及びレンダリングパラメータを受信する段階を含む。本方法は、符号化オーディオ信号を復号化して複製オーディオ信号を生成する段階に続く。本方法は、レンダリングパラメータに応答してオーディオ拡散プロセッサを構成する段階を含む。本方法は、オーディオ拡散プロセッサを用いて複製オーディオ信号を処理し、知覚的に拡散された複製オーディオ信号を生成する段階で終了する。

【0018】

別の実施形態では、多チャンネルデジタルオーディオ信号から多チャンネルオーディオを再生する方法が提供される。本方法は、多チャンネルオーディオ信号の第１のチャンネルを知覚的に拡散された方式で再生する段階を含む。本方法は、少なくとも１つの更なるチャンネルを知覚的に直接的な方式で再生する段階で終了する。第１のチャンネルは、再生の前にデジタル信号処理によって知覚的に拡散された効果を用いて調節することができる。第１のチャンネルは、明らかな音源を拡散させる音響心理効果を生成するのに十分に複雑な方式で変化する周波数依存の遅延を導入することによって調節することができる。

【0019】

当業者には、本発明の前述の及び他の特徴及び利点が以下の好ましい実施形態の詳細及び添付図面から明らかになろう。

【図面の簡単な説明】

【0020】

【図1】機能モジュールをブロックによって象徴的に表した、本発明の符号器の態様のシステムレベルの概略図（「ブロック図」）である。

【図2】機能モジュールを象徴的に表した、本発明の復号器態様のシステムレベルの概略図である。

【図3】本発明で使用する、オーディオ、制御、及びメタデータを圧縮するのに適するデータフォーマット表現である。

【図4】機能モジュールを象徴的に表した、本発明で用いるオーディオ拡散プロセッサの概略図である。

【図5】機能モジュールを象徴的に表した、図４の拡散エンジンの実施形態の概略図である。

【図5B】機能モジュールを象徴的に表した、図４の拡散エンジンの別の実施形態の概略図である。

【図5C】従来の水平ラウドスピーカレイアウトにおける５チャンネル用途拡散器によってリスナの耳で得られる両耳間位相差（単位ラジアン）対周波数（最大４００Ｈｚ）の例示的な音波プロットである。

【図6】機能モジュールを象徴的に表した、図５に含まれるリバーブレータモジュールの概略図である。

【図7】機能モジュールを象徴的に表した、図６のリバーブレータモジュールのサブモジュールを実装するのに適する全域通過フィルタの概略図である。

【図8】機能モジュールを象徴的に表した、図６のリバーブレータモジュールのサブモジュールを実装するのに適するフィードバックくし形フィルタの概略図である。

【図9】図５の２つのリバーブレータ（異なる特定のパラメータを有する）を比較する、単純化した実施例に関する正規化周波数の関数としての遅延グラフである。

【図10】本発明の復号器の態様での使用に適する、再生環境に関する、再生環境エンジンの概略図である。

【図11】幾つかの構成要素を象徴的に表した、図５の拡散エンジンで使用するための利得行列及び遅延行列を計算するのに有用な「仮想マイクロフォンアレイ」を示す図である。

【図12】機能モジュールを象徴的に表した、図４の環境エンジンのミックスエンジン・サブモジュールの概略図である。

【図13】本発明の符号器の態様による方法のフローチャートである。

【図14】本発明の復号器の態様による方法のフローチャートである。

【発明を実施するための形態】

【0021】

序論
本発明は、オーディオ信号、すなわち物理的な音声を表す信号の処理に関する。これらの信号は、デジタル電子信号によって表される。以下の説明では、概念を例示するためにアナログ波形で説明するが、本発明の一般的な実施形態は、デジタルバイト又はワードの時系列に関連して動作することになり、これらのバイト又はワードは、アナログ信号又は（最終的に）物理的な音声の離散近似を形成することを理解されたい。離散デジタル信号は、周期的にサンプリングされるオーディオ波形のデジタル表現に対応する。本技術分野で知られているように、波形は、注目する周波数において少なくともナイキストのサンプリング定理を満たすのに十分なレートでサンプリングする必要がある。例えば、一般的な実施形態では、約４４，１００サンプル／秒のサンプリングレートを用いることができる。或いは９６ｋｈｚ等のより高いオーバーサンプリングを用いることができる。量子化方式及びビット解像度は、本技術分野で公知の原理に従って特定の用途の要件を満たすように選択する必要がある。一般的に本発明の手法及び装置は、複数のチャンネルにおいて相互依存的に適用されることになる。例えば、本発明の手法及び装置は、「サラウンド」オーディオシステム（２つよりも多くのチャンネルを有する）に関連して用いることができる。

【0022】

本明細書で用いる「デジタルオーディオ信号」又は「オーディオ信号」は、数学的抽象概念だけを表わすのではなく、機械又は装置による検出が可能な物理媒体に具現化又は保持される情報を表す。この用語は、記録信号又は送信信号を含み、パルスコード変調（ＰＣＭ）を含むが、ＰＣＭには限定されない任意の符号化形態による送信を含むことを理解されたい。出力又は入力、又は実際には中間のオーディオ信号は、ＭＰＥＧ、ＡＴＲＡＣ、ＡＣ３、又は米国特許第５，９７４，３８０号、米国特許第５，９７８，７６２号、及び米国特許第６，４８７，５３５号に説明されているＤＴＳ，Ｉｎｃ．に所有権のある方法を含む任意の様々な公知の方法よって符号化又は圧縮することができる。当業者には明らかなように、特定の圧縮法又は符号化法に対応するには、ある程度の計算の修正が必要とされる場合がある。

【0023】

本明細書では、「エンジン」という用語をしばしば用いるが、例えば、「生成エンジン」、「環境エンジン」、及び「ミックスエンジン」に言及する。この用語は、説明される特定の機能を実行するようにプログラミング又は構成された、任意のプログラミング可能な又は構成された電子論理モジュール及び／又は演算信号処理モジュールのセットを意味する。例えば、「環境エンジン」は、本発明の１つの実施形態では、プログラムモジュールによって制御されて「環境エンジン」に帰する機能を実行するプログラミング可能マイクロプロセッサである。もしくは、本発明の範囲から逸脱することなく、任意の「エンジン」又はサブプロセスの実現において、現場プログラミング可能ゲートアレイ（ＦＰＧＡ）、プログラミング可能デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、又は他の等価な回路を用いることができる。

【0024】

また、当業者であれば、本発明の適切な実施形態は、唯一のマイクロプロセッサしか必要としないことを理解できるはずである（複数のプロセッサによる並列処理は性能を改善することになるが）。従って、図示して本明細書に説明する様々なモジュールは、プロセッサベースの実装に関連して考える場合に、手続き又は一連の動作を表すものと理解することができる。デジタル信号処理技術では、ミキシング、フィルタリング、及び他の操作は、オーディオデータ列に対して連続的に操作して実行することが公知である。従って、当業者であれば、特定のプロセッサプラットフォームに実装することができる様々なモジュールは、Ｃ又はＣ＋＋等の記号言語でプログラミングすることによって、どのように実装するかを理解できるはずである。

【0025】

本発明のシステム及び方法は、プロデューサ及び音響技師が、映画館及び家庭において良好に再生できる単一のミックスを作り出すことを可能にする。更に本方法は、ＤＴＳ５．１「デジタルサラウンド」フォーマット（上記に引用した）等の標準フォーマットで下位互換の映画ミックスを生成するために利用できる。本発明のシステムは、人間聴覚システム（ＨＡＳ）は、直接的な、すなわち知覚される音源に対応する方向から到達するものとして検出される音声と、拡散する、すなわちリスナの「回りの」、リスナを「取り巻く」、又は「包囲する」音声との間で区別をつける。例えば、リスナの片側又は片方でのみ拡散する音声を生成できることを理解することは重要である。この場合、直接と拡散との間の差は、音源方向を特定する能力に対する音声が到達する実質的な空間領域を特定する能力の差である。

【0026】

人間聴覚システムに関する直接音は、ある程度の両耳間時間遅延（ＩＴＤ）及び両耳間レベル差（ＩＬＤ）（いずれも周波数の関数である）でもって両方の耳に到達する音声であり、ＩＴＤ及びＩＬＤは、いくつかの臨界帯域の周波数範囲にわたって一貫した方向を示す（ＢｒｉａｎＣ．Ｊ．Ｍｏｏｒｅ著「ＴｈｅＰｓｙｃｈｏｌｏｇｙｏｆＨｅａｒｉｎｇ（聴取の心理学）」に説明されている）。逆に、拡散信号は、ＩＴＤ及びＩＬＤにおける周波数又は時間にわたって一貫性がほとんどなく、例えば、単一の方向から到達するものとは対照的に、回りにある残響の感覚に対応する状況の「混乱した」ＩＴＤ及びＩＬＤを有することになる。本発明に関連して用いる「拡散音」は、１）波形の前縁（低周波数における）と高周波数の波形包絡線とが、様々な周波数において耳に同時に到達しない、及び２）２つの耳の間の両耳間時間差（ＩＴＤ）が周波数と共に実質的に変化する、という条件の少なくとも一方、最も好ましくは両方が発生するように音響相互作用によって処理された、又は影響を受けた音声を意味する。本発明との関連において「拡散信号」又は「知覚的拡散信号」は、リスナに向けて再生される場合に拡散音の効果を作り出すように電子的処理又はデジタル処理されたオーディオ信号（通常は多チャンネルの）を意味する。

【0027】

知覚的拡散音では、到達時間及びＩＴＤにおける時間変化は、音源を拡散させる音響心理効果を引き起こすのに十分な、周波数に伴う複雑かつ不規則な変化を示す。

【0028】

本発明によれば、好ましくは、拡散信号は、下記に説明する簡単な残響法を用いることによって生成される（好ましくは、下記に同様に説明するミックス処理との組み合わせで）。信号処理だけによるか、又は信号処理と例えば「拡散スピーカ」又はスピーカセットのいずれかにの多放射スピーカシステムによる両耳での到達時間によって拡散音を生成する他の手法が存在する。

【0029】

本明細書で用いる「拡散」の概念は、化学拡散、前述の音響心理効果を生成しない非相関法、又は他の技術及び科学技術において生じる用語「拡散」の何らかの他の無関係な使用と混同されないようにされたい。

【0030】

本明細書で用いる「送信する」又は「チャンネル経由で送信する」は、電子的送信、光学的送信、衛星中継、有線又は無線の通信、インターネット又はＬＡＮ或いはＷＡＮ等のデータネットワークを介しての送信、磁気形態、光学形態、又は他の形態（ＤＶＤ、「ブルーレイ」、又は同様のものを含む）等の耐久媒体上の記録を含むが、これらに限定されない、異なる時間又は場所において発生する可能性がある再生のためにデータを転送、保存、又は記録する何らかの方法を意味する。この点に関して、転送、保管、又は中間記憶のための記録は、チャンネルを経由した送信の実例と考えることができる。

【0031】

本明細書で用いる「同期」又は「同期関係」は、各信号又は各部分信号の間の時間関係を維持又は示すデータ又は信号の構造化の何らかの方法を意味する。より具体的には、オーディオデータとメタデータとの間の同期関係は、両方共に時間的に変化する又は可変の信号であるメタデータとオーディオデータとの間の定義された時間同期性を維持又は示す何らかの方法を意味する。一部の例示的な同期法は、時間領域多重化（ＴＤＭＡ）、インターリービング、周波数領域多重化、タイムスタンプ付きパケット、複数インデックス付き同期可能データ部分ストリーム、同期又は非同期のプロトコル、ＩＰ又はＰＰＰのプロトコル、ブルーレイディスク協会又はＤＶＤ規格によって定義されたプロトコル、ＭＰ３、又は他の定義済みフォーマットを含む。

【0032】

本明細書で用いる「受信する」又は「受信器」は、送信信号又は記憶媒体からデータを受信する、読み取る、復号化する、又は取得する何らかの方法を意味するものとする。

【0033】

本明細書で用いる「デマルチプレクサ」又は「解凍器」は、オーディオ信号をレンダリングパラメータ等の他の符号化メタデータから解凍、逆多重化、又は分離するために用いることができる装置又は方法、例えば実行可能コンピュータプログラムモジュールを意味する。データ構造は、オーディオ信号データ及びレンダリングパラメータを表すために本発明で用いられるメタデータに加えて、他のヘッダーデータ及びメタデータを含むことができることに留意されたい。

【0034】

本明細書で用いる「レンダリングパラメータ」は、記録又は送信される音声を受信時又は再生の前に修正することが意図された方法を象徴的に又は略式に伝達するパラメータのセットを表す。この用語は、詳細には、再生時に多チャンネルオーディオ信号を修正するために、受信器において適用すべき１つ又はそれ以上の時変残響効果の大きさ及び品質のユーザ選択を表すパラメータセットを含む。また、好ましい実施形態では、この用語は、例えば、複数のオーディオチャンネルセットのミックスを制御するミックス係数セットとしての他のパラメータを含む。本明細書で用いる「受信器」又は「受信器／復号器」は、送信されたもの又は記録されたものに関わらず、デジタルオーディオ信号を受信、復号化、又は再生することができる何らかのデバイスを広義に意味する。この用語は、例えばオーディオ−ビデオ受信器等の何らかの限られた意味に限定されない。

【0035】

システム概要
図１は、本発明に従ってオーディオを符号化、送信、及び再生するためのシステムのシステムレベルの概要を示している。対象音声１０２が音響環境１０４内で広がり、多チャンネルマイクロフォン装置１０６によってデジタルオーディオ信号へ変換される。デジタル化された音声を生成するために、マイクロフォン、アナログ−デジタル変換器、増幅器、及び符号化装置のいくつかの公知の構成を利用できることを理解されたい。生の音声とは別に、又はそれに加えて、アナログ記録又はデジタル記録のオーディオデータ（「トラック」）は、記録デバイス１０７で示すように、入力オーディオデータを供給することができる。

【0036】

本発明を用いる好ましいモードでは、処理すべきオーディオソース（生の又は記録された）は、実質的に「ドライ」な形態で、言い換えると、比較的エコーのない環境で、又は著しい残響のない直接的な音声として取り込む必要がある。取り込まれたオーディオソースは、一般的に「ステム」と呼ぶ。場合によっては、幾つかのダイレクトステムは、説明するエンジンを用いて「生」で記録された他の信号と良好な空間的印象を与える場所でミックスしてもよい。しかしながら、このことは、映画館（大きい部屋）内で音声を良好にレンダリングする問題により、映画館では普通ではない。実質的にドライなステムを使用すると、技術者は、残響のある映画館（ミキサー制御を必要とすることなく映画館の建築物自体からある程度の残響が発生する）で使用するために、オーディオソーストラックのドライ特性を維持しながら、メタデータの形態で望ましい拡散効果又は残響効果を追加することができる。

【0037】

メタデータ生成エンジン１０８は、オーディオ信号入力（音声を表す生音源又は記録音源から得られる）を受信し、このオーディオ信号をミックス技術者１１０の制御の下で処理する。更に技術者１１０は、メタデータ生成エンジン１０８とインターフェース接続される入力デバイス１０９を介してメタデータ生成エンジン１０８と対話する。ユーザ入力によって、技術者は、オーディオ信号と同期関係で芸術的ユーザ選択を表すメタデータの作成を指示することができる。例えば、ミックス技術者１１０は、入力デバイス１０９を介して、同期された映画シーン変更に対して直接的な／拡散したオーディオ特性（メタデータによって表された）を適合させるように選択する。

【0038】

これに関連して「メタデータ」は、一連の符号化又は量子化されたパラメータによる抽象化された、パラメータ化された、又は略式の表現を表すと理解されたい。例えば、メタデータは、リバーブレータを受信器／復号器に設定できる残響パラメータ表現を含む。メタデータは、ミックス係数及びチャンネル間遅延パラメータ等の他のデータを含むこともできる。生成エンジン１０８によって生成されるメタデータは、増分又は時間的「フレーム」で時間変化することになり、フレームメタデータは、対応するオーディオデータの特定の時間間隔に関係する。

【0039】

時変オーディオデータストリームは、多チャンネル符号化装置１１２によって符号化又は圧縮されて、同じ時間に関係する対応するメタデータと同期関係で符号化オーディオデータを生成する。好ましくは、メタデータ及び符号化オーディオ信号データは、多チャンネルマルチプレクサ１１４によって組み合わせたデータフォーマットに多重化される。オーディオデータを符号化するために、多チャンネルオーディオ圧縮の任意の公知の方法を用いることができるが、特定の実施形態では、米国特許第５，９７４，３８０号、米国特許第５，９７８，７６２号、及び米国特許第６，４８７，５３５号に説明されている符号化法が好ましい（ＤＴＳ５．１オーディオ）。また、オーディオデータを符号化するために、無損失符号化又はスケーラブル符号化等の他の拡張機能及び改善方法を用いることができる。マルチプレクサは、メタデータと対応するオーディオデータとの間の同期関係を、構文をフレーム化すること又は任意の他の同期化データの追加によって維持する必要がある。

【0040】

生成エンジン１０８は、ユーザ入力に基づいて、動的オーディオ環境を表す符号化メタデータの時変ストリームを生成する点で、前述の従来の符号器とは異なる。この生成を実施する方法については、以下に図１４と関連して具体的に説明する。好ましくは、このように生成されたメタデータは、組み合わせたビットフォーマット又は「フレーム」に多重化又は圧縮され、データフレームの所定の「補足データ」フィールドに挿入され、下位互換性が与えられる。もしくは、メタデータは、主オーディオデータ転送ストリームと同期させるための何らかの手段を用いて別個に送信することができる。

【0041】

生成処理時の監視を可能にするために、生成エンジン１０８は監視復号器１１６とインターフェース接続され、監視復号器１１６は、オーディオストリームとメタデータとの組み合わせを逆多重化及び復号化して、スピーカ１２０において監視信号を再生する。好ましくは、監視スピーカ１２０は、標準の公知の構成（５チャンネルシステムにおけるＩＴＵ−ＲＢＳ７７５（１９９３）等）で構成する必要がある。標準的な又は一貫した構成を利用すると、ミックスが容易になり、実際の環境と標準又は公知の監視環境との間の比較に基づいて、再生を実際の聴取環境にカスタマイズすることができる。監視システム（１１６及び１２０）により、技術者は、メタデータ及び符号化オーディオの効果をリスナが知覚するのと同じように知覚できる（以下に受信器／復号器との関連で説明する）。聴覚フィードバックに基づいて、技術者は、所望の音響心理的効果を再生するためのより正確な選択を行うことができる。更にミックスアーティストは、「映画館」設定と「ホームシアター」設定との間で切り替えを行うことができので、両方を同時に制御することが可能になる。

【0042】

監視復号器１１６は、以下に図２との関連で詳細に説明する受信器／復号器と実質的に等しい。

【0043】

符号化の後に、オーディオデータストリームは、通信チャンネル１３０経由で送信されるか、又は何らかの媒体（例えば、ＤＶＤ又は「ブルーレイ」ディスク等の光ディスク）に記録される（同等に）。本開示の目的で、記録は送信の特殊な場合と考えることができることを理解されたい。データは、送信又は記録のために、例えば、巡回冗長検査（ＣＲＣ）又は他のエラー訂正を追加すること、更なるフォーマット情報及び同期情報を追加すること、物理的チャンネル符号化等によって様々な層内に更に符号化できることを理解されたい。これらの従来の送信形態は本発明の作動と干渉しない。

【0044】

次に図２を参照すると、送信の後に、オーディオデータ及びメタデータ（合わせて「ビットストリーム」）は受信され、メタデータは、デマルチプレクサ２３２で分離される（例えば、所定のフォーマットを有するデータフレームの単純な逆多重化又は解凍によって）。符号化オーディオデータは、オーディオ復号器２３６によって、オーディオ符号器が用いるものと相補的な手段によって復号化され、環境エンジン２４０の入力に送られる。メタデータは、メタデータ復号器／解凍器２３８によって解凍され、環境エンジン２４０の制御入力に送られる。環境エンジン２４０は、適宜、動的な時変方式で受信及び更新される受信メタデータによって制御される方法でオーディオデータを受信、調節、及び再ミックスする。修正又は「レンダリング」されたオーディオ信号は、続いて環境エンジンから出力され、聴取環境２４６でスピーカ２４４によって再生される（直接又は最終的に）。

【0045】

本システムにおいて、所望の芸術効果に応じて、複数のチャンネルは、一緒に又は個別に制御できることを理解されたい。

【0046】

以下に本発明のシステムを詳細に説明するが、前述の一般的なシステムレベル表現で言及した構成要素又はサブモジュールの構造及び機能が詳細に説明される。最初に符号器の形態の構成要素又はサブモジュールを説明し、次に、受信器／復号器の形態のものを説明する。

【0047】

メタデータ生成エンジン
本発明の符号化の態様によれば、デジタルオーディオデータは、送信又は記憶の前にメタデータ生成エンジン１０８によって処理される。

【0048】

メタデータ生成エンジン１０８は、専用ワークステーションとして、又は本発明によりオーディオ及びメタデータを処理するようにプログラミングされた汎用コンピュータに実装することができる。

【0049】

本発明のメタデータ生成エンジン１０８は、拡散音及び直接音のその後の合成（制御されたミックスにおける）を制御し、更に個々のステム又はミックス音の残響時間を制御し、更に合成すべき疑似音響反射の密度を制御し、更に環境エンジン（以下に説明する）のフィードバックくし形フィルタのカウント、長さ、及び利得、並びに全域通過フィルタのカウント、長さ、及び利得を制御し、更に知覚される信号の方向及び距離を制御するのに十分なメタデータを符号化する。符号化メタデータには比較的小さいデータ空間（例えば、毎秒数キロビット）を用いることが想定される。

【0050】

好ましい実施形態において、メタデータは、Ｎ個の入力チャンネルからＭ個の出力チャンネルへのマッピングを特徴づけて制御するのに十分なミックス係数及び遅延セットを更に含み、この場合、ＮとＭとは等しい必要はなく、いずれかが大きくてもよい。

【0051】

表１

【0052】

表１は、本発明により生成される例示的メタデータを示している。フィールドａ１は、「直接レンダリング」フラグを表し、これは、各チャンネルに対して、合成拡散の導入なしに再生すべきチャンネル（例えば、内在性の残響を伴って記録されるチャンネル）のための選択肢を規定するコードである。このフラグは、ミックス技術者が、受信器において拡散効果を用いて処理することを選択しないトラックを規定することによって、ユーザ制御される。例えば、実際のミックスの状況では、技術者は、「ドライ」（残響又は拡散がない）で記録されなかったチャンネル（トラック又は「ステム」）に遭遇する可能性がある。このステムでは、環境エンジンは、追加の拡散又は残響を導入することなく、このチャンネルをレンダリングすることができるように、「ドライ」で記録されていないことのフラグを立てる必要がある。本発明によると、直接又は拡散に関わらず、何らかの入力チャンネル（ステム）に、直接再生のためのタグ付けを行うことができる。この特徴は、システムの柔軟性を大幅に高める。従って、本発明のシステムは、直接入力チャンネルと拡散入力チャンネルとの間の分離（及び以下に説明する拡散出力チャンネルからの直接出力チャンネルの独立した分離）を可能にする。

【0053】

「Ｘ」と表すフィールドは、予め開発された標準リバーブセットと関係するエキサイトコードのために確保される。対応する標準リバーブセットは、復号器／再生機器に記憶され、以下に拡散エンジンに関連して説明するように、メモリから参照することによって取得することができる。

【0054】

フィールド「Ｔ６０」は、残響減衰パラメータを表す、又は象徴する。本技術分野では、記号「Ｔ６０」は、多くの場合、ある環境での残響音量が、直接音の音量よりも６０デシベル低いところまで低下するのに必要とされる時間を指すために用いられる。本明細書ではこの記号をそれに準じて用いるが、残響減衰時間の他の測定基準を代用できることを理解されたい。好ましくは、減衰は、次式と同様の形式で即座に合成することができるように、このパラメータを、減衰時間定数（減衰指数関数の指数部にあるもの）に関連付ける必要がある。
Ｅｘｐ（−ｋｔ）（式１）
ここでｋは減衰時間定数である。複数チャンネル、複数ステム、又は複数出力チャンネル、又は合成聴取空間の知覚幾何学的形状に対応して１つよりも多くのＴ６０パラメータを送信することができる。

【0055】

パラメータＡ３〜Ａｎは、（それぞれのチャンネルについて）拡散エンジンが、何回の疑似反射をオーディオチャンネルに適用することになるかを直接制御する単一又は複数の密度値（例えば、遅延の長さ又は遅延のサンプル数に対応する値）を表す。以下に拡散エンジンに関連して詳細に説明するように、より小さい密度値は、より複雑でない拡散を生成することになる。「低密度」はミュージカル設定では一般的に不適切であるが、例えば、映画の登場人物が管内を移動する場合、硬質の（金属、コンクリート、岩、等の）壁を有する部屋の中を移動する場合、又はリバーブが非常に「震える」特徴をもつ必要がある他の状況では非常に忠実性が高い。

【0056】

パラメータＢ１〜Ｂｎは、環境エンジン（以下に説明する）の残響モジュールの構成を完全に表す「リバーブ構成」値を表す。１つの実施形態では、これらの値は、残響エンジン（以下に詳細に説明する）の１つ又はそれ以上のフィードバックくし形フィルタにおける符号化されたカウント、段の長さ、及び利得、並びにＳｃｈｒｏｅｄｅｒ全域通過フィルタのカウント、長さ、及び利得を表す。パラメータを送信することに加えて、環境エンジンは、プロファイルによって編集された事前選択リバーブ値のデータベースを有することができる。この場合に、生成エンジンは、記憶されたプロファイルからのプロファイルを象徴的に表す、又は選択するメタデータを送信する。記憶されたプロファイルは、より低い柔軟性しか与えないが、メタデータに対する記号コードを節約することによってより大幅な圧縮を可能にする。

【0057】

残響に関するメタデータに加えて、生成エンジンは、復号器においてミックスエンジンを制御する更なるメタデータを生成して送信する必要がある。再度表１を参照すると、パラメータの更なるセットは、好ましくは、音源位置（仮定上のリスナ又は意図された合成「部屋」又は「空間」に対する）又はマイクロフォンの位置を示すパラメータ、再生されるチャンネル内の直接／拡散ミックス音を制御するために復号器によって用いられる距離パラメータのセットＤ１〜ＤＮ、復号器から異なる出力チャンネルへのオーディオの到達のタイミングを制御するために用いられる遅延値の組Ｌ１〜ＬＮ、及び異なる出力チャンネルのオーディオの振幅変化を制御するために復号器によって用いられる利得値のセットＧ１〜Ｇｎを含む。利得値は、オーディオミックス音の直接チャンネルと拡散チャンネルとで別個に規定することができる、又は単純なシナリオにおいて全体的に規定することができる。

【0058】

前記に規定したミックスメタデータは、本発明の全体的なシステムの入力及び出力の観点から理解できるように、一連の行列として好適に表される。本発明のシステムは、最も一般的なレベルにおいて、複数のＮ個の入力チャンネルをＭ個の出力チャンネルへマッピングし、この場合ＮとＭとは等しい必要はなく、いずれかが大きくてもよい。Ｎ個の入力チャンネルからＭ個の出力チャンネルへとマッピングするための利得値の一般的で完全なセットを規定するのに次元Ｎの行列Ｇで十分であることを容易に理解できるはずである。入力−出力遅延及び拡散パラメータを完全に規定するために、同様のＮ×Ｍの行列を好適に用いることができる。もしくは、頻繁に用いられるミックス行列を簡潔に表すために、コードシステムを用いることができる。その後、行列は、各コードが対応する行列に関係付けられている記憶されたコードブックを参照することによって、復号器において容易に復元することができる。

【0059】

図３は、時間領域内で多重化されたオーディオデータとメタデータとを送信するのに適する一般的なデータフォーマットを示している。具体的には、例示的なフォーマットは、ＤＴＳ，Ｉｎｃ．に譲渡された米国第５，９７４，３８０号に開示されているフォーマットの拡張版である。例示的なデータフレームは全体的に３００で示される。好ましくは、フレームヘッダーデータ３０２は、データフレームの始端の近くに置かれ、これに複数のオーディオサブフレーム３０４、３０６、３０８、及び３１０にフォーマットされたオーディオデータが続く。ヘッダー３０２又は随意選択的なデータフィールド３１２の１つ又はそれ以上のフラグは、データフレームの終端又はその近くに有効に含めることができるメタデータ拡張部３１４の存在及び長さを示すのに用いることができる。他のデータフォーマットを用いることができ、レガシーマテリアルは、本発明による復号器で再生することができるように、下位互換性を維持することが好ましい。古い復号器は、拡張フィールドのメタデータを無視するようにプログラミングされている。

【0060】

本発明によると、圧縮されたオーディオと符号化されたメタデータとは多重化又はさもなければ同期され、その後、マシン読み取り可能媒体上に記録されるか、又は通信チャンネルを経由して受信器／レコーダに送信される。

【0061】

メタデータ生成エンジンの使用
ユーザの観点からは、メタデータ生成エンジンを用いる方法は直接的であり、公知の工学的手法と同様と思われる。好ましくは、メタデータ生成エンジンは、グラフィックユーザインターフェース（ＧＵＩ）に合成オーディオ環境（「部屋」）表現を表示する。ＧＵＩは、様々なステム又は音源の位置、サイズ、及び拡散を、リスナの位置（例えば中央における）並びに部屋のサイズ及び形状の何らかの図形表現と共に象徴的に表示するようにプログラミングすることができる。ミックス技術者は、マウス又はキーボード入力デバイス１０９を用いて、グラフィックユーザインターフェース（ＧＵＩ）を参照しながら、記録されたステムから作動する時間間隔を選択する。例えば、技術者は、時間インデックスから時間間隔を選択することができる。続いて技術者は、選択した時間間隔の間のステムに関する合成音声環境を対話的に変更する情報を入力する。この入力に基づいて、メタデータ生成エンジンは、適切なメタデータを計算及びフォーマットして、適宜マルチプレクサ１１４に送り、対応するオーディオデータと組み合わせる。好ましくは、標準プリセットのセットは、頻繁に遭遇する音響環境に応じてＧＵＩから選択可能である。続いてメタデータを生成するために、プリセットに応じたパラメータは、事前記憶された参照テーブルから取得される。標準プリセットに加えて、好ましくは、熟練技術者は、カスタマイズされた疑似音響を生成するために手動制御を行うことができる。

【0062】

残響パラメータのユーザ選択は、図１と関連して説明した監視システムを使用して支援される。このようにして、監視システム１１６及び１２０からの音響フィードバックに基づいて所望の効果を作り出すように残響パラメータを選択できる。

【0063】

受信器／復号器
復号器の態様によれば、本発明は、デジタルオーディオ信号の受信、処理、調節、及び再生のための方法及び装置を含む。前述のように、復号器／再生機器システムは、デマルチプレクサ２３２、オーディオ復号器２３６、メタデータ復号器／解凍器２３８、環境エンジン２４０、スピーカ又は他の出力チャンネル２４４、聴取環境２４６を含み、好ましくは再生環境エンジンも含む。

【0064】

復号器／再生機器の機能ブロックは、図４に詳細に示す。環境エンジン２４０は、ミックスエンジン４０４と直列に拡散エンジン４０２を含む。以下の各々を詳細に説明する。環境エンジン２４０は、Ｎ及びＭが整数である（場合によっては等しくなく、この場合どちらが大きい整数であってもよい）場合に、Ｎ個の入力をＭ個の出力にマッピングする多次元方式で演算を行うことに留意されたい。

【0065】

メタデータ復号器／解凍器２３８は、入力として符号化、送信、又は記録されたデータを多重化フォーマットで受信し、メタデータとオーディオ信号データとに分離して出力する。オーディオ信号データは、復号器２３６に送信され（入力２３６ＩＮとして）、メタデータは、様々なフィールドへと分離され、環境エンジン２４０の制御入力に制御データとして出力される。残響パラメータは拡散エンジン４０２に送られ、ミックスパラメータ及び遅延パラメータはミックスエンジン４１６に送られる。

【0066】

復号器２３６は、符号化されたオーディオ信号データを受信し、データを符号化するために用いられものと相補的な方法及び装置によって復号化する。復号化されたオーディオは、適切なチャンネルへ体系化され、環境エンジン２４０に出力される。復号器２３６の出力は、ミックス操作及びフィルタリング操作を可能にする何らかの形式で表される。例えば、特定の用途に対して十分なビット深度を有するリニアＰＣＭを適切に用いることができる。

【0067】

拡散エンジン４０２は、復号器２３６からＮ個のチャンネルのデジタルオーディオ入力を受信し、ミックス操作及びフィルタリング操作を可能にする形式へと復号化される。本発明によるエンジン４０２は、デジタルフィルタの使用を可能にする時間領域表現で動作することが現時点では好ましい。本発明によると、無限インパルス応答（ＩＩＲ）は、現実の物理的な音響系（低域通過プラス位相分散特性）をより正確に疑似する分散を有することからＩＩＲトポロジーが特に好ましい。

【0068】

拡散エンジン
拡散エンジン４０２は、信号入力４０８において（Ｎ個のチャンネルの）信号入力信号を受信し、復号化され、逆多重化されたメタデータが制御入力４０６によって受信される。エンジン４０２は、入力信号４０８を、メタデータによって制御されるので、残響及び遅延を追加の方式で調節し、それによって直接及び拡散のオーディオデータが生成される（複数の処理済みチャンネルに）。本発明によると、拡散エンジンは、少なくとも１つの「拡散」チャンネル４１２を含む中間の処理済みチャンネル４１０を生成する。直接チャンネル４１４と拡散チャンネル４１２との両方を含む複数の処理済みチャンネル４１０は、続いてミックスエンジン４１６で、メタデータ復号器／解凍器２３８から受信されたミックスメタデータの制御の下でミックスされ、ミックスされたデジタルオーディオ出力４２０が生成される。具体的には、ミックスされたデジタルオーディオ出力４２０は、受信されたメタデータの制御の下でミックスされた直接オーディオと拡散オーディオとのミックスオーディオの複数のＭ個のチャンネルを与える。特定の新しい実施形態において、出力チャンネルは、専用「拡散」スピーカによる再生に適する１つ又はそれ以上の専用「拡散」チャンネルを含むことができる。

【0069】

次に図５を参照すると、拡散エンジン４０２の実施形態の更なる詳細を見ることができる。明瞭化のために、１つのオーディオチャンネルのみを示しており、多チャンネルオーディオシステムでは、複数のかかるチャンネルが並列分岐で用いられることを理解されたい。従って、Ｎ個のチャンネルのシステム（Ｎ個のステムを並列で処理することができる）では、図５のチャンネル経路が、実質的にＮ回複製されることになる。拡散エンジン４０２は、構成可能な修正されたＳｃｈｒｏｅｄｅｒ−Ｍｏｏｒｅｒリバーブレータとして説明することができる。従来のＳｃｈｒｏｅｄｅｒ−Ｍｏｏｒｅｒリバーブレータとは異なり、本発明のリバーブレータは、ＦＩＲ「初期反射」段階を排除し、フィードバック経路にＩＩＲフィルタを追加する。フィードバック経路のＩＩＲフィルタは、フィードバックに分散を作り出し、並びに変化するＴ６０を周波数の関数として作り出す。この特性は、知覚的に拡散された効果をもたらす。

【0070】

入力ノード５０２における入力オーディオチャンネルデータは、前置フィルタ５０４によって事前にフィルタリングされ、ＤＣ成分が、ＤＣ阻止段５０６によって除去される。前置フィルタ５０４は５タップＦＩＲ低域通過フィルタであり、自然の残響では見られない高周波エネルギーを除去する。ＤＣ阻止段５０６は、１５ヘルツ及びそれ以下のエネルギーを除去するＩＩＲ高域通過フィルタである。ＤＣ阻止段５０６は、ＤＣ成分が全くない入力を保証できない場合は必要である。ＤＣ阻止段５０６の出力は、残響モジュール（「リバーブセット」５０８）を経由して供給される。各チャンネルの出力は、スケール調整モジュール５２０で適切な「拡散利得」の乗算によってスケール調整される。拡散利得は、入力データに付随するメタデータ（表１及び関連する前記の説明を参照されたい）として受信される直接／拡散パラメータに基づいて計算される。続いて各拡散信号チャンネルは、対応する直接成分（入力５０２からフィードフォワードされ、直接利得モジュール５２４によってスケール調整された）と加算され（加算モジュール５２２において）、出力チャンネル５２６が生成される。

【0071】

別の実施形態では、拡散エンジンは、拡散利得及び拡散遅延並びに直接利得及び直接遅延は、拡散効果が適用される前に適用されるように構成される。次に図５ｂを参照すると、拡散エンジン４０２の別の実施形態の更なる詳細を見ることができる。明瞭化のために、１つのオーディオチャンネルのみを示しており、多チャンネルオーディオシステムでは、複数のかかるチャンネルが並列分岐で用いられることになることを理解されたい。従って、Ｎ個のチャンネルのシステム（Ｎ個のステムを並列で処理することができる）では、図５ｂのチャンネル経路が実質的にＮ回複製されることになる。拡散エンジンは、チャンネル毎に特定の拡散効果、拡散度、並びに直接利得及び直接遅延を用いる、構成可能なユーティリティ拡散器として説明することができる。

【0072】

オーディオ入力信号４０８は拡散エンジンに入力され、適切な直接利得及び直接遅延が、チャンネル毎に適宜適用される。その後、適切な拡散利得及び拡散遅延は、チャンネル毎にオーディオ入力信号に適用される。その後、オーディオ入力信号４０８は、チャンネル毎にオーディオ出力信号に拡散密度又は拡散効果を適用するためにユーティリティ拡散器のバンク（ＵＤ１〜ＵＤ３）（以下に詳しく説明する）によって処理される。拡散密度又は拡散効果は、１つ又はそれ以上のメタデータパラメータによって決定することができる。

【0073】

各オーディオチャンネル４０８において、各出力チャンネルに対して定義された遅延寄与及び利得寄与の異なるセットが存在する。これらの寄与は、直接利得及び直接遅延並びに拡散利得及び拡散遅延として定義される

【0074】

その後、全てのオーディオ入力チャンネルからの組み合わせ寄与は、ユーティリティ拡散器のバンクによって、各入力チャンネルに異なる拡散効果が適用されるように処理される。具体的には、これらの寄与は、各入力チャンネル／出力チャンネル接続の直接及び拡散の利得及び遅延を定義する。

【0075】

処理が行われると、拡散信号及び直接信号４１２、４１４は、ミックスエンジン４１６に出力される。

【0076】

残響モジュール
各残響モジュールは、リバーブセット（５０８〜５１４）を含む。本発明によれば、個々のリバーブセット（５０８〜５１４のうちの）は、好ましくは図６に示すように実装される。複数のチャンネルは実質的に並列処理されるが、説明の明瞭化のために１つのチャンネルのみを示している。入力ノード６０２における入力オーディオチャンネルデータは、直列の１つ又はそれ以上のＳｃｈｒｏｅｄｅｒ全域通過フィルタ６０４によって処理される。好ましい実施形態において、２つのフィルタが使用され、２つのフィルタ６０４及び６０６は直列に示されている。フィルタ処理された信号は、続いて複数の並列分岐へ分割される。各分岐は、フィードバックくし形フィルタ６０８から６２０によってフィルタリングされ、フィルタ処理されたくし形フィルタ出力は、加算ノード６２２において組み合わせられる。メタデータ復号器／解凍器２３８によって復号化されるＴ６０メタデータは、フィードバックくし形フィルタ６０８〜６２０における利得を計算するために用いられる。計算法に関する詳細は以下に示す。

【0077】

出力を拡散させるためには、ループが時間的に決して一致しないことを確実にすることが好都合なことから（これは、この一致時間の信号を強化することになる）、フィードバックくし形フィルタ６０８〜６２０の長さ（段Ｚ−ｎ）及びＳｃｈｒｏｅｄｅｒ全域通過フィルタ６０４及び６０６のサンプル遅延数は、好ましくは素数セットから選択される。素数サンプル遅延値の使用は、この一致及び強化を排除する。好ましい実施形態では、全域通過遅延の７つのセット及びコム遅延の７つの独立したセットが用いられ、デフォルトパラメータ（復号器に記憶された）から得ることができる最大４９個の非相関リバーブレータの組み合わせが与えられる。

【0078】

好ましい実施形態では、全域通過フィルタ６０４及び６０６は、特に各オーディオチャンネル６０４及び６０６で素数から慎重に選ばれた遅延を用い、６０４及び６０６での遅延の和が合計で１２０回のサンプル期間になるように遅延を用いる。（合計で１２０になる利用可能な幾つかの素数対が存在する）再生されるオーディオ信号においてＩＴＤの多様性を生成するために、好ましくは、異なるオーディオ信号チャンネルにおいて異なる素数対が用いられる。フィードバックくし形フィルタ６０８〜６２０の各々は、９００回及びそれ以上のサンプル期間の範囲、最も好ましくは９００〜３０００回のサンプル期間の範囲の遅延を用いる。以下に完全に説明するように、非常に多くの異なる素数の使用は、周波数の関数としての遅延の非常に複雑な特性を生じる。複雑な周波数対遅延特性は、再生時に周波数依存遅延が導入されることになる音声を生成することによって、知覚的に拡散された音声を生成する。従って、対応する再生音声では、オーディオ波形の前縁は、様々な周波数において耳に同時に到達せず、低い周波数は、様々な周波数において耳に同時に到達しない。

【0079】

拡散音場の生成
拡散場では、音声が到来した方向を識別することは不可能である。

【0080】

一般的に、拡散音場の典型的な実施例は、部屋の中の残響音声である。拡散の知覚は、残響しない（例えば、拍手、雨、風騒音、又はぶんぶん飛んでいる虫の大群に囲まれている）音場で体験することもできる。

【0081】

モノラル記録は、残響の感覚（すなわち音声減衰が時間的に延長される感覚）を取り込むことができる。しかしながら、残響音場の拡散の感覚を再生する段階は、かかるモノラル記録を、ユーティリティ拡散器を用いて、又はより一般的には、再生音声に対して拡散を与えるように設計された電気音響再生を用いて処理する段階を必要とすることになる。

【0082】

ホームシアターにおける拡散音の再生は、幾つかの手法で実現することができる。１つの手法は、拡散感覚を作り出すスピーカアレイ又はラウドスピーカアレイを実際に構築することである。この構築が実行不可能である場合には、拡散放射パターンを生み出すサウンドバー様の装置を作成することもできる。最後に、これらの全てが利用不能であり、標準の多チャンネルラウドスピーカ再生システムを介してのレンダリングが必要とされる場合には、いずれか１つの到達のコヒーレンスを、拡散感覚を体験することができる程度まで妨害することになる干渉を直接経路の間に作り出すために、ユーティリティ拡散器を用いることができる。

【0083】

ユーティリティ拡散器は、ラウドスピーカ又はヘッドフォンに対して空間音声拡散の感覚をもたらすことが意図されたオーディオ処理モジュールである。このことは、ラウドスピーカチャンネル信号の間のコヒーレンスを一般的に非相関にする又は破壊する様々なオーディオ処理アルゴリズムを用いることによって実現することができる。

【0084】

ユーティリティ拡散器を実装する１つの方法は、元々、多チャンネル疑似残響のために設計されたアルゴリズムを用い、このアルゴリズムを、単一の入力チャンネル又は幾つかの相関チャンネルから幾つかの無相関／非コヒーレントチャンネルを出力するように構成する（図６及び付随テキストに示すように）段階を含む。かかるアルゴリズムは、顕著な残響効果を生成しないユーティリティ拡散器を得るように修正することができる。

【0085】

ユーティリティ拡散器を実装する第２の方法は、元々、モノラルオーディオ信号から空間的に拡張された音源（点音源とは対照的に）を疑似するように設計されたアルゴリズムを用いる段階を含む。かかるアルゴリズムは、包囲音を疑似するように修正することができる（残響の感覚を作り出すことなく）。

【0086】

ユーティリティ拡散器は、各々がラウドスピーカ出力チャンネルのうちの１つに適用される（図５ｂに示すように）短減衰リバーブレータ（Ｔ６０＝０．５秒又はそれ以下）のセットを用いることによって簡単に実現することができる。好ましい実施形態では、このユーティリティ拡散器は、１つのモジュール内の時間遅延並びにモジュール間の差分時間遅延が、周波数に対して複雑な様式で変化し、リスナのところで低周波数における到達の位相分散を生じること、並びに高周波数における信号包絡線の修正を生じることを保証するように設計される。この拡散器は、周波数に対して略一定のＴ６０を有することになり、実際の「残響」音声に対してそれ自体単独で用いられないので一般的なリバーブレータではない。

【0087】

実施例として、図５Ｃは、このユーティリティ拡散器によって作り出された両耳間位相差をプロットしている。垂直の目盛りはラジアンであり、水平の目盛りは周波数領域の０Ｈｚから４００Ｈｚ前後までの領域である。詳細を見ることができるように、水平の目盛りは拡大されている。尺度はラジアンであり、サンプル数又は時間単位ではないことに留意されたい。このプロットは、両耳間時間差がどれ位激しく混乱しているかを明確に示している。片方の耳における周波数全域での時間遅延は示されていないが、この遅延は本質的に同じであり、若干複雑度が低い。

【0088】

ユーティリティ拡散器を実現するための別の手法は、Ｆａｌｌｅｒ，Ｃ．著「Ｐａｒａｍｅｔｒｉｃｍｕｌｔｉｃｈａｎｎｅｌａｕｄｉｏｃｏｄｉｎｇ：ｓｙｎｔｈｅｓｉｓｏｆｃｏｈｅｒｅｎｃｅｃｕｅｓ（パラメトリック多チャンネルオーディオ符号化：コヒーレンスキューの合成）」、ＩＥＥＥＴｒａｎｓ．ｏｎＡｕｄｉｏ，Ｓｐｅｅｃｈ，ａｎｄＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ（オーディオ、発話、及び言語の処理に関するＩＥＥＥ会報）、第１４巻第１号、２００６年１月により詳しく説明されている周波数領域疑似残響、又はＫｅｎｄａｌｌ，Ｇ．著「Ｔｈｅｄｅｃｏｒｒｅｌａｔｉｏｎｏｆａｕｄｉｏｓｉｇｎａｌｓａｎｄｉｔｓｉｍｐａｃｔｏｎｓｐａｔｉａｌｉｍａｇｅｒｙ（オーディオ信号の非相関及び空間イメージングに対するその影響）」、ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ（コンピュータ音楽誌）、第１９巻第４号、１９９５年冬、及びＢｏｕｅｒｉ，Ｍ．及びＫｙｒｉａｋａｋｉｓ，Ｃ．著「Ａｕｄｉｏｓｉｇｎａｌｄｅｃｏｒｒｅｌａｔｉｏｎｂａｓｅｄｏｎａｃｒｉｔｉｃａｌｂａｎｄａｐｐｒｏａｃｈ（臨界帯域手法に基づくオーディオ信号非相関）」、１１７ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ（第１１７回ＡＥＳ会議）、２００４年１０月に詳細に説明されている、時間領域又は周波数領域で実現される全域通過フィルタの使用を含む。

【0089】

拡散が１つ又それ以上のドライチャンネルから規定される状況において、より一般的な残響システムは、ユーティリティ拡散器と同じエンジンを用いるが、コンテンツ作成者が望むＴ６０対周波数プロファイルを作り出す簡単な修正によってユーティリティ拡散と実際の知覚可能な残響との両方を与えることは完全に可能なので、非常に適切である。図６に示されるような修正されたＳｃｈｒｏｅｄｅｒ−Ｍｏｏｒｅｒリバーブレータは、コンテンツ作成者が望む厳密に実用的な拡散又は聴取可能な残響のいずれかを提供することができきる。本システムを用いる場合、各リバーブレータで用いられる遅延は、互いに素であるように有用に選択することができる。この選択は、同様であるが、互いに素数のセットをフィードバッククシ形フィルタ内のサンプル遅延として用いることによって容易に実現され、「ＳｃｈｒｏｅｄｅｒＳｅｃｔｉｏｎ」又は１タップ全域通過フィルタで異なる素数対が同じ合計遅延に合算される。ユーティリティ拡散は、Ｊｏｔ，Ｊ．−Ｍ．及びＣｈａｉｇｎｅ，Ａ．著「Ｄｉｇｉｔａｌｄｅｌａｙｎｅｔｗｏｒｋｓｆｏｒｄｅｓｉｇｎｉｎｇａｒｔｉｆｉｃｉａｌｒｅｖｅｒｂｅｒａｔｏｒｓ（疑似リバーブレータを設計するためのデジタル遅延ネットワーク）」、９０ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ（第９０回ＡＥＳ会議）、１９９１年２月に詳細に説明されるもの等の多チャンネル再帰残響アルゴリズムによって実現することもできる。

【0090】

全域通過フィルタ
次に図７を参照すると、図６のＳｃｈｒｏｅｄｅｒ全域通過フィルタ６０４及び６０６の一方又は両方を実装するのに適する全域通過フィルタが示されている。入力ノード７０２における入力信号は、加算ノード７０４においてフィードバック信号（以下に説明する）と加算される。７０４からの出力は、分岐ノード７０８において順方向分岐７１０と遅延分岐７１２とに分岐する。遅延分岐７１２では、信号はサンプル遅延７１４によって遅延される。前記に説明したように、好ましい実施形態では、遅延は、好ましくは６０４及び６０６の遅延が合計で１２０回のサンプル期間になるように選択される。（遅延時間は、４４．１ｋＨｚのサンプリングレートに基づき、同じ音響心理効果を維持しながら、他のサンプリングレートにスケール調整されるように、他のインターバルを選択することができる）順方向分岐７１２内の順方向信号は、増倍された遅延と加算ノード７２０において加算され、７２２においてフィルタリング済み出力が生成される。分岐ノード７０８における遅延信号は、フィードバック経路内でフィードバック利得モジュール７２４によって同様に増倍され、加算ノード７０４に入力されるフィードバック信号が供給される（先に説明した）。一般的なフィルタ設計では、順方向利得と逆方向利得とは、一方が他方とは反対の符号を有する必要があり点を除き、同じ値に設定されることになる。

【0091】

フィードバックくし形フィルタ
図８は、フィードバックくし形フィルタ（図６の６０８〜６２０）の各々において使用可能な適切な設計を示す。

【0092】

８０２における入力信号は、加算ノード８０３内でフィードバック信号（以下に説明する）と加算され、この和は、サンプル遅延モジュール８０４によって遅延される。８０４の遅延出力は、ノード８０６において出力される。フィードバック経路において、８０６における出力はフィルタ８０８によってフィルタリングされ、利得モジュール８１０でフィードバック利得係数が乗算される。好ましい実施形態では、このフィルタは、以下に説明するＩＩＲフィルタとする必要がある。利得モジュール又は増幅器８１０の出力（ノード８１２における）は、フィードバック信号として用いられ、前述のように、８０３において入力信号と加算される。

【0093】

ａ）サンプル遅延８０４の長さ、ｂ）０＜ｇ＜１であるような利得パラメータｇ（図に利得８１０として示す）、及びｃ）選択的に異なる周波数を減衰させることができるＩＩＲフィルタの係数等の特定の変数は、図８のフィードバックくし形フィルタの制御を受ける。本発明によるくし形フィルタにおいて、これらの変数のうちの１つ又は好ましくはそれ以上は、復号化されたメタデータ（＃で復号化された）に応じて制御される。自然残響は、低周波数を強調する傾向を有することから、一般的な実施形態では、フィルタ８０８は低域通過フィルタとする必要がある。例えば、空気及び多くの物理的反射体（例えば、壁、開口部等）は、一般的に低域通過フィルタとして機能する。一般的に、フィルタ８０８は、シーンに適するＴ６０対周波数プロファイルをエミュレートする特定の利得設定を用いて適切に選ばれる（図１のメタデータエンジン１０８において）。多くの場合、デフォルト係数を用いることができる。あまり音調の良くない設定又は特殊効果では、ミックス技術者は、他のフィルタ値を規定することができる。更に、ミックス技術者は、多くの２２のＴ６０プロファイルのＴ６０性能を模倣する新しいフィルタを標準フィルタ設計手法によって作り出すことができる。これらの手法は、ＩＩＲ係数の１次又は２次の区分セットに関して規定することができる。

【0094】

リバーブレータ変数の決定
リバーブセット（図５の５０８〜５１４）は、メタデータとして受信されてメタデータ復号器／解凍器２３８によって復号化されるパラメータ「Ｔ６０」に基づいて定義することができる。本技術分野では、「Ｔ６０」という用語は、音声の残響が６０デシベル（ｄＢ）だけ減衰する時間を秒で示すのに用いられる。例えば、コンサートホールでは、残響反射は、６０ｄＢだけ減衰するのに４秒程度の長さを要する可能性があり、このホールを、「４．０のＴ６０値」をもつと表現することができる。本明細書では、残響減衰パラメータ又はＴ６０を、概ね指数関数的な減衰モデルにおける減衰時間の一般的な尺度を表すために用いる。この用語は、必ずしも６０デシベルだけ減衰する時間の測定に限定されず、符号器及び復号器がこのパラメータを一貫して相補方式で用いる場合は、音声の減衰特性を均等に規定するために他の減衰時間を用いることができる。

【0095】

リバーブレータの「Ｔ６０」を制御するために、メタデータ復号器は、フィードバックくし形フィルタ利得値の適切なセットを計算し、続いてこれらの利得値をリバーブレータに出力してこれらのフィルタ利得値を設定する。利得値が１．０に近づく程、残響は長く続くことになり、利得が１．０に等しい場合には、残響は低下せず、利得が１．０を超えると、残響は連続して増大することになる（音声の「フィードバックスクリーチ」ソートを作る）。本発明の特に新規な実施形態によると、フィードバックくし形フィルタの各々における利得値を計算するために式２を用いる。

ここで、オーディオに対するサンプリングレートは「ｆｓ」で与えられ、サンプル＿遅延は、特定のくし形フィルタによって加えられる時間遅延（既知のサンプルレートｆｓにおけるサンプル数で表される）である。例えば、１７７７というサンプル＿遅延長さを有するフィードバックくし形フィルタを有し、４４，１００サンプル毎秒のサンプリングレートを有する入力オーディオを有し、４．０秒のＴ６０が望ましい場合には、次式を計算することができる。

【0096】

Ｓｃｈｒｏｅｄｅｒ−Ｍｏｏｒｅｒリバーブレータに対する修正物において、本発明は、図６で示す並列の７つのフィードバックくし形フィルタを含み、７つ全てが一貫したＴ６０減衰時間を有するが、互いに素であるサンプル＿遅延長さに起因して並列くし形フィルタが加算された時に直交状態のままなので、混ざり合って人間聴覚システムにおいて複雑な拡散感覚を作り出すように、各１つは、前述のように計算された値を有する利得を有する。

【0097】

リバーブレータに一貫した音声を与えるために、フィードバックくし形フィルタの各々に同じフィルタ８０８を用いることができる。本発明によると、この目的のために「無限インパルス応答」（ＩＩＲ）フィルタを用いるのが非常に好ましい。デフォルトのＩＩＲフィルタは、空気が有する自然の低域通過効果と同じ低域通過効果を与えるように設計される。他のデフォルトフィルタは、非常に異なる環境の感覚を作り出すために、異なる周波数においてＴ６０（前記に明示した最大値を有する）を変化させる「木材」、「硬質表面」、及び「極めて軟質」の反射特性等の他の効果を与えることができる。

【0098】

本発明の特に新規な実施形態では、ＩＩＲフィルタ８０８のパラメータは、受信メタデータの制御の下で可変である。ＩＩＲフィルタの特性を変更することによって、本発明は、「周波数Ｔ６０応答」の制御を実現して、音声の幾つかの周波数を他のものよりも急速に減衰させる。ミックス技術者（メタデータエンジン１０８を用いる）は、芸術的に適切であると考えられる場合に特異な効果を作り出すために、フィルタ８０８を適用するための他のパラメータを規定することができるが、これらのパラメータは、全てが同じＩＩＲフィルタトポロジーの内部で処理されることに留意されたい。また、コムの数は、送信メタデータによって制御されるパラメータである。従って、音響的に難しいシーンでは、より「管の様な」音質又は「フラッターエコー」音質を与えるように、コムの数を低減することができる。

【0099】

好ましい実施形態では、Ｓｃｈｒｏｅｄｅｒ全域通過フィルタの数は、送信メタデータの制御の下で可変であり、特定の実施形態では、ゼロ個、１個、２個、又はそれ以上のフィルタを有することができる。（明瞭性を維持するために、図には２つしか示されていない）Ｓｃｈｒｏｅｄｅｒ全域通過フィルタは、追加の疑似反射を導入し、オーディオ信号の位相を予測不能な方式で変化させる。更に、「ＳｃｈｒｏｅｄｅｒＳｅｃｔｉｏｎ」は、所望であればそれ自体単独で特異な音声効果を与えることができる。

【0100】

本発明の好ましい実施形態では、受信メタデータ（ユーザ制御の下でメタデータ生成エンジン１０８によって予め生成された）の使用は、Ｓｃｈｒｏｅｄｅｒ全域通過フィルタの数、フィードバックくし形フィルタの数、及びこれらのフィルタの内部のパラメータを変更することによって、この反響器の音声を制御する。くし形フィルタ及び全域通過フィルタの数を増加することによって、残響における反射密度が増大することになる。チャンネル毎に７つのくし形フィルタ及び２つの全域通過フィルタというデフォルト値は、コンサートホールの内部の残響を疑似するのに適する自然音響リバーブを与えるように実験的に決定されたものである。下水管の内部等の非常に単純な残響環境を疑似する場合には、くし形フィルタの数を低減するのが適切である。この理由から、何個のくし形フィルタを用いるべきかを規定するために、「密度」というメタデータフィールドが設けられる（前述のように）。

【0101】

リバーブレータにおける設定の完全セットは、「リバーブ＿セット（ｒｅｖｅｒｂ＿ｓｅｔ）」を定義する。具体的にリバーブ＿セットは、全域通過フィルタの数、その各々におけるサンプル＿ディレイ値、及びその各々における利得値に加えて、フィードバックくし形フィルタの数、その各々におけるサンプル＿ディレイ値、各フィードバックくし形フィルタの内部のフィルタ８０８として用いるべきＩＩＲフィルタ係数の規定のセットによって定義される。

【0102】

カスタムリバーブセットを解凍する段階に加えて、好ましい実施形態では、メタデータ復号器／解凍器モジュール２３８は、異なる値を有するが、同様の平均サンプル＿ディレイ値を有する複数の所定のリバーブ＿セットを記憶する。メタデータ復号器は、前述のように、送信オーディオビットストリームのメタデータフィールドで受信されるエクステンションコードに応じて、記憶されたリバーブセットから選択を行う。

【0103】

全域通過フィルタ（６０４、６０６）と複数の様々なくし形フィルタ（６０８〜６２０）との組み合わせは、各チャンネルで非常に複雑な遅延対周波数特性を生成し、更に、異なるチャンネルでの異なる遅延セットの使用は、遅延が、ａ）チャンネルの異なる周波数において変化し、更にｂ）同じ又は異なる周波数においてチャンネル間で変化する極めて複雑な関係を生成する。それによって（メタデータによって指示された場合に）、多チャンネルスピーカシステム（「サラウンド音響システム」）に出力される時に、オーディオ波形（又は高周波数における包絡線）の前縁が、様々な周波数において耳に同時に到達しないような周波数依存の遅延を有する状況を作ることができる。更にサラウンド音響配列では、右耳と左耳とは異なるスピーカチャンネルから選択的に音声を受信することから、本発明によって生成される複雑な変化は、包絡線（高周波数における）又は低周波数波形の前縁を、異なる周波数において変化する両耳間時間遅延を伴って各耳に到達させる。これらの状態は、「知覚的に拡散された」オーディオ信号を生成し、最終的に、この信号が再生される時に「知覚的に拡散された」音声を生成する。

【0104】

図９は、全域通過フィルタとリバーブセットとの両方において遅延の異なるセットを用いてプログラミングされた２つの異なるリバーブレータモジュールからの簡略化された遅延対周波数出力特性を示す。遅延はサンプリング期間で与えられ、周波数は、ナイキスト周波数に対して正規化される。可聴スペクトルの一部が表されており、２つのチャンネルだけが示されている。曲線９０２及び９０４は、周波数全域で複雑な様式で変化することが分かる。本発明者は、この変化が、サラウンドシステム（例えば、７チャンネルに拡張された）において知覚的な拡散の臨場感のある感覚をもたらすことを見出した。

【0105】

図９のグラフ（簡略化された）に示すように、本発明の方法及び装置は、遅延と周波数との間に、複数のピーク、谷、及び変曲を有する複雑で不規則な関係を作り出す。この特性は、知覚的に拡散された効果には望ましい。従って、本発明の好ましい実施形態によると、周波数依存の遅延（１つのチャンネル又はチャンネル間に関わらず）は、複雑で不規則な性質であり、音源を拡散させる音響心理効果を引き起こすのに十分に複雑で不規則である。この周波数依存の遅延は、従来の単純なフィルタから（低域通過、帯域通過、シェルビング等）生じる単純で予測可能な位相対周波数変化と混同してはならない。本発明の遅延対周波数特性は、可聴スペクトル全域に分散された複数の極によってもたらされる。

【0106】

直接信号と拡散中間信号とをミックスすることによって距離を疑似する
本質的に、耳がオーディオソースから遠く離れる場合には拡散音しか聞くことができない。耳がオーディオソースに近づくにつれて、ある程度の直接音及びある程度の拡散音を聞くことができる。耳がオーディオソースに非常に近づいた場合には、直接音しか聞くことができない。音声再生システムは、直接音と拡散音との間のミックスを変更することによってオーディオソースからの距離を疑似することができる。

【0107】

環境エンジンは、距離を疑似するのに望ましい直接／拡散比を表すメタデータを「知る」（受信）するだけでよい。正確には、本発明の受信器では、受信メタデータは、所望の直接／拡散比を「拡散度」と呼ぶパラメータとして表す。好ましくはこのパラメータは、生成エンジン１０８に関連して前述したように、ミックス技術者によって予め設定される。拡散度は規定されないが、拡散エンジンの使用が規定された場合には、デフォルトの拡散度値を、適宜０．５に設定することができる（この値は、臨界距離（リスナが等しい直接音声量と拡散音量とを聞く距離）を表す）。

【0108】

１つの適切なパラメータ表現では、「拡散度」パラメータｄは、０≦ｄ≦１であるような所定の範囲のメタデータ変数である。定義によると、０．０という拡散度値は、全く拡散成分がない完全な直接音になり、１．０という拡散度値は、いかなる直接成分もない完全な拡散音になり、これらの間では、次式で計算される「拡散＿利得」値と「直接＿利得」値とを用いてミックスすることができる。

（式４）

【0109】

上記に応じて、本発明は、音源までの所望の距離の知覚効果を作り出すために、各ステムにおいて、受信「拡散度」メタデータパラメータに基づいて式３に従って拡散成分と直接成分とをミックスする。

【0110】

再生環境エンジン
本発明の好ましく特に新規な実施形態では、ミックスエンジンは、「再生環境」エンジン（図４の４２４）と通信し、このモジュールから、局所再生環境のある特定の特性をほぼ規定するパラメータセットを受信する。前述のように、オーディオ信号は、予め「ドライ」形式で（著しい環境音又は残響なしに）記録され、符号化されている。拡散音と直接音とを特定の局所環境で最適に再生するために、ミックスエンジンは、送信メタデータ及び局所パラメータセットに応答して局所再生に関するミックスを改善する。

【0111】

再生環境エンジン４２４は、局所再生環境の特定の特性を測定し、パラメータのセットを抽出し、これらのパラメータを局所再生レンダリングモジュールに送る。続いて再生環境エンジン４２４は、利得係数行列に対する修正、並びに出力信号を生成するためにオーディオ信号と拡散信号とに適用すべきＭ個の出力補償遅延セットを計算する。

【0112】

図１０に示すように、再生環境エンジン４２４は、局所音響環境１００４の定量的測定値を抽出する。推定又は抽出される変数の中には、部屋の寸法、部屋の容積、局所残響時間、スピーカ数、スピーカ配置、及びスピーカ幾何学的形状がある。局所環境を測定又は推定するために多くの方法を用いることができる。とりわけ最も簡単なものは、キーパッド又は端末様のデバイス１０１０を通じて直接ユーザ入力を与えることである。再生環境エンジン４２４に信号フィードバックを供給し、公知の方法による部屋の測定及び較正を可能にするために、マイクロフォン１０１２を用いることもできる。

【0113】

本発明の好ましく特に新規な実施形態では、再生環境モジュール及びメタデータ復号化エンジンは、ミックスエンジンへの制御入力を供給する。ミックスエンジンは、制御入力に応じて、中間の合成拡散チャンネルを含む制御可能に遅延されたオーディオチャンネルをミックスして、局所再生環境に適合するように修正された出力オーディオチャンネルを生成する。

【0114】

再生環境モジュールからのデータに基づいて、環境エンジン２４０は、各入力における方向及び距離のデータと各出力における方向及び距離のデータとを用いて、入力を出力へどのようにミックスするかを決定することができる。各入力ステムの距離及び方向は、受信メタデータ（表１を参照されたい）に包含され、出力に関する距離及び方向は、再生環境によって、聴取環境のスピーカ位置を測定、仮定、又はさもなければ特定することによって提供される。

【0115】

環境エンジン２４０は、様々なレンダリングモジュールを用いることができる。環境エンジンの１つの適切な実装は、図１１に示すように、シミュレートされた「仮想マイクロフォンアレイ」をレンダリングモデルとして用いる。このシミュレーションは、出力デバイス毎に１つのマイクロフォンがあり、環境の中心に後部を有し、先端がそれぞれの出力デバイス（スピーカ１１０６）に向かって方向付けされた射線上に整列され、再生環境の聴取中心１１０４の回りに配置された仮定上のマイクロフォン群（１１０２に一般的に示している）を仮定し、好ましくは、マイクロフォン収音は、環境の中心から等距離に離隔されると仮定する。

【0116】

仮想マイクロフォンモデルは、実際の各スピーカ（実際の再生環境に位置決めされた）から仮想マイクロフォンの各々において望ましい音量及び遅延を生成することになる行列（動的に変化する）を計算するために用いられる。任意のスピーカから特定のマイクロフォンへの利得は、位置が既知の各スピーカに関して、このマイクロフォンにおいて望ましい利得を実現するのに必要とされる出力音量を計算するのに十分であることは明らかであろう。同様に、スピーカ位置の情報は、信号到達時間をモデルに整合させる（空気中の音声速度を仮定することによって）のに必要な何らかの遅延を定義するのに十分なはずである。従って、レンダリングモデルの目的は、定義された聴取位置にある仮想マイクロフォンによって生成されるマイクロフォン信号の望ましいセットを再生することになる出力チャンネルの利得及び遅延のセットを定義することである。好ましくは、前述の生成エンジンで所望のミックス音を定義するために同じ又は類似の聴取位置及び仮想マイクロフォンが用いられる。

【0117】

「仮想マイクロフォン」レンダリングモデルでは、仮想マイクロフォン１１０２の方向性をモデル化するために係数Ｃｎのセットが用いられる。以下に示す式を用いて、各仮想マイクロフォンに対する各入力における利得を計算することができる。幾つかの利得は、ゼロ（「無視することができる」利得）に非常に近い値となる可能性があり、この場合、仮想マイクロフォンの入力を無視できる。無視できない利得を有する各入力−出力ダイアドについては、レンダリングモデルは、ミックスエンジンに、この入力−出力ダイアドから計算利得を用いてミックスを行うように命令し、利得を無視することができる場合には、このダイアドについていかなるミックスも実施する必要はない。（ミックスエンジンには、以下のミックスエンジンのセクションで十分に説明する「ｍｉｘｏｐ」の形態の命令が与えられ、計算利得を無視できる場合、ｍｉｘｏｐを単純に省くことができる）。仮想マイクロフォンにおけるマイクロフォン利得係数は、全ての仮想マイクロフォンにおいて同じものとすること、又は異なるものとすることができる。係数は、何らかの好適な手段によって与えることができる。例えば、「再生環境」システムは、直接又は類似の測定によってこれらの係数を与えることができる。もくしく、データは、ユーザが入力する、又は予め記憶することができる。５．１及び７．１等の標準スピーカ構成では、係数は、標準マイクロフォン／スピーカ構成に基づいて組み込まれることになる。

【0118】

以下の式は、仮想マイクロフォンレンダリングモデルにおける仮定上の「仮想」マイクロフォンに対するオーディオソース（ステム）の利得を計算するために用いることができる。

【0119】

行列ｃ_ij、ｐ_ij、及びｋ_ijは、仮定上のマイクロフォンの方向利得特性を表す特性行列である。これらの特性は、実際のマイクロフォンから測定する、又はモデルから仮定することができる。行列を単純化するために、単純化した仮定を用いることができる。下付き文字ｓは、オーディオステムを示し、下付き文字ｍは、仮想マイクロフォンを示す。変数シータ（「θ」）は、下付き文字付き（オーディオステムに対してｓ、仮想マイクロフォンに対してｍ）のオブジェクトの水平角度を表す。ファイ（「φ」）は、垂直角度（対応する下付き文字付きのオブジェクトの）を表すために用いられる。

【0120】

特定の仮想マイクロフォンに対する所与のステムにおける遅延は、以下の式から求めることができる。

【0121】

ここで仮想マイクロフォンが仮定上の環帯上に位置すると仮定し、半径_mという変数は、ミリ秒で規定された半径を表す（室温及び室圧における媒質中、おそらく空気中の音声）。適切な変換によって、再生環境の実際の又は近似のスピーカ位置に基づいて、全ての角度及び距離を異なる座標系から測定又は計算することができる。例えば、本技術分野で公知であるように、直交座標（ｘ，ｙ，ｚ）で表されたスピーカ位置に基づいて角度を計算するために、簡単な三角法の関係を用いることができる。

【0122】

所定の特定のオーディオ環境は、この環境に対して拡散エンジンを如何に構成するかを規定する特定のパラメータを与えることになる。好ましくは、これらのパラメータは、再生環境エンジン２４０によって測定又は推定されることになるが、代替的にユーザが入力する、又は妥当性のある仮定に基づいて事前プログラミングすることができる。これらのパラメータのうちのいずれかが省略される場合、デフォルトの拡散エンジンパラメータを適宜用いることができる。例えば、Ｔ６０だけが規定される場合、全ての他のパラメータはデフォルト値に設定する必要がある。拡散エンジンによってリバーブを適用する必要がある入力チャンネルが２つ又はそれ以上存在する場合、これらのチャンネルは互いにミックスされることになり、このミックスの結果が、拡散エンジンで一貫して用いられることになる。続いて、拡散エンジンの拡散出力は、ミックスエンジンへの別の利用可能な入力として取り扱うことができ、拡散エンジンの出力からミックスを行うｍｉｘｏｐを生成することができる。拡散エンジンは、複数のチャンネルに対応することができ、入力及び出力は、拡散エンジンの特定のチャンネルに向けるか、又はそこから取得することができることに留意されたい。

【0123】

ミックスエンジン
ミックスエンジン４１６は、メタデータ復号器／解凍器２３８から制御入力としてミックス係数セットを受信し、好ましくは遅延セットも受信する。ミックスエンジン４１６は、信号入力として、拡散エンジン４０２から中間信号チャンネル４１０を受信する。本発明によれば、これらの入力は、少なくとも１つの中間拡散チャンネル４１２を含む。特に新規な実施形態では、更にミックスエンジンは、局所再生環境の特性に従ってミックスを修正するために用いることができる入力を再生環境エンジン４２４から受信する。

【0124】

前述のように（生成エンジン１０８に関連して）、前述のミックスメタデータは、本発明の全体的なシステムの入力及び出力に照らして明らかになるように、一連の行列として好適に表される。本発明のシステムは、最も一般的なレベルにおいて、複数のＮ個の入力チャンネルをＭ個の出力チャンネルにマッピングし、この場合ＮとＭとは等しい必要はなく、どちらかが大きくてもよい。Ｎ個の入力チャンネルからＭ個の出力チャンネルへマッピングするための、利得値の一般的な完全セットを規定するための、Ｎ×Ｍ次元の行列Ｇで十分であることは容易に理解されよう。入力−出力遅延及び拡散パラメータを完全に規定するために、同様のＮ×Ｍ行列を好適に用いることができる。もしくは、より頻繁に用いられるミックス行列を簡潔に表すために、コードシステムを用いることができる。この場合、これらの行列は、各コードが対応する行列と関係付けられ記憶されたコードブックを参照することによって、復号器において容易に復元することができる。

【0125】

従って、Ｎ個の入力をＭ個の出力へミックスするには、各サンプル時間について、利得行列の行（Ｎ個の入力に対応する）とｉ番目の列（ｉ＝１からＭまで）とを乗算するだけで十分である。適用すべき（ＮからＭへのマッピングを）遅延、及び各ＮからＭ個の出力チャンネルへのマッピングにおける直接／拡散ミックスを規定するために同様の演算を用いることができる。より単純なスカラー表現及びベクトル表現を含む他の表現法を用いることができる（柔軟性に関してある程度の犠牲を払って）。

【0126】

従来のミックスとは異なり、本発明によるミックスエンジンは、特に知覚的に拡散された処理のために特定された少なくとも１つ（好ましくは１つよりも多く）の入力ステムを含み、より具体的には、環境エンジンは、メタデータの制御の下で、ミックスエンジンが入力として知覚的に拡散されたチャンネルを受信することができるように構成可能である。知覚的に拡散された入力チャンネルは、ａ）本発明による知覚的に適切なリバーブレータを用いて１つ又はそれ以上のオーディオチャンネルを処理することによって生成されたもの、又はｂ）自然残響を有する音響環境で記録され、対応するメタデータによってそのように示されたステムのいずれかとすることができる。

【0127】

従って、図１２に示すように、ミックスエンジン４１６は、中間オーディオ信号１２０２（Ｎ個のチャンネル）に加えて環境エンジンによって生成された１つ又はそれ以上の拡散チャンネル１２０４を含むＮ’個のオーディオ入力チャンネルを受信する。ミックスエンジン４１６は、ミックス制御係数のセット（受信メタデータから復号化される）の制御の下で乗算及び加算を行うことによって、Ｎ’個のオーディオ入力チャンネル１２０２及び１２０４をミックスし、局所環境での再生のためにＭ個の出力チャンネル（１２１０及び１２１２）のセットを生成する。１つの実施形態では、専用の拡散出力１２１２は、専用の拡散放射器スピーカを介した再生のために差別化される。続いて複数のオーディオチャンネルはアナログ信号に変換され、増幅器１２１４によって増幅される。増幅された信号は、スピーカ２４４のアレイを駆動する。

【0128】

特定のミックス係数は、メタデータ復号器／解凍器２３８によって適宜受信されるメタデータに応じて時間変化する。好ましい実施形態では、特定のミックス音は、局所再生環境についての情報に応じて変化する。好ましくは、局所再生情報は、前述のように、再生環境モジュール４２４によって提供される。

【0129】

好ましい新規な実施形態では、ミックスエンジンは、各入力−出力対に、受信メタデータから復号化され、好ましくは再生環境の局所特性にも依存する規定の遅延も適用する。受信メタデータが、ミックスエンジンによって各入力チャンネル／出力チャンネル対に適用すべき遅延行列を含むことが好ましい（遅延行列は、その後、局所再生環境に基づいて受信器によって修正される）。

【0130】

換言すると、この演算は、「ｍｉｘｏｐ」（ＭＩＸＯＰｅｒａｔｉｏｎｉｎｓｔｒｕｃｔｉｏｎ（ミックス演算命令）に対する）と表すパラメータのセットを参照することによって記述することができる。復号化されたメタデータから受信された（データ経路１２１６を通じて）制御データ、及び再生環境エンジンから受信された更なるパラメータに基づいて、ミックスエンジンは、再生環境のレンダリングモデル（モジュール１２２０と表している）に基づいて遅延及び利得係数（合わせて「ｍｉｘｏｐ」）を計算する。

【0131】

好ましくは、ミックスエンジンは、実施すべきミックスを規定するために「ｍｉｘｏｐ」を用いることになる。各特定の出力へミックスされる各特定の入力について、それぞれの単一のｍｉｘｏｐ（好ましくは、利得フィールド及び遅延フィールドを含む）が適宜生成されることになる。従って、場合によっては単一の入力は、各出力チャンネルに対するｍｉｘｏｐを生成することができる。一般的には、Ｎ個の入力チャンネルからＭ個の出力チャンネルへマッピングするのに、Ｎ×Ｍ個のｍｉｘｏｐで十分である。例えば、７個の出力チャンネルで再生される７チャンネル入力は、直接チャンネルだけに関する４９個もの利得ｍｉｘｏｐを生成することができ、本発明の７チャンネル実施形態では、拡散エンジン４０２から受信される拡散チャンネルに対処するために、より多くのｍｉｘｏｐが必要とされる。各ｍｉｘｏｐは、入力チャンネル、出力チャンネル、遅延、及び利得を規定する。随意選択的に、ｍｉｘｏｐは、適用すべき出力フィルタを規定することもできる。好ましい実施形態では、システムは、特定のチャンネルを「直接レンダリング」チャンネルとして示す（メタデータによって）ことを可能にする。かかるチャンネルが、拡散＿フラグセットも有する（メタデータに）場合には、このチャンネルは拡散エンジンを通過せず、ミックスエンジンの拡散入力に入力されることになる。

【0132】

一般的なシステムでは、特定の出力は、低周波数効果チャンネル（ＬＦＥ）として別個に取り扱うことができる。ＬＦＥとタグ付けされた出力は、本発明の主題ではない方法によって特別に取り扱われる。ＬＦＥ信号は、別個の専用チャンネルで取り扱うことができる（拡散エンジン及びミックスエンジンを迂回することによって）。

【0133】

本発明の利点は、符号化の時点での直接音と拡散音との分離と、それに続く復号化及び再生の時点での拡散効果の合成とにある。室内効果からの直接音の分離によって、様々な再生環境において、特に再生環境がミックス技術者に事前に把握されない場合に、より効果的な再生が可能になる。例えば、再生環境が狭く音響的にドライなスタジオである場合、シーンが要求する場合に大きな劇場をシミュレートするために拡散効果を追加することができる。

【0134】

本発明のこの利点は、オペラシーンがウィーンのオペラハウスに設定された、モーツァルトに関する公知の人気映画の特定の実施例によって明確に示される。かかるシーンが本発明の方法によって送信される場合、音楽は「ドライ」で記録されるか、又はほぼ直接の音声セット（複数のチャンネルの）として記録されることになる。続いてミックス技術者は、メタデータエンジン１０８において、再生時の合成拡散を要求するメタデータを追加することができる。従って、復号器において、再生の劇場が家庭のリビングルーム等の小さい部屋である場合には、適切な合成残響が追加されることになる。一方、再生の劇場が大きい公会堂である場合には、その局所再生環境に基づいて、メタデータ復号器は、合成残響があまり追加されないように（過度の残響及び結果として生じる混濁音効果を回避するために）指示することになる。

【0135】

従来のオーディオ送信方式は、実際の部屋の室内インパルス応答を逆畳み込みによって忠実に（実際に）除去することができないことから、局所再生に対する同等の調節を可能にしない。幾つかのシステムは、局所周波数応答を補償しようと試みてはいるが、このシステムは、残響を本当に除去するわけではなく、送信オーディオ信号に存在する残響を実際に除去することはできない。対照的に、本発明では、直接音を、様々な再生環境における再生時の合成又は適切な拡散効果を容易にするメタデータと協調的組み合わせで送信する。

【0136】

直接出力及び拡散出力並びにスピーカ
本発明の好ましい実施形態では、オーディオ出力（図２の２４３）は、オーディオ入力チャンネル（ステム）の数とは数が異なるものとすることができる複数のオーディオチャンネルを含む。本発明の復号器の好ましく特に新規な実施形態では、専用の拡散出力は、拡散音の再生に特化した適切なスピーカに優先的に送信する必要がある。米国公開番号２００９／００６０２３６Ａ１号として公開された米国特許出願第１１／８４７０９６に説明されているシステム等の、別個の直接入力チャンネルと拡散入力チャンネルとを有する直接／拡散組み合わせスピーカを有用に用いることができる。もしくは、前述の残響法を用いることによって、前述のリバーブ／拡散システムの使用によって作り出される、聴取室内の意図的なチャンネル間干渉による５又は７個の直接オーディオレンダリングチャンネルの相互作用によって、拡散感覚をもたらすことができる。

【0137】

本発明の方法の特定の実施形態
本発明のより具体的な実際の実施形態では、環境エンジン２４０、メタデータ復号器／解凍器２３８、更にオーディオ復号器２３６は、１つ又はそれ以上の汎用マイクロプロセッサ上に実装すること、又は専用のプログラミング可能統合ＤＳＰシステムと連動する汎用マイクロプロセッサによって実装することができる。このシステムは、多くの場合、手順の観点から説明される。手順の観点から見ると、図１〜図１２に示されるモジュール及び信号経路は、ソフトウェアモジュールの制御の下で、特に本明細書に説明するオーディオ処理機能の全てを実行するのに必要とされる命令を含むソフトウェアモジュールの制御の下でマイクロプロセッサによって実行される手順に対応することを容易に理解できるはずである。例えば、フィードバックくし形フィルタは、本技術分野で知られているように、プログラミング可能なマイクロプロセッサと、中間結果を記憶するのに十分なランダムアクセスメモリとの組み合わせによって容易に実現される。本明細書に説明するモジュール、エンジン、及び構成要素の全て（ミックス技術者以外）は、特別にプログラミングされたコンピュータによって同様に実現することができる。浮動小数点演算又は固定小数点演算のうちのいずれかを含む様々なデータ表現を用いることができる。

【0138】

次に図１３を参照すると、受信及び復号化の方法の手順図が一般的なレベルで示されている。本方法は、段階１３１０において、複数のメタデータパラメータを有するオーディオ信号を受信することによって始まる。段階１３２０において、オーディオ信号は、符号化メタデータがオーディオ信号から解凍され、オーディオ信号が規定のオーディオチャンネルへと分離されるように逆多重化される。メタデータは、複数のレンダリングパラメータ、ミックス係数、及び遅延のセットを含み、これらの全ては、前記の表１に更に定義されている。表１は、例示的なメタデータパラメータを示し、本発明の範囲を限定することを意図したものではない。当業者であれば、本発明によってオーディオ信号特性の拡散を定義する他のメタデータパラメータをビットストリームに保持できることを理解できるはずである。

【0139】

本方法は、段階１３３０に続き、メタデータパラメータを処理して、どのオーディオチャンネル（複数のオーディオチャンネルのうちの）が、空間的拡散効果を含むようにフィルタリングされるかを特定する。適切なオーディオチャンネルは、リバーブセットによって意図された空間的拡散効果を含むように処理される。リバーブセットは、前記の残響モジュールのセクションで説明した。本方法は、段階１３４０に進み、局所音響環境を定義する再生パラメータを受信する。各局所音響環境は固有であり、各環境は、オーディオ信号の空間的拡散効果に異なって影響を与える可能性がある。局所音響環境の特性を算入し、オーディオ信号がこの環境で再生される場合に自然に発生する可能性がある何らかの空間的拡散偏差を補償することによって、符号器によって意図されたとおりのオーディオ信号の再生が助長される。

【0140】

本方法は、段階１３５０に進み、フィルタリングされたオーディオチャンネルをメタデータパラメータ及び再生パラメータに基づいてミックスする。Ｎ及びＭは、それぞれ出力数及び入力数である場合、一般的なミックスは、Ｍ個の入力の全てからの重み付き寄与を、Ｎ個の出力の各々へとミックスする段階を含むことを理解されたい。ミックス演算は、前述の「ｍｉｘｏｐ」セットによって適宜制御される。好ましくは、ミックス段階の一部として、遅延セット（受信メタデータに基づく）が更に導入される（更に前述したように）。段階１３６０において、オーディオチャンネルは、１つ又はそれ以上のラウドスピーカに出力されて再生される。

【0141】

次に図１４を参照すると、本発明の符号化法の態様が一般的なレベルで示されている。段階１４１０において、デジタルオーディオ信号を受信する（この信号は、取り込まれた生の音声から、送信デジタル信号から、又は記録ファイルの再生から生じるものとすることができる）。信号を圧縮又は符号化する（段階１４１６）。ミックス技術者（「ユーザ」）は、オーディオとの同期関係で制御選択を入力デバイス内に入力する（段階１４２０）。この入力は、所望の拡散効果及び多チャンネルミックスを決定又は選択する。符号化エンジンは、所望の効果及びミックスに適するメタデータを生成又は計算する（段階１４３０）。オーディオは、本発明の復号化法（前述の）により受信器／復号器によって復号化され、処理される（段階１４４０）。復号化されたオーディオは、選択された拡散効果及びミックス効果を含む。復号化されたオーディオは、ミックス技術者が、所望の拡散効果及びミックス効果を検証できるように、監視システムによってミックス技術者に対して再生される（監視段階１４５０）。ソースオーディオが事前記録された音源からのものである場合、技術者は、所望の効果が得られるまで上記の処理を繰り返す随意選択枝を有することになる。最後に、圧縮オーディオは、拡散特性及び（好ましくは）ミックス特性を表すメタデータと同期関係で送信される（段階１１４６０）。好ましい実施形態では、この段階は、メタデータを、圧縮（多チャンネル）オーディオストリームと、送信又はマシン読み取り可能媒体上への記録のための組み合わせたデータフォーマットに多重化する段階を含むことになる。

【0142】

別の態様では、本発明は、前述の方法によって符号化された信号が記録されたマシン読み取り可能記録可能媒体を含む。システム態様では、本発明は、前述の方法及び装置に従って符号化、送信（又は記録）、及び受信／復号化を行う組み合わせシステムも含む。

【0143】

プロセッサアーキテクチャの変化形態を用いることができることは理解できるはずである。例えば、幾つかのプロセッサは、並列構成又は直列構成で用いることができる。専用「ＤＳＰ」（デジタル信号プロセッサ）又はデジタルフィルタデバイスをフィルタとして用いることができる。複数のオーディオチャンネルは、信号を多重化すること又は並列プロセッサを稼働させることによってまとめて処理することができる。入力及び出力は、並列、直列、インターリーブ、又は符号化を含む様々な様式でフォーマットすることができる。

【0144】

本発明の幾つかの例示的実施形態を示し説明したが、当業者であれば、数多くの他の変形形態及び別の実施形態を考えることができる。この変形形態及び別の実施形態は意図されており、添付の特許請求に定義する本発明の精神及び範囲から逸脱することなく作ることができる。

【図1】