特許第5956994号(P5956994)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディーティーエス・インコーポレイテッドの特許一覧

特許5956994拡散音の空間的オーディオの符号化及び再生
<>
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000008
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000009
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000010
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000011
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000012
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000013
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000014
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000015
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000016
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000017
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000018
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000019
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000020
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000021
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000022
  • 特許5956994-拡散音の空間的オーディオの符号化及び再生 図000023
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5956994
(24)【登録日】2016年6月24日
(45)【発行日】2016年7月27日
(54)【発明の名称】拡散音の空間的オーディオの符号化及び再生
(51)【国際特許分類】
   H04R 3/00 20060101AFI20160714BHJP
   H04S 5/02 20060101ALI20160714BHJP
   G10L 19/00 20130101ALI20160714BHJP
【FI】
   H04R3/00 310
   H04S5/02 B
   G10L19/00 330B
【請求項の数】5
【全頁数】33
(21)【出願番号】特願2013-528298(P2013-528298)
(86)(22)【出願日】2011年9月8日
(65)【公表番号】特表2013-541275(P2013-541275A)
(43)【公表日】2013年11月7日
(86)【国際出願番号】US2011050885
(87)【国際公開番号】WO2012033950
(87)【国際公開日】20120315
【審査請求日】2014年8月19日
(31)【優先権主張番号】61/380,975
(32)【優先日】2010年9月8日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】503206684
【氏名又は名称】ディーティーエス・インコーポレイテッド
【氏名又は名称原語表記】DTS,Inc.
(74)【代理人】
【識別番号】100092093
【弁理士】
【氏名又は名称】辻居 幸一
(74)【代理人】
【識別番号】100082005
【弁理士】
【氏名又は名称】熊倉 禎男
(74)【代理人】
【識別番号】100067013
【弁理士】
【氏名又は名称】大塚 文昭
(74)【代理人】
【識別番号】100086771
【弁理士】
【氏名又は名称】西島 孝喜
(74)【代理人】
【識別番号】100109070
【弁理士】
【氏名又は名称】須田 洋之
(74)【代理人】
【識別番号】100109335
【弁理士】
【氏名又は名称】上杉 浩
(74)【代理人】
【識別番号】100120525
【弁理士】
【氏名又は名称】近藤 直樹
(72)【発明者】
【氏名】ジョット ジャン−マルク
(72)【発明者】
【氏名】ジョンストン ジェームズ ディー
(72)【発明者】
【氏名】ヘイスティングス スティーヴン アール
【審査官】 武田 裕司
(56)【参考文献】
【文献】 特開2005−229612(JP,A)
【文献】 特開昭63−254495(JP,A)
【文献】 特開2001−067089(JP,A)
【文献】 特表2008−536183(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10L 19/00
H04S 5/02
(57)【特許請求の範囲】
【請求項1】
音声を表す符号化デジタルオーディオ信号を調節するための方法であって、
聴取環境での前記オーディオ信号データの所望のレンダリングをパラメータで表す符号化メタデータを受信する段階を含み、
前記メタデータが、少なくとも1つのオーディオチャンネルに知覚的に拡散されたオーディオ効果を構成するように復号化することができる、少なくとも1つのパラメータを含み、
前記方法は更に、
前記デジタルオーディオ信号を、前記パラメータに応じて構成された前記知覚的に拡散されたオーディオ効果を用いて処理して、処理済みデジタルオーディオ信号を生成する段階を含み、前記処理は、
少なくとも2つのオーディオチャンネルを少なくとも1つのユーティリティ拡散器を使用して非相関にする段階と、
前記オーディオ信号を、時間領域又は周波数領域の全域通過フィルタを用いてフィルタリングする段階と、
前記メタデータを復号化して、所望の拡散密度を表す少なくとも1つの第2のパラメータを得る段階と、を更に含み、
前記拡散音チャンネルは、前記第2のパラメータに応答して前記拡散密度を近似するように構成される、方法。
【請求項2】
前記ユーティリティ拡散器は、少なくとも1つの短減衰リバーブレータを含む、請求項に記載の方法。
【請求項3】
前記短減衰リバーブレータは、経時的減衰の尺度(T60)が、0.5秒又はそれ以下であるように構成される、請求項に記載の方法。
【請求項4】
前記短減衰リバーブレータは、T60が、周波数全域で実質的に一定であるように構成される、請求項に記載の方法。
【請求項5】
前記デジタルオーディオ信号を処理する段階は、少なくとも2つの出力チャンネルに成分を有する処理済みオーディオ信号を生成する段階を含み、
前記少なくとも2つの出力チャンネルは、少なくとも1つの直接音チャンネルと少なくとも1つの拡散音チャンネルとを含み、
前記拡散音チャンネルは、前記オーディオ信号から周波数領域疑似残響フィルタを用いて処理することによって得られる、請求項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2010年9月8日出願の米国仮出願第61/380,975号の優先権を主張する。
【0002】
(技術分野)
本発明は、一般的に高忠実性オーディオ再生に関し、より具体的には、デジタルオーディオ、特に符号化又は圧縮された多チャンネルオーディオ信号の生成、送信、記録、及び再生に関する。
【背景技術】
【0003】
デジタルオーディオの記録、送信、及び再生は、オーディオ情報及び/又はビデオ情報を記録又はリスナに送るために標準精細DVD、高精細光媒体(例えば「ブルーレイディスク」)又は磁気ストレージ(ハードディスク)等の幾つかの媒体を利用されている。また、無線、マイクロ波、光ファイバ、又はケーブルネットワーク等の一過性の送信チャンネルは、デジタルオーディオを送信するために用いられる。オーディオ及びビデオの送信において利用可能な帯域幅の増大により、様々な多チャンネル圧縮オーディオフォーマットが広くの採用されることになった。1つのかかる一般的なフォーマットは、DTS,Inc.に譲渡された米国特許第5,974,380号、米国特許第5,978,762号、及び米国特許第6,487,535号に説明されている(「DTS」サラウンド音響という商標の下で広く利用可能である)。
【0004】
家庭での視聴に向けて消費者に配信されるオーディオコンテンツの多くは、劇場公開される長編映画に対応する。一般的にサウンドトラックは、かなり大きな劇場環境の中での上映に向けて映像とミックスされる。一般的にこのサウンドトラックは、リスナ(劇場内で着席している)が、1つ又はそれ以上のスピーカには近いが、他のスピーカからは遠い可能性があると仮定する。一般的に会話は、中央前方のチャンネルに制限される。左/右及び周辺のイメージングは、仮定される座席配列と劇場のサイズとの両方によって制約される。要するに劇場サウンドトラックは、大きい劇場内での再生に最適なミックスで構成される。
【0005】
一方、家庭のリスナは、一般的に、説得力のある空間的音響イメージをより明確に与えるように構成された高品質のサラウンド音響スピーカを備える小さい部屋の中に着席する。ホームシアターは小型で残響時間は短い。家庭での聴取と映画館での聴取とに向けて異なるミックスを提供することは可能ではあるが殆ど行われない(おそらくは経済性の理由から)。従来のコンテンツでは、異なるミックスを提供することは、元のマルチトラック「ステム(stem)」(元のミックスされていない音響ファイル)を利用できないことから(又は権利を得るのが困難であることから)一般的に可能ではない。大きい部屋及び小さい部屋の両方に対して映像とのミックスを行う音響技師は妥協する必要がある。残響音又は拡散音のサウンドトラック内への導入は、様々な再生空間の残響特性の差異によって特に問題である。
【0006】
この状況は、ホームシアターリスナにとって、高価なサラウンド音響システムに出資したリスナにとってさえも、最適とはいえない音響体験しかできない。
【0007】
Baumgarte他は、米国特許第7,583,805号において、パラメトリック符号化におけるチャンネル間相関キューに基づくオーディオ信号のステレオ及びマルチチャンネル合成のためのシステムを提案している。Baumgarte他のシステムは、送信される組み合わせ(和)信号から生じる拡散音を発生させる。Baumgarte他のシステムは、明らかに遠隔会議等の低ビットレート用途を意図したものである。前述の特許は、疑似拡散信号を周波数領域表現で生成するために、時間−周波数変換手法、フィルタ、及び残響を使用することを開示する。開示された手法は、ミックス技術者に芸術的な制御を与えるものではなく、記録中に測定されるチャンネル間コヒーレンスに基づいて、限られた範囲の疑似残響信号を合成することにしか適していない。開示されている「拡散」信号は、人間の耳が必然的に弁別することになる適切な種類の「拡散」又は「非相関」ではなく、オーディオ信号の解析的測定に基づく。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】米国特許第5,974,380号公報
【特許文献2】米国特許第5,978,762号公報
【特許文献3】米国特許第6,487,535号公報
【特許文献4】米国特許第7,583,805号公報
【特許文献5】米国特許出願US第2009/0060236A1号公報
【非特許文献】
【0009】
【非特許文献1】Brian C.J.Moore著「The Psychology of Hearing(聴取の心理学)」
【非特許文献2】Faller,C.著「Parametric multichannel audio coding: synthesis of coherence cues(パラメトリック多チャンネルオーディオ符号化:コヒーレンスキューの合成)」、IEEE Trans.on Audio, Speech, and Language Processing(オーディオ、音声、及び言語の処理に関するIEEE会報)、第14巻第1号、2006年1月
【非特許文献3】Kendall,G.著「The decorrelation of audio signals and its impact on spatial imagery(オーディオ信号の非相関及び空間イメージングに対するその影響)」、Computer Music Journal(コンピュータ音楽誌)、第19巻第4号、1995年冬
【非特許文献4】Boueri,M.及びKyriakakis,C.著「Audio signal decorrelation based on a critical band approach(臨界帯域手法に基づくオーディオ信号非相関)」、117th AES Convention(第117回AES会議)、2004年10月
【非特許文献5】Jot,J.−M.及びChaigne,A.著「Digital delay networks for designing artificial reverberators(疑似反響器を設計するためのデジタル遅延ネットワーク)」、90th AES Convention(第90回AES会議)、1991年2月
【発明の概要】
【発明が解決しようとする課題】
【0010】
Baumgarteの特許に開示されている残響手法は比較的計算要求が厳しいので、実用的な実装には非効率的である。
【課題を解決するための手段】
【0011】
本発明によると、コンテンツプロデューサによって制御され、拡散の望ましい度合い及び品質を表す時変メタデータとの同期関係で「ドライ」オーディオトラック又は「ステム」を符号化、送信、又は記録することによって多チャンネルオーディオを処理する。オーディオトラックは、拡散パラメータ並びに好ましくは更にミックスパラメータ及び遅延パラメータを表す同期されたメタデータに関連して圧縮及び送信される。拡散メタデータからのオーディオステムの分離は、局所再生環境の特性を考慮した受信器での再生のカスタマイズを容易にする。
【0012】
本発明の第1の態様では、音声を表す符号化デジタルオーディオ信号を調節するための方法が提供される。本方法は、聴取環境でのオーディオ信号データの所望のレンダリングをパラメータで表す符号化メタデータを受信する段階を含む。メタデータは、少なくとも1つのオーディオチャンネルに知覚的に拡散されたオーディオ効果を構成するように復号化できる少なくとも1つのパラメータを含む。本方法は、デジタルオーディオ信号を、パラメータに応じて構成された知覚的に拡散されたオーディオ効果を用いて処理して、処理済みデジタルオーディオ信号を生成する段階を含む。
【0013】
別の実施形態では、デジタルオーディオ入力信号を送信又は記録するために調節する方法が提供される。本方法は、デジタルオーディオ信号を圧縮して、符号化デジタルオーディオ信号を生成する段階を含む。本方法は、ユーザ入力に応じて、所望の再生信号を生成するためにデジタルオーディオ信号の少なくとも1つのチャンネルに適用すべきユーザ選択可能な拡散特性を表すメタデータのセットを生成する段階に続く。本方法は、符号化デジタルオーディオ信号とメタデータのセットとを同期関係で多重化して、組み合わせた符号化信号を生成する段階で終了する。
【0014】
別の実施形態では、再生のためのデジタル化オーディオ信号を符号化及び再生するための方法が提供される。本方法は、デジタル化オーディオ信号を符号化して符号化オーディオ信号を生成する段階を含む。本方法は、ユーザ入力に応じて、符号化オーディオ信号と同期関係で時変レンダリングパラメータのセットを符号化する段階に続く。レンダリングパラメータは、可変の知覚的に拡散された効果のユーザ選択を表す。
【0015】
本発明の第2の態様では、デジタル表現オーディオデータが記録された記録済みデータ記憶媒体が提供される。記録済みデータ記憶媒体は、多チャンネルオーディオ信号を表しデータフレームへフォーマットされた圧縮オーディオデータと、圧縮オーディオデータとの同期関係を伝達するようにフォーマットされたユーザ選択の時変レンダリングパラメータのセットとを含む。レンダリングパラメータは、再生時に多チャンネルオーディオ信号を修正するために適用されることになる時変拡散効果のユーザ選択を表す。
【0016】
別の実施形態では、デジタルオーディオ信号と同期関係でレンダリングパラメータを受信するように構成されたパラメータ復号化モジュールを備える、デジタルオーディオ信号を調節するための構成可能オーディオ拡散プロセッサが提供される。拡散プロセッサの好ましい実施形態では、デジタルオーディオ信号を受信して、パラメータ復号化モジュールからの制御に応答するように構成可能なリバーブレータモジュールが構成される。リバーブレータモジュールは、パラメータ復号化モジュールからの制御に応答して時間減衰定数を変化させるように動的に再構成可能である。
【0017】
本発明の第3の態様では、符号化オーディオ信号を受信して、複製復号化オーディオ信号を生成する方法が提供される。符号化オーディオ信号は、多チャンネルオーディオ信号を表すオーディオデータと、オーディオデータとの同期関係を伝達するようにフォーマットされたユーザ選択の時変レンダリングパラメータのセットとを含む。本方法は、符号化オーディオ信号及びレンダリングパラメータを受信する段階を含む。本方法は、符号化オーディオ信号を復号化して複製オーディオ信号を生成する段階に続く。本方法は、レンダリングパラメータに応答してオーディオ拡散プロセッサを構成する段階を含む。本方法は、オーディオ拡散プロセッサを用いて複製オーディオ信号を処理し、知覚的に拡散された複製オーディオ信号を生成する段階で終了する。
【0018】
別の実施形態では、多チャンネルデジタルオーディオ信号から多チャンネルオーディオを再生する方法が提供される。本方法は、多チャンネルオーディオ信号の第1のチャンネルを知覚的に拡散された方式で再生する段階を含む。本方法は、少なくとも1つの更なるチャンネルを知覚的に直接的な方式で再生する段階で終了する。第1のチャンネルは、再生の前にデジタル信号処理によって知覚的に拡散された効果を用いて調節することができる。第1のチャンネルは、明らかな音源を拡散させる音響心理効果を生成するのに十分に複雑な方式で変化する周波数依存の遅延を導入することによって調節することができる。
【0019】
当業者には、本発明の前述の及び他の特徴及び利点が以下の好ましい実施形態の詳細及び添付図面から明らかになろう。
【図面の簡単な説明】
【0020】
図1】機能モジュールをブロックによって象徴的に表した、本発明の符号器の態様のシステムレベルの概略図(「ブロック図」)である。
図2】機能モジュールを象徴的に表した、本発明の復号器態様のシステムレベルの概略図である。
図3】本発明で使用する、オーディオ、制御、及びメタデータを圧縮するのに適するデータフォーマット表現である。
図4】機能モジュールを象徴的に表した、本発明で用いるオーディオ拡散プロセッサの概略図である。
図5】機能モジュールを象徴的に表した、図4の拡散エンジンの実施形態の概略図である。
図5B】機能モジュールを象徴的に表した、図4の拡散エンジンの別の実施形態の概略図である。
図5C】従来の水平ラウドスピーカレイアウトにおける5チャンネル用途拡散器によってリスナの耳で得られる両耳間位相差(単位ラジアン)対周波数(最大400Hz)の例示的な音波プロットである。
図6】機能モジュールを象徴的に表した、図5に含まれるリバーブレータモジュールの概略図である。
図7】機能モジュールを象徴的に表した、図6のリバーブレータモジュールのサブモジュールを実装するのに適する全域通過フィルタの概略図である。
図8】機能モジュールを象徴的に表した、図6のリバーブレータモジュールのサブモジュールを実装するのに適するフィードバックくし形フィルタの概略図である。
図9図5の2つのリバーブレータ(異なる特定のパラメータを有する)を比較する、単純化した実施例に関する正規化周波数の関数としての遅延グラフである。
図10】本発明の復号器の態様での使用に適する、再生環境に関する、再生環境エンジンの概略図である。
図11】幾つかの構成要素を象徴的に表した、図5の拡散エンジンで使用するための利得行列及び遅延行列を計算するのに有用な「仮想マイクロフォンアレイ」を示す図である。
図12】機能モジュールを象徴的に表した、図4の環境エンジンのミックスエンジン・サブモジュールの概略図である。
図13】本発明の符号器の態様による方法のフローチャートである。
図14】本発明の復号器の態様による方法のフローチャートである。
【発明を実施するための形態】
【0021】
序論
本発明は、オーディオ信号、すなわち物理的な音声を表す信号の処理に関する。これらの信号は、デジタル電子信号によって表される。以下の説明では、概念を例示するためにアナログ波形で説明するが、本発明の一般的な実施形態は、デジタルバイト又はワードの時系列に関連して動作することになり、これらのバイト又はワードは、アナログ信号又は(最終的に)物理的な音声の離散近似を形成することを理解されたい。離散デジタル信号は、周期的にサンプリングされるオーディオ波形のデジタル表現に対応する。本技術分野で知られているように、波形は、注目する周波数において少なくともナイキストのサンプリング定理を満たすのに十分なレートでサンプリングする必要がある。例えば、一般的な実施形態では、約44,100サンプル/秒のサンプリングレートを用いることができる。或いは96khz等のより高いオーバーサンプリングを用いることができる。量子化方式及びビット解像度は、本技術分野で公知の原理に従って特定の用途の要件を満たすように選択する必要がある。一般的に本発明の手法及び装置は、複数のチャンネルにおいて相互依存的に適用されることになる。例えば、本発明の手法及び装置は、「サラウンド」オーディオシステム(2つよりも多くのチャンネルを有する)に関連して用いることができる。
【0022】
本明細書で用いる「デジタルオーディオ信号」又は「オーディオ信号」は、数学的抽象概念だけを表わすのではなく、機械又は装置による検出が可能な物理媒体に具現化又は保持される情報を表す。この用語は、記録信号又は送信信号を含み、パルスコード変調(PCM)を含むが、PCMには限定されない任意の符号化形態による送信を含むことを理解されたい。出力又は入力、又は実際には中間のオーディオ信号は、MPEG、ATRAC、AC3、又は米国特許第5,974,380号、米国特許第5,978,762号、及び米国特許第6,487,535号に説明されているDTS,Inc.に所有権のある方法を含む任意の様々な公知の方法よって符号化又は圧縮することができる。当業者には明らかなように、特定の圧縮法又は符号化法に対応するには、ある程度の計算の修正が必要とされる場合がある。
【0023】
本明細書では、「エンジン」という用語をしばしば用いるが、例えば、「生成エンジン」、「環境エンジン」、及び「ミックスエンジン」に言及する。この用語は、説明される特定の機能を実行するようにプログラミング又は構成された、任意のプログラミング可能な又は構成された電子論理モジュール及び/又は演算信号処理モジュールのセットを意味する。例えば、「環境エンジン」は、本発明の1つの実施形態では、プログラムモジュールによって制御されて「環境エンジン」に帰する機能を実行するプログラミング可能マイクロプロセッサである。もしくは、本発明の範囲から逸脱することなく、任意の「エンジン」又はサブプロセスの実現において、現場プログラミング可能ゲートアレイ(FPGA)、プログラミング可能デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、又は他の等価な回路を用いることができる。
【0024】
また、当業者であれば、本発明の適切な実施形態は、唯一のマイクロプロセッサしか必要としないことを理解できるはずである(複数のプロセッサによる並列処理は性能を改善することになるが)。従って、図示して本明細書に説明する様々なモジュールは、プロセッサベースの実装に関連して考える場合に、手続き又は一連の動作を表すものと理解することができる。デジタル信号処理技術では、ミキシング、フィルタリング、及び他の操作は、オーディオデータ列に対して連続的に操作して実行することが公知である。従って、当業者であれば、特定のプロセッサプラットフォームに実装することができる様々なモジュールは、C又はC++等の記号言語でプログラミングすることによって、どのように実装するかを理解できるはずである。
【0025】
本発明のシステム及び方法は、プロデューサ及び音響技師が、映画館及び家庭において良好に再生できる単一のミックスを作り出すことを可能にする。更に本方法は、DTS5.1「デジタルサラウンド」フォーマット(上記に引用した)等の標準フォーマットで下位互換の映画ミックスを生成するために利用できる。本発明のシステムは、人間聴覚システム(HAS)は、直接的な、すなわち知覚される音源に対応する方向から到達するものとして検出される音声と、拡散する、すなわちリスナの「回りの」、リスナを「取り巻く」、又は「包囲する」音声との間で区別をつける。例えば、リスナの片側又は片方でのみ拡散する音声を生成できることを理解することは重要である。この場合、直接と拡散との間の差は、音源方向を特定する能力に対する音声が到達する実質的な空間領域を特定する能力の差である。
【0026】
人間聴覚システムに関する直接音は、ある程度の両耳間時間遅延(ITD)及び両耳間レベル差(ILD)(いずれも周波数の関数である)でもって両方の耳に到達する音声であり、ITD及びILDは、いくつかの臨界帯域の周波数範囲にわたって一貫した方向を示す(Brian C.J.Moore著「The Psychology of Hearing(聴取の心理学)」に説明されている)。逆に、拡散信号は、ITD及びILDにおける周波数又は時間にわたって一貫性がほとんどなく、例えば、単一の方向から到達するものとは対照的に、回りにある残響の感覚に対応する状況の「混乱した」ITD及びILDを有することになる。本発明に関連して用いる「拡散音」は、1)波形の前縁(低周波数における)と高周波数の波形包絡線とが、様々な周波数において耳に同時に到達しない、及び2)2つの耳の間の両耳間時間差(ITD)が周波数と共に実質的に変化する、という条件の少なくとも一方、最も好ましくは両方が発生するように音響相互作用によって処理された、又は影響を受けた音声を意味する。本発明との関連において「拡散信号」又は「知覚的拡散信号」は、リスナに向けて再生される場合に拡散音の効果を作り出すように電子的処理又はデジタル処理されたオーディオ信号(通常は多チャンネルの)を意味する。
【0027】
知覚的拡散音では、到達時間及びITDにおける時間変化は、音源を拡散させる音響心理効果を引き起こすのに十分な、周波数に伴う複雑かつ不規則な変化を示す。
【0028】
本発明によれば、好ましくは、拡散信号は、下記に説明する簡単な残響法を用いることによって生成される(好ましくは、下記に同様に説明するミックス処理との組み合わせで)。信号処理だけによるか、又は信号処理と例えば「拡散スピーカ」又はスピーカセットのいずれかにの多放射スピーカシステムによる両耳での到達時間によって拡散音を生成する他の手法が存在する。
【0029】
本明細書で用いる「拡散」の概念は、化学拡散、前述の音響心理効果を生成しない非相関法、又は他の技術及び科学技術において生じる用語「拡散」の何らかの他の無関係な使用と混同されないようにされたい。
【0030】
本明細書で用いる「送信する」又は「チャンネル経由で送信する」は、電子的送信、光学的送信、衛星中継、有線又は無線の通信、インターネット又はLAN或いはWAN等のデータネットワークを介しての送信、磁気形態、光学形態、又は他の形態(DVD、「ブルーレイ」、又は同様のものを含む)等の耐久媒体上の記録を含むが、これらに限定されない、異なる時間又は場所において発生する可能性がある再生のためにデータを転送、保存、又は記録する何らかの方法を意味する。この点に関して、転送、保管、又は中間記憶のための記録は、チャンネルを経由した送信の実例と考えることができる。
【0031】
本明細書で用いる「同期」又は「同期関係」は、各信号又は各部分信号の間の時間関係を維持又は示すデータ又は信号の構造化の何らかの方法を意味する。より具体的には、オーディオデータとメタデータとの間の同期関係は、両方共に時間的に変化する又は可変の信号であるメタデータとオーディオデータとの間の定義された時間同期性を維持又は示す何らかの方法を意味する。一部の例示的な同期法は、時間領域多重化(TDMA)、インターリービング、周波数領域多重化、タイムスタンプ付きパケット、複数インデックス付き同期可能データ部分ストリーム、同期又は非同期のプロトコル、IP又はPPPのプロトコル、ブルーレイディスク協会又はDVD規格によって定義されたプロトコル、MP3、又は他の定義済みフォーマットを含む。
【0032】
本明細書で用いる「受信する」又は「受信器」は、送信信号又は記憶媒体からデータを受信する、読み取る、復号化する、又は取得する何らかの方法を意味するものとする。
【0033】
本明細書で用いる「デマルチプレクサ」又は「解凍器」は、オーディオ信号をレンダリングパラメータ等の他の符号化メタデータから解凍、逆多重化、又は分離するために用いることができる装置又は方法、例えば実行可能コンピュータプログラムモジュールを意味する。データ構造は、オーディオ信号データ及びレンダリングパラメータを表すために本発明で用いられるメタデータに加えて、他のヘッダーデータ及びメタデータを含むことができることに留意されたい。
【0034】
本明細書で用いる「レンダリングパラメータ」は、記録又は送信される音声を受信時又は再生の前に修正することが意図された方法を象徴的に又は略式に伝達するパラメータのセットを表す。この用語は、詳細には、再生時に多チャンネルオーディオ信号を修正するために、受信器において適用すべき1つ又はそれ以上の時変残響効果の大きさ及び品質のユーザ選択を表すパラメータセットを含む。また、好ましい実施形態では、この用語は、例えば、複数のオーディオチャンネルセットのミックスを制御するミックス係数セットとしての他のパラメータを含む。本明細書で用いる「受信器」又は「受信器/復号器」は、送信されたもの又は記録されたものに関わらず、デジタルオーディオ信号を受信、復号化、又は再生することができる何らかのデバイスを広義に意味する。この用語は、例えばオーディオ−ビデオ受信器等の何らかの限られた意味に限定されない。
【0035】
システム概要
図1は、本発明に従ってオーディオを符号化、送信、及び再生するためのシステムのシステムレベルの概要を示している。対象音声102が音響環境104内で広がり、多チャンネルマイクロフォン装置106によってデジタルオーディオ信号へ変換される。デジタル化された音声を生成するために、マイクロフォン、アナログ−デジタル変換器、増幅器、及び符号化装置のいくつかの公知の構成を利用できることを理解されたい。生の音声とは別に、又はそれに加えて、アナログ記録又はデジタル記録のオーディオデータ(「トラック」)は、記録デバイス107で示すように、入力オーディオデータを供給することができる。
【0036】
本発明を用いる好ましいモードでは、処理すべきオーディオソース(生の又は記録された)は、実質的に「ドライ」な形態で、言い換えると、比較的エコーのない環境で、又は著しい残響のない直接的な音声として取り込む必要がある。取り込まれたオーディオソースは、一般的に「ステム」と呼ぶ。場合によっては、幾つかのダイレクトステムは、説明するエンジンを用いて「生」で記録された他の信号と良好な空間的印象を与える場所でミックスしてもよい。しかしながら、このことは、映画館(大きい部屋)内で音声を良好にレンダリングする問題により、映画館では普通ではない。実質的にドライなステムを使用すると、技術者は、残響のある映画館(ミキサー制御を必要とすることなく映画館の建築物自体からある程度の残響が発生する)で使用するために、オーディオソーストラックのドライ特性を維持しながら、メタデータの形態で望ましい拡散効果又は残響効果を追加することができる。
【0037】
メタデータ生成エンジン108は、オーディオ信号入力(音声を表す生音源又は記録音源から得られる)を受信し、このオーディオ信号をミックス技術者110の制御の下で処理する。更に技術者110は、メタデータ生成エンジン108とインターフェース接続される入力デバイス109を介してメタデータ生成エンジン108と対話する。ユーザ入力によって、技術者は、オーディオ信号と同期関係で芸術的ユーザ選択を表すメタデータの作成を指示することができる。例えば、ミックス技術者110は、入力デバイス109を介して、同期された映画シーン変更に対して直接的な/拡散したオーディオ特性(メタデータによって表された)を適合させるように選択する。
【0038】
これに関連して「メタデータ」は、一連の符号化又は量子化されたパラメータによる抽象化された、パラメータ化された、又は略式の表現を表すと理解されたい。例えば、メタデータは、リバーブレータを受信器/復号器に設定できる残響パラメータ表現を含む。メタデータは、ミックス係数及びチャンネル間遅延パラメータ等の他のデータを含むこともできる。生成エンジン108によって生成されるメタデータは、増分又は時間的「フレーム」で時間変化することになり、フレームメタデータは、対応するオーディオデータの特定の時間間隔に関係する。
【0039】
時変オーディオデータストリームは、多チャンネル符号化装置112によって符号化又は圧縮されて、同じ時間に関係する対応するメタデータと同期関係で符号化オーディオデータを生成する。好ましくは、メタデータ及び符号化オーディオ信号データは、多チャンネルマルチプレクサ114によって組み合わせたデータフォーマットに多重化される。オーディオデータを符号化するために、多チャンネルオーディオ圧縮の任意の公知の方法を用いることができるが、特定の実施形態では、米国特許第5,974,380号、米国特許第5,978,762号、及び米国特許第6,487,535号に説明されている符号化法が好ましい(DTS5.1オーディオ)。また、オーディオデータを符号化するために、無損失符号化又はスケーラブル符号化等の他の拡張機能及び改善方法を用いることができる。マルチプレクサは、メタデータと対応するオーディオデータとの間の同期関係を、構文をフレーム化すること又は任意の他の同期化データの追加によって維持する必要がある。
【0040】
生成エンジン108は、ユーザ入力に基づいて、動的オーディオ環境を表す符号化メタデータの時変ストリームを生成する点で、前述の従来の符号器とは異なる。この生成を実施する方法については、以下に図14と関連して具体的に説明する。好ましくは、このように生成されたメタデータは、組み合わせたビットフォーマット又は「フレーム」に多重化又は圧縮され、データフレームの所定の「補足データ」フィールドに挿入され、下位互換性が与えられる。もしくは、メタデータは、主オーディオデータ転送ストリームと同期させるための何らかの手段を用いて別個に送信することができる。
【0041】
生成処理時の監視を可能にするために、生成エンジン108は監視復号器116とインターフェース接続され、監視復号器116は、オーディオストリームとメタデータとの組み合わせを逆多重化及び復号化して、スピーカ120において監視信号を再生する。好ましくは、監視スピーカ120は、標準の公知の構成(5チャンネルシステムにおけるITU−R BS775(1993)等)で構成する必要がある。標準的な又は一貫した構成を利用すると、ミックスが容易になり、実際の環境と標準又は公知の監視環境との間の比較に基づいて、再生を実際の聴取環境にカスタマイズすることができる。監視システム(116及び120)により、技術者は、メタデータ及び符号化オーディオの効果をリスナが知覚するのと同じように知覚できる(以下に受信器/復号器との関連で説明する)。聴覚フィードバックに基づいて、技術者は、所望の音響心理的効果を再生するためのより正確な選択を行うことができる。更にミックスアーティストは、「映画館」設定と「ホームシアター」設定との間で切り替えを行うことができので、両方を同時に制御することが可能になる。
【0042】
監視復号器116は、以下に図2との関連で詳細に説明する受信器/復号器と実質的に等しい。
【0043】
符号化の後に、オーディオデータストリームは、通信チャンネル130経由で送信されるか、又は何らかの媒体(例えば、DVD又は「ブルーレイ」ディスク等の光ディスク)に記録される(同等に)。本開示の目的で、記録は送信の特殊な場合と考えることができることを理解されたい。データは、送信又は記録のために、例えば、巡回冗長検査(CRC)又は他のエラー訂正を追加すること、更なるフォーマット情報及び同期情報を追加すること、物理的チャンネル符号化等によって様々な層内に更に符号化できることを理解されたい。これらの従来の送信形態は本発明の作動と干渉しない。
【0044】
次に図2を参照すると、送信の後に、オーディオデータ及びメタデータ(合わせて「ビットストリーム」)は受信され、メタデータは、デマルチプレクサ232で分離される(例えば、所定のフォーマットを有するデータフレームの単純な逆多重化又は解凍によって)。符号化オーディオデータは、オーディオ復号器236によって、オーディオ符号器が用いるものと相補的な手段によって復号化され、環境エンジン240の入力に送られる。メタデータは、メタデータ復号器/解凍器238によって解凍され、環境エンジン240の制御入力に送られる。環境エンジン240は、適宜、動的な時変方式で受信及び更新される受信メタデータによって制御される方法でオーディオデータを受信、調節、及び再ミックスする。修正又は「レンダリング」されたオーディオ信号は、続いて環境エンジンから出力され、聴取環境246でスピーカ244によって再生される(直接又は最終的に)。
【0045】
本システムにおいて、所望の芸術効果に応じて、複数のチャンネルは、一緒に又は個別に制御できることを理解されたい。
【0046】
以下に本発明のシステムを詳細に説明するが、前述の一般的なシステムレベル表現で言及した構成要素又はサブモジュールの構造及び機能が詳細に説明される。最初に符号器の形態の構成要素又はサブモジュールを説明し、次に、受信器/復号器の形態のものを説明する。
【0047】
メタデータ生成エンジン
本発明の符号化の態様によれば、デジタルオーディオデータは、送信又は記憶の前にメタデータ生成エンジン108によって処理される。
【0048】
メタデータ生成エンジン108は、専用ワークステーションとして、又は本発明によりオーディオ及びメタデータを処理するようにプログラミングされた汎用コンピュータに実装することができる。
【0049】
本発明のメタデータ生成エンジン108は、拡散音及び直接音のその後の合成(制御されたミックスにおける)を制御し、更に個々のステム又はミックス音の残響時間を制御し、更に合成すべき疑似音響反射の密度を制御し、更に環境エンジン(以下に説明する)のフィードバックくし形フィルタのカウント、長さ、及び利得、並びに全域通過フィルタのカウント、長さ、及び利得を制御し、更に知覚される信号の方向及び距離を制御するのに十分なメタデータを符号化する。符号化メタデータには比較的小さいデータ空間(例えば、毎秒数キロビット)を用いることが想定される。
【0050】
好ましい実施形態において、メタデータは、N個の入力チャンネルからM個の出力チャンネルへのマッピングを特徴づけて制御するのに十分なミックス係数及び遅延セットを更に含み、この場合、NとMとは等しい必要はなく、いずれかが大きくてもよい。
【0051】
表1
【0052】
表1は、本発明により生成される例示的メタデータを示している。フィールドa1は、「直接レンダリング」フラグを表し、これは、各チャンネルに対して、合成拡散の導入なしに再生すべきチャンネル(例えば、内在性の残響を伴って記録されるチャンネル)のための選択肢を規定するコードである。このフラグは、ミックス技術者が、受信器において拡散効果を用いて処理することを選択しないトラックを規定することによって、ユーザ制御される。例えば、実際のミックスの状況では、技術者は、「ドライ」(残響又は拡散がない)で記録されなかったチャンネル(トラック又は「ステム」)に遭遇する可能性がある。このステムでは、環境エンジンは、追加の拡散又は残響を導入することなく、このチャンネルをレンダリングすることができるように、「ドライ」で記録されていないことのフラグを立てる必要がある。本発明によると、直接又は拡散に関わらず、何らかの入力チャンネル(ステム)に、直接再生のためのタグ付けを行うことができる。この特徴は、システムの柔軟性を大幅に高める。従って、本発明のシステムは、直接入力チャンネルと拡散入力チャンネルとの間の分離(及び以下に説明する拡散出力チャンネルからの直接出力チャンネルの独立した分離)を可能にする。
【0053】
「X」と表すフィールドは、予め開発された標準リバーブセットと関係するエキサイトコードのために確保される。対応する標準リバーブセットは、復号器/再生機器に記憶され、以下に拡散エンジンに関連して説明するように、メモリから参照することによって取得することができる。
【0054】
フィールド「T60」は、残響減衰パラメータを表す、又は象徴する。本技術分野では、記号「T60」は、多くの場合、ある環境での残響音量が、直接音の音量よりも60デシベル低いところまで低下するのに必要とされる時間を指すために用いられる。本明細書ではこの記号をそれに準じて用いるが、残響減衰時間の他の測定基準を代用できることを理解されたい。好ましくは、減衰は、次式と同様の形式で即座に合成することができるように、このパラメータを、減衰時間定数(減衰指数関数の指数部にあるもの)に関連付ける必要がある。
Exp(−kt) (式1)
ここでkは減衰時間定数である。複数チャンネル、複数ステム、又は複数出力チャンネル、又は合成聴取空間の知覚幾何学的形状に対応して1つよりも多くのT60パラメータを送信することができる。
【0055】
パラメータA3〜Anは、(それぞれのチャンネルについて)拡散エンジンが、何回の疑似反射をオーディオチャンネルに適用することになるかを直接制御する単一又は複数の密度値(例えば、遅延の長さ又は遅延のサンプル数に対応する値)を表す。以下に拡散エンジンに関連して詳細に説明するように、より小さい密度値は、より複雑でない拡散を生成することになる。「低密度」はミュージカル設定では一般的に不適切であるが、例えば、映画の登場人物が管内を移動する場合、硬質の(金属、コンクリート、岩、等の)壁を有する部屋の中を移動する場合、又はリバーブが非常に「震える」特徴をもつ必要がある他の状況では非常に忠実性が高い。
【0056】
パラメータB1〜Bnは、環境エンジン(以下に説明する)の残響モジュールの構成を完全に表す「リバーブ構成」値を表す。1つの実施形態では、これらの値は、残響エンジン(以下に詳細に説明する)の1つ又はそれ以上のフィードバックくし形フィルタにおける符号化されたカウント、段の長さ、及び利得、並びにSchroeder全域通過フィルタのカウント、長さ、及び利得を表す。パラメータを送信することに加えて、環境エンジンは、プロファイルによって編集された事前選択リバーブ値のデータベースを有することができる。この場合に、生成エンジンは、記憶されたプロファイルからのプロファイルを象徴的に表す、又は選択するメタデータを送信する。記憶されたプロファイルは、より低い柔軟性しか与えないが、メタデータに対する記号コードを節約することによってより大幅な圧縮を可能にする。
【0057】
残響に関するメタデータに加えて、生成エンジンは、復号器においてミックスエンジンを制御する更なるメタデータを生成して送信する必要がある。再度表1を参照すると、パラメータの更なるセットは、好ましくは、音源位置(仮定上のリスナ又は意図された合成「部屋」又は「空間」に対する)又はマイクロフォンの位置を示すパラメータ、再生されるチャンネル内の直接/拡散ミックス音を制御するために復号器によって用いられる距離パラメータのセットD1〜DN、復号器から異なる出力チャンネルへのオーディオの到達のタイミングを制御するために用いられる遅延値の組L1〜LN、及び異なる出力チャンネルのオーディオの振幅変化を制御するために復号器によって用いられる利得値のセットG1〜Gnを含む。利得値は、オーディオミックス音の直接チャンネルと拡散チャンネルとで別個に規定することができる、又は単純なシナリオにおいて全体的に規定することができる。
【0058】
前記に規定したミックスメタデータは、本発明の全体的なシステムの入力及び出力の観点から理解できるように、一連の行列として好適に表される。本発明のシステムは、最も一般的なレベルにおいて、複数のN個の入力チャンネルをM個の出力チャンネルへマッピングし、この場合NとMとは等しい必要はなく、いずれかが大きくてもよい。N個の入力チャンネルからM個の出力チャンネルへとマッピングするための利得値の一般的で完全なセットを規定するのに次元Nの行列Gで十分であることを容易に理解できるはずである。入力−出力遅延及び拡散パラメータを完全に規定するために、同様のN×Mの行列を好適に用いることができる。もしくは、頻繁に用いられるミックス行列を簡潔に表すために、コードシステムを用いることができる。その後、行列は、各コードが対応する行列に関係付けられている記憶されたコードブックを参照することによって、復号器において容易に復元することができる。
【0059】
図3は、時間領域内で多重化されたオーディオデータとメタデータとを送信するのに適する一般的なデータフォーマットを示している。具体的には、例示的なフォーマットは、DTS,Inc.に譲渡された米国第5,974,380号に開示されているフォーマットの拡張版である。例示的なデータフレームは全体的に300で示される。好ましくは、フレームヘッダーデータ302は、データフレームの始端の近くに置かれ、これに複数のオーディオサブフレーム304、306、308、及び310にフォーマットされたオーディオデータが続く。ヘッダー302又は随意選択的なデータフィールド312の1つ又はそれ以上のフラグは、データフレームの終端又はその近くに有効に含めることができるメタデータ拡張部314の存在及び長さを示すのに用いることができる。他のデータフォーマットを用いることができ、レガシーマテリアルは、本発明による復号器で再生することができるように、下位互換性を維持することが好ましい。古い復号器は、拡張フィールドのメタデータを無視するようにプログラミングされている。
【0060】
本発明によると、圧縮されたオーディオと符号化されたメタデータとは多重化又はさもなければ同期され、その後、マシン読み取り可能媒体上に記録されるか、又は通信チャンネルを経由して受信器/レコーダに送信される。
【0061】
メタデータ生成エンジンの使用
ユーザの観点からは、メタデータ生成エンジンを用いる方法は直接的であり、公知の工学的手法と同様と思われる。好ましくは、メタデータ生成エンジンは、グラフィックユーザインターフェース(GUI)に合成オーディオ環境(「部屋」)表現を表示する。GUIは、様々なステム又は音源の位置、サイズ、及び拡散を、リスナの位置(例えば中央における)並びに部屋のサイズ及び形状の何らかの図形表現と共に象徴的に表示するようにプログラミングすることができる。ミックス技術者は、マウス又はキーボード入力デバイス109を用いて、グラフィックユーザインターフェース(GUI)を参照しながら、記録されたステムから作動する時間間隔を選択する。例えば、技術者は、時間インデックスから時間間隔を選択することができる。続いて技術者は、選択した時間間隔の間のステムに関する合成音声環境を対話的に変更する情報を入力する。この入力に基づいて、メタデータ生成エンジンは、適切なメタデータを計算及びフォーマットして、適宜マルチプレクサ114に送り、対応するオーディオデータと組み合わせる。好ましくは、標準プリセットのセットは、頻繁に遭遇する音響環境に応じてGUIから選択可能である。続いてメタデータを生成するために、プリセットに応じたパラメータは、事前記憶された参照テーブルから取得される。標準プリセットに加えて、好ましくは、熟練技術者は、カスタマイズされた疑似音響を生成するために手動制御を行うことができる。
【0062】
残響パラメータのユーザ選択は、図1と関連して説明した監視システムを使用して支援される。このようにして、監視システム116及び120からの音響フィードバックに基づいて所望の効果を作り出すように残響パラメータを選択できる。
【0063】
受信器/復号器
復号器の態様によれば、本発明は、デジタルオーディオ信号の受信、処理、調節、及び再生のための方法及び装置を含む。前述のように、復号器/再生機器システムは、デマルチプレクサ232、オーディオ復号器236、メタデータ復号器/解凍器238、環境エンジン240、スピーカ又は他の出力チャンネル244、聴取環境246を含み、好ましくは再生環境エンジンも含む。
【0064】
復号器/再生機器の機能ブロックは、図4に詳細に示す。環境エンジン240は、ミックスエンジン404と直列に拡散エンジン402を含む。以下の各々を詳細に説明する。環境エンジン240は、N及びMが整数である(場合によっては等しくなく、この場合どちらが大きい整数であってもよい)場合に、N個の入力をM個の出力にマッピングする多次元方式で演算を行うことに留意されたい。
【0065】
メタデータ復号器/解凍器238は、入力として符号化、送信、又は記録されたデータを多重化フォーマットで受信し、メタデータとオーディオ信号データとに分離して出力する。オーディオ信号データは、復号器236に送信され(入力236INとして)、メタデータは、様々なフィールドへと分離され、環境エンジン240の制御入力に制御データとして出力される。残響パラメータは拡散エンジン402に送られ、ミックスパラメータ及び遅延パラメータはミックスエンジン416に送られる。
【0066】
復号器236は、符号化されたオーディオ信号データを受信し、データを符号化するために用いられものと相補的な方法及び装置によって復号化する。復号化されたオーディオは、適切なチャンネルへ体系化され、環境エンジン240に出力される。復号器236の出力は、ミックス操作及びフィルタリング操作を可能にする何らかの形式で表される。例えば、特定の用途に対して十分なビット深度を有するリニアPCMを適切に用いることができる。
【0067】
拡散エンジン402は、復号器236からN個のチャンネルのデジタルオーディオ入力を受信し、ミックス操作及びフィルタリング操作を可能にする形式へと復号化される。本発明によるエンジン402は、デジタルフィルタの使用を可能にする時間領域表現で動作することが現時点では好ましい。本発明によると、無限インパルス応答(IIR)は、現実の物理的な音響系(低域通過プラス位相分散特性)をより正確に疑似する分散を有することからIIRトポロジーが特に好ましい。
【0068】
拡散エンジン
拡散エンジン402は、信号入力408において(N個のチャンネルの)信号入力信号を受信し、復号化され、逆多重化されたメタデータが制御入力406によって受信される。エンジン402は、入力信号408を、メタデータによって制御されるので、残響及び遅延を追加の方式で調節し、それによって直接及び拡散のオーディオデータが生成される(複数の処理済みチャンネルに)。本発明によると、拡散エンジンは、少なくとも1つの「拡散」チャンネル412を含む中間の処理済みチャンネル410を生成する。直接チャンネル414と拡散チャンネル412との両方を含む複数の処理済みチャンネル410は、続いてミックスエンジン416で、メタデータ復号器/解凍器238から受信されたミックスメタデータの制御の下でミックスされ、ミックスされたデジタルオーディオ出力420が生成される。具体的には、ミックスされたデジタルオーディオ出力420は、受信されたメタデータの制御の下でミックスされた直接オーディオと拡散オーディオとのミックスオーディオの複数のM個のチャンネルを与える。特定の新しい実施形態において、出力チャンネルは、専用「拡散」スピーカによる再生に適する1つ又はそれ以上の専用「拡散」チャンネルを含むことができる。
【0069】
次に図5を参照すると、拡散エンジン402の実施形態の更なる詳細を見ることができる。明瞭化のために、1つのオーディオチャンネルのみを示しており、多チャンネルオーディオシステムでは、複数のかかるチャンネルが並列分岐で用いられることを理解されたい。従って、N個のチャンネルのシステム(N個のステムを並列で処理することができる)では、図5のチャンネル経路が、実質的にN回複製されることになる。拡散エンジン402は、構成可能な修正されたSchroeder−Moorerリバーブレータとして説明することができる。従来のSchroeder−Moorerリバーブレータとは異なり、本発明のリバーブレータは、FIR「初期反射」段階を排除し、フィードバック経路にIIRフィルタを追加する。フィードバック経路のIIRフィルタは、フィードバックに分散を作り出し、並びに変化するT60を周波数の関数として作り出す。この特性は、知覚的に拡散された効果をもたらす。
【0070】
入力ノード502における入力オーディオチャンネルデータは、前置フィルタ504によって事前にフィルタリングされ、DC成分が、DC阻止段506によって除去される。前置フィルタ504は5タップFIR低域通過フィルタであり、自然の残響では見られない高周波エネルギーを除去する。DC阻止段506は、15ヘルツ及びそれ以下のエネルギーを除去するIIR高域通過フィルタである。DC阻止段506は、DC成分が全くない入力を保証できない場合は必要である。DC阻止段506の出力は、残響モジュール(「リバーブセット」508)を経由して供給される。各チャンネルの出力は、スケール調整モジュール520で適切な「拡散利得」の乗算によってスケール調整される。拡散利得は、入力データに付随するメタデータ(表1及び関連する前記の説明を参照されたい)として受信される直接/拡散パラメータに基づいて計算される。続いて各拡散信号チャンネルは、対応する直接成分(入力502からフィードフォワードされ、直接利得モジュール524によってスケール調整された)と加算され(加算モジュール522において)、出力チャンネル526が生成される。
【0071】
別の実施形態では、拡散エンジンは、拡散利得及び拡散遅延並びに直接利得及び直接遅延は、拡散効果が適用される前に適用されるように構成される。次に図5bを参照すると、拡散エンジン402の別の実施形態の更なる詳細を見ることができる。明瞭化のために、1つのオーディオチャンネルのみを示しており、多チャンネルオーディオシステムでは、複数のかかるチャンネルが並列分岐で用いられることになることを理解されたい。従って、N個のチャンネルのシステム(N個のステムを並列で処理することができる)では、図5bのチャンネル経路が実質的にN回複製されることになる。拡散エンジンは、チャンネル毎に特定の拡散効果、拡散度、並びに直接利得及び直接遅延を用いる、構成可能なユーティリティ拡散器として説明することができる。
【0072】
オーディオ入力信号408は拡散エンジンに入力され、適切な直接利得及び直接遅延が、チャンネル毎に適宜適用される。その後、適切な拡散利得及び拡散遅延は、チャンネル毎にオーディオ入力信号に適用される。その後、オーディオ入力信号408は、チャンネル毎にオーディオ出力信号に拡散密度又は拡散効果を適用するためにユーティリティ拡散器のバンク(UD1〜UD3)(以下に詳しく説明する)によって処理される。拡散密度又は拡散効果は、1つ又はそれ以上のメタデータパラメータによって決定することができる。
【0073】
各オーディオチャンネル408において、各出力チャンネルに対して定義された遅延寄与及び利得寄与の異なるセットが存在する。これらの寄与は、直接利得及び直接遅延並びに拡散利得及び拡散遅延として定義される
【0074】
その後、全てのオーディオ入力チャンネルからの組み合わせ寄与は、ユーティリティ拡散器のバンクによって、各入力チャンネルに異なる拡散効果が適用されるように処理される。具体的には、これらの寄与は、各入力チャンネル/出力チャンネル接続の直接及び拡散の利得及び遅延を定義する。
【0075】
処理が行われると、拡散信号及び直接信号412、414は、ミックスエンジン416に出力される。
【0076】
残響モジュール
各残響モジュールは、リバーブセット(508〜514)を含む。本発明によれば、個々のリバーブセット(508〜514のうちの)は、好ましくは図6に示すように実装される。複数のチャンネルは実質的に並列処理されるが、説明の明瞭化のために1つのチャンネルのみを示している。入力ノード602における入力オーディオチャンネルデータは、直列の1つ又はそれ以上のSchroeder全域通過フィルタ604によって処理される。好ましい実施形態において、2つのフィルタが使用され、2つのフィルタ604及び606は直列に示されている。フィルタ処理された信号は、続いて複数の並列分岐へ分割される。各分岐は、フィードバックくし形フィルタ608から620によってフィルタリングされ、フィルタ処理されたくし形フィルタ出力は、加算ノード622において組み合わせられる。メタデータ復号器/解凍器238によって復号化されるT60メタデータは、フィードバックくし形フィルタ608〜620における利得を計算するために用いられる。計算法に関する詳細は以下に示す。
【0077】
出力を拡散させるためには、ループが時間的に決して一致しないことを確実にすることが好都合なことから(これは、この一致時間の信号を強化することになる)、フィードバックくし形フィルタ608〜620の長さ(段Z−n)及びSchroeder全域通過フィルタ604及び606のサンプル遅延数は、好ましくは素数セットから選択される。素数サンプル遅延値の使用は、この一致及び強化を排除する。好ましい実施形態では、全域通過遅延の7つのセット及びコム遅延の7つの独立したセットが用いられ、デフォルトパラメータ(復号器に記憶された)から得ることができる最大49個の非相関リバーブレータの組み合わせが与えられる。
【0078】
好ましい実施形態では、全域通過フィルタ604及び606は、特に各オーディオチャンネル604及び606で素数から慎重に選ばれた遅延を用い、604及び606での遅延の和が合計で120回のサンプル期間になるように遅延を用いる。(合計で120になる利用可能な幾つかの素数対が存在する)再生されるオーディオ信号においてITDの多様性を生成するために、好ましくは、異なるオーディオ信号チャンネルにおいて異なる素数対が用いられる。フィードバックくし形フィルタ608〜620の各々は、900回及びそれ以上のサンプル期間の範囲、最も好ましくは900〜3000回のサンプル期間の範囲の遅延を用いる。以下に完全に説明するように、非常に多くの異なる素数の使用は、周波数の関数としての遅延の非常に複雑な特性を生じる。複雑な周波数対遅延特性は、再生時に周波数依存遅延が導入されることになる音声を生成することによって、知覚的に拡散された音声を生成する。従って、対応する再生音声では、オーディオ波形の前縁は、様々な周波数において耳に同時に到達せず、低い周波数は、様々な周波数において耳に同時に到達しない。
【0079】
拡散音場の生成
拡散場では、音声が到来した方向を識別することは不可能である。
【0080】
一般的に、拡散音場の典型的な実施例は、部屋の中の残響音声である。拡散の知覚は、残響しない(例えば、拍手、雨、風騒音、又はぶんぶん飛んでいる虫の大群に囲まれている)音場で体験することもできる。
【0081】
モノラル記録は、残響の感覚(すなわち音声減衰が時間的に延長される感覚)を取り込むことができる。しかしながら、残響音場の拡散の感覚を再生する段階は、かかるモノラル記録を、ユーティリティ拡散器を用いて、又はより一般的には、再生音声に対して拡散を与えるように設計された電気音響再生を用いて処理する段階を必要とすることになる。
【0082】
ホームシアターにおける拡散音の再生は、幾つかの手法で実現することができる。1つの手法は、拡散感覚を作り出すスピーカアレイ又はラウドスピーカアレイを実際に構築することである。この構築が実行不可能である場合には、拡散放射パターンを生み出すサウンドバー様の装置を作成することもできる。最後に、これらの全てが利用不能であり、標準の多チャンネルラウドスピーカ再生システムを介してのレンダリングが必要とされる場合には、いずれか1つの到達のコヒーレンスを、拡散感覚を体験することができる程度まで妨害することになる干渉を直接経路の間に作り出すために、ユーティリティ拡散器を用いることができる。
【0083】
ユーティリティ拡散器は、ラウドスピーカ又はヘッドフォンに対して空間音声拡散の感覚をもたらすことが意図されたオーディオ処理モジュールである。このことは、ラウドスピーカチャンネル信号の間のコヒーレンスを一般的に非相関にする又は破壊する様々なオーディオ処理アルゴリズムを用いることによって実現することができる。
【0084】
ユーティリティ拡散器を実装する1つの方法は、元々、多チャンネル疑似残響のために設計されたアルゴリズムを用い、このアルゴリズムを、単一の入力チャンネル又は幾つかの相関チャンネルから幾つかの無相関/非コヒーレントチャンネルを出力するように構成する(図6及び付随テキストに示すように)段階を含む。かかるアルゴリズムは、顕著な残響効果を生成しないユーティリティ拡散器を得るように修正することができる。
【0085】
ユーティリティ拡散器を実装する第2の方法は、元々、モノラルオーディオ信号から空間的に拡張された音源(点音源とは対照的に)を疑似するように設計されたアルゴリズムを用いる段階を含む。かかるアルゴリズムは、包囲音を疑似するように修正することができる(残響の感覚を作り出すことなく)。
【0086】
ユーティリティ拡散器は、各々がラウドスピーカ出力チャンネルのうちの1つに適用される(図5bに示すように)短減衰リバーブレータ(T60=0.5秒又はそれ以下)のセットを用いることによって簡単に実現することができる。好ましい実施形態では、このユーティリティ拡散器は、1つのモジュール内の時間遅延並びにモジュール間の差分時間遅延が、周波数に対して複雑な様式で変化し、リスナのところで低周波数における到達の位相分散を生じること、並びに高周波数における信号包絡線の修正を生じることを保証するように設計される。この拡散器は、周波数に対して略一定のT60を有することになり、実際の「残響」音声に対してそれ自体単独で用いられないので一般的なリバーブレータではない。
【0087】
実施例として、図5Cは、このユーティリティ拡散器によって作り出された両耳間位相差をプロットしている。垂直の目盛りはラジアンであり、水平の目盛りは周波数領域の0Hzから400Hz前後までの領域である。詳細を見ることができるように、水平の目盛りは拡大されている。尺度はラジアンであり、サンプル数又は時間単位ではないことに留意されたい。このプロットは、両耳間時間差がどれ位激しく混乱しているかを明確に示している。片方の耳における周波数全域での時間遅延は示されていないが、この遅延は本質的に同じであり、若干複雑度が低い。
【0088】
ユーティリティ拡散器を実現するための別の手法は、Faller,C.著「Parametric multichannel audio coding: synthesis of coherence cues(パラメトリック多チャンネルオーディオ符号化:コヒーレンスキューの合成)」、IEEE Trans.on Audio, Speech, and Language Processing(オーディオ、発話、及び言語の処理に関するIEEE会報)、第14巻第1号、2006年1月により詳しく説明されている周波数領域疑似残響、又はKendall,G.著「The decorrelation of audio signals and its impact on spatial imagery(オーディオ信号の非相関及び空間イメージングに対するその影響)」、Computer Music Journal(コンピュータ音楽誌)、第19巻第4号、1995年冬、及びBoueri,M.及びKyriakakis,C.著「Audio signal decorrelation based on a critical band approach(臨界帯域手法に基づくオーディオ信号非相関)」、117th AES Convention(第117回AES会議)、2004年10月に詳細に説明されている、時間領域又は周波数領域で実現される全域通過フィルタの使用を含む。
【0089】
拡散が1つ又それ以上のドライチャンネルから規定される状況において、より一般的な残響システムは、ユーティリティ拡散器と同じエンジンを用いるが、コンテンツ作成者が望むT60対周波数プロファイルを作り出す簡単な修正によってユーティリティ拡散と実際の知覚可能な残響との両方を与えることは完全に可能なので、非常に適切である。図6に示されるような修正されたSchroeder−Moorerリバーブレータは、コンテンツ作成者が望む厳密に実用的な拡散又は聴取可能な残響のいずれかを提供することができきる。本システムを用いる場合、各リバーブレータで用いられる遅延は、互いに素であるように有用に選択することができる。この選択は、同様であるが、互いに素数のセットをフィードバッククシ形フィルタ内のサンプル遅延として用いることによって容易に実現され、「Schroeder Section」又は1タップ全域通過フィルタで異なる素数対が同じ合計遅延に合算される。ユーティリティ拡散は、Jot,J.−M.及びChaigne,A.著「Digital delay networks for designing artificial reverberators(疑似リバーブレータを設計するためのデジタル遅延ネットワーク)」、90th AES Convention(第90回AES会議)、1991年2月に詳細に説明されるもの等の多チャンネル再帰残響アルゴリズムによって実現することもできる。
【0090】
全域通過フィルタ
次に図7を参照すると、図6のSchroeder全域通過フィルタ604及び606の一方又は両方を実装するのに適する全域通過フィルタが示されている。入力ノード702における入力信号は、加算ノード704においてフィードバック信号(以下に説明する)と加算される。704からの出力は、分岐ノード708において順方向分岐710と遅延分岐712とに分岐する。遅延分岐712では、信号はサンプル遅延714によって遅延される。前記に説明したように、好ましい実施形態では、遅延は、好ましくは604及び606の遅延が合計で120回のサンプル期間になるように選択される。(遅延時間は、44.1kHzのサンプリングレートに基づき、同じ音響心理効果を維持しながら、他のサンプリングレートにスケール調整されるように、他のインターバルを選択することができる)順方向分岐712内の順方向信号は、増倍された遅延と加算ノード720において加算され、722においてフィルタリング済み出力が生成される。分岐ノード708における遅延信号は、フィードバック経路内でフィードバック利得モジュール724によって同様に増倍され、加算ノード704に入力されるフィードバック信号が供給される(先に説明した)。一般的なフィルタ設計では、順方向利得と逆方向利得とは、一方が他方とは反対の符号を有する必要があり点を除き、同じ値に設定されることになる。
【0091】
フィードバックくし形フィルタ
図8は、フィードバックくし形フィルタ(図6の608〜620)の各々において使用可能な適切な設計を示す。
【0092】
802における入力信号は、加算ノード803内でフィードバック信号(以下に説明する)と加算され、この和は、サンプル遅延モジュール804によって遅延される。804の遅延出力は、ノード806において出力される。フィードバック経路において、806における出力はフィルタ808によってフィルタリングされ、利得モジュール810でフィードバック利得係数が乗算される。好ましい実施形態では、このフィルタは、以下に説明するIIRフィルタとする必要がある。利得モジュール又は増幅器810の出力(ノード812における)は、フィードバック信号として用いられ、前述のように、803において入力信号と加算される。
【0093】
a)サンプル遅延804の長さ、b)0<g<1であるような利得パラメータg(図に利得810として示す)、及びc)選択的に異なる周波数を減衰させることができるIIRフィルタの係数等の特定の変数は、図8のフィードバックくし形フィルタの制御を受ける。本発明によるくし形フィルタにおいて、これらの変数のうちの1つ又は好ましくはそれ以上は、復号化されたメタデータ(#で復号化された)に応じて制御される。自然残響は、低周波数を強調する傾向を有することから、一般的な実施形態では、フィルタ808は低域通過フィルタとする必要がある。例えば、空気及び多くの物理的反射体(例えば、壁、開口部等)は、一般的に低域通過フィルタとして機能する。一般的に、フィルタ808は、シーンに適するT60対周波数プロファイルをエミュレートする特定の利得設定を用いて適切に選ばれる(図1のメタデータエンジン108において)。多くの場合、デフォルト係数を用いることができる。あまり音調の良くない設定又は特殊効果では、ミックス技術者は、他のフィルタ値を規定することができる。更に、ミックス技術者は、多くの22のT60プロファイルのT60性能を模倣する新しいフィルタを標準フィルタ設計手法によって作り出すことができる。これらの手法は、IIR係数の1次又は2次の区分セットに関して規定することができる。
【0094】
リバーブレータ変数の決定
リバーブセット(図5の508〜514)は、メタデータとして受信されてメタデータ復号器/解凍器238によって復号化されるパラメータ「T60」に基づいて定義することができる。本技術分野では、「T60」という用語は、音声の残響が60デシベル(dB)だけ減衰する時間を秒で示すのに用いられる。例えば、コンサートホールでは、残響反射は、60dBだけ減衰するのに4秒程度の長さを要する可能性があり、このホールを、「4.0のT60値」をもつと表現することができる。本明細書では、残響減衰パラメータ又はT60を、概ね指数関数的な減衰モデルにおける減衰時間の一般的な尺度を表すために用いる。この用語は、必ずしも60デシベルだけ減衰する時間の測定に限定されず、符号器及び復号器がこのパラメータを一貫して相補方式で用いる場合は、音声の減衰特性を均等に規定するために他の減衰時間を用いることができる。
【0095】
リバーブレータの「T60」を制御するために、メタデータ復号器は、フィードバックくし形フィルタ利得値の適切なセットを計算し、続いてこれらの利得値をリバーブレータに出力してこれらのフィルタ利得値を設定する。利得値が1.0に近づく程、残響は長く続くことになり、利得が1.0に等しい場合には、残響は低下せず、利得が1.0を超えると、残響は連続して増大することになる(音声の「フィードバックスクリーチ」ソートを作る)。本発明の特に新規な実施形態によると、フィードバックくし形フィルタの各々における利得値を計算するために式2を用いる。
ここで、オーディオに対するサンプリングレートは「fs」で与えられ、サンプル_遅延は、特定のくし形フィルタによって加えられる時間遅延(既知のサンプルレートfsにおけるサンプル数で表される)である。例えば、1777というサンプル_遅延長さを有するフィードバックくし形フィルタを有し、44,100サンプル毎秒のサンプリングレートを有する入力オーディオを有し、4.0秒のT60が望ましい場合には、次式を計算することができる。
【0096】
Schroeder−Moorerリバーブレータに対する修正物において、本発明は、図6で示す並列の7つのフィードバックくし形フィルタを含み、7つ全てが一貫したT60減衰時間を有するが、互いに素であるサンプル_遅延長さに起因して並列くし形フィルタが加算された時に直交状態のままなので、混ざり合って人間聴覚システムにおいて複雑な拡散感覚を作り出すように、各1つは、前述のように計算された値を有する利得を有する。
【0097】
リバーブレータに一貫した音声を与えるために、フィードバックくし形フィルタの各々に同じフィルタ808を用いることができる。本発明によると、この目的のために「無限インパルス応答」(IIR)フィルタを用いるのが非常に好ましい。デフォルトのIIRフィルタは、空気が有する自然の低域通過効果と同じ低域通過効果を与えるように設計される。他のデフォルトフィルタは、非常に異なる環境の感覚を作り出すために、異なる周波数においてT60(前記に明示した最大値を有する)を変化させる「木材」、「硬質表面」、及び「極めて軟質」の反射特性等の他の効果を与えることができる。
【0098】
本発明の特に新規な実施形態では、IIRフィルタ808のパラメータは、受信メタデータの制御の下で可変である。IIRフィルタの特性を変更することによって、本発明は、「周波数T60応答」の制御を実現して、音声の幾つかの周波数を他のものよりも急速に減衰させる。ミックス技術者(メタデータエンジン108を用いる)は、芸術的に適切であると考えられる場合に特異な効果を作り出すために、フィルタ808を適用するための他のパラメータを規定することができるが、これらのパラメータは、全てが同じIIRフィルタトポロジーの内部で処理されることに留意されたい。また、コムの数は、送信メタデータによって制御されるパラメータである。従って、音響的に難しいシーンでは、より「管の様な」音質又は「フラッターエコー」音質を与えるように、コムの数を低減することができる。
【0099】
好ましい実施形態では、Schroeder全域通過フィルタの数は、送信メタデータの制御の下で可変であり、特定の実施形態では、ゼロ個、1個、2個、又はそれ以上のフィルタを有することができる。(明瞭性を維持するために、図には2つしか示されていない)Schroeder全域通過フィルタは、追加の疑似反射を導入し、オーディオ信号の位相を予測不能な方式で変化させる。更に、「Schroeder Section」は、所望であればそれ自体単独で特異な音声効果を与えることができる。
【0100】
本発明の好ましい実施形態では、受信メタデータ(ユーザ制御の下でメタデータ生成エンジン108によって予め生成された)の使用は、Schroeder全域通過フィルタの数、フィードバックくし形フィルタの数、及びこれらのフィルタの内部のパラメータを変更することによって、この反響器の音声を制御する。くし形フィルタ及び全域通過フィルタの数を増加することによって、残響における反射密度が増大することになる。チャンネル毎に7つのくし形フィルタ及び2つの全域通過フィルタというデフォルト値は、コンサートホールの内部の残響を疑似するのに適する自然音響リバーブを与えるように実験的に決定されたものである。下水管の内部等の非常に単純な残響環境を疑似する場合には、くし形フィルタの数を低減するのが適切である。この理由から、何個のくし形フィルタを用いるべきかを規定するために、「密度」というメタデータフィールドが設けられる(前述のように)。
【0101】
リバーブレータにおける設定の完全セットは、「リバーブ_セット(reverb_set)」を定義する。具体的にリバーブ_セットは、全域通過フィルタの数、その各々におけるサンプル_ディレイ値、及びその各々における利得値に加えて、フィードバックくし形フィルタの数、その各々におけるサンプル_ディレイ値、各フィードバックくし形フィルタの内部のフィルタ808として用いるべきIIRフィルタ係数の規定のセットによって定義される。
【0102】
カスタムリバーブセットを解凍する段階に加えて、好ましい実施形態では、メタデータ復号器/解凍器モジュール238は、異なる値を有するが、同様の平均サンプル_ディレイ値を有する複数の所定のリバーブ_セットを記憶する。メタデータ復号器は、前述のように、送信オーディオビットストリームのメタデータフィールドで受信されるエクステンションコードに応じて、記憶されたリバーブセットから選択を行う。
【0103】
全域通過フィルタ(604、606)と複数の様々なくし形フィルタ(608〜620)との組み合わせは、各チャンネルで非常に複雑な遅延対周波数特性を生成し、更に、異なるチャンネルでの異なる遅延セットの使用は、遅延が、a)チャンネルの異なる周波数において変化し、更にb)同じ又は異なる周波数においてチャンネル間で変化する極めて複雑な関係を生成する。それによって(メタデータによって指示された場合に)、多チャンネルスピーカシステム(「サラウンド音響システム」)に出力される時に、オーディオ波形(又は高周波数における包絡線)の前縁が、様々な周波数において耳に同時に到達しないような周波数依存の遅延を有する状況を作ることができる。更にサラウンド音響配列では、右耳と左耳とは異なるスピーカチャンネルから選択的に音声を受信することから、本発明によって生成される複雑な変化は、包絡線(高周波数における)又は低周波数波形の前縁を、異なる周波数において変化する両耳間時間遅延を伴って各耳に到達させる。これらの状態は、「知覚的に拡散された」オーディオ信号を生成し、最終的に、この信号が再生される時に「知覚的に拡散された」音声を生成する。
【0104】
図9は、全域通過フィルタとリバーブセットとの両方において遅延の異なるセットを用いてプログラミングされた2つの異なるリバーブレータモジュールからの簡略化された遅延対周波数出力特性を示す。遅延はサンプリング期間で与えられ、周波数は、ナイキスト周波数に対して正規化される。可聴スペクトルの一部が表されており、2つのチャンネルだけが示されている。曲線902及び904は、周波数全域で複雑な様式で変化することが分かる。本発明者は、この変化が、サラウンドシステム(例えば、7チャンネルに拡張された)において知覚的な拡散の臨場感のある感覚をもたらすことを見出した。
【0105】
図9のグラフ(簡略化された)に示すように、本発明の方法及び装置は、遅延と周波数との間に、複数のピーク、谷、及び変曲を有する複雑で不規則な関係を作り出す。この特性は、知覚的に拡散された効果には望ましい。従って、本発明の好ましい実施形態によると、周波数依存の遅延(1つのチャンネル又はチャンネル間に関わらず)は、複雑で不規則な性質であり、音源を拡散させる音響心理効果を引き起こすのに十分に複雑で不規則である。この周波数依存の遅延は、従来の単純なフィルタから(低域通過、帯域通過、シェルビング等)生じる単純で予測可能な位相対周波数変化と混同してはならない。本発明の遅延対周波数特性は、可聴スペクトル全域に分散された複数の極によってもたらされる。
【0106】
直接信号と拡散中間信号とをミックスすることによって距離を疑似する
本質的に、耳がオーディオソースから遠く離れる場合には拡散音しか聞くことができない。耳がオーディオソースに近づくにつれて、ある程度の直接音及びある程度の拡散音を聞くことができる。耳がオーディオソースに非常に近づいた場合には、直接音しか聞くことができない。音声再生システムは、直接音と拡散音との間のミックスを変更することによってオーディオソースからの距離を疑似することができる。
【0107】
環境エンジンは、距離を疑似するのに望ましい直接/拡散比を表すメタデータを「知る」(受信)するだけでよい。正確には、本発明の受信器では、受信メタデータは、所望の直接/拡散比を「拡散度」と呼ぶパラメータとして表す。好ましくはこのパラメータは、生成エンジン108に関連して前述したように、ミックス技術者によって予め設定される。拡散度は規定されないが、拡散エンジンの使用が規定された場合には、デフォルトの拡散度値を、適宜0.5に設定することができる(この値は、臨界距離(リスナが等しい直接音声量と拡散音量とを聞く距離)を表す)。
【0108】
1つの適切なパラメータ表現では、「拡散度」パラメータdは、0≦d≦1であるような所定の範囲のメタデータ変数である。定義によると、0.0という拡散度値は、全く拡散成分がない完全な直接音になり、1.0という拡散度値は、いかなる直接成分もない完全な拡散音になり、これらの間では、次式で計算される「拡散_利得」値と「直接_利得」値とを用いてミックスすることができる。
(式4)
【0109】
上記に応じて、本発明は、音源までの所望の距離の知覚効果を作り出すために、各ステムにおいて、受信「拡散度」メタデータパラメータに基づいて式3に従って拡散成分と直接成分とをミックスする。
【0110】
再生環境エンジン
本発明の好ましく特に新規な実施形態では、ミックスエンジンは、「再生環境」エンジン(図4の424)と通信し、このモジュールから、局所再生環境のある特定の特性をほぼ規定するパラメータセットを受信する。前述のように、オーディオ信号は、予め「ドライ」形式で(著しい環境音又は残響なしに)記録され、符号化されている。拡散音と直接音とを特定の局所環境で最適に再生するために、ミックスエンジンは、送信メタデータ及び局所パラメータセットに応答して局所再生に関するミックスを改善する。
【0111】
再生環境エンジン424は、局所再生環境の特定の特性を測定し、パラメータのセットを抽出し、これらのパラメータを局所再生レンダリングモジュールに送る。続いて再生環境エンジン424は、利得係数行列に対する修正、並びに出力信号を生成するためにオーディオ信号と拡散信号とに適用すべきM個の出力補償遅延セットを計算する。
【0112】
図10に示すように、再生環境エンジン424は、局所音響環境1004の定量的測定値を抽出する。推定又は抽出される変数の中には、部屋の寸法、部屋の容積、局所残響時間、スピーカ数、スピーカ配置、及びスピーカ幾何学的形状がある。局所環境を測定又は推定するために多くの方法を用いることができる。とりわけ最も簡単なものは、キーパッド又は端末様のデバイス1010を通じて直接ユーザ入力を与えることである。再生環境エンジン424に信号フィードバックを供給し、公知の方法による部屋の測定及び較正を可能にするために、マイクロフォン1012を用いることもできる。
【0113】
本発明の好ましく特に新規な実施形態では、再生環境モジュール及びメタデータ復号化エンジンは、ミックスエンジンへの制御入力を供給する。ミックスエンジンは、制御入力に応じて、中間の合成拡散チャンネルを含む制御可能に遅延されたオーディオチャンネルをミックスして、局所再生環境に適合するように修正された出力オーディオチャンネルを生成する。
【0114】
再生環境モジュールからのデータに基づいて、環境エンジン240は、各入力における方向及び距離のデータと各出力における方向及び距離のデータとを用いて、入力を出力へどのようにミックスするかを決定することができる。各入力ステムの距離及び方向は、受信メタデータ(表1を参照されたい)に包含され、出力に関する距離及び方向は、再生環境によって、聴取環境のスピーカ位置を測定、仮定、又はさもなければ特定することによって提供される。
【0115】
環境エンジン240は、様々なレンダリングモジュールを用いることができる。環境エンジンの1つの適切な実装は、図11に示すように、シミュレートされた「仮想マイクロフォンアレイ」をレンダリングモデルとして用いる。このシミュレーションは、出力デバイス毎に1つのマイクロフォンがあり、環境の中心に後部を有し、先端がそれぞれの出力デバイス(スピーカ1106)に向かって方向付けされた射線上に整列され、再生環境の聴取中心1104の回りに配置された仮定上のマイクロフォン群(1102に一般的に示している)を仮定し、好ましくは、マイクロフォン収音は、環境の中心から等距離に離隔されると仮定する。
【0116】
仮想マイクロフォンモデルは、実際の各スピーカ(実際の再生環境に位置決めされた)から仮想マイクロフォンの各々において望ましい音量及び遅延を生成することになる行列(動的に変化する)を計算するために用いられる。任意のスピーカから特定のマイクロフォンへの利得は、位置が既知の各スピーカに関して、このマイクロフォンにおいて望ましい利得を実現するのに必要とされる出力音量を計算するのに十分であることは明らかであろう。同様に、スピーカ位置の情報は、信号到達時間をモデルに整合させる(空気中の音声速度を仮定することによって)のに必要な何らかの遅延を定義するのに十分なはずである。従って、レンダリングモデルの目的は、定義された聴取位置にある仮想マイクロフォンによって生成されるマイクロフォン信号の望ましいセットを再生することになる出力チャンネルの利得及び遅延のセットを定義することである。好ましくは、前述の生成エンジンで所望のミックス音を定義するために同じ又は類似の聴取位置及び仮想マイクロフォンが用いられる。
【0117】
「仮想マイクロフォン」レンダリングモデルでは、仮想マイクロフォン1102の方向性をモデル化するために係数Cnのセットが用いられる。以下に示す式を用いて、各仮想マイクロフォンに対する各入力における利得を計算することができる。幾つかの利得は、ゼロ(「無視することができる」利得)に非常に近い値となる可能性があり、この場合、仮想マイクロフォンの入力を無視できる。無視できない利得を有する各入力−出力ダイアドについては、レンダリングモデルは、ミックスエンジンに、この入力−出力ダイアドから計算利得を用いてミックスを行うように命令し、利得を無視することができる場合には、このダイアドについていかなるミックスも実施する必要はない。(ミックスエンジンには、以下のミックスエンジンのセクションで十分に説明する「mixop」の形態の命令が与えられ、計算利得を無視できる場合、mixopを単純に省くことができる)。仮想マイクロフォンにおけるマイクロフォン利得係数は、全ての仮想マイクロフォンにおいて同じものとすること、又は異なるものとすることができる。係数は、何らかの好適な手段によって与えることができる。例えば、「再生環境」システムは、直接又は類似の測定によってこれらの係数を与えることができる。もくしく、データは、ユーザが入力する、又は予め記憶することができる。5.1及び7.1等の標準スピーカ構成では、係数は、標準マイクロフォン/スピーカ構成に基づいて組み込まれることになる。
【0118】
以下の式は、仮想マイクロフォンレンダリングモデルにおける仮定上の「仮想」マイクロフォンに対するオーディオソース(ステム)の利得を計算するために用いることができる。
【0119】
行列cij、pij、及びkijは、仮定上のマイクロフォンの方向利得特性を表す特性行列である。これらの特性は、実際のマイクロフォンから測定する、又はモデルから仮定することができる。行列を単純化するために、単純化した仮定を用いることができる。下付き文字sは、オーディオステムを示し、下付き文字mは、仮想マイクロフォンを示す。変数シータ(「θ」)は、下付き文字付き(オーディオステムに対してs、仮想マイクロフォンに対してm)のオブジェクトの水平角度を表す。ファイ(「φ」)は、垂直角度(対応する下付き文字付きのオブジェクトの)を表すために用いられる。
【0120】
特定の仮想マイクロフォンに対する所与のステムにおける遅延は、以下の式から求めることができる。
【0121】
ここで仮想マイクロフォンが仮定上の環帯上に位置すると仮定し、半径mという変数は、ミリ秒で規定された半径を表す(室温及び室圧における媒質中、おそらく空気中の音声)。適切な変換によって、再生環境の実際の又は近似のスピーカ位置に基づいて、全ての角度及び距離を異なる座標系から測定又は計算することができる。例えば、本技術分野で公知であるように、直交座標(x,y,z)で表されたスピーカ位置に基づいて角度を計算するために、簡単な三角法の関係を用いることができる。
【0122】
所定の特定のオーディオ環境は、この環境に対して拡散エンジンを如何に構成するかを規定する特定のパラメータを与えることになる。好ましくは、これらのパラメータは、再生環境エンジン240によって測定又は推定されることになるが、代替的にユーザが入力する、又は妥当性のある仮定に基づいて事前プログラミングすることができる。これらのパラメータのうちのいずれかが省略される場合、デフォルトの拡散エンジンパラメータを適宜用いることができる。例えば、T60だけが規定される場合、全ての他のパラメータはデフォルト値に設定する必要がある。拡散エンジンによってリバーブを適用する必要がある入力チャンネルが2つ又はそれ以上存在する場合、これらのチャンネルは互いにミックスされることになり、このミックスの結果が、拡散エンジンで一貫して用いられることになる。続いて、拡散エンジンの拡散出力は、ミックスエンジンへの別の利用可能な入力として取り扱うことができ、拡散エンジンの出力からミックスを行うmixopを生成することができる。拡散エンジンは、複数のチャンネルに対応することができ、入力及び出力は、拡散エンジンの特定のチャンネルに向けるか、又はそこから取得することができることに留意されたい。
【0123】
ミックスエンジン
ミックスエンジン416は、メタデータ復号器/解凍器238から制御入力としてミックス係数セットを受信し、好ましくは遅延セットも受信する。ミックスエンジン416は、信号入力として、拡散エンジン402から中間信号チャンネル410を受信する。本発明によれば、これらの入力は、少なくとも1つの中間拡散チャンネル412を含む。特に新規な実施形態では、更にミックスエンジンは、局所再生環境の特性に従ってミックスを修正するために用いることができる入力を再生環境エンジン424から受信する。
【0124】
前述のように(生成エンジン108に関連して)、前述のミックスメタデータは、本発明の全体的なシステムの入力及び出力に照らして明らかになるように、一連の行列として好適に表される。本発明のシステムは、最も一般的なレベルにおいて、複数のN個の入力チャンネルをM個の出力チャンネルにマッピングし、この場合NとMとは等しい必要はなく、どちらかが大きくてもよい。N個の入力チャンネルからM個の出力チャンネルへマッピングするための、利得値の一般的な完全セットを規定するための、N×M次元の行列Gで十分であることは容易に理解されよう。入力−出力遅延及び拡散パラメータを完全に規定するために、同様のN×M行列を好適に用いることができる。もしくは、より頻繁に用いられるミックス行列を簡潔に表すために、コードシステムを用いることができる。この場合、これらの行列は、各コードが対応する行列と関係付けられ記憶されたコードブックを参照することによって、復号器において容易に復元することができる。
【0125】
従って、N個の入力をM個の出力へミックスするには、各サンプル時間について、利得行列の行(N個の入力に対応する)とi番目の列(i=1からMまで)とを乗算するだけで十分である。適用すべき(NからMへのマッピングを)遅延、及び各NからM個の出力チャンネルへのマッピングにおける直接/拡散ミックスを規定するために同様の演算を用いることができる。より単純なスカラー表現及びベクトル表現を含む他の表現法を用いることができる(柔軟性に関してある程度の犠牲を払って)。
【0126】
従来のミックスとは異なり、本発明によるミックスエンジンは、特に知覚的に拡散された処理のために特定された少なくとも1つ(好ましくは1つよりも多く)の入力ステムを含み、より具体的には、環境エンジンは、メタデータの制御の下で、ミックスエンジンが入力として知覚的に拡散されたチャンネルを受信することができるように構成可能である。知覚的に拡散された入力チャンネルは、a)本発明による知覚的に適切なリバーブレータを用いて1つ又はそれ以上のオーディオチャンネルを処理することによって生成されたもの、又はb)自然残響を有する音響環境で記録され、対応するメタデータによってそのように示されたステムのいずれかとすることができる。
【0127】
従って、図12に示すように、ミックスエンジン416は、中間オーディオ信号1202(N個のチャンネル)に加えて環境エンジンによって生成された1つ又はそれ以上の拡散チャンネル1204を含むN’個のオーディオ入力チャンネルを受信する。ミックスエンジン416は、ミックス制御係数のセット(受信メタデータから復号化される)の制御の下で乗算及び加算を行うことによって、N’個のオーディオ入力チャンネル1202及び1204をミックスし、局所環境での再生のためにM個の出力チャンネル(1210及び1212)のセットを生成する。1つの実施形態では、専用の拡散出力1212は、専用の拡散放射器スピーカを介した再生のために差別化される。続いて複数のオーディオチャンネルはアナログ信号に変換され、増幅器1214によって増幅される。増幅された信号は、スピーカ244のアレイを駆動する。
【0128】
特定のミックス係数は、メタデータ復号器/解凍器238によって適宜受信されるメタデータに応じて時間変化する。好ましい実施形態では、特定のミックス音は、局所再生環境についての情報に応じて変化する。好ましくは、局所再生情報は、前述のように、再生環境モジュール424によって提供される。
【0129】
好ましい新規な実施形態では、ミックスエンジンは、各入力−出力対に、受信メタデータから復号化され、好ましくは再生環境の局所特性にも依存する規定の遅延も適用する。受信メタデータが、ミックスエンジンによって各入力チャンネル/出力チャンネル対に適用すべき遅延行列を含むことが好ましい(遅延行列は、その後、局所再生環境に基づいて受信器によって修正される)。
【0130】
換言すると、この演算は、「mixop」(MIX OPeration instruction(ミックス演算命令)に対する)と表すパラメータのセットを参照することによって記述することができる。復号化されたメタデータから受信された(データ経路1216を通じて)制御データ、及び再生環境エンジンから受信された更なるパラメータに基づいて、ミックスエンジンは、再生環境のレンダリングモデル(モジュール1220と表している)に基づいて遅延及び利得係数(合わせて「mixop」)を計算する。
【0131】
好ましくは、ミックスエンジンは、実施すべきミックスを規定するために「mixop」を用いることになる。各特定の出力へミックスされる各特定の入力について、それぞれの単一のmixop(好ましくは、利得フィールド及び遅延フィールドを含む)が適宜生成されることになる。従って、場合によっては単一の入力は、各出力チャンネルに対するmixopを生成することができる。一般的には、N個の入力チャンネルからM個の出力チャンネルへマッピングするのに、N×M個のmixopで十分である。例えば、7個の出力チャンネルで再生される7チャンネル入力は、直接チャンネルだけに関する49個もの利得mixopを生成することができ、本発明の7チャンネル実施形態では、拡散エンジン402から受信される拡散チャンネルに対処するために、より多くのmixopが必要とされる。各mixopは、入力チャンネル、出力チャンネル、遅延、及び利得を規定する。随意選択的に、mixopは、適用すべき出力フィルタを規定することもできる。好ましい実施形態では、システムは、特定のチャンネルを「直接レンダリング」チャンネルとして示す(メタデータによって)ことを可能にする。かかるチャンネルが、拡散_フラグセットも有する(メタデータに)場合には、このチャンネルは拡散エンジンを通過せず、ミックスエンジンの拡散入力に入力されることになる。
【0132】
一般的なシステムでは、特定の出力は、低周波数効果チャンネル(LFE)として別個に取り扱うことができる。LFEとタグ付けされた出力は、本発明の主題ではない方法によって特別に取り扱われる。LFE信号は、別個の専用チャンネルで取り扱うことができる(拡散エンジン及びミックスエンジンを迂回することによって)。
【0133】
本発明の利点は、符号化の時点での直接音と拡散音との分離と、それに続く復号化及び再生の時点での拡散効果の合成とにある。室内効果からの直接音の分離によって、様々な再生環境において、特に再生環境がミックス技術者に事前に把握されない場合に、より効果的な再生が可能になる。例えば、再生環境が狭く音響的にドライなスタジオである場合、シーンが要求する場合に大きな劇場をシミュレートするために拡散効果を追加することができる。
【0134】
本発明のこの利点は、オペラシーンがウィーンのオペラハウスに設定された、モーツァルトに関する公知の人気映画の特定の実施例によって明確に示される。かかるシーンが本発明の方法によって送信される場合、音楽は「ドライ」で記録されるか、又はほぼ直接の音声セット(複数のチャンネルの)として記録されることになる。続いてミックス技術者は、メタデータエンジン108において、再生時の合成拡散を要求するメタデータを追加することができる。従って、復号器において、再生の劇場が家庭のリビングルーム等の小さい部屋である場合には、適切な合成残響が追加されることになる。一方、再生の劇場が大きい公会堂である場合には、その局所再生環境に基づいて、メタデータ復号器は、合成残響があまり追加されないように(過度の残響及び結果として生じる混濁音効果を回避するために)指示することになる。
【0135】
従来のオーディオ送信方式は、実際の部屋の室内インパルス応答を逆畳み込みによって忠実に(実際に)除去することができないことから、局所再生に対する同等の調節を可能にしない。幾つかのシステムは、局所周波数応答を補償しようと試みてはいるが、このシステムは、残響を本当に除去するわけではなく、送信オーディオ信号に存在する残響を実際に除去することはできない。対照的に、本発明では、直接音を、様々な再生環境における再生時の合成又は適切な拡散効果を容易にするメタデータと協調的組み合わせで送信する。
【0136】
直接出力及び拡散出力並びにスピーカ
本発明の好ましい実施形態では、オーディオ出力(図2の243)は、オーディオ入力チャンネル(ステム)の数とは数が異なるものとすることができる複数のオーディオチャンネルを含む。本発明の復号器の好ましく特に新規な実施形態では、専用の拡散出力は、拡散音の再生に特化した適切なスピーカに優先的に送信する必要がある。米国公開番号2009/0060236A1号として公開された米国特許出願第11/847096に説明されているシステム等の、別個の直接入力チャンネルと拡散入力チャンネルとを有する直接/拡散組み合わせスピーカを有用に用いることができる。もしくは、前述の残響法を用いることによって、前述のリバーブ/拡散システムの使用によって作り出される、聴取室内の意図的なチャンネル間干渉による5又は7個の直接オーディオレンダリングチャンネルの相互作用によって、拡散感覚をもたらすことができる。
【0137】
本発明の方法の特定の実施形態
本発明のより具体的な実際の実施形態では、環境エンジン240、メタデータ復号器/解凍器238、更にオーディオ復号器236は、1つ又はそれ以上の汎用マイクロプロセッサ上に実装すること、又は専用のプログラミング可能統合DSPシステムと連動する汎用マイクロプロセッサによって実装することができる。このシステムは、多くの場合、手順の観点から説明される。手順の観点から見ると、図1図12に示されるモジュール及び信号経路は、ソフトウェアモジュールの制御の下で、特に本明細書に説明するオーディオ処理機能の全てを実行するのに必要とされる命令を含むソフトウェアモジュールの制御の下でマイクロプロセッサによって実行される手順に対応することを容易に理解できるはずである。例えば、フィードバックくし形フィルタは、本技術分野で知られているように、プログラミング可能なマイクロプロセッサと、中間結果を記憶するのに十分なランダムアクセスメモリとの組み合わせによって容易に実現される。本明細書に説明するモジュール、エンジン、及び構成要素の全て(ミックス技術者以外)は、特別にプログラミングされたコンピュータによって同様に実現することができる。浮動小数点演算又は固定小数点演算のうちのいずれかを含む様々なデータ表現を用いることができる。
【0138】
次に図13を参照すると、受信及び復号化の方法の手順図が一般的なレベルで示されている。本方法は、段階1310において、複数のメタデータパラメータを有するオーディオ信号を受信することによって始まる。段階1320において、オーディオ信号は、符号化メタデータがオーディオ信号から解凍され、オーディオ信号が規定のオーディオチャンネルへと分離されるように逆多重化される。メタデータは、複数のレンダリングパラメータ、ミックス係数、及び遅延のセットを含み、これらの全ては、前記の表1に更に定義されている。表1は、例示的なメタデータパラメータを示し、本発明の範囲を限定することを意図したものではない。当業者であれば、本発明によってオーディオ信号特性の拡散を定義する他のメタデータパラメータをビットストリームに保持できることを理解できるはずである。
【0139】
本方法は、段階1330に続き、メタデータパラメータを処理して、どのオーディオチャンネル(複数のオーディオチャンネルのうちの)が、空間的拡散効果を含むようにフィルタリングされるかを特定する。適切なオーディオチャンネルは、リバーブセットによって意図された空間的拡散効果を含むように処理される。リバーブセットは、前記の残響モジュールのセクションで説明した。本方法は、段階1340に進み、局所音響環境を定義する再生パラメータを受信する。各局所音響環境は固有であり、各環境は、オーディオ信号の空間的拡散効果に異なって影響を与える可能性がある。局所音響環境の特性を算入し、オーディオ信号がこの環境で再生される場合に自然に発生する可能性がある何らかの空間的拡散偏差を補償することによって、符号器によって意図されたとおりのオーディオ信号の再生が助長される。
【0140】
本方法は、段階1350に進み、フィルタリングされたオーディオチャンネルをメタデータパラメータ及び再生パラメータに基づいてミックスする。N及びMは、それぞれ出力数及び入力数である場合、一般的なミックスは、M個の入力の全てからの重み付き寄与を、N個の出力の各々へとミックスする段階を含むことを理解されたい。ミックス演算は、前述の「mixop」セットによって適宜制御される。好ましくは、ミックス段階の一部として、遅延セット(受信メタデータに基づく)が更に導入される(更に前述したように)。段階1360において、オーディオチャンネルは、1つ又はそれ以上のラウドスピーカに出力されて再生される。
【0141】
次に図14を参照すると、本発明の符号化法の態様が一般的なレベルで示されている。段階1410において、デジタルオーディオ信号を受信する(この信号は、取り込まれた生の音声から、送信デジタル信号から、又は記録ファイルの再生から生じるものとすることができる)。信号を圧縮又は符号化する(段階1416)。ミックス技術者(「ユーザ」)は、オーディオとの同期関係で制御選択を入力デバイス内に入力する(段階1420)。この入力は、所望の拡散効果及び多チャンネルミックスを決定又は選択する。符号化エンジンは、所望の効果及びミックスに適するメタデータを生成又は計算する(段階1430)。オーディオは、本発明の復号化法(前述の)により受信器/復号器によって復号化され、処理される(段階1440)。復号化されたオーディオは、選択された拡散効果及びミックス効果を含む。復号化されたオーディオは、ミックス技術者が、所望の拡散効果及びミックス効果を検証できるように、監視システムによってミックス技術者に対して再生される(監視段階1450)。ソースオーディオが事前記録された音源からのものである場合、技術者は、所望の効果が得られるまで上記の処理を繰り返す随意選択枝を有することになる。最後に、圧縮オーディオは、拡散特性及び(好ましくは)ミックス特性を表すメタデータと同期関係で送信される(段階11460)。好ましい実施形態では、この段階は、メタデータを、圧縮(多チャンネル)オーディオストリームと、送信又はマシン読み取り可能媒体上への記録のための組み合わせたデータフォーマットに多重化する段階を含むことになる。
【0142】
別の態様では、本発明は、前述の方法によって符号化された信号が記録されたマシン読み取り可能記録可能媒体を含む。システム態様では、本発明は、前述の方法及び装置に従って符号化、送信(又は記録)、及び受信/復号化を行う組み合わせシステムも含む。
【0143】
プロセッサアーキテクチャの変化形態を用いることができることは理解できるはずである。例えば、幾つかのプロセッサは、並列構成又は直列構成で用いることができる。専用「DSP」(デジタル信号プロセッサ)又はデジタルフィルタデバイスをフィルタとして用いることができる。複数のオーディオチャンネルは、信号を多重化すること又は並列プロセッサを稼働させることによってまとめて処理することができる。入力及び出力は、並列、直列、インターリーブ、又は符号化を含む様々な様式でフォーマットすることができる。
【0144】
本発明の幾つかの例示的実施形態を示し説明したが、当業者であれば、数多くの他の変形形態及び別の実施形態を考えることができる。この変形形態及び別の実施形態は意図されており、添付の特許請求に定義する本発明の精神及び範囲から逸脱することなく作ることができる。
図1
図2
図3
図4
図5
図5B
図5C
図6
図7
図8
図9
図10
図11
図12
図13
図14