特許第6205493号(P6205493)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許6205493室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ
<>
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000054
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000055
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000056
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000057
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000058
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000059
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000060
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000061
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000062
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000063
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000064
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000065
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000066
  • 特許6205493-室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ 図000067
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6205493
(24)【登録日】2017年9月8日
(45)【発行日】2017年9月27日
(54)【発明の名称】室内インパルス応答に従ってオーディオ信号を処理するための方法、信号処理装置、オーディオ符号化器、オーディオ復号器、及びバイノーラルレンダラ
(51)【国際特許分類】
   G10K 15/00 20060101AFI20170914BHJP
   G10L 19/008 20130101ALI20170914BHJP
   H04S 1/00 20060101ALI20170914BHJP
   H04S 7/00 20060101ALI20170914BHJP
   H04R 3/00 20060101ALI20170914BHJP
【FI】
   G10K15/00 M
   G10L19/008
   H04S1/00 500
   H04S7/00 320
   H04R3/00 310
【請求項の数】20
【全頁数】38
(21)【出願番号】特願2016-528429(P2016-528429)
(86)(22)【出願日】2014年7月16日
(65)【公表番号】特表2016-532149(P2016-532149A)
(43)【公表日】2016年10月13日
(86)【国際出願番号】EP2014065227
(87)【国際公開番号】WO2015010983
(87)【国際公開日】20150129
【審査請求日】2016年3月8日
(31)【優先権主張番号】13177362.4
(32)【優先日】2013年7月22日
(33)【優先権主張国】EP
(31)【優先権主張番号】13189230.9
(32)【優先日】2013年10月18日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100205981
【弁理士】
【氏名又は名称】野口 大輔
(74)【代理人】
【識別番号】100085464
【弁理士】
【氏名又は名称】野口 繁雄
(72)【発明者】
【氏名】ジモーネ・フュグ
(72)【発明者】
【氏名】ヤン・プログスティエス
【審査官】 大石 剛
(56)【参考文献】
【文献】 米国特許出願公開第2008/0175396(US,A1)
【文献】 特開2009−053349(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/00
G10L 19/008
H04R 3/00
H04S 1/00
H04S 7/00
(57)【特許請求の範囲】
【請求項1】
室内インパルス応答(300、804)に従ってオーディオ信号(400、802)を処理するための方法であって、該方法は、
前記室内インパルス応答(300、804)の早期部分(301、302)及び後期残響(304)を用いて前記オーディオ信号(400、802)を別個に処理すること(402、404、406、422、424、812、816a、816b)と、
前記室内インパルス応答(300、804)の前記早期部分(414、428、814)によって処理された前記オーディオ信号と残響付与済み信号(416、430、826a、826b)とを組み合わせること(418、432、828)と、を含み、
相関の大きさが一度閾値に達すると、前記室内インパルス応答(300、804)における前記早期部分(301、302)から前記後期残響(304)までの遷移が決定され、
前記相関の大きさは、前記室内インパルス応答(300、804)に関して、初期状態を含む音響エネルギーの減衰の類似度、及び所定の周波数範囲にわたる前記初期状態に続く時点において始まる音響エネルギーの減衰の類似度を記述し、
前記閾値は前記室内インパルス応答(300、804)の前記早期部分(301、302)における早期反射(302、602)のうちの選択された1つについての相関の大きさに応じて設定され、
前記早期反射のうちの前記選択された1つは最初の反射(602)である方法。
【請求項2】
前記遷移を決定することは、
前記室内インパルス応答(300、804)に基づいて音響エネルギーの分布を決定すること(500)と、
前記決定された分布の複数の部分について、前記決定された分布のそれぞれの部分における前記音響エネルギーと初期状態における前記音響エネルギーとの間の相関を示す複数の相関の大きさを決定すること(502)と、を含む請求項1に記載の方法。
【請求項3】
前記分布を決定することは前記音響エネルギーの時間周波数分布を決定することを含み、
前記分布の一部分は所定長の時間ブロックを含み、前記初期状態は前記時間周波数分布の前記複数の時間ブロックのうちの第1の時間ブロックによって規定される請求項2に記載の方法。
【請求項4】
前記分布を決定することは、前記室内インパルス応答(300、804)からエネルギー減衰緩和(EDR)を計算することを含む請求項2又は3に記載の方法。
【請求項5】
前記EDRは以下のように計算される請求項4に記載の方法。
ただし、
E(t,ω)=エネルギー減衰緩和、
h(τ)=室内インパルス応答(300、804)、
ω=2πf
である。
【請求項6】
前記室内インパルス応答(300、804)は所定の有効長を有し、前記時間周波数分布を決定することは、前記室内インパルス応答の前記有効長に対応する長さを有するウィンドウを使用して前記室内インパルス応答(300、804)のFFTスペクトルを計算することを含む請求項3に記載の方法。
【請求項7】
前記初期状態における前記音響エネルギーは、前記室内インパルス応答(300、804)の前記有効長全体を取り、前記FFTスペクトルを計算して絶対値の二乗を取ることによって求められ、
時間ブロックの前記音響エネルギーは、前記時間ブロックと関連付けられる時間だけ前記ウィンドウをシフトさせ、ウィンドウィングされたサンプルを前記有効長までゼロ詰めし、前記FFTを計算して絶対値の二乗を取ることによって求められる請求項6に記載の方法。
【請求項8】
前記相関の大きさは以下のように計算される請求項1から7のいずれか一項に記載の方法。
ここで、
ρ(t)は相関の大きさ、
E(1,ω)は周波数fにおける全周波数範囲エネルギー減衰緩和、
は最初の全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
E(t,ω)は時刻tから始まる周波数fにおけるエネルギー減衰緩和、
は時刻tから始まる全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
ω=2πf
である。
【請求項9】
前記閾値は、一定値及び前記早期反射(302、602)のうちの選択された1つの前記相関の大きさに基づいて決定される請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記一定値は1/eであり、前記閾値は以下のように定義される請求項9に記載の方法。
ρ(t)=c・ρ(tF)
ここで、
ρ(tF)は前記早期反射(302、602)のうちの選択された1つの相関の大きさ、
F前記室内インパルス応答(300、804)の直接的な音成分である直接音(300)の後の前記早期反射(302、602)のうちの選択された1つが衝突する時間インデックス、
cは1/eに基づく前記一定値であり、eはオイラー数である。
【請求項11】
コンピュータ上で実行されると、請求項1から10のいずれか一項に記載の方法を実行する命令を記憶しているコンピュータ読取り可能な媒体を含む非有形コンピュータプログラム製品。
【請求項12】
オーディオ信号(400、802)を受信するための入力と、
請求項1から10のいずれか一項に記載の方法に従って、室内インパルス応答(300、804)に従って前記オーディオ信号(400、802)を処理するように構成されているプロセッサと、
前記オーディオ信号処理済み早期部分(414、428、814)と、前記残響付与済み信号(416、430、826a、826b)とを組み合わせて(418、432、828)、出力オーディオ信号にするための出力と、を備えている信号処理装置。
【請求項13】
前記室内インパルス応答(300、804)の前記早期部分(301、302、602)に従って前記受信オーディオ信号(400、802)を処理するための早期部分プロセッサ(402、404、422、812)と、
前記室内インパルス応答(300、804)の前記後期残響(304)に従って前記オーディオ信号(400、802)を処理するための後期残響プロセッサ(406、424、816a、816b)と、を備えている請求項12に記載の信号処理装置。
【請求項14】
オーディオ信号を符号化するためのオーディオ符号化器であって、
該オーディオ符号化器は、請求項1から10のいずれか一項に記載の方法に従って、符号化されるべきオーディオ信号を室内インパルス応答(300、804)に従って処理するように構成されているオーディオ符号化器。
【請求項15】
求項12又は13に記載の信号処理装置を有する、請求項14に記載のオーディオ符号化器。
【請求項16】
符号化済みオーディオ信号を復号するためのオーディオ復号器であって、
該オーディオ復号器は、請求項1から10のいずれか一項に記載の方法に従って、復号されたオーディオ信号(400、802)を、室内インパルス応答(300、804)に従って処理するように構成されているオーディオ復号器。
【請求項17】
求項12又は13に記載の信号処理装置を有する、請求項16に記載のオーディオ復号器。
【請求項18】
前記復号されたオーディオ信号(400、802)を受信し、前記室内インパルス応答(300、804)に基づいて出力信号をレンダリングするように構成されているレンダラを含む請求項16に記載のオーディオ復号器。
【請求項19】
前記レンダラはバイノーラルレンダラを含む請求項18に記載のオーディオ復号器。
【請求項20】
請求項12又は13に記載の信号処理装置を含むバイノーラルレンダラ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ符号化/復号の分野に関し、特に、空間オーディオコード化及び空間オーディオオブジェクトコード化、例えば、3Dオーディオコーデックシステムの分野に関する。本発明の実施形態は、室内インパルス応答に従ってオーディオ信号を処理し、そのような室内インパルス応答において早期反射から後期残響までの遷移を決定するための手法に関する。
【背景技術】
【0002】
空間オーディオコード化ツールが当該技術分野において周知であり、例えば、MPEGサラウンド規格において標準化されている。空間オーディオコード化は、複数の原入力、例えば5つ又は7つの入力チャネルから開始する。それらの原入力は、それらの再生設定における配置によって、例えば、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル及び低周波強調チャネルとして識別される。空間オーディ符号化器が、原チャネルから1つ又は複数のダウンミックスチャネルを導出することができ、加えて、チャネルコヒーレンス値のチャネル間レベル差、チャネル間位相差、チャネル間時間差などのような、空間手掛かりに関係するパラメータデータを導出することができる。1つ又は複数のダウンミックスチャネルは、最終的に、原入力チャネルの近似バージョンである出力チャネルを得るために、ダウンミックスチャネルを復号するための空間オーディオ復号器に対して空間手掛かりを示すパラメータサイド情報、及び、関連するパラメータデータとともに送信される。出力設定におけるチャネルの配置は固定することができ、例えば、5.1フォーマット、7.1フォーマットなどとすることができる。
【0003】
また、空間オーディオオブジェクトコード化ツールが当該技術分野において周知であり、例えば、MPEG SAOCサラウンド規格(SAOC=spatial audio object coding:空間オーディオオブジェクトコード化)において標準化されている。原チャネルから開始する空間オーディオコード化とは対照的に、空間オーディオオブジェクトコード化は、自動的に特定のレンダリング再生装備に専用になるのではないオーディオオブジェクトから開始する。むしろ、再生シーンにおけるオーディオオブジェクトの配置は柔軟であり、ユーザによって、例えば、空間オーディオオブジェクトコード化復号器に特定のレンダリング情報を入力することによって設定することができる。あるいは又はさらに、レンダリング情報は、付加的なサイド情報又はメタデータとして送信することができ、レンダリング情報は、(例えば、経時的に)再生装備におけるいずれの位置に特定のオーディオオブジェクトが配置されるべきかの情報を含むことができる。特定のデータ圧縮を得るためにSAOC符号化器を使用して複数のオーディオオブジェクトが符号化される。SAOC符号化器は、特定のダウンミックス情報に従ってオブジェクトをダウンミックスすることによって、入力オブジェクトから1つ又は複数のトランスポートチャネルを計算する。さらに、SAOC符号化器は、オブジェクトレベル差(OLD:object level difference)、オブジェクトコヒーレンス値のようなオブジェクト間手掛かりを表すパラメータサイド情報を計算する。SAC(SAC=Spatial Audio Coding:空間オーディオコード化)におけるように、オブジェクト間パラメータデータは、個々の時間/周波数タイルについて計算される。オーディオ信号の特定のフレーム(例えば、1024又は2048サンプル)について、複数の帯域(例えば、24、32、又は64帯域)が考慮され、それによって、各フレーム及び各周波数帯域についてパラメータデータが提供される。例えば、オーディオ片が20個のフレームを有し、各フレームが32個の周波数帯域に区分化されるとき、時間/周波数タイルの数は640である。
【0004】
3Dオーディオシステムにおいて、オーディオ信号が特定の部屋の中で聴かれているかのような、オーディオ信号の空間的印象を与えることが所望されることがある。そのような状況において、特定の部屋の室内インパルス応答が、例えばその測定に基づいて生じ、オーディオ信号を聴き手に提示するときにオーディオ信号を処理するのに使用される。そのような提示において後期残響から分離して直接音と早期反射を処理することが望ましいことがある。これは、早期反射がどこで終わり、後期残響がどこで始まるかを決定することを必要とする。
【先行技術文献】
【非特許文献】
【0005】
【非特許文献1】[1] T. Hidaka et al: "A new definition of boundary point between early reflections and late reverberation in room impulse responses". Forum Acusticum, 2005.
【非特許文献2】[2] Jot et al: "Analysis and synthesis of room reverberation based on a statistical time frequency model".
【非特許文献3】[3] J.S. Abel, P. Huang: "A Simple, Robust Measure of Reverberation Echo Density". AES Convention, San Francisco, 2006.
【非特許文献4】[4] R. Stewart, M. Sandler: "Statistical Measures of Early Reflections of Room Impulse Responses". DAFx, 2007.
【非特許文献5】[5] Reilly et al: "Using Auralisation for Creating Animated 3-D Sound Fields Across Multiple Speakers". AES Convention, New York, 1995.
【非特許文献6】[6] Usher, J.: "An improved method to determine the onset timings of reflections in an acoustic impulse response". Journal of the Acoustical Society of America, (2010, volume 127) band 4, p. 172-177.
【非特許文献7】[7] Masri, P.: "Computer Modelling of Sound for Transformation and Synthesis of Musical Signals". PhD thesis, University of Bristol, 1996.
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明の目的は、室内インパルス応答に従ってオーディオ信号を処理するための改善された手法を提供することである。
【課題を解決するための手段】
【0007】
この目的は、請求項1に記載の方法、請求項16に記載の信号処理装置、請求項18に記載のオーディオ符号化器、請求項20に記載のオーディオ復号器、及び請求項24に記載のバイノーラルレンダラによって達成される。
【0008】
本発明は、従来の手法においては、最初の反射が発生又は衝突さえしていないうちに、遷移の発生を判定するのに使用される相関がすでに閾値に達しているために、早期反射から後期残響までの遷移の決定が早過ぎる状況があるということにおいて問題があるという本発明者の所見に基づく。これらの所見に基づいて、また、最初の反射ははっきりと区別でき確実に後期拡散残響ではあり得ないため、遷移時間は最初の反射の到来時刻よりも大きくならなければならないことが分かっているために、本発明者らは、固定閾値を使用することを回避することが必要であることを見出しており、むしろ、本発明の手法によれば、閾値は早期反射のうちの1つの衝突時刻における相関に依存するように規定される。これによって、最初の反射が常に遷移時間の前に位置することが保証される。
【0009】
(1)本発明は室内インパルス応答に従ってオーディオ信号を処理するための方法を提供し、この方法は、室内インパルス応答の早期部分及び後期残響を用いてオーディオ信号を別個に処理することと、室内インパルス応答の早期部分によって処理されたオーディオ信号と残響付与済み信号とを組み合わせることとを含む。室内インパルス応答における早期部分から後期残響までの遷移が、閾値に達する相関の大きさによって決定され、その閾値は室内インパルス応答の早期部分における早期反射のうちの選択された1つについての相関の大きさに応じて設定される。
【0010】
本発明の手法は、ロバストな遷移点に基づいてオーディオ信号の処理を改善することを可能にするため、有利である。本発明の手法は、部屋、バイノーラル手法が使用されているか否か、及び、入射角とは無関係である。従来技術の手法と比較して、本発明の手法は、バイノーラルインパルス応答の方位角、及び、直接音の振幅と最初の衝突反射との間の関係に強く依存しないため、さらに有利である。
【0011】
(2)実施形態によれば、相関の大きさは、室内インパルス応答に関して、初期状態を含む音響エネルギーの減衰、及び、所定の周波数範囲にわたって、初期状態に続く任意の時点において始まる音響エネルギーの減衰の類似度を記述する。
【0012】
(3)実施形態によれば、遷移を決定することは、室内インパルス応答に基づいて音響エネルギーの分布を決定することと、決定された分布の複数の部分について、決定された分布のそれぞれの部分における音響エネルギーと初期状態における音響エネルギーとの間の相関を示す複数の相関の大きさを決定することとを含む。
【0013】
(4)実施形態によれば、分布を決定することは、音響エネルギーの時間周波数分布を決定することを含み、分布の一部分は所定長の時間ブロックを含み、初期状態は時間周波数分布の複数の時間ブロックのうちの第1の時間ブロックによって規定される。
【0014】
これは、異なる複数の時点における周波数分布を分析することを可能にし、それによって周波数分布の特性の経時的な表現をもたらすため、有利である。
【0015】
(5)実施形態によれば、分布を決定することは、室内インパルス応答からエネルギー減衰緩和(EDR:energy decay relief)を計算することを含み、EDRは以下のように計算される。
ここで、
E(t,ω)はエネルギー減衰緩和、
h(τ)は室内インパルス応答、
ω=2πfである。
【0016】
(6)実施形態によれば、室内インパルス応答は所定の有効長を有し、時間周波数分布を決定することは、室内インパルス応答の有効長に対応する長さを有するウィンドウを使用して室内インパルス応答のFFTスペクトルを計算することを含む。
【0017】
FFT/DFTが明確に定義されており、スペクトル値を計算するための有効なアルゴリズムがあるため、これは有利である。ウィンドウ内の値が分かっている場合、複雑でない方法でFFT/DFTを計算することができる。
【0018】
(7)実施形態によれば、初期状態における音響エネルギーは、室内インパルス応答の有効長全体を取り、FFTスペクトルを計算して絶対値の二乗を取ることによって求められ、時間ブロックの音響エネルギーは、時間ブロックと関連付けられる時間だけウィンドウをシフトさせ、ウィンドウィングされたサンプルを有効長までゼロ詰めし、FFTを計算して絶対値の二乗を取ることによって求められる。
【0019】
EDRの狭い帯域の計算に追加のフィルタバンクなどが必要とされず、ウィンドウをシフトすることだけが必要とされるため、これは有利である。
【0020】
(8)実施形態によれば、相関の大きさは、初期状態を含む音響エネルギーの減衰、及び、初期状態に続く任意の時点において始まる音響エネルギーの減衰の類似度を記述する相関の大きさである。相関の大きさは以下のように計算することができる。
ここで、
ρ(t)は相関の大きさ、
E(1,ω)は周波数fにおける全周波数範囲エネルギー減衰緩和、
は最初の全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
E(t,ω)は時刻tから始まる周波数fにおけるエネルギー減衰緩和、
は時刻tから始まる全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
ω=2πf
である。
【0021】
この式は、周知のピアソンの相関係数(ピアソンの積率相関:Pearson's Product-Moment correlation)を指すため、これは有利である。相関係数はEDRから直接計算することができる。
【0022】
(9)実施形態によれば、閾値は、一定値と早期反射のうちの選択された1つの相関の大きさに基づいて決定される。閾値は以下のように定義することができる。
ρ(t)=c・ρ(tF)
ここで、
ρ(tF)は早期反射のうちの選択された1つの相関の大きさ、
Fは直接音の後の早期反射のうちの選択された1つが衝突する時間インデックス、
cは1/eに基づく一定値、、eはオイラー数である。
【0023】
閾値は一定ではなく、相関が閾値を下回って収まるのが早すぎないことを保証するために、選択された早期反射に依存するので有利である。
【0024】
(10)実施形態によれば、早期反射のうちの選択された1つの時間は、例えば、移動尖度演算子(running kurtosis operator)、閾値検出又はアタック検出によって求められる。
【0025】
これは、インパルス応答の時間ドメインサンプルから反射の衝突の時間を直接かつ自動的に計算することができるため、有利である。
【0026】
(11)実施形態によれば、早期反射のうちの選択された1つは、直接音に続く最初の反射である。
【0027】
(12)本発明は、オーディオ信号を受信するための入力と、本発明の方法に従って、室内インパルス応答に従って受信オーディオ信号を処理するように構成又はプログラムされているプロセッサと、受信オーディオ信号の処理済み早期部分及び残響付与済み信号を組み合わせて出力オーディオ信号にするための出力とを備える信号処理装置を提供する。この信号処理装置は、室内インパルス応答の早期部分に従って受信オーディオ信号を処理するための早期部分プロセッサと、室内インパルス応答の後期残響に従って受信オーディオ信号を処理するための後期残響プロセッサとを備えることができる。
【0028】
(13)本発明は、オーディオ信号を符号化するためのオーディオ符号化器を提供する。このオーディオ符号化器は、本発明の方法に従って、符号化されるべきオーディオ信号を室内インパルス応答に従って処理するように構成又はプログラムされている。このオーディオ符号化器は本発明の信号処理装置を含むことができる。
【0029】
(14)本発明は、符号化済みオーディオ信号を復号するためのオーディオ復号器を提供する。このオーディオ復号器は、本発明の方法に従って、復号ずみオーディオ信号を室内インパルス応答に従って処理するように構成又はプログラムされている。このオーディオ復号器は本発明の信号処理装置を含むことができる。このオーディオ復号器は、復号ずみオーディオ信号を受信し、室内インパルス応答に基づいて出力信号をレンダリングするように構成又はプログラムされている、バイノーラルレンダラのようなレンダラを含むことができる。
【0030】
(15)本発明は、本発明の信号処理装置を含むバイノーラルレンダラを提供する。
【図面の簡単な説明】
【0031】
図1】3Dオーディオシステムの3Dオーディオ符号化器の概観図である。
図2】3Dオーディオシステムの3Dオーディオ復号器の概観図である。
図3図2の3Dオーディオ復号器内で実装することができるフォーマット変換器を実装するための一例を示す図である。
図4図2の3Dオーディオ復号器内で実装することができるバイノーラルレンダラの一実施形態を示す図である。
図5】室内インパルス応答h(t)の一例を示す図である。
図6A】本発明の一実施形態による、室内インパルスの早期部分及び後期残響を有するオーディオ信号を別個に処理するための(例えば、図4のバイノーラルレンダラ内の)信号処理装置のブロック図である。
図6B】本発明のさらなる実施形態による、室内インパルスの早期部分及び後期残響を有するオーディオ信号を別個に処理するための(例えば、図4のバイノーラルレンダラ内の)別の信号処理装置のブロック図である。
図7】本発明の一実施形態による、室内インパルス応答の早期反射と後期残響との間の遷移時間を決定するための手法の流れ図である。
図8】FFTベースの手法に従って決定されたインパルス応答について達成されるエネルギー減衰緩和(EDR)を示す図である。
図9】本発明の一実施形態による遷移時間決定を示す図である。
図10】従来の手法を使用して決定されている、測定されているバイノーラル室内インパルス応答の左チャネル及び右チャネルの遷移時間を示す図である。
図11】本発明の手法を使用して決定されている、測定されているバイノーラル室内インパルス応答の左チャネル及び右チャネルの遷移時間を示す図である。
図12】本発明の一実施形態による、バイノーラルレンダラにおけるオーディオ信号のバイノーラル処理を概略的に示す図である。
図13】本発明の一実施形態による、図12のバイノーラルレンダラの周波数ドメイン残響付与装置における処理を概略的に示す図である。
【発明を実施するための形態】
【0032】
本発明の実施形態を添付の図面に関連して説明する。
【0033】
室内インパルス応答に従ってオーディオ信号を処理し、室内インパルス応答において、早期反射から後期残響までの遷移を決定するための本発明の手法の実施形態を説明する。以下の説明は、本発明の手法を実施することができる3Dオーディオコーデックシステムのシスタム概観によって開始する。
【0034】
図1及び図2は、実施形態による3Dオーディオシステムのアルゴリズムブロックを示す。より詳細には、図1は3Dオーディオ符号化器100の概観を示す。オーディ符号化器100は、任意に設けることのできるプリレンダラ/混合器回路102において入力信号、より詳細には、オーディオ符号化器100に提供する複数の入力チャネルを受信する。それらの入力信号は、複数のチャネル信号104、複数のオブジェクト信号106及び対応するオブジェクトメタデータ108である。プリレンダラ/混合器102によって処理されたオブジェクト信号106(信号110参照)は、SAOC符号化器112(SAOC=Spatial Audio Object Coding:空間オーディオオブジェクトコード化)に提供することができる。SAOC符号化器112は、USAC符号化器116(USAC=Unified Speech and Audio Coding:統合音声音響符号化)に提供されるSAOCトランスポートチャネル114を生成する。加えて、信号SAOC−SI118(SAOC−SI=SAOC side information:SAOCサイド情報)も、USAC符号化器116に提供される。USAC符号化器116はさらに、プリレンダラ/混合器からオブジェクト信号120を直接受信するとともに、チャネル信号及びプリレンダリング済みオブジェクト信号122を受信する。オブジェクトメタデータ情報108は、圧縮オブジェクトメタデータ情報126をUSAC符号化器に提供するOAM符号化器124(OAM=object metadata:オブジェクトメタデータ)に与えられる。USAC符号化器116は、上述した入力信号に基づいて、128において示すような、圧縮出力信号mp4を生成する。
【0035】
図2は、3Dオーディオシステムの3Dオーディオ復号器200の概観を示す。図1のオーディオ符号化器100によって生成される符号化信号128(mp4)が、オーディ復号器200、より詳細にはUSAC復号器202において受信される。USAC復号器202は、受信信号128を復号してチャネル信号204、プリレンダリング済みオブジェクト信号206、オブジェクト信号208、及びSAOCトランスポートチャネル信号210にする。さらに、圧縮オブジェクトメタデータ情報212及び信号SAOC−SI214が、USAC復号器202によって出力される。オブジェクト信号208は、レンダリング済みオブジェクト信号218を出力するオブジェクトレンダラ216に提供される。SAOCトランスポートチャネル信号210は、レンダリング済みオブジェクト信号222を出力するSAOC復号器220に供給される。圧縮オブジェクトメタデータ情報212はOAM復号器224に供給され、OAM復号器224はレンダリング済みオブジェクト信号218及びレンダリング済みオブジェクト信号222を生成するために、オブジェクトレンダラ216及びSAOC復号器220にそれぞれの制御信号を出力する。この復号器は、図2に示すように、チャネル信号228を出力するために入力信号204、206、218及び222を受信する混合器226をさらに備える。チャネル信号は、230において示すように、スピーカ、例えば、32チャネルスピーカに直接出力することができる。信号228はフォーマット変換回路232に提供することができ、フォーマット変換回路232はチャネル信号228が変換されるべき方法を示す再生レイアウト信号を制御入力として受信する。図2に示す実施形態において、フォーマット変換回路232での変換は、234で示されるように、信号が5.1スピーカシステムに提供できるように行われるべきであると仮定される。また、チャネル信号228は、238において示されるように、例えば、ヘッドホンのための2つの出力信号を生成するバイノーラルレンダラ236にも提供できる。
【0036】
本発明の実施形態において、図1及び図2に示す符号化/復号システムは、チャネル及びオブジェクト信号(信号104及び106参照)のコード化のためのMPEG−D USACコーデックに基づいている。大量のオブジェクトをコード化するための効率を増大させるために、MPEG SAOC技術を使用できる。3つのタイプのレンダラが、オブジェクトをチャネルにレンダリングするタスク、チャネルをヘッドホンにレンダリングするタスク、又は、チャネルを異なるスピーカ施設にレンダリングするタスク(図2、参照符号230、234及び238参照)を実施することができる。オブジェクト信号が明示的に送信されるか、又はSAOCを使用してパラメトリックに符号化されると、対応するオブジェクトメタデータ情報108が圧縮され(信号126参照)、3Dオーディオビットストリーム128に多重化される。
【0037】
図1及び図2に示す全体的な3Dオーディオシステムのアルゴリズムブロックを下記にさらに詳細に説明する。
【0038】
プリレンダラ/混合器102は、チャネル+オブジェクト入力シーンを、符号化前にチャネルシーンに変換するために任意に設けることができる。機能的には、これは後述するオブジェクトレンダラ/混合器と同一である。符号化器入力における決定論的(deterministic)信号エントロピーを保証するためにオブジェクトのプリレンダリングが望ましいことがある。符号化器入力は、基本的に、同時にアクティブなオブジェクト信号の数とは無関係である。オブジェクトをプリレンダリングすることによって、オブジェクトメタデータを送信する必要がなくなる。個別のオブジェクト信号が、符号化器が使用するように構成されているチャネルレイアウトにレンダリングされる。各チャネルについてのオブジェクトの重みが、関連するオブジェクトメタデータ(OAM)から得られる。
【0039】
USAC符号化器116は、スピーカチャネル信号、個別のオブジェクト信号、オブジェクトダウンミックス信号及びプリレンダリング済み信号のためのコアコーデックである。USAC符号化器116は、MPEG−D USAC技術に基づいている。USAC符号化器116は、入力チャネル及びオブジェクト割り当ての幾何学的情報及び意味情報に基づいて、チャネル及びオブジェクトのマッピング情報を作成することによって、上記信号のコード化を処理する。このマッピング情報は、入力チャネル及びオブジェクトがチャネル対要素(CPEs:channel pair elements)、単一チャネル要素(SCEs:single channel elements)、低周波数効果(LFEs:low frequency effects)及び4チャネル要素(QCEs:quad channel elements)のようなUSACチャネル要素にどのようにマッピングされるかを記述し、CPEs、SCEs及びLFEs、並びに対応する情報は復号器に送信される。SAOCデータ114、118又はオブジェクトメタデータ126のようなすべての追加のペイロードが、符号化器のレート制御において考慮される。オブジェクトのコード化は、レンダラに対するレート/歪み要件及び双方向性要件に応じて、様々な方法で可能である。実施形態によれば、以下のオブジェクトコード化変形形態が可能である。
【0040】
プリレンダリング済みオブジェクト:オブジェクト信号は符号化前に22.2チャネル信号にプリレンダリング及び混合される。後続のコード化チェーンは、22.2チャネル信号を考慮する。
【0041】
個別オブジェクト波形:オブジェクトは単音波形として符号化器に供給される。符号化器は、チャネル信号に加えてオブジェクトを送信するために、単一チャネル要素(SCEs)を使用する。復号済みオブジェクトは受信機側においてレンダリング及び混合される。圧縮オブジェクトメタデータ情報が、受信機/レンダラに送信される。
【0042】
・パラメトリックオブジェクト波形:オブジェクト特性及びそれらの互いに対する関係は、SAOCパラメータによって記述される。オブジェクト信号のダウンミックスはUSACを用いてコード化される。パラメトリック情報が並行して送信される。ダウンミックスチャネルの数は、オブジェクトの数及び全体的なデータレートに応じて選択される。圧縮オブジェクトメタデータ情報がSAOCレンダラに送信される。
【0043】
オブジェクト信号のためのSAOC符号化器112及びSAOC復号器220は、MPEG SAOC技術に基づくことができる。このシステムは、より少数の送信チャネル、及び、OLDs、IOCs(Inter Object Coherence:オブジェクト間コヒーレンス)、DMGs(DownMix Gains:ダウンミックス利得)のような追加のパラメータデータに基づいて、複数のオーディオオブジェクトを再生成、修正及びレンダリングすることが可能である。追加のパラメータデータは、すべてのオブジェクトを個々に送信するのに必要とされるよりも大幅に低いデータレートを示し、コード化を非常に効率的にする。SAOC符号化器112は、入力として、単音波形としてのオブジェクト/チャネル信号を取り込み、パラメトリック情報(3Dオーディオビットストリーム128内にパケット化される)及びSAOCトランスポートチャネル(単一チャネル要素を使用して符号化され、送信される)を出力する。SAOC復号器220は、復号済みSAOCトランスポートチャネル210及びパラメトリック情報214からオブジェクト/チャネル信号を再構築し、再生レイアウト、解凍されたオブジェクトメタデータ情報、及び、任意ではあるがユーザ対話情報に基づいて出力オーディオシーンを生成する。
【0044】
オブジェクトメタデータコーデック(OAM符号化器124及びOAM復号器224参照)は、各オブジェクトについて、3D空間におけるオブジェクトの幾何学的位置及び体積を指定する関連するメタデータが、時間及び空間におけるオブジェクト特性の量子化によって効率的にコード化されるように、設けられる。圧縮オブジェクトメタデータcOAM126が、サイド情報として受信機200に送信される。
【0045】
オブジェクトレンダラ216は、所定の再生フォーマットに従ってオブジェクト波形を生成するために、圧縮オブジェクトメタデータを利用する。各オブジェクトは、そのメタデータに従って特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的結果の合計からもたらされる。チャネルベースの内容及び個別/パラメータオブジェクトの両方が復号される場合、チャネルベースの波形及びレンダリング済みオブジェクト波形が混合器226によって混合され、その後、結果としての波形228が出力され、又はそれらがバイノーラルレンダラ236もしくはスピーカレンダラモジュール232のような後処理モジュールに供給される。
【0046】
バイノーラルレンダラモジュール236は、各入力チャネルが仮想音源によって表わされるようにマルチチャネルオーディオ材料のバイノーラルダウンミックスを生成する。この処理は、QMF(Quadrature Mirror Filterbank:直交ミラーフィルタバンク)ドメインにおいてフレームごとに行われ、バイノーラル化は測定バイノーラル室内インパルス応答に基づく。
【0047】
スピーカレンダラ232は、送信されたチャネル構成228と所望の再生フォーマットとの間で変換する。スピーカレンダラ232は「フォーマット変換器(format converter)」と呼ばれることもある。フォーマット変換器はより少数の出力チャネルへの変換を実施する、すなわち、ダウンミックスを作成する。
【0048】
図3はフォーマット変換器232を実装するための一例を示す。スピーカレンダラとも称されるフォーマット変換器232は、送信機チャネル構成と所望の再生フォーマットとの間で変換する。フォーマット変換器232はより少数の出力チャネルへの変換を実施する、すなわち、ダウンミックス(DMX)プロセス240を実施する。ダウンミキサ240は、好ましくはQMFドメインにおいて動作するものであり、混合器出力信号228を受信しスピーカ信号234を出力する。コントローラとも称されるコンフィギュレータ242を設けることができ、コンフィギュレータ242は、制御入力として、混合器出力レイアウト、すなわちそれのために混合器出力信号228によって表されるデータが決定されるレイアウト、を示す信号246、及び所望の再生レイアウトを示す信号248を受信する。この情報に基づいて、コントローラ242は、好ましくは自動的に、入力フォーマットと出力フォーマットとの所定の組み合わせのために最適化されたダウンミックス行列を生成し、これらの行列をダウンミキサ240に適用する。フォーマット変換器232は、標準的なスピーカ構成、及びスピーカ位置が非標準的なランダム構成を可能にする。
【0049】
図4は、図2のバイノーラルレンダラ236の一実施形態を示す。バイノーラルレンダラモジュールは、マルチチャネルオーディオ信号のバイノーラルダウンミックスを提供することができる。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づくことができる。室内インパルス応答は、実際の部屋の音響特性の「指紋」と考えることができる。室内インパルス応答は測定され、かつ記憶され、この「指紋」によって任意の音響信号を提供することができ、それによって聴き手において、室内インパルス応答と関連付けられた部屋の音響特性のシミュレーションが可能になる。バイノーラルレンダラ236は、頭部伝達関数(head related transfer functions)又はバイノーラル室内インパルス応答(BRIR:binaural room impulse responses)を使用して出力チャネルを2つのバイノーラルチャネルにレンダリングするようにプログラム又は構成することができる。例えば、モバイルデバイスについて、そのようなモバイルデバイスに取り付けられているヘッドホン又はスピーカに対するバイノーラルレンダリングが所望される。そのようなモバイルデバイスにおいて、制約に起因して、復号器及びレンダリングの複雑度を制限することが必要なことがある。そのような処理状況における非相関を省くことに加えて、最初に、ダウンミキサ250を使用して、中間ダウンミックス信号252、すなわちより少数の出力チャネル、へのダウンミックスを実施することが好ましい場合がある。これにより、実際のバイノーラル変換器254に対する入力チャネルがより少数になる。例えば、22.2チャネル材料がダウンミキサ250によって5.1中間ダウンミックスにダウンミックスされてもよく、又は、あるいは中間ダウンミックスは、ある種の「ショートカット」モードにおいて図2のSAOC復号器220によって直接計算されてもよい。このとき、バイノーラルレンダリングは、22.2入力チャネルが直接レンダリングされるべきであるのであれば、44個のHRTF又はBRIR関数を適用するのとは対照的に、異なる位置にある5つの個々のチャネルをレンダリングするための10個のHRTFs(Head Related Transfer Functions:頭部伝達関数)又はBRIR関数を適用しなければならないだけである。バイノーラルレンダリングに必要な畳み込みの動作は多大な処理能力を必要とし、それゆえ、許容可能なオーディオ品質を依然として得ながらこの処理能力を低減することが、モバイルデバイスにとって特に有用である。バイノーラルレンダラ236はマルチチャネルオーディオ材料228のバイノーラルダウンミックス238を生成するので、各入力チャネル(LFEチャネルは除外)が仮想音源によって表現される。この処理は、QMFドメインにおいてフレームごとに行うことができる。バイノーラル化は測定されたバイノーラル室内インパルス応答に基づき、直接音及び早期反射は、QMFドメインに加えて高速畳み込みを使用する疑似FFTドメインにおける畳み込み手法を介してオーディオ材料に印加することができ、一方、後期残響は別個に処理することができる。
【0050】
図5は、室内インパルス応答h(t)300の一例を示す。室内インパルス応答は、3つの成分、すなわち、直接音301、早期反射302及び後期残響304を含む。したがって、室内インパルス応答は、インパルスが再生されるときの閉鎖された残響音響空間の反射挙動を描写する。早期反射302は密度が増大していく個別の反射であり、インパルス応答の、個々の反射をもはや区別することができない部分が、後期残響304と呼ばれる。直接音301は室内インパルス応答において容易に識別することができ、早期反射から分離することができるが、早期反射302から後期残響304への遷移はそれほど明白ではない。
【0051】
以下において、本発明の手法の実施形態をさらに詳細に説明する。本発明の実施形態によれば、オーディオ信号は、室内インパルス応答の早期部分及び後期残響を用いて別個に処理される。室内インパルス応答の早期部分によって処理されたオーディオ信号と残響付与済み信号とが組み合わされて、出力オーディオ信号として出力される。別個に処理するために、早期部分から後期残響への室内インパルス応答の遷移を知る必要がある。遷移は閾値に達する相関の大きさによって決定され、閾値は室内インパルス応答の早期部分における早期反射のうちの選択された1つについての相関の大きさに応じて設定される。相関の大きさは、室内インパルス応答に関して、初期状態を含む音響エネルギーの減衰、及び、所定の周波数範囲にわたる初期状態に続く任意の時点において始まる音響エネルギーの減衰の類似度を記述することができる。
【0052】
実施形態によれば、オーディオ信号を別個に処理することは、第1のプロセスの間に室内インパルス応答の早期反射部分301、302を用いてオーディオ信号を処理することと、第1のプロセスとは異なり分離している第2のプロセスの間に室内インパルス応答の拡散残響304を用いてオーディオ信号を処理することとを含む。第1のプロセスから第2のプロセスへの変化は、遷移時間において発生する。さらなる実施形態によれば、第2のプロセスにおいて、拡散(後期)残響304は合成残響に置き換えることができる。その場合、与えられる室内インパルス応答は、早期反射部分301、302(図5参照)のみを含むことがあり、後期拡散残響304は含まれない。
【0053】
図6(A)は、本発明の一実施形態による、室内インパルス応答の早期部分及び後期残響を有するオーディオ信号を別個に処理するための第1の例示的な信号処理装置のブロック図を示す。室内インパルス応答の異なる複数の部分によるオーディオ信号の処理は、上述したバイノーラルレンダラ236において実行することができる。オーディオ入力信号400は非残響オーディオ材料、例えば、マルチチャネルオーディオ入力信号とすることができ、それには室内インパルス応答、例えば、人工骨頭又はインナーイヤマイクロホンを使用して測定された室内インパルス応答が畳み込まれる。この畳み込みは、元の非残響オーディオ材料が室内インパルス応答と関連付けられる部屋で聴かれているような、そのオーディオ材料の空間印象を得ることを可能にする。例えば、上述したバイノーラルレンダラ236において、室内インパルス応答の直接音301及び早期反射302を用いてオーディオ信号を処理し、別個に、後期残響304を用いてオーディオ信号を処理することが所望されることがある。オーディオ入力信号400を処理するために、直接音処理のためのブロック402、早期反射処理のためのブロック404、及び後期残響処理のためのブロック406が設けられている。それぞれのブロック402、406の出力信号408と410は、早期処理済み信号414を生成するために第1の加算器412によって組み合わされる。オーディオ信号が室内インパルス応答と関連付けられる部屋で聴かれているような印象を聴き手に与えるオーディオ出力信号420を生成するために、早期処理済み信号414とプロセッサ406によって与えられた残響付与済み信号416が第2の加算器418によって組み合わされる。
【0054】
直接音及び早期反射とは別個に後期残響処理302を処理することは、計算複雑度が低減することにより有利である。より具体的にいうと、インパルス応答全体の畳み込みを使用することは、非常に計算コストがかかる。それゆえ、より複雑度の低い残響アルゴリズムが、後期残響をシミュレートするためにオーディオ信号を処理するのに典型的に使用される。直接音とインパルス応答の早期反射部分は、例えば、畳み込みによってより正確に計算される。さらなる利点は、残響制御が可能であることである。これは、後期残響の修正を、例えば、ユーザ入力、測定される室内パラメータ又はオーディオ信号の内容に応じて行うことを可能にする。上記の利点を達成するために、早期反射302が終わり後期残響304が始まる遷移(例えば、時点)が分かる必要がある。後期残響処理の始まりが早すぎるとき、人間が聴いて失われた明確な早期反射を検知することができるため、オーディオ信号の品質がより低くなり得る。他方、遷移時間が遅すぎる場合、早期反射処理は一般的に後期残響処理よりもコストがかかるため、計算効率性が利用されなくなる。遷移、例えば時間ドメインサンプルにおける遷移は、入力パラメータとしてバイノーラルレンダラに供給することができ、入力パラメータはその後、受信された遷移に応じて、オーディオ信号を別個に処理するためのプロセッサ402,404,406を制御することになる。
【0055】
図6(B)は、本発明の別の実施形態による、早期部分を有するオーディオ信号と室内インパルスの後期残響を別個に処理するための別の例示的な信号処理装置のブロック図を示す。入力信号400、例えばマルチチャネルオーディオ入力信号、が受信され、早期部分を処理するための第1のプロセッサ422に印加される。すなわち、第1のプロセッサ422は、図5に示す直接音301及び室内インパルス応答300の早期反射302に従ってオーディオ信号を処理するためのものである。マルチチャネルオーディオ入力信号400は、室内インパルス応答の後期残響304に従ってオーディオ信号を処理するための第2のプロセッサ424にも印加される。バイノーラルレンダラにおいて、上述したように、主に、計算複雑度を低減するために、直接音及び早期反射を後期残響とは別個に処理することが所望されることがある。直接音及び早期反射の処理は、例えば、第1のプロセッサ422によって実行される畳み込み手法によってオーディオ信号に印加することができ、一方、後期残響は第2のプロセッサ424によって与えられる合成残響に置き換えることができる。したがって、全体的なバイノーラル出力信号420は、プロセッサ422によって与えられる畳み込み結果428と、プロセッサ424によって与えられる合成残響付与済み信号430との組み合わせである。実施形態によれば、信号428と430は、全体的なバイノーラル出力信号420を出力する加算器432によって組み合わされる。
【0056】
言及したように、第1のプロセッサ422は、オーディオ入力信号400と直接音及び室内インパルス応答の早期反射との畳み込みを引き起こすことができ、直接音及び室内インパルス応答の早期反射は複数の記録されているバイノーラル室内インパルス応答を保持する外部データベース434から第1のプロセッサ422に与えることができる。第2のプロセッサ又は残響付与装置424は残響RT60及び残響エネルギーのような残響パラメータに基づいて動作することができ、残響パラメータは記憶されているバイノーラル室内インパルス応答から分析436によって得ることができる。留意することは、分析436はレンダラの必須の部分ではなく、むしろ、この分析は、データベース434に記憶されているそれぞれの応答からそれぞれの残響パラメータを導出することができることを示すためのものであり、この分析は外部で行われてもよいということである。残響付与装置パラメータは、例えば、オクターブ又は3分の1オクターブフィルタバンク分析においてエネルギー及びRT60残響時間を計算することによって求めてもよく、又は複数のインパルス応答分析の結果の平均値であってもよい。
【0057】
加えて、両方のプロセッサ422及び424は、データベース434から直接又は分析436を介して早期部分から後期残響への室内インパルス応答の遷移に関する情報も入力パラメータとして受信する。遷移は、下記にさらに詳細に説明するように決定することができる。
【0058】
実施形態によれば、遷移分析は、早期反射と後期残響とを分離するのに使用することができる。この分析は、入力パラメータとしてバイノーラルレンダラに供給することができる(例えば、残響付与装置を構成するのに使用されるRT60値及びエネルギー値とともに専用ファイル/インターフェースから読み出すことができる)。この分析は、1セットのバイノーラル室内インパルス応答(複数の方位角及び仰角のBRIR対のセット)に基づくことができる。この分析は、すべてのインパルス応答について別個に実行される前処理段階であってもよく、このとき、すべての遷移値の中央値が1つのBRIRセットの全体的な遷移値として選ばれる。この全体的な遷移値はその後、バイノーラル出力信号の計算において後期残響から早期反射を分離するのに使用することができる。
【0059】
遷移を決定するためのいくつかの手法が既知であるが、これらの手法は、これより説明するように不利である。従来技術文献[1]には、早期反射から後期残響までの遷移時間を決定するためにエネルギー減衰緩和(EDR)及び相関の大きさを使用する方法が記載されている。しかしながら、従来技術文献[1]に記載されている手法は不利である。
【0060】
1.この手法は、バイノーラルインパルス応答の方位角、及び直接音の振幅と最初の衝突反射の振幅との間の関係に強く依存する。
【0061】
2.遷移時間は任意の周波数帯域において計算される。いずれの周波数帯域が、全体的なインパルス応答に使用されるための正しい遷移時間を与えるかに関しては、一般的に知られていない。
【0062】
3.この手法の基本的な相関ステップに関する情報はない。
【0063】
別の既知の手法は、空間内のエコーの分散によって、例えば、秒あたりの反射の平均数によって早期反射を記述し、この数が所定の閾値を超えるときに後期残響の始まりを決定することである(従来技術文献[2]参照)。この手法は、すでに分かっている室内特性、すなわち室容積に依拠するが、室容積は未知であるが多い。室容積は、測定されたインパルス応答から容易に抽出することはできない。それゆえ、この方法は、測定されたインパルス応答からの遷移の計算には適用可能でない。また、後期残響と呼ばれるには、反射がどの程度密でなければならないかについては一般的に知られていない。
【0064】
従来技術文献[3]に記載されている別の可能性は、インパルス応答ウィンドウのある時点における実際の分布を、その時間ドメインにおけるガウス分布と比較することである。後期残響は正規分布を有すると仮定される。正規分布では、約3分の1(正確には1/e)のサンプルが平均の1標準偏差外にあり、3分の2のサンプルが平均の1標準偏差内にある。明確な早期反射は1標準偏差内により多くのサンプルを有し、外側により少ないサンプルを有する。1標準偏差外にあるサンプル対1標準偏差内にあるサンプルの比を使用して遷移時間を定義することができる。しかしながら、この手法の欠点は、比は閾値周辺で変動することがあるため、この大きさによって遷移を定義することが困難であることである。この大きさはまた、比が計算されるスライディングウィンドウのサイズ及びタイプに強く依存する。
【0065】
上述した手法に加えて、尖度(確率的信号のより高次のキュムラント(cumulant))も、遷移時間を決定するのに使用できる。尖度は、従来技術文献[4]に概説されているように、インパルス応答の後期部分に近づくと急速に低減する。しかしながら、遷移に対する閾値の定義(急速な低減又は最初にゼロに達する時間のいずれかの使用)は明瞭でない。
【0066】
[2]に記載されているような、測定されたインパルス応答の分析に依拠せず、室容積に依拠するまた別の手法がある。この手法は、遷移時間が容積のみに依存すると仮定するが、境界の拡散特性を考慮に入れない。それゆえ、結果は遷移時間の近似にすぎないものであり得、遷移時間が精密に決定されないときの上述した欠点を回避するのに必要とされるほど正確ではない。さらに、室容積はわからないことが多く、測定されたインパルス応答から容易に抽出することはできない。
【0067】
他の既知の手法は、環境を完全に無視し、遷移時間を単純に80msであると定義する。例えば、従来技術文献[5]参照。しかしながら、この数値は室内特性又は測定されるインパルス応答から完全にかけ離れており、それゆえ、後期残響をインパルス応答の残りの部分から分離する目的のためには不正確に過ぎる。
【0068】
本発明は、実施形態によれば、オーディオ信号処理の改善に加えて、室内インパルス応答における早期反射と後期残響との間の遷移時間を決定するための手法の改善をももたらし、遷移時間のより正確な決定をもたらす。実施形態は、後述するように、FFT分析を使用して、測定されたインパルス応答から遷移時間を計算するための単純で効果的な可能性をもたらす。
【0069】
図7は、本発明の一実施形態による、室内インパルス応答の早期反射と後期残響との間の遷移時間を求めるための手法の流れ図を示す。早期反射から後期残響までの遷移時間を決定するために、第1のステップ500において、音響エネルギーの時間周波数分布が決定される。例えば、実施形態によれば、ステップ500においてエネルギー減衰緩和(E(t,f),EDR)を計算することができる。EDRは、測定された(例えば、バイノーラル)室内インパルス応答から直接計算することができ、一般的に使用されるエネルギー減衰曲線の周波数ドメイン展開(シュレーダー積分EDC(d))として解釈することができる。エネルギー減衰曲線は時刻t後のインパルス応答の残りのエネルギーを示す。広帯域インパルス応答を使用する代わりに、時間周波数表現からEDRが導出され、多くの異なる時間周波数表現をこの目的のために使用することができる。ステップ500において音響エネルギーの時間周波数分布が決定されると、ステップ502において、時間周波数分布の時間ブロックにおける音響エネルギーと、初期状態における全体的な音響エネルギーとの間の相関の大きさが決定される。ステップ504において、相関の大きさが規定の閾値に達する(例えば、規定の閾値の下に下がる)か否かについて決定が行われる。相関の大きさが閾値に達しない場合、方法はステップ506に進み、現在の時間ブロックに続く次の時間ブロック及び分布が選択され、次の時間ブロックについてステップ502と504が繰り返される。したがって、ステップ502から506によれば、相関の大きさは、ステップ500において決定されるEDRの各時間ブロックと初期状態における全体的なエネルギーとの間の相関値を計算するのに使用される。相関の大きさが規定の閾値に達する(例えば、規定の閾値より下に下がる)とき、遷移時間に達する。言い換えれば、ステップ504において、現在の時間ブロックについて相関の大きさが閾値よりも低いと決定されると、方法はステップ508に進み、現在の時間ブロックの時間が遷移時間として出力される。
【0070】
以下において、本発明の手法の一実施形態をさらに詳細に説明する。最初に、測定されたバイノーラルインパルス応答を、遷移時間の計算のための入力として取り込むことができる。その後、Page又はLevin分布が、エネルギー減衰緩和(EDR)の計算に利用される。Page分布は過去のランニングスペクトルの導関数を指し、時間反転信号のPage分布がLevin分布と呼ばれる(従来技術文献[2]も参照されたい)。この分布は、瞬時パワースペクトルを記述し、インパルス応答h(t)のEDR(例えば、図5参照)は以下のように計算される。
ここで、
E(t,ω)はエネルギー減衰緩和、
h(τ)は室内インパルス応答、
ω=2πf
である。
【0071】
上記の式による計算は直接音301(図5参照)において開始し、時間が増大するにつれて、エネルギー減衰緩和が含む明確な反射は少なくなり、確率的な残響が多くなる。説明されている実施形態によれば、エネルギー減衰緩和は、計算を容易にするために1msの長さを有する時間ブロックについて計算される。上述した機能によって、音響エネルギーの時間周波数分布は、図7のステップ500に関連して説明したように決定される。
【0072】
これに続いて、図7のステップ502から506に関連して説明したように、ピアソンの積率相関(・・・・・・・'・・・・・・・・・・・・・・・・・・・・・・・・・・・・)(相関係数としても知られている)に基づく相関の大きさρ(t)が決定される。より詳細には、実施形態に従って、各時間ブロックの音響エネルギーの、初期状態における全体的なエネルギーとの相関が、以下のように決定される。
ここで、
E(1,ω)は周波数fにおける全周波数範囲エネルギー減衰緩和、
は最初の全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
E(t,ω)は時刻tから始まる周波数fにおけるエネルギー減衰緩和、
は時刻tから始まる全範囲エネルギー減衰緩和のすべての周波数にわたる平均値、
ω=2πf
である。
【0073】
上記相関は、初期状態を含む減衰と、任意の時刻tにおいて始まる減衰との類似度を記述する。この相関は、計算のためにEDRの全周波数範囲を使用して広帯域EDRから計算され、それによって、完全な初期エネルギー状況が時刻tにおける状況と比較される。
【0074】
本発明はすべての周波数にわたる相関の計算には限定されない。むしろ、相関はまた、所定の周波数範囲にわたって計算されてもよい。周波数範囲は処理されるべきオーディオ信号から決定することができる。例えば、特定のオーディオ信号について、周波数範囲は、所定の範囲、例えば可聴周波数の範囲に限定することができる。実施形態によれば、周波数範囲は20Hz〜20kHzとすることができる。留意すべきは、他の範囲も、例えば実証的研究によって選択できるということである。
【0075】
一実施形態によれば、EDRの有効FFTベースの実施形態を使用することができる。測定されるインパルス応答の有効長を有するウィンドウが適用され、測定されるインパルス応答は213の有効長を有すると仮定され、これは8192周波数ビンに等しい。計算中、このウィンドウは、単一時間ブロックの個別の長さだけシフトされ、ウィンドウの終わりはゼロ詰めされる。実施形態によれば、1msの時間ブロック長が使用され、EDRの単純かつ効率的な計算のために、以下の手法が適用される。
【0076】
(1)測定されたインパルス応答の全有効長がFFTスペクトルを計算するために利用され、絶対値が二乗されて、E(1,ω)がもたらされる。
【0077】
(2)インパルス応答の終わりに達するまで、インパルス応答の終わりに向かって1msの個別の時間ブロック長だけウィンドウが動かされ、ウィンドウィングされたサンプルが有効長までゼロ詰めされ(すなわち、有効長を超えるサンプルがゼロにされ)、その後、E(t,ω)をもたらすFFTスペクトルが計算される。
【0078】
上記の手法は有利である。というのは、EDRの狭い帯域の計算に追加のフィルタバンクなどが必要とされず、ウィンドウをシフトすることだけが必要とされるからである。図8は、上述したFFTベースの手法に従ってインパルス応答について達成されるエネルギー減衰緩和の一例を示す。
【0079】
ステップ504及び508に関連して図7において説明したように、上述した方法で決定された相関が、その後、所定の閾値と比較される。閾値が小さくなるほど、遷移時間はインパルス応答の終わりに向かってより動く。例えば、バイノーラルインパルス応答について、閾値が1/e≒0.3679になるように選択される場合(従来技術文献「2」も参照されたい)、相関は最初の反射が発生又は衝突するよりも前にすでに閾値の下に下がっているため、遷移はいくつかの方位角では早すぎる。しかしながら、最初の反射は明瞭に区別することができ、確実に、後期拡散残響ではあり得ないため、遷移時間は最初の反射の到来時刻よりも遅くなければならないことが分かることから、実施形態によれば、閾値は固定閾値としては定義されない。むしろ、本発明の手法によれば、閾値は、最初の反射の衝突時刻における相関に依存するように定義される。この定義によって、最初の反射が常に遷移時間の前に位置することが保証される。実施形態によれば、ステップ508に示すように、以下が当てはまるときに遷移時間に達すると考えられる。
ρ(t)=c・ρ(tF)
ここで、
ρ(tF)は早期反射のうちの選択された1つの相関の大きさ、
Fは直接音の後の早期反射のうちの選択された1つが衝突する時間インデックス、
cは1/eに基づく一定値であり、eはオイラー数である。
【0080】
実施形態によれば、一定値は1/eであってもよいが、本発明はこの値には限定されない。実施形態によれば、一定値は1/eによって近似することができ、例えば1/eを所定の少数位に対して四捨五入又は切り捨てすることによって近似することができる(下記参照)。
【0081】
説明されている実施形態において、tFは直接音の後の最初の反射が衝突する時間ブロックインデックスである。
【0082】
図9は、本発明の手法による遷移時間決定を示し、最初の反射の衝突点における相関とび固定値又は一定値1/eを乗算することによって、インパルス応答に依存する閾値が計算される。サンプル数に対する室内インパルス応答600の振幅が示されており、最初の反射602も示されている。波形604は、式(2)を適用することによって得られる相関値を示す。606において最初の反射における相関値が示されており、示されている例では0.58の値を有する。また、従来使用されている1/eの固定閾値が608において示されている。最初の反射の相関値606と元の固定値1/eが乗算器610に適用され、乗算器610は、最初の反射における相関値に依存し、記載されている実施形態では612において示すように0.21の値を有する新たな閾値を生成する。したがって、従来の手法と比較すると、遷移点614に続くすべてのサンプルがここでは後期残響304と考えられ、それよりも前のすべてのサンプルは早期反射302と考えられるように、遷移点614はさらに右に向けて動かされている。その結果もたらされる決定時間614はよりロバストであることが見てとれる。例えば、バイノーラル室内インパルス応答において、これは、計算される遷移時間が、方位角にわたってはるかにより安定していることを意味する。これは、図10図11の比較から見てとれる。図10は、上述したEDC実施態様を使用するが、1/eの固定位置を用いて測定されたバイノーラル室内インパルス応答の左チャネル700と右チャネル702について、従来技術文献[1]に記載されている手法を適用するときの遷移時間を示す。耳及び方位角に対する依存性、並びに、最初の反射が衝突する前に相関ρ(t)が閾値より下に下がるという事実によって10ms未満まで下がる遷移時間の深い下落が明瞭に見える。図11は、本発明の手法に従って計算されたときの、左チャネル700及び右チャネル702の遷移時間を示す。図10に関連して説明した従来の手法と比較すると、結果としてもたらされる遷移時間の、耳及び方位角への依存性ははるかに低いことが見てとれる。
【0083】
実施形態によれば、相関が初めて閾値以下になり、その後再び閾値を超えて増大しないときに、遷移時間に達したと考えられる。計算されている相関関数においてこのサンプルと関連付けられる時間値は、インパルス応答の後期残響が始まると考えられる時間である。本発明の手法によれば、第1の反射の衝突時間は、従来技術文献[6]において説明されているような移動尖度演算子によって決定することができる。あるいは、最初の反射は、他の方法によって、例えば閾値検出によって、又は例えば従来技術文献[7]に記載されているようなアタック検出によって検出してもよい。
【0084】
実施形態によれば、e-1=0.3679は、例えば、従来技術文献[1]にも示されているような確率プロセスにおいて低い相関を示すための値として使用される。実施形態によれば、この値は、e-1は0.3679として近似されるように、有効数字4桁の十進数によって使用される。他の実施形態によれば、有効桁数がより多い又はより少ない十進数も使用することができ、検出される遷移時間はe-1の正確な数からずれるに従って相応に変化することが観察されている。例えば、0.368の値を使用するとき、この結果としての遷移時間の変化は1msを下回る最小限のものである。
【0085】
さらなる実施形態によれば、インパルス応答は帯域制限することができ、この場合、EDRは制限された周波数範囲にわたって計算することができ、相関もEDRの制限された周波数範囲にわたって計算することができる。代替的な周波数変換又はフィルタバンク、例えばFFTドメインにおいて完全に動作する手法も使用することができ、それによって、例えばFFTベースのフィルタリング/畳み込みを使用するときに、さらなる変換が節約される。
【0086】
留意することは、実施形態の上記説明において、相関値の値が最初の反射について参照されているということである。しかしながら、他の実施形態は、別の早期反射について計算された相関値を使用してもよい。
【0087】
上述したように、本発明の手法は、実施形態によれば、オーディオ信号のバイノーラル処理のためのバイノーラルプロセッサにおいて使用することができる。以下において、オーディオ信号のバイノーラル処理の一実施形態を説明する。バイノーラル処理は、復号済み信号をバイノーラルダウンミックス信号に変換する復号器プロセスとして実行することができ、バイノーラルダウンミックス信号はヘッドホンを介して聴かれるときにサラウンド音体験をもたらす。
【0088】
図12は、本発明の一実施形態によるオーディオ信号のバイノーラル処理のためのバイノーラルレンダラ800の概略図を示す。図12はまた、バイノーラルレンダラにおけるQMFドメイン処理の概説も提供する。入力802において、バイノーラルレンダラ800は、処理されるべきオーディオ信号、例えばN個のチャネルと64個のQMF帯域を含む入力信号を受信する。加えて、バイノーラルレンダラ800は、オーディオ信号の処理を制御するための複数の入力パラメータを受信する。入力パラメータは、2×N個のチャネル及び64個のQMF帯域のためのバイノーラル室内インパルス応答(BRIR)804、オーディオ入力信号のBRIR804の早期反射部分との畳み込みに使用される最大帯域の指標Kmax806、並びに、上述した残響付与装置パラメータ808及び810(RT60及び残響エネルギー)を含む。バイノーラルレンダラ800は、受信BRIR804の早期部分を用いて入力オーディオ信号802を処理するための高速畳み込みプロセッサ812を備えている。プロセッサ812は、出力において、2つのチャネル及びKmaxQMF帯域を含む早期処理済み信号814を生成する。バイノーラルレンダラ800は、高速畳み込みプロセッサ812を有する早期処理分岐に加えて、各々がRT60情報808及び残響エネルギー情報810を入力パラメータとして受信する2つの残響付与装置816a及び816bを含む残響分岐をも含む。残響分岐はステレオダウンミックスプロセッサ818と相関分析プロセッサ820をさらに含み、両方とも同じく入力オーディオ信号802を受信する。加えて、ステレオダウンミックスプロセッサ818によって与えられるダウンミックス済み信号822の利得を制御するための2つの利得段821aと821bが、ステレオダウンミックスプロセッサ818とそれぞれの残響付与装置816a及び816bとの間に設けられている。ステレオダウンミックスプロセッサ818は、入力信号802に基づいて、2つの帯域と64個のQMF帯域を有するダウンミックス済み信号822を与える。利得段821aと821bの利得は、相関分析プロセッサ820によって与えられるそれぞれの制御信号824aと824bによって制御される。利得制御されたダウンミックス済み信号はそれぞれの残響付与装置816aと816bに入力され、残響付与装置816aと816bはそれぞれの残響付与済み信号826a、826bを生成する。早期処理済み信号814と残響付与済み信号826a、826bは混合器828によって受信され、混合器828は受信信号を組み合わせて、2つのチャネルと64個のQMF帯域を有する出力オーディオ信号830にする。加えて、本発明によれば、高速畳み込みプロセッサ812並びに残響付与装置816a及び816bは、室内インパルス応答804における上述したように決定される早期部分から後期残響への遷移を示す追加の入力パラメータ832を受信する。
【0089】
バイノーラルレンダラモジュール800(例えば、図2又は図4のバイノーラルレンダラ236)は、入力802として復号済みデータストリームを有する。その信号は、ISO/IEC 14496-3:2009, subclause 8.6.4.2に述べられている修正を加えたISO/IEC 14496-3:2009, subclause 4.B.18.2に概説されているQMF分析フィルタバンクによって処理される。レンダラモジュール800はQMFドメイン入力データを処理することもでき、その場合は分析フィルタバンクは省略できる。バイノーラル室内インパルス応答(BRIRs)804は、複素QMFドメインフィルタとして表される。時間ドメインバイノーラル室内インパルス応答から複素QMFフィルタ表現への変換は、ISO/IEC FDIS 23003-1:2006, Annex Bに概説されている。BRIRs804は複素QMFドメインにおいては特定数の時間スロットに制限されるので、それらは早期反射部分301、302(図5参照)のみを含み、後期拡散残響304は含まれない。早期反射から後期残響への遷移点832は、上述したように、例えばバイノーラル処理の前処理ステップにおけるBRIRs804の分析によって決定される。QMFドメインオーディオ信号802とQMFドメインBRIR804はその後、バイノーラル処理を実施するために帯域ごとの高速畳み込み812によって処理される。QMFドメイン残響付与装置816a、816bが使用されて、2チャネルQMFドメイン後期残響826a、826bが生成される。残響付与モジュール816a、816bは、周波数依存残響時間808とエネルギー値810のセットを使用して残響の特性を適合させる。残響の波形はオーディオ入力信号802のステレオダウンミックス818に基づいており、マルチチャネルオーディオ信号802の相関分析820に応じて振幅が適応的にスケーリングされる821a、821b。2チャネルQMFドメイン畳み込み結果814と2チャネルQMFドメイン残響816a、816bがその後組み合わされて828、最終的に、2つのQMF合成フィルタバンクが、ISO/IEC 14496-3:2009, subclause 4.6.18.4.2に概説されているように、バイノーラル時間ドメイン出力信号830を計算する。レンダラはQMFドメイン出力データを計算することもでき、このときは合成フィルタバンクは省かれる。
【0090】
定義
バイノーラルレンダラモジュール800に供給されるオーディオ信号802を、以下において入力信号と称する。バイノーラル処理の結果であるオーディオ信号830を出力信号と称する。バイノーラルレンダラモジュール800の入力信号802は、コア復号器のオーディオ出力信号(例えば、図2の信号228参照)である。以下の様々な定義が使用される。
【0091】
【0092】
処理
ここで、入力信号の処理を説明する。バイノーラルレンダラモジュールは、入力オーディオ信号の長さL=2048の時間ドメインサンプルの連続した重なり合わないフレームに対して動作し、長さLの処理済み入力フレームあたりL個のサンプルのうちの1つのフレームを出力する。
【0093】
(1)初期化及び前処理
コア復号器(例えば、図2の復号器200参照)によって発せられたオーディオサンプルの処理の前に、バイノーラル処理ブロックの初期化が行われる。初期化はいくつかの処理ステップから構成される。
【0094】
(a)分析値の読み出し
残響付与装置モジュール816a、816bが、残響時間808及びエネルギー810の周波数依存セットを入力パラメータとして取り込む。これらの値は、バイノーラル処理モジュール800の初期化においてインターフェースから読み出される。加えて、時間ドメインサンプルにおける早期反射から後期残響付与への遷移時間832が読み出される。これらの値は、サンプルあたり32ビット、浮動小数点値、リトルエンディアン順序で書き込まれるバイナリファイルに記憶することができる。処理に必要とされる読み値を下記の表に記述する。
【0095】
【0096】
(b)BRIRsの読み出し及び前処理
バイノーラル室内インパルス応答804が、左耳BRIRs及び右耳BRIRsを個々に記憶している2つの専用ファイルから読み出される。BRIRsの時間ドメインサンプルが、サンプルあたり24ビット及び32チャネルの分解能で整数ウェーブファイルに記憶される。ファイル内でのBRIRsの順序付けは、以下の表に記述する通りである。
【0097】
【0098】
スピーカ位置の1つにおいて測定されたBRIRがない場合、ウェーブファイル内の対応するチャネルがゼロ値を含む。LFEチャネルはバイノーラル処理には使用されない。
【0099】
前処理ステップとして、バイノーラル室内インパルス応答(BRIRs)の所定のセットが時間ドメインフィルタから複素値QMFドメインフィルタへ変換される。複素値QMFドメインにおける所定の時間ドメインフィルタの実施は、ISO/IEC FDIS 23003-1:2006, Annex Bにしたがって実行される。フィルタ変換のためのプロトタイプフィルタ係数は、ISO/IEC FDIS 23003-1:2006, Annex B, Table B.1に従って使用される。時間ドメイン表現
が処理されて、複素値QMFドメインフィルタ
が得られる。
【0100】
(2)オーディオ信号処理
バイノーラルレンダラ800のオーディオ処理ブロックがNin QUOTE個の入力チャネルの時間ドメインオーディオサンプル802をコア復号器から得て、Nout=2個のチャネルから構成されるバイノーラル出力信号830を生成する。
【0101】
処理は、入力として以下を取り込む。
・コア復号器からの復号済みオーディオデータ802、
・BRIRセット804の早期反射部分の複素QMFドメイン表現、及び
・後期残響826a、826bを生成するためにQMFドメイン残響付与装置816a、816bによって使用される周波数依存パラメータセット808、810、832。
【0102】
(a)オーディオ信号のQMF分析
第1の処理ステップとして、バイノーラルレンダラモジュールは、Ninチャネル時間ドメイン入力信号(コア復号器から入来する)
のL=2048個の時間ドメインサンプルを、Ln=32次元QMF時間スロット(スロットインデックスn)及びK=64周波数帯域(帯域インデックスk)のNinチャネルQMFドメイン信号表現802に変換する。
【0103】
ISO/IEC 14496-3:2009, subclause 8.6.4.2に述べられている修正を加えたISO/IEC 14496-3:2009, subclause 4.B.18.2に概説されているQMF分析が、QMFドメイン信号
のフレームを得るために、時間ドメイン信号
のフレームに対して実施される。
【0104】
(b)QMFドメインオーディオ信号及びQMFドメインBRIRsの高速畳み込み
次に、QMFドメインオーディオ信号802及びQMFドメインBRIRs804を処理するために、帯域ごとの高速畳み込み812が実行される。入力信号802の各チャネル及び各BRIR804について、各QMF周波数帯域kに対してFFT分析が実行され得る。
【0105】
QMFドメインにおける複素値に起因して、1つのFFT分析がQMFドメイン信号表現の実数部に対して実行され、1つのFFT分析がQMFドメイン信号表現の虚数部に対して実行される。その結果がその後、組み合わされて、最終的な帯域ごとの複素値疑似FFTドメイン信号
と帯域ごとの複素値BRIRs
左耳用の
右耳用の
が形成される。
【0106】
FFT変換の長さは、複素値QMFドメインBRIRフィルタLtrans,n及びQMFドメイン時間スロットにおけるフレーム長Lnに従って、
FET=Ln+Ltrans,n−1
のように決定される。
【0107】
複素値疑似FFTドメイン信号はその後、複素値疑似FFTドメインBRIRフィルタと乗算されて高速畳み込み結果が形成される。入力信号のいずれのチャネルがBRIRデータセット内のいずれのBRIR対に対応するかを信号伝達するために、ベクトルmconvが使用される。
【0108】
この乗算はすべてのQMF周波数帯域k(ただし、1≦k<Kmax)について帯域ごとに行われる。最大帯域Kmaxは、18kHz又はコア復号器からのオーディオ信号内に存在する最大信号周波数のいずれかの周波数を表すQMF帯域によって決定される。
max=min(fmax,decoder,18kHz)
【0109】
各BRIR対との各オーディオ入力チャネルの乗算結果が各QMF周波数帯域k(ただし、1≦k<Kmax)において合計され、結果として、中間2チャネルKmax 帯域疑似FFTドメイン信号がもたらされる。
は、QMFドメイン周波数帯域kにおける疑似FFT畳み込み結果
である。
【0110】
次に、畳み込み結果をQMFドメインに変換し戻すために、帯域ごとのFFT合成が実行され、LFFT個の時間スロット
を有する中間2チャネルKmax帯域QMFドメイン信号をもたらす。
【0111】
L=32個の時間スロットを有する各QMFドメイン入力信号フレームについて、L32個の時間スロットを有する畳み込み結果信号フレームが返される。残りのLFFT−32個の時間スロットは記憶され、後続のフレーム(複数可)において重畳加算処理が実行される。
【0112】
(c)後期残響の生成
第2の中間信号826a、826bとして、
と呼ばれる残響信号が、周波数ドメイン残響付与装置モジュール816a、816bによって生成される。周波数ドメイン残響付与装置816a、816bは、入力として以下を取り込む。
・入力信号の1つのフレームのQMFドメインステレオダウンミックス822、
・周波数依存残響時間808及びエネルギー値810を含むパラメータセット。
【0113】
周波数ドメイン残響付与装置816a、816bは、2チャネルQMFドメイン後期残響尾部を戻す。
【0114】
周波数依存パラメータセットの最大使用帯域数は、最大周波数に応じて計算される。
【0115】
最初に、入力信号
の1つのフレームのQMFドメインステレオダウンミックス818が実行されて、入力信号チャネルの加重和によって残響付与装置の入力が形成される。重み付け利得は、ダウンミックス行列MDMXに含まれている。それらは実数値かつ非負であり、ダウンミックス行列はNout×Nin次元である。それは、入力信号が2つの出力チャネルのうちの一方にマッピングされる非ゼロ値を含む。
【0116】
左半球上のスピーカ位置を表すチャネルは左出力チャネルにマッピングされ、右半球上に位置するスピーカを表すチャネルは右出力チャネルにマッピングされる。これらのチャネルの信号は、係数1によって重み付けされる。正中面にあるスピーカを表すチャネルは、バイノーラル信号の両方の出力チャネルにマッピングされる。これらのチャネルの入力信号は、以下の係数によって重み付けされる。
【0117】
加えて、エネルギー均等化ステップがダウンミックスにおいて実施される。このステップは、1つのダウンミックスチャネルの帯域ごとのエネルギーを、このダウンミックスチャネルに含まれている入力信号チャネルの帯域ごとのエネルギーの合計に等しくなるように適合させる。このエネルギー均等化は、帯域ごとに以下の実数値係数を乗算することによって行われる。
【0118】
係数ceq,kは[0.5,2]の間に制限される。ゼロによる除算を回避するために数値定数εが導入されている。ダウンミックスはまた周波数fmaxに帯域制限される。すなわち、それより高いすべての周波数帯域における値がゼロに設定される。
【0119】
図13は、本発明の一実施形態による、バイノーラルレンダラ800の周波数ドメイン残響付与装置816a、816bにおける処理を概略的に表す。
【0120】
周波数ドメイン残響付与装置において、ステレオ入力のモノラルダウンミックスが入力混合器900を使用して計算される。これは、第2の入力チャネルに90°の位相シフトを非コヒーレントに適用して行われる。
【0121】
このモノラル信号はその後、各周波数帯域k内のフィードバック減衰ループ902に供給され、これは、減衰インパルス系列を生成する。これに並列FIR相関分離器が続き、相関分離器はインパルスの間の間隔に減衰するように信号エネルギーを分散させ、出力チャネル間に非コヒーレンス性をもたらす。エネルギー減衰をもたらすために減衰フィルタタップ密度が適用される。フィルタタップ位相動作は、疎で乗算器のない相関分離器を実装するために4つの選択肢に制限される。
【0122】
残響の計算の後に、チャネル間コヒーレンス(ICC)補正904が、すべてのQMF周波数帯域について残響付与装置モジュールに含まれる。ICC補正ステップにおいて、周波数依存直接利得gdirect及びクロスミックス利得gcrossがICCを適合させるのに使用される。
【0123】
複数の異なる周波数帯域のエネルギーの量及び残響時間は入力パラメータセットに含まれている。それらの値は、K=64個のQMF周波数帯域に中間マッピングされる複数のの周波数点において与えられる。
【0124】
最終的な中間信号
を計算するために、周波数ドメイン残響付与装置の2つのインスタンスが使用される。信号
は残響付与装置の第1のインスタンスの第1の出力チャネルであり、
は残響付与装置の第2のインスタンスの第2の出力チャネルである。それらは、2つのチャネル、64個の帯域及び32個の時間スロットの次元を有する最終的な残響信号フレームに組み合わされる。
【0125】
ステレオダウンミックス822は、残響付与装置出力の正しいスケーリングを保証するために、入力信号フレームの相関の大きさ820に従って両方で時間スケーリングされる821a、821b。スケーリング係数は、0と1との間の相関係数ccorrに線形依存して
の間隔内の値として定義される。ここで、
かつ
である。
式中、
はチャネルAの1つの時間スロットnにわたる標準偏差を意味し、演算子
は複素共役を示し、
は実際の信号フレーム内のQMFドメイン信号
のゼロ平均バージョンである。
【0126】
corrは2回計算される。すなわち、実際の信号フレームFにおいてアクティブであり、かつステレオダウンミックスの左チャネルに含まれるすべてのチャネルA,Bについて1回、及び、実際の信号フレームFにおいてアクティブであり、かつステレオダウンミックスの右チャネルに含まれるすべてのチャネルA,Bについて1回である。
【0127】
DMX,actは、1つのダウンミックスチャネルAにダウンミックスされた入力チャネルの数(ダウンミックス行列MDMXの第A行内の行列要素で、ゼロでないものの数)であり、かつその入力チャネルは現在のフレームにおいてアクティブなものである。
【0128】
スケーリング係数はこのとき、以下のようになる。
【0129】
スケーリング係数は、一次ローパスフィルタによってオーディオ信号フレームにわたって平滑化され、平滑化スケーリング係数
がもたらされる。
【0130】
スケーリング係数は、同じ手段を用いる時間ドメイン相関分析によって第1のオーディオ入力データフレームにおいて初期化される。
【0131】
第1の残響付与装置インスタンスの入力はスケーリング係数
を用いてスケーリングされ、第2の残響付与装置インスタンスの入力はスケーリング係数
を用いてスケーリングされる。
【0132】
(d)畳み込み結果及び後期残響の組み合わせ
次に、1つのQMFドメインオーディオ入力フレームについて、畳み込み結果814
と残響付与装置出力826a、826b
が、それらの2つの信号を帯域ごとに加算する混合プロセス828によって組み合わされる。畳み込みは最大でKmaxまでの帯域でしか行われないため、Kmaxよりも高い上方帯域は
においてゼロであることに留意されたい。
【0133】
後期残響出力は、混合プロセスにおいて、d=((Ltrans−20・64+1)/64+0.5)+1個の時間スロットの量だけ遅延される。
【0134】
遅延dは、妥当な時間スロットにおける後期残響の挿入を保証するために、BRIRsにおける早期反射から後期残響への遷移時間、及び20個のQMF時間スロットの残響付与装置の初期遅延、並びにBRIRsのQMF分析のための0.5QMF時間スロットの分析遅延を考慮に入れる。1つの時間スロットnにおける組み合わせ信号

によって計算される。
【0135】
(e)バイノーラルQMFドメイン信号のQMF合成
QMFドメイン出力信号
の32個の時間スロットの1つの2チャネルフレームが、ISO/IEC 14496-3:2009, subclause 4.6.18.4.2.によるQMF合成によって、長さLを有する2チャネル時間ドメイン信号フレームに変換され、最終的な時間ドメイン出力信号830、
がもたらされる。
【0136】
いくつかの態様が装置に関して説明されているが、これらの態様はまた、対応する方法の説明をも表すことは明らかであり、ブロック又はデバイスが、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップに関して説明されている態様も、対応する装置の対応するブロック又は項目又は特徴の説明を表す。方法ステップのいくつか又はすべては、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路のようなハードウェア装置によって(又はそれを使用して)実行することができる。いくつかの実施形態において、最も重要な方法のうちの何らかの1つ又は複数は、そのような装置によって実行することができる。
【0137】
特定の実施要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実装することができる。実施態様は、それぞれの方法が実施されるようにプログラム可能コンピュータシステムと協働する(又は協働することが可能である)電子的に読取可能な制御信号が記憶されているデジタル記憶媒体、例えば、フロッピーディスク、DVD、Blu−Ray、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリのような非遷移型記憶媒体を使用して実施することができる。それゆえ、デジタル記憶媒体は、コンピュータ読取り可能であることができる。
【0138】
本発明によるいくつかの実施形態は、本明細書に記載されている方法のうちの1つが実施されるように、プログラム可能なコンピュータシステムと協働することが可能である、電子的に読取可能な制御信号が記憶されているデータ担体を含む。
【0139】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、そのプログラムコードは、このコンピュータプログラム製品がコンピュータ上で作動すると、本発明の方法のうちの1つを実施するように動作可能である。そのプログラムコードは、例えば、機械読的に取可り能な担体上に記憶することができる。
【0140】
他の実施形態は、機械的に読取り可能な担体上に記憶されている、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを含む。
【0141】
言い換えれば、本発明の方法の一実施形態は、それゆえ、コンピュータプログラムであって、このコンピュータプログラムがコンピュータ上で作動すると、本明細書に記載されている方法のうちの1つを実施するためのプログラムコードを有するコンピュータプログラムである。
【0142】
本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを記録しているデータ担体(又はデジタル記憶媒体、又はコンピュータ読取り可能な媒体)である。そのデータ担体、デジタル記憶媒体又は記録している媒体は、典型的には有形及び/又は非遷移型である。
【0143】
本発明の方法のさらなる実施形態は、それゆえ、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリーム又は信号系列である。そのデータストリーム又は信号系列は、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成することができる。
【0144】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するように構成又はプログラムされている処理手段、例えば、コンピュータ又はプログラム可能な論理デバイスを含む。
【0145】
さらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0146】
本発明によるさらなる実施形態は、本明細書に記載されている方法のうちの1つを実施するためのコンピュータプログラムを受信機に(例えば、電子的又は光学的に)転送するように構成されている装置又はシステムを含む。その受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどとすることができる。その装置又はシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含むことができる。
【0147】
いくつかの実施形態において、プログラム可能な論理デバイス(例えば、フィールドプログラマブルゲートアレイ)を、本明細書に記載されている方法の機能のいくつか又はすべてを実施するために使用することができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書に記載されている方法のうちの1つを実施するために、マイクロプロセッサと協働することができる。一般的に、本発明の方法は好ましくは、任意のハードウェア装置によって実施される。
【0148】
上述した実施形態は本発明の原理の例示にすぎない。当然ながら、本明細書に記載されている構成及び詳細の修正形態及び変形形態は、当業者には明らかとなろう。それゆえ、意図するところは、本明細書における実施形態の記述及び説明によって提示されている特定の詳細ではなく、添付の特許請求項の範囲によってのみ限定されるということである。
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11
図12
図13