IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特開2025-39612オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
<>
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図1
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図2
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図3
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図4
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図5
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図6(a)
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図6(b)
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図7
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図8
  • 特開-オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025039612
(43)【公開日】2025-03-21
(54)【発明の名称】オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ
(51)【国際特許分類】
   H04S 7/00 20060101AFI20250313BHJP
   G10K 15/12 20060101ALI20250313BHJP
【FI】
H04S7/00 300
G10K15/12
【審査請求】有
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2024231921
(22)【出願日】2024-12-27
(62)【分割の表示】P 2023031911の分割
【原出願日】2014-07-18
(31)【優先権主張番号】13177361.6
(32)【優先日】2013-07-22
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】13189255.6
(32)【優先日】2013-10-18
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】フュグ・シモーネ
(72)【発明者】
【氏名】プログスティーズ・ヤン
(57)【要約】
【課題】室内インパルス応答に従ってオーディオ信号(504)を処理するための方法について説明する。
【解決手段】オーディオ信号(504)は、室内インパルス応答の後期残響とは別個に室内インパルス応答の初期部分を用いて処理され(502)、後期残響の処理(514)は、スケーリングされた残響信号を生成することを含み、スケーリング(526)はオーディオ信号(504)に依存する。オーディオ信号(504)の処理された初期部分(506)と、スケーリングされた残響信号とは合成される。
【選択図】図7
【特許請求の範囲】
【請求項1】
室内インパルス応答(300)に従ってオーディオ信号(504、802)を処理するための方法であって、前記方法は、
前記室内インパルス応答(300)の初期部分(301、302)と後期残響(304)とを用いて前記オーディオ信号(504、802)を別々に処理すること(502、514、812、816a、816b)であって、前記後期残響(304)を処理することが、スケーリングされた残響信号を生成することを含み、前記スケーリングが前記オーディオ信号(504、802)に依存する、処理することと、
前記室内インパルス応答の前記初期部分を用いて処理された前記オーディオ信号と前記スケーリングされた残響信号とを合成することと
を含む、方法。
【請求項2】
前記スケーリングは、前記オーディオ信号(504、802)の1つまたは複数の入力チャネルの状態に依存する、請求項1に記載の方法。
【請求項3】
前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態は、入力チャネルの数と、アクティブ入力チャネルの数と、前記入力チャネル中のアクティビティとのうちの1つまたは複数を含む、請求項2に記載の方法。
【請求項4】
前記スケーリングは、前記オーディオ信号(504、802)のあらかじめ定義されたまたは計算される相関測度に依存する、請求項1から3のうちのいずれか一項に記載の方法。
【請求項5】
前記スケーリングされた残響信号を生成することは、利得ファクタを適用することを含み、前記利得ファクタは、前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態に基づいておよび/または前記オーディオ信号(504、802)についての前記あらかじめ定義されたまたは計算される相関測度に基づいて決定される、請求項1から4のうちのいずれか一項に記載の方法。
【請求項6】
前記スケーリングされた残響信号を生成することは、前記オーディオ信号(504、802)の前記後期残響(304)を処理する前に、その間にまたはその後に前記利得ファクタを適用することを含む、請求項5に記載の方法。
【請求項7】
前記利得ファクタは以下のように決定され、
g=c+ρ・(c-c
ただし
ρ = 前記オーディオ信号(504、802)についてのあらかじめ定義されたまたは計算される相関測度、
、c = 前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態を示すファクタであり、cは、全体として無相関なチャネルを指し、cは、全体として相関するチャネルに関係する、
請求項5または6に記載の方法。
【請求項8】
およびcは以下のように決定され、
【数1】
【数2】
ただし
in = アクティブまたは固定ダウンミックスチャネルの数である、
請求項7に記載の方法。
【請求項9】
前記利得ファクタは、複数のオーディオフレームにわたって低域フィルタ処理される、請求項5から8のうちのいずれか一項に記載の方法。
【請求項10】
前記利得ファクタは以下のように低域フィルタ処理され、
【数3】
【数4】
【数5】
ただし
= 前記低域フィルタの時定数
= フレームtにおけるオーディオフレーム
= 平滑化された利得ファクタ
k = フレームサイズ、および
= サンプリング周波数である、
請求項9に記載の方法。
【請求項11】
前記スケーリングされた残響信号を生成することは、前記オーディオ信号(504、802)の相関分析を含む、請求項1から10のうちのいずれか一項に記載の方法。
【請求項12】
前記オーディオ信号(504、802)の前記相関分析は、前記オーディオ信号(504、802)のオーディオフレームについて合成相関測度を決定することを含み、前記合成相関測度は、1つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され、各オーディオフレームは1つまたは複数のタイムスロットを含む、請求項11に記載の方法。
【請求項13】
前記相関係数を合成することは、前記オーディオフレームの複数の相関係数を平均化することを含む、請求項12に記載の方法。
【請求項14】
前記合成相関測度を決定することは、
(i) 前記1つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、
(ii) 前記対応するチャネルから前記平均値を減算することによってゼロ平均オーディオフレームを計算することと、
(iii) 複数のチャネル合成について前記相関係数を計算することと、
(iv) 前記合成相関測度を複数の相関係数の前記平均として計算することと
を含む、請求項11または12に記載の方法。
【請求項15】
チャネル合成についての前記相関係数は以下のように計算され、
【数6】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
i∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役である、
請求項11から14のうちのいずれか一項に記載の方法。
【請求項16】
前記スケーリングされた残響信号の開始を前記室内インパルス応答(300)における初期反射から後期残響(304)への遷移点に一致させるように前記スケーリングされた残響信号を遅延させることを含む、請求項1から15のうちのいずれか一項に記載の方法。
【請求項17】
前記オーディオ信号(504、802)の前記後期残響(304)を処理することは、前記オーディオ信号(504、802)をダウンミックスすることと、前記ダウンミックスされたオーディオ信号を残響器に印加することとを含む、請求項1から16のうちのいずれか一項に記載の方法。
【請求項18】
コンピュータによって実行されているとき、請求項1から17のうちのいずれか一項に記載の方法を行うための命令を記憶したコンピュータ可読媒体を含む非有形コンピュータ製品。
【請求項19】
オーディオ信号(504、802)を受信するための入力と、
室内インパルス応答(300)の初期部分(301、302)に従って前記受信されたオーディオ信号(504、802)を処理するための初期部分プロセッサと、
前記室内インパルス応答(300)の後期残響に従って前記受信されたオーディオ信号(504、802)を処理するための後期残響プロセッサであって、前記後期残響プロセッサが、スケーリングされた残響信号を生成するように構成され、前記スケーリングが、前記受信されたオーディオ信号(504、802)に依存する後期残響プロセッサと、
前記受信されたオーディオ信号(504、802)の前記処理された初期部分と前記スケーリングされた残響信号とを出力オーディオ信号に合成するための出力と
を備える、信号処理ユニット。
【請求項20】
前記後期残響プロセッサは、
前記オーディオ信号(504、802)を受信し残響信号を生成する残響器と、
前記残響器の入力または出力に結合され利得ファクタによって制御される利得段と
を備える、請求項19に記載の信号処理ユニット。
【請求項21】
前記オーディオ信号(504、802)に依存する前記利得ファクタを生成する相関分析器を備える、請求項20に記載の信号処理ユニット。
【請求項22】
前記利得段に結合された低域フィルタと、
前記利得段と加算器との間に結合された遅延要素と
のうちの少なくとも1つをさらに備え、前記加算器は、前記初期部分プロセッサと前記出力とにさらに結合された、請求項20または21に記載の信号処理ユニット。
【請求項23】
請求項19から22のうちのいずれか一項に記載の信号処理ユニットを備える、バイノーラルレンダラ。
【請求項24】
コーディングより前にオーディオ信号を処理するために請求項19から22のうちのいずれか一項に記載の信号処理ユニットまたは請求項23に記載のバイノーラルレンダラ
を備える、前記オーディオ信号をコーディングするためのオーディオエンコーダ。
【請求項25】
復号されたオーディオ信号を処理するために請求項19から22のうちのいずれか一項に記載の信号処理ユニットまたは請求項23に記載のバイノーラルレンダラ
を備える、符号化されたオーディオ信号を復号するためのオーディオデコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ符号化/復号の分野に関し、特に空間オーディオコーディングおよび空間オーディオ・オブジェクト・コーディング、例えば3Dオーディオ・コーデック・システムの分野に関する。本発明の実施形態は、室内インパルス応答に従ってオーディオ信号を処理するための方法に、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダに関する。
【背景技術】
【0002】
空間オーディオ・コーディング・ツールが当技術分野でよく知られており、例えば、MPEGサラウンド規格において規格化されている。空間オーディオコーディングは、複数の元の入力、例えば、5つまたは7つの入力チャネルから開始し、これらは、再生セットアップにおいてそれらの配置によって、例えば、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネルおよび低周波拡張チャネルとして識別される。空間オーディオエンコーダは、元のチャネルから1つまたは複数のダウンミックスチャネルを導出し得、さらに、チャネルコヒーレンス値のチャネル間レベル差、チャネル間位相差、チャネル間時間差など、空間キューに関係するパラメトリックデータを導出し得る。元の入力チャネルの近似バージョンである出力チャネルを最終的に取得するために、1つまたは複数のダウンミックスチャネルは、ダウンミックスチャネルおよび関連するパラメトリックデータを復号するために空間キューを示すパラメトリックサイド情報とともに空間オーディオデコーダに送信される。出力セットアップにおけるチャネルの配置は固定であり得、例えば、5.1フォーマット、7.1フォーマットなどであり得る。
【0003】
また、空間オーディオ・オブジェクト・コーディング・ツールが当技術分野でよく知られており、例えば、MPEG SAOC規格(SAOC=空間オーディオ・オブジェクト・コーディング)において規格化されている。元のチャネルから開始する空間オーディオコーディングとは対照的に、空間オーディオ・オブジェクト・コーディングは、あるレンダリング再生セットアップのために自動的に専用化されないオーディオオブジェクトから開始する。そうではなく、再生シーン中のオーディオオブジェクトの配置はフレキシブルであり、例えば、あるレンダリング情報を空間オーディオ・オブジェクト・コーディング・デコーダ中に入力することによって、ユーザによって設定され得る。代替または追加として、レンダリング情報は、追加のサイド情報またはメタデータとして送信され得、レンダリング情報は、あるオーディオオブジェクトが再生セットアップ中のその位置において(例えば、時間とともに)配置されるべきである情報を含み得る。あるデータ圧縮を得るために、いくつかのオーディオオブジェクトはSAOCエンコーダを使用して符号化され、SAOCエンコーダは、あるダウンミックス情報に従ってオブジェクトをダウンミックスすることによって、入力オブジェクトから1つまたは複数のトランスポートチャネルを計算する。さらに、SAOCエンコーダは、オブジェクトレベル差(OLD)、オブジェクトコヒーレンス値など、オブジェクト間キューを表すパラメトリックサイド情報を計算する。SAC(SAC=空間オーディオコーディング)の場合のように、オブジェクト間パラメトリックデータは、個々の時間/周波数タイルについて計算される。オーディオ信号のあるフレーム(例えば、1024または2048個のサンプル)では、フレームごとにおよび周波数帯域ごとにパラメトリックデータが提供されるように複数の周波数帯域(例えば24、32、または、64個の帯域)が考慮される。例えば、オーディオ部分が20個のフレームを有するときおよび各フレームが32個の周波数帯域に再分割されるとき、時間/周波数タイルの数は640である。
【0004】
3Dオーディオシステムでは、オーディオ信号が特定の室内において聴取されるかのようにオーディオ信号の空間印象を提供することが望まれることがある。そのような状況では、特定の室内の室内インパルス応答が、例えばそれの測定に基づいて提供され、オーディオ信号を聴取者に提示するときにそのオーディオ信号を処理するために使用される。そのような提示では、後期残響から分離された直接音および初期反射を処理することが望まれ得る。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の基礎をなす目的は、室内インパルス応答の初期部分と後期残響を用いてオーディオ信号を別々に処理するための承認された手法を提供し、それにより、完全なインパルス応答を用いたオーディオ信号の畳み込みの結果とできる限り知覚的に同等である結果を達成することを可能にすることである。
【課題を解決するための手段】
【0006】
この目的は、請求項1の方法と、請求項19の信号処理ユニットと、請求項23のバイノーラルレンダラと、請求項24のオーディオエンコーダと、請求項25のオーディオデコーダとによって達成される。
【0007】
本発明は、従来の手法では、室内インパルス応答によるオーディオ信号の処理時に、初期部分と残響とに関してオーディオ信号を別々に処理する結果が、完全なインパルス応答を用いて畳み込みを適用するときの結果から逸脱するという点で問題が存在するという発明者の発見に基づく。本発明は、例えば、合成残響手法を使用するとき、残響への入力オーディオ信号の影響が十分に保持されないので、適切なレベルの残響が入力オーディオ信号とインパルス応答の両方に依存するという発明者の発見にさらに基づく。インパルス応答の影響は、入力パラメータとして既知の残響特性を使用することによって考慮され得る。入力信号の影響は、入力オーディオ信号に基づいて決定される残響のレベルを適応させるための信号依存スケーリングによって考慮され得る。この手法により、残響の知覚されるレベルは、バイノーラルレンダリングのために完全な畳み込み手法を使用するときの残響のレベルにより良く一致することが分かっている。
【0008】
(1) 本発明は、室内インパルス応答に従ってオーディオ信号を処理するための方法を提供し、本方法は、
室内インパルス応答の初期部分と後期残響とを用いてオーディオ信号を別々に処理することであって、後期残響を処理することが、スケーリングされた残響信号を生成することを含み、スケーリングがオーディオ信号に依存する、処理することと、
室内インパルス応答の初期部分を用いて処理されたオーディオ信号とスケーリングされた残響信号とを合成することと
を含む。
上記で説明した従来の手法と比較すると、本発明の手法は、完全な畳み込み結果を計算する必要なしにまたは広範で不正確な聴覚モデルを適用する必要なしに後期残響をスケーリングすることを可能にするので、有利である。本発明の手法の実施形態は、完全な畳み込み手法での残響のようにそれが聞こえるように人工的後期残響をスケーリングするための容易な方法を提供する。スケーリングは入力信号に基づき、追加の聴覚モデルまたはターゲット残響ラウドネスは不要である。スケーリングファクタは、エンコーダ/デコーダチェーン中のオーディオ素材も時間周波数領域においてしばしば利用可能でもあるので利点であるこの時間周波数領域において導出され得る。
【0009】
(2) 実施形態によれば、スケーリングは、オーディオ信号の1つまたは複数の入力チャネルの状態(例えば、入力チャネルの数、アクティブ入力チャネルの数および/または入力チャネル中のアクティビティ)に依存し得る。
スケーリングは、低減した計算オーバーヘッドにより入力オーディオ信号から容易に決定され得るので、これは有利である。例えば、スケーリングは、元のオーディオ信号と比較して低減した数のチャネルを含む、現在考慮されているダウンミックスチャネルにダウンミックスされる元のオーディオ信号中のチャネルの数を単に決定することによって決定され得る。代替的に、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネル(現在オーディオフレーム中で何らかのアクティビティを示すチャネル)の数は、残響信号をスケーリングするための基礎を形成し得る。
【0010】
(3) 実施形態によれば、(入力チャネル状態の追加または代替として)スケーリングは、オーディオ信号のあらかじめ定義されたまたは計算される相関測度に依存する。
あらかじめ定義された相関測度を使用することは、プロセスにおける計算複雑さを低減するので、有利である。あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定され得る、例えば0.1~0.9の範囲内の、固定値を有し得る。一方、個々に現在処理されているオーディオ信号についてより正確な測度を取得することが望まれる場合、必要とされる追加の計算リソースにもかかわらず、相関測度を計算することが有利である。
【0011】
(4) 実施形態によれば、スケーリングされた残響信号を生成することは、利得ファクタを適用することを含み、利得ファクタは、オーディオ信号の1つまたは複数の入力チャネルの状態に基づいておよび/またはオーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に基づいて決定され、利得ファクタは、オーディオ信号の後期残響を処理する前に、その間にまたはその後に適用され得る。
利得ファクタは、上記のパラメータに基づいて容易に計算され得、実装詳細の依存する処理チェーン中の残響器に関してフレキシブルに適用され得るので、これは有利である。
【0012】
(5) 実施形態によれば、利得ファクタは以下のように決定される。
g=c+ρ・(c-c
ただし
ρ = オーディオ信号についてのあらかじめ定義されたまたは計算される相関測度、
、c = オーディオ信号の1つまたは複数の入力チャネルの状態を示すファクタであり、cは、全体として無相関なチャネルを指し、cは、全体として相関するチャネルに関係する。
ファクタは、オーディオ信号中のアクティブチャネルの数とともに経時的にスケーリングするので、これは有利である。
【0013】
(6) 実施形態によれば、cおよびcは以下のように決定される。
【数1】
【数2】
ただし
in = アクティブまたは固定ダウンミックスチャネルの数。
ファクタは、オーディオ信号中のアクティブチャネルの数に直接依存するので、これは有利である。どのチャネルもアクティブでない場合、残響は0でスケーリングされ、より多くのチャネルがアクティブであれば、残響の振幅はより大きくなり得る。
【0014】
(7) 実施形態によれば、利得ファクタは、複数のオーディオフレームにわたって低域フィルタ処理され、利得ファクタは以下のように低域フィルタ処理され得る。
【数3】
【数4】
【数5】
ただし
= 低域フィルタの時定数
= フレームtにおけるオーディオフレーム
= 平滑化された利得ファクタ
k = フレームサイズ、および
= サンプリング周波数。
スケーリングファクタについて時間とともに急激な変化が起こらないので、これは有利である。
【0015】
(8) 実施形態によれば、スケーリングされた残響信号を生成することは、オーディオ信号の相関分析を含み、オーディオ信号の相関分析は、オーディオ信号のオーディオフレームについて合成相関測度を決定することを含み得、合成相関測度は、1つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され得、各オーディオフレームは1つまたは複数のタイムスロットを含み、相関係数を合成することは、オーディオフレームの複数の相関係数を平均化することを含み得る。
相関は、1つのオーディオフレームの全体的な相関を記述する1つの単一の値によって記述され得るので、これは有利である。複数の周波数依存値を扱う必要はない。
【0016】
(9) 実施形態によれば、合成相関測度を決定することは、(i)1つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、(ii)対応するチャネルから平均値を減算することによってゼロ平均オーディオフレームを計算することと、(iii)複数のチャネル合成について相関係数を計算することと、(iv)合成相関測度を複数の相関係数の平均として計算することとを含み得る。
上述のように、フレームごとにただ1つの単一の全体的な相関値が計算され(容易な処理)、その計算は、ゼロ平均信号およびそれの標準偏差を同じく使用する「標準」のピアソンの相関係数と同様に行われ得るので、これは有利である。
【0017】
(10) 実施形態によれば、チャネル合成についての相関係数は以下のように決定される。
【数6】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
i∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役。
ピアソンの相関係数のためのよく知られている式が使用され得、周波数依存および時間依存式に変換されるので、これは有利である。
【0018】
(11) 実施形態によれば、オーディオ信号の後期残響を処理することは、オーディオ信号をダウンミックスすることと、ダウンミックスされたオーディオ信号を残響器に印加することとを含む。
例えば、残響器中での処理は、より少ないチャネルを扱う必要があり、ダウンミックスプロセスが直接制御され得るので、これは有利である。
【0019】
(12) 本発明は、オーディオ信号を受信するための入力と、室内インパルス応答の初期部分に従って、受信されたオーディオ信号を処理するための初期部分プロセッサと、室内インパルス応答の後期残響に従って、受信されたオーディオ信号を処理するための後期残響プロセッサであって、後期残響プロセッサが、受信されたオーディオ信号に依存するスケーリングされた残響信号を生成するように構成またはプログラムされた後期残響プロセッサと、室内インパルス応答の初期部分を用いて処理されたオーディオ信号とスケーリングされた残響信号とを出力オーディオ信号に合成するための出力とを備える、信号処理ユニットを提供する。
【0020】
(13) 実施形態によれば、後期残響プロセッサは、オーディオ信号を受信し残響信号を生成する残響器と、オーディオ信号に依存する利得ファクタを生成する相関分析器と、残響器の入力または出力に結合され相関分析器によって提供される利得ファクタによって制御される利得段とを備える。
【0021】
(14) 実施形態によれば、信号処理ユニットは、相関分析器と利得段との間に結合された低域フィルタと、利得段と加算器との間に結合された遅延要素とのうちの少なくとも1つとをさらに備え、加算器は、初期部分プロセッサと出力とにさらに結合される。
【0022】
(15) 本発明は、本発明の信号処理ユニットを備える、バイノーラルレンダラを提供する。
【0023】
(16) 本発明は、コーディングより前にオーディオ信号を処理するための本発明の信号処理ユニットまたは本発明のバイノーラルレンダラを備える、オーディオ信号をコーディングするためのオーディオエンコーダを提供する。
【0024】
(17) 本発明は、復号されたオーディオ信号を処理するための本発明の信号処理ユニットまたは本発明のバイノーラルレンダラを備える、符号化されたオーディオ信号を復号するためのオーディオデコーダを提供する。
本発明の実施形態について、添付の図面に関して説明する。
【図面の簡単な説明】
【0025】
図1】3Dオーディオシステムの3Dオーディオエンコーダの概観を示す。
図2】3Dオーディオシステムの3Dオーディオデコーダの概観を示す。
図3図2の3Dオーディオデコーダにおいて実装され得るフォーマット変換器を実装するための一例を示す。
図4図2の3Dオーディオデコーダにおいて実装され得るバイノーラルレンダラの一実施形態を示す。
図5】室内インパルス応答h(t)の一例を示す。
図6(a)】室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示し、室内インパルス応答に従って完全なオーディオ信号を処理することを示す。
図6(b)】室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示し、初期部分と後期残響部分との別々の処理を示す。
図7】本発明の教示に従って動作する、バイノーラルレンダラのような信号処理ユニットのブロック図を示す。
図8】本発明の一実施形態によるもののためのバイノーラルレンダラにおけるオーディオ信号のバイノーラル処理を概略的に示す。
図9】本発明の一実施形態による図8のバイノーラルレンダラの周波数領域残響器における処理を概略的に示す。
【発明を実施するための形態】
【0026】
次に、本発明の手法の実施形態について説明する。以下の説明は、本発明の手法がその中で実装され得る3Dオーディオ・コーデック・システムのシステム概観から始める。
【0027】
図1および図2は、実施形態による3Dオーディオシステムのアルゴリズムブロックを示す。より詳細には、図1は、3Dオーディオエンコーダ100の概観を示す。オーディオエンコーダ100は、随意によっては提供され得るプリレンダラ/ミキサ回路102において、入力信号を受信し、より詳細には、複数のチャネル信号104と、複数のオブジェクト信号106と、対応するオブジェクトメタデータ108とをオーディオエンコーダ100に提供する複数の入力チャネルを受信する。プリレンダラ/ミキサ102によって処理されたオブジェクト信号106(信号110を参照)は、SAOCエンコーダ112(SAOC=空間オーディオ・オブジェクト・コーディング)に提供され得る。SAOCエンコーダ112は、USACエンコーダ116(USAC=統合された音声およびオーディオコーディング)に提供されるSAOCトランスポートチャネル114を生成する。さらに、信号SAOC-SI 118(SAOC-SI=SAOCサイド情報)もUSACエンコーダ116に提供される。USACエンコーダ116は、プリレンダラ/ミキサから直接的にオブジェクト信号120をさらに受信し、ならびにチャネル信号およびプリレンダリングされたオブジェクト信号122を受信する。オブジェクトメタデータ情報108がOAMエンコーダ124(OAM=オブジェクトメタデータ)に印加され、OAMエンコーダ124は、圧縮されたオブジェクトメタデータ情報126をUSACエンコーダに提供する。USACエンコーダ116は、上述の入力信号に基づいて、128に示されているように、圧縮された出力信号mp4を生成する。
【0028】
図2は、3Dオーディオシステムの3Dオーディオデコーダ200の概観を示す。図1のオーディオエンコーダ100によって生成された符号化された信号128(mp4)は、オーディオデコーダ200において、より詳細にはUSACデコーダ202において受信される。USACデコーダ202は、受信された信号128を、チャネル信号204と、プリレンダリングされたオブジェクト信号206と、オブジェクト信号208と、SAOCトランスポートチャネル信号210とに復号する。さらに、圧縮されたオブジェクトメタデータ情報212と、信号SAOC-SI 214とがUSACデコーダ202によって出力される。オブジェクト信号208はオブジェクトレンダラ216に提供され、オブジェクトレンダラ216は、レンダリングされたオブジェクト信号218を出力する。SAOCトランスポートチャネル信号210はSAOCデコーダ220に供給され、SAOCデコーダ220は、レンダリングされたオブジェクト信号222を出力する。圧縮されたオブジェクトメタ情報212はOAMデコーダ224に供給され、OAMデコーダ224は、レンダリングされたオブジェクト信号218とレンダリングされたオブジェクト信号222とを生成するために、オブジェクトレンダラ216とSAOCデコーダ220とにそれぞれの制御信号を出力する。デコーダは、図2に示されているように、チャネル信号228を出力するために入力信号204、206、218および222を受信するミキサ226をさらに備える。チャネル信号は、230において示されているように、ラウドスピーカ、例えば、32チャネルラウドスピーカに直接出力され得る。信号228は、チャネル信号228が変換されるべき方法を示す再生レイアウト信号を制御入力として受信するフォーマット変換回路232に提供され得る。図2に示された実施形態では、変換は、信号が、234において示されているように5.1スピーカシステムに提供され得るような方法で行われると仮定する。また、チャネル信号228はバイノーラルレンダラ236に提供され得、バイノーラルレンダラ236は、238において示されているような、例えばヘッドフォンのために、2つの出力信号を生成する。
【0029】
本発明の一実施形態では、図1および図2に示された符号化/復号システムは、チャネル信号とオブジェクト信号と(信号104および106を参照)のコーディングのためのMPEG-D USACコーデックに基づく。大量のオブジェクトをコーディングするための効率を高めるために、MPEG SAOC技術が使用され得る。3つのタイプのレンダラが、オブジェクトをチャネルにレンダリングするか、チャネルをヘッドフォンにレンダリングするか、またはチャネルを異なるラウドスピーカセットアップにレンダリングするタスクを実施し得る(図2を参照、参照符号230、234および238)。オブジェクト信号が、SAOCを使用して明示的に送信されるかまたはパラメータ的に符号化されるとき、対応するオブジェクトメタデータ情報108が圧縮され(信号126を参照)、3Dオーディオビットストリーム128に多重化される。
図1および図2に示された3Dオーディオシステム全体のアルゴリズムブロックについて以下でさらに詳細に説明する。
【0030】
符号化の前にチャネル+オブジェクト入力シーンをチャネルシーンに変換するために、随意によってはプリレンダラ/ミキサ102が提供され得る。機能的に、プリレンダラ/ミキサ102は、以下で説明するオブジェクトレンダラ/ミキサと同等である。同時にアクティブなオブジェクト信号の数に基本的に依存しないエンコーダ入力における決定性信号エントロピーを保証するために、オブジェクトのプリレンダリングが望まれることがある。オブジェクトのプリレンダリングでは、オブジェクトメタデータ送信は必要とされない。エンコーダが使用するように構成されるチャネルレイアウトに離散オブジェクト信号がレンダリングされる。各チャネルについてのオブジェクトの重みが、関連するオブジェクトメタデータ(OAM)から取得される。
【0031】
USACエンコーダ116は、ラウドスピーカチャネル信号と、離散オブジェクト信号と、オブジェクトダウンミックス信号と、プリレンダリングされた信号とのためのコアコーデックである。USACエンコーダ116はMPEG-D USAC技術に基づく。USACエンコーダ116は、入力チャネルおよびオブジェクト割当ての幾何学的およびセマンティック情報に基づいてチャネルおよびオブジェクトマッピング情報を作成することによって上記の信号のコーディングを処理する。このマッピング情報は、どのように入力チャネルおよびオブジェクトが、チャネルペア要素(CPE)、単一チャネル要素(SCE)、低周波効果(LFE)およびクワッドチャネル要素(QCE)のようなUSACチャネル要素にマッピングされるかを記述し、CPE、SCEおよびLFE、ならびに対応する情報がデコーダに送信される。SAOCデータ114、118またはオブジェクトメタデータ126のようなすべての追加のペイロードがエンコーダのレート制御において考慮される。オブジェクトのコーディングは、レンダラのためのレート/ひずみ要件およびインタラクティビティ要件に応じて、様々な方法で可能である。実施形態によれば、以下のオブジェクトコーディング変形態が可能である。
【0032】
・プリレンダリングされたオブジェクト:オブジェクト信号は、符号化の前に22.2チャネル信号にプリレンダリングされミックスされる。後続のコーディングチェーンは22.2チャネル信号を経験する。
【0033】
・離散オブジェクト波形:オブジェクトはモノフォニック波形としてエンコーダに供給される。エンコーダは、チャネル信号に加えてオブジェクトを送信するために単一チャネル要素(SCE)を使用する。復号されたオブジェクトは、受信機側においてレンダリングされ、ミックスされる。圧縮されたオブジェクトメタデータ情報は受信機/レンダラに送信される。
【0034】
・パラメトリックオブジェクト波形:オブジェクトプロパティおよびそれらの互いの関係がSAOCパラメータによって記述される。オブジェクト信号のダウンミックスは、USACを用いてコーディングされる。パラメータ情報が一緒に送信される。ダウンミックスチャネルの数は、オブジェクトの数と、全体的なデータレートとに応じて選定される。圧縮されたオブジェクトメタデータ情報はSAOCレンダラに送信される。
【0035】
オブジェクト信号のためのSAOCエンコーダ112およびSAOCデコーダ220はMPEG SAOC技術に基づき得る。システムは、より少ない数の送信されたチャネルと、OLD、IOC(オブジェクト間コヒーレンス)、DMG(ダウンミックス利得)などの追加のパラメトリックデータとに基づいていくつかのオーディオオブジェクトを再作成、修正およびレンダリングすることが可能である。追加のパラメトリックデータは、すべてのオブジェクトを個々に送信するのに必要とされるよりも著しく低いデータレートを示し、それにより、コーディングが極めて効率的になる。SAOCエンコーダ112は、入力としてオブジェクト/チャネル信号をモノフォニック波形として取り、(3Dオーディオビットストリーム128中にパックされる)パラメータ情報と、(単一チャネル要素を使用して符号化され、送信される)SAOCトランスポートチャネルとを出力する。SAOCデコーダ220は、復号されたSAOCトランスポートチャネル210およびパラメータ情報214からオブジェクト/チャネル信号を再構成し、再生レイアウト、復元されたオブジェクトメタデータ情報に基づいて、および随意によってはユーザ対話情報に基づいて出力オーディオシーンを生成する。
【0036】
オブジェクト・メタデータ・コーデック(OAMエンコーダ124およびOAMデコーダ224を参照)は、各オブジェクトについて、3D空間中のオブジェクトの幾何学的位置およびボリュームを指定する関連するメタデータが、時間および空間におけるオブジェクトプロパティの量子化によって効率的にコーディングされるように提供される。圧縮されたオブジェクトメタデータcOAM126はサイド情報として受信機200に送信される。
【0037】
オブジェクトレンダラ216は、所与の再生フォーマットに従ってオブジェクト波形を生成するために、圧縮されたオブジェクトメタデータを利用する。各オブジェクトは、それのメタデータに従ってある出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から生じる。チャネルベースのコンテンツならびに離散/パラメトリックオブジェクトの両方が復号される場合、チャネルベースの波形と、レンダリングされたオブジェクト波形とはミキサ226によってミックスされ、その後、得られた波形228が出力されるか、あるいは得られた波形228は、バイノーラルレンダラ236またはラウドスピーカ・レンダラモジュール232のようなポストプロセッサモジュールに供給される。
【0038】
バイノーラル・レンダラ・モジュール236は、各入力チャネルが仮想音源によって表されるようにマルチチャネルオーディオ素材のバイノーラルダウンミックスを生成する。処理はQMF(直交ミラーフィルタバンク)領域中でフレームごとに行われ、バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づく。
【0039】
ラウドスピーカレンダラ232は、送信されたチャネル構成228と所望の再生フォーマットとの間で変換する。それは「フォーマット変換器」と呼ばれることもある。フォーマット変換器は、より低い数の出力チャネルへの変換を実施し、すなわち、それはダウンミックスを生じる。
【0040】
図3は、フォーマット変換器232を実装するための一例を示す。ラウドスピーカレンダラとも呼ばれる、フォーマット変換器232は、送信機チャネル構成と所望の再生フォーマットとの間で変換する。フォーマット変換器232は、より低い数の出力チャネルへの変換を実施し、すなわち、それはダウンミックス(DMX)プロセス240を実施する。好ましくはQMF領域中で動作するダウンミキサ240は、ミキサ出力信号228を受信し、ラウドスピーカ信号234を出力する。コントローラとも呼ばれる、構成器242が提供され得、この構成器242は、制御入力として、ミキサ出力レイアウト、すなわち、ミキサ出力信号228によって表されるデータがそれのために決定されるレイアウトを示す信号246と、所望の再生レイアウトを示す信号248とを受信する。この情報に基づいて、コントローラ242は、好ましくは自動的に、入力フォーマットと出力フォーマットとの所与の合成のための最適化されたダウンミックス行列を生成し、これらの行列をダウンミキサ240に適用する。フォーマット変換器232は、標準のラウドスピーカ構成、ならびに非標準のラウドスピーカ位置をもつランダム構成を可能にする。
【0041】
図4は、図2のバイノーラルレンダラ236の一実施形態を示す。バイノーラル・レンダラ・モジュールは、マルチチャネルオーディオ素材のバイノーラルダウンミックスを提供し得る。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づき得る。室内インパルス応答は、現実の室内の音響プロパティの「指紋」と見なされ得る。室内インパルス応答は測定され、記憶され、任意の音響信号にはこの「指紋」が提供され得、それにより、聴取者において、室内インパルス応答に関連する室内の音響プロパティのシミュレーションが可能になる。バイノーラルレンダラ236は、頭部伝達関数またはバイノーラル室内インパルス応答(BRIR)を使用して出力チャネルを2つのバイノーラルチャネルにレンダリングするように構成またはプログラムされ得る。例えば、モバイルデバイスでは、ヘッドフォンまたはそのようなモバイルデバイスに取り付けられたラウドスピーカのためのバイノーラルレンダリングが望まれる。そのようなモバイルデバイスでは、制約により、デコーダとレンダリングの複雑さとを制限することが必要であり得る。そのような処理シナリオでは無相関を省略することに加えて、ダウンミキサ250を使用して、中間ダウンミックス信号252への、すなわち、より低い数の出力チャネルへのダウンミックスを最初に実施することが好適であり得、それにより、実際のバイノーラル変換器254のためにより低い数の入力チャネルが得られる。例えば、22.2チャネル素材が、ダウンミキサ250によって5.1中間ダウンミックスにダウンミックスされ得るか、または、代替的に、中間ダウンミックスが、一種の「ショートカット」モードで図2のSAOCデコーダ220によって直接計算され得る。その場合、バイノーラルレンダリングは、22.2入力チャネルが直接レンダリングされるべきであった場合、44個のHRTF(頭部伝達関数)またはBRIR関数を適用するのとは対照的に、5つの個々のチャネルを異なる位置においてレンダリングするために10個のHRTFまたはBRIR関数を適用するだけでよい。バイノーラルレンダリングに必要な畳み込み演算は多くの処理電力を必要とし、したがって、許容できるオーディオ品質を依然として獲得しながらこの処理電力を低減することは、モバイルデバイスにとって特に有用である。バイノーラルレンダラ236は、(LFEチャネルを除く)各入力チャネルが仮想音源によって表されるように、マルチチャネルオーディオ素材228のバイノーラルダウンミックス238を生成する。処理はQMF領域中でフレームごとに行われ得る。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づき、直接音および初期反射は、QMF領域の上で高速畳み込みを使用して擬似FFT領域において畳み込み手法を介してオーディオ素材に転写され得るが、後期残響は別々に処理され得る。
【0042】
図5は、室内インパルス応答h(t)300の一例を示す。室内インパルス応答は、3つの成分、直接音301、初期反射302および後期残響304を含む。このようにして、室内インパルス応答は、インパルスが発されたときの密閉型残響音響空間の反射挙動を記述する。初期反射302は、増加する密度を伴う個別の反射であり、個々の反射がもはや区別され得ないインパルス応答の部分は、後期残響304と呼ばれる。直接音301は、室内インパルス応答において容易に識別され得、初期反射から分離され得るが、初期反射302から後期残響304への遷移はあまり明白でない。
【0043】
上記で説明したように、バイノーラルレンダラ、例えば図2にそれが示されているようなバイノーラルレンダラでは、室内インパルス応答に従ってマルチチャネルオーディオ入力信号を処理するための様々な手法が知られている。
【0044】
図6は、室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示す。図6(a)は、室内インパルス応答に従って完全なオーディオ信号を処理することを示し、図6(b)は、初期部分と後期残響部分との別々の処理を示す。図6(a)に示されているように、入力信号400、例えばマルチチャネルオーディオ入力信号が受信され、プロセッサ402に印加され、プロセッサ402は、室内インパルス応答(図5を参照)を用いてマルチチャネルオーディオ入力信号400の完全な畳み込みを可能にするように構成またはプログラムされ、これは、図示された実施形態では、2チャネルオーディオ出力信号404を生じる。上述のように、この手法は、インパルス応答全体に畳み込みを使用することが計算量的に極めてコストがかかるので、不利であると見なされる。したがって、別の手法によれば、図6(b)に示されているように、図6(a)に関して説明した室内インパルス応答を用いて完全な畳み込みを適用することによってマルチチャネルオーディオ入力信号全体を処理する代わりに、処理は、室内インパルス応答300の初期部分301、302(図5を参照)と、後期残響部分302とに関して分離される。より詳細には、図6(b)に示されているように、マルチチャネルオーディオ入力信号400が受信されるが、信号は、初期部分を処理するために、すなわち、図5に示された室内インパルス応答300中の直接音301と初期反射302とに従ってオーディオ信号を処理するために、第1のプロセッサ406に並列に印加される。マルチチャネルオーディオ入力信号400はまた、室内インパルス応答300の後期残響304に従ってオーディオ信号を処理するためにプロセッサ408に適用される。図6(b)に示された実施形態では、マルチチャネルオーディオ入力信号は、マルチチャネル信号400を、より低い数のチャネルを有する信号にダウンミックスするためにダウンミキサ410にも印加され得る。ダウンミキサ410の出力は、次いでプロセッサ408に印加される。プロセッサ406とプロセッサ408との出力は412において合成されて2チャネルオーディオ出力信号404’が生成される。
【0045】
バイノーラルレンダラでは、上述のように、主に計算複雑さの低減のために、直接音および初期反射を後期残響とは別個に処理することが望まれることがある。直接音と初期反射との処理は、例えば、プロセッサ406(図6(b)を参照)によって実行される畳み込み手法によってオーディオ信号に転写され得るが、後期残響は、プロセッサ408によって行われる合成残響と置換され得る。全体的なバイノーラル出力信号404’は、その場合、プロセッサ406によって提供される畳み込み結果と、プロセッサ408によって提供される合成残響信号との合成である。
【0046】
この処理は従来技術文献[1]にも記載している。上記で説明した手法の結果は、完全なインパルス応答の畳み込み、図6(a)に関して説明した完全変換手法の結果とできる限り知覚的に同等であるはずである。しかしながら、オーディオ信号、またはより一般的な、オーディオ素材が、インパルス応答の直接音と初期反射部分とで畳み込まれた場合、結果として異なるチャネルが合計されて、聴取者の一方の耳への再生信号に関連付けられた全体的な音信号が形成される。残響は、しかしながら、この全体的な信号から計算されないが、概して、元の入力オーディオ信号の1つのチャネルまたはダウンミックスの残響信号である。本発明の発明者によって、したがって、後期残響は、プロセッサ406によって提供される畳み込み結果に適切に適合していないと判断されている。適切なレベルの残響は入力オーディオ信号と室内インパルス応答300の両方に依存することが分かっている。インパルス応答の影響は、プロセッサ408の一部であり得る残響器の入力パラメータとして残響特性を使用することによって達成され、これらの入力パラメータは、測定されたインパルス応答、例えば周波数依存残響時間および周波数依存エネルギー測度の分析から取得される。これらの測度は、概して、例えばオクターブフィルタバンク分析においてエネルギーおよびRT60残響時間を計算することによって、単一のインパルス応答から決定され得るか、または複数のインパルス応答分析の結果の平均値である。
【0047】
しかしながら、残響器に提供されるこれらの入力パラメータにもかかわらず、図6(b)に関して説明するような合成残響手法を使用するとき、残響への入力オーディオ信号の影響は十分に保持されないことが分かっている。例えば、合成残響テールを生成するために使用されるダウンミックスにより、入力オーディオ信号の影響は失われる。残響の得られるレベルは、したがって、特に入力信号が複数のチャネルを含む場合、完全な畳み込み手法の結果と知覚的に同等でない。
【0048】
これまで、後期残響の量を完全な畳み込み手法の結果と比較するかまたはそれを畳み込み結果に一致させる既知の手法はない。後期残響の品質をレーティングするかまたはそれがどれくらい自然に聞こえるかをレーティングすることを試みるいくつかの技法がある。例えば、1つの方法では、自然な音響残響のためのラウドネス測度が定義され、これは、ラウドネスモデルを使用して残響の知覚されるラウドネスを予測する。この手法は従来技術文献[2]に記載されており、レベルはターゲット値に適合され得る。この手法の欠点は、複雑で不正確である人間の聴覚のモデルにそれが依拠することである。それはまた、完全な畳み込み結果を使用して見つけられ得る後期残響にスケーリングファクタを提供するためのターゲットラウドネスを必要とする。
【0049】
従来技術文献[3]に記載した別の方法では、人工的残響品質テストのための相互相関基準が使用される。しかしながら、これは、異なる残響アルゴリズムをテストするためにのみ適用可能であるが、マルチチャネルオーディオには適用可能でなく、バイノーラルオーディオには適用可能でなく、後期残響のスケーリングを適格とするためには適用可能でない。
【0050】
別の可能な手法は、スケーリングファクタとしての考慮される耳における入力チャネルの数の使用に対するものであるが、全体的な音信号の知覚される振幅は、異なるオーディオチャネルの相関に依存し、チャネルの数だけに依存しないので、これは知覚的に正しいスケーリングを与えない。
【0051】
したがって、本発明の手法によれば、入力オーディオ信号に従って残響のレベルを適応させる信号依存スケーリング方法が提供される。上述のように、残響の知覚されるレベルは、バイノーラルレンダリングのために完全な畳み込み手法を使用するときの残響のレベルと一致することが望まれ、したがって、適切なレベルの残響のための測度の決定は、良好な音品質を達成するために重要である。実施形態によれば、オーディオ信号は、室内インパルス応答の初期部分と後期残響とを用いて別々に処理され、後期残響を処理することは、スケーリングされた残響信号を生成することを含み、スケーリングはオーディオ信号に依存する。オーディオ信号の処理された初期部分と、スケーリングされた残響信号とは、出力信号に合成される。一実施形態によれば、スケーリングは、オーディオ信号の1つまたは複数の入力チャネルの状態(例えば、入力チャネルの数、アクティブ入力チャネルの数および/または入力チャネル中のアクティビティ)に依存する。別の実施形態によれば、スケーリングは、オーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に依存する。代替実施形態は、1つまたは複数の入力チャネルの状態と、あらかじめ定義されたまたは計算される相関測度との合成に基づいてスケーリングを実施し得る。
【0052】
実施形態によれば、スケーリングされた残響信号は、オーディオ信号の1つまたは複数の入力チャネルの状態に基づいて、あるいはオーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に基づいて、あるいはそれらの合成に基づいて決定された利得ファクタを適用することによって生成され得る。
【0053】
実施形態によれば、オーディオ信号を別々に処理することは、第1のプロセス中に室内インパルス応答300の初期反射部分301、302を用いてオーディオ信号を処理することと、第1のプロセスとは異なり別々である第2のプロセス中に室内インパルス応答300の拡散残響304を用いてオーディオ信号を処理することとを含む。第1のプロセスから第2のプロセスに変化することは遷移時間において行われる。さらなる実施形態によれば、第2のプロセスにおいて、拡散(後期)残響304は合成残響と置換され得る。この場合、第1のプロセスに適用される室内インパルス応答は初期反射部分300、302(図5を参照)のみを含んでおり、後期拡散残響304は含まれない。
【0054】
以下で、入力オーディオ信号の相関分析に基づいて利得ファクタがそれに従って計算される本発明の手法の一実施形態についてさらに詳細に説明する。図7は、本発明の教示に従って動作する、バイノーラルレンダラのような信号処理ユニットのブロック図を示す。バイノーラルレンダラ500は、N個のチャネルを含むオーディオ信号x[k]を入力504から受信するプロセッサ502を含む第1の分岐を備える。プロセッサ502は、バイノーラルレンダラの一部であるとき、入力信号504を処理して出力信号506 xconv[k]を生成する。より詳細には、プロセッサ502は、複数の記録されたバイノーラル室内インパルス応答を保持している外部データベース508からプロセッサ502に提供され得る室内インパルス応答の直接音と初期反射とを用いて、オーディオ入力信号504の畳み込みを引き起こす。プロセッサ502は、上述のように、データベース508によって提供されるバイノーラル室内インパルス応答に基づいて動作し得、それにより、ただ2つのチャネルを有する出力信号502を生成する。出力信号506はプロセッサ502から加算器510に提供される。入力信号504は、残響器プロセッサ514とダウンミキサ516とを含む残響分岐512にさらに提供される。ダウンミックスされた入力信号は残響器514に提供され、残響器514は、それぞれデータベース518および520中に保持された残響RT60および残響エネルギーのような残響器パラメータに基づいて、ただ2つのチャネルを含み得る残響器514の出力において残響信号r[k]を生成する。データベース518および520に記憶されたパラメータは、図7の破線で示されているように、適切な分析522によって、記憶されたバイノーラル室内インパルス応答から取得され得る。
【0055】
残響分岐512は相関分析プロセッサ524をさらに含み、相関分析プロセッサ524は、入力信号504を受信し、それの出力において利得ファクタgを生成する。さらに、残響器514と加算器510との間に結合された利得段526が提供される。利得段526は利得ファクタgによって制御され、それにより、利得段526の出力において、スケーリングされた残響信号r[k]を生成し、この残響信号r[k]は加算器510に印加される。加算器510は、初期処理部分と残響信号とを合成して、同じく2つのチャネルを含む出力信号y[k]を提供する。随意によっては、残響分岐512は、いくつかのオーディオフレームにわたって利得ファクタを平滑化するために、プロセッサ524と利得段との間に結合された低域フィルタ528を備え得る。随意によっては、スケーリングされた残響信号が室内インパルス応答中の初期反射と残響との間の遷移に一致するように、スケーリングされた残響信号を遅延させるために、利得段526の出力と加算器510との間に遅延要素530も提供され得る。
【0056】
上記で説明したように、図7は、後期残響とは別々に直接音と初期反射とを処理するバイノーラルレンダラのブロック図である。分かるように、バイノーラル室内インパルス応答の直接反射と初期反射とを用いて処理された入力信号x[k]は、信号xconv[k]を生じる。この信号は、図示のように、それを残響信号成分r[k]に加算するために加算器510に転送される。この信号は、入力信号x[k]のダウンミックス、例えばステレオダウンミックスを残響器514に供給し、続いて、ダウンミックスの残響信号r[k]と利得ファクタgとを受信する乗算器または利得段526に供給することによって生成される。利得ファクタgは、プロセッサ524によって実行される入力信号x[k]の相関分析によって取得され、上述のように、低域フィルタ528によって時間とともに平滑化され得る。スケーリングまたは重み付けされた残響成分は、それの開始が初期反射から後期残響への遷移点と一致するように、随意によっては遅延要素530によって遅延され得、このようにして、加算器510の出力において出力信号y[k]が取得される。
【0057】
図7に示されたマルチチャネルバイノーラルレンダラは合成2チャネル後期残響を導入し、従来の手法の上記で説明した欠点を克服するために、本発明の手法によれば、合成後期残響は、知覚を完全な畳み込み手法の結果に一致させるために、利得ファクタgによってスケーリングされる。聴取者の耳における複数のチャネルの重ね合わせ(例えば最高22.2)は相関依存である。そのような理由で、後期残響は入力信号チャネルの相関に従ってスケーリングされ得、本発明の手法の実施形態は、後期残響の適切な振幅を決定する相関ベースの時間依存スケーリング方法を提供する。
【0058】
スケーリングファクタを計算するために、相関係数に基づく相関測度が導入され、実施形態によれば、2次元時間周波数領域、例えばQMF領域において定義される。各多次元オーディオフレームについて-1と1との間の相関値が計算され、各オーディオフレームは、周波数帯域の数Nと、フレームごとのタイムスロットの数Mと、オーディオチャネルの数Aとによって定義される。フレームごとに耳ごとに1つのスケーリングファクタが取得される。
【0059】
以下で、本発明の手法の一実施形態についてさらに詳細に説明する。まず第1に、図7の相関分析プロセッサ524において使用された相関測度への参照が行われる。相関測度は、この実施形態によれば、以下のように、2つの変数X、Yの共分散をそれらの標準偏差の積で除算することによって計算されるピアソンの積率係数(相関係数としても知られる)に基づく。
【数7】
ただし
E{・} = 期待値演算子
ρ{X,Y} = 相関係数、
σ,σ = 変数X、Yの標準偏差
説明する実施形態によるこの処理は、時間周波数領域、例えばQMF領域における2次元に伝達される。この2次元はタイムスロットおよびQMF帯域である。データは時間-周波数領域中でしばしば符号化され、送信もされるので、この手法は妥当である。期待値演算子は、いくつかの時間および/または周波数サンプルにわたる平均演算と置換され、したがって、(0,1)の範囲内の2つのゼロ平均変数x、x間の時間周波数相関測度は以下のように定義される。
【数8】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
j∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役。
1つのオーディオフレームの複数のチャネル合成(m,n)についてのこの係数の計算の後に、ρ[m,n,t]の値は、複数の相関値ρ[m,n,t]の平均を取る(または複数の相関値ρ[m,n,t]を平均化する)ことによって単一の相関測度ρ(t)に合成される。オーディオフレームは32個のQMFタイムスロットを含み得、tはそれぞれのオーディオフレームを示すことに留意されたい。上記の処理は、1つのオーディオフレームについて以下のように要約され得る。
(i) 最初に、サイズ[N,M,K]を有するオーディオまたはデータフレームxのk個のチャネルごとの全体的な平均値
【数9】
が計算され、実施形態によれば、すべてのk個のチャネルは残響器の1つの入力チャネルにダウンミックスされる。
(ii) 対応するチャネルから値
【数10】
を減算することによってゼロ平均オーディオまたはデータフレームが計算される。
(iii) 複数のチャネル合成(m,n)について、定義された相関係数または相関値cが計算される。
(iv) (例えばゼロ除算によって誤って計算された値を除く)複数の相関値ρ[m,n]の平均として平均相関値cが計算される。
【0060】
上記で説明した実施形態によれば、スケーリングは、オーディオ信号についての計算された相関測度に基づいて決定された。例えば、個々に現在処理されているオーディオ信号について相関測度を取得することが望まれるとき、必要とされる追加の計算リソースにもかかわらず、これは有利である。
【0061】
ただし、本発明はそのような手法に限定されない。他の実施形態によれば、相関測度を計算するのではなく、あらかじめ定義された相関測度も使用され得る。あらかじめ定義された相関測度を使用することは、プロセスにおける計算複雑さを低減するので、有利である。あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定され得る、例えば0.1~0.9の、固定値を有し得る。そのような場合、相関分析524は省略され得、利得段の利得は適切な制御信号によって設定され得る。
【0062】
他の実施形態によれば、スケーリングは、オーディオ信号の1つまたは複数の入力チャネルの状態(例えば、入力チャネルの数、アクティブ入力チャネルの数および/または入力チャネル中のアクティビティ)に依存し得る。スケーリングは、低減した計算オーバーヘッドにより入力オーディオ信号から容易に決定され得るので、これは有利である。例えば、スケーリングは、元のオーディオ信号と比較して低減した数のチャネルを含む、現在考慮されているダウンミックスチャネルにダウンミックスされる元のオーディオ信号中のチャネルの数を単に決定することによって決定され得る。代替的に、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネル(現在オーディオフレーム中で何らかのアクティビティを示すチャネル)の数は、残響信号をスケーリングするための基礎を形成し得る。これはブロック524において行われ得る。
【0063】
以下で、オーディオ信号の1つまたは複数の入力チャネルの状態に基づいて、および(上記で説明したように固定であるかあるいは計算される)相関測度に基づいて残響信号のスケーリングを決定する実施形態について詳細に説明する。そのような実施形態によれば、利得ファクタまたは利得またはスケーリングファクタgは以下のように定義される。
【数11】
【数12】
【数13】
ただし
ρ = オーディオ信号についてのあらかじめ定義されたまたは計算される相関係数、
、c = オーディオ信号の1つまたは複数の入力チャネルの状態を示すファクタであり、cは、全体として無相関なチャネルを指し、cは、全体として相関するチャネルに関係し、
in = アクティブ非ゼロまたは固定ダウンミックスチャネルの数。
は、ダウンミックスされたチャネルが全体として無相関である(チャネル間依存性がない)場合に適用されるファクタである。1つまたは複数の入力チャネルの状態のみを使用する場合、g=c、および、あらかじめ定義された固定相関係数は0に設定される。cは、ダウンミックスされたチャネルが全体として相関する(信号が互いの重み付けされたバージョン(+位相シフトおよびオフセット)である)場合に適用されるファクタである。1つまたは複数の入力チャネルの状態のみを使用する場合、g=c、および、あらかじめ定義された固定相関係数は1に設定される。これらのファクタは、((アクティブ)チャネルの数に応じて)オーディオフレーム中で後期残響の最小スケーリングと最大スケーリングとを記述する。
「チャネル数」Kinは、実施形態によれば、以下のように定義される。どの入力チャネルがどのダウンミックスチャネル中に含まれるかを定義するダウンミックス行列Q(サイズM×2、ただし、Mはオーディオ入力素材の入力チャネルの数であり、例えば5.1セットアップでは6つのチャネルである)を使用して、マルチチャネルオーディオ信号がステレオダウンミックスにダウンミックスされる。
ダウンミックス行列Qの一例は以下のとおりであり得る。
【数14】
2つのダウンミックスチャネルの各々について、スケーリング係数は以下のように計算される。
g=f(c,c,ρavg)=c+ρavg・(c-c
ただし、ρavgは、いくつかのKin・Kinチャネル合成[m,n]についてのすべての相関係数ρ[m,n]の平均/平均値であり、c、cは、以下のとおりであり得るチャネル数Kinに依存する。
・Kinは、現在考慮されているダウンミックスチャネルにダウンミックスされるチャネルの数k∈[1,2](0に等しくない値を含んでいる列k中のダウンミックス行列Q中の行の数)であり得る。この数は、ダウンミックス行列Qが、1つの入力チャネル構成についてあらかじめ定義され、1つのオーディオ入力信号の全長にわたって変化しないので、時不変である。
例えば5.1入力信号を考慮するとき、以下が適用される。
チャネル1、3、4がダウンミックスチャネル1にダウンミックスされ(上記の行列Qを参照)、
inはフレームごとに=3(3つのチャネル)である。
・Kinは、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネルの数k∈[1,2](現在オーディオフレーム中でアクティビティがあり、また、列k中のダウンミックス行列Qの対応する行が、アクティブチャネルとQの列k中の等しくない要素との交差において、0→チャネルの数に等しくない値を含んでいる、入力チャネルの数)であり得る。この数は、Qが同じままである場合でも、信号アクティビティが時間とともに変化し得るので、1つのオーディオ入力信号の全長にわたって時変であり得る。
【0064】
例えば5.1入力信号を考慮するとき、以下が適用される。
チャネル1、3、4がダウンミックスチャネル1にダウンミックスされ(上記の行列Qを参照)、
フレームnでは、
アクティブチャネルはチャネル1、2、4であり、
inは交差{1,4}におけるチャネルの数であり、
in(n)=2
フレームn+1では、
アクティブチャネルはチャネル1、2、3、4であり、
inは交差{1,3,4}におけるチャネルの数であり、
in(n+1)=3。
(あらかじめ定義されたフレーム中の)オーディオチャネルは、それが、あらかじめ定義されたフレーム内に、プリセットしきい値を超える振幅またはエネルギーを有する場合はアクティブであると見なされ得、例えば、実施形態によれば、(あらかじめ定義されたフレーム中の)オーディオチャネル中のアクティビティは以下のように定義され得る。
・フレーム中の(時間領域、QMF領域などにおける)信号の絶対振幅の合計または最大値が0よりも大きいか、あるいは
・フレーム中の信号エネルギー(時間領域またはQMF領域における振幅の2乗絶対値)の合計または最大値が0よりも大きい。
0の代わりに、0よりも大きい(最大エネルギーまたは振幅に対する)別のしきい値、例えば0.01のしきい値も使用され得る。
【0065】
実施形態によれば、アクティブチャネルの数(時間変動)またはダウンミックスチャネル中の含まれるチャネル(0に等しくないダウンミックス行列)の固定数Kinに依存する各耳についての利得ファクタが提供される。ファクタは、全体として無相関な場合と全体として相関する場合との間で線形的に増加すると仮定する。全体として無相関は、チャネル間依存性なしを意味し(相関値は0である)、全体として相関は、信号が互いの重み付けされたバージョンであることを意味する(オフセットの位相差がある場合、相関値は1である)。
【0066】
上述のように、利得またはスケーリングファクタgは、低域フィルタ528によってオーディオフレームにわたって平滑化され得る。低域フィルタ528は、以下のように、フレームサイズkのためにg(t)の平滑化された利得ファクタを生じるtの時定数を有し得る。
【数15】
【数16】
【数17】
ただし
= [s]での低域フィルタの時定数
= フレームtにおけるオーディオフレーム
= 平滑化された利得ファクタ
k = フレームサイズ、および
= [Hz]でのサンプリング周波数
フレームサイズkは、時間領域サンプル中のオーディオフレームのサイズ、例えば2048個のサンプルであり得る。
オーディオフレームx(t)の左チャネル残響信号は、その場合、ファクタgs,left(t)でスケーリングされ、右チャネル残響信号はファクタgs,right(t)でスケーリングされる。スケーリングファクタは、残響器に供給されるステレオダウンミックスの左チャネル中に存在するチャネル(のアクティブ非0または総数)の数としてKinを用いて1回計算され、それにより、スケーリングファクタgs,left(t)が得られる。次いで、スケーリングファクタは、残響器に供給されるステレオダウンミックスの右チャネル中に存在するチャネル(のアクティブ非0または総数)の数としてKinを用いてもう1回計算され、それにより、スケーリングファクタgs,right(t)が得られる。残響器は、オーディオフレームのステレオ残響バージョンを戻す。残響バージョンの左チャネル(または残響器の入力の左チャネル)はgs,left(t)でスケーリングされ、残響バージョンの右チャネル(または残響器の入力の右チャネル)はgs,right(t)でスケーリングされる。
スケーリングされた人工的(合成)後期残響は、直接音と初期反射とを用いて処理されている信号506に加算されるために、加算器510に印加される。
上述のように、本発明の手法は、実施形態によれば、オーディオ信号のバイノーラル処理のためのバイノーラルプロセッサにおいて使用され得る。以下で、オーディオ信号のバイノーラル処理の一実施形態について説明する。バイノーラル処理は、復号された信号を、ヘッドフォンを介して聴取されたときにサラウンド音エクスペリエンスを提供するバイノーラルダウンミックス信号に変換する、デコーダプロセスとして行われ得る。
【0067】
図8は、本発明の一実施形態によるオーディオ信号のバイノーラル処理のためのバイノーラルレンダラ800の概略図を示す。図8はまた、バイノーラルレンダラにおけるQMF領域処理の概観を提供する。入力802において、バイノーラルレンダラ800は、処理されるべきオーディオ信号、例えば、N個のチャネルと64個のQMF帯域とを含む入力信号を受信する。さらに、バイノーラルレンダラ800は、オーディオ信号の処理を制御するためのいくつかの入力パラメータを受信する。入力パラメータは、2×Nチャネルと64個のQMF帯域とのためのバイノーラル室内インパルス応答(BRIR)804、BRIR804の初期反射部分を用いたオーディオ入力信号の畳み込みのために使用される最大帯域の指示Kmax806、ならびに上述の残響器パラメータ808および810(RT60および残響エネルギー)を含む。バイノーラルレンダラ800は、受信されたBRIR804の初期部分を用いて入力オーディオ信号802を処理するための高速畳み込みプロセッサ812を備える。プロセッサ812は、出力において、2つのチャネルとKmax個のQMF帯域とを含む初期処理信号814を生成する。バイノーラルレンダラ800は、高速畳み込みプロセッサ812を有する初期処理分岐のほかに、2つの残響器816aおよび816bを含む残響分岐をも備え、各残響器は、入力パラメータとしてRT60情報808と残響エネルギー情報810とを受信する。残響分岐は、両方とも同じく入力オーディオ信号802を受信するステレオ・ダウンミックス・プロセッサ818および相関分析プロセッサ820をさらに含む。さらに、ステレオ・ダウンミックス・プロセッサ818によって提供されるダウンミックス信号822の利得を制御するために、ステレオ・ダウンミックス・プロセッサ818とそれぞれの残響器816aおよび816bとの間に2つの利得段821aおよび821bが提供される。ステレオ・ダウンミックス・プロセッサ818は、入力信号802に基づいて、2つの帯域と64個のQMF帯域とを有するダウンミックス信号822を提供する。利得段821aおよび821bの利得は、相関分析プロセッサ820によって提供されるそれぞれの制御信号824aおよび824bによって制御される。利得制御されたダウンミックス信号はそれぞれの残響器816aおよび816bに入力され、それぞれの残響信号826a、826bが生成される。初期処理信号814と残響信号826a、826bとはミキサ828によって受信され、ミキサ828は、受信された信号を、2つのチャネルと64個のQMF帯域とを有する出力オーディオ信号830に合成する。さらに、本発明によれば、高速畳み込みプロセッサ812と残響器816aおよび816bとは、上記で説明したように決定される初期部分から後期残響への室内インパルス応答804中の遷移を示す追加の入力パラメータ832を受信する。
【0068】
バイノーラル・レンダラ・モジュール800(例えば、図2または図4のバイノーラルレンダラ236)は、入力802として、復号されたデータストリームを有する。信号は、ISO/IEC 14496-3:2009、4.B.18.2節に概説されその修正がISO/IEC 14496-3:2009、8.6.4.2節に述べられている、QMF分析フィルタバンクによって処理される。レンダラモジュール800はまた、QMF領域入力データを処理し得、この場合、分析フィルタバンクは省略され得る。バイノーラル室内インパルス応答(BRIR)804は複素QMF領域フィルタとして表される。時間領域バイノーラル室内インパルス応答から複素QMFフィルタ表現への変換は、ISO/IEC FDIS 23003-1:2006、アネックスBに概説されている。複素QMF領域では、BRIR804が初期反射部分301、302(図5を参照)のみを含み、かつ後期拡散残響304が含まれないように、BRIR804は一定数のタイムスロットに制限される。初期反射から後期残響への遷移点832は、上記で説明したように、例えば、バイノーラル処理の前処理ステップにおけるBRIR804の分析によって決定される。QMF領域オーディオ信号802およびQMF領域BRIR804は、次いで、バイノーラル処理を実施するために帯域的な高速畳み込み812によって処理される。2チャネルQMF領域後期残響826a、826bを生成するためにQMF領域残響器816a、816bが使用される。残響モジュール816a、816bは、残響の特性を適応させるために周波数依存残響時間808とエネルギー値810とのセットを使用する。残響の波形は、オーディオ入力信号802のステレオダウンミックス818に基づき、それは、マルチチャネルオーディオ信号802の相関分析820に応じて振幅が適応的にスケーリング821a、821bされる。次いで、2チャネルQMF領域畳み込み結果814と、2チャネルQMF領域残響816a、816bとは、合成828され、最終的に、2つのQMF合成フィルタバンクが、ISO/IEC 14496-3:2009、4.6.18.4.2節に概説されているようにバイノーラル時間領域出力信号830を計算する。レンダラはまた、QMF領域出力データを生成することができる。その場合、合成フィルタバンクは省略される。
【0069】
定義
バイノーラル・レンダラ・モジュール800中に供給されるオーディオ信号802は、以下では入力信号と呼ばれる。バイノーラル処理の結果であるオーディオ信号830は出力信号と呼ばれる。バイノーラル・レンダラ・モジュール800の入力信号802は、コアデコーダのオーディオ出力信号である(例えば図2の信号228を参照)。以下の変数定義が使用される。
【表1】
【0070】
処理
次に、入力信号の処理について説明する。バイノーラル・レンダラ・モジュールは、入力オーディオ信号の長さ=2048時間領域サンプルの連続的な重複しないフレームに作用し、長さの処理された入力フレームごとに個のサンプルの1つのフレームを出力する。
【0071】
(1) 初期化および前処理
バイノーラル処理ブロックの初期化は、コアデコーダ(例えば図2の200のデコーダを参照)によって供給されるオーディオサンプルの処理が起こる前に行われる。初期化はいくつかの処理ステップからなる。
【0072】
(a) 分析値の読取り
残響器モジュール816a、816bは、入力パラメータとして残響時間808とエネルギー値810との周波数依存セットを取る。これらの値は、バイノーラル処理モジュール800の初期化においてインターフェースから読み取られる。さらに、時間領域サンプルにおける初期反射から後期残響への遷移時間832が読み取られる。値は、サンプルごとに32ビット、フロート値、リトルエンディアン順序付けで書き込まれるバイナリファイルに記憶され得る。処理のために必要とされる読取り値を以下の表に述べる。
【表2】
【0073】
(b) BRIRの読取りおよび前処理
バイノーラル室内インパルス応答804は、左耳BRIRと右耳BRIRとを個々に記憶する2つの専用ファイルから読み取られる。BRIRの時間領域サンプルは、サンプルごとに24ビットの解像度と32個のチャネルとを用いて整数waveファイルに記憶される。ファイル中のBRIRの順序付けは以下の表に述べられているとおりである。
【表3】
【0074】
ラウドスピーカ位置の1つにおいて測定されるBRIRがない場合、waveファイル中の対応するチャネルは0値を含んでいる。LFEチャネルはバイノーラル処理のために使用されない。
【0075】
前処理ステップとして、バイノーラル室内インパルス応答(BRIR)の所与のセットが時間領域フィルタから複素数値QMF領域フィルタに変換される。複素数値QMF領域における所与の時間領域フィルタの実装は、ISO/IEC FDIS 23003-1:2006、アネックスBに従って行われる。フィルタ変換のためのプロトタイプフィルタ係数は、ISO/IEC FDIS 23003-1:2006、アネックスB、表B.1に従って使用される。1≦v≦Ltrans,nである複素数値QMF領域フィルタ
を獲得するために、1≦v≦Ltransである時間領域表現
が処理される。
(2) オーディオ信号処理
バイノーラル・レンダラ・モジュール800のオーディオ処理ブロックは、コアデコーダからNin個の入力チャネルのための時間領域オーディオサンプル802を取得し、Nout=2個のチャネルからなるバイノーラル出力信号830を生成する。
処理は、入力として以下を取る。
・コアデコーダからの復号されたオーディオデータ802、
・BRIRセット804の初期反射部分の複素QMF領域表現、および
・後期残響826a、826bを生成するためにQMF領域残響器816a、816bによって使用される周波数依存パラメータセット808、810、832。
【0076】
(a) オーディオ信号のQMF分析
第1の処理ステップとして、バイノーラル・レンダラ・モジュールは、(コアデコーダから来る)Ninチャネル時間領域入力信号の=2048時間領域サンプル
を、次元L=32QMFタイムスロット(スロットインデックスn)とK=64周波数帯域(帯域インデックスk)とのNinチャネルQMF領域信号表現802に変換する。
ISO/IEC 14496-3:2009、4.B.18.2節に概説されその修正がISO/IEC 14496-3:2009、8.6.4.2節に述べられているQMF分析が時間領域信号
のフレーム上で実施されて、1≦v≦Lおよび1≦n≦LであるQMF領域信号
のフレームが獲得される。
【0077】
(b) QMF領域オーディオ信号とQMF領域BRIRとの高速畳み込み
次に、QMF領域オーディオ信号802とQMF領域BRIR804とを処理するために帯域的な高速畳み込み812が行われる。FFT分析が、入力信号802と各BRIR804との各チャネルのための各QMF周波数帯域について行われ得る。
QMF領域中の複素数値により、1つのFFT分析はQMF領域信号表現の実数部で行われ、1つのFFT分析はQMF領域信号表現の虚数部で行われる。結果が次いで合成されて、最終的な帯域的な複素数値擬似FFT領域信号が次のように形成され、
および以下のように帯域的な複素数値BRIRが形成され、
左耳では
右耳では

FFT変換の長さは、複素数値QMF領域BRIRフィルタの長さLtrans,nと、QMF領域タイムスロットLにおけるフレーム長とに従って決定され、したがって、
FFT=Ltrans,n+L-1。
複素数値擬似FFT領域信号は、次いで複素数値擬似FFT領域BRIRフィルタが掛けられて、高速畳み込み結果が形成される。入力信号のどのチャネルがBRIRデータセット中のどれBRIRペアに対応するかをシグナリングするためにベクトルmconvが使用される。
この掛算は、1≦k≦KmaxであるすべてのQMF周波数帯域kについて帯域的に行われる。最大帯域Kmaxは、18kHzまたはコアデコーダからのオーディオ信号中に存在する最大信号周波数のいずれかの周波数を表すQMF帯域によって決定される
max=min(fmax,decoder,18kHz)。
各BRIRペアを用いた各オーディオ入力チャネルからの掛算の結果は、1≦k≦Kmaxである各QMF周波数帯域において合計され、それにより、中間2チャネルKmax帯域擬似FFT領域信号が生じる。
および
は、QMF領域周波数帯域k
における擬似FFT畳み込み結果
である。
次に、帯域的なFFT合成が行われて、畳み込み結果がQMF領域に逆変換され、それにより、1≦n≦LFFTおよび1≦k≦KmaxであるLFFTタイムスロット
をもつ中間2チャネルKmax帯域QMF領域信号が生じる。
L=32個のタイムスロットをもつ各QMF領域入力信号フレームについて、L=32個のタイムスロットをもつ畳み込み結果信号フレームが返される。残りのLFFT-32個のタイムスロットは記憶され、後続のフレームにおいてオーバーラップ加算処理が行われる。
【0078】
(c) 後期残響の生成
第2の中間信号826a、826bとして、
と呼ばれる残響信号が周波数領域残響器モジュール816a、816bによって生成される。周波数領域残響器816a、816bは、入力として以下を取る。
・入力信号の1つのフレームのQMF領域ステレオダウンミックス822、
・周波数依存残響時間808とエネルギー値810とを含んでいるパラメータセット。
周波数領域残響器816a、816bは2チャネルQMF領域後期残響テールを返す。
周波数依存パラメータセットの最大使用帯域数が、最大周波数に応じて計算される。
【0079】
最初に、入力信号
の1つのフレームのQMF領域ステレオダウンミックス818が行われて、入力信号チャネルの重み付けされた合計によって残響器の入力が形成される。重み付け利得はダウンミックス行列MDMX中に含まれている。重み付け利得は実数値で非負であり、ダウンミックス行列は次元Nout×Ninである。それは、入力信号のチャネルが2つの出力チャネルのうちの1つにマッピングされる、非0値を含んでいる。
【0080】
左半球上のラウドスピーカ位置を表すチャネルは左出力チャネルにマッピングされ、右半球上にあるラウドスピーカを表すチャネルは右出力チャネルにマッピングされる。これらのチャネルの信号は1の係数によって重み付けされる。正中面におけるラウドスピーカを表すチャネルは、バイノーラル信号の両方の出力チャネルにマッピングされる。これらのチャネルの入力信号は次の係数によって重み付けされる。
【0081】
さらに、ダウンミックスにおいてエネルギー等化ステップが実施される。エネルギー等化ステップは、1つのダウンミックスチャネルの帯域的エネルギーが、このダウンミックスチャネル中に含まれている入力信号チャネルの帯域的エネルギーの合計に等しくなるように適応させる。このエネルギー等化は、次の実数値係数を用いた帯域的掛算によって行われる。
【0082】
ファクタceq,kは[0.5,2]の区間に制限される。ゼロ除算を回避するために数値定数εが導入される。ダウンミックスはまた、周波数fmaxに帯域制限される。すべてのより高い周波数帯域における値は0に設定される。
【0083】
図9は、本発明の一実施形態によるバイノーラルレンダラ800の周波数領域残響器816a、816bにおける処理を概略的に表す。
【0084】
周波数領域残響器において、入力ミキサ900を使用してステレオ入力のモノダウンミックスが計算される。これは、第2の入力チャネル上で90°位相シフトを適用して非コヒーレントに行われる。
【0085】
このモノ信号は、次いで、各周波数帯域kにおいてフィードバック遅延ループ902に供給され、それにより、インパルスの減衰シーケンスが作成される。その後に、インパルス間の間隔中に減衰様式で信号エネルギーを分配し、出力チャネル間に非コヒーレンスを作成する、並列FIR無相関化器が続く。エネルギー減衰を作り出すために減衰フィルタタップ密度が適用される。フィルタタップ位相演算は、スパースで乗算器なしの無相関化器を実装するために4つのオプションに限定される。
【0086】
残響の計算の後に、チャネル間コヒーレンス(ICC)補正904がQMF周波数帯域ごとに残響器モジュール中に含まれる。ICC補正ステップでは、ICCを適応させるために周波数依存直接利得gdirectとクロスミックス利得gcrossとが使用される。
【0087】
異なる周波数帯域のためのエネルギーの量と残響時間とは入力パラメータセット中に含まれている。値は、K=64個のQMF周波数帯域に内部でマッピングされたいくつかの周波数ポイントにおいて与えられる。
【0088】
最終的な中間信号
を計算するために周波数領域残響器の2つのインスタンスが使用される。
信号は残響器の第1のインスタンスの第1の出力チャネルであり
は残響器の第2のインスタンスの第2の出力チャネルである。それらは、2つのチャネルと、64個の帯域と、32個のタイムスロットとの次元を有する最終的な残響信号フレームに合成される。
残響器出力の正しいスケーリングを保証するために、ステレオダウンミックス822は、入力信号フレームの相関測度820に従って両方の時間においてスケーリング821a、bされる。スケーリングファクタは、0と1との間の相関係数ccorrに応じて線形的に
の区間中の値として定義され、ただし、
および
【0089】
ただし、
は、チャネルA
の1つのタイムスロットnにわたる標準偏差を意味し、演算子{*}は複素共役を示し、
は、実際の信号フレーム中のQMF領域信号
のゼロ平均バージョンである。
【0090】
corrは2回計算される。1回は、実際の信号フレームFにおいてアクティブでありステレオダウンミックスの左チャネル中に含まれる複数のチャネルA、Bについてであり、1回は、実際の信号フレームFにおいてアクティブである、そして、ステレオダウンミックスの右チャネル中に含まれる複数のチャネルA、Bについてである。NDMX,actは、1つのダウンミックスチャネルA(0に等しくないダウンミックス行列MDMXのA番目の行中の行列要素の数)にダウンミックスされ、現在フレーム中でアクティブである、入力チャネルの数である。
【0091】
スケーリングファクタは、次いで、以下のようになる。
スケーリングファクタは、1次低域フィルタによってオーディオ信号フレームにわたって平滑化され、それにより、平滑化されたスケーリングファクタ
が生じる。
【0092】
スケーリングファクタは、同じ手段を用いた時間領域相関分析によって、第1のオーディオ入力データフレームにおいて初期化される。
【0093】
第1の残響器インスタンスの入力はスケーリングファクタ
でスケーリングされ、第2の残響器インスタンスの入力はスケーリングファクタ
でスケーリングされる。
【0094】
(d) 畳み込み結果と後期残響の合成
次に、1つQMF領域オーディオ入力フレームについての、畳み込み結果814、
、および残響器出力826a、826b、
が、2つの信号を帯域的に合計するミキシングプロセス828によって合成される。畳み込みはKmaxまでの帯域においてしか行われないので、Kmaxよりも高い上側帯域は、
が0であることに留意されたい。
後期残響出力は、ミキシングプロセスにおいて
d=((Ltrans-20・64+1)/64+0.5)+1のタイムスロットの量だけ遅延される。
遅延dは、妥当なタイムスロットにおける後期残響の挿入を保証するために、BRIRにおける初期反射から後期反射への遷移時間、および20QMFタイムスロットの残響器の初期遅延、ならびにBRIRのQMF分析のための0.5QMFタイムスロットの分析遅延を考慮に入れる。1つのタイムスロットn
における合成信号
は、
によって計算される。
【0095】
(e) バイノーラルQMF領域信号のQMF合成
QMF領域出力信号
の32タイムスロットの1つの2チャネルフレームは、ISO/IEC 14496-3:2009、4.6.18.4.2.節によるQMF合成によって長さLで2チャネル時間領域信号フレームに変換され、それにより、最終的な時間領域出力信号830、
が生じる。
【0096】
本発明の手法によれば、入力信号の特性を考慮に入れて合成または人工的後期残響がスケーリングされ、それにより、別々の処理によって得られる計算複雑さの低減を利用しながら出力信号の品質が改善される。また、上記の説明から分かるように、追加の聴覚モデルまたはターゲット残響ラウドネスは不要である。
【0097】
本発明は、上記で説明した実施形態に限定されないことに留意されたい。例えば、上記の実施形態ではQMF領域との関連において説明したが、他の時間-周波数領域、例えばSTFT領域も使用され得ることに留意されたい。また、スケーリングファクタは、相関が周波数帯域の全数、すなわちi∀[1,N]にわたって計算されないように周波数依存様式で計算され得るが、以下のように定義されたいくつかのS個のサブセットにおいて計算される。
∀[1,N],i∀[N+1,N],...,i∀[NS-1+N]
【0098】
また、周波数帯域にわたって平滑化が適用され得るか、または、特定のルールに応じて、例えば聴覚の周波数解像度に従って帯域が合成され得る。平滑化は、例えばフレームサイズまたは聴取者の選好に応じて、様々な時定数に適合され得る。
【0099】
本発明の手法はまた、様々なフレームサイズについて適用され得、時間周波数領域中のただ1つのタイムスロットのフレームサイズさえ可能である。
【0100】
実施形態によれば、ダウンミックスのために様々なダウンミックス行列が、例えば対称ダウンミックス行列または非対称行列が使用され得る。
【0101】
相関測度は、オーディオビットストリーム中で送信されるパラメータから、例えばMPEGサラウンドまたはSAOCにおけるチャネル間コヒーレンスから導出され得る。また、実施形態によれば、必要な場合、平均値計算から行列のいくつかの値、例えば、誤って計算された値または主対角線上の値、自己相関値を除外することが可能である。
【0102】
プロセスは、デコーダ側におけるバイノーラルレンダラにおいてそれを使用する代わりに、例えば低複雑度バイノーラルプロファイルを適用するとき、エンコーダにおいて行われ得る。これは、スケーリングファクタのその何らかの表現、例えばスケーリングファクタ自体、0と1との間の相関測度などを生じ、これらのパラメータは、固定ダウンストリーム行列についてエンコーダからデコーダにビットストリーム中で送信される。
【0103】
また、上記で説明した実施形態では、残響器514に続いて利得を適用することについて説明したが、他の実施形態によれば、利得はまた、残響器514の前に、または、例えば残響器514内の利得を修正することによって、残響器内で適用され得ることに留意されたい。より少ない計算が必要とされ得るので、これは有利である。
【0104】
いくつかの態様について装置のコンテキストで説明したが、これらの態様は対応する方法の説明をも表すことが明らかであり、ブロックまたはデバイスは、方法ステップ、または方法ステップの特徴に対応する。同様に、方法ステップのコンテキストで説明する態様も、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路のような、ハードウェア装置によって(またはそれを使用して)実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの何らかの1つまたは複数はそのような装置によって実行され得る。
【0105】
いくつかの実装要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアにおいて実装され得る。実装は、それぞれの方法が実施されるようにプログラマブル・コンピュータ・システムと協働する(または協働することが可能である)、電子的に読取り可能な制御信号をその上に記憶した、デジタル記憶媒体などの非一時的記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、Blu-Ray(登録商標)、CD、ROM、PROM、およびEPROM、EEPROMまたはFLASH(登録商標)メモリを使用して実施され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
【0106】
本発明によるいくつかの実施形態は、本明細書で説明する方法のうちの1つが実施されるようにプログラマブル・コンピュータ・システムと協働することが可能である、電子的に読取り可能な制御信号を有するデータキャリアを備える。
【0107】
概して、本発明の実施形態は、プログラムコードをもつコンピュータプログラム製品として実装され得、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するとき、方法のうちの1つを実施するように動作可能である。プログラムコードは、例えば、機械可読キャリア上に記憶され得る。
【0108】
他の実施形態は、機械可読キャリアに記憶された、本明細書で説明する方法のうちの1つを実施するためのコンピュータプログラムを備える。
【0109】
言い換えれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するとき、本明細書で説明する方法のうちの1つを実施するためのプログラムコードを有するコンピュータプログラムである。
【0110】
本発明の方法のさらなる実施形態は、したがって、本明細書で説明する方法のうちの1つを実施するためのコンピュータプログラムをその上に記録して備える、データキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形および/または非一時的である。
【0111】
発明方法のさらなる実施形態は、したがって、本明細書で説明する方法のうちの1つを実施するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成され得る。
【0112】
さらなる実施形態は、本明細書で説明する方法のうちの1つを実施するように構成またはプログラムされる処理手段、例えば、コンピュータまたはプログラマブル論理デバイスを備える。
【0113】
さらなる実施形態は、本明細書で説明する方法のうちの1つを実施するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。
【0114】
本発明によるさらなる実施形態は、本明細書で説明する方法のうちの1つを実施するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成される装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを備え得る。
【0115】
いくつかの実施形態では、本明細書で説明する方法の機能の一部または全部を実施するためにプログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)が使用され得る。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法のうちの1つを実施するためにマイクロプロセッサと協働し得る。概して、方法は、好ましくはどんなハードウェア装置によっても実施される。
【0116】
上記で説明した実施形態は本発明の原理を例示するためのものにすぎない。本明細書で説明する構成および詳細の修正形態および変形形態は、他の当業者に明らかであることを理解されたい。したがって、本明細書の実施形態の記述および説明として提示される特定の詳細によっては限定されず、直下の特許請求の範囲によってのみ限定されることが意図される。
【0117】
文献
[1] M.R.Schroeder、「Digital Simulation of Sound Transmission in Reverberant Spaces」、The Journal of the Acoustical Society of America、VoS.47、pp.424-431(1970)、および、JA. Moorer、「About This Reverberation Business」、Computer Music Journal、Vol.3、no.2、pp.13-28、MIT Press(1979)において拡張されている。
[2] Uhle,Christian、Paulus,Jouni、Herre,Jurgen:「Predicting the Perceived Level of Late Reverberation Using Computational Models of Loudness」 Proceedings、17th International Conference on Digital Signal Processing (DSP)、2011年7月6~8日、コルフ、ギリシャ。
[3] Czyzewski,Andrzej:「A Method of Artificial Reverberation Quality Testing」 J.Audio Eng.Soc.,Vol.38,No 3,1990。
図1
図2
図3
図4
図5
図6(a)】
図6(b)】
図7
図8
図9
【手続補正書】
【提出日】2024-12-27
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0116
【補正方法】変更
【補正の内容】
【0116】
また、以下にさらなる実施形態を説明する。
第1の実施形態は、
室内インパルス応答(300)に従ってオーディオ信号(504、802)を処理するための方法であって、前記方法は、
前記室内インパルス応答(300)の初期部分(301、302)と後期残響(304)とを用いて前記オーディオ信号(504、802)を別々に処理すること(502、514、812、816a、816b)であって、前記後期残響(304)を処理することが、スケーリングされた残響信号を生成することを含み、前記スケーリングが前記オーディオ信号(504、802)に依存する、処理することと、
前記室内インパルス応答の前記初期部分を用いて処理された前記オーディオ信号と前記スケーリングされた残響信号とを合成することと
を含む、方法を提供する。
第2の実施形態は、
前記スケーリングが、前記オーディオ信号(504、802)の1つまたは複数の入力チャネルの状態に依存する、前記1の実施形態の方法を提供する。
第3の実施形態は、
前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態が、入力チャネルの数と、アクティブ入力チャネルの数と、前記入力チャネル中のアクティビティとのうちの1つまたは複数を含む、前記2の実施形態の方法を提供する。
第4の実施形態は、
前記スケーリングが、前記オーディオ信号(504、802)のあらかじめ定義されたまたは計算される相関測度に依存する、前記第1から第3の実施形態のうちのいずれか一の方法を提供する。
第5の実施形態は、
前記スケーリングされた残響信号を生成することが、利得ファクタを適用することを含み、前記利得ファクタは、前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態に基づいておよび/または前記オーディオ信号(504、802)についての前記あらかじめ定義されたまたは計算される相関測度に基づいて決定される、前記第1から第4の実施形態のうちのいずれか一の方法を提供する。
第6の実施形態は、
前記スケーリングされた残響信号を生成することが、前記オーディオ信号(504、802)の前記後期残響(304)を処理する前に、その間にまたはその後に前記利得ファクタを適用することを含む、前記第5の実施形態の方法を提供する。
第7の実施形態は、
前記利得ファクタが以下のように決定され、
g=c+ρ・(c-c
ただし
ρ = 前記オーディオ信号(504、802)についてのあらかじめ定義されたまたは計算される相関測度、
、c = 前記オーディオ信号(504、802)の前記1つまたは複数の入力チャネルの前記状態を示すファクタであり、cは、全体として無相関なチャネルを指し、cは、全体として相関するチャネルに関係する、
前記第5または第6の実施形態の方法を提供する。
第8の実施形態は、
およびcが以下のように決定され、
【数18】
【数19】
ただし
in = アクティブまたは固定ダウンミックスチャネルの数である、
前記第7の実施形態の方法を提供する。
第9の実施形態は、
前記利得ファクタが、複数のオーディオフレームにわたって低域フィルタ処理される、前記第5から第8の実施形態うちのいずれか一の方法を提供する。
第10の実施形態は、
前記利得ファクタが以下のように低域フィルタ処理され、
【数20】
【数21】
【数22】
ただし
= 前記低域フィルタの時定数
= フレームtにおけるオーディオフレーム
= 平滑化された利得ファクタ
k = フレームサイズ、および
= サンプリング周波数である、
前記第9の実施形態の方法を提供する。
第11の実施形態は、
前記スケーリングされた残響信号を生成することが、前記オーディオ信号(504、802)の相関分析を含む、前記第1から第10の実施形態のうちのいずれか一の方法を提供する。
第12の実施形態は、
前記オーディオ信号(504、802)の前記相関分析が、前記オーディオ信号(504、802)のオーディオフレームについて合成相関測度を決定することを含み、前記合成相関測度は、1つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され、各オーディオフレームは1つまたは複数のタイムスロットを含む、前記第11の実施形態の方法を提供する。
第13の実施形態は、
前記相関係数を合成することが、前記オーディオフレームの複数の相関係数を平均化することを含む、前記第12の実施形態の方法を提供する。
第14の実施形態は、
前記合成相関測度を決定することが、
(i) 前記1つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、
(ii) 前記対応するチャネルから前記平均値を減算することによってゼロ平均オーディオフレームを計算することと、
(iii) 複数のチャネル合成について前記相関係数を計算することと、
(iv) 前記合成相関測度を複数の相関係数の前記平均として計算することと
を含む、前記第11または第12の実施形態の方法を提供する。
第15の実施形態は、
チャネル合成についての前記相関係数が以下のように計算され、
【数23】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
i∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役である、
前記第11から第14の実施形態のうちのいずれか一の方法を提供する。
第16の実施形態は、
前記スケーリングされた残響信号の開始を前記室内インパルス応答(300)における初期反射から後期残響(304)への遷移点に一致させるように前記スケーリングされた残響信号を遅延させることを含む、前記第1から第15の実施形態のうちのいずれか一の方法を提供する。
第17の実施形態は、
前記オーディオ信号(504、802)の前記後期残響(304)を処理することが、前記オーディオ信号(504、802)をダウンミックスすることと、前記ダウンミックスされたオーディオ信号を残響器に印加することとを含む、前記第1から第16の実施形態のうちのいずれか一の方法を提供する。
第18の実施形態は、
コンピュータによって実行されているとき、前記第1から第17の実施形態のうちのいずれか一の方法を行うための命令を記憶したコンピュータ可読媒体を含む非有形コンピュータ製品を提供する。
第19の実施形態は、
オーディオ信号(504、802)を受信するための入力と、
室内インパルス応答(300)の初期部分(301、302)に従って前記受信されたオーディオ信号(504、802)を処理するための初期部分プロセッサと、
前記室内インパルス応答(300)の後期残響に従って前記受信されたオーディオ信号(504、802)を処理するための後期残響プロセッサであって、前記後期残響プロセッサが、スケーリングされた残響信号を生成するように構成され、前記スケーリングが、前記受信されたオーディオ信号(504、802)に依存する後期残響プロセッサと、
前記受信されたオーディオ信号(504、802)の前記処理された初期部分と前記スケーリングされた残響信号とを出力オーディオ信号に合成するための出力と
を備える、信号処理ユニットを提供する。
第20の実施形態は、
前記後期残響プロセッサが、
前記オーディオ信号(504、802)を受信し残響信号を生成する残響器と、
前記残響器の入力または出力に結合され利得ファクタによって制御される利得段と
を備える、前記第19の実施形態の信号処理ユニットを提供する。
第21の実施形態は、
前記オーディオ信号(504、802)に依存する前記利得ファクタを生成する相関分析器を備える、前記第20の実施形態の信号処理ユニットを提供する。
第22の実施形態は、
前記利得段に結合された低域フィルタと、
前記利得段と加算器との間に結合された遅延要素と
のうちの少なくとも1つをさらに備え、前記加算器は、前記初期部分プロセッサと前記出力とにさらに結合された、前記第20または第21の実施形態の信号処理ユニットを提供する。
第23の実施形態は、
前記第19から第22のうちのいずれか一の信号処理ユニットを備える、バイノーラルレンダラを提供する。
第24の実施形態は、
コーディングより前にオーディオ信号を処理するために前記第19から第22の実施形態のうちのいずれか一の信号処理ユニットまたは前記第23のバイノーラルレンダラ
を備える、前記オーディオ信号をコーディングするためのオーディオエンコーダを提供する。
第25の実施形態は、
復号されたオーディオ信号を処理するために前記第19から第22の実施形態のうちのいずれか一の信号処理ユニットまたは前記第23のバイノーラルレンダラ
を備える、符号化されたオーディオ信号を復号するためのオーディオデコーダを提供する。
上記で説明した実施形態は本発明の原理を例示するためのものにすぎない。本明細書で説明する構成および詳細の修正形態および変形形態は、他の当業者に明らかであることを理解されたい。したがって、本明細書の実施形態の記述および説明として提示される特定の詳細によっては限定されず、直下の特許請求の範囲によってのみ限定されることが意図される。
【手続補正書】
【提出日】2025-01-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
室内インパルス応答に従ってオーディオ信号を処理するための方法であって、前記室内インパルス応答は初期部分と後期残響とを含み、前記室内インパルス応答の前記後期残響は合成残響に置き換えられ、前記方法は、
前記室内インパルス応答の前記初期部分と前記合成残響とを用いて前記オーディオ信号を別々に処理することであって、前記合成残響を用いて前記オーディオ信号を処理することが、スケーリングされた残響信号を生成することを含み、前記スケーリングが前記オーディオ信号に依存する、処理することと、
前記室内インパルス応答の前記初期部分を用いて処理された前記オーディオ信号と前記スケーリングされた残響信号とを合成することと
を含み、
前記スケーリングされた残響信号を生成することは、
前記オーディオ信号のあらかじめ定義された相関測度に従って利得ファクタを設定することであって、前記あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定された固定値を有し、前記利得ファクタを前記残響信号に適用する、利得ファクタを設定すること、または
前記オーディオ信号の相関分析を使用して利得ファクタを取得し、前記利得ファクタを前記残響信号に適用すること、を含む、方法。
【請求項2】
前記スケーリングは、前記オーディオ信号の1つまたは複数の入力チャネルの状態に依存する、請求項1に記載の方法。
【請求項3】
前記オーディオ信号の前記1つまたは複数の入力チャネルの前記状態は、入力チャネルの数と、アクティブ入力チャネルの数と、前記入力チャネル中のアクティビティとのうちの1つまたは複数を含む、請求項2に記載の方法。
【請求項4】
前記利得ファクタは、前記オーディオ信号の1つまたは複数の入力チャネルの状態に基づいて決定される、請求項2または3に記載の方法。
【請求項5】
前記利得ファクタは以下のように決定され、
g=c+ρ・(c-c
ただし
ρ = 前記オーディオ信号についてのあらかじめ定義されたまたは計算される相関係数、
、c = 前記オーディオ信号の前記1つまたは複数の入力チャネルの前記状態を示すファクタであり、cは、全体として無相関なチャネルを指し、cは、全体として相関するチャネルに関係する、
請求項に記載の方法。
【請求項6】
およびcは以下のように決定され、
【数1】
【数2】
ただし
in = アクティブまたは固定ダウンミックスチャネルの数である、
請求項に記載の方法。
【請求項7】
前記利得ファクタは、複数のオーディオフレームにわたって低域フィルタ処理される、請求項4からのうちのいずれか一項に記載の方法。
【請求項8】
前記利得ファクタは以下のように低域フィルタ処理され、
【数3】
【数4】
【数5】
ただし
= 前記低域フィルタの時定数
= フレームtにおけるオーディオフレーム
= 平滑化された利得ファクタ
k = フレームサイズ、および
= サンプリング周波数である、
請求項に記載の方法。
【請求項9】
前記オーディオ信号の前記相関分析は、前記オーディオ信号のオーディオフレームについて合成相関測度を決定することを含み、前記合成相関測度は、1つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され、各オーディオフレームは1つまたは複数のタイムスロットを含む、請求項1から8のうちのいずれか一項に記載の方法。
【請求項10】
記相関係数を合成することは、前記1つのオーディオフレームの複数の相関係数を平均化することを含む、請求項に記載の方法。
【請求項11】
前記合成相関測度を決定することは、
(i) 前記1つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、
(ii) 応するチャネルから前記平均値を減算することによってゼロ平均オーディオフレームを計算することと、
(iii) 複数のチャネル合成について記相関係数を計算することと、
(iv) 前記合成相関測度を複数の相関係数の平均値として計算することと
を含む、請求項または10に記載の方法。
【請求項12】
チャネル合成についての前記それぞれの相関係数は以下のように計算され、
【数6】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
i∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役である、
請求項9から11のうちのいずれか一項に記載の方法。
【請求項13】
前記スケーリングされた残響信号の開始を前記室内インパルス応答における初期反射から後期残響への遷移点に一致させるように前記スケーリングされた残響信号を遅延させることを含む、請求項1から12のうちのいずれか一項に記載の方法。
【請求項14】
前記合成残響を用いて前記オーディオ信号を処理することは、前記オーディオ信号をダウンミックスすることと、前記ダウンミックスされたオーディオ信号を残響器に印加することとを含む、請求項1から13のうちのいずれか一項に記載の方法。
【請求項15】
コンピュータによって実行されているとき、請求項1から14のうちのいずれか一項に記載の方法を行うための命令を記憶したコンピュータ可読媒体。
【請求項16】
オーディオ信号を受信するための入力と、
室内インパルス応答の初期部分に従って前記受信されたオーディオ信号を処理するための初期部分プロセッサであって、前記室内インパルス応答は前記初期部分と後期残響とを含み、前記室内インパルス応答の前記後期残響は合成残響に置き換えられる、初期部分プロセッサと、
前記室内インパルス応答の前記合成残響に従って前記受信されたオーディオ信号を処理するための後期残響プロセッサであって、前記後期残響プロセッサが、スケーリングされた残響信号を生成するように構成され、前記スケーリングが、前記受信されたオーディオ信号に依存する後期残響プロセッサと、
前記受信されたオーディオ信号の前記処理された初期部分と前記スケーリングされた残響信号とを出力オーディオ信号に合成するための出力と
を備え
前記後期残響プロセッサは、
前記オーディオ信号のあらかじめ定義された相関測度に従って利得ファクタを設定することであって、前記あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定された固定値を有し、前記利得ファクタを前記残響信号に適用する、利得ファクタを設定すること、または
前記オーディオ信号の相関分析を使用して利得ファクタを取得し、前記利得ファクタを前記残響信号に適用すること、
によって、前記残響信号をスケーリングする、信号処理ユニット。
【請求項17】
前記オーディオ信号に依存する前記利得ファクタを生成する相関分析器を備える、請求項16に記載の信号処理ユニット。
【請求項18】
前記後期残響プロセッサは、
前記オーディオ信号を受信し残響信号を生成する残響器と、
前記残響器の入力または出力に結合され利得ファクタによって制御される利得段と
を備える、請求項16または17に記載の信号処理ユニット。
【請求項19】
前記利得段に結合された低域フィルタと、
前記利得段と加算器との間に結合された遅延要素と
のうちの少なくとも1つをさらに備え、前記加算器は、前記初期部分プロセッサと前記出力とにさらに結合された、請求項18に記載の信号処理ユニット。
【請求項20】
請求項16から19のうちのいずれか一項に記載の信号処理ユニットを備える、バイノーラルレンダラ。
【請求項21】
コーディングより前にオーディオ信号を処理するために請求項16から19のうちのいずれか一項に記載の信号処理ユニットまたは請求項20に記載のバイノーラルレンダラ
を備える、前記オーディオ信号をコーディングするためのオーディオエンコーダ。
【請求項22】
復号されたオーディオ信号を処理するために請求項16から19のうちのいずれか一項に記載の信号処理ユニットまたは請求項20に記載のバイノーラルレンダラ
を備える、符号化されたオーディオ信号を復号するためのオーディオデコーダ。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0059
【補正方法】変更
【補正の内容】
【0059】
以下で、本発明の手法の一実施形態についてさらに詳細に説明する。まず第1に、図7の相関分析プロセッサ524において使用された相関測度への参照が行われる。相関測度は、この実施形態によれば、以下のように、2つの変数X、Yの共分散をそれらの標準偏差の積で除算することによって計算されるピアソンの積率係数(相関係数としても知られる)に基づく。
【数7】
ただし
E{・} = 期待値演算子
ρ{X,Y} = 相関係数、
σ,σ = 変数X、Yの標準偏差
説明する実施形態によるこの処理は、時間周波数領域、例えばQMF領域における2次元に伝達される。この2次元はタイムスロットおよびQMF帯域である。データは時間-周波数領域中でしばしば符号化され、送信もされるので、この手法は妥当である。期待値演算子は、いくつかの時間および/または周波数サンプルにわたる平均演算と置換され、したがって、(0,1)の範囲内の2つのゼロ平均変数x、x間の時間周波数相関測度は以下のように定義される。
【数8】
ただし
ρ[m,n] = 相関係数、
σ(x[j]) = チャネルmの1つのタイムスロットjにわたる標準偏差、
σ(x[j]) = チャネルnの1つのタイムスロットjにわたる標準偏差、
,x = ゼロ平均変数、
j∀[1,N] = 周波数帯域、
j∀[1,M] = タイムスロット、
m,n∀[1,K] = チャネル、
* = 複素共役。
1つのオーディオフレームの複数のチャネル合成(m,n)についてのこの係数の計算の後に、ρ[m,n,t]の値は、複数の相関値ρ[m,n,t]の平均を取る(または複数の相関値ρ[m,n,t]を平均化する)ことによって単一の相関測度ρ(t)に合成される。オーディオフレームは32個のQMFタイムスロットを含み得、tはそれぞれのオーディオフレームを示すことに留意されたい。上記の処理は、1つのオーディオフレームについて以下のように要約され得る。
(i) 最初に、サイズ[N,M,K]を有するオーディオまたはデータフレームxのk個のチャネルごとの全体的な平均値
【数9】
が計算され、実施形態によれば、すべてのk個のチャネルは残響器の1つの入力チャネルにダウンミックスされる。
(ii) 対応するチャネルから値
【数10】
を減算することによってゼロ平均オーディオまたはデータフレームが計算される。
(iii) 複数のチャネル合成(m,n)のそれぞれについて、定義された相関係数ρ[m,n]が計算される。
(iv) (例えばゼロ除算によって誤って計算された値を除く)複数の相関係数ρ[m,n]の平均として平均相関値が計算される。