IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特開2024-1385532Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
<>
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図1
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図2
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図3
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図4
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図5
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図6
  • 特開-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024138553
(43)【公開日】2024-10-08
(54)【発明の名称】2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現を復号する方法および装置
(51)【国際特許分類】
   H04S 7/00 20060101AFI20241001BHJP
【FI】
H04S7/00 300
【審査請求】有
【請求項の数】3
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024117375
(22)【出願日】2024-07-23
(62)【分割の表示】P 2023051470の分割
【原出願日】2014-10-20
(31)【優先権主張番号】13290255.2
(32)【優先日】2013-10-23
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】110004381
【氏名又は名称】弁理士法人ITOH
(72)【発明者】
【氏名】ケイラー,フロリアン
(72)【発明者】
【氏名】ベーム,ヨハネス
(57)【要約】      (修正有)
【課題】既知の位置にあるL個のスピーカのための音場形式の符号化されたアンビソニックス形式のオーディオ表現を復号する方法及び装置を提供する。
【解決手段】方法は、少なくとも1つの仮想のスピーカの位置をL個のスピーカの位置に追加するステップ10と、L個のスピーカの位置

及び少なくとも1つの仮想の位置

を使用して、3D復号行列D’を生成するステップ11と、3D復号行列D’をダウンミキシングするステップ12と、ダウンスケーリングされた3D復号行列

を使用して符号化された高次アンビソニックス(HOA)オーディオ信号i14を復号するステップ14と、を含む。結果として、複数の復号されたL個のスピーカ信号q14が取得される。
【選択図】図1
【特許請求の範囲】
【請求項1】
アンビソニックス・オーディオ信号をレンダリングする方法であって、当該方法は:
L個のスピーカの位置の集合を受領する段階と;
前記L個のスピーカ位置の集合に一つまたは複数の仮想スピーカ位置
【数104】
を追加して、L2個のスピーカ位置の新しい集合を決定する段階と;
前記L2個のスピーカ位置の新しい集合についての第一のデコード行列を決定する段階と;
前記L個のスピーカ位置の集合についての第二のデコード行列を決定する段階であって、前記第二のデコード行列は、前記第一のデコード行列の少なくとも一つの係数に基づいて決定され、前記第二のデコード行列はさらに、前記一つまたは複数の仮想スピーカ位置
【数105】
についての少なくとも一つの係数を、重み付け因子g=1/√Lに基づいて重み付けして、分配することにさらに基づく、段階と;

前記第二のデコード行列の正規化に基づいてレンダリング行列を決定する段階であって、前記正規化はフロベニウス・ノルムに基づく、段階と;
前記アンビソニックス・オーディオ信号を前記レンダリング行列に基づいてレンダリングする段階と
を含む、
方法。
【請求項2】
コンピュータに動作を実行させるための実行可能命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記動作は:
L個のスピーカの位置の集合を受領する段階と;

前記L個のスピーカの位置の集合に一つまたは複数の仮想スピーカ位置
【数106】
を追加して、L2個のスピーカ位置の新しい集合を決定する段階と;
前記L2個のスピーカ位置の新しい集合についての第一のデコード行列を決定する段階と;
前記L個のスピーカ位置の集合についての第二のデコード行列を決定する段階であって、前記第二のデコード行列は、前記第一のデコード行列の少なくとも一つの係数に基づいて決定され、前記第二のデコード行列はさらに、前記一つまたは複数の仮想スピーカ位置
【数107】
についての少なくとも一つの係数を、重み付け因子g=1/√Lに基づいて重み付けして、分配することにさらに基づく、段階と;
前記第二のデコード行列の正規化に基づいてレンダリング行列を決定する段階であって、前記正規化はフロベニウス・ノルムに基づく、段階と;
前記アンビソニックス・オーディオ信号を前記レンダリング行列に基づいてレンダリングする段階と
を含む、
コンピュータ可読記憶媒体。
【請求項3】
アンビソニックス・オーディオ信号をレンダリングするための装置であって、当該装置は:
L個のスピーカの位置の集合を受領する受領器と;

前記L個のスピーカの位置の集合に一つまたは複数の仮想スピーカ位置
【数108】
を追加して、L2個のスピーカ位置の新しい集合を決定する第一のプロセッサと;
前記L2個のスピーカ位置の新しい集合についての第一のデコード行列を決定する第二のプロセッサと;
前記L個のスピーカ位置の集合についての第二のデコード行列を決定する第三のプロセッサであって、前記第二のデコード行列は、前記第一のデコード行列の少なくとも一つの係数に基づいて決定され、前記第二のデコード行列はさらに、前記一つまたは複数の仮想スピーカ位置
【数109】
についての少なくとも一つの係数を、重み付け因子g=1/√Lに基づいて重み付けして、分配することにさらに基づく、第三のプロセッサと;
前記第二のデコード行列の正規化に基づいてレンダリング行列を決定する第四のプロセッサであって、前記正規化はフロベニウス・ノルムに基づく、第四のプロセッサと;
前記アンビソニックス・オーディオ信号を前記レンダリング行列に基づいてレンダリングする第五のプロセッサと
を有する、装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2Dセットアップまたはnear-2Dセットアップを使用したオーディオ再生のためのアンビソニックス・オーディオ音場表現、特に、アンビソニックス形式のオーディオ表現を復号する方法および装置に関する。
【背景技術】
【0002】
正確な定位は、どのような空間的なオーディオ再生システムにとっても主要な目標である。このような再生システムは、会議システム、ゲーム、または、3Dサウンドの利点を享受する他の仮想環境にとってきわめて実用的である。3Dにおけるサウンド・シーンは、自然な音場として合成または捕捉することができる。例えば、アンビソニックスのような音場信号は、所望の音場の表現を担持する。音場表現から個々のスピーカ信号を取得するには、復号処理が必要である。アンビソニックス形式の信号の復号は、「レンダリング」とも称する。オーディオ・シーンを合成するには、所与の音源の空間的な定位を取得するために空間的なスピーカ配置を参照するパン関数が必要である。自然な音場を記録するためには、空間的な情報の捕捉にマイクロフォン・アレイが必要である。アンビソニックス手法は、これを成し遂げるために大変適したツールである。アンビソニックス形式の信号は、音場の球面調和分解に基づいて、所望の音場の表現を担持する。基本的なアンビソニックス形式またはB形式は、次数0および1の球面調和関数を使用するが、いわゆる高次アンビソニックス(HOA)は、少なくとも2次のさらなる球面調和関数も使用する。スピーカの空間的な配置は、スピーカ・セットアップと称する。復号処理のためには、復号行列(レンダリング行列とも称する)が必要であり、この行列は、所与のスピーカ・セットアップに特化したものであり、既知のスピーカの位置を使用して生成される。
【0003】
一般的に使用されているスピーカ・セットアップは、2つのスピーカを使用するステレオ・セットアップ、5つのスピーカを使用する標準サラウンド・セットアップ、5つより多くのスピーカを使用するサラウンド・セットアップの拡張である。しかしながら、これらのセットアップはよく知られているが、2次元(2D)に制約され、例えば、高さ情報は再現されない。高さ情報を再現することができる既知のスピーカ・セットアップに対するレンダリングは、音の定位および音色において欠点を有する。これらの欠点は、空間的に垂直なパンが極めて不均一なラウドネスで知覚されるか、スピーカ信号が強いサイドローブを有する点であり、これは、特に、中心から外れた位置で聴き取る際の欠点となる。したがって、スピーカに対するHOA音場の記述をレンダリングする際には、いわゆるエネルギー保存性を有するレンダリング設計が好ましい。これは、単一の音源をレンダリングする結果として、音源の方向とは独立して、一定のエネルギーのスピーカ信号が発生することを意味する。還元すれば、アンビソニックス表現によって保持される入力エネルギーは、スピーカ・レンダラーによって保存される。本発明者による国際公開特許公報第2014/012945号[文献1]は、3Dスピーカ・セットアップに対する良好なエネルギー保存性および定位の特性を有するHOAレンダラー設計について記載している。しかしながら、この手法は、全ての方向をカバーする3Dスピーカ・セットアップに対しては極めて良好に動作するものの、音源の方向の中には、(例えば、5.1サラウンドのような)2Dスピーカ・セットアップでは減衰するものがある。このことは、特に、スピーカが配置されてない、例えば、トップからの方向に当てはまる。
【0004】
F.ZotterおよびM.Frank著「All-Round Ambisonic Panning and Decoding(オールラウンドなアンビソニック・パンニングおよび復号処理)」[文献2]では、スピーカによって構築される凸包に穴が存在する場合には、「架空の」スピーカが追加される。しかしながら、その架空のスピーカに対する結果として得られる信号は、実際のスピーカでの再生が省略される。したがって、その方向(すなわち、実際のスピーカが配置されていない方向)からの音源信号が依然として減衰されることとなる。さらに、本文献は、VBAP(ベクトル・ベースの振幅パンニング)と共に使用される架空のスピーカの使用を開示するのみである。
【発明の概要】
【0005】
したがって、残っている課題は、スピーカが配置されていない方向からの音源の減衰がより少ないか、全く減衰しないようにする、2D(2次元)スピーカ・セットアップに対するエネルギー保存性を有するアンビソニックス・レンダラーを設計することにある。2Dスピーカ・セットアップは、スピーカの仰角が所定の小さな範囲(例えば、10°未満(<10°))で、水平面に近くなるものとして分類することができる。
【0006】
本明細書は、規則的または非規則的な、空間的なスピーカ配置に対するアンビソニックス形式の音場表現をレンダリング/復号処理するための解決法について記載し、そのレンダリング/復号処理は、高度に改善された定位特性および音色特性をもたらし、エネルギー保存性を有し、スピーカを利用可能でない方向からの音をもレンダリングする。スピーカを利用可能でない方向からの音は、スピーカが各方向で利用可能であると仮定した場合と概ね同様のエネルギーおよび知覚されるラウドネスでレンダリングされることは有利である。もちろん、その方向ではスピーカが利用可能でないため、これらの音源の正確な定位は可能ではない。
【0007】
特に、少なくとも幾つかの記載した実施形態は、HOA形式の音場データを復号するための復号行列を取得する新しい方法を提供する。少なくともHOA形式は、スピーカの位置とは直接関連していない音場を記述し、取得されるスピーカの信号は、必ずチャンネル・ベースのオーディオ形式であるため、HOA信号の復号は、常に、オーディオ信号のレンダリングに密接に関連している。原理的には、同じことが、他のオーディオの音場形式にも当てはまる。したがって、本開示内容は、音場に関連するオーディオ形式の復号およびレンダリングの両方に関連する。復号行列およびレンダリング行列の用語は、同意語として使用されている。
【0008】
良好なエネルギー保存特性を有する所与のセットアップに対する復号行列を取得するために、1つ以上の仮想のスピーカがスピーカを利用可能でない場所に追加される。例えば、2Dセットアップに対する改良された復号行列を取得するために、2つの仮想のスピーカがトップおよびボトムに追加される(トップおよびボトムは、概ね仰角0°で設置された2Dスピーカでは+90°および-90°の仰角に対応する。)。この仮想的な3Dスピーカ・セットアップのために、エネルギー保存特性を満たす復号行列が設計される。最後に、仮想のスピーカに対する復号行列からの重み係数は、2Dセットアップの実際のスピーカに対する一定利得とミキシングされる。
【0009】
一実施形態によれば、所与の組のスピーカに対するアンビソニックス形式のオーディオ信号をレンダリングまたは復号する復号行列(またはレンダリング行列)を生成し、その生成は、従来の方法を使用して、変更されたスピーカの位置を使用して、第1の予備復号行列を生成するステップであって、変更されたスピーカの位置が所与の組のスピーカのスピーカ位置および少なくとも1つの追加的な仮想のスピーカ位置を含む、上記生成するステップと、第1の予備復号行列をダウンミキシングするステップであって、上記少なくとも1つの追加的な仮想のスピーカに関連する係数が除かれ、所与の組のスピーカの、スピーカに関連する係数に分配される、上記ダウンミキシングするステップと、によって行われる。一実施形態においては、続いて、復号行列を正規化する後続するステップが行われる。結果として得られる復号行列は、所与の組のスピーカのためのアンビソニックス信号をレンダリングまたは復号するのに適しており、スピーカが存在しない位置からの音でさえも、正確な信号エネルギーで再生される。これは、改良された復号行列の構築によるものである。好ましくは、第1の予備復号行列はエネルギー保存性を有する。
【0010】
一実施形態においては、復号行列はL個の行およびO3D個の列を有する。行の数は2Dスピーカ・セットアップにおけるスピーカの数に対応し、列の数はO3D=(N+1)2に従ったHOA次数Nに依存するアンビソニックス係数O3Dの数に対応する。2Dスピーカ・セットアップに対する復号行列の係数の各々は、少なくとも第1の中間係数および第2の中間係数の合計である。第1の中間係数は、2Dスピーカ・セットアップの現在のスピーカの位置に対するエネルギー保存性を有する3D行列設計方法によって取得され、このエネルギー保存性を有する3D行列設計方法は、少なくとも1つの仮想のスピーカの位置を使用する。第2の中間係数は、少なくとも1つの仮想のスピーカの位置に対する上記エネルギー保存性を有する3D行列設計方法から取得された、重み係数gを乗算した係数によって取得される。一実施形態においては、重み係数gは
【数1】
に従って算出され、ここで、Lは2Dスピーカ・セットアップにおけるスピーカの数である。
【0011】
一実施形態においては、本発明は、上述した、または、請求の範囲に記載されたステップを含む方法をコンピュータに行わせるための実行可能な命令を記憶したコンピュータ読取可能な媒体に関する。この方法を利用する装置は、請求項9に開示されている。
【0012】
従属請求項、以下の説明および図面には、有利な実施形態が開示されている。
【0013】
本発明の例示的な実施形態が添付図面を参照して説明されている。
【図面の簡単な説明】
【0014】
図1】一実施形態に係る方法のフローチャートである。
図2】ダウンミキシング済みのHOA復号行列の例示的な構成を示した図である。
図3】スピーカの位置を取得、変更するためのフローチャートである。
図4】一実施形態に係る装置を示すブロック図である。
図5】従来の復号行列から結果的に生じるエネルギー分布を示した図である。
図6】実施形態に係る復号行列から結果的に生じるエネルギー分布を示した図である。
図7】複数の異なる周波数帯域に対する別個に最適化された復号行列の使用を示した図である。
【発明を実施するための形態】
【0015】
図1は、本発明の一実施形態に係るオーディオ信号、特に、音場信号を復号する方法のフローチャートを示している。音場信号の復号は、一般的には、オーディオ信号がレンダリングされるスピーカの位置を必要とする。L個のスピーカに対するこのようなスピーカの位置
【数2】
が本処理に入力される(i10)。なお、位置について言及する場合は、本明細書において、実際には、空間的な方向を意味する。すなわち、スピーカの位置は、その傾斜角θlおよび方位角φlによって定義され、これらの傾斜角θlおよび方位角φlを組み合わせてベクトル
【数3】
とする。そして、ステップ10において仮想のスピーカの少なくとも1つの位置を追加する。一実施形態においては、処理i10で入力される全てのスピーカの位置は2Dセットアップを構成するように概ね同一平面にあり、追加される少なくとも1つの仮想のスピーカはこの平面の外にある。一つの特に有利な実施形態においては、処理i10で入力される全てのスピーカの位置は概ね同一平面にあり、ステップ10において2つの仮想のスピーカの位置を追加する。2つの仮想のスピーカの有利な位置について以下に記載する。一実施形態においては、後述する式(6)に従って追加が行われる。追加するステップ10を行った結果として、一組のスピーカの角度
【数4】
が変更される(q10)。Lvirtは仮想のスピーカの数である。変更された一組のスピーカの角度は、3D復号行列設計ステップ11で使用される。さらに、HOAの次数N(一般的には音場信号の係数の次数)はステップ11に供給される必要がある(i11)。
【0016】
3D復号行列ステップ11は、3D復号行列を生成するための任意の既知の方法を実行する。好ましくは、3D復号行列は、エネルギー保存タイプの復号/レンダリングに適している。例えば、国際特許出願第EP2013/065034号明細書に記載された方法を使用することができる。3D復号行列設計ステップ11の結果として、L’=L+Lvirt個のスピーカ信号のレンダリングに適した復号行列またはレンダリング行列D’が得られる。ここで、Lvirtは、「仮想のスピーカの位置を追加する」ステップ10で追加された仮想のスピーカの位置の数である。
【0017】
L個のスピーカのみが物理的に利用可能であるため、3D復号行列設計ステップ11から結果的に生成される復号行列D’は、ダウンミキシングするステップ12においてL個のスピーカに適応するようにする必要がある。ステップ12では、復号行列D’のダウンミキシングを行い、ここで、仮想のスピーカに関連する係数が重み付けされ、既存のスピーカに関連する係数に分配される。好ましくは、任意の特定のHOA次数の係数(すなわち、復号行列D’の列)が重み付けされ、同一のHOA次数の係数(すなわち、復号行列D’の同一の列)に加算される。一例は、後述する式(8)に従ったダウンミキシングである。ダウンミキシングするステップ12の結果として、L個の行を有する、すなわち、復号行列D’よりも行の数が少ないが、復号行列D’と列の数が同じダウンミキシング済みの3D復号行列
【数5】
が生成される。換言すれば、復号行列D’の次元は、(L+Lvirt)×03Dであり、ダウンミキシング済みの3D復号行列
【数6】
の次元は、L×03Dである。
【0018】
図2は、HOA復号行列D’からのダウンミキシング済みのHOA復号行列
【数7】
の例示的な構成を示している。HOA復号行列D’は、L+2個の行を有し、これは、2つの仮想のスピーカの位置がL個の利用可能なスピーカの位置に追加されたものである。また、HOA復号行列D’は、O3D個の列を有する。ここで、O3Dは、=(N+1)2であり、Nは、HOAの次数である。ダウンミキシングするステップ12において、HOA復号行列D’の行L+1およびL+2の係数が重み付けされ、各々の列の係数に分配され、行L+1およびL+2が除かれる。例えば、行L+1およびL+2の各々の第1の係数d’L+1,1、およびd’L+2,1が重み付けされ、d’1,1などの各残りの行の第1の係数に追加される。ダウンミキシング済みのHOA復号行列
【数8】
から結果的に得られる係数
【数9】
は、d’1,1、d’L+1,1、d’L+2,1および重み係数gの関数である。同様に、例えば、ダウンミキシング済みのHOA復号行列
【数10】
から結果的に得られる係数
【数11】
は、d’2,1、d’L+1,1、d’L+2,1および重み係数gの関数であり、ダウンミキシング済みのHOA復号行列
【数12】
の結果として得られる係数
【数13】
は、d’1,2、d’L+1,2、d’L+2,2および重み付け係数gの関数である。
【0019】
通常、ダウンミキシング済みのHOA復号行列
【数14】
は、正規化ステップ13において正規化される。しかしながら、このステップ13は、音場信号の復号に非正規化された復号行列を使用することができるため、必要に応じて行われるものである。一実施形態においては、ダウンミキシング済みのHOA復号行列
【数15】
は、後述する式(9)に従って正規化される。正規化ステップ13の結果として、正規化されたダウンミキシング済みのHOA行列Dが生成され、このHOA復号行列Dは、ダウンミキシング済みのHOA復号行列
【数16】
と同じ次元L×O3Dを有する。
【0020】
次いで、正規化されたダウンミキシング済みのHOA復号行列Dは、音場復号ステップ14で使用され、ここで、入力音場信号i14が復号されてL個のスピーカ信号q14となる。通常、スピーカ・セットアップが変更されるまでは、正規化されたダウンミキシング済みのHOA復号行列Dは変更される必要はない。したがって、一実施形態においては、正規化されたダウンミキシング済みのHOA復号行列Dは、復号行列ストレージに記憶される。
【0021】
図3は、一実施形態において、どのようにスピーカの位置が取得され、変更されるかの詳細を示している。本実施形態は、L個のスピーカの位置
【数17】
および音場信号の係数の次数Nを特定するステップ101と、このL個のスピーカの位置からL個のスピーカが実質的に2D平面上にあると特定するステップ102と、仮想のスピーカの少なくとも1つの仮想の位置
【数18】
を生成するステップ103と、を含む。
【0022】
一実施形態においては、この少なくとも1つの仮想の位置
【数19】
は、
【数20】
および
【数21】
のうちの一方である。
【0023】
一実施形態においては、ステップ103において、2つの仮想のスピーカに対応する2つの仮想の位置
【数22】
および
【数23】
を生成する。ここで、
【数24】
および
【数25】
である。
【0024】
一実施形態によれば、既知の位置にあるL個のスピーカに対する符号化されたオーディオ信号を復号する方法は、このL個のスピーカの位置
【数26】
および音場信号の係数の次数Nを特定するステップ101と、こL個のスピーカの位置からL個のスピーカが実質的に2D平面にあると特定するステップ102と、仮想のスピーカの少なくとも1つの仮想の位置
【数27】
を生成するステップ103と、3D復号行列D’を生成するステップ11であって、そのL個のスピーカの特定された位置
【数28】
および少なくとも1つの仮想の位置
【数29】
が使用され、3D復号行列D’は、上記特定されたスピーカの位置および仮想のスピーカの位置に対する係数を有する、上記生成するステップ11と、3D復号行列D’をダウンミキシングするステップ12であって、仮想のスピーカの位置に対する係数が重み付けされ、その特定されたスピーカの位置に関連する係数に分配され、その特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数30】
が取得される、上記ダウンミキシングするステップ12と、そのダウンスケーリングされた3D復号行列
【数31】
を使用して符号化されたオーディオ信号i14を復号するステップ14であって、複数の復号されたスピーカ信号q14が取得される、上記復号するステップ14と、を含む。
【0025】
一実施形態においては、符号化されたオーディオ信号は音場信号であり、例えば、HOA形式の音場信号である。
【0026】
一実施形態においては、上記の仮想のスピーカの少なくとも1つの仮想の位置
【数32】
は、
【数33】
および
【数34】
のうちの一方である。
【0027】
一実施形態においては、上記の仮想のスピーカの位置に対する係数が重み係数
【数35】
を用いて重み付けされる。
【0028】
一実施形態においては、この方法は、ダウンスケーリング済みの3D復号行列
【数36】
を正規化するステップをさらに含み、正規化されたダウンスケーリング済みの3D復号行列Dが取得され、符号化されたオーディオ信号i14を復号する上記のステップ14は、正規化されたダウンスケーリング済みの3D復号行列Dを使用する。一実施形態においては、この方法は、ダウンスケーリング済みの3D復号行列
【数37】
または正規化されたダウンミキシング済みのHOA復号行列Dを復号行列ストレージに記憶するステップをさらに含む。
【0029】
一実施形態によれば、所与の組のスピーカに対する音場信号をレンダリングまたは復号する復号行列を生成する。この生成は、従来の方法を使用して、変更されたスピーカの位置を使用して、第1の予備復号行列を生成するステップであって、変更されたスピーカの位置が所与の組のスピーカのスピーカ位置および少なくとも1つの追加的な仮想のスピーカのスピーカ位置を含む、上記生成するステップと、第1の予備復号行列をダウンミキシングするステップであって、少なくとも1つの追加的な仮想のスピーカに関連する係数は除かれ、所与の組のスピーカのスピーカに関連する係数に分配される、上記ダウンミキシングするステップと、によって行われる。一実施形態においては、続いて、復号行列を正規化する以下のステップが行われる。結果として得られる復号行列は、所与の組のスピーカに対する音場信号をレンダリングまたは復号するのに適しており、スピーカが存在しない位置からの音でさえも、正確な信号エネルギーで再生される。これは、改良された復号行列の構成によるものである。好ましくは、第1の予備復号行列はエネルギー保存性を有する。
【0030】
図4a)は、一実施形態に係る装置のブロック図を示している。既知の位置にあるL個のスピーカに対する音場形式の符号化されたオーディオ信号を復号する装置400は、少なくとも1つの仮想のスピーカの少なくとも1つの位置をL個のスピーカの位置に追加する追加部410と、3D復号行列D’を生成する復号行列生成部411であって、そのL個のスピーカの位置
【数38】
および少なくとも1つの仮想の位置
【数39】
が使用され、3D復号行列D’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有し、3D復号行列D’をダウンミキシングする行列ダウンミキシング部412であって、仮想のスピーカに対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数40】
が取得される、上記行列ダウンミキシング部412と、ダウンスケーリングされた3D復号行列
【数41】
を使用して符号化されたオーディオ信号を復号する復号部414であって、複数の復号されたスピーカ信号が取得される、上記復号部414と、を含む。
【0031】
一実施形態においては、装置は、ダウンスケーリングされた3D復号行列
【数42】
を正規化する正規化部413をさらに含み、正規化されたダウンスケーリング済みの3D復号行列Dが取得され、復号部414は、正規化されたダウンスケーリング済みの3D復号行列を使用する。
【0032】
図4b)に示された一実施形態においては、装置は、L個のスピーカの位置(Ω)および音場信号の係数の次数Nを特定する第1の特定部4101と、このL個のスピーカの位置からL個のスピーカが実質的に2D平面にあると特定する第2の特定部4102と、仮想のスピーカの少なくとも1つの仮想の位置
【数43】
を生成する仮想スピーカ位置生成部4103と、を含む。
【0033】
一実施形態においては、装置は、符号化されたオーディオ信号を複数の周波数帯域に分離する帯域通過フィルタ715bを含み、711bで複数の分離された3D復号行列Db’(各周波数帯域に対して1つの分離された3D復号行列Db’)が生成され、712bで各3D復号行列Db’はダウンミキシングされ、さらに別個に正規化されてもよく、復号部714bは各周波数帯域毎に別個に復号する。本実施形態においては、装置は、各スピーカに対して1つ、複数の加算部716bをさらに含む。各加算部は、各々のスピーカに関連する周波数帯域を合計する。
【0034】
追加部410、復号行列生成部411、行列ダウンミキシング部412、正規化部413、復号部414、第1の特定部4101、第2の特定部4102、および仮想スピーカ位置生成部4103の各々の機能は、1つ以上のプロセッサによって実施され、これらの部の各々は、これらのうちの他の部、または、これらの部ではない他の部と同一のプロセッサを共有することがある。
【0035】
図7は、入力信号の複数の異なる周波数帯域に対して別個に最適化された復号行列を使用する実施形態を示している。本実施形態においては、復号方法は、符号化されたオーディオ信号を帯域通過フィルタを使用して複数の周波数帯域に分離するステップを含む。711bで複数の分離された3D復号行列Db’(各周波数帯域に対して1つの分離された3D復号行列Db’)が生成され、712bで各3D復号行列Db’は、ダウンミキシングされる。さらに別個に正規化されてもよい。714bで各周波数帯域に対して符号化されたオーディオ信号の復号が別個に行われる。これにより、人間の知覚における周波数依存差が考慮されるという利点が得られ、異なる周波数帯域に対して異なる復号行列が得られることとなる。一実施形態においては、1つのみ、あるいは複数の(全てではないが)復号行列を、上述したように、仮想のスピーカの位置を追加し、次いで、仮想のスピーカの位置の各々の係数を重み付けし、既存のスピーカの位置に対する係数に分配することによって、生成する。別の実施形態においては、各々の符号化行列を、上述したように、仮想のスピーカの位置を追加し、次いで、仮想のスピーカの位置の各々の係数を重み付けし、既存のスピーカの位置に対する係数に分配することによって、生成する。最後に、周波数帯域分割と逆の処理で、1つの周波数帯域加算部716bで同一のスピーカに関連する全ての周波数帯域を、スピーカ毎に、合計する。
【0036】
追加部410、復号行列生成部711b、行列ダウンミキシング部712b、正規化部713b、復号部714b、周波数帯域加算部716b、および帯域通過フィルタ部715bの各々は、1つ以上のプロセッサによって実施され、これらの機能部の各々は、これらのうちの他の機能部、または、これらの機能部ではない他の機能部と同一のプロセッサを共有することがある。
【0037】
本開示内容の一態様は、良好なエネルギー保存特性を有する2Dセットアップに対するレンダリング行列を取得するものである。一実施形態においては、2つのスピーカがトップおよびボトム(概ね仰角0°で設置された2Dスピーカでは+90°および-90°の仰角)に追加される。この仮想的な3Dスピーカ・セットアップに対して、エネルギー保存特性を満たすレンダリング行列が設計される。最後に、仮想のスピーカに対するレンダリング行列からの重み係数が2Dセットアップの実際のスピーカに対する一定(コンスタント)の利得とミキシングされる。
【0038】
以下において、アンビソニックス(特に、HOA)のレンダリングについて説明する。
【0039】
アンビソニックス・レンダリングは、アンビソニックス音場の記述からスピーカ信号を算出する処理である。これは、時には、アンビソニックス復号とも呼ばれる。次数Nの3Dアンビソニックス音場表現が考慮され、ここで、係数の数は、以下の式(1)の通りである。
3D=(N+1)2 (1)
【0040】
この時間サンプルtの係数は、O3D個の要素を有するベクトル
【数44】
によって表される。レンダリング行列
【数45】
を用いて、時間サンプルtに対するスピーカ信号は、以下の式(2)によって算出される。
w(t)=Db(t) (2)
ここで、
【数46】
および
【数47】
であり、Lはスピーカの数である。
【0041】
スピーカの位置は、各々の傾斜角θおよび方位角φによって定義され、これらの傾斜角θlおよび方位角φlを組み合わせてベクトル
【数48】
とする。聴取位置からの相異なるスピーカの距離は、スピーカ・チャンネルに対するそれぞれの遅延を使用することで補償される。
【0042】
HOA領域における信号エネルギーは、以下の式(3)によって与えられる。
E=bb (3)
ここで、は、複素共役転置を表している。スピーカ信号の対応するエネルギーは、以下の式(4)によって算出される。
【数49】
【0043】
エネルギー保存性のある復号/レンダリングを成し遂げるために、エネルギー保存性のある復号/レンダリング行列の比
【数50】
は一定(コンスタント)であるべきである。
【0044】
原理的には、改良された2Dレンダリングのための以下の拡張が提案される。2Dスピーカ・セットアップに対するレンダリング行列の設計のために、1つ以上の仮想のスピーカを追加する。2Dセットアップは、スピーカの仰角が所定の小さな範囲内にあり、水平面に近くなるものと考えられる。これは、以下の式(5)のように表現することができる。
【数51】
【0045】
通常、閾値θthres2dは、一実施形態においては、5°~10°の範囲にある値に対応するように選定される。
【0046】
レンダリング設計については、変更された組のスピーカ角度
【数52】
が定義される。最後の(この例においては、2つ)のスピーカの位置は、極座標系の南極および北極(垂直方向の、すなわち、トップおよびボトム)の2つの仮想のスピーカのものである。
【数53】
【0047】
そして、レンダリング設計のために使用されるスピーカの新しい数は、L’=L+2である。これらの変更されたスピーカの位置から、エネルギー保存手法を用いてレンダリング行列
【数54】
が設計される。例えば、[文献1]に記載された設計方法が使用される。次に、元のスピーカ・セットアップに対する最終的なレンダリング行列がD’から導出される。1つの考え方は、行列D’に定義されている仮想のスピーカの重み係数を実際のスピーカに対してミキシングすることである。固定された利得係数が使用され、これは、以下の式(7)のように選定される。
【数55】
【0048】
中間行列
【数56】
の係数(本明細書では、ダウンスケーリングされた3D復号行列とも呼ばれる)は、以下の式(8)のように定義される。
【数57】
ここで、
【数58】
は、l番目の行およびq番目の列における
【数59】
の行列要素である。必要に応じて最後のステップにおいては、中間行列(ダウンスケーリングされた3D復号行列)がフロベニウス・ノルムを使用して正規化してもよい。
【数60】
【0049】
図5および図6は、5.0サラウンド・スピーカ・セットアップに対するエネルギー分布を示している。両方の図において、エネルギーの値は、グレースケールとして示されており、丸印は、スピーカの位置を示している。開示されている方法を用いて、特に、トップ(ここでは示されていないが、さらに、ボトム)での減衰が減少しているのは明らかである。
【0050】
図5は、従来の復号行列から結果的に得られるエネルギー分布を示している。z=0平面の周りの小さな円は、スピーカの位置を表している。[-3.9,・・・,2.1]デジベル(dB)のエネルギー範囲がカバーされ、この結果として、エネルギー差が6dBとなることが分かる。さらに、単位球面のトップからの信号(さらに、図示されていないが、ボトム上の信号)は、ここではスピーカが利用可能でないため、極めて低エネルギーで再生され、すなわち、聴き取りができない。
【0051】
図6は、1つ以上の実施形態に係る復号行列から生ずるエネルギー分布を示している。図5の場合と同じ位置に同じ数のスピーカが存在する。少なくとも以下の利点がもたらされる。第1に、[-1.6,・・・,0.8]デジベル(dB)のより小さなエネルギー範囲がカバーされ、この結果として、エネルギー差がより小さくなり、2.4dBのみとなる。第2に、単位球面の全ての方向からの信号は、ここにスピーカが存在しない場合であっても、それぞれの正確なエネルギーを用いて再生される。これらの信号は、利用可能なスピーカを通じて再生されるため、それぞれの定位は正確ではない。しかしながら、信号は、正しいラウドネスで聴き取り可能である。この例において、トップからの信号およびボトム上の信号(図示せず)は、改良された復号行列を用いた復号によって聴き取りできるようになる。
【0052】
一実施形態においては、既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法は、少なくとも1つの仮想のスピーカの少なくとも1つの位置をL個のスピーカの位置に追加するステップと、3D復号行列D’を生成するステップであって、そのL個のスピーカの位置
【数61】
および少なくとも1つの仮想の位置
【数62】
が使用され、その3D復号行列D’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記生成するステップと、3D復号行列D’をダウンミキシングするステップであって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数63】
が取得される、上記ダウンミキシングするステップと、ダウンスケーリングされた3D復号行列
【数64】
を使用して符号化されたオーディオ信号を復号するステップであって、複数の復号されたスピーカ信号が取得される、上記復号するステップと、を含む。
【0053】
別の実施形態においては、既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置は、少なくとも1つの仮想のスピーカの少なくとも1つの位置をL個のスピーカの位置に追加する追加部410と、3D復号行列D’を生成する復号行列生成部411であって、L個のスピーカの位置
【数65】
および少なくとも1つの仮想の位置
【数66】
が使用され、その3D復号行列D’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記復号行列生成部411と、3D復号行列D’をダウンミキシングするダウンミキシング部412であって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数67】
が取得される、上記ダウンミキシング部412と、ダウンスケーリングされた3D復号行列
【数68】
を使用して符号化されたオーディオ信号を復号する復号部414であって、複数の復号されたスピーカ信号が取得される、上記復号部414と、を含む。
【0054】
さらに別の実施形態においては、既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置は、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含み、そのメモリは命令を記憶し、その命令がプロセッサ上で実行されると、プロセッサは、少なくとも1つの仮想のスピーカの少なくとも1つの位置をL個のスピーカの位置に追加する追加部410と、3D復号行列D’を生成する復号行列生成部411であって、L個のスピーカの位置
【数69】
および少なくとも1つの仮想の位置
【数70】
が使用され、3D復号行列D’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記復号行列生成部411と、3D復号行列D’をダウンミキシングする行列ダウンミキシング部412であって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数71】
が取得される、上記行列ダウンミキシング部412と、ダウンスケーリングされた3D復号行列
【数72】
を使用して符号化されたオーディオ信号を復号する復号部414であって、複数の復号されたスピーカ信号が取得される、上記復号部414と、の機能を実現する。
【0055】
さらに別の実施形態においては、コンピュータ読取可能な記憶媒体は、既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法をコンピュータに実行させるための実行可能な命令を記憶し、この方法は、少なくとも1つの仮想のスピーカの少なくとも1つの位置をL個のスピーカの位置に追加するステップと、3D復号行列D’を生成するステップであって、L個のスピーカの位置
【数73】
および少なくとも1つの仮想の位置
【数74】
が使用され、その3D復号行列D’が上記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、上記生成するステップと、その3D復号行列D’をダウンミキシングするステップであって、仮想のスピーカの位置に対する係数が重み付けされ、特定されたスピーカの位置に関連する係数に分配され、特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数75】
が取得される、上記ダウンミキシングするステップと、ダウンスケーリングされた3D復号行列
【数76】
を使用して符号化されたオーディオ信号を復号するステップであって、複数の復号されたスピーカ信号が取得される、上記復号するステップと、を含む。コンピュータ読取可能な記憶媒体のさらなる実施形態は、上述した特徴事項、特に、請求項1に従属する従属請求項に開示された特徴事項を任意に含むことができる。
【0056】
本発明は、純粋に、例示的な目的で説明されているが、本発明の範囲を逸脱することなく、詳細な事項を変更することが可能である。例えば、HOAに関してのみ説明しているが、本発明は、他の音場オーディオ形式にも適用することができる。
【0057】
明細書、(該当する場合には)請求項、および図面に開示された各構成要素は、独立して設けてもよく、任意に適切に組み合わせて設けてもよい。構成要素は、適宜、ハードウェア、ソフトウェア、または、ハードウェアおよびソフトウェアの両方を組み合わせて実施することができる。請求項に存在する参照符号は例示的な目的のみで記載されており、請求項に係る範囲に限定的な影響を与えるものではない。
【0058】
引用した参考文献は、以下の通りである。
[文献1] 国際特許公開公報第2014/012945号(PD120032)
[文献2] F.ZotterおよびM.Frank著「All-Round Ambisonic Panning and Decoding(オールラウンドなアンビソニック・パンニングおよび復号処理)」、オーディオ技術者協会ジャーナル、2012年、第60巻、807-820頁
【0059】
いくつかの態様を記載しておく。
〔態様1〕
既知の位置にあるL個のスピーカに対するアンビソニックス形式の符号化されたオーディオ信号を復号する方法であって、
-少なくとも1つの仮想のスピーカの少なくとも1つの位置を前記L個のスピーカの位置に追加するステップ(10)と、
-3D復号行列(D’)を生成するステップ(11)であって、前記L個のスピーカの位置
【数77】
および前記少なくとも1つの仮想の位置
【数78】
が使用され、前記3D復号行列(D’)が前記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、前記生成するステップ(11)と、
-前記3D復号行列(D’)をダウンミキシングするステップ(12)であって、前記仮想のスピーカの位置に対する係数が重み付けされ、前記特定されたスピーカの位置に関連する係数に分配され、前記特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数79】
が取得される、前記ダウンミキシングするステップ(12)と、
-前記ダウンスケーリングされた3D復号行列
【数80】
を使用して前記符号化されたオーディオ信号(i14)を復号するステップ(14)であって、複数の復号されたスピーカ信号(q14)が取得される、前記復号するステップ(14)と、
を含む、前記方法。
〔態様2〕
前記仮想のスピーカの位置に対する前記係数が重み係数
【数81】
を用いて重み付けされ、Lはスピーカの数である、態様1に記載の方法。
〔態様3〕
仮想のスピーカの前記少なくとも1つの仮想の位置
【数82】
は、
【数83】
および
【数84】
のうちの一方である、態様1または2に記載の方法。
〔態様4〕
フロベニウス・ノルムを使用して前記ダウンスケーリング済みの3D復号行列
【数85】
を正規化するステップ(13)をさらに含み、正規化されたダウンスケーリング済みの3D復号行列(D)が取得され、前記符号化されたオーディオ信号を復号するステップ(14)は、前記正規化されたダウンスケーリング済みの3D復号行列(D)を使用する、態様1~3のいずれか1項に記載の方法。
〔態様5〕
前記正規化が
【数86】
に従って行われる、態様4に記載の方法。
〔態様6〕
-前記L個のスピーカの位置
【数87】
および音場信号の係数の次数Nを特定するステップ(101)と、
-前記位置から前記L個のスピーカが実質的に2D平面にあると特定するステップ(102)と、
-仮想のスピーカの少なくとも1つの仮想の位置
【数88】
を生成するステップ(103)と、
をさらに含む、態様1~5のいずれか1項に記載の方法。
〔態様7〕
前記符号化されたオーディオ信号を帯域通過フィルタを使用して複数の周波数帯域に分離するステップをさらに含み、各周波数帯域に対して1つの、複数の別個の3D復号行列(Db’)が生成され(711b)、各3D復号行列(Db’)はダウンミキシングされ(712b)、必要に応じて別個に正規化され(713b)、前記符号化されたオーディオ信号(i14)を復号するステップ(714b)は各周波数帯域に対して別個に行われる、態様1~6のいずれか1項に記載の方法。
〔態様8〕
前記既知のL個のスピーカの位置は、概ね1つの2D平面内にあり、仰角が10°以下である、態様1~7のいずれか1項に記載の方法。
〔態様9〕
既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する装置であって、
-少なくとも1つの仮想のスピーカの少なくとも1つの位置を前記L個のスピーカの位置に追加する追加部(410)と、
-3D復号行列(D’)を生成する復号行列生成部(411)であって、前記L個のスピーカの位置
【数89】
および前記少なくとも1つの仮想の位置
【数90】
が使用され、前記3D復号行列(D’)が前記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、前記復号行列生成部(411)と、
-前記3D復号行列(D’)をダウンミキシングする行列ダウンミキシング部(412)であって、前記仮想のスピーカの位置に対する係数が重み付けされ、前記特定されたスピーカの位置に関連する係数に分配され、前記特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数91】
が取得される、前記行列ダウンミキシング部(412)と、
-前記ダウンスケーリングされた3D復号行列
【数92】
を使用して前記符号化されたオーディオ信号(i14)を復号する復号部(414)であって、複数の復号されたスピーカ信号(q14)が取得される、前記復号部(414)と、
を備える、前記装置。
〔態様10〕
フロベニウス・ノルムを使用して前記ダウンスケーリングされた3D復号行列
【数93】
を正規化する正規化部(413)をさらに含み、
正規化されたダウンスケーリング済みの3D復号行列(D)が取得され、前記復号部(414)は、前記正規化されたダウンスケーリング済みの3D復号行列(D)を使用する、態様9に記載の装置。
〔態様11〕
-前記L個のスピーカの位置
【数94】
および音場信号の係数の次数Nを特定する第1の特定部(101)と、
-前記位置から前記L個のスピーカが概ね2D平面にあると特定する第2の特定部(102)と、
-仮想のスピーカの少なくとも1つの仮想の位置
【数95】
を生成する仮想スピーカ位置生成部(103)と、
をさらに含む、態様9または10に記載の装置。
〔態様12〕
前記符号化されたオーディオ信号を複数の周波数帯域に分離する複数の帯域通過フィルタ(715b)をさらに含み、各周波数帯域に対して1つ、複数の別個の3D復号行列(Db’)が生成され(711b)、各3D復号行列(Db’)は、ダウンミキシングされ(712b)、必要に応じて別個に正規化され(713b)、前記符号化されたオーディオ信号(i14)を復号する部(714b)は、各周波数帯域を別個に復号する、態様9~11のいずれか1項に記載の装置。
〔態様13〕
既知の位置にあるL個のスピーカのためのアンビソニックス形式の符号化されたオーディオ信号を復号する方法をコンピュータに行わせるための実行可能な命令を記憶したコンピュータ読取可能な記憶媒体であって、前記方法は、
-少なくとも1つの仮想のスピーカの少なくとも1つの位置を前記L個のスピーカの位置に追加するステップ(10)と、
-3D復号行列(D’)を生成するステップ(11)であって、前記L個のスピーカの位置
【数96】
および前記少なくとも1つの仮想の位置
【数97】
が使用され、前記3D復号行列(D’)が前記特定されたスピーカおよび仮想のスピーカの位置に対する係数を有する、前記生成するステップ(11)と、
-前記3D復号行列(D’)をダウンミキシングするステップ(12)であって、前記仮想のスピーカの位置に対する係数が重み付けされ、前記特定されたスピーカの位置に関連する係数に分配され、前記特定されたスピーカの位置に対する係数を有するダウンスケーリングされた3D復号行列
【数98】
が取得される、前記ダウンミキシングするステップ(12)と、
-前記ダウンスケーリングされた3D復号行列
【数99】
を使用して前記符号化されたオーディオ信号(i14)を復号するステップ(14)であって、複数の復号されたスピーカ信号(q14)が取得される、前記復号するステップ(14)と、
を含む、前記コンピュータ読取可能な記憶媒体。
〔態様14〕
前記仮想のスピーカの位置に対する前記係数が重み係数
【数100】
を用いて重み付けされ、Lは、スピーカの数である、態様13に記載のコンピュータ読取可能な記憶媒体。
〔態様15〕
仮想のスピーカの前記少なくとも1つの仮想の位置
【数101】
は、
【数102】
および
【数103】
のうちの一方である、態様13または14に記載のコンピュータ読取可能な記憶媒体。
図1
図2
図3
図4
図5
図6
図7
【外国語明細書】