(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-07-10
(45)【発行日】2023-07-19
(54)【発明の名称】直接成分補償を用いたDirACベースの空間音声符号化に関する符号化、復号化、シーン処理および他の手順を行う装置、方法およびコンピュータプログラム
(51)【国際特許分類】
G10L 19/008 20130101AFI20230711BHJP
【FI】
G10L19/008 200
(21)【出願番号】P 2021532192
(86)(22)【出願日】2019-12-06
(86)【国際出願番号】 EP2019084055
(87)【国際公開番号】W WO2020115310
(87)【国際公開日】2020-06-11
【審査請求日】2021-08-10
(32)【優先日】2018-12-07
(33)【優先権主張国・地域又は機関】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】フックス ギヨーム
(72)【発明者】
【氏名】ティールガルト オリヴァー
(72)【発明者】
【氏名】コルセ スリカンス
(72)【発明者】
【氏名】デーラ シュテファン
(72)【発明者】
【氏名】ムルトゥルス マルクス
(72)【発明者】
【氏名】キュッヒ ファビアン
(72)【発明者】
【氏名】ブテオン アレキサンドレ
(72)【発明者】
【氏名】アイヒェンシーア アンドレア
(72)【発明者】
【氏名】バイヤー シュテファン
【審査官】菊地 陽一
(56)【参考文献】
【文献】国際公開第2017/157803(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/008
(57)【特許請求の範囲】
【請求項1】
少なくとも2つのチャンネルを含む入力信号から音場記述を生成する装置であって、
前記入力信号から
指向性データおよび拡散データを得るための入力信号分析器(600)と、
前記入力信号から導出される全方位成分についての第1
のエネルギーまたは振幅関連尺度を推定し、前記入力信号から導出される指向性成分についての第2のエネルギーまたは振幅関連尺度を推定するための推定器(620)と、
前記音場
記述の音場成分を生成するための音場成分生成器(750)であって、前記音場成分生成器
(750)は、前記第1のエネルギーまたは振幅関連尺度、前記第2のエネルギーまたは振幅関連尺度、前記
指向性データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成される、音場成分生成器(750)と、
を備える装置。
【請求項2】
前記入力信号は少なくとも2つのチャンネルを備え、前記推定器(620)は、前記少なくとも2つのチャンネルの加算を用いて前記全方位成分を算出し、前記少なくとも2つのチャンネルの減算を用いて前記指向性成分を算出するように構成される(815)、請求項1に記載の装置。
【請求項3】
前記入力信号は前記全方位成分と1つ以上の指向性成分とを含み、前記推定器(620)は、前記入力信号を用いて前記全方位成分についての前記第1の振幅関連尺度を算出し、前記入力信号から前記1つ以上の指向性成分のそれぞれについての第2のエネルギーまたは振幅関連尺度を算出するように構成される、請求項1に記載の装置。
【請求項4】
前記入力信号は、少なくとも2つのチャンネルを有するAフォーマットまたはBフォーマットの表現を含み、前記推定器(620)は、前記少なくとも2つのチャンネルの加重線形結合を用いて前記全方位成分および前記指向性成分を導出(816)するように構成される、請求項1に記載の装置。
【請求項5】
前記入力信号分析器(600)は、前記入力信号に関連付けられたメタデータから前記拡散データを抽出する、または、少なくとも2つのチャンネルまたは成分を有する前記入力信号の信号分析(610、620)によって、前記入力信号から前記拡散データを抽出するように構成される、請求項1ないし4の1項に記載の装置。
【請求項6】
前記推定器(620)は、複素振幅の絶対値、または1以上5未満、または2もしくは3に等しい累乗まで引き上げられた大きさから、前記第1のエネルギーまたは振幅関連尺度または前記第2のエネルギーまたは振幅関連尺度を計算するように構成される、請求項1ないし5の1項に記載の装置。
【請求項7】
前記音場成分
生成器(750)は、前記エネルギー補償を行うためのエネルギー補償
器を備え、前記エネルギー補償器は、前記第1のエネルギーまたは振幅関連尺度、前記第2のエネルギーまたは振幅関連尺度、前記
指向性データおよび前記拡散データを用いて補償ゲインを計算するための補償ゲイン計算
機(91
0)を備える、請求項1ないし6の1項に記載の装置。
【請求項8】
前記音場成分生成器(750)は、前記
指向性データから指向性ゲインを計算し(410
)、前記指向性ゲインと前記拡
散データとを結合
して前記エネルギー補償を実行す
るように構成される、請求項1ないし7の1項に記載の装置。
【請求項9】
前記推定器(620)は、第1の指向性成分のための前記第2のエネルギーまたは振幅関連尺度および第2の指向
性成分のための第3のエネルギーまたは振幅関連尺度を推定し、前記第1および
前記第2のエネルギーまたは振幅関連尺度を用いて前記第1の指向性成分のための第1の補償ゲインを計算し、前記第1および前記第3のエネルギーまたは振幅関連尺度を用いて前記第2の指向性成分のための第2の補償ゲインを計算するように構成される、請求項1ないし8の1項に記載の装置。
【請求項10】
前記補償ゲイン計算機(91
0)は、前記拡散データと、第2グループにおける音場成分の数、第1グループの音場成分の最大次数、および前記第2グループの音場成分の最大数のうちの少なくとも1つとに応じて、第1のゲイン係数を計算
し、前記全方位成分のための第1のエネルギーまたは振幅関連尺度、前記指向性成分のための第2のエネルギーまたは振幅関連尺度、前記
指向性データおよび前記拡散データに依存して第2のゲイン係数を計算
し、前記第1のゲイン係数および前記第2のゲイン係数を用いて前記補償ゲインを計算す
るように構成され、
前記音場成分生成器(750)は、前記第1の補償ゲインおよび前記第2の補償ゲインを算出するためには、同じ
指向性データおよび拡散データを使用するように構成される、
請求
項9に記載の装置。
【請求項11】
【請求項12】
前記補償ゲイン計算機(910)は、
第1のエネルギーまたは振幅関連尺度の増加に伴って前記補償ゲインを増加させる、または
第2のエネルギーまたは振幅関連尺度の増加に伴って前記補償ゲインを減少させる、または
増加する
指向性ゲインを使用して前記補償ゲインを増加させる、または
指向性成分の数の減少に伴って前記補償ゲインを増加させる、
ように構成される、請求項7ないし11の1項に記載の装置。
【請求項13】
前記音場成分生成器(750)は、前記入力信号から、音場成分ごとに直接成分および拡散成分を有する第1の音場成分グループの1つ以上の音場成分を生成し、直接成分のみを有する第2の音場成分グループを前記入力信号から生成する
ように構成され、
前記補償ゲイン計算機(910)は、前記拡散データと、前記第2の音場成分グループにおける音場成分の数、前記第1の音場成分グループにおける拡散成分の数、前記第1の音場成分グループの音場成分の最大次数、および前記第2の音場成分グループの音場成分の最大次数のうちの少なくとも1つとを用いて、前記補償ゲインを計算するように構成される、
請求項7ないし12の1項に記載の装置。
【請求項14】
前記補償ゲイン計算機(91
0)は、固定された最大閾値または固定された最小閾値
での制限を用いて、あるいは低いまたは高いゲイン係数を中程度のゲイン係数に向けて圧縮するための圧縮関数を用いて、ゲイン係数操
作を実行して、前記補償ゲインを得るように構成される、請求項7ないし13の1項に記載の装置。
【請求項15】
前記音場成分生成器(750)は、他の次数の他の音場成分を生成するように構成され、結合器(430)が、前記音場
記述の前記音場成分と前記他の次数の他の音場成分とを結合して、前記入力信号の次数よりも次数が高い
前記音場記述を得るように構成される、請求項1ないし14の1項に記載の装置。
【請求項16】
前記エネルギー補償器(91
0)は、前記補償ゲインを少なくとも1つの音場成分に適用するための補償ゲインアプリケー
タを備える、請求項7ないし15の1項に記載の装置。
【請求項17】
前記音場成分生成器(750)は、既定の次数および既定のモードまでの低次音場記述を前記入力信号から生成するための低次成分生成器(810)を備え、前記低次成分生成器(810)は、前記入力信号をコピーもしくは取り込むこと、または前記入力信号の前記チャンネルの加重結合を形成することによって、前記低次音場記述を導出するように構成され、
前記低次音場記述は、前記コピーもしくは前記取り込み、また
は線形結合によって生成された前記全方位成分
および前記指向性成分を含む、請求項1ないし16の1項に記載の装置。
【請求項18】
前記音
場成分発生器(750)は、
中次音場記述が直接寄与および拡散寄与を含むように、前記
指向性データおよび前記拡散データを使用して、前記既定の次数より上または前記既定の次数、且つ前記既定のモードよりも上で、少なくとも1つの直接部分と少なくとも1つの拡散部分との合成を使用した第1の打ち切り次数の下または前記第1の打ち切り次数の前記中次音場記述を生成するための中間成分生成器(820)と、
少なくと
も1つの直接部分の合成を使用して、前記第1の打切り次数より上の成分を有する高次音場記述を生成するための高次成分生成器(830)であって、前記高次音場記述は直接寄与のみを含む、高次成分生成器
(830)と、
をさらに備える、請求項17に記載の装置。
【請求項19】
係数の次数lまでの第1の音場成分グループと、係数の次数
がl
を越える第2の音場成分グループとが互いに直交している、あるいは、前記音場成分は、直交基底関数の係数、空間基底関数の係数、球面または円形調和関数の係数、およびアンビソニックス係数のうちの少なくとも1つである、請求項1ないし18の1項に記載の装置。
【請求項20】
複数の異なる時間-周波数タイルに対して1つ以上の前記音場成分を生成するための分析フィルタバンク(400)であって、前記入力信号分析器(600)は各時間-周波数タイルについて拡散データ項目を取得するように構成され、前記音場成分生成器(750)は各時間-周波数タイルについて個別に前記エネルギー補償を実行するように構成される分析フィルタバンク(400)をさらに備える、請求項1ないし19の1項に記載の装置。
【請求項21】
少なくとも2つのチャンネルを含む入力信号から音場記述を生成する方法であって、
前記入力信号から
指向性データおよび拡散データを取得するステップと、
前記入力信号から導出される全方位成分のための第1のエネルギーまたは振幅関連尺度を推定し、前記入力信号から導出される指向性成分のための第2のエネルギーまたは振幅関連尺度を推定するステップと、
前記音場
記述の音場成分を生成するステップであって、前
記生成
するステップは、前記第1のエネルギーまたは振幅関連尺度、前記第2のエネルギーまたは振幅関連尺度、前記
指向性データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成されるステップと、
を含む方法。
【請求項22】
コンピュータまたはプロセッサ上で実行されるとき
に、請求項21に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本願発明は、音声符号化を対象とするものであり、特に、1つ以上の音響成分発生器を用いて入力信号から音場記述を生成することに関するものである。
【背景技術】
【0002】
指向性音声符号化(Directional Audio Coding;DirAC)技術[1]は、空間音響の分析と再生を効率的に行うためのアプローチである。DirACでは、周波数帯域ごとに測定された到来方位(DOA)と拡散とに基づいて、音場の知覚的に動機付けられた表現を使用する。DirACは、ある時点とある重要な周波数帯域において、聴覚システムの空間分解能は、方位についての1つの手がかりと両耳間コヒーレンスを示す別の手がかりを解読することに限定されるという仮定に基づいて構築されている。空間音響は、無指向性拡散ストリームと指向性非拡散ストリームとの2つのストリームをクロスフェードさせることで、周波数領域で表現される。
【0003】
DirACは本来、Bフォーマットの音を録音することを目的としているが、5.1のような特定のスピーカのセットアップに合わせたマイク信号[2]や、任意の構成のマイクアレイ[5]にも拡張できる。最新のケースでは、特定のスピーカのセットアップに合わせて信号を録音するのではなく、中間フォーマットの信号を録音することで,より柔軟性を高めることができる。
【0004】
このような中間フォーマットは、実際に確立されており、(高次の)アンビソニックス(Ambisonics)により表現される[3]。アンビソニックス信号からは、ヘッドフォン再生のためのバイノーラル信号を含む、あらゆる所望のスピーカのセットアップの信号を生成することができる。そのためには、アンビソニックス信号に適用される特定のレンダラが必要であり、リニアなアンビソニックスレンダラ[3]や指向性オーディオ符号化(DirAC)のようなパラメトリックレンダラが使用される。
【0005】
アンビソニックス信号は、マルチチャンネル信号として表現でき、各チャンネル(アンビソニックス成分と呼ばれる)は、いわゆる空間基底関数の係数に相当する。これら空間基底関数の加重和(重みは係数に対応)により、録音場所の元の音場を再現することができる[3]。したがって、空間基底関数の係数(すなわち、アンビソニックス成分)は、録音場所における音場をコンパクトに記述したものである。空間基底関数には、球面調和関数(SH)[3]や円筒調和関数(CH)[3]などのさまざまな種類がある。CHは、2次元空間の音場を記述する場合(2次元音の再生など)に、一方、SHは、2次元および3次元空間の音場を記述する場合(2次元および3次元音の再生など)に使用することができる。
【0006】
【0007】
DirACはすでに、1次アンビソニックス信号(Bフォーマットと呼ばれるFOA)やさまざまなマイクアレイから高次のアンビソニックス信号を配信するために拡張されている[5]。本明細書では、DirACのパラメータと基準信号から高次アンビソニックス信号をより効率的に合成する方法に焦点を当てている。本明細書では、ダウンミックス信号とも呼ばれる基準信号は、高次アンビソニックス信号のサブセット、またはアンビソニックス成分のサブセットの線形結合と見なされる。
【0008】
さらに、本発明では、オーディオシーンのパラメトリック形式の伝送にDirACを使用する場合を考える。この場合、ダウンミックス信号は従来のオーディオコアエンコーダで符号化され、DirACのパラメータはサイド情報として圧縮されて伝送される。本方式の利点は、音声符号化の際に発生する量子化誤差を考慮できることである。
【0009】
以下では、IVAS(Immersive Voice and Audio Services;没入型音声及びオーディオサービス)のために設計されたDirACをベースにした空間音声符号化システムの概要を紹介する。これは、DirAC 空間オーディオコーダのシステム概要のようなさまざまなコンテキストの1つを表す。このようなシステムの目的は、オーディオシーンを表現する様々な空間オーディオフォーマットを扱い、それらを低ビットレートで符号化し、送信後に元のオーディオシーンを可能な限り忠実に再現することである。
【0010】
このシステムは、オーディオシーンの様々な表現を入力として受け入れることができる。入力されるオーディオシーンは、様々なスピーカ位置で再生されることを目的としたマルチチャンネル信号、時間経過に伴うオブジェクトの位置を記述したメタデータを伴った聴覚オブジェクト、またはリスナーまたは参照位置における音場を表現する1次または高次アンビソニックスフォーマットによってキャプチャすることができる。
【0011】
このソリューションは、モバイルネットワーク上での会話サービスを可能にするために低遅延で動作することが期待されているため、このシステムは3GPPのEVS(Enhanced Voice Services;拡張音声サービス)をベースにしていることが好ましい。
【0012】
図1bに示すように、エンコーダ(IVASエンコーダ)は、システムに提示されるさまざまなオーディオフォーマットを別々に、または同時にサポートすることができる。音声信号には、マイクで拾う本質的に音響的なものと、スピーカに送ることになる本質的に電気的なものとがある。サポートされるオーディオフォーマットは、マルチチャンネル信号、1次および高次アンビソニックス成分、およびオーディオオブジェクトである。複雑なオーディオシーンは、異なる入力フォーマットを組み合わせて記述することもできる。すべてのオーディオフォーマットはDirAC分析に送られ、DirAC分析はオーディオシーン全体のパラメトリック表現を抽出する。到来方位と時間周波数単位で測定した拡散がパラメータとなる。DirAC分析に続いて、空間メタデータエンコーダがDirACパラメータを量子化、符号化し、低ビットレートのパラメトリック表現を得る。
【0013】
このパラメータとともに、異なるソースやオーディオ入力信号から得られたダウンミックス信号は、従来のオーディオコアコーダで伝送のために符号化される。この場合、ダウンミックス信号の符号化には、EVSベースのオーディオコーダが採用されている。ダウンミックス信号は、トランスポートチャンネルと呼ばれる様々なチャンネルで構成されている。この信号は、例えば、目標とするビットレートに応じて、Bフォーマット信号、ステレオペア、またはモノラルダウンミックスを構成する4つの係数信号であり得る。符号化された空間パラメータと符号化されたオーディオビットストリームは、通信チャンネルで伝送される前に多重化される。
【0014】
異なるオーディオフォーマットをサポートするDirACベースの空間オーディオコーディングのエンコーダ側を
図1bに示す。音響/電気入力1000は、エンコーダインターフェース1010に入力され、エンコーダインターフェースは、1013に図示された1次アンビソニックス(FOA)または高次アンビソニックス(HOA)のための特定の機能を有する。さらに、このエンコーダインターフェースは、ステレオデータ、5.1データ、または2チャンネル以上もしくは5チャンネル以上のデータなどのマルチチャンネル(MC)データに対する機能を有している。さらに、エンコーダインターフェース1010は、例えばSAOC(spatial audio object coding;空間オーディオオブジェクト符号化)を図示した1011のように、オブジェクトコーディングのための機能を有している。IVASエンコーダは、DirAC分析ブロック1021とダウンミックス(DMX)ブロック1022とを有するDirACステージ1020からなる。ブロック1022によって出力された信号は、AACまたはEVSエンコーダのようなIVASコアエンコーダ1040によって符号化され、ブロック1021によって生成されたメタデータは、DirACメタデータエンコーダ1030を用いて符号化される。
【0015】
図2に示すデコーダでは、トランスポートチャンネルはコアデコーダによって復号され、DirACメタデータは復号されたトランスポートチャンネルとともにDirAC合成に送られる前にまず復号される。この段階で、さまざまなオプションが考えられる。従来のDirACシステムのように、ラウドスピーカやヘッドフォンでオーディオシーンを直接再生することも可能である(
図2のMC)。
【0016】
デコーダは、エンコーダ側で提示された個々のオブジェクトをそのまま配信することもできる(
図2のオブジェクト)。
【0017】
また、シーンの回転、反射、移動などの他のさらなる操作(
図2のFOA/HOA)や、元のシステムでは定義されていない外部のレンダラを使用するために、シーンをアンビソニックスフォーマットにレンダリングするように要求することもできる。
【0018】
様々なオーディオフォーマットを配信するDirAC-空間音声符号化のデコーダは、
図2に示されており、IVASデコーダ1045と、その後に接続されたデコーダインターフェース1046とから構成されている。IVASデコーダ1045は、
図1bのIVASコアエンコーダ1040によって符号化されたコンテンツの復号化動作を実行するように構成されたIVASコアデコーダ1060を備える。さらに、DirACメタデータエンコーダ1030によってエンコードされたコンテンツをデコードするためのデコード機能を提供するDirACメタデータデコーダ1050を備える。DirACシンセサイザ1070は、ブロック1050および1060からデータを受信し、いくつかのユーザインタラクティビティを用いるか否かにかかわらず、出力は、1083で図示されたFOA/HOAデータ、ブロック1082で図示されたマルチチャンネルデータ(MCデータ)、またはブロック1080で図示されたオブジェクトデータを生成するデコーダインターフェース1046に入力される。
【0019】
DirACパラダイムを用いた従来のHOA合成を
図3に示す。ダウンミックス信号と呼ばれる入力信号は、周波数フィルタバンクによって時間-周波数分析される。周波数フィルタバンク2000は、複素QMFのような複素フィルタバンクや、STFTのようなブロック変換でもよい。HOA合成では、出力に(H+1)
2成分を含むH次のアンビソニックス信号を合成する。オプションとして、特定のスピーカレイアウトでレンダリングされたアンビソニックス信号を出力することもできる。以下では、ダウンミックス信号から(H+1)
2成分を得る方法を、場合によっては空間パラメータを入力しながら詳しく説明する。
【0020】
ダウンミックス信号は、元のオーディオシーンを描写する元のマイク信号または元の信号の混合物であることができる。例えば、音場のマイクで音声シーンを捉えた場合、ダウンミックス信号は、シーンの全方位成分(W)、ステレオダウンミックス(L/R)、1次アンビソニックス信号(FOA)のいずれかになる。
【0021】
各時間周波数タイルについて、ダウンミックス信号がそのようなDirACパラメータを決定するための十分な情報を含んでいる場合には、DOA(Direction-of-Arrival;到来方位)とも呼ばれる音の方位と、拡散係数とが、それぞれ方位推定器2020と拡散推定器2010とによって推定される。それは、例えば、ダウンミックス信号がFOA(First Oder Ambisonics;1次アンビソニックス)信号である場合である。また、ダウンミックス信号がそのようなパラメータを決定するのに十分でない場合は、空間パラメータを含む入力ビットストリームを介して、パラメータをDirAC合成に直接伝えることもできる。このビットストリームは、例えば、オーディオ伝送アプリケーションの場合、サイド情報として受信した量子化およびコード化されたパラメータで構成できる。この場合、パラメータは、スイッチ2030または2040によって示されるように、エンコーダ側でDirAC分析モジュールに与えられた元のマイクロフォン信号または入力オーディオフォーマットから、DirAC合成モジュールの外側で導出される。
【0022】
【0023】
【0024】
【0025】
【0026】
例えば、基準信号Prefは、ダウンミックス信号の全方位成分、またはダウンミックス信号のKチャンネルの線形結合とすることができる。
【0027】
【0028】
【0029】
【0030】
【0031】
得られたアンビソニックス成分は、逆フィルタバンク2080または逆STFTを使用して時間領域に戻し、保存、送信、または例えば空間音再生アプリケーションに使用することができる。あるいは、スピーカ信号またはバイノーラル信号を時間領域に変換する前に、特定のスピーカレイアウトで再生される信号またはヘッドフォンで再生される信号を得るために、各周波数帯域に対してリニアアンビソニックスレンダラ2070を適用することができる。
【0032】
【0033】
本発明の目的は、入力信号から音場記述を生成するための改良された概念を提供することである。
【0034】
この目的は、請求項1の音場記述を生成する装置、請求項20の音場記述を生成する方法、または請求項21のコンピュータプログラムによって達成される。
【0035】
第1の態様に係る本発明は、生成された全ての成分について、拡散部分の計算を含む音場成分合成を行う必要がないという知見に基づいている。拡散成分合成は、ある順序までしか行わなくても十分である。それにもかかわらず、エネルギー変動やエネルギー誤差を生じさせないために、拡散成分と直接成分を有する第1の音場成分グループの音場成分を生成する際に、エネルギー補償が行われ、このエネルギー補償は、拡散データと、第2の音場成分グループの数、第1の音場成分グループの最大次数、第2の音場成分グループの最大次数のうちの少なくとも1つに依存している。特に、本発明の第1の態様によれば、1つ以上のチャンネルからなる入力信号から音場記述を生成する装置は、入力信号から拡散データを取得する入力信号分析器と、入力信号から、音場成分ごとに直接成分と拡散成分とを有する第1の音場成分グループの1つ以上の音場成分を生成し、入力信号から、直接成分のみを有する第2の音場成分グループを生成する音場成分生成器とを備える。特に、音場成分生成器は、第1の音場成分グループを生成する際にエネルギー補償を行い、エネルギー補償は、拡散データと、第2の音場成分グループの数、第1の拡散成分グループの数、第1の音場成分グループの最大次数、および第2の音場成分グループの最大次数のうちの少なくとも1つに依存する。
【0036】
第1の音場成分グループは、低次音場成分と中次音場成分で構成されていてもよく、第2のグループは高次音場成分で構成される。
【0037】
本発明の第2の態様に係る、少なくとも2つのチャンネルからなる入力信号から音場記述を生成する装置は、入力信号から方位データおよび拡散データを得るための入力信号分析器を備える。さらに、本装置は、入力信号から得られる全方位成分に対する第1のエネルギーまたは振幅関連測定値を推定するための、および入力信号から導出される指向性成分に対する第2のエネルギーまたは振幅関連測定値を推定するための推定器を備える。さらに、本装置は、音場の音場成分を生成する音場成分生成器を備え、音場成分生成装置は、第1のエネルギーまたは振幅に関連する測定値、第2のエネルギーまたは振幅に関連する測定値、方位データおよび拡散データを用いて、指向性成分のエネルギー補償を行うように構成されている。
【0038】
特に、本発明の第2の態様は、音場記述を生成する装置で指向性成分が受信され、同時に方位データと拡散データも受信される状況において、方位データと拡散データは、エンコーダ内での指向性成分または全方位成分の量子化またはその他の処理に起因して導入され得る誤差を補正するために利用することができるという知見に基づいている。このように、方位および拡散データは、そのまま音場記述生成の目的で単純に適用されるのではなく、このデータは、指向性成分のエネルギー損失の補償を元に戻す、あるいは少なくとも部分的に元に戻すために、指向性成分の補正のために「2度目」に利用される。
【0039】
好ましくは、このエネルギー補償は、デコーダインターフェースで受信される低次成分、または入力信号を生成するオーディオエンコーダから受信したデータから生成される低次成分に対して行われる。
【0040】
本発明の第3の態様によれば、モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置は、入力信号分析器と、低音成分生成器と、中音成分生成器と、高音成分生成器とを備える。特に、低次成分生成器、中次成分生成器、高次成分生成器のそれぞれに異なる特定の処理手順に基づいて、それぞれの次元で音場成分を生成するように構成されている。これにより、一方では処理要件、他方ではオーディオ品質要件、また他方では実用性手順の間の最適なトレードオフが確実に維持される。この手順により、例えば、脱相関器の使用は中次成分の生成にのみ制限され、低次成分の生成と高次成分の生成ではアーチファクトを生成しやすい脱相関器は回避される。一方、拡散成分エネルギーの損失に対するエネルギー補償を行うことが好ましく、このエネルギー補償は、低次音場成分のみ、または中次音場成分のみ、または低次音場成分と中次音場成分の両方で行われる。好ましくは、低次成分生成器内で形成された指向性成分のエネルギー補償も、送信された指向性拡散データを用いて行われる。
【0041】
好ましい実施形態は、空間音声処理のための知覚的に動機づけられた技術である指向性オーディオ符号化パラダイム(DirAC)を使用して(高次)アンビソニックス信号を合成するための装置、方法、またはコンピュータプログラムに関するものである。
【0042】
実施形態は、空間パラメータとダウンミックス信号からオーディオシーンのアンビソニックス表現を合成するための効率的な方法に関するものである。本方法のアプリケーションでは、オーディオシーンは送信されるため、送信データ量を削減するために符号化されるが、これに限定されない。ダウンミックス信号は、伝送に利用可能なビットレートによって、チャンネル数と品質が強く制約される。実施形態は、伝送されたダウンミックス信号に含まれる情報を利用して、品質を向上させながら合成の複雑さを軽減する効果的な方法に関する。
【0043】
本発明の別の実施形態は、音場の拡散成分に関するもので、合成アーチファクトを避けるために、合成された成分の所定の次元までしかモデル化されないように制限することができる。本実施形態では、ダウンミックス信号を増幅することにより、結果として生じるエネルギーの損失を補償する方法を提供する。
【0044】
別の実施形態では、音場の指向性成分に関する特性をダウンミックス信号内で変更することができる。ダウンミックス信号をさらにエネルギー正規化して、送信方位パラメータによって決定されるエネルギー関係を維持することができるが、注入された量子化または他のエラーによって送信中に壊れる。
【0045】
続いて、本発明の好ましい実施形態について、添付の図面を参照して説明する。
【図面の簡単な説明】
【0046】
【
図1a】
図1aは、アンビソニックスのチャンネル/成分のナンバリングを用いた球形調和関数を説明する図である。
【
図1b】
図1bは、DirACベースの空間音声符号化処理装置のエンコーダ側を示す図である。
【
図2】
図2は、DirACベースの空間音声符号化処理装置のデコーダを示す図である。
【
図3】
図3は、当技術分野で知られている高次のアンビソニックス合成プロセッサを示す図である。
【
図4】
図4は、第1の態様、第2の態様、および第3の態様を適用した本発明の好ましい実施形態を示す図である。
【
図5】
図5は、エネルギー補償の概要処理を示す図である。
【
図6】
図6は、本願発明の第1の態様に係る音場記述を生成する装置を示す図である。
【
図7】
図7は、本願発明の第2の態様に基づく音場記述を生成する装置を示す図である。
【
図8】
図8は、本願発明の第3の態様に基づく音場記述を生成する装置を示す図である。
【
図9】
図9は、
図8の低次成分生成装置の好ましい実装例を示す図である。
【
図12a】
図12aは、第1の態様に従った補償ゲイン計算の好ましい実施例を示す図である。
【
図12b】
図12bは、第2の態様に従ったエネルギー補償計算の実施例を示す図である。
【
図12c】
図12cは、第1の態様と第2の態様とを組み合わせたエネルギー補償の好ましい実施例を示す図である。
【0047】
図6は、本願発明の第1の態様に基づく音場記述を生成するための装置を示す図である。この装置は、
図6の左に図示されている入力信号から拡散データを得るための入力信号分析器600を含んでいる。さらに、本装置は、入力信号から、音場成分ごとに直接成分と拡散成分とを有する第1の音場成分グループの1つ以上の音場成分を生成するための音場成分生成器650を備えている。さらに、音場成分生成器は、入力信号から、直接成分のみを有する第2の音場成分グループを生成する。
【0048】
特に、音場成分生成装置650は、第1の音場成分グループを生成する際に、エネルギー補償を行うように構成されている。エネルギー補償は、拡散データと、第2の音場成分グループの数、または第1の音場成分グループの最大次数、または第2の音場成分グループの最大次数に依存する。特に、本願発明の第1の態様によれば、第2の音場成分グループについて、直接成分のみが生成され、任意の拡散成分が生成されないことによるエネルギー損失を補償するために、エネルギー補償が行われる。
【0049】
これとは逆に、第1の音場成分グループでは、直接部分と拡散部分とが音場成分に含まれる。したがって、音場成分生成器650は、上段の配列で図示されているように、他の図において参照符号830で図示されているように直接部分のみを有し、拡散部分を有さない音場成分を生成し、また、他の図に関して後に説明する参照符号810,820で図示されているように、直接部分と拡散部分とを有する音場成分を生成する。
【0050】
図7は、本発明の第2の態様に従って、少なくとも2つのチャンネルからなる入力信号から音場記述を生成する装置を示す図である。この装置は、入力信号から方位データおよび拡散データを得るための入力信号分析器600を備えている。さらに、入力信号から導出された全方位成分に対する第1のエネルギーまたは振幅に関連する尺度を推定するため、および、入力信号から導出された指向性成分に対する第2のエネルギーまたは振幅に関連する尺度を推定するための推定器720が設けられている。
【0051】
さらに、音場記述を生成する装置は、音場の音場成分を生成するための音場成分生成器750を備え、音場成分生成器750は、第1の振幅測定値、第2のエネルギーまたは振幅に関連する測定値、方位データおよび拡散データを使用して、指向性成分のエネルギー補償を実行するように構成されている。このように、音場成分生成器は、本発明の第2の態様に従って、補正/補償された指向性(直接)成分、および、対応して実施される場合には、好ましくはエネルギー補償されないか、または、
図6の文脈で説明したように拡散エネルギー補償の目的でのみエネルギー補償される全方位成分など、入力信号と同じ次元の他の成分を生成する。なお、振幅に関連する尺度は、B
0やB
1などの指向性成分や全方位成分のノルムや振幅、絶対値であってもよい。好ましくは、式に概説されているように、2の累乗によって得られるパワーまたはエネルギーが好ましいが、エネルギーまたは振幅関連の尺度を得るために、ノルムまたは振幅または絶対値に適用される他の累乗も同様に使用することができる。
【0052】
実施の形態では、第2の態様に係る音場記述を生成する装置は、少なくとも2つのチャンネルからなる入力信号に含まれる指向性信号成分のエネルギー補償を、指向性成分が入力信号に含まれるように、または2つのチャンネルの差分を算出するなど入力信号から算出できるように行う。この装置は、高次データなどを生成することなく、補正のみを行うことができる。しかしながら、他の実施形態では、音場成分生成装置は、後述する参照符号820,830で示されるように、他の次元から音場成分も生成するように構成されているが、入力信号に対応するものが含まれていなかったこれらの(または高次の)音成分については、任意の指向性成分エネルギー補償は必ずしも行われない。
【0053】
図8は、本発明の第3の態様に従い、モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置の好ましい実施例を示す。本装置は、入力信号を分析して方位データおよび拡散データを導出するための入力信号分析器600を備えている。さらに、本装置は、入力信号から所定の次数および所定のモードまでの低次音場記述を生成するための低次成分生成器810を備え、低次成分生成器810は、入力信号または入力信号の一部をそのままコピーまたは取り込み、あるいは入力信号がマルチチャンネル信号である場合には入力信号のチャンネルの加重結合を行うことにより、低次音場記述を導出するように構成されている。さらに、装置は、中次音場記述が直接寄与と拡散寄与からなるように、方位データと拡散データを用いて、少なくとも1つの直接部分と、少なくとも1つの拡散部分の合成を用いて、所定の次数以上、または所定の次数かつ所定のモード以上かつ第1の打ち切り次数以下、または第1の打ち切り次数の中次音場記述を生成する中次成分生成器820を備える。
【0054】
音場記述を生成する装置は、さらに、少なくとも1つの直接部分の合成を用いて、第1の打ち切り次元以上の成分を有する高次音場記述を生成するための高次成分生成器830を備え、高次音場記述は、直接寄与のみからなるものである。このように、実施形態では、高次音場記述が直接寄与のみからなるように、少なくとも1つの直接部分の合成は、拡散成分の合成を伴わずに実行される。
【0055】
このように、低次成分生成器810は低次音場記述を生成し、中次成分生成器820は中次音場記述を生成し、高次成分生成器は高次音場記述を生成する。低次音場記述は、例えば、
図1に例示した高次のアンビソニックス球形成分の文脈のように、ある次元やモードまで拡張される。しかしながら、本発明の第1、第2および/または第3の態様に従って、円筒形関数を有する音場記述や、任意のアンビソニックス表現とは異なる任意の他の成分を有する音場記述など、他の任意の音場記述も同様に生成することができる。
【0056】
中次成分生成器820は、所定の次元またはモード以上で、以下の説明でもLで示されるある打ち切り次数までの音場成分を生成する。最後に、高次成分生成器830は、打ち切り次数Lから、以下の説明でHと示される最大次数までの音場成分生成を適用するように構成されている。
【0057】
実装によっては、
図6からの音場成分生成器650によって提供されるエネルギー補償は、直接/拡散音場成分のための
図6の対応する参照符号によって図示された低次成分生成器810または中次成分生成器820内に適用することができない。さらに、音場成分生成器650によって生成された音場成分により生成された第2の音場成分グループは、
図6の直接/非拡散表記の下で参照符号830により図示された
図8の高次成分生成器830の出力に対応する。
【0058】
図7に関して、指向性成分エネルギー補償は、好ましくは、
図8に図示された低次成分生成器810内で実行され、すなわち、ブロック750から出て行く上側矢印の上の参照符号810によって図示されているように、所定の次元および所定のモードまでの一部またはすべての音場成分に対して実行されることが示されている。中次成分および高次成分の生成は、上側矢印の下に示された参照符号820,830によって図示されるように、
図7のブロック750から出て行く上側のハッチングされた矢印に関して図示される。このように、
図8の低次成分生成器810は、第1の態様に従った拡散エネルギー補償と、第2の態様に従った指向性(直接)信号補償とを適用してもよいが、中次成分生成器820は、出力信号に高い拡散成分エネルギーバジェットを持たせるために、そのエネルギーに関して強化することができる拡散部分を有する出力データを生成するので、拡散成分補償のみを行ってもよい。
【0059】
次に、音場記述を生成するための1つの装置内における本願発明の第1の態様、第2の態様および第3の態様の実施を示す
図4を参照する。
【0060】
図4は、入力分析器600を示す図である。入力分析器600は、方位推定器610と、拡散推定器620と、スイッチ630,640とを備えている。入力信号分析器600は、DOAおよび/または拡散情報として示される方位情報を時間/周波数ビンごとに発見するために、典型的には分析フィルタバンク400に続いて、入力信号を分析するように構成される。方位情報DOAおよび/または拡散情報は、ビットストリームからも得られる。したがって、このデータが入力信号から取得できない状況、すなわち、入力信号が全方位成分Wのみを有する場合には、入力信号分析器は、ビットストリームから方位データおよび/または拡散データを取得する。例えば、入力信号が左チャンネルLと右チャンネルRを有する2チャンネル信号の場合、方位および/または拡散データを得るために分析を行うことができる。また、入力信号が1次アンビソニックス信号(FOA)や、Aフォーマットの信号やBフォーマットの信号など、2チャンネル以上の信号である場合には、ブロック610または620によって実行される実際の信号分析を行うことができる。しかしながら、ビットストリームから、方位データおよび/または拡散データを取り出すためにビットストリームが分析される場合、これもまた、入力信号分析器600によって行われる分析を表しているが、他の場合のような実際の信号分析は行われない。後者の場合、分析はビットストリームに対して行われ、入力信号はダウンミックス信号とビットストリームデータの両方で構成される。
【0061】
さらに、
図4に示す音場記述生成装置は、指向性ゲイン計算ブロック410、スプリッタ420、結合器430、デコーダ440、および合成フィルタバンク450を備えている。合成フィルタバンク450は、高次アンビソニクス表現のためのデータ、またはヘッドフォンによって再生される信号、すなわちバイノーラル信号、または特定のスピーカセットアップに一般的には無関係である音場記述から、特定のスピーカセットアップに適合して信号化されたマルチチャンネルを表す特定のスピーカセットアップに配置されたスピーカによって再生される信号を受信する。
【0062】
さらに、音場記述を生成する装置には、一般的に「低次成分生成」ブロックと「低次成分混合」ブロックからなる低次成分生成器810を含む音場成分生成器が設けられている。さらに、「生成基準信号」ブロック821、脱相関器823,824、および「混合中次成分」ブロック825からなる中次成分生成器820が設けられている。そして、
図4では、混合高次成分ブロック822で構成される高次成分生成器830も設けられている。さらに、参照符号910、920、930、940で図示される(拡散)補償ゲイン計算ブロックが設けられている。参照符号910~940については、
図12a~
図12cを参照してさらに説明する。
【0063】
図4には図示されていないが、少なくとも拡散信号のエネルギー補償は、
図4に明示的に示されているように、低次用の音場成分生成器で行われるだけでなく、このエネルギー補償は、中次成分混合器825でも行うことができる。
【0064】
さらに、
図4は、分析フィルタバンク400によって生成されたように個々の時間/周波数タイルに対して全体の処理が実行される状況を示している。このように、各時間/周波数タイルに対して、あるDOA値、ある拡散値、およびこれらの値を適用するためのある処理、ならびに異なる補償を適用するためのある処理が実行される。さらに、音場成分は、個々の時間/周波数タイルについても生成/合成され、合成器430によって行われる合成も、個々の時間/周波数タイルごとに時間/周波数領域内で行われ、さらに、HOAデコーダ440の手順は、時間/周波数領域内で行われ、フィルタバンク合成450は、次に、ヘッドフォンのための全帯域幅の両耳信号、または特定のスピーカセットアップのスピーカのための全帯域幅のスピーカ信号を用いて、全帯域幅のHOA成分を有する全周波数帯域の時間領域信号を生成する。
【0065】
【0066】
この2つの原則に加えて、2つの拡張を適用することができる。
・ダウンミックス信号から抽出したK個の低次アンビソニックス成分を増幅することで、H次までの拡散音アンビソニックス成分をモデリングしないことによるエネルギー損失を補うことができる。
・ダウンミックス信号が非可逆符号化されている伝送アプリケーションでは、伝送されるダウンミックス信号が量子化誤差によって破壊されるが、ダウンミックス信号から抽出されたK個の低次アンビソニックス成分のエネルギー関係を制約することで、これを緩和することができる。
【0067】
図4は、新方式の一例を示したものである。
図3に示した状態との違いの1つは、合成するアンビソニックス成分の次元によって異なる混合プロセスの違いである。低次成分は、主にダウンミックス信号から直接抽出した低次成分から決定される。低次成分の混合は、抽出された成分をそのまま出力にコピーするだけの簡単なものでよい。
【0068】
しかしながら、好ましい実施形態では、抽出された成分は、エネルギー補償、拡散の関数及び打ち切り次数L及びHを適用することによって、またはエネルギー正規化、拡散関数及び音方位を適用することによって、またはそれらの両方を適用することによって、さらに処理される。
【0069】
中次成分の混合は、実際には(オプションの拡散補償を除いて)最先端の方法と同様であり、打ち切り次数Lまでの直接音と拡散音の両方のアンビソニックス成分を生成して結合するが、低次成分の混合によって既に合成されたK個の低次成分は無視する。高次成分の混合は、打ち切り次数Hまでの残りの(H-L+1)2個のアンビソニックス成分を生成することからなるが、直接音についてのみであり、拡散音は無視される。以下では、低次成分の混合または生成について詳しく説明する。
【0070】
第1の態様は、エネルギー補償に関するもので、第1の態様に関する処理の概要を
図6に一般的に示す。原理を、一般性を損なわない範囲で、K=(L+1)
2の具体的なケースについて説明する。
【0071】
【0072】
【0073】
【0074】
【0075】
【0076】
【0077】
【0078】
【0079】
【0080】
【0081】
【0082】
【0083】
【0084】
【0085】
K<(L+1)2の場合も同様の原理を用いることができ、(L+1)2-Kの拡散音アンビソニックス成分を、脱相関器と平均的な拡散レスポンスを用いて合成することが可能である。
【0086】
【0087】
【0088】
【0089】
【0090】
【0091】
【0092】
【0093】
【0094】
【0095】
【0096】
実際の実装では、得られる正規化ゲイン、補償ゲイン、またはその2つの組み合わせは、オーディオのアーチファクトにつながる可能性のある厳しいイコライゼーションの結果となる大きなゲイン係数を避けるために制限することができる。例えば、ゲインが-6~+6dBになるように制限することができる。さらに、急激な変化を避け、安定化処理を行うために、ゲインを時間および/または周波数で平滑化することができる(移動平均または再帰平均による)。
【0097】
続いて、技術の現状に対する好ましい実施形態の利点と長所のいくつかを要約する。
・DirAC内での簡素化された(より複雑でない)HOA合成。
°すべてのアンビソニックス成分を完全に合成することなく、より直接的な合成が可能。
°必要な脱相関器の数と、最終的な品質への影響の低減。
・伝送中のダウンミックス信号に導入される符号化アーチファクトの低減。
・品質と処理効率の最適なトレードオフを有するように、3つの異なる次元の処理を分離する。
・
続いて、上記の説明に一部または全部含まれているいくつかの発明的態様がまとめられており、これらは互いに独立して、または互いに組み合わせて、あるいは3つの態様から任意に選択された2つの態様のみを組み合わせた特定の組み合わせで使用することができる。
【0098】
第1の態様。拡散音成分のエネルギー補償
【0099】
本発明は、1つ以上の信号成分からなる入力信号から音場記述を生成する際に、入力信号を分析して、入力信号で表現される音場の少なくとも拡散データを得ることができることに端を発している。入力信号の分析は、1つ以上の信号成分にメタデータとして関連付けられた拡散データの抽出であってもよいし、例えば、入力信号がBフォーマット表現やAフォーマット表現などの完全1次表現のように2つ、3つ、あるいはそれ以上の信号成分を有する場合には、入力信号の分析は実信号分析であってもよい。
【0100】
さて、直接成分と拡散成分を有する第1のグループの1つ以上の音場成分を生成する音場成分生成器がある。さらに、第2のグループの1つ以上の音場成分が生成され、そのような第2のグループに対して、音場成分は直接成分のみを有する。
【0101】
完全な音場生成とは対照的に、これは、考慮中の現在のフレームまたは現在の時間/周波数ビンの拡散値が0とは異なる値を有する場合には、エネルギー誤差を生じる。
【0102】
このエネルギー誤差を補正するために、第1の音場成分グループを生成する際にエネルギー補償を行う。このエネルギー補償は、拡散データと、第2のグループの拡散成分の非合成によるエネルギー損失を表す第2のグループの音場成分数に依存する。
【0103】
一実施形態では、第1のグループの音場成分生成器は、第1のグループの音場成分をコピーまたは加重加算を行うことで、すなわち複雑な空間基底関数評価を行わずに抽出する
図4の低次ブランチとすることができる。そのため、第1の音場成分グループは、直接部分と拡散部分とに分けて利用できない。しかし、第1の音場成分グループ全体のエネルギーを増加させると、自動的に拡散部分のエネルギーも増加する。
【0104】
あるいは、第1グループの1つ以上の音場成分のための音場成分生成器は、別々の直接部分の合成と拡散部分の合成に依拠した
図4の中次ブランチとすることもできる。ここでは、拡散部分を別途用意し、一実施形態では、第2グループによるエネルギー損失を補償するために、音場成分の拡散部分を増加させ、直接部分は増加させない。しかし、別の方法として、この場合、直接部分と拡散部分とを結合した後に、得られる音場成分のエネルギーを増加させることもできる。
【0105】
また、第1グループの1つ以上の音場成分の音場成分生成器は、
図4の低次および中次成分のブランチでもよい。この場合、エネルギー補償は、低次成分のみに適用することも、低次成分と中次成分の両方に適用することも可能である。
【0106】
第2の態様:直接音成分のエネルギー正規化
【0107】
本発明では、2つ以上の音成分を持つ入力信号の生成に、何らかの量子化を伴っていたことを前提として出発する。典型的には、2つ以上の音成分を考える場合、入力信号の1つの音成分は、Bフォーマット表現の全方位マイクロフォン信号Wのような全方位信号とすることができ、他の音響成分は、Bフォーマット表現すなわち、1次のアンビソニックス表現の8の字型マイクロフォン信号X,Y,Zのような個々の指向性信号とすることができる。
【0108】
信号エンコーダが、完全な符号化動作に対してビットレート要件が高すぎる状況に陥った場合、典型的な手順は、エンコーダが全方位信号を可能な限り正確に符号化するが、エンコーダは、1つ以上の方向性成分が完全に0に低減されるほど低くてもよい指向性成分のために、より少ないビット数しか費やさない。これは、指向性情報におけるそのようなエネルギーの不整合および損失を意味する。
【0109】
それにもかかわらず、例えば、あるフレームまたは時間/周波数ビンが1よりも低い特定の拡散と音の方位を持つという明示的なパラメトリックサイド情報を持つことによって得られる要件がある。したがって、パラメトリックデータに従って、ある方位を持つある非拡散成分を持つ一方で、他方では、送信された全方位信号や指向性信号がこの方位を反映していないという状況が生じ得る。例えば、全方位信号は情報を大きく損なうことなく伝送されているのに、左右の方位を担う指向性信号Yはビットの理由がないために0に設定されている可能性がある。このような場合、本来のオーディオシーンでは左から直接音成分が到来したとしても、伝送される信号には左右の指向性がないオーディオシーンが反映される。
【0110】
このように、第2の発明では、入力信号に明示的に含まれているか、あるいは入力信号自体から得られる方位/拡散データを用いて、エネルギー関係の崩れを補正するために、直接音成分に対してエネルギーの正規化を行う。
【0111】
このエネルギー正規化は、
図4のすべての個々の処理ブランチの文脈において、全体的にまたは別々にのみ適用することができる。
【0112】
本発明では、入力信号から受信した、あるいは入力信号の非欠陥部分から得られた付加的なパラメトリックデータを使用することができるため、何らかの理由で入力信号に含まれる符号化誤差を、入力信号から得られた付加的な方位データや拡散データを用いて低減することができる。
【0113】
本発明では、入力信号から導出される全方位成分のエネルギーまたは振幅関連尺度と、入力信号から導出される指向性成分のさらなるエネルギーまたは振幅関連尺度を推定し、方位データ、拡散データとともに、エネルギー補償に用いる。このようなエネルギーまたは振幅に関連する尺度は、振幅そのもの、またはパワー、すなわち振幅の2乗と加算、またはパワーに一定の期間を乗じたものなどのエネルギー、または振幅に対する指数が1とは異なる振幅とそれに続く加算から得られる他の尺度とすることができる。このように、エネルギーや振幅に関連する尺度としては、指数が2の累乗に対して指数が3のラウドネスも考えられる。
【0114】
第3の態様:異なる次元に対し異なる処理手順を有するシステムの実装
【0115】
図4に示される第3の発明では、音場は、単一信号または2つ以上の信号成分を有する多成分信号を含む入力信号を使用して生成される。信号分析器は、入力信号が2つ以上の信号成分を有する場合には、明示的な信号分析によって、または入力信号に含まれる方位データおよび拡散データをメタデータとして抽出するために入力信号を分析することによって、入力信号から方位データおよび拡散データを導出する。
【0116】
低次成分生成器は、入力信号から所定の次元までの低次音記述を生成するもので、入力信号から信号成分をコピーしたり、入力信号中の成分を加重合成したりすることで、入力信号から抽出できる利用可能なモードに対してこの作業を行う。
【0117】
中次成分生成器は、分析器から得られた方位データと拡散データを用いて、少なくとも1つの直接成分の合成と、少なくとも1つの拡散成分の合成とを用いて、所定の次元または所定の次元以上の次元および所定のモード以上および第1の打ち切り次数以下の成分を有する中次音記述を生成し、中次音記述が直接寄与と拡散寄与とで構成されるようにする。
【0118】
さらに、高次成分生成器は、拡散成分の合成を行わずに、少なくとも1つの直接成分の合成を用いて、第1の打ち切り以上、第2の打ち切り以下の次数の成分を持つ高次音記述を生成し、高次音記述が直接成分のみになるようにする。
【0119】
本システム発明は、入力信号に含まれる情報を可能な限り利用して正確な低次音場生成を行うと同時に、低次音記述を行うための処理演算は、コピー操作や加重加算などの加重結合操作のみで済むため、労力が少なくて済むという大きなメリットがある。したがって、必要最小限の処理能力で、高品質な低次音記述を行うことができる。
【0120】
中次音記述は、より多くの処理能力を必要とするが、分析された方位データおよび拡散データを用いて、典型的には次元まで、すなわち高次までの直接および拡散寄与を有する、非常に正確な中次音記述を生成することを可能にし、その下では、音場記述における拡散寄与は、知覚的観点から依然として必要とされる。
【0121】
最後に、高次成分生成器では、拡散合成を行わずに直接合成のみを行うことで、高次音記述を生成する。これも、直接成分のみを生成することで、必要な処理能力を減らし、同時に、拡散合成を省略しても、知覚的観点からはそれほど問題にならない。
【0122】
もちろん、第3の発明は、第1の発明および/または第2の発明と組み合わせることができるが、何らかの理由で高次成分発生器により拡散合成を行わないことの補償を適用しない場合でも、この手順は、一方での処理能力と他方でのオーディオ品質の間の最適な妥協をもたらす。入力信号の生成に使用された符号化を補償する低次エネルギーの正規化を行う場合も同様である。実施形態では、この補正を追加で行っているが、この補正を行わなくても、自明ではない大きなメリットが得られる。
【0123】
図4は、並列伝送の象徴的な説明図として、各成分生成器で処理される成分の数を示している。
図4に例示した低次成分生成器810は、入力信号から所定の次元および所定のモードまでの低次音場記述を生成するものであり、低次成分生成器810は、入力信号をそのままコピーまたは取り込み、あるいは入力信号のチャンネルの加重結合を行うことにより、低次音場記述を導出するように構成されている。低次成分生成ブロックと低次成分混合ブロックとの間に図示されているように、この低次成分生成器810では、K個の個々の成分が処理される。中次成分生成器820は、基準信号を生成し、例示的な状況として、フィルタバンク400の入力または出力におけるダウンミックス信号に含まれる全方位信号が使用されることを概略的に示している。しかし、入力信号に左チャンネルと右チャンネルがある場合には、左チャンネルと右チャンネルの加算により得られたモノラル信号が基準信号生成器821によって算出される。さらに、中次成分生成器では、(L+1)
2-K個の成分が生成される。さらに、高次成分生成器は、(H+1)
2-(L+1)
2成分の数を生成するので、最終的に、結合器の出力において、フィルタバンク400への入力における単一または複数(少数)の成分から、(H+1)
2成分が存在することになる。スプリッタは、個々の指向性/拡散データを、対応する成分生成器810、820、830に提供するように構成されている。したがって、低次成分生成器は、K個のデータ項目を受け取る。これは、スプリッタ420と低次成分混合ブロックとをまとめる線によって示される。
【0124】
さらに、混合次数成分混合ブロック825は(L+1)2-Kデータ項目を受信し、混合高次成分混合ブロックは(H+1)2-(L+1)2データ項目を受信する。対応して、個々の混合成分ブロックは、ある数の音場成分を結合器430に提供する。
【0125】
続いて、
図4の低次成分生成器810の好ましい実施例を、
図9に関して説明する。入力信号は、入力信号検査器811に入力され、入力信号検査器811は、取得した情報を処理モード選択器812に提供する。処理モード選択器812は、番号1で示されるコピーブロック813、番号2で示される取り込み(そのまま)ブロック814、番号3および参照符号815で示される線形結合ブロック(第1のモード)、および番号4で示される線形結合(第2のモード)ブロック816として模式的に示される複数の異なる処理モードを選択するように構成される。例えば、入力信号検査器811がある種の入力信号を決定したとき、処理モード選択器812は、
図9の表に示すように、複数の異なる処理モードのうちの1つを選択する。例えば、入力信号が全方位信号Wまたはモノラル信号の場合、コピー813または取り込み814が選択される。しかし、入力信号が、左チャンネル、右チャンネルのステレオ信号や、5.1チャンネル、7.1チャンネルのマルチチャンネル信号の場合は、入力信号から、左右を加算し、左右の差を計算して指向性成分を計算することで全方位信号Wを導出するために、線形結合ブロック815が選択される。
【0126】
しかしながら、入力信号が結合ステレオ信号、すなわちミッド/サイド表現の場合、ミッド信号はすでに全方位信号を表し、サイド信号はすでに指向性成分を表しているので、ブロック813またはブロック814のいずれかが選択される。
【0127】
同様に、入力信号が1次アンビソニックス信号(FOA)であると判断された場合には、処理モードセレクタ812によってブロック813またはブロック814のいずれかが選択される。しかしながら、入力信号がAフォーマット信号であると判定された場合、線形結合 (第2のモード) ブロック816が選択されて、Aフォーマット信号に対して線形変換を行い、
図8または
図6のブロック810によって生成されたK個の低次成分ブロックを表す全方位成分および3方位成分を有する1次アンビソニックス信号を得る。さらに、
図9は、対応するゲイン値gおよびg
sを有するヒューズ補償および/または直接補償を実行するために、ブロック813~816のうちの1つの出力にエネルギー補償を行うように構成されたエネルギー補償器900を示している。
【0128】
したがって、エネルギー補償器900の実装は、
図6の音場成分生成器650または
図7の音場成分生成器750の処理にそれぞれ対応している。
【0129】
図10は、第1のグループに関するブロック650の直接/拡散下側矢印のための、
図8の中次成分発生器820または音響成分発生器650の一部の好ましい実施を示す。具体的には、中次成分発生器820は、入力信号を受信し、入力信号がモノラル信号である場合にそのままコピーまたは取り込むことによって、または、前述したようにまたは全体の教示と共に参照により本明細書に組み込まれた国際公開公報WO2017/157803A1に示されるように、計算によって入力信号から基準信号を導出することによって基準信号を発生する基準信号生成器821を備える。
【0130】
【0131】
重み付け器824の結果は拡散部分であり、拡散部分は、特定のモードmおよび特定の次元lに対する特定の中次音場成分を得るために、加算器825によって直接部分に加算される。ブロック823によって生成された拡散部分にのみ、
図6に関して議論された拡散補償ゲインを適用することが好ましい。これは、有利には、(拡散)重み付け器によって行われる手順内で行うことができる。このように、
図10に例示されているように、完全な合成を受けていないより高い成分によって生じる拡散エネルギーの損失を補償するために、信号における拡散部分のみが強化される。
【0132】
高次成分生成器について、直接部分のみの生成を
図11に示した。基本的に、高次成分生成器は、直接分岐に関して中次成分生成器と同じ方法で実装されるが、ブロック823、824、825、826を構成しない。したがって、高次成分生成器は、指向性ゲイン算出器410から入力データを受信し、基準信号生成器821から基準信号を受信する(直接)重み付け器822のみで構成される。好ましくは、高次成分生成器と中次成分生成器のための単一の基準信号のみが生成される。しかし、両ブロックは、場合によっては、個々の基準信号発生器を持つこともできる。それにもかかわらず、単一の基準信号発生器のみを有することが好ましい。このように、時間/周波数タイルに対して一定の拡散情報を持つ一定の指向性ゲインG
l
mを持つ単一の重み付け方位のみを実行することになるので、高次成分生成器が行う処理は極めて効率的である。したがって、高次音場成分を極めて効率的かつ迅速に生成することができ、出力信号における拡散成分の非生成または拡散成分の非使用に起因する誤差は、低次音場成分または中次音場成分の好ましくは唯一の拡散部分を強調することによって容易に補償される。
【0133】
通常、拡散部分は、コピーまたは (重み付けされた) 線形結合を実行することによって生成された低次音場成分内で別個に利用可能ではない。しかしながら、このような成分のエネルギーを高めることは、拡散部分のエネルギーを自動的に高める。直接部分のエネルギーの同時増強は、本件発明者によって見出されているように問題ではない。
【0134】
続いて、個々の補償ゲインの算出方法をさらに説明するために
図12a~
図12cを参照する。
【0135】
図12aは、
図6の音場成分生成器650の好ましい実施形態を示している。(拡散)補償ゲインは、一実施形態では、拡散値、最大次数Hおよび打ち切り次数Lを用いて計算され、他の実施形態では、拡散補償ゲインは、低次処理ブランチ810における成分の数から得られるパラメータL
kを用いて計算される。さらに、パラメータlkと、低次成分生成器で実際に生成された成分の数Kとに応じて、パラメータmkが用いられる。さらに、Lkに応じた値Nも同様に用いられる。第1の実施形態の値H,L、あるいはH,Lk,mkはいずれも、一般に(第1の音場成分グループの数と関連する)第2の音場成分グループの数を表している。したがって、拡散成分が合成されない成分が多いほど、エネルギー補償ゲインは高くなる。一方、補正可能な低次音場成分の数が多いほど、すなわちゲイン係数を乗じるほど、ゲイン係数を小さくすることができる。一般的に、ゲイン係数gは常に1よりも大きくなる。
【0136】
図12aは、(拡散)補償ゲイン計算機910によるゲイン係数gの計算と、その後の補償ゲインアプリケータ900による「補正」されるべき(低次)成分へのこのゲイン係数の適用を示している。線形数の場合には、補償ゲインアプリケータは乗算器となり、対数の場合には、補償ゲインアプリケータは加算器となる。しかし、ブロック910による補償ゲインの計算の具体的な性質と方法に応じて、補償ゲイン適用の他の実装を行うことができる。したがって、ゲインは必ずしも乗算ゲインである必要はなく、他のゲインであってもよい。
【0137】
図12bは、(直接)補償ゲイン処理に関する第3の実施形態を示す図である。(直接)補償ゲイン計算機920は、入力として、
図12bにおいて「パワー全方位」として示された全方位成分に対するエネルギーまたは振幅関連の測定値を受け取る。さらに、指向性成分についての第2のエネルギーまたは振幅関連の測定値も、「パワー指向性」としてブロック920に入力される。さらに、直接補償ゲイン計算機920は、情報Q
Lまたは代替的に情報Nを追加で受信する。Nは、次元l当たりの係数の数である(2l+1)に等しく、Q
lは1/Nに等しい。さらに、ある時間/周波数タイル(k、n)に対する指向性ゲインG
l
mも (直接)補償ゲインの計算に必要である。指向性ゲインは、例えば、
図4の指向性ゲイン計算機410から導出されるものと同じデータである。(直接)補償ゲインg
sは、ブロック920から、ブロック900と同様に実装できる補償ゲインアプリケータ900に送られ、すなわち、「補正」されるべき成分を受け取り、補正された成分を出力する。
【0138】
図12cは、拡散音成分のエネルギー補償と直接音成分の補償のエネルギー正規化の組み合わせを共に行うための好ましい実施形態を示している。この目的のために、(拡散)補償ゲインgと(直接)補償ゲインg
sは、ゲイン結合器930に入力される。ゲイン結合器の結果(合成ゲイン)は、ポストプロセッサとして実装され、最小値または最大値への制限を行うか、または何らかのソフトな制限を行うために圧縮関数を適用するか、または時間または周波数タイル間の平滑化を行うゲインマニピュレータ940に入力される。制限された操作されたゲインは、圧縮されるか、平滑化されるか、または他の後処理方法で処理され、後処理されたゲインは、ゲインアプリケータによって低次成分(複数可)に適用され、補正された低次成分を得る。
【0139】
線形ゲインg,g
sの場合、ゲイン結合器930は、乗算器として実装される。対数ゲインの場合、ゲイン結合器は、加算器として実装される。さらに、参照符号620で示される
図7の推定器の実装に関して、推定器620は、振幅に適用されるパワーが1よりも大きい限り、全方位および指向性成分のための任意のエネルギーまたは振幅関連の尺度を提供することができることが概説されている。エネルギーまたは振幅関連の尺度としてのパワーの場合、指数は2に等しい。しかしながら、1.5から2.5の間の指数も有用である。さらに、パワー値ではなくラウドネス値に対応する振幅に3の累乗を適用するなど、さらに高い指数や累乗も有用である。このように、一般的には、エネルギーまたは振幅に関連する測定値を提供するには、2または3の累乗が好ましいが、1.5から4の累乗も一般的には好ましい。
【0140】
続いて、本発明の態様に関するいくつかの実施例をまとめる。
【0141】
第1の態様(拡散音成分のエネルギー補償)の主な実施例1a
【0142】
1a 1つ以上のチャンネルからなる入力信号から音場記述を生成する装置であって、
入力信号から拡散データを得るための入力信号分析器と、
前記入力信号から、各音場成分に直接成分と拡散成分を有する第1の音場成分グループの1つ以上の音場成分を生成し、前記入力信号から、直接成分のみを有する第2の音場成分グループを生成する音場成分生成器と、を備え、
前記音場成分生成器は、前記第1の音場成分グループを生成する際にエネルギー補償を行うように構成されており、前記エネルギー補償は、前記拡散データおよび前記第2の音場成分グループの数に応じて行うことを特徴とする音場記述生成装置。
【0143】
第2の態様(直接信号成分のエネルギー正規化)に関する主な実施例1b
【0144】
1b 少なくとも2つのチャンネルからなる入力信号から音場記述を生成する装置であって、
入力信号から方位データおよび拡散データを取得する入力信号分析器と、
入力信号から導出された全方位成分の第1の振幅関連尺度を推定し、入力信号から導出された指向性成分の第2の振幅関連尺度を推定するための推定器と、を備え、
前記音場の音場成分を生成する音場成分生成器であって、前記音場成分生成器は、前記第1の振幅関連尺度、前記第2の振幅関連尺度、前記方位データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成されている、音場成分生成装置。
【0145】
第3の態様の主な実施例1c:異なる生成器ブランチを持つシステムの実装
【0146】
1c モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する装置であって、
入力信号を分析して方位データおよび拡散データを導出する入力信号分析器と、
前記入力信号から所定の次数およびモードまでの低次音記述を生成する低次成分生成器であって、前記入力信号をコピーするか、または前記入力信号のチャンネルを加重結合することにより、前記低次音記述を得るように構成されている低次成分生成器と、
前記所定の次数以上または前記所定の次数および前記所定のモード以上かつ前記第1の打ち切り次数以下の中次音記述を、前記方位データおよび前記拡散データを用いて、少なくとも1つの直接部分および少なくとも1つの拡散部分の合成を使用することにより生成し、前記中次音記述が指向性寄与および拡散寄与で構成されるようにするための中次成分生成器と、
前記高次音記述が直接寄与のみからなるように、拡散成分の合成を行わずに、少なくとも1つの直接部分の合成を用いて、前記第1の打ち切り次数以上の成分を有する高次音記述を生成する高次成分生成器と、を備えた装置。
【0147】
2 実施例1a、1b、1cに記載の装置であって、
前記低次音記述、前記中次音記述、または前記高次音記述が、直交する出力音場の音場成分を含み、2つの音記述が1つの同じ音場成分を含まないようにする、または
前記中次成分生成器は、前記低次成分生成器が使用しない下の成分または第1の打ち切り次元の成分を生成する、装置。
【0148】
3 前述の実施例のうちの1つに記載の装置であって、
音場を表す1つまたは複数のオーディオチャンネルを有する入力ダウンミックス信号を受信するステップと、
前記音場を表す1つ以上の音の方位を受信または決定するステップと、
前記1つ以上の音方位を用いて、1つ以上の空間基底関数を評価するステップと、
入力されたダウンミックス信号チャンネルの第1の加重結合から、1つまたは複数の音場成分の第1のセットを導出するステップと、
入力ダウンミックス信号チャンネルの第2の重み付けされた結合と、1つまたは複数の評価された空間基底関数とから、1つ以上の直接音場成分の第2のセットを導出するステップと、
前記1つまたは複数の第1の音場成分のセットおよび1つまたは複数の第2の音場成分のセットを結合するステップと、を含む装置。
【0149】
4 前記第1および第2の音場成分のセットが直交している、前記実施例のうちの1つの装置。
【0150】
5 音場成分が直交基底関数の係数である、前記実施例のうちの1つの装置。
【0151】
6 音場成分が空間基底関数の係数である、前記実施例のうちの1つの装置。
【0152】
7 音場成分が球形または円形調和関数の係数である、前記実施例のうちの1つの装置。
【0153】
8 前記音場成分がアンビソニックス係数である前記実施例のうちの1つの装置。
【0154】
9 入力されたダウンミックス信号が3つ以下のオーディオチャンネルを有する、前記実施例の1つの装置。
【0155】
10 前述の実施例の1つの装置であって、
拡散値を受信または決定するステップと、
前記拡散値の関数として、1つ以上の拡散音成分を生成するステップと、
前記1つ以上の拡散音成分を、1つ以上の直接音場成分の第2のセットに結合するステップと、をさらに含む装置。
【0156】
11 拡散成分生成器が、拡散音情報を脱相関するための脱相関器をさらに備えている、前述の実施例の1つの装置。
【0157】
12 前記1つ以上の音場成分の第1のセットが拡散値から導出される、前述の実施例の1つの装置。
【0158】
13 前記1つ以上の音場成分の第1のセットが、1つ以上の音の方位から導出される、前記実施例の1つに記載の装置。
【0159】
14 時間周波数依存の音の方位を導出する前記実施例のうちの1つの装置。
【0160】
15 時間周波数依存の拡散値を導出する前記実施例のうちの1つの装置。
【0161】
16 前述の実施例の1つの装置であって、時間領域ダウンミックス信号の複数のチャンネルを、複数の時間-周波数タイルを有する周波数表現に分解するステップをさらに含む、装置。
【0162】
17 1つ以上のチャンネルからなる入力信号から音場記述を生成する方法であって、
前記入力信号から拡散データを取得するステップと、
前記入力信号から、音場成分ごとに直接成分と拡散成分を有する第1の音場成分グループのうち、1つ以上の音場成分を生成し、前記入力信号から、直接成分のみを有する第2の音場成分グループを生成するステップと、を含み、
前記生成は、前記第1の音場成分グループを生成する際にエネルギー補償を行うことを含み、前記エネルギー補償は、前記拡散データと前記第2の音場成分グループの数に依存する方法。
【0163】
18 少なくとも2つのチャンネルからなる入力信号から音場記述を生成する方法であって、
入力信号から方位データおよび拡散データを取得するステップと、
前記入力信号から導出される全方位成分に対する第1の振幅関連尺度を推定し、前記入力信号から導出される指向性成分に対する第2の振幅関連尺度を推定するためのステップと、
前記音場の音場成分を生成するステップであって、前記音場成分生成器は、前記第1の振幅関連尺度、前記第2の振幅関連尺度、前記方位データおよび前記拡散データを用いて、前記指向性成分のエネルギー補償を行うように構成されているステップと、
を含む方法。
【0164】
19 モノラル信号またはマルチチャンネル信号からなる入力信号を用いて音場記述を生成する方法であって、
入力信号を分析して、方位データおよび拡散データを導出するステップと、
前記入力信号から所定の次元およびモードまでの低次音記述を生成するステップであって、前記低次音生成器は、前記入力信号をコピーするか、または前記入力信号のチャンネルの加重結合を行うことにより、前記低次音記述を導出するように構成されているステップと、
前記所定の次元以上、または前記所定の次元および前記所定のモード以上で高次以下の中次音記述を、前記方位データおよび前記拡散データを用いて、少なくとも1つの直接部分および少なくとも1つの拡散部分の合成を用いて生成し、前記中次音記述が直接寄与および拡散寄与からなるようにするステップと、
拡散成分の合成を行わずに、少なくとも1つの直接部分の合成を用いて、高次以上の成分を持つ高次音記述を生成し、高次音記述が直接寄与のみで構成されるようにするステップと、
を含む方法。
【0165】
20 コンピュータまたはプロセッサ上で実行されるとき、実施例17、18、または19の1つの方法を実行するためのコンピュータプログラム。
【0166】
ここで言及しておきたいのは、先に述べたようなすべての代替案または態様、および以下の請求項の独立請求項で定義されたすべての態様は、個別に、すなわち、企図された代替案、対象物、または独立請求項以外の代替案または対象物なしに使用できるということである。しかし、他の実施形態では、2つ以上の代替案または態様または独立請求項を互いに組み合わせることができ、他の実施形態では、すべての態様または代替案およびすべての独立請求項を互いに組み合わせることができる。
【0167】
本発明的に符号化されたオーディオ信号は、デジタル記憶媒体や非一時的記憶媒体に保存することができ、また、無線伝送媒体やインターネットなどの有線伝送媒体などの伝送媒体を介して伝送することができる。
【0168】
いくつかの態様を装置の文脈で説明してきたが、これらの態様は、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する、対応する方法の説明も表すことは明らかである。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表している。
【0169】
特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、FLASHメモリなど、その上に格納された電子的に読み取り可能な制御信号を有する媒体を用いて行うことができ、これらの媒体は、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと協働する(または協働することができる)。
【0170】
本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアであって、本明細書に記載されている方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができるデータキャリアを含んでいる。
【0171】
一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の1つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。
【0172】
他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを含む。
【0173】
換言すれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0174】
したがって、本発明の方法のさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上に記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ読み取り可能な媒体)である。
【0175】
本発明方法のさらなる実施形態は、したがって、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されていてもよい。
【0176】
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成された、または適応された、例えばコンピュータ、またはプログラム可能な論理装置などの処理手段を備える。
【0177】
さらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータで構成される。
【0178】
いくつかの実施形態では、本明細書に記載された方法の一部またはすべての機能性を実行するために、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働してもよい。一般に、本方法は、好ましくは、任意のハードウェア装置によって実行される。
【0179】
上述した実施形態は、本発明の原理を説明するためのものに過ぎない。本明細書に記載された配置および詳細の修正および変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲によってのみ制限され、本明細書の実施形態の説明および解説によって提示された特定の詳細によっては制限されないことが意図される。
【0180】
参照によってその全体が組み込まれている参考文献
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamaki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.
[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64
[3] R. K. Furness, "Ambisonics―An overview," in AES 8th International Conference, April 1990, pp. 181―189.
[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011
[5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (corresponding to WO 2017/157803 A1)