特表2023-536156 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特表2023-536156オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1a
1b
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-08-23

(54)【発明の名称】オーディオ信号を符号化する、又は符号化オーディオシーンを復号化する装置、方法及びコンピュータープログラム

(51)【国際特許分類】

G10L 19/012 20130101AFI20230816BHJP

G10L 19/008 20130101ALI20230816BHJP

【ＦＩ】

G10L19/012

G10L19/008 100

【審査請求】有

【予備審査請求】有

(21)【出願番号】P 2023506177

(86)(22)【出願日】2021-05-31

(85)【翻訳文提出日】2023-03-22

(86)【国際出願番号】 EP2021064576

(87)【国際公開番号】W WO2022022876

(87)【国際公開日】2022-02-03

(31)【優先権主張番号】20188707.2

(32)【優先日】2020-07-30

(33)【優先権主張国・地域又は機関】EP

(81)【指定国・地域】

(71)【出願人】

【識別番号】500341779

【氏名又は名称】フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100133411

【弁理士】

【氏名又は名称】山本龍郎

(74)【代理人】

【識別番号】100067677

【弁理士】

【氏名又は名称】山本彰司

(72)【発明者】

【氏名】フッハス，ギローム

(72)【発明者】

【氏名】タマラプ，アーキト

(72)【発明者】

【氏名】アイヒェンシアー，アンドレア

(72)【発明者】

【氏名】コルセ，スリカンス

(72)【発明者】

【氏名】ドーラ，ステファン

(72)【発明者】

【氏名】ムルトラス，マーカス

(57)【要約】

符号化オーディオシーンを生成する装置、及び符号化オーディオシーンを復号化及び／又は処理する装置、並びに関連する方法、及びプロセッサによって実行されると、プロセッサに関連する方法を実行させる命令を記憶する非一時的記憶ユニットが開示される。符号化オーディオシーン３０４を処理する装置２００は、第１のフレーム３４６において、第１の音場パラメーター表現３１６と符号化オーディオ信号３４６とを含むことができ、第２のフレーム３４８が、非アクティブフレームであり、該装置は、第２のフレーム３４８が非アクティブフレームであることを検出する区間検出器２２００と、第２のフレーム３０８についてのパラメトリック記述３４８を使用して、第２のフレーム３０８についての合成オーディオ信号２２８を合成する合成信号シンセサイザー２１０と、第１のフレーム３０６についての符号化オーディオ信号３４６を復号化するオーディオデコーダー２３０と、第１の音場パラメーター表現３１６を使用し、かつ第２のフレーム３０８についての合成オーディオ信号２２８を使用して、第１のフレーム３０６についてのオーディオ信号２０２を空間的にレンダリングする空間レンダラー２４０、又は第１のフレーム３０６についてのオーディオ信号３４６と、第１のフレーム３０６についての第１の音場パラメーター表現３１６と、第２のフレーム３０８についての合成オーディオ信号２２８と、第２のフレーム３０８についての第２の音場パラメーター表現３１８とを含むメタデータ支援出力フォーマットを生成するトランスコーダーとを備える。
【選択図】図２

【特許請求の範囲】

【請求項1】

【請求項2】

前記音場パラメーター生成器（３１０）は、前記第１の音場パラメーター表現（３１６）又は前記第２の音場パラメーター表現（３１８）が聴取者位置に対する前記オーディオ信号（３０２）の特性を示すパラメーターを含むように、前記第１の音場パラメーター表現（３１６）又は前記第２の音場パラメーター表現（３１８）を生成するように構成される、請求項１に記載の装置。

【請求項3】

前記第１の音場パラメーター表現又は前記第２の音場パラメーター表現（３１６）は、前記第１のフレーム（３０６）における聴取者位置に対する音の方向を示す１つ以上の方向パラメーター、又は前記第１のフレーム（３０６）における直接音に対する拡散音の部分を示す１つ以上の拡散性パラメーター、又は前記第１のフレーム（３０６）における直接音と拡散音とのエネルギー比を示す１つ以上のエネルギー比パラメーター、又は前記第１のフレーム（３０６）におけるチャネル間／サラウンドコヒーレンスパラメーターを含む、請求項１又は２に記載の装置。

【請求項4】

前記音場パラメーター生成器（３１０）は、前記オーディオ信号の前記第１のフレーム（３０６）又は前記第２のフレーム（３０８）から、複数の個別の音源を決定し、音源ごとに、パラメトリック記述（３４８）を決定するように構成される、請求項１～３のいずれか一項に記載の装置。

【請求項5】

前記音場生成器（３１０）は、前記第１のフレーム（３０６）又は前記第２のフレーム（３０８）を、各周波数ビンが個別の音源を表す複数の周波数ビンに分解し、各周波数ビンについて、少なくとも１つの音場パラメーターを決定するように構成され、前記音場パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、エネルギー比パラメーター、又は聴取者位置に対する前記オーディオ信号の前記第１のフレーム（３０６）によって表される前記音場の特性を表す任意のパラメーターを例示的に含む、請求項４に記載の装置。

【請求項6】

前記第１のフレーム（３０６）及び前記第２のフレーム（３０８）についての前記オーディオ信号は、聴取者に対する音場を表す複数の成分を有する入力フォーマットを含み、
前記音場パラメーター生成器（３１０）は、例えば前記複数の成分のダウンミックスを使用して、前記第１のフレーム（３０６）及び前記第２のフレーム（３０８）についての１つ以上のトランスポートチャネルを算出し、前記入力フォーマットを分析して前記１つ以上のトランスポートチャネルに関連する前記第１のパラメーター表現を決定するように構成され、又は
前記音場パラメーター生成器（３１０）は、例えば前記複数の成分のダウンミックスを使用して、１つ以上のトランスポートチャネルを算出するように構成され、
前記区間検出器（３２０）は、前記第２のフレーム（３０８）における前記オーディオ信号から導出された前記１つ以上のトランスポートチャネルを分析するように構成される、請求項１～５のいずれか一項に記載の装置。

【請求項7】

前記第１のフレーム（３０６）又は前記第２のフレーム（３０８）についての前記オーディオ信号は、前記第１のフレーム及び前記第２のフレームの各フレームについて、１つ以上のトランスポートチャネルと、各フレームに関連付けられたメタデータとを有する入力フォーマットを含み、
前記音場パラメーター生成器（３１０）は、前記第１のフレーム（３０６）及び前記第２のフレーム（３０８）から前記メタデータを読み取り、前記第１のフレーム（３０６）についての前記メタデータを前記第１の音場パラメーター表現（３１６）として使用又は処理し、前記第２のフレーム（３０８）の前記メタデータを処理して前記第２の音場パラメーター表現（３１８）を取得するように構成され、前記第２の音場パラメーター表現（３１８）を取得する前記処理は、前記第２のフレーム（３０８）についての前記メタデータの前記伝送に必要な情報単位の量が、前記処理の前に必要な量に対して低減されるようなものである、請求項１～５のいずれか一項に記載の装置。

【請求項8】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記メタデータを処理して、前記メタデータにおける情報項目の数を低減するか、又は前記メタデータにおける前記情報項目を時間分解能若しくは周波数分解能等の低分解能に再サンプリングするか、又は前記第２のフレーム（３０８）についての前記メタデータの前記情報単位を再量子化前の状況に対してより粗い表現に再量子化するように構成される、請求項７に記載の装置。

【請求項9】

前記オーディオ信号エンコーダー（３３０）は、前記非アクティブフレームについての無音情報記述を前記パラメトリック記述（３４８）として決定するように構成され、
前記無音情報記述は、前記第２のフレーム（３０８）についてのエネルギー、パワー、又はラウドネス等の振幅関連情報と、スペクトル整形情報等の整形情報、又はエネルギー、パワー、若しくはラウドネス等の前記第２のフレーム（３０８）についての振幅関連情報と、前記第２のフレーム（３０８）についての線形予測符号化（ＬＰＣ）パラメーター、又は異なるスケールパラメーターが異なる幅を有する周波数帯域を指すように変化する関連する周波数分解能を有する前記第２のフレーム（３０８）についてのスケールパラメーターとを例示的に含む、請求項１～８のいずれか一項に記載の装置。

【請求項10】

前記オーディオ信号エンコーダー（３３０）は、前記第１のフレーム（３０６）について、時間領域又は周波数領域符号化モードを使用して前記オーディオ信号を符号化するように構成され、前記符号化オーディオ信号は、例えば、符号化された時間領域サンプルと、符号化されたスペクトル領域サンプルと、符号化されたＬＰＣ領域サンプルと、前記オーディオ信号の成分から取得された、又は例えばダウンミキシング動作によって前記オーディオ信号の前記成分から導出された１つ以上のトランスポートチャネルから取得されたサイド情報とを含む、請求項１～９のいずれか一項に記載の装置。

【請求項11】

前記オーディオ信号（３０２）は、１次アンビソニックスフォーマット、高次アンビソニックスフォーマット、５．１若しくは７．１若しくは７．１＋４等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された１つ又は複数の異なるオーディオオブジェクトを表す１つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含み、
前記音場パラメーター生成器（３１０）は、前記パラメーターが定義された聴取者位置に対する音場を表すように、前記第１の音場パラメーター表現（３１６）及び前記第２の音場表現を決定するように構成され、又は
前記オーディオ信号は、現実のマイクロホン若しくは仮想マイクロホンによってピックアップされたマイクロホン信号、又は、例えば１次アンビソニックスフォーマット若しくは高次アンビソニックスフォーマットである合成的に生成されたマイクロホン信号を含む、請求項１～１０のいずれか一項に記載の装置。

【請求項12】

前記区間検出器（３２０）は、前記第２のフレーム（３０８）及び前記第２のフレーム（３０８）に続く１つ以上のフレームにわたって非アクティブフェーズを検出するように構成され、
前記オーディオ信号エンコーダー（３３０）は、フレームの時間シーケンスに関して、前記第２のフレーム（３０８）から少なくとも１つのフレームだけ分離された更なる第３のフレームについてのみ、非アクティブフレームについての更なるパラメトリック記述（３４８）を生成するように構成され、
前記音場パラメーター生成器（３１０）は、前記オーディオ信号エンコーダー（３３０）がパラメトリック記述を決定したフレームについてのみ、更なる音場パラメーター表現を決定するように構成され、又は
前記区間検出器（３２０）は、前記第２のフレーム（３０８）及び前記第２のフレーム（３０８）に続く８つのフレームを含む非アクティブフェーズを決定するように構成され、前記オーディオ信号エンコーダー（３３０）は、８番目のフレームごとにのみ非アクティブフレームについてのパラメトリック記述を生成するように構成され、前記音場パラメーター生成器（３１０）は、８番目の非アクティブフレームごとに音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器（３１０）は、前記オーディオ信号エンコーダー（３３０）が非アクティブフレームについてのパラメトリック記述を生成しない場合であっても、各非アクティブフレームについての音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器（３１０）は、前記オーディオ信号エンコーダー（３３０）が１つ以上の非アクティブフレームについて前記パラメトリック記述を生成するよりも高いフレームレートを有するパラメーター表現を決定するように構成される、請求項１～１１のいずれか一項に記載の装置。

【請求項13】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
周波数帯域における１つ以上の方向についての空間パラメーターと、総エネルギーに対する１つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とを使用すること、又は
拡散音若しくは直接音の比を示す拡散性パラメーターを決定すること、又は
前記第１のフレーム（３０６）における量子化と比較してより粗い量子化方式を使用して方向情報を決定すること、又は
より粗い時間又は周波数分解能を取得するために、時間又は周波数にわたって方向の平均化を使用すること、又は
アクティブフレームについての前記第１の音場パラメーター表現（３１６）と同じ周波数分解能を有し、前記非アクティブフレームについての前記音場パラメーター表現における方向情報に関してアクティブフレームについての時間発生よりも低い前記時間発生を有する、１つ以上の非アクティブフレームについての音場パラメーター表現を決定すること、又は
拡散性パラメーターを有する前記第２の音場パラメーター表現（３１８）を決定することであって、該拡散性パラメーターは、アクティブフレームの場合と同じ時間又は周波数分解能であるが、より粗い量子化で伝送されること、又は
第１の数のビットを用いて前記第２の音場表現のための拡散性パラメーターを量子化することであって、各量子化インデックスの第２の数のビットのみが伝送され、前記第２の数のビットは、前記第１の数のビットよりも小さいこと、又は
前記第２の音場パラメーター表現（３１８）について、前記オーディオ信号が空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間コヒーレンスを決定し、若しくは前記オーディオ信号が前記空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間レベル差を決定すること、又は
前記オーディオ信号によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定すること、
を行うように構成される、請求項１～１２のいずれか一項に記載の装置。

【請求項14】

第１のフレーム（３４６）において第１の音場パラメーター表現（３１６）と符号化オーディオ信号（３４６）とを含む符号化オーディオシーン（３０４）を処理する装置（２００）であって、第２のフレーム（３４８）が、非アクティブフレームであり、前記装置は、
前記第２のフレーム（３４８）が前記非アクティブフレームであることを検出する区間検出器（２２００）と、
前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して、前記第２のフレーム（３０８）についての合成オーディオ信号（２２８）を合成する合成信号シンセサイザー（２１０）と、
前記第１のフレーム（３０６）についての前記符号化オーディオ信号（３４６）を復号化するオーディオデコーダー（２３０）と、
前記第１の音場パラメーター表現（３１６）を使用し、かつ前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）を使用して、前記第１のフレーム（３０６）についての前記オーディオ信号（２０２）を空間的にレンダリングする空間レンダラー（２４０）、又は
前記第１のフレーム（３０６）についての前記オーディオ信号（３４６）と、前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）と、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）と、前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）とを含むメタデータ支援出力フォーマットを生成するトランスコーダーと、
を備える、装置。

【請求項15】

前記符号化オーディオシーン（３０４）は、前記第２のフレーム（３０８）について、第２の音場パラメーター記述（３１８）を含み、前記装置は、前記第２の音場パラメーター表現（３１８）から１つ以上の音場パラメーター（２１９、３１８）を導出する音場パラメータープロセッサ（２７５、１０７５）を備え、前記空間レンダラー（２２０）は、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の前記レンダリングのために、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを使用するように構成される、請求項１４に記載の装置。

【請求項16】

前記第２のフレーム（３０８）についての１つ以上の音場パラメーター（２１９、３１８）を導出するパラメータープロセッサ（２７５、１０７５）を備え、
前記パラメータープロセッサ（２７５、１０７５）は、前記第１のフレーム（３０６）についての前記音場パラメーター表現を記憶し、前記第１のフレーム（３０６）についての前記記憶された第１の音場パラメーター表現（３１６）を使用して前記第２のフレーム（３０８）についての１つ以上の音場パラメーターを合成するように構成され、前記第２のフレーム（３０８）は、前記第１のフレーム（３０６）に時間的に後続し、又は
前記パラメータープロセッサ（２７５、１０７５）は、前記第２のフレーム（３０８）の前の時間に発生するか、又は前記第２のフレーム（３０８）の後の時間に発生する複数のフレームについての１つ以上の音場パラメーター表現（３１８）を記憶して、複数のフレームについての前記１つ以上の音場パラメーター表現のうちの前記少なくとも２つの音場パラメーター表現を使用して外挿又は内挿することにより、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを決定するように構成され、
前記空間レンダラーは、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の前記レンダリングのために、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを使用するように構成される、請求項１４に記載の装置。

【請求項17】

前記パラメータープロセッサ（２７５）は、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを決定するために外挿又は内挿する場合、前記第２のフレーム（３０８）の前又は後の時間に発生する前記少なくとも２つの音場パラメーター表現に含まれる方向を用いてディザリングを実行するように構成される、請求項１６に記載の装置。

【請求項18】

前記符号化オーディオシーン（３０４）は、前記第１のフレーム（３０６）についての１つ以上のトランスポートチャネル（３２６）を含み、
前記合成信号生成器（２１０）は、前記合成オーディオ信号（２２８）として前記第２のフレーム（３０８）についての１つ以上のトランスポートチャネル（２２８）を生成するように構成され、
前記空間レンダラー（２２０）は、前記第２のフレーム（３０８）についての前記１つ以上のトランスポートチャネル（２２８）を空間的にレンダリングするように構成される、請求項１４～１７のいずれか一項に記載の装置。

【請求項19】

前記合成信号生成器（２１０）は、前記第２のフレーム（３０８）について、前記空間レンダラーのオーディオ出力フォーマットに関連する個別の成分に対する複数の合成成分オーディオ信号を前記合成オーディオ信号（２２８）として生成するように構成される、請求項１４～１８のいずれか一項に記載の装置。

【請求項20】

前記合成信号生成器（２１０）は、前記オーディオ出力フォーマット（２０２）に関連する少なくとも２つの個別の成分（２２８ａ、２２８ｂ）のサブセットのうちの少なくとも各１つについて、個別の合成成分オーディオ信号を生成するように構成され、
第１の個別の合成成分オーディオ信号（２２８ａ）が、第２の個別の合成成分オーディオ信号（２２８ｂ）から非相関化され、
前記空間レンダラー（２２０）は、前記第１の個別の合成成分オーディオ信号（２２８ａ）と前記第２の個別の合成成分オーディオ信号（２２８ｂ）との組み合わせを使用して前記オーディオ出力フォーマット（２０２）の成分をレンダリングするように構成される、請求項１９に記載の装置。

【請求項21】

前記空間レンダラー（２２０）は、共分散法を適用するように構成される、請求項２０に記載の装置。

【請求項22】

前記空間レンダラー（２２０）は、いかなる非相関器処理も使用しないように、又は、前記共分散法によって示される非相関器処理（７３０）によって生成された非相関信号（２２８ａ）の量のみが、前記オーディオ出力フォーマット（２０２）の成分を生成する際に使用されるように前記非相関器処理（７３０）を制御するように構成される、請求項２１に記載の装置。

【請求項23】

前記合成信号生成器（２１０、７１０、８１０）は、コンフォートノイズ生成器である、請求項１４～２２のいずれか一項に記載の装置。

【請求項24】

前記合成信号生成器（２１０）は、ノイズ生成器を含み、前記第１の個別の合成成分オーディオ信号は、前記ノイズ生成器の第１のサンプリングによって生成され、前記第２の個別の合成成分オーディオ信号は、前記ノイズ生成器の第２のサンプリングによって生成され、前記第２のサンプリングは、前記第１のサンプリングとは異なる、請求項２０～２３のいずれか一項に記載の装置。

【請求項25】

前記ノイズ生成器は、ノイズテーブルを含み、前記第１の個別の合成成分オーディオ信号は、前記ノイズテーブルの第１の部分を取得することによって生成され、前記第２の個別の合成成分オーディオ信号は、前記ノイズテーブルの第２の部分を取得することによって生成され、前記ノイズテーブルの前記第２の部分は、前記ノイズテーブルの前記第１の部分とは異なり、又は
前記ノイズ生成器は、擬似ノイズ生成器を含み、前記第１の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第１のシードを用いて生成され、前記第２の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第２のシードを用いて生成される、請求項２４に記載の装置。

【請求項26】

前記符号化オーディオシーン（３０４）は、前記第１のフレーム（３０６）について、２つ以上のトランスポートチャネル（３２６）を含み、
前記合成信号生成器（２１０、７１０、８１０）は、ノイズ生成器（８１０）を含み、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して、前記ノイズ生成器（８１０）をサンプリングすることによって第１のトランスポートチャネルを生成し、前記ノイズ生成器（８１０）をサンプリングすることによって第２のトランスポートチャネルを生成するように構成され、前記ノイズ生成器（１８０）をサンプリングすることによって決定される前記第１のトランスポートチャネル及び前記第２のトランスポートチャネルは、前記第２のフレーム（３０８）についての同じパラメトリック記述（３４８）を使用して重み付けされる、請求項１４～２５のいずれか一項に記載の装置。

【請求項27】

前記空間レンダラー（２２０）は、
直接信号と、前記第１の音場パラメーター表現（３１６）の制御下で前記直接信号から非相関器（７３０）によって生成された拡散信号とのミキシングを使用して、前記第１のフレーム（３０６）に対して第１のモードで動作し、
第１の合成成分信号と前記第２の合成成分信号とのミキシングを使用して、前記第２のフレーム（３０８）に対して第２のモードで動作するように構成され、前記第１の合成成分信号及び前記第２の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって前記合成信号シンセサイザー（２１０）によって生成される、請求項１４～２６のいずれか一項に記載の装置。

【請求項28】

前記空間レンダラー（２２０）は、パラメータープロセッサによって前記第２のフレーム（３０８）について導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、前記第２のモードで前記ミキシング（７４０）を制御するように構成される、請求項２７に記載の装置。

【請求項29】

前記合成信号生成器（２１０）は、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して前記第１のフレーム（３０６）についての合成オーディオ信号（２２８）を生成するように構成され、
前記空間レンダラーは、前記空間レンダリングの前又は後に、前記第１のフレーム（３０６）についての前記オーディオ信号と前記第１のフレーム（３０６）についての前記合成オーディオ信号（２２８）との重み付き合成を実行するように構成され、前記重み付き合成において、前記第１のフレーム（３０６）についての前記合成オーディオ信号（２２８）の強度は、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の強度に対して低減される、請求項１４～２８のいずれか一項に記載の装置。

【請求項30】

パラメータープロセッサ（２７５、１０７５）が、前記第２の非アクティブフレーム（３０８）について、前記第２のフレーム（３０８）によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定するように構成され、前記空間レンダラーは、前記サウンドコヒーレンスに基づいて前記第２のフレーム（３０８）における直接信号と拡散信号との間でエネルギーを再分配するように構成され、サウンドサラウンドコヒーレント成分のエネルギーが、前記拡散エネルギーから除去されて指向性成分に再分配され、前記指向性成分は、再生空間内でパンされる、請求項１４～２９のいずれか一項に記載の装置。

【請求項31】

前記空間レンダラーによって生成されたオーディオ出力フォーマットを、トランスコードされた出力フォーマット、例えば、予め定義された位置に配置されるラウドスピーカー専用の複数の出力チャネルを含む出力フォーマット、又はＦＯＡ若しくはＨＯＡデータを含むトランスコードされた出力フォーマットに変換する出力インターフェイスを更に備え、又は
前記空間レンダラーの代わりに、前記トランスコーダーは、前記第１のフレーム（３０６）についての前記オーディオ信号と、前記第１のフレーム（３０６）についての前記第１の音場パラメーターと、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）と、前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）とを含む前記メタデータ支援出力フォーマットを生成するために提供される、請求項１４～１８のいずれか一項に記載の装置。

【請求項32】

前記区間検出器（２２００）は、前記第２のフレーム（３４８）が前記非アクティブフレームであることを検出するように構成される、請求項１４～３１のいずれか一項に記載の装置。

【請求項33】

第１のフレーム（３０６）及び第２のフレーム（３０８）を有するオーディオ信号から符号化オーディオシーンを生成する方法であって、
前記第１のフレーム（３０６）における前記オーディオ信号から前記第１のフレーム（３０６）についての第１の音場パラメーター表現（３１６）を決定し、前記第２のフレーム（３０８）における前記オーディオ信号から前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）を決定することと、
前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第１のフレーム（３０６）がアクティブフレームであり、前記第２のフレーム（３０８）が非アクティブフレームであると判定することと、
前記アクティブフレームである前記第１のフレーム（３０６）についての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を生成することと、
前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）と、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）と、前記第１のフレーム（３０６）についての前記符号化オーディオ信号と、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）とを一緒にすることによって、前記符号化オーディオシーンを構成することと、
を含む、方法。

【請求項34】

第１のフレーム（３０６）において、第１の音場パラメーター表現（３１６）と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第２のフレーム（３０８）が、非アクティブフレームであり、前記方法は、
前記第２のフレーム（３０８）が前記非アクティブフレームであることを検出することと、
前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して、前記第２のフレーム（３０８）についての合成オーディオ信号（２２８）を合成することと、
前記第１のフレーム（３０６）についての前記符号化オーディオ信号を復号化することと、
前記第１の音場パラメーター表現（３１６）を使用し、かつ前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）を使用して、前記第１のフレーム（３０６）についての前記オーディオ信号を空間的にレンダリングすること、又は前記第１のフレーム（３０６）についての前記オーディオ信号、前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）、及び前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）を含むメタデータ支援出力フォーマットを生成することと、
を含む、方法。

【請求項35】

前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を提供することを更に含む、請求項３４に記載の方法。

【請求項36】

符号化オーディオシーン（３０４）であって、
第１のフレーム（３０６）についての第１の音場パラメーター表現（３１６）と、
第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）と、
前記第１のフレーム（３０６）についての符号化オーディオ信号と、
前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）と、
を含む、符号化オーディオシーン。

【請求項37】

コンピューター又はプロセッサ上で実行されるときに、請求項３３又は請求項３４又は請求項３５に記載の方法を実行するコンピュータープログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本明細書は、特に、符号化オーディオシーンを生成する装置、並びに符号化オーディオシーンを復号化及び／又は処理する装置に関する。

【0002】

本明細書はまた、関連する方法と、プロセッサによって実行されたときにプロセッサに関連する方法を実行させる命令を記憶する非一時的記憶ユニットとに関する。

【0003】

本明細書は、空間像が指向性オーディオ符号化（ＤｉｒＡＣ：directional audio coding）パラダイムによってパラメトリックに符号化された、又はメタデータ支援空間オーディオ（ＭＡＳＡ：Metadata-Assisted Spatial Audio）フォーマットで伝送されたオーディオシーンの不連続伝送モード（ＤＴＸ）及びコンフォートノイズ生成（ＣＮＧ：comfort noise generation）に関する方法を説明する。

【0004】

実施形態は、ＤｉｒＡＣ及びＭＡＳＡのＤＴＸモード等のパラメトリック符号化空間オーディオの不連続伝送に関する。

【0005】

本発明の実施形態は、例えば音場マイクロホンでキャプチャされた会話音声を効率的に伝送し、レンダリングすることに関する。このようにしてキャプチャされたオーディオ信号は、サウンドイベントを３次元空間内で定位させることができ、没入感が強化され、理解度及びユーザー体験の両方が向上するため、概して３次元（３Ｄ）オーディオと称されている。

【背景技術】

【0006】

例えば３次元的にオーディオシーンを伝送するためには、通常、伝送すべき大量のデータを生じる複数のチャネルを処理することが必要となる。例えば、指向性オーディオ符号化（ＤｉｒＡＣ）技術［１］を使用して、元の大きなデータレートを低減することができる。ＤｉｒＡＣは、オーディオシーンを分析し、それをパラメトリックに表すための効率的な手法と見なされている。ＤｉｒＡＣは、知覚的に動機付けられ、周波数帯域ごとに測定された到来方向（ＤＯＡ：direction of arrival）及び拡散性を用いて音場を表すものである。これは、或る瞬間の１つの臨界帯域に対して、聴覚系の空間分解能が、方向に対する１つのキューと両耳間のコヒーレンスに対する別のキューとを復号化することに限定されるという仮定に基づいて構築される。そして、空間音は、２つのストリーム、すなわち、無指向性拡散ストリーム及び指向性非拡散ストリームをクロスフェードすることによって周波数領域で再生される。

【0007】

さらに、一般的な会話では、各話者は、約６０％の時間、沈黙している。音声を含むオーディオ信号のフレーム（「アクティブフレーム」）と、バックグラウンドノイズ又は無音のみを含むフレーム（「非アクティブフレーム」）とを区別することによって、音声コーダーはデータレートを大幅に節約することができる。非アクティブフレームは通常、ほとんど又は全く情報を搬送しないものとして認識され、音声コーダーは通常、かかるフレームについてのそれらのビットレートを低減するように、又は更には情報を伝送しないように構成される。かかる場合、コーダーは、いわゆる不連続伝送（ＤＴＸ）モードで動作し、これは、発話入力がない場合に通信コーデックの伝送レートを大幅に低減するための効率的な方法である。このモードでは、バックグラウンドノイズのみからなると判定された大部分のフレームは、伝送から外され、デコーダーにおいて何らかのコンフォートノイズ生成（ＣＮＧ）に置き換えられる。これらのフレームでは、信号の非常に低レートのパラメーター表現が、フレームごとではなく定期的に送信される無音挿入記述子（ＳＩＤ：Silence Insertion Descriptor）フレームによって伝達される。これにより、デコーダーにおけるＣＮＧは、実際のバックグラウンドノイズに似た人工的なノイズを生成することができる。

【0008】

本発明の実施形態は、ＤＴＸシステムに関するものであり、特に、例えば音場マイクロホンによってキャプチャされ、ＤｉｒＡＣパラダイム等に基づくコーディング方式によってパラメトリックにコーディングされ得る３ＤオーディオシーンのためのＳＩＤ及びＣＮＧに関する。本発明は、会話型没入型音声を伝送するためのビットレート要求の大幅な低減を可能にする。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】V. Pulkki, M-V. Laitinen, J. Vilkamo, J. Ahonen, T. Lokki, and T. Pihlajamaki, "Directional audio coding - perception-based reproduction of spatial sound", International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan

【非特許文献2】3GPP（登録商標） TS 26.194; Voice Activity Detector (VAD); - 3GPP（登録商標） technical specification Retrieved on 2009-06-17

【非特許文献3】3GPP（登録商標） TS 26.449, "Codec for Enhanced Voice Services (EVS); Comfort Noise Generation (CNG) Aspects"

【非特許文献4】3GPP（登録商標） TS 26.450, "Codec for Enhanced Voice Services (EVS); Discontinuous Transmission (DTX)"

【非特許文献5】A. Lombard, S. Wilde, E. Ravelli, S. Dohla, G. Fuchs and M. Dietz, "Frequency-domain Comfort Noise Generation for Discontinuous Transmission in EVS," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, QLD, 2015, pp. 5893-5897, doi: 10.1109/ICASSP.2015.7179102

【非特許文献6】V. Pulkki, "Virtual source positioning using vector base amplitude panning", J. Audio Eng. Soc., 45(6):456-466, June 1997

【非特許文献7】J. Ahonen and V. Pulkki, "Diffuseness estimation using temporal variation of intensity vectors", in Workshop on Applications of Signal Processing to Audio and Acoustics WASPAA, Mohonk Mountain House, New Paltz, 2009

【非特許文献8】T. Hirvonen, J. Ahonen, and V. Pulkki, "Perceptual compression methods for metadata in Directional Audio Coding applied to audiovisual teleconference", AES 126th Convention 2009, May 7-10, Munich, Germany

【非特許文献9】Vilkamo, Juha & Backstrom, Tom & Kuntz, Achim. (2013). Optimized Covariance Domain Framework for Time--Frequency Processing of Spatial Audio. Journal of the Audio Engineering Society. 61

【非特許文献10】M. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64, doi: 10.1109/ICASSP.2011.5946328

【発明の概要】

【0010】

一態様によれば、第１のフレーム及び第２のフレームを有するオーディオ信号から符号化オーディオシーンを生成する装置であって、
前記第１のフレームにおける前記オーディオ信号から前記第１のフレームについての第１の音場パラメーター表現を決定し、前記第２のフレームにおける前記オーディオ信号から前記第２のフレームについての第２の音場パラメーター表現を決定する音場パラメーター生成器と、
前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第１のフレームがアクティブフレームであり、前記第２のフレームが非アクティブフレームであると判定する区間検出器と、
前記アクティブフレームである前記第１のフレームについての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第２のフレームについてのパラメトリック記述を生成するオーディオ信号エンコーダーと、
前記第１のフレームについての前記第１の音場パラメーター表現と、前記第２のフレームについての前記第２の音場パラメーター表現と、前記第１のフレームについての前記符号化オーディオ信号と、前記第２のフレームについての前記パラメトリック記述とを一緒にすることによって、前記符号化オーディオシーンを構成する符号化信号形成器と、
を備える、装置が提供される。

【0011】

前記音場パラメーター生成器は、前記第１の音場パラメーター表現又は前記第２の音場パラメーター表現が聴取者位置に対する前記オーディオ信号の特性を示すパラメーターを含むように、前記第１の音場パラメーター表現又は前記第２の音場パラメーター表現を生成するように構成することができる。

【0012】

前記第１の音場パラメーター表現又は前記第２の音場パラメーター表現は、前記第１のフレームにおける聴取者位置に対する音の方向を示す１つ以上の方向パラメーター、又は前記第１のフレームにおける直接音に対する拡散音の部分を示す１つ以上の拡散性パラメーター、又は前記第１のフレームにおける直接音と拡散音とのエネルギー比を示す１つ以上のエネルギー比パラメーター、又は前記第１のフレームにおけるチャネル間／サラウンドコヒーレンスパラメーターを含むことができる。

【0013】

前記音場パラメーター生成器は、前記オーディオ信号の前記第１のフレーム又は前記第２のフレームから、複数の個別の音源を決定し、音源ごとに、パラメトリック記述を決定するように構成することができる。

【0014】

前記音場生成器は、前記第１のフレーム又は前記第２のフレームを、各周波数ビンが個別の音源を表す複数の周波数ビンに分解し、各周波数ビンについて、少なくとも１つの音場パラメーターを決定するように構成することができ、前記音場パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、エネルギー比パラメーター、又は聴取者位置に対する前記オーディオ信号の前記第１のフレームによって表される前記音場の特性を表す任意のパラメーターを例示的に含む。

【0015】

前記第１のフレーム及び前記第２のフレームについての前記オーディオ信号は、聴取者に対する音場を表す複数の成分を有する入力フォーマットを含むことができ、
前記音場パラメーター生成器は、例えば前記複数の成分のダウンミックスを使用して、前記第１のフレーム及び前記第２のフレームについての１つ以上のトランスポートチャネルを算出し、前記入力フォーマットを分析して前記１つ以上のトランスポートチャネルに関連する前記第１のパラメーター表現を決定するように構成され、又は
前記音場パラメーター生成器は、例えば前記複数の成分のダウンミックスを使用して、１つ以上のトランスポートチャネルを算出するように構成され、
前記区間検出器は、前記第２のフレームにおける前記オーディオ信号から導出された前記１つ以上のトランスポートチャネルを分析するように構成される。

【0016】

前記第１のフレーム又は前記第２のフレームについての前記オーディオ信号は、前記第１のフレーム及び前記第２のフレームの各フレームについて、１つ以上のトランスポートチャネルと、各フレームに関連付けられたメタデータとを有する入力フォーマットを含むことができ、
前記音場パラメーター生成器は、前記第１のフレーム及び前記第２のフレームから前記メタデータを読み取り、前記第１のフレームについての前記メタデータを前記第１の音場パラメーター表現として使用又は処理し、前記第２のフレームの前記メタデータを処理して前記第２の音場パラメーター表現を取得するように構成され、前記第２の音場パラメーター表現を取得する前記処理は、前記第２のフレームについての前記メタデータの前記伝送に必要な情報単位の量が、前記処理の前に必要な量に対して低減されるようなものである。

【0017】

前記音場パラメーター生成器は、前記第２のフレームについての前記メタデータを処理して、前記メタデータにおける情報項目の数を低減するか、又は前記メタデータにおける前記情報項目を時間分解能若しくは周波数分解能等の低分解能に再サンプリングするか、又は前記第２のフレームについての前記メタデータの前記情報単位を再量子化前の状況に対してより粗い表現に再量子化するように構成することができる。

【0018】

前記オーディオ信号エンコーダーは、前記非アクティブフレームについての無音情報記述を前記パラメトリック記述として決定するように構成することができ、
前記無音情報記述は、前記第２のフレームについてのエネルギー、パワー、又はラウドネス等の振幅関連情報と、スペクトル整形情報等の整形情報、又はエネルギー、パワー、若しくはラウドネス等の前記第２のフレームについての振幅関連情報と、前記第２のフレームについての線形予測符号化（ＬＰＣ）パラメーター、又は異なるスケールパラメーターが異なる幅を有する周波数帯域を指すように変化する関連する周波数分解能を有する前記第２のフレームについてのスケールパラメーターとを例示的に含む。

【0019】

前記オーディオ信号エンコーダーは、前記第１のフレームについて、時間領域又は周波数領域符号化モードを使用して前記オーディオ信号を符号化するように構成することができ、前記符号化オーディオ信号は、例えば、符号化された時間領域サンプルと、符号化されたスペクトル領域サンプルと、符号化されたＬＰＣ領域サンプルと、前記オーディオ信号の成分から取得された、又は例えばダウンミキシング動作によって前記オーディオ信号の前記成分から導出された１つ以上のトランスポートチャネルから取得されたサイド情報とを含む。

【0020】

前記オーディオ信号は、１次アンビソニックスフォーマット、高次アンビソニックスフォーマット、５．１若しくは７．１若しくは７．１＋４等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された１つ又は複数の異なるオーディオオブジェクトを表す１つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含むことができ、
前記音場パラメーター生成器は、前記パラメーターが定義された聴取者位置に対する音場を表すように、前記第１の音場パラメーター表現及び前記第２の音場表現を決定するように構成され、又は
前記オーディオ信号は、現実のマイクロホン若しくは仮想マイクロホンによってピックアップされたマイクロホン信号、又は、例えば１次アンビソニックスフォーマット若しくは高次アンビソニックスフォーマットである合成的に生成されたマイクロホン信号を含む。

【0021】

前記区間検出器は、前記第２のフレーム及び前記第２のフレームに続く１つ以上のフレームにわたって非アクティブフェーズを検出するように構成することができ、
前記オーディオ信号エンコーダーは、フレームの時間シーケンスに関して、前記第２のフレームから少なくとも１つのフレームだけ分離された更なる第３のフレームについてのみ、非アクティブフレームについての更なるパラメトリック記述を生成するように構成され、
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーがパラメトリック記述を決定したフレームについてのみ、更なる音場パラメーター表現を決定するように構成され、又は
前記区間検出器は、前記第２のフレーム及び前記第２のフレームに続く８つのフレームを含む非アクティブフェーズを決定するように構成され、前記オーディオ信号エンコーダーは、８番目のフレームごとにのみ非アクティブフレームについてのパラメトリック記述を生成するように構成され、前記音場パラメーター生成器は、８番目の非アクティブフレームごとに音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーが非アクティブフレームについてのパラメトリック記述を生成しない場合であっても、各非アクティブフレームについての音場パラメーター表現を生成するように構成され、又は
前記音場パラメーター生成器は、前記オーディオ信号エンコーダーが１つ以上の非アクティブフレームについて前記パラメトリック記述を生成するよりも高いフレームレートを有するパラメーター表現を決定するように構成される。

【0022】

前記音場パラメーター生成器は、前記第２のフレームについての前記第２の音場パラメーター表現を決定するために、
周波数帯域における１つ以上の方向についての空間パラメーターと、総エネルギーに対する１つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とを使用すること、又は
拡散音若しくは直接音の比を示す拡散性パラメーターを決定すること、又は
前記第１のフレームにおける量子化と比較してより粗い量子化方式を使用して方向情報を決定すること、又は
より粗い時間又は周波数分解能を取得するために、時間又は周波数にわたって方向の平均化を使用すること、又は
アクティブフレームについての前記第１の音場パラメーター表現と同じ周波数分解能を有し、前記非アクティブフレームについての前記音場パラメーター表現における方向情報に関してアクティブフレームについての時間発生よりも低い前記時間発生を有する、１つ以上の非アクティブフレームについての音場パラメーター表現を決定すること、又は
拡散性パラメーターを有する前記第２の音場パラメーター表現を決定することであって、該拡散性パラメーターは、アクティブフレームの場合と同じ時間又は周波数分解能であるが、より粗い量子化で伝送されること、又は
第１の数のビットを用いて前記第２の音場表現のための拡散性パラメーターを量子化することであって、各量子化インデックスの第２の数のビットのみが伝送され、前記第２の数のビットは、前記第１の数のビットよりも小さいこと、又は
前記第２の音場パラメーター表現について、前記オーディオ信号が空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間コヒーレンスを決定し、若しくは前記オーディオ信号が前記空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間レベル差を決定すること、又は
前記オーディオ信号によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定すること、
を行うように構成することができる。

【0023】

一態様によれば、第１のフレームにおいて第１の音場パラメーター表現と符号化オーディオ信号とを含む符号化オーディオシーンを処理する装置であって、第２のフレームが、非アクティブフレームであり、前記装置は、
前記第２のフレームが前記非アクティブフレームであることを検出する区間検出器と、
前記第２のフレームについての前記パラメトリック記述を使用して、前記第２のフレームについての合成オーディオ信号を合成する合成信号シンセサイザーと、
前記第１のフレームについての前記符号化オーディオ信号を復号化するオーディオデコーダーと、
前記第１の音場パラメーター表現を使用し、かつ前記第２のフレームについての前記合成オーディオ信号を使用して、前記第１のフレームについての前記オーディオ信号を空間的にレンダリングする空間レンダラー、又は前記第１のフレームについての前記オーディオ信号と、前記第１のフレームについての前記第１の音場パラメーター表現と、前記第２のフレームについての前記合成オーディオ信号と、前記第２のフレームについての第２の音場パラメーター表現とを含むメタデータ支援出力フォーマットを生成するトランスコーダーと、
を備える、装置が提供される。

【0024】

前記符号化オーディオシーンは、前記第２のフレームについて、第２の音場パラメーター記述を含むことができ、前記装置は、前記第２の音場パラメーター表現から１つ以上の音場パラメーターを導出する音場パラメータープロセッサを備え、前記空間レンダラーは、前記第２のフレームについての前記合成オーディオ信号の前記レンダリングのために、前記第２のフレームについての前記１つ以上の音場パラメーターを使用するように構成される。

【0025】

前記装置は、前記第２のフレームについての１つ以上の音場パラメーターを導出するパラメータープロセッサを備えることができ、
前記パラメータープロセッサは、前記第１のフレームについての前記音場パラメーター表現を記憶し、前記第１のフレームについての前記記憶された第１の音場パラメーター表現を使用して前記第２のフレームについての１つ以上の音場パラメーターを合成するように構成され、前記第２のフレームは、前記第１のフレームに時間的に後続し、又は
前記パラメータープロセッサは、前記第２のフレームの前の時間に発生するか、又は前記第２のフレームの後の時間に発生する複数のフレームについての１つ以上の音場パラメーター表現を記憶して、複数のフレームについての前記１つ以上の音場パラメーター表現のうちの前記少なくとも２つの音場パラメーター表現を使用して外挿又は内挿することにより、前記第２のフレームについての前記１つ以上の音場パラメーターを決定するように構成され、
前記空間レンダラーは、前記第２のフレームについての前記合成オーディオ信号の前記レンダリングのために、前記第２のフレームについての前記１つ以上の音場パラメーターを使用するように構成される。

【0026】

前記パラメータープロセッサは、前記第２のフレームについての前記１つ以上の音場パラメーターを決定するために外挿又は内挿する場合、前記第２のフレームの前又は後の時間に発生する前記少なくとも２つの音場パラメーター表現に含まれる方向を用いてディザリングを実行するように構成することができる。

【0027】

前記符号化オーディオシーンは、前記第１のフレームについての１つ以上のトランスポートチャネルを含むことができ、
前記合成信号生成器は、前記合成オーディオ信号として前記第２のフレームについての１つ以上のトランスポートチャネルを生成するように構成され、
前記空間レンダラーは、前記第２のフレームについての前記１つ以上のトランスポートチャネルを空間的にレンダリングするように構成される。

【0028】

前記合成信号生成器は、前記第２のフレームについて、前記空間レンダラーのオーディオ出力フォーマットに関連する個別の成分に対する複数の合成成分オーディオ信号を前記合成オーディオ信号として生成するように構成することができる。

【0029】

前記合成信号生成器は、前記オーディオ出力フォーマットに関連する少なくとも２つの個別の成分のサブセットのうちの少なくとも各１つについて、個別の合成成分オーディオ信号を生成するように構成することができ、
第１の個別の合成成分オーディオ信号が、第２の個別の合成成分オーディオ信号から非相関化され、
前記空間レンダラーは、前記第１の個別の合成成分オーディオ信号と前記第２の個別の合成成分オーディオ信号との組み合わせを使用して前記オーディオ出力フォーマットの成分をレンダリングするように構成される。

【0030】

前記空間レンダラーは、共分散法を適用するように構成することができる。

【0031】

前記空間レンダラーは、いかなる非相関器処理も使用しないように、又は、前記共分散法によって示される非相関器処理によって生成された非相関信号の量のみが、前記オーディオ出力フォーマットの成分を生成する際に使用されるように前記非相関器処理を制御するように構成することができる。

【0032】

前記合成信号生成器は、コンフォートノイズ生成器である。

【0033】

前記合成信号生成器は、ノイズ生成器を含むことができ、前記第１の個別の合成成分オーディオ信号は、前記ノイズ生成器の第１のサンプリングによって生成され、前記第２の個別の合成成分オーディオ信号は、前記ノイズ生成器の第２のサンプリングによって生成され、前記第２のサンプリングは、前記第１のサンプリングとは異なる。

【0034】

前記ノイズ生成器は、ノイズテーブルを含むことができ、前記第１の個別の合成成分オーディオ信号は、前記ノイズテーブルの第１の部分を取得することによって生成され、前記第２の個別の合成成分オーディオ信号は、前記ノイズテーブルの第２の部分を取得することによって生成され、前記ノイズテーブルの前記第２の部分は、前記ノイズテーブルの前記第１の部分とは異なり、又は
前記ノイズ生成器は、擬似ノイズ生成器を含み、前記第１の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第１のシードを用いて生成され、前記第２の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第２のシードを用いて生成される。

【0035】

前記符号化オーディオシーンは、前記第１のフレームについて、２つ以上のトランスポートチャネルを含むことができ、
前記合成信号生成器は、ノイズ生成器を含み、前記第２のフレームについての前記パラメトリック記述を使用して、前記ノイズ生成器をサンプリングすることによって第１のトランスポートチャネルを生成し、前記ノイズ生成器をサンプリングすることによって第２のトランスポートチャネルを生成するように構成され、前記ノイズ生成器をサンプリングすることによって決定される前記第１のトランスポートチャネル及び前記第２のトランスポートチャネルは、前記第２のフレームについての同じパラメトリック記述を使用して重み付けされる。

【0036】

前記空間レンダラーは、
直接信号と、前記第１の音場パラメーター表現の制御下で前記直接信号から非相関器によって生成された拡散信号とのミキシングを使用して、前記第１のフレームに対して第１のモードで動作し、
第１の合成成分信号と前記第２の合成成分信号とのミキシングを使用して、前記第２のフレームに対して第２のモードで動作するように構成することができ、前記第１の合成成分信号及び前記第２の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって前記合成信号シンセサイザーによって生成される。

【0037】

前記空間レンダラーは、パラメータープロセッサによって前記第２のフレームについて導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、前記第２のモードで前記ミキシングを制御するように構成することができる。

【0038】

前記合成信号生成器は、前記第２のフレームについての前記パラメトリック記述を使用して前記第１のフレームについての合成オーディオ信号を生成するように構成することができ、
前記空間レンダラーは、前記空間レンダリングの前又は後に、前記第１のフレームについての前記オーディオ信号と前記第１のフレームについての前記合成オーディオ信号との重み付き合成を実行するように構成され、前記重み付き合成において、前記第１のフレームについての前記合成オーディオ信号の強度は、前記第２のフレームについての前記合成オーディオ信号の強度に対して低減される。

【0039】

パラメータープロセッサは、前記第２の非アクティブフレームについて、前記第２のフレームによって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定するように構成することができ、前記空間レンダラーは、前記サウンドコヒーレンスに基づいて前記第２のフレームにおける直接信号と拡散信号との間でエネルギーを再分配するように構成され、サウンドサラウンドコヒーレント成分のエネルギーが、前記拡散エネルギーから除去されて指向性成分に再分配され、前記指向性成分は、再生空間内でパンされる。

【0040】

前記装置は、前記空間レンダラーによって生成されたオーディオ出力フォーマットを、トランスコードされた出力フォーマット、例えば、予め定義された位置に配置されるラウドスピーカー専用の複数の出力チャネルを含む出力フォーマット、又はＦＯＡ若しくはＨＯＡデータを含むトランスコードされた出力フォーマットに変換する出力インターフェイスを備えることができ、又は
前記空間レンダラーの代わりに、前記トランスコーダーは、前記第１のフレームについての前記オーディオ信号と、前記第１のフレームについての前記第１の音場パラメーターと、前記第２のフレームについての前記合成オーディオ信号と、前記第２のフレームについての第２の音場パラメーター表現とを含む前記メタデータ支援出力フォーマットを生成するために提供される。

【0041】

前記区間検出器は、前記第２のフレームが前記非アクティブフレームであることを検出するように構成することができる。

【0042】

一態様によれば、第１のフレーム及び第２のフレームを有するオーディオ信号から符号化オーディオシーンを生成する方法であって、
前記第１のフレームにおける前記オーディオ信号から前記第１のフレームについての第１の音場パラメーター表現を決定し、前記第２のフレームにおける前記オーディオ信号から前記第２のフレームについての第２の音場パラメーター表現を決定することと、
前記オーディオ信号を分析して、前記オーディオ信号に応じて、前記第１のフレームがアクティブフレームであり、前記第２のフレームが非アクティブフレームであると判定することと、
前記アクティブフレームである前記第１のフレームについての符号化オーディオ信号を生成し、前記非アクティブフレームである前記第２のフレームについてのパラメトリック記述を生成することと、
前記第１のフレームについての前記第１の音場パラメーター表現と、前記第２のフレームについての前記第２の音場パラメーター表現と、前記第１のフレームについての前記符号化オーディオ信号と、前記第２のフレームについての前記パラメトリック記述とを一緒にすることによって、前記符号化オーディオシーンを構成することと、
を含む、方法が提供される。

【0043】

一態様によれば、第１のフレームにおいて、第１の音場パラメーター表現と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第２のフレームが、非アクティブフレームであり、前記方法は、
前記第２のフレームが前記非アクティブフレームであることを検出し、前記第２のフレームについてのパラメトリック記述を提供することと、
前記第２のフレームについての前記パラメトリック記述を使用して、前記第２のフレームについての合成オーディオ信号を合成することと、
前記第１のフレームについての前記符号化オーディオ信号を復号化することと、
前記第１の音場パラメーター表現を使用し、かつ前記第２のフレームについての前記合成オーディオ信号を使用して、前記第１のフレームについての前記オーディオ信号を空間的にレンダリングすること、又は前記第１のフレームについての前記オーディオ信号、前記第１のフレームについての前記第１の音場パラメーター表現、前記第２のフレームについての前記合成オーディオ信号、及び前記第２のフレームについての第２の音場パラメーター表現を含むメタデータ支援出力フォーマットを生成することと、
を含む、方法が提供される。

【0044】

前記方法は、前記第２のフレームについてのパラメトリック記述を提供することを含むことができる。

【0045】

一態様によれば、符号化オーディオシーンであって、
第１のフレームについての第１の音場パラメーター表現と、
第２のフレームについての第２の音場パラメーター表現と、
前記第１のフレームについての符号化オーディオ信号と、
前記第２のフレームについてのパラメトリック記述と、
を含む、符号化オーディオシーンが提供される。

【0046】

一態様によれば、コンピューター又はプロセッサ上で実行されるときに、上記又は以下の方法を実行するコンピュータープログラムが提供される。

【図面の簡単な説明】

【0047】

【図1a】例による合成のために使用され得る従来技術による一例を示す図である。

【図1b】例による分析のために使用され得る従来技術による一例を示す図である。

【図2】例によるデコーダー及びエンコーダーの一例を示す図である。

【図3】一例によるエンコーダーの一例を示す図である。

【図4】構成要素の一例を示す図である。

【図5】一例による構成要素の一例を示す図である。

【図6】デコーダーの一例を示す図である。

【図7】デコーダーの一例を示す図である。

【図8】デコーダーの一例を示す図である。

【図9】デコーダーの一例を示す図である。

【図10】デコーダーの一例を示す図である。

【図11】デコーダーの一例を示す図である。

【発明を実施するための形態】

【0048】

最初に、既知のパラダイム（ＤＴＸ、ＤｉｒＡＣ、ＭＡＳＡ等）の一部の説明を、そのうちの一部が、少なくともいくつかの場合では、本発明の例において実装され得る技術の説明とともに提供する。

【0049】

ＤＴＸ
コンフォートノイズ生成器は、通常、音声の不連続伝送（ＤＴＸ）に使用される。かかるモードでは、音声は、最初に発話区間検出器（ＶＡＤ：Voice Activity Detector）によってアクティブフレームと非アクティブフレームとに分類される。ＶＡＤの一例は、［２］に記載されている。ＶＡＤ結果に基づいて、アクティブ音声フレームのみが符号化され、公称ビットレートで伝送される。バックグラウンドノイズのみが存在する長い休止時間には、ビットレートを下げるか又はゼロにし、バックグラウンドノイズは偶発的（episodically）かつパラメトリックに符号化される。これにより、平均ビットレートが大幅に低減される。ノイズは、コンフォートノイズ生成器（ＣＮＧ）によってデコーダー側で非アクティブフレーム中に生成される。例えば、音声コーダーＡＭＲ－ＷＢ［２］及び３ＧＰＰ（登録商標）ＥＶＳ［３，４］は両方とも、ＤＴＸモードで動作させることができる。効率的なＣＮＧの一例は、［５］に記載されている。

【0050】

本発明の実施形態は、この原理を、サウンドイベントの空間的定位を有する没入型会話音声に同じ原理を適用するように拡張する。

【0051】

ＤｉｒＡＣ
ＤｉｒＡＣは、知覚的に動機付けられた空間音の再生である。或る瞬間の１つの臨界帯域に対して、聴覚系の空間分解能は、方向に対する１つのキューと両耳間のコヒーレンスに対する別のキューとを復号化することに限定されると仮定する。

【0052】

これらの仮定に基づいて、ＤｉｒＡＣは、２つのストリーム、すなわち無指向性拡散ストリーム及び指向性非拡散ストリームをクロスフェードすることによって、１つの周波数帯域における空間音を表す。ＤｉｒＡＣ処理は、図１に示すように、分析と合成の２つのフェーズで実行される（図１ａは合成を示し、図１ｂは分析を示す）。

【0053】

ＤｉｒＡＣ分析段階では、Ｂフォーマットの１次同時受音マイクロホンが入力とみなされ、音の拡散性及び到来方向が周波数領域で分析される。

【0054】

ＤｉｒＡＣ合成段階では、音は２つのストリーム、すなわち非拡散ストリーム及び拡散ストリームに分割される。非拡散ストリームは、振幅パニングを使用して点音源として再生され、該振幅パニングは、ベクトルベース振幅パニング（ＶＢＡＰ）［６］を使用することによって行うことができる。拡散ストリームは、概して、音に包まれた感じ（envelopment）の感覚に関与するものであり、相互に非相関化された信号をラウドスピーカーに伝達することによって生成される。

【0055】

以降で空間メタデータ又はＤｉｒＡＣメタデータとも称されるＤｉｒＡＣパラメーターは、拡散性及び方向のタプルからなる。方向は、方位角及び仰角の２つの角度によって球面座標で表すことができ、一方、拡散性は、０と１との間のスカラー因子であり得る。

【0056】

ＤｉｒＡＣパラダイムを空間オーディオコーディング及び遠隔会議シナリオにおいて使用可能とするために、メタデータのサイズを低減するための研究が行われている［８］。

【0057】

発明者らの知る限りでは、パラメトリック空間オーディオコーデックを中心としたＤＴＸシステムはこれまで構築又は提案されておらず、ＤｉｒＡＣパラダイムに基づくものは更に少なかった。これが本発明の実施形態の主題である。

【0058】

ＭＡＳＡ
メタデータ支援空間オーディオ（ＭＡＳＡ）は、ＤｉｒＡＣの原理から導出された空間オーディオフォーマットであり、これは、生のマイクロホン信号から直接計算され、アンビソニックスのような中間フォーマットを通過する必要なしにオーディオコーデックに伝達することができる。オーディオコーデック又はレンダラーのための空間メタデータとして、例えば周波数帯域における方向パラメーター及び／又は例えば周波数帯域におけるエネルギー比パラメーター（例えば、指向性である音エネルギーの割合を示す）からなり得るパラメーターセットも利用することができる。これらのパラメーターは、マイクロホンアレイでキャプチャされたオーディオ信号から推定することができ、例えば、モノラル信号又はステレオ信号は、空間メタデータとともに伝達されるマイクロホンアレイ信号から生成することができる。モノラル信号又はステレオ信号は、例えば、３ＧＰＰ（登録商標）ＥＶＳのようなコアコーダー又はその派生物を用いて符号化することができる。デコーダーは、オーディオ信号を（伝送された空間メタデータを使用して）周波数帯域に復号化して処理して、空間出力を取得することができる。ここで該空間出力は、バイノーラル出力、ラウドスピーカーマルチチャネル信号、又はアンビソニックスフォーマットのマルチチャネル信号であり得る。

【0059】

動機付け
没入型音声通信は、新しい研究領域であり、存在するシステムは非常に少数であり、さらに、かかる用途のために設計されたＤＴＸシステムは存在していない。

【0060】

しかしながら、既存の解決策を組み合わせることは容易であり得る。例えば、各個別のマルチチャネル信号に対して独立してＤＴＸを適用することができる。この単純な手法は、複数の問題に直面している。この場合、各個別のチャネルを離散的に伝送する必要があるが、これは、低ビットレート通信制約と互換性がなく、したがって低ビットレート通信の場合のために設計されたＤＴＸとほとんど互換性がない。さらに、ＶＡＤの判定をチャネル間で同期させて、特異性及びアンマスキング効果を回避し、ＤＴＸシステムのビットレート低減を完全に利用することも必要となる。実際に、伝送を中断し、それから利益を得るためには、発話区間判定が全チャネルで同期していることを確認する必要がある。

【0061】

コンフォートノイズ生成器（複数の場合もある）によって非アクティブフレーム中に欠落したバックグラウンドノイズを生成する際、受信機側で別の問題が生じる。没入型通信の場合、特にＤＴＸを個別のチャネルに直接適用する場合、チャネルごとに１つの生成器が必要となる。ランダムノイズを一般的にサンプリングするこれらの生成器を独立して使用した場合、チャネル間のコヒーレンスは０になるか、又は０に近くなり、元の音場から知覚的に逸脱する可能性がある。一方で、１つの生成器のみを使用し、結果として生じるコンフォートノイズが全ての出力チャネルにコピーされた場合、コヒーレンスは非常に高くなり、没入感は大幅に減少する。

【0062】

これらの問題は、ＤＴＸをシステムの入力又は出力チャネルに直接適用するのではなく、代わりに、ＤｉｒＡＣのようなパラメトリック空間オーディオ符号化方式の後に、通常は元のマルチチャネル信号のダウンミキシング又は低減されたバージョンであるトランスポートチャネルに適用することによって、部分的に解決することができる。この場合、非アクティブフレームがどのようにパラメーター化され、次いでＤＴＸシステムによって空間化されるかを定義する必要がある。これは些細なことではなく、本発明の実施形態の主題である。空間像は、アクティブフレームと非アクティブフレームとの間で一貫していなければならず、元のバックグラウンドノイズに対して知覚的に可能な限り忠実でなければならない。

【0063】

図３は、一例によるエンコーダー３００を示している。エンコーダー３００は、オーディオ信号３０２から符号化オーディオシーン３０４を生成することができる。

【0064】

オーディオ信号３０４（ビットストリーム）又はオーディオシーン３０４（及び以下に開示される他のオーディオ信号）は、フレームに分割され得る（例えば、フレームのシーケンスであってもよい）。フレームは、互いに続いて定義され得るタイムスロットに関連付けることができる（いくつかの例では、前の態様は後続のフレームと重複してもよい）。各フレームについて、時間領域（ＴＤ）又は周波数領域（ＦＤ）における値がビットストリーム３０４に書き込まれ得る。ＴＤでは、サンプルごとに値が提供され得る（各フレームは、例えば、サンプルの離散的シーケンスを有する）。ＦＤでは、周波数ビンごとに値が提供され得る。後述するように、各フレームは、アクティブフレーム３０６（例えば、非ボイドフレーム）又は非アクティブフレーム３０８（例えば、ボイドフレーム、又は無音フレーム、又はノイズのみのフレーム）のいずれかとして（例えば、区間検出器によって）分類され得る。異なるパラメーター（例えば、アクティブ空間パラメーター３１６又は非アクティブ空間パラメーター３１８）もまた、アクティブフレーム３０６及び非アクティブフレーム３０８に関連して提供され得る（データなしの場合、参照番号３１９は、データが提供されないことを示す）。

【0065】

オーディオ信号３０２は、例えば、（例えば、２つ以上のチャネルを有する）マルチチャネルオーディオ信号であってもよい。オーディオ信号３０２は、例えば、ステレオオーディオ信号であってもよい。オーディオ信号３０２は、例えば、Ａフォーマット又はＢフォーマットのアンビソニックス信号であってもよい。オーディオ信号３０２は、例えば、ＭＡＳＡ（メタデータ支援空間オーディオ）フォーマットを有していてもよい。オーディオ信号３０２は、１次アンビソニックスフォーマット、高次アンビソニックスフォーマット、５．１若しくは７．１若しくは７．１＋４等の所与のスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された１つ又は複数の異なるオーディオオブジェクトを表す１つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを有していてもよい。オーディオ信号３０２は、現実のマイクロホン又は仮想マイクロホンによってピックアップされるマイクロホン信号を含み得る。オーディオ信号３０２は、合成的に生成されたマイクロホン信号（例えば、１次アンビソニックスフォーマット、又は高次アンビソニックスフォーマットである）を含み得る。

【0066】

オーディオシーン３０４は、
第１のフレーム３０６についての第１の音場パラメーター表現（例えば、アクティブ空間パラメーター）３１６、
第２のフレーム３０８についての第２の音場パラメーター表現（例えば、非アクティブ空間パラメーター）３１８、
第１のフレーム３０６についての符号化オーディオ信号３４６、及び
第２のフレーム３０８についてのパラメトリック記述３４８（いくつかの例では、非アクティブ空間パラメーター３１８はパラメトリック記述３４８に含まれ得るが、パラメトリック記述３４８はまた、空間パラメーターではない他のパラメーターを含み得る）のうちの少なくとも１つ又は組み合わせを含み得る。

【0067】

アクティブフレーム３０６（第１のフレーム）は、音声を（又は、いくつかの例では、純粋なノイズとは異なる他のオーディオ音も）含むフレームであり得る。非アクティブフレーム３０８（第２のフレーム）は、音声を（又は、いくつかの例では、純粋なノイズとは異なる他のオーディオ音も）含まないフレームであると理解される場合があり、一意にノイズを含むと理解される場合がある。

【0068】

オーディオシーン分析器（音場パラメーター生成器）３１０は、例えば、オーディオ信号３０２のトランスポートチャネルバージョン３２４（３２６と３２８との間で細分される）を生成するために提供されてもよい。ここで、各第１のフレーム３０６のトランスポートチャネル３２６（複数の場合もある）及び／又は各第２のフレーム３０８のトランスポートチャネル３２８（複数の場合もある）を参照することができる（トランスポートチャネル３２８（複数の場合もある）は、例えば、無音又はノイズのパラメトリック記述を与えるものとして理解されてもよい）。トランスポートチャネル（複数の場合もある）３２４（３２６、３２８）は、入力フォーマット３０２のダウンミックスバージョンであり得る。概して言えば、トランスポートチャネル３２６、３２８のそれぞれは、例えば、入力オーディオ信号３０２がステレオチャネルである場合、単一のチャネルであってもよい。入力オーディオ信号３０２が３つ以上のチャネルを有する場合、入力オーディオ信号３０２のダウンミックスバージョン３２４は、入力オーディオ信号３０２よりも少ないチャネルを有し得るが、いくつかの例では、依然として２つ以上のチャネルを有し得る（例えば、入力オーディオ信号３０２が４つのチャネルを有する場合、ダウンミックスバージョン３２４は、１つ、２つ、又は３つのチャネルを有していてもよい）。

【0069】

オーディオ信号分析器３１０は、加えて又は代替として、３１４で示される音場パラメーター（空間パラメーター）を提供し得る。特に、音場パラメーター３１４は、第１のフレーム３０６に関連付けられたアクティブ空間パラメーター（第１の空間パラメーター又は第１の空間パラメーター表現）３１６と、第２のフレーム３０８に関連付けられた非アクティブ空間パラメーター（第２の空間パラメーター又は第２の空間パラメーター表現）３１８とを含み得る。各アクティブ空間パラメーター３１４（３１６、３１８）は、例えば聴取者位置に対するオーディオ信号（３０２）の空間特性を示すパラメーターを含み得る（例えば、そのパラメーターであってもよい）。いくつかの他の例では、アクティブ空間パラメーター３１４（３１６、３１８）は、ラウドスピーカーの位置に対するオーディオ信号３０２の特性を示すパラメーターを少なくとも部分的に含み得る（例えば、そのパラメーターであってもよい）。いくつかの例では、アクティブ空間パラメーター３１４（３１６、３１８）は、信号源から取得されたオーディオ信号の特性を少なくとも部分的に含み得る（例えば、その特性であってもよい。）。

【0070】

例えば、空間パラメーター３１４（３１６、３１８）は、拡散性パラメーター、例えば、第１のフレーム３０６及び／又は第２のフレーム３０８における音に関する拡散対信号比を示す１つ以上の拡散性パラメーター、又は第１のフレーム３０６及び／又は第２のフレーム３０８における直接音及び拡散音のエネルギー比を示す１つ以上のエネルギー比パラメーター、又は第１のフレーム３０６及び／又は第２のフレーム３０８におけるチャネル間／サラウンドコヒーレンスパラメーター（複数の場合もある）、又は第１のフレーム３０６及び／又は第２のフレーム３０８におけるコヒーレント対拡散パワー（Coherent-to-Diffuse Power）比（複数の場合もある）、又は第１のフレーム３０６及び／又は第２のフレーム３０８における信号対拡散比（複数の場合もある）を含んでもよい。

【0071】

例では、アクティブ空間パラメーター（複数の場合もある）（第１の音場パラメーター表現）３１６及び／又は非アクティブ空間パラメーター（複数の場合もある）３１８（第２の音場パラメーター表現）は、そのフルチャネルバージョンの入力信号３０２、又は高次アンビソニックス入力信号の１次成分のようにそのサブセットから取得することができる。

【0072】

装置３００は、区間検出器３２０を含み得る。区間検出器３２０は、入力オーディオ信号（その入力バージョン３０２又はそのダウンミックスバージョン３２４のいずれか）を分析して、オーディオ信号（３０２又は３２４）に応じて、フレームがアクティブフレーム３０６であるか非アクティブフレーム３０８であるかを判定し、それにより、フレームに対して分類を実行することができる。図３から分かるように、区間検出器３２０は、第１の偏差器３２２及び第２の偏差器３２２ａを（例えば、制御部３２１を介して）制御するものと仮定することができる。第１の偏差器３２２は、アクティブ空間パラメーター３１６（第１の音場パラメーター表現）と非アクティブ空間パラメーター３１８（第２の音場パラメーター表現）との間で選択を行うことができる。したがって、区間検出器３２０は、アクティブ空間パラメーター３１６又は非アクティブ空間パラメーター３１８のいずれが出力されるか（例えば、ビットストリーム３０４においてシグナリングされるか）を判定することができる。同じ制御部３２１は、第２の偏差器３２２ａを制御することができ、該第２の偏差器３２２ａは、トランスポートチャネル３２４における第１のフレーム３２６（３０６）を出力すること、又はトランスポートチャネル３２６における第２のフレーム３２８（３０８）（例えば、パラメトリック記述）を出力することの間で選択を行うことができる。第１の偏差器３２２及び第２の偏差器３２２ａの区間は互いに調整され、アクティブ空間パラメーター３１６が出力されると、第１のフレーム３０６のトランスポートチャネル３２６も出力され、非アクティブ空間パラメーター３１８が出力されると、第１のフレーム３０６のトランスポートチャネルのうちのトランスポートチャネル３２８が出力される。これは、アクティブ空間パラメーター３１６（第１の音場パラメーター表現）が第１のフレーム３０６の空間特性を記述し、一方、非アクティブ空間パラメーター３１８（第２の音場パラメーター表現）が第２のフレーム３０８の空間特性を記述するためである。

【0073】

したがって、区間検出器３２０は、基本的に、第１のフレーム３０６（３２６、３４６）及びその関連するパラメーター（３１６）と、第２のフレーム３０８（３２８、３４８）及びその関連するパラメーター（３１８）とのうちのいずれが出力されるかを判定することができる。区間検出器３２０はまた、フレームがアクティブであるか非アクティブであるかをシグナリングするビットストリーム中の一部のシグナリングの符号化を制御することができる（他の技術が使用され得る）。

【0074】

区間検出器３２０は、（例えば、オーディオ信号の特定のフレームの全ての周波数ビン、又は少なくとも複数の周波数ビンにおいて、例えば、フレーム中のエネルギーを測定することによって）入力オーディオ信号３０２の各フレーム３０６／３０８に対して処理を実行することができ、特定のフレームを第１のフレーム３０６又は第２のフレーム３０８であるものとして分類することができる。概して言えば、区間検出器３２０は、同じフレームの異なる周波数ビンと異なるサンプルとを区別することなく、１つの単一のフレーム全体について１つの単一の分類結果を判定することができる。例えば、１つの分類結果は、「音声」（アクティブ空間パラメーター３１６によって空間的に記述される第１のフレーム３０６、３２６、３４６に相当する）又は「無音」（非アクティブ空間パラメーター３１８によって空間的に記述される第２のフレーム３０８、３２８、３４８に相当する）であり得る。したがって、区間検出器３２０によって行われる分類に従って、偏差器３２２及び３２２ａはそれらの切り替えを実行することができ、その結果は、分類されたフレームの全ての周波数ビン（及びサンプル）に対して原理的に有効である。

【0075】

装置３００は、オーディオ信号エンコーダー３３０を含み得る。オーディオ信号エンコーダー３３０は、符号化オーディオ信号３４４を生成することができる。オーディオ信号エンコーダー３３０は、特に、例えば、オーディオ信号エンコーダー３３０の一部であり得るトランスポートチャネルエンコーダー３４０によって生成された、第１のフレーム（３０６、３２６）についての符号化オーディオ信号３４６を提供することができる。符号化オーディオ信号３４４は、無音のパラメトリック記述３４８（例えばノイズのパラメトリック記述）であってもよく、又はそれを含んでいてもよく、オーディオ信号エンコーダー３３０の一部であり得るトランスポートチャネルＳＩ記述子３５０によって生成されてもよい。生成された第２のフレーム３４８は、元のオーディオ入力信号３０２の少なくとも１つの第２のフレーム３０８及びダウンミックス信号３２４の少なくとも１つの第２のフレーム３２８に対応してもよく、非アクティブ空間パラメーター３１８（第２の音場パラメーター表現）によって空間的に記述されてもよい。特に、符号化オーディオ信号３４４（３４６であるか３４８であるかにかかわらず）もまた、トランスポートチャネル内にあり得る（したがって、ダウンミックス信号３２４であり得る）。符号化オーディオ信号３４４（３４６又は３４８）は、そのサイズを低減するために圧縮され得る。

【0076】

装置３００は、符号化信号形成器３７０を含み得る。符号化信号形成器３７０は、少なくとも符号化オーディオシーン３０４の符号化されたバージョンを書き込むことができる。符号化信号形成器３７０は、第１のフレーム３０６についての第１の（アクティブな）音場パラメーター表現３１６と、第２のフレーム３０８についての第２の（非アクティブな）音場パラメーター表現３１８と、第１のフレーム３０６についての符号化オーディオ信号３４６と、第２のフレーム３０８についてのパラメトリック記述３４８とを一緒にすることによって動作し得る。したがって、オーディオシーン３０４はビットストリームであってもよく、ビットストリームは、伝送されるか又は記憶され（又はその両方）、出力されるオーディオ信号を生成するために汎用デコーダーによって使用されてもよく、ここで該オーディオ信号は元の入力信号３０２のコピーである。したがって、オーディオシーン（ビットストリーム）３０４では、入力信号３０６の再生を可能にするために、「第１のフレーム」／「第２のフレーム」のシーケンスが取得され得る。

【0077】

図２は、エンコーダー３００及びデコーダー２００の一例を示している。エンコーダー３００は、いくつかの例では、図３のものと同じ（又はその変形）であり得る（いくつかの他の例では、それらは異なる実施形態であり得る）。エンコーダー３００は、（例えば、Ｂフォーマットであり得る）オーディオ信号３０２を入力中に有することができ、（例えば、アクティブフレームであり得る）第１のフレーム３０６と、（例えば、非アクティブフレームであり得る）第２のフレーム３０８とを有し得る。オーディオ信号３０２は、信号３２４として（例えば、第１のフレームについての符号化オーディオ信号３２６及び第２のフレームについての符号化オーディオ信号３２８、又はパラメトリック表現として）、（偏差器３２２及び３２２ａに関連付けられたオーディオを含み得る）セレクター３２０の内部での選択の後にオーディオ信号エンコーダー３３０に提供され得る。特に、ブロック３２０は、入力信号３０２（３０６、３０８）からトランスポートチャネル３２４（３２６、３２８）へのダウンミックスを形成する能力も有することができる。基本的に、ブロック３２０（ビーム形成／信号選択ブロック）は、図３の区間検出器３２０の機能を含むものとして理解され得るが、図３においてブロック３１０によって実行されるいくつかの他の機能（空間パラメーター３１６及び３１８の生成等）は、図２の「ＤｉｒＡＣ分析ブロック」３１０によって実行され得る。したがって、チャネル信号３２４（３２６、３２８）は、元の信号３０２のダウンミキシングされたバージョンであり得る。しかしながら、場合によっては、ダウンミキシングが信号３０２に対して実行されず、信号３２４が単に第１のフレームと第２のフレームとの間の選択であることも可能であり得る。オーディオ信号エンコーダー３３０は、上述したように、ブロック３４０及び３５０の少なくとも１つを含み得る。オーディオ信号エンコーダー３３０は、第１のフレーム３４６又は第２のフレーム３４８のいずれかについての符号化されたオーディオ信号３４４を出力し得る。図２は、符号化信号形成器３７０を示していないが、該符号化信号形成器３７０が存在していてもよい。

【0078】

図示のように、ブロック３１０は、ＤｉｒＡＣ分析ブロック（又はより一般的には、音場パラメーター生成器３１０）を含み得る。ブロック３１０（音場パラメーター生成器）は、フィルターバンク分析３９０を含み得る。フィルターバンク分析３９０は、入力信号３０２の各フレームを、フィルターバンク分析３９０の出力３９１であり得る複数の周波数ビンに細分することができる。拡散性推定ブロック３９２ａは、例えば、フィルターバンク分析３９０によって出力された複数の周波数ビン３９１の各周波数ビンについて、拡散性パラメーター３１４ａ（これは、アクティブフレーム３０６に対するアクティブ空間パラメーター（複数の場合もある）３１６の１つの拡散性パラメーターであっても、非アクティブフレーム３０８に対する非アクティブ空間パラメーター（複数の場合もある）３１８の１つの拡散性パラメーターであってもよい）を提供してもよい。音場パラメーター生成器３１０は、方向推定ブロック３９２ｂを含むことができ、その出力３１４ｂは、例えば、フィルターバンク分析３９０によって出力された複数の周波数ビン３９１の各周波数ビンに対する方向パラメーターであってもよい（アクティブフレーム３０６に対するアクティブ空間パラメーター（複数の場合もある）３１６の１つの方向パラメーター、又は非アクティブフレーム３０８に対する非アクティブ空間パラメーター（複数の場合もある）３１８の１つの方向パラメーターであってもよい）。

【0079】

図４は、ブロック３１０（音場パラメーター生成器）の一例を示している。図３のブロック３１０は入力信号３０２のダウンミックスを実行することもできるが、図４の音場パラメーター生成器３１０には示されていない（又は実装されていない）という事実にもかかわらず、音場パラメーター生成器３１０は、図２の音場パラメーター生成器と同じであってもよく、及び／又は図３のブロック３１０の機能と同じであってもよく、又は少なくともその機能を実装してもよい。

【0080】

図４の音場パラメーター生成器３１０は、（図２のフィルターバンク分析ブロック３９０と同じであり得る）フィルターバンク分析ブロック３９０を含み得る。フィルターバンク分析ブロック３９０は、各フレーム及び各ビン（周波数タイル）についての周波数領域情報３９１を提供することができる。周波数領域情報３９１は、拡散性分析ブロック３９２ａ及び／又は方向分析ブロック３９２ｂに提供されてもよく、それらは図３に示されるものであってもよい。拡散性分析ブロック３９２ａ及び／又は方向分析ブロック３９２ｂは、拡散性情報３１４ａ及び／又は方向情報３１４ｂを提供することができる。これらは、各第１のフレーム３０６（３４６）及び各第２のフレーム３０８（３４８）に対して提供することができる。複合的に、ブロック３９２ａ及び３９２ｂによって提供される情報は、第１の音場パラメーター３１６（アクティブ空間パラメーター）と第２の音場パラメーター３１８（非アクティブ空間パラメーター）との両方を包含する音場パラメーター３１４と見なされる。アクティブ空間パラメーター３１６は、アクティブ空間メタデータエンコーダー３９６に提供されてもよく、非アクティブ空間パラメーター３１８は、非アクティブ空間メタデータエンコーダー３９８に提供されてもよい。結果は、第１の音場パラメーター表現３１６及び第２の音場パラメーター表現３１８（複合的に３１４で示される）であり、ビットストリーム３０４中で（例えば、エンコーダー信号形成器３７０を通して）符号化され、その後デコーダーによって再生されるために記憶され得る。アクティブ空間メタデータエンコーダー３９６又は非アクティブ空間パラメーター３１８のどちらがフレームを符号化すべきかは、図３の制御部３２１のような制御部（偏差器３２２は図２には示されていない）によって、例えば区間検出器によって動作される分類を通じて制御されてもよい。（エンコーダー３９６、３９８はまた、いくつかの例では、量子化を実行し得ることに留意されたい）。

【0081】

図５は、可能な音場パラメーター生成器３１０の別の例を示しており、これは、図４の音場パラメーター生成器の代替であってもよく、図２及び図３の例においても実装され得る。この例では、入力オーディオ信号３０２は、既にＭＡＳＡフォーマットとすることができ、空間パラメーターは、例えば複数の周波数ビンの各周波数ビンについて、（例えば空間メタデータとして）既に入力オーディオ信号３０２の一部である。したがって、拡散性分析ブロック及び／又は指向性ブロックを有する必要はないが、それらはＭＡＳＡリーダー３９０Ｍによって置き換えることができる。ＭＡＳＡリーダー３９０Ｍは、オーディオ信号３０２中の特定のデータフィールドを読み取ることができ、これには、（信号３０２のフレームが第１のフレーム３０６であるか第２のフレーム３０８であるかの事実に従って）アクティブ空間パラメーター（複数の場合もある）３１６及び非アクティブ空間パラメーター（複数の場合もある）３１８等の情報が既に含まれている。信号３０２において符号化され得る（及びＭＡＳＡリーダー３９０Ｍによって読み取られ得る）パラメーターの例は、方向、エネルギー比、サラウンドコヒーレンス、スプレッドコヒーレンス等のうちの少なくとも１つを含み得る。ＭＡＳＡリーダー３９０Ｍの下流には、（例えば、図４のものと同様の）アクティブ空間メタデータエンコーダー３９６及び（例えば、図４のものと同様の）非アクティブ空間メタデータエンコーダー３９８が設けられ、それぞれ第１の音場パラメーター表現３１６及び第２の音場パラメーター表現３１８を出力することができる。入力オーディオ信号３０２がＭＡＳＡ信号である場合、区間検出器３２０は、入力ＭＡＳＡ信号３０２中の決定されたデータフィールドを読み取る要素として、かつ、データフィールド中で符号化された値に基づいてアクティブフレーム３０６又は非アクティブフレーム３０８として分類する要素として実装することができる。図５の例は、アクティブ空間パラメーター３１６又は非アクティブ空間パラメーター３１８として符号化され得る空間情報を既に符号化したオーディオ信号３０２に対して一般化することができる。

【0082】

本発明の実施形態は、空間オーディオ符号化システムに適用され、例えば図２には、ＤｉｒＡＣベースの空間オーディオエンコーダー及びデコーダーが示されている。以下、これについて説明する。

【0083】

エンコーダー３００は、通常、Ｂフォーマットで空間オーディオシーンを分析することができる。代替として、ＤｉｒＡＣ分析は、オーディオオブジェクト又はマルチチャネル信号又は任意の空間オーディオフォーマットの組み合わせのような異なるオーディオフォーマットを分析するように調整することができる。

【0084】

ＤｉｒＡＣ分析（例えば、段階３９２ａ、３９２ｂのいずれかで実行されるような）は、入力オーディオシーン３０２（入力信号）からパラメトリック表現を抽出することができる。時間－周波数単位ごとに測定された到来方向（ＤＯＡ）３１４ｂ及び／又は拡散性３１４ａにより、パラメーター（複数の場合もある）３１６、３１８が形成される。（例えば段階３９２ａ、３９２ｂのいずれかで実行されるような）ＤｉｒＡＣ分析の後に、空間メタデータエンコーダー（例えば、３９６及び／又は３９８）が続いてもよく、該空間メタデータエンコーダーは、ＤｉｒＡＣパラメーターを量子化及び／又は符号化して、低ビットレートのパラメトリック表現を取得してもよい（図では、低ビットレートのパラメトリック表現３１６、３１８は、空間メタデータエンコーダー３９６及び／又は３９８の上流のパラメトリック表現と同じ参照番号で示されている）。

【0085】

パラメーター３１６及び／又は３１８とともに、異なるソース（複数の場合もある）（例えば、異なるマイクロホン）又はオーディオ入力信号（複数の場合もある）（例えば、マルチチャネル信号の異なる成分）３０２から導出されたダウンミックス信号３２４（３２６）は、従来のオーディオコアコーダーによって（例えば、伝送及び／又は記憶のために）符号化することができる。好ましい実施形態では、ＥＶＳオーディオコーダー（例えば、図２の３３０）が、ダウンミックス信号３２４（３２６、３２８）を符号化するために好ましい場合があるが、本発明の実施形態は、このコアコーダーに限定されず、任意のオーディオコアコーダーに適用することができる。ダウンミックス信号３２４（３２６、３２８）は、例えば、トランスポートチャネルとも称される異なるチャネルからなってもよく、信号３２４は、例えば、目標ビットレートに応じてＢフォーマット信号、ステレオペア、又はモノラルダウンミックスを構成する４つの係数信号であるか、又はそれらを含み得る。符号化された空間パラメーター３２８及び符号化されたオーディオビットストリーム３２６は、通信チャネルを介して伝送（又は記憶）される前に多重化することができる。

【0086】

デコーダー（以下を参照）において、トランスポートチャネル３４４は、コアデコーダーによって復号化され、ＤｉｒＡＣメタデータ（例えば、空間パラメーター３１６、３１８）は、復号化されたトランスポートチャネルとともにＤｉｒＡＣ合成に伝達される前に、最初に復号化することができる。ＤｉｒＡＣ合成は、直接音ストリームの再生及び拡散音ストリームとの混合を制御するために、復号化されたメタデータを使用する。再生音場は、任意のラウドスピーカーレイアウトで再生することができ、又は任意の次数を有するアンビソニックスフォーマット（ＨＯＡ／ＦＯＡ）で生成することができる。

【0087】

ＤｉｒＡＣパラメーター推定
ここで、空間パラメーター３１６、３１８（例えば、拡散性３１４ａ、方向３１４ｂ）を推定するための非限定的な技術を説明する。Ｂフォーマットの例が提供される。

【0088】

（例えば、フィルターバンク分析３９０から取得されるような）各周波数帯域では、音の拡散性３１４ｂとともに音の到来方向３１４ａが推定され得る。入力Ｂフォーマット成分ｗ^ｉ（ｎ）、ｘ^ｉ（ｎ）、ｙ^ｉ（ｎ）、ｚ^ｉ（ｎ）の時間－周波数分析から、圧力及び速度ベクトルを以下のように決定することができる。
Ｐ^ｉ（ｎ，ｋ）＝Ｗ^ｉ（ｎ，ｋ）
Ｕ^ｉ（ｎ，ｋ）＝Ｘ^ｉ（ｎ，ｋ）ｅ_ｘ＋Ｙ^ｉ（ｎ，ｋ）ｅ_ｙ＋Ｚ^ｉ（ｎ，ｋ）ｅ_ｚ
式中、ｉは入力３０２のインデックスであり、ｋ及びｎは時間－周波数タイルの時間インデックス及び周波数インデックスであり、ｅ_ｘ、ｅ_ｙ、ｅ_ｚはデカルト単位ベクトルを表す。Ｐ（ｎ，ｋ）及びＵ（ｎ，ｋ）は、いくつかの例では、ＤｉｒＡＣパラメーター３１６、３１８、すなわちＤＯＡ３１４ａ及び拡散性３１４ａを計算するために必要であり得る。

【数1】

式中、

【数2】

は、複素共役を示す。結合された音場の拡散性は、
Ψ（ｋ，ｎ）＝１－｜｜Ｅ｛Ｉ（ｋ，ｎ）｝｜｜／ｃＥ｛Ｅ（ｋ，ｎ）｝
によって与えられる。式中、Ｅ｛．｝は、時間平均演算子を示し、ｃは、音速を示し、Ｅ（ｋ，ｎ）は、
Ｅ（ｎ，ｋ）＝ρ_０／４｜｜Ｕ（ｎ，ｋ）｜｜^２＋１／（ρ_０ｃ^２）｜Ｐ（ｎ，ｋ）｜^２
によって与えられる音場エネルギーを示す。

【0089】

音場の拡散性は、０と１との間の値を有する音強度とエネルギー密度との間の比として定義される。

【0090】

到来方向（ＤＯＡ）は、
ｄｉｒｅｃｔｉｏｎ（ｎ，ｋ）＝－（Ｉ（ｎ，ｋ））／｜｜Ｉ（ｎ，ｋ）｜｜
のように定義される単位ベクトルｄｉｒｅｃｔｉｏｎ（ｎ，ｋ）によって表される。

【0091】

到来方向３１４ｂは、Ｂフォーマット入力信号３０２の（例えば、３９２ｂにおける）エネルギー分析によって決定することができ、強度ベクトルの反対方向として定義することができる。方向は、デカルト座標で定義されるが、例えば、単位半径、方位角及び仰角によって定義される球面座標に容易に変換することができる。

【0092】

伝送の場合、パラメーター３１４ａ、３１４ｂ（３１６、３１８）は、ビットストリーム（例えば、３０４）を介して受信機側（例えば、デコーダー側）に伝送される必要がある。限られた容量を有するネットワーク上でのよりロバストな伝送のためには、低ビットレートのビットストリームが好ましく、又は必要でさえあり、これは、ＤｉｒＡＣパラメーター３１４ａ、３１４ｂ（３１６、３１８）についての効率的な符号化方式を設計することによって達成することができる。これには、例えば、異なる周波数帯域及び／又は時間単位にわたってパラメーターを平均化することによる周波数帯域グループ化、予測、量子化及びエントロピー符号化等の技術を用いることができる。デコーダーにおいて、伝送されたパラメーターは、ネットワークにおいてエラーが発生しなかった場合に、各時間／周波数単位（ｋ，ｎ）に対して復号化することができる。しかしながら、ネットワーク状態が適切なパケット伝送を保証するのに十分に良好でない場合、パケットは伝送中に失われることがある。本発明の実施形態は、後者の場合の解決策を提供することを目的とする。

【0093】

デコーダー
図６は、デコーダー装置２００の一例を示している。該デコーダー装置２００は、第１のフレーム３４６において、第１の音場パラメーター表現３１６と符号化オーディオ信号３４６とを含む符号化オーディオシーン３０４を処理する装置であってもよく、第２のフレーム３４８は非アクティブフレームである。デコーダー装置２００は、
第２のフレーム３４８が非アクティブフレームであることを検出し、第２のフレーム３０８についてのパラメトリック記述３２８を提供する区間検出器２２００、
第２のフレーム３０８についてのパラメトリック記述３４８を使用して、第２のフレーム３０８についての合成オーディオ信号２２８を合成する合成信号シンセサイザー２１０、
第１のフレーム３０６についての符号化オーディオ信号３４６を復号化するオーディオデコーダー２３０、及び
第１の音場パラメーター表現３１６を使用し、かつ第２のフレーム３０８についての合成オーディオ信号２２８を使用して、第１のフレーム３０６についてのオーディオ信号２０２を空間的にレンダリングする空間レンダラー２４０、
のうちの少なくとも１つを備え得る。

【0094】

特に、区間検出器２２００は、入力フレームがアクティブフレーム３４６として分類されるか、又は非アクティブフレーム３４８として分類されるかを判定し得るコマンド２２１’を行使することができる。区間検出器２２００は、例えば、シグナリングされるか、又は取得されたフレームの長さから決定される情報２２１から、入力フレームの分類を決定することができる。

【0095】

合成信号シンセサイザー２１０は、例えば、パラメーター表現３４８から取得された情報（例えば、パラメーター情報）を使用して、ノイズ２２８を生成してもよい。空間レンダラー２２０は、（符号化されたフレーム３４８から取得された）非アクティブフレーム２２８が非アクティブ空間パラメーター（複数の場合もある）３１８を通じて処理されて、人間の聴取者がノイズの起源の３Ｄ空間印象を有することを得るように、出力信号２０２を生成することができる。

【0096】

図６において、数字３１４、３１６、３１８、３４４、３４６、３４８は、ビットストリーム３０４から取得されるものとして対応するので、図３の数字と同じであることに留意されたい。それにもかかわらず、（例えば、量子化による）一部のわずかな差が存在する場合がある。

【0097】

図６はまた、偏向器２２４’を制御し得る制御器２２１’を示しており、信号２２６（合成信号シンセサイザー２１０によって出力される）又はオーディオ信号２２８（オーディオデコーダー２３０によって出力される）は、例えば、区間検出器２２０によって動作される分類を通じて選択されてもよい。特に、信号２２４（２２６又は２２８のいずれか）は、依然としてダウンミックス信号であってもよく、該ダウンミックス信号は、空間レンダラーがアクティブ又は非アクティブ空間パラメーター３１４（３１６、３１８）を通じて出力信号２０２を生成するように、空間レンダラー２２０に提供されてもよい。いくつかの例では、信号２２４（２２６又は２２８のいずれか）は、それにもかかわらず、信号２２４のチャネルの数が符号化されたバージョン３４４（３４６、３４８）に対して増加するようにアップミキシングされ得る。いくつかの例では、アップミキシングされているにもかかわらず、信号２２４のチャネルの数は、出力信号２０２のチャネルの数よりも少ないことがある。

【0098】

以降では、デコーダー装置２００の他の例が提供される。図７～図１０は、デコーダー装置２００を具現化し得るデコーダー装置７００、８００、９００、１０００の例を示している。

【0099】

図７～図１０では、いくつかの要素が空間レンダラー２２０の内部にあるものとして示されているが、いくつかの例では、空間レンダラー２２０の外部にあってもよい。例えば、合成シンセサイザー２１０は、部分的に又は完全に空間レンダラー２２０の外部にあってもよい。

【0100】

それらの例では、（空間レンダラー２２０の内部又は外部のいずれかであり得る）パラメータープロセッサ２７５が含まれ得る。パラメータープロセッサ２７５は、図示されていないが、図６のデコーダーに存在すると見なすことができる。

【0101】

図７～図１０のいずれかのパラメータープロセッサ２７５は、例えば、（例えば、ビットストリーム３０４中のシグナリングから取得された）パラメーター３１８であり得る非アクティブフレームを与える非アクティブ空間パラメーターデコーダー２７８、及び／又はビットストリーム３０４中で読み取られないが、例えば外挿によって取得される（例えば、復元、再構成、外挿、推論される等）か又は合成的に生成される非アクティブ空間パラメーターを与えるブロック２７９（「非伝送フレーム中の空間パラメーターを復元するデコーダー」）を含んでもよい。

【0102】

したがって、第２の音場パラメーター表現はまた、ビットストリーム３０４中に存在しなかった生成されたパラメーター２１９であり得る。後述するように、復元（再構成、外挿、推論等）された空間パラメーター２１９は、例えば、「保持戦略」を通して、「方向の外挿戦略」に対して、及び／又は「方向のディザリング」（以下を参照）を通して取得され得る。したがって、パラメータープロセッサ２７５は、前のフレームから空間パラメーター２１９を外挿するか、又はいずれにしても取得することができる。図６～図９に見られるように、スイッチ２７５’は、ビットストリーム３０４中でシグナリングされた非アクティブ空間パラメーター３１８と復元された空間パラメーター２１９との間で選択を行うことができる。上述したように、無音フレーム３４８（ＳＩＤ）（及び非アクティブ空間パラメーター３１８）の符号化は、第１のフレーム３４６の符号化よりも低いビットレートで更新され、非アクティブ空間パラメーター３１８は、アクティブ空間パラメーター３１６に対してより低い頻度で更新され、伝送されていない非アクティブなフレームについてのシグナリングされていない空間パラメーター２１９を復元するために、いくつかの戦略がパラメータープロセッサ２７５（１０７５）によって実行される。したがって、スイッチ２７５’は、シグナリングされた非アクティブ空間パラメーター３１８と、シグナリングされていない（しかし、復元されたか、又は別様で再構成された）非アクティブ空間パラメーター２１９との間で選択を行うことができる。場合によっては、パラメータープロセッサ２７５’は、第２のフレームについての音場パラメーター２１９を外挿（又は内挿）するために、第２のフレームの前に発生するか又は第２のフレームの後の時間に発生する複数のフレームについての１つ以上の音場パラメーター表現３１８を記憶することができる。概して言えば、空間レンダラー２２０は、第２のフレーム３０８のための合成オーディオ信号２０２のレンダリングのために、第２のフレーム２１９についての１つ以上の音場パラメーター３１８を使用することができる。加えて又は代替として、パラメータープロセッサ２７５は、（図１０に示される）アクティブ空間パラメーターのための音場パラメーター表現３１６を記憶し、復元された空間パラメーター３１９を生成するために、記憶された第１の音場パラメーター表現３１６（アクティブフレーム）を使用して第２のフレーム（非アクティブフレーム）についての音場パラメーター２１９を合成することができる。図１０に示すように（ただし、図６～図９のいずれにも実装可能である）、アクティブ空間パラメーター３１６をビットストリーム３０４から取得可能なアクティブ空間パラメーターデコーダー２７６を含むことも可能である。これは、第２のフレーム３０８についての１つ以上の音場パラメーターを決定するために外挿又は内挿する場合、第２のフレーム３０８の前又は後の時間に発生する少なくとも２つの音場パラメーター表現に含まれる方向を用いてディザリングを実行することができる。

【0103】

合成信号シンセサイザー２１０は、空間レンダラー２２０の内部にあってもよく、又は外部にあってもよく、又は場合によっては、内部部分と外部部分とを有してもよい。合成シンセサイザー２１０は、（出力チャネルよりも少ない）トランスポートチャネル２２８のダウンミックスチャネル上で動作することができる（ここで、Ｍはダウンミックスチャネルの数であり、Ｎは出力チャネルの数であることに留意されたい）。合成信号生成器２１０（合成信号シンセサイザーの別名）は、第２のフレームについて、空間レンダラーの外部フォーマットに関係する個別の成分のための複数の合成成分オーディオ信号を（トランスポート信号のチャネルのうちの少なくとも１つにおいて、又は出力オーディオフォーマットの少なくとも１つの個別の成分において）合成オーディオ信号として生成することができる。場合によっては、これは、ダウンミックス信号２２８のチャネル内にあってもよく、場合によっては、空間レンダリングの内部チャネルの１つ内にあってもよい。

【0104】

図７は、（例えば、フィルターバンク分析７２０の下流のそのバージョン２２８ｂにおいて）合成オーディオ信号２２８から取得された少なくともＫ個のチャネル２２８ａが非相関化され得る一例を示している。これは、例えば、合成シンセサイザー２１０が合成オーディオ信号２２８のＭ個のチャネルのうちの少なくとも１つにおいて合成オーディオ信号２２８を生成する場合に取得される。この相関処理７３０は、フィルターバンク分析ブロック７２０の下流で信号２２８ｂ（又はその成分の少なくとも１つ又はいくつか）に適用されてもよく、その結果、少なくともＫ個のチャネル（Ｋ≧Ｍ及び／又はＫ≦Ｎ、Ｎは出力チャネルの数）を取得することができる。その後、信号２２８ｂのＫ個の非相関化されたチャネル２２８ａ及び／又はＭ個のチャネルは、空間パラメーター２１８、２１９（上記参照）を通じてミキシング信号７４２を提供し得るミキシング利得／行列を生成するブロック７４０に提供され得る。ミキシング信号７４２は、Ｎ個の出力チャネル２０２において出力信号を取得するために、フィルターバンク合成ブロック７４６に供されてもよい。基本的に、図７の参照番号２２８ａは、個別の合成成分オーディオ信号２２８ｂから非相関化された個別の合成成分オーディオ信号とすることができ、その結果、空間レンダラー（及びブロック７４０）は、成分２２８ａと成分２２８ｂとの組み合わせを利用する。図８は、全チャネル２２８をＫ個のチャネルで生成する一例を示している。

【0105】

さらに、図７において、非相関器７３０は、フィルターバンク分析ブロック７２０の下流のＫ個の非相関化されたチャネル２２８ｂに適用される。これは、例えば、拡散フィールドに対して実行されてもよい。場合によっては、フィードバック分析ブロック７２０の下流にある信号２２８ｂのＭ個のチャネルは、ミキシング利得／行列を生成するブロック７４４に提供されてもよい。共分散法は、例えば、異なるチャネル間の共分散に相補的な値に関連付けられた値によってチャネル２２８ｂをスケーリングすることによって、非相関器７３０の問題を低減するために使用されてもよい。

【0106】

図８は、周波数領域にある合成信号シンセサイザー２１０の一例を示している。図８の合成シンセサイザー２１０（８１０）には、共分散法を用いることができる。特に、合成オーディオシンセサイザー２１０（８１０）は、その出力２２８ｃをＫ個のチャネル（Ｋ≧Ｍ）で提供し、一方、トランスポートチャネル２２８はＭ個のチャネルである。

【0107】

図９は、図８のデコーダー８００と図７のデコーダー７００とのハイブリッド技術を利用するものとして理解され得るデコーダー９００（デコーダー２００の実施形態）の一例を示している。ここで分かるように、合成信号シンセサイザー２１０は、ダウンミックス信号２２８のＭ個のチャネルにおいて合成オーディオ信号２２８を生成する第１の部分２１０（７１０）を含む。信号２２８は、複数のフィルター帯域が互いに区別される出力２２８ｂを提供し得るフィルターバンク分析ブロック７３０に入力され得る。このとき、チャネル２２８ｂを非相関化して、Ｋ個のチャネルにおいて非相関化された信号２２８ａを取得することができる。一方、Ｍ個のチャネルにおけるフィルターバンク分析の出力２２８ｂは、ミキシング信号７４２のミキシングバージョンを提供し得るミキシング利得行列を生成するブロック７４０に提供される。ミキシング信号７４２は、非アクティブ空間パラメーター３１８及び／又は非アクティブフレーム２１９についての復元された（再構成された）空間パラメーターを考慮に入れることができる。非相関器７３０の出力２２８ａは、加算器９２０において、Ｋ個のチャネルの合成信号２２８ｄを提供する合成信号シンセサイザー２１０の第２の部分８１０の出力２２８ｄにも加算され得ることに留意されたい。信号２２８ｄは、加算ブロック９２０において、非相関化信号２２８ａに加算され、加算された信号２２８ｅをミキシングブロック７４０に提供することができる。したがって、非相関化された成分２２８ａ及び生成された成分２２８ｄの両方を考慮に入れる成分２２８ｂ及び成分２２８ｅの組み合わせを使用することによって、最終出力信号２０２をレンダリングすることが可能となる。図８及び図７の成分２２８ｂ、２２８ａ、２２８ｄ、２２８ｅ（存在する）は、例えば、合成信号２２８の拡散成分及び非拡散成分として理解され得る。特に、図９のデコーダー９００を参照すると、基本的に、信号２２８ｅの低周波数帯域は、トランスポートチャネル７１０から取得することができ（かつ、２２８ａから取得される）、信号２２８ｅの高周波数帯域は、シンセサイザー８１０で生成することができ（かつ、チャネル２２８ｄ内にある）、加算器９２０でのそれらの加算により、信号２２８ｅ内に両方を有することが可能となる。

【0108】

特に、上記の図７～図１０では、アクティブフレーム用のトランスポートチャネルデコーダーは示されていない。

【0109】

図１０は、デコーダー１０００（デコーダー２００の実施形態）の一例を示しており、オーディオデコーダー２３０（復号化されたチャネル２２６を提供する）及び合成信号シンセサイザー２１０（ここでは、第１の外部部分７１０と第２の内部部分８１０との間で分割されると見なされる）の両方が示されている。スイッチ２２４’が示されており、これは図６のものと類似していてもよい（例えば、区間検出器２２０によって提供される制御又はコマンド２２１’によって制御される）。基本的に、復号化オーディオシーン２２６が空間レンダラー２２０に提供されるモードと、合成オーディオ信号２２８が提供される別のモードとの間で選択を行うことが可能である。ダウンミックス信号２２４（２２６、２２８）は、概して出力信号２０２のＮ個の出力チャネルよりも少ないＭ個のチャネルに存在する。

【0110】

信号２２４（２２６、２２８）は、フィルターバンク分析ブロック７２０に入力することができる。（複数の周波数ビンにおける）フィルターバンク分析７２０の出力２２８ｂは、アップミックス加算ブロック７５０に入力することができ、それはまた、合成信号シンセサイザー２１０の第２の部分８１０によって提供される信号２２８ｄによって入力され得る。アップミックス加算ブロック７５０の出力２２８ｆは、相関器処理７３０に入力され得る。非相関器処理７３０の出力２２８ａは、アップミックス加算ブロック７５０の出力２２８ｆとともに、ミキシング利得及び行列を生成するブロック７４０に提供され得る。アップミックス加算ブロック７５０は、例えば、チャネルの数をＭからＫに増加させてもよく（場合によっては、例えば一定の係数による乗算によってそれらをスケーリングすることができる）、Ｋ個のチャネルを、合成信号シンセサイザー２１０によって生成されたＫ個のチャネル２２８ｄ（例えば第２の内部部分８１０）に追加してもよい。第１の（アクティブな）フレームをレンダリングするために、ミキシングブロック７４０は、ビットストリーム３０４において提供されるアクティブ空間パラメーター３１６、外挿されるか、又は別様で取得された復元された（再構成された）空間パラメーター２１０のうちの少なくとも１つを考慮することができる（上記参照）。

【0111】

いくつかの例では、フィルターバンク分析ブロック７２０の出力はＭ個のチャネルに存在してもよいが、異なる周波数帯域を考慮に入れてもよい。第１のフレーム（及び図１０のように位置するスイッチ２２４’及びスイッチ２２２’）については、（少なくとも２つのチャネルにおける）復号化された信号２２６がフィルターバンク分析７２０に与えられてもよく、それにより、Ｋ個のノイズチャネル２２８ｄ（合成信号チャネル）を通じてアップミックス加算ブロック７５０において重み付けされ、Ｋ個のチャネルにおける信号２２８ｆを取得することができる。Ｋ≧Ｍであり、例えば、拡散チャネル及び指向性チャネルを含み得ることを想起されたい。特に、非相関器７３０によって拡散チャネルを非相関化して、非相関化された信号２２８ａを取得することができる。したがって、復号化オーディオ信号２２４は、アクティブフレームと非アクティブフレーム（第１のフレームと第２のフレーム）との間の遷移をマスキングし得る合成オーディオ信号２２８ｄを用いて（例えば、ブロック７５０において）重み付けすることができる。次に、合成信号シンセサイザー２１０の第２の部分８１０は、アクティブフレームだけでなく非アクティブフレームにも使用される。

【0112】

図１１は、第１のフレーム３４６において第１の音場パラメーター表現３１６及び符号化オーディオ信号３４６を含み得るデコーダー２００の別の例を示しており、第２のフレーム３４８は、非アクティブフレームであり、装置は、第２のフレーム３４８が非アクティブフレームであることを検出し、第２のフレーム３０８についてのパラメトリック記述３２８を提供する区間検出器２２０と、第２のフレーム３０８についてのパラメトリック記述３４８を使用して、第２のフレーム３０８についての合成オーディオ信号２２８を合成する合成信号シンセサイザー２１０と、第１のフレーム３０６についての符号化オーディオ信号３４６を復号化するオーディオデコーダー２３０と、第１の音場パラメーター表現３１６を使用し、かつ第２のフレーム３０８についての合成オーディオ信号２２８を使用して、第１のフレーム３０６についてのオーディオ信号２０２を空間的にレンダリングする空間レンダラー２４０、又は第１のフレーム３０６についてのオーディオ信号３４６と、第１のフレーム３０６についての第１の音場パラメーター表現３１６と、第２のフレーム３０８についての合成オーディオ信号２２８と、第２のフレーム３０８についての第２の音場パラメーター表現３１８とを含むメタデータ支援出力フォーマットを生成するトランスコーダーとを備える。

【0113】

上記の例における合成信号シンセサイザー２１０を参照すると、上述したように、それは、ノイズ生成器（例えば、コンフォートノイズ生成器）を備え得る（又は、それらであってもよい）。例では、合成信号生成器２１０は、ノイズ生成器を備えてもよく、第１の個別の合成成分オーディオ信号は、ノイズ生成器の第１のサンプリングによって生成され、第２の個別の合成成分オーディオ信号は、ノイズ生成器の第２のサンプリングによって生成され、第２のサンプリングは、第１のサンプリングとは異なる。

【0114】

加えて又は代替として、ノイズ生成器は、ノイズテーブルを含み、第１の個別の合成成分オーディオ信号は、ノイズテーブルの第１の部分を取得することによって生成され、第２の個別の合成成分オーディオ信号は、ノイズテーブルの第２の部分を取得することによって生成され、ノイズテーブルの第２の部分は、ノイズテーブルの第１の部分とは異なる。

【0115】

例では、ノイズ生成器は、擬似ノイズ生成器を含み、第１の個別の合成成分オーディオ信号は、擬似ノイズ生成器の第１のシードを用いて生成され、第２の個別の合成成分オーディオ信号は、擬似ノイズ生成器の第２のシードを用いて生成される。

【0116】

概して言えば、空間レンダラー２２０は、図６、図７、図９、図１０、及び図１１の例では、直接信号と、第１の音場パラメーター表現３１６の制御下で直接信号から非相関器７３０によって生成された拡散信号とのミキシングを使用して、第１のフレーム３０６に対して第１のモードで動作し、第１の合成成分信号と第２の合成成分信号とのミキシングを使用して、第２のフレーム３０８に対して第２のモードで動作し得、第１の合成成分信号及び第２の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって合成信号シンセサイザー２１０によって生成される。

【0117】

上述したように、空間レンダラー２２０は、パラメータープロセッサによって第２のフレーム３０８について導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、第２のモードでミキシング７４０を制御するように構成され得る。

【0118】

上記の例はまた、第１のフレーム３０６及び第２のフレーム３０８を有するオーディオ信号から符号化オーディオシーンを生成する方法に関し、第１のフレーム３０６におけるオーディオ信号から第１のフレーム３０６についての第１の音場パラメーター表現３１６を決定し、第２のフレーム３０８におけるオーディオ信号から第２のフレーム３０８についての第２の音場パラメーター表現３１８を決定することと、オーディオ信号を分析して、オーディオ信号に応じて、第１のフレーム３０６がアクティブフレームであり、第２のフレーム３０８が非アクティブフレームであると判定することと、アクティブフレームである第１のフレーム３０６についての符号化オーディオ信号を生成し、非アクティブフレームである第２のフレーム３０８についてのパラメトリック記述３４８を生成することと、第１のフレーム３０６についての第１の音場パラメーター表現３１６と、第２のフレーム３０８についての第２の音場パラメーター表現３１８と、第１のフレーム３０６についての符号化オーディオ信号と、第２のフレーム３０８についてのパラメトリック記述３４８とを一緒にすることによって、符号化オーディオシーンを構成することとを含む。

【0119】

上記の例はまた、第１のフレーム３０６において、第１の音場パラメーター表現３１６と符号化オーディオ信号とを含む符号化オーディオシーンを処理する方法であって、第２のフレーム３０８が、非アクティブフレームであり、方法は、第２のフレーム３０８が非アクティブフレームであることを検出し、第２のフレーム３０８についてのパラメトリック記述３４８を提供することと、第２のフレーム３０８についてのパラメトリック記述３４８を使用して、第２のフレーム３０８についての合成オーディオ信号２２８を合成することと、第１のフレーム３０６についての符号化オーディオ信号を復号化することと、第１の音場パラメーター表現３１６を使用し、かつ第２のフレーム３０８についての合成オーディオ信号２２８を使用して、第１のフレーム３０６についてのオーディオ信号を空間的にレンダリングすること、又は第１のフレーム３０６についてのオーディオ信号、第１のフレーム３０６についての第１の音場パラメーター表現３１６、第２のフレーム３０８についての合成オーディオ信号２２８、及び第２のフレーム３０８についての第２の音場パラメーター表現３１８を含むメタデータ支援出力フォーマットを生成することとを含む。

【0120】

第１のフレーム３０６についての第１の音場パラメーター表現３１６と、第２のフレーム３０８についての第２の音場パラメーター表現３１８と、第１のフレーム３０６についての符号化オーディオ信号と、第２のフレーム３０８についてのパラメトリック記述３４８とを含む符号化オーディオシーン３０４も提供される。

【0121】

上記の例では、空間パラメーター３１６及び／又は３１８は、各周波数帯域（サブバンド）について伝送されてもよい。

【0122】

いくつかの例によれば、この無音パラメトリック記述３４８は、したがってＳＩＤ３４８の一部であり得るこの部分的パラメーター３１８を含み得る。

【0123】

非アクティブフレームについての空間パラメーター３１８は、各周波数サブバンド（又は帯域又は周波数）について有効であり得る。

【0124】

アクティブフェーズ３４６中及びＳＩＤ３４８において伝送又は符号化された上述の空間パラメーター３１６及び／又は３１８は、異なる周波数分解能を有することができ、加えて又は代替として、アクティブフェーズ３４６中及びＳＩＤ３４８において伝送又は符号化された上述の空間パラメーター３１６及び／又は３１８は、異なる時間分解能を有することができ、加えて又は代替として、アクティブフェーズ３４６中及びＳＩＤ３４８において伝送又は符号化された上述の空間パラメーター３１６及び／又は３１８は、異なる量子化分解能を有することができる。

【0125】

復号化デバイス及び符号化デバイスは、ＣＥＬＰ又はＤＣＸ又は帯域幅拡張モジュールのようなデバイスであり得ることに留意されたい。

【0126】

ＭＤＣＴベースの符号化方式（修正離散コサイン変換）を使用することも可能である。

【0127】

デコーダー装置２００のこの例では（その実施形態のいずれか、例えば図６～図１１の実施形態では）、オーディオデコーダー２３０及び空間レンダラー２４０を、第１のフレームについてのオーディオ信号、第１のフレームについての第１の音場パラメーター表現、第２のフレームについての合成オーディオ信号、及び第２のフレームについての第２の音場パラメーター表現を含むメタデータ支援出力フォーマットを生成するトランスコーダーに置き換えることが可能である。

【0128】

考察
本発明の実施形態は、ＤＴＸをパラメトリック空間オーディオ符号化に拡張する方法を提案する。したがって、従来のＤＴＸ／ＣＮＧをダウンミックス／トランスポートチャネル（例えば３２４、２２４）に適用し、デコーダー側で、それを空間パラメーター（以下、空間ＳＩＤと称する）、例えば、３１６、３１８及び非アクティブフレーム（例えば、３０８、３２８、３４８、２２８）についての空間レンダリングを用いて拡張することが提案されている。非アクティブフレーム（例えば、３０８、３２８、３４８、２２８）の空間像を復元するために、トランスポートチャネルＳＩＤ３２６、２２６は、没入型バックグラウンドノイズのために特別に設計され関連する一部の空間パラメーター（空間ＳＩＤ）３１９（又は２１９）を用いて修正される。本発明の実施形態（以降及び／又は上記で説明される）は、少なくとも２つの態様を網羅している。

【0129】

・空間レンダリングのためにトランスポートチャネルＳＩＤを拡張する。このために、記述子は、例えばＤｉｒＡＣパラダイム又はＭＡＳＡフォーマットから導出された空間パラメーター３１８で修正される。拡散性３１４ａ、及び／又は到来方向（複数の場合もある）３１４ｂ、及び／又はチャネル間／サラウンドコヒーレンス（複数の場合もある）、及び／又はエネルギー比のようなパラメーター３１８のうちの少なくとも１つは、トランスポートチャネルＳＩＤ３２８（３４８）とともに伝送され得る。特定の場合及び特定の仮定の下では、パラメーター３１８の一部を破棄することができる。例えば、バックグラウンドノイズが完全に拡散されていると仮定すると、無意味な方向３１４ｂの伝送を破棄することができる。

【0130】

・受信機側で、空間内にトランスポートチャネルＣＮＧをレンダリングすることによって非アクティブフレームを空間化する。ＤｉｒＡＣ合成原理又はその派生の１つは、バックグラウンドノイズの空間ＳＩＤ記述子における最終的に伝送される空間パラメーター３１８によって誘導されて使用され得る。少なくとも２つの選択肢が存在し、これらを組み合わせることも可能である。トランスポートチャネルコンフォートノイズ生成は、トランスポートチャネル２２８に対してのみ生成することができ（これは図７の場合であり、コンフォートノイズ２２８が合成信号シンセサイザー７１０によって生成される）、又は、トランスポートチャネルＣＮＧは、トランスポートチャネルに対して、かつアップミキシングのためにレンダラーで使用される追加のチャネルに対しても生成することができる（これは図９の場合であり、何らかのコンフォートノイズ２２８が合成信号シンセサイザーの第１の部分７１０によって生成されるが、何らかの他のコンフォートノイズ２２８ｄが合成信号シンセサイザーの第２の部分８１０によって生成される）。後者の場合では、ＣＮＧの第２の部分７１０（例えば、異なるシードを有するランダムノイズ２２８ｄをサンプリングする）は、生成されたチャネル２２８ｄを自動的に非相関化し、典型的なアーティファクトのソースであり得る非相関器７３０の使用を最小化することができる。さらに、ＣＮＧは、（図１０に示すように）アクティブフレームにおいても使用され得るが、いくつかの例では、アクティブフェーズと非アクティブフェーズ（フレーム）との間の遷移を平滑化するために、また、トランスポートチャネルコーダー及びパラメトリックＤｉｒＡＣパラダイムからの最終的なアーティファクトをマスキングするために、強度が低減される。

【0131】

図３は、エンコーダー装置３００の実施形態の概要を示している。エンコーダー側では、ＤｉｒＡＣ分析によって信号を分析することができる。ＤｉｒＡＣは、Ｂフォーマット又は１次アンビソニックス（ＦＯＡ）のような信号を分析することができる。しかしながら、この原理を高次アンビソニックス（ＨＯＡ）に拡張することも可能であり、［１０］で提案されているように、５．１又は７．１又は７．１＋４のような所与のラウドスピーカーセットアップに関連付けられたマルチチャネル信号に拡張することさえも可能である。入力フォーマット３０２はまた、関連付けられたメタデータに含まれる情報によって空間内で定位された１つ又は複数の異なるオーディオオブジェクトを表す個別のオーディオチャネルであり得る。代替として、入力フォーマット３０２は、メタデータ関連空間オーディオ（ＭＡＳＡ）であり得る。この場合、空間パラメーター及びトランスポートチャネルは、エンコーダー装置３００に直接伝達される。オーディオシーン分析（例えば、図５に示されるような）は、スキップすることができ、最終的な空間パラメーター（再）量子化及び再サンプリングのみが、空間パラメーターの非アクティブなセット３１８に対して、又は空間パラメーターのアクティブなセット３１６及び非アクティブなセット３１８の両方に対して実行される必要がある。

【0132】

オーディオシーン分析は、アクティブフレーム３０６と非アクティブフレーム３０８の両方に対して行われ、２組の空間パラメーター３１６、３１８を生成することができる。第１のセット３１６はアクティブフレーム３０８の場合であり、別のセット３１８は非アクティブフレーム３０８の場合である。非アクティブ空間パラメーターを有さないことも可能であるが、本発明の好ましい実施形態では、非アクティブ空間パラメーター３１８は、アクティブ空間パラメーター３１６よりも少なく、及び／又はより粗く量子化される。その後、空間パラメーターの２つのバージョン（ＤｉｒＡＣメタデータとも称される）が利用可能となり得る。重要なことに、本発明の実施形態は、主に、聴取者の視点からのオーディオシーンの空間表現を対象とすることができる。したがって、最終的な拡散率又はエネルギー比（複数の場合もある）とともに１つ又は複数の方向を含むＤｉｒＡＣパラメーター３１８、３１６のような空間パラメーターが考慮される。チャネル間パラメーターとは異なり、聴取者の視点からのこれらの空間パラメーターは、サウンドキャプチャ及び再生システムに依存しないという大きな利点を有する。このパラメーター化は、任意の特定のマイクロホンアレイ又はラウドスピーカーレイアウトに固有ではない。

【0133】

次いで、発話区間検出器（又はより概しては区間検出器）３２０が、オーディオシーン分析器によって生成された入力信号３０２及び／又はトランスポートチャネル３２６に適用され得る。トランスポートチャネルは、入力チャネルの数よりも少なく、通常、モノラルダウンミックス、ステレオダウンミックス、Ａフォーマット、又は１次アンビソニックス信号である。ＶＡＤの判定に基づいて、処理中の現在のフレームは、アクティブ（３０６、３２６）又は非アクティブ（３０８、３２８）として定義される。アクティブフレーム３０６、３２６の場合、トランスポートチャネルの従来の音声又はオーディオ符号化が実行される。得られたコードデータは、次に、アクティブ空間パラメーター３１６と結合される。非アクティブフレーム３０８、３２８の場合、トランスポートチャネル３２４の無音情報記述３２８は、非アクティブフェーズ中に通常は規則的なフレーム間隔で、例えば８つのアクティブフレーム３０６、３２６、３４６ごとに、偶発的に生成される。次いで、トランスポートチャネルＳＩＤ３２８、３４８は、マルチプレクサ（符号化信号形成器）３７０において、非アクティブ空間パラメーターを用いて修正され得る。非アクティブ空間パラメーター３１８がヌルである場合、トランスポートチャネルＳＩＤ３４８のみが伝送される。ＳＩＤ全体は、通常、例えば２．４ｋｂｐｓ又は４．２５ｋｂｐｓといった非常に低いビットレート記述とすることができる。非アクティブフェーズでは、ほとんどの時間、伝送が行われず、データが送信されないので、平均ビットレートは更に低下する。

【0134】

本発明の好ましい実施形態では、トランスポートチャネルＳＩＤ３４８は２．４ｋｂｐｓのサイズを有し、空間パラメーターを含むＳＩＤ全体は４．２５ｋｂｐｓのサイズを有する。非アクティブ空間パラメーターの計算は、高次アンビソニックス（ＨＯＡ）から直接導出され得るＦＯＡのようなマルチチャネル信号を入力として有するＤｉｒＡＣについては図４に、ＭＡＳＡ入力フォーマットについては図５に記載されている。前述したように、非アクティブ空間パラメーター３１８は、アクティブ空間パラメーター３１６と並行して導出することができ、既に符号化されたアクティブ空間パラメーター３１８を平均化及び／又は再量子化する。入力フォーマット３０２としてのＦＯＡのようなマルチチャネル信号の場合、マルチチャネル信号３０２のフィルターバンク分析は、各時間及び周波数タイルについて、空間パラメーター、方向及び拡散性を計算する前に実行されてもよい。メタデータエンコーダー３９６、３９８は、量子化器及び量子化されたパラメーターの符号化を適用する前に、異なる周波数帯域及び／又はタイムスロットにわたってパラメーター３１６、３１８を平均化することができる。さらに、非アクティブ空間メタデータエンコーダーは、アクティブ空間メタデータエンコーダーにおいて導出された量子化されたパラメーターの一部から継承して、それらを非アクティブ空間パラメーターにおいて直接使用するか、又はそれらを再量子化することができる。ＭＡＳＡフォーマット（例えば図５）の場合、まず入力メタデータが読み取られ、所与の時間－周波数及びビット深度分解能でメタデータエンコーダー３９６、３９８に提供され得る。次いで、メタデータエンコーダー（複数の場合もある）３９６、３９８は、最終的に一部のパラメーターを変換し、その分解能を適合させ（すなわち、分解能を低下させ、例えばそれらを平均化する）、例えばエントロピー符号化方式によって符号化する前にそれらを再量子化することによって更に処理する。

【0135】

例えば図６に示すように、デコーダー側では、伝送されたパケット（例えばフレーム）のサイズを検出することによって、又はパケットの非伝送を検出することによって、ＶＡＤ情報２２１（例えばフレームがアクティブ又は非アクティブとして分類されるかどうか）が最初に復元される。アクティブフレーム３４６では、デコーダーはアクティブモードで動作し、トランスポートチャネルコーダーペイロードはアクティブ空間パラメーターと同様に復号化される。空間レンダラー２２０（ＤｉｒＡＣ合成）は、次いで、出力空間フォーマットの復号化された空間パラメーター３１６、３１８を使用して、復号化されたトランスポートチャネルをアップミキシング／空間化する。非アクティブフレームでは、（例えば、図１０中の）トランスポートチャネルＣＮＧ部分８１０によって、コンフォートノイズがトランスポートチャネル中で生成され得る。ＣＮＧは、通常はエネルギー及びスペクトル形状を（例えば、周波数領域で適用されるスケールファクター又は時間領域合成フィルターを通して適用される線形予測符号化係数を通して）調整するために、トランスポートチャネルＳＩＤに導かれる。コンフォートノイズ（複数の場合もある）２２８ｄ、２２８ａ等は、次いで、今度は非アクティブ空間パラメーター３１８によって誘導されて、空間レンダラー（ＤｉｒＡＣ合成）７４０においてレンダリング／空間化される。出力空間フォーマット２０２は、バイノーラル信号（２チャネル）、所与のラウドスピーカーレイアウトのためのマルチチャネル、又はアンビソニックフォーマットのマルチチャネル信号であり得る。代替的な実施形態では、出力フォーマットは、メタデータ支援空間オーディオ（ＭＡＳＡ）とすることができ、これは、復号化されたトランスポートチャネル又はトランスポートチャネルコンフォートノイズが、外部デバイスによるレンダリングのために、それぞれアクティブ空間パラメーター又は非アクティブ空間パラメーターとともに直接出力されることを意味する。

【0136】

非アクティブ空間パラメーターの符号化及び復号化
非アクティブ空間パラメーター３１８は、周波数帯域における複数の方向のうちの１つと、総エネルギーに対する１つの指向性成分の比に対応する周波数帯域における関連するエネルギー比とからなり得る。１つの方向の場合、好ましい実施形態のように、エネルギー比は、エネルギーの比に対して相補的である拡散性に置き換え、次いで、パラメーターの元のＤｉｒＡＣセットに従うことができる。指向性成分（複数の場合もある）は概して、非アクティブフレームでは拡散部分よりも関連性が低いと予想されるので、アクティブフレーム等ではより粗い量子化方式を使用して、及び／又はより粗い時間分解能及び／又は周波数分解能を得るために時間又は周波数にわたって方向を平均化することによって、より少ないビットで伝送することもできる。好ましい実施形態では、方向は、アクティブフレームについて５ｍｓの代わりに２０ｍｓごとに送信されてもよいが、５つの非一様帯域の同じ周波数分解能が用いられる。

【0137】

好ましい実施形態では、拡散性３１４ａは、アクティブフレームと同じ時間／周波数で伝送され得るが、より少ないビットで伝送され、最小の量子化インデックスを強制する。例えば、拡散性３１４ａがアクティブフレームにおいて４ビットで量子化される場合、２ビットのみで伝送され、０～３の元のインデックスの伝送は回避される。復号化されたインデックスは、次に＋４のオフセットで加算される。

【0138】

いくつかの例では、方向３１４ｂを送信することを完全に回避すること、又は代替として、拡散性３１４ａを送信することを回避し、デコーダーにおいてデフォルト値又は推定値によってそれを置き換えることも可能である。

【0139】

さらに、入力チャネルが空間領域に位置するチャネルに対応する場合、チャネル間コヒーレンスを伝送することを考慮することができる。チャネル間レベル差も、方向の代替となる。

【0140】

より適切なのは、音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを送信することである。これは、例えば、直接信号と拡散信号との間でエネルギーを再分配することによって、空間レンダラー（ＤｉｒＡＣ合成）において利用することができる。サラウンドコヒーレント成分のエネルギーは、指向性成分に再分配される拡散エネルギーから除去され、指向性成分は、次いで、空間内でより均一にパンされる。

【0141】

当然ながら、非アクティブ空間パラメーターについては、先に列挙したパラメーターの任意の組み合わせを考慮することができる。ビットを節約するために、非アクティブフェーズではパラメーターを送信しないことも考えられる。

【0142】

非アクティブ空間メタデータエンコーダーの例示的な擬似コードを以下に示す。
bistream = inactive_spatial_metadata_encoder (
azimuth, /* i: アクティブ空間メタデータエンコーダーからの方位角値 */
elevation, /* i: アクティブ空間メタデータエンコーダーからの仰角値 */
diffuseness_index, /* i/o: アクティブ空間メタデータエンコーダーからの拡散性指数 */
metadata_sid_bits /* 非アクティブ空間メタデータに割り振られたｉビット（空間ＳＩＤ） */
)
{
/* シグナリング２Ｄ*/
not_in_2D = 0;
for ( b = start_band; b < nbands; b++ )
{
for ( m = 0; m < nblocks; m++ )
{
not_in_2D += elevation[b][m];
}
}
write_next_indice( bistream, (not_in_2D > 0 ), 1 ); /*２Ｄフラグ*/

//*必要なビット数を数える*/
bits_dir = 0;
bits_diff = 0;
for ( b = start_band; b < nbands; b++ )
{
diffuseness_index[b] = max( diffuseness_index[b], 4 );
bits_diff += get_bits_diffuseness(diffuseness_index[b] - 4, DIRAC_DIFFUSE_LEVELS - 4);
if ( not_in_2D == 0 )
{
bits_dir += get_bits_azimuth(diffuseness_index[b]);
}
else
{
bits_dir += get_bits_spherical(diffuseness_index[b]);
}
}

/* 拡散性指数を増加させることによってビット要求を減少させる*/
bits_delta = metadata_sid_bits - 1 - bits_diff - bits_dir;
while ( ( bits_delta < 0 ) && (not_in_2D > 0 ) )
{
for ( b = nbands - 1; b >= start_band && ( bits_delta < 0 ); b-- )
{
if ( diffuseness_index[b] < ( DIRAC_DIFFUSE_LEVELS - 1 ) )
{
bits_delta += get_bits_spherical(diffuseness_index[b]);
diffuseness_index[b]++;
bits_delta -= get_bits_spherical(diffuseness_index[b]);
}
}
}

/*拡散性指数を書き込む*/
for ( b = start_band; b < nbands; b++ )
{
Write_diffuseness(bitstream, diffuseness_index[b]- 4, DIRAC_DIFFUSE_LEVELS - 4);
}

/* 帯域毎の平均方向を計算し、量子化する*/
for ( b = start_band; b < nbands; b++ )
{
set_zero( avg_direction_vector, 3 );
for ( m = 0; m < nblocks; m++ )
{
/*平均方向を計算する*/
azimuth_elevation_to_direction_vector(azimuth[b][m], elevation[b][m], direction_vector );
v_add( avg_direction_vector, direction_vector, avg_direction_vector, 3 );
}
direction_vector_to_azimuth_elevation( avg_direction_vector, &avg_azimuth[b], &avg_elevation[b] );

/* 平均方向を量子化する*/
if ( not_in_2D > 0 )
{
Code_and_write_spherical_angles(bitsream, avg_elevation[b], avg_azimuth[b], get_bits_spherical(diffuseness_index[b]));
}
else
{
Code_and_write_azimuth (bitsream, avg_azimuth[b], get_bits_azimuth(diffuseness_index[b]));
}
}

For(i=0; i<delta_bits; i++)
{
Write_next_bit ( bitstream, 0); /*値０でビットを埋める*/
}
}

【0143】

非アクティブ空間メタデータデコーダーの例示的な擬似コードを以下に示す。
[diffuseness, azimuth, elevation] = inactive_spatial_metadata_decoder(bitstream)

/*２Ｄシグナリングを読み取る*/
not_in_2D = read_next_bit(bitstream);

/*拡散性を復号化する*/
for ( b = start_band; b < nbands; b++ )
{
diffuseness_index[b] = read_diffuseness_index( bitstream, DIFFUSE_LEVELS - 4 ) + 4;
diffuseness_avg = diffuseness_reconstructions[diffuseness_index[b]];
for ( m = 0; m < nblocks; m++ )
diffuseness[b][m] = diffusenessavg;
}

/*デコーダーＤＯＡ*/
if (not_in_2D > 0)
{
for ( b = start_band; b < nbands; b++ )
{
bits_spherical = get_bits_spherial(diffuseness_index[b]);
spherical_index = Read_spherical_index( bitstream, bits_spherical);
azimuth_avg = decode_azimuth(spherical_index, bits_spherical);
elevation_avg = decode_elevation(spherical_index, bits_spherical);
for ( m = 0; m < nblocks; m++ )
{
elevation[b][m] *= 0.9f;
elevation[b][m] += 0.1f * elevation_avg;
azimuth[b][m] *= 0.9f;
azimuth[b][m] += 0.1f * azimuth_avg;
}
}
}
else
{
for ( b = start_band; b < nbands; b++ )
{
bits_azimuth = get_bits_azimuth(diffuseness_index[b]);
azimuth_index = Read_azimuth_index( bitstream, bits_azimuth);
azimuth_avg = decode_azimuth(diffuseness_index,_ bits_azimuth);
for ( m = 0; m < nblocks; m++ )
{
elevation[b][m] *= 0.9f;
azimuth[b][m] *= 0.9f;
azimuth[b][m] += 0.1f * azimuth_avg;
}
}
}

【0144】

デコーダー側での非伝送の場合の空間パラメーターの復元

【0145】

非アクティブフェーズ中のＳＩＤの場合、空間パラメーターは、完全に又は部分的に復号化され、次いで、後続のＤｉｒＡＣ合成のために使用され得る。

【0146】

データ伝送がない場合、又は空間パラメーター３１８が当該トランスポートチャネル３４８とともに伝送されない場合、空間パラメーター２１９を復元する必要があり得る。これは、過去に受信されたパラメーター（例えば、３１６及び７又は３１８）を考慮することによって、欠落パラメーター２１９（例えば、図７～図１０）を合成的に生成することによって達成することができる。不安定な空間像は、特に安定していて急速に変化しないと見なされるバックグラウンドノイズに関して、不快であると認識される可能性がある。一方、厳密に一定の空間像は不自然に認識される可能性がある。異なる戦略を適用することができる。

【0147】

保持戦略：
一般に、空間像が経時的に比較的安定する必要があることを考慮することが安全であり、これは、ＤＯＡ及び拡散性に関して、ＤｉｒＡＣパラメーター、すなわちフレーム間であまり変化しないことに置き換えることができる。このため、単純であるが効果的な手法は、復元された空間パラメーター２１９として、最後に受信された空間パラメーター３１６及び／又は３１８を保持することである。これは、少なくとも長期特性を有する拡散性に対して非常にロバストな手法である。しかしながら、方向については、以下に列挙するような異なる戦略を想定することができる。

【0148】

方向の外挿：
代替として又は加えて、オーディオシーンにおけるサウンドイベントの軌跡を推定し、次いで、推定された軌跡を外挿することを試みることが想定され得る。これは、サウンドイベントが点音源として空間内で良好に定位される場合に特に関連し、これは、ＤｉｒＡＣモデルにおいて低い拡散性によって反映される。推定された軌道は、過去の方向の観察及びこれらの点の間の曲線のフィッティングから計算することができ、これは内挿又は平滑化のいずれかを発展させることができる。回帰分析を用いることもできる。パラメーター２１９の外挿は、次いで、（例えば、以前のパラメーター３１６及び／又は３１８を含む）観察されたデータの範囲を超えてフィッティングされた曲線を評価することによって行われてもよい。しかしながら、この手法は、バックグラウンドノイズが無用であり、大部分が拡散されることが予想される非アクティブフレーム３４８にはあまり関連しない結果となり得る。

【0149】

方向のディザリング：
特にバックグラウンドノイズの場合のように、サウンドイベントがより拡散している場合、方向はあまり意味を持たず、確率過程の実測値とみなすことができる。ディザリングは、非伝送フレームに使用する前に、ランダムノイズを以前の方向に注入することによって、レンダリングされた音場をより自然に、より快適にするのに役立ち得る。注入されたノイズ及びその分散は、拡散性の関数であり得る。例えば、方位角及び仰角における注入されたノイズの分散σ_ａｚｉ及びσ_ｅｌｅは、以下のような拡散性Ψの単純なモデル関数に従うことができる。
σ_ａｚｉ＝６５Ψ^３．５＋σ_ｅｌｅ
σ_ｅｌｅ＝３３．２５Ψ＋１．２５

【0150】

コンフォートノイズ生成及び空間化（デコーダー側）
次に、上記で提供されたいくつかの例について説明する。

【0151】

第１の実施形態では、コンフォートノイズ生成器２１０（７１０）は、図７に示すようにコアデコーダー内で実行される。得られたコンフォートノイズは、トランスポートチャネルに注入され、次いで、伝送された非アクティブ空間パラメーター３１８の助けを借りて、又は非伝送の場合には、前述したように推定された空間パラメーター２１９を使用して、ＤｉｒＡＣ合成において空間化される。次いで、空間化は、前述した方法で、例えば、復号化されたトランスポートチャネルから導出され、非アクティブフレームの場合にはトランスポートチャネルコンフォートノイズから導出される２つのストリーム、すなわち指向性及び無指向性を生成することによって、実現することができる。２つのストリームは、その後、ブロック７４０において、空間パラメーター３１８に依存して、アップミキシングされ、ミキシングされる。

【0152】

あるいは、コンフォートノイズ又はその一部は、フィルターバンク領域におけるＤｉｒＡＣ合成内で直接生成されてもよい。実際に、ＤｉｒＡＣは、トランスポートチャネル２２４、空間パラメーター３１８、３１６、３１９、及び一部の非相関器（例えば７３０）の助けを借りて、復元されたシーンのコヒーレンスを制御することができる。非相関器７３０は、合成された音場のコヒーレンスを低減することができる。空間像は、ヘッドホン再生の場合には、より広い幅、深度、拡散、残響又は外在化で認識される。しかし、非相関器は、典型的な可聴アーティファクトを生じやすいことが多く、その使用を減らすことが望ましい。これは、例えば、トランスポートチャネルの既存の非コヒーレント成分を利用することによる、いわゆる共分散合成法［５］によって達成することができる。しかし、この手法は、特にモノラルトランスポートチャネルの場合に制限を有する場合がある。

【0153】

ランダムノイズによって生成されるコンフォートノイズの場合、各出力チャネル又は少なくともそれらのサブセットに対して、専用のコンフォートノイズを生成することが有利である。より具体的には、コンフォートノイズ生成を、トランスポートチャネルだけでなく、空間レンダラー（ＤｉｒＡＣ合成）２２０において（及びミキシングブロック７４０において）使用される中間オーディオチャネルにも適用することが有利である。拡散場の非相関は、非相関器７３０を使用するのではなく、異なるノイズ生成器を使用することによって直接与えられ、これは、アーティファクトの量だけでなく、全体的な複雑性も低減することができる。実際に、ランダムノイズの異なる実測値は、定義上、非相関である。図８及び図９は、空間レンダラー２２０内で完全に又は部分的にコンフォートノイズを生成することによって、これを達成する２つの方法を示している。図８において、ＣＮは、［５］に記載されているように周波数領域において行われ、フィルターバンク分析７２０及び非相関器７３０の両方を回避して、空間レンダラーのフィルターバンク領域を用いて直接生成することができる。ここで、コンフォートノイズが生成されるチャネルの数Ｋは、トランスポートチャネルの数Ｍ以上であり、出力チャネルの数Ｎ以下である。最も簡単な場合には、Ｋ＝Ｎである。

【0154】

図９は、レンダラーにコンフォートノイズ生成８１０を含めるための別の代替例を示している。コンフォートノイズ生成は、空間レンダラー２２０の内部７１０と外部８１０との間で分割される。レンダラー２２０におけるコンフォートノイズ２２８ｄは、最終的な非相関器出力２２８ａに（加算器９２０で）加算される。例えば、低帯域は、必要なメモリを容易に更新できるようにするために、コアコーダーと同じ領域の外部で生成してもよい。一方、コンフォートノイズの生成は、高周波数用のレンダラーにおいて直接実行することができる。

【0155】

さらに、コンフォートノイズ生成は、アクティブフレーム３４６の間にも適用され得る。アクティブフレーム３４６の間にコンフォートノイズ生成を完全にオフにする代わりに、その強度を低減することによって、コンフォートノイズ生成をアクティブに保つことができる。これは、アクティブフレームと非アクティブフレームとの間の遷移をマスキングし、また、コアコーダーとパラメトリック空間オーディオモデルとの両方のアーティファクト及び不完全性をマスキングする役割を果たす。これは、モノラル音声符号化用に［１１］で提案されたものである。同じ原理を空間音声符号化に拡張することができる。図１０は、実施態様を示している。このとき、空間レンダラー２２０におけるコンフォートノイズ生成は、アクティブフェーズ及び非アクティブフェーズの両方で切り替えられる。非アクティブフェーズ３４８において、これは、トランスポートチャネルにおいて実行されるコンフォートノイズ生成に対して相補的である。レンダラーにおいて、コンフォートノイズは、非相関器の使用を低減することを目的として、Ｍ個のトランスポートチャネル以上のＫ個のチャネル上で行われる。空間レンダラー２２０におけるコンフォートノイズ生成は、トランスポートチャネルのアップミキシングされたバージョン２２８ｆに追加され、これは、Ｍ個のチャネルのＫ個のチャネルへの単純なコピーによって達成することができる。

【0156】

態様
エンコーダーについて：
１．オーディオシーンを記述するメタデータを用いて、複数のチャネル又は１つ若しくは複数のオーディオチャネルを有する空間オーディオフォーマットを符号化するオーディオエンコーダー装置（３００）であって、
ａ．空間オーディオ入力信号（３０２）のシーンオーディオ分析器（３１０）であって、１つ又は複数のトランスポートチャネルを含む入力信号（２０２）の空間像及びダウンミキシングされたバージョン（３２６）を記述する空間パラメーターの第１のセット又は第１のセット（３１８）及び第２のセット（３１９）を生成するように構成され、トランスポートチャネルの数は、入力チャネルの数よりも少ない、シーンオーディオ分析器（３１０）、
ｂ．アクティブフェーズ（３０６）においてトランスポートチャネルを含むダウンミキシングされた信号（３２６）を符号化することによって符号化データ（３４６）を生成するように構成されたトランスポートチャネルエンコーダーデバイス（３４０）、
ｃ．非アクティブフェーズ（３０８）におけるトランスポートチャネル（３２８）のバックグラウンドノイズの無音挿入記述（３４８）を生成するトランスポートチャネル無音挿入記述子（３５０）、
ｄ．アクティブフェーズ（３０６）の間、空間パラメーターの第１のセット（３１８）と符号化されたデータ（３４４）とを組み合わせてビットストリーム（３０４）にし、非アクティブフェーズ（３０８）の間、データを送信しないか、又は無音挿入記述（３４８）を送信するか、又は無音挿入記述（３４８）と空間パラメーターの第２のセット（３１８）とを組み合わせて送信する、マルチプレクサ（３７０）、
のうちの少なくとも１つを備える、オーディオエンコーダー装置。

【0157】

２．シーンオーディオ分析器（３１０）は、指向性オーディオ符号化（ＤｉｒＡＣ）原理に従う、１に記載のオーディオエンコーダー。

【0158】

３．シーンオーディオ分析器（３１０）は、１つ又は複数のトランスポートチャネル（３４８）とともに入力メタデータを解釈する、１に記載のオーディオエンコーダー。

【0159】

４．シーンオーディオ分析器（３１０）は、入力メタデータから１つ又は２つのセットのパラメーター（３１６、３１８）を導出し、１つ又は複数の入力オーディオチャネルからトランスポートチャネルを導出した、１に記載のオーディオエンコーダー。

【0160】

５．空間パラメーターは、１つ若しくは複数の到来方向（ＤＯＡ）（３１４ｂ）、又は拡散性（３１４ａ）、又は１つ若しくは複数のコヒーレンスのいずれかである、１に記載のオーディオエンコーダー。

【0161】

６．空間パラメーターは、異なる周波数サブバンドについて導出される、１に記載のオーディオエンコーダー。

【0162】

７．トランスポートチャネルエンコーダーデバイスは、ＣＥＬＰ原理に従うか、又はＭＤＣＴベースの符号化方式であるか、又は２つの方式の切り替えられた組み合わせである、１に記載のオーディオエンコーダー。

【0163】

８．アクティブフェーズ（３０６）及び非アクティブフェーズ（３０８）は、トランスポートチャネル上で実行される発話区間検出器（３２０）によって決定される、１に記載のオーディオエンコーダー。

【0164】

９．空間パラメーターの第１のセット（３１６）及び第２のセット（３１８）は、時間分解能若しくは周波数分解能、又は量子化分解能、又はパラメーターの性質が異なる、１に記載のオーディオエンコーダー。

【0165】

１０．空間オーディオ入力フォーマット（２０２）は、アンビソニックフォーマット、又はＢフォーマット、又は所与のラウドスピーカーセットアップに関連付けられたマルチチャネル信号、又はマイクロホンアレイから導出されたマルチチャネル信号、又はメタデータを伴う個別のオーディオチャネルのセット、又はメタデータ支援空間オーディオ（ＭＡＳＡ）である、１に記載のオーディオエンコーダー。

【0166】

１１．空間オーディオ入力フォーマットは、３つ以上のオーディオチャネルからなる、１に記載のオーディオエンコーダー。

【0167】

１２．トランスポートチャネルの数は、１、２又は４である（他の数が選択されてもよい）、１に記載のオーディオエンコーダー。

【0168】

デコーダーについて：
１．空間オーディオ出力信号（２０２）を生成するためにビットストリーム（３０４）を復号化するオーディオデコーダー装置（２００）であって、ビットストリーム（３０４）は、少なくとも１つのアクティブフェーズ（３０６）と、それに続く少なくとも１つの非アクティブフェーズ（３０８）とを含み、ビットストリームは、トランスポート／ダウンミックスチャネル（２２８）及び／又は空間像情報のバックグラウンドノイズ特性を記述する少なくとも１つの無音挿入記述子フレームＳｌＤ（３４８）をその中に符号化しており、オーディオデコーダー装置（２００）は、
ａ．無音ＳｌＤ（３４８）を復号化してトランスポート／ダウンミックスチャネル（２２８）におけるバックグラウンドノイズを再構成するように構成された無音挿入記述子デコーダー（２１０）、
ｂ．アクティブフェーズ（３０６）中にビットストリーム（３０４）からトランスポート／ダウンミックスチャネル（２２６）を再構成するように構成された復号化デバイス（２３０）、
ｃ．アクティブフェーズ（３０６）中に復号化されたトランスポート／ダウンミックスチャネル（２２４）及び伝送された空間パラメーター（３１６）から、及び非アクティブフェーズ（３０８）中にトランスポート／ダウンミックスチャネル（２２８）における再構成されたバックグラウンドノイズから、空間出力信号（２０２）を再構成する（７４０）ように構成された空間レンダリングデバイス（２２０）、
のうちの少なくとも１つを備える、オーディオデコーダー装置。

【0169】

２．アクティブフェーズにおいて伝送される空間パラメーター（３１６）は、拡散性、又は到来方向、又はコヒーレンスからなる、１に記載のオーディオデコーダー。

【0170】

３．空間パラメーター（３１６、３１８）は、周波数サブバンドによって伝送される、１に記載のオーディオデコーダー。

【0171】

４．無音挿入記述（３４８）は、トランスポート／ダウンミックスチャネル（２２８）のバックグラウンドノイズ特性に加えて空間パラメーター（３１８）を含む、１に記載のオーディオデコーダー。

【0172】

５．ＳＩＤ（３４８）で伝送されるパラメーター（３１８）は、拡散性、又は到来方向、又はコヒーレンスからなり得る、４に記載のオーディオデコーダー。

【0173】

６．ＳＩＤ（３４８）で伝送される空間パラメーター（３１８）は、周波数サブバンドによって伝送される、４に記載のオーディオデコーダー。

【0174】

７．アクティブフェーズ（３４６）中及びＳＩＤ（３４８）において伝送又は符号化される空間パラメーター（３１６、３１８）は、異なる周波数分解能、又は時間分解能、又は量子化分解能のいずれかを有する、４に記載のオーディオデコーダー。

【0175】

８．空間レンダラー（２２０）は、
ａ．復号化されたトランスポート／ダウンミックスチャネル（複数の場合もある）（２２６）及び／又は再構成されたバックグラウンドノイズ（２２８）の非相関化されたバージョン（２２８ｂ）を得る非相関器（７３０）、
ｂ．復号化されたトランスポート／ダウンミックスチャネル（複数の場合もある）（２２６）又は再構成されたバックグラウンドノイズ（２２８）及びそれらの非相関化されたバージョン（２２８ｂ）から、並びに空間パラメーター（３４８）から出力信号を導出するアップミキサー、
からなり得る、１に記載のオーディオデコーダー。

【0176】

９．空間レンダラーのアップミキサーは、
ａ．無音記述子（４４８）に記述された特性及び／又はアクティブフェーズ（３４６）で適用されるノイズ推定によって与えられる特性を有する少なくとも２つの非相関バックグラウンドノイズ（２２８、２２８ａ、２２８ｄ）を生成する少なくとも２つのノイズ生成器（７１０、８１０）を含む、８に記載のオーディオデコーダー。

【0177】

１０．アップミキサーにおいて生成された非相関バックグラウンドノイズは、アクティブフェーズにおいて伝送された空間パラメーター及び／又はＳＩＤに含まれる空間パラメーターを考慮して、復号化されたトランスポートチャネル又はトランスポートチャネルにおいて再構成されたバックグラウンドノイズとミキシングされる、９に記載のオーディオデコーダー。

【0178】

１１．復号化デバイスは、ＣＥＬＰのような音声コーダー、又はＴＣＸ若しくは帯域幅拡張モジュールのような一般的なオーディオコーダーを備える、前述の態様のうちの１つに記載のオーディオデコーダー。

【0179】

図面の更なる特徴付け
図１：［１］からのＤｉｒＡＣ分析及び合成
図２：低ビットレート３ＤオーディオコーダーにおけるＤｉｒＡＣ分析及び合成の詳細なブロック図
図３：デコーダーのブロック図
図４：ＤｉｒＡＣモードにおけるオーディオシーン分析器のブロック図
図５：ＭＡＳＡ入力フォーマットのためのオーディオシーン分析器のブロック図
図６：デコーダーのブロック図
図７：トランスポートチャネルにおけるＣＮＧがレンダラーの外部にある空間レンダラー（ＤｉｒＡＣ合成）のブロック図
図８：Ｋ個のチャネル（Ｋ≧Ｍ個のトランスポートチャネル）についてのレンダラーのフィルターバンク領域において直接実行されるＣＮＧを有する空間レンダラー（ＤｉｒＡＣ合成）のブロック図。
図９：空間レンダラーの外側と内側の両方で実行されるＣＮＧを有する空間レンダラー（ＤｉｒＡＣ合成）のブロック図。
図１０：空間レンダラー（ＤｉｒＡＣ合成）のブロック図であり、ＣＮＧは、空間レンダラーの外側と内側の両方で実行され、アクティブフレームと非アクティブフレームの両方に対してスイッチオンされる。

【0180】

利点
本発明の実施形態は、効率的な方法でＤＴＸをパラメトリック空間オーディオ符号化に拡張することを可能にする。これは、通信帯域幅の節約のために伝送を中断することができる非アクティブフレームについても、高い知覚忠実度でバックグラウンドノイズを復元することができる。

【0181】

このために、トランスポートチャネルのＳＩＤは、バックグラウンドノイズの空間像を記述するための関連する非アクティブ空間パラメーターによって拡張される。生成されたコンフォートノイズは、レンダラーによって空間化される（ＤｉｒＡＣ合成）前に、トランスポートチャネルに適用される。代替として、品質の改善のために、ＣＮＧは、レンダリングにおけるトランスポートチャネルよりも多くのチャネルに適用され得る。これにより、複雑性を軽減し、非相関器アーティファクトの不快感を低減することができる。

【0182】

他の態様
ここで言及すべきは、前述の全ての代替形態又は態様、及び以下の態様における独立した態様によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的、又は独立した態様以外の任意の他の代替形態又は目的を伴わずに使用され得ることである。しかし、他の実施形態では、代替形態又は態様又は独立した態様のうちの２つ以上を互いに組み合わせることができ、他の実施形態では、全ての態様、又は代替形態及び全ての独立した態様を互いに組み合わせることができる。

【0183】

本発明の符号化信号は、デジタル記憶媒体又は非一時的記憶媒体に記憶することができ、又は無線伝送媒体若しくはインターネット等の有線伝送媒体等の伝送媒体上で伝送することができる。

【0184】

いくつかの態様を装置の文脈で説明してきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロック又はデバイスは方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様はまた、対応する装置の対応するブロック又は項目又は特徴の説明を表す。

【0185】

特定の実装要件に応じて、本発明の実施形態は、ハードウェア又はソフトウェアで実装することができる。実施態様は、それぞれの方法が実行されるようにプログラム可能なコンピューターシステムと協働する（又は協働することができる）電子的に可読制御信号が記憶されたデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリを使用して実行することができる。

【0186】

本発明によるいくつかの実施形態は、電子的に可読制御信号を有するデータキャリアを含み、制御信号は、本明細書で説明される方法のうちの１つが実行されるように、プログラム可能なコンピューターシステムと協働することが可能である。

【0187】

概して、本発明の実施形態は、プログラムコードを有するコンピュータープログラム製品として実装することができ、プログラムコードは、コンピュータープログラム製品がコンピューター上で実行されるときに方法のうちの１つを実行するように動作可能である。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。

【0188】

他の実施形態は、機械可読キャリア又は非一時的記憶媒体に記憶された、本明細書に記載の方法のうちの１つを実行するコンピュータープログラムを含む。

【0189】

換言すれば、本発明の方法の実施形態は、したがって、コンピュータープログラムがコンピューター上で実行されるときに、本明細書で説明される方法のうちの１つを実行するプログラムコードを有するコンピュータープログラムである。

【0190】

したがって、本発明の方法の更なる実施形態は、本明細書に記載の方法のうちの１つを実行するコンピュータープログラムを記録したデータキャリア（又はデジタル記憶媒体、又はコンピューター可読媒体）である。

【0191】

したがって、本発明の方法の更なる実施形態は、本明細書に記載された方法の１つを実行するコンピュータープログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されてもよい。

【0192】

更なる実施形態は、本明細書に記載の方法の１つを実行するように構成又は適合された処理手段、例えばコンピューター又はプログラム可能な論理デバイスを含む。

【0193】

更なる実施形態は、本明細書に記載の方法のうちの１つを実行するコンピュータープログラムがインストールされたコンピューターを含む。

【0194】

いくつかの実施形態では、プログラム可能論理デバイス（例えば、フィールドプログラマブルゲートアレイ）が、本明細書に説明される方法の機能性の一部又は全部を行うために使用されてもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に説明される方法のうちの１つを行うために、マイクロプロセッサと協働してもよい。概して、本方法は、任意のハードウェア装置によって実行されることが好ましい。

【0195】

上述の実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成及び詳細の変更及び変形が他の当業者に明らかであることが理解される。したがって、本明細書の実施形態の記述及び説明によって提示される特定の詳細によってではなく、下記の特許態様の範囲によってのみ限定されることが意図される。

【0196】

実施形態の第１のセット及び実施形態の第２のセットについて後に定義される態様は、実施形態の一方のセットの特定の特徴が実施形態の他方のセットに含まれ得るように組み合わせることができる。

【図1a】

【図1b】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2023-03-24

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

第１のフレーム（３０６）及び第２のフレーム（３０８）を有するオーディオ信号（３０２）から符号化オーディオシーン（３０４）を生成する装置（３００）であって、
前記第１のフレーム（３０６）における前記オーディオ信号（３０２）から前記第１のフレーム（３０６）についての第１の音場パラメーター表現（３１６）を決定し、前記第２のフレーム（３０８）における前記オーディオ信号（３０２）から前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）を決定する音場パラメーター生成器（３１０）と、
前記オーディオ信号（３０２）を分析して、前記オーディオ信号（３０２）に応じて、前記第１のフレームがアクティブフレーム（３０６）であり、前記第２のフレームが非アクティブフレーム（３０８）であると判定する区間検出器（３２０）とを備え、
前記音場パラメーター生成器（３１０）は、前記オーディオ信号の前記第２のフレーム（３０８）から、個別の音源（複数の場合もある）を決定し、音源ごとに、前記第２のフレームのパラメトリック記述（３２８）を決定するように構成され、
前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）を、各周波数ビンが前記個別の音源（複数の場合もある）のうちの個別の音源を表す周波数ビン（複数の場合もある）に分解し、各周波数ビンについて、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）として少なくとも１つの非アクティブ空間パラメーターを決定するように構成され、前記少なくとも１つの非アクティブ空間パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、又はエネルギー比パラメーターを含み、
前記装置は、
符号化オーディオ信号（３４４）を生成するオーディオ信号エンコーダー（３３０）であって、該符号化オーディオ信号（３４４）は、前記アクティブフレーム（３０６）である前記第１のフレームについての符号化オーディオ信号（３４６）と、前記非アクティブフレーム（３０８）である前記第２のフレームについての前記パラメトリック記述（３４８）とを提供する、オーディオ信号エンコーダー（３３０）と、
前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）と、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）と、前記第１のフレーム（３０６）についての前記符号化オーディオ信号（３４６）と、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）とを一緒にすることによって、前記符号化オーディオシーン（３０４）を構成する符号化信号形成器（３７０）と、
を更に備える、装置。

【請求項2】

前記音場パラメーター生成器（３１０）は、前記オーディオ信号の前記第２のフレーム（３０８）から、複数の個別の音源を決定し、音源ごとに、前記第２のフレームについての前記パラメトリック記述（３２８）を決定するように構成され、各周波数ビンは、前記複数の個別の音源のうちの個々の音源を表す、請求項１に記載の装置。

【請求項3】

前記音場パラメーター生成器（３１０）は、前記第２の音場パラメーター表現（３１８）が聴取者位置に対する前記オーディオ信号（３０２）の特性を示すパラメーターを含むように、前記第２の音場パラメーター表現（３１８）を生成するように構成される、請求項１又は２に記載の装置。

【請求項4】

前記第１の音場パラメーター表現（３１６）は、前記第１のフレーム（３０６）における聴取者位置に対する音の方向を示す１つ以上の方向パラメーター、又は前記第１のフレーム（３０６）における直接音に対する拡散音の部分を示す１つ以上の拡散性パラメーター、又は前記第１のフレーム（３０６）における直接音と拡散音とのエネルギー比を示す１つ以上のエネルギー比パラメーター、又は前記第１のフレーム（３０６）におけるチャネル間／サラウンドコヒーレンスパラメーターを含む、請求項１又は２又は３に記載の装置。

【請求項5】

前記第１のフレーム（３０６）及び前記第２のフレーム（３０８）についての前記オーディオ信号は、聴取者に対する音場を表す複数の成分を有する入力フォーマットを含み、
前記音場パラメーター生成器（３１０）は、前記複数の成分のダウンミックスを使用して、前記第１のフレーム（３０６）及び前記第２のフレーム（３０８）についての１つ以上のトランスポートチャネル（３２４、３２６、３２８）を算出し、前記入力フォーマットを分析して前記１つ以上のトランスポートチャネルに関連する前記第１のパラメーター表現を決定するように構成され、又は
前記音場パラメーター生成器（３１０）は、前記複数の成分のダウンミックスを使用して、１つ以上のトランスポートチャネル（３２４、３２６、３２８）を算出するように構成され、
前記区間検出器（３２０）は、前記第２のフレーム（３０８）における前記オーディオ信号から導出された前記１つ以上のトランスポートチャネル（３２８）を分析するように構成される、請求項１～４のいずれか一項に記載の装置。

【請求項6】

【請求項7】

【請求項8】

前記オーディオ信号エンコーダー（３３０）は、前記非アクティブフレームについての無音情報記述を前記パラメトリック記述（３４８）として決定するように構成され、
前記無音情報記述は、前記第２のフレーム（３０８）についてのエネルギー、パワー、又はラウドネス等の振幅関連情報と、スペクトル整形情報等の整形情報、又はエネルギー、パワー、若しくはラウドネス等の前記第２のフレーム（３０８）についての振幅関連情報と、前記第２のフレーム（３０８）についての線形予測符号化（ＬＰＣ）パラメーター、又は異なるスケールパラメーターが異なる幅を有する周波数帯域を指すように変化する関連する周波数分解能を有する前記第２のフレーム（３０８）についてのスケールパラメーターとを含む、請求項１～７のいずれか一項に記載の装置。

【請求項9】

前記オーディオ信号エンコーダー（３３０）は、前記第１のフレーム（３０６）について、時間領域又は周波数領域符号化モードを使用して前記オーディオ信号を符号化するように構成され、前記符号化オーディオ信号は、符号化された時間領域サンプルと、符号化されたスペクトル領域サンプルと、符号化されたＬＰＣ領域サンプルと、前記オーディオ信号の成分から取得された、又はダウンミキシング動作によって前記オーディオ信号の前記成分から導出された１つ以上のトランスポートチャネルから取得されたサイド情報とを含む、請求項１～８のいずれか一項に記載の装置。

【請求項10】

前記オーディオ信号（３０２）は、１次アンビソニックスフォーマット、高次アンビソニックスフォーマット、５．１若しくは７．１若しくは７．１＋４等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された１つ又は複数の異なるオーディオオブジェクトを表す１つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含み、
前記音場パラメーター生成器（３１０）は、前記パラメーターが定義された聴取者位置に対する音場を表すように、前記第１の音場パラメーター表現（３１６）及び前記第２の音場表現を決定するように構成される、請求項１～９のいずれか一項に記載の装置。

【請求項11】

前記オーディオ信号（３０２）は、１次アンビソニックスフォーマット、高次アンビソニックスフォーマット、５．１若しくは７．１若しくは７．１＋４等の所与のラウドスピーカーセットアップに関連付けられたマルチチャネルフォーマット、又は関連付けられたメタデータに含まれる情報によって示されるような空間に定位された１つ又は複数の異なるオーディオオブジェクトを表す１つ以上のオーディオチャネルである入力フォーマット、又はメタデータに関連付けられた空間オーディオ表現である入力フォーマットを含み、
前記オーディオ信号は、現実のマイクロホン若しくは仮想マイクロホンによってピックアップされたマイクロホン信号、又は、例えば１次アンビソニックスフォーマット若しくは高次アンビソニックスフォーマットである合成的に生成されたマイクロホン信号を含む、請求項１～１０のいずれか一項に記載の装置。

【請求項12】

前記区間検出器（３２０）は、前記第２のフレーム（３０８）及び前記第２のフレーム（３０８）に続く１つ以上のフレームにわたって非アクティブフェーズを検出するように構成され、
前記区間検出器（３２０）は、前記第２のフレーム（３０８）及び前記第２のフレーム（３０８）に続く８つのフレームを含む非アクティブフェーズを決定するように構成され、前記オーディオ信号エンコーダー（３３０）は、８番目のフレームごとにのみ非アクティブフレームについてのパラメトリック記述を生成するように構成され、前記音場パラメーター生成器（３１０）は、８番目の非アクティブフレームごとに音場パラメーター表現を生成するように構成される、請求項１～１１のいずれか一項に記載の装置。

【請求項13】

前記区間検出器（３２０）は、前記第２のフレーム（３０８）及び前記第２のフレーム（３０８）に続く１つ以上のフレームにわたって非アクティブフェーズを検出するように構成され、
前記音場パラメーター生成器（３１０）は、前記オーディオ信号エンコーダー（３３０）が非アクティブフレームについてパラメトリック記述を生成しない場合であっても各非アクティブフレームについての音場パラメーター表現を生成するように構成される、請求項１～１１のいずれか一項に記載の装置。

【請求項14】

前記音場パラメーター生成器（３１０）は、前記オーディオ信号エンコーダー（３３０）が１つ以上の非アクティブフレームについて前記パラメトリック記述を生成するよりも高いフレームレートを有するパラメーター表現を決定するように構成される、請求項１～１１のいずれか一項に記載の装置。

【請求項15】

【請求項16】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
拡散音若しくは直接音の比を示す拡散性パラメーターを決定すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項17】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
前記第１のフレーム（３０６）における量子化と比較してより粗い量子化方式を使用して方向情報を決定すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項18】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
より粗い時間又は周波数分解能を取得するために、時間又は周波数にわたって方向の平均化を使用すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項19】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
アクティブフレームについての前記第１の音場パラメーター表現（３１６）と同じ周波数分解能を有し、前記非アクティブフレームについての前記音場パラメーター表現における方向情報に関してアクティブフレームについての時間発生よりも低い前記時間発生を有する、１つ以上の非アクティブフレームについての音場パラメーター表現を決定すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項20】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
拡散性パラメーターを有する前記第２の音場パラメーター表現（３１８）を決定することであって、該拡散性パラメーターは、アクティブフレームの場合と同じ時間又は周波数分解能であるが、より粗い量子化で伝送されること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項21】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
第１の数のビットを用いて前記第２の音場表現のための拡散性パラメーターを量子化することであって、各量子化インデックスの第２の数のビットのみが伝送され、前記第２の数のビットは、前記第１の数のビットよりも小さいこと、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項22】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
前記第２の音場パラメーター表現（３１８）について、前記オーディオ信号が空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間コヒーレンスを決定し、若しくは前記オーディオ信号が前記空間領域に位置するチャネルに対応する入力チャネルを有する場合にはチャネル間レベル差を決定すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項23】

前記音場パラメーター生成器（３１０）は、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）を決定するために、
前記オーディオ信号によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定すること、
を行うように構成される、請求項１～１４のいずれか一項に記載の装置。

【請求項24】

第１のフレーム（３０６）及び第２のフレーム（３０８）を有するオーディオ信号（３０２）から符号化オーディオシーン（３０４）を生成する方法であって、
前記第１のフレーム（３０６）における前記オーディオ信号から前記第１のフレーム（３０６）についての第１の音場パラメーター表現（３１６）を決定し、前記第２のフレーム（３０８）における前記オーディオ信号から前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）を決定することと、
前記オーディオ信号（３０２）を分析して、前記オーディオ信号に応じて、前記第１のフレーム（３０６）がアクティブフレームであり、前記第２のフレーム（３０８）が非アクティブフレームであると判定することとを含み、
前記第１の音場パラメーター表現を決定することは、前記オーディオ信号の前記第２のフレーム（３０８）から、音源ごとに、前記第２のフレーム（３０８）についてのパラメトリック記述（３２８）を決定することを含み、
前記第１の音場パラメーター表現を決定することは、前記第２のフレーム（３０８）を、各周波数ビンが個別の音源を表す周波数ビン（複数の場合もある）に分解することと、各周波数ビンについて、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）として少なくとも１つの非アクティブ空間パラメーターを決定することであって、該少なくとも１つの非アクティブ空間パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、又はエネルギー比パラメーターを含むこととを含み、
前記方法は、
符号化オーディオ信号（３４４）を生成することであって、該符号化オーディオ信号（３４４）は、前記アクティブフレーム（３０６）である前記第１のフレームについての符号化オーディオ信号（３４６）と、前記非アクティブフレーム（３０８）である前記第２のフレームについての前記パラメトリック記述（３４８）とを提供することと、
前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）と、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）と、前記第１のフレーム（３０６）についての前記符号化オーディオ信号（３４６）と、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）とを一緒にすることによって、前記符号化オーディオシーン（３０４）を構成することと、
を更に含む、方法。

【請求項25】

前記オーディオ信号の前記第２のフレーム（３０８）から、複数の個別の音源を決定することと、音源ごとに、前記第２のフレーム（３０８）についてのパラメトリック記述（３２８）を決定することとを含み、前記第１の音場パラメーター表現を決定することは、前記第２のフレーム（３０８）を、各周波数ビンが個別の音源を表す複数の周波数ビンに分解することを含む、請求項２４に記載の方法。

【請求項26】

第１のフレーム（３４６）において第１の音場パラメーター表現（３１６）と符号化オーディオ信号（３４６）とを含む符号化オーディオシーン（３０４）を処理する装置（２００）であって、第２のフレーム（３０８）が、非アクティブフレームであり、前記装置は、
前記第２のフレーム（３０８）が前記非アクティブフレームであることを検出する区間検出器（２２００）と、
前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を使用して、前記第２のフレーム（３０８）についての合成オーディオ信号（２２８）を合成する合成信号シンセサイザー（２１０）と、
前記第１のフレーム（３０６）についての前記符号化オーディオ信号（３４６）を復号化するオーディオデコーダー（２３０）と、
前記第１のフレーム（３０６）についての前記オーディオ信号（３４６）と、前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現（３１６）と、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）と、前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）とを含むメタデータ支援出力フォーマットを生成するトランスコーダーと、
を備える、装置。

【請求項27】

第１のフレーム（３４６）において、第１の音場パラメーター表現（３１６）及び符号化オーディオ信号（３４６）を含み、第２のフレームにおいて、非アクティブフレームを含む符号化オーディオシーン（３０４）を処理する装置（２００）であって、該第２のフレームは、分解された周波数ビン（複数の場合もある）であり、各周波数ビンについて、少なくとも１つの非アクティブ空間パラメーターが、前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）として決定され、前記少なくとも１つの非アクティブ空間パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、又はエネルギー比パラメーターを含み、
前記装置は、
前記第２のフレーム（３４８）が前記非アクティブフレームであることを検出する区間検出器（２２００）と、
前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を使用して、前記第２のフレーム（３０８）についての合成オーディオ信号（２２８）を合成する合成信号シンセサイザー（２１０）と、
前記第１のフレーム（３０６）についての前記符号化オーディオ信号（３４６）を復号化するオーディオデコーダー（２３０）と、
前記第１の音場パラメーター表現（３１６）を使用し、かつ前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）及び前記第２の音場パラメーター表現（３１８）を使用して、前記第１のフレーム（３０６）についての前記オーディオ信号（２０２）を空間的にレンダリングする空間レンダラー（２２０）と、を備え、
前記合成信号生成器（２１０）は、前記合成オーディオ信号（２２８）として前記第２のフレーム（３０８）についての１つ以上のトランスポートチャネル（２２８）を生成するように構成され、
前記空間レンダラー（２２０）は、前記第２のフレーム（３０８）についての前記１つ以上のトランスポートチャネル（２２８）を空間的にレンダリングするように構成される、装置。

【請求項28】

前記オーディオ信号の前記第２のフレーム（３０８）について、個別の音源（複数の場合もある）が決定され、音源ごとに、前記第２のフレームについての前記パラメトリック記述が決定され、各周波数ビンは、個別の音源を表す、請求項２７に記載の装置。

【請求項29】

前記符号化オーディオシーン（３０４）は、前記第２のフレーム（３０８）について、第２の音場パラメーター記述（３１８）を含み、前記第２の音場パラメーター表現（３１８）から１つ以上の音場パラメーター（２１９、３１８）を導出する前記パラメータープロセッサ（２７５、１０７５）、前記空間レンダラー（２２０）は、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の前記レンダリングのために、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを使用するように構成される、請求項２７又は２８に記載の装置。

【請求項30】

前記パラメータープロセッサ（２７５、１０７５）は、前記第２のフレーム（３０８）の前の時間に発生するか、又は前記第２のフレーム（３０８）の後の時間に発生する複数のフレームについての１つ以上の音場パラメーター表現を記憶して、複数のフレームについての前記１つ以上の音場パラメーター表現のうちの前記少なくとも２つの音場パラメーター表現を使用して外挿又は内挿することにより、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを決定するように構成され、
前記空間レンダラーは、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の前記レンダリングのために、前記第２のフレーム（３０８）についての前記１つ以上の音場パラメーターを使用するように構成される、請求項２７又は２８又は２９に記載の装置。

【請求項31】

【請求項32】

前記合成信号生成器（２１０）は、前記第２のフレーム（３０８）について、前記空間レンダラーのオーディオ出力フォーマットに関連する個別の成分に対する複数の合成成分オーディオ信号を前記合成オーディオ信号（２２８）として生成するように構成される、請求項２７～３１のいずれか一項に記載の装置。

【請求項33】

【請求項34】

前記空間レンダラー（２２０）は、共分散法を適用するように構成される、請求項３３に記載の装置。

【請求項35】

【請求項36】

前記合成信号生成器（２１０、７１０、８１０）は、コンフォートノイズ生成器である、請求項２７～３５のいずれか一項に記載の装置。

【請求項37】

前記合成信号生成器（２１０）は、ノイズ生成器を含み、前記第１の個別の合成成分オーディオ信号は、前記ノイズ生成器の第１のサンプリングによって生成され、前記第２の個別の合成成分オーディオ信号は、前記ノイズ生成器の第２のサンプリングによって生成され、前記第２のサンプリングは、前記第１のサンプリングとは異なる、請求項３３～３６のいずれか一項に記載の装置。

【請求項38】

【請求項39】

前記ノイズ生成器は、擬似ノイズ生成器を含み、前記第１の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第１のシードを用いて生成され、前記第２の個別の合成成分オーディオ信号は、前記擬似ノイズ生成器の第２のシードを用いて生成される、請求項３７に記載の装置。

【請求項40】

前記符号化オーディオシーン（３０４）は、前記第１のフレーム（３０６）について、２つ以上のトランスポートチャネル（３２６）を含み、
前記合成信号生成器（２１０、７１０、８１０）は、ノイズ生成器（８１０）を含み、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して、前記ノイズ生成器（８１０）をサンプリングすることによって第１のトランスポートチャネルを生成し、前記ノイズ生成器（８１０）をサンプリングすることによって第２のトランスポートチャネルを生成するように構成され、前記ノイズ生成器（１８０）をサンプリングすることによって決定される前記第１のトランスポートチャネル及び前記第２のトランスポートチャネルは、前記第２のフレーム（３０８）についての同じパラメトリック記述（３４８）を使用して重み付けされる、請求項２７～３９のいずれか一項に記載の装置。

【請求項41】

前記空間レンダラー（２２０）は、
直接信号と、前記第１の音場パラメーター表現（３１６）の制御下で前記直接信号から非相関器（７３０）によって生成された拡散信号とのミキシングを使用して、前記第１のフレーム（３０６）に対して第１のモードで動作し、
第１の合成成分信号と前記第２の合成成分信号とのミキシングを使用して、前記第２のフレーム（３０８）に対して第２のモードで動作するように構成され、前記第１の合成成分信号及び前記第２の合成成分信号は、ノイズプロセス又は擬似ノイズプロセスの異なる実測値によって前記合成信号シンセサイザー（２１０）によって生成される、請求項２７～４０のいずれか一項に記載の装置。

【請求項42】

前記空間レンダラー（２２０）は、前記パラメータープロセッサによって前記第２のフレーム（３０８）について導出された拡散性パラメーター、エネルギー分布パラメーター、又はコヒーレンスパラメーターによって、前記第２のモードで前記ミキシング（７４０）を制御するように構成される、請求項４１に記載の装置。

【請求項43】

前記合成信号生成器（２１０）は、前記第２のフレーム（３０８）についての前記パラメトリック記述（３４８）を使用して前記第１のフレーム（３０６）についての合成オーディオ信号（２２８）を生成するように構成され、
前記空間レンダラーは、前記空間レンダリングの前又は後に、前記第１のフレーム（３０６）についての前記オーディオ信号と前記第１のフレーム（３０６）についての前記合成オーディオ信号（２２８）との重み付き合成を実行するように構成され、前記重み付き合成において、前記第１のフレーム（３０６）についての前記合成オーディオ信号（２２８）の強度は、前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）の強度に対して低減される、請求項２７～４２のいずれか一項に記載の装置。

【請求項44】

パラメータープロセッサ（２７５、１０７５）が、前記第２の非アクティブフレーム（３０８）について、前記第２のフレーム（３０８）によって表される音場内でコヒーレントである拡散エネルギーの比として定義されるサラウンドコヒーレンスを決定するように構成され、前記空間レンダラーは、前記サウンドコヒーレンスに基づいて前記第２のフレーム（３０８）における直接信号と拡散信号との間でエネルギーを再分配するように構成され、サウンドサラウンドコヒーレント成分のエネルギーが、前記拡散エネルギーから除去されて指向性成分に再分配され、前記指向性成分は、再生空間内でパンされる、請求項２７～４３のいずれか一項に記載の装置。

【請求項45】

【請求項46】

前記第２のフレーム（３０８）についての１つ以上の第２の音場パラメーター（２１９、３１８）を導出するように構成されたパラメータープロセッサ（２７５、１０７５）を更に備え、前記パラメータープロセッサ（２７５、１０７５）は、前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現を記憶し、前記第１のフレーム（３０６）についての前記記憶された第１の音場パラメーター表現（３１６）を使用して前記第２のフレーム（３０８）についての１つ以上の第２の音場パラメーターを合成するように構成され、前記第２のフレーム（３０８）は、前記第１のフレーム（３０６）に時間的に後続する、請求項２７～４５のいずれか一項に記載の装置。

【請求項47】

第１のフレーム（３０６）において、第１の音場パラメーター表現（３１６）及び符号化オーディオ信号を含み、第２のフレーム（３０８）において、非アクティブフレームを含む符号化オーディオシーンを処理する方法であって、該符号化オーディオシーン（３０４）は、前記第１のフレーム（３０６）についての１つ以上のトランスポートチャネル（３２６）を含み、前記第２のフレームは、周波数ビン（複数の場合もある）に分解され、周波数ビンごとに、少なくとも１つの非アクティブ空間パラメーターが、前記第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）として決定され、前記方法は、
前記第２のフレーム（３０８）が前記非アクティブフレームであることを検出することと、
前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を使用して、前記第２のフレーム（３０８）の合成オーディオ信号（２２８）を合成することと、
前記第１のフレーム（３０６）についての前記符号化オーディオ信号を復号化することと、
前記第１の音場パラメーター表現（３１６）を使用し、かつ前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）及び前記第２のフレーム（３０８）についての前記合成オーディオ信号（２２８）を使用して、前記第１のフレーム（３０６）についての前記オーディオ信号を空間的にレンダリングすることとを含み、
前記方法は、前記合成オーディオ信号（２２８）として前記第２のフレーム（３０８）についての１つ以上のトランスポートチャネル（２２８）を生成することと、前記第２のフレーム（３０８）についての前記１つ以上のトランスポートチャネル（２２８）を空間的にレンダリングすることとを更に含み、
前記方法は、前記第２のフレーム（３０８）についての１つ以上の第２の音場パラメーター（２１９、３１８）を導出することを更に含み、前記パラメータープロセッサ（２７５、１０７５）は、前記第１のフレーム（３０６）についての前記第１の音場パラメーター表現を記憶し、前記第１のフレーム（３０６）についての前記記憶された第１の音場パラメーター表現（３１６）を使用して前記第２のフレーム（３０８）についての１つ以上の第２の音場パラメーターを合成するように構成され、前記第２のフレーム（３０８）は、前記第１のフレーム（３０６）に時間的に後続する、方法。

【請求項48】

前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）を提供することを更に含む、請求項４７に記載の方法。

【請求項49】

符号化オーディオシーン（３０４）であって、
第１のフレーム（３０６）についての第１の音場パラメーター表現（３１６）と、
第２のフレーム（３０８）についての第２の音場パラメーター表現（３１８）と、
前記第１のフレーム（３０６）についての符号化オーディオ信号と、
周波数ビン（複数の場合もある）に分解された、前記第２のフレーム（３０８）についてのパラメトリック記述（３４８）と、を含み、
各周波数ビンについて、前記第２のフレーム（３０８）についての前記第２の音場パラメーター表現（３１８）として少なくとも１つの非アクティブ空間パラメーターが決定され、前記少なくとも１つの非アクティブ空間パラメーターは、方向パラメーター、到来方向パラメーター、拡散性パラメーター、又はエネルギー比パラメーターを含む、符号化オーディオシーン。

【請求項50】

コンピューター又はプロセッサ上で実行されるときに、請求項２４又は請求項４７に記載の方法を実行するコンピュータープログラム。

【国際調査報告】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版