特表2023-551040 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ホアウェイ・テクノロジーズ・カンパニー・リミテッドの特許一覧

特表2023-551040オーディオの符号化及び復号方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2a
2b
2c
3a
3b
3c
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-12-06

(54)【発明の名称】オーディオの符号化及び復号方法及び装置

(51)【国際特許分類】

G10L 19/008 20130101AFI20231129BHJP

【ＦＩ】

G10L19/008 100

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023532579

(86)(22)【出願日】2021-05-28

(85)【翻訳文提出日】2023-07-03

(86)【国際出願番号】 CN2021096841

(87)【国際公開番号】W WO2022110723

(87)【国際公開日】2022-06-02

(31)【優先権主張番号】202011377320.0

(32)【優先日】2020-11-30

(33)【優先権主張国・地域又は機関】CN

(81)【指定国・地域】

(71)【出願人】

【識別番号】504161984

【氏名又は名称】ホアウェイ・テクノロジーズ・カンパニー・リミテッド

(74)【代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】ガオ、ユアン

(72)【発明者】

【氏名】リウ、シュアイ

(72)【発明者】

【氏名】ワン、ビン

(72)【発明者】

【氏名】ワン、ジェ

(72)【発明者】

【氏名】キュ、ティアンシュ

(72)【発明者】

【氏名】シュ、ジアハオ

(57)【要約】

オーディオの符号化及び復号方法及び装置、及び可読記憶媒体が提供される。オーディオ符号化方法は、現在のシーンオーディオ信号（４０１）に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する段階；現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカ（４０２）の属性情報に基づいて、第１仮想スピーカ信号を生成する段階；及び第１仮想スピーカ信号を符号化して、ビットストリーム（４０３）を取得する段階を備える。符号化方法によると、符号化されたデータの量は低減し、符号化効率が向上される。

【特許請求の範囲】

【請求項1】

オーディオ符号化方法であって、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する段階；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する段階；及び
前記第１仮想スピーカ信号を符号化して、ビットストリームを取得する段階
を備える、方法。

【請求項2】

前記方法はさらに、
前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得する段階
を備え；
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する段階
を含む、請求項１に記載の方法。

【請求項3】

前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、高次アンビソニックス（ＨＯＡ）係数セットから前記メイン音場成分のＨＯＡ係数を選択する段階、ここで、前記ＨＯＡ係数セットにおけるＨＯＡ係数は、前記仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び
前記メイン音場成分の前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第１ターゲット仮想スピーカとして決定する段階
を含む、請求項２に記載の方法。

【請求項4】

前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得する段階；
前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成する段階；及び
前記第１ターゲット仮想スピーカの前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定する段階
を含む、請求項２に記載の方法。

【請求項5】

前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得する前記段階は、
オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階；及び
前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第１ターゲット仮想スピーカの前記構成パラメータを選択する段階
を含む、請求項４に記載の方法。

【請求項6】

前記第１ターゲット仮想スピーカの前記構成パラメータは、前記第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成する前記段階は、
前記第１ターゲット仮想スピーカの前記位置情報及び前記ＨＯＡ次数情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を決定する段階
を含む、請求項４又は５に記載の方法。

【請求項7】

前記方法はさらに、
前記第１ターゲット仮想スピーカの前記属性情報を符号化する段階、及び、符号化された属性情報を前記ビットストリームに書き込む段階を備える、請求項１から６のいずれか一項に記載の方法。

【請求項8】

前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス（ＨＯＡ）信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカのＨＯＡ係数を含み；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する前記段階は、
前記符号化対象のＨＯＡ信号及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得する段階
を含む、請求項１から７のいずれか一項に記載の方法。

【請求項9】

前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス（ＨＯＡ）信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの位置情報を含み；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する前記段階は、
前記第１ターゲット仮想スピーカの前記位置情報に基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を取得する段階；及び
前記符号化対象のＨＯＡ信号、及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得する段階
を含む、請求項１から７のいずれか一項に記載の方法。

【請求項10】

前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階；
前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する段階；及び
前記第２仮想スピーカ信号を符号化する段階、及び符号化された第２仮想スピーカ信号を前記ビットストリームに書き込む段階
を備える、請求項１から９のいずれか一項に記載の方法。

【請求項11】

前記方法はさらに、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、前記第２仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第２仮想スピーカ信号を符号化する段階を含み；
それに応じて、前記第１仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第１仮想スピーカ信号を符号化する段階を含む、請求項１０に記載の方法。

【請求項12】

前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階；及び
前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する段階
を備え；
それに応じて、前記第１仮想スピーカ信号を符号化する前記段階は、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；及び
前記ダウンミックスされた信号及び前記サイド情報を符号化する段階
を含む、請求項１から９のいずれか一項に記載の方法。

【請求項13】

前記方法はさらに、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する前記段階は、
前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号に基づいて、前記ダウンミックスされた信号、及び前記サイド情報を取得する段階
を含み；
それに応じて、前記サイド情報は、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号の間の関係を示す、請求項１２に記載の方法。

【請求項14】

前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する前記段階の前に、前記方法はさらに、
前記現在のシーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、前記第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する段階；及び
前記第１ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第２ターゲット仮想スピーカを選択する段階
を含む、請求項１０から１３のいずれか一項に記載の方法。

【請求項15】

オーディオ復号方法であって、
ビットストリームを受信する段階；
前記ビットストリームを復号して、仮想スピーカ信号を取得する段階；及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階
を備える、方法。

【請求項16】

前記方法はさらに、
前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得する段階を備える、請求項１５に記載の方法。

【請求項17】

前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックス（ＨＯＡ）係数を含み；
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む、請求項１６に記載の方法。

【請求項18】

前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み；
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのＨＯＡ係数を決定する段階；及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む、請求項１６に記載の方法。

【請求項19】

前記仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記方法はさらに、
前記ビットストリームを復号してサイド情報を取得する段階、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；及び
前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記属性情報、前記第１仮想スピーカ信号、及び前記第２仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得する段階
を含む、請求項１５から１８のいずれか一項に記載の方法。

【請求項20】

オーディオ符号化装置であって、
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択するように構成された取得モジュール；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成するように構成された信号生成モジュール；及び
前記第１仮想スピーカ信号を符号化してビットストリームを取得するように構成された符号化モジュール
を備える、装置。

【請求項21】

前記取得モジュールは、前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得すること；及び、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択することを行うように構成されている、請求項２０に記載の装置。

【請求項22】

前記取得モジュールは、前記メイン音場成分に基づいて、高次アンビソニックス（ＨＯＡ）係数セットから前記メイン音場成分のＨＯＡ係数を選択すること、ここで、前記ＨＯＡ係数セットにおけるＨＯＡ係数は、前記仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び、前記メイン音場成分の前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第１ターゲット仮想スピーカとして決定することを行うように構成されている、請求項２１に記載の装置。

【請求項23】

前記取得モジュールは、前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得すること；前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成すること；及び、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定することを行うように構成されている、請求項２１に記載の装置。

【請求項24】

前記取得モジュールは、オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること；及び、前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第１ターゲット仮想スピーカの前記構成パラメータを選択することを行うように構成されている、請求項２３に記載の装置。

【請求項25】

前記第１ターゲット仮想スピーカの前記構成パラメータは、前記第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
前記取得モジュールは、前記第１ターゲット仮想スピーカの前記位置情報及び前記ＨＯＡ次数情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を決定するように構成されている、請求項２３又は２４に記載の装置。

【請求項26】

前記符号化モジュールはさらに、前記第１ターゲット仮想スピーカの前記属性情報を符号化して、符号化された属性情報を前記ビットストリームに書き込むように構成されている、請求項２０から２５のいずれか一項に記載の装置。

【請求項27】

前記現在のシーンオーディオ信号は符号化対象のＨＯＡ信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカのＨＯＡ係数を含み；
前記信号生成モジュールは、前記符号化対象のＨＯＡ信号及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得するように構成されている、請求項２０から２６のいずれか一項に記載の装置。

【請求項28】

前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックス（ＨＯＡ）信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの位置情報を含み；
前記信号生成モジュールは、前記第１ターゲット仮想スピーカの前記位置情報に基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を取得すること；及び、前記符号化対象のＨＯＡ信号、及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得することを行うように構成されている、請求項２０から２６のいずれか一項に記載の装置。

【請求項29】

前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
前記符号化モジュールは、前記第２仮想スピーカ信号を符号化して、符号化された第２仮想スピーカ信号を前記ビットストリームに書き込むように構成されている、請求項２０から２８のいずれか一項に記載の装置。

【請求項30】

前記信号生成モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第２仮想スピーカ信号を符号化するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第１仮想スピーカ信号を符号化するように構成されている、請求項２９に記載の装置。

【請求項31】

前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
それに応じて、前記符号化モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示しており；前記ダウンミックスされた信号及び前記サイド情報を符号化することを行うように構成されている、請求項２０から２８のいずれか一項に記載の装置。

【請求項32】

前記信号生成モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号に基づいて、前記ダウンミックスされた信号及び前記サイド情報を取得するように構成されており；
それに応じて、前記サイド情報は、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号の間の関係を示す、請求項３１に記載の装置。

【請求項33】

前記取得モジュールは：前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを前記選択する前に、前記現在のシーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、前記第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること；及び、前記第１ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第２ターゲット仮想スピーカを選択することを行うように構成されている、請求項２０から３２のいずれか一項に記載の装置。

【請求項34】

オーディオ復号装置であって、
ビットストリームを受信するように構成された受信モジュール；
前記ビットストリームを復号して、仮想スピーカ信号を取得するように構成された復号モジュール；及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成された再構築モジュール
を備える、装置。

【請求項35】

前記復号モジュールはさらに、前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得するように構成されている、請求項３４に記載の装置。

【請求項36】

前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックス（ＨＯＡ）係数を含み；
前記再構築モジュールは、前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得するように構成されている、請求項３５に記載の装置。

【請求項37】

前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み；
前記再構築モジュールは、前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのＨＯＡ係数を決定すること；及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得すること
を行うように構成されている、請求項３５に記載の装置。

【請求項38】

前記仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記装置はさらに、信号補償モジュールを備え、ここで
前記復号モジュールは、前記ビットストリームを復号してサイド情報を取得するように構成されており、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；
前記信号補償モジュールは、前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記再構築モジュールは、前記ターゲット仮想スピーカの前記属性情報、前記第１仮想スピーカ信号、及び前記第２仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得するように構成されている、請求項３４から３７のいずれか一項に記載の装置。

【請求項39】

オーディオ符号化装置であって、前記オーディオ符号化装置は、少なくとも１つのプロセッサを備え、前記少なくとも１つのプロセッサは、メモリに結合され、前記メモリ内の命令を読み取って実行することで、請求項１から１４のいずれか一項に記載の方法を実装するように構成されている、オーディオ符号化装置。

【請求項40】

前記オーディオ符号化装置はさらに、前記メモリを備える、請求項３９に記載のオーディオ符号化装置。

【請求項41】

オーディオ復号装置であって、前記オーディオ復号装置は、少なくとも１つのプロセッサを備え、前記少なくとも１つのプロセッサは、メモリに結合され、前記メモリ内の命令を読み取って実行することで、請求項１５から１９のいずれか一項に記載の方法を実装するように構成されている、オーディオ復号装置。

【請求項42】

前記オーディオ復号装置はさらに、前記メモリを備える、請求項４１に記載のオーディオ復号装置。

【請求項43】

コンピュータに、請求項１から１４又は請求項１５から１９のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。

【請求項44】

請求項１から１４のいずれか一項に記載の方法を使用することによって生成されたビットストリームを備える、コンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本願は、２０２０年１１月３０日に中国国家知識産権局に出願された「オーディオの符号化及び復号方法及び装置」と題する中国特許出願第２０２０１１３７７３２０．０号に基づく優先権を主張しており、当該出願はその全体が参照により本明細書に組み込まれる。

【0002】

本願は、オーディオの符号化及び復号技術、特に、オーディオの符号化及び復号方法及び装置の分野に関連する。

【背景技術】

【0003】

３次元オーディオ技術は、実世界におけるサウンドイベント及び３次元音場情報を、取得、処理、伝送、レンダリング、及びプレイバックするオーディオ技術である。３次元オーディオ技術は、強い空間、包囲及び没入の感覚を音に付与し、人に、彼らが本当にそこにいるかのような特別な聴覚的経験を提供する。高次アンビソニックス（ｈｉｇｈｅｒｏｒｄｅｒａｍｂｉｓｏｎｉｃｓ，ＨＯＡ）技術は、記録、符号化、及びプレイバックフェーズにおけるスピーカレイアウトに無関係な性質、及び、ＨＯＡフォーマットのデータの回転可能プレイバック特性を有し、３次元オーディオプレイバック中により高い柔軟性を有し、したがって、より多くの注目及び研究の対象になっている。

【0004】

より良好なオーディオの聴覚的効果を達成すべく、ＨＯＡ技術は、サウンドシーンについてのより詳細な情報を記録するために、大量のデータを必要とする。３次元オーディオ信号のこのようなシーンベースのサンプリング及び記憶は、オーディオ信号の空間情報の記憶及び伝送により役立つが、ＨＯＡ次数が増加するにつれて大量のデータが生成され、当該大量のデータは伝送及び記憶を困難にさせる。したがって、ＨＯＡ信号は、符号化及び復号される必要がある。

【0005】

現在、エンコーダ側において、コアエンコーダ（例えば、１６チャネルエンコーダ）を使用することによって元のシーンにおけるオーディオ信号の各チャネルを直接符号化し、その後、ビットストリームを出力する段階を含むマルチチャネルデータの符号化及び復号方法が存在する。デコーダ側において、コアデコーダ（例えば、１６チャネルデコーダ）は、ビットストリームを復号して、復号シーンの各チャネルを取得する。

【0006】

前述のマルチチャネルの符号化及び復号方法において、対応するエンコーダ及び対応するデコーダは、元のシーンにおけるオーディオ信号のチャネルの数に基づいて適合される必要がある。加えて、チャネルの数が増加するにつれて、大量のデータ及び高帯域幅占有がビットストリームの圧縮中に存在する。

【発明の概要】

【0007】

本願の実施形態は、オーディオの符号化及び復号方法及び装置を提供して、符号化及び復号されたデータの量を減らし、これにより、符号化及び復号の効率を向上させる。

【0008】

前述の技術的問題を解決すべく、本願の実施形態は、以下の技術的解決手段を提供する。

【0009】

第１態様によると、本願の実施形態は、
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する段階；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する段階；及び
前記第１仮想スピーカ信号を符号化して、ビットストリームを取得する段階
を含む、オーディオ符号化方法を提供する。

【0010】

本願の本実施形態において、第１ターゲット仮想スピーカは、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから選択され；第１仮想スピーカ信号は、現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて生成され；第１仮想スピーカ信号は符号化されて、ビットストリームを取得する。本願の本実施形態において、第１仮想スピーカ信号は、第１シーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて生成され得、オーディオエンコーダ側は、第１シーンオーディオ信号を直接符号化する代わりに、第１仮想スピーカ信号を符号化する。本願の本実施形態において、第１ターゲット仮想スピーカは、第１シーンオーディオ信号に基づいて選択され、第１ターゲット仮想スピーカに基づいて生成された第１仮想スピーカ信号は、空間におけるリスナーの位置における音場を表し得、この位置における音場は、第１シーンオーディオ信号が記録されるときの原音場に、できる限り近い。これは、オーディオエンコーダ側の符号化品質を保証する。加えて、第１仮想スピーカ信号及び残差信号が符号化され、ビットストリームを取得する。第１仮想スピーカ信号の符号化されたデータの量は、第１ターゲット仮想スピーカに関連しており、第１シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたデータの量を減らし、符号化効率を向上させる。

【0011】

可能な実装において、前記方法はさらに、
前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得する段階
を含み；
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する段階
を含む。

【0012】

前述の解決手段において、仮想スピーカセットにおける各仮想スピーカは音場成分に対応しており、第１ターゲット仮想スピーカは、メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第１ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第１ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。

【0013】

可能な実装において、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、高次アンビソニックスＨＯＡ係数セットから前記メイン音場成分のＨＯＡ係数を選択する段階、ここで、前記ＨＯＡ係数セットにおけるＨＯＡ係数は、前記仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び
前記メイン音場成分の前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記第１ターゲット仮想スピーカとして決定する段階
を含む。

【0014】

前述の解決手段において、エンコーダ側は、仮想スピーカセットに基づいてＨＯＡ係数セットを予め構成し、ＨＯＡ係数セットにおけるＨＯＡ係数及び仮想スピーカセットにおける仮想スピーカの間には１対１の対応関係が存在する。したがって、ＨＯＡ係数がメイン音場成分に基づいて選択された後、仮想スピーカセットを、１対１の対応関係に基づいて、メイン音場成分のＨＯＡ係数に対応するターゲット仮想スピーカから検索する。発見されたターゲット仮想スピーカは、第１ターゲット仮想スピーカである。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。

【0015】

可能な実装において、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択する前記段階は、
前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得する段階；
前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成する段階；及び
前記第１ターゲット仮想スピーカの前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定する段階
を含む。

【0016】

前述の解決手段において、メイン音場成分を取得した後、エンコーダ側は、メイン音場成分に基づいて第１ターゲット仮想スピーカの構成パラメータを決定するために使用され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する１つ又はいくつかの音場成分であり、又は、メイン音場成分は、複数の音場成分のうち優勢な方向（ｄｏｍｉｎａｎｔｄｉｒｅｃｔｉｏｎ）を有する１つ又はいくつかの音場成分であり得る。メイン音場成分は、現在のシーンオーディオ信号とマッチングする第１ターゲット仮想スピーカを決定するために使用され得、対応する属性情報は第１ターゲット仮想スピーカのために構成されており、第１ターゲット仮想スピーカのＨＯＡ係数は、第１ターゲット仮想スピーカの構成パラメータに基づいて生成され得る。ＨＯＡ係数を生成するプロセスは、ＨＯＡアルゴリズムに従って実装され得、詳細については本明細書において説明しない。仮想スピーカセットにおける各仮想スピーカは、ＨＯＡ係数に対応している。したがって、第１ターゲット仮想スピーカは、各仮想スピーカのＨＯＡ係数に基づいて、仮想スピーカセットから選択され得る。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。

【0017】

可能な実装において、前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得する前記段階は、
オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階；及び
前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第１ターゲット仮想スピーカの前記構成パラメータを選択する段階
を含む。

【0018】

前述の解決手段において、オーディオエンコーダは、複数の仮想スピーカのそれぞれの構成パラメータを予め記憶し得る。各仮想スピーカの構成パラメータは、オーディオエンコーダの構成情報に基づいて決定され得る。オーディオエンコーダは、前述のエンコーダ側である。オーディオエンコーダの構成情報は、限定されるものではないが、ＨＯＡ次数、及び符号化ビットレート等を含む。オーディオエンコーダの構成情報は、各仮想スピーカの仮想スピーカ及び位置パラメータの数を決定するために使用され得る。このように、エンコーダ側は、仮想スピーカの構成パラメータを決定し得る。例えば、符号化ビットレートが低い場合、少数の仮想スピーカが構成され得；符号化ビットレートが高い場合、複数の仮想スピーカが構成され得る。別の例の場合、仮想スピーカのＨＯＡ次数は、オーディオエンコーダのＨＯＡ次数に等しくてよい。本願の本実施形態において、オーディオエンコーダの構成情報に基づいて複数の仮想スピーカのそれぞれの構成パラメータを決定する段階に加えて、複数の仮想スピーカのそれぞれの構成パラメータはさらに、ユーザにより定義された情報に基づいて決定され得る。例えば、ユーザは、仮想スピーカの位置、ＨＯＡ次数、及び仮想スピーカの数等を定義し得る。これは、本明細書において限定されるものではない。

【0019】

可能な実装において、前記第１ターゲット仮想スピーカの前記構成パラメータは、前記第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成する前記段階は、
前記第１ターゲット仮想スピーカの前記位置情報及び前記ＨＯＡ次数情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を決定する段階
を含む。

【0020】

前述の解決手段において、各仮想スピーカのＨＯＡ係数は、仮想スピーカの位置情報及びＨＯＡ次数情報に基づいて生成され得、ＨＯＡ係数を生成するプロセスは、ＨＯＡアルゴリズムに従って実装され得る。このように、エンコーダ側は、第１ターゲット仮想スピーカのＨＯＡ係数を決定し得る。

【0021】

可能な実装において、前記方法はさらに、
前記第１ターゲット仮想スピーカの前記属性情報を符号化する段階、及び、符号化された属性情報を前記ビットストリームに書き込む段階を含む。

【0022】

前述の解決手段において、仮想スピーカを符号化する段階に加えて、エンコーダ側は、第１ターゲット仮想スピーカの属性情報を符号化して、第１ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。この場合、取得されたビットストリームは、第１ターゲット仮想スピーカの符号化された仮想スピーカ及び符号化された属性情報を含み得る。本願の本実施形態において、ビットストリームは、第１ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第１ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。

【0023】

可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を含み；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する前記段階は、
前記符号化対象のＨＯＡ信号及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得する段階
を含む。

【0024】

前述の解決手段において、現在のシーンオーディオ信号が符号化対象のＨＯＡ信号である例が使用されている。エンコーダ側は、まず、第１ターゲット仮想スピーカのＨＯＡ係数を決定する。例えば、エンコーダ側は、メイン音場成分に基づいて、ＨＯＡ係数セットからＨＯＡ係数を選択する。選択されたＨＯＡ係数は、第１ターゲット仮想スピーカのＨＯＡ係数である。エンコーダ側が、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数を取得した後、第１仮想スピーカ信号が、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に基づいて生成され得る。符号化対象のＨＯＡ信号は、第１ターゲット仮想スピーカのＨＯＡ係数に対して線形結合を実行することによって取得され得、第１仮想スピーカ信号の解決手段は、線形結合の解決手段に変換され得る。

【0025】

可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの前記位置情報を含み；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する前記段階は、
前記第１ターゲット仮想スピーカの前記位置情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を取得する段階；及び
前記符号化対象のＨＯＡ信号、及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得する段階
を含む。

【0026】

前述の解決手段において、第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカの位置情報を含み得る。エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を予め記憶し、エンコーダ側はさらに、各仮想スピーカの位置情報を記憶する。仮想スピーカの位置情報及び仮想スピーカのＨＯＡ係数の間には対応関係が存在する。したがって、エンコーダ側は、第１ターゲット仮想スピーカの位置情報に基づいて第１ターゲット仮想スピーカのＨＯＡ係数を決定し得る。属性情報がＨＯＡ係数を含む場合、エンコーダ側は、第１ターゲット仮想スピーカの属性情報を復号することによって、第１ターゲット仮想スピーカのＨＯＡ係数を取得し得る。

【0027】

可能な実装において、前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階；
前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する段階；及び
前記第２仮想スピーカ信号を符号化する段階、及び符号化された第２仮想スピーカ信号を前記ビットストリームに書き込む段階
を備える。

【0028】

前述の解決手段において、第２ターゲット仮想スピーカは、エンコーダ側によって選択された、第１ターゲット仮想エンコーダとは異なる別のターゲット仮想スピーカである。第１シーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第２ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第２ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、第１シーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、第１シーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第２ターゲット仮想スピーカを選択することである。

【0029】

可能な実装において、前記方法はさらに、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、前記第２仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第２仮想スピーカ信号を符号化する段階を含み；
それに応じて、前記第１仮想スピーカ信号を符号化する前記段階は、
前記位置合わせされた第１仮想スピーカ信号を符号化する段階を含む。

【0030】

前述の解決手段において、位置合わせされた第１仮想スピーカ信号を取得した後、エンコーダ側は、位置合わせされた第１仮想スピーカ信号を符号化し得る。本願の本実施形態において、チャネル間の相関関係は、第１仮想スピーカ信号のチャネルを再調整及び再位置合わせすることによって強化される。これは、第１仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。

【0031】

可能な実装において、前記方法はさらに、
前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階；及び
前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する段階
を備え；
それに応じて、前記第１仮想スピーカ信号を符号化する前記段階は、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；及び
前記ダウンミックスされた信号及び前記サイド情報を符号化する段階
を含む。

【0032】

前述の解決手段において、第１仮想スピーカ信号及び第２仮想スピーカ信号を取得した後、エンコーダ側はさらに、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいてダウンミックス処理を実行することで、ダウンミックスされた信号を生成し得る、例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号に対して振幅ダウンミックス処理を実行することで、ダウンミックスされた信号を取得し得る。加えて、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいて生成され得る。サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示す。当該関係は、複数の方式で実装され得る。サイド情報は、デコーダ側によって使用され、ダウンミックスされた信号に対してアップミックスを実行し、第１仮想スピーカ信号及び第２仮想スピーカ信号を復元し得る。例えば、サイド情報は、信号情報損失分析パラメータを含む。このように、デコーダ側は、信号情報損失分析パラメータを使用することによって、第１仮想スピーカ信号及び第２仮想スピーカ信号を復元する。

【0033】

可能な実装において、前記方法はさらに、
前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する前記段階は、
前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号に基づいて、前記ダウンミックスされた信号、及び前記サイド情報を取得する段階
を含み；
それに応じて、前記サイド情報は、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号の間の関係を示す。

【0034】

前述の解決手段において、ダウンミックスされた信号を生成する前に、エンコーダ側は、まず、仮想スピーカ信号の位置合わせ操作を実行い、その後、位置合わせ操作を完了した後、ダウンミックスされた信号及びサイド情報を生成し得る。本願の本実施形態において、チャネル間の相関関係は、第１仮想スピーカ信号及び第２仮想スピーカのチャネルを再調整及び再位置合わせすることによって強化される。これは、第１仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。

【0035】

可能な実装において、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する前記段階の前に、前記方法はさらに、
前記現在のシーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、前記第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する段階；及び
前記第１ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第２ターゲット仮想スピーカを選択する段階
を含む。

【0036】

前述の解決手段において、エンコーダ側はさらに、第２ターゲット仮想スピーカが取得される必要があるかどうかを決定するべく、信号選択を実行し得る。第２ターゲット仮想スピーカが取得される必要がある場合、エンコーダ側は、第２仮想スピーカ信号を生成し得る。第２ターゲット仮想スピーカが取得される必要がない場合、エンコーダ側は、第２仮想スピーカ信号を生成しなくてよい。エンコーダは、オーディオエンコーダの構成情報及び／又は第１シーンオーディオ信号の信号タイプ情報に基づいて、第１ターゲット仮想スピーカに加えて別のターゲット仮想スピーカが選択される必要があるかどうかを決定するべく、決定を行い得る。例えば、符号化レートが予め設定された閾値より高い場合、２つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定され、第１ターゲット仮想スピーカに加えて、第２ターゲット仮想スピーカがさらに決定され得る。別の例の場合、第１シーンオーディオ信号の信号タイプ情報に基づいて、音源方向が優勢な（ｄｏｍｉｎａｎｔ）２つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定された場合、第１ターゲット仮想スピーカに加えて、第２ターゲット仮想スピーカがさらに決定され得る。反対に、第１シーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、１つのみのターゲット仮想スピーカが取得される必要があると決定された場合、第１ターゲット仮想スピーカが決定された後、第１ターゲット仮想スピーカ以外のターゲット仮想スピーカはもはや取得されないことが決定される。本願の本実施形態において、信号選択は、エンコーダ側によって符号化されるべきデータの量を減らし、符号化効率を向上させるために実行される。

【0037】

第２態様によると、本願の実施形態はさらに、
ビットストリームを受信する段階；
前記ビットストリームを復号して、仮想スピーカ信号を取得する段階；及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階
を含む、オーディオ復号方法を提供する。

【0038】

本願の本実施形態において、ビットストリームがまず受信され、その後、ビットストリームが復号されることで仮想スピーカ信号を取得し、最後に、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号が取得される。本願の本実施形態において、仮想スピーカ信号は、ビットストリームを復号することによって取得され得、再構築されたシーンオーディオ信号は、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて取得される。本願の本実施形態において、取得されたビットストリームは、仮想スピーカ信号及び残差信号を搬送する。これは、復号されたデータの量を減らし、復号効率を向上させる。

【0039】

可能な実装において、前記方法はさらに、
前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得する段階を含む。

【0040】

前述の解決手段において、仮想スピーカを符号化する段階に加えて、エンコーダ側は、ターゲット仮想スピーカの属性情報を符号化して、ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。例えば、第１ターゲット仮想スピーカの属性情報は、ビットストリームを使用することによって取得され得る。本願の本実施形態において、ビットストリームは、第１ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第１ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。

【0041】

可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックスＨＯＡ係数を含み；
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む。

【0042】

前述の解決手段において、デコーダ側は、まず、ターゲット仮想スピーカのＨＯＡ係数を決定する。例えば、デコーダ側は、ターゲット仮想スピーカのＨＯＡ係数を予め記憶し得る。仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数を取得した後、デコーダ側は、仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に基づいて、再構築されたシーンオーディオ信号を取得し得る。このように、再構築されたシーンオーディオ信号の品質が向上される。

【0043】

可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み；
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのＨＯＡ係数を決定する段階；及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得する段階
を含む。

【0044】

前述の解決手段において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み得る。デコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を予め記憶し、デコーダ側はさらに、各仮想スピーカの位置情報を記憶する。例えば、デコーダ側は、仮想スピーカの位置情報及び仮想スピーカのＨＯＡ係数の間の対応関係に基づいて、ターゲット仮想スピーカの位置情報のＨＯＡ係数を決定し得、又は、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのＨＯＡ係数を計算し得る。したがって、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのＨＯＡ係数を決定し得る。このように、デコーダ側は、ターゲット仮想スピーカのＨＯＡ係数を決定し得る。

【0045】

可能な実装において、前記仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記方法はさらに、
前記ビットストリームを復号してサイド情報を取得する段階、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；及び
前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号を取得する段階
を備え；
それに応じて、ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する前記段階は、
前記ターゲット仮想スピーカの前記属性情報、前記第１仮想スピーカ信号、及び前記第２仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得する段階
を含む。

【0046】

前述の解決手段において、エンコーダ側は、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいてダウンミックス処理が実行されたときに、ダウンミックスされた信号を生成し、エンコーダ側はさらに、ダウンミックスされた信号に対して信号補償を実行し、サイド情報を生成し得る。サイド情報はビットストリームに書き込まれ得、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得、デコーダ側は、サイド情報に基づいて信号補償を実行することで、第１仮想スピーカ信号及び第２仮想スピーカ信号を取得し得る。したがって、信号再構築中には、第１仮想スピーカ信号、第２仮想スピーカ信号、及びターゲット仮想スピーカの前述の属性情報が使用され、デコーダ側における復号された信号の品質を向上させ得る。

【0047】

第３態様によると、本願の実施形態は、
現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択するように構成された、取得モジュール；
前記現在のシーンオーディオ信号、及び前記第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成するように構成された信号生成モジュール；及び
前記第１仮想スピーカ信号を符号化してビットストリームを取得するように構成された符号化モジュール
を含むオーディオ符号化装置を提供する。

【0048】

可能な実装において、前記取得モジュールは、前記仮想スピーカセットに基づいて、前記現在のシーンオーディオ信号からメイン音場成分を取得すること；及び、前記メイン音場成分に基づいて、前記仮想スピーカセットから前記第１ターゲット仮想スピーカを選択することを行うように構成されている。

【0049】

本願の第３態様において、オーディオ符号化装置の組織モジュールはさらに、第１態様及び可能な実装において説明された段階を実行し得る。詳細については、第１態様及び可能な実装における説明を参照されたい。

【0050】

可能な実装において、前記取得モジュールは、前記メイン音場成分に基づいて、高次アンビソニックスＨＯＡ係数セットから前記メイン音場成分のＨＯＡ係数を選択すること、ここで、前記ＨＯＡ係数セットにおけるＨＯＡ係数は、前記仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び、メイン音場成分のＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第１ターゲット仮想スピーカとして決定することを行うように構成されている。

【0051】

可能な実装において、前記取得モジュールは、前記メイン音場成分に基づいて、前記第１ターゲット仮想スピーカの構成パラメータを取得すること；前記第１ターゲット仮想スピーカの前記構成パラメータに基づいて、前記第１ターゲット仮想スピーカのＨＯＡ係数を生成すること；及び、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数に対応し且つ前記仮想スピーカセットにおける仮想スピーカを、前記ターゲット仮想スピーカとして決定することを行うように構成されている。

【0052】

可能な実装において、前記取得モジュールは、オーディオエンコーダの構成情報に基づいて、前記仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること；及び、前記メイン音場成分に基づいて、前記複数の仮想スピーカの前記構成パラメータから前記第１ターゲット仮想スピーカの前記構成パラメータを選択することを行うように構成されている。

【0053】

可能な実装において、前記第１ターゲット仮想スピーカの前記構成パラメータは、前記第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
前記取得モジュールは、前記第１ターゲット仮想スピーカの前記位置情報及び前記ＨＯＡ次数情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を決定するように構成されている。

【0054】

可能な実装において、前記符号化モジュールはさらに、前記第１ターゲット仮想スピーカの前記属性情報を符号化して、符号化された属性情報を前記ビットストリームに書き込むように構成されている。

【0055】

可能な実装において、前記現在のシーンオーディオ信号は符号化対象のＨＯＡ信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を含み；
前記信号生成モジュールは、前記符号化対象のＨＯＡ信号及び前記ＨＯＡ係数に対して線形結合を実行して、第１仮想スピーカ信号を取得するように構成されている。

【0056】

可能な実装において、前記現在のシーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、前記第１ターゲット仮想スピーカの前記属性情報は前記第１ターゲット仮想スピーカの前記位置情報を含み；
前記信号生成モジュールは、前記第１ターゲット仮想スピーカの前記位置情報に基づいて、前記第１ターゲット仮想スピーカの前記ＨＯＡ係数を取得すること；及び、前記符号化対象のＨＯＡ信号、及び前記ＨＯＡ係数に対して線形結合を実行して、前記第１仮想スピーカ信号を取得することを行うように構成されている。

【0057】

可能な実装において、前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
前記符号化モジュールは、前記第２仮想スピーカ信号を符号化して、符号化された第２仮想スピーカ信号を前記ビットストリームに書き込むように構成されている。

【0058】

可能な実装において、前記信号生成モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第２仮想スピーカ信号を符号化するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第１仮想スピーカ信号を符号化するように構成されている。

【0059】

可能な実装において、前記取得モジュールは、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
前記信号生成モジュールは、前記現在のシーンオーディオ信号、及び前記第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
それに応じて、前記符号化モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、前記サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示しており；前記ダウンミックスされた信号及び前記サイド情報を符号化することを行うように構成されている。

【0060】

可能な実装において、前記信号生成モジュールは、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記符号化モジュールは、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号に基づいて、前記ダウンミックスされた信号及び前記サイド情報を取得するように構成されており；
それに応じて、前記サイド情報は、前記位置合わせされた第１仮想スピーカ信号及び前記位置合わせされた第２仮想スピーカ信号の間の関係を示す。

【0061】

可能な実装において、前記取得モジュールは：前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから第２ターゲット仮想スピーカを選択する前記段階の前に、前記現在のシーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、前記第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること；及び、前記第１ターゲット仮想スピーカ以外の前記ターゲット仮想スピーカが取得される必要がある場合、前記現在のシーンオーディオ信号に基づいて、前記仮想スピーカセットから前記第２ターゲット仮想スピーカを選択することを行うように構成されている。

【0062】

第４態様によると、本願の実施形態は、
ビットストリームを受信するように構成された受信モジュール；
前記ビットストリームを復号して、仮想スピーカ信号を取得するように構成された復号モジュール；及び
ターゲット仮想スピーカの属性情報、及び前記仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成された再構築モジュール
を含む、オーディオ復号装置を提供する。

【0063】

可能な実装において、前記復号モジュールはさらに、前記ビットストリームを復号して、前記ターゲット仮想スピーカの前記属性情報を取得するように構成されている。

【0064】

可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの高次アンビソニックスＨＯＡ係数を含み；
前記再構築モジュールは、前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得するように構成されている。

【0065】

可能な実装において、前記ターゲット仮想スピーカの前記属性情報は、前記ターゲット仮想スピーカの位置情報を含み；
前記再構築モジュールは、前記ターゲット仮想スピーカの前記位置情報に基づいて前記ターゲット仮想スピーカのＨＯＡ係数を決定すること；及び
前記仮想スピーカ信号、及び前記ターゲット仮想スピーカの前記ＨＯＡ係数に対して合成処理を実行し、前記再構築されたシーンオーディオ信号を取得すること
を行うように構成されている。

【0066】

可能な実装において、前記仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、前記装置はさらに、信号補償モジュールを備え、ここで
前記復号モジュールは、前記ビットストリームを復号して前記サイド情報を取得するように構成されており、ここで、サイド情報は、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号の間の関係を示す；
前記信号補償モジュールは、前記サイド情報、及び前記ダウンミックスされた信号に基づいて、前記第１仮想スピーカ信号及び前記第２仮想スピーカ信号を取得するように構成されており；
それに応じて、前記再構築モジュールは、前記ターゲット仮想スピーカの前記属性情報、前記第１仮想スピーカ信号、及び前記第２仮想スピーカ信号に基づいて、前記再構築されたシーンオーディオ信号を取得するように構成されている。

【0067】

本願の第４態様において、オーディオ復号装置の組織モジュールはさらに、第２態様及び可能な実装において説明された段階を実行し得る。詳細については、第２態様及び可能な実装における説明を参照されたい。

【0068】

第５の態様によると、本願の実施形態は、コンピュータ可読記憶媒体を提供する。コンピュータ可読記憶媒体は命令を記憶する。命令がコンピュータ上で実行されるとき、コンピュータは、第１態様又は第２態様に係る方法を実行することが可能になる。

【0069】

第６の態様によると、本願の実施形態は、命令を含むコンピュータプログラム製品を提供する。コンピュータプログラム製品がコンピュータ上で実行されるとき、コンピュータは、第１態様又は第２態様に係る方法を実行することが可能になる。

【0070】

第７態様によると、本願の実施形態が通信装置を提供する。通信装置は、端末デバイス又はチップなどのエンティティを含み得る。通信装置は、プロセッサを含む。任意選択的に、通信装置はさらに、メモリを含む。メモリは、命令を記憶するように構成されている。プロセッサは、メモリ内の命令を実行して、通信装置が第１態様又は第２態様のうち任意の１つに係る方法を実行することを可能にするように構成されている。

【0071】

第８態様によると、本願は、チップシステムを提供する。チップシステムは、前述の態様における機能、例えば、前述の方法におけるデータ及び／又は情報を送信又は処理することを実装する際に、オーディオ符号化装置又はオーディオ復号装置をサポートするように構成されたプロセッサを含む。可能な設計において、チップシステムはさらに、メモリを含み、メモリは、オーディオ符号化装置又はオーディオ復号装置に必要なプログラム命令及びデータを記憶するように構成されている。チップシステムは、チップを含み得る、又は、チップ及び別のディスクリートコンポーネントを含み得る。

【0072】

第９態様によると、本願は、第１態様の実装のうち任意の１つに係る方法を使用することによって生成されたビットストリームを含むコンピュータ可読記憶媒体を提供する。

【図面の簡単な説明】

【0073】

【図1】本願の実施形態に係るオーディオ処理システムの組織構造の概略図である。

【0074】

【図2a】本願の実施形態に係るオーディオエンコーダ及びオーディオデコーダの端末デバイスへの適用の概略図である。

【0075】

【図2b】本願の実施形態に係るオーディオエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。

【0076】

【図2c】本願の実施形態に係るオーディオデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。

【0077】

【図3a】本願の実施形態に係るマルチチャネルエンコーダ及びマルチチャネルデコーダの端末デバイスへの適用の概略図である。

【0078】

【図3b】本願の実施形態に係るマルチチャネルエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。

【0079】

【図3c】本願の実施形態に係るマルチチャネルデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。

【0080】

【図4】本願の実施形態に係るオーディオ符号化装置及びオーディオ復号装置の間の相互作用の概略フローチャートである。

【0081】

【図5】本願の実施形態に係るエンコーダ側の構造の概略図である。

【0082】

【図6】本願の実施形態に係るデコーダ側の構造の概略図である。

【0083】

【図7】本願の実施形態に係るエンコーダ側の構造の概略図である。

【0084】

【図8】本願の実施形態に係る、球面に対して略均等に分布された仮想スピーカの概略図である。

【0085】

【図9】本願の実施形態に係るエンコーダ側の構造の概略図である。

【0086】

【図10】本願の実施形態に係るオーディオ符号化装置の組織構造の概略図である。

【0087】

【図11】本願の実施形態に係るオーディオ復号装置の組織構造の概略図である。

【0088】

【図12】本願の実施形態に係る別のオーディオ符号化装置の組織構造の概略図である。

【0089】

【図13】本願の実施形態に係る別のオーディオ復号装置の組織構造の概略図である。

【発明を実施するための形態】

【0090】

本願の実施形態は、オーディオの符号化及び復号方法及び装置を提供して、符号化シーンにおけるオーディオ信号のデータの量を減らし、符号化及び復号の効率を向上させる。

【0091】

以下では、添付図面を参照しながら本願の実施形態を説明する。

【0092】

本願の明細書、特許請求の範囲、及び添付図面において、「第１」、「第２」などの用語は、同様のオブジェクトを区別することを意図するものであり、必ずしも、具体的な順番又は順序を示すものではない。このように使用された用語は、適切な状況において入れ替え可能であり、これは、同じ属性を有するオブジェクトが本願の実施形態において説明されているときに使用される識別方式に過ぎないことを理解されたい。加えて、用語「含む（ｉｎｃｌｕｄｅ）」、「有する（ｈａｖｅ）」及びそれらの任意の変形例は、非排他的な包含をカバーすることを意図しており、その結果、一連のユニットを含む処理、方法、システム、製品、又はデバイスは、必ずしもそれらユニットに限定されるものではなく、明示的に列挙されていない又はこのような処理、方法、製品、又はデバイスに固有でない他のユニットを含み得る。

【0093】

本願の実施形態における技術的解決手段は、様々なオーディオ処理システムに適用され得る。図１は、本願の実施形態に係るオーディオ処理システムの組織構造の概略図である。オーディオ処理システム１００は、オーディオ符号化装置１０１及びオーディオ復号装置１０２を含み得る。オーディオ符号化装置１０１は、ビットストリームを生成し、その後、オーディオ符号化ビットストリームは、オーディオ伝送チャネルを通じてオーディオ復号装置１０２に伝送され得るように構成され得る。オーディオ復号装置１０２は、ビットストリームを受信し、その後、オーディオ復号装置１０２のオーディオ復号機能を実行して、最後に再構築された信号を取得し得る。

【0094】

本願の実施形態において、オーディオ符号化装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ符号化装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのオーディオエンコーダであり得る。同様に、オーディオ復号装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ復号装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのオーディオデコーダであり得る。例えば、オーディオエンコーダは、無線アクセスネットワーク、コアネットワークの媒体ゲートウェイ、トランスコードデバイス、媒体リソースサーバ、モバイル端末、及び固定ネットワーク端末等を含み得る。オーディオエンコーダはさらに、仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ，ＶＲ）技術ストリーミング媒体（ｓｔｒｅａｍｉｎｇ）サービスに適用されたオーディオコーデックであり得る。

【0095】

本願の本実施形態においては、仮想現実ストリーミング媒体（ＶＲｓｔｒｅａｍｉｎｇ）サービスに適用可能なオーディオの符号化及び復号モジュール（ａｕｄｉｏｅｎｃｏｄｉｎｇ及びａｕｄｉｏｄｅｃｏｄｉｎｇ）が、例として使用されている。エンドツーエンドオーディオ信号処理手順は、以下を含む：前処理オペレーション（ａｕｄｉｏｐｒｅｐｒｏｃｅｓｓｉｎｇ）は、オーディオ信号Ａが取得モジュール（ａｃｑｕｉｓｉｔｉｏｎ）を通過した後、オーディオ信号Ａに対して実行される。前処理オペレーションは、２０Ｈｚ又は５０Ｈｚを境界ポイントとして使用することによって、信号における低周波数部分をフィルタリングすることを含む。信号における向きの情報が抽出される。符号化処理（ａｕｄｉｏｅｎｃｏｄｉｎｇ）及びカプセル化（ｆｉｌｅ／ｓｅｇｍｅｎｔｅｎｃａｐｓｕｌａｔｉｏｎ）の後、オーディオ信号は、デコーダ側に送達される（ｄｅｌｉｖｅｒｙ）。デコーダ側はまず、デカプセル化（ｆｉｌｅ／ｓｅｇｍｅｎｔｄｅｃａｐｓｕｌａｔｉｏｎ）を実行し、その後、復号（ａｕｄｉｏｄｅｃｏｄｉｎｇ）を実行する。バイノーラルレンダリング（ａｕｄｉｏｒｅｎｄｅｒｉｎｇ）処理が、復号された信号に対して実行され、レンダリングされた信号は、リスナーのヘッドホン（ｈｅａｄｐｈｏｎｅｓ）にマッピングされる。ヘッドホンは、独立したヘッドホンであってもよく、又は、メガネデバイス上のヘッドホンであってもよい。

【0096】

図２ａは、本願の実施形態に係るオーディオエンコーダ及びオーディオデコーダの端末デバイスへの適用の概略図である。各端末デバイスは、オーディオエンコーダ、チャネルエンコーダ、オーディオデコーダ、及びチャネルデコーダを含み得る。具体的には、チャネルエンコーダは、オーディオ信号に対してチャネル符号化を実行するように構成されており、チャネルデコーダは、オーディオ信号に対してチャネル復号を実行するように構成されている。例えば、第１端末デバイス２０は、第１オーディオエンコーダ２０１、第１チャネルエンコーダ２０２、第１オーディオデコーダ２０３、及び第１チャネルデコーダ２０４を含み得る。第２端末デバイス２１は、第２オーディオデコーダ２１１、第２チャネルデコーダ２１２、第２オーディオエンコーダ２１３、及び第２チャネルエンコーダ２１４を含み得る。第１端末デバイス２０は、無線又は有線の第１ネットワーク通信デバイス２２に接続されており、第１ネットワーク通信デバイス２２は、デジタルチャネルを通じて無線又は有線の第２ネットワーク通信デバイス２３に接続されており、第２端末デバイス２１は、無線又は有線の第２ネットワーク通信デバイス２３に接続されている。無線又は有線のネットワーク通信デバイスは、一般には、信号伝送デバイス、例えば、通信基地局又はデータ切り替えデバイスであり得る。

【0097】

オーディオ通信において、送信端としてサービス提供している端末デバイスはまず、オーディオを取得し、取得したオーディオ信号に対してオーディオ符号化を実行し、その後、チャネル符号化を実行し、無線ネットワーク又はコアネットワークを使用することによってデジタルチャネル上でオーディオ信号を伝送する。受信端としてサービス提供している端末デバイスは、受信信号に基づいてチャネル復号を実行することでビットストリームを取得し、その後、オーディオ復号を通じてオーディオ信号を復元する。受信端としてサービス提供している端末デバイスは、オーディオプレイバックを実行する。

【0098】

図２ｂは、本願の実施形態に係るオーディオエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス２５は、チャネルデコーダ２５１、別のオーディオデコーダ２５２、本願の本実施形態において提供されたオーディオエンコーダ２５３、及びチャネルエンコーダ２５４を含む。別のオーディオデコーダ２５２は、上記オーディオデコーダ以外のオーディオデコーダである。無線デバイス又はコアネットワークデバイス２５において、デバイスに入力される信号はまず、チャネルデコーダ２５１を使用することによってチャネル復号され、その後、別のオーディオデコーダ２５２を使用することによってオーディオ復号が実行され、その後、本願の本実施形態において提供されたオーディオエンコーダ２５３を使用することによってオーディオ符号化が実行される。最後に、オーディオ信号は、チャネルエンコーダ２５４を使用することによってチャネル符号化され、その後、チャネル符号化が完了した後、伝送される。別のオーディオデコーダ２５２は、チャネルデコーダ２５１によって復号されたビットストリームに対してオーディオ復号を実行する。

【0099】

図２ｃは、本願の実施形態に係るオーディオデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス２５は、チャネルデコーダ２５１、本願の本実施形態において提供されたオーディオデコーダ２５５、別のオーディオエンコーダ２５６、及びチャネルエンコーダ２５４を含む。別のオーディオエンコーダ２５６は、上記オーディオエンコーダ以外の別のオーディオエンコーダである。無線デバイス又はコアネットワークデバイス２５において、デバイスに入力される信号はまず、チャネルデコーダ２５１を使用することによってチャネル復号され、その後、受信されたオーディオ符号化ビットストリームは、オーディオデコーダ２５５を使用することによって復号され、その後、別のオーディオエンコーダ２５６を使用することによってオーディオ符号化が実行される。最後に、オーディオ信号は、チャネルエンコーダ２５４を使用することによってチャネル符号化され、その後、チャネル符号化が完了した後、伝送される。無線デバイス又はコアネットワークデバイスにおいて、トランスコーディングが実装される必要がある場合、対応するオーディオの符号化及び復号処理が実行される必要がある。無線デバイスは、通信における無線周波数関連デバイスであり、コアネットワークデバイスは、通信におけるコアネットワーク関連デバイスである。

【0100】

本願のいくつかの実施形態において、オーディオ符号化装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ符号化装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのマルチチャネルエンコーダであり得る。同様に、オーディオ復号装置は、オーディオ通信要件を有する様々な端末デバイス、及び、トランスコード要件を有する無線デバイス及びコアネットワークデバイスに適用され得る。例えば、オーディオ復号装置は、前述の端末デバイス、無線デバイス、又はコアネットワークデバイスのマルチチャネルデコーダであり得る。

【0101】

図３ａは、本願の実施形態に係るマルチチャネルエンコーダ及びマルチチャネルデコーダの端末デバイスへの適用の概略図である。各端末デバイスは、マルチチャネルエンコーダ、チャネルエンコーダ、マルチチャネルデコーダ、及びチャネルデコーダを含み得る。マルチチャネルエンコーダは、本願の本実施形態において提供されたオーディオ符号化方法を実行し得、マルチチャネルデコーダは、本願の本実施形態において提供されたオーディオ復号方法を実行し得る。具体的には、チャネルエンコーダは、マルチチャネル信号に対してチャネル符号化を実行するために使用されており、チャネルデコーダは、マルチチャネル信号に対してチャネル復号を実行するために使用されている。例えば、第１端末デバイス３０は、第１マルチチャネルエンコーダ３０１、第１チャネルエンコーダ３０２、第１マルチチャネルデコーダ３０３、及び第１チャネルデコーダ３０４を含み得る。第２端末デバイス３１は、第２マルチチャネルデコーダ３１１、第２チャネルデコーダ３１２、第２マルチチャネルエンコーダ３１３、及び第２チャネルエンコーダ３１４を含み得る。第１端末デバイス３０は、無線又は有線の第１ネットワーク通信デバイス３２に接続されており、第１ネットワーク通信デバイス３２は、デジタルチャネルを通じて無線又は有線の第２ネットワーク通信デバイス３３に接続されており、第２端末デバイス３１は、無線又は有線の第２ネットワーク通信デバイス３３に接続されている。無線又は有線のネットワーク通信デバイスは、一般には、信号伝送デバイス、例えば、通信基地局又はデータ切り替えデバイスであり得る。オーディオ通信において、送信端としてサービス提供している端末デバイスは、取得されたマルチチャネル信号に対してマルチチャネル符号化を実行し、その後、チャネル符号化を実行し、無線ネットワーク又はコアネットワークを使用することによってデジタルチャネル上でマルチチャネル信号を伝送する。受信端としてサービス提供している端末デバイスは、受信信号に基づいてチャネル復号を実行することでマルチチャネル信号符号化ビットストリームを取得し、その後、マルチチャネル復号を通じてマルチチャネル信号を復元し、受信端としてサービス提供している端末デバイスはプレイバックを実行する。

【0102】

図３ｂは、本願の実施形態に係るマルチチャネルエンコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス３５は、チャネルデコーダ３５１、別のオーディオデコーダ３５２、マルチチャネルエンコーダ３５３、及びチャネルエンコーダ３５４を含む。図３ｂは図２ｂと同様であり、詳細については本明細書で改めて説明しない。

【0103】

図３ｃは、本願の実施形態に係るマルチチャネルデコーダの無線デバイス又はコアネットワークデバイスへの適用の概略図である。無線デバイス又はコアネットワークデバイス３５は、チャネルデコーダ３５１、マルチチャネルデコーダ３５５、別のオーディオエンコーダ３５６、及びチャネルエンコーダ３５４を含む。図３ｃは図２ｃと同様であり、詳細については本明細書で改めて説明しない。

【0104】

オーディオ符号化処理は、マルチチャネルエンコーダの一部であり得、オーディオ復号処理は、マルチチャネルデコーダの一部であり得る。例えば、取得されたマルチチャネル信号に対してマルチチャネル符号化を実行することは、取得されたマルチチャネル信号を処理することでオーディオ信号を取得し、その後、本願の本実施形態において提供された方法に従って、取得されたオーディオ信号を符号化することであり得る。デコーダ側は、マルチチャネル信号符号化ビットストリームに基づいて復号を実行することでオーディオ信号を取得し、アップミックス処理の後にマルチチャネル信号を復元する。したがって、本願の実施形態は、端末デバイス、無線デバイス、又はコアネットワークデバイス内のマルチチャネルエンコーダ及びマルチチャネルデコーダに適用される場合もある。無線デバイス又はコアネットワークデバイスにおいて、トランスコーディングが実装される必要がある場合、対応するマルチチャネル符号化及び復号処理が実行される必要がある。

【0105】

本願の実施形態において提供されたオーディオの符号化及び復号方法は、オーディオ符号化方法及びオーディオ復号方法を含み得る。オーディオ符号化方法はオーディオ符号化装置によって実行され、オーディオ復号方法はオーディオ復号装置によって実行され、オーディオ符号化装置及びオーディオ復号装置は互いに通信し得る。以下は、前述のシステムアーキテクチャ、オーディオ符号化装置、及びオーディオ復号装置に基づいて、本願の実施形態において提供されたオーディオ符号化方法及びオーディオ復号方法を説明する。図４は、本願の実施形態に係るオーディオ符号化装置及びオーディオ復号装置の間の相互作用の概略フローチャートである。以下の段階４０１から段階４０３は、オーディオ符号化装置（以下では、エンコーダ側と称される）によって実行され得、以下の段階４１１から段階４１３は、オーディオ復号装置（以下では、デコーダ側と称される）によって実行され得る。主に含まれるのは、以下のプロセスである。

【0106】

４０１：現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する。

【0107】

エンコーダ側は、現在のシーンオーディオ信号を取得する。現在のシーンオーディオ信号は、空間におけるマイクが位置された位置において音場を取得することによって取得されたオーディオ信号であり、現在のシーンオーディオ信号は、元のシーンにおけるオーディオ信号とも称され得る。例えば、現在のシーンオーディオ信号は、高次アンビソニックス（ｈｉｇｈｅｒｏｒｄｅｒａｍｂｉｓｏｎｉｃｓ，ＨＯＡ）技術を使用することによって取得されたオーディオ信号であり得る。

【0108】

本願の本実施形態において、エンコーダ側は、仮想スピーカセットを予め構成し得る。仮想スピーカセットは、複数の仮想スピーカを含み得る。シーンオーディオ信号の実際のプレイバック中に、シーンオーディオ信号は、ヘッドホンを使用することによってプレイバックされ得、又は、部屋内に配置された複数のスピーカを使用することによってプレイバックされ得る。スピーカがプレイバックのために使用されるとき、基本の方法は、複数のスピーカの信号を重畳することである。このように、特定の基準下で、空間内のあるポイント（リスナーの位置）における音場は、シーンオーディオ信号が記録されるときの原音場にできる限り近い。本願の本実施形態において、仮想スピーカは、シーンオーディオ信号に対応するプレイバック信号を計算するために使用されており、プレイバック信号は伝送信号として使用されており、圧縮信号がさらに生成される。仮想スピーカは、空間的音場において仮想的に存在するスピーカを表しており、仮想スピーカは、エンコーダ側におけるシーンオーディオ信号のプレイバックを実装し得る。

【0109】

本願の本実施形態において、仮想スピーカセットは、複数の仮想スピーカを含み、複数の仮想スピーカの各々は、仮想スピーカ構成パラメータ（略して、構成パラメータ）に対応する。仮想スピーカ構成パラメータは、限定されるものではないが、仮想スピーカの数、仮想スピーカのＨＯＡ次数、及び仮想スピーカの位置座標などの情報を含む。仮想スピーカセットを取得した後、エンコーダ側は、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する。現在のシーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第１ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第１ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、現在のシーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、現在のシーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第１ターゲット仮想スピーカを選択することである。別の例の場合、第１ターゲット仮想スピーカは、各仮想スピーカの位置情報に基づいて現在のシーンオーディオ信号から選択される。第１ターゲット仮想スピーカは、仮想スピーカセット内の且つ現在のシーンオーディオ信号をプレイバックするために使用されている仮想スピーカであり、すなわち、エンコーダ側は、仮想スピーカセットから、現在のシーンオーディオ信号をプレイバックし得るターゲット仮想エンコーダを選択し得る。

【0110】

本願の本実施形態において、第１ターゲット仮想スピーカが段階４０１において選択された後、第１ターゲット仮想スピーカに対する後続の処理プロセス、例えば後続の段階４０２及び段階４０３が、実行され得る。これは、本明細書において限定されるものではない。本願の本実施形態において、第１ターゲット仮想スピーカに加えて、より多くのターゲット仮想スピーカが選択される場合もある。例えば、第２ターゲット仮想スピーカが選択され得る。第２ターゲット仮想スピーカの場合、後続の段階４０２及び段階４０３と同様のプロセスが実行される必要もある。詳細については、以下の実施形態における説明を参照されたい。

【0111】

本願の本実施形態において、エンコーダ側が第１ターゲット仮想スピーカを選択した後、エンコーダ側はさらに、第１ターゲット仮想スピーカの属性情報を取得し得る。第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカの属性に関連した情報を含む。属性情報は、特定のアプリケーションシーンに基づいて設定され得る。例えば、第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカの位置情報又は第１ターゲット仮想スピーカのＨＯＡ係数を含む。第１ターゲット仮想スピーカの位置情報は、第１ターゲット仮想スピーカの空間的分布位置であり得、又は、別の仮想スピーカに対する仮想スピーカセットにおける第１ターゲット仮想スピーカの位置についての情報であり得る。本明細書ではこれについて具体的に限定しない。仮想スピーカセットにおける各仮想スピーカは、ＨＯＡ係数に対応しており、ＨＯＡ係数は、アンビソニック係数とも称され得る。以下では、仮想スピーカのＨＯＡ係数について説明する。

【0112】

例えば、ＨＯＡ次数は、２次～１０次のうち１つの次数であり得、オーディオ信号記録中の信号サンプリングレートは４８～１９２キロヘルツ（ｋＨｚ）であり、サンプリング深さは１６又は２４ビット（ｂｉｔ）である。ＨＯＡ信号は、仮想スピーカのＨＯＡ係数、及びシーンオーディオ信号に基づいて生成され得る。ＨＯＡ信号は、音場を有する空間情報によって特定付けられ、ＨＯＡ信号は、空間における特定のポイントでの音場信号の特定の精度を説明する情報である。したがって、位置ポイントにおける音場信号を説明するために別の表現形式が使用されることが考えられ得る。この説明方法において、空間的位置ポイントにおける信号は、より少量のデータを使用することによって同じ精度で説明され得、それにより信号圧縮を実装する。空間的音場は、複数の平面波の重畳に分解され得る。したがって、理論的には、ＨＯＡ信号によって表現された音場は、複数の平面波の重畳を使用することによって表現され得、各平面波は、１チャネルオーディオ信号及び方向ベクトルを使用することによって表される。平面波重畳の表現形式は、より少ないチャネルを使用することによって原音場を正確に表現し得、それにより信号圧縮を実装する。

【0113】

本願のいくつかの実施形態において、エンコーダ側によって実行される前述の段階４０１に加えて、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む。

【0114】

Ａ１：仮想スピーカセットに基づいて、現在のシーンオーディオ信号からメイン音場成分を取得する。

【0115】

段階Ａ１におけるメイン音場成分は、第１メイン音場成分とも称され得る。

【0116】

段階Ａ１が実行されるシナリオにおいて、前述の段階４０１における、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択する上記段階は、以下を含む。

【0117】

Ｂ１：メイン音場成分に基づいて、仮想スピーカセットから第１ターゲット仮想スピーカを選択する。

【0118】

エンコーダ側は、仮想スピーカセットを取得し、エンコーダ側は、仮想スピーカセットを使用することによって現在のシーンオーディオ信号に対して信号分解を実行し、それにより、現在のシーンオーディオ信号に対応するメイン音場成分を取得する。メイン音場成分は、現在のシーンオーディオ信号におけるメイン音場に対応するオーディオ信号を表す。例えば、仮想スピーカセットは、複数の仮想スピーカを含み、複数の音場成分は、複数の仮想スピーカに基づいて、現在のシーンオーディオ信号から取得され得る、すなわち、各仮想スピーカは、現在のシーンオーディオ信号から１つの音場成分を取得して、その後、メイン音場成分が複数の音場成分から選択され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する１つ又はいくつかの音場成分であり得、又は、メイン音場成分は、複数の音場成分のうち優勢な方向性を有する１つ又はいくつかの音場成分であり得る。仮想スピーカセットにおける各仮想スピーカは音場成分に対応しており、第１ターゲット仮想スピーカは、メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第１ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第１ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。

【0119】

本願の本実施形態において、エンコーダ側は、複数の方式で第１ターゲット仮想スピーカを選択し得る。例えば、エンコーダ側は、指定された位置における仮想スピーカを第１ターゲット仮想スピーカとして予め設定し得る、すなわち、仮想スピーカセットにおける各仮想スピーカの位置に基づいて、指定された位置を満たす仮想スピーカを第１ターゲット仮想スピーカとして選択し得る。これは、本明細書において限定されるものではない。

【0120】

本願のいくつかの実施形態において、前述の段階Ｂ１における、メイン音場成分に基づいて、仮想スピーカセットから第１ターゲット仮想スピーカを選択する上記段階は、
メイン音場成分に基づいて、高次アンビソニックスＨＯＡ係数セットからメイン音場成分のＨＯＡ係数を選択する段階、ここで、ＨＯＡ係数セットにおけるＨＯＡ係数は、仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び
メイン音場成分のＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第１ターゲット仮想スピーカとして決定する段階
を含む。

【0121】

エンコーダ側は、仮想スピーカセットに基づいてＨＯＡ係数セットを予め構成し、ＨＯＡ係数セットにおけるＨＯＡ係数及び仮想スピーカセットにおける仮想スピーカの間には１対１の対応関係が存在する。したがって、ＨＯＡ係数がメイン音場成分に基づいて選択された後、仮想スピーカセットを、１対１の対応関係に基づいて、メイン音場成分のＨＯＡ係数に対応するターゲット仮想スピーカから検索する。発見されたターゲット仮想スピーカは、第１ターゲット仮想スピーカである。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。例えば、ＨＯＡ係数セットは、ＨＯＡ係数１、ＨＯＡ係数２、及びＨＯＡ係数３を含み、仮想スピーカセットは、仮想スピーカ１、仮想スピーカ２、及び仮想スピーカ３を含む。ＨＯＡ係数セットにおけるＨＯＡ係数は、仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある。例えば、ＨＯＡ係数１は仮想スピーカ１に対応しており、ＨＯＡ係数２は仮想スピーカ２に対応しており、ＨＯＡ係数３は仮想スピーカ３に対応している。メイン音場成分に基づいてＨＯＡ係数３がＨＯＡ係数セットから選択される場合、第１ターゲット仮想スピーカは仮想スピーカ３であることが決定され得る。

【0122】

本願のいくつかの実施形態において、前述の段階Ｂ１における、メイン音場成分に基づいて、仮想スピーカセットから第１ターゲット仮想スピーカを選択する上記段階は、以下をさらに含む。

【0123】

Ｃ１：メイン音場成分に基づいて、第１ターゲット仮想スピーカの構成パラメータを取得する。

【0124】

Ｃ２：第１ターゲット仮想スピーカの構成パラメータに基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を生成する。

【0125】

Ｃ３：第１ターゲット仮想スピーカのＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第１ターゲット仮想スピーカとして決定する。

【0126】

前述の解決手段において、メイン音場成分を取得した後、エンコーダ側は、メイン音場成分に基づいて第１ターゲット仮想スピーカの構成パラメータを決定するために使用され得る。例えば、メイン音場成分は、複数の音場成分のうち最大値を有する１つ又はいくつかの音場成分であり、又は、メイン音場成分は、複数の音場成分のうち優勢な方向性を有する１つ又はいくつかの音場成分であり得る。メイン音場成分は、現在のシーンオーディオ信号とマッチングする第１ターゲット仮想スピーカを決定するために使用され得、対応する属性情報は第１ターゲット仮想スピーカのために構成されており、第１ターゲット仮想スピーカのＨＯＡ係数は、第１ターゲット仮想スピーカの構成パラメータに基づいて生成され得る。ＨＯＡ係数を生成するプロセスは、ＨＯＡアルゴリズムに従って実装され得、詳細については本明細書において説明しない。仮想スピーカセットにおける各仮想スピーカは、ＨＯＡ係数に対応している。したがって、第１ターゲット仮想スピーカは、各仮想スピーカのＨＯＡ係数に基づいて、仮想スピーカセットから選択され得る。このように、エンコーダ側は、第１ターゲット仮想スピーカを決定し得る。

【0127】

本願のいくつかの実施形態において、段階Ｃ１におけるメイン音場成分に基づいて、第１ターゲット仮想スピーカの構成パラメータを取得する上記段階は、
オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階；及び
メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第１ターゲット仮想スピーカの構成パラメータを選択する段階
を含む。

【0128】

【0129】

エンコーダ側は、仮想スピーカセットから、複数の仮想スピーカの構成パラメータを取得する。各仮想スピーカには、仮想スピーカの対応する構成パラメータが存在し、各仮想スピーカの構成パラメータは、限定されるものではないが、仮想スピーカのＨＯＡ次数及び仮想スピーカの位置座標などの情報を含む。各仮想スピーカのＨＯＡ係数は、仮想スピーカの構成パラメータに基づいて生成され得、ＨＯＡ係数を生成するプロセスは、ＨＯＡアルゴリズムに従って実装され得、詳細については本明細書で改めて説明しない。１つのＨＯＡ係数は、仮想スピーカセットにおける各仮想スピーカのために別個に生成され、仮想スピーカセットにおける全ての仮想スピーカのために別個に構成された複数のＨＯＡ係数は、ＨＯＡ係数セットを形成する。このように、エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を決定し得る。

【0130】

本願のいくつかの実施形態において、第１ターゲット仮想スピーカの構成パラメータは、第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
前述の段階Ｃ２における、第１ターゲット仮想スピーカの構成パラメータに基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を生成する上記段階は、
第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報に基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を決定する段階
を含む。

【0131】

仮想スピーカセットにおける各仮想スピーカの構成パラメータは、仮想スピーカの位置情報、及び仮想スピーカのＨＯＡ次数情報を含み得る。同様に、第１ターゲット仮想スピーカの構成パラメータは、第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含む。例えば、仮想スピーカセットにおける各仮想スピーカの位置情報は、ローカルに等距離な仮想スピーカ空間分布方式に基づいて決定され得る。ローカルに等距離な仮想スピーカ空間分布方式は、複数の仮想スピーカがローカルに等距離な方式で空間内に分布されていることを指す。例えば、ローカルに等距離であることは、均等に分布された又は不均等に分布されたことを含み得る。各仮想スピーカのＨＯＡ係数は、仮想スピーカの位置情報及びＨＯＡ次数情報に基づいて生成され得、ＨＯＡ係数を生成するプロセスは、ＨＯＡアルゴリズムに従って実装され得る。このように、エンコーダ側は、第１ターゲット仮想スピーカのＨＯＡ係数を決定し得る。

【0132】

加えて、本願の本実施形態において、ＨＯＡ係数のグループは仮想スピーカセットにおける各仮想スピーカのために別個に生成され、ＨＯＡ係数の複数のグループは、前述のＨＯＡ係数セットを形成する。ＨＯＡ係数は、仮想スピーカセットにおける全ての仮想スピーカのために別個に構成されて、ＨＯＡ係数セットを形成する。このように、エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を決定し得る。

【0133】

４０２：現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する。

【0134】

エンコーダ側が現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報を取得した後、エンコーダ側は、現在のシーンオーディオ信号をプレイバックし得、エンコーダ側は、現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する。第１仮想スピーカ信号は、現在のシーンオーディオ信号のプレイバック信号である。第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカの属性に関連した情報を説明する。第１ターゲット仮想スピーカは、エンコーダ側によって選択され且つ現在のシーンオーディオ信号をプレイバックし得る仮想スピーカである。したがって、現在のシーンオーディオ信号は、第１ターゲット仮想スピーカの属性情報に基づいてプレイバックされ、それにより第１仮想スピーカ信号を取得する。第１仮想スピーカ信号のデータ量は、現在のシーンオーディオ信号のチャネルの数とは無関係であり、第１仮想スピーカ信号のデータ量は、第１ターゲット仮想スピーカに関連している。例えば、本願の本実施形態において、現在のシーンオーディオ信号と比較すると、第１仮想スピーカ信号は、より少ないチャネルを使用することによって表されている。例えば、現在のシーンオーディオ信号は３次ＨＯＡ信号であり、ＨＯＡ信号は１６チャネルである。本願の本実施形態において、１６チャネルは２つのチャネルに圧縮され得る、すなわち、エンコーダ側によって生成された仮想スピーカ信号は２チャネルである。例えば、エンコーダ側によって生成された仮想スピーカ信号は、前述の第１仮想スピーカ信号及び第２仮想スピーカ信号を含み得、エンコーダ側によって生成された仮想スピーカ信号のチャネルの数は、第１シーンオーディオ信号のチャネルの数とは無関係である。ビットストリームが２チャネルの第１仮想スピーカ信号を搬送し得ることが、後続の段階の説明から分かり得る。それに応じて、デコーダ側はビットストリームを受信し、ビットストリームを復号することで２チャネル仮想スピーカ信号を取得し、デコーダ側は、２チャネル仮想スピーカ信号に基づいて１６チャネルシーンオーディオ信号を再構築し得る。加えて、再構築されたシーンオーディオ信号が、元のシーンにおけるオーディオ信号と同じ主観的及び客観的品質を有することが保証されている。

【0135】

前述の段階４０１及び段階４０２は、動画専門家集団（ｍｏｖｉｎｇｐｉｃｔｕｒｅｅｘｐｅｒｔｓｇｒｏｕｐ，ＭＰＥＧ）の空間エンコーダによって具体的に実装され得ることが理解され得る。

【0136】

本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象のＨＯＡ信号を含み得、第１ターゲット仮想スピーカの属性情報は第１ターゲット仮想スピーカのＨＯＡ係数を含み；
段階４０２における、現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する上記段階は、
第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行して、第１仮想スピーカ信号を取得する段階
を含む。

【0137】

例えば、現在のシーンオーディオ信号は、符号化対象のＨＯＡ信号である。エンコーダ側は、まず、第１ターゲット仮想スピーカのＨＯＡ係数を決定する。例えば、エンコーダ側は、メイン音場成分に基づいて、ＨＯＡ係数セットからＨＯＡ係数を選択する。選択されたＨＯＡ係数は、第１ターゲット仮想スピーカのＨＯＡ係数である。エンコーダ側が、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数を取得した後、第１仮想スピーカ信号が、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に基づいて生成され得る。符号化対象のＨＯＡ信号は、第１ターゲット仮想スピーカのＨＯＡ係数に対して線形結合を実行することによって取得され得、第１仮想スピーカ信号の解決手段は、線形結合の解決手段に変換され得る。

【0138】

例えば、第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカのＨＯＡ係数を含み得る。エンコーダ側は、第１ターゲット仮想スピーカの属性情報を復号することによって、第１ターゲット仮想スピーカのＨＯＡ係数を取得し得る。エンコーダ側は、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行し、すなわち、エンコーダ側は、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数を共に組み合わせて、線形結合行列を取得する。その後、エンコーダ側は、線形結合行列に対して最適解を実行し得、取得された最適解は、第１仮想スピーカ信号である。最適解は、線形結合行列を解くために使用されているアルゴリズムに関連している。本願の本実施形態において、エンコーダ側は、第１仮想スピーカ信号を生成し得る。

【0139】

本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、第１ターゲット仮想スピーカの属性情報は第１ターゲット仮想スピーカの位置情報を含み；
段階４０２における、現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成する上記段階は、
第１ターゲット仮想スピーカの位置情報に基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を取得する段階；及び
第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行して、第１仮想スピーカ信号を取得する段階
を含む。

【0140】

第１ターゲット仮想スピーカの属性情報は、第１ターゲット仮想スピーカの位置情報を含み得る。エンコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を予め記憶し、エンコーダ側はさらに、各仮想スピーカの位置情報を記憶する。仮想スピーカの位置情報及び仮想スピーカのＨＯＡ係数の間には対応関係が存在する。したがって、エンコーダ側は、第１ターゲット仮想スピーカの位置情報に基づいて第１ターゲット仮想スピーカのＨＯＡ係数を決定し得る。属性情報がＨＯＡ係数を含む場合、エンコーダ側は、第１ターゲット仮想スピーカの属性情報を復号することによって、第１ターゲット仮想スピーカのＨＯＡ係数を取得し得る。

【0141】

エンコーダ側が第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数を取得した後、エンコーダ側は、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行し、すなわち、エンコーダ側は、第１ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数を共に組み合わせて、線形結合行列を取得する。その後、エンコーダ側は、線形結合行列に対して最適解を実行し得、取得された最適解は、第１仮想スピーカ信号である。

【0142】

例えば、第１ターゲット仮想スピーカのＨＯＡ係数は行列Ａによって表されており、符号化対象のＨＯＡ信号は、行列Ａを使用することによって線形結合を通じて取得され得る。理論上の最適解ｗは、最小二乗法を使用することによって取得され得、すなわち、第１仮想スピーカ信号である。例えば、以下の計算式が使用され得る。
ｗ=Ａ^－１Ｘ

【0143】

Ａ^－１は行列Ａの逆行列を表しており、行列Ａのサイズは（Ｍ×Ｃ）であり、Ｃは第１ターゲット仮想スピーカの数であり、ＭはＮ次のＨＯＡ係数のチャネルの数であり、ａは、第１ターゲット仮想スピーカのＨＯＡ係数を表す。例を以下に挙げる。

【数1】

【0144】

Ｘは符号化対象のＨＯＡ信号を表しており、行列Ｘのサイズは（Ｍ×Ｌ）であり、ＭはＮ次のＨＯＡ係数のチャネルの数であり、Ｌはサンプリングポイントの数であり、ｘは符号化対象のＨＯＡ信号の係数を表す。例を以下に挙げる。

【数2】

【0145】

４０３：仮想スピーカ信号を符号化して、ビットストリームを取得する。

【0146】

本願の本実施形態において、エンコーダ側が第１仮想スピーカ信号を生成した後、エンコーダ側は、第１仮想スピーカ信号を符号化して、ビットストリームを取得し得る。例えば、エンコーダ側は、具体的にはコアエンコーダであり得、コアエンコーダは、第１仮想スピーカ信号を符号化して、ビットストリームを取得する。ビットストリームは、オーディオ信号符号化ビットストリームとも称され得る。本願の本実施形態において、エンコーダ側は、シーンオーディオ信号を符号化する代わりに、第１仮想スピーカ信号を符号化する。第１ターゲット仮想スピーカが選択され、その結果、空間におけるリスナーが位置付けられた位置における音場は、シーンオーディオ信号が記録されるときの原音場にできる限り近い。これは、エンコーダ側の符号化品質を保証する。加えて、第１仮想スピーカ信号の符号化されたデータの量は、シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたシーンオーディオ信号のデータの量を減らし、符号化及び復号の効率を向上させる。

【0147】

本願のいくつかの実施形態において、エンコーダ側が前述の段階４０１から段階４０３を実行した後、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む：
第１ターゲット仮想スピーカの属性情報を符号化する段階、及び、符号化された属性情報をビットストリームに書き込む段階。

【0148】

仮想スピーカを符号化する段階に加えて、エンコーダ側は、第１ターゲット仮想スピーカの属性情報を符号化して、第１ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。この場合、取得されたビットストリームは、第１ターゲット仮想スピーカの符号化された仮想スピーカ及び符号化された属性情報を含み得る。本願の本実施形態において、ビットストリームは、第１ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第１ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。

【0149】

前述の段階４０１から段階４０３は、第１ターゲットスピーカが仮想スピーカセットから選択されたときに、第１ターゲット仮想スピーカに基づいて第１仮想スピーカ信号を生成し、第１仮想スピーカに基づいて信号符号化を実行するプロセスを説明していることに留意されたい。本願の本実施形態において、第１ターゲット仮想スピーカに加えて、エンコーダ側も、より多くのターゲット仮想スピーカを選択し得る。例えば、エンコーダ側はさらに、第２ターゲット仮想スピーカを選択し得る。第２ターゲット仮想スピーカの場合、前述の段階４０２及び段階４０３と同様のプロセスが実行される必要もある。これは、本明細書において限定されるものではない。詳細は以下で説明される。

【0150】

本願のいくつかの実施形態において、エンコーダ側によって実行される前述の段階に加えて、本願の本実施形態において提供されたオーディオ符号化方法は、以下をさらに含む。

【0151】

Ｄ１：第１シーンオーディオ信号に基づいて仮想スピーカセットから第２ターゲット仮想スピーカを選択する。

【0152】

Ｄ２：第１シーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する。

【0153】

Ｄ３：第２仮想スピーカ信号を符号化し、符号化された第２仮想スピーカ信号をビットストリームに書き込む。

【0154】

段階Ｄ１の実装は、前述の段階４０１のそれと同様である。第２ターゲット仮想スピーカは、エンコーダ側によって選択され且つ第１ターゲット仮想エンコーダとは異なる別のターゲット仮想スピーカである。第１シーンオーディオ信号は元のシーンにおける符号化対象のオーディオ信号であり、第２ターゲット仮想スピーカは仮想スピーカセットにおける仮想スピーカであり得る。例えば、第２ターゲット仮想スピーカは、予め構成されたターゲット仮想スピーカ選択ポリシに従って、予め設定された仮想スピーカセットから選択され得る。ターゲット仮想スピーカ選択ポリシは、第１シーンオーディオ信号とマッチングするターゲット仮想スピーカを仮想スピーカセットから選択するポリシ、例えば、第１シーンオーディオ信号から各仮想スピーカによって取得された音場成分に基づいて、第２ターゲット仮想スピーカを選択することである。

【0155】

本願のいくつかの実施形態において、本願の本実施形態において提供されたオーディオ符号化方法は、以下の段階をさらに含む。

【0156】

Ｅ１：仮想スピーカセットに基づいて、第１シーンオーディオ信号から第２メイン音場成分を取得する。

【0157】

段階Ｅ１が実行されるシナリオにおいて、前述の段階Ｄ１における、第１シーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階は、以下を含む。

【0158】

Ｆ１：第２メイン音場成分に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択する。

【0159】

エンコーダ側は、仮想スピーカセットを取得し、エンコーダ側は、仮想スピーカセットを使用することによって第１シーンオーディオ信号に対して信号分解を実行し、それにより、第１シーンオーディオ信号に対応する第２メイン音場成分を取得する。第２メイン音場成分は、第１シーンオーディオ信号におけるメイン音場に対応するオーディオ信号を表す。例えば、仮想スピーカセットは、複数の仮想スピーカを含み、複数の音場成分は、複数の仮想スピーカに基づいて、第１シーンオーディオ信号から取得され得る、すなわち、各仮想スピーカは、第１シーンオーディオ信号から１つの音場成分を取得して、その後、第２メイン音場成分が複数の音場成分から選択され得る。例えば、第２メイン音場成分は、複数の音場成分のうち最大値を有する１つ又はいくつかの音場成分であり得、又は、第２メイン音場成分は、複数の音場成分のうち優勢な方向性を有する１つ又はいくつかの音場成分であり得る。第２ターゲット仮想スピーカは、第２メイン音場成分に基づいて、仮想スピーカセットから選択される。例えば、第２メイン音場成分に対応する仮想スピーカは、エンコーダ側によって選択された第２ターゲット仮想スピーカである。本願の本実施形態において、エンコーダ側は、メイン音場成分に基づいて、第２ターゲット仮想スピーカを選択し得る。このように、エンコーダ側は、第２ターゲット仮想スピーカを決定し得る。

【0160】

本願のいくつかの実施形態において、前述の段階Ｆ１における、第２メイン音場成分に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択する上記段階は、
第２メイン音場成分に基づいて、ＨＯＡ係数セットから第２メイン音場成分のＨＯＡ係数を選択する段階、ここで、ＨＯＡ係数セットにおけるＨＯＡ係数は、仮想スピーカセットの仮想スピーカと１対１の対応関係にある；及び
第２メイン音場成分のＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第２ターゲット仮想スピーカとして決定する段階
を含む。

【0161】

前述の実装は、前述の実施形態における第１ターゲット仮想スピーカを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。

【0162】

本願のいくつかの実施形態において、前述の段階Ｆ１における、第２メイン音場成分に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択する上記段階は、以下をさらに含む。

【0163】

Ｇ１：第２メイン音場成分に基づいて、第２ターゲット仮想スピーカの構成パラメータを取得する。

【0164】

Ｇ２：第２ターゲット仮想スピーカの構成パラメータに基づいて、第２ターゲット仮想スピーカのＨＯＡ係数を生成する。

【0165】

Ｇ３：第２ターゲット仮想スピーカのＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第２ターゲット仮想スピーカとして決定する。

【0166】

【0167】

【0168】

本願のいくつかの実施形態において、段階Ｇ１における第２メイン音場成分に基づいて、第２ターゲット仮想スピーカの構成パラメータを取得する上記段階は、
オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定する段階；及び
第２メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第２ターゲット仮想スピーカの構成パラメータを選択する段階
を含む。

【0169】

前述の実装は、前述の実施形態における第１ターゲット仮想スピーカの構成パラメータを決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。

【0170】

本願のいくつかの実施形態において、第２ターゲット仮想スピーカの構成パラメータは、第２ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含む。

【0171】

前述の段階Ｇ２における、第２ターゲット仮想スピーカの構成パラメータに基づいて、第２ターゲット仮想スピーカのＨＯＡ係数を生成する上記段階は、以下を含む：
第２ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報に基づいて、第２ターゲット仮想スピーカのＨＯＡ係数を決定する段階。

【0172】

前述の実装は、前述の実施形態における第１ターゲット仮想スピーカのＨＯＡ係数を決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。

【0173】

本願のいくつかの実施形態において、第１シーンオーディオ信号は符号化対象のＨＯＡ信号を含み得、第２ターゲット仮想スピーカの属性情報は第２ターゲット仮想スピーカのＨＯＡ係数を含み；
段階Ｄ２における、第１シーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する上記段階は、
第２ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行して、第２仮想スピーカ信号を取得する段階
を含む。

【0174】

本願のいくつかの実施形態において、第１シーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、第２ターゲット仮想スピーカの属性情報は第２ターゲット仮想スピーカの位置情報を含み；
段階Ｄ２における、第１シーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する上記段階は、
第２ターゲット仮想スピーカの位置情報に基づいて、第２ターゲット仮想スピーカのＨＯＡ係数を取得する段階；及び
第２ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行して、第２仮想スピーカ信号を取得する段階
を含む。

【0175】

前述の実装は、前述の実施形態における第１仮想スピーカ信号を決定するプロセスと同様であり、詳細については本明細書で改めて説明しない。

【0176】

本願の本実施形態において、エンコーダ側が第２仮想スピーカ信号を生成した後、エンコーダ側はさらに、段階Ｄ３を実行することで、第２仮想スピーカ信号を符号化して、符号化された第２仮想スピーカ信号をビットストリームに書き込み得る。エンコーダ側によって使用される符号化方法は段階４０３と同様である。このように、ビットストリームは、第２仮想スピーカ信号の符号化結果を搬送し得る。

【0177】

本願のいくつかの実施形態において、エンコーダ側によって実行されるオーディオ符号化方法はさらに、以下の段階を含み得る。

【0178】

Ｉ１：第１仮想スピーカ信号及び第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得する。

【0179】

段階Ｉ１が実行されるシナリオにおいて、それに応じて、段階Ｄ３における第２仮想スピーカ信号を符号化する上記段階は、
位置合わせされた第２仮想スピーカ信号を符号化する段階を含み、
それに応じて、段階４０３における第１仮想スピーカ信号を符号化する上記段階は、
位置合わせされた第１仮想スピーカ信号を符号化する段階を含む。

【0180】

エンコーダ側は、第１仮想スピーカ信号及び第２仮想スピーカ信号を生成し得、エンコーダ側は、第１仮想スピーカ信号及び第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得し得る。例えば、２つの仮想スピーカ信号が存在する。現在のフレームの仮想スピーカ信号のチャネルシーケンスは１及び２であり、それぞれ、ターゲット仮想スピーカＰ１及びＰ２によって生成された仮想スピーカ信号に対応している。前のフレームの仮想スピーカ信号のチャネルシーケンスは１及び２であり、それぞれ、ターゲット仮想スピーカＰ２及びＰ１によって生成された仮想スピーカ信号に対応している。この場合、現在のフレームの仮想スピーカ信号のチャネルシーケンスは、前のフレームのターゲット仮想スピーカのシーケンスに基づいて調整され得る。例えば、現在のフレームの仮想スピーカ信号のチャネルシーケンスは２及び１に調整され、その結果、同じターゲット仮想スピーカによって生成された仮想スピーカ信号は同じチャネル上にある。

【0181】

位置合わせされた第１仮想スピーカ信号を取得した後、エンコーダ側は、位置合わせされた第１仮想スピーカ信号を符号化し得る。本願の本実施形態において、チャネル間の相関関係は、第１仮想スピーカ信号のチャネルを再調整及び再位置合わせすることによって強化される。これは、第１仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。

【0182】

【0183】

Ｄ１：第１シーンオーディオ信号に基づいて仮想スピーカセットから第２ターゲット仮想スピーカを選択する。

【0184】

Ｄ２：第１シーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成する。

【0185】

それに応じて、エンコーダ側が段階Ｄ１及び段階Ｄ２を実行するシナリオにおいて、段階４０３における第１仮想スピーカ信号を符号化する上記段階は、以下を含む。

【0186】

Ｊ１：第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する、ここで、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示す。

【0187】

Ｊ２：ダウンミックスされた信号及びサイド情報を符号化する。

【0188】

第１仮想スピーカ信号及び第２仮想スピーカ信号を取得した後、エンコーダ側はさらに、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいてダウンミックス処理を実行することで、ダウンミックスされた信号を生成し得る、例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号に対して振幅ダウンミックス処理を実行することで、ダウンミックスされた信号を取得し得る。加えて、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいて生成され得る。サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示す。当該関係は、複数の方式で実装され得る。サイド情報は、デコーダ側によって使用され、ダウンミックスされた信号に対してアップミックスを実行し、第１仮想スピーカ信号及び第２仮想スピーカ信号を復元し得る。例えば、サイド情報は、信号情報損失分析パラメータを含む。このように、デコーダ側は、信号情報損失分析パラメータを使用することによって、第１仮想スピーカ信号及び第２仮想スピーカ信号を復元する。別の例の場合、サイド情報は、具体的には、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の相関パラメータであり得、例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号の間のエネルギー比パラメータであり得る。このように、デコーダ側は、相関パラメータ又はエネルギー比パラメータを使用することによって、第１仮想スピーカ信号及び第２仮想スピーカ信号を復元する。

【0189】

本願のいくつかの実施形態において、エンコーダ側が段階Ｄ１及び段階Ｄ２を実行するシナリオでは、エンコーダ側は、以下の段階をさらに実行し得る。

【0190】

【0191】

段階Ｉ１が実行されるシナリオにおいて、それに応じて、段階Ｊ１における、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階は、
位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得する段階を含み、
それに応じて、サイド情報は、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号の間の関係を示す。

【0192】

ダウンミックスされた信号を生成する前に、エンコーダ側は、まず、仮想スピーカ信号の位置合わせ操作を実行い、その後、位置合わせ操作を完了した後、ダウンミックスされた信号及びサイド情報を生成し得る。本願の本実施形態において、チャネル間の相関関係は、第１仮想スピーカ信号及び第２仮想スピーカのチャネルを再調整及び再位置合わせすることによって強化される。これは、第１仮想スピーカ信号に対してコアエンコーダによって実行される符号化処理を容易にする。

【0193】

本願の前述の実施形態において、第２シーンオーディオ信号は、位置合わせ前の第１仮想スピーカ信号及び位置合わせ前の第２仮想スピーカ信号に基づいて取得されてもよく、又は、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号に基づいて取得されてもよいことに留意されたい。具体的な実装は、アプリケーションシナリオに依存する。これは、本明細書において限定されるものではない。

【0194】

本願のいくつかの実施形態において、段階Ｄ１における、第１シーンオーディオ信号に基づいて仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階の前に、本願の本実施形態において提供されたオーディオ信号符号化方法は、以下をさらに含む。

【0195】

Ｋ１：符号化レート及び／又は第１シーンオーディオ信号の信号タイプ情報に基づいて、第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定する。

【0196】

Ｋ２：第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要がある場合、第１シーンオーディオ信号に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択する。

【0197】

エンコーダ側はさらに、第２ターゲット仮想スピーカが取得される必要があるかどうかを決定するべく、信号選択を実行し得る。第２ターゲット仮想スピーカが取得される必要がある場合、エンコーダ側は、第２仮想スピーカ信号を生成し得る。第２ターゲット仮想スピーカが取得される必要がない場合、エンコーダ側は、第２仮想スピーカ信号を生成しなくてよい。エンコーダは、オーディオエンコーダの構成情報及び／又は第１シーンオーディオ信号の信号タイプ情報に基づいて、第１ターゲット仮想スピーカに加えて別のターゲット仮想スピーカが選択される必要があるかどうかを決定するべく、決定を行い得る。例えば、符号化レートが予め設定された閾値より高い場合、２つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定され、第１ターゲット仮想スピーカに加えて、第２ターゲット仮想スピーカがさらに決定され得る。別の例の場合、第１シーンオーディオ信号の信号タイプ情報に基づいて、音源方向が優勢な（ｄｏｍｉｎａｎｔ）２つのメイン音場成分に対応するターゲット仮想スピーカが取得される必要があることが決定された場合、第１ターゲット仮想スピーカに加えて、第２ターゲット仮想スピーカがさらに決定され得る。反対に、第１シーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、１つのみのターゲット仮想スピーカが取得される必要があると決定された場合、第１ターゲット仮想スピーカが決定された後、第１ターゲット仮想スピーカ以外のターゲット仮想スピーカはもはや取得されないことが決定される。本願の本実施形態において、信号選択は、エンコーダ側によって符号化されるべきデータの量を減らし、符号化効率を向上させるために実行される。

【0198】

信号選択を実行するとき、エンコーダ側は、第２仮想スピーカ信号が生成される必要があるかどうかを決定し得る。情報損失は、エンコーダ側が信号選択を実行したときに発生するので、信号補償は、伝送されていない仮想スピーカ信号に対して実行される必要がある。信号補償は選択され得、情報損失分析、エネルギー補償、エンベロープ補償、ノイズ補償等に限定されるものではない。補償方法は、線形補償、又は非線形補償等であり得る。信号補償が実行された後、サイド情報が生成され得、サイド情報は、ビットストリームに書き込まれ得る。したがって、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得る。デコーダ側は、サイド情報に基づいて信号補償を実行し、デコーダ側における復号された信号の品質を向上させ得る。

【0199】

前述の実施形態において説明された例によると、第１仮想スピーカ信号は、第１シーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて生成され得、オーディオエンコーダ側は、第１シーンオーディオ信号を直接符号化する代わりに、第１仮想スピーカ信号を符号化する。本願の本実施形態において、第１ターゲット仮想スピーカは、第１シーンオーディオ信号に基づいて選択され、第１ターゲット仮想スピーカに基づいて生成された第１仮想スピーカ信号は、空間におけるリスナーが位置付けられた位置における音場を表し得、この位置における音場は、第１シーンオーディオ信号が記録されるときの原音場に、できる限り近い。これは、オーディオエンコーダ側の符号化品質を保証する。加えて、第１仮想スピーカ信号及び残差信号が符号化され、ビットストリームを取得する。第１仮想スピーカ信号の符号化されたデータの量は、第１ターゲット仮想スピーカに関連しており、第１シーンオーディオ信号のチャネルの数とは無関係である。これは、符号化されたデータの量を減らし、符号化効率を向上させる。

【0200】

本願の本実施形態において、エンコーダ側は、仮想スピーカ信号を符号化して、ビットストリームを生成する。その後、エンコーダ側はビットストリームを出力し、オーディオ伝送チャネルを通じてデコーダ側にビットストリームを送信し得る。デコーダ側は、後続の段階４１１～段階４１３を実行する。

【0201】

４１１：ビットストリームを受信する。

【0202】

デコーダ側は、エンコーダ側からビットストリームを受信する。ビットストリームは、符号化された第１仮想スピーカ信号を搬送し得る。ビットストリームはさらに、第１ターゲット仮想スピーカの符号化された属性情報を搬送し得る。これは、本明細書において限定されるものではない。ビットストリームは、第１ターゲット仮想スピーカの属性情報を搬送しない場合があることに留意されたい。この場合、デコーダ側は、予め構成することによって、第１ターゲット仮想スピーカの属性情報を決定し得る。

【0203】

加えて、本願のいくつかの実施形態において、エンコーダ側が第２仮想スピーカ信号を生成するとき、ビットストリームはさらに、第２仮想スピーカ信号を搬送し得る。ビットストリームはさらに、第２ターゲット仮想スピーカの符号化された属性情報を搬送し得る。これは、本明細書において限定されるものではない。ビットストリームは、第２ターゲット仮想スピーカの属性情報を搬送しない場合があることに留意されたい。この場合、デコーダ側は、予め構成することによって、第２ターゲット仮想スピーカの属性情報を決定し得る。

【0204】

４１２：ビットストリームを復号して、仮想スピーカ信号を取得する。

【0205】

エンコーダ側からビットストリームを受信した後、デコーダ側は、ビットストリームを復号して、ビットストリームから仮想スピーカ信号を取得する。

【0206】

仮想スピーカ信号は、具体的に前述の第１仮想スピーカ信号であってもよく、又は、前述の第１仮想スピーカ信号及び第２仮想スピーカ信号であってもよいことに留意されたい。これは、本明細書において限定されるものではない。

【0207】

本願のいくつかの実施形態において、デコーダ側が前述の段階４１１及び段階４１２を実行した後、本願の本実施形態において提供されたオーディオ復号方法は、以下の段階をさらに含む：
ビットストリームを復号して、ターゲット仮想スピーカの属性情報を取得する段階。

【0208】

仮想スピーカを符号化する段階に加えて、エンコーダ側は、ターゲット仮想スピーカの属性情報を符号化して、ターゲット仮想スピーカの符号化された属性情報をビットストリームに書き込む場合もある。例えば、第１ターゲット仮想スピーカの属性情報は、ビットストリームを使用することによって取得され得る。本願の本実施形態において、ビットストリームは、第１ターゲット仮想スピーカの符号化された属性情報を搬送し得る。このように、デコーダ側は、ビットストリームを復号することによって、第１ターゲット仮想スピーカの属性情報を決定し得る。これは、デコーダ側におけるオーディオ復号を容易にする。

【0209】

４１３：ターゲット仮想スピーカの属性情報及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する。

【0210】

デコーダ側は、ターゲット仮想スピーカの属性情報を取得し得る。ターゲット仮想スピーカは、仮想スピーカセット内の且つ再構築されたシーンオーディオ信号をプレイバックするために使用される仮想スピーカである。ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報及びターゲット仮想スピーカのＨＯＡ係数を含み得る。仮想スピーカ信号を取得した後、デコーダ側は、ターゲット仮想スピーカの属性情報に基づいて信号を再構築し、信号再構築を通じて、再構築されたシーンオーディオ信号を出力し得る。

【0211】

本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカのＨＯＡ係数を含み；
段階４１３における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、
仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得する段階
を含む。

【0212】

デコーダ側は、まず、第１ターゲット仮想スピーカのＨＯＡ係数を決定する。例えば、デコーダ側は、ターゲット仮想スピーカのＨＯＡ係数を予め記憶し得る。仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数を取得した後、デコーダ側は、仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に基づいて、再構築されたシーンオーディオ信号を取得し得る。このように、再構築されたシーンオーディオ信号の品質が向上される。

【0213】

例えば、ターゲット仮想スピーカのＨＯＡ係数は行列Ａ'によって表されており、行列Ａ'のサイズは（Ｍ×Ｃ）であり、Ｃはターゲット仮想スピーカの数であり、ＭはＮ次のＨＯＡ係数のチャネルの数である。仮想スピーカ信号は行列Ｗ'によって表されており、行列Ｗ'のサイズは（Ｃ×Ｌ）であり、Ｌは信号サンプリングポイントの数である。再構築されたＨＯＡ信号は、以下の計算式に従って取得される。
Ｈ＝Ａ'Ｗ'

【0214】

前述の計算式を使用することによって取得されたＨは、再構築されたＨＯＡ信号である。

【0215】

本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み；
段階４１３における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、
ターゲット仮想スピーカの位置情報に基づいてターゲット仮想スピーカのＨＯＡ係数を決定する段階；及び
仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得する段階
を含む。

【0216】

ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み得る。デコーダ側は、仮想スピーカセットにおける各仮想スピーカのＨＯＡ係数を予め記憶し、デコーダ側はさらに、各仮想スピーカの位置情報を記憶する。例えば、デコーダ側は、仮想スピーカの位置情報及び仮想スピーカのＨＯＡ係数の間の対応関係に基づいて、ターゲット仮想スピーカの位置情報のＨＯＡ係数を決定し得、又は、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのＨＯＡ係数を計算し得る。したがって、デコーダ側は、ターゲット仮想スピーカの位置情報に基づいて、ターゲット仮想スピーカのＨＯＡ係数を決定し得る。このように、デコーダ側は、ターゲット仮想スピーカのＨＯＡ係数を決定し得る。

【0217】

本願のいくつかの実施形態において、仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であることがエンコーダ側の方法の説明から分かり得る。この実装シナリオにおいて、本願の本実施形態において提供されたオーディオ復号方法は、
ビットストリームを復号したサイド情報を取得する段階、ここで、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示す；及び
サイド情報及びダウンミックスされた信号に基づいて、第１仮想スピーカ信号及び第２仮想スピーカ信号を取得する段階
をさらに含む。

【0218】

本発明のこの実施形態において、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係は、直接的な関係であってもよく、又は間接的な関係であってもよい。例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係が直接的な関係であるとき、第１サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の相関パラメータを含み得、例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号の間のエネルギー比パラメータであり得る。例えば、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係が間接的な関係であるとき、第１サイド情報は、第１仮想スピーカ信号及びダウンミックスされた信号の間の相関パラメータ、及び、第２仮想スピーカ信号及びダウンミックスされた信号の間の相関パラメータを含み得、例えば、第１仮想スピーカ信号及びダウンミックスされた信号の間のエネルギー比パラメータ、及び、第２仮想スピーカ信号及びダウンミックスされた信号の間のエネルギー比パラメータを含む。

【0219】

第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係が直接的な関係であり得るとき、デコーダ側は、ダウンミックスされた信号、ダウンミックスされた信号の取得方式、及び直接的な関係に基づいて、第１仮想スピーカ信号及び第２仮想スピーカ信号を決定し得る。第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係が間接的な関係であり得るとき、デコーダ側は、ダウンミックスされた信号及び間接的な関係に基づいて、第１仮想スピーカ信号及び第２仮想スピーカ信号を決定し得る。

【0220】

それに応じて、段階４１３における、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する上記段階は、以下を含む：
ターゲット仮想スピーカの属性情報、第１仮想スピーカ信号、及び第２仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得する段階。

【0221】

エンコーダ側は、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいてダウンミックス処理が実行されたときに、ダウンミックスされた信号を生成し、エンコーダ側はさらに、ダウンミックスされた信号に対して信号補償を実行し、サイド情報を生成し得る。サイド情報はビットストリームに書き込まれ得、デコーダ側は、ビットストリームを使用することによってサイド情報を取得し得、デコーダ側は、サイド情報に基づいて信号補償を実行することで、第１仮想スピーカ信号及び第２仮想スピーカ信号を取得し得る。したがって、信号再構築中には、第１仮想スピーカ信号、第２仮想スピーカ信号、及びターゲット仮想スピーカの前述の属性情報が使用され、デコーダ側における復号された信号の品質を向上させ得る。

【0222】

前述の実施形態において説明された例によると、本願の本実施形態において、仮想スピーカ信号は、ビットストリームを復号することによって取得され得、仮想スピーカ信号は、シーンオーディオ信号のプレイバック信号として使用されている。再構築されたシーンオーディオ信号は、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて取得される。本願の本実施形態において、取得されたビットストリームは、仮想スピーカ信号及び残差信号を搬送する。これは、復号されたデータの量を減らし、復号効率を向上させる。

【0223】

例えば、本願の本実施形態において、第１シーンオーディオ信号と比較すると、第１仮想スピーカ信号は、より少ないチャネルを使用することによって表されている。例えば、第１シーンオーディオ信号は３次ＨＯＡ信号であり、ＨＯＡ信号は１６チャネルである。本願の本実施形態において、１６チャネルは２つのチャネルに圧縮され得る、すなわち、エンコーダ側によって生成された仮想スピーカ信号は２チャネルである。例えば、エンコーダ側によって生成された仮想スピーカ信号は、前述の第１仮想スピーカ信号及び第２仮想スピーカ信号を含み得、エンコーダ側によって生成された仮想スピーカ信号のチャネルの数は、第１シーンオーディオ信号のチャネルの数とは無関係である。ビットストリームが第２チャネル仮想スピーカ信号を搬送し得ることが、後続の段階の説明から分かり得る。それに応じて、デコーダ側はビットストリームを受信し、ビットストリームを復号することで２チャネル仮想スピーカ信号を取得し、デコーダ側は、２チャネル仮想スピーカ信号に基づいて１６チャネルシーンオーディオ信号を再構築し得る。加えて、再構築されたシーンオーディオ信号が、元のシーンにおけるオーディオ信号と同じ主観的及び客観的品質を有することが保証されている。

【0224】

本願の実施形態における前述の解決手段をより良く理解及び実装するために、対応するアプリケーションシーンを例として使用することによって、具体的な説明が下記に提供される。

【0225】

本願の本実施形態において、シーンオーディオ信号がＨＯＡ信号である例が使用される。音波は理想的な媒体内で伝播され、波の数はｋ＝ｗ／ｃであり、角周波数はｗ＝２πｆであり、ｆは音波周波数であり、ｃは音速である。音圧ｐは以下の計算式を満たしており、ここで∇^２はラプラス演算子である。

【数3】

【0226】

前述の式は、球面座標において計算される。受動的な球面領域において、上記式の解は、以下の計算式として表現される。

【数4】

【0227】

前述の計算式において、ｒは球面半径を表しており、θは水平角を表しており、φは仰角を表しており、ｋは波数を表しており、ｓは理想的な平面波の振幅であり、ｍはＨＯＡ次数シーケンス番号である。

【数5】

は球面ベッセル関数であり、放射基底関数とも称されており、ここで、第１のｊは虚数単位である。

【数6】

は、角度によって変動はしない。

【数7】

はθ，φ方向における球面調和関数であり、

【数8】

は、音源の方向における球面調和関数である。

【0228】

ＨＯＡ係数は、

【数9】

のように表現され得る。

【0229】

以下の計算式が提供されている。

【数10】

【0230】

上記の計算式は、音場が、球面調和関数に基づいて球面上で拡大されて、係数

【数11】

を使用することによって表現されることが可能であることを示している。代替的に、音場は、係数

【数12】

が既知である場合、再構築され得る。前述の式は、Ｎ番目の項に切り詰められる。係数

【数13】

は、音場の近似的説明として使用されており、Ｎ次のＨＯＡ係数として称されている。ＨＯＡ係数は、アンビソニック係数とも称され得る。Ｎ次のＨＯＡ係数は、合計（Ｎ＋１）^２個のチャネルを有する。
１次以上のアンビソニック信号は、ＨＯＡ信号としても称される。ＨＯＡ信号のサンプリングポイントの係数に基づいて球面調和関数を重畳することによって、サンプリングポイントに対応する瞬間の空間的音場が再構築され得る。

【0231】

例えば、１つの構成において、シーンオーディオが記録されるとき、ＨＯＡ次数は２次～６次の次数であり得、信号サンプリングレートは４８～１９２ｋＨｚであり、サンプリング深さは１６又は２４ビットである。ＨＯＡ信号は、音場を有する空間情報によって特定付けられ、ＨＯＡ信号は、空間における特定のポイントでの音場信号の特定の精度の説明である。したがって、位置ポイントにおける音場信号を説明するために別の表現形式が使用されることが考えられ得る。この説明方法において、上記ポイントにおける信号がより少量のデータを使用することによって同じ精度で説明され得る場合、信号圧縮が実装され得る。

【0232】

空間的音場は、複数の平面波の重畳に分解され得る。したがって、ＨＯＡ信号によって表現された音場は、複数の平面波の重畳を使用することによって表現され得、各平面波は、１チャネルオーディオ信号及び方向ベクトルを使用することによって表される。平面波重畳の表現形式がより少ないチャネルを使用することによって原音場をより良く表現し得る場合、信号圧縮が実装され得る。

【0233】

実際のプレイバック中に、ＨＯＡ信号は、ヘッドホンを使用することによってプレイバックされ得、又は、部屋に配置された複数のスピーカを使用することによってプレイバックされ得る。スピーカがプレイバックのために使用されるとき、基本の方法は、複数のスピーカの音場を重畳することである。このように、特定の基準下で、空間内のあるポイント（リスナーの位置）における音場は、ＨＯＡ信号が記録されるときの原音場にできる限り近い。本願の本実施形態において、仮想スピーカアレイが使用されることが想定されている。その後、仮想スピーカアレイのプレイバック信号が計算され、プレイバック信号は伝送信号として使用され、圧縮信号がさらに生成される。デコーダ側は、ビットストリームを復号してプレイバック信号を取得し、プレイバック信号に基づいてシーンオーディオ信号を再構築する。

【0234】

本願の本実施形態において、シーンオーディオ信号符号化に適用可能なエンコーダ側及びシーンオーディオ信号復号に適用可能なデコーダ側が提供される。エンコーダ側は、元のＨＯＡ信号を圧縮ビットストリームに符号化し、エンコーダ側は、圧縮ビットストリームをデコーダ側に送信し、その後、デコーダ側は、圧縮ビットストリームを再構築されたＨＯＡ信号に復元する。本願の本実施形態において、エンコーダ側によって圧縮されたデータの量はできる限り少ない、又は、デコーダ側によって同じビットレートで再構築されたＨＯＡ信号の品質はより高い。

【0235】

本願の本実施形態において、大量のデータ、高帯域幅占有、低い圧縮効率、低い符号化品質といった問題は、ＨＯＡ信号が符号化されたときに解決され得る。Ｎ次のＨＯＡ信号は（Ｎ＋１）^２個のチャネルを有するので、ＨＯＡ信号の直接伝送は、大きな帯域幅を消費する必要がある。したがって、効果的なマルチチャネル符号化スキームが必要である。

【0236】

本願の本実施形態においては、異なるチャネル抽出方法が使用されており、音源の仮定は本願の本実施形態において限定されるものではなく、時間‐周波数領域における単一音源の仮定は依存しない。したがって、マルチ音源信号などの複雑なシナリオは、より効果的に処理され得る。本願の本実施形態におけるエンコーダ及びデコーダは、空間的符号化及び復号方法を提供しており、ここで元のＨＯＡ信号はより少ないチャネルによって表されている。図５は、本願の実施形態に係るエンコーダ側の構造の概略図である。エンコーダ側は、空間エンコーダ及びコアエンコーダを含む。空間エンコーダは、符号化対象のＨＯＡ信号に対してチャネル抽出を実行して、仮想スピーカ信号を生成し得る。コアエンコーダは、仮想スピーカ信号を符号化してビットストリームを取得し得る。エンコーダ側は、ビットストリームをデコーダ側に送信する。図６は、本願の実施形態に係るデコーダ側の構造の概略図である。デコーダ側は、コアデコーダ及び空間デコーダを含む。コアデコーダはまず、エンコーダ側からビットストリームを受信し、その後、ビットストリームを復号して仮想スピーカ信号を取得する。その後、空間デコーダは、仮想スピーカ信号を再構築して、再構築されたＨＯＡ信号を取得する。

【0237】

以下では、エンコーダ側及びデコーダ側の例を別個に説明する。

【0238】

図７に示されたように、本願の実施形態に提供されたエンコーダ側がまず説明される。エンコーダ側は、仮想スピーカ構成ユニット、符号化分析ユニット、仮想スピーカセット生成ユニット、仮想スピーカ選択ユニット、仮想スピーカ信号生成ユニット、及びコアエンコーダ処理ユニットを含み得る。以下では、エンコーダ側の各組織ユニットの機能について別個に説明する。本願の本実施形態において、図７に示されたエンコーダ側は、１つの仮想スピーカ信号を生成してもよく、又は、複数の仮想スピーカ信号を生成してもよい。複数の仮想スピーカ信号を生成する手順は、図７に示されたエンコーダの構造に基づいて、複数回生成され得る。以下では、１つの仮想スピーカ信号を生成する手順を例として使用する。

【0239】

仮想スピーカ構成ユニットは、仮想スピーカセットにおける仮想スピーカを構成して、複数の仮想スピーカを取得するように構成されている。

【0240】

仮想スピーカ構成ユニットは、エンコーダ構成情報に基づいて、仮想スピーカ構成パラメータを出力する。エンコーダ構成情報は、限定されるものではないが、ＨＯＡ次数、符号化ビットレート、及びユーザにより定義された情報を含む。仮想スピーカ構成パラメータは、限定されるものではないが、仮想スピーカの数、仮想スピーカのＨＯＡ次数、及び仮想スピーカの位置座標等を含む。

【0241】

仮想スピーカ構成ユニットによって出力された仮想スピーカ構成パラメータは、仮想スピーカセット生成ユニットの入力として使用される。

【0242】

符号化分析ユニットは、符号化対象のＨＯＡ信号に対してコーディング分析を実行するように、例えば、符号化対象のＨＯＡ信号の音源の数、指向性、及び分散などの特徴を含む、符号化対象のＨＯＡ信号の音場分布を分析するように構成されている。これは、どのようにターゲット仮想スピーカを選択するかに対する決定条件として使用される。

【0243】

本願の本実施形態において、エンコーダ側は、符号化分析ユニットを含まなくてよく、すなわち、エンコーダ側は、入力信号を分析しなくてよく、ターゲット仮想スピーカをどのように選択するかを決定するためにデフォルトの構成は使用されない。これは、本明細書において限定されるものではない。

【0244】

エンコーダ側は、符号化対象のＨＯＡ信号を取得し、例えば、実際の取得デバイスから記録されたＨＯＡ信号、又は、エンコーダの入力として人工オーディオオブジェクトを使用することによって合成されたＨＯＡ信号を使用し得、エンコーダによって入力された符号化対象のＨＯＡ信号は、時間‐領域ＨＯＡ信号又は周波数‐領域ＨＯＡ信号であり得る。

【0245】

仮想スピーカセット生成ユニットは、仮想スピーカセットを生成するように構成されている。仮想スピーカセットは複数の仮想スピーカを含み得、仮想スピーカセットにおける仮想スピーカは、「候補仮想スピーカ」とも称され得る。

【0246】

仮想スピーカセット生成ユニットは、候補仮想スピーカの指定されたＨＯＡ係数を生成する。候補仮想スピーカのＨＯＡ係数を生成することには、候補仮想スピーカの座標（すなわち、位置座標又は位置情報）及び候補仮想スピーカのＨＯＡ次数が必要である。候補仮想スピーカの座標を決定する方法は、限定されるものではないが、等距離ルールに従ってＫ個の仮想スピーカを生成する段階と、聴覚的知覚原理に従って均等に分布されていないＫ個の候補仮想スピーカを生成する段階を含む。以下では、固定された数の均等に分布された仮想スピーカを生成するための方法の例を与える。

【0247】

均等に分布された候補仮想スピーカの座標は、候補仮想スピーカの数に基づいて生成される。例えば、略均等に分布されたスピーカは、数値反復計算方法を使用することによって提供される。図８は、球面に対して略均等に分布された仮想スピーカの概略図である。いくつかの質点が単位球面上に分布されており、二次逆反発力がこれらの質点の間に配置されていると想定する。これは、同じ電荷間の静電反発力と同様である。これらの質点は、反発動作下で自由に動くことが可能であり、質点は、質点が安定状態に達したときに、均等に分布されるべきであることが期待されている。計算において、実際の物理法則は簡略化され、質点の移動距離は、質点に作用する力に直接等しい。したがって、ｉ番目の質点の場合、反復計算の段階におけるｉ番目の質点の運動距離は、すなわち、ｉ番目の質点に作用する仮想力は、以下の計算式に従って計算される。

【数14】

【0248】

【数15】

は変位ベクトルを表しており、

【数16】

は力ベクトルを表しており、ｒ_ｉｊはｉ番目の質点及びｊ番目の質点の間の距離を表しており、

【数17】

は、ｊ番目の質点からｉ番目の質点への方向ベクトルを表している。パラメータｋは、単一段階のサイズを制御する。質点の最初の位置はランダムに指定される。

【0249】

変位ベクトル

【数18】

に従って動いた後、質点は、通常は、単位球面から逸脱する。次の反復の前に、質点及び球面の中央部の間の距離は正規化され、質点は動いて単位球面に戻る。したがって、図８に示された仮想スピーカの分布の概略図が取得され得、複数の仮想スピーカは、球面上に略均等に分布されている。

【0250】

次に、候補仮想スピーカのＨＯＡ係数が生成される。振幅がｓでありスピーカの位置座標が（θ_ｓ，φ_ｓ）である理想的な平面波、及び、球面調和関数を使用することによって拡大された後の理想的な平面波の形態は、以下の計算式として表現されている。

【数19】

【0251】

平面波のＨＯＡ係数は

【数20】

であり、以下の計算式を満たしている。

【数21】

【0252】

仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのＨＯＡ係数は、仮想スピーカ選択ユニットの入力として使用される。

【0253】

仮想スピーカ選択ユニットは、符号化対象のＨＯＡ信号に基づいて、仮想スピーカセットにおける複数の候補仮想スピーカからターゲット仮想スピーカを選択するように構成されている。ターゲット仮想スピーカは、「符号化対象のＨＯＡ信号とマッチングする仮想スピーカ」称されるか、又は、略してマッチングする仮想スピーカと称され得る。

【0254】

仮想スピーカ選択ユニットは、符号化対象のＨＯＡ信号を、仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのＨＯＡ係数とマッチングさせ、指定されたマッチングする仮想スピーカを選択する。

【0255】

以下では、仮想スピーカを選択する方法を、例を使用することによって説明する。実施形態において、候補仮想スピーカが取得された後、符号化対象のＨＯＡ信号は、仮想スピーカセット生成ユニットによって出力された候補仮想スピーカのＨＯＡ係数とマッチングされ、候補仮想スピーカにおいて符号化対象のＨＯＡ信号の最も良いマッチングを見出す。目標は、候補仮想スピーカのＨＯＡ係数を使用することによって、符号化対象のＨＯＡ信号をマッチング及び組み合わせることである。実施形態において、内積は、候補仮想スピーカのＨＯＡ係数、及び符号化対象のＨＯＡ信号を使用することによって実行され、内積の最大絶対値を有する候補仮想スピーカがターゲット仮想スピーカ、すなわち、マッチングする仮想スピーカとして選択され、候補仮想スピーカ上の符号化対象のＨＯＡ信号の投影は、候補仮想スピーカのＨＯＡ係数の線形結合に重畳され、その後、投影ベクトルが符号化対象のＨＯＡ信号から減算されることで、差分が取得される。差分のための前述のプロセスは、反復計算を実装するために繰り返され、マッチングする仮想スピーカが反復の度に生成され、マッチングする仮想スピーカの座標及びマッチングする仮想スピーカのＨＯＡ係数が出力される。複数のマッチングする仮想スピーカが選択され、１つのマッチングする仮想スピーカは反復の度に生成されることが理解され得る。

【0256】

仮想スピーカ選択ユニットによって出力されるターゲット仮想スピーカの座標及びターゲット仮想スピーカのＨＯＡ係数は、仮想スピーカ信号生成ユニットの入力として使用される。

【0257】

本願のいくつかの実施形態において、図７に示された組織ユニットに加えて、エンコーダ側はさらに、サイド情報生成ユニットを含み得る。エンコーダ側は、サイド情報生成ユニットを含まなくてよい。これは一例に過ぎず、本明細書において限定されるものではない。

【0258】

仮想スピーカ選択ユニットによって出力されたターゲット仮想スピーカの座標及び／又はターゲット仮想スピーカのＨＯＡ係数は、サイド情報生成ユニットの複数又は単数の入力として使用される。

【0259】

サイド情報生成ユニットは、ターゲット仮想スピーカのＨＯＡ係数又はターゲット仮想スピーカの座標をサイド情報に変換する。これは、コアエンコーダの処理及び伝送を容易にする。

【0260】

サイド情報生成ユニットの出力は、コアエンコーダ処理ユニットの入力として使用される。

【0261】

仮想スピーカ信号生成ユニットは、ターゲット仮想スピーカの符号化対象のＨＯＡ信号及び属性情報に基づいて、仮想スピーカ信号を生成するように構成されている。

【0262】

仮想スピーカ信号生成ユニットは、ターゲット仮想スピーカの符号化対象のＨＯＡ信号及びＨＯＡ係数に基づいて、仮想スピーカ信号を計算する。

【0263】

マッチングする仮想スピーカのＨＯＡ係数は行列Ａによって表されており、符号化対象のＨＯＡ信号は、行列Ａを使用することによって線形結合を通じて取得され得る。理論上の最適解ｗは、最小二乗法を使用することによって取得され得、すなわち、仮想スピーカ信号である。例えば、以下の計算式が使用され得る。
ｗ＝Ａ－^１Ｘ

【0264】

Ａ^－１は行列Ａの逆行列を表しており、行列Ａのサイズは（Ｍ×Ｃ）であり、Ｃはターゲット仮想スピーカの数であり、ＭはＮ次のＨＯＡ係数のチャネルの数であり、ａは、ターゲット仮想スピーカのＨＯＡ係数を表す。例を以下に挙げる。

【数22】

【0265】

【数23】

【0266】

仮想スピーカ信号生成ユニットによって出力された仮想スピーカ信号は、コアエンコーダ処理ユニットの入力として使用される。

【0267】

本願のいくつかの実施形態において、図７に示された組織ユニットに加えて、エンコーダ側はさらに、信号位置合わせユニットを含み得る。エンコーダ側は、信号位置合わせユニットを含まなくてよい。これは一例に過ぎず、本明細書において限定されるものではない。

【0268】

仮想スピーカ信号生成ユニットによって出力された仮想スピーカ信号は、信号位置合わせユニットの入力として使用される。

【0269】

信号位置合わせユニットは、仮想スピーカ信号のチャネルを再調整して、チャネル間の相関関係を強化するとともにコアエンコーダの処理を容易にするように構成されている。

【0270】

信号位置合わせユニットによって出力された位置合わせされた仮想スピーカ信号は、コアエンコーダ処理ユニットの入力である。

【0271】

コアエンコーダ処理ユニットは、サイド情報及び位置合わせされた仮想スピーカ信号に対してコアエンコーダ処理を実行して、伝送ビットストリームを取得するように構成されている。

【0272】

コアエンコーダ処理は、限定されるものではないが、変換、量子化、心理音響モデル、及びビットストリーム生成等を含み、周波数領域チャネル又は時間領域チャネルを処理し得る。これは、本明細書において限定されるものではない。

【0273】

図９に示されたように、本願の本実施形態において提供されたデコーダ側は、コアデコーダ処理ユニット及びＨＯＡ信号再構築ユニットを含み得る。

【0274】

コアデコーダ処理ユニットは、伝送ビットストリームに対してコアデコーダ処理を実行し、仮想スピーカ信号を取得するように構成されている。

【0275】

エンコーダ側がビットストリームにおいてサイド情報を搬送する場合、デコーダ側はさらに、サイド情報復号ユニットを含む必要がある。これは、本明細書において限定されるものではない。

【0276】

サイド情報復号ユニットは、コアデコーダ処理ユニットによって出力された復号サイド情報を復号し、復号されたサイド情報を取得するように構成されている。

【0277】

コアデコーダ処理は、変換、ビットストリーム解析、及び量子化解除等を含み得、周波数領域チャネル又は時間領域チャネルを処理し得る。これは、本明細書において限定されるものではない。

【0278】

コアデコーダ処理ユニットによって出力された仮想スピーカ信号はＨＯＡ信号再構築ユニットの入力であり、コアデコーダ処理ユニットによって出力された復号サイド情報はサイド情報復号ユニットの入力である。

【0279】

サイド情報復号ユニットは、復号サイド情報をターゲット仮想スピーカのＨＯＡ係数に変換する。

【0280】

サイド情報復号ユニットによって出力されたターゲット仮想スピーカのＨＯＡ係数は、ＨＯＡ信号再構築ユニットの入力である。

【0281】

ＨＯＡ信号再構築ユニットは、仮想スピーカ信号及びターゲット仮想スピーカのＨＯＡ係数を使用することによって、ＨＯＡ信号を再構築するように構成されている。

【0282】

ターゲット仮想スピーカのＨＯＡ係数は、行列Ａ'によって表されている。行列Ａ'のサイズは（Ｍ×Ｃ）であり、Ａ'として示されている。Ｃはターゲット仮想スピーカの数であり、ＭはＮ次のＨＯＡ係数のチャネルの数である。仮想スピーカ信号は行列（Ｃ×Ｌ）を形成し、行列（Ｃ×Ｌ）はＷ'として示されており、Ｌは信号サンプリングポイントの数である。再構築されたＨＯＡ信号Ｈは、以下の計算式に従って取得される。
Ｈ＝Ａ'Ｗ'

【0283】

ＨＯＡ信号再構築ユニットによって出力された再構築されたＨＯＡ信号は、デコーダ側の出力である。

【0284】

本願の本実施形態において、エンコーダ側は、空間エンコーダを使用することで、より少ないチャネル、例えば、元の３次ＨＯＡ信号を使用することによって、元のＨＯＡ信号を表し得る。本願の本実施形態における空間エンコーダは、１６チャネルを４チャネルに圧縮して、主観的な聴力に明らかな差がないことを保証し得る。主観的な聴力テストは、オーディオの符号化及び復号における評価基準であり、明らかな差がないということは、主観的な評価の或るレベルである。

【0285】

本願のいくつかの他の実施形態において、エンコーダ側の仮想スピーカ選択ユニットは、仮想スピーカセットからターゲット仮想スピーカを選択するか、又は、指定された位置における仮想スピーカをターゲット仮想スピーカとして使用し得、仮想スピーカ信号生成ユニットは、各ターゲット仮想スピーカに対して投影を直接実行することで仮想スピーカ信号を取得する。

【0286】

前述の方式において、指定された位置における仮想スピーカは、ターゲット仮想スピーカとして使用される。これは仮想スピーカの選択処理を簡略化して、符号化及び復号の速度を向上させ得る。

【0287】

本願のいくつかの他の実施形態において、エンコーダ側は、信号位置合わせユニットを含まなくてよい。この場合、仮想スピーカ信号生成ユニットの出力は、コアエンコーダによって直接符号化される。前述の方式において、信号位置合わせ処理は低減し、エンコーダ側の複雑性も低減する。

【0288】

本願の本実施形態において、選択されたターゲット仮想スピーカは、ＨＯＡ信号の符号化及び復号に適用されるということが、前述の例示的な説明から分かり得る。本願の本実施形態において、ＨＯＡ信号の正確な音源位置決めが取得され得、再構築されたＨＯＡ信号の方向はより正確であり、符号化効率がより高くなり、デコーダ側の複雑性は非常に低い。これは、モバイル端末への適用に有益であり、符号化及び復号の性能を向上させ得る。

【0289】

前述した方法の実施形態は、説明を簡潔にするべく、一連の動作として表現されることに留意されたい。しかしながら、本願によると、一部の段階は他の順序で又は同時に実行されてもよいので、当業者であれば、本願は説明した動作順序に限定されないことを理解するべきである。本明細書において説明された実施形態は全て、例示的な実施形態に属し、関与する動作及びモジュールは、必ずしも本願により必要とされないことが、当業者によりさらに理解されたい。

【0290】

本願の実施形態の解決手段をより良く実装するために、下記にでは、当該解決手段を実装するための関連装置がさらに提供される。

【0291】

図１０を参照されたい。本願の実施形態において提供されたオーディオ符号化装置１０００は、取得モジュール１００１、信号生成モジュール１００２、及び符号化モジュール１００３を含み得、ここで
取得モジュールは、現在のシーンオーディオ信号に基づいて、予め設定された仮想スピーカセットから第１ターゲット仮想スピーカを選択するように構成されており；
信号生成モジュールは、現在のシーンオーディオ信号、及び第１ターゲット仮想スピーカの属性情報に基づいて、第１仮想スピーカ信号を生成するように構成されており；
符号化モジュールは、第１仮想スピーカ信号を符号化してビットストリームを取得するように構成されている。

【0292】

本願のいくつかの実施形態において、取得モジュールは、仮想スピーカセットに基づいて、現在のシーンオーディオ信号からメイン音場成分を取得すること；及び、メイン音場成分に基づいて、仮想スピーカセットから第１ターゲット仮想スピーカを選択することを行うように構成されている。

【0293】

本願のいくつかの実施形態において、取得モジュールは、メイン音場成分に基づいて、高次アンビソニックスＨＯＡ係数セットからメイン音場成分のＨＯＡ係数を選択すること、ここで、ＨＯＡ係数セットにおけるＨＯＡ係数は、仮想スピーカセットにおける仮想スピーカと１対１の対応関係にある；及び、メイン音場成分のＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、第１ターゲット仮想スピーカとして決定することを行うように構成されている。

【0294】

本願のいくつかの実施形態において、取得モジュールは、メイン音場成分に基づいて、第１ターゲット仮想スピーカの構成パラメータを取得すること；第１ターゲット仮想スピーカの構成パラメータに基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を生成すること；及び、第１ターゲット仮想スピーカのＨＯＡ係数に対応し且つ仮想スピーカセットにおける仮想スピーカを、ターゲット仮想スピーカとして決定することを行うように構成されている。

【0295】

本願のいくつかの実施形態において、取得モジュールは、オーディオエンコーダの構成情報に基づいて、仮想スピーカセットにおける複数の仮想スピーカの構成パラメータを決定すること；及び、メイン音場成分に基づいて、複数の仮想スピーカの構成パラメータから第１ターゲット仮想スピーカの構成パラメータを選択することを行うように構成されている。

【0296】

本願のいくつかの実施形態において、第１ターゲット仮想スピーカの構成パラメータは、第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報を含み；
取得モジュールは、第１ターゲット仮想スピーカの位置情報及びＨＯＡ次数情報に基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を決定するように構成されている。

【0297】

本願のいくつかの実施形態において、符号化モジュールはさらに、第１ターゲット仮想スピーカの属性情報を符号化して、符号化された属性情報をビットストリームに書き込むように構成されている。

【0298】

本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象のＨＯＡ信号を含み、第１ターゲット仮想スピーカの属性情報は第１ターゲット仮想スピーカのＨＯＡ係数を含み；
信号生成モジュールは、符号化対象のＨＯＡ信号及びＨＯＡ係数に対して線形結合を実行して、第１仮想スピーカ信号を取得するように構成されている。

【0299】

本願のいくつかの実施形態において、現在のシーンオーディオ信号は符号化対象の高次アンビソニックスＨＯＡ信号を含み、第１ターゲット仮想スピーカの属性情報は第１ターゲット仮想スピーカの位置情報を含み；
信号生成モジュールは、第１ターゲット仮想スピーカの位置情報に基づいて、第１ターゲット仮想スピーカのＨＯＡ係数を取得すること；及び、符号化対象のＨＯＡ信号、及びＨＯＡ係数に対して線形結合を実行して、第１仮想スピーカ信号を取得することを行うように構成されている。

【0300】

本願のいくつかの実施形態において、取得モジュールは、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
信号生成モジュールは、現在のシーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
符号化モジュールは、第２仮想スピーカ信号を符号化して、符号化された第２仮想スピーカ信号をビットストリームに書き込むように構成されている。

【0301】

本願のいくつかの実施形態において、信号生成モジュールは、第１仮想スピーカ信号及び第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、符号化モジュールは、位置合わせされた第２仮想スピーカ信号を符号化するように構成されており；
それに応じて、符号化モジュールは、位置合わせされた第１仮想スピーカ信号を符号化するように構成されている。

【0302】

本願のいくつかの実施形態において、取得モジュールは、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択するように構成されており；
信号生成モジュールは、現在のシーンオーディオ信号、及び第２ターゲット仮想スピーカの属性情報に基づいて、第２仮想スピーカ信号を生成するように構成されており；
それに応じて、符号化モジュールは、第１仮想スピーカ信号及び第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得すること、ここで、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示しており；ダウンミックスされた信号及びサイド情報を符号化することを行うように構成されている。

【0303】

本願のいくつかの実施形態において、信号生成モジュールは、第１仮想スピーカ信号及び第２仮想スピーカ信号に対して位置合わせ処理を実行して、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号を取得するように構成されており；
それに応じて、符号化モジュールは、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号に基づいて、ダウンミックスされた信号及びサイド情報を取得するように構成されており；
それに応じて、サイド情報は、位置合わせされた第１仮想スピーカ信号及び位置合わせされた第２仮想スピーカ信号の間の関係を示す。

【0304】

本願のいくつかの実施形態において、取得モジュールは：現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択する段階の前に、現在のシーンオーディオ信号の符号化レート及び／又は信号タイプ情報に基づいて、第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要があるかどうかを決定すること；及び、第１ターゲット仮想スピーカ以外のターゲット仮想スピーカが取得される必要がある場合、現在のシーンオーディオ信号に基づいて、仮想スピーカセットから第２ターゲット仮想スピーカを選択することを行うように構成されている。

【0305】

図１１を参照する。本願の実施形態において提供されたオーディオ復号装置１１００は、受信モジュール１１０１、復号モジュール１１０２、及び再構築モジュール１１０３を含み得、ここで
受信モジュールは、ビットストリームを受信するように構成されており；
復号モジュールは、ビットストリームを復号して、仮想スピーカ信号を取得するように構成されており；
再構築モジュールは、ターゲット仮想スピーカの属性情報、及び仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成されている。

【0306】

本願のいくつかの実施形態において、復号モジュールはさらに、ビットストリームを復号して、ターゲット仮想スピーカの属性情報を取得するように構成されている。

【0307】

本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの高次アンビソニックスＨＯＡ係数を含み；
再構築モジュールは、仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得するように構成されている。

【0308】

本願のいくつかの実施形態において、ターゲット仮想スピーカの属性情報は、ターゲット仮想スピーカの位置情報を含み；
再構築モジュールは、ターゲット仮想スピーカの位置情報に基づいてターゲット仮想スピーカのＨＯＡ係数を決定すること；及び
仮想スピーカ信号、及びターゲット仮想スピーカのＨＯＡ係数に対して合成処理を実行し、再構築されたシーンオーディオ信号を取得すること
を行うように構成されている。

【0309】

本願のいくつかの実施形態において、仮想スピーカ信号は、第１仮想スピーカ信号及び第２仮想スピーカ信号をダウンミックスすることによって取得されたダウンミックスされた信号であり、装置はさらに、信号補償モジュールを含み、ここで
復号モジュールは、ビットストリームを復号してサイド情報を取得するように構成されており、ここで、サイド情報は、第１仮想スピーカ信号及び第２仮想スピーカ信号の間の関係を示す；
信号補償モジュールは、サイド情報、及びダウンミックスされた信号に基づいて、第１仮想スピーカ信号及び第２仮想スピーカ信号を取得するように構成されており；
それに応じて、再構築モジュールは、ターゲット仮想スピーカの属性情報、第１仮想スピーカ信号、及び第２仮想スピーカ信号に基づいて、再構築されたシーンオーディオ信号を取得するように構成されている。

【0310】

装置のモジュール／ユニット間の情報などのコンテンツの交換、及びそれらの実行プロセスは、本願の方法の実施形態と同じ思想に基づいており、本願の方法の実施形態と同じ技術的効果を生み出すことに留意されたい。具体的な内容については、本願の方法の実施形態における前述の説明を参照されたい。詳細については本明細書で改めて説明しない。

【0311】

本願の実施形態はさらに、コンピュータ記憶媒体を提供する。コンピュータ記憶媒体は、プログラムを記憶し、プログラムは、前述の方法の実施形態において説明された一部又は全ての段階を実行する。

【0312】

以下では、本願の実施形態において提供された別のオーディオ符号化装置を説明する。
図１２を参照されたい。オーディオ符号化装置１２００は、
受信機１２０１、送信機１２０２、プロセッサ１２０３、及びメモリ１２０４を含む（オーディオ符号化装置１２００には１又は複数のプロセッサ１２０３が存在し得、１つのプロセッサは図１２において例として使用されている）。本願のいくつかの実施形態において、受信機１２０１、送信機１２０２、プロセッサ１２０３、及びメモリ１２０４は、バス又は別の方式を通じて接続され得る。図１２では、バスを通じた接続が例として使用されている。

【0313】

メモリ１２０４は、リードオンリメモリ及びランダムアクセスメモリを含み得、命令及びデータをプロセッサ１２０３に提供し得る。メモリ１２０４の一部は、不揮発性ランダムアクセスメモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ，ＮＶＲＡＭ）をさらに含み得る。メモリ１２０４は、オペレーティングシステム、操作命令、実行可能モジュール又はデータ構造体、又はそれらのサブセット、又はそれらの拡張セットを記憶する。操作命令は、様々な操作を実装するために使用される様々な操作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実装し、ハードウェアベースのタスクを処理する様々なシステムプログラムを含み得る。

【0314】

プロセッサ１２０３は、オーディオ符号化装置の操作を制御し、プロセッサ１２０３は、中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ，ＣＰＵ）とも称され得る。特定のアプリケーションにおいて、オーディオ符号化装置の構成要素は、バスシステムを通じて共に結合される。データバスに加えて、バスシステムはさらに、電力バス、制御バス、及びステータス信号バス等を含み得る。しかしながら、明確な説明のために、図における様々な種類のバスは、バスシステムと称される。

【0315】

本願の実施形態に開示された方法は、プロセッサ１２０３に適用されてもよく、又は、プロセッサ１２０３を使用することによって実装されてもよい。プロセッサ１２０３は、集積回路チップであってよく、信号処理能力を有する。実装中に、前述の方法の段階は、プロセッサ１２０３におけるハードウェア統合論理回路又はソフトウェアの形態の命令を使用することによって完了され得る。プロセッサ１２０３は、汎用プロセッサ、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，ＤＳＰ）、特定用途向け集積回路（ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ，ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ，ＦＰＧＡ）又は別のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタロジックデバイス、又は別個のハードウェアコンポーネントであり得る。プロセッサは、本願の実施形態において開示される方法、段階、及び論理ブロック図を実装又は実行してよい。汎用プロセッサは、マイクロプロセッサであってよく、又は、プロセッサは、任意の従来のプロセッサ等であってよい。本願の実施形態を参照して開示された方法の段階は、ハードウェア復号プロセッサによって直接実行及び完了されてもよく、又は、復号プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせを使用することによって実行及び完了されてもよい。ソフトウェアモジュールは、当該技術分野において成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、リードオンリメモリ、プログラマブルリードオンリメモリ、電気的消去可能プログラマブルメモリ、又はレジスタに位置され得る。記憶媒体は、メモリ１２０４に位置し、プロセッサ１２０３は、メモリ１２０４における情報を読み取り、プロセッサのハードウェア１２０３と共に、前述の方法における段階を完了する。

【0316】

受信機１２０１は、入力されたデジタル又は文字情報を受信して、オーディオ符号化装置の関連する設定及び機能制御に関連した信号入力を生成するように構成され得る。送信機１２０２は、ディスプレイスクリーンなどのディスプレイデバイスを含み得る。送信機１２０２は、デジタル又は文字情報を外部インタフェースを通じて出力するように構成され得る。

【0317】

本願の本実施形態において、プロセッサ１２０３は、図４に示された前述の実施形態におけるオーディオ符号化装置によって実行されるオーディオ符号化方法を実行するように構成されている。

【0318】

以下では、本願の実施形態において提供された別のオーディオ復号装置を説明する。図１３を参照されたい。オーディオ復号装置１３００は、
受信機１３０１、送信機１３０２、プロセッサ１３０３、及びメモリ１３０４を含む（オーディオ復号装置１３００には１又は複数のプロセッサ１３０３が存在し得、１つのプロセッサが図１３において例として使用されている）。本願のいくつかの実施形態において、受信機１３０１、送信機１３０２、プロセッサ１３０３、及びメモリ１３０４は、バス又は別の方式を通じて接続され得る。図１３では、バスを通じた接続が例として使用されている。

【0319】

メモリ１３０４は、リードオンリメモリ及びランダムアクセスメモリを含んでよく、命令及びデータをプロセッサ１３０３のために提供してよい。メモリ１３０４の一部は、ＮＶＲＡＭをさらに含み得る。メモリ１３０４は、オペレーティングシステム、操作命令、実行可能モジュール又はデータ構造体、又はそれらのサブセット、又はそれらの拡張セットを記憶する。操作命令は、様々な操作を実装するために使用される様々な操作命令を含み得る。オペレーティングシステムは、様々な基本サービスを実装し、ハードウェアベースのタスクを処理する様々なシステムプログラムを含み得る。

【0320】

プロセッサ１３０３は、オーディオ復号装置の操作を制御し、プロセッサ１３０３はＣＰＵとも称され得る。特定のアプリケーションにおいて、オーディオ復号装置の構成要素は、バスシステムを通じて共に結合される。データバスに加えて、バスシステムはさらに、電力バス、制御バス、及びステータス信号バス等を含み得る。しかしながら、明確な説明のために、図における様々な種類のバスは、バスシステムと称される。

【0321】

本願の実施形態に開示された方法は、プロセッサ１３０３に適用されてもよく、又は、プロセッサ１３０３を使用することによって実装されてもよい。プロセッサ１３０３は、集積回路チップであってよく、信号処理能力を有する。実装プロセスにおいて、前述の方法の段階が、プロセッサ１３０３内のハードウェアの集積論理回路を用いて、又はソフトウェアの形態の命令を用いて実装されてよい。前述のプロセッサ１３０３は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ又は別のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタロジックデバイス、又は別個のハードウェアコンポーネントであり得る。プロセッサは、本願の実施形態において開示される方法、段階、及び論理ブロック図を実装又は実行してよい。汎用プロセッサは、マイクロプロセッサであってよく、又は、プロセッサは、任意の従来のプロセッサ等であってよい。本願の実施形態を参照して開示された方法の段階は、ハードウェア復号プロセッサによって直接実行及び完了されてもよく、又は、復号プロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせを使用することによって実行及び完了されてもよい。ソフトウェアモジュールは、当該技術分野において成熟した記憶媒体、例えば、ランダムアクセスメモリ、フラッシュメモリ、リードオンリメモリ、プログラマブルリードオンリメモリ、電気的消去可能プログラマブルメモリ、又はレジスタに位置され得る。記憶媒体は、メモリ１３０４に位置し、プロセッサ１３０３は、メモリ１３０４における情報を読み取り、プロセッサにおけるハードウェア１３０３と共に、前述の方法における段階を完了する。

【0322】

本願の本実施形態において、プロセッサ１３０３は、図４に示された前述の実施形態におけるオーディオ復号装置によって実行されるオーディオ復号方法を実行するように構成されている。

【0323】

別の可能な設計において、オーディオ符号化装置又はオーディオ復号装置が端末におけるチップであるとき、チップは、処理ユニット及び通信ユニットを含む。処理ユニットは、例えば、プロセッサであり得、通信ユニットは、例えば、入力／出力インタフェース、ピン、又は回路であり得る。処理ユニットは、記憶ユニットに記憶されたコンピュータ実行可能命令を実行して、端末におけるチップが、第１態様の実装のうち任意の１つに係るオーディオ符号化方法又は第２態様の実装のうち任意の１つに係るオーディオ復号方法を実行することを可能にし得る。任意選択的に、記憶ユニットは、チップ内の記憶ユニットであり、例えば、レジスタ又はキャッシュである。代替的に、記憶ユニットは、端末内にあり且つチップの外部に位置した、例えば、リードオンリメモリ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ，ＲＯＭ）、静的情報及び命令を記憶し得る別の種類の静的記憶デバイス、又はランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ，ＲＡＭ）などの記憶ユニットであり得る。

【0324】

上記のプロセッサは、汎用中央処理装置、マイクロプロセッサ、ＡＳＩＣ、又は、第１態様又は第２態様における方法のプログラムの実行を制御するように構成された１又は複数の集積回路であり得る。

【0325】

これに加えて、説明した装置の実施形態は例に過ぎないことに留意されたい。
別個の部分として説明されているユニットは、物理的に別個のものであってもなくてもよい、且つ、ユニットとして表示されている部分は、物理的なユニットであってもなくてもよいし、１つの位置に位置されてもよいし、複数のネットワークユニットに分散されてもよい。これらのモジュールのいくつかの又は全てが実際の必要性に従って選択されることで、実施形態の解決手段の目的が達成され得る。加えて、本願によって提供された装置の実施形態の添付図面において、モジュール間の接続関係は、モジュールが互いに通信接続を有していることを示しており、これは、１又は複数の通信バス又は信号ケーブルとして具体的に実装され得る。

【0326】

前述の実装の説明に基づいて、当業者であれば、本願が、必要な汎用ハードウェア、又は、専用ハードウェア（専用集積回路、専用ＣＰＵ、専用メモリ、専用コンポーネント等を含む）に加えて、ソフトウェアによって実装され得ることを明確に理解し得る。通常、コンピュータプログラムによって実行され得るいずれの機能も、対応するハードウェアを用いることで容易に実装され得る。さらに、同一の機能を達成するために使用される具体的なハードウェア構造は、例えば、アナログ回路、デジタル回路、又は専用回路の形態など、様々な形態であり得る。しかしながら、本願については、大部分のケースにおいて、ソフトウェアプログラム実装がより良い実装である。そのような理解に基づいて、本質的に又は部分的に従来技術に寄与する本願の技術的解決手段は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、例えば、フロッピーディスク、ＵＳＢ、フラッシュドライブ、リムーバブルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスク、又はコンピュータの光ディスクなどの可読記憶媒体に記憶されており、コンピュータデバイス（パーソナルコンピュータ、サーバ、及びネットワークデバイス等であり得る）に、本願の実施形態において説明された方法を実行するように命令するためのいくつかの命令を含む。

【0327】

全て又は幾つの前述の実施形態は、ソフトウェア、ハードウェア、ファームウェア、又は、それらの任意の組み合わせを用いることによって実装され得る。ソフトウェアが実施形態を実装するために用いられる場合、実施形態の全部又は一部がコンピュータプログラム製品の形式で実装されてよい。

【0328】

コンピュータプログラム製品は、１又は複数のコンピュータ命令を含む。コンピュータプログラム命令がコンピュータに読み込まれて実行されるとき、本願の実施形態による手順又は機能の全部又は一部が生成される。コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又は他のプログラマブル装置であってよい。コンピュータ命令は、コンピュータ可読記憶媒体に記憶され得る、又は、コンピュータ可読記憶媒体から別のコンピュータ可読記憶媒体に伝送され得る。例えば、コンピュータ命令は、ウェブサイト、コンピュータ、サーバ又はデータセンタから別のウェブサイト、コンピュータ、サーバ又はデータセンタへ、有線（例えば、同軸ケーブル、光ファイバ又はデジタル加入者線（ＤＳＬ））又は無線（例えば、赤外線、電波又はマイクロ波）方式で伝送されてよい。コンピュータ可読記憶媒体は、コンピュータ、又は、１又は複数の使用可能な媒体を統合するサーバ又はデータセンタ等のデータ記憶デバイスによってアクセス可能な任意の使用可能な媒体であり得る。使用可能な媒体は、磁気媒体（例えば、フロッピーディスク、ハードディスク、又は磁気テープ）、光媒体（例えば、ＤＶＤ）、半導体媒体（例えば、ソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ、ＳＳＤ））などであってよい。

【図1】