(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-10
(45)【発行日】2024-07-19
(54)【発明の名称】マルチチャネルオーディオ信号符号化および復号方法および装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20240711BHJP
【FI】
G10L19/008 100
(21)【出願番号】P 2023502888
(86)(22)【出願日】2021-07-13
(86)【国際出願番号】 CN2021106101
(87)【国際公開番号】W WO2022012553
(87)【国際公開日】2022-01-20
【審査請求日】2023-02-22
(31)【優先権主張番号】202010699706.7
(32)【優先日】2020-07-17
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】503433420
【氏名又は名称】華為技術有限公司
【氏名又は名称原語表記】HUAWEI TECHNOLOGIES CO.,LTD.
【住所又は居所原語表記】Huawei Administration Building, Bantian, Longgang District, Shenzhen, Guangdong 518129, P.R. China
(74)【代理人】
【識別番号】100132481
【氏名又は名称】赤澤 克豪
(74)【代理人】
【識別番号】100115635
【氏名又は名称】窪田 郁大
(72)【発明者】
【氏名】王 智
(72)【発明者】
【氏名】丁 建策
(72)【発明者】
【氏名】夏 丙寅
(72)【発明者】
【氏名】王 ▲賓▼
(72)【発明者】
【氏名】王 ▲ジョー▼
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2020/007719(WO,A1)
【文献】特開2015-011076(JP,A)
【文献】特表2018-513402(JP,A)
【文献】特表2016-535316(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
マルチチャネルオーディオ信号符号化方法であって、
符号化されるべき第1のオーディオフレームを取得するステップであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、
相関値セットを取得するステップであって、前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ステップと、
前記相関値セットからM個の相関値を選択するステップであって、すべての前記M個の相関値は、前記相関値セットにおける前記M個の相関値以外の相関値よりも大きく、すべての前記M個の相関値は、ペアリングしきい値以上であり、Mは、指定された値以下の正の整数である、ステップと、
M個のチャネルペアセットを取得するステップであって、各チャネルペアセットは、前記M個の相関値に対応する1つまたは複数のチャネルペアを含み、前記チャネルペアセットが少なくとも2つのチャネルペアを含むとき、前記少なくとも2つのチャネルペアは同じチャネル信号を含まない、ステップと、
前記M個のチャネルペアセットからターゲットチャネルペアセットを決定するステップであって、前記ターゲットチャネルペアセットにおけるすべてのチャネルペアの相関値の合計は、前記M個のチャネルペアセットのものの中で最も大きい、ステップと、
前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するステップと
を含む、方法。
【請求項2】
前記M個のチャネルペアセットは、第1のチャネルペアセットを含み、M個のチャネルペアセットを取得する前記ステップは、前記第1のチャネルペアセットを取得するステップを含み、
前記第1のチャネルペアセットを取得する前記ステップは、
前記M個のチャネルペアにおける第1のチャネルペアを前記第1のチャネルペアセットに追加するステップであって、前記第1のチャネルペアは、前記M個のチャネルペアのいずれか1つである、ステップと、
前記複数のチャネルペアにおける関連するチャネルペア以外のチャネルペアが、相関値が前記ペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、前記チャネルペアを前記第1のチャネルペアセットに追加するステップであって、前記関連するチャネルペアは、前記第1のチャネルペアセットに追加された前記チャネルペアに含まれるチャネル信号のいずれか1つを含む、ステップと
を含む、請求項1に記載の方法。
【請求項3】
前記相関値セットからM個の相関値を選択する前記ステップは、
前記相関値セットからN個の相関値を選択するステップであって、すべての前記N個の相関値は、前記相関値セットにおける前記N個の相関値以外の相関値よりも大きく、Nは、前記指定された値である、ステップと、
前記N個の相関値から前記ペアリングしきい値以上の相関値を選択するステップであって、前記ペアリングしきい値以上の相関値の数量は、Mである、ステップと
を含む、請求項1または2に記載の方法。
【請求項4】
前記相関値は、正規化された値である、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記チャネルペアの前記相関値が前記ペアリングしきい値よりも小さいとき、前記チャネルペアの前記相関値は0に設定される、請求項1から4のいずれか一項に記載の方法。
【請求項6】
マルチチャネルオーディオ信号符号化方法であって、
符号化されるべき第1のオーディオフレームを取得するステップであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、
相関値セットを取得するステップであって、前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ステップと、
前記複数のチャネルペアに基づいて複数のチャネルペアセットを取得するステップであって、前記チャネルペアセットが少なくとも2つのチャネルペアを含むとき、前記少なくとも2つのチャネルペアは同じチャネル信号を含まない、ステップと、
前記相関値セットに基づいて、前記複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計を取得するステップと、
ターゲットチャネルペアセットを決定するステップであって、前記ターゲットチャネルペアセットにおけるすべてのチャネルペアの相関値の合計は、前記複数のチャネルペアセットのものの中で最も大きい、ステップと、
前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するステップと
を含む、方法。
【請求項7】
前記複数のチャネルペアに基づいて複数のチャネルペアセットを取得する前記ステップは、
前記複数のチャネルペアにおける無相関チャネルペア以外のチャネルペアに基づいて前記複数のチャネルペアセットを取得するステップを含み、前記無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい、請求項6に記載の方法。
【請求項8】
前記相関値は、正規化された値である、請求項6または7に記載の方法。
【請求項9】
前記チャネルペアの前記相関値
がペアリングしきい値よりも小さいとき、前記チャネルペアの前記相関値は0に設定される、請求項6から8のいずれか一項に記載の方法。
【請求項10】
マルチチャネルオーディオ信号符号化方法であって、
符号化されるべき第1のオーディオフレームを取得するステップであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、
前記第1のオーディオフレームの相関値セットを取得するステップであって、前記第1のオーディオフレームの前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ステップと、
第2のオーディオフレームの相関値セットを取得するステップであって、前記第2のオーディオフレームの前記相関値セットは、前記第2のオーディオフレームの複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示し、前記第2のオーディオフレームは、前記第1のオーディオフレームの先行フレームである、ステップと、
前記第1のオーディオフレームの前記相関値セットおよび前記第2のオーディオフレームの前記相関値セットに基づいて、前記第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定するステップと、
前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がある場合、請求項1から9のいずれか一項に記載の方法を使用することによって前記第1のオーディオフレームの前記ターゲットチャネルペアセットを取得し、前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するステップと、
前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がない場合、前記第1のオーディオフレームの前記ターゲットチャネルペアセットとして前記第2のオーディオフレームのターゲットチャネルペアセットを決定し、前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するステップと
を含む、方法。
【請求項11】
前記第1のオーディオフレームの前記相関値セットおよび前記第2のオーディオフレームの前記相関値セットに基づいて、前記第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定する前記ステップは、
前記第1のオーディオフレームの前記相関値セットおよび前記第2のオーディオフレームの前記相関値セットにおける同じチャネルペアに対応する相関値間の差の絶対値を計算するステップと、
前記複数のチャネルペアに対応する前記絶対値の合計を計算するステップと、
前記絶対値の前記合計が変化しきい値よりも小さいとき、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がないと決定するステップ、または
前記絶対値の前記合計が前記変化しきい値以上であるとき、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要があると決定するステップと
を含む、請求項10に記載の方法。
【請求項12】
マルチチャネルオーディオ信号符号化方法であって、
符号化されるべき第1のオーディオフレームを取得するステップであって、前記第1のオーディオフレームは、K個のチャネル信号を含み、Kは、5以上の整数である、ステップと、
Kがチャネル信号量しきい値よりも大きいとき、請求項1から5のいずれか一項に記載の方法を使用することによって前記第1のオーディオフレームを符号化するステップと、
Kが前記チャネル信号量しきい値以下であるとき、請求項6から9のいずれか一項に記載の方法を使用することによって前記第1のオーディオフレームを符号化するステップと
を含む、方法。
【請求項13】
符号化されるべき第1のオーディオフレームを取得することであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ことと、前記相関値セットからM個の相関値を選択することであって、すべての前記M個の相関値は、前記相関値セットにおける前記M個の相関値以外の相関値よりも大きく、すべての前記M個の相関値は、ペアリングしきい値以上であり、Mは、指定された値以下の正の整数である、ことと、M個のチャネルペアセットを取得することであって、各チャネルペアセットは、前記M個の相関値に対応するM個のチャネルペアのうちの少なくとも1つを含み、前記チャネルペアセットが少なくとも2つのチャネルペアを含むとき、前記少なくとも2つのチャネルペアは同じチャネル信号を含まない、こととを行うように構成された、取得モジュールと、
前記M個のチャネルペアセットからターゲットチャネルペアセットを決定するように構成された、決定モジュールであって、前記ターゲットチャネルペアセットにおけるすべてのチャネルペアの相関値の合計は、前記M個のチャネルペアセットのものの中で最も大きい、決定モジュールと、
前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するように構成された、符号化モジュールと
を備える、符号化装置。
【請求項14】
前記M個のチャネルペアセットは、第1のチャネルペアセットを含み、前記取得モジュールは、前記M個のチャネルペアにおける第1のチャネルペアを前記第1のチャネルペアセットに追加することであって、前記第1のチャネルペアは、前記M個のチャネルペアのいずれか1つである、ことと、前記複数のチャネルペアにおける関連するチャネルペア以外のチャネルペアが、相関値が前記ペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、前記チャネルペアを前記第1のチャネルペアセットに追加することであって、前記関連するチャネルペアは、前記第1のチャネルペアセットに追加された前記チャネルペアに含まれるチャネル信号のいずれか1つを含む、こととを行うよう
に構成される、請求項13に記載の装置。
【請求項15】
前記取得モジュールは、前記相関値セットからN個の相関値を選択することであって、すべての前記N個の相関値は、前記相関値セットにおける前記N個の相関値以外の相関値よりも大きく、Nは、前記指定された値である、ことと、前記N個の相関値から前記ペアリングしきい値以上の相関値を選択することであって、前記ペアリングしきい値以上の相関値の数量は、Mである、こととを行うよう
に構成される、請求項13または14に記載の装置。
【請求項16】
前記相関値は、正規化された値である、請求項13から15のいずれか一項に記載の装置。
【請求項17】
前記チャネルペアの前記相関値が前記ペアリングしきい値よりも小さいとき、前記チャネルペアの前記相関値は0に設定される、請求項13から16のいずれか一項に記載の装置。
【請求項18】
符号化されるべき第1のオーディオフレームを取得することであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ことと、前記複数のチャネルペアに基づいて複数のチャネルペアセットを取得することであって、前記チャネルペアセットが少なくとも2つのチャネルペアを含むとき、前記少なくとも2つのチャネルペアは同じチャネル信号を含まない、ことと、前記相関値セットに基づいて、前記複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計を取得することとを行うように構成された、取得モジュールと、
ターゲットチャネルペアセットを決定するように構成された、決定モジュールであって、前記ターゲットチャネルペアセットにおけるすべてのチャネルペアの相関値の合計は、前記複数のチャネルペアセットのものの中で最も大きい、決定モジュールと、
前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化するように構成された、符号化モジュールと
を備える、符号化装置。
【請求項19】
前記取得モジュールは、前記複数のチャネルペアにおける無相関チャネルペア以外のチャネルペアに基づいて前記複数のチャネルペアセットを取得するよう
に構成され、前記無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい、請求項18に記載の装置。
【請求項20】
前記相関値は、正規化された値である、請求項18または19に記載の装置。
【請求項21】
前記チャネルペアの前記相関値
がペアリングしきい値よりも小さいとき、前記チャネルペアの前記相関値は0に設定される、請求項18から20のいずれか一項に記載の装置。
【請求項22】
符号化されるべき第1のオーディオフレームを取得することであって、前記第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、前記第1のオーディオフレームの相関値セットを取得することであって、前記第1のオーディオフレームの前記相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示す、ことと、第2のオーディオフレームの相関値セットを取得することであって、前記第2のオーディオフレームの前記相関値セットは、前記第2のオーディオフレームの複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、前記第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、前記チャネルペアの相関値は、前記チャネルペアの前記2つのチャネル信号間の相関を示し、前記第2のオーディオフレームは、前記第1のオーディオフレームの先行フレームである、こととを行うように構成された、取得モジュールと、
前記第1のオーディオフレームの前記相関値セットおよび前記第2のオーディオフレームの前記相関値セットに基づいて、前記第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定することと、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がある場合、請求項1から9のいずれか一項に記載の方法を使用することによって前記第1のオーディオフレームの前記ターゲットチャネルペアセットを取得し、前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化することと、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がない場合、前記第1のオーディオフレームの前記ターゲットチャネルペアセットとして前記第2のオーディオフレームのターゲットチャネルペアセットを決定し、前記ターゲットチャネルペアセットに基づいて前記第1のオーディオフレームを符号化することとを行うように構成された、符号化モジュールと
を備える、符号化装置。
【請求項23】
前記符号化モジュールは、前記第1のオーディオフレームの前記相関値セットおよび前記第2のオーディオフレームの前記相関値セットにおける同じチャネルペアに対応する相関値間の差の絶対値を計算することと、前記複数のチャネルペアに対応する前記絶対値の合計を計算することと、前記絶対値の前記合計が変化しきい値よりも小さいとき、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要がないと決定すること、または前記絶対値の前記合計が前記変化しきい値以上であるとき、前記第1のオーディオフレームの前記ターゲットチャネルペアセットが再取得される必要があると決定することとを行うよう
に構成される、請求項22に記載の装置。
【請求項24】
符号化されるべき第1のオーディオフレームを取得するように構成された、取得モジュールであって、前記第1のオーディオフレームは、K個のチャネル信号を含み、Kは、5以上の整数である、取得モジュールと、
Kがチャネル信号量しきい値よりも大きいとき、請求項1から5のいずれか一項に記載の方法を使用することにより前記第1のオーディオフレームを符号化することと、Kが前記チャネル信号量しきい値以下であるとき、請求項6から9のいずれか一項に記載の方法を使用することにより前記第1のオーディオフレームを符号化することとを行うように構成された、符号化モジュールと
を備える、符号化装置。
【請求項25】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶するように構成された、メモリと
を備えるデバイスであって、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサは、請求項1から11のいずれか一項に記載の方法を実施することを可能にされる、デバイス。
【請求項26】
コンピュータプログラムを含むコンピュータ可読記憶媒体であって、前記コンピュータプログラムがコンピュータ上で実行されたとき、前記コンピュータは、請求項1から11のいずれか一項に記載の方法を実行することを可能にされる、コンピュータ可読記憶媒体。
【請求項27】
請求項1から11のいずれか一項に記載のマルチチャネルオーディオ信号符号化方法を使用することにより
取得される符号化されたビットストリームを
受信する通信インタフェースであって、前記符号化されたビットストリームはチャネル信号をペアリングするためのパラメータを含む、通信インタフェースと、
前記符号化されたビットストリームを記憶するコンピュータ可読記憶媒体
と、
前記符号化されたビットストリームから復号されたチャネル信号および前記パラメータを取得し、前記パラメータに基づいて前記復号されたチャネル信号をペアリングするように構成されるプロセッサと
を含む、デバイス。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、その全体が参照により本明細書に組み込まれる、2020年7月17日に中国国家知識産権局で出願された「MULTI-CHANNEL AUDIO SIGNAL ENCODING AND DECODING METHOD AND APPARATUS」と題する中国特許出願第202010699706.7号の優先権を主張する。
【0002】
本出願は、オーディオ処理技術に関し、詳細には、マルチチャネルオーディオ信号符号化および復号方法および装置に関する。
【背景技術】
【0003】
マルチチャネルオーディオ符号化および復号は、少なくとも2つのチャネルを含むオーディオを符号化または復号する技術である。通例のマルチチャネルオーディオは、5.1チャネルオーディオ、7.1チャネルオーディオ、7.1.4チャネルオーディオ、22.2チャネルオーディオなどを含む。
【0004】
MPEGサラウンド(MPEG surround,MPS)規格は、4つのチャネルのためのジョイント符号化を規定する。しかしながら、それは、上記のマルチチャネルオーディオ信号のための符号化および復号方法を依然として必要とする。
【発明の概要】
【0005】
本出願は、チャネル信号間の冗長性を低減し、オーディオ符号化効率を改善するための、マルチチャネルオーディオ信号符号化および復号方法および装置を提供する。
【0006】
第1の態様によれば、本出願は、マルチチャネルオーディオ信号符号化方法を提供する。方法は、符号化されるべき第1のオーディオフレームを取得するステップであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、相関値セットを取得するステップであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ステップと、相関値セットからM個の相関値を選択するステップであって、すべてのM個の相関値は、相関値セット中のM個の相関値以外の相関値よりも大きく、すべてのM個の相関値は、ペアリングしきい値以上であり、Mは、指定された値以下の正の整数である、ステップと、M個のチャネルペアセットを取得するステップであって、各チャネルペアセットは、M個の相関値に対応するM個のチャネルペアのうちの少なくとも1つを含み、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、ステップと、M個のチャネルペアセットからターゲットチャネルペアセットを決定するステップであって、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、M個のチャネルペアセットのものの中で最も大きい、ステップと、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するステップとを含む。
【0007】
この実施形態における第1のオーディオフレームは、符号化されるべきマルチチャネルオーディオ信号中のどんなフレームであってもよく、第1のオーディオフレームは、5つ以上のチャネル信号を含む。2つの高度に相関するチャネル信号を符号化することにより、冗長性を低減することができ、符号化効率を改善することができる。したがって、この実施形態では、ペアリングは、2つのチャネル信号間の相関値に基づいて決定される。相関ができる限り最も高いチャネルペアセットを見つけるために、第1のオーディオフレーム中の少なくとも5つのチャネル信号のうちのあらゆる2つの間の相関値を計算して、第1のオーディオフレームの相関値セットを取得し得る。たとえば、5つのチャネル信号のために、合計10個のチャネルペアが形成されてよく、対応して、相関値セットは10個の相関値を含み得る。この実施形態では、相関値セットに含まれるすべての相関値は降順でソートされてよく、最上位にランク付けされる最初のM個の相関値が相関値から選択される。M個の相関値は、ペアリングしきい値以上である必要がある。この理由は、相関値がペアリングしきい値よりも小さいことが、相関値に対応するチャネルペアにおける2つのチャネル信号間の相関が低いことを示し、符号化のためにこれら2つのチャネル信号をペアリングする必要はないからである。符号化効率を改善するために、ペアリングしきい値以上であるすべての相関値を選択する必要はない。したがって、Mの上限Nが設定され、言い換えれば、最大でN個の相関値が選択される。
【0008】
この実施形態では、複数のチャネルペアセットの相関値の合計ができる限り取得され、次いで、相関値の合計が最も大きいチャネルペアセットが、ターゲットチャネルペアセットとして決定される。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0009】
可能な実装では、M個のチャネルペアセットは、第1のチャネルペアセットを含む。M個のチャネルペアセットを取得するステップは、第1のチャネルペアセットを取得するステップを含む。第1のチャネルペアセットを取得するステップは、M個のチャネルペア中の第1のチャネルペアを第1のチャネルペアセットに追加するステップであって、第1のチャネルペアは、M個のチャネルペアのいずれか1つである、ステップと、複数のチャネルペア中の関連するチャネルペア以外のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、このチャネルペアを第1のチャネルペアセットに追加するステップであって、関連するチャネルペアは、第1のチャネルペアセットに追加されたチャネルペアに含まれるチャネル信号のいずれか1つを含む、ステップとを含む。
【0010】
複数のチャネルペアにおいて、より大きい相関値をもつ複数のチャネルペアは、チャネルペアセットに追加された第1のチャネルペアとして別々に使用され、次いで、残りのチャネルペア中の最も大きい相関値に対応するチャネルペアは、対応するチャネルペアセットに追加されるために選択される。複数のチャネルペアセットの相関値の合計ができる限り取得され、次いで、相関値の合計が最も大きいチャネルペアセットは、ターゲットチャネルペアセットとして決定される。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0011】
可能な実装では、相関値セットからM個の相関値を選択するステップは、相関値セットからN個の相関値を選択するステップであって、すべてのN個の相関値は、相関値セット中のN個の相関値以外の相関値よりも大きく、Nは、指定された値である、ステップと、N個の相関値からペアリングしきい値以上の相関値を選択するステップであって、ペアリングしきい値以上の相関値の数量は、Mである、ステップとを含む。
【0012】
M個の相関値は、ペアリングしきい値以上であり、Mは、指定された値(たとえば、N)以下の正の整数である。この実施形態では、相関値セットに含まれるすべての相関値は降順でソートされてよく、最上位にランク付けされる最初のN個の相関値が相関値から選択され、N個の相関値は、ペアリングしきい値よりも小さい相関値を有し得る。したがって、ペアリングしきい値以上であるM個の相関値が、N個の相関値から選択される。この理由は、相関値がペアリングしきい値よりも小さいことが、相関値に対応するチャネルペアにおける2つのチャネル信号間の相関が低いことを示し、符号化のためにこれら2つのチャネル信号をペアリングする必要はないからである。
【0013】
可能な実装では、相関値は、正規化された値である。
【0014】
正規化処理は、動作効率を改善するために、大幅に異なる値範囲をもつ相関値を、比較および処理のために一元化された範囲中に含め得る。
【0015】
可能な実装では、チャネルペアの相関値がペアリングしきい値よりも小さいとき、チャネルペアの相関値は0に設定される。
【0016】
より小さい相関値は、相関値に対応する2つのチャネル信号間の相関が小さいことを示し、これら2つのチャネル信号をペアリングする必要はない。したがって、この場合、後続の計算を容易にし、動作効率を改善するために、2つのチャネル信号の相関値は0に設定される。
【0017】
第2の態様によれば、本出願は、マルチチャネルオーディオ信号符号化方法を提供する。方法は、符号化されるべき第1のオーディオフレームを取得するステップであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、相関値セットを取得するステップであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ステップと、複数のチャネルペアに基づいて複数のチャネルペアセットを取得するステップであって、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、ステップと、相関値セットに基づいて、複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計を取得するステップと、ターゲットチャネルペアセットを決定するステップであって、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、複数のチャネルペアセットのものの中で最も大きい、ステップと、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するステップとを含む。
【0018】
複数のチャネルペアセットの相関値の合計ができる限り取得され、次いで、相関値の合計が最も大きいチャネルペアセットは、ターゲットチャネルペアセットとして決定される。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0019】
可能な実装では、複数のチャネルペアに基づいて複数のチャネルペアセットを取得するステップは、複数のチャネルペア中の無相関チャネルペア以外のチャネルペアに基づいて複数のチャネルペアセットを取得するステップを含み、無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい。
【0020】
より小さい相関値は、相関値に対応する2つのチャネル信号間の相関が小さいことを示し、これら2つのチャネル信号をペアリングする必要はない。したがって、この場合、2つのチャネル信号の相関値および2つのチャネル信号のチャネルペアを削除することにより、後続の計算量を低減し、動作効率を改善することができる。
【0021】
可能な実装では、相関値は、正規化された値である。
【0022】
正規化処理は、動作効率を改善するために、大幅に異なる値範囲をもつ相関値を、比較および処理のために一元化された範囲中に含め得る。
【0023】
可能な実装では、チャネルペアの相関値がペアリングしきい値よりも小さいとき、チャネルペアの相関値は0に設定される。
【0024】
より小さい相関値は、相関値に対応する2つのチャネル信号間の相関が小さいことを示し、これら2つのチャネル信号をペアリングする必要はない。したがって、この場合、後続の計算を容易にし、動作効率を改善するために、2つのチャネル信号の相関値は0に設定される。
【0025】
第3の態様によれば、本出願は、マルチチャネルオーディオ信号符号化方法を提供する。方法は、符号化されるべき第1のオーディオフレームを取得するステップであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ステップと、第1のオーディオフレームの相関値セットを取得するステップであって、第1のオーディオフレームの相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ステップと、第2のオーディオフレームの相関値セットを取得するステップであって、第2のオーディオフレームの相関値セットは、第2のオーディオフレームの複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示し、第2のオーディオフレームは、第1のオーディオフレームの先行フレームである、ステップと、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セットに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定するステップと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がある場合、第1の態様または第2の態様の任意の実装による方法を使用することによって第1のオーディオフレームのターゲットチャネルペアセットを取得し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するステップと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がない場合、第1のオーディオフレームのターゲットチャネルペアセットとして第2のオーディオフレームのターゲットチャネルペアセットを決定し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するステップとを含む。
【0026】
現在オーディオフレームの相関値セットと先行オーディオフレームの相関値セットとの間の差の合計を取得して、現在フレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定し、それにより、オーディオ変化が小さいとき、計算量を大幅に低減し、符号化効率を改善することができる。オーディオ変化が大きく、ターゲットチャネルペアセットが再取得される必要がある場合であっても、複数のチャネルペアセットの相関値の合計を依然としてできる限り取得して、ターゲットチャネルペアセットとして相関値の合計が最も大きいチャネルペアセットを決定し得る。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0027】
可能な実装では、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セットに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定するステップは、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セット中の同じチャネルペアに対応する相関値間の差の絶対値を計算するステップと、複数のチャネルペアに対応する絶対値の合計を計算するステップと、絶対値の合計が変化しきい値よりも小さいとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がないと決定するステップ、または絶対値の合計が変化しきい値以上であるとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があると決定するステップとを含む。変化しきい値は、たとえば、α×チャネルペアの数量であり得る。αの値は、0.14または0.15であってよく、チャネルペアの数量は、第1のオーディオフレームの相関値セット(または第2のオーディオフレームの相関値セット)に含まれるチャネルペアの数量を意味する。
【0028】
第4の態様によれば、本出願は、マルチチャネルオーディオ信号符号化方法を提供する。方法は、符号化されるべき第1のオーディオフレームを取得するステップであって、第1のオーディオフレームは、K個のチャネル信号を含み、Kは、5以上の整数である、ステップと、Kがチャネル信号量しきい値よりも大きいとき、第1の態様の任意の実装による方法を使用することによって第1のオーディオフレームを符号化するステップと、Kがチャネル信号量しきい値以下であるとき、第2の態様の任意の実装による方法を使用することによって第1のオーディオフレームを符号化するステップとを含む。チャネル信号量しきい値は、たとえば、5、6、または7であってよい。
【0029】
本出願におけるこの方法と、第1の態様または第2の態様における方法との間の違いは、第1の態様における方法と第2の態様における方法とが一緒に使用されることであり、言い換えれば、第1のオーディオフレームのターゲットチャネルペアセットを取得するために使用される方法は、第1のオーディオフレームに含まれるチャネル信号の数量に基づいて決定される。第1のオーディオフレームが大量のチャネル信号を含むとき、第2の態様における方法が使用された場合、すべてのターゲットチャネルペアセットが網羅的にリストされる必要があり、それにより、計算量が増加する。したがって、この場合、第1の態様における方法が使用されたとき、多くの計算量が低減される。第1のオーディオフレームが少量のチャネル信号を含むとき、すべてのチャネルペアセットの相関値の合計は、第2の態様における方法を使用することによって取得されてよく、それにより、最終的に選択されたターゲットチャネルペアセットは、第1のオーディオフレームの特徴を最も良く満たす最適な結果に確実になることが保証される。
【0030】
第5の態様によれば、本出願は、符号化装置を提供する。符号化装置は、取得モジュールであって、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、相関値セットからM個の相関値を選択することであって、すべてのM個の相関値は、相関値セット中のM個の相関値以外の相関値よりも大きく、すべてのM個の相関値は、ペアリングしきい値以上であり、Mは、指定された値以下の正の整数である、ことと、M個のチャネルペアセットを取得することであって、各チャネルペアセットは、M個の相関値に対応するM個のチャネルペアのうちの少なくとも1つを含み、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、こととを行うように構成された、取得モジュールと、M個のチャネルペアセットからターゲットチャネルペアセットを決定するように構成された、決定モジュールであって、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、M個のチャネルペアセットのものの中で最も大きい、決定モジュールと、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するように構成された、符号化モジュールとを含む。
【0031】
可能な実装では、M個のチャネルペアセットは、第1のチャネルペアセットを含む。取得モジュールは、M個のチャネルペア中の第1のチャネルペアを第1のチャネルペアセットに追加することであって、第1のチャネルペアは、M個のチャネルペアのいずれか1つである、ことと、複数のチャネルペア中の関連するチャネルペア以外のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、このチャネルペアを第1のチャネルペアセットに追加することであって、関連するチャネルペアは、第1のチャネルペアセットに追加されたチャネルペアに含まれるチャネル信号のいずれか1つを含む、こととを行うように特に構成される。
【0032】
可能な実装では、取得モジュールは、相関値セットからN個の相関値を選択することであって、すべてのN個の相関値は、相関値セット中のN個の相関値以外の相関値よりも大きく、Nは、指定された値である、ことと、N個の相関値からペアリングしきい値以上の相関値を選択することであって、ペアリングしきい値以上の相関値の数量は、Mである、こととを行うように特に構成される。
【0033】
可能な実装では、相関値は、正規化された値である。
【0034】
可能な実装では、チャネルペアの相関値がペアリングしきい値よりも小さいとき、チャネルペアの相関値は0に設定される。
【0035】
第6の態様によれば、本出願は、符号化装置を提供する。符号化装置は、取得モジュールであって、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、複数のチャネルペアに基づいて複数のチャネルペアセットを取得することであって、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、ことと、相関値セットに基づいて、複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計を取得することとを行うように構成された、取得モジュールと、ターゲットチャネルペアセットを決定するように構成された、決定モジュールであって、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、複数のチャネルペアセットのものの中で最も大きい、決定モジュールと、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するように構成された、符号化モジュールとを含む。
【0036】
可能な実装では、取得モジュールは、複数のチャネルペア中の無相関チャネルペア以外のチャネルペアに基づいて複数のチャネルペアセットを取得するように特に構成され、無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい。
【0037】
可能な実装では、相関値は、正規化された値である。
【0038】
可能な実装では、チャネルペアの相関値がペアリングしきい値よりも小さいとき、チャネルペアの相関値は0に設定される。
【0039】
第7の態様によれば、本出願は、符号化装置を提供する。符号化装置は、取得モジュールであって、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、第1のオーディオフレームの相関値セットを取得することであって、第1のオーディオフレームの相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、第2のオーディオフレームの相関値セットを取得することであって、第2のオーディオフレームの相関値セットは、第2のオーディオフレームの複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示し、第2のオーディオフレームは、第1のオーディオフレームの先行フレームである、こととを行うように構成された取得モジュールと、符号化モジュールであって、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セットに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定することと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がある場合、第1および第2の態様の任意の実装による方法を使用することによって第1のオーディオフレームのターゲットチャネルペアセットを取得し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化することと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がない場合、第1のオーディオフレームのターゲットチャネルペアセットとして第2のオーディオフレームのターゲットチャネルペアセットを決定し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化することとを行うように構成された符号化モジュールとを含む。
【0040】
可能な実装では、符号化モジュールは、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セット中の同じチャネルペアに対応する相関値間の差の絶対値を計算することと、複数のチャネルペアに対応する絶対値の合計を計算することと、絶対値の合計が変化しきい値よりも小さいとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がないと決定すること、または絶対値の合計が変化しきい値以上であるとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があると決定することとを行うように特に構成される。
【0041】
第8の態様によれば、本出願は、符号化装置を提供する。符号化装置は、符号化されるべき第1のオーディオフレームを取得するように構成された、取得モジュールであって、第1のオーディオフレームは、K個のチャネル信号を含み、Kは、5以上の整数である、取得モジュールと、符号化モジュールであって、Kがチャネル信号量しきい値よりも大きいとき、第1の態様の任意の実装による方法を実施して第1のオーディオフレームを符号化することと、Kがチャネル信号量しきい値以下であるとき、第2の態様の任意の実装による方法を実施して第1のオーディオフレームを符号化することとを行うように構成された、符号化モジュールとを含む。
【0042】
第9の態様によれば、本出願は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するように構成された、メモリとを含む、デバイスを提供する。1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されたとき、1つまたは複数のプロセッサは、第1から第4の態様の任意の実装による方法を実装することを可能にされる。
【0043】
第10の態様によれば、本出願は、コンピュータプログラムを含むコンピュータ可読記憶媒体を提供する。コンピュータプログラムがコンピュータ上で実行されたとき、コンピュータは、第1から第4の態様の任意の実装による方法を実施することを可能にされる。
【0044】
第11の態様によれば、本出願は、コンピュータ可読記憶媒体を提供し、コンピュータ可読記憶媒体は、第1から第4の態様の任意の実装によるマルチチャネルオーディオ信号符号化方法に基づいて取得される、符号化されたビットストリームを含む。
【図面の簡単な説明】
【0045】
【
図1】本出願が適用されるオーディオコーディングシステム10の概略ブロック図の例である。
【
図2】本出願が適用されるオーディオコーディングデバイス200の概略ブロック図の例である。
【
図3】本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。
【
図4】本出願に従ってマルチチャネルオーディオ信号符号化方法が適用される符号化装置の構造の例示的な図である。
【
図5】本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。
【
図6】本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。
【
図7】本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。
【
図8】本出願に従ってマルチチャネルオーディオ信号復号方法が適用される復号装置の構造の例示的な図である。
【
図9】本出願の実施形態による符号化装置の構造の概略図である。
【
図10】本出願の実施形態によるデバイスの構造の概略図である。
【発明を実施するための形態】
【0046】
本出願の目的、技術的解決策、および利点をより明確にするために、以下で、本出願における添付の図面を参照しながら本出願の技術的解決策について明確かつ完全に説明する。説明される実施形態は、本出願の実施形態のすべてではなく、一部にすぎないことが明らかである。創造的な努力なしに本出願の実施形態に基づいて当業者によって取得されるすべての他の実施形態は、本出願の保護範囲内に入るものとする。
【0047】
本出願の明細書、実施形態、特許請求の範囲、および添付の図面では、「第1の」、「第2の」などの用語は、区別および説明のために意図されているにすぎず、相対的重要度の表示もしくは暗示または順序の表示もしくは暗示として理解されるべきではない。加えて、「含む」、「有する」という用語、およびそれらの任意の変形態は、非排他的な包含をカバーすること、たとえば、一連のステップまたはユニットを含むことを意図されている。方法、システム、製品、またはデバイスは、文字通りリストされたそれらのステップまたはユニットに必ずしも限定されるわけではなく、文字通りリストされていない他のステップもしくはユニット、またはそのような処理、方法、製品、デバイスに固有の他のステップもしくはユニットを含み得る。
【0048】
本出願では、「少なくとも1つの(項目)」は、1つまたは複数を意味し、「複数の」は、2つ以上を意味することを理解されたい。「および/または」は、関連する対象間の関連付け関係を記述するために使用され、3つの関係が存在し得ることを示す。たとえば、「Aおよび/またはB」は、Aのみが存在すること、Bのみが存在すること、およびAとBの両方が存在することを示し得る。本明細書では、AまたはBは単数または複数であり得る。「/」という文字は、通常、関連する対象間の「または」関係を示す。加えて、「以下の項目(部品)のうちの少なくとも1つ」またはそれの同様の表現は、単一の項目(部品)、または複数の項目(部品)の任意の組合せを含む、これらの項目の任意の組合せを示す。たとえば、a、b、またはcのうちの少なくとも1つは、a、b、c、aおよびb、aおよびc、bおよびc、またはa、b、およびcを示し得、a、b、およびcは単数または複数であり得る。
【0049】
本出願における関係する用語の説明は以下の通りである。
【0050】
オーディオフレーム:オーディオデータはストリーム形式になっている。実際の適用例では、オーディオ処理および送信を容易にするために、1つの持続時間内のオーディオデータ量は、通常、オーディオのフレームとして選択される。この持続時間は「サンプリング時間期間」と呼ばれ、持続時間の値は、コーデックおよび特定の適用例の要件、たとえば、2.5msから60msまでの持続時間範囲に基づいて決定されてよく、ここで、msはミリ秒である。
【0051】
オーディオ信号:オーディオ信号は、音声、音楽、および音効果を伴う通常の音波の周波数および振幅変化情報キャリアである。オーディオは、連続的に変化するアナログ信号であり、連続曲線によって表され、音波と呼ばれ得る。アナログデジタルコンバージョンを通してまたはコンピュータを使用することによってオーディオから生成されたデジタル信号は、オーディオ信号である。音波は、オーディオ信号の特性を決定する、周波数、振幅、および位相という、3つの重要なパラメータを有する。
【0052】
チャネル信号は、音記録または再生中に様々な空間位置において収集または再生される、独立したオーディオ信号である。したがって、チャネルの数量は、オーディオ記録中に使用されるオーディオソースの数量、またはオーディオ再生のために使用されるラウドスピーカーの数量である。
【0053】
以下は、本出願が適用されるシステムアーキテクチャである。
【0054】
図1は、本出願が適用されるオーディオコーディングシステム10の概略ブロック図の例である。
図1に示されているように、オーディオコーディングシステム10は、ソースデバイス12および宛先デバイス14を含み得る。ソースデバイス12は、符号化されたビットストリームを生成する。したがって、ソースデバイス12はオーディオ符号化装置と呼ばれることがある。宛先デバイス14は、ソースデバイス12によって生成された、符号化されたビットストリームを復号し得る。したがって、宛先デバイス14はオーディオ復号装置と呼ばれることがある。
【0055】
ソースデバイス12は、エンコーダ20を含み、任意選択で、オーディオソース16、オーディオプリプロセッサ18、および通信インターフェース22を含み得る。
【0056】
オーディオソース16は、現実世界のスピーチ、音楽、音効果などをキャプチャするように構成された任意のタイプのオーディオキャプチャデバイス、および/またはスピーチ、音楽、および音効果を生成するように構成された任意のタイプのオーディオ生成デバイス、たとえば、オーディオプロセッサもしくはデバイスを含み得るか、またはそれらであり得る。オーディオソースは、上記のオーディオを記憶する任意のタイプのメモリまたはストレージであり得る。
【0057】
オーディオプリプロセッサ18は、(元の)オーディオデータ17を受信し、オーディオデータ17を前処理して、前処理されたオーディオデータ19を取得するように構成される。たとえば、オーディオプリプロセッサ18によって実施される前処理は、プルーニングまたはノイズ低減を含み得る。オーディオプリプロセッサ18は任意選択の構成要素であり得ることが理解されよう。
【0058】
エンコーダ20は、前処理されたオーディオデータ19を受信し、符号化されたオーディオデータ21を提供するように構成される。
【0059】
ソースデバイス12中の通信インターフェース22は、符号化されたオーディオデータ21を受信し、符号化されたオーディオデータ21を、通信チャネル13を通して宛先デバイス14に送って、符号化されたオーディオデータ21を記憶するかまたは直接再構築するように構成され得る。
【0060】
宛先デバイス14は、デコーダ30を含み、任意選択で、通信インターフェース28、オーディオポストプロセッサ32、および再生デバイス34を含み得る。
【0061】
宛先デバイス14中の通信インターフェース28は、ソースデバイス12から、符号化されたオーディオデータ21を直接受信し、符号化されたオーディオデータ21をデコーダ30に提供するように構成される。
【0062】
通信インターフェース22および通信インターフェース28は、符号化されたオーディオデータ21を送るかまたは受信するために、ソースデバイス12と宛先デバイス14との間の直接通信リンク、たとえば、直接ワイヤードもしくはワイヤレス接続を使用するか、または任意のタイプのネットワーク、たとえば、ワイヤードネットワーク、ワイヤレスネットワーク、もしくはそれらの任意の組合せ、任意のタイプのプライベートネットワークおよび公衆ネットワーク、もしくはそれらの任意のタイプの組合せを使用するように構成され得る。
【0063】
たとえば、通信インターフェース22は、符号化されたオーディオデータ21をパケットなどの好適なフォーマットにカプセル化し、および/または符号化されたオーディオデータ21を、任意のタイプの送信符号化または処理を通して処理して、通信リンクまたは通信ネットワーク上で送信されるように構成され得る。
【0064】
通信インターフェース28は通信インターフェース22に対応する。たとえば、通信インターフェース28は、送信されたデータを受信し、送信されたデータを、任意のタイプの対応する送信復号または処理および/またはカプセル化解除を通して処理して、符号化されたオーディオデータ21を取得するように構成され得る。
【0065】
通信インターフェース22および通信インターフェース28は各々、対応する通信チャネル13の矢印であって、
図1のソースデバイス12から宛先デバイス14に指す矢印によって示されている、単方向通信インターフェースまたは双方向通信インターフェースとして構成されてよく、接続を確立し、通信リンクおよび/または符号化されたオーディオデータなどのデータ送信に関係する任意の他の情報を確認および交換するためのメッセージなどを送り受信するように構成され得る。
【0066】
デコーダ30は、符号化されたオーディオデータ21を受信し、復号されたオーディオデータ31を提供するように構成される。
【0067】
オーディオポストプロセッサ32は、復号されたオーディオデータ31に対して後処理を実施して、後処理されたオーディオデータ33を取得するように構成される。オーディオポストプロセッサ32によって実施される後処理は、たとえば、プルーニングまたはリサンプリングを含み得る。
【0068】
再生デバイス34は、後処理されたオーディオデータ33を受信して、ユーザまたはリスナーに対してオーディオを再生するように構成される。再生デバイス34は、再構築されたオーディオを再生するように構成された任意のタイプのプレーヤ、たとえば、内蔵または外部ラウドスピーカーであるか、またはそれらを含み得る。たとえば、ラウドスピーカーは、ホーン、スピーカーなどを含み得る。
【0069】
図2は、本出願が適用されるオーディオコーディングデバイス200の概略ブロック図の例である。実施形態では、オーディオコーディングデバイス200は、オーディオデコーダ(たとえば、
図1のデコーダ30)またはオーディオエンコーダ(たとえば、
図1のエンコーダ20)であり得る。
【0070】
オーディオコーディングデバイス200は、データを受信するための入口ポート210および受信ユニット(Rx)220と、データを処理するためのプロセッサ、論理ユニット、または中央処理ユニット230と、データを送信するための送信ユニット(Tx)240および出口ポート250と、データを記憶するためのメモリ260とを含む。オーディオコーディングデバイス200は、入口ポート210、受信ユニット220、送信ユニット240、および出口ポート250に結合された、光電気コンバージョン構成要素および電気光(EO)構成要素をさらに含み得る。これらの構成要素は、光信号または電気信号の入口ポートまたは出口ポートとして構成される。
【0071】
プロセッサ230は、ハードウェアおよびソフトウェアを通して実装される。プロセッサ230は、1つまたは複数のCPUチップ、コア(たとえば、マルチコアプロセッサ)、FPGA、ASIC、およびDSPとして実装され得る。プロセッサ230は、入口ポート210、受信ユニット220、送信ユニット240、出口ポート250、およびメモリ260と通信する。プロセッサ230は、コーディングモジュール270(たとえば、符号化モジュールまたは復号モジュール)を含む。コーディングモジュール270は、本出願で開示される実施形態を実装して、本出願で提供されるマルチチャネルオーディオ信号符号化および復号方法を実装する。たとえば、コーディングモジュール270は、様々な符号化動作を実装、処理、または提供する。したがって、コーディングモジュール270は、オーディオコーディングデバイス200の機能を大幅に改善し、異なる状態へのオーディオコーディングデバイス200のコンバージョンに影響を及ぼす。代替として、コーディングモジュール270は、メモリ260に記憶されプロセッサ230によって実行される命令を使用することによって実装される。
【0072】
メモリ260は、1つまたは複数のディスク、テープドライブ、およびソリッドステートドライブを含み、オーバーフローデータ記憶デバイスとして使用して、プログラムが実行のために選択されたときにそのようなプログラムを記憶し、プログラム実行中に読み取られた命令およびデータを記憶し得る。メモリ260は、揮発性および/または不揮発性であり得、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、ランダムアクセスメモリ(3値コンテンツアドレス可能メモリ、TCAM)、および/またはスタティックランダムアクセスメモリ(SRAM)であり得る。
【0073】
上記の実施形態の説明に基づいて、本出願は、マルチチャネルオーディオ信号符号化および復号方法を提供する。
【0074】
図3は、本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。処理300は、オーディオコーディングシステム10中のソースデバイス12またはオーディオコーディングデバイス200によって実行され得る。処理300は、一連のステップまたは動作を含む。処理300は、様々なシーケンスでおよび/または同時に実施されてよく、
図3に示されている実行シーケンスに限定されないことを理解されたい。
図3に示されているように、方法は以下のステップを含む。
【0075】
ステップ301:符号化されるべき第1のオーディオフレームを取得する。
【0076】
この実施形態における第1のオーディオフレームは、符号化されるべきマルチチャネルオーディオ信号中のどんなフレームであってもよく、第1のオーディオフレームは、5つ以上のチャネル信号を含む。たとえば、5.1チャネルは、中央(C)チャネル信号、左(left,L)チャネル信号、右(right,R)チャネル信号、左サラウンド(left surround,LS)チャネル信号、右サラウンド(right surround,RS)チャネル信号、および0.1チャネル低周波数効果(low frequency effect,LFE)チャネル信号という、6つのチャネル信号を含む。7.1チャネルは、Cチャネル信号、Lチャネル信号、Rチャネル信号、LSチャネル信号、RSチャネル信号、LBチャネル信号、RBチャネル信号、およびLFEチャネル信号という、8つのチャネル信号を含む。LFEチャネルは、低いトーンのために特別に設計されたラウドスピーカーに通常は送られる、3Hzから120Hzにわたるオーディオチャネルである。
【0077】
ステップ302:相関値セットを取得する。
【0078】
相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す。任意選択で、複数のチャネルペアは、少なくとも5つのチャネル信号に対応するすべてのチャネルペアを含み得るか、または複数のチャネルペアは、少なくとも5つのチャネル信号に対応するいくつかのチャネルペアを含み得る。これは特に限定されない。
【0079】
2つの高度に相関するチャネル信号を符号化することにより、冗長性を低減することができ、符号化効率を改善することができる。したがって、この実施形態では、ペアリングは、2つのチャネル信号間の相関値に基づいて決定される。相関ができる限り最も高いチャネルペアセットを見つけるために、第1のオーディオフレーム中の少なくとも5つのチャネル信号のうちのあらゆる2つの間の相関値を最初に計算して、第1のオーディオフレームの相関値セットを取得し得る。たとえば、5つのチャネル信号のために、合計10個のチャネルペアが形成されてよく、対応して、相関値セットは10個の相関値を含み得る。
【0080】
任意選択で、相関値は、相関値を決定するための一元化された基準、たとえば、ペアリングしきい値を設定するために、すべてのチャネルペアの相関値が特定の範囲内に限定されるように、正規化されてよい。ペアリングしきい値は、0.2以上であり1以下の値に設定され得る。たとえば、ペアリングしきい値は、0.3、0.4、または0.35であり得る。このようにして、2つのチャネル信号間の正規化された相関値がペアリングしきい値よりも小さい限り、2つのチャネル信号は低く相関され、符号化のためにこれら2つのチャネル信号をペアリングする必要はない。
【0081】
可能な実装では、2つのチャネル信号(たとえば、ch1およびch2)間の相関値は、以下の式に従って計算され得る。
【0082】
【0083】
corr_norm(ch1,ch2)は、チャネル信号ch1とチャネル信号ch2との間の正規化された相関値を示し、spec_ch1(i)は、チャネル信号ch1のi番目の周波数の周波数領域係数を示し、spec_ch2(i)は、チャネル信号ch2のi番目の周波数の周波数領域係数であり、Nは、オーディオフレームの周波数の総量を示す。
【0084】
2つのチャネル信号間の相関値を計算するために別のアルゴリズムまたは式が使用されてもよいことに留意されたい。これは、本出願では特に限定されない。
【0085】
いくつかの実装では、上記のアルゴリズムまたは式に従って計算された相関値は、初期相関値として使用されてよく、次いで、この初期相関値が修正される必要があるかどうかが、プリセット条件に基づいて決定される。たとえば、限定的な条件は、初期相関値に関係する2つのチャネル信号間の振幅比がプリセットペアリングしきい値よりも大きいかどうかを計算することを含み得る。振幅比がペアリングしきい値よりも大きいとき、初期相関値は修正される。振幅比がペアリングしきい値以下であるとき、初期相関値は不変のままである。修正は、初期相関値を減少させることであり得る。たとえば、2つのチャネル信号が処理のためにペアリングされるのを防ぐために、初期相関値は0に直接修正されてよい。
【0086】
たとえば、チャネル信号chの現在フレームの振幅level(ch)は、以下の式による計算を通して取得され得る。
【0087】
【0088】
iは、チャネル信号chの現在フレームのi番目のサンプリングポイントを示し、Nは、現在フレームのサンプリングポイントの総量を示し、sepc_coeff(ch,i)は、現在フレームのi番目のサンプリングポイントの周波数領域係数である。
【0089】
ペアリング振幅しきい値はThreholdCoupling=2であると仮定する。
【0090】
【0091】
>ThreholdCouplingまたは
【0092】
【0093】
>ThreholdCouplingであるとき、corr_norm(ch1,ch2)は0に設定されて、ch1およびch2はペアリングされなくなる。
【0094】
ステップ303:相関値セットからM個の相関値を選択する。
【0095】
すべてのM個の相関値は、相関値セット中のM個の相関値以外の相関値よりも大きく、すべてのM個の相関値は、ペアリングしきい値以上であり、Mは、指定された値(たとえば、N)以下の正の整数である。この実施形態では、相関値セットに含まれるすべての相関値は降順でソートされてよく、最上位にランク付けされる最初のM個の相関値が相関値から選択される。M個の相関値は、ペアリングしきい値以上である必要がある。この理由は、相関値がペアリングしきい値よりも小さいことが、相関値に対応するチャネルペアにおける2つのチャネル信号間の相関が低いことを示し、符号化のためにこれら2つのチャネル信号をペアリングする必要はないからである。符号化効率を改善するために、ペアリングしきい値以上であるすべての相関値を選択する必要はない。したがって、Mの上限Nが設定され、言い換えれば、最大でN個の相関値が選択される。
【0096】
Nは、2以上の整数であってよく、Nの最大値は、第1のオーディオフレームのすべてのチャネル信号に対応するすべてのチャネルペアの数量を超えることができない。Nのより大きい値は、計算量の増加を示す。Nのより小さい値は、チャネルペアセットが失われることがあり、符号化効率が低減されることを示す。
【0097】
任意選択で、Nは、チャネルペアの最大量+1、すなわち、
【0098】
【0099】
に設定されてよく、CHは、第1のオーディオフレームに含まれるチャネル信号の数量を示す。たとえば、5.1チャネルが5つのチャネル信号を含む場合(LFEチャネルは考慮されない)、N=3であり、7.1チャネルが7つのチャネル信号を含む場合(LFEチャネルは考慮されない)、N=4である。
【0100】
相関値セットが、ペアリングしきい値以上の相関値を含まない場合、後続のステップは実施される必要がなく、モノチャネル符号化が、第1のオーディオフレームの各チャネル信号に対して実施される。M個の相関値が相関値セットから選択された場合、以下のステップが実施され得る。
【0101】
ステップ304:M個のチャネルペアセットを取得する。
【0102】
各チャネルペアセットは、M個の相関値に対応するM個のチャネルペアのうちの少なくとも1つを含み、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない。たとえば、5.1チャネルでは、最も大きい相関値に対応する3つのチャネルペア(L,R)、(R,C)、および(LS,RS)が、相関値セットに基づいて選択される。(LS,RS)の相関値は、ペアリングしきい値よりも小さく、したがって除外される。この場合、2つのチャネルペアセットが、2つのチャネルペア(L,R)および(R,C)のために取得され得る。2つのチャネルペアセットのうちの一方は(L,R)を含み、他方は(R,C)を含む。
【0103】
M個の相関値に対応するM個のチャネルペアのいずれか1つ(たとえば、第1のチャネルペア)が例として使用される。この実施形態においてM個のチャネルペアセットを取得するための方法は、第1のチャネルペアを第1のチャネルペアセットに追加することであって、M個のチャネルペアセットは、第1のチャネルペアセットを含む、ことと、複数のチャネルペア中の関連するチャネルペア以外のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、このチャネルペアを第1のチャネルペアセットに追加することであって、関連するチャネルペアは、第1のチャネルペアセットに追加されたチャネルペアに含まれるチャネル信号のいずれか1つを含む、こととを含み得る。
【0104】
第1のチャネルペアを第1のチャネルペアセットに追加するステップを除いて、すべての上記の処理は反復処理ステップである。具体的には、
a.複数のチャネルペア中の関連するチャネルペア以外のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含むかどうかを決定すること、および
b.相関値がペアリングしきい値よりも大きいチャネルペアが含まれる場合、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、このチャネルペアを第1のチャネルペアセットに追加すること。
【0105】
この場合、他のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含む限り、ステップbが反復的に実施され得る。
【0106】
任意選択で、計算量を低減するために、ペアリングしきい値よりも小さい相関値は、相関値セットから削除されてよい。このようにして、チャネルペアの数量が低減され得、さらに反復の数量が低減され得る。
【0107】
ステップ305:M個のチャネルペアセットからターゲットチャネルペアセットを決定する。
【0108】
ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、M個のチャネルペアセットのものの中で最も大きい。M個のチャネルペアセットが取得された後、各チャネルペアセットに含まれるすべてのチャネルペアの相関値の合計が計算され得、最終的に、相関値の合計が最も大きいチャネルペアセットが、ターゲットチャネルペアセットとして決定される。
【0109】
ステップ306:ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化する。
【0110】
ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化する処理については、
図4に示されている以下の実施形態を参照されたい。詳細について本明細書で再び説明されない。
【0111】
任意選択で、この実施形態では、第1のオーディオフレームを符号化する前に、特にステレオ処理が第1のオーディオフレーム中の少なくとも5つのチャネル信号に対して実施される前に、エネルギー平衡処理が、第1のオーディオフレーム中の少なくとも5つのチャネル信号に対して別々に実施されて、少なくとも5つの等化チャネル信号が取得され得る。次いで、ステレオ処理は、少なくとも5つの等化チャネル信号に対して実施される。この場合、符号化の対象は等化チャネル信号に関係する。
【0112】
エネルギー平衡モードは、第1のエネルギー平衡モードおよび/または第2のエネルギー平衡モードを含み得る。第1のエネルギー平衡モードでは、1つのチャネルペア中のただ2つのチャネル信号が使用されて、チャネルペアに対応する2つの等化チャネル信号が取得される。第2のエネルギー平衡モードでは、1つのチャネルペア中の2つのチャネル信号、および別のチャネルペアの少なくとも1つのチャネル信号が使用されて、チャネルペアに対応する2つの等化チャネル信号が取得される。
【0113】
エネルギー平衡モードが第1のエネルギー平衡モードであるとき、ターゲットチャネルペアセット中の現在のチャネルペアについて、現在のチャネルペアに含まれる2つのチャネル信号のエネルギーまたは振幅値の平均値が計算されてよく、エネルギー平衡処理が、平均値に基づいて2つのチャネル信号に対して別々に実施されて、2つの対応する等化チャネル信号が取得される。このようにして、少なくとも5つのチャネル信号の変動間隔値が大きいとき、エネルギー平衡は、2つの関係するチャネル信号間でのみ実施され得、したがって、ステレオ処理中のビット割振りは、チャネル信号のエネルギー特徴により良く準拠するようになる。このようにして、ビットレートが低い符号化環境では、高いエネルギーをもつチャネルペアの符号化ノイズが、不十分なビットにより、低いエネルギーをもつチャネルペアの符号化ノイズよりもはるかに大きいことがあり、低いエネルギーをもつチャネルペアのビットが冗長であり得るという問題が回避される。
【0114】
エネルギー平衡モードが第2のエネルギー平衡モードであるとき、少なくとも5つのチャネル信号のエネルギーまたは振幅値の平均値が計算されてよく、エネルギー平衡処理が、平均値に基づいて少なくとも5つのチャネル信号に対して別々に実施されて、少なくとも5つの等化チャネル信号が取得される。
【0115】
この実施形態では、複数のチャネルペアセットの相関値の合計ができる限り取得され、次いで、相関値の合計が最も大きいチャネルペアセットが、ターゲットチャネルペアセットとして決定される。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0116】
以下で、2つの特定の実施形態を使用することによって、
図3に示されている方法実施形態におけるターゲットチャネルペアセットを取得する処理について説明する。
【0117】
図4は、本出願に従ってマルチチャネルオーディオ信号符号化方法が適用される符号化装置の構造の例示的な図である。符号化装置は、オーディオコーディングシステム10中のソースデバイス12のエンコーダ20であり得るか、またはオーディオコーディングデバイス200中のコーディングモジュール270であり得る。符号化装置は、チャネルペアセット生成モジュール、マルチチャネル処理モジュール、チャネル符号化モジュール、およびビットストリーム多重化インターフェースを含み得る。
【0118】
チャネルペアセット生成モジュールの入力は、マルチチャネルオーディオのn個のチャネル信号(CH1からCHn)であり、nは、5以上の整数である。ステレオ処理は、すべてのn個のチャネル信号に対して実施され得る。チャネルペアセット生成モジュールは、n個のチャネル信号中のいずれか2つのチャネル信号間の相関値を計算して、たとえば、(CH1,CH2)、(CH3,CH4)、…、および(CHi-1,CHi)など、
図3に示されている実施形態における方法を使用することによって相関値に基づいてターゲットチャネルペアセットを取得する。
【0119】
マルチチャネル処理モジュールは、複数のステレオ処理ユニットを含む。ステレオ処理ユニットは、予測ベースまたはカルーネンレーベ変換(Karhunen-Loeve Transform,KLT)ベースの処理を使用し得る。具体的には、(たとえば、2×2回転行列を使用することによって)2つの入力チャネル信号を回転して、信号エネルギーが1つのチャネル中に集中されるように、エネルギー圧縮を最大にする。
【0120】
チャネルペアセット生成モジュールによって出力されたターゲットチャネルペアセット中の各チャネルペアは、ステレオ処理ユニットに入力される。たとえば、(CH1,CH2)はステレオ処理ユニット1に入力され、(CH3,CH4)はステレオ処理ユニット2に入力され、…、(CHi-1,Chi)はステレオ処理ユニットmに入力される。入力された2つのチャネル信号を処理した後に、ステレオ処理ユニットは、2つのチャネル信号に対応する処理されたチャネル信号(P)と、マルチチャネルパラメータ(SIDE_PAIR)とを出力し、マルチチャネルパラメータは、チャネルペアインデックス、エネルギー等化補助情報、およびステレオ処理補助情報を含む。たとえば、ステレオ処理ユニット1は、CH1およびCH2を処理してP1、P2、およびSIDE_PAIR1を取得し、ステレオ処理ユニット2は、CH3およびCH4を処理してP3、P4、およびSIDE_PAIR2を取得し、…、ステレオ処理ユニットmは、CHi-1およびCHiを処理してPi-1、Pi、およびSIDE_PAIRmを取得する。
【0121】
チャネル符号化モジュールは、モノチャネル符号化ユニット(またはモノチャネルチャネルボックスまたはモノチャネルツール)を使用して、マルチチャネル処理モジュールによって出力された処理されたチャネル信号を符号化し、対応する符号化されたチャネル信号(E)を出力する。モノチャネル符号化ユニットによってチャネル信号を符号化する処理において、より多くのビットは、より高いエネルギー(またはより高い振幅)をもつチャネル信号に割り振られ、より少ないビットは、より低いエネルギー(またはより低い振幅)をもつチャネル信号に割り振られる。任意選択で、チャネル符号化モジュールはまた、ステレオ符号化ユニット、たとえば、パラメトリックステレオエンコーダまたはロッシーステレオエンコーダを使用して、マルチチャネル処理モジュールによって出力された処理されたチャネル信号を符号化し得る。たとえば、P1、P2、P3、P4、…、Pi-1、およびPiは、モノチャネル符号化ユニットを使用することによって符号化されて、E1、E2、E3、E4、…、Ei-1、およびEiが取得される。
【0122】
チャネルペアセット生成モジュールにおいてペアリングされないチャネル信号(たとえば、CHj)は、マルチチャネル処理モジュール中のステレオ処理ユニットによって処理される必要がなく、Ejを取得するためにチャネル符号化モジュール中のモノチャネル符号化ユニットに直接入力され得ることに留意されたい。
【0123】
ビットストリーム多重化インターフェースは、符号化されたマルチチャネル信号を生成し、符号化されたマルチチャネル信号は、チャネル符号化モジュールによって出力された符号化されたチャネル信号と、マルチチャネル処理モジュールによって出力されたマルチチャネルパラメータとを含む。たとえば、符号化されたマルチチャネル信号は、E1、E2、E3、E4、...、Ei-1、およびEiと、SIDE_PAIR1、SIDE_PAIR2、…、およびSIDE_PAIRmとを含む。任意選択で、ビットストリーム多重化インターフェースは、符号化されたマルチチャネル信号を直列信号または直列ビットストリーム中に処理し得る。
【0124】
上記で説明されたように、本出願で提供されるターゲットチャネルペアセットを取得する処理手順は、
図4に示されている符号化装置中のチャネルペアセット生成モジュールによって実装され得る。
【0125】
実施形態1
5.1チャネルが例として使用される。5.1チャネルは、中央(C)チャネル、左(left,L)チャネル、右(right,R)チャネル、左サラウンド(left surround,LS)チャネル、右サラウンド(right surround,RS)チャネル、および0.1チャネル低周波数効果(low frequency effect,LFE)チャネルを含む。これらのチャネルのために、チャネルペアセット生成モジュールは、マルチチャネル処理を必要としないチャネルを除去するためにマルチチャネルマスクを使用して、符号化効率を改善し得る。LFEチャネルは5.1チャネルから除去されてよい。したがって、チャネルペアセット生成モジュールに入力されるチャネル信号は、Cチャネル信号、Lチャネル信号、Rチャネル信号、LSチャネル信号、およびRSチャネル信号を含む。ターゲットチャネルペアセットを取得するための方法は、以下のステップを含み得る。
【0126】
(1)5つのチャネル信号のいずれか2つの間の相関値を計算する。
【0127】
本出願では、2つのチャネル信号(たとえば、チャネル信号ch1およびチャネル信号ch2)間の相関値は、以下の式に従って計算され得る。
【0128】
【0129】
corr_norm(ch1,ch2)は、チャネル信号ch1とチャネル信号ch2との間の正規化された相関値を示し、spec_ch1(i)は、チャネル信号ch1のi番目の周波数の周波数領域係数を示し、spec_ch2(i)は、チャネル信号ch2のi番目の周波数の周波数領域係数であり、Nは、オーディオフレームの周波数の総量を示す。
【0130】
この実施形態では、5.1チャネルにおいてペアリングする際に5つのチャネル信号がある。したがって、取得された相関値セットは、最大
【0131】
【0132】
個のチャネルペアの相関値を含み得る。表1は、5.1チャネルの相関値セットの例を示す。
【0133】
【0134】
ペアリングしきい値は0.3に設定され、相関値が0.3よりも大きいただ2つのチャネル信号がペアリングされ得る。したがって、表1からのペアリングしきい値よりも小さい相関値を削除することによって表1aが取得され得る。このようにして、相関が低いチャネル信号は反復プロセシング処理において考慮されなくてよく、計算量は低減される。
【0135】
【0136】
Nは、チャネルペアの最大量+1、すなわち、
【0137】
【0138】
に設定される。表1aから、N=3個の最大相関値、たとえば、降順で0.57(R,C)、0.47(L,C)および0.42(LS,RS)が選択され、これら3つの相関値はすべて、ペアリングしきい値0.3よりも大きい。
【0139】
(2)第1の反復処理手順
【0140】
(R,C)は、第1のチャネルペアセットに追加される第1のチャネルペアであり、Rおよび/またはCを含むチャネルペアの相関値は表1aから削除されて表1bが取得される。
【0141】
【0142】
表1bにおける最も大きい相関値は0.42(LS,RS)である。したがって、LSおよびRSは第2のチャネルペアを形成し、第2のチャネルペアは第1のチャネルペアセットに追加される。この場合、ただ1つのチャネル信号Lが5つのチャネル信号中に残り、ペアリングは継続することができない。したがって、最終的な第1のチャネルペアセットは、2つのチャネルペア(R,C)および(LS,RS)を含む。
【0143】
第1のチャネルペアセットの相関値の合計が計算される、すなわち、S(1)=0.57+0.42=0.99。
【0144】
(3)第2の反復処理手順
【0145】
(L,C)は、第2のチャネルペアセットに追加される第1のチャネルペアであり、Lおよび/またはCを含むチャネルペアの相関値は表1aから削除されて表1cが取得される。
【0146】
【0147】
表1cにおける最も大きい相関値は0.42(LS,RS)である。したがって、LSおよびRSは第2のチャネルペアを形成し、第2のチャネルペアは第2のチャネルペアセットに追加される。この場合、ただ1つのチャネル信号Rが5つのチャネル信号中に残り、ペアリングは継続することができない。したがって、最終的な第2のチャネルペアセットは、2つのチャネルペア(L,C)および(LS,RS)を含む。
【0148】
第1のチャネルペアセットの相関値の合計が計算される、すなわち、S(2)=0.47+0.42=0.89。
【0149】
(4)第3の反復処理手順
【0150】
(LS,RS)は、第3のチャネルペアセットに追加される第1のチャネルペアであり、LSおよび/またはRSを含むチャネルペアの相関値は表1aから削除されて表1dが取得される。
【0151】
【0152】
表1dにおける最も大きい相関値は0.57(R,C)である。したがって、RおよびCは第2のチャネルペアを形成し、第2のチャネルペアは第3のチャネルペアセットに追加される。この場合、ただ1つのチャネル信号Lが5つのチャネル信号中に残り、ペアリングは継続することができない。したがって、最終的な第3のチャネルペアセットは、2つのチャネルペア(LS,RS)および(R,C)を含む。
【0153】
第1のチャネルペアセットの相関値の合計が計算される、すなわち、S(3)=0.42+0.57=0.99。
【0154】
(5)ターゲットチャネルペアセットを取得する
【0155】
S(1)およびS(3)は、S(1)、S(2)、およびS(3)の中で最も大きく、S(1)およびS(3)に対応する2つのチャネルペアセットに含まれるチャネルペアは同じである。したがって、S(1)(またはS(3))に対応するチャネルペアセットはターゲットチャネルペアセットとして使用され、言い換えれば、この実施形態では、5.1チャネルによって取得され得るチャネルペアは(L,C)および(LS,RS)を含む。ターゲットチャネルペアセットは、インデックスを使用することによって表され得る。インデックス値は、表1のすべての相関値に対応するチャネルペアのために設定され得る。ターゲットチャネルペアセットが決定された後、ターゲットチャネルペアセット中のチャネルペアは、ビットストリーム中のビットの数量を低減するために、対応するインデックス値を使用することによって表され得る。
【0156】
実施形態2
7.1チャネルが例として使用される。7.1チャネルは、Cチャネル、Lチャネル、Rチャネル、LSチャネル、RSチャネル、左バック(left back,LB)チャネル、右バック(right back,RB)チャネル、およびLFEチャネルを含む。これらのチャネルのために、チャネルペアセット生成モジュールは、マルチチャネル処理を必要としないチャネルを除去するためにマルチチャネルマスクを使用して、符号化効率を改善し得る。LFEチャネルは7.1チャネルから除去されてよい。したがって、チャネルペアセット生成モジュールに入力されるチャネル信号は、Cチャネル信号、Lチャネル信号、Rチャネル信号、LSチャネル信号、RSチャネル信号、LBチャネル信号、およびRBチャネル信号を含む。ターゲットチャネルペアセットを取得するための方法は、以下のステップを含み得る。
【0157】
(1)7つのチャネル信号のいずれか2つの間の相関値を計算する。
【0158】
この実施形態では、2つのチャネル信号間の相関値を計算するために実施形態1における式が使用されてもよい。
【0159】
この実施形態では、7.1チャネルにおいてペアリングする際に7つのチャネル信号がある。したがって、取得された相関値セットは、最大
【0160】
【0161】
個のチャネルペアの相関値を含み得る。表2は、7.1チャネルの相関値セットの例を示す。
【0162】
【0163】
ペアリングしきい値は0.3に設定され、言い換えれば、相関値が0.3よりも大きいただ2つのチャネル信号がペアリングされ得る。したがって、表2からのペアリングしきい値よりも小さい相関値を削除することによって表2aが取得され得る。このようにして、相関が低いチャネル信号は反復プロセシング処理において考慮されなくてよく、計算量は低減される。
【0164】
【0165】
Nは、チャネルペアの最大量+1、すなわち、
【0166】
【0167】
に設定される。表2aから、N=4個の最大相関値、たとえば、降順で0.67(LS,LB)、0.64(RS,LB)、0.57(R,C)および0.47(L,C)が選択され、これら4つの相関値はすべて、ペアリングしきい値0.3よりも大きい。
【0168】
(2)第1の反復処理手順
【0169】
(LS,LB)は、第1のチャネルペアセットに追加される第1のチャネルペアであり、LSおよび/またはLBを含むチャネルペアの相関値は表2aから削除されて表2bが取得される。
【0170】
【0171】
表2bにおける最も大きい相関値は0.57(LS,RS)である。したがって、RおよびCは第2のチャネルペアを形成し、第2のチャネルペアは第1のチャネルペアセットに追加される。Rおよび/またはCを含むチャネルペアの相関値は表2bから削除されて表2cが取得される。
【0172】
【0173】
表2cには利用可能な相関値がない。したがって、最終的な第1のチャネルペアセットは、2つのチャネルペア(LS,LB)および(R,C)を含む。
【0174】
第1のチャネルペアセットの相関値の合計が計算される、すなわち、S(1)=0.67+0.57=1.24。
【0175】
(3)第2の反復処理手順
【0176】
(RS,LB)は、第2のチャネルペアセットに追加される第1のチャネルペアであり、RSおよび/またはLBを含むチャネルペアの相関値は表2aから削除されて表2dが取得される。
【0177】
【0178】
表2dにおける最も大きい相関値は0.57(R,C)である。したがって、RおよびCは第2のチャネルペアを形成し、第2のチャネルペアは第2のチャネルペアセットに追加される。Rおよび/またはCを含むチャネルペアの相関値は表2dから削除されて表2eが取得される。
【0179】
【0180】
表2eにおける最も大きい相関値は0.39(L,LS)である。したがって、LおよびLSは第3のチャネルペアを形成し、第3のチャネルペアは第2のチャネルペアセットに追加される。Lおよび/またはLSを含むチャネルペアの相関値は表2eから削除されて表2fが取得される。
【0181】
【0182】
表2fには利用可能な相関値がない。したがって、最終的な第1のチャネルペアセットは、3つのチャネルペア(RS,LB)、(R,C)、および(L,LS)を含む。
【0183】
第2のチャネルペアセットの相関値の合計が計算される、すなわち、S(2)=0.64+0.57+0.39=1.6。
【0184】
(4)第3の反復処理手順
【0185】
(R,C)は、第3のチャネルペアセットに追加される第1のチャネルペアであり、Rおよび/またはCを含むチャネルペアの相関値は表2aから削除されて表2gが取得される。
【0186】
【0187】
表2gにおける最も大きい相関値は0.67(LS,LB)である。したがって、LSおよびLBは第2のチャネルペアを形成し、第2のチャネルペアは第3のチャネルペアセットに追加される。LSおよび/またはLBを含むチャネルペアの相関値は表2gから削除されて表2hが取得される。
【0188】
【0189】
表2hには利用可能な相関値がない。したがって、最終的な第1のチャネルペアセットは、2つのチャネルペア(R,C)および(LS,LB)を含む。
【0190】
第2のチャネルペアセットの相関値の合計が計算される、すなわち、S(3)=0.57+0.67=1.24。
【0191】
(5)第4の反復処理手順
【0192】
(L,C)は、第4のチャネルペアセットに追加される第1のチャネルペアであり、Lおよび/またはCを含むチャネルペアの相関値は表2aから削除されて表2iが取得される。
【0193】
【0194】
表2iにおける最も大きい相関値は0.67(LS,LB)である。したがって、LSおよびLBは第2のチャネルペアを形成し、第2のチャネルペアは第4のチャネルペアセットに追加される。LSおよび/またはLBを含むチャネルペアの相関値は表2iから削除されて表2jが取得される。
【0195】
【0196】
表2jには利用可能な相関値がない。したがって、最終的な第1のチャネルペアセットは、2つのチャネルペア(L,C)および(LS,LB)を含む。
【0197】
第2のチャネルペアセットの相関値の合計が計算される、すなわち、S(4)=0.47+0.67=1.14。
【0198】
(6)ターゲットチャネルペアセットを取得する
【0199】
S(2)は、S(1)、S(2)、S(3)、およびS(4)の中で最も大きい。したがって、S(2)に対応するチャネルペアセットはターゲットチャネルペアセットとして使用され、言い換えれば、この実施形態において7.1チャネルによって取得され得るチャネルペアは、(RS,LB)、(R,C)、および(L,LS)を含む。
【0200】
実施形態1と比較して、実施形態2は、もう1つの反復プロセシング処理を有し、ターゲットチャネルペアセットは、もう1つのチャネルペアを含む。これは、ペアリングにおけるチャネル信号の数量に関係する。
【0201】
図5は、本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。処理500は、オーディオコーディングシステム10中のソースデバイス12またはオーディオコーディングデバイス200によって実行され得る。処理500は、一連のステップまたは動作を含む。処理500は、様々なシーケンスでおよび/または同時に実施されてよく、
図5に示されている実行シーケンスに限定されないことを理解されたい。
図5に示されているように、方法は以下のステップを含む。
【0202】
ステップ501:符号化されるべき第1のオーディオフレームを取得する。
【0203】
ステップ502:相関値セットを取得する。
【0204】
この実施形態におけるステップ501および502については、ステップ301および302を参照されたい。詳細について本明細書で再び説明されない。
【0205】
ステップ503:複数のチャネルペアに基づいて複数のチャネルペアセットを取得する。
【0206】
相関値セットは、第1のオーディオフレーム中の少なくとも5つのチャネル信号の複数のチャネルペアの相関値を含み、複数のチャネルペアは規則的に組み合わされて(言い換えれば、同じチャネルペアセット中の複数のチャネルペアは、同じチャネル信号を含むことができない)、少なくとも5つのチャネル信号に対応する複数のチャネルペアセットが取得される。
【0207】
可能な実装では、チャネル信号の数量が奇数であるとき、すべてのチャネルペアセットの数量は以下の式に従って計算され得る。
【0208】
【0209】
可能な実装では、チャネル信号の数量が偶数であるとき、すべてのチャネルペアセットの数量は以下の式に従って計算され得る。
【0210】
【0211】
Pair_numは、すべてのチャネルペアセットの数量を示し、CHは、第1のオーディオフレーム中のマルチチャネル処理におけるチャネル信号の数量を示し、マルチチャネルマスクフィルタ処理を通して取得された結果である。
【0212】
任意選択で、計算量を低減するために、相関値セットが取得された後、複数のチャネルペアセットは、複数のチャネルペア中の無相関チャネルペア以外のチャネルペアに基づいて取得されてよく、無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい。このようにして、チャネルペアセットが取得されたとき、後続のステップにおいて、計算におけるチャネルペアの数量は低減され得、チャネルペアセットの数量は低減され、相関値の合計の計算量も低減され得る。
【0213】
任意選択で、計算量を低減するために、相関値セットが取得された後、チャネル信号と他のチャネル信号との間の相関値がすべてペアリングしきい値よりも小さいそれらのチャネル信号は、削除されてよい。言い換えれば、これらのチャネル信号はペアリングのために考慮されない。チャネルペアセットが取得されたとき、後続のステップにおいて、計算におけるチャネルペアの数量は低減され得、チャネルペアセットの数量は低減され、相関値の合計の計算量も低減され得る。
【0214】
ステップ504:相関値セットに基づいて、複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計を取得する。
【0215】
各チャネルペアセットについて、チャネルペアセットに含まれるすべてのチャネルペアの相関値の合計が計算される。
【0216】
ステップ505:ターゲットチャネルペアセットを決定する。
【0217】
ステップ506:ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化する。
【0218】
この実施形態におけるステップ505および506については、ステップ305および306を参照されたい。詳細について本明細書で再び説明されない。
【0219】
この実施形態では、複数のチャネルペアセットの相関値の合計ができる限り取得され、次いで、相関値の合計が最も大きいチャネルペアセットが、ターゲットチャネルペアセットとして決定される。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0220】
以下で、特定の実施形態を使用することによって、
図5に示されている方法実施形態におけるターゲットチャネルペアセットを取得する処理について説明する。この処理は、
図4に示されている符号化装置中のチャネルペアセット生成モジュールによってやはり実装される。
【0221】
実施形態3
5.1チャネルが例として使用される。5.1チャネルは、Cチャネル、Lチャネル、Rチャネル、LSチャネル、RSチャネル、およびLFEチャネルを含む。これらのチャネルのために、チャネルペアセット生成モジュールは、マルチチャネル処理を必要としないチャネルを除去するためにマルチチャネルマスクを使用して、符号化効率を改善し得る。LFEチャネルは5.1チャネルから除去されてよい。したがって、チャネルペアセット生成モジュールに入力されるチャネル信号は、Cチャネル信号、Lチャネル信号、Rチャネル信号、LSチャネル信号、およびRSチャネル信号を含む。ターゲットチャネルペアセットを取得するための方法は、以下のステップを含み得る。
【0222】
(1)5つのチャネル信号のいずれか2つの間の相関値を計算する。
【0223】
この実施形態では、2つのチャネル信号間の相関値を計算するために実施形態1における式が使用されてもよい。
【0224】
この実施形態では、5.1チャネルにおいてペアリングする際に5つのチャネル信号がある。したがって、取得された相関値セットは、表1に示されている、最大
【0225】
【0226】
個のチャネルペアの相関値を含み得る。
【0227】
(2)5つのチャネル信号に対応するすべてのチャネルペアセットの相関値の合計を計算する。
【0228】
表1に示されているように、5つのチャネル信号について10個の相関値が取得され得る。対応して、10個のチャネルペアが取得され得、次いで、たとえば、{(L,R),(LS,RS)}、{(L,R),(C,RS)}、{(L,R),(LS,C)}、および、…など、これら10個のチャネルペアについて最大
【0229】
【0230】
個のチャネルペアセットが取得され得る。
【0231】
チャネルペアセットS(i)について、S(i)に含まれるすべてのチャネルペアの相関値の合計が計算され、ここで、1≦i≦15であり、たとえば、S(1)=corr(L,R)+corr(LS,RS)、S(2)=corr(L,R)+corr(C,RS)、S(3)=corr(L,R)+corr(LS,C)、および…。
【0232】
任意選択で、相関値の合計が計算されるとき、チャネルペアの相関値がペアリングしきい値よりも小さい場合、チャネルペアの相関値は0に設定されてよい。
【0233】
任意選択で、計算量を低減するために、チャネルペアセットが取得される前に、相関値がペアリングしきい値よりも小さいチャネルペアは除外されてよい。このようにして、チャネルペアセットが取得されたとき、チャネルペアの数量は低減され得、チャネルペアセットの数量は低減される。
【0234】
図6は、本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。処理600は、オーディオコーディングシステム10中のソースデバイス12またはオーディオコーディングデバイス200によって実行され得る。処理600は、一連のステップまたは動作を含む。処理600は、様々なシーケンスでおよび/または同時に実施されてよく、
図6に示されている実行シーケンスに限定されないことを理解されたい。
図6に示されているように、方法は以下のステップを含む。
【0235】
ステップ601:符号化されるべき第1のオーディオフレームを取得する。
【0236】
ステップ601については、ステップ301を参照されたい。詳細について本明細書で再び説明されない。
【0237】
ステップ602:第1のオーディオフレームの相関値セットを取得する。
【0238】
第1のオーディオフレームの相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す。
【0239】
ステップ603:第2のオーディオフレームの相関値セットを取得する。
【0240】
第2のオーディオフレームの相関値セットは、第2のオーディオフレームの複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示し、第2のオーディオフレームは、第1のオーディオフレームの先行フレームである。
【0241】
この実施形態とステップ302との間の違いは、この実施形態では、第1のオーディオフレームの相関値セットを取得することに加えて、第1のオーディオフレームの先行フレーム(すなわち、第2のオーディオフレーム)の相関値セットがさらに取得される必要があることである。
【0242】
第1のオーディオフレームの相関値セットを取得するための方法については、ステップ302を参照されたい。詳細について本明細書で再び説明されない。
【0243】
第2のオーディオフレームの符号化は第1のオーディオフレームの符号化の前に実施されるので、第1のオーディオフレームが処理されるとき、符号化装置は、第2のオーディオフレームを符号化するための関係する情報を取得しており、この関係する情報は、第2のオーディオフレームの相関値セットを含む。したがって、この実施形態では、第2のオーディオフレームの相関値セットはキャッシュまたはメモリから直接読み取られてよく、第2のオーディオフレームの相関値セットは計算を通して再び取得される必要はない。
【0244】
ステップ604:第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セットに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定する。
【0245】
この実施形態では、第1のオーディオフレームの相関値セットと第2のオーディオフレームの相関値セットとの間の差の合計が、決定のベースとして計算され得る。言い換えれば、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セット中の同じチャネルペアに対応する相関値間の差の絶対値が計算され、複数のチャネルペアに対応する絶対値の合計が計算される。絶対値の合計が変化しきい値よりも小さいとき、第1のオーディオフレームのターゲットチャネルペアセットは再取得される必要がないと決定されるか、または絶対値の合計が変化しきい値以上であるとき、第1のオーディオフレームのターゲットチャネルペアセットは再取得される必要があると決定される。
【0246】
同じチャネルペアに対応する相関値間の差が計算され、次いで、すべてのチャネルペア間の差の絶対値の合計が計算される。このようにして、第2のオーディオフレームに対する第1のオーディオフレームのチャネル信号間の相関値の変化が変化しきい値を超えるかどうかが取得され得る。変化が変化しきい値を超えない場合、それは、第2のオーディオフレームから第1のオーディオフレームへの変化が小さいことを示し、ターゲットチャネルペアセットは、第1のオーディオフレームのために再確立される必要はなくてよく、それにより、計算量は低減され、符号化効率は改善される。変化が変化しきい値を超える場合、それは、第2のオーディオフレームから第1のオーディオフレームへの変化が大きいことを示し、第1のオーディオフレームのターゲットチャネルペアセットは再取得される必要がある。
【0247】
ステップ605:第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がある場合、
図3または
図5に示されている実施形態における方法を使用することによって第1のオーディオフレームのターゲットチャネルペアセットを取得し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化する。
【0248】
この実施形態では、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があると決定されたとき、第1のオーディオフレームの相関値セットを取得するために
図3または
図5に示されている実施形態における方法が使用され得る。詳細について本明細書で再び説明されない。
【0249】
ステップ606:第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がない場合、第1のオーディオフレームのターゲットチャネルペアセットとして第2のオーディオフレームのターゲットチャネルペアセットを決定し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化する。
【0250】
この実施形態では、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がないと決定されたとき、第2のオーディオフレームのターゲットチャネルペアセットは、第1のオーディオフレームのターゲットチャネルペアセットとして直接使用され得る。このようにして、計算量は低減され、符号化効率は改善される。
【0251】
この実施形態では、現在オーディオフレームの相関値セットと先行オーディオフレームの相関値セットとの間の差の合計を取得して、現在フレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定し、それにより、オーディオ変化が小さいとき、計算量を大幅に低減し、符号化効率を改善することができる。オーディオ変化が大きく、ターゲットチャネルペアセットが再取得される必要がある場合であっても、複数のチャネルペアセットの相関値の合計を依然としてできる限り取得して、ターゲットチャネルペアセットとして相関値の合計が最も大きいチャネルペアセットを決定し得る。このようにして、ターゲットチャネルペアセットに含まれるすべてのチャネルペアの相関値の合計は、最も大きくなり、チャネルペアの数量はできる限り増加され、チャネル信号間の冗長性は低減され、オーディオ符号化効率は改善される。
【0252】
以下で、特定の実施形態を使用することによって、
図6に示されている方法実施形態におけるターゲットチャネルペアセットを取得する処理について説明する。この処理は、
図4に示されている符号化装置中のチャネルペアセット生成モジュールによってやはり実装される。
【0253】
実施形態4
5.1チャネルが例として使用される。5.1チャネルは、Cチャネル、Lチャネル、Rチャネル、LSチャネル、RSチャネル、およびLFEチャネルを含む。これらのチャネルのために、チャネルペアセット生成モジュールは、マルチチャネル処理を必要としないチャネルを除去するためにマルチチャネルマスクを使用して、符号化効率を改善し得る。LFEチャネルは5.1チャネルから除去されてよい。したがって、チャネルペアセット生成モジュールに入力されるチャネル信号は、Cチャネル信号、Lチャネル信号、Rチャネル信号、LSチャネル信号、およびRSチャネル信号を含む。ターゲットチャネルペアセットを取得するための方法は、以下のステップを含み得る。
【0254】
(1)5つのチャネル信号のいずれか2つの間の相関値を計算する。
【0255】
この実施形態では、2つのチャネル信号間の相関値を計算するために実施形態1における式が使用されてもよい。
【0256】
この実施形態では、5.1チャネルにおいてペアリングする際に5つのチャネル信号がある。したがって、取得された相関値セットは、表1に示されている、最大
【0257】
【0258】
個のチャネルペアの相関値を含み得る。
【0259】
(2)第1のオーディオフレームの相関値セットと第2のオーディオフレームの相関値セットとの間の差の合計を計算する。
【0260】
この実施形態では、第1のオーディオフレームの相関値セットと第2のオーディオフレームの相関値セットの両方は、行列の形式で表されて、それぞれ行列Matrix1およびMatrix2が取得される。行列中の各要素の値は、相関値セット中の相関値に対応する。差の合計は、以下の式に従って計算され得る。
【0261】
【0262】
Dは、第1のオーディオフレームの相関値セットと第2のオーディオフレームの相関値セットとの間の差の合計を示し、Matrix1(i)は、第1のオーディオフレームの相関値セットに対応する行列中のi番目の要素値を示し、Matrix2(i)は、第2のオーディオフレームの相関値セットに対応する行列中のi番目の要素値を示す。
【0263】
(3)相関値の合計Dに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定する。
【0264】
この実施形態では、1つの変化しきい値が設定され、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかが、このしきい値に基づいて決定される。任意選択で、この実施形態では、フラグkeepFlagがさらに設定されてよい。keepFlag=1であるとき、それは、第1のオーディオフレームが先行フレームのターゲットチャネルペアセットを確保し得ること、言い換えれば、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がないことを示す。keepFlag=0であるとき、それは、第1のオーディオフレームが先行フレームのターゲットチャネルペアセットを確保することができないこと、言い換えれば、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があることを示す。
【0265】
上記の設定に基づいて、D<変化しきい値であるとき、keepFlag=1であり、D≧変化しきい値であるとき、keepFlag=0である。
【0266】
(4)第1のオーディオフレームのターゲットチャネルペアセットを取得する。
【0267】
フラグkeepFlagの値に基づいて、符号化装置は、第1のオーディオフレームのターゲットチャネルペアセットを取得し得る。具体的には、keepFlag=1であるとき、符号化装置は、第1のオーディオフレームのターゲットチャネルペアセットとして第2のオーディオフレームのターゲットチャネルペアセットを直接使用する。keepFlag=0であるとき、符号化装置は、
図3または
図5に示されている実施形態における方法を使用することによって第1のオーディオフレームのターゲットチャネルペアセットを取得し得る。詳細について本明細書で再び説明されない。
【0268】
図7は、本出願によるマルチチャネルオーディオ信号符号化方法の例示的な実施形態のフローチャートである。処理700は、オーディオコーディングシステム10中のソースデバイス12またはオーディオコーディングデバイス200によって実行され得る。処理700は、一連のステップまたは動作を含む。処理700は、様々なシーケンスでおよび/または同時に実施されてよく、
図7に示されている実行シーケンスに限定されないことを理解されたい。
図7に示されているように、方法は以下のステップを含む。
【0269】
ステップ701:符号化されるべき第1のオーディオフレームを取得し、第1のオーディオフレームはK個のチャネル信号を含む。
【0270】
ステップ701については、ステップ301を参照されたい。詳細について本明細書で再び説明されない。
【0271】
ステップ702:Kがチャネル信号量しきい値よりも大きいとき、
図3の実施形態による方法を使用することによって第1のオーディオフレームを符号化する。
【0272】
ステップ703:Kがチャネル信号量しきい値以下であるとき、
図5の実施形態による方法を使用することによって第1のオーディオフレームを符号化する。
【0273】
この実施形態と
図3または
図5の実施形態との間の違いは、この実施形態では、
図3および
図5の方法が一緒に使用されることであり、言い換えれば、第1のオーディオフレームのターゲットチャネルペアセットを取得するための方法は、第1のオーディオフレームに含まれるチャネル信号の数量に基づいて決定される。第1のオーディオフレームが大量のチャネル信号を含むとき、第2の態様における方法が使用された場合、すべてのターゲットチャネルペアセットが網羅的にリストされる必要があり、それにより、計算量が増加する。したがって、この場合、第1の態様における方法が使用されたとき、多くの計算量が低減される。第1のオーディオフレームが少量のチャネル信号を含むとき、すべてのチャネルペアセットの相関値の合計は、第2の態様による方法を使用することによって取得されてよく、それにより、最終的に選択されたターゲットチャネルペアセットは、第1のオーディオフレームの特徴を最も良く満たす最適な結果に確実になることが保証される。
【0274】
図8は、本出願に従ってマルチチャネルオーディオ信号復号方法が適用される復号装置の構造の例示的な図である。復号装置は、オーディオコーディングシステム10中の宛先デバイス14のデコーダ30であり得るか、またはオーディオコーディングデバイス200中のコーディングモジュール270であり得る。復号装置は、ビットストリーム逆多重化インターフェース、チャネル復号モジュール、およびマルチチャネル処理モジュールを含み得る。
【0275】
ビットストリーム逆多重化インターフェースは、符号化装置から、符号化されたマルチチャネル信号(たとえば、直列ビットストリーム bitstream)を受信し、逆多重化の後に、符号化されたチャネル信号(E)およびマルチチャネルパラメータ(SIDE_PAIR)、たとえば、E1、E2、E3、E4、...、Ei-1、およびEi、ならびにSIDE_PAIR1、SIDE_PAIR2、…、およびSIDE_PAIRmを取得する。
【0276】
チャネル復号モジュールは、モノチャネル復号ユニット(またはモノチャネルチャネルボックスもしくはモノチャネルツール)を使用して、ビットストリーム逆多重化インターフェースによって出力された符号化されたチャネル信号を復号し、復号されたチャネル信号(D)を出力する。たとえば、E1、E2、E3、E4、…、Ei-1、およびEiは、モノチャネル復号ユニットによって復号されて、D1、D2、D3、D4、…、Di-1、およびDiが取得される。
【0277】
マルチチャネル処理モジュールは、複数のステレオ処理ユニットを含む。ステレオ処理ユニットは、予測ベースまたはKLTベースの処理を使用してよく、言い換えれば、入力された2つのチャネル信号は、(たとえば、2×2回転行列を使用することによって)逆回転されて、信号は元の信号方向にコンバートされる。
【0278】
チャネル復号モジュールによって出力された、復号されたチャネル信号中のどの2つの復号されたチャネル信号がペアリングされるかということは、マルチチャネルパラメータに基づいて識別されることが可能であり、ペアリングされた復号されたチャネル信号は、ステレオ処理ユニットに入力される。入力された2つの復号されたチャネル信号を処理した後に、ステレオ処理ユニットは、2つの復号されたチャネル信号に対応するチャネル信号(CH)を出力する。たとえば、ステレオ処理ユニット1は、SIDE_PAIR1に基づいてD1およびD2を処理してCH1およびCH2を取得し、ステレオ処理ユニット2は、SIDE_PAIR2に基づいてD3およびD4を処理してCH3およびCH4を取得し、…、ステレオ処理ユニットmは、SIDE_PAIRmに基づいてDi-1およびDiを処理してCHi-1およびCHiを取得する。
【0279】
ペアリングされないチャネル信号(たとえば、CHj)は、マルチチャネル処理モジュール中のステレオ処理ユニットによって処理される必要がなく、復号された後に直接出力され得ることに留意されたい。
【0280】
図9は、本出願の実施形態による符号化装置の構造の概略図である。
図9に示されているように、装置は、上記の実施形態におけるソースデバイス12またはオーディオコーディングデバイス200中で使用され得る。この実施形態における符号化装置は、取得モジュール901、符号化モジュール902、および決定モジュール903を含み得る。
【0281】
可能な実装では、取得モジュール901は、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、相関値セットからM個の相関値を選択することであって、すべてのM個の相関値は、相関値セット中のM個の相関値以外の相関値よりも大きく、すべてのM個の相関値は、ペアリングしきい値以上であり、Mは、指定された値以下の正の整数である、ことと、M個のチャネルペアセットを取得することであって、各チャネルペアセットは、M個の相関値に対応するM個のチャネルペアのうちの少なくとも1つを含み、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、こととを行うように構成される。決定モジュール903は、M個のチャネルペアセットからターゲットチャネルペアセットを決定するように構成され、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、M個のチャネルペアセットのものの中で最も大きい。符号化モジュール902は、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するように構成される。
【0282】
可能な実装では、M個のチャネルペアセットは、第1のチャネルペアセットを含む。取得モジュール901は、M個のチャネルペア中の第1のチャネルペアを第1のチャネルペアセットに追加することであって、第1のチャネルペアは、M個のチャネルペアのいずれか1つである、ことと、複数のチャネルペア中の関連するチャネルペア以外のチャネルペアが、相関値がペアリングしきい値よりも大きいチャネルペアを含むとき、他のチャネルペアから相関値が最も大きいチャネルペアを選択し、このチャネルペアを第1のチャネルペアセットに追加することであって、関連するチャネルペアは、第1のチャネルペアセットに追加されたチャネルペアに含まれるチャネル信号のいずれか1つを含む、こととを行うように特に構成される。
【0283】
可能な実装では、取得モジュール901は、相関値セットからN個の相関値を選択することであって、すべてのN個の相関値は、相関値セット中のN個の相関値以外の相関値よりも大きく、Nは、指定された値である、ことと、N個の相関値からペアリングしきい値以上の相関値を選択することであって、ペアリングしきい値以上の相関値の数量は、Mである、こととを行うように特に構成される。
【0284】
可能な実装では、相関値は、正規化された値である。
【0285】
可能な実装では、チャネルペアの相関値がペアリングしきい値よりも小さいとき、チャネルペアの相関値は0に設定される。
【0286】
可能な実装では、取得モジュール901は、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、相関値セットを取得することであって、相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、複数のチャネルペアに基づいて複数のチャネルペアセットを取得することであって、チャネルペアセットが少なくとも2つのチャネルペアを含むとき、少なくとも2つのチャネルペアは同じチャネル信号を含まない、ことと、相関値セットに基づいて、複数のチャネルペアセットの各々に含まれるすべてのチャネルペアの相関値の合計をこととを行うように構成される。決定モジュール903は、ターゲットチャネルペアセットを決定するように構成され、ターゲットチャネルペアセット中のすべてのチャネルペアの相関値の合計は、複数のチャネルペアセットのものの中で最も大きい。符号化モジュール902は、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化するように構成される。
【0287】
可能な実装では、取得モジュール901は、複数のチャネルペア中の無相関チャネルペア以外のチャネルペアに基づいて複数のチャネルペアセットを取得するように特に構成され、無相関チャネルペアの相関値は、ペアリングしきい値よりも小さい。
【0288】
可能な実装では、取得モジュール901は、符号化されるべき第1のオーディオフレームを取得することであって、第1のオーディオフレームは、少なくとも5つのチャネル信号を含む、ことと、第1のオーディオフレームの相関値セットを取得することであって、第1のオーディオフレームの相関値セットは、複数のチャネルペアのそれぞれの相関値を含み、1つのチャネルペアは、少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示す、ことと、第2のオーディオフレームの相関値セットを取得することであって、第2のオーディオフレームの相関値セットは、第2のオーディオフレームの複数のチャネルペアの相関値を含み、1つのチャネルペアは、第2のオーディオフレームの少なくとも5つのチャネル信号のうちの2つのチャネル信号を含み、チャネルペアの相関値は、チャネルペアの2つのチャネル信号間の相関を示し、第2のオーディオフレームは、第1のオーディオフレームの先行フレームである、こととを行うように構成される。符号化モジュール902は、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セットに基づいて、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があるかどうかを決定することと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がある場合、
図3および
図5の実施形態による方法を使用することによって第1のオーディオフレームのターゲットチャネルペアセットを取得し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化することと、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がない場合、第1のオーディオフレームのターゲットチャネルペアセットとして第2のオーディオフレームのターゲットチャネルペアセットを決定し、ターゲットチャネルペアセットに基づいて第1のオーディオフレームを符号化することとを行うように構成される。
【0289】
可能な実装では、符号化モジュール902は、第1のオーディオフレームの相関値セットおよび第2のオーディオフレームの相関値セット中の同じチャネルペアに対応する相関値間の差の絶対値を計算することと、複数のチャネルペアに対応する絶対値の合計を計算することと、絶対値の合計が変化しきい値よりも小さいとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要がないと決定すること、または絶対値の合計が変化しきい値以上であるとき、第1のオーディオフレームのターゲットチャネルペアセットが再取得される必要があると決定することとを行うように特に構成される。
【0290】
可能な実装では、取得モジュールは、符号化されるべき第1のオーディオフレームを取得するように構成され、第1のオーディオフレームはK個のチャネル信号を含み、Kは5以上の整数である。符号化モジュールは、Kがチャネル信号量しきい値よりも大きいとき、
図3の実施形態による方法を使用することによって第1のオーディオフレームを符号化することと、Kがチャネル信号量しきい値以下であるとき、
図5の実施形態による方法を使用することによって第1のオーディオフレームを符号化することとを行うように構成される。
【0291】
この実施形態における装置は、
図3、
図5、
図6、または
図7に示されている方法実施形態における技術的解決策を実行するように構成され得る。実装原理およびそれの技術的効果は同様であり、詳細について本明細書で再び説明されない。
【0292】
図10は、本出願の実施形態によるデバイスの構造の概略図である。
図10に示されているように、デバイスは、上記の実施形態における符号化デバイスであり得る。この実施形態におけるデバイスは、プロセッサ1001およびメモリ1002を含み得る。メモリ1002は、1つまたは複数のプログラムを記憶するように構成される。1つまたは複数のプログラムがプロセッサ1001によって実行されたとき、プロセッサ1001は、
図3、
図5、
図6、または
図7に示されている方法実施形態の技術的解決策を実装することを可能にされる。
【0293】
実装処理において、上記の方法実施形態におけるステップは、プロセッサ中のハードウェア集積論理回路を使用することによって、またはソフトウェアの形態の命令を使用することによって実装され得る。プロセッサは、汎用プロセッサ、デジタル信号プロセッサ(digital signal processor,DSP)、特定用途向け集積回路(application-specific integrated circuit,ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array,FPGA)もしくは別のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理デバイス、または個別ハードウェア構成要素であり得る。汎用プロセッサはマイクロプロセッサであり得るか、またはプロセッサは任意の従来のプロセッサなどであり得る。本出願で開示される方法のステップは、ハードウェア符号化プロセッサによって直接実施され得るか、または符号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組合せによって実施され得る。ソフトウェアモジュールは、ランダムアクセスメモリ、フラッシュメモリ、読取り専用メモリ、プログラマブル読取り専用メモリ、電気消去可能プログラマブルメモリ、またはレジスタなど、当技術分野における成熟した記憶媒体中に位置し得る。記憶媒体はメモリ中に位置し、プロセッサは、メモリ中の情報を読み取り、プロセッサのハードウェアと組み合わせて上記の方法のステップを完了する。
【0294】
上記の実施形態におけるメモリは、揮発性メモリもしくは不揮発性メモリであり得るか、または揮発性メモリと不揮発性メモリの両方を含み得る。不揮発性メモリは、読取り専用メモリ(read-only memory,ROM)、プログラマブル読取り専用メモリ(programmable ROM,PROM)、消去可能プログラマブル読取り専用メモリ(erasable PROM,EPROM)、電気的消去可能プログラマブル読取り専用メモリ(electrically EPROM,EEPROM)、またはフラッシュメモリであり得る。揮発性メモリは、ランダムアクセスメモリ(random access memory,RAM)であってよく、外部キャッシュとして使用される。限定的な説明というよりむしろ例として、多くの形態のRAMが使用されてよく、たとえば、スタティックランダムアクセスメモリ(static RAM,SRAM)、ダイナミックランダムアクセスメモリ(dynamic RAM,DRAM)、シンクロナスダイナミックランダムアクセスメモリ(synchronous DRAM,SDRAM)、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(double data rate SDRAM,DDR SDRAM)、拡張シンクロナスダイナミックランダムアクセスメモリ(enhanced SDRAM,ESDRAM)、シンクリンクダイナミックランダムアクセスメモリ(synchlink DRAM,SLDRAM)、およびダイレクトラムバスランダムアクセスメモリ(direct rambus RAM,DR RAM)が使用されてよい。本明細書で説明されるシステムおよび方法のメモリは、別の適切なタイプのこれらのおよびいずれかのメモリを含むが、それらに限定されないことに留意されたい。
【0295】
当業者は、本明細書で開示される実施形態で説明される例と組み合わせて、電子ハードウェアまたはコンピュータソフトウェアと電子ハードウェアの組合せによってユニットおよびアルゴリズムステップが実装され得ることに気づき得る。機能がハードウェアによって実施されるのか、またはソフトウェアによって実施されるのかは、特定の適用例および技術的解決策の設計制約に依存する。当業者は、特定の適用例ごとに説明される機能を実装するために異なる方法を使用し得るが、実装が本出願の範囲を越えると考えられるべきではない。
【0296】
説明の便宜上、また説明を簡単にするために、上記のシステム、装置、およびユニットの詳細な作業処理については、上記の方法実施形態における対応する処理を参照されたいことが、当業者には明確に理解されよう。詳細について本明細書で再び説明されない。
【0297】
本出願で提供されるいくつかの実施形態において、開示されるシステム、装置、および方法は、他の方式で実装され得ることを理解されたい。たとえば、上記の説明された装置実施形態は例にすぎない。たとえば、ユニットへの分割は、論理的な機能分割にすぎず、実際の実装では別の分割であってよい。たとえば、複数のユニットまたは構成要素が別のシステムへと組み合わされるかもしくは統合され得、またはいくつかの特徴は無視されることがあるか、もしくは実施されないことがある。加えて、表示もしくは議論された相互結合もしくは直接結合または通信接続は、いくつかのインターフェースを通して実装され得る。装置間またはユニット間の間接結合または通信接続は、電子的な形態、機械的な形態、または他の形態で実装され得る。
【0298】
別個の部分として説明されたユニットは、物理的に別個であることもそうでないこともあり、ユニットとして表示された部分は、物理ユニットであることもそうでないこともあり、1つの位置に位置し得るか、または複数のネットワークユニット上に分散され得る。一部または全部のユニットは、実施形態の解決策の目的を達成するために実際の必要性に従って選択され得る。
【0299】
加えて、本出願の実施形態における機能ユニットは1つの処理ユニットへと統合されることがあるか、ユニットの各々は物理的に単独で存在することがあるか、または2つ以上のユニットは1つのユニットへと統合される。
【0300】
機能が、ソフトウェア機能ユニットの形態で実装され、独立した製品として販売または使用されるとき、機能は、コンピュータ可読記憶媒体に記憶され得る。そのような理解に基づいて、本質的に本出願における技術的解決策、または従来の技術に寄与する部分、または技術的解決策の一部は、ソフトウェア製品の形態で実装され得る。コンピュータソフトウェア製品は、記憶媒体に記憶され、本出願の実施形態における方法のステップの全部または一部を実施するようにコンピュータデバイス(パーソナルコンピュータ、サーバ、ネットワークデバイスなど)に命令するためのいくつかの命令を含む。上記の記憶媒体は、USBフラッシュドライブ、取外し可能なハードディスク、読取り専用メモリ(read-only Memory,ROM)、ランダムアクセスメモリ(random access memory,RAM)、磁気ディスク、または光ディスクなど、プログラムコードを記憶することができる任意の媒体を含む。
【0301】
上記の説明は、本出願の特定の実装にすぎず、本出願の保護範囲を限定することを意図されていない。本出願で開示される技術範囲内で当業者によって容易に想到されるいかなる変形または置換も、本出願の保護範囲内に入るものである。したがって、本出願の保護範囲は、特許請求の範囲の保護範囲に従わなければならないものである。