(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024050601
(43)【公開日】2024-04-10
(54)【発明の名称】予測コーディングにおける低コスト誤り回復のための方法および装置
(51)【国際特許分類】
G10L 19/005 20130101AFI20240403BHJP
【FI】
G10L19/005
【審査請求】有
【請求項の数】14
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024002291
(22)【出願日】2024-01-11
(62)【分割の表示】P 2021557779の分割
【原出願日】2020-03-27
(31)【優先権主張番号】62/892,637
(32)【優先日】2019-08-28
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/826,084
(32)【優先日】2019-03-29
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ブルートゥース
(71)【出願人】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【弁理士】
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100150670
【弁理士】
【氏名又は名称】小梶 晴美
(74)【代理人】
【識別番号】100199705
【弁理士】
【氏名又は名称】仙波 和之
(74)【代理人】
【識別番号】100194294
【弁理士】
【氏名又は名称】石岡 利康
(72)【発明者】
【氏名】モラディ アシュア, チャムラーン
(72)【発明者】
【氏名】ノーベル, エリク
(57)【要約】 (修正有)
【課題】受信したマルチチャネル信号において復号されたパラメータを置換する。
【解決手段】デコーダは、信号のフレームのマルチチャネルパラメータを復号し、不良フレームが示される場合、パラメータメモリが破損していると決定し、不良フレームが示されない場合、パラメータメモリが破損していないときは、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出し、パラメータメモリが破損しているときは、ロケーション測定に基づいて、再構築された音源が安定しており、受信したマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうか決定する。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定している場合、復号したマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動する。
【選択図】
図9
【特許請求の範囲】
【請求項1】
受信されたマルチチャネル信号において復号されたパラメータを置換する方法であって、前記方法は、
前記受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パラメータメモリが破損していると決定すること(904)と、
前記不良フレームが示されないことに応答して、
前記パラメータメモリが破損していないことに応答して(906)、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記パラメータメモリが破損していることに応答して(906)、前記ロケーション測定に基づいて、前記再構築された音源が安定しており、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルのサブセット内に集中しており、安定していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む、方法。
【請求項2】
前記不良フレームが示されていることにさらに応答して、パケット損失隠蔽動作を実行する、請求項1に記載の方法。
【請求項3】
前記不良フレームが示されていないことにさらに応答して、前記復号されたマルチチャネルパラメータを、前記記憶されたマルチチャネルパラメータとして記憶する、請求項1または2に記載の方法。
【請求項4】
前記マルチチャネルは、2つのチャネルを含み、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルのサブセット内に主に集中しているかどうかを決定すること(910)は、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項1に記載の方法。
【請求項5】
コーディングモードは、絶対コーディングモードおよび予測コーディングモードのうちの1つを含み、前記コーディングモードが前記絶対コーディングモードであることに応答して、メモリ破損フラグを、前記メモリ破損フラグが設定されていることに応答して解除する、請求項1または2に記載の方法。
【請求項6】
前記ロケーション測定を導出することは、
に基づいて、前記ロケーション測定を導出することを含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記音源の前記ロケーション測定が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することと
を含む、請求項6に記載の方法。
【請求項8】
前記ロケーション測定を導出することは、
に基づいて、前記ロケーション測定を導出することを含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、請求項1に記載の方法。
【請求項9】
通信ネットワークのためのデコーダ(200)であって、前記デコーダ(100)は、
プロセッサ(801)と、
前記プロセッサに結合されたメモリ(803)とを備え、前記メモリは、命令を含み、前記命令は、前記プロセッサによって実行された場合、前記プロセッサに、
受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パラメータメモリが破損していると決定すること(904)と、
前記不良フレームが示されないことに応答して、
前記パラメータメモリが破損していないことに応答して(906)、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記パラメータメモリが破損していることに応答して(906)、前記ロケーション測定に基づいて、前記再構築された音源が安定しており、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルのサブセット内に集中しており、安定していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行させる、デコーダ(200)。
【請求項10】
前記マルチチャネルは、2つのチャネルを含み、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルのサブセット内に主に集中しているかどうかを決定すること(910)は、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項9に記載のデコーダ(200)。
【請求項11】
コーディングモードは、絶対コーディングモードおよび予測コーディングモードのうちの1つを含み、前記コーディングモードが前記絶対コーディングモードであることに応答して、メモリ破損フラグを、前記メモリ破損フラグが設定されていることに応答して解除する、請求項9または10に記載のデコーダ(200)。
【請求項12】
前記ロケーション測定を導出することは、
に基づいて、前記ロケーション測定を導出することを含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、請求項9から11のいずれか一項に記載のデコーダ(200)。
【請求項13】
前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記音源の前記ロケーション測定が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することと
を含む、請求項12に記載のデコーダ(200)。
【請求項14】
前記ロケーション測定を導出することは、
に基づいて、前記ロケーション測定を導出することを含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、請求項13に記載のデコーダ(200)。
【請求項15】
通信ネットワークにおいて動作するように設定されたデコーダ(200)であって、前記デコーダは、
受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パラメータメモリが破損していると決定すること(904)と、
前記不良フレームが示されないことに応答して、
前記パラメータメモリが破損していないことに応答して(906)、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記パラメータメモリが破損していることに応答して(906)、前記ロケーション測定に基づいて、前記再構築された音源が安定しており、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルのサブセット内に集中しており、安定していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行するように適合される、デコーダ(200)。
【請求項16】
請求項2から8のいずれか一項に記載の動作を実行するようにさらに適合される、請求項15に記載のデコーダ(200)。
【請求項17】
コンピュータ実行可能な命令を含むコンピュータプログラムであって、前記コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、前記デバイスに、
受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パラメータメモリが破損していると決定すること(904)と、
前記不良フレームが示されないことに応答して、
前記パラメータメモリが破損していないことに応答して(906)、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記パラメータメモリが破損していることに応答して(906)、前記ロケーション測定に基づいて、前記再構築された音源が安定しており、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルのサブセット内に集中しており、安定していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行させる、コンピュータプログラム。
【請求項18】
デバイス内に含まれるプロセッサ上で実行された場合、前記デバイスに、請求項2から8のいずれか一項に記載の動作を実行させる、さらなるコンピュータ実行可能な命令を含む、請求項17に記載のコンピュータプログラム。
【請求項19】
非一時的なコンピュータ可読ストレージ媒体(803)を備えるコンピュータプログラム製品であって、前記非一時的なコンピュータ可読ストレージ媒体は、コンピュータ実行可能な命令を有し、前記コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ(801)上で実行された場合、前記デバイスに、
受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パラメータメモリが破損していると決定すること(904)と、
前記不良フレームが示されないことに応答して、
前記パラメータメモリが破損していないことに応答して(906)、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記パラメータメモリが破損していることに応答して(906)、前記ロケーション測定に基づいて、前記再構築された音源が安定しており、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルのサブセット内に集中しており、安定していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行させる、コンピュータプログラム製品。
【請求項20】
前記非一時的なコンピュータ可読ストレージ媒体は、さらなるコンピュータ実行可能な命令を有し、前記さらなるコンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ(801)上で実行された場合、前記デバイスに、請求項2から8のいずれか一項に記載の動作を実行させる、請求項19に記載のコンピュータプログラム製品。
【請求項21】
復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換する方法であって、前記方法は、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む、方法。
【請求項22】
前記マルチチャネルは、2つのチャネルを含み、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項21に記載の方法。
【請求項23】
前記コーディングモードが絶対コーディングモードであることに応答して、前記メモリ破損フラグを解除すること(1004)
をさらに含む、請求項21または22に記載の方法。
【請求項24】
不良フレームが示されることに応答して、前記メモリ破損フラグを設定すること(1000)
をさらに含む、請求項21から23のいずれか一項に記載の方法。
【請求項25】
前記ロケーション測定を、
に基づいて更新することをさらに含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、請求項21から24のいずれか一項に記載の方法。
【請求項26】
前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、請求項25に記載の方法。
【請求項27】
前記ロケーション測定を、
に基づいて導出することをさらに含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、請求項23に記載の方法。
【請求項28】
通信ネットワークのためのデコーダ(200)であって、前記デコーダ(100)は、
プロセッサ(801)と、
前記プロセッサに結合されたメモリ(803)とを備え、前記メモリは、命令を含み、前記命令は、前記プロセッサによって実行された場合、前記プロセッサに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、デコーダ(200)。
【請求項29】
前記マルチチャネルは、2つのチャネルを含み、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項28に記載のデコーダ(200)。
【請求項30】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
前記コーディングモードが絶対コーディングモードであることに応答して、前記メモリ破損フラグを解除すること(1004)
を含む、さらなる動作を実行させる、請求項28または29に記載のデコーダ(200)。
【請求項31】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
不良フレームが示されることに応答して、前記メモリ破損フラグを設定すること(1000)
を含む、さらなる動作を実行させる、請求項28から30のいずれか一項に記載のデコーダ(200)。
【請求項32】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を更新することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、前記ロケーション測定を更新することを含む、さらなる動作を実行させる、請求項28から31のいずれか一項に記載のデコーダ(200)。
【請求項33】
前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて、決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、請求項32に記載のデコーダ(200)。
【請求項34】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を導出することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、前記ロケーション測定を導出することを含む、さらなる動作を実行させる、請求項28に記載のデコーダ(200)。
【請求項35】
通信ネットワークにおいて動作するように設定されたデコーダ(200)であって、前記デコーダは、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行するように適合される、デコーダ(200)。
【請求項36】
前記デコーダは、請求項22から27のいずれか一項に記載の動作を実行するようにさらに適合される、請求項35に記載のデコーダ(200)。
【請求項37】
コンピュータ実行可能な命令を含むコンピュータプログラムであって、前記コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、前記デバイスに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、コンピュータプログラム。
【請求項38】
デバイス内に含まれるプロセッサ上で実行された場合、前記デバイスに、請求項22から27のいずれか一項に記載の動作を実行させる、さらなるコンピュータ実行可能な命令を含む、請求項37に記載のコンピュータプログラム。
【請求項39】
非一時的なコンピュータ可読ストレージ媒体(803)を備えるコンピュータプログラム製品であって、前記非一時的なコンピュータ可読ストレージ媒体は、コンピュータ実行可能な命令を有し、前記コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ(801)上で実行された場合、前記デバイスに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、コンピュータプログラム製品。
【請求項40】
前記非一時的なコンピュータ可読ストレージ媒体は、さらなるコンピュータ実行可能な命令を有し、前記さらなるコンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ(801)上で実行された場合、前記デバイスに、請求項22から27のいずれか一項に記載の動作を実行させる、請求項41に記載のコンピュータプログラム製品。
【請求項41】
受信されたマルチチャネル信号において、復号されたパラメータを、推定されたパラメータに置換するように設定された装置であって、前記装置は、
少なくとも1つのプロセッサ(801)と、
前記プロセッサに通信可能に結合されたメモリ(803)とを備え、前記メモリは、前記プロセッサによって実行可能な命令を含み、前記命令は、前記プロセッサに、
絶対コーディングモードまたは予測コーディングモードのうちの1つを使用して、前記受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
前記不良フレームが示されることに応答して、パケット損失隠蔽動作を実行することと、
前記不良フレームが示されないことに応答して、
少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定すること(906)と、
復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
前記ロケーション測定に基づいて、前記再構築された音源が安定しているかどうか、および、前記ロケーション測定が、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
前記再構築された音源が安定していること、および、前記ロケーション測定が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中していること、および、前記パラメータメモリが破損していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行させる、装置。
【請求項42】
前記コーディングモードは、絶対コーディングモードおよび予測コーディングモードのうちの1つを含み、少なくとも前記コーディングモードおよび前記先行不良フレームインジケータに基づいて、前記パラメータメモリが破損しているかどうかを決定することは、前記コーディングモードが前記予測コーディングモードであること、および前記先行不良フレームインジケータに基づいて、前記パラメータメモリが破損しているかどうかを決定することを含む、請求項41に記載の装置。
【請求項43】
前記マルチチャネルは、2つのチャネルを含み、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルのサブセット内に主に集中しているかどうかを決定すること(910)は、前記ロケーション測定に基づいて、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項41または42に記載の装置。
【請求項44】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を導出することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、前記ロケーション測定を導出することを含む、さらなる動作を実行させる、請求項41から43のいずれか一項に記載の装置。
【請求項45】
前記再構築された音源が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に従って決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源が、前記マルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することと
を含む、請求項44に記載の装置。
【請求項46】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を導出することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、前記ロケーション測定を導出することを含む、さらなる動作を実行させる、請求項43に記載の装置。
【請求項47】
受信されたマルチチャネル信号において、復号されたパラメータを、推定されたパラメータに置換するように設定された装置であって、前記装置は、
少なくとも1つのプロセッサ(801)と、
前記プロセッサに通信可能に結合されたメモリ(803)とを備え、前記メモリは、前記プロセッサによって実行可能な命令を含み、前記命令は、実行された場合、前記プロセッサに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、前記受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、装置。
【請求項48】
前記メモリは、前記プロセッサによって実行可能なさらなる命令を含み、前記さらなる命令は、実行された場合、前記プロセッサに、
前記コーディングモードが絶対コーディングモードであることに応答して、前記メモリ破損フラグを解除すること(1004)
を含む動作を実行させる、請求項47に記載の装置。
【請求項49】
前記メモリは、前記プロセッサによって実行可能なさらなる命令を含み、前記さらなる命令は、実行された場合、前記プロセッサに、
不良フレームが示されることに応答して、前記メモリ破損フラグを設定すること(1000)
を含む動作を実行させる、請求項47に記載の装置。
【請求項50】
前記マルチチャネルは、2つのチャネルを含み、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)、請求項47から49のいずれか一項に記載の装置。
【請求項51】
前記メモリは、前記プロセッサによって実行可能なさらなる命令を含み、前記さらなる命令は、実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を更新することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、前記ロケーション測定を更新することを含む動作を実行させる、請求項47から49のいずれか一項に記載の装置。
【請求項52】
前記再構築された音源の前記ロケーション測定が、前記チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、請求項51に記載の装置。
【請求項53】
前記メモリは、前記プロセッサによって実行可能なさらなる命令を含み、前記さらなる命令は、実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を導出することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、前記ロケーション測定を導出することを含む動作を実行させる、請求項49に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、ステレオまたはマルチチャネルオーディオエンコーディングおよび復号のための予測コーディングにおける誤り回復のための方法および装置に関する。
【背景技術】
【0002】
通信ネットワーク内の容量は、連続的に増加しているが、通信チャネル当たりの必要な帯域幅を限定することは、依然として大きな関心事である。モバイルネットワークにおいて、各呼に対する、より小さな送信帯域幅は、モバイルデバイスと基地局との両方において、より低い電力消費をもたらす。これは、モバイルオペレータにとってはエネルギーおよびコストの節約につながり、一方で、エンドユーザは、バッテリ寿命の長時間化および通話時間の増加を体験することになる。さらに、ユーザ当たりの消費帯域幅が少なくなれば、モバイルネットワークは、より多くのユーザに並行してサービスすることができる。
【0003】
現在の音楽再生システムおよび映画館を通じて、大抵のリスナーは、高品質のイマーシブオーディオに慣れている。モバイル通信サービスにおいて、無線リソースおよび処理遅延に対する制約は、品質をより低いレベルに維持してきており、大抵の音声サービスは、依然としてモノラル音のみを伝える。近年、通信サービスのためのステレオおよびマルチチャネル音は、モノラル音を超えたイマーシブ音再生を必要とする仮想/複号/拡張現実の文脈において勢いを増してきた。通信ネットワークの帯域幅制約内で高品質な空間音をレンダリングすることは、依然として課題を提示する。また、音再生は、例えばネットワーク輻輳または不十分なセルカバレッジに起因して臨時のデータパケットが失われ得る、変動するチャネル条件にも対処する必要がある。
【0004】
典型的なステレオ記録において、チャネルペアは、高度な類似性、または相関性を示し得る。ステレオコーディング方式のいくつかの実施形態は、パラメトリックコーディングを採用することによって、この相関性を利用し得、この場合、単一のチャネルは、高品質で符号化され、完全なステレオイメージの再構築を可能にするパラメトリック記述、例えば、IEEE Transactions on Audio,Speech,and Language Processing、vol.14、no.1、299~310頁,2006年1月における、C.Faller、「Parametric multichannel audio coding:synthesis of coherence cues」において論じられている方式などにより補完される。チャネルペアを単一のチャネルへ低減するプロセスは、ダウンミックスと呼ばれることが多く、結果として生じるチャネルは、ダウンミックスチャネルと呼ばれることが多い。ダウンミックス手続きは、典型的には、チャネルを混合する前に、チャネル間時間差(ITD)およびチャネル間位相差(IPD)をアラインすることによって、エネルギーを維持しようとする。入力信号のエネルギーバランスを維持するために、チャネル間レベル差(ILD)も測定され得る。次いで、ITD、IPDおよびILDは、符号化され、デコーダにおいてステレオチャネルペアを再構築する場合に、反転されたアップミックス手続きにおいて使用され得る。ITDパラメータ、IPDパラメータおよびILDパラメータは、チャネルペアの相関成分を説明し、一方で、ステレオチャネルペアは、ダウンミックスから再構築されることができない非相関成分も含み得る。この非相関成分は、チャネル間コヒーレンスパラメータ(ICC)により表現され得る。非相関成分は、復号されたダウンミックスチャネルを無相関器フィルタに通すことによって、ステレオデコーダにおいて合成され得、無相関器フィルタは、復号されたダウンミックスと低い相関性を有する信号を出力する。無相関成分の強度は、ICCパラメータにより制御され得る。
【0005】
同様の原理は、5.1および7.1.4などのマルチチャネルオーディオ、ならびにアンビソニックスまたは空間オーディオオブジェクトコーディングなどの空間オーディオ表現に適用される。チャネルの数は、チャネル間の相関性を利用し、低減されたチャネルセットと、チャネル再構築または空間オーディオレンダリングのためのメタデータまたはパラメータとをデコーダにおいて束ねることによって、低減されることが可能である。
【0006】
送信誤りおよびパケット損失の問題を克服するために、通信サービスは、パケット損失隠蔽(PLC)技法を利用する。データパケットが、接続不良、ネットワーク輻輳等に起因して損失または破損した場合、受信機側における損失または破損したデータパケットの欠落情報は、デコーダによって、合成信号と置換されて、損失または破損したデータパケットが隠蔽される。PLC技法のいくつかの実施形態は、デコーダと密接に結び付けられることが多く、この場合、内部状態は、パケット損失をカバーするために信号継続または外挿法を生み出すために使用されることが可能である。異なる信号タイプのためのいくつかの動作モードを有するマルチモードコーデックの場合、損失または破損データパケットの隠蔽をハンドリングするために実装されることが可能ないくつかのPLC技術があることが多い。
【0007】
欠落または破損したパケットは、接続をハンドリングするトランスポート層によって識別され、不良フレームインジケータ(BFI)を通じて「不良フレーム」としてデコーダに伝えられ、BFIは、フラグの形態であってもよい。デコーダは、このフラグをその内部状態内に記憶し、不良フレームの履歴、例えば「先行不良フレームインジケータ」(PREV BFI)も追跡し得る。1つの送信パケットは、1つまたは複数のスピーチフレームまたはオーディオフレームを含有し得ることに留意されたい。これは、1つの損失または破損パケットが、そこに含有されるフレーム全てを「不良」としてラベル付けすることになることを意味する。
【0008】
安定したオーディオシーンの場合、パラメータは、隣接フレーム間で高度な類似性を示し得る。この類似性を利用するために、予測コーディング方式が適用され得る。そのような方式では、現在のフレームパラメータの予測が、過去の復号されたパラメータに基づいて導出され、真のパラメータとの差が符号化される。単純だが効率的な予測は、最後に復号されたパラメータを予測として使用することであり、この場合において、予測コーディング方式は、差分符号化方式と称されることが可能である。
【0009】
予測コーディング方式の1つの問題は、この方式が誤りに対して敏感になり得ることである。例えば、予測されたシーケンスの1つまたは複数の要素が損失した場合、デコーダは、予測誤りを有することになり、予測誤りは、この誤りが発生した後、長期間続き得る。この問題は、誤り伝播と呼ばれ、あらゆる予測コーディング方式において存在し得る。誤り伝播の例示は、
図1において提供される。
図1において、絶対コーディングフレームは、連続する予測コーディングフレーム(すなわち、予測コーディングストリーク)のシーケンスの前に損失する。損失フレームからのパラメータで更新されていたはずのメモリは、先行するパラメータを記憶し、したがって、破損されることになる。メモリがフレーム損失によって破損されるので、誤りは、予測コーディングストリークの全期間中続き、新しい絶対コーディングフレームが受信された場合にのみ終了することになる。そのような損失の1つの結果は、合成された信号に対する効果であり、この効果は、源の知覚されたロケーションにおける、望まれない、劇的ですらある変化であり得る。これは、源が静的で極端な位置、例えば、ステレオシーンにおける右端または左端のいずれかに配置された音源、を有する場合に、特に顕著である。
【0010】
1つの改善法は、規則的な時間間隔で非予測コーディングを強要することであり、これは誤り伝播を終了させることになる。別の解決策は、部分冗長性方式を使用することであり、この場合、パラメータの低解像度エンコーディングが、隣接するオーディオフレームと共に送信される。デコーダが、予測コーディングストリークにおいてフレーム損失を検出した場合、低解像度パラメータが使用されて、誤り伝播が低減されることが可能である。
【発明の概要】
【0011】
上述した予測コーディング改善法の1つの欠点は、それらが帯域幅を消費することであり、これは、送信チャネルに誤りがない場合、浪費される帯域幅となる。
【0012】
いくつかの実施形態によれば、受信されたマルチチャネル信号において復号されたパラメータを置換するための方法が提供される。本方法は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む。本方法は、不良フレームが示されるかどうかを決定することをさらに含む。不良フレームが示されることに応答して、本方法は、パラメータメモリが破損していると決定することを含む。本方法は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することを含む。本方法は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することを含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、本方法は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0013】
復号されたパラメータの代わりに、メモリからのパラメータを使用することの潜在的な利点は、動作が、誤り無しのチャネル動作において浪費される冗長なパラメータ情報を送信せずに、予測コーディングの問題を低減することができる点である。さらに、安定したオーディオシーン期間中にのみ、推定されたパラメータを使用することは、オーディオシーンが、不安定なオーディオシーン期間中に不自然な手法で「凍結される」ことを回避する。
【0014】
復号されたパラメータの代わりに、メモリからのパラメータを使用することの別の潜在的な利点は、不良フレームが示された場合に、メモリからのパラメータを使用した、再生音の知覚されたロケーションが、復号されたパラメータと比較して、音の実際のロケーションにより近くなり得ることである。特に、メモリからのパラメータを使用することは、源が安定しており、1つのチャネルまたはチャネルのサブセット内に集中している場合に、音のロケーションの望ましくない、または不自然なシフトを低減し得る。
【0015】
発明概念のいくつかの実施形態によれば、通信ネットワークのためのデコーダが提供される。デコーダは、プロセッサと、プロセッサに結合されたメモリとを有し、メモリは、命令を含み、命令は、プロセッサによって実行された場合、プロセッサに、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む動作を実行させる。動作は、不良フレームが示されるかどうかを決定することをさらに含む。動作は、不良フレームが示されることに応答して、パラメータメモリが破損していると決定することをさらに含む。動作は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することをさらに含む。動作は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することをさらに含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、動作は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0016】
発明概念のいくつかの実施形態によれば、通信ネットワークにおいて動作するように設定されたデコーダが提供される。デコーダは、動作を実行するように適合される。動作は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む。動作は、不良フレームが示されるかどうかを決定することを含む。動作は、不良フレームが示されることに応答して、パラメータメモリが破損していると決定することを含む。動作は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することを含む。動作は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することを含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、動作は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0017】
発明概念のいくつかの実施形態によれば、コンピュータ実行可能な命令を含むコンピュータプログラムであって、コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、デバイスに動作を実行させる、コンピュータプログラムが提供される。動作は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む。動作は、不良フレームが示されるかどうかを決定することをさらに含む。動作は、不良フレームが示されることに応答して、パラメータメモリが破損していると決定することをさらに含む。動作は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することを含む。動作は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することを含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、動作は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0018】
発明概念のいくつかの実施形態によれば、非一時的なコンピュータ可読ストレージ媒体を備えるコンピュータプログラムが提供され、非一時的なコンピュータ可読ストレージ媒体は、コンピュータ実行可能な命令を有し、コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、デバイスに動作を実行させる。動作は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む。動作は、不良フレームが示されるかどうかを決定することをさらに含む。動作は、不良フレームが示されることに応答して、パラメータメモリが破損していると決定することをさらに含む。動作は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することを含む。動作は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することを含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、動作は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0019】
発明概念のいくつかの実施形態によれば、受信されたマルチチャネル信号において復号されたパラメータを推定されたパラメータと置換するように設定された装置が提供される。本装置は、少なくとも1つのプロセッサと、プロセッサに通信可能に結合されたメモリとを含み、前記メモリは、プロセッサによって実行可能な命令を含み、この命令は、プロセッサに動作を実行させる。動作は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号することを含む。動作は、不良フレームが示されるかどうかを決定することをさらに含む。動作は、不良フレームが示されることに応答して、パラメータメモリが破損していると決定することをさらに含む。動作は、不良フレームが示されないことに応答して、およびパラメータメモリが破損していないことに応答して、本方法は、復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出することを含む。動作は、パラメータメモリが破損していることに応答して、ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することを含む。再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していることに応答して、動作は、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動することを含む。
【0020】
発明概念の他の実施形態によれば、受信されたマルチチャネル信号において復号されたパラメータを置換するための方法が提供される。本方法は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。本方法は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。本方法は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。本方法は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。本方法は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0021】
発明概念のいくつかの他の実施形態によれば、通信ネットワークのためのデコーダが提供される。デコーダは、プロセッサと、プロセッサに結合されたメモリとを含み、メモリは、命令を備え、命令は、プロセッサによって実行された場合、プロセッサに動作を実行させる。動作は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。動作は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。動作は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。動作は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。動作は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0022】
発明概念のいくつかの他の実施形態によれば、通信ネットワークにおいて動作するように設定されたデコーダが提供される。デコーダは、動作を実行するように適合される。動作は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。動作は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。動作は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。動作は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。動作は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0023】
発明概念のいくつかの他の実施形態によれば、コンピュータ実行可能な命令を備えるコンピュータプログラムであって、コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、デバイスに動作を実行させる、コンピュータプログラムが提供される。動作は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。動作は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。動作は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。動作は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。動作は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0024】
発明概念のいくつかの他の実施形態によれば、コンピュータ実行可能な命令を有する非一時的なコンピュータ可読ストレージ媒体を備えるコンピュータプログラム製品であって、コンピュータ実行可能な命令は、デバイス内に含まれるプロセッサ上で実行された場合、デバイスに動作を実行させる、コンピュータプログラム製品が提供される。動作は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。動作は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。動作は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。動作は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。動作は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0025】
発明概念のいくつかの他の実施形態によれば、受信されたマルチチャネル信号において復号されたパラメータを推定されたパラメータと置換するように設定された装置が提供される。本装置は、少なくとも1つのプロセッサと、プロセッサに通信可能に結合されたメモリとを含み、前記メモリは、プロセッサによって実行可能な命令を含み、この命令は、プロセッサに動作を実行させる。動作は、コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定することを含む。動作は、コーディングモードが予測コーディングモードであることに応答して、メモリ破損フラグが設定されているかを決定することを含む。動作は、メモリ破損フラグが設定されていることに応答して、再構築された音源が安定した源であるかどうか、および再構築された音源のロケーション測定がチャネルのサブセット内に主に集中しているかどうかを決定することを含む。動作は、再構築された音源が安定した源であること、および再構築された音源のロケーション測定がマルチチャネルのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを記憶されたマルチチャネルパラメータと置換することを含む。動作は、メモリ破損フラグが設定されていないことに応答して、ロケーション測定を更新するために源の位置のロケーション測定を分析し、記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新することを含む。
【0026】
本開示のさらなる理解を提供するために含まれており、本出願に組み込まれ、本出願の一部を構成する添付の図面は、発明概念の一定の非限定的な実施形態を例示する。
【図面の簡単な説明】
【0027】
【
図2】いくつかの実施形態による、予測コーディングにおける誤り回復が実行され得るデコーダシステムの環境の例を例示するブロック図である。
【
図3】いくつかの実施形態によるステレオエンコーダおよびデコーダの構成要素を例示するブロック図である。
【
図4】発明概念のいくつかの実施形態によるデコーダの動作を例示するフローチャートである。
【
図5】発明概念のいくつかの実施形態による誤り回復を提供することによるデコーダの動作を例示するブロック図である。
【
図6】発明概念のいくつかの実施形態による状態機械を例示するブロック図である。
【
図7】発明概念のいくつかの実施形態による置換パラメータを生成するための動作を例示するブロック図である。
【
図8】発明概念のいくつかの実施形態によるデコーダを例示するブロック図である。
【
図9】発明概念のいくつかの実施形態に係るデコーダの動作を例示するフローチャートである。
【
図10】発明概念のいくつかの実施形態に係るデコーダの動作を例示するフローチャートである。
【発明を実施するための形態】
【0028】
ここで、発明概念の実施形態の例が示される添付の図面を参照しつつ、発明概念が、以下でより完全に説明されることになる。しかしながら、発明概念は、多くの異なる形態で具体化されてよく、本明細書において述べられる実施形態に限定されるものとして解釈されるべきでない。むしろ、これらの実施形態は、本開示が徹底した完全なものとなるように提供されており、本発明概念の範囲を当業者に対して完全に伝達するであろう。これらの実施形態は相互に排他的ではないことも留意されるべきである。1つの実施形態からの構成要素は、別の実施形態において存在する/使用されるものとして黙示的に想定され得る。
【0029】
以下の説明は、開示されている主題の様々な実施形態を提示する。これらの実施形態は、教示例として提示されており、開示されている主題の範囲を限定するものとして解釈されるべきではない。例えば、説明される実施形態の一定の詳細は、説明される主題の範囲から逸脱せずに、変形され、省略され、または拡張され得る。
【0030】
説明される発明概念は、源ロケーションに対応する、最後に受信されたパラメータのメモリを維持する。デコーダが、予測コーディングストリークにおいて誤りを検出し、ロケーション分析が、音源は安定しており、極端な位置を有する(すなわち、音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中している)ことを確認した場合、予測コーディングストリークが絶対コーディングフレームによって終了するまで、メモリからのパラメータが、復号されたパラメータの代わりに使用され得る。
【0031】
オーディオシーンが不安定であり、ステレオパラメータにおいて大きな変動を示す場合において、復号されたパラメータを凍結された推定されたパラメータと置換することは、リスナーにとって不快になり得る。
【0032】
これらの目標を達成するために、1つの実施形態における方法は、源のロケーションを決定するためのロケーション分析器と、最後に観察されたアクティブな源のためのパラメータを記憶するためのパラメータメモリと、パラメータメモリが破損しているかを決定するためのメモリ破損検出器と、少なくとも不良フレームインジケータの履歴、および、さらなる実施形態では、ロケーション分析器の出力に基づいて、パラメータ回復(復号されたパラメータを、メモリ内に記憶されたパラメータに置換する)を起動するための決定機構とを含む。ここで、アクティブな源とは、再構築されることを意図される源、例えば、スピーチ会話における音声などを指す。源が非アクティブな(静かな)場合、キャプチャされた音は、典型的には、音再構築にはそれほど関連しないと考えられるバックグランドノイズによって支配される。バックグランドノイズは、不安定なオーディオシーンをパラメトリック記述における大きな変動と共にレンダリングし得る、多くの様々な源から構成され得る。アクティブな源ロケーションを推定する場合、この大きな変動は無視されるべきである。したがって、源がアクティブな場合にのみ、ロケーションを推定することが有益となり得る。
【0033】
発明概念によって提供され得る1つの利点は、誤り無しのチャネル動作において浪費される冗長なパラメータ情報を送信せずに、予測コーディング期間中にチャネル誤りの問題を低減することを含む。提供され得る別の利点は、予測的な復号動作におけるパラメータ推定が、不安定なオーディオシーンに対しては有効にされないことであり、これは、不自然に凍結されるオーディオシーンを回避することにつながる。提供され得るさらに別の利点は、源ロケーションが安定しており、マルチチャネル信号のチャネルのサブセット内に集中している場合、この利点が源のロケーションにおける不自然なまたは望ましくない不安定さを低減し得ることである。
【0034】
図2は、本明細書において説明されるようなマルチチャネルビットストリームを復号するために使用され得るデコーダ200の動作環境の例を例示する。デコーダ200は、メディアプレーヤ、モバイルデバイス、セットトップデバイス、デスクトップコンピュータ等の一部であってもよい。他の実施形態において、デコーダ200は、スタンドアロンサーバ、クラウド実装サーバ、分散サーバのハードウェアおよび/もしくはソフトウェアにおいて、またはサーバファームにおける処理リソースとして、具現化されてもよい。例えば、デコーダは、クラウド実装テレビ会議アプリケーションの一部であってよい。デコーダ200は、ネットワークのトランスポート層を介して送信される、符号化されたビットストリームを受信する。ビットストリームは、エンコーダから、ストレージデバイス204から、ネットワーク202を介してクラウド上のデバイス等から送られ得る。動作期間中に、デコーダ200は、本明細書において説明されるようなビットストリームのフレームを受信し、処理する。デコーダ200は、マルチチャネルオーディオ信号を出力し、マルチチャネルオーディオ信号の再生のために少なくとも1つのラウドスピーカを有するマルチチャネルオーディオプレーヤ206へ、マルチチャネルオーディオ信号を送信し得る。ストレージデバイス204は、マルチチャネルオーディオ信号のストレージデポジトリ、例えば、店舗またはストリーミング音楽サービス、別個のストレージ構成要素、モバイルデバイスの構成要素のストレージレポジトリの一部であってもよい。マルチチャネルオーディオプレーヤは、ブルートゥーススピーカ、少なくとも1つのラウドスピーカを有するデバイス、モバイルデバイス、ストリーミング音楽サービス等であってもよい。
【0035】
パラメトリックステレオ再生は、低いビットレートにおいて良好な品質を与える一方で、この品質は、パラメトリックモデルの限定に起因して、ビットレートを増加させることに対して飽和する傾向にある。この問題を克服するために、非相関成分が符号化されることが可能である。このエンコーディングは、エンコーダにおいてステレオ再構築をシミュレーションし、再構築された信号を入力チャネルから減算し、残差信号を生み出すことによって達成される。ダウンミックス変換が反転可能である場合、残差信号は、ステレオチャネルの場合について単一のチャネルのみによって表現されることが可能である。典型的には、残差信号エンコーディングは、音響心理学的により重要である、より低い周波数をターゲットとし、一方で、より高い周波数は、無相関器方法により合成されることが可能である。
図3は、残差コーダを含むパラメトリックステレオコーデックのためのセットアップの一実施形態を描くブロック図である。
図3において、エンコーダ310は、入力信号を受信し、上述した処理をステレオ処理およびダウンミックスブロック312において実行し、ダウンミックスエンコーダ314を介して出力を符号化し、残差エンコーダ316を介して残差信号を符号化し、パラメータエンコーダ318を介してITDパラメータ、IPDパラメータ、ILDパラメータ、およびICCパラメータを符号化し得る。デコーダ320は、符号化された出力、符号化された残差信号、および符号化されたパラメータを受信し得る。デコーダ320は、残差デコーダ326を介して残差信号を復号し、ダウンミックスデコーダ324を介してダウンミックス信号を復号し得る。パラメータデコーダ328は、符号化されたパラメータを復号し得る。ステレオシンセサイザ322は、復号された出力信号および復号された残差信号を受信し、復号パラメータに基づいて、ステレオチャネルCH1およびCH2を出力し得る。
【0036】
図8は、発明概念のいくつかの実施形態による、マルチチャネルオーディオフレームを復号し、予測コーディングモードにおいて、損失フレームまたは破損フレームのために誤り回復を提供するように設定されたデコーダ200の要素を例示するブロック図である。図示されるように、デコーダ200は、他のデバイス/エンティティ/機能等との通信を提供するように設定されたネットワークインターフェース回路805(ネットワークインターフェースとも称される)を含み得る。デコーダ200は、ネットワークインターフェース回路805に結合されたプロセッサ回路801(プロセッサとも称される)、およびプロセッサ回路に結合されたメモリ回路803(メモリとも称される)も含み得る。メモリ回路803は、コンピュータ可読プログラムコードであって、コンピュータ可読プログラムコードは、プロセッサ回路801によって実行された場合、プロセッサ回路、本明細書において開示される実施形態による動作を実行させる、コンピュータ可読プログラムコードを含み得る。
【0037】
他の実施形態によれば、プロセッサ回路801は、別個のメモリ回路が必要とされないように、メモリを含むように規定され得る。本明細書において論じられるように、デコーダ200の動作は、処理回路801(プロセッサとも称される)および/またはネットワークインターフェース回路805(ネットワークインターフェースとも称される)によって実行され得る。例えば、処理回路801は、マルチチャネルオーディオプレーヤ206に通信を送信するために、および/または、1つもしくは複数の他のネットワークノード/エンティティ/サーバ、例えば、エンコーダノード、デポジトリサーバ等などから、ネットワークインターフェース805を通じて通信を受信するために、ネットワークインターフェース805を制御し得る。さらに、モジュールが、メモリ回路803内に記憶されてもよく、これらのモジュールは、モジュールの命令が処理回路801によって実行された場合に、処理回路801がそれぞれの動作を実行するように、命令を提供し得る。
【0038】
以下の説明では、
図3において概説されるようなステレオエンコーダおよびデコーダシステムのステレオデコーダが使用され得る。実施形態を説明するために、2つのチャネルが使用されることになる。これらの実施形態は、2つを超えるチャネルと共に使用されてもよい。マルチチャネルエンコーダ310は、入力される左チャネルおよび右チャネルを、フレームと称されるセグメントで処理し得る。ステレオ分析およびダウンミックスブロック312は、パラメトリック分析を行い、ダウンミックスを生み出し得る。所与のフレームmについて、2つの入力チャネルは、
と書かれてもよく、ただし、lは、左チャネルを表し、rは、右チャネルを表し、n=0、1、2、...、Nは、フレームmにおけるサンプル番号を表し、Nは、フレームの長さである。一実施形態において、デコーダが、重複追加ストラテジーを使用して、マルチチャネルオーディオ信号を再構築し得るように、フレームは、エンコーダにおいて重複と共に抽出され得る。入力チャネルは、適切な窓関数w(n)により窓処理され、離散フーリエ変換(DFT)ドメインへ変換され得る。
他の周波数ドメイン表現、例えば、直交ミラーフィルタ(QMF)フィルタバンク、ハイブリッドQMFフィルタバンク、または、MDCT(修正離散コサイン変換)変換成分とMDST(修正離散コサイン変換)変換成分とから構成される奇数DFT(ODFT)表現などがここで使用されてもよいことに留意されたい。
【0039】
パラメトリック分析の場合、周波数スペクトルは、帯域bへパーティション化され得、ただし、各帯域bは、周波数係数の範囲
k=kstart(b)...kend(b),b=0,1,2,...Nbands-1
に対応し、ただし、Nbandsは、帯域の総数を表す。帯域限界は、典型的には、低い周波数に対しては狭い帯域を、高い周波数に対してはより広い帯域を提案する人間の聴覚の解像度を反映するように設定される。異なる帯域解像度が、異なるパラメータに対して使用されてもよいことに留意されたい。
【0040】
次いで、信号が分析されて、ITDパラメータ、IPDパラメータおよびILDパラメータが抽出され得る。ILDは、音の知覚されたロケーションに対して著しい影響を有し得ることに留意されたい。したがって、いくつかの実施形態において、音の安定した正確なロケーションを維持するために、ILDパラメータを高精度で再構築することが重要となり得る。
【0041】
また、チャネルコヒーレンスが分析され得、ICCパラメータが導出され得る。フレームmについてのマルチチャネルオーディオパラメータのセットは、パラメトリック表現において使用されるITDパラメータ、IPDパラメータ、ILDパラメータおよびICCパラメータの完全なセットを含有し得る。パラメータは、パラメータエンコーダ318によって符号化され、ビットストリームに対して追加されて、記憶されおよび/またはデコーダへ送信され得る。
【0042】
ダウンミックスチャネルを生み出す前に、1つの実施形態において、ITDおよびIPDを補償して、キャンセレーションを低減し、ダウンミックスのエネルギーを最大化することは有益となり得る。ITD補償は、周波数変換前の時間ドメインまたは周波数ドメインの両方において実装され得るが、ITD補償は、一方または両方のチャネルに対して時間シフトを実質的に実行して、ITDを除去する。フェーズアラインメントは、異なる手法で実装されてもよいが、目的は、キャンセレーションが最小限にされるように、フェーズをアラインすることである。これは、ダウンミックスにおける最大エネルギーを保証する。ITDおよびIPD調整は、周波数帯域において行われてもよく、または全周波数スペクトルに行われてもよく、調整は、変形がデコーダ段において反転され得ることを保証するために、量子化されたITDパラメータおよびIPDパラメータを使用して行われ得る。
【0043】
以下に説明される実施形態は、IPDおよびITDパラメータ分析および補償の実現とは無関係である。換言すれば、実施形態は、どのようにIPDおよびITPが分析され、補償されるかに依存しない。そのような実施形態において、ITDおよびIPD調整済みチャネルは、アポストロフィ(’)を用いて表され得る。
【0044】
次いで、ITDおよびIPD調整済み入力チャネルは、パラメトリック分析およびダウンミックスブロック312によってダウンミックスされて、ダウンミックス/サイド表現とも呼ばれる、中央/サイド表現が生み出され得る。ダウンミックスを実行するための1つの手法は、信号の合計および差を使用することである。
【0045】
ダウンミックス信号XM(m、k)は、ダウンミックスエンコーダ314によって符号化されて、記憶されおよび/またはデコーダへ送信され得る。このエンコーディングは、周波数ドメインにおいて行われ得るが、時間ドメインにおいて行われてもよい。後者の場合において、DFT合成段は、ダウンミックス信号の時間ドメインバージョンを生み出すことが必要とされ、これは、次にダウンミックスエンコーダ314へ提供される。しかしながら、時間ドメインへの変換は、付加的なハンドリングを必要とすることになる、マルチチャネルオーディオパラメータとの遅延ミスアラインメントを導入し得る。1つの実施形態において、この遅延ミスアラインメントは、ダウンミックスおよびマルチチャネルオーディオパラメータのデコーダ合成がアラインされることを保証するために、付加的な遅延を導入することによって、またはパラメータを補間することによって、解決される。
【0046】
サイド信号X
S(m、k)の再構築は、ダウンミックス、およびローカルパラメトリック合成を通じて、取得されたマルチチャネルオーディオパラメータから生成され得る。サイド信号予測
は、ダウンミックス信号
を使用して導出されることが可能であり、ただし、p(・)は、予測因子関数であり、サイド信号と予測されるサイド信号との間の平均二乗誤差(MSE)を最小限にする単一のスケール因子αとして実装され得る。さらに、予測は、周波数帯域に適用され、各周波数帯域bについての予測パラメータを伴い得る。
【0047】
帯域bの係数が、列ベクトル
およびX
M,b(m)として指定される場合、最小MSE予測因子は、
として導出されることが可能である。
【0048】
しかしながら、この表現は、より安定した予測パラメータを生み出すために簡略化され得る。予測パラメータα
bは、レベル差を表現しないが、左チャネルおよび右チャネルへルーティングされるダウンミックス信号の一部を制御し得る。したがって、ILDパラメータに関しては、予測パラメータα
b(m)は、知覚された音ロケーションに対して著しい影響を有し得る。さらなる詳細は、Breebaart,J.、Herre,J.、Faller,C.、Roden,J.、Myburg,F.、Disch,S.、...&Oomen,W.(2005).“MPEG spatial audio coding/MPEG surround:Overview and current status,”2005 In Preprint 119th Conv.Aud.Eng.Soc.(No.LCAV-CONF-2005-029)の予測モードにおいて説明されている。予測パラメータα
b(m)は、次に、フレーム間予測コーディング方式を使用して符号化され、この場合、フレームmの間の差が考慮される。各帯域bについて、先行するフレームの再構築されたパラメータ
からの差が計算され得る。
【0049】
エンコーダは、α
b(m)またはΔα
b(m)のいずれかを、これらのどちらが最も低いビット消費を生み出すかに依存して、符号化することを選び得る。一実施形態において、α
b(m)およびΔα
b(m)は、量子化器インデックス上でスカラ量子化器、その後のエントロピーコーダを使用して量子化され得る。算術符号化、HuffmanコーディングおよびGolomb-Riceコーディングは、エントロピーコーダとして使用され得るコーディングの例である。エントロピーコーダは、小さな変動、すなわち、Δα
b(m)の小さな値に対して、より小さなコードワードを割り当てる。これは、Δα
b(m)を使用する予測コーディングが、安定したオーディオシーンに対して使用されるであろうことを意味する。大きなΔα
b(m)につながる、高速のシーン変化の場合、α
b(m)のエンコーディングのためのビット消費は、非予測、または絶対エンコーディング方式を使用することによって、より低くなり得る。したがって、エンコーディング方式は、2つのモードを有し得る。
【0050】
エンコーディングモードα
mode(m)∈{ABSOLUTE,PREDICTIVE}は、符号化された値が
であるかをデコーダが知るように、各フレームmについて符号化される必要があることになる。
【0051】
このエンコーディング方式のさらなるバリエーションが可能である。例えば、予測パラメータα
b(m)が、残差コーディングエネルギーまたは対応する表現などの別のパラメータと高い相関性を示す場合、それらのパラメータをまとめて符号化することが有益となり得る。重要な部分は、エンコーディング方式が予測コーディングモードおよび絶対(非予測)コーディングモードを有する場合に、この決定が符号化され、デコーダへ伝えられることである。連続するPREDICTIVEコーディングモードのシーケンスは、「予測コーディングストリーク」または「予測ストリーク」と称されてもよく、シーンが安定しているオーディオセグメントについて観察されることになる。予測ストリークの開始におけるオーディオフレームが損失された場合、パラメータは、ストリークの全期間中に誤り伝播を被り得る(
図1を参照)。誤り伝播の効果を低減させるために、ABSOLUTEコーディングが、規則的な間隔で強要されてもよく、これは予測ストリークを時間的に最大の長さに効果的に限定する。
【0052】
エンコーディングの後に、パラメータ
のローカル再構築は、エンコーダにおいて導出され、メモリに記憶されて、次のフレームを符号化する場合に使用される。
【0053】
復号ステップは、エンコーダステップと同様であり得る。デコーダにおいて、
【0054】
予測コーディングが、再構築された値について説明されているが、予測コーディングステップを量子化器インデックスに対して行うことも可能であることが留意されるべきである。しかしながら、メモリ依存性の原理は同じままである。
【0055】
誤り無しの動作期間中、エンコーダにおけるローカル再構築は、デコーダにおける再構築されたパラメータ
と同一である。メモリ
は、フレームm-1、
についての再構築されたパラメータ値と同一になることにも留意されたい。最初のフレームの場合、パラメータメモリは、何らかの予め規定された値、例えば、全てゼロ、またはパラメータの平均期待値に設定され得る。
【0056】
残差コーディングに関する詳細が、ここで論じられる。予測サイド信号が与えられると、予測残差X
R(m、k)が作成されることが可能である。
【0057】
予測残差は、残差エンコーダ316に入力され得る。エンコーディングは、DFTドメインにおいて直接行われてもよく、または時間ドメインにおいて行われてもよい。同様に、ダウンミックスエンコーダに関して、時間ドメインエンコーダは、デコーダにおける信号のアラインメントを必要とし得るDFT合成を必要とすることになる。残差信号は、ダウンミックス信号と相関しない拡散成分を表現する。残差信号が送信されない場合、1つの実施形態における解決策は、デコーダにおいてステレオ合成状態にある残差信号についての信号を、復号されたダウンミックス信号の無相関バージョンに由来する信号に置換することであり得る。置換は、典型的には、残差信号を任意の有用な解像度で表現するにはビット予算が低すぎる、低いビットレートに対して使用される。中間ビットレートの場合、残余の一部を符号化することが一般的であり得る。この場合には、より低い周波数が知覚的により重要となり得るので、より低い周波数が符号化されることが多い。スペクトルの残りの部分については、無相関器信号が、デコーダにおける残差信号の代用として使用され得る。このアプローチは、ハイブリッドコーディングモードと称されることが多い。さらなる詳細は、以下のデコーダの説明において提供される。
【0058】
符号化されたダウンミックスの表現、符号化されたマルチチャネルオーディオパラメータ、および符号化された残差信号は、ビットストリーム(図示せず)へ多重化され得、ビットストリームは、デコーダ320へ送信され、または将来の復号のために媒体に記憶され得る。
【0059】
デコーダにおいて、ダウンミックスデコーダ328は、再構築されたダウンミックス信号
を提供し得、これは、DFT分析フレームmへセグメント化され、n=0、1、2、...、N-1は、フレームm内のサンプル番号を表す。分析フレームは、典型的には、DFT合成段において重複追加ストラテジーを許容する重複と共に抽出される。対応するDFTスペクトルは、DFT変換
を通じて取得され得、ただし、w(n)は、適切な窓関数を表す。窓関数の形状は、周波数持性と重複領域の長さに起因するアルゴリズム遅延との間のトレードオフを使用して設計されることが可能である。同様に、残差デコーダ326は、フレームm、および時間インスタンスn=0、1、2、...N
R-1について、再構築された残差信号
を生み出す。残差信号は、異なるサンプリングレートで生み出され得るので、フレーム長さN
Rは、Nと異なり得ることに留意されたい。残差コーディングは、より低い周波数範囲のみを対象とし得るので、メモリおよび計算的な複雑さを節約するために、残差コーディングをより低いサンプリングレートで表現することは有益となり得る。残差信号
のDFT表現が取得される。残差信号が、再構築されたダウンミックスと同じサンプリングレートへDFTドメインにおいてアップサンプリングされる場合、DFT係数は、N/N
Rによりスケーリングされる必要があることになり、
は、長さNと一致するようにゼロパディングされることになることに留意されたい。表記を単純化するために、および、実施形態は、異なるサンプリングレートの使用によって影響を受けないので、より良い理解の目的のために、以下の説明において、サンプリングレートは等しく、N
R=Nとする。したがって、スケーリングまたはゼロパディングは示されないものとする。
【0060】
ダウンミックスおよび/または残差信号が、DFTドメインにおいて符号化される場合、DFTによる周波数変換は必要ではないことが留意されるべきである。この場合において、ダウンミックスおよび/または残差信号の復号は、さらなる処理のために必要なDFTスペクトルを提供する。
【0061】
良好なフレームと称されることが多い、誤り無しのフレームにおいて、マルチチャネルオーディオデコーダは、復号された残差信号と組み合わせた、復号されたマルチチャネルオーディオパラメータと共に、復号されたダウンミックス信号を使用して、マルチチャネル合成を生み出し得る。予測パラメータα
b(m)の場合については、デコーダは、モードパラメータα
mode(m)を使用して、適当な復号モードを選択し、再構築された予測パラメータ
を生み出す。
【0062】
パラメータメモリは、再構築された予測パラメータ
で更新される。
【0063】
復号されたダウンミックス
ステレオパラメータおよび残差信号
は、パラメトリックステレオ合成ブロック322に供給されて、再構築されたステレオ信号が生み出される。DFTドメインにおけるステレオ合成が適用された後、左チャネルおよび右チャネルは、時間ドメインに変換され、ステレオデコーダから出力される。
【0064】
デコーダが、損失または破損したフレームを検出した場合、デコーダは、1つまたはいくつかのPLCモジュールを使用して、欠落データを隠蔽し得る。例えば、ダウンミックスデコーダ、残差デコーダまたはパラメータデコーダの一部として、欠落情報を置換するためのいくつかの専用のPLC技術が存在し得る。PLCの目標は、欠落オーディオセグメントと同様の外挿されたオーディオセグメントを生成し、損失または破損したフレームの前後の正確に復号されたオーディオ間の滑らかな遷移を保証することである。
【0065】
ステレオパラメータのためのPLC方法は、異なってもよい。一例は、先行する復号されたフレームのパラメータを単純に繰り返すことである。別の方法は、大きなオーディオデータベースについて観察された平均ステレオパラメータを使用すること、または連続するフレーム損失(バースト損失)についての平均ステレオパラメータへゆっくりと収束させることである。PLC方法は、パラメータメモリを隠蔽パラメータで更新してもよく、または、最後に復号されたパラメータが残るように、パラメータメモリをそのまま残してもよい。いずれにせよ、メモリは、エンコーダに対して同期外れになることになる。
【0066】
図4に移ると、予測パラメトリックコーディング回復の一実施形態におけるデコーダ動作のフローチャートが提供されている。不良フレームが、動作400において不良フレームインジケータ(BFI)を通じて示される場合、デコーダは、動作402においてパケット損失隠蔽方法を採用し得、いくつかの実施形態では、動作404において、復号されたパラメータのメモリに破損を示すためのフラグ(例えば、α
memory_corrupted_flag:=TRUE)を設定し得る。BFIがアクティブでない場合、通常の復号が動作406において使用される。通常の復号の後、パラメータ回復動作408が実行される。
【0067】
より詳細には、誤り無しの復号動作は、
図5によって概説されるように説明され得る。
図5は、
図3のステレオデコーダブロック320と比較され得る。
図5は、ダウンミックスデコーダ510、および、任意選択で、残差デコーダ520を提供する。デコーダは、以下でより詳細に説明される、パラメータ回復を備えたパラメータデコーダ530を有する。
【0068】
パラメータデコーダ532は、絶対コーディングモードまたは予測コーディングモードのいずれかを使用して、ステレオパラメータの復号を実行し得る。以下の説明において、再構築されたサイド信号予測パラメータ
は、誤り回復方法のために使用されるものとする。ロケーション分析器ブロック538において、源の位置を表現するロケーション測定が導出される。ロケーション測定の一例は、各フレームについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値
を使用することである。
【0069】
回復解決策は、位置が極端かつ静的である(または安定している)場合に、起動されることになる。極端な位置は、一定のチャネルまたは方向への信号電力の集中として表明され得、この場合、集中したエネルギーの方向におけるシフトは、知覚される位置に対して大きい影響を有する。例えば、ステレオ信号において、極端な位置は、左チャネルまたは右チャネルに集中した源を表現する。換言すれば、源のロケーション測定(例えば、再構築された源信号)は、マルチチャネルのうちのチャネルのサブセット内に主に集中している。ステレオ信号の場合、源のロケーション測定は、2つのチャネルのうちの1つに主に集中していることになる。起動メカニズムは、ローパスフィルタリングされた位置、例えば、
に基づき得る。
【0070】
ここでは、閾値
未満の任意の位置値は、
をゼロにリセットすることになる。
【0071】
フィルタパラメータγについての適切な値は、γ=0.425であり、または範囲[0.3,0.7]内であり得る。極端なロケーション決定P(m)は、ローパスフィルタリングされた位置と固定された閾値とを比較することによって形成され得、
ただし、
は、パラメータ
の範囲に依存する。ここで、α
bの範囲、結果として
は、[-1.0,1.0]であり、
の適切な値は、0.4である。換言すれば、1に等しいP(m)は、音源が左チャネルまたは右チャネルのいずれかにパンされ、したがって極端な位置にある安定した源であることを示す。したがって、
の値が0.4であれば、0.4を超える、または-0.4未満の
の任意の値(すなわち
)は、音源が極端な位置にある(例えば、ロケーション測定が、左チャネルまたは右チャネルのいずれかに主に集中している)ことを示すことになる。
の値は、他の値に設定されてもよい。
【0072】
上述したロケーション測定は、計算的に単純な実装である解決策を提供する。しかしながら、ダウンミックスの帯域エネルギーを考慮する、パラメータ差の重み付けを含めることは、知覚の観点から意味を成し得る。さらに、
が[-0.1,0.1]の範囲に残るように、重み付け係数は、[0.0,1.0]範囲に正規化されることが可能である。したがって、ロケーションについての代替的な表現は、
であってもよく、ただし、
は、重み付けされたロケーション測定であり、重み付けされたロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である。
【0073】
上記表現は、パンする測定
において高エネルギー帯域を強調する。
に重み付けを適用することにより、フィルタパラメータγを再最適化する必要があり得る。アクティブな源に由来するものとして分類されるフレーム期間中にのみ、ロケーション測定を更新すること、または現在のピークエネルギーまたはノイズフロアレベルの推定値により重み付けを正規化することは、さらに望ましいことがある。
【0074】
回復決定論理は、メモリ破損検出器536およびロケーション分析器538からの出力に依存する。メモリ破損検出器536は、少なくとも、パラメータ(予測/絶対的)のコーディングモード、およびメモリ破損の検出における不良フレームインジケータ(BFI)を使用し得る。回復決定論理は、
図6において概説されるような状態機械によってさらに説明されることが可能である。
【0075】
図6に移ると、開始状態610は、通常の復号モードを表現する。デコーダが、予測モードα
mode=PREDICTIVEにあり、先行するフレームが不良フレームであった場合、これは、パラメータ
のメモリが破損しており(α
memory_corrupted_flag:=TRUE)、オーディオが、極端で安定した位置
を有することを技術的に意味し、回復状態620に移行する。回復状態620にある間に、デコーダが絶対復号モードα
mode=ABSOLUTEに移行した場合、通常の復号状態610に移行する。
【0076】
回復状態620において、復号されたパラメータは、メモリに記憶されたパラメータと置換される。
パラメータ
は、メモリからの新しいものであるので、パラメータメモリおよび位置測定を更新しないことが好適であり得る。実質的に、これは、
を意味する。
【0077】
図5に戻ると、パラメータ回復を備えたパラメータデコーダブロック530の出力は、ダウンミックスデコーダブロック510および潜在的に残差デコーダブロック520の出力と共に、ステレオシンセサイザブロック540に入力されて、ステレオシンセサイザブロック540が、チャネルCH1および/またはCH2上に出力するためのオーディオ信号を合成する。
【0078】
パラメータ回復の動作も、
図7のフローチャートによって説明されることが可能である。ここで、
図7に移ると、動作710において、コーディングモードが絶対であるか、または予測であるかを決定するために、α
mode(m)パラメータがチェックされ得る。
【0079】
コーディングモードが絶対コーディングモードであることに応答して、動作720において、メモリ破損を示すためのフラグは、解除され、例えば、αmemory_corrupted_flag:=FALSEにされ得る。
【0080】
コーディングモードが予測コーディングモードであることに応答して、動作730において、メモリ状態がチェックされ得る。パラメータメモリが破損していない場合(例えば、α
memory_corrupted_flag=FALSE)、音源のロケーションが、動作740において分析され得る。つまり、
が更新され得る。
【0081】
動作750において、復号されたパラメータのメモリが更新され得る。パラメータメモリが破損していること(例えば、α
memory_corrupted_flag=TRUE)に応答して、動作760において、音源が、極端な位置を有する安定した源か否かに関する決定が行われる(例えば、
は、ロケーション測定が、マルチチャネルシステムのチャネルのサブセット内に主に集中していることを示す)。
【0082】
動作770において、音源が、極端な位置を有する安定した源であることに応答して、復号されたパラメータは、復号されたパラメータのメモリと置換される。
【0083】
パラメータ回復を備えたデコーダの動作も、
図9におけるフローチャートによって説明されることが可能である。動作900において、デコーダ200の処理回路801は、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号し得る。この動作は、
図4の動作406と同様であり得る。動作902において、デコーダ200は、不良フレームが示されるかどうかを決定し得る。この動作は、
図4の動作400と同様であり得る。1つの実施形態において、これは、データパケットメッセージ内のフラグから導出されるフラグであってもよい。
【0084】
不良フレームが示されることに応答して、処理回路801は、動作904においてパケット損失隠蔽動作を実行し得る。この動作は、
図4の動作402と同様であり得る。例えば、
図3に関して上述したパケット損失隠蔽動作が、動作904において実行され得る。
【0085】
動作906において、処理回路801は、少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定し得る。この動作は、
図7の動作730と同様であり得る。1つの実施形態において、コーディングモードは、絶対コーディングモードまたは予測コーディングモードのうちの1つであり得る。この実施形態において、決定は、コーディングモードが予測コーディングモードであることに基づく。したがって、少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定することは、コーディングモードが予測コーディングモードであること、および先行不良フレームインジケータに基づいて決定される。
【0086】
動作908において、処理回路801は、復号されたマルチチャネルパラメータに基づいて、源の位置のロケーション測定を導出し得る。この動作は、
図7の動作740と同様であり得る。1つの実施形態において、ロケーション測定は、
に基づいて導出され得、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である。
【0087】
他の実施形態において、ロケーション測定は、
に基づいて導出されてもよく、ただし
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である。
【0088】
動作910において、処理回路801は、再構築された音源が安定しているかどうか、および、ロケーション測定が、受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定し得る。この動作は、
図7の動作760と同様であり得る。1つの実施形態において、再構築された音源が安定しているかどうか、および、ロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、ローパスフィルタリングされた位置が閾値を超えるかどうかを決定することと、ローパスフィルタリングされた位置が閾値を超えることに応答して、ロケーション測定がマルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することとを含む。ローパスフィルタリングされた位置は、
に基づいて決定され得、ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である。
【0089】
マルチチャネルが、2つのチャネル(例えば、左チャネルおよび右チャネルを有するステレオシステム)である場合、ロケーション測定が、受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、ロケーション測定が2つのチャネルのうちの1つに主に集中しているかどうかを決定することを含む。
【0090】
動作912において、処理回路801は、再構築された音源のロケーション測定がマルチチャネルのうちのチャネルのサブセット内に集中していること、および再構築された音源が安定していること、およびパラメータメモリが破損していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動し得る。この動作は、
図7の動作770と同様であり得る。
【0091】
パラメータ回復を備えたデコーダの動作も、
図10におけるフローチャートによってさらに説明されることが可能である。
【0092】
不良フレームが示された場合、1つまたは複数のPLC方法が使用されて、パラメータが決定される。不良フレームは、不良フレームが受信されたことを伝えるBFIフラグによって示され得る。動作1000において、処理回路801は、不良フレームが示されることに応答して、パラメータのメモリが破損していることを示すためにメモリ破損フラグを設定し得る。
【0093】
不良フレームが示されない場合、パラメータ回復を備えたパラメータデコーダ動作が使用される。動作1002において、デコーダ200の処理回路801は、コーディングモードが絶対復号モードであるか、または予測コーディングモードであるかを決定し得る。デコーダ200は、エンコーダからコーディングモードを受信してもよい。この動作は、
図7の動作710と同様であり得る。
【0094】
コーディングモードが絶対コーディングモードであることに応答して、処理回路801は、動作1004において、メモリ破損フラグを解除する。メモリ破損フラグは、パラメータのメモリが破損していることを示すために使用され得る。これは、現在復号されているフレームに先行するフレームが不良フレームであった場合に発生することがあり、これは、パラメータのメモリが破損していることを意味する。メモリ破損フラグを設定する例も、
図4に例示されている。
【0095】
コーディングモードが予測コーディングモードであることに応答して、処理回路801は、動作1006において、メモリ破損フラグが設定されているかを決定し得る。この動作は、
図7の動作730と同様であり得る。
【0096】
メモリ破損フラグが設定されていることに応答して、処理回路801は、動作1008において、再構築された音源が安定した音源かどうか、および、再構築された音源のロケーション測定が、復号されているマルチチャネル信号のチャネルのサブセット内に主に集中しているかどうかを決定し得る。この動作は、
図7の動作760と同様であり得る。1つの実施形態において、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、ローパスフィルタリングされた位置の絶対値が閾値を超えるかどうかを決定することと、ローパスフィルタリングされた位置の絶対値が閾値を超えることに応答して、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中していると決定することとを含む。ローパスフィルタリングされた位置は、
に基づいて決定され得、ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である。
【0097】
マルチチャネルが、2つのチャネル(例えば左チャネルおよび右チャネルを有するステレオシステム)である場合、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、再構築された音源のロケーション測定が、2つのチャネルのうちの1つに主に集中しているかどうかを決定することを含む。
【0098】
動作1010において、処理回路801は、再構築された音源が安定した源であること、および、再構築された音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換し得る。この動作は、
図7の動作770と同様であり得る。
【0099】
メモリ破損フラグが設定されていないことに応答して、処理回路801は、動作1012において、ロケーション測定を更新するために、源の位置のロケーション測定を分析し得る。この動作は、
図7の動作740と同様であり得る。1つの実施形態において、ロケーション測定を更新することは、
に基づいて、ロケーション測定を更新することであり得、ただし、
はロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である。
【0100】
他の実施形態において、ロケーション測定を更新することは、
に基づいて、ロケーション測定を更新することであってもよく、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である。
【0101】
メモリ破損フラグが設定されていないことに応答して、処理回路801は、動作1014において、記憶されたマルチチャネルパラメータを復号されたマルチチャネルパラメータで更新し得る。この動作は、
図7の動作750と同様であり得る。
【0102】
上記説明は、デコーダ200を使用したパラメータ回復を説明している。復号されたパラメータの代わりに、メモリからのパラメータを使用することの潜在的な利点は、動作が、誤り無しのチャネル動作において浪費される冗長なパラメータ情報を送信せずに、予測コーディングの問題を低減することができる点である。さらに、安定したオーディオシーン期間中にのみ、推定されたパラメータを使用することは、オーディオシーンが、不安定なオーディオシーン期間中に不自然な手法で「凍結される」ことを回避する。
【0103】
復号されたパラメータの代わりに、メモリからのパラメータを使用することの別の潜在的な利点は、不良フレームが示された場合に、メモリからのパラメータを使用した、再生音の知覚されたロケーションが、復号されたパラメータと比較して、音の実際のロケーションにより近くなり得ることである。
【0104】
実施形態のリスト
1.受信されたマルチチャネル信号において復号されたパラメータを置換する方法であって、方法は、
受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
不良フレームが示されることに応答して、パケット損失隠蔽動作を実行すること(904)と、
不良フレームが示されないことに応答して、
少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定すること(906)と、
復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
ロケーション測定に基づいて、再構築された音源が、安定しており、受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
再構築された音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に集中しており、安定していること、および、パラメータメモリが破損していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む、方法。
【0105】
2.マルチチャネルは、2つのチャネルを含み、ロケーション測定に基づいて、再構築された音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)は、ロケーション測定に基づいて、再構築された音源のロケーション測定が、2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、実施形態1の方法。
【0106】
3.コーディングモードは、絶対コーディングモードおよび予測コーディングモードのうちの1つを含み、少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定することは、コーディングモードが予測コーディングモードであること、および先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定することを含む、実施形態1または2の方法。
【0107】
4.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、実施形態1から3のいずれか一つの方法。
【0108】
5.再構築された音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を
に基づいて、決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えることに応答して、音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することと
を含む、実施形態4の方法。
【0109】
6.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である、実施形態1の方法。
【0110】
7.復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換する方法であって、前記方法は、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
再構築された音源が、安定した音源であること、および、再構築された音源のロケーション測定が、マルチチャネルのうちのチャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
メモリ破損フラグが設定されていないことに応答して、
ロケーション測定を更新するために、再構築された音源のロケーション測定を分析すること(1012)と、
記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新すること(1014)と
を含む、方法。
【0111】
8.マルチチャネルは、2つのチャネルを含み、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、再構築された音源のロケーション測定が、2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、実施形態7の方法。
【0112】
9.コーディングモードが絶対コーディングモードであることに応答して、メモリ破損フラグを解除すること(1004)
をさらに含む、実施形態7または8の方法。
【0113】
10.不良フレームが示されることに応答して、メモリ破損フラグを設定すること(1000)
をさらに含む、実施形態7から9のいずれか一つの方法。
【0114】
11.ロケーション測定を更新することは、
に基づいて、ロケーション測定を更新することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、実施形態7から10のいずれか一つの方法。
【0115】
12.再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて、決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えることに応答して、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、実施形態11の方法。
【0116】
13.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である、実施形態7の方法。
【0117】
14.通信ネットワークのためのデコーダ(200)であって、デコーダ(100)は、
プロセッサ(801)と、
プロセッサに結合されたメモリ(803)とを備え、メモリは、命令を含み、命令は、プロセッサによって実行された場合、プロセッサに、実施形態1から13のいずれか一つに記載の動作を実行させる、デコーダ(200)。
【0118】
15.通信ネットワークにおいて動作するように設定されたデコーダ(200)であって、デコーダは、実施形態1から13のいずれか一つに従って実行するように適合される、デコーダ(200)。
【0119】
16.コンピュータ実行可能な命令が、デバイス内に含まれるプロセッサ(801)上で実行された場合、実施形態1から13のいずれか一つに記載の方法をデバイスに実行させるように設定されたコンピュータ実行可能な命令を備えるコンピュータプログラム。
【0120】
17.非一時的なコンピュータ可読ストレージ媒体(803)を備えるコンピュータプログラム製品であって、非一時的なコンピュータ可読ストレージ媒体は、コンピュータ実行可能な命令が、デバイス内に含まれるプロセッサ(801)上で実行された場合、実施形態1から13のいずれか一つに記載の方法をデバイスに実行させるように設定されたコンピュータ実行可能な命令を有する、コンピュータプログラム製品。
【0121】
18.受信されたマルチチャネル信号において、復号されたパラメータを、推定されたパラメータに置換するように設定された装置であって、装置は、
少なくとも1つのプロセッサ(801)と、
プロセッサに通信可能に結合されたメモリ(803)とを備え、前記メモリは、プロセッサによって実行可能な命令を含み、命令は、プロセッサに、
絶対コーディングモードまたは予測コーディングモードのうちの1つを使用して、受信されたマルチチャネル信号のフレームのマルチチャネルパラメータを復号すること(900)と、
不良フレームが示されるかどうかを決定すること(902)と、
不良フレームが示されることに応答して、パケット損失隠蔽動作を実行することと、
不良フレームが示されないことに応答して、
少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定すること(906)と、
復号されたマルチチャネルパラメータに基づいて、再構築された音源のロケーション測定を導出すること(908)と、
ロケーション測定に基づいて、再構築された音源が安定しているかどうか、および、ロケーション測定が、受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)と、
再構築された音源が安定していること、および、ロケーション測定が、マルチチャネルのチャネルのサブセット内に主に集中していること、および、パラメータメモリが破損していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換するために、パラメータ回復を起動すること(912)と
を含む動作を実行させる、装置。
【0122】
19.コーディングモードは、絶対コーディングモードおよび予測コーディングモードのうちの1つを含み、少なくともコーディングモードおよび先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定することは、コーディングモードが予測コーディングモードであること、および先行不良フレームインジケータに基づいて、パラメータメモリが破損しているかどうかを決定することを含む、実施形態18の装置。
【0123】
20.マルチチャネルは、2つのチャネルを含み、ロケーション測定に基づいて、再構築された音源のロケーション測定が、マルチチャネルのチャネルのサブセット内に主に集中しているかどうかを決定すること(910)は、ロケーション測定に基づいて、再構築された音源のロケーション測定が、2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、実施形態18または19の装置。
【0124】
21.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、実施形態18から20のいずれか一つの装置。
【0125】
22.再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に従って決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定すること、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えることに応答して、再構築された音源が、マルチチャネルのうちのチャネルのサブセット内に主に集中していると決定することと
を含む、実施形態21の装置。
【0126】
23.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である、実施形態18の装置。
【0127】
24.受信されたマルチチャネル信号において、復号されたパラメータを、推定されたパラメータに置換するように設定された装置であって、装置は、
少なくとも1つのプロセッサ(801)と、
プロセッサに通信可能に結合されたメモリ(803)とを備え、前記メモリは、プロセッサによって実行可能な命令を含み、命令は、実行された場合、プロセッサに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、再構築された音源のロケーション測定が、受信されたマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
再構築された音源が、安定した音源であること、および、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
メモリ破損フラグが設定されていないことに応答して、
ロケーション測定を更新するために、再構築された音源のロケーション測定を分析すること(1012)と、
記憶されたマルチチャネルパラメータを、復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、装置。
【0128】
25.メモリは、プロセッサによって実行可能なさらなる命令を含み、さらなる命令は、実行された場合、プロセッサに、
コーディングモードが絶対コーディングモードであることに応答して、メモリ破損フラグを解除すること(1004)
を含む動作を実行させる、実施形態24の装置。
【0129】
26.メモリは、プロセッサによって実行可能なさらなる命令を含み、さらなる命令は、実行された場合、プロセッサに、
不良フレームが示されることに応答して、メモリ破損フラグを設定すること(1000)
を含む動作を実行させる、実施形態24の装置。
【0130】
27.マルチチャネルは、2つのチャネルを含み、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、再構築された音源のロケーション測定が、2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)、実施形態24から26のいずれか一つの装置。
【0131】
28.ロケーション測定を更新することは、
に基づいて、ロケーション測定を更新することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、実施形態24から27のいずれか一つの装置。
【0132】
29.再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
ローパスフィルタリングされた位置の絶対値が、閾値
を超えることに応答して、再構築された音源のロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、実施形態28の装置。
【0133】
30.ロケーション測定を導出することは、
に基づいて、ロケーション測定を導出することを含み、ただし、
は、ロケーション測定であり、ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、複数の合計の始まりであり、
は、変換されたダウンミックス信号である、実施形態24の装置。
【0134】
上記開示からの略語の解説は、以下に提供される。
略語 解説
BFI 不良フレームインジケータ
PREV BFI 先行フレーム不良フレームインジケータ
DFT 離散フーリエ変換
LP 線形予測
PLC パケット損失隠蔽
ECU 誤り隠蔽ユニット
FEC フレーム誤り訂正/隠蔽
MDCT 修正離散コサイン変換
MDST 修正離散サイン変換
MSE 平均二乗誤差
ODFT 奇数離散フーリエ変換
LTP 長期予測因子
ITD チャネル間時間差
IPD チャネル間位相差
ILD チャネル間レベル差
ICC チャネル間コヒーレンス
FD 周波数ドメイン
TD 時間ドメイン
FLC フレーム損失隠蔽
【0135】
上記開示からの参考文献の引用は、以下に提供される。
[1].IEEE Transactions on Audio,Speech,and Language Processing、vol.14、no.1,299~310頁、2006年1月における、C.Faller、“Parametric multichannel audio coding: synthesis of coherence cues”。
[2].Breebaart,J.、Herre,J.、Faller,C.、Roden,J.、Myburg,F.、Disch,S.、...&Oomen,W.(2005).“MPEG spatial audio coding/MPEG surround:Overview and current status,”2005 In Preprint 119th Conv.Aud.Eng.Soc.(No.LCAV-CONF-2005-029)。
【0136】
さらなる規定および実施形態が、以下に論じられる。
【0137】
本発明概念の様々な実施形態の上記説明において、本明細書において使用される用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明概念を限定するようには意図されていないことが理解されるべきである。特に規定されていない限り、本明細書において使用されるあらゆる用語(技術用語および科学用語を含む)は、本発明概念が属する技術分野における当業者によって一般に理解されるのと同じ意味を有する。一般に使用されている辞書において規定される用語などの用語は、本明細書および関連する技術分野の文脈におけるそれらの意味と一致する意味を有するものとして解釈されるべきであり、本明細書において明示的に規定されない限り、理想的な意味または過度に形式的な意味において解釈されないであろうことが、さらに理解されるであろう。
【0138】
要素が別の要素に「接続される」、「結合される」、「応答する」、または、これらの変形例として言及される場合、要素は、その別の要素に直接接続されること、結合されること、もしくは応答することが可能であり、または、介在要素が存在してもよい。対照的に、要素が別の要素に「直接接続される」もの、「直接結合される」もの、「直接応答する」もの、または、これらの変形例として言及される場合、介在要素は存在しない。同様の数字は、全体を通じて同様の要素を指す。さらに、本明細書において使用されるような「結合される」、「接続される」、「応答する」、または、これらの変形例は、無線結合されること、無線接続されること、または無線応答することを含み得る。本明細書において、「一(a)」、「1つの(an)」および「その(the)」という単数形は、文脈が特に明示しない限り、複数形も含むことを意図される。周知の機能または構造は、簡潔さおよび/または明確さのために、詳細には説明されないことがある。「および/または」という用語は、関連付けられた列挙されているアイテムのうちの1つまたは複数のありとあらゆる組合せを含む。
【0139】
第1の、第2の、第3の等の用語は、様々な要素/動作を説明するために本明細書において使用され得るが、これらの要素/動作は、これらの用語によって限定されるべきでないことが理解されるであろう。これらの用語は、1つの要素/動作と別の要素/動作とを区別するためにのみ使用される。したがって、いくつかの実施形態における第1の要素/動作は、本発明概念の教示から逸脱せずに、他の実施形態においては第2の要素/動作と名付けられ得る。同じ参照符号または同じ参照記号は、本明細書の全体を通じて、同じまたは同様の要素を表す。
【0140】
本明細書において、「備える(comprise)」、「備える(comprising)」、「備える(comprises)」、「含む(include)」、「含む(including)」、「含む(includes)」、「有する(have)」、「有する(has)」、「有する(having)」という用語、または、これらの変形例は、オープンエンドであり、1つまたは複数の記載された特徴、整数、要素、ステップ、構成要素または機能を含むが、1つまたは複数の他の特徴、整数、要素、ステップ、構成要素、機能またはこれらのグループの存在または追加を除外しない。さらに、本明細書において使用されるように、「exempli gratia」というラテン語の句から導出される、「e.g.」という一般的な略語は、前述されたアイテムの一般的な1つまたは複数の例を導入または特定するために使用され得、そのようなアイテムに限定されることを意図されていない。「id est」というラテン語の句から導出される、「i.e.」という一般的な略誤は、より一般的な記載から特定のアイテムを特定するために使用され得る。
【0141】
例示的な実施形態は、コンピュータ実装方法、装置(システムおよび/もしくはデバイス)ならびに/またはコンピュータプログラム製品のブロック図および/またはフローチャート例示を参照して、本明細書において説明される。ブロック図および/またはフローチャート例示のブロック、ならびにブロック図および/またはフローチャート例示におけるブロックの組合せは、1つまたは複数のコンピュータ回路によって実行されるコンピュータプログラム命令によって実装されることが可能であることが理解される。これらのコンピュータプログラム命令は、汎用コンピュータ回路、専用コンピュータ回路、および/または他のプログラマブルデータ処理回路のプロセッサ回路に提供されて、コンピュータおよび/または他のプログラマブルデータ処理装置のプロセッサにより実行される命令が、そのような回路内のトランジスタ、メモリロケーションに記憶された値、および他のハードウェア構成要素を変換および制御して、ブロック図および/または1つもしくは複数のフローチャートブロックにおいて特定される機能/行為を実装し、それによって、ブロック図および/またはフローチャートブロックにおいて特定される機能/行為を実装するための手段(機能性)および/または構造を作成するように、マシンを生み出し得る。
【0142】
これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置が特定の手法で機能するように指示することができる有形コンピュータ可読媒体内に記憶されてもよく、それにより、コンピュータ可読媒体内に記憶された命令は、ブロック図および/または1つもしくは複数のフローチャートブロックにおいて特定される機能/行為を実装する命令を含む製品を生み出す。したがって、本発明概念の実施形態は、ハードウェアにおいて、および/または、デジタル信号プロセッサなどのプロセッサ上で実行されるソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)において、具現化され得、これらはまとめて、「回路」、「モジュール」またはこれらの変形例と称され得る。
【0143】
いくつかの代替的な実装において、ブロック内に記載された機能/行為は、フローチャートにおいて記載された順序とは異なって発生してもよいことも留意されるべきである。例えば、連続して示された2つのブロックは、実際には実質的に同時に実行されてもよく、または、これらのブロックは、時には、関与する機能性/行為に依存して、逆の順序で実行されてもよい。さらに、フローチャートおよび/もしくはブロック図の所与のブロックの機能性は、複数のブロックに分離されてもよく、ならびに/または、フローチャートおよび/もしくはブロック図の2つ以上のブロックの機能性は、少なくとも部分的に一体化されてもよい。最後に、他のブロックが、例示されるブロック間に追加/挿入されてもよく、および/または、ブロック/動作は、発明概念の範囲から逸脱せずに、省略されてもよい。さらに、図のうちのいくつかは、通信の主要な方向を示すために通信経路上に矢印を含むが、通信は、図示された矢印とは反対の方向において発生してもよいことが理解されるべきである。
【0144】
多くのバリエーションおよび変形例が、本発明概念の原理から実質的に逸脱せずに、実施形態に対して行われることが可能である。あらゆるそのようなバリエーションおよび変形例は、本発明概念の範囲内で本明細書に含まれることを意図されている。したがって、上記に開示されている主題は、例示的なものであって、制限的ではないものと考慮されるべきであり、実施形態の例は、本発明概念の趣旨および範囲内に収まる、あらゆるそのような変形、増強、および他の実施形態を網羅するように意図されている。したがって、法によって許容される最大限の範囲で、本発明概念の範囲は、実施形態の例およびそれらの均等物を含む、本開示の最も広い許容可能な解釈によって決定されるべきであり、前述の詳細な説明によって制限または限定されるべきではない。
【0145】
一般に、本明細書において使用されるあらゆる用語は、異なる意味が明確に与えられない限り、および/または、用語が使用される文脈から示唆されない限り、関連する技術分野におけるそれらの用語の通常の意味に従って解釈されるべきである。一/1つの/その要素、装置、構成要素、手段、ステップ等へのあらゆる参照は、特に明示的に述べられない限り、少なくとも1つのインスタンスの要素、装置、構成要素、手段、ステップ等を指すものとしてオープンに解釈されるべきである。本明細書において開示されている任意の方法のステップは、あるステップが別のステップに続くもの、もしくは先行するものとして明示的に説明されていない限り、および/または、あるステップが別のステップに続かなければならない、もしくは先行しなければならないことが黙示されない限り、開示されている厳密な順序で実行される必要はない。本明細書において開示されている実施形態のいずれかの任意の特徴は、適当な場合には、任意の他の実施形態に適用されてもよい。同様に、実施形態のいずれかの任意の利点は、任意の他の実施形態に適用され得、その逆も然りである。
【0146】
本明細書において開示されている任意の適当なステップ、方法、特徴、機能、または利点は、1つまたは複数の仮想装置の1つまたは複数の機能ユニットまたはモジュールを通じて実行され得る。各仮想装置は、複数のこれらの機能ユニットを含んでもよい。これらの機能ユニットは、処理回路を介して実装されてもよく、処理回路は、1つまたは複数のマイクロプロセッサまたはマイクロコントローラ、および他のデジタルハードウェアを含んでもよく、他のデジタルハードウェアは、デジタル信号プロセッサ(DSP)、特殊用途デジタル論理等を含んでもよい。処理回路は、メモリ内に記憶されたプログラムコードを実行するように設定されてもよく、メモリは、1つまたはいくつかのタイプのメモリ、例えば、読み出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、キャッシュメモリ、フラッシュメモリデバイス、光学ストレージデバイス等などを含んでもよい。メモリ内に記憶されたプログラムコードは、1つまたは複数の通信および/またはデータ通信プロトコルを実行するためのプログラム命令、ならびに本明細書において説明される技法のうちの1つまたは複数を実行するための命令を含む。いくつかの実装において、処理回路は、それぞれの機能ユニットに、本開示の1つまたは複数の実施形態による対応する機能を実行させるために使用され得る。
【手続補正書】
【提出日】2024-02-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換する方法であって、前記方法は、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む、方法。
【請求項2】
前記マルチチャネルは、2つのチャネルを含み、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項1に記載の方法。
【請求項3】
前記コーディングモードが絶対コーディングモードであることに応答して、前記メモリ破損フラグを解除すること(1004)
をさらに含む、請求項1または2に記載の方法。
【請求項4】
不良フレームが示されることに応答して、前記メモリ破損フラグを設定すること(1000)
をさらに含む、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記ロケーション測定を、
に基づいて更新することをさらに含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、請求項1から4のいずれか一項に記載の方法。
【請求項6】
前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、請求項5に記載の方法。
【請求項7】
前記ロケーション測定を、
に基づいて導出することをさらに含み、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、請求項3に記載の方法。
【請求項8】
通信ネットワークのためのデコーダ(200)であって、前記デコーダ(100)は、
プロセッサ(801)と、
前記プロセッサに結合されたメモリ(803)とを備え、前記メモリは、命令を含み、前記命令は、前記プロセッサによって実行された場合、前記プロセッサに、
コーディングモードが絶対コーディングモードであるか、または予測コーディングモードであるかを決定すること(1002)と、
前記コーディングモードが予測コーディングモードであることに応答して、
メモリ破損フラグが設定されているかを決定すること(1006)と、
前記メモリ破損フラグが設定されていることに応答して、
再構築された音源が、安定した音源であるかどうか、および、前記再構築された音源のロケーション測定が、復号されているマルチチャネル信号のマルチチャネルのうちのチャネルのサブセット内に主に集中しているかどうかを決定すること(1008)と、
前記再構築された音源が、安定した音源であること、および、前記再構築された音源の前記ロケーション測定が、前記マルチチャネルのうちの前記チャネルの前記サブセット内に主に集中していることに応答して、復号されたマルチチャネルパラメータを、記憶されたマルチチャネルパラメータに置換すること(1010)と、
前記メモリ破損フラグが設定されていないことに応答して、
前記ロケーション測定を更新するために、前記再構築された音源の前記ロケーション測定を分析すること(1012)と、
前記記憶されたマルチチャネルパラメータを、前記復号されたマルチチャネルパラメータで更新すること(1014)と
を含む動作を実行させる、デコーダ(200)。
【請求項9】
前記マルチチャネルは、2つのチャネルを含み、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、前記再構築された音源の前記ロケーション測定が、前記2つのチャネルのうちの1つに主に集中しているかどうかを決定すること(910)を含む、請求項8に記載のデコーダ(200)。
【請求項10】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
前記コーディングモードが絶対コーディングモードであることに応答して、前記メモリ破損フラグを解除すること(1004)
を含む、さらなる動作を実行させる、請求項8または9に記載のデコーダ(200)。
【請求項11】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
不良フレームが示されることに応答して、前記メモリ破損フラグを設定すること(1000)
を含む、さらなる動作を実行させる、請求項8から10のいずれか一項に記載のデコーダ(200)。
【請求項12】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を更新することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の平均値を含み、N
bandsは、フレームm内のサブバンドの数である、前記ロケーション測定を更新することを含む、さらなる動作を実行させる、請求項8から11のいずれか一項に記載のデコーダ(200)。
【請求項13】
前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中しているかどうかを決定することは、
ローパスフィルタリングされた位置を、
に基づいて、決定することであって、
ただし、γは、フィルタパラメータであり、
は、フレームmについての再構築された予測パラメータの平均値であり、
は、前記ローパスフィルタリングされた位置である、ローパスフィルタリングされた位置を決定することと、
前記ローパスフィルタリングされた位置の絶対値が、閾値
を超えるかどうかを決定することと、
前記ローパスフィルタリングされた位置の前記絶対値が、前記閾値
を超えることに応答して、前記再構築された音源の前記ロケーション測定が、チャネルのサブセット内に主に集中していると決定することと
を含む、請求項12に記載のデコーダ(200)。
【請求項14】
前記メモリは、さらなる命令を含み、前記さらなる命令は、前記プロセッサによって実行された場合、前記プロセッサに、
に基づいて、前記ロケーション測定を導出することであって、ただし、
は、前記ロケーション測定であり、前記ロケーション測定は、各フレームmについての全てのサブバンドにわたる再構築された予測パラメータ
の重み付けされた平均値を含み、N
bandsは、フレームm内のサブバンドの数であり、w
b(m)および
は、重み付け係数であり、k
end(b)は、複数の合計の終わりであり、k
start(b)は、前記複数の合計の始まりであり、
は、変換されたダウンミックス信号である、前記ロケーション測定を導出することを含む、さらなる動作を実行させる、請求項8に記載のデコーダ(200)。
【外国語明細書】