IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

<>
  • 特許-パケット損失隠蔽 図1
  • 特許-パケット損失隠蔽 図2
  • 特許-パケット損失隠蔽 図3
  • 特許-パケット損失隠蔽 図4
  • 特許-パケット損失隠蔽 図5
  • 特許-パケット損失隠蔽 図6
  • 特許-パケット損失隠蔽 図7
  • 特許-パケット損失隠蔽 図8
  • 特許-パケット損失隠蔽 図9
  • 特許-パケット損失隠蔽 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-26
(45)【発行日】2024-08-05
(54)【発明の名称】パケット損失隠蔽
(51)【国際特許分類】
   G10L 19/005 20130101AFI20240729BHJP
【FI】
G10L19/005
【請求項の数】 17
(21)【出願番号】P 2023500992
(86)(22)【出願日】2021-07-07
(65)【公表番号】
(43)【公表日】2023-08-01
(86)【国際出願番号】 EP2021068774
(87)【国際公開番号】W WO2022008571
(87)【国際公開日】2022-01-13
【審査請求日】2023-03-02
(31)【優先権主張番号】63/049,323
(32)【優先日】2020-07-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/208,896
(32)【優先日】2021-06-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ムント,ハラルト
(72)【発明者】
【氏名】ブルーン,シュテファン
(72)【発明者】
【氏名】プルンハーゲン,ヘイコ
(72)【発明者】
【氏名】プレイン,サイモン
(72)【発明者】
【氏名】シューク,ミヒャエル
【審査官】堀 洋介
(56)【参考文献】
【文献】特表2016-528535(JP,A)
【文献】国際公開第2009/157213(WO,A1)
【文献】特開2012-159730(JP,A)
【文献】特表2016-540241(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-19/008
(57)【特許請求の範囲】
【請求項1】
オーディオ信号を処理する方法であって、前記オーディオ信号がフレームシーケンスを含み、各フレームは、複数のオーディオチャネルの表現と、前記複数のオーディオチャネルを事前に定義されたチャネル形式にアップミックスするための再構成パラメータとを含み、前記方法は、
前記オーディオ信号を受信するステップと、
前記受信したオーディオ信号に基づいて前記事前に定義されたチャネル形式で再構成オーディオ信号を生成するステップと、
を含み、
前記再構成オーディオ信号を生成するステップは、
前記オーディオ信号の少なくとも1つのフレームが失われたかどうかを決定するステップと、
連続する損失フレームの数が第1閾値を超えた場合、前記再構成オーディオ信号を事前に定義された空間構成にフェーディングするステップと、
を含
前記再構成オーディオ信号を事前に定義された空間構成にフェーディングするステップは、事前に定義されたフェードアウト時間に従って、単位行列と前記事前に定義された空間構成を示す目標行列との間で線形補間するステップを含む、方法。
【請求項2】
前記事前に定義された空間構成が、空間的に均一なオーディオ信号に対応するか、又は、
前記事前に定義された空間構成が、事前に定義された方向に対応する、
請求項1に記載の方法。
【請求項3】
前記連続する損失フレームの数が、前記第1閾値以上の第2閾値を超えた場合、前記再構成オーディオ信号を徐々にフェードアウトするステップを更に含む請求項1~のいずれか一項に記載の方法。
【請求項4】
前記オーディオ信号の少なくとも1つのフレームが失われた場合、以前のフレームの再構成パラメータに基づいて、前記少なくとも1つの損失フレームの再構成パラメータの推定を生成するステップと、
前記少なくとも1つの損失フレームの再構成オーディオ信号を生成するために、前記少なくとも1つの損失フレームの再構成パラメータの前記推定を使用するステップと、
を更に含む請求項1~のいずれか一項に記載の方法。
【請求項5】
各再構成パラメータは、前記フレームシーケンス内の所与のフレーム数ごとに1回明示的にコーディングされ、残りのフレームのフレーム間で差分コーディングされ、
損失フレームの所定の再構成パラメータを推定するステップは、
前記所与の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの前記所与の再構成パラメータを推定するステップ、又は、
前記所与の再構成パラメータ以外の1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの前記所与の再構成パラメータを推定するステップ、
を含む、請求項に記載の方法。
【請求項6】
前記所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップと、
前記損失フレームの所与の再構成パラメータを、前記所与の再構成パラメータの最近に決定された値に基づいて又は前記所与の再構成パラメータ以外の前記1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて推定するかを、前記信頼性の指標に基づいて決定するステップと、
を含む請求項に記載の方法。
【請求項7】
前記所与の再構成パラメータの値を決定できなかったフレームの数が第3閾値を超える場合、前記所与の再構成パラメータ以外の前記1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて前記損失フレームの所与の再構成パラメータを推定するステップと、
それ以外の場合は、前記所与の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの所与の再構成パラメータを推定するステップと、
を含む請求項5又は6に記載の方法。
【請求項8】
各フレームが各々の周波数帯域に関連する再構成パラメータを含み、前記損失フレームの所与の再構成パラメータは、前記所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する1つ以上の再構成パラメータに基づいて推定される、請求項4~7のいずれか一項に記載の方法。
【請求項9】
前記所与の再構成パラメータが、前記所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される、請求項に記載の方法。
【請求項10】
前記所与の再構成パラメータが、前記所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって、又は、前記所与の再構成パラメータが関連する周波数帯域が近隣の周波数帯域を1つしか持たない場合には、前記近隣の周波数帯域に関する再構成パラメータからの外挿によって、推定される、請求項8又は9に記載の方法。
【請求項11】
オーディオ信号を処理する方法であって、前記オーディオ信号がフレームシーケンスを含み、各フレームは、複数のオーディオチャネルの表現と、前記複数のオーディオチャネルを事前に定義されたチャネル形式にアップミックスするための再構成パラメータとを含み、前記方法は、
前記オーディオ信号を受信するステップと、
前記受信したオーディオ信号に基づいて前記事前に定義されたチャネル形式で再構成オーディオ信号を生成するステップと、
を含み、
前記再構成オーディオ信号を生成するステップは、
前記オーディオ信号の少なくとも1つのフレームが失われたかどうかを決定するステップと、
前記オーディオ信号の少なくとも1つのフレームが失われた場合、
以前のフレームの1つ以上の再構成パラメータに基づいて、前記少なくとも1つの損失フレームの再構成パラメータの推定を生成するステップと、
前記少なくとも1つの損失フレームの再構成オーディオ信号を生成するために、前記少なくとも1つの損失フレームの再構成パラメータの前記推定を使用するステップと、
所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップと、
前記損失フレームの所与の再構成パラメータを、前記所与の再構成パラメータの最近に決定された値に基づいて又は前記所与の再構成パラメータ以外の前記1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて推定するかを、前記信頼性の指標に基づいて決定するステップと、
を含む、方法。
【請求項12】
各再構成パラメータは、前記フレームシーケンス内の所与のフレーム数ごとに1回明示的にコーディングされ、残りのフレームのフレーム間で差分コーディングされ、
損失フレームの所定の再構成パラメータを推定するステップは、
前記所与の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの前記所与の再構成パラメータを推定するステップ、又は、
前記所与の再構成パラメータ以外の1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの前記所与の再構成パラメータを推定するステップ、
を含む、請求項11に記載の方法。
【請求項13】
前記所与の再構成パラメータの値を決定できなかったフレームの数が第3閾値を超える場合、前記所与の再構成パラメータ以外の前記1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて前記損失フレームの前記所与の再構成パラメータを推定するステップと、
それ以外の場合は、前記所与の再構成パラメータの最近に決定された値に基づいて、前記損失フレームの前記所与の再構成パラメータを推定するステップと、
を含む請求項11又は12に記載の方法。
【請求項14】
各フレームが各々の周波数帯域に関連する再構成パラメータを含み、前記損失フレームの所与の再構成パラメータは、前記所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する1つ以上の再構成パラメータに基づいて推定される、請求項11~13のいずれか一項に記載の方法。
【請求項15】
前記所与の再構成パラメータが、前記所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される、請求項14に記載の方法。
【請求項16】
前記所与の再構成パラメータが、前記所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって推定される、又は、前記所与の再構成パラメータが関連する周波数帯域が近隣の周波数帯域を1つしか持たない場合には、前記近隣の周波数帯域に関する再構成パラメータからの外挿によって推定される、請求項14又は15に記載の方法。
【請求項17】
コンピュータに請求項1~16のいずれかに記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、以下の優先権出願:2020年7月8日に出願された米国仮出願63/049,323(参照番号:D20068USP1)及び2021年6月9日に出願された米国仮出願63/208,896(参照番号:D20068USP2)の優先権を主張する。
【0002】
[技術分野]
本開示は、オーディオ信号の処理のための方法及び機器に関する。本開示は、可能な限り最良のオーディオ体験を達成するために、パケット(フレーム)損失の場合の没入型音声及びオーディオシステム(Immersive Voice and Audio System (IVAS))コーデックなどのコーデックにおけるデコーダ処理について更に説明する。この原理は、パケット損失隠蔽(Packet Loss Concealment (PLC))として知られている。
【背景技術】
【0003】
IVASなどの空間オーディオをコーディングするためのオーディオコーデックには、符号化オーディオの正確な空間構成を可能にする再構成パラメータ(例えば、空間再構成パラメータ)を含むメタデータが含まれている。実際のオーディオ信号に対してパケット損失の隠蔽が行われている場合があるが、このメタデータが失われると、オーディオの認識可能な誤った空間再構成、ひいては可聴アーチファクトが発生する可能性がある。
【0004】
従って、空間再構成パラメータなどの再構成パラメータを含むメタデータのパケット損失隠蔽を改善する必要がある。
【発明の概要】
【0005】
上記の観点から、本開示は、各々の独立請求項の特徴を有する、オーディオ信号を処理する方法、オーディオ信号を符号化する方法、並びに対応する機器、コンピュータプログラム、及びコンピュータ可読記憶媒体を提供する。
【0006】
本開示の態様によると、オーディオ信号を処理する方法が提供される。前記方法は、受信機/デコーダにおいて実行されてよい。オーディオ信号は、フレームシーケンスを含むことができる。各フレームは、複数のオーディオチャネルの表現と、複数のオーディオチャネルを所定の(又は事前に定義された)チャネル形式にアップミックスするための再構成パラメータとを含む。オーディオ信号は、マルチチャネルのオーディオ信号である場合がある。事前に定義されたチャネル形式は、W、X、Y、及びZオーディオチャネル(コンポーネント)などの1次アンビソニクス(first-order Ambisonics (FOA))である場合がある。この場合、オーディオ信号には最大4つのオーディオチャネルを含めることができる。オーディオ信号の複数のオーディオチャネルは、事前に定義されたチャネル形式のオーディオチャネルをダウンミックスすることによって得られるダウンミックスチャネルに関連することがある。再構成パラメータは、空間再構成(Spatial Reconstruction (SPAR))パラメータであることがある。方法には、オーディオ信号を受信するステップを含むことがある。方法は、受信したオーディオ信号に基づき所定のチャネル形式で再構成オーディオ信号を生成するステップを更に含む。この場合、再構成オーディオ信号の生成は、受信したオーディオ信号と再構成パラメータ(及び/又は再構成パラメータの推定)に基づくことができる。更に、再構成オーディオ信号の生成には、オーディオ信号の(複数の)オーディオチャネルのアップミックスが含まれる場合がある。複数のオーディオチャネルを事前に定義されたチャネル形式にアップミックスすることは、複数のオーディオチャネルとその非相関バージョンに基づいて、事前に定義されたチャネル形式の音声チャネルを再構成することに関連する場合がある。非相関バージョンは、オーディオ信号の複数のオーディオチャネルと再構成パラメータ(の少なくとも一部)に基づいて生成される場合がある。この目的のために、アップミックスマトリクスは再構成パラメータに基づいて決定される場合がある。再構築されたオーディオ信号の生成には、オーディオ信号の少なくとも1フレームが失われたかどうかの決定も含まれる場合がある。その後、連続する損失フレームの数が第1閾値を超える場合、生成することには、再構成オーディオ信号を所定の(又は事前に定義された)空間構成にフェーディングすることが含まれる場合がある。一例では、事前に定義された空間構成は全方向のオーディオ信号に関連する場合がある。再構成FOAオーディオ信号の場合、これはWオーディオチャネルのみが保持されることを意味する。第1閾値は、例えば4又は8フレームである。フレームの期間は、例えば20msである。
【0007】
上で定義したように構成することで、提案された方法は、パケット損失の場合、特に長時間のパケット損失の場合、一貫性のないオーディオを緩和し、ユーザの一貫した空間体験を提供することができる。これは、パケット損失の場合に個々のオーディオチャネルのEVS隠蔽信号が相互に一貫していない可能性がある拡張音声サービス(Enhanced Voice Service (EVS))フレームワークで特に関連する場合がある。
【0008】
幾つかの実施形態では、事前に定義された空間構成は空間的に均一なオーディオ信号に対応する場合がある。例えば、FOAの場合、事前定義された空間構成にフェードアウトされた再構成オーディオ信号には、Wオーディオチャネルのみが含まれる場合がある。代替として、事前定義された空間構成は、再構成オーディオ信号の事前定義された方向に対応する場合がある。この場合、例えば、FOAの場合、X、Y、Zコンポーネントの1つがスケールバージョンのWにフェードアウトされ、X、Y、Zコンポーネントの残りの2つが0にフェードアウトされる場合がある。
【0009】
幾つかの実施形態では、再構成オーディオ信号を事前に定義された空間構成にフェーディングすることは、所定のフェードアウト時間に従って、単位行列と事前に定義された空間構成を示す目標行列との間の線形補間を含んでよい。この場合、顕著なアップミックスマトリクスと補間されたマトリクスの行列積に基づいて、音声再構築のためのアップミックスマトリクスが決定される(例えば、生成される)場合がある。この目的のために、顕著なアップミックスマトリクスは再構成パラメータに基づいて導出される場合がある。
【0010】
幾つかの実施形態では、方法は、連続する損失フレームの数が、第1閾値以上の第2閾値を超えた場合、前記再構成オーディオ信号を徐々にフェードアウトするステップを更に含んでよい。再構成オーディオ信号を徐々にフェードアウト(すなわち、ミュート)するには、再構成オーディオ信号、オーディオ信号の複数のオーディオチャネル、又は再構成オーディオ信号を生成する際に使用される任意のアップミックス係数に、徐々に減衰するゲインを適用することによって達成できる。段階的なフェードアウトは、(第2)所定のフェードアウト時間(時定数)に従って行うことができる。例えば、再構成オーディオ信号は、(損失)フレームごとに3dBだけミュートされることがある。第2閾値は、例えば8フレームである。
【0011】
これにより、特に非常に長い期間にわたるパケット損失の場合に、一貫したユーザ体験を提供することが更に追加される。
【0012】
幾つかの実施では、この方法は、オーディオ信号の少なくとも1つのフレームが失われた場合に、以前のフレームの1つ以上の再構成パラメータに基づいて、少なくとも1つの損失フレームの再構成パラメータの推定を生成することを更に含む場合がある。この方法は、更に、少なくとも1つの損失フレームの再構成オーディオ信号を生成するために、少なくとも1つの損失フレームの再構成パラメータの推定を使用することを含む場合がある。これは、所定の数(例えば、第1閾値よりも少ない)未満のフレームが失われた場合に適用される場合がある。代替として、再構成オーディオ信号が空間的に完全にフェードアウト及び/又は完全にフェードアウト(ミュート)されるまで適用される場合がある。
【0013】
幾つかの実施形態では、各再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的にコーディングされ、残りのフレームのフレーム間で(時間)差分コーディングされる場合がある。更に、損失フレームの所与の再構成パラメータを推定することは、所与の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。代替として、当該推定は、所与の再構成パラメータ以外の2つ以上の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。例外的に、当該推定は、所与の再構成パラメータ以外の1つの再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる(例えば、隣接する周波数帯域が1つしかない周波数帯域に関する再構成パラメータの場合)。従って、所与の再構成パラメータは、時間にわたって外挿されるか、再構成パラメータにわたって内挿されるか、又は、例えば、最低/最高周波数帯域の再構成パラメータの場合は、単一の隣接周波数帯域から外挿される。差分コーディングは、各フレームが明示的コーディングされた少なくとも1つの再構成パラメータと以前のフレームを参照して差分コーディングされた少なくとも1つの再構成パラメータを含む(インタリーブされた)差分コーディング方式に従うことができ、明示的にコーディングされた再構成パラメータと差分コーディングされた再構成パラメータのセットは、フレームごとに異なる。これらのセットの内容は、所定のフレーム期間の後に繰り返すことができる。再構成パラメータの値は、その値を正しく復号することによって決定できることが理解されている。
【0014】
これにより、パケット損失の場合に合理的な再構成パラメータ(例えば、SPARパラメータ)を提供し、例えばEVS隠蔽信号に基づいて一貫した空間経験を提供することができる。更に、これにより、時間差分コーディングを適用したパケット損失後の最良の再構成パラメータ(例えば、SPARパラメータ)を提供することができる。
【0015】
幾つかの実施形態では、この方法は更に、所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップを含む場合がある。方法は、所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップと、損失フレームの所与の再構成パラメータを、所与の再構成パラメータの最近に決定された値に基づいて又は所与の再構成パラメータ以外の2つ以上の再構成パラメータ(例外的に、単一の再構成パラメータ)の最近に決定された値に基づいて推定するかを、信頼性の指標に基づいて決定するステップと、を更に含んでよい。信頼性の指標は、所与の再構成パラメータの最近に決定された値の経過時間(age)(例えば、フレーム単位)及び/又は所与の再構成パラメータ以外の再構成パラメータの最近に決定された値の経過時間(例えば、フレーム単位)に基づいて決定される場合がある。
【0016】
幾つかの実施形態では、方法は、更に、所与の再構成パラメータの値を決定できなかったフレームの数が第3閾値を超える場合、所与の再構成パラメータ以外の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定するステップを含む場合がある。方法は、更に、その他の場合に、所与の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。
【0017】
幾つかの実施形態では、各フレームは、各々の周波数帯域に関連する再構成パラメータを含む場合がある。損失フレームの所与の再構成パラメータは、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する(1つ以上の)再構成パラメータに基づいて推定される場合がある。
【0018】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。例外的に、カバーされる周波数範囲の境界にある周波数帯域(すなわち、最高又は最低の周波数帯)については、最も高い周波数帯域又は最も低い周波数帯域に隣接する(又は最も近い)周波数帯域に関連する再構成パラメータから外挿することによって、損失フレームの所与の再構成パラメータが推定される場合がある。
【0019】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。代替として、所与の再構成パラメータが関係する周波数帯域が近隣の周波数帯域を1つしか持たない場合、その近隣の周波数帯域に関する再構成パラメータから外挿することによって再構成パラメータを推定することもできる。
【0020】
本開示の別の態様によると、オーディオ信号を処理する方法が提供される。方法は、例えば受信機/デコーダにおいて実行されてよい。オーディオ信号は、フレームシーケンスを含むことができる。各フレームは、複数のオーディオチャネルの表現と、複数のオーディオチャネルを所定のチャネル形式にアップミックスするための再構成パラメータとを含む。方法には、オーディオ信号を受信するステップを含むことがある。方法は、受信したオーディオ信号に基づき所定のチャネル形式で再構成オーディオ信号を生成するステップを更に含む。ここで、再構築オーディオ信号の生成には、オーディオ信号の少なくとも1フレームが失われたかどうかの決定も含まれる場合がある。生成には、オーディオ信号の少なくとも1つのフレームが失われた場合に、以前のフレームの再構成パラメータに基づいて、少なくとも1つの損失フレームの再構成パラメータの推定を生成することを更に含む場合がある。生成には、更に、少なくとも1つの損失フレームの再構成オーディオ信号を生成するために、少なくとも1つの損失フレームの再構成パラメータの推定を使用することを含む場合がある。
【0021】
幾つかの実施形態では、各再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的にコーディングされ、残りのフレームのフレーム間で(時間)差分コーディングされる場合がある。次に、損失フレームの所与の再構成パラメータを推定することは、所与の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。代替として、当該推定は、所与の再構成パラメータ以外の2つ以上の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。例外的に、当該推定は、所与の再構成パラメータ以外の1つの再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる(例えば、隣接する周波数帯域が1つしかない周波数帯域に関する再構成パラメータの場合)。
【0022】
幾つかの実施形態では、この方法は更に、所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップを含む場合がある。方法は、所与の再構成パラメータの最近に決定された値の信頼性の指標を決定するステップと、損失フレームの所与の再構成パラメータを、所与の再構成パラメータの最近に決定された値に基づいて又は所与の再構成パラメータ以外の2つ以上の再構成パラメータ(例外的に、単一の再構成パラメータ)の最近に決定された値に基づいて推定するかを、信頼性の指標に基づいて決定するステップと、を更に含んでよい。
【0023】
幾つかの実施形態では、方法は、更に、所与の再構成パラメータの値を決定できなかったフレームの数が第3閾値を超える場合、所与の再構成パラメータ以外の2つ以上の再構成パラメータ(例外的に、単一の再構成パラメータ)の最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定するステップを含む場合がある。方法は、更に、その他の場合に、所与の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータを推定することを含むことができる。
【0024】
幾つかの実施形態では、各フレームは、各々の周波数帯域に関連する再構成パラメータを含む場合がある。次に、損失フレームの所与の再構成パラメータは、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する(1つ以上の)再構成パラメータに基づいて推定される場合がある。
【0025】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。
【0026】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。代替として、所与の再構成パラメータが関係する周波数帯域が近隣の周波数帯域を1つしか持たない場合、その近隣の周波数帯域に関する再構成パラメータから外挿することによって所与の再構成パラメータを推定することもできる。
【0027】
本開示の別の態様によると、オーディオ信号を処理する方法が提供される。方法は、例えば受信機/デコーダにおいて実行されてよい。オーディオ信号は、フレームシーケンスを含むことができる。各フレームは、複数のオーディオチャネルの表現と、複数のオーディオチャネルを所定のチャネル形式にアップミックスするための再構成パラメータとを含む。各再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的にコーディングされ、残りのフレームのフレーム間で差分コーディングされる場合がある。方法には、オーディオ信号を受信するステップを含むことがある。方法は、受信したオーディオ信号に基づき所定のチャネル形式で再構成オーディオ信号を生成するステップを更に含む。ここで、再構成オーディオ信号の生成は、オーディオ信号の所与のフレームについて、正しく復号された再構成パラメータと、差分ベースが欠落しているために正しく復号できない再構成パラメータを識別するステップを含む場合がある。前記の生成は、更に、所与のフレームについて、所与のフレームの正しく復号された再構成パラメータ及び/又は1つ以上の以前のフレームの正しく復号された再構成パラメータに基づき、正しく復号できなかった再構成パラメータを推定するステップを含む場合がある。前記の生成は、更に、所与のフレームについて、正しく復号された再構成パラメータと推定した再構成パラメータを使用して、所与のフレームの再構成オーディオ信号を生成するステップを含む場合がある。
【0028】
幾つかの実施形態では、所与のフレームについて正しく復号できなかった所与の再構成パラメータを推定するステップは、所与の再構成パラメータの最近の正しく復号された値に基づき、所与の再構成パラメータを推定するステップを含む場合がある。代替として、前記の推定は、所与の再構成パラメータ以外の2つ以上の再構成パラメータの最近の正しく復号された値に基づいて、所与の再構成パラメータを推定することを含むことができる。例外的に、損失フレームの所与の再構成パラメータは、所与の再構成パラメータ以外の1つの再構成パラメータの最近に決定された値に基づいて、推定することができる(例えば、隣接する周波数帯域が1つしかない周波数帯域に関する再構成パラメータの場合)。
【0029】
幾つかの実施形態では、この方法は更に、所与の再構成パラメータの最近の正しく復号された値の信頼性の指標を決定するステップを含む場合がある。方法は、所与の再構成パラメータを、所与の再構成パラメータの最近の正しく復号された値に基づいて又は所与の再構成パラメータ以外の2つ以上の再構成パラメータ(例外的に、単一の再構成パラメータ)の最近の正しく復号された値に基づいて推定するかを、信頼性の指標に基づいて決定するステップと、を更に含んでよい。
【0030】
幾つかの実施形態では、方法は、更に、所与の再構成パラメータの最近の正しく復号された値がフレーム単位で所定の閾値より古い場合、所与の再構成パラメータ以外の2つ以上の再構成パラメータ(例外的に、単一の再構成パラメータ)の最近の正しく復号された値に基づいて、所与の再構成パラメータを推定するステップを含む場合がある。方法は、更に、その他の場合に、所与の再構成パラメータの最近の正しく復号された値に基づいて、所与の再構成パラメータを推定するステップを含むことができる。
【0031】
幾つかの実施形態では、各フレームは、各々の周波数帯域に関連する再構成パラメータを含む場合がある。次に、所与の再構成パラメータについて正しく復号できなかった所与の再構成パラメータは、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する1つ以上の再構成パラメータの最近の正しく復号された値に基づいて推定される場合がある。
【0032】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。
【0033】
幾つかの実施形態では、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。代替として、所与の再構成パラメータが関係する周波数帯域が近隣の周波数帯域を1つしか持たない場合、その近隣の周波数帯域に関する再構成パラメータから外挿することによって所与の再構成パラメータを推定することもできる。
【0034】
本開示の別の態様によると、オーディオ信号を符号化する方法が提供される。方法は、例えばエンコーダにおいて実行されてよい。符号化オーディオ信号は、フレームシーケンスを含むことができる。各フレームは、複数のオーディオチャネルの表現と、複数のオーディオチャネルを所定のチャネル形式にアップミックスするための再構成パラメータとを含む。方法は、各再構成パラメータについて、フレームシーケンス内の所与のフレーム数ごとに1回、再構成パラメータを明示的に符号化するステップを含むことができる。方法は、残りのフレームのフレーム間で再構成パラメータを(時間)差分符号化するステップを更に含むことができる。ここで、各フレームは、明示的に符号化される少なくとも1つの再構成パラメータと、以前のフレームを参照して差分符号化される少なくとも1つの再構成パラメータを含むことができる。明示的に符号化された再構成パラメータと差分符号化された再構成パラメータのセットは、フレームごとに異なる場合がある。更に、これらのセットの内容は、所定のフレーム期間の後に繰り返すことができる。
【0035】
別の態様によると、コンピュータプログラムが提供される。コンピュータプログラムには、プロセッサによって実行されたときに、本開示全体で説明されている方法のすべてのステップをプロセッサに実行させる命令が含まれる場合がある。
【0036】
別の態様によると、コンピュータ-可読記憶媒体が提供される。コンピュータ可読記憶媒体は前述のコンピュータプログラムを格納することができる。
【0037】
更に別の側面によると、プロセッサとプロセッサに結合されたメモリを含む機器が提供される。プロセッサは、開示全体で説明されている方法のすべてのステップを実行するように適応させることができる。この装置は、受信機/デコーダ(デコーダ機器)又はエンコーダ(エンコーダ機器)に関連している場合がある。
【0038】
機器の特徴と方法ステップは、多くの方法で交換される可能性があることが理解される。特に、開示された方法の詳細は、当業者が理解するように、対応する機器によって実現することができ、また、その逆も同様である。更に、方法に関してなされた上記の記述(そして、例えばそれらのステップ)は、対応する装置(そして、例えば、そのブロック、ステージ、ユニット)にも同様に適用されると理解され、その逆もまた同様である。
【図面の簡単な説明】
【0039】
開示の実施形態を、添付図面を参照して以下に説明する。
図1】開示の実施形態によるパケット損失と良好なフレームの場合のフロー例を示すフローチャートである。
図2】本開示の実施形態による例示的なエンコーダ及びデコーダを示すブロック図である。
図3】本開示の実施形態によるPLCの例示的な処理を説明するフローチャートである。
図4】本開示の実施形態によるPLCの例示的な処理を説明するフローチャートである。
図5図1図4に記載された特徴及び処理を実施するモバイル装置アーキテクチャの例を示す。
図6】本開示の実施形態によるオーディオ信号を処理する(例えば、復号する)図3の方法の実施形態の例を説明するフローチャートである。
図7】本開示の実施形態によるオーディオ信号を処理する(例えば、復号する)図3の方法の実施形態の例を説明するフローチャートである。
図8】本開示の実施形態によるオーディオ信号を処理する(例えば、復号する)図3の方法の実施形態の例を説明するフローチャートである。
図9】本開示の実施形態によるオーディオ信号を処理する(例えば、復号する)図3の方法の実施形態の例を説明するフローチャートである。
図10】本開示の実施形態によるオーディオ信号を符号化する方法の例を示すフローチャートである。
【発明を実施するための形態】
【0040】
図(FIG)及び以下の説明は、例示のみによって好ましい実施形態に関連する。以下の議論から、ここに開示された構造及び方法の代替実施形態は、請求の範囲の原則から逸脱することなく採用できる実行可能な代替案として容易に認識されることに留意すべきである。
【0041】
以下では、幾つかの実施形態を詳細に参照する。実施形態の例は、添付の図面に示される。実行可能な限り、類似又は類似の参照番号を図に使用することができ、類似又は類似の機能を示すことができることに注意する。図は、説明のみを目的として、開示されたシステム(又は方法)の実施形態を示す。当業者は、以下の説明から、ここに示された構造及び方法の代替実施形態を、ここに記載された原則から逸脱せずに採用してもよいことを容易に認識するであろう。
【0042】
概要
大まかに言えば、本開示に従った技術は、以下を含むことができる。
1.最後の良好なフレームからのパケット損失中の再構成パラメータ(例えば、SPARパラメータ)の保持、
2.一貫性のない隠蔽信号(例えば、EVS隠蔽信号)を緩和するための長時間のパケット損失後のミュート及び空間イメージ操作、
3.時間差分コーディングの場合のパケット損失後の再構成パラメータ推定。
【0043】
IVASシステム
まず、本開示の技術が適用できるシステムの非限定的な例として、IVASシステムの可能な実装について説明する。
【0044】
IVASは、通信及び娯楽アプリケーションのための空間オーディオ体験を提供する。基礎となる空間オーディオ形式は、1次アンビソニクス(First Order Ambisonics (FOA))である。例えば、4つの信号(W、Y、Z、X)がコーディングされており、没入型スピーカ再生やヘッドフォンでのバイノーラル再生など、任意の所望の出力形式にレンダリングできる。合計ビットレートに応じて、1、2、3、又は4つのオーディオ信号(ダウンミックスチャネル)が、並列に実行されているEVS(Enhanced Voice Service)コーデックを介して低遅延で送信される。デコーダでは、送信されたパラメータを使用してダウンミックスチャネルとその非相関バージョンを処理することによって、4つのFOA信号が再構成される。このプロセスは、ここではアップミックスとも呼ばれ、パラメータは空間再構成(Spatial Reconstruction (SPAR))パラメータと呼ばれる。IVAS復号プロセスは、EVS(コア)復号とSPARアップミキシングで構成される。EVS復号信号は、複素数値低遅延フィルタバンクによって変換される。SPARパラメータは、知覚的に動機付けられた周波数帯域ごとに符号化され、帯域数は通常12である。符号化ダウンミックスチャネルは、Wチャネルを除き、SPARパラメータを使用した(クロスチャネル)予測後の残留信号である。Wチャネルは、残りのチャネルのより良い予測が可能になるように、未修正又は修正(アクティブW)されて送信される。周波数領域でSPARをアップミックスした後、フィルタバンク合成によってFOA時間領域信号が生成される。通常、1オーディオフレームの継続時間は20msである。
【0045】
要約すると、IVAS復号プロセスは、ダウンミックスチャネルのEVSコア復号、フィルタバンク分析、4つのFOA信号のパラメトリック再構成(アップミックス)、及びフィルタバンク合成で構成される。
【0046】
特に、32kb/s又は64kb/sのような低いビットレートでは、SPARパラメータが時間差分コーディングされる場合があり、例えば、SPARビットレート削減のために以前に復号されたフレームに依存する。
【0047】
一般に、本開示の実施形態による技術(例えば、方法と機器)は、フレームベース(又はパケットベース)のマルチチャネルオーディオ信号、すなわち、フレーム(又はパケット)のシーケンスを構成する(符号化)オーディオ信号に適用できる場合がある。各フレームには、複数のオーディオチャネルの表現と、W、X、Y、Zオーディオチャネル(コンポーネント)を持つFOAなど、複数のオーディオチャネルを所定のチャネル形式にアップミックスするための再構成パラメータ(例えば、SPARパラメータ)が含まれている。(符号化)オーディオ信号の複数のオーディオチャネルは、事前に定義されたチャネル形式、例えばW、X、Y、及びZのオーディオチャネルをダウンミックスすることによって得られるダウンミックスチャネルに関連することがある。
【0048】
IVASシステムの制約
EVS-DTX及びSPAR-DTX
音声アクティビティが検出されず(VAD)、バックグラウンドレベルが低い場合、EVSエンコーダは、非常に低いビットレートで実行される不連続伝送(Discontinuous Transmission (DTX))モードに切り換えることがある。通常、8フレームごとに、デコーダでのコンフォートノイズ生成(comfort noise generation (CNG))を制御する少数のDTXパラメータ(Silence Indicator frame, SID)が送信される。同様に、元の空間環境特性の忠実な空間再構成を可能にするSIDフレームに対して、専用のSPARパラメータが送信される。SIDフレームの後にデータなし(NO_DATA)の7フレームが続き、次のSIDフレーム又はACTIVEオーディオフレームを受信するまで、SPARパラメータは一定に保たれる。
【0049】
EVS-PLC
EVSデコーダが損失フレームを検出すると、隠蔽(concealment)信号が生成される。隠蔽信号の生成は、隠蔽なしで以前の良好なフレームでエンコーダによって送信された信号分類パラメータによってガイドされる場合があり、コーデックモードに依存する様々な技術(MDCTベースの変換コーデック又は予測音声コーデック)、及びその他のパラメータを使用する。EVS隠蔽により、無限のコンフォートノイズが生成される場合がある。IVASでは、EVSの複数のインスタンス(ダウンミックスチャネルごとに1つ)が異なる構成で並行して実行されるため、EVS隠蔽はダウンミックスチャネル間及びコンテンツごとに一貫性がない場合がある。
【0050】
EVS-PLCは、SPARパラメータなどのメタデータには適用されないことに注意する。
【0051】
再構成パラメータの時間差分コーディング
本開示の実施形態による技術は、再構成パラメータ(例えば、PSARパラメータ)を含むメタデータの時間差分コーディングを採用するコーデックに適用できる。特に示さない限り、本開示の文脈における差分コーディングとは、時間差分コーディングを意味するものとする。
【0052】
例えば、各再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的にコーディングされ(つまり、非時間差分)、残りのフレームのフレーム間で差分コーディングされる場合がある。ここで、差分コーディングは、各フレームが明示的コーディングされた少なくとも1つの再構成パラメータと以前のフレームを参照して差分コーディングされた少なくとも1つの再構成パラメータを含む(インタリーブされた)差分コーディング方式に従うことができる。明示的にコーディングされた再構成パラメータと差分コーディングされた再構成パラメータのセットは、フレームごとに異なる場合がある。これらのセットの内容は、所定のフレーム期間の後に繰り返すことができる。例えば、前述のセットの内容は、順番に循環することができる(インタリーブされた)コーディングスキームのグループによって与えられる場合がある。例えばIVASの文脈で適用可能なこのようなコーディングスキームの非限定的な例を以下に示す。
【0053】
SPARパラメータの効率的な符号化のために、時間差分コーディングは例えば以下のスキームに従って適用できる。
[表1]時間差分コーディングされた帯域が1として示されるSPARコーディングスキーム
【表1】
[表2]時間差分SPARコーディングスキームの適用順序
【表2】
【0054】
ここで、時間差分コーディングは常に4a、4b、4c、4dを循環し、再び4aに戻り再開する。時間差分コーディングが適用されるか否かは、基本スキームのペイロードと総ビットレート要件に依存してよい。
【0055】
このコーディング方法は、パケット損失後、すべての帯域の時間差分コーディングとは対照的に、3つの帯域のパラメータ(12パラメータ帯域構成の場合、他のスキームが同様の方法で他のパラメータ帯域構成に適用されることがある)を常に正しく復号できることを保証する。表2に示すようにコーディングスキームを変更すると、すべての帯域のパラメータを4つの連続した(非損失)フレーム内で正しく復号できることを保証する。ただし、パケット損失パターンによっては、一部の帯域のパラメータが4フレームを超えて正しく復号されない場合がある。
【0056】
例示的な技術
前提条件
1.DTXと損失/不良フレームを別々に扱うことができるように、フレームタイプ(例えば、NO_DATA、SID、ACTIVEフレーム)を追跡するデコーダ内のロジック。
2.連続する損失パケット数を追跡するデコーダ内のロジック。
3.(例えば、コーディングされた差分についてのベースが無い)パケット損失後の時間差分コーディング再構成パラメータ(例えば、SPARパラメータ)帯域と最後のベース以降のフレーム数を追跡するロジック。
【0057】
上記のロジックの例は、12個の周波数帯域をカバーするSPARパラメータを持つ1フレームを復号するための以下の擬似コードに示されている。
[リスト1]パケット損失を回避してIVAS復号プロセスを制御するロジック
【数1-1】
【数1-2】
【0058】
提案されるプロセス
一般に、開示の実施形態に従う方法は、フレーム(パケット)のシーケンスを構成する(符号化)オーディオ信号に適用可能であり、各フレームは、複数の音声チャネルの表現と、複数の音声チャネルを所定のチャネル形式にアップミックスするための再構成パラメータを含むと理解される。通常、このような方法は、オーディオ信号を受信するステップと、受信したオーディオ信号に基づき所定のチャネル形式で再構成オーディオ信号を生成するステップと、を含む。
【0059】
次に、再構成オーディオ信号の生成に使用できるIVASのコンテキストでの処理ステップの例について説明する。ただし、これらの処理ステップはIVASに限定されず、フレームベース(パケットベース)のオーディオコーデックの再構成パラメータのPLCに一般的に適用できることが理解されている。
【0060】
1.ミュート:連続する損失フレームの数が閾値(請求の範囲の中の第2閾値、例えば8)を超えると、復号された出力(例えば、FOA出力)は、例えば(損失)フレームあたり3dBだけ、(徐々に)ミュートされる。それ以外の場合、ミュートは適用されない。ミュートは、アップミックスマトリクス(例えば、SPARアップミックスマトリクス)を適宜変更することで実現できる。ミュートすると、ビットレートとコンテンツ全体でPLCの一貫性が高まり、パケット損失の期間が長くなる。上記のロジックにより、必要に応じてDTXによるCNGの場合にもミュートを適用する手段がある。
【0061】
一般に、連続する損失フレームの数が閾値(請求の範囲の中の第2閾値)を超えると、再構成オーディオ信号が徐々にフェードアウト(ミュート)されることがある。再構成オーディオ信号を徐々にフェードアウト(ミュート)することは、再構成オーディオ信号に徐々に減衰するゲインを適用するか、オーディオ信号の複数の音声チャネルに徐々に減衰するゲインを適用するか、又は再構成オーディオ信号の生成に使用されるアップミックス係数に徐々に減衰するゲインを適用することにより達成される。段階的なフェードアウトは、所定のフェードアウト時間(時定数)に従って行うことができる。例えば、上述のように、再構成オーディオ信号は、(損失)フレームごとに3dBだけミュートされることがある。第2閾値は、例えば8フレームである。
【0062】
2.空間フェードアウト:連続する損失フレームの数が閾値(請求の範囲の中の第1閾値、例えば4又は8)を超えると、復号された出力(例えば、FOA出力)は、事前に定義されたフレーム数内で空間目標(すなわち、事前に定義された空間構成)に向かって空間的にフェードアウトされる。それ以外の場合、空間的なフェードアウトは適用されない。空間的なフェーディングは、単位行列(例えば、4x4)と空間目標行列の間を、想定されるフェードアウト時間に従って線形補間することによって実現できる。例えば、方向に依存しない空間イメージ(例えば、Wを除くすべてのチャネルをミュートする)は、パケット損失後の空間の不連続性を減らすことができる(完全にミュートされていない場合)。つまり、FOAの場合、事前定義された空間構成は、Wオーディオチャネルのみを含む場合がある。代替として、事前定義された空間構成は、事前定義された方向に関連する場合がある。例えば、FOAの別の有用な空間目標は正面イメージ(X=Wsqrt(2)、Y=Z=0)である。つまり、X、Y、Zコンポーネントの1つ(例えば、X)がスケールバージョンのWにフェードアウトされ、X、Y、Zコンポーネントの残りの2つ(例えば、YとZ)が0にフェードアウトされる場合がある。いずれの場合も、生成されたマトリクスは、すべての帯域のSPARアップミックスマトリクスに適用される。従って、音声再構成のための(SPAR)アップミックス行列は、顕著なアップミックス行列と、顕著なアップミックス行列が再構成パラメータから導出可能な補間行列の行列積に基づいて(例えば、生成された)決定される場合がある。空間フェードアウトすると、ビットレートとコンテンツ全体でPLCの一貫性が高まり、パケット損失の期間が長くなる。上記のロジックにより、必要に応じてDTXによるCNGの場合にも空間フェーディングを適用する手段がある。FOAが非限定的な例として使用される。他のフォーマット、例えばステレオを含むチャネルベースの空間フォーマットも同様に使用できる。特定のフォーマットは、特定の対応する空間フェード行列を使用することができることが理解されている。
【0063】
一般に、再構成オーディオ信号の生成は、連続する損失フレームの数が閾値(請求の範囲の中の第1閾値)を超える場合、再構成オーディオ信号を事前に定義された空間構成にフェーディングすることを含むことができる。上記に従って、この事前に定義された空間構成は、空間的に均一なオーディオ信号又は事前に定義された方向(例えば、再構成オーディオ信号がレンダリングされる事前に定義された方向)に対応することができる。空間的フェーディングの(第1)閾値は、フェードアウト(ミュート)の(第2)閾値よりも小さいか等しい場合があることが理解される。従って、上記の処理ステップが組み合わされた場合、再構成オーディオ信号は、先ず、事前に定義された空間構成にフェードアウトされ、その後に又はそれと連動してミュートされる場合がある。
【0064】
3.時間差分コーディングによるパラメータの推定/パケット損失からの回復:上記のロジックにより、時間差分のベースが欠落して以来、まだ正しく復号されていないパラメータ帯域を識別できる。これらのパラメータ帯域は、パケット損失隠蔽の場合と同様に、以前のフレームデータによって割り当てることができる。代替戦略として、最後に受信したベース(又は一般に特定のパラメータの最後に正しく復号されたパラメータ)が古すぎると見なされる場合に、周波数帯域をまたぐ線形(又は最近接)補間が提案される。カバーされる周波数範囲の境界の周波数帯域では、これは各々の近隣(又は最近接)周波数帯域からの外挿に相当する場合がある。正しく復号された帯域上の補間は、新しい正しく復号されたデータと組み合わせて古い以前のフレームデータを使用するよりも、より良いパラメータ推定を与える可能性が高いため、提案されたアプローチは有益である。
【0065】
特に、提案されたアプローチは、幾つかの損失パケットに対するPLCの場合と(例えば、空間的フェードアウト及び/又はミュートの前、又は空間的フェードアウト及び/又はミュート中に、再構成オーディオ信号が空間的に完全にフェードアウト又は完全にフェードアウトされるまで)、バーストパケット損失後の回復の場合の両方で使用される可能性がある。
【0066】
一般に、オーディオ信号の少なくとも1つのフレームが失われた場合、少なくとも1つの損失フレームの再構成パラメータの推定は、以前のフレームの再構成パラメータに基づいて生成される場合がある。その後、これらの推定を使用して、少なくとも1つの損失フレームの再構成オーディオ信号を生成することができる。
【0067】
例えば、損失フレームの所与の再構成パラメータを時間にわたって外挿することも、周波数にわたって内挿する/外挿する(一般に、他の再構成パラメータ間で補間/外挿される)こともできる。前者の場合、損失フレームの所与の再構成パラメータは、所与の再構成パラメータの最近に決定された値に基づいて推定することができる。後者の場合、損失フレームの所与の再構成パラメータは、所与の再構成パラメータ以外の1つ(カバーされる周波数範囲の境界にある周波数帯域の場合)、2つ、又は複数の再構成パラメータの最近に決定された値に基づいて推定することができる。
【0068】
時間をまたぐ外挿を使用するか、他の再構成パラメータをまたぐ内挿/外挿を使用するかは、所与の再構成パラメータの最近に決定された値の信頼性の指標に基づいて決定することができる。つまり、信頼性の指標に基づいて、特定の再構成パラメータの最後に決定された値に基づいて損失フレームの所与の再構成パラメータを推定するか、所与の再構成パラメータ以外の2つ以上の再構成パラメータの最近に決定された値に基づいて推定するかを決定することができる。この信頼性の指標は、所与の再構成パラメータの最近に決定された値の経過時間(age)(例えば、フレーム単位)及び/又は所与の再構成パラメータ以外の再構成パラメータの最近に決定された値の経過時間(例えば、フレーム単位)に基づいて決定される場合がある。1つの実装では、方法更に、所与の再構成パラメータの値を決定できなかったフレームの数が第3閾値を超える場合、所与の再構成パラメータ以外の1つ又は2つ以上の再構成パラメータの最近に決定された値に基づいて、損失フレームの所与の再構成パラメータが推定される場合がある。その他の場合、損失フレームの所与の再構成パラメータは、所与の再構成パラメータの最近に決定された値に基づいて推定することができる。
【0069】
上述のように、各フレームが各々の周波数帯域に関連する再構成パラメータを含み、損失フレームの所与の再構成パラメータは、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する1つ以上の再構成パラメータに基づいて推定される場合がある。例えば、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する1つ以上の再構成パラメータ間の補間(又はそれからの外挿)によって推定される場合がある。より具体的には、幾つかの実装では、所与の再構成パラメータが関連する周波数帯に隣接する周波数帯に関連する再構成パラメータの間を補間することによって、又は、所与の再構成パラメータが関連する周波数帯に隣接する(又は最も近い)周波数帯が1つしかない場合(最も高い周波数帯と最も低い周波数帯の場合)、その隣接する(又は最も近い)周波数帯に関連する再構成パラメータから外挿することによって、所与の再構成パラメータを推定できる。
【0070】
上記の処理ステップは、一般に、単独又は組み合わせで使用できることが理解される。つまり、本開示に従った方法は、上記の処理ステップ1から3のいずれか1つ、いずれか2つ、又はすべてを含むことができる。
【0071】
本開示の重要事項の概要
・本開示は、潜在的にミュートと関連して、PLC及び空間フェードアウトのための空間的目標の概念を提案する。
・本開示は、時間差分コーディング回復フェーズ中に隠蔽と通常の復号が混在するフレームを持つという概念を提案する。これには以下が含まれる:
-以前の良好なフレームデータ及び/又は現在の正しく復号されたパラメータの補間に基づく時間差分コーディングの場合のパケット損失後のパラメータの決定、及び、
-以前の良好なフレームデータ及び/又は現在の補間データのどちらかを、以前の良好なフレームデータがどれだけ新しいかという測定値に基づいて決定する。
【0072】
プロセスとシステムの例
図1は、パケット損失(左パス)と良好なフレーム(右パス)が発生した場合のフロー例を示すフローチャートである。「Upmix行列を生成」ボックスに入るまでのフローチャートは、リスト1の擬似コードの形式で詳細に説明されており、上記のセクション「提案されるプロセス」の項目3で説明されている。「Upmix行列を変更」の処理は、上記のセクション「提案されるプロセス」の項目1及び2で説明されている。
【0073】
図2は、IVAS SPARエンコーダ及びデコーダの例を示すブロック図である。IVASアップミックス行列は、パラメータ(C,P1,...,PD)を有する復号されたダウンミックスチャネル及び非相関バージョン、逆リミックス行列及び逆予測のすべてを1つのアップミックス行列にする処理を含む。アップミックス行列は、PLC処理によって修正される場合がある。
【0074】
図3及び図4は、PLCの例示的な処理を説明するフローチャートである。
【0075】
例示的なシステムアーキテクチャ
図5は、実施形態に従って、図1~4を参照して説明された特徴及び処理を実装するためのモバイル装置アーキテクチャである。アーキテクチャ800は、限定ではないが、デスクトップコンピュータ、消費者オーディオ/ビジュアル(AV)機器、無線放送機器、モバイル装置(例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブル装置)、を含む任意の電子装置に実装することができる。示される例示的な実施形態では、アーキテクチャ800は、スマートフォンのためのものであり、プロセッサ801、周辺機器インタフェース802、オーディオサブシステム803、スピーカ804、マイクロフォン805、センサ806(例えば、加速度計、ジャイロ、気圧計、磁気計、カメラ)、位置プロセッサ807(例えば、GNSS受信機)、無線通信サブシステム808(例えば、Wi-Fi、Bluetooth、セルラ)、及びタッチコントローラ810及び他の入力コントローラ811を含むI/Oサブシステム809、タッチ面812、及び他の入力/制御装置813を含む。より多くの又は少ないコンポーネントを有する他のアーキテクチャも、開示の実施形態を実装するために使用できる。
【0076】
メモリインタフェース814は、プロセッサ801、周辺機器インタフェース802、及びメモリ815(例えば、フラッシュ、RAM、ROM)に結合される。メモリ815は、限定ではないが、オペレーティングシステム命令816、通信命令817、GUI命令818、センサ処理命令819、電話命令820、電子メッセージング命令821、ウェブ閲覧命令822、オーディオ処理命令823、GNSS/ナビゲーション命令824、及びアプリケーション/データ825、を含むコンピュータプログラム命令及びデータを格納する。オーディオ処理命令823は、図1~2を参照して本願明細書に記載されたオーディオ処理を実行するための命令を含む。
【0077】
再構成パラメータのためのオーディオ処理とPLCの技術
IVASの文脈でのPLCの例を前述した。このコンテキストで提供された概念は、フレームベース(パケットベース)のオーディオ信号の再構成パラメータのPLCに一般的に適用できることが理解されている。次に、これらの概念を採用する方法の追加例を、図6~10を参照して説明する。
【0078】
オーディオ信号を処理する方法600全体の概要を図6に示す。前述のように、(符号化)オーディオ信号はフレームのシーケンスを含み、各フレームには複数の音声チャネルの表現と、複数の音声チャネルを所定のチャネル形式にアップミックスするための再構成パラメータが含まれている。方法600は、ステップS610及びS620を含み、これらは更にサブステップを含む場合があり、図7~9を参照して以下で詳細に説明する。更に、方法600は、例えば受信機/デコーダにおいて実行されてよい。
【0079】
ステップS610で、(符号化)オーディオ信号を受信する。オーディオ信号は、例えば(パケット化された)ビットストリームとして受信することができる。
【0080】
ステップS620で、受信したオーディオ信号に基づいて、事前定義されたチャネル形式の再構成オーディオ信号を生成する。ここで、再構成オーディオ信号は、受信したオーディオ信号と再構成パラメータ(及び/又は以下に詳述するように再構成パラメータの推定)に基づき生成することができる。更に、再構成オーディオ信号の生成には、オーディオ信号の音声チャネルを事前に定義されたチャネル形式にアップミックスすることが含まれる場合がある。オーディオチャネルを事前に定義されたチャネル形式にアップミックスすることは、オーディオ信号のオーディオチャネルとその非相関バージョンに基づいて、事前に定義されたチャネル形式のオーディオチャネルを再構成することに関連する場合がある。非相関バージョンは、オーディオ信号のオーディオチャネルと再構成パラメータ(の少なくとも一部)に基づいて生成される場合がある。
【0081】
図7は、ステップS620で再構成オーディオ信号を生成する例示的な(サブ)ステップS710、S720、及びS730を含む方法700を示している。ステップS720及びS730は、単独又は組み合わせて使用できるステップS620の可能な実装に関連していることが理解される。つまり、ステップS620は(ステップS710に加えて)ステップS720及びS730のいずれも含まない、又はいずれか若しくは両方を含むことができる。
【0082】
ステップS710で、オーディオ信号の少なくとも1フレームが失われたかどうかが決定される。これは、セクション前提条件の上記の説明に従って行うことができる。
【0083】
その場合、ステップS720で、更に連続する損失フレームの数が第1閾値を超える場合、再構成オーディオ信号は事前に定義された空間構成にフェードアウトされる。これは、上記のセクション「提案されるプロセス」、項目/ステップ2に従って行うことができる。
【0084】
追加又は代替として、ステップS730で、連続する損失フレーム数が、第1閾値以上の第2閾値を超える場合、再構成オーディオ信号は徐々にフェードアウト(ミュート)される。これは、上記のセクション「提案されるプロセス」、項目/ステップ1に従って行うことができる。
【0085】
図8は、ステップS620で再構成オーディオ信号を生成する例示的な(サブ)ステップS810、S820、及びS830を含む方法800を示している。ステップS810~S830は、単独で又は図7の可能な実装と組み合わせて使用できるステップS620の可能な実装に関連していることが理解される。
【0086】
ステップS810で、オーディオ信号の少なくとも1フレームが失われたかどうかが決定される。これは、セクション前提条件の上記の説明に従って行うことができる。
【0087】
次に、ステップS820で、オーディオ信号の少なくとも1つのフレームが失われた場合、少なくとも1つの損失フレームの再構成パラメータの推定が、以前のフレームの1つ以上の再構成パラメータに基づいて生成される。これは、上記のセクション「提案されるプロセス」、項目/ステップ3に従って行うことができる。
【0088】
ステップS830で、少なくとも1つの損失フレームの再構成オーディオ信号を生成するために、少なくとも1つの損失フレームの再構成パラメータの推定が使用される。これは、ステップS620で前述したように、例えばアップミキシングを介して行うことができる。実際のオーディオチャネルも同様に失われている場合は、その推定を代わりに使用してもよいことが理解される。EVS隠蔽信号はそのような推定の例である。
【0089】
方法800は、所定の数より少ないフレーム(例えば、第1閾値又は第2閾値よりも少ない)が失われている限り適用することができる。代替として、方法800は、再構成オーディオ信号が空間的に完全にフェードアウト及び/又は完全にフェードアウトされるまで適用される場合がある。そのため、永続的なパケット損失の場合、方法800は、ミュート/空間フェーディングが有効になる前、又はミュート/空間フェーディングが有効になるまで、パケット損失を軽減するために使用することができる。ただし、方法800の概念は、再構成パラメータの時間差分コーディングが存在する場合のバーストパケット損失からの回復にも使用できることに注意する必要がある。
【0090】
ここでは、例えば受信機/デコーダで実行されるような、バーストパケット損失からの回復のためのオーディオ信号を処理するそのような方法の例について、図9を参照して説明する。前述のように、オーディオ信号はフレームのシーケンスを含み、各フレームには複数の音声チャネルの表現と、複数の音声チャネルを所定のチャネル形式にアップミックスするための再構成パラメータが含まれているとする。更に、各再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的にコーディングされ、残りのフレームのフレーム間で差分コーディングされるとする。これは、上記のセクション「再構成パラメータの時間差分(Time-Differential)コーディング」に従って行うことができる。方法600と同様に、バーストパケット損失からの回復のためのオーディオ信号を処理する方法は、(ステップS610と同様に)オーディオ信号を受信するステップと、(ステップS620と同様に)受信したオーディオ信号に基づいて、事前に定義されたチャネル形式で再構成オーディオ信号を生成するステップを含む。図9に示す方法900は、所定のフレームの受信オーディオ信号に基づいて、事前に定義されたチャネル形式で再構成オーディオ信号を生成するサブステップであるステップS910、S920、及びS930を含む。バーストパケット損失からの回復方法は、多数の損失フレームに続く正しく受信されたフレーム(例えば、第1幾つかのフレーム)に適用できることが理解される。
【0091】
ステップS910では、正しく復号された再構成パラメータと、差分ベースが欠落しているために正しく復号できない再構成パラメータが識別される。過去に多数のフレーム(パケット)が失われた場合、時間差分ベースが欠落することが予想される。
【0092】
ステップS920で、所与のフレームの正しく復号された再構成パラメータ及び/又は1つ以上の以前のフレームの正しく復号された再構成パラメータに基づき、正しく復号できなかった再構成パラメータが推定される。これは、上記のセクション「提案されるプロセス」、項目3に従って行うことができる。
【0093】
例えば、(時間差分ベースの欠落が原因で)所与のフレームについて正しく復号できない所与の再構成パラメータを推定するステップは、所与の再構成パラメータの最新の正しく復号された値(例えば、(バースト)パケット損失の前の最後に正しく復号された値)に基づいて、所与の再構成パラメータを推定するステップ、又は、所与の再構成パラメータ以外の1つ以上の再構成パラメータの最新の正しく復号された値に基づいて、所与の再構成パラメータを推定するステップ、を含む。特に、所与の再構成パラメータ以外の1つ以上の再構成パラメータの最新の正しく復号された値が、(現在の)所与のフレームに対して/から復号された可能性がある。2つのアプローチのどちらに従うかは、所与の再構成パラメータの最新の正しく復号された値の信頼性の指標に基づいて決定できる。この指標は、例えば、所与の再構成パラメータの最新の正しく復号された値の経過時間である場合がある。例えば、所与の再構成パラメータの最近の正しく復号された値が(例えばフレーム単位で)所定の閾値より古い場合、所与の再構成パラメータ以外の1つ以上の再構成パラメータの最近の正しく復号された値に基づいて、所与の再構成パラメータが推定される場合がある。その他の場合、所与の再構成パラメータは、所与の再構成パラメータの最近の正しく復号された値に基づいて推定することができる。ただし、信頼性の他の指標も実行可能であることが理解される。
【0094】
適用可能なコーデック(例えばIVASなど)によっては、各フレームに複数の周波数帯域のうちの各々に関連する再構成パラメータが含まれる場合がある。次に、所与の再構成パラメータについて正しく復号できなかった所与の再構成パラメータは、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関連する1つ以上の再構成パラメータの最近の正しく復号された値に基づいて推定される場合がある。例えば、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。幾つかの場合には、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域とは異なる周波数帯域に関する単一の再構成パラメータから外挿される場合がある。具体的に、所与の再構成パラメータが、所与の再構成パラメータが関連する周波数帯域の近隣の周波数帯域に関する再構成パラメータ間の補間によって推定される場合がある。所与の再構成パラメータが関係する周波数帯域が近隣(又は最近接)の周波数帯域を1つしか持たない場合(これは、例えば、最高及び最低周波数帯域の場合である)、その近隣の(又は最近接)周波数帯域に関する再構成パラメータから外挿することによって所与の再構成パラメータを推定することもできる。
【0095】
ステップS930では、正しく復号された再構成パラメータと推定された再構成パラメータを使用して、所与のフレームの再構成オーディオ信号を生成する。これは、ステップS620で前述したように、例えばアップミキシングを介して行うことができる。
【0096】
再構成パラメータの時間差分コーディングのスキームは、「再構成パラメータの時間差分コーディング」のセクションで前述した。本開示は、このような時間差分コーディングを適用するオーディオ信号の符号化方法にも関連することが理解される。オーディオ信号を符号化するこのような方法1000の例は図10に概略的に示される。符号化オーディオ信号はフレームのシーケンスを含み、各フレームには複数の音声チャネルの表現と、複数の音声チャネルを所定のチャネル形式にアップミックスするための再構成パラメータが含まれているとする。このように、方法1000は、例えば前述のいずれかの方法によって復号できる符号化オーディオ信号を生成する。方法1000は、コーディングされるべき各再構成パラメータ(例えば、SPARパラメータ)に対して実行できるステップS1010及びS1020を含む。
【0097】
ステップS1010で、再構成パラメータは、フレームシーケンス内の所与のフレーム数ごとに1回、明示的に符号化される(explicitly encoded)(例えば、非差分符号化される(encoded non-differentially)、又は明確に符号化される)。
【0098】
ステップS1020で、再構成パラメータは、残りのフレームのフレーム間で(時間)差分符号化(encoded (time-)differentially)される。
【0099】
所与のフレームに対して、各々の再構成パラメータを差分又は非差分符号化するかの選択は、各フレームが、明示的に符号化された少なくとも1つの再構成パラメータと、以前のフレームを参照して時間差分符号化された少なくとも1つの再構成パラメータを含むように行うことができる。更に、パケット損失の場合の回復性を確保するために、明示的に符号化された再構成パラメータと差分符号化された再構成パラメータのセットは、フレームごとに異なる。例えば、明示的に符号化された再構成パラメータと差分符号化された再構成パラメータのセットは、スキームが周期的に循環するスキームのグループに従って選択される。つまり、前述の再構成パラメータのセットの内容は、所定のフレーム期間後に繰り返される場合がある。各再構成パラメータは、所与のフレーム数ごとに1回明示的に符号化されることが理解される。この所与のフレーム数は、すべての再構成パラメータで同じであることが望ましい。
【0100】
利点
上記のセクションで一部概要が説明されているように、この開示で説明されている技術を使用すると、従来の技術に対する次の技術的利点をPLCに提供できる。
1.パケット損失の場合に合理的な再構成パラメータ(例えば、SPARパラメータ)を提供し、例えばEVS隠蔽信号に基づいて一貫した空間経験を提供する。
2.損失パケットの長時間にわたって損失オーディオデータの不整合を緩和する(例えば、EVS隠蔽)。
3.時間差分コーディングを適用したパケット損失後の最良の再構成パラメータ(例えば、SPARパラメータ)を提供する。
【0101】
解釈
ここに記載されるシステムの太陽は、デジタル又はデジタルかされたオーディオファイルを処理する適切なコンピュータに基づく音声処理ネットワーク環境で実施されてよい。適応型オーディオシステムの部分は、コンピュータの間で送信されるデータをバッファリング及びルーティングするよう機能する1つ以上のルータ(図示しない)を含む任意の所望の数の個別機械を含む1つ以上のネットワークを含んでよい。このようなネットワークは、種々の異なるネットワークプロトコル上で構築されてよく、インターネット、広域ネットワーク(Wide Area Network (WAN))、ローカルエリアネットワーク(Local Area Network (LAN))、又はそれらの任意の組合せであってよい。
【0102】
コンポーネント、ブロック、プロセス、又は他の機能的コンポーネントのうちの1つ以上は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されてよい。また、留意すべきことに、ここに開示した種々の機能は、ハードウェア、ファームウェア、及び/又は種々の機械可読若しくはコンピュータ可読媒体の中に具現化されたデータ及び/又は命令として、それらの動作の観点で、レジスタトランスファ、論理コンポーネント、及び/又は他の特性、の任意の数の組合せを用いて記載され得る。このようなフォーマットされたデータ及び/又は命令が具現化されるコンピュータ可読媒体は、限定ではないが、光、磁気、又は半導体記憶媒体のような、種々の形式の物理的(非一時的)不揮発性記憶媒体を含む。
【0103】
1つ以上の実装が例として、特定の実施形態の観点で記載されたが、1つ以上の実装は、開示された実施形態に限定されないことが理解されるべきである。これに対して、これの実装は、当業者に明らかなように、種々の変形及び同様の構成をカバーすることを意図する。従って、添付の請求の範囲は、全部のこのような変形及び同様の構成を包含するように、最も広く解釈されるべきである。
【0104】
<列挙される例示的な実施形態>
本開示の種々の態様及び実装は、請求されない以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)からも明らかであり得る。
(EEE1)オーディオを処理する方法であって、
連続する損失フレームの数が閾値を満たすかどうかを決定するステップと、
その数が前記閾値を満たすと決定することに応答して、復号された1次アンビソニクス(FOA)出力を空間的にフェーディングするステップと、
を含む方法。
(EEE2)前記値が4又は8であるEEE1の方法。
(EEE3)前記復号されたFOA出力を空間的にフェーディングするステップは、想定されるフェードアウト時間に従って単位行列と空間的目標行列との間の線形補間を含む、EEE1又はEEE2の方法。
(EEE4)前記空間的フェーディングが時間閾値に基づくフェードレベルを持つ、EEE1~EEE3のいずれか一項に記載の方法。
(EEE5)オーディオを処理する方法であって、
時間差分ベースの欠落が原因で、まだ正しく復号されていないパラメータを識別するステップと、
正しく復号されたパラメータの少なくとも一部に基づいて、まだ正しく復号されていないパラメータ帯域を割り当てるステップと、
を含む方法。
(EEE6)まだ正しく復号されていないパラメータ帯域を割り当てるステップが、以前のフレームデータを使用して行われる、EEE5に記載の方法。
(EEE7)まだ正しく復号されていないパラメータ帯域を割り当てるステップが補間を使用して行われる、EEE5又はEEE6に記載の方法。
(EEE8)特定のパラメータの最後に正しく復号された値が閾値よりも古いと決定することに応答して、周波数帯域にわたる線形補間が補間に含まれる、EEE7に記載の方法。
(EEE9)前記補間が最も近い近隣の間の補間を含む、EEE7又はEEE8の方法。
(EEE10)前記識別されたパラメータ帯域を割り当てるステップは、
良好と見なされる以前のフレームデータを決定するステップと、
現在の補間データの決定するステップと、
前記以前の良好なフレームデータの最新性に関するメトリックに基づいて、前記以前の良好なフレームデータ又は前記現在の補間データを使用して、前記識別されたパラメータ帯域を割り当てるかどうかを決定するステップと、
を含む、EEE5~EEE9のいずれか一項に記載の方法。
(EEE11)システムであって、
1つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、EEE1~10のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
を含むシステム。
(EEE12)命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、前記1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに、EEE1~10のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読媒体。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10