IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特開2022-110116オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法
<>
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図1
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図2
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図3
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図4
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図5
  • 特開-オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022110116
(43)【公開日】2022-07-28
(54)【発明の名称】オーディオエンコーダ、オーディオデコーダ、オーディオ信号を符号化する方法、および符号化されたオーディオ信号を復号化する方法
(51)【国際特許分類】
   G10L 19/035 20130101AFI20220721BHJP
   G10L 19/02 20130101ALI20220721BHJP
【FI】
G10L19/035 Z
G10L19/02 150
G10L19/02 160A
【審査請求】有
【請求項の数】50
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2022082087
(22)【出願日】2022-05-19
(62)【分割の表示】P 2019200326の分割
【原出願日】2016-03-07
(31)【優先権主張番号】15158253.3
(32)【優先日】2015-03-09
(33)【優先権主張国・地域又は機関】EP
(31)【優先権主張番号】PCT/EP2015/063658
(32)【優先日】2015-06-17
(33)【優先権主張国・地域又は機関】EP
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.3GPP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】エドラー・ベルント
(72)【発明者】
【氏名】ヘルムリッヒ・クリスティアン
(72)【発明者】
【氏名】ノイエンドルフ・マックス
(72)【発明者】
【氏名】シュベルト・ベンジャミン
(57)【要約】      (修正有)
【課題】より効率的で計算コストが低い実施態様につながる、オーディオ信号を符号化および/または符号化されたオーディオ信号を復号化する方法及び装置を提供する。
【解決手段】オーディオ信号を符号化するエンコーダ100は、変換領域又はフィルタバンク領域104において、現在のフレーム108_t0及び少なくとも1つの前のフレーム108_t-1についてのオーディオ信号のスペクトル係数106_t0_f1から106_t0_f6を決定し、少なくとも1つのスペクトル係数によって隔てられている複数の個々のスペクトル係数106_t0_f2又はスペクトル係数グループ106_t0_f4,106_t0_f5に対して予測符号化を選択的に適用する。
【選択図】図1
【特許請求の範囲】
【請求項1】
オーディオ信号(102)を符号化するエンコーダ(100)であって、前記エンコーダ(100)は、変換領域またはフィルタバンク領域(104)において、前記オーディオ信号(102)を符号化するように構成され、前記エンコーダは、現在のフレーム(108_t0)および少なくとも1つの前のフレーム(108_t-1)についての前記オーディオ信号(102)のスペクトル係数(106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6)を決定するように構成され、前記エンコーダ(100)は、複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)に対して、予測符号化を選択的に適用するように構成され、前記エンコーダ(100)は、間隔値を決定するように構成され、前記エンコーダ(100)は、予測符号化が適用される前記複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)を、前記間隔値に基づいて選択するように構成される、エンコーダ。
【請求項2】
前記間隔値は、高調波間の間隔を表す高調波間隔値である、請求項1に記載のエンコーダ(100)。
【請求項3】
前記複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)は、少なくとも1つのスペクトル係数(106_t0_f3)によって隔てられている、請求項1または2に記載のエンコーダ(100)。
【請求項4】
前記予測符号化は、前記個々のスペクトル係数(106_t0_f2)または前記スペクトル係数グループ(106_t0_f4,106_t0_f5)を隔てている、前記少なくとも1つのスペクトル係数(106_t0_f3)に適用されない、請求項3に記載のエンコーダ(100)。
【請求項5】
前記エンコーダ(100)は、前記現在のフレームの複数の、個々の予測されたスペクトル係数(110_t0_f2)または予測されたスペクトル係数グループ(110_t0_f4,110_t0_f5)と、前記現在のフレーム(108_t0)の前記複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)との間の予測誤差を符号化することによって、前記現在のフレーム(108_t0)の前記複数の、個々のスペクトル係数(106_t0_f2)または前記スペクトル係数グループ(106_t0_f4,106_t0_f5)を、予測符号化するように構成される、請求項1から4のいずれか一項に記載のエンコーダ(100)。
【請求項6】
前記エンコーダ(100)は、前記間隔値から予測係数を導出するように構成され、前記エンコーダ(100)は、前記現在のフレーム(108_t0)についての前記複数の、個々の予測されたスペクトル係数(110_t0_f2)または予測されたスペクトル係数グループ(110_t0_f4,110_t0_f5)を、少なくとも2つの前のフレーム(108_t-2,108_t-1)の、対応する複数の、個々のスペクトル係数(106_t-2_f2,106_t-1_f2)または対応するスペクトル係数グループ(106_t-2_f4,106_t-1_f4;106_t-2_f5,106_t-1_f5)を用いて、および前記導出された予測係数を用いて計算するように構成される、請求項5に記載のエンコーダ(100)。
【請求項7】
前記エンコーダ(100)は、前記現在のフレーム(108_t0)についての前記複数の、個々の予測されたスペクトル係数(110_t0_f2)または予測されたスペクトル係数グループ(110_t0_f4,110_t0_f4)を、前記前のフレーム(108_t-1)の、対応する量子化されたバージョンの前記複数の、個々のスペクトル係数(106_t-1_f2)または前記スペクトル係数グループ(106_t-1_f4,106_t-1_f5)を用いて決定するように構成される、請求項5に記載のエンコーダ(100)。
【請求項8】
前記エンコーダ(100)は、前記間隔値から予測係数を導出するように構成され、前記エンコーダ(100)は、前記現在のフレーム(108_t0)についての前記複数の、個々の予測されたスペクトル係数(110_t0_f2)または予測されたスペクトル係数グループ(110_t0_f4,110_t0_f5)を、少なくとも2つの前のフレーム(108_t-2,108_t-1)の、対応する量子化されたバージョンの前記複数の、個々のスペクトル係数(106_t-2_f2,106_t-1_f2)または前記スペクトル係数グループ(106_t-2_f4,106_t-1_f4;106_t-2_f5,106_t-1_f5)を用いて、および前記導出された予測係数を用いて計算するように構成される、請求項7に記載のエンコーダ(100)。
【請求項9】
前記エンコーダ(100)は、符号化されたオーディオ信号(120)を提供するように構成され、前記符号化されたオーディオ信号(120)は、前記予測係数も、その符号化されたバージョンも含まない、請求項6または8に記載のエンコーダ(100)。
【請求項10】
前記エンコーダ(100)は、符号化されたオーディオ信号(120)を提供するように構成され、前記符号化されたオーディオ信号(120)は、予測符号化が適用される前記複数の、個々のスペクトル係数またはスペクトル係数グループについての量子化されたバージョンの前記複数の、個々のスペクトル係数(106_t0_f2)または前記スペクトル係数グループ(106_t0_f4,106_t0_f5)の代わりに、量子化されたバージョンの前記予測誤差を含む、請求項5から9のいずれか一項に記載のエンコーダ(100)。
【請求項11】
前記符号化されたオーディオ信号(120)は、その量子化されたバージョンの前記予測誤差が前記符号化されたオーディオ信号(120)に含まれるスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)と、予測符号化を用いずにその量子化されたバージョンが提供されるスペクトル係数(106_t0_f1,106_t0_f3,106_t0_f6)またはスペクトル係数グループとが、交互になるように、予測符号化が適用されない量子化されたバージョンの前記スペクトル係数(106_t0_f3)を含む、請求項10に記載のエンコーダ(100)。
【請求項12】
前記エンコーダ(100)は、前記オーディオ信号(102)の瞬間的基本周波数を決定するように、そして前記瞬間的基本周波数またはその分数もしくは倍数から前記間隔値を導出するように構成される、請求項1から11のいずれか一項に記載のエンコーダ(100)。
【請求項13】
前記エンコーダ(100)は、予測符号化のために、前記間隔値によって定義された高調波グリッドによりスペクトル的に配置された、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)を選択するように構成される、請求項1から12のいずれか一項に記載のエンコーダ(100)。
【請求項14】
前記エンコーダ(100)は、そのスペクトルインデックスが、予測符号化のために、前記間隔値に基づいて導出された複数のスペクトルインデックスと、等しいかまたはその周辺の範囲内に収まる、スペクトル係数を選択するように構成される、請求項1から12のいずれか一項に記載のエンコーダ(100)。
【請求項15】
前記エンコーダ(100)は、前記間隔値に応じて前記範囲の幅を設定するように構成される、請求項14に記載のエンコーダ(100)。
【請求項16】
前記エンコーダ(100)は、予測符号化が適用される前記複数の、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)と、予測符号化が適用されない前記スペクトル係数またはスペクトル係数グループ(118_1:118_5)とが、+/-1スペクトル係数の許容範囲を伴った周期で周期的に交互になるように、予測符号化が適用される前記複数の、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)を選択するように構成される、請求項1から15のいずれか一項に記載のエンコーダ(100)。
【請求項17】
前記オーディオ信号(102)は、少なくとも2つの高調波信号要素(124_1:124_6)を含み、前記エンコーダ(100)は、前記オーディオ信号(102)の前記少なくとも2つの高調波信号要素(124_1:124_6)または前記少なくとも2つの高調波信号要素(124_1:124_6)の周辺のスペクトル環境を表す複数の、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)に対して、予測符号化を選択的に適用するように構成される、請求項1から16のいずれか一項に記載のエンコーダ(100)。
【請求項18】
前記エンコーダ(100)は、前記オーディオ信号(102)の前記少なくとも2つの高調波信号要素(124_1:124_6)または前記少なくとも2つの高調波信号要素(124_1:124_6)のスペクトル環境を表していない複数の、個々のスペクトル係数またはスペクトル係数グループ(118_1:118_5)に対して、予測符号化を適用しないように構成される、請求項17に記載のエンコーダ(100)。
【請求項19】
前記エンコーダ(100)は、信号高調波(124_1:124_6)の間の非トーン性の背景ノイズに属する複数の、個々のスペクトル係数またはスペクトル係数グループ(118_1:118_5)に対して、予測符号化を適用しないように構成される、請求項17または18に記載のエンコーダ(100)。
【請求項20】
前記間隔値は、前記オーディオ信号(102)の前記少なくとも2つの高調波信号要素(124_1:124_6)間のスペクトル間隔を示す高調波間隔値であり、前記高調波間隔値は、前記オーディオ信号(102)の前記少なくとも2つの高調波信号要素(124_1:124_6)を表す複数の、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)を示す、請求項17から19のいずれか一項に記載のエンコーダ(100)。
【請求項21】
前記エンコーダ(100)は、符号化されたオーディオ信号(120)を提供するように構成され、前記エンコーダ(100)は、前記符号化されたオーディオ信号(120)に前記間隔値またはその符号化されたバージョンを含むように構成される、請求項1から20のいずれか一項に記載のエンコーダ(100)。
【請求項22】
前記スペクトル係数は、スペクトルビンである、請求項1から21のいずれか一項に記載のエンコーダ(100)。
【請求項23】
符号化されたオーディオ信号(120)を複合化するデコーダ(200)であって、前記デコーダ(200)は、変換領域またはフィルタバンク領域(204)において、前記符号化されたオーディオ信号(120)を復号化するように構成され、前記デコーダ(200)は、現在のフレーム(208_t0)および少なくとも1つの前のフレーム(208_t-1)についての前記オーディオ信号(120)の符号化されたスペクトル係数(206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6)を得るために、前記符号化されたオーディオ信号(120)を解析するように構成され、前記デコーダ(200)は、複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)に対して、予測復号化を選択的に適用するように構成され、前記デコーダ(200)は、間隔値を得るように構成され、前記デコーダ(200)は、予測復号化が適用される前記複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)を、前記間隔値に基づいて選択するように構成される、デコーダ。
【請求項24】
前記間隔値は、高調波間の間隔を表す高調波間隔値である、請求項23に記載のデコーダ(200)。
【請求項25】
前記複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)は、少なくとも1つの符号化されたスペクトル係数(206_t0_f3)によって隔てられている、請求項24に記載のデコーダ(200)。
【請求項26】
前記予測複合化は、前記個々のスペクトル係数(206_t0_f2)または前記スペクトル係数グループ(206_t0_f4,206_t0_f5)を隔てている、少なくとも1つのスペクトル係数(206_t0_f3)に適用されない、請求項25に記載のデコーダ(200)。
【請求項27】
前記デコーダ(200)は、予測複合化が適用される予定の前記スペクトル係数(206_t0_f2,206_t0_f4,206_t0_f5)についての量子化された予測誤差、および予測複合化が適用されない予定のスペクトル係数(206_t0_f3)についての量子化されたスペクトル係数を得るために、前記符号化されたスペクトル係数をエントロピ復号化するように構成され、
前記デコーダ(200)は、前記現在のフレーム(208_t0)について、予測複合化が適用される前記符号化されたスペクトル係数(206_t0_f2,206_t0_f4,206_t0_f5)と関連付けられている復号化されたスペクトル係数を得るために、複数の、個々の予測されたスペクトル係数(210_t0_f2)または予測されたスペクトル係数グループ(210_t0_f4,210_t0_f5)に対して、前記量子化された予測誤差を適用するように構成される、請求項24から26のいずれか一項に記載のデコーダ(200)。
【請求項28】
前記デコーダ(200)は、前記現在のフレーム(208_t0)についての前記複数の、個々の予測されたスペクトル係数(210_t0_f2)または予測されたスペクトル係数グループ(210_t0_f4,210_t0_f5)を、前記前のフレーム(208_t-1)の、対応する複数の、前記個々の符号化されたスペクトル係数(206_t-1_f2)または符号化されたスペクトル係数グループ(206_t-1_f4,206_t-1_f5)に基づいて決定するように構成される、請求項27に記載のデコーダ(200)。
【請求項29】
前記デコーダ(200)は、前記間隔値から予測係数を導出するように構成され、前記デコーダ(200)は、前記現在のフレーム(208_t0)についての前記複数の、個々の予測されたスペクトル係数(210_t0_f2)または予測されたスペクトル係数グループ(210_t0_f4,210_t0_f5)を、少なくとも2つの前のフレームの、対応する複数の、先に複合化された個々のスペクトル係数または先に複合化されたスペクトル係数グループを用いて、および前記導出された予測係数を用いて計算するように構成される、請求項28に記載のデコーダ(200)
【請求項30】
前記デコーダ(200)は、予測複合化が適用される前記複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)についての複数の、個々の量子化されたスペクトル係数または量子化されたスペクトル係数グループの代わりに、量子化された予測誤差を得るために、前記符号化されたオーディオ信号(120)を複合化するように構成される、請求項24から29のいずれか一項に記載のデコーダ(200)。
【請求項31】
前記デコーダは、量子化された予測誤差がそれのために得られる、符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)と、量子化されたスペクトル係数がそれのために得られる、符号化されたスペクトル係数(206_t0_f3)または符号化されたスペクトル係数グループとが、交互になるように、予測符号化が適用されない符号化されたスペクトル係数(206_t0_f3)についての量子化されたスペクトル係数を得るために、前記符号化されたオーディオ信号(120)を復号化するように構成される、請求項30に記載のデコーダ(200)。
【請求項32】
前記デコーダ(200)は、予測符号化のために、前記間隔値によって定義された高調波グリッドによりスペクトル的に配置された、個々のスペクトル係数(206_t0_f2)またはスペクトル係数グループ(206_t0_f4,206_t0_f5)を選択するように構成される、請求項22から29のいずれか一項に記載のデコーダ(200)。
【請求項33】
前記デコーダ(200)は、そのスペクトルインデックスが、予測復号化のために、前記間隔値に基づいて導出された複数のスペクトルインデックスと、等しいかまたは周辺の範囲内に収まる、スペクトル係数を選択するように構成される、請求項24から32のいずれか一項に記載のデコーダ(200)。
【請求項34】
前記デコーダ(200)は、前記間隔値に応じて前記範囲の幅を設定する、請求項33に記載のデコーダ(200)。
【請求項35】
前記符号化されたオーディオ信号(120)は、前記間隔値またはその符号化されたバージョンを含み、前記デコーダ(200)は、前記間隔値を得るために、前記符号化されたオーディオ信号(120)から前記間隔値または前記その符号化されたバージョンを抽出するように構成される、請求項24から34のいずれか一項に記載のデコーダ(200)。
【請求項36】
前記デコーダ(200)は、前記間隔値を決定するように構成される、請求項24から34のいずれか一項に記載のデコーダ(200)。
【請求項37】
前記デコーダ(200)は、瞬間的基本周波数を決定するように、そして前記瞬間的基本周波数またはその分数もしくは倍数から前記間隔値を導出するように構成される、請求項36に記載のデコーダ(200)。
【請求項38】
前記デコーダ(200)は、予測復号化が適用される前記複数の、個々のスペクトル係数(206_t0_f2)またはスペクトル係数グループ(206_t0_f4、206_t0_f5)と、予測復号化が適用されない前記スペクトル係数(206_t0_f3)とが、+/-1スペクトル係数の許容範囲を伴った周期で周期的に交互になるように、予測復号化が適用される前記複数の、個々のスペクトル係数(206_t0_f2)またはスペクトル係数グループ(206_t0_f4、206_t0_f5)を選択するように構成される、請求項24から37のいずれか一項に記載のデコーダ(200)。
【請求項39】
前記符号化されたオーディオ信号(120)によって表された前記オーディオ信号(102)は、少なくとも2つの高調波信号要素(124_1:124_6)を含み、前記デコーダ(200)は、前記オーディオ信号(102)の前記少なくとも2つの高調波信号要素(124_1:124_6)または前記少なくとも2つの高調波信号要素(124_1:124_6)の周辺のスペクトル環境を表す複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成される、請求項24から38のいずれか一項に記載のデコーダ(200)。
【請求項40】
前記デコーダ(200)は、前記少なくとも2つの高調波信号要素(124_1:124_6)を特定するように、そして前記特定された高調波信号要素(124_1:124_6)と関連付けられている複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成される、請求項39に記載のデコーダ(200)。
【請求項41】
前記符号化されたオーディオ信号(120)は、前記間隔値またはその符号化されたバージョンを含み、前記間隔値は、前記少なくとも2つの高調波信号要素(124_1:124_6)を特定し、前記デコーダ(200)は、前記特定された高調波信号要素(124_1:124_6)と関連付けられている複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成される、請求項39に記載のデコーダ(200)。
【請求項42】
前記デコーダ(200)は、前記オーディオ信号の前記少なくとも2つの高調波信号要素(124_1:124_6)または前記少なくとも2つの高調波信号要素(124_1:124_6)のスペクトル環境を表していない複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を適用しないように構成される、請求項39から41のいずれか一項に記載のデコーダ(200)。
【請求項43】
前記デコーダ(200)は、前記オーディオ信号の信号高調波(124_1:124_6)の間の非トーン性の背景ノイズに属する複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を適用しないように構成される、請求項39から42のいずれか一項に記載のデコーダ(200)。
【請求項44】
前記符号化されたオーディオ信号(120)は、前記間隔値またはその符号化されたバージョンを含み、前記間隔値は、高調波間隔値であり、前記高調波間隔値は、前記オーディオ信号(102)の少なくとも2つの高調波信号要素(124_1:124_6)を表す複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループを示す、請求項24から43のいずれか一項に記載のデコーダ(200)。
【請求項45】
前記スペクトル係数は、スペクトルビンである、請求項24から44のいずれか一項に記載のデコーダ(200)。
【請求項46】
変換領域またはフィルタバンク領域において、オーディオ信号を符号化する方法(300)であって、前記方法は、
現在のフレームおよび少なくとも1つの前のフレームについての前記オーディオ信号のスペクトル係数を決定すること(302)と、
間隔値を決定することと、
複数の、個々のスペクトル係数またはスペクトル係数グループに対して、予測符号化を選択的に適用すること(304)であって、予測符号化が適用される前記複数の、個々のスペクトル係数またはスペクトル係数グループは、前記間隔値に基づいて選択されることと
を含む、方法。
【請求項47】
変換領域またはフィルタバンク領域において、符号化されたオーディオ信号を復号化する方法(400)であって、前記方法は、
現在のフレームおよび少なくとも1つの前のフレームについての前記オーディオ信号の符号化されたスペクトル係数を得るために、前記符号化されたオーディオ信号を解析すること(402)と、
間隔値を得ることと、
複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用すること(404)であって、予測復号化が適用される前記複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループは、前記間隔値に基づいて選択されることと
を含む、方法。
【請求項48】
請求項46または47に記載の方法を実行するためのコンピュータプログラム。
【請求項49】
オーディオ信号(102)を符号化するエンコーダ(100)であって、前記エンコーダ(100)は、変換領域またはフィルタバンク領域(104)において、前記オーディオ信号(102)を符号化するように構成され、前記エンコーダは、現在のフレーム(108_t0)および少なくとも1つの前のフレーム(108_t-1)についての前記オーディオ信号(102)のスペクトル係数(106_t0_f1:106_t0_f6;106_t-1_f1:106_t-1_f6)を決定するように構成され、前記エンコーダ(100)は、複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)に対して、予測符号化を選択的に適用するように構成され、前記エンコーダ(100)は、間隔値を決定するように構成され、前記エンコーダ(100)は、予測符号化が適用される前記複数の、個々のスペクトル係数(106_t0_f2)またはスペクトル係数グループ(106_t0_f4,106_t0_f5)を、前記間隔値に基づいて選択するように構成され、
前記エンコーダ(100)は、予測符号化のために、前記間隔値によって定義された高調波グリッドによりスペクトル的に配置された、個々のスペクトル係数またはスペクトル係数グループ(116_1:116_6)を選択するように構成される、エンコーダ。
【請求項50】
符号化されたオーディオ信号(120)を復号化するデコーダ(200)であって、前記デコーダ(200)は、変換領域またはフィルタバンク領域(204)において、前記符号化されたオーディオ信号(120)を復号化するように構成され、前記デコーダ(200)は、現在のフレーム(208_t0)および少なくとも1つの前のフレーム(208_t-1)についての前記オーディオ信号(120)の符号化されたスペクトル係数(206_t0_f1:206_t0_f6;206_t-1_f1:206_t-1_f6)を得るために、前記符号化されたオーディオ信号(120)を解析するように構成され、前記デコーダ(200)は、複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4:206_t0_f5)に対して、予測復号化を選択的に適用するように構成され、前記デコーダ(200)は、間隔値を得るように構成され、前記デコーダ(200)は、予測復号化が適用される前記複数の、個々の符号化されたスペクトル係数(206_t0_f2)または符号化されたスペクトル係数グループ(206_t0_f4,206_t0_f5)を、前記間隔値に基づいて選択するように構成され、
前記デコーダ(200)は、予測復号化のために、前記間隔値によって定義された高調波グリッドによりスペクトル的に配置された、個々のスペクトル係数(206_t0_f2)またはスペクトル係数グループ(206_t0_f4,206_t0_f5)を選択するように構成される、デコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
実施形態は、オーディオ符号化、詳細には、予測符号化を用いて、オーディオ信号を符号化する方法および装置、ならびに予測復号化を用いて、符号化されたオーディオ信号を復号化する方法および装置に関する。好ましい実施形態は、ピッチ適応型スペクトル予測の方法および装置に関する。さらに好ましい実施形態は、スペクトル領域のフレーム間予測ツールを用いた変換符号化による、トーン性のオーディオ信号の知覚的符号化に関する。
【背景技術】
【0002】
特に低ビットレートにおいて、符号化されたトーン性の信号の品質を向上させるため、最近のオーディオ変換コーダは、非常に長い変換および/または長期予測またはプレ/ポストフィルタリングを使用している。ただし、長い変換は、長いアルゴリズム遅延を暗に示しており、低遅延の通信シナリオには望ましくない。したがって、瞬間的基準ピッチに基づく非常に低遅延の予測器が最近人気を得ている。IETF(インターネット技術タスクフォース)のOpusコーデックは、その周波数領域のCELT(Constrained-Energy Lapped Transform)符号化パス(J.M.Valin,K.VosおよびT.Terriberryによる「Definition of the Opus audio codec」、インターネット技術タスクフォース、技術レポートRFC6716、2012年、http://tools.ietf.org/html/rfc67161)においてピッチ適用型のプレフィルタリングおよびポストフィルタリングを利用しており、また3GPP(3rd Generation Partnership Project)のEVS(Enhanced Voice Services)コーデックは、変換符号化された信号の知覚的改善のために長期高調波ポストフィルタを提供している(3GPP TS 26.443「Codec for Enhanced Voice Services(EVS)」、リリース12、2014年12月)。これらのアプローチはいずれも、完全に復号化された信号波形上の時間領域内で働き、周波数選択的に(いずれのスキームも、いくつかの周波数に対して、単純なローパスフィルタを選択的に提供するのみである)適用することは難しく、および/または、計算上コストが高い。時間領域の長期予測(LTP)またはプレ/ポストフィルタリング(PPF)にとって歓迎される代替手段は、結果として、MPEG-2 AAC(ISO/IEC 13818-7「Information technology-Part 7:Advanced Audio Coding(AAC)」、2006年)でサポートされているように周波数領域予測(FDP)によって提供される。この方法は、周波数選択性を容易にするものの、以下に記載するとおり、固有のデメリットがある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】J.M.Valin,K.VosおよびT.Terriberryによる「Definition of the Opus audio codec」、インターネット技術タスクフォース、技術レポートRFC6716、2012年、http://tools.ietf.org/html/rfc67161
【非特許文献2】3GPP TS 26.443「Codec for Enhanced Voice Services(EVS)」、リリース12、2014年12月
【発明の概要】
【発明が解決しようとする課題】
【0004】
上記に紹介したFDP手法には、他のツールと比較して2つの欠点がある。第1に、FDP手法は、高い計算複雑度を要する。詳細には、少なくとも2回の線形予測符号化が(すなわち、最後の2フレームのチャネル変換ビンから)、すべてのスケールファクタバンドにおける予測の最悪ケースにおいて、各フレームおよびチャネルの数百のスペクトルビンに適用される(ISO/IEC 13818-7「Information technology-Part 7:Advanced Audio Coding(AAC)」、2006年)。第2に、FDP手法は、限られた全体予測利得を含んでいる。より詳細には、予測可能な高調波のトーン性のスペクトル部の間の、ノイズの多い要素も予測の対象となり、これらのノイズの多い部分は通常予測可能ではないため誤差を引き起こすことから、予測の効率が限られている。
【0005】
高い複雑性は、予測器の後方適応性に起因する。つまり、各ビンの予測係数は、先に送信されたビンに基づいて計算されなければならないということである。そのため、エンコーダとデコーダとの間の数値的な不正確さは、食い違う予測係数に起因する再構成誤差につながり得る。この問題を克服するため、bit exactな同一の適応が保証されなければならない。さらに、予測器のグループが、あるフレームにおいてディセーブルにされた場合でも、予測係数を最新の状態に保つために、適応は常に行われなければならない。
【課題を解決するための手段】
【0006】
そのため、前述の課題の少なくとも1つ(例えば両方)を回避し、より効率的で計算コストが低い実施態様につながる、オーディオ信号を符号化および/または符号化されたオーディオ信号を復号化する概念を提供することが本発明の目的である。
【0007】
独立請求項によって、この問題を解決する。
【0008】
従属請求項によって、有利な実施態様を扱う。
【0009】
実施形態は、オーディオ信号を符号化するエンコーダを提供する。エンコーダは、変換領域またはフィルタバンク領域において、オーディオ信号を符号化するように構成され、エンコーダは、現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号のスペクトル係数を決定するように構成され、エンコーダは、複数の、個々のスペクトル係数またはスペクトル係数グループに対して、予測符号化を選択的に適用するように構成され、エンコーダは、間隔値を決定するように構成され、エンコーダは、予測符号化が適用される、複数の、個々のスペクトル係数またはスペクトル係数グループを、符号化されたオーディオ信号と共にサイド情報として送信され得る間隔値に基づいて選択するように構成される。
【0010】
さらなる実施形態は、符号化されたオーディオ信号(例えば、上記のエンコーダで符号化された)を復号化するデコーダを提供する。デコーダは、変換領域またはフィルタバンク領域において、符号化されたオーディオ信号を復号化するように構成され、デコーダは、現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号の符号化されたスペクトル係数を得るために、符号化されたオーディオ信号を解析するように構成され、またデコーダは、複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成され、デコーダは、予測復号化が適用される複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループを、送信された間隔値に基づいて選択するように構成され得る。
【0011】
本発明の概念によれば、予測符号化は、選択されたスペクトル係数(のみ)に適用される。予測符号化が適用されるスペクトル係数は、信号特性に応じて選択することができる。例えば、ノイズの多い信号要素に予想符号化を適用しないことによって、予測不可能な、ノイズの多い信号要素を予測することによってもたらされる前述の誤差が回避される。それと同時に、予測符号化が、選択されたスペクトル要素のみに適用されるため、計算複雑度を低減することができる。
【0012】
例えば、誘導型/適応型のスペクトル領域のフレーム間予測手法と共に変換符号化によって、トーン性のオーディオ信号の知覚符号化を行うことができる(例えば、エンコーダによって)。予測を、例えば、エンコーダからデコーダへの適切なビットストリーム内で例えば間隔値として送ることができる、基本周波数または基本ピッチの、整数倍に位置する高調波信号要素の周辺のスペクトル係数のみに予測を適用することによって、周波数領域予測(FDP)の効率を高めることができ、計算複雑度を低減することができる。本発明の実施形態は、好ましくはMPEG-H 3Dオーディオコーデックに実装または組み込むことができるが、例えばMPEG-2 AACなどの任意のオーディオ変換符号化システムに適用可能である。
【0013】
さらなる実施形態は、変換領域またはフィルタバンク領域において、オーディオ信号を符号化する方法を提供し、その方法は、
現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号のスペクトル係数を決定することと、
間隔値を決定することと、
複数の、個々のスペクトル係数またはスペクトル係数グループに対して、予測符号化を選択的に適用することであって、予測符号化が適用される複数の、個々のスペクトル係数またはスペクトル係数グループは、間隔値に基づいて選択されることと
を含む。
【0014】
さらなる実施形態は、変換領域またはフィルタバンク領域において、符号化されたオーディオ信号を復号化する方法を提供し、その方法は、
現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号の符号化されたスペクトル係数を得るために、符号化されたオーディオ信号を解析することと、
間隔値を得ることと、
複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用することであって、予測復号化が適用される複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループは、間隔値に基づいて選択されることと
を含む。
【0015】
本発明の実施形態を、添付図面を参照しつつ以下のとおり本明細書に記載する。
【図面の簡単な説明】
【0016】
図1】一実施形態に係る、オーディオ信号を符号化するエンコーダの概略ブロック図を示す。
図2】一実施形態に係る、現在のフレームについての周波数にわたってプロットされたオーディオ信号の振幅、および予測符号化が適用される、対応する選択されたスペクトル係数を図に示す。
図3】現在のフレームについての周波数にわたってプロットされたオーディオ信号の振幅、およびMPEG-2 AACによって予測の対象となる、対応するスペクトル係数を図に示す。
図4】一実施形態に係る、符号化されたオーディオ信号を複合化するデコーダの概略ブロック図を示す。
図5】一実施形態に係る、オーディオ信号を符号化する方法のフローチャートを示す。
図6】一実施形態に係る、符号化されたオーディオ信号を復号化する方法のフローチャートを示す。
【発明を実施するための形態】
【0017】
同等もしくは相当する要素、または同等もしくは相当する機能性を有する要素は、同等または相当する符号によって以下の記述に示す。
【0018】
以下の記述において、本発明の実施形態をより詳しく説明するために複数の詳細を説明する。ただし、これらの具体的な詳細がなくても本発明の実施形態を実施し得ることは、当業者には明らかであろう。他の例では、本発明の実施形態を曖昧にしないように、よく知られた構造およびデバイスを、詳細にではなくブロック図の形式で示す。さらに、以下に記載する異なる実施形態の特徴は、特に断りのない限り、互いに組み合わされ得る。
【0019】
図1は、一実施形態に係る、オーディオ信号102を符号化するエンコーダ100の概略ブロック図を示している。エンコーダ100は、変換領域またはフィルタバンク領域104(例えば、周波数領域またはスペクトル領域)において、オーディオ信号102を符号化するように構成され、エンコーダ100は、現在のフレーム108_t0についてのオーディオ信号102のスペクトル係数106_t0_f1から106_t0_f6、および少なくとも1つの前のフレーム108_t-1についてのオーディオ信号のスペクトル係数106_t-1_f1から106_t-1_f6を決定するように構成される。さらに、エンコーダ100は、複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5に対して、予測符号化を選択的に適用するように構成され、エンコーダ100は、間隔値を決定するように構成され、エンコーダ100は、予測符号化が適用される複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5を、間隔値に基づいて選択するように構成される。
【0020】
つまり、エンコーダ100は、サイド情報として送信された単一の間隔値に基づいて選択された複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5に対して、予測符号化を選択的に適用するように構成される。
【0021】
この間隔値は、その整数倍と共に、予測が適用される、すべてのスペクトル係数グループについて中心を定義する周波数(例えば、(オーディオ信号102の)高調波トーンの基本周波数)に対応し得、すなわち、第1のグループはこの周波数の周辺とすることができ、第2のグループはこの周波数掛ける2の周辺を中心とすることができ、第3のグループはこの周波数掛ける3の周辺を中心とすることができる、などである。これらの中心周波数の知識が、対応する正弦波信号成分(例えば、高調波信号の基本および倍音)を予測するための予測係数の計算を可能とする。このように、複雑で誤差が生じやすい、予測係数の後方適応は不要となる。
【0022】
実施形態において、エンコーダ100は、フレーム毎に1つの間隔値を決定するように構成することができる。
【0023】
実施形態において、複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5は、少なくとも1つのスペクトル係数106_t0_f3によって隔てることができる。
【0024】
実施形態において、エンコーダ100は、例えば、少なくとも1つのスペクトル係数によって隔てられている、2つの個々のスペクトル係数に対してなど、少なくとも1つのスペクトル係数によって隔てられている複数の個々のスペクトル係数に対して、予測符号化を適用するように構成することができる。さらに、エンコーダ100は、例えば、少なくとも1つのスペクトル係数によって隔てられている、2つのスペクトル係数グループに対してなど、少なくとも1つのスペクトル係数によって隔てられている複数のスペクトル係数グループ(各グループは、少なくとも2つのスペクトル係数を含む)に対して、予測符号化を適用するように構成することができる。さらに、エンコーダ100は、例えば、少なくとも1つのスペクトル係数によって隔てられている、少なくとも1つの個々のスペクトル係数および少なくとも1つのスペクトル係数グループに対してなど、少なくとも1つのスペクトル係数によって隔てられている複数の、個々のスペクトル係数および/またはスペクトル係数グループに対して、予測符号化を適用するように構成することができる。
【0025】
図1に示す例では、エンコーダ100は、現在のフレーム108_t0について6つのスペクトル係数106_t0_f1から106_t0_f6、および前のフレーム108_t-1について6つのスペクトル係数106_t-1_f1から106_t-1_f6を決定するように構成される。その結果、エンコーダ100は、現在のフレームの個々の第2のスペクトル係数106_t0_f2に対して、および現在のフレーム108_t0の第4および第5のスペクトル係数106_t0_f4および106_t0_f5からなるスペクトル係数グループに対して、予測符号化を選択的に適用するように構成される。分かるように、個々の第2のスペクトル係数106_t0_f2、ならびに第4および第5のスペクトル係数106_t0_f4および106_t0_f5からなるスペクトル係数グループは、第3のスペクトル係数106_t0_f3によって互いに隔てられている。
【0026】
なお、本明細書において「選択的に」という用語は、選択されたスペクトル係数に対して(のみ)、予測符号化を適用することをいう。つまり、予測符号化は、必ずしもすべてのスペクトル係数に対して適用されるのではなく、むしろ、選択された、個々のスペクトル係数またはスペクトル係数グループ、つまり少なくとも1つのスペクトル係数によって互いに隔てることができる、選択された、個々のスペクトル係数および/またはスペクトル係数グループに対してのみ適用される。つまり、予測符号化は、選択された複数の、個々のスペクトル係数またはスペクトル係数グループを、隔てている、少なくとも1つのスペクトル係数についてディセーブルにすることができる。
【0027】
実施形態において、エンコーダ100は、現在のフレーム108_t0の複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5に対して、前のフレーム108_t-1の、少なくとも、対応する複数の、個々のスペクトル係数106_t-1_f2またはスペクトル係数グループ106_t-1_f4および106_t-1_f5に基づいて、予測符号化を選択的に適用するように構成することができる。
【0028】
例えば、エンコーダ100は、現在のフレーム108_t0の複数の、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5と、現在のフレームの複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5(またはその量子化されたバージョン)との間の予測誤差を符号化することによって、現在のフレーム108_t0の複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5を、予測符号化するように構成することができる。
【0029】
図1において、エンコーダ100は、現在のフレーム108_t0の個々の予測されたスペクトル係数110_t0_f2と、現在のフレーム108_t0の個々のスペクトル係数106_t0_f2との間、および現在のフレームの予測されたスペクトル係数グループ110_t0_f4および110_t0_f5と、現在のフレームのスペクトル係数グループ106_t0_f4および106_t0_f5との間の、予測誤差を符号化することによって、個々のスペクトル係数106_t0_f2、ならびにスペクトル係数106_t0_f4および106_t0_f5からなるスペクトル係数グループを符号化する。
【0030】
つまり、第2のスペクトル係数106_t0_f2は、予測された第2のスペクトル係数110_t0_f2と(実際の、または決定された)第2のスペクトル係数106_t0_f2との間の予測誤差(または差分)を符号化することによって符号化され、第4のスペクトル係数106_t0_f4は、予測された第4のスペクトル係数110_t0_f4と(実際の、または決定された)第4のスペクトル係数106_t0_f4との間の予測誤差(または差分)を符号化することによって符号化され、第5のスペクトル係数106_t0_f5は、予測された第5のスペクトル係数110_t0_f5と(実際の、または決定された)第5のスペクトル係数106_t0_f5との間の予測誤差(または差分)を符号化することによって符号化される。
【0031】
一実施形態において、エンコーダ100は、現在のフレーム108_t0についての複数の、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5を、前のフレーム108_t-1の、対応する実際バージョンの複数の、個々のスペクトル係数106_t-1_f2またはスペクトル係数グループ106_t-1_f4および106_t-1_f5によって決定するように構成することができる。
【0032】
つまり、エンコーダ100は、上記の決定プロセスにおいて、前のフレーム108_t-1の複数の、個々の実際のスペクトル係数106_t-1_f2または実際のスペクトル係数グループ106_t-1_f4および106_t-1_f5を直接用い得、106_t-1_f2、106_t-1_f4および106_t-1_f5は、前記エンコーダが変換領域またはフィルタバンク領域104において働き得るような、エンコーダ100によって得られたままの、オリジナル、すなわちまだ量子化されていない、スペクトル係数またはスペクトル係数グループを、それぞれ表している。
【0033】
例えば、エンコーダ100は、現在のフレーム108_t0の予測された第2のスペクトル係数110_t0_f2を、前のフレーム10 108_t-1の、対応するまだ量子化されていないバージョンの第2のスペクトル係数106_t-1_f2に基づいて、現在のフレーム108_t0の予測された第4のスペクトル係数110_t0_f4を、前のフレーム108_t-1の、対応するまだ量子化されていないバージョンの第4のスペクトル係数106_t-1_f4に基づいて、また、現在のフレーム108_t0の予測された第5のスペクトル係数110_t0_f5を、前のフレームの、対応するまだ量子化されていないバージョンの第5のスペクトル係数106_t-1_f5に基づいて、決定するように構成することができる。
【0034】
対応するデコーダは、図4と関連して実施形態を後述するが、上記の決定ステップにおいて、前のフレーム108_t-1の、送信された量子化されたバージョンの、複数の個々のスペクトル係数106_t-1_f2または複数のスペクトル係数グループ106_t-1_f4および106_t-1_f5のみを、予測復号化のために使用することができるため、このアプローチによって、予測符号化および復号化スキームは、量子化ノイズの一種の高調波整形を呈することができる。
【0035】
そのままで、例えば、時間領域において長期予測(LTP)によって従来行われたこうした高調波ノイズ整形は、予測符号化にとって主観的に有利とすることができる一方で、場合によっては、復号化されたオーディオ信号に、望ましくない過剰なトーン性が取り込まれることにつながり得るため、好ましくない場合がある。この理由から、対応する復号化と完全にシンクロし、それ自体、可能ないかなる予測利得も引き出すが、量子化ノイズ整形にはつながらない、代わりの予測符号化スキームを以下に記載する。この代わりの符号化実施形態によれば、エンコーダ100は、現在のフレーム108_t0についての複数の、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5を、前のフレーム108_t-1の、対応する量子化されたバージョンの複数の、個々のスペクトル係数106_t-1_f2またはスペクトル係数グループ106_t-1_f4および106_t-1_f5を用いて決定するように構成することができる。
【0036】
例えば、エンコーダ100は、現在のフレーム108_t0の予測された第2のスペクトル係数110_t0_f2を、前のフレーム108_t-1の、対応する量子化されたバージョンの第2のスペクトル係数106_t-1_f2に基づいて、現在のフレーム108_t0の予測された第4のスペクトル係数110_t0_f4を、前のフレーム108_t-1の、対応する量子化されたバージョンの第4のスペクトル係数106_t-1_f4に基づいて、また、現在のフレーム108_t0の予測された第5のスペクトル係数110_t0_f5を、前のフレームの、対応する量子化されたバージョンの第5のスペクトル係数106_t-1_f5に基づいて決定するように構成することができる。
【0037】
さらに、エンコーダ100は、間隔値から予測係数112_f2、114_f2、112_f4、114_f4、112_f5および114_f5を導出するように、そして現在のフレーム108_t0について複数の、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5を、少なくとも2つの前のフレーム108_t-1および108_t-2の、対応する量子化されたバージョンの複数の、個々のスペクトル係数106_t-1_f2および106_t-2_f2またはスペクトル係数グループ106_t-1_f4,106_t-2_f4、106_t-1_f5および106_t-2_f5を用いて、ならびに導出された予測係数112_f2、114_f2、112_f4、114_f4、112_f5および114_f5を用いて計算するように構成される。
【0038】
例えば、エンコーダ100は、第2のスペクトル係数106_t0_f2についての予測係数112_f2および114_f2を間隔値から導出するように、第4のスペクトル係数106_t0_f4についての予測係数112_f4および114_f4を間隔値から導出するように、そして、第5のスペクトル係数106_t0_f5についての予測係数112_f5および114_f5を間隔値から導出するように構成することができる。
【0039】
例えば、予測係数の導出は、以下の方法で導出することができ、すなわち、間隔値が周波数f0またはその符号化されたバージョンに対応する場合、予測がイネーブルにされる、スペクトル係数のK番目のグループの中心周波数は、fc=K*f0である。サンプリング周波数がfsで変換のホップサイズ(連続するフレーム間のシフト)がNの場合、周波数fcの正弦波信号を前提とするK番目のグループにおける理想的な予測係数は以下のとおりである。
【0040】
p1=2*cos(N*2*pi*fc/fs)およびp2=-1。
【0041】
例えば、いずれのスペクトル係数106_t0_f4および106_t0_f5も、このグループ内である場合、予測係数は以下のとおりである。
【0042】
112_f4=112_f5=2*cos(N*2*pi*fc/fs)および114_f4=114_f5=-1。
【0043】
安定性の理由から、ダンピングファクタdを導入することができ、結果として以下の修正予測係数が得られる。
【0044】
112_f4’=112_f5’=d*2*cos(N*2*pi*fc/fs)、114_f4’=114_f5’=d2。
【0045】
間隔値は、符号化されたオーディオ信号120の中で送信されるため、デコーダは正確に同じ予測係数212_f4=212_f5=2*cos(N*2*pi*fc/fs)および114_f4=114_f5=-1を導出することができる。ダンピングファクタを用いる場合、係数をそれに応じて修正することができる。
【0046】
図1に示すように、エンコーダ100は、符号化されたオーディオ信号120を提供するように構成することができる。その結果、エンコーダ100は、符号化されたオーディオ信号120に、予測符号化が適用される複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5についての、量子化されたバージョンの予測誤差を含むように構成することができる。さらに、エンコーダ100は、符号化されたオーディオ信号120に、予測係数112_f2から114_f5を含まないように構成することができる。
【0047】
このように、エンコーダ100は、予測係数112_f2から114_f5のみを、複数の、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5を、ならびにそこから、個々の予測されたスペクトル係数110_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5と、現在のフレームの個々のスペクトル係数106_t0_f2または予測されたスペクトル係数グループ110_t0_f4および110_t0_f5との間の予測誤差を、計算するために用い得るが、個々のスペクトル係数106_t0_f4(またはその量子化されたバージョン)またはスペクトル係数グループ106_t0_f4および106_t0_f5(またはその量子化されたバージョン)も、予測係数112_f2から114_f5も、符号化されたオーディオ信号120内に提供しないことになる。したがって、デコーダは、実施形態を図4と関連して後述するが、現在のフレームについての複数の、個々の予測されたスペクトル係数または予測されたスペクトル係数グループを計算するために、予測係数112_f2から114_f5を間隔値から導出し得る。
【0048】
つまり、エンコーダ100は、予測符号化が適用される複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5について、量子化されたバージョンの複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5の代わりに、量子化されたバージョンの予測誤差を含む、符号化されたオーディオ信号120を提供するように構成することができる。
【0049】
さらに、エンコーダ100は、その量子化されたバージョンの予測誤差が、符号化されたオーディオ信号120に含まれる、スペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5と、その量子化されたバージョンが、予測符号化を用いずに提供される、スペクトル係数106_t0_f3またはスペクトル係数グループとが、交互になるように、複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5を隔てている、量子化されたバージョンのスペクトル係数106_t0_f3を含む、符号化されたオーディオ信号102を提供するように構成することができる。
【0050】
実施形態において、エンコーダ100は、量子化されたバージョンの予測誤差、および、複数の、個々のスペクトル係数106_t0_f2またはスペクトル係数グループ106_t0_f4および106_t0_f5を隔てている、量子化されたバージョンのスペクトル係数106_t0_f3を、エントロピ符号化するように、そしてエントロピ符号化されたバージョンを、符号化されたオーディオ信号120に(その非エントロピ符号化されたバージョンの代わりに)含むようにさらに構成することができる。
【0051】
図2は、現在のフレーム108_t0について、周波数にわたってプロットされたオーディオ信号102の振幅を図に示している。さらに、図2では、オーディオ信号102の現在のフレーム108_t0についてエンコーダ100によって決定された、変換領域またはフィルタバンク領域におけるスペクトル係数を示している。
【0052】
図2に示すように、エンコーダ100は、少なくとも1つのスペクトル係数によって隔てられている、複数のスペクトル係数グループ116_1から116_6に対して、予測符号化を選択的に適用するように構成することができる。詳細には、図2に示す実施形態において、エンコーダ100は、6つのスペクトル係数グループ116_1から116_6に対して、予測符号化を選択的に適用し、最初の5つのスペクトル係数グループ116_1から116_5のそれぞれは、3つのスペクトル係数を含み(例えば、第2のグループ116_2は、スペクトル係数106_t0_f8、106_t0_f9および106_t0_f10を含む)、第6のスペクトル係数グループ116_6は、2つのスペクトル係数を含む。その結果、6つのスペクトル係数グループ116_1から116_6は、予測符号化が適用されない、(5つの)スペクトル係数グループ118_1から118_5によって隔てられている。
【0053】
つまり、図2に示すように、エンコーダ100は、予測符号化が適用されるスペクトル係数グループ116_1から116_6と、予測符号化が適用されないスペクトル係数グループ118_1から118_5とが、交互になるように、スペクトル係数グループ116_1から110_6に対して、予測符号化を選択的に適用するように構成することができる。
【0054】
実施形態において、エンコーダ100は、間隔値(図2において矢印122_1および122_2で示される)を決定するように構成することができ、エンコーダ100は、予測符号化が適用される、複数のスペクトル係数グループ116_1から116_6(または複数の個々のスペクトル係数)を、間隔値に基づいて選択するように構成することができる。
【0055】
間隔値は、例えば、オーディオ信号のピーク124_1および124_2など、オーディオ信号102の2つの特徴周波数の間の間隔(または距離)とすることができる。さらに、間隔値は、オーディオ信号の2つの特徴周波数の間の間隔を近似する、整数のスペクトル係数(またはスペクトル係数のインデックス)とすることができる。もちろん、間隔値は、オーディオ信号の2つの特徴周波数の間の間隔を表す、整数のスペクトル係数の実数または分数もしくは倍数とすることもできる。
【0056】
実施形態において、エンコーダ100は、オーディオ信号(102)の瞬間的基本周波数を決定するように、そして瞬間的基本周波数またはその分数もしくは倍数から間隔値を導出するように構成することができる。
【0057】
例えば、オーディオ信号102の第1のピーク124_1は、オーディオ信号102の瞬間的基本周波数(またはピッチ、または第1高調波)とすることができる。そのため、エンコーダ100は、オーディオ信号102の瞬間的基本周波数を決定するように、そして瞬間的基本周波数またはその分数もしくは倍数から間隔値を導出するように構成することができる。その場合、間隔値は、オーディオ信号102の瞬間的基本周波数124_1と第2高調波124_2との間の間隔を近似する整数のスペクトル係数(またはその分数もしくは倍数)とすることができる。
【0058】
もちろん、オーディオ信号102は、2つを超える高調波を含み得る。例えば、図2に示すオーディオ信号102は、オーディオ信号102が瞬間的基本周波数の整数倍すべてにおいて高調波を含むように、スペクトル的に分布した6つの高調波124_1から124_6を含む。もちろん、オーディオ信号102が、第1、第3および第5高調波など、高調波のすべてはなく一部のみを含むということも可能である。
【0059】
実施形態において、エンコーダ100は、予測符号化のために、間隔値によって定義された高調波グリッドによりスペクトル的に配置されたスペクトル係数グループ116_1から116_6(または個々のスペクトル係数)を選択するように構成することができる。その結果、間隔値によって定義された高調波グリッドは、オーディオ信号102の中の高調波の周期的なスペクトル分布(等距離間隔)を表す。つまり、間隔値によって定義された高調波グリッドは、オーディオ信号の高調波の等間隔距離を表す一連の間隔値とすることができる。
【0060】
さらに、エンコーダ100は、そのスペクトルインデックスが、予測符号化のために、間隔値に基づいて導出された複数のスペクトルインデックスと、等しいかまたはその周辺の範囲(例えば、所定の、また可変の)内に収まる、スペクトル係数(例えば、そうしたスペクトル係数のみ)を選択するように構成することができる。
【0061】
間隔値から、オーディオ信号102の高調波を表す、スペクトル係数のインデックス(または番号)を導出することができる。例えば、第4のスペクトル係数106_t0_f4がオーディオ信号102の瞬間的基本周波数を表していると仮定し、間隔値が5であると仮定すると、インデックス9を有するスペクトル係数は、間隔値に基づいて導出することができる。図2で分かるように、そのように導出された、インデックス9を有するスペクトル係数、すなわち第9のスペクトル係数106_t0_f9は、第2高調波を表す。同様に、インデックス14、19、24および29を有するスペクトル係数を導出することができ、第3から第6高調波124_3から124_6を表す。ただし、間隔値に基づいて導出された複数のスペクトルインデックスに等しいインデックスを有するスペクトル係数のみでなく、間隔値に基づいて導出された複数のスペクトルインデックス周辺の所定の範囲内のインデックスを有するスペクトル係数も予測符号化され得る。例えば、図2に示すように、複数の個々のスペクトル係数ではなく、むしろ複数のスペクトル係数グループが予測符号化のために選択されるように、範囲は3とすることができる。
【0062】
さらに、エンコーダ100は、予測符号化が適用されるスペクトル係数グループ116_1から116_6(または複数の個々のスペクトル係数)と、予測符号化が適用されるスペクトル係数グループ(または複数の個々のスペクトル係数)を隔てているスペクトル係数とが、+/-1スペクトル係数の許容範囲を伴った周期で周期的に交互になるように、予測符号化が適用される、スペクトル係数グループ116_1から116_6(または複数の個々のスペクトル係数)を選択するように構成することができる。+/-1スペクトル係数の許容範囲は、オーディオ信号102の2つの高調波間の距離が、整数の間隔値(スペクトル係数のインデックスまたは番号に関する整数)に等しくなく、むしろその分数または倍数に等しい場合に、必要とされ得る。このことは、矢印122_1から122_6が、対応するスペクトル係数の中央または中央部を必ずしも正確に指していないことから、図2でも分かる。
【0063】
つまり、オーディオ信号102は、少なくとも2つの高調波信号要素124_1から124_6を含み、エンコーダ100は、オーディオ信号102の少なくとも2つの高調波信号要素124_1から124_6、または少なくとも2つの高調波信号要素124_1から124_6の周辺のスペクトル環境を表す、複数のスペクトル係数グループ116_1から116_6(または個々のスペクトル係数)に対して、予測符号化を選択的に適用するように構成することができる。少なくとも2つの高調波信号要素124_1から124_6の周辺のスペクトル環境は、例えば、+/-1、2、3、4,または5スペクトル要素とすることができる。
【0064】
その結果、エンコーダ100は、オーディオ信号102の、少なくとも2つの高調波信号要素124_1から124_6、または少なくとも2つの高調波信号要素124_1から124_6のスペクトル環境を表していない、スペクトル係数グループ118_1から118_5(または複数の個々のスペクトル係数)に対して、予測符号化を適用しないように構成することができる。つまり、エンコーダ100は、信号高調波124_1から124_6の間の非トーン性の背景ノイズに属する、複数のスペクトル係数グループ118_1から118_5(または個々のスペクトル係数)に対して、予測符号化を適用しないように構成することができる。
【0065】
さらに、エンコーダ100は、オーディオ信号102の少なくとも2つの高調波信号要素124_1から124_6の間のスペクトル間隔を示す高調波間隔値であって、オーディオ信号102の少なくとも2つの高調波信号要素124_1から124_6を表す複数の、個々のスペクトル係数またはスペクトル係数グループを示す高調波間隔値を決定するように構成することができる。
【0066】
さらに、エンコーダ100は、符号化されたオーディオ信号120が、間隔値(例えば、フレーム毎に1つの間隔値)、または(その代わりに)パラメータから間隔値を直接導出することができるパラメータを含むような、符号化されたオーディオ信号120を提供するように構成することができる。
【0067】
本発明の実施形態は、いずれもが完全にシンクロした形で働くことができるようにエンコーダ(トランスミッタ)100からそれぞれのデコーダ(レシーバ)へ送られた高調波間隔値を、FDPプロセスに導入することによって、FDP手法の前述の2つの課題を取り扱う。前記高調波間隔値は、符号化される予定のフレームと関連付けられている1つまたは複数のスペクトルの瞬間的基本周波数(またはピッチ)のインジケータとしての役割を果たし得、どのスペクトルビン(スペクトル係数)が予測されるものとするかを特定する。より詳細には、基準ピッチ(高調波間隔値によって定義されるように)の整数倍に(インデックス化という点で)位置する高調波信号要素周辺のスペクトル係数のみが、予測の対象となるものとする。図2および図3は、単純な例によって、このピッチ適応型の予測アプローチを説明しており、図3は、MPEG-2 AACにおける最先端の予測器の働きを示しており、高調波グリッド周辺のみで予測するのではなく、ある終了周波数より低いあらゆるスペクトルビンを予測の対象としており、また図2は、高調波間隔グリッドに近い「トーン性の」ビンにのみ予測を行うように統合された一実施形態に係る、修正された同じ予測器を表している。
【0068】
図2図3を比較することによって、一実施形態に係る修正の2つの利点が明らかになり、すなわち、(1)予測プロセスに含まれるスペクトルビンがずっと少なく、複雑度を低減する(与えられた例では、ビンの5分の3のみが予測されるため、40%を)、および(2)信号高調波の間の非トーン性の背景ノイズに属するビンは、予測による影響を受けず、これによって予測効率が増加するはずである。
【0069】
なお、高調波間隔値は、入力信号の実際の瞬間的ピッチに対応している必要は必ずしもなく、それによって予測プロセスの効率の全体的な向上をもたらす場合には、真のピッチの分数または倍数を表すことができる。また、高調波間隔値は、ビンインデックス化またはバンド幅単位の整数倍を反映する必要はなく、前記単位の分数を含み得ることを強調しなければならない。
【0070】
続いて、MPEGスタイルのオーディオコーダでの好ましい実施態様について記載する。
【0071】
好ましくは、ピッチ適応型の予測は、MPEG-2 AAC(ISO/IEC 13818-7「Information technology-Part 7:Advanced Audio Coding(AAC)」、2006年)に組み込まれるか、または、AACにおけるのと類似の予測器を利用して、MPEG-H 3Dオーディオコーデック(ISO/IEC 23008-3「Information technology-High efficiency coding,part 3:3D audio」、2015年)に組み込まれる。詳細には、1ビットのフラグを、単独で符号化されない各フレームおよびチャネルについて(単独のフレームチャネルについては、単独性を確実にするために予測をディセーブルにすることができるため、フラグは送信されない)、それぞれのビットストリームに書き込み、および読み出しすることができる。フラグが1に設定された場合、もう8ビットを読み書きすることができる。この8ビットは、与えられたフレームおよびチャネルについての量子化されたバージョンの高調波周波間隔値(例えば、高調波間隔に対するインデックス)を表す。量子化されたバージョンから線形または非線形のいずれかのマッピング関数を用いて導出された間隔値を使用して、図2に示す一実施形態に係る方法で予測プロセスを実行することができる。好ましくは、高調波グリッド周辺の最大距離1.5ビンの範囲内に位置するビンのみが予測の対象となる。例えば、高調波間隔値がビンインデックス47.11にある高調波ラインを示す場合、インデックス46、47および48にあるビンのみが予測される。ただし、前記最大距離は、高周波間隔値に基づいて、すべてのチャネルおよびフレームについて先験的に固定されるか、または各フレームおよびチャネルについて別々に固定されるかのいずれか、異なって規定される可能性がある。
【0072】
図4は、符号化されたオーディオ信号120を複合化するデコーダ200の概略ブロック図を示す。デコーダ200は、変換領域またはフィルタバンク領域204において、符号化されたオーディオ信号120を復号化するように構成され、デコーダ200は、現在のフレーム208_t0についてのオーディオ信号の、符号化されたスペクトル係数206_t0_f1から206_t0_f6、および少なくとも1つの前のフレーム208_t-1についての符号化されたスペクトル係数206_t-1_f0から206_t-1_f6を得るために、符号化されたオーディオ信号120を解析するように構成され、またデコーダ200は、少なくとも1つの符号化されたスペクトル係数によって隔てられている複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成される。
【0073】
実施形態において、デコーダ200は、例えば、少なくとも1つの符号化されたスペクトル係数によって隔てられている、2つの個々の符号化されたスペクトル係数に対してなど、少なくとも1つの符号化されたスペクトル係数によって隔てられている複数の個々の符号化されたスペクトル係数に対して、予測復号化を適用するように構成することができる。さらに、デコーダ200は、例えば、少なくとも1つの符号化されたスペクトル係数によって隔てられている、符号化された2つのスペクトル係数グループに対してなど、少なくとも1つの符号化されたスペクトル係数によって隔てられている、符号化された複数のスペクトル係数グループ(グループのそれぞれは、少なくとも2つの符号化されたスペクトル係数を含む)に対して、予測復号化を適用するように構成することができる。さらに、デコーダ200は、例えば、少なくとも1つの符号化されたスペクトル係数によって隔てられている、少なくとも1つの個々の符号化されたスペクトル係数および符号化された少なくとも1つのスペクトル係数グループに対してなど、少なくとも1つの符号化されたスペクトル係数によって隔てられている複数の、個々の符号化されたスペクトル係数および/または符号化されたスペクトル係数グループに対して、予測復号化を適用するように構成することができる。
【0074】
図4に示す例では、デコーダ200は、現在のフレーム208_t0についての6つの符号化されたスペクトル係数206_t0_f1から206_t0_f6、および前のフレーム208_t-1についての6つの符号化されたスペクトル係数206_t-1_f1から206_t-1_f6を決定するように構成される。その結果、デコーダ200は、現在のフレームの個々の符号化された第2のスペクトル係数206_t0_f2に対して、および現在のフレーム208_t0の符号化された第4および第5のスペクトル係数206_t0_f4および206_t0_f5からなる符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するように構成される。分かるように、個々の符号化された第2のスペクトル係数206_t0_f2と、符号化された第4および第5のスペクトル係数206_t0_f4および206_t0_f5からなる符号化されたスペクトル係数グループは、符号化された第3のスペクトル係数206_t0_f3によって互いに隔てられている。
【0075】
なお、本明細書において「選択的に」という用語は、選択された符号化されたスペクトル係数に対して(のみ)、予測復号化を適用することをいう。つまり、予測復号化は、すべての符号化されたスペクトル係数に対して適用されるのではなく、むしろ、選択された個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループ、つまり少なくとも1つの符号化されたスペクトル係数によって互いに隔てられている、選択された、個々の符号化されたスペクトル係数および/または符号化されたスペクトル係数グループに対してのみ適用される。つまり、予測復号化は、選択された複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループを隔てている、少なくとも1つの符号化されたスペクトル係数に対して適用されない。
【0076】
実施形態において、デコーダ200は、個々の符号化されたスペクトル係数206_t0_f2またはスペクトル係数グループ206_t0_f4および206_t0_f5を隔てている、少なくとも1つの符号化されたスペクトル係数206_t0_f3に対して、予測復号化を適用しないように構成することができる。
【0077】
デコーダ200は、予測復号化が適用される予定のスペクトル係数206_t0_f2、2016_t0_f4および206_t0_f5についての量子化された予測誤差、および予測符号化が適用されない予定の少なくとも1つのスペクトル係数についての量子化されたスペクトル係数206_t0_f3を得るために、符号化されたスペクトル係数をエントロピ復号化するように構成することができる。その結果、デコーダ200は、現在のフレーム208_t0について、予測復号化が適用される符号化されたスペクトル係数206_t0_f2、206_t0_f4および206_t0_f5と関連付けられている、復号化されたスペクトル係数を得るために、複数の、個々の予測されたスペクトル係数210_t0_f2または予測されたスペクトル係数グループ210_t0_f4および210_t0_f5に対して、量子化された予測誤差を適用するように構成することができる。
【0078】
例えば、デコーダ200は、符号化された第2のスペクトル係数206_t0_f2と関連付けられている、復号化された第2のスペクトル係数を得るために、量子化された第2のスペクトル係数206_t0_f2についての量子化された第2の予測誤差を得るように、そして予測された第2のスペクトル係数210_t0_f2に対して、量子化された第2の予測誤差を適用するように構成することができ、デコーダ200は、符号化された第4のスペクトル係数206_t0_f4と関連付けられている復号化された第4のスペクトル係数を得るために、量子化された第4のスペクトル係数206_t0_f4についての量子化された第4の予測誤差を得るように、そして予測された第4のスペクトル係数210_t0_f4に対して、量子化された第4の予測誤差を適用するように構成することができ、デコーダ200は、符号化された第5のスペクトル係数206_t0_f5と関連付けられている復号化された第5のスペクトル係数を得るために、量子化された第5のスペクトル係数206_t0_f5についての量子化された第5の予測誤差を得るように、そして予測された第5のスペクトル係数210_t0_f5に対して、量子化された第5の予測誤差を適用するように構成することができる。
【0079】
さらに、デコーダ200は、現在のフレーム208_t0についての複数の、個々の予測されたスペクトル係数210_t0_f2または予測されたスペクトル係数グループ210_t0_f4および210_t0_f5を、前のフレーム208_t-1の、対応する複数の、個々の符号化されたスペクトル係数206_t-1_f2(例えば、複数の個々の符号化されたスペクトル係数206_t-1_f2と関連付けられている、複数の先に復号化されたスペクトル係数を用いて)または符号化されたスペクトル係数グループ206_t-1_f4および206_t-1_f5(例えば、符号化されたスペクトル係数の206_t-1_f4および206_t-1_f5と関連付けられている、先に復号化されたスペクトル係数グループを用いて)に基づいて決定するように構成することができる。
【0080】
例えば、デコーダ200は、現在のフレーム208_t0の予測された第2のスペクトル係数210_t0_f2を、前のフレーム208_t-1の、符号化された第2のスペクトル係数206_t-1_f2と関連付けられている、先に復号化された(量子化された)第2のスペクトル係数を用いて、現在のフレーム208_t0の予測された第4のスペクトル係数210_t0_f4を、前のフレーム208_t-1の、符号化された第4のスペクトル係数206_t-1_f4と関連付けられている、先に復号化された(量子化された)第4のスペクトル係数を用いて、また、現在のフレーム208_t0の予測された第5のスペクトル係数210_t0_f5を、前のフレーム208_t-1の、符号化された第5のスペクトル係数206_t-1_f5と関連付けられている、先に復号化された(量子化された)第5のスペクトル係数を用いて決定するように構成することができる。
【0081】
さらに、デコーダ200は、間隔値から予測係数を導出するように構成することができ、デコーダ200は、現在のフレーム208_t0についての複数の、個々の予測されたスペクトル係数210_t0_f2または予測されたスペクトル係数グループ210_t0_f4および210_t0_f5を、少なくとも2つの前のフレーム208_t-1および208_t-2の、対応する複数の、先に複合化された個々のスペクトル係数または先に複合化されたスペクトル係数グループを用いて、および導出された予測係数を用いて計算するように構成することができる。
【0082】
例えば、デコーダ200は、符号化された第2のスペクトル係数206_t0_f2についての予測係数212_f2および214_f2を、間隔値から導出し、符号化された第4のスペクトル係数206_t0_f4についての予測係数212_f4および214_f4を、間隔値から導出するように、そして符号化された第5のスペクトル係数206_t0_f5についての予測係数212_f5および214_f5を、間隔値から導出するように構成することができる。
【0083】
なお、デコーダ200は、予測複合化が適用される複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループについての、複数の、個々の量子化されたスペクトル係数または量子化されたスペクトル係数グループの代わりに、量子化された予測誤差を得るために、符号化されたオーディオ信号120を複合化するように構成することができる。
【0084】
さらに、デコーダ200は、量子化された予測誤差がそれのために得られる、符号化されたスペクトル係数206_t0_f2または符号化されたスペクトル係数グループ206_t0_f4および206_t0_f5と、量子化されたスペクトル係数がそれのために得られる、符号化されたスペクトル係数206_t0_f3または符号化されたスペクトル係数グループとが、交互になるように、複数の、個々のスペクトル係数またはスペクトル係数グループを隔てている、量子化されたスペクトル係数を得るために、符号化されたオーディオ信号120を復号化するように構成することができる。
【0085】
デコーダ200は、復号化されたオーディオ信号220を、予測復号化が適用される符号化されたスペクトル係数206_t0_f2、206_t0_f4および206_t0_f5と関連付けられている、復号化されたスペクトル係数を用いて、ならびに予測復号化が適用されない符号化されたスペクトル係数206_t0_f1、206_t0_f3および206_t0_f6と関連付けられている、エントロピ復号化されたスペクトル係数を用いて提供するように構成することができる。
【0086】
実施形態において、デコーダ200は、間隔値を得るように構成することができ、デコーダ200は、予測復号化が適用される複数の、個々の符号化されたスペクトル係数206_t0_f2または符号化されたスペクトル係数グループ206_t0_f4および206_t0_f5を、間隔値に基づいて選択するように構成することができる。
【0087】
対応するエンコーダ100の記述と関連してすでに上述したように、間隔値は、例えば、オーディオ信号の2つの特徴周波数の間の間隔(または距離)とすることができる。さらに、間隔値は、オーディオ信号の2つの特徴周波数の間の間隔を近似する、整数のスペクトル係数(またはスペクトル係数のインデックス)とすることができる。もちろん、間隔値は、オーディオ信号の2つの特徴周波数の間の間隔を表す、整数のスペクトル係数の分数もしくは倍数とすることもできる。
【0088】
デコーダ200は、予測復号化のために、間隔値によって定義された高調波グリッドによりスペクトル的に配置された、個々のスペクトル係数またはスペクトル係数グループを選択するように構成することができる。間隔値によって定義された高調波グリッドは、オーディオ信号102の中の高調波の周期的なスペクトル分布(等距離間隔)を表し得る。つまり、間隔値によって定義された高調波グリッドは、オーディオ信号102の高調波の等距離間隔を表す一連の間隔値とすることができる。
【0089】
さらに、デコーダ200は、そのスペクトルインデックスが、予測符号化のために、間隔値に基づいて導出された複数のスペクトルインデックスと、等しいかまたはその周辺の範囲(例えば、所定の、また可変の範囲)内に収まる、スペクトル係数(例えば、そうしたスペクトル係数のみ)を選択するように構成することができる。その結果、デコーダ200は、間隔値に応じて範囲の幅を設定するように構成することができる。
【0090】
実施形態において、符号化されたオーディオ信号は、間隔値またはその符号化されたバージョンを含み(例えば、それから間隔値を直接導出することができるパラメータ)、デコーダ200は、間隔値を得るために、符号化されたオーディオ信号から間隔値またはその符号化されたバージョンを抽出するように構成することができる。
【0091】
代替方法として、デコーダ200は、それ自体で間隔値を決定するように、すなわち、符号化されたオーディオ信号が間隔値を含まないように、構成することができる。その場合、デコーダ200は、(オーディオ信号102を表す符号化されたオーディオ信号120の)瞬間的基本周波数を決定するように、そして瞬間的基本周波数またはその分数もしくは倍数から間隔値を導出するように構成することができる。
【0092】
実施形態において、デコーダ200は、予測復号化が適用される複数の、個々のスペクトル係数またはスペクトル係数グループと、予測復号化が適用される複数の、個々のスペクトル係数またはスペクトル係数グループを隔てている、スペクトル係数とが、+/-1スペクトル係数の許容範囲を伴った周期で周期的に交互になるように、予測復号化が適用される複数の、個々のスペクトル係数またはスペクトル係数グループを選択するように構成することができる。
【0093】
実施形態において、符号化されたオーディオ信号120によって表されたオーディオ信号102は、少なくとも2つの高調波信号要素を含み、デコーダ200は、オーディオ信号102の少なくとも2つの高調波信号要素または少なくとも2つの高調波信号要素の周辺のスペクトル環境を表す複数の、個々の符号化されたスペクトル係数206_t0_f2または符号化されたスペクトル係数グループ206_t0_f4および206_t0_f5に対して、予測復号化を選択的に適用するように構成される。少なくとも2つの高調波信号要素の周辺のスペクトル環境は、例えば、+/-1、2、3、4,または5スペクトル要素とすることができる。
【0094】
その結果、デコーダ200は、少なくとも2つの高調波信号要素を特定するように、そして特定された高調波信号要素と関連付けられている、例えば、特定された高調波信号要素を表すか、または特定された高調波信号要素を囲む)複数の、個々の符号化されたスペクトル係数206_t0_f2または符号化されたスペクトル係数グループ206_t0_f4および206_t0_f5に対して、予測復号化を選択的に適用するように構成することができる。
【0095】
代替方法として、符号化されたオーディオ信号120は、少なくとも2つの高調波信号要素を特定する情報(例えば、間隔値)を含み得る。その場合、デコーダ200は、特定された高調波信号要素と関連付けられている、例えば、特定された高調波信号要素を表すか、または特定された高調波信号要素を囲む)複数の、個々の符号化されたスペクトル係数206_t0_f2または符号化されたスペクトル係数グループ206_t0_f4および206_t0_f5に対して、予測復号化を選択的に適用するように構成することができる。
【0096】
上記の代替方法の両方において、デコーダ200は、オーディオ信号102の少なくとも2つの高調波信号要素または少なくとも2つの高調波信号要素のスペクトル環境を表していない複数の、個々の符号化されたスペクトル係数206_t0_f3、206_t0_f1および206_t0_f6、または符号化されたスペクトル係数グループに対して、予測復号化を適用しないように構成することができる。
【0097】
つまり、デコーダ200は、オーディオ信号102の信号高調波間の非トーン性の背景ノイズに属する複数の、個々の符号化されたスペクトル係数206_t0_f3、206_t0_f1、206_t0_f6、または符号化されたスペクトル係数グループに対して、予測復号化を適用しないように構成することができる。
【0098】
図5は、一実施形態に係る、オーディオ信号を符号化する方法300のフローチャートを示す。方法300は、現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号のスペクトル係数を決定するステップ302と、少なくとも1つのスペクトル係数によって隔てられている複数の、個々のスペクトル係数またはスペクトル係数グループに対して、予測符号化を選択的に適用するステップ304を含む。
【0099】
図6は、一実施形態に係る、符号化されたオーディオ信号を復号化する方法400のフローチャートを示す。方法400は、現在のフレームおよび少なくとも1つの前のフレームについてのオーディオ信号の符号化されたスペクトル係数を得るために、符号化されたオーディオ信号を解析するステップ402と、少なくとも1つの符号化されたスペクトル係数によって隔てられている複数の、個々の符号化されたスペクトル係数または符号化されたスペクトル係数グループに対して、予測復号化を選択的に適用するステップ404を含む。
【0100】
いくつかの態様を、一装置との関連で記載してきたが、これらの態様は、対応する方法の記述も表していることは明らかであり、ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の記述も表している。方法ステップの一部またはすべては、例えばマイクロプロセッサ、プログラマブルコンピュータまたは電子回路のようなハードウェア装置によって(または、を用いて)実行され得る。いくつかの実施形態において、1つまたは複数の最も重要な方法ステップが、こうした装置によって実行され得る。
【0101】
本発明に関する符号化されたオーディオ信号は、デジタル記憶媒体に記憶することができ、またはインターネットなどの無線伝送媒体もしくは有線伝送媒体などの伝送媒体上で伝送することができる。
【0102】
特定の実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。例えば、フロッピディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフレッシュメモリなど、その上に記憶された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラマブル・コンピュータ・システムと連携する(または連携可能な)、デジタル記憶媒体を用いて実施することができる。そのため、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。
【0103】
本発明に係るいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、データキャリアは、本明細書に記載された方法の1つが実行されるように、プログラマブル・コンピュータ・システムと連携することができる。
【0104】
一般に、本発明の実施形態は、プログラムコードを伴ったコンピュータプログラム製品として実施することができ、プログラムコードは、そのコンピュータプログラム製品をコンピュータ上で実行させたときに、方法の1つを実行するために働く。プログラムコードは、例えば機械読み取り可能なキャリア上に記憶され得る。
【0105】
別の実施形態は、機械読み取り可能なキャリア上に記憶された、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを含む。
【0106】
つまり、本発明に関する方法の実施形態は、結果として、そのコンピュータプログラムをコンピュータ上で実行させたときに、本明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0107】
本発明に関する方法のさらなる実施形態は、結果として、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上に含むデータキャリア(またはデジタル記憶媒体、またはコンピュータ読み取り可能な媒体)である。データキャリア、デジタル記憶媒体または被記録媒体は、通常は、有形および/または非遷移性である。
【0108】
本発明に関する方法のさらなる実施形態は、結果として、本明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばインターネットを介した、データ通信接続を介して伝送されるように、例えば構成され得る。
【0109】
さらなる実施形態は、本明細書に記載された方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブル・ロジック・デバイスを含む。
【0110】
さらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを含む。
【0111】
本発明に係るさらなる実施形態は、本明細書に記載された方法の1つを実行するためのコンピュータプログラムをレシーバへ送信(例えば、電子的または光学的に)するように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムをレシーバへ送信するためのファイルサーバを含み得る。
【0112】
いくつかの実施形態において、プログラマブル・ロジック・デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)が、本明細書に記載された方法の機能性の一部またはすべてを実行するために用いられ得る。いくつかの実施形態において、本明細書に記載され方法の1つを実行するために、フィールド・プログラマブル・ゲート・アレイは、マイクロプロセッサと連携し得る。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
【0113】
本明細書に記載された装置は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置およびコンピュータの組合せを用いて実施され得る。
【0114】
本明細書に記載された方法は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置およびコンピュータの組合せを用いて実行され得る。
【0115】
上記の実施形態は、本発明の原理についての例示に過ぎない。本明細書に記載された構成および詳細の修正および変形が、他の当業者にとって明らかであろうことが分かる。結果として、本明細書の実施形態の記述および説明によって表された特定の詳細によってではなく、添付の特許請求の範囲によってのみ制限されることを意図している。
図1
図2
図3
図4
図5
図6
【外国語明細書】