(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-06
(45)【発行日】2024-08-15
(54)【発明の名称】量子化スケール係数決定装置、及び、量子化スケール係数決定方法
(51)【国際特許分類】
G10L 19/035 20130101AFI20240807BHJP
【FI】
G10L19/035 A
(21)【出願番号】P 2021552264
(86)(22)【出願日】2020-09-04
(86)【国際出願番号】 JP2020033579
(87)【国際公開番号】W WO2021075167
(87)【国際公開日】2021-04-22
【審査請求日】2023-06-15
(31)【優先権主張番号】P 2019189177
(32)【優先日】2019-10-16
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】原田 旭
(72)【発明者】
【氏名】江原 宏幸
【審査官】大野 弘
(56)【参考文献】
【文献】特開2009-198612(JP,A)
【文献】特表2016-533515(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/035
(57)【特許請求の範囲】
【請求項1】
音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、
前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、
を具備する量子化スケール係数決定装置。
【請求項2】
前記スパース性を有するか否かを判定する判定回路、を更に具備する、
請求項1に記載の量子化スケール係数決定装置。
【請求項3】
前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する、
請求項2に記載の量子化スケール係数決定装置。
【請求項4】
前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する、
請求項2に記載の量子化スケール係数決定装置。
【請求項5】
前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する、
請求項2に記載の量子化スケール係数決定装置。
【請求項6】
前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える、
請求項2に記載の量子化スケール係数決定装置。
【請求項7】
前記初期値の上限値を調整する前処理回路、を更に具備し、
前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する、
請求項2に記載の量子化スケール係数決定装置。
【請求項8】
前記探索回路は、第1の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第1の探索の前の第2の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第1の探索の後の第3の探索における前記量子化スケール係数を決定する、
請求項1に記載の量子化スケール係数決定装置。
【請求項9】
前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する、
請求項1に記載の量子化スケール係数決定装置。
【請求項10】
量子化スケール係数決定装置は、
音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、
前記初期値に基づいて、前記量子化スケール係数の探索を行う、
量子化スケール係数決定方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、量子化スケール係数決定装置、及び、量子化スケール係数決定方法に関する。
【背景技術】
【0002】
符号化技術の一つに、音声信号又は音響信号(例えば、「音声音響信号」とも呼ぶ)を低ビットレートによって符号化する修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform)スペクトル算術符号化技術がある。この符号化技術は、例えば、MDCTスペクトルをスケーリング(又は、量子化スケーリングと呼ぶ)して量子化し、算術符号化する(例えば、特許文献1を参照)。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【0004】
しかしながら、音声信号又は音響信号の符号化において演算量を低減する方法について検討の余地がある。
【0005】
本開示の非限定的な実施例は、音声信号又は音響信号の符号化において演算量を低減できる量子化スケール係数決定装置、及び、量子化スケール係数決定方法の提供に資する。
【0006】
本開示の一実施例に係る量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、を具備する。
【0007】
なお、これらの包括的または具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【0008】
本開示の一実施例によれば、音声信号又は音響信号の符号化における演算量を低減できる。
【0009】
本開示の一実施例における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
【図面の簡単な説明】
【0010】
【
図1】音声信号又は音響信号の伝送システムの構成例を示すブロック図
【
図3】レートループ処理部及び量子化・符号化部の構成例を示すブロック図
【
図5】スパース性を有するスペクトルの一例を示す図
【
図6】スパース性に基づく量子化スケール係数の補正処理の一例を示す図
【
図8】量子化スケール係数の探索処理の一例を示す図
【発明を実施するための形態】
【0011】
以下、本開示の実施の形態について図面を参照して詳細に説明する。
【0012】
特許文献1では、例えば、線形予測分析(例えば、linear prediction coding(LPC)分析)に基づいて得られるMDCTスペクトルのエンベロープ(換言すると、包絡線)と、MDCTスペクトルの絶対値とを乗算した値の二乗平均平方根(RMS:Root Mean Square)の逆数が、MDCTスペクトルの量子化スケーリングにおける「量子化スケール係数」の初期値に設定される。
【0013】
符号化装置は、例えば、量子化スケール係数の初期値に基づいて、量子化スケール係数の探索処理を行う。例えば、符号化装置は、量子化スケール係数に基づいて、MDCTスペクトルの算術符号化によって消費されるビット量(例えば、「消費ビット量」と呼ぶ)を近似式から推定する。そして、符号化装置は、推定された消費ビット量と目標ビット量との比較を行い、例えば、「目標ビット量を超えない」かつ「目標ビット量に最も近い」条件を満たす量子化スケール係数を、二分探索法に従って探索する。
【0014】
しかしながら、例えば、量子化スケール係数の初期値が、探索後の量子化スケール係数(換言すると、二分探索において収束した値)から離れているほど、探索において値が収束するまでの探索回数が増加し、符号化装置における演算量が増加する可能性がある。また、二分探索法は収束が遅い方法であることが知られている。
【0015】
そこで、本開示の一実施例では、量子化スケール係数の探索における演算量を低減する方法について説明する。
【0016】
[伝送システムの概要]
図1は、本実施の形態に係る音声信号又は音響信号の伝送システムの構成例を示す。
【0017】
図1に示す伝送システムは、例えば、符号化装置1と、復号装置2とを備える。
【0018】
符号化装置1は、例えば、音声信号又は音響信号といった入力信号を符号化し、符号化データを、通信網又は記憶媒体(図示せず)を介して、復号装置2に送信する。例えば、符号化装置1は、Moving Picture Experts Group(MPEG)、3rd Generation Partnership Project(3GPP)又はInternational Telecommunication Union Telecommunication Standardization Sector(ITU-T)といった規格に規定されている種々の音声音響コーデック(例えば、エンコーダ)を備えてよい。
【0019】
復号装置2は、例えば、伝送路又は記憶媒体を介して、符号化装置1から受信した符号化データを復号して出力信号(例えば、電気信号)を出力する。復号装置2は、例えば、電気信号を、スピーカ又はヘッドホンを介して音波として出力してよい。また、復号装置2は、例えば、前述した音声音響コーデックに対応するデコーダを用いてもよい。
【0020】
また、符号化装置1におけるコーデックには、例えば、周波数領域符号化の一つであるtransformed code excitation(TCX)符号化が含まれてよい。例えば、
図1に示す符号化装置1は、TCX符号化処理を行うTCX符号化部10を備える。
【0021】
TCX符号化は、例えば、13.2kbps又は16.4kbpsといった低ビットレートの伝送における符号化に適用されてよい。なお、TCX符号化が適用される伝送のビットレートは、13.2kbps及び16.4kbpsに限らず、他のビットレートでもよい。励振信号の符号化にMDCTを用いるTCX符号化は、例えば、「MDCT based TCX」と呼ばれることもある。
【0022】
[TCX符号化部10の構成例]
図2は、
図1に示す符号化装置1に含まれるTCX符号化部10の構成例を示す。
図2に示すTCX符号化部10は、例えば、エンベロープ生成部11、ハーモニクス解析部12、エンベロープスケーリング部13、レートループ処理部14、及び、量子化・符号化部15を備える。
【0023】
エンベロープ生成部11には、例えば、入力信号に対するMDCTによって得られる周波数領域信号(以下、「MDCTスペクトル」と呼ぶ)、及び、入力信号に対するLPC分析によって得られるLPC係数が入力される。エンベロープ生成部11は、例えば、LPC係数に基づいて、MDCTスペクトルのエンベロープ(換言すると、包絡線)を生成する。エンベロープ生成部11は、生成したエンベロープを示すエンベロープ情報、及び、MDCTスペクトルを示すスペクトル情報をハーモニクス解析部12へ出力する。
【0024】
ハーモニクス解析部12は、例えば、エンベロープ生成部11から入力される情報に基づいて、MDCTスペクトルにおけるハーモニクス構造(換言すると、高調波成分)を解析する。ハーモニクス解析部12は、例えば、ハーモニクス構造の解析結果を示すハーモニクス情報、エンベロープ情報、及び、スペクトル情報をエンベロープスケーリング部13へ出力する。
【0025】
例えば、ハーモニクス情報には、MDCTスペクトルがハーモニクス構造を有するか否かを示す情報(例えば、「ハーモニクスフラグ」又は「高調波モデルフラグ」と呼ぶ)が含まれてよい。また、ハーモニクス情報には、例えば、ハーモニクスのゲイン(換言すると、高調波の利得)を示すインデックス(例えば、「ハーモニクスゲインインデックス」と呼ぶ)が含まれてよい。ハーモニクスゲインインデックスは、例えば、ハーモニクスのゲインを或るレベル毎にインデックス化(換言すると、量子化)した値でもよい。例えば、ハーモニクスゲインインデックスの値が高いほど、ハーモニクスのゲインレベルが高くてよい。
【0026】
エンベロープスケーリング部13は、例えば、ハーモニクス解析部12から入力される情報に基づいて、MDCTスペクトルのエンベロープに対してスケーリング処理を行う。エンベロープスケーリング部13は、スケーリングされたエンベロープを示すエンベロープ情報、ハーモニクス情報、及び、スペクトル情報をレートループ処理部14へ出力する。
【0027】
レートループ処理部14は、エンベロープスケーリング部13から入力される情報に基づいて、レートループ処理(又は、量子化レートループ処理とも呼ぶ)を行い、MDCTスペクトルの量子化における量子化スケール係数を算出する。レートループ処理部14は、例えば、消費ビット量と目標ビット量との比較に基づいて、量子化スケール係数を探索する。探索方法は、例えば、二分探索法でもよく、他の探索法でもよい。
【0028】
また、レートループ処理部14は、例えば、MDCTスペクトルにおけるスパース性に基づいて、探索における量子化スケール係数の初期値を設定してよい。なお、レートループ処理部14における量子化スケール係数の初期値の設定方法の一例は後述する。
【0029】
レートループ処理部14は、探索した量子化スケール係数を示す情報、及び、スペクトル情報を量子化・符号化部15へ出力する。
【0030】
量子化・符号化部15は、レートループ処理部14から入力される情報に基づいて、MDCTスペクトルを量子化及び符号化し、得られる符号化データを出力する。
【0031】
[レートループ処理部14及び量子化・符号化部15の構成例]
図3は、
図2に示すTCX符号化部10に含まれるレートループ処理部14(例えば、量子化スケール係数決定装置に相当)及び量子化・符号化部15の構成例を示す。
【0032】
図3に示すレートループ処理部14は、例えば、量子化スケール係数計算部141(例えば、算出回路に相当)、スパース解析部142、及び、量子化スケール係数探索部143(例えば、探索回路に相当)を備える。また、
図3に示す量子化・符号化部15は、例えば、量子化部151及び符号化部152を備える。
【0033】
図3に示すレートループ処理部14において、量子化スケール係数計算部141は、例えば、エンベロープスケーリング部13から入力されるエンベロープ情報、及び、スペクトル情報に基づいて、MDCTスペクトルの量子化処理における量子化スケール係数の初期値を算出する。例えば、量子化スケール係数計算部141は、エンベロープ(例えば、LPC分析に基づいて得られるエンベロープ)と、MDCTスペクトルの絶対値との乗算値(言い換えると、スペクトル包絡で正規化した振幅スペクトル)の標準偏差の逆数を、量子化スケール係数の初期値(又は、「補正前の量子化スケール係数」と呼ぶこともある)に設定してよい。標準偏差の逆数を用いることにより、スペクトル振幅値にばらつきが大きいほど小さな量子化スケール係数となり、ばらつきが小さいほど大きな量子化スケール係数となる。量子化スケール係数計算部141は、補正前の量子化スケール係数を示す情報をスパース解析部142へ出力する。
【0034】
なお、量子化スケール係数計算部141における量子化スケール係数の算出方法は、上述した方法に限定されない。例えば、量子化スケール係数計算部141は、エンベロープと、MDCTスペクトルの絶対値との乗算値の分散の逆数を、量子化スケール係数の初期値に設定してよい。また、例えば、量子化スケール係数計算部141は、エンベロープと、MDCTスペクトルとの乗算値に対する二乗平均平方根の逆数(又は、この逆数に所定の係数を乗算してもよい)を、量子化スケール係数の初期値に設定してよい。
【0035】
スパース解析部142は、例えば、ハーモニクス情報、スペクトル情報、及び、エンベロープ情報の少なくとも一つに基づいて、MDCTスペクトルのスパース性を解析(換言すると、判定)する。
【0036】
「スパース性(sparsity)」は、例えば、MDCTスペクトルの分布において、少数のスペクトル(成分)が非ゼロとなり、多数のスペクトル(成分)がゼロ(又は、振幅が閾値未満の成分)となる性質である。又は、スパース性は、例えば、スペクトル振幅の総和のうち、少数のスペクトルによってより多くのスペクトル振幅の割合(例えば、50%以上の振幅和)が占められている状態である。
【0037】
スパース解析部142は、例えば、スパース性の解析結果に基づいて、量子化スケール係数計算部141から入力される量子化スケール係数を補正するか否かを決定してよい。スパース解析部142は、量子化スケール係数の補正を決定した場合、量子化スケール係数を補正し、補正後の量子化スケール係数を示す情報を量子化スケール係数探索部143へ出力する。一方、スパース解析部142は、量子化スケール係数を補正しない場合、量子化スケール係数計算部141から入力される量子化スケール係数を示す情報を、量子化スケール係数探索部143へ出力する。
【0038】
量子化スケール係数探索部143は、スパース解析部142から入力される量子化スケール係数の初期値に基づいて、量子化スケール係数の探索を行う。そして、量子化スケール係数探索部143は、例えば、算術符号化について推定される消費ビット量と、目標ビット量との比較結果に基づいて二分探索を行い、探索後の量子化スケール係数を示す情報を量子化・符号化部15(量子化部151)へ出力する。
【0039】
図3に示す量子化・符号化部15において、量子化部151は、量子化スケール係数探索部143から入力される量子化スケール係数に基づいて、MDCTスペクトルを量子化する。量子化部151は、量子化後のMDCTスペクトルを示す情報を符号化部152へ出力する。
【0040】
符号化部152は、量子化部151から入力される量子化後のMDCTスペクトルを符号化し、符号化データを出力する。符号化部152における符号化方式は、例えば、算術符号化でもよく、他の符号化でもよい。
【0041】
[スパース解析部142の構成例]
図4は、スパース解析部142の構成例を示す。
【0042】
図4に示すスパース解析部142は、例えば、前処理部1421(例えば、前処理回路に相当)、スパース性判定部1422(例えば、判定回路に相当)、及び、量子化スケール係数補正部1423(例えば、補正回路に相当)を備える。
【0043】
前処理部1421は、例えば、量子化スケール係数計算部141から入力される量子化スケール係数(例えば、補正前の量子化スケール係数(初期値))に対して前処理を行う。前処理部1421は、例えば、量子化スケール係数の上限値を調整してよい。また、前処理部1421は、例えば、量子化スケール係数に特定の値(例えば、1.00未満の値)を乗算してもよい。前処理部1421は、前処理後の量子化スケール係数を示す情報をスパース性判定部1422へ出力する。
【0044】
スパース性判定部1422は、MDCTスペクトルがスパース性を有するか否かを判定する。例えば、スパース性判定部1422は、エンベロープ情報、ハーモニクス情報、及び、MDCTスペクトルに関する情報(例えば、MDCTスペクトルの絶対値)に基づいて、MDCTスペクトルのスパース性を判定してよい。
【0045】
図5(a)~
図5(d)は、スパース性を有する場合のMDCTスペクトルの一例を示す。
図5(a)~
図5(d)において、横軸は周波数(例えば、周波数bin)を表し、縦軸はMDCTスペクトルの振幅(例えば、振幅の絶対値)を表す。
【0046】
例えば、ハーモニクス構造を有するMDCTスペクトルでは、例えば、
図5(a)又は
図5(b)に示すように、或る間隔でMDCTスペクトルのピークが集中的に現れる。換言すると、ハーモニクス構造を有する場合、或る間隔のMDCTスペクトル(換言すると、ピーク成分)は、他の周波数のMDCTスペクトル(換言すると、ピークと異なる成分)と比較して、振幅(又はパワー)が大きくなり得る。よって、
図5(a)又は
図5(b)に示すように、ハーモニクス構造を有するMDCTスペクトルは、スパース性を有し得る。
【0047】
また、例えば、
図5(c)又は
図5(d)に示すように、一部のMDCTスペクトルにエネルギが集中する場合があり得る。換言すると、エネルギが集中する一部のMDCTスペクトルは、他のMDCTスペクトルと比較して、振幅(又は、パワー)が大きくなり得る。よって、
図5(c)又は
図5(d)に示すように、エネルギが一部のスペクトルに集中するMDCTスペクトルは、スパース性を有し得る。
【0048】
そこで、スパース性判定部1422は、例えば、ハーモニクス情報に基づいてスパース性を判定してよい。また、スパース性判定部1422は、例えば、MDCTスペクトル(換言すると、音声信号又は音響信号)において閾値(例えば、50%)以上の割合を占めるスペクトル数に基づいてスパース性を判定してよい。また、スパース性判定部1422は、例えば、LPC分析に基づくエンベロープ、及び、MDCTスペクトル(例えば、絶対値)に基づいてスパース性を判定してよい。なお、スパース性の判定は、ハーモニクス情報、エンベロープ情報、及び、MDCTスペクトル(例えば、絶対値)の少なくとも一つのパラメータ(又は、特徴量)に限らず、他のパラメータに基づいて判定されてもよい。
【0049】
なお、スパース性判定部1422におけるMDCTスペクトルがスパース性を有するか否かを判定する条件の一例については後述する。
【0050】
量子化スケール係数補正部1423は、例えば、MDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する。例えば、量子化スケール係数補正部1423は、MDCTスペクトルにおいてスパース性が有る場合、量子化スケール係数(初期値)を補正する。一方、スパース解析部142は、例えば、MDCTスペクトルにおいてスパース性が無い場合、量子化スケール係数の補正を行わない。量子化スケール係数補正部1423は、得られた量子化スケール係数を、量子化・符号化部15(例えば、
図3)へ出力する。
【0051】
ここで、
図3において、量子化スケール係数計算部141では、例えば、LPC分析に基づいて得られるエンベロープ(換言すると、スケーリングされたエンベロープ)と、MDCTスペクトルの絶対値との乗算値に対する標準偏差の逆数が、量子化スケール係数に決定される。
【0052】
また、例えば、
図5(a)~(d)に示すように、MDCTスペクトルがスパース性を有する場合には、MDCTスペクトルがスパース性を有さない場合(図示せず)と比較して、同じようなMDCTスペクトルのピーク値を有する場合において、MDCTスペクトルの平均値はより低くなり得る。
【0053】
このため、MDCTスペクトルにおいて、スパース性を有する場合には、スパース性を有さない場合と比較して、MDCTスペクトル全体のエネルギあるいは平均振幅(例えば、上記標準偏差に相当)は低く推定され得る。よって、例えば、MDCTスペクトルにおいて、スパース性を有する場合には、量子化スケール係数計算部141において決定される量子化スケール係数(例えば、上記標準偏差の逆数)は、スパース性を有さない場合の量子化スケール係数、又は、探索後の量子化スケール係数と比較して、より大きな値になり得る。
【0054】
図6は、スパース性に基づく量子化スケール係数の補正処理の一例を示す。例えば、
図6は、MDCTスペクトルがスパース性を有する場合の量子化スケール係数(換言すると、補正前の量子化スケール係数)と、探索後の量子化スケール係数(換言すると、補正後の量子化スケール係数)との対応関係の一例を示す。
【0055】
図6において、横軸は、探索(例えば、二分探索)後の量子化スケール係数を表し、縦軸は、スパース性判定部1422に入力される量子化スケール係数を表す。スパース性判定部1422に入力される量子化スケール係数は、例えば、量子化スケール係数計算部141において算出される量子化スケール係数でもよく、前処理部1421において調整された量子化スケール係数でもよい。
【0056】
図6に示すように、例えば、スパース性判定部1422においてMDCTスペクトルがスパース性を有すると判定された場合、量子化スケール係数補正部1423は、補正前の量子化スケール係数(例えば、scl_b)を、量子化スケール係数(例えば、scl_a)に補正(低減)する。
【0057】
量子化スケール係数の補正方法は、例えば、
図6に示すように、スパース性が有る場合の量子化スケール係数と、探索後の量子化スケール係数との統計的な関係(例えば、シミュレーション結果)に基づいて設定されてよい。例えば、
図6の例では、補正前の量子化スケール係数scl_b=0.0400、及び、補正後の量子化スケール係数scl_a=0.0216となり、scl_bと、scl_aとの間に「1.85」の比率がある。よって、例えば、量子化スケール係数補正部1423は、MDCTスペクトルがスパース性を有する場合には、量子化スケール係数scl_bを、1.85で除した値scl_aに補正してよい(例えば、scl_a = scl_b / 1.85)。
【0058】
なお、パラメータ「1.85」は一例であり、この値に限定されない。また、量子化スケール係数の補正方法は、上記方法に限らず、他の方法でもよい。
【0059】
以上、スパース解析部142の動作について説明した。例えば、MDCTスペクトルにおいてスパース性を有する場合には、量子化スケール係数探索部143は、補正後の量子化スケール係数の初期値に基づいて探索を開始できる。例えば、
図6では、量子化スケール係数探索部143は、補正後の量子化スケール係数scl_aを初期値に設定して、二分探索を行う。この探索により、量子化スケール係数探索部143は、例えば、
図6に示す補正前の量子化スケール係数scl_bを初期値に設定して二分探索を行う場合と比較して、二分探索による収束値を得るまでの探索回数、すなわち、演算量を低減できる。
【0060】
[スパース性の判定例]
次に、スパース性判定部1422におけるMDCTスペクトルがスパース性を有するか否かを判定する条件(判定方法)の一例について説明する。
【0061】
<判定条件1>
判定条件1では、スパース性判定部1422は、MDCTスペクトルが
図5(a)又は
図5(b)のように、「ハーモニクス構造」を有するか否かに基づいて、スパース性を判定する。
【0062】
例えば、スパース性判定部1422は、ハーモニクスフラグと、ハーモニクスゲインインデックスと、MDCTスペクトルの絶対値の平均値(以下、「スペクトル平均値」と呼ぶ)と、に基づいて、スパース性を判定してよい。
【0063】
また、例えば、スパース性判定部1422は、ハーモニクスフラグがONの場合(換言すると、ハーモニクス構造を有する場合)、かつ、ハーモニクスゲインインデックスが閾値以上の場合(換言すると、ハーモニクスのゲインが閾値以上の場合)、かつ、スペクトル平均値を超えるスペクトル(換言すると、周波数bin又はラインとも呼ぶ)の数が閾値未満の場合、MDCTスペクトルがスパース性を有すると判定してよい。
【0064】
例えば、MDCTスペクトルがハーモニクス構造を有する場合でも、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、ハーモニクス構造におけるスペクトルのピーク成分と、ピーク成分と異なる他の成分との差がより小さくなり、スパース性を有さない可能性がある。よって、スペクトル平均値を超えるスペクトル数が閾値以上の場合には、スパース性判定部1422は、MDCTスペクトルがスパース性を有さないと判定してよい。
【0065】
なお、判定条件1において、ハーモニクスゲインインデックスに対する閾値は複数設定されてよい。また、判定条件1において、スペクトル平均値を超えるスペクトル数に対する閾値は複数設定されてよい。
【0066】
例えば、
図5(a)に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X1」(例えば、X1=3)以上であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y1」(例えば、Y1=95)未満の場合を示す。
【0067】
また、例えば、
図5(b)に示す例は、ハーモニクスフラグがONであり、ハーモニクスゲインインデックスが閾値「X2」(例えば、X2=2)であり、かつ、スペクトル平均値を超えるスペクトル数が閾値「Y2」(例えば、Y2=85)未満の場合を示す。
【0068】
なお、閾値X1、X2、Y1及びY2の値は一例であり、これらの値に限定されない。また、ここでは、X1及びY1の組み合わせ、及び、X2及びY2の組み合わせの2パターンの条件の何れかに基づいて、スパース性が判定される場合について説明したが、これに限定されない。例えば、ハーモニクスゲインインデックスに関する閾値X、及び、スペクトル平均値を超えるスペクトル数に関する閾値Yの組み合わせのパターンは、1パターンでもよく、3パターン以上でもよい。
【0069】
<判定条件2>
判定条件2では、スパース性判定部1422は、MDCTスペクトルが
図5(c)のように、MDCTスペクトルにおいて閾値以上の割合(例えば、「構成比」とも呼ぶ)を占めるスペクトル数に基づいて、スパース性を判定する。
【0070】
例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合に、MDCTスペクトルがスパース性を有すると判定してよい。
【0071】
または、例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、MDCTスペクトルの絶対値の二乗平均平方根(換言すると、パワー平均値または平均振幅)を超えるスペクトル数が閾値L2未満の場合に、MDCTスペクトルがスパース性を有すると判定してよい。
【0072】
例えば、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L2以上の場合、MDCTスペクトルの分布において、エネルギが一部のスペクトルに集中していない(換言すると、分散している)可能性が高いので、スパース性判定部1422は、スパース性を有さないと判定してよい。
【0073】
例えば、
図5(c)に示す例は、振幅上位のスペクトルk個(例えば、k=4)にエネルギが集中し、上位k個のMDCTスペクトルの振幅がスペクトル全体の振幅総和に対して50%以上を占め、かつ、MDCTスペクトルの絶対値の二乗平均平方根を超えるスペクトル数が閾値L1(例えば、L1=13)未満の場合を示す。
【0074】
なお、判定条件2は、例えば、MDCTスペクトルがハーモニクス構造を有さない場合に適用されてもよい(一例は後述する)。
【0075】
<判定条件3>
判定条件3では、スパース性判定部1422は、判定条件2と同様、MDCTスペクトルが
図5(d)のように、MDCTスペクトルにおいて閾値以上の割合(又は、構成比)を占めるスペクトル数に基づいて、スパース性を判定する。
【0076】
また、判定条件3では、スパース性判定部1422は、スペクトルの占める構成比に基づく条件に加え、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比に基づいて、スパース性を判定してよい。
【0077】
例えば、スパース性判定部1422は、MDCTスペクトルにおいて閾値(例えば、50%)以上の構成比を占めるスペクトル数が閾値L1以下の場合、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2以上の場合、MDCTスペクトルがスパース性を有すると判定してよい。
【0078】
例えば、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2未満の場合、MDCTスペクトルにおいて、最大ピークのパワー(または振幅)に対するパワー(または振幅)の平均値の比率が大きくなり得る。このため、最大ピークのパワー(または振幅)が一部のスペクトルに集中していない(換言すると、分散している)可能性が高いので、スパース性判定部1422は、スパース性を有さないと判定してよい。
【0079】
例えば、
図5(d)に示す例は、スペクトル振幅上位のk個(例えば、k=4)がスペクトル全体のエネルギ(スペクトル振幅の総和)の50%以上を占め、かつ、「エンベロープとMDCTスペクトルの絶対値との乗算値の最大値」と「二乗平均平方根」との比が閾値L2(例えば、L2=12.4)以上の場合を示す。
【0080】
なお、パラメータk、閾値L1及びL2の値は一例であり、これらの値に限定されない。
【0081】
また、判定条件2及び判定条件3において、スペクトルが占める構成比に関する閾値が50%の場合について説明したが、50%に限らず、他の割合でもよい。
【0082】
また、判定条件2及び判定条件3において、例えば、k個のスペクトルが占める構成比が50%を超えることは、フレーム内のスペクトル数(例えば、L_frame個)のうち、構成比50%を占めるスペクトル数kの割合(例えば、k/L_frame)が閾値以下であることに置き換えてもよい。例えば、L_frame=640であり、閾値=0.0559の場合、k/L_frame≦0.0559を満たすkは4個である。
【0083】
以上、判定条件1~判定条件3について説明した。なお、判定条件1~判定条件3を組み合わせてもよい。また、スパース性の判定条件は、判定条件1~判定条件2に限らず、他の判定条件でもよい。
【0084】
スパース性判定部1422は、例えば、MDCTスペクトルに基づいて算出される補正前の量子化スケール係数(換言すると、補正前の初期値)に基づいて、MDCTスペクトルのスパース性を判定する判定条件を切り替えてもよい。
【0085】
図7は、スパース性判定部1422における判定条件の切り替え例を示す。
【0086】
例えば、
図7の例では、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1(例えば、n1=0.01)未満の場合には判定条件1及び判定条件2を適用し、補正前の量子化スケール係数が閾値n1以上、かつ、閾値n2(例えば、n2=0.0559)以下の場合には判定条件3を適用してもよい。
【0087】
閾値n1は、例えば、ハーモニクス構造を有する可能性のあるMDCTスペクトルに対応する量子化スケール係数であるか否かに基づいて決定されてよい。例えば、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さいほど、当該MDCTスペクトルがハーモニクス構造を有する可能性が高い。そこで、例えば、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1未満の場合(換言すると、MDCTスペクトルのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合)、スパース性判定の際にハーモニクス構造を有するか否かを判定してよい。一方、例えば、スパース性判定部1422は、補正前の量子化スケール係数が閾値n1以上の場合(換言すると、MDCTスペクトルの数本のみのピーク振幅値が大きく、かつMDCTスペクトル振幅の平均値が小さい場合)、スパース性判定の際にハーモニクス構造を有するか否かを判定しなくてよい。
【0088】
また、閾値n2は、例えば、量子化スケール係数によってスケーリングされるMDCTスペクトルの振幅レベルの下限値に基づいて決定されてよい。
【0089】
例えば、MDCTスペクトルの振幅レベルが小さいほど、量子化スケール係数は大きく設定され得る。ただし、MDCTスペクトルの振幅レベルが0付近では、量子化スケール係数をより大きく設定することなく、MDCTスペクトルが0で量子化されるような量子化スケール係数に設定してもよい。換言すると、MDCTスペクトル振幅レベルが0付近のものを無理に0より大きな値で量子化するような場合には、量子化スケール係数の設定によっては、MDCTスペクトルを過剰にスケーリングし得る。
【0090】
例えば、
図7に示す例では、閾値n2の設定により、量子化スケール係数の上限値、換言すると、MDCTスペクトルが量子化される振幅レベルの下限値が設定される。閾値n2の設定により、例えば、MDCTスペクトルの振幅レベルが0付近の場合に、より大きな量子化スケール係数が設定されることを防止できるので、MDCTスペクトルの過剰なスケーリングを抑制できる。
【0091】
また、例えば、
図7において、補正前の量子化スケール係数が閾値n2より大きい場合、スパース性判定部1422は、スパース性の判定を行わなくてもよい。補正前の量子化スケール係数が閾値n2より大きい場合、例えば、量子化スケール係数補正部1423は、スパース性の有無に依らず、量子化スケール係数を、閾値n2(
図7では例えば、n2=0.0559)の値に設定してよい。なお、補正前の量子化スケール係数が閾値n2より大きい場合の量子化スケール係数の補正値は、閾値n2に限らず、他の値(例えば、0.05)でもよい。
【0092】
このように、スパース性判定部1422は、補正前の量子化スケール係数(換言すると、MDCTスペクトル振幅レベル)に基づいて、スパース性の判定条件を切り替える。判定条件の切り替えにより、スパース性判定部1422は、MDCTスペクトルの特徴(例えば、振幅レベル、又は、ハーモニクス構造の有無等)に応じて、スパース性を判定できるので、スパース性の判定精度を向上できる。
【0093】
なお、閾値n1及びn2の値は一例であり、他の値でもよい。また、閾値は、1個でもよく、3個以上でもよい。
【0094】
以上のように、本実施の形態では、符号化装置1において、音声信号又は音響信号のMDCTスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、初期値に基づいて、量子化スケール係数の探索を行う。換言すると、符号化装置1において、量子化スケール係数の初期値は、例えば、二分探索において得られる量子化スケース係数により近い値へ補正される。この補正により、例えば、二分探索における探索回数を低減し、量子化スケール係数の探索処理における演算量を低減できる。よって、本実施の形態によれば、音声信号又は音響信号の符号化における演算量を低減できる。
【0095】
(バリエーション1)
バリエーション1では、量子化スケール係数探索部143(例えば、
図3)は、
図8に示す探索処理を行ってもよい。
【0096】
図8では、量子化スケール係数探索部143は、例えば、式(1)に基づいて、次回の探索における量子化スケール係数(例えば、「nx
scl」と表す)を算出してよい。
【数1】
【0097】
式(1)において、tbitは目標ビット量を表し、bfbitは前回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表し、crbitは今回の探索においてMDCTスペクトルの算術符号化について推定される消費ビット量を表す。また、bfsclは前回の探索における量子化スケール係数を表し、crsclは今回の探索における量子化スケール係数を表す。
【0098】
このように、バリエーション1では、量子化スケール係数探索部143は、今回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量crbitと目標ビット量tbitとの差分n、及び、前回の探索におけるMDCTスペクトルの算術符号化について推定される消費ビット量bfbitと目標ビット量tbitとの差分mに基づいて、次回のにおける量子化スケール係数nxsclを決定する。なお、nxsclは、”bfscl≦nxscl≦crscl”または”crscl≦nxscl≦bfsclを満たす。
【0099】
換言すると、量子化スケール係数探索部143は、各探索において推定される消費ビット量と目標ビット量との差分(例えば、m及びn)に基づいて、各探索に使用された量子化スケール係数に対して重み付けを行う。
【0100】
例えば、
図8に示す例では、前回探索時の消費ビット量bf
bitと目標ビット量t
bitとの差分mよりも、今回探索時の消費ビット量cr
bitと目標ビット量t
bitとの差分nの方が小さい。よって、量子化スケール係数探索部143は、前回探索時の量子化スケール係数bf
sclよりも今回探索時の量子化スケール係数cr
sclに対する重み付けを大きく設定し(例えば、|m|<|n|)、次回探索時の量子化スケール係数nx
sclを決定する。
【0101】
また、重み付けで得られた次回探索時の量子化スケール係数をwg
sclとし、二分探索で得られた次回探索時の量子化スケール係数をbi
scl(二分探索法の場合、重み係数bi
sclは0.5となる)とし、量子化スケール係数探索部143は、両者の重みづけ和によって次回探索時の量子化スケール係数nx
sclを決定してもよい。この重みづけの重み係数は探索ごとに変えてもよい。例えば,nx
scl=1×wg
scl+0×bi
sclから始めて、nx
scl=0.75×wg
scl+0.25×bi
scl,nx
scl=0.5×wg
scl+0.5×bi
scl,nx
scl=0.25×wg
scl+0.75×bi
scl,と1回ごとに0.25ずつ重みを増減させ、最終的に二分探索法と同じとなる、nx
scl=0×wg
scl+1×bi
sclにしても良い。一般化すると、nx
sclは式(2)で表される。
【数2】
【0102】
バリエーション1によれば、例えば、前回探索時及び今回探索時の量子化スケール係数の中間値を次回探索時の量子化スケール係数に設定する場合と比較して、目標ビット量を満たす量子化スケール係数をより早く(少ない探索回数で)探索できる。よって、量子化スケール係数探索部143における量子化スケール係数の探索回数を低減でき、演算量を低減できる。
【0103】
なお、今回の探索における消費ビット量と比較する探索は、前回の探索(換言すると、1つ前の探索)に限らず、前回の探索より前の探索でもよい。また、複数の探索に基づいて量子化スケール係数が決定される探索は、次回の探索(換言すると、1つ後の探索)に限らず、次回の探索より後の探索でもよい。また、今回の探索における消費ビット量と比較する探索は、過去の1回の探索に限らず、過去の複数の探索における消費ビット量が使用されてもよい。
【0104】
(バリエーション2)
図4に示すスパース解析部142において、前処理部1421は、上述した動作(例えば、量子化スケール係数の調整)に加え、例えば、量子化スケール係数(初期値)の上限値を調整(換言すると、リミット)してもよい。この場合、スパース性判定部1422は、前処理部1421の出力(上限値が調整された量子化スケール係数)に基づいて、スパース性を判定してよい。
【0105】
例えば、量子化スケール係数の上限値を調整する場合、前処理部1421は、
図7に示す閾値n2を上限値に設定してよい。この設定により、上述したように、量子化スケール係数によってスケーリングされるMDCTスペクトル振幅レベルの下限値が設定され、MDCTスペクトルの過剰なスケーリングを抑制できる。また、前処理部1421において量子化スケール係数の上限値がn2に調整される場合、スパース性判定部1422には、閾値n2より大きい量子化スケール係数は入力されないので、スパース性判定(例えば、
図7)において閾値n2は設定されなくてもよい。
【0106】
なお、前処理部1421における量子化スケール係数の上限値は、閾値n2と異なる値でもよい。
【0107】
(バリエーション3)
符号化装置1は、例えば、MDCTスペクトルがスパース性を有すると判定し、かつ、閾値(例えば、50%)の構成比を占めるスペクトル数が閾値以下の場合、量子化されたMDCTスペクトルに対して、算術符号化ではなく、パルス符号化を行ってもよい。この処理により、符号化効率を向上できる。
【0108】
なお、
図3に示す符号化部152は、例えば、符号化方法を切り替える切替部と、算術符号化部と、パルス符号化部と、を有してよい。また、符号化装置1は、例えば、MDCTスペクトルの符号化に適用した符号化方法を示す情報を生成し、復号装置2へ送信してもよい。なお、復号装置2が、例えば、算術符号化及びパルス符号化を含む複数の符号化方法に対応し、復号装置2において符号化装置1での符号化方法を特定可能な場合、符号化方法を示す情報は、復号装置2へ通知されなくてよい。
【0109】
以上、本開示の実施の形態について説明した。
【0110】
本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
【0111】
集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。
【0112】
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【0113】
本開示は、通信機能を持つあらゆる種類の装置、デバイス、システム(通信装置と総称)において実施可能である。通信装置は無線送受信機(トランシーバー)と処理/制御回路を含んでもよい。無線送受信機は受信部と送信部、またはそれらを機能として、含んでもよい。無線送受信機(送信部、受信部)は、RF(Radio Frequency)モジュールと1または複数のアンテナを含んでもよい。RFモジュールは、増幅器、RF変調器/復調器、またはそれらに類するものを含んでもよい。通信装置の、非限定的な例としては、電話機(携帯電話、スマートフォン等)、タブレット、パーソナル・コンピューター(PC)(ラップトップ、デスクトップ、ノートブック等)、カメラ(デジタル・スチル/ビデオ・カメラ等)、デジタル・プレーヤー(デジタル・オーディオ/ビデオ・プレーヤー等)、着用可能なデバイス(ウェアラブル・カメラ、スマートウオッチ、トラッキングデバイス等)、ゲーム・コンソール、デジタル・ブック・リーダー、テレヘルス・テレメディシン(遠隔ヘルスケア・メディシン処方)デバイス、通信機能付きの乗り物又は移動輸送機関(自動車、飛行機、船等)、及び上述の各種装置の組み合わせがあげられる。
【0114】
通信装置は、持ち運び可能又は移動可能なものに限定されず、持ち運びできない又は固定されている、あらゆる種類の装置、デバイス、システム、例えば、スマート・ホーム・デバイス(家電機器、照明機器、スマートメーター又は計測機器、コントロール・パネル等)、自動販売機、その他IoT(Internet of Things)ネットワーク上に存在し得るあらゆる「モノ(Things)」をも含む。
【0115】
通信には、セルラーシステム、無線LANシステム、通信衛星システム等によるデータ通信に加え、これらの組み合わせによるデータ通信も含まれる。
【0116】
また、通信装置には、本開示に記載される通信機能を実行する通信デバイスに接続又は連結される、コントローラやセンサー等のデバイスも含まれる。例えば、通信装置の通信機能を実行する通信デバイスが使用する制御信号やデータ信号を生成するような、コントローラやセンサーが含まれる。
【0117】
また、通信装置には、上記の非限定的な各種装置と通信を行う、あるいはこれら各種装置を制御する、インフラストラクチャ設備、例えば、基地局、アクセスポイント、その他あらゆる装置、デバイス、システムが含まれる。
【0118】
本開示の一実施例に係る量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正する補正回路と、前記初期値に基づいて、前記量子化スケール係数の探索を行う探索回路と、を具備する。
【0119】
本開示の一実施例において、前記スパース性を有するか否かを判定する判定回路、を更に具備する。
【0120】
本開示の一実施例において、前記判定回路は、前記スペクトルのハーモニクス構造に基づいて、前記スパース性を判定する。
【0121】
本開示の一実施例において、前記判定回路は、前記音声音響信号において閾値以上の割合を占めるスペクトル数に基づいて、前記スパース性を判定する。
【0122】
本開示の一実施例において、前記判定回路は、前記スペクトルの絶対値、及び、前記スペクトルのエンベロープに基づいて、前記スパース性を判定する。
【0123】
本開示の一実施例において、前記判定回路は、前記スペクトルに基づいて算出される補正前の前記初期値に基づいて、前記スパース性を判定する条件を切り替える。
【0124】
本開示の一実施例において、前記初期値の上限値を調整する前処理回路、を更に具備し、前記判定回路は、前記前処理回路の出力に基づいて、前記スパース性を判定する。
【0125】
本開示の一実施例において、前記探索回路は、第1の探索における前記スペクトルの符号化について推定される消費ビット量と目標ビット量との差分、及び、前記第1の探索の前の第2の探索における前記スペクトルの符号化について推定される消費ビット量と前記目標ビット量との差分に基づいて、前記第1の探索の後の第3の探索における前記量子化スケール係数を決定する。
【0126】
本開示の一実施例において、前記音声音響信号のスペクトル振幅の分散及び標準偏差の何れか一方に基づいて前記初期値を算出する算出回路、を更に具備する。
【0127】
本開示の一実施例に係る量子化スケール係数決定方法において、量子化スケール係数決定装置は、音声音響信号のスペクトルがスパース性を有するか否かに基づいて、量子化スケール係数の初期値を補正し、前記初期値に基づいて、前記量子化スケール係数の探索を行う。
【0128】
2019年10月16日出願の特願2019-189177の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
【産業上の利用可能性】
【0129】
本開示の一実施例は、音声信号又は音響信号の伝送システム等に有用である。
【符号の説明】
【0130】
1 符号化装置
2 復号装置
10 TCX符号化部
11 エンベロープ生成部
12 ハーモニクス解析部
13 エンベロープスケーリング部
14 レートループ処理部
15 量子化・符号化部
141 量子化スケール係数計算部
142 スパース解析部
143 量子化スケール係数探索部
151 量子化部
152 符号化部
1421 前処理部
1422 スパース性判定部
1423 量子化スケール係数補正部