(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-09-29
(45)【発行日】2022-10-07
(54)【発明の名称】符号化装置及び符号化方法
(51)【国際特許分類】
G10L 19/008 20130101AFI20220930BHJP
G10L 19/00 20130101ALI20220930BHJP
【FI】
G10L19/008
G10L19/00 250
(21)【出願番号】P 2019522062
(86)(22)【出願日】2018-05-09
(86)【国際出願番号】 JP2018017894
(87)【国際公開番号】W WO2018221138
(87)【国際公開日】2018-12-06
【審査請求日】2021-04-09
(31)【優先権主張番号】P 2017109135
(32)【優先日】2017-06-01
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】514136668
【氏名又は名称】パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
【氏名又は名称原語表記】Panasonic Intellectual Property Corporation of America
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】ナギセティ スリカンス
(72)【発明者】
【氏名】ネオ スア ホン
(72)【発明者】
【氏名】江原 宏幸
【審査官】泉 卓也
(56)【参考文献】
【文献】米国特許出願公開第2004/0230423(US,A1)
【文献】米国特許出願公開第2014/0098963(US,A1)
【文献】特開2002-244698(JP,A)
【文献】国際公開第2006/085586(WO,A1)
【文献】JOHNSTON, J. D. et al.,Sum-Difference Stereo Transform Coding,Proc. ICASSP-92,米国,IEEE,1992年08月06日,Vol.2,pp.569-572
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出する算出回路と、
前記チャネル間相関が閾値より大きい場合に、共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、
前記チャネル間相関が前記閾値以下の場合に、前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化する符号化回路と、
を具備
し、
前記符号化回路は、左チャネルと右チャネルについて主要チャネルと非主要チャネルとを特定し、前記主要チャネルの符号化モードを判定するための第1のパラメータと、前記非主要チャネルの符号化モードを判定するための第2のパラメータとに対して重み付け加算を行い、前記重み付け加算によって得られる重み付けパラメータに基づいて前記共通の符号化モードを選択する、
符号化装置。
【請求項2】
前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、
前記チャネル間相関が小さいほど、前記第1の重み係数は大きい、
請求項
1に記載の符号化装置。
【請求項3】
前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、
前記左チャネル信号と前記右チャネル信号との間のエネルギ差が大きいほど、前記第1の重み係数は大きい、
請求項
1に記載の符号化装置。
【請求項4】
前記符号化回路は、現フレームで選択された前記共通の符号化モードが、過去のフレームで選択された前記共通の符号化モード、現フレームの前記第1のパラメータに基づいて判定される符号化モードと異なり、かつ、現フレームの前記第2のパラメータに基づいて判定される符号化モードの何れかと同一である場合、現フレームの前記共通の符号化モードを再選択する、
請求項
1に記載の符号化装置。
【請求項5】
前記符号化回路は、現フレームの前記重み付けパラメータと、過去フレームの前記重み付けパラメータとを用いてスムージング処理を行い、前記スムージング処理後の重み付けパラメータに基づいて前記共通の符号化モードを再選択する、
請求項
4に記載の符号化装置。
【請求項6】
前記符号化回路は、更に、前記チャネル間相関が、前記閾値よりも大きい第2の閾値よりも大きい場合、前記左チャネル信号及び前記右チャネル信号に対して、Mid/Sideステレオ符号化を行う、
請求項1に記載の符号化装置。
【請求項7】
前記算出回路は、前記左チャネル信号及び前記右チャネル信号のうち、一部の帯域の周波数スペクトルパラメータを用いて、前記チャネル間相関を算出する、
請求項1に記載の符号化装置。
【請求項8】
ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出するステップと、
前記チャネル間相関が閾値より大きい場合に、共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、前記チャネル間相関が前記閾値以下の場合に、前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化するステップと、
を有し、
前記符号化するステップにおいて、左チャネルと右チャネルについて主要チャネルと非主要チャネルとを特定し、前記主要チャネルの符号化モードを判定するための第1のパラメータと、前記非主要チャネルの符号化モードを判定するための第2のパラメータとに対して重み付け加算を行い、前記重み付け加算によって得られる重み付けパラメータに基づいて前記共通の符号化モードを選択する、
符号化方法。
【請求項9】
前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、
前記チャネル間相関が小さいほど、前記第1の重み係数は大きい、
請求項
8に記載の符号化方法。
【請求項10】
前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、
前記左チャネル信号と前記右チャネル信号との間のエネルギ差が大きいほど、前記第1の重み係数は大きい、
請求項
8に記載の符号化方法。
【請求項11】
前記符号化するステップにおいて、現フレームで選択された前記共通の符号化モードが、過去のフレームで選択された前記共通の符号化モード、現フレームの前記第1のパラメータに基づいて判定される符号化モードと異なり、かつ、現フレームの前記第2のパラメータに基づいて判定される符号化モードの何れかと同一である場合、現フレームの前記共通の符号化モードを再選択する、
請求項
8に記載の符号化方法。
【請求項12】
前記符号化するステップにおいて、現フレームの前記重み付けパラメータと、過去フレームの前記重み付けパラメータとを用いてスムージング処理を行い、前記スムージング処理後の重み付けパラメータに基づいて前記共通の符号化モードを再選択する、
請求項
11に記載の符号化方法。
【請求項13】
前記符号化するステップにおいて、更に、前記チャネル間相関が、前記閾値よりも大きい第2の閾値よりも大きい場合、前記左チャネル信号及び前記右チャネル信号に対して、Mid/Sideステレオ符号化を行う、
請求項
8に記載の符号化方法。
【請求項14】
前記算出するステップにおいて、前記左チャネル信号及び前記右チャネル信号のうち、一部の帯域の周波数スペクトルパラメータを用いて、前記チャネル間相関を算出する、
請求項
8に記載の符号化方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、符号化装置及び符号化方法に関する。
【背景技術】
【0002】
近年、3GPP(3rd Generation Partnership Project)において、EVS(Enhanced Voice Services)コーデックが標準化された(例えば、非特許文献1を参照)。EVSコーデックは、モノラル音声音響信号を符号化するために設計されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】3GPP TS 26.445 V14.0.0, "Codec for Enhanced Voice services (EVS); Detailed algorithmic description (Release 14)", 2017-03
【文献】J.D.Johnston, A.J.Ferreira, “SUM-DIFFERENCE STEREO TRANSFORM CODING,” proc. IEEE ICASSP1992, pp.II-560 - II-572, 1992
【文献】E.Schuijers, W.Oomen, B.Brinker, and J. Breebaart, “Advances in Parametric Coding for High-Quality Audio”, in Preprint 5852, 114th AES convention, Amsterdam, Mar.2003.
【発明の概要】
【0004】
EVSコーデックはステレオ信号の入出力をサポートしていないが、EVSコーデックのモノラル符号化を用いて、ステレオ信号の左チャネル、右チャネルをそれぞれ処理すれば、ステレオレンダリングシステムでも利用可能である。しかしながら、EVSコーデックのように多くの符号化モードを切り替えて符号化するマルチモードモノラルコーデックを用いてステレオ信号を符号化した場合、ステレオ信号の左チャネルと右チャネルとで異なる符号化モードを用いて符号化され、ステレオ再生時の音声品質を劣化させる恐れがある。なお、ステレオ信号のLチャネル信号とRチャネル信号とに分けて別々にモノラル符号化することを、「デュアルモノ符号化」と呼ぶこともある。
【0005】
本開示の一態様は、マルチモードコーデックを用いてステレオ信号を符号化する場合でも、ステレオ再生時の音声品質の劣化を抑えることができる符号化装置及び符号化方法の提供に資する。
【0006】
本開示の一態様に係る符号化装置は、ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出する算出回路と、前記チャネル間相関が閾値より大きい場合に共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、前記チャネル間相関が前記閾値以下の場合に前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化する符号化回路と、を具備する構成を採る。
【0007】
本開示の一態様に係る符号化方法は、ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出し、前記チャネル間相関が閾値より大きい場合に共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、前記チャネル間相関が前記閾値以下の場合に前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化する。
【0008】
なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
【0009】
本開示の一態様によれば、マルチモードコーデックを用いてステレオ信号を符号化する場合でも、ステレオ再生時の音声品質の劣化を抑えることができる。
【0010】
本開示の一態様における更なる利点および効果は、明細書および図面から明らかにされる。かかる利点および/または効果は、いくつかの実施形態並びに明細書および図面に記載された特徴によってそれぞれ提供されるが、1つまたはそれ以上の同一の特徴を得るために必ずしも全てが提供される必要はない。
【図面の簡単な説明】
【0011】
【
図2】信号の分析パラメータと符号化モードとの対応関係の一例を示す図
【
図4】実施の形態1に係る符号化装置の一部の構成例を示すブロック図
【
図5】実施の形態1に係る符号化装置の構成例を示すブロック図
【
図6】実施の形態1に係る信号分析部及びDMAステレオ符号化部の構成例を示すブロック図
【
図7】実施の形態1に係る符号化モード選択処理の流れを示すフロー図
【
図8】実施の形態1の変形例に係る符号化モード選択処理の流れを示すフロー図
【
図9】実施の形態1の変形例に係る重み係数の選択処理の流れを示すフロー図
【
図10】実施の形態1の変形例に係るチャネル間エネルギ差と重み係数との対応関係の一例を示す図
【
図11】実施の形態2に係る信号分析部及びDMAステレオ符号化部の構成例を示すブロック図
【
図12】実施の形態2に係る符号化モードの判定訂正処理の流れを示すフロー図
【
図13】実施の形態3に係る符号化装置の構成例を示すブロック図
【
図14】実施の形態3に係るチャネル間相関値の範囲と符号化モードとの対応関係の一例を示す図
【
図15】実施の形態4に係る信号分析部及びチャネル間相関算出部の構成例を示すブロック図
【
図16】実施の形態4に係る信号分析部及びチャネル間相関算出部の動作例を示す図
【
図17】実施の形態4の変形例2に係る信号分析部及びチャネル間相関算出部の構成例を示すブロック図
【発明を実施するための形態】
【0012】
以下、本開示の実施の形態について図面を参照して詳細に説明する。
【0013】
まず、マルチモードモノラル符号化システムの一例として,3GPP EVS符号化システムについて概説する(例えば、非特許文献1を参照)。
【0014】
EVSコーデックでは、非特許文献1に記載されているように、複数の符号化技術(符号化モード)が採用されている(例えば、
図1を参照)。EVSコーデックに採用された複数の符号化技術は、基本的に、以下の二つの原理に基づく。一つは線形予測(Linear Prediction:LP)ベースのアプローチであり、もう一つは周波数領域アプローチである。線形予測ベースの符号化では、CELP(Code Excited Linear Prediction)符号化技術に基づいて各ビットレート専用に最適化された符号化モード(例えば、ACELP(Algebraic CELP)等)が用いられる。また、周波数領域アプローチでは、HQ MDCT(High Quality Modified Discrete Cosine Transform)技術又はTCX(Transformed Code Excitation)技術などが採用されている。
【0015】
EVSコーデックでは、入力された音声・音響信号に応じて、例えば、ACELP、HQ MDCT及びTCXの中から最も適した符号化モードが選択される。各符号化モードは各種信号を効率的に符号化できるように設計、調整されている。EVSコーデックでの符号化モード選択は、例えば、ビットレート、オーディオ信号の帯域幅、音声/音楽分類、選択された符号化モード、又はその他のパラメータ(特徴量)に基づいて行われる。
図2は、一例として、ビットレート([kbps])、帯域幅(SWB(super wideband)、FB(fullband))、入力信号の種類(speech/audio)を示すパラメータと、各パラメータに応じて選択される符号化モード(ACELP、GSC、TCX、HQ MDCT)との対応関係を示す。
【0016】
上述したように、EVSコーデックはモノラルコーデックだが、モノラルコーデックを用いてステレオ信号の各チャネルをそれぞれ処理すれば、ステレオレンダリングシステムでも利用可能である。
図3は、一例として、ステレオ信号の各チャネル(左チャネル、右チャネル)の各々に対してモノラルコーデックを用いて処理するデュアルモノ符号化(dual mono encoder)の構成例を示す。
【0017】
図3に示すように、ステレオ信号の左チャネル信号(以下、「L信号」と呼ぶ)及び右チャネル信号(以下、「R信号」と呼ぶ)は、モノラルコーデックによって個別に符号化される。この場合、ステレオ信号の左チャネルと右チャネルとで異なる符号化モードが選択され、符号化されることがある。具体的には、L信号及びR信号の特徴は、チャネル間の信号類似度によって変わってくるため、両方のチャネル信号がEVSコーデックのようなマルチモードコーデックで別々に処理された場合、両方のチャネルで異なる符号化モードがそれぞれ選択される場合が発生する。両方のチャネルで異なる符号化モードが選択されると、復号信号の主観品質が劣化し、ステレオ再生時に異音及び/又は歪となって聞こえたり、ステレオ定位感が乱れたりする原因となる場合がある。
【0018】
そこで、本開示の各実施の形態では、多くの符号化モードを切り替えて符号化処理を行うマルチモードコーデックによりステレオ信号の両方のチャネル信号が別々に処理される場合でも、ステレオ再生時の音声品質の劣化(異音及び/又は歪み、定位感の乱れの発生)を抑える方法について説明する。
【0019】
(実施の形態1)
[通信システムの概要]
本実施の形態に係る通信システムは、符号化装置(encoder)100及び復号装置(decoder)(図示せず)を備える。
【0020】
図4は、本実施の形態に係る符号化装置100の一部の構成を示すブロック図である。
図4に示す符号化装置100において、チャネル間相関算出部102は、ステレオ信号を構成する左チャネル信号(L信号)と右チャネル信号(R信号)を用いて、左チャネルと右チャネルとの間のチャネル間相関(相互相関係数:Correlation Coefficient)を算出する。符号化部(DMAステレオ符号化部104及びDMステレオ符号化部105)は、チャネル間相関が閾値より大きい場合に共通の符号化モードを用いて、左チャネル信号及び右チャネル信号をそれぞれ符号化し、チャネル間相関が閾値以下の場合に左チャネル信号及び右チャネル信号に対して個別に判定された符号化モードを用いて、左チャネル信号及び右チャネル信号をそれぞれ符号化する。
【0021】
[符号化装置の構成]
図5は、本実施の形態に係る符号化装置100の構成例を示すブロック図である。
図5において、符号化装置100は、信号分析部101と、チャネル間相関算出部102と、切替スイッチ103と、DMA(Dual Mono with mode alignment)ステレオ符号化部104と、DM(Dual Mono)ステレオ符号化部105と、多重化部106と、を含む構成を採る。
【0022】
図5において、信号分析部101、チャネル間相関算出部102及び切替スイッチ103には、ステレオ信号を構成するL信号(Left channel)、及び、R信号(Right channel)が入力される。
【0023】
信号分析部101は、入力されるL信号及びR信号に対して信号分析を行い、左チャネル及び右チャネルについて符号化モードの判定に必要なパラメータ(例えば、ビットレート、帯域幅、種類などの特徴量)をそれぞれ得る。信号分析部101は、得られた分析パラメータ(parameters)を切替スイッチ103に出力する。例えば、信号分析部101では、信号分析の際、チャネル信号の周波数領域変換処理、及び、エネルギ算出処理等が行われる。
【0024】
チャネル間相関算出部102は、入力されるL信号及びR信号を用いて、例えば、次式(1)に従って、左チャネルと右チャネルとの間のチャネル間相関(相互相関係数)αを算出する。
【数1】
【0025】
式(1)において、R11及びR22は、L信号及びR信号のエネルギ(auto-correlation)を示す(例えば、R11がL信号に対応し、R22がR信号に対応)。また、R12は、L信号とR信号との間のクロススペクトルを示す。また、Framelengthはフレーム内の周波数スペクトルパラメータ(スペクトル係数)の数を示し、l(k)は、L信号におけるk番目のスペクトル係数を示し、R(k)は、R信号におけるk番目のスペクトル係数を示す。
【0026】
また、チャネル間相関算出部102は、算出した相互相関係数αに基づいて、ステレオ信号(L信号及びR信号)に対するステレオ符号化モードを判定する。
【0027】
ここで、ステレオ符号化モードには、例えば、
図3に示すように、L信号及びR信号に対して符号化モードを個別に選択して符号化するモード(以下、「デュアルモノ符号化モード」又は「DMステレオ符号化モード」と呼ぶ)、及び、後述するように、L信号及びR信号に対して共通の符号化モードを選択して符号化するモード(以下、「共通デュアルモノ符号化モード」又は「DMAステレオ符号化モード」と呼ぶ)がある。
【0028】
具体的には、チャネル間相関算出部102は、相互相関係数αが閾値以下の場合にDMステレオ符号化モードと判定し、相互相関係数αが閾値より大きい場合にDMAステレオ符号化モードと判定する。一例として、チャネル間相関算出部102は、相互相関係数αが0の場合(つまり、L信号とR信号とに相関が無い場合)にDMステレオ符号化モードと判定し、相互相関係数αが0より大きい場合(α>0)にDMAステレオ符号化モードと判定してもよい。
【0029】
チャネル間相関算出部102は、相互相関係数α、ステレオ符号化モードの判定結果であるステレオモード判定フラグ(stereo mode decision)を、切替スイッチ103に出力する。
【0030】
切替スイッチ103は、チャネル間相関算出部102から入力されるステレオモード判定フラグがDMAステレオ符号化モードである場合、入力されるL信号、R信号、信号分析部101から入力される分析パラメータ、及び、相関算出部101から入力される相互相関係数αをDMAステレオ符号化部104に出力する。一方、切替スイッチ103は、ステレオモード判定フラグがDMステレオ符号化モードである場合、L信号、R信号及び分析パラメータをDMステレオ符号化部105に出力する。
【0031】
DMAステレオ符号化部104は、相互相関係数α、及び、分析パラメータを用いて、L信号及びR信号に対する共通の符号化モードを判定(選択)する。そして、DMAステレオ符号化部104は、判定した共通の符号化モードを用いて、L信号及びR信号をそれぞれ符号化し、生成された符号化ビットストリームを多重化部106へ出力する。なお、DMAステレオ符号化部104における符号化モードの選択方法の詳細については後述する。
【0032】
DMステレオ符号化部105は、分析パラメータを用いて、L信号及びR信号に対して個別に符号化モードを判定(選択)する。そして、DMステレオ符号化部105は、判定した符号化モードを用いて、L信号及びR信号をそれぞれ符号化し、生成された符号化ビットストリームを多重化部106へ出力する(例えば、
図3を参照)。
【0033】
多重化部106は、DMAステレオ符号化部104又はDMステレオ符号化部105から入力される符号化ビットストリームを多重する。多重化されたビットストリームは、復号装置(図示せず)へ送信される。
【0034】
なお、
図5に示す符号化装置100は、切替スイッチ103と、DMAステレオ符号化部104と、DMステレオ符号化部105と、を備える代わりに、これらの構成部と同等の処理を行う符号化部を備える構成(図示せず)でもよい。すなわち、当該符号化部は、チャネル間相関算出部102からのチャネル間相関(相互相関係数α)に応じて、ステレオ符号化モード(DMAステレオ符号化又はDMステレオ符号化)を決定し、決定したステレオ符号化モードを用いてステレオ信号を構成するL信号及びR信号をそれぞれ符号化すればよい。
【0035】
[DMAステレオ符号化部104の動作]
次に、DMAステレオ符号化部104における符号化モードの選択方法の詳細について説明する。
【0036】
図6は、
図5に示す信号分離部101及びDMAステレオ符号化部104の構成を示すブロック図である。
図6において、DMAステレオ符号化部104は、適応ミキシング部141と、符号化モード選択部142と、Lch符号化部143と、Rch符号化部144と、ビットストリーム生成部145と、を含む構成を採る。
【0037】
図6に示すように、適応ミキシング部141には、信号分析部101(Lch信号分析部)においてL信号に対して信号分析を行って得られるLch分析パラメータ(Left channel parameters)が切替スイッチ103(図示せず)を介して入力される。同様に、
図6に示すように、適応ミキシング部141には、信号分析部101(Rch信号分析部)においてR信号に対して信号分析を行って得られるRch分析パラメータ(Right channel parameters)が切替スイッチ103(図示せず)を介して入力される。
【0038】
適応ミキシング部141は、チャネル間相関算出部102(
図5を参照)から入力される相互相関係数αに基づいて、信号分析部101から入力されるLch分析パラメータ及びRch分析パラメータに対してミキシング(混合)を行い、ミキシング後の分析パラメータ(Mixed channel parameters)を符号化モード選択部142に出力する。換言すると、ミキシング後の分析パラメータは、L信号及びR信号に対する符号化モードの判定のための共通のパラメータ(特徴量)を表す。
【0039】
符号化モード選択部142は、適応ミキシング部141から入力されるミキシング後の分析パラメータを用いて、L信号及びR信号の双方に共通して適用する符号化モードを選択する。符号化モード選択部142における符号化モードの選択方法は、ミキシング後の分析パラメータに応じて、例えば、
図2で説明したEVSコーデック(モノラル符号化)における選択方法と同じ方法でもよい。符号化モード選択部142は、選択した符号化モードを示す符号化モード情報(coding mode decision)をLch符号化部143及びRch符号化部144に出力する。
【0040】
Lch符号化部143は、符号化モード選択部142から入力される符号化モード情報に示される符号化モードを用いてL信号を符号化し、生成される符号化ビットストリームを、ビットストリーム生成部145へ出力する。
【0041】
Rch符号化部144は、符号化モード選択部142から入力される符号化モード情報に示される符号化モードを用いてR信号を符号化し、生成される符号化ビットストリームを、ビットストリーム生成部145へ出力する。
【0042】
ビットストリーム生成部145は、Lch符号化部143から入力される符号化ビットストリーム、及び、Rch符号化部144から入力される符号化ビットストリームを用いてステレオ符号化ビットストリームを生成し、多重化部106(
図5を参照)へ出力する。
【0043】
図7は、本実施の形態に係るDMAステレオ符号化モードにおける符号化モードの選択処理の主な流れを示すフロー図である。
【0044】
信号分析部101(Lch信号分析部及びRch信号分析部)は、L信号(左チャネル)及びR信号(右チャネル)のエネルギを算出する(ST101)。次に、適応ミキシング部141は、ST101で算出された各チャネルのエネルギを用いて、チャネル間エネルギ差Δを算出する(ST102)。
【0045】
そして、適応ミキシング部141は、L信号(左チャネル)及びR信号(右チャネル)について、主要チャネル(dominant channel)と非主要チャネル(non-dominant channel)とを特定する(ST103)。
【0046】
例えば、適応ミキシング部141は、ST102で算出したチャネル間エネルギ差Δに基づいて、主要チャネル及び非主要チャネルを特定してもよい。例えば、チャネル間エネルギ差Δを次式(2)で表す。
【数2】
【0047】
ここで、式(2)においてR11を左チャネルのエネルギとし、R22を右チャネルのエネルギとする場合、適応ミキシング部141は、チャネル間エネルギ差Δの正負に応じて主要チャネル及び非主要チャネルを特定する。具体的には、適応ミキシング部141は、エネルギ差Δが正の場合(Δ>0。つまり、R11>R22)には左チャネルが主要チャネルであり、右チャネルが非主要チャネルであると特定する。一方、適応ミキシング部141は、エネルギ差Δが負の場合(Δ<0。つまり、R11<R22)には左チャネルが非主要チャネルであり、右チャネルが主要チャネルであると特定する。なお、主要チャネル及び非主要チャネルの特定方法は上記方法に限定されるものではない。
【0048】
次に、適応ミキシング部141は、相互相関係数αに基づいて、ST103で特定した主要チャネルの分析パラメータ及び非主要チャネルの分析パラメータに対する重み係数(ウェイト)を決定する(ST104)。そして、適応ミキシング部141は、主要チャネルの分析パラメータ及び非主要チャネルの分析パラメータに対して、ST104で決定した重み係数を用いて重み付け加算することにより、分析パラメータのミキシング(適応ミキシング)を行う(ST105)。
【0049】
例えば、適応ミキシング部141は、次式(3)に従って分析パラメータのミキシング(重み付け加算)を行い、分析パラメータ(重み付けパラメータ)M
pを求める。
【数3】
【0050】
式(3)において、D
pは主要チャネルの符号化モードを判定するための分析パラメータを示し、ND
pは非主要チャネルの符号化モードを判定するための分析パラメータを示す。また、W
1は主要チャネルの分析パラメータに対する重み係数を示し、W
2は非主要チャネルの分析パラメータに対する重み係数を示し、次式(4)で表される。
【数4】
【0051】
ただし、正規化相互相関係数(以下、単に「相互相関係数」と呼ぶ)αは、0<α<1である。
【0052】
すなわち、重み係数W1の最小値は0.6となり、重み係数W2の最大値は0.4となる。これより、左チャネルと右チャネルとの間の相互相関係数αに依らず、重み係数W1は、重み係数W2より大きくなり、重み係数W1>重み係数W2の関係となる。
【0053】
つまり、適応ミキシング部141は、非主要チャネルの分析パラメータと比較して、主要チャネルの分析パラメータの重み係数を大きくして、分析パラメータMpを求める。これにより、重み付け加算によって得られる分析パラメータMpは、主要チャネルの分析パラメータがより強調された値となる。
【0054】
また、左チャネルと右チャネルとの間のチャネル間相関を示す相互相関係数αが小さいほど、主要チャネルの分析パラメータに対する重み係数W1は大きくなり、非主要チャネルの分析パラメータに対する重み係数W2は小さくなる。
【0055】
すなわち、式(4)に示す例では、常に主要チャネル側に大きな重み付けがなされることを保証しつつ、チャネル間相関(相互相関係数α)が高くなると、両チャネルの重み付けが均等に近づく。つまり、チャネル間相関が高い場合、両チャネルで算出される分析パラメータが類似するので、主要チャネルを特に強調する必要がないので、両チャネルの重み付けが均等に近づくような重み付けがなされる。一方、チャネル間相関が低い場合、両チャネルで算出される分析パラメータの差も大きくなる可能性が高いため、主要チャネルから求められる分析パラメータをより優先(強調)する重み付けがなされる。
【0056】
このように、適応ミキシング部141は、チャネル間相関(相互相関係数α)に応じて、主要チャネルと非主要チャネルとの間の重み付けを調整して、分析パラメータをミキシングする。
【0057】
一例として、相互相関係数α=0.7の場合について説明する。この場合、重み係数W
1及び重み係数W
2は、次式(5)のように求められる。
【数5】
【0058】
また、適応ミキシング部141は、分析パラメータがn次元である場合、次式(6)に示すようにミキシング後の分析パラメータM
pを求めてもよい。
【数6】
【0059】
式(6)において、ParaDTCX-HQは主要チャネルの分析パラメータを示し、ParaNDTCX-HQは非主要チャネルの分析パラメータを示す。
【0060】
最後に、符号化モード選択部142は、ST105で求められた分析パラメータM
pを用いて、L信号及びR信号の双方に共通の符号化モードを選択する(ST106)。符号化モード選択部142における符号化モードの選択方法は、
図2で説明したEVSコーデック(モノラル符号化)における選択方法と同じ方法でもよい。
【0061】
このように、本実施の形態では、符号化装置100は、ステレオ信号のチャネル間相関がある場合、各チャネル信号の符号化に用いる符号化モードを共通化する。こうすることで、ステレオ信号の両方のチャネルで異なる符号化モードが選択された場合に復号信号の主観品質が劣化してしまうような状況でも、符号化装置100は、ステレオ信号の両方のチャネルに対して共通の符号化モードを用いて符号化することで、復号信号の主観品質が劣化することを防止することができる。よって、本実施の形態によれば、複数の符号化モードを切り替えて符号化処理を行うマルチモードモノラルコーデックを用いてステレオ信号を符号化する場合でも、ステレオ再生時の音声品質の劣化を抑えることができる。
【0062】
また、符号化装置100は、共通の符号化モードを選択する際に、主要チャネル及び非主要チャネルを特定し、相互相関係数αに応じて、主要チャネルの分析パラメータを強調して、双方の分析パラメータをミキシングする。すなわち、本実施の形態によれば、符号化装置100は、双方のチャネルのチャネル間相関に応じて分析パラメータの強調度合いを調整することにより、共通の符号化モードを適切に選択することができる。
【0063】
一方、符号化装置100は、ステレオ信号のチャネル間相関が無い場合、各チャネル信号の符号化に用いる符号化モードを個別に選択する。これにより、ステレオ信号の各チャネルで最適な符号化モードがそれぞれ選択される。
【0064】
以上より、本実施の形態によれば、符号化装置100は、ステレオ信号の両方のチャネルのチャネル間相関に応じて、各チャネルに対して適切な符号化モードを選択することができるので、音声品質を改善することができる。
【0065】
[実施の形態1の変形例1]
実施の形態1では、符号化装置100が相互相関係数αに基づいて各チャネルの分析パラメータに対する重み係数を決定する場合について説明したが、重み係数の決定方法はこれに限定されるものではない。変形例1では、一例として、相互相関係数αの代わりに、チャネル間エネルギ差に基づいて重み係数を決定する方法について説明する。
【0066】
図8は、本実施の形態に係るDMAステレオ符号化部104の主な処理の流れを示すフロー図である。なお、
図8において、
図7と同様の処理については同一符号を付し、その説明を省略する。
【0067】
具体的には、
図8に示すST104aにおいて、適応ミキシング部141(
図6を参照)は、ST102で算出したチャネル間エネルギ差Δに基づいて、ST103で特定した主要チャネルの分析パラメータ及び非主要チャネルの分析パラメータに対する重み係数(ウェイト)を決定する。
【0068】
具体的には、適応ミキシング部141は、チャネル間エネルギ差Δが大きいほど、主要チャネルの分析パラメータに対する重み係数W1を大きくし、非主要チャネルの分析パラメータに対する重み係数W2を小さくする。つまり、適応ミキシング部141は、チャネル間エネルギ差Δが大きいほど、主要チャネルを優先(強調)するような重み付けを行う。
【0069】
図9は、適応ミキシング部141における重み係数を決定する処理(
図8のST104a)の一例を示すフロー図である。また、
図10は、チャネル間エネルギ差Δと重み係数(W
1、W
2)との対応関係の一例を示す図である。
【0070】
適応ミキシング部141は、チャネル間エネルギ差Δが小さいか否か(例えば、Δ≦閾値thr
Lであるか否か)を判断する(ST141)。チャネル間エネルギ差Δが小さい場合(ST141:Yes)、適応ミキシング部141は、チャネル間エネルギ差Δが小さい場合(Δ:Low level)に対応する重み係数(
図10では、(W
1=0.6、W
2=0.4)を選択する(ST142)。
【0071】
また、適応ミキシング部141は、チャネル間エネルギ差Δが中間レベルであるか否か(例えば、閾値thr
L<Δ≦thr
Mであるか否か)を判断する(ST143)。チャネル間エネルギ差Δが中間レベルである場合(ST143:Yes)、適応ミキシング部141は、チャネル間エネルギ差Δが中間レベルである場合(Δ:Moderate level)に対応する重み係数(
図10では、(W
1=0.7、W
2=0.3)を選択する(ST144)。
【0072】
また、適応ミキシング部141は、チャネル間エネルギ差Δが大きいか否か(例えば、Δ>thr
Mであるか否か)を判断する(ST145)。チャネル間エネルギ差Δが大きい場合(ST145:Yes)、適応ミキシング部141は、チャネル間エネルギ差Δが大きい場合(Δ:High level)に対応する重み係数(
図10では、(W
1=0.8、W
2=0.2)を選択する(ST146)。
【0073】
チャネル間エネルギ差Δが大きいほど、ステレオ信号における主要チャネルの影響は、非主要チャネルに対して大きくなる可能性が高い。このため、
図10に示す例では、式(4)と同様、常に主要チャネル側に大きな重み付けがなされることを保証しつつ、チャネル間エネルギ差Δが大きいほど、主要チャネルから求められる分析パラメータをより優先(強調)する重み付けがなされる。
【0074】
このように、変形例1では、適応ミキシング部141は、チャネル間エネルギ差Δに応じて、主要チャネルと非主要チャネルとの間の分析パラメータに対する重み付けを調整して、分析パラメータをミキシングする。
【0075】
このように、符号化装置100は、ステレオ信号における主要チャネルと非主要チャネルとのエネルギ差に応じて、分析パラメータのミキシングにおける、主要チャネルの分析パラメータの強調度合いを変更する。これにより、符号化装置100は、チャネル間エネルギ差が大きい場合には、主要チャネルをより強調した分析パラメータを用いて共通の符号化モードを選択することができる。また、符号化装置100は、チャネル間エネルギ差が小さい場合には、非主要チャネルがより反映された分析パラメータを用いて共通の符号化モードを選択することができる。通常、信号分析は、エネルギで正規化してから行われることが多い。そのような場合には分析パラメータがエネルギの大小を反映しなくなる。このため、エネルギ差に応じて主要チャネルのパラメータを強調することは、分析パラメータの領域でミキシングする場合に意味のあることである。
【0076】
[実施の形態1の変形例2]
実施の形態1の説明で用いた値(例えば、式(4)に示すW
1の最小値:0.6、
図10に示す重み係数等)は、一例であり、他の数値でもよい。
【0077】
また、式(4)では、相互相関係数αに基づいて重み係数を求める一例を示しているが、これに限定されず、例えば、チャネル間相関(相互相関係数α)及びチャネル間エネルギ差Δの双方に基づいて重み係数を決定してもよい。
【0078】
具体的には、適応ミキシング部141は、次式(7)に従って重み係数を算出してもよい。
【数7】
【0079】
ここで、βは、チャネル間エネルギ差Δに基づいて設定される値である。例えば、
図10におけるチャネル間エネルギ差Δと重み係数W
1との対応関係と同様にして、チャネル間エネルギ差Δが大きいほど、βの値が大きくなってもよい。これにより、チャネル間エネルギ差Δが大きいほど、主要チャネルの分析パラメータに対する重み係数W
1(最小値β)が大きくなる。
【0080】
よって、適応ミキシング部141は、チャネル間相関によるチャネル間の信号類似度、及び、チャネル間エネルギ差の双方に応じて、主要チャネル及び非主要チャネルの強調度合い(優先度)を調整して、分析パラメータをミキシングすることができる。
【0081】
(実施の形態2)
符号化モードの判定結果(選択結果)がフレーム間で頻繁に切り替わると、復号信号の主観品質の劣化につながることがある。そこで、本実施の形態では、フレーム間での符号化モードの判定結果が頻繁に切り替わることを抑える方法について説明する。
【0082】
[符号化装置の構成]
本実施の形態に係る符号化装置は、実施の形態1に係る符号化装置100と基本構成が共通するので、
図5を援用して説明する。ただし、本実施の形態では、符号化装置100は、
図5に示すDMAステレオ符号化部104の代わりに、
図11に示すDMAステレオ符号化部150を備える。
【0083】
図11は、本実施の形態に係るDMAステレオ符号化部150の構成例を示すブロック図である。
【0084】
なお、
図11において、実施の形態1(
図6)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、
図11に示すDMAステレオ符号化部150は、実施の形態1の構成(
図6)と比較して、判定訂正部151を新たに備える。
【0085】
また、本実施の形態では、信号分析部101(Lch信号分析部)は、実施の形態1の動作に加え、Lch分析パラメータに基づいて判定される符号化モード(例えば、
図2を参照)を示すLch符号化モード判定結果(Left channel coding mode decision)を判定訂正部151に出力する。同様に、信号分析部101(Rch信号分析部)は、実施の形態1の動作に加え、Rch分析パラメータに基づいて判定される符号化モード(例えば、
図2を参照)を示すRch符号化モード判定結果(Right channel coding mode decision)を判定訂正部151に出力する。
【0086】
DMAステレオ符号化部150において、判定訂正部151は、過去のフレームにおいて適用された符号化モード、及び、信号分析部101から入力されるLch符号化モード判定結果、Rch符号化モード判定結果に基づいて、符号化モード選択部142から入力される符号化モード判定結果を訂正するか否かを判断する。
【0087】
なお、ここでは、判定訂正部151に入力される符号化モードを「decision 1」と呼び、判定訂正部151から出力される符号化モードを「decision 2」と呼ぶ。
【0088】
判定訂正部151は、符号化モード判定結果の訂正が不要と判断した場合、符号化モード判定結果を訂正せずにLch符号化部143及びRch符号化部144にそれぞれ出力する。一方、符号化モード判定結果の訂正が必要と判断した場合、符号化モード判定結果を訂正し、訂正後の符号化モード判定結果をLch符号化部143及びRch符号化部144にそれぞれ出力する。
【0089】
図12は、判定訂正部151における符号化モードの判定訂正処理の流れの一例を示すフロー図である。
【0090】
図12において、判定訂正部151は、符号化モード選択部142における現フレームの符号化モード判定結果(decision 1)が過去フレーム(例えば、1つ前のフレーム)において適用された符号化モードと同一であるか否かを判断する(ST151)。
【0091】
符号化モード判定結果(decision 1)が過去フレームの符号化モードと同一である場合(ST151:Yes)、判定訂正部151は、符号化モード判定結果(decision 1)に対する訂正処理を行わずに処理を終了する(ST152)。
【0092】
一方、符号化モード判定結果(decision 1)が過去フレームの符号化モードと同一ではない場合(ST151:No)、判定訂正部151は、過去フレーム(例えば、1つ前のフレーム)で用いられた符号化モードが、現フレームのLch符号化モード判定結果又は現フレームのRch符号化モード判定結果と同一であるか否かを判断する(ST153)。
【0093】
ST153において,過去フレームで用いられた符号化モードが、現フレームのLch符号化モード判定結果又は現フレームのRch符号化モード判定結果と同一でない場合(ST153:No)、判定訂正部151は、符号化モード判定結果(decision 1)に対する訂正処理を行わずに処理を終了する(ST152)。
【0094】
一方、過去フレームの符号化モードが、現フレームのLch符号化モード判定結果又は現フレームのRch符号化モード判定結果と同一である場合(ST153:Yes)、判定訂正部151は、現フレームの符号化モード判定結果及び過去フレームの符号化モードを用いて符号化モード判定結果(decision 1)の訂正処理(スムージング処理)を行う(ST154)。
【0095】
すなわち、判定訂正部151は、現フレームで選択された共通の符号化モード(decision1)が、過去のフレームで選択された共通の符号化モードと異なり、かつ、過去のフレームで選択された共通の符号化モードが、現フレームのLch符号化モード判定結果か現フレームのRch符号化モード判定結果のいずれかと同じ場合に、現フレームの共通の符号化モードを再選択(訂正)する。
【0096】
例えば、判定訂正部151は、次式(8)に従って、decision 1の判定処理において用いた分析パラメータM
pを修正する。
【数8】
【0097】
式(8)において、Mp
[-1]は1つ前のフレーム(過去フレーム)における分析パラメータMpを示し、Wは平滑化係数を示し、例えば、W=0.8としてもよい。なお、平滑化係数Wの値は0.8に限定されるものではない。また、スムージング処理において対象とする過去フレームは、式(8)に示すように1つ前のフレームに限らず、過去の複数フレームを対象としてもよい。
【0098】
スムージング処理後に、判定訂正部151は、修正後の分析パラメータMpを用いて、符号化モードの再選択(再判定)を行う(ST155)。なお、符号化モードの再選択時における符号化モードの選択方法は、符号化モード選択部142における選択方法と同様でもよい。
【0099】
このように、分析パラメータMpは、1つ前のフレーム及び現フレームに渡って平滑化される。また、式(8)に示すように、平滑化係数Wが大きいほど、修正後の分析パラメータMpは、過去フレームの分析パラメータMp
[-1]により影響を受ける。すなわち、平滑化係数Wが大きいほど、修正後の分析パラメータMpに基づく符号化モードの再選択において、過去フレームで用いられた符号化モードが選択されやすくなる。
【0100】
これにより、本実施の形態では、符号化モードの判定結果(選択結果)がフレーム間で頻繁に切り替わることを防止し、復号信号の主観品質の劣化を抑えることができる。
【0101】
(実施の形態3)
[符号化装置の構成]
図13は、本実施の形態に係る符号化装置200の構成を示すブロック図である。
【0102】
なお、
図13において、実施の形態1(
図5)と同様の構成には同様の符号を付し、その説明を省略する。具体的には、
図13に示す符号化装置200は、実施の形態1の構成(
図5)に対して、DM-M/S(Mid/Side)変換部202、及び、M/Sステレオ符号化部204を新たに備える。
【0103】
符号化装置200において、チャネル間相関算出部201は、算出したチャネル間相関(相互相関係数α)に基づいて、DMステレオ符号化及びDMAステレオ符号化に加え、M/Sステレオ符号化の中から、1つのステレオ符号化モードを選択する。チャネル相関算出部201は、選択した結果を示すステレオモード判定フラグを、DM-M/S変換部202、切替スイッチ203及び多重化部106に出力する。
【0104】
例えば、
図14に示すように、チャネル間相関算出部201は、相互相関係数αが0の場合にDMステレオ符号化モードと判定し、相互相関係数αが0より大きく、0.6以下の場合にDMAステレオ符号化モードと判定し、相互相関係数αが0.6より大きい場合にM/Sステレオ符号化モードと判定してもよい。
【0105】
すなわち、チャネル間相関が高い場合(α:High。ここでは、0.6<αの範囲)にはM/Sステレオ符号化が選択され、チャネル間相関が低い場合(α=0)にはDMステレオ符号化が選択され、チャネル間相関が上記範囲の何れにも該当しない場合(α:Weak。ここでは、0<α≦0.6)にはDMAステレオ符号化が選択される。
【0106】
なお、
図14に示す相互相関係数αの範囲は一例であり、これに限定されるものではない。
【0107】
DM-M/S変換部202は、チャネル間相関算出部201から入力されるステレオモード判定フラグがM/Sステレオ符号化である場合には、L/R信号を後述するようにM/S信号に変換し、信号分析部101及び切替スイッチ203に出力する。DM-M/S変換部202は、ステレオモード判定フラグがDMステレオ符号化モード又はDMAステレオ符号化モードの場合には、L/R信号をそのまま信号分析部101及び切替スイッチ203に出力する。
【0108】
切替スイッチ203は、実施の形態1(切替スイッチ103)の動作に加え、チャネル間相関算出部201から入力されるステレオモード判定フラグがM/Sステレオ符号化モードである場合、入力されるL信号、R信号、及び分析パラメータをM/Sステレオ符号化部204に出力する。
【0109】
M/Sステレオ符号化部204は、切替スイッチ203から入力されるL/Rの和信号、L/Rの差信号、及びそれぞれに対する分析パラメータを用いて、M/Sステレオ符号化を行う。M/Sステレオ符号化を行う場合には、DM-M/S変換部202において、ステレオ信号のL信号及びR信号が、双方のチャネルの和(sum)であるMidチャネルと、双方のチャネルの差(difference)であるSideチャネルとに変換されている。なお、M/Sステレオ符号化の詳細については、例えば、非特許文献2に記載された方法を用いてもよい。
【0110】
チャネル間相関が高い場合には、M/Sステレオ符号化は、ステレオ符号化と比較して、より効率的な符号化である。具体的には、チャネル間相関が高い場合には、双方のチャネルの差であるSideチャネルがゼロに近い値となるので、符号化情報の情報量を削減することができる。一方、チャネル間相関が低い場合には、M/Sステレオ符号化と比較して、デュアルモノ符号化によって符号化情報の情報量を削減することができる。また、チャネル間相関が高い場合には、音源が一つの点音源(例:一人の人が話しているようなケース)である可能性が高い。このような場合は、モノラル化した信号(Midチャネル信号)及びSideチャネル信号を用いてL/Rに振り分けるようにしたほうが安定したステレオ定位感が得られる。
【0111】
また、M/Sステレオ符号化では、上述したように、双方のチャネルの和及び差を符号化情報として生成するため、復号側(図示せず)では、フレーム毎の符号化情報(和及び差)に基づいて復号信号を復号する。つまり、和信号であるMidチャネル信号と差信号であるSideチャネル信号との和がRチャネル信号となり、和信号(Midチャネル信号)と差信号(Sideチャネル信号)との差がLチャネル信号となる。つまり、Midチャネル信号とSideチャネル信号の符号化モードが異なっていても、双方の信号がLチャネルとRチャネルの双方に反映されるため、符号化モードを必ずしも統一する必要がない。すなわち、M/Sステレオ符号化を用いれば、チャネル間で符号化モードが異なることによる、復号信号の主観品質の劣化を抑えることができる。
【0112】
このように、符号化装置200は、チャネル間相関(相互相関係数α)に応じて、デュアルモノ符号化(DMAステレオ符号化又はDMステレオ符号化)及びM/Sステレオ符号化を切り替える。こうすることで、符号化装置200は、チャネル間相関に応じて、適切な符号化モードを選択して、ステレオ信号を符号化することができるので、復号信号の主観品質を改善することができ、さらに、符号化情報を削減することができる。
【0113】
(実施の形態4)
本実施の形態では、チャネル間相関(相互相関係数α)を効率的に求める方法について説明する。
【0114】
本実施の形態に係る符号化装置は、実施の形態1に係る符号化装置100と基本構成が共通するので、
図5を援用して説明する。ただし、本実施の形態では、符号化装置100は、
図5に示すチャネル間相関算出部102の代わりに、
図15に示すチャネル間相関算出部301を備える。
【0115】
実施の形態1で説明した式(1)に示す相互相関係数αは、次式(9)で表される。
【数9】
【0116】
すなわち、式(9)に示すように、相互相関係数αは、クロススペクトル成分(分子項の「Cross-Spectrum」)と、左チャネル及び右チャネルのエネルギ成分(分母項の「Left Channel Energy」及び「Right Channel Energy」)とに分けることができる。
【0117】
本実施の形態では、相互相関係数αの演算の際に、左チャネル及び右チャネルの全ての周波数スペクトルパラメータ(スペクトル係数)を用いるのではなく、一部の帯域の周波数スペクトルパラメータを用いることにより、相互相関係数αの演算量を削減する。
【0118】
図15は、本実施の形態に係る信号分析部101及びチャネル間相関算出部301の構成例を示すブロック図である。
【0119】
信号分析部101は、Lch周波数領域変換部111と、Lchスペクトルバンドエネルギ算出部112と、Rch周波数領域変換部113と、Rchスペクトルバンドエネルギ算出部114と、を含む構成を採る。
【0120】
また、チャネル間相関算出部301は、エネルギ閾値算出部311と、主要帯域特定部312と、Lch主要帯域エネルギ算出部313と、Lch主要帯域スペクトル取得部314と、Rch主要帯域エネルギ算出部315と、Rch主要帯域スペクトル取得部316と、クロススペクトル算出部317と、相関演算部318と、を含む構成を採る。
【0121】
信号分析部101において、Lch周波数領域変換部111は、入力されるL信号を周波数領域変換し、Lch周波数スペクトルパラメータをLchスペクトルバンドエネルギ算出部112及びLch主要帯域スペクトル取得部314に出力する。
【0122】
Lchスペクトルバンドエネルギ算出部112は、Lch周波数領域変換部111から入力されるLch周波数スペクトルパラメータを複数のスペクトルバンドにグループ化し、各スペクトルバンドのエネルギを算出する。Lchスペクトルバンドエネルギ算出部112は、算出したLchバンドエネルギをエネルギ閾値算出部311、主要帯域特定部312及びLch主要帯域エネルギ算出部313に出力する。
【0123】
Rch周波数領域変換部113は、入力されるR信号を周波数領域変換し、Rch周波数スペクトルパラメータをRchスペクトルバンドエネルギ算出部114及びRch主要帯域スペクトル取得部316に出力する。
【0124】
Rchスペクトルバンドエネルギ算出部114は、Rch周波数領域変換部113から入力されるRch周波数スペクトルパラメータを複数のスペクトルバンドにグループ化し、各スペクトルバンドのエネルギを算出する。Rchスペクトルバンドエネルギ算出部114は、算出したRchバンドエネルギをエネルギ閾値算出部311、主要帯域特定部312及びRch主要帯域エネルギ算出部315に出力する。
【0125】
なお、
図15に示す信号分析部101における周波数領域変換及びスペクトルバンドエネルギ算出は、本チャネル間相関算出部の適用先であるコーデックにおいて行われる処理であるものとする。この場合、
図15に示す信号分析部101の各構成部は、本実施の形態に係るチャネル間相関算出のために新たに備えられる構成ではない。つまり、信号分析部101の処理量は増加しない。
【0126】
次に、チャネル間相関算出部301において、エネルギ閾値算出部311は、Lchスペクトルバンドエネルギ算出部112から入力されるLchバンドエネルギ、及び、Rchスペクトルバンドエネルギ算出部114から入力されるRchバンドエネルギを用いて、Lchエネルギ閾値、及び、Rchエネルギ閾値をそれぞれ算出する。エネルギ閾値算出部311は、算出したLch/Rchエネルギ閾値を主要帯域特定部312に出力する。
【0127】
主要帯域特定部312は、Lchスペクトルバンドエネルギ算出部112から入力されるLchバンドエネルギのうち、エネルギ閾値算出部311から入力されるLchエネルギ閾値より大きいエネルギを有するスペクトルバンドを、Lch主要帯域として特定する。同様に、主要帯域特定部312は、Rchスペクトルバンドエネルギ算出部114から入力されるRchバンドエネルギのうち、エネルギ閾値算出部311から入力されるRchエネルギ閾値より大きいエネルギを有するスペクトルバンドを、Rch主要帯域として特定する。主要帯域特定部312は、特定したLch主要帯域とRch主要帯域の総和、すなわちLch主要帯域またはRch主要帯域のいずれかに該当する帯域を「主要帯域」として、Lch主要帯域エネルギ算出部313及びLch主要帯域スペクトル取得部314及びRch主要帯域エネルギ算出部315及びRch主要帯域スペクトル取得部316に出力する。
【0128】
Lch主要帯域エネルギ算出部313は、Lchスペクトルバンドエネルギ算出部112から入力されるLchバンドエネルギのうち、主要帯域特定部312から入力される主要帯域に対応するバンドエネルギの総和を算出し、Lch主要帯域エネルギとして相関演算部318に出力する。
【0129】
Lch主要帯域スペクトル取得部314は、Lch周波数領域変換部111から入力されるLch周波数スペクトルパラメータのうち、主要帯域特定部312から入力される主要帯域に対応するLch周波数スペクトルパラメータを取り出し、Lch主要帯域スペクトルとしてクロススペクトル算出部317に出力する。
【0130】
Rch主要帯域エネルギ算出部315は、Rchスペクトルバンドエネルギ算出部114から入力されるRchバンドエネルギのうち、主要帯域特定部312から入力される主要帯域に対応するバンドエネルギの総和を算出し、Rch主要帯域エネルギとして相関演算部318に出力する。
【0131】
Rch主要帯域スペクトル取得部316は、Rch周波数領域変換部113から入力されるRch周波数スペクトルパラメータのうち、主要帯域特定部312から入力される主要帯域に対応するRch周波数スペクトルパラメータを取り出し、Rch主要帯域スペクトルとしてクロススペクトル算出部317に出力する。
【0132】
クロススペクトル算出部317は、Lch主要帯域スペクトル取得部314から入力されるLch主要帯域スペクトル、及び、Rch主要帯域スペクトル取得部316から入力されるRch主要帯域スペクトルを用いて、クロススペクトル(式(9)の分子項)を算出する。クロススペクトル算出部317は、算出したクロススペクトルを相関演算部318に出力する。
【0133】
相関演算部318は、Lch主要帯域エネルギ算出部313から入力されるLch主要帯域エネルギ、及び、Rch主要帯域エネルギ算出部315から入力されるRch主要帯域エネルギを用いて、左チャネル及び右チャネルのエネルギ(式(9)の分母項)を算出する。そして、相関演算部318は、算出したエネルギ(式(9)の分母項)と、クロススペクトル算出部317から入力されるクロススペクトル(式(9)の分子項)とを用いて、チャネル間相関(式(9)の相互相関係数α)を算出する。
【0134】
図16は、チャネル間相関の算出処理に関する、信号分析部101及びチャネル間相関算出部301におけるL信号に対する処理の一例を示す。
【0135】
図16に示すように、Lchスペクトルバンドエネルギ算出部112は、Lch周波数スペクトルパラメータlを、N
bands個のバンドにグループ化し、バンドk
b(k
b=0~(N
bands-1))のLchバンドエネルギLband
end(k
b)を算出する。
【0136】
エネルギ閾値算出部311は、LchバンドエネルギLbandend(kb)を用いてLchエネルギ閾値l-を算出する。例えば、エネルギ閾値算出部311は、LchバンドエネルギLbandend(kb)の平均値、又は、非特許文献1に記載されたように、LchバンドエネルギLbandend(kb)の平均値及び標準偏差を用いて定義してもよい。
【0137】
例えば、バンドエネルギの平均Avg
eneと標準偏差σ
bandeneとを用いる場合、エネルギ閾値thrは次式(10)で表される。
【数10】
【0138】
また、バンドエネルギの平均Avg
eneは次式(11)で表される。
【数11】
【0139】
次に、主要帯域特定部312は、バンドk
b(k
b=0~(N
bands-1))のうち、LchバンドエネルギLband
end(k
b)がLchエネルギ閾値l
-より大きいバンドを主要帯域として特定する。
図16では、一例として、バンドk
b(k
b=0~(N
bands-1))のうち、k
b=0,1,2,5,6,7が主要帯域l
idxとして特定されている。
【0140】
次に、Lch主要帯域エネルギ算出部313は、主要帯域l
idxのバンドエネルギの総和をLchエネルギ(Left channel energy)として算出する。なお、LchバンドエネルギLband
end(k
b)は信号分析部101で既に算出されているので、主要帯域エネルギ算出部313は、
図16に示すように、全バンドk
bのエネルギの総和をLchエネルギとして算出してもよい。
【0141】
Lch主要帯域スペクトル取得部314は、Lch周波数スペクトルパラメータlのうち、Lch主要帯域lidxに含まれるLch周波数スペクトルパラメータL(lidx)を取得する。
【0142】
以上、Lchに対する処理について説明したが、信号分析部101及びチャネル間相関算出部301におけるR信号に対する処理についても
図16と同様に行えばよい(図示せず)。これにより、R信号に対して、Rchエネルギ(Right channel energy)、及び、Rch主要帯域r
idxに含まれるRch周波数スペクトルパラメータR(r
idx)が得られる。
【0143】
そして、クロススペクトル算出部317は、
図16に示すように、Lch主要帯域のLch周波数スペクトルパラメータL(l
idx)、及び、Rch主要帯域のRch周波数スペクトルパラメータR(r
idx)を用いてクロススペクトル(Cross-Spectrum)を算出する。
【0144】
ここで、idxlenは、主要帯域のバンド数(例えば、
図16の例ではidxlen=6)を示し、kは主要帯域内のスペクトルバンドのインデックス(例えば、
図16の例では、k
b=0,1,2,5,6,7に対してk=1~6)を示す。
【0145】
最後に、相関演算部318は、Lchエネルギ(Left channel energy)、Rchエネルギ(Right channel energy)及びクロススペクトル(Cross-Spectrum)を用いて、式(9)に従ってチャネル間相関(α)を算出する。
【0146】
このように、本実施の形態によれば、チャネル間相関算出部301は、チャネル間相関を算出する際に、一部のスペクトルバンドを用いてチャネル間相関を算出する。また、チャネル間相関算出部301は、一部のスペクトルバンドとして、バンドエネルギがエネルギ閾値より大きい主要帯域を用いる。これにより、例えば、式(12)に示すように、クロススペクトルの演算の対象を主要帯域の周波数スペクトルパラメータに限定することができる。よって、本実施の形態によれば、チャネル間相関の精度を維持しつつ、演算量を削減することができる。
【0147】
[実施の形態4の変形例1]
本実施の形態では、主要帯域特定部312においてLch及びRchの双方のバンドエネルギを用いて主要帯域を特定する場合について説明したが、主要帯域の特定方法はこれに限定されない。例えば、主要帯域特定部312は、Lch及びRchの中から主要チャネルを選択し、選択された主要チャネルのバンドエネルギを用いて、Lch及びRchの双方の主要帯域を特定してもよい。
【0148】
[実施の形態4の変形例2]
実施の形態4では、チャネル間相関算出部301において、主要帯域特定部312で選択されるスペクトルバンド(主要帯域)に含まれる周波数スペクトルパラメータを用いてチャネル間相関を求める場合について説明した。これに対して、変形例では、主要帯域の中から、主要なスペクトル成分をさらに選択して、チャネル間相関を求める場合について説明する。
【0149】
図17は、変形例2に係るチャネル間相関算出部401の構成例を示すブロック図である。なお、
図17において、
図15と同様の構成には同一の符号を付し、その説明を省略する。
図17では、エネルギ閾値算出部311及び主要帯域特定部312は、Lch及びRchに対してそれぞれ備えられる。
【0150】
図17において、Lch主要帯域分析部411は、Lch周波数領域変換部111から入力されるLch周波数スペクトルパラメータのうち、主要帯域特定部312-1から入力されるLch主要帯域内の周波数スペクトルパラメータの振幅(エネルギ)を算出し、Lch振幅閾値算出部412に出力する。
【0151】
Lch振幅閾値算出部412は、Lch主要帯域分析部411から入力される、主要帯域として特定されたスペクトルバンド内のLch周波数スペクトルパラメータの振幅値を用いて、平均振幅を算出する。Lch振幅閾値算出部412は、算出した平均振幅値をLch振幅閾値としてLch/Rch主要帯域スペクトル取得部415に出力する。
【0152】
また、Rch主要帯域分析部413及びRch振幅閾値算出部414は、Rchに対して、Lch主要帯域分析部411及びLch振幅閾値算出部412と同様の処理を行う。
【0153】
Lch/Rch主要帯域スペクトル取得部415は、Lch周波数領域変換部111から入力されるLch周波数スペクトルパラメータのうち、主要帯域に含まれ、かつ、Lch振幅閾値算出部412から入力されるLch振幅閾値より大きい振幅(エネルギ)を有するLch周波数スペクトルパラメータを選択し、Rch周波数領域変換部113から入力されるRch周波数スペクトルパラメータのうち、主要帯域に含まれ、かつ、Rch振幅閾値算出部414から入力されるRch振幅閾値より大きい振幅(エネルギ)を有するRch周波数スペクトルパラメータを選択する。そして、Lch/Rch主要帯域スペクトル取得部415は、LchとRchの少なくとも一方の周波数スペクトルパラメータが選ばれている周波数成分を相関演算に用いる、LchとRchに共通する周波数成分として選択する。Lch/Rch主要帯域スペクトル取得部415は、選択した周波数成分のLch周波数スペクトルパラメータ及びRch周波数スペクトルパラメータを相関演算部417に出力する。
【0154】
相関演算部417は、Lch/Rch主要帯域スペクトル取得部415から入力されるLch周波数スペクトルパラメータ及びRch周波数スペクトルパラメータを用いて、クロススペクトル(式(9)の分子項)を算出する。ここで、クロススペクトルの演算に用いる周波数スペクトルパラメータがLch主要帯域及びRch主要帯域内の特にエネルギの大きい成分に制限されているため、Lch主要帯域及びRch主要帯域内の全ての周波数スペクトルパラメータを用いる場合と比較して、演算量が削減される。
【0155】
また、相関演算部417は、相関算出部318と同様、式(9)の分母項も算出し、式(9)に示す相互相関係数αを算出する。
【0156】
このように、主要帯域特定部312で特定された主張帯域に含まれるスペクトル成分の数を更に限定することで、クロススペクトルの演算量を更に削減することができる。
【0157】
以上、本実施の形態の変形例1、2について説明した。
【0158】
なお、本実施の形態で説明した主要帯域を特定する方法は、スペクトルパラメータを符号化する種々の符号化方式に適応することができる。例えば、非特許文献3に示すようなBCC(Binaural Cue Coding)の原理を利用したパラメトリックステレオ符号化に適応することで、低ビットレート化、低演算量化を図ることができる。パラメトリックステレオ符号化では、チャネル間レベル差(ICLD:Inter Channel Level Difference)、チャネル間時間差(ICTD:Inter Channel Time Difference)、チャネル間コヒーレンス(ICC:Inter Channel Coherence)等のパラメータをサイド情報としてスペクトルバンド毎に符号化する。このとき、本実施の形態で説明したようなスペクトルバンドの選択及びスペクトル成分の選択を用いて、選択されたスペクトルバンド又はスペクトル成分のみを用いてICLD、ICTD、ICC等を計算すれば、サイド情報の算出に必要な演算量を減らすことができる。
【0159】
以上、本開示の各実施の形態について説明した。
【0160】
なお、上記実施の形態において、チャネル間エネルギ差Δ(例えば、式(2))を算出する際、主要チャネルの判定結果が安定するように、チャネル間エネルギ差の算出に、チャネルエネルギの瞬時値(現在のフレームにおけるチャネルエネルギ)ではなく、チャネルエネルギの長期平均を用いてもよい。例えば、符号化装置は、次式(12)に従って、チャネル間エネルギ差Δを求め、求めたチャネル間エネルギ差Δを用いて主要チャネルの判定又は重み係数の取得を行ってもよい。これにより、符号化装置は、主要チャネルの判定又は重み係数の取得を精度良く行うことができる。
【数12】
【0161】
式(12)において、Nはチャネルエネルギの長期平均の対象となるフレーム数を示し、framenocurは現フレームインデックスを示す。すなわち、(framenocur-m)は現フレームからmフレーム前のフレームを表す。
【0162】
また、上記各実施の形態を組み合わせて適用してもよい。例えば、実施の形態3の符号化装置200(
図13)において、DMAステレオ符号化部104の代わりに、実施の形態2に係るDMAステレオ符号化部150(
図11)を備えてもよい。また、実施の形態3の符号化装置200(
図13)において、チャネル間相関算出部102の代わりに、実施の形態4に係るチャネル間相関算出部301(
図15)又は401(
図17)を備えてもよい。
【0163】
また、上記実施の形態では、符号化モードとして、ACELP、TCX、HQ MDCT、GSC等を一例として用いる場合について説明したが、これらに限定されるものではない。
【0164】
また、本開示はソフトウェア、ハードウェア、又は、ハードウェアと連携したソフトウェアで実現することが可能である。上記実施の形態の説明に用いた各機能ブロックは、部分的に又は全体的に、集積回路であるLSIとして実現され、上記実施の形態で説明した各プロセスは、部分的に又は全体的に、一つのLSI又はLSIの組み合わせによって制御されてもよい。LSIは個々のチップから構成されてもよいし、機能ブロックの一部または全てを含むように一つのチップから構成されてもよい。LSIはデータの入力と出力を備えてもよい。LSIは、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。集積回路化の手法はLSIに限るものではなく、専用回路、汎用プロセッサ又は専用プロセッサで実現してもよい。また、LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。本開示は、デジタル処理又はアナログ処理として実現されてもよい。さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
【0165】
本開示の符号化装置は、ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出する算出回路と、前記チャネル間相関が閾値より大きい場合に共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、前記チャネル間相関が前記閾値以下の場合に前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化する符号化回路と、を具備する。
【0166】
本開示の符号化装置において、前記符号化回路は、左チャネルと右チャネルについて主要チャネルと非主要チャネルとを特定し、前記主要チャネルの符号化モードを判定するための第1のパラメータと、前記非主要チャネルの符号化モードを判定するための第2のパラメータとに対して重み付け加算を行い、前記重み付け加算によって得られる重み付けパラメータに基づいて前記共通の符号化モードを選択する。
【0167】
本開示の符号化装置において、前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、前記チャネル間相関が小さいほど、前記第1の重み係数は大きい。
【0168】
本開示の符号化装置において、前記第1のパラメータに対する第1の重み係数は、前記第2のパラメータに対する第2の重み係数より大きく、前記左チャネル信号と前記右チャネル信号との間のエネルギ差が大きいほど、前記第1の重み係数は大きい。
【0169】
本開示の符号化装置において、前記符号化回路は、現フレームで選択された前記共通の符号化モードが、過去のフレームで選択された前記共通の符号化モード、現フレームの前記第1のパラメータに基づいて判定される符号化モードと異なり、かつ、現フレームの前記第2のパラメータに基づいて判定される符号化モードの何れかと同一である場合、現フレームの前記共通の符号化モードを再選択する。
【0170】
本開示の符号化装置において、前記符号化回路は、現フレームの前記重み付けパラメータと、過去フレームの前記重み付けパラメータとを用いてスムージング処理を行い、前記スムージング処理後の重み付けパラメータに基づいて前記共通の符号化モードを再選択する。
【0171】
本開示の符号化装置において、前記符号化回路は、更に、前記チャネル間相関が、前記閾値よりも大きい第2の閾値よりも大きい場合、前記左チャネル信号及び前記右チャネル信号に対して、Mid/Sideステレオ符号化を行う。
【0172】
本開示の符号化装置において、前記算出回路は、前記左チャネル信号及び前記右チャネル信号のうち、一部の帯域の周波数スペクトルパラメータを用いて、前記チャネル間相関を算出する。
【0173】
本開示の符号化方法は、ステレオ信号を構成する左チャネル信号と右チャネル信号を用いて、左チャネルと右チャネルとの間のチャネル間相関を算出し、前記チャネル間相関が閾値より大きい場合に共通の符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化し、前記チャネル間相関が前記閾値以下の場合に前記左チャネル信号及び前記右チャネル信号に対して個別に判定された符号化モードを用いて、前記左チャネル信号及び前記右チャネル信号をそれぞれ符号化する。
【産業上の利用可能性】
【0174】
本開示の一態様は、マルチモード符号化技術を用いた音声通信システムに有用である。
【符号の説明】
【0175】
100,200 符号化装置
101 信号分析部
102,201,301,401 チャネル間相関算出部
103,203 切替スイッチ
104,150 DMAステレオ符号化部
105 DMステレオ符号化部
106 多重化部
141 適応ミキシング部
142 符号化モード選択部
143 Lch符号化部
144 Rch符号化部
145 ビットストリーム生成部
151 判定訂正部
202 DM-M/S変換部
204 M/Sステレオ符号化部
311 エネルギ閾値算出部
312 主要帯域特定部
313 Lch主要帯域エネルギ算出部
314 Lch主要帯域スペクトル取得部
315 Rch主要帯域エネルギ算出部
316 Rch主要帯域スペクトル取得部
317 クロススペクトル算出部
318,417 相関演算部
411 Lch主要帯域分析部
412 Lch振幅閾値算出部
413 Rch主要帯域分析部
414 Rch振幅閾値算出部
415 Lch/Rch主要帯域スペクトル取得部