特許第5863868号(P5863868)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートの特許一覧

特許5863868適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
<>
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000008
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000009
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000010
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000011
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000012
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000013
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000014
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000015
  • 特許5863868-適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5863868
(24)【登録日】2016年1月8日
(45)【発行日】2016年2月17日
(54)【発明の名称】適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
(51)【国際特許分類】
   G10L 19/093 20130101AFI20160204BHJP
   G10L 19/032 20130101ALI20160204BHJP
【FI】
   G10L19/093
   G10L19/032
【請求項の数】12
【全頁数】19
(21)【出願番号】特願2014-77807(P2014-77807)
(22)【出願日】2014年4月4日
(62)【分割の表示】特願2011-550065(P2011-550065)の分割
【原出願日】2010年2月16日
(65)【公開番号】特開2014-170232(P2014-170232A)
(43)【公開日】2014年9月18日
【審査請求日】2014年4月9日
(31)【優先権主張番号】10-2009-0012356
(32)【優先日】2009年2月16日
(33)【優先権主張国】KR
(31)【優先権主張番号】10-2009-0092717
(32)【優先日】2009年9月29日
(33)【優先権主張国】KR
(73)【特許権者】
【識別番号】596099882
【氏名又は名称】エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート
【氏名又は名称原語表記】ELECTRONICS AND TELECOMMUNICATIONS RESEARCH INSTITUTE
(74)【代理人】
【識別番号】100117787
【弁理士】
【氏名又は名称】勝沼 宏仁
(74)【代理人】
【識別番号】100152205
【弁理士】
【氏名又は名称】吉田 昌司
(72)【発明者】
【氏名】リー、ミ‐スク
(72)【発明者】
【氏名】ベ、ヒュン‐ジュー
(72)【発明者】
【氏名】リー、ビュン‐スン
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特開2007−187905(JP,A)
【文献】 特開2008−89999(JP,A)
【文献】 特開平1−221800(JP,A)
【文献】 国際公開第2008/108076(WO,A1)
【文献】 江原宏幸他,"高能率符号励振線形予測符号化と帯域選択型変形離散余弦変換符号化を用いた32kbit/sスケーラブル広帯域音声・オーディオ符号化方式の開発",日本音響学会誌,2008年 4月,64巻,4号,pp.196-207
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
(57)【特許請求の範囲】
【請求項1】
オーディオ信号を符号化する方法であって、
変換されたオーディオ信号を受信するステップと、
前記変換されたオーディオ信号を複数のサブ帯域に分割するステップと、
前記サブ帯域のエネルギを各々演算するステップと、
前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択するステップと、
前記選択されたサブ帯域に対して正弦波コーディング(Sinusoidal Coding)を行うステップと、
を含み、
前記選択されたサブ帯域に対して正弦波コーディングを行うステップが、
前記サブ帯域のエネルギサイズに基づいて、前記正弦波コーディングの探索トラックとして前記選択されたサブ帯域を選択するステップと、
前記探索トラックに対して前記正弦波コーディングを行うステップと、
を有することを特徴とする符号化方法。
【請求項2】
前記選択されたサブ帯域に対して正弦波コーディングを行うステップにおいて、
前記選択されたサブ帯域のうち、隣接したサブ帯域が一つの探索トラックとして選択されることを特徴とする請求項に記載の符号化方法。
【請求項3】
オーディオ信号を符号化する方法であって、
変換されたオーディオ信号を受信するステップと、
前記変換されたオーディオ信号を複数のサブ帯域に分割するステップと、
前記サブ帯域のエネルギを各々演算するステップと、
前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択するステップと、
前記選択されたサブ帯域に対して正弦波コーディング(Sinusoidal Coding)を行うステップと、
を含み、
前記選択されたサブ帯域に対して正弦波コーディングを行うステップが、
前記選択されたサブ帯域のうち、隣接したサブ帯域を1つのサブ帯域に併合するステップと、
前記併合されたサブ帯域に対して前記正弦波コーディングを行うステップと、
を有することを特徴とする符号化方法。
【請求項4】
オーディオ信号を符号化する装置であって、
変換されたオーディオ信号を受信する入力部と、
前記変換されたオーディオ信号を複数のサブ帯域に分割し、前記サブ帯域のエネルギを各々演算し、前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択する演算部と、
前記選択されたサブ帯域に対して正弦波コーディング(Sinusoidal Coding)を行うコーディング部と、
を備え
前記コーディング部が、前記サブ帯域のエネルギサイズに基づいて、前記正弦波コーディングの探索トラックとして前記選択されたサブ帯域を選択し、前記探索トラックに対して前記正弦波コーディングを行うことを特徴とする符号化装置。
【請求項5】
前記コーディング部が、前記選択されたサブ帯域のうち、隣接したサブ帯域を一つの探索トラックとして選択することを特徴とする請求項に記載の符号化装置。
【請求項6】
オーディオ信号を符号化する装置であって、
変換されたオーディオ信号を受信する入力部と、
前記変換されたオーディオ信号を複数のサブ帯域に分割し、前記サブ帯域のエネルギを各々演算し、前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択する演算部と、
前記選択されたサブ帯域に対して正弦波コーディング(Sinusoidal Coding)を行うコーディング部と、
を備え、
前記コーディング部が、前記選択されたサブ帯域のうち、隣接したサブ帯域を1つのサブ帯域に併合し、前記併合されたサブ帯域に対して前記正弦波コーディングを行うことを特徴とする符号化装置。
【請求項7】
オーディオ信号を復号化する方法であって、
変換されたオーディオ信号を受信するステップと、
前記変換されたオーディオ信号を複数のサブ帯域に分割するステップと、
前記サブ帯域のエネルギを各々演算するステップと、
前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択するステップと、
前記選択されたサブ帯域に対して正弦波デコーディング(Sinusoidal Decoding)を行うステップと、
を含み、
前記選択されたサブ帯域に対して正弦波デコーディングを行うステップが、
前記サブ帯域のエネルギサイズに基づいて、前記正弦波デコーディングの探索トラックとして前記選択されたサブ帯域を選択するステップと、
前記探索トラックに対して前記正弦波デコーディングを行うステップと、
を有することを特徴とする復号化方法。
【請求項8】
前記選択されたサブ帯域に対して正弦波デコーディングを行うステップにおいて、
前記選択されたサブ帯域のうち、隣接したサブ帯域が一つの探索トラックとして選択されることを特徴とする請求項に記載の復号化方法。
【請求項9】
オーディオ信号を復号化する方法であって、
変換されたオーディオ信号を受信するステップと、
前記変換されたオーディオ信号を複数のサブ帯域に分割するステップと、
前記サブ帯域のエネルギを各々演算するステップと、
前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択するステップと、
前記選択されたサブ帯域に対して正弦波デコーディング(Sinusoidal Decoding)を行うステップと、
を含み、
前記選択されたサブ帯域に対して正弦波デコーディングを行うステップが、
前記選択されたサブ帯域のうち、隣接したサブ帯域を1つのサブ帯域に併合するステップと、
前記併合されたサブ帯域に対して前記正弦波デコーディングを行うステップと、
を有することを特徴とする復号化方法。
【請求項10】
オーディオ信号を復号化する装置であって、
変換されたオーディオ信号を受信する入力部と、
前記変換されたオーディオ信号を複数のサブ帯域に分割し、前記サブ帯域のエネルギを各々演算し、前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択する演算部と、
前記選択されたサブ帯域に対して正弦波デコーディング(Sinusoidal Decoding)を行うデコーディング部と、
を備え
前記デコーディング部が、前記サブ帯域のエネルギサイズに基づいて、前記正弦波デコーディングの探索トラックとして前記選択されたサブ帯域を選択し、前記探索トラックに対して前記正弦波デコーディングを行うことを特徴とする復号化装置。
【請求項11】
前記デコーディング部が、前記選択されたサブ帯域のうち、隣接したサブ帯域を一つの探索トラックとして選択することを特徴とする請求項10に記載の復号化装置。
【請求項12】
オーディオ信号を復号化する装置であって、
変換されたオーディオ信号を受信する入力部と、
前記変換されたオーディオ信号を複数のサブ帯域に分割し、前記サブ帯域のエネルギを各々演算し、前記サブ帯域のエネルギサイズが大きい順に、予め決定された個数のサブ帯域を選択する演算部と、
前記選択されたサブ帯域に対して正弦波デコーディング(Sinusoidal Decoding)を行うデコーディング部と、
を備え、
前記デコーディング部が、前記選択されたサブ帯域のうち、隣接したサブ帯域を1つのサブ帯域に併合し、前記併合されたサブ帯域に対して前記正弦波デコーディングを行うことを特徴とする復号化装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ信号の符号化及び復号化方法及び装置に関し、より詳細には、適応的正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置に関する。
【0002】
本発明は、知識経済部のIT成長動力技術開発事業の一環として行った研究から導き出されたものである[課題管理番号:2008−S−011−01、課題名:FMCアコースティック融合コーデック及び制御技術研究(標準化連係)]。
【背景技術】
【0003】
通信技術の発達とともにデータ伝送のための帯域幅が増加しつつ、多チャネル音声及びオーディオを用いる高品質サービスに対するユーザの要求が次第に増加している。高品質の音声及びオーディオサービス提供のためには、何よりもステレオ音声及びオーディオ信号を効果的に圧縮し復元できるコーディング技術が必要である。
【0004】
これにより、狭帯域(Narrow Band:NB、300〜3,400Hz)、広帯域(Wide Band:WB、50〜7,000Hz)及び超広帯域(Super Wide Band:SWB、50〜14,000Hz)信号をコーディングするコーデックに関する研究が活発に進まれている。例えば、ITU−T G.729.1は代表的な拡張コーデックであって、狭帯域コーデックであるG.729を基盤とする広帯域拡張コーデックである。このコーデックは、8kbit/sでG.729とビットストリームレベルとの互換性を提供し、12kbit/sでは、より向上した品質の狭帯域信号を提供する。そして、14kbit/sから32kbit/sまででは、2kbit/sのビット率の拡張性を有して広帯域信号をコーディングすることができ、ビット率の増加に応じて出力信号の品質も良くなる特性を有する。
【0005】
近年、G.729.1を基盤として超広帯域信号を提供できる拡張コーデックが開発中である。この拡張コーデックは、狭帯域、広帯域、そして、超広帯域信号を符号化及び復号化することができる。
【0006】
このような拡張コーデックでは、合成された信号の品質向上のために、正弦波パルスコーディングを用いることもある。ところが、このような正弦波パルスコーディングを用いるとき、コーディングの効率を高めるために、入力信号のエネルギを考慮する必要がある。特に、正弦波パルスコーディングに用いることができるビット数が十分でない場合、合成された信号の品質により多い影響を及ぼす帯域、すなわち、相対的にエネルギの大きい帯域を先にコーディングすることが効果的である。
【発明の概要】
【発明が解決しようとする課題】
【0007】
本発明は、合成信号の品質を正弦波パルスコーディングを用いて高めることができるオーディオ信号の符号化及び復号化方法及び装置を提供することを1つの目的とする。
【0008】
また、本発明は、合成信号の各サブ帯域のエネルギの大きさを考慮して、正弦波パルスコーディングを適用することにより、さらに効率的に合成信号の品質を向上させることができるオーディオ信号の符号化及び復号化方法及び装置を提供することを他の目的とする。
【0009】
本発明の目的は、以上で言及した目的に制限されず、言及されていない本発明の他の目的及び長所は、下記の説明によって理解され得るし、本発明の実施形態によって一層明らかに理解され得るであろう。また、本発明の目的及び長所は、特許請求の範囲に表した手段及びその組み合わせによって実現され得ることが容易に分かるであろう。
【課題を解決するための手段】
【0010】
このような目的を達成するための本発明は、オーディオ信号の符号化方法であって、変換されたオーディオ信号を複数個のサブ帯域に分けるステップと、サブ帯域のエネルギを各々演算するステップと、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択するステップと、選択されたサブ帯域に対して正弦波パルスコーディングを行うステップとを含むことを1つの特徴とする。
【0011】
また、本発明は、オーディオ信号の符号化装置であって、変換されたオーディオ信号を受信する入力部と、合成されたオーディオ信号を複数個のサブ帯域に分けて、サブ帯域のエネルギを各々演算し、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する演算部と、選択されたサブ帯域に対して正弦波パルスコーディングを行うコーディング部とを備えることを他の特徴とする。
【0012】
また、本発明は、オーディオ信号の復号化方法であって、変換されたオーディオ信号を受信するステップと、符号化されたオーディオ信号を複数個のサブ帯域に分けるステップと、サブ帯域のエネルギを各々演算するステップと、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択するステップと、選択されたサブ帯域に対して正弦波パルス復号化を行うステップとを含むことをさらに1つの特徴とする。
【0013】
また、本発明は、オーディオ信号の復号化装置であって、変換されたオーディオ信号を受信する入力部と、符号化されたオーディオ信号を複数個のサブ帯域に分けて、サブ帯域のエネルギを各々演算し、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する演算部と、選択されたサブ帯域に対して正弦波パルス復号化を行う復号化部とを備えることをさらに1つの特徴とする。
【0014】
また、本発明は、オーディオ信号の符号化方法であって、オーディオ信号を受信するステップと、オーディオ信号に対してMDCT(Modified Discrete Cosine Transform)を行ってMDCT係数を出力するステップと、MDCT係数を用いて高周波数オーディオ信号を合成するステップと、高周波数オーディオ信号に対して正弦波パルスコーディングを行うステップとを含むことをさらに1つの特徴とする。
【0015】
また、本発明は、オーディオ信号の符号化装置であって、オーディオ信号を受信する入力部と、オーディオ信号に対してMDCTを行ってMDCT係数を出力するMDCT部と、MDCT係数を用いて高周波数オーディオ信号を合成する合成部と、高周波数オーディオ信号に対して正弦波パルスコーディングを行う正弦波パルスコーディング部とを備えることをさらに1つの特徴とする。
【0016】
また、本発明は、オーディオ信号の復号化方法であって、オーディオ信号を受信するステップと、オーディオ信号に対してMDCTを行ってMDCT係数を出力するステップと、MDCT係数を用いて高周波数オーディオ信号を合成するステップと、高周波数オーディオ信号に対して正弦波パルス復号化を行うステップとを含むことをさらに1つの特徴とする。
【0017】
また、本発明は、オーディオ信号の復号化装置であって、オーディオ信号を受信する入力部と、オーディオ信号に対してMDCTを行ってMDCT係数を出力するMDCT部と、MDCT係数を用いて高周波数オーディオ信号を合成する合成部と、高周波数オーディオ信号に対して正弦波パルス復号化を行う正弦波パルス復号化部とを含むことをさらに1つの特徴とする。
【発明の効果】
【0018】
前述したような本発明によれば、正弦波パルスコーディングを用いて合成信号の品質を高めることができるという長所がある。
【0019】
また、合成信号の各サブ帯域のエネルギの大きさを考慮して、正弦波パルスコーディングを適用することにより、さらに効率的に合成信号の品質を向上させることができるという長所がある。
【図面の簡単な説明】
【0020】
図1】狭帯域コーデックとの互換性を提供する超広帯域拡張コーデックの構造である。
図2】本発明の一実施形態に係るオーディオ信号符号化装置の構成図である。
図3】本発明の一実施形態に係るオーディオ信号復号化装置の構成図である。
図4】本発明の一実施形態に係るオーディオ信号符号化方法のフローチャートである。
図5】本発明の一実施形態に係る正弦波パルスコーディング実行ステップ(図4のS410)を示したフローチャートである。
図6】本発明の一実施形態に係るオーディオ信号復号化方法のフローチャートである。
図7】既存正弦波パルスコーディング及び本発明による適応型正弦波パルスコーディングの結果を比較するための図である。
図8】本発明の他の実施形態に係るオーディオ信号符号化装置の構成図である。
図9】本発明の他の実施形態に係るオーディオ信号復号化装置の構成図である。
【発明を実施するための形態】
【0021】
上述の目的、特徴、及び長所は、添付した図面を参照して詳しく後述され、これにより、本発明の属する技術分野における通常の知識を有した者が本発明の技術的思想を容易に実施できるであろう。本発明を説明するにおいて本発明と関連した公知技術に対する具体的な説明が本発明の要旨を不明にすると判断される場合には、その詳細な説明を省略する。以下、添付された図面を参照して、本発明に係る好ましい実施形態を詳細に説明する。図面において、同じ参照符号は、同一または類似した構成要素を示すものとして使用される。
【0022】
図1は、狭帯域コーデックとの互換性を提供する超広帯域拡張コーデックの構造を示す。
【0023】
一般的に、拡張コーデックは、入力信号を複数個の周波数帯域に分けた後、各周波数帯域の信号を符号化または復号化する構造を有する。図1に示すように、入力された信号は、1次低帯域通過フィルタ102及び1次高帯域通過フィルタ104に入力される。1次低帯域通過フィルタ102は、フィルタリング及びダウンサンプリングを行って入力信号のうち、低帯域信号A(0−8kHz)を出力する。そして、1次高帯域通過フィルタ104は、フィルタリング及びダウンサンプリングを行って入力信号のうち、高帯域信号B(8−16kHz)を出力する。
【0024】
1次低帯域通過フィルタ102から出力された低帯域信号Aは、2次低帯域通過フィルタ106及び2次高帯域通過フィルタ108に入力される。2次低帯域通過フィルタ106は、フィルタリング及びダウンサンプリングを行って低−低帯域信号A1(0−4kHz)を出力し、2次高帯域通過フィルタ108は、フィルタリング及びダウンサンプリングを行って低−高帯域信号A2(4−8kHz)を出力する。
【0025】
つまり、低−低帯域信号A1は狭帯域コーディングモジュール110に、低−高帯域信号A2は広帯域拡張コーディングモジュール112に、高帯域信号Bは超広帯域拡張コーディングモジュール114に各々入力される。もし、狭帯域コーディングモジュール110のみ動作する場合には、狭帯域信号のみが再生され、狭帯域コーディングモジュール110と広帯域拡張コーディングモジュール112とが動作する場合には、広帯域信号が再生される。そして、狭帯域コーディングモジュール110、広帯域拡張コーディングモジュール112、及び超広帯域拡張コーディングモジュール114が動作すれば、超広帯域信号が再生される。
【0026】
図1に示された拡張コーデックの代表的な例としてITU−T G.729.1を挙げることができる。ITU−T G.729.1は、狭帯域コーデックであるG.729を基盤とする広帯域拡張コーデックである。このコーデックは、8kbit/sでG.729とビットストリームレベルとの互換性を提供し、12kbit/sでは、より向上した品質の狭帯域信号を提供する。そして、14kbit/sから32kbit/sまででは、2kbit/sのビット率拡張性を有して広帯域信号を再生するが、ビット率の増加に応じて出力信号の品質も良くなる。
【0027】
最近では、G.729.1を基盤として超広帯域品質を提供できる拡張コーデックが開発中である。この拡張コーデックは、狭帯域、広帯域、そして、超広帯域信号を符号化及び復号化することができる。
【0028】
このような拡張コーデックでは、図1のように、周波数帯域別に異なるコーディング方式を適用することができる。例えば、G.729.1とG.711.1コーデックは、狭帯域信号を既存の狭帯域コーデックであるG.729とG.711でコーディングし、残りの信号に対しては、MDCT(Modified Discrete Cosine Transform)を行って、出力されたMDCT係数をコーディングする方式を使用する。
【0029】
MDCT領域コーディングでは、MDCT係数を複数個のサブ帯域に分けて、各サブ帯域のゲイン(gain)とシェープ(shape)をコーディングし、ACELP(Algebraic Code−Excited Linear Prediction)または正弦波(sinusoidal)パルスを用いてMDCT係数をコーディングする。拡張コーデックは、一般的に帯域幅拡張のための情報を先にコーディングした後、品質向上のための情報をコーディングする構造を有する。例えば、各サブ帯域のゲインとシェープを用いて7−14kHz帯域の信号を合成した後、ACELPまたは正弦波パルスコーディングを用いて合成された信号の品質を向上させる構造がそれである。
【0030】
すなわち、超広帯域品質を提供する1番目の階層では、ゲインとシェープなどの情報を利用して7−14kHz帯域に該当する信号を合成する。そして、追加的なビットを用いて合成された信号の品質向上のための正弦波パルスコーディングなどを適用する。このような構造により、ビット率の増加に応じて合成された信号の品質を改善させることができる。
【0031】
一般的に、正弦波パルスコーディングでは、定められた区間で大きさが一番大きいパルス、すなわち、品質に一番大きい影響を及ぼすことができるパルスの位置、大きさ、そして、符号情報がコーディングされる。このようなパルスを検索する区間が広いほど計算量は増加する。したがって、全体フレーム(時間領域の場合)または全体周波数帯域に対して正弦波パルスコーディングを適用するよりは、サブフレームまたはサブ帯域別に正弦波パルスコーディングを適用することが好ましい。正弦波パルスコーディングは、1つのパルスを伝送するのに相対的に多いビットが必要であるが、信号の品質に影響を与える信号を正確に表現できるという長所を有する。
【0032】
コーデックの入力信号は、周波数によってエネルギ分布が様々に現れる。特に、音楽信号の場合には、周波数によるエネルギの変化が音声信号に比べて大きい方である。エネルギが大きいサブ帯域の信号は、合成信号の品質に一層大きい影響を及ぼす。もし、全体サブ帯域をコーディングする程度にビットが十分であれば問題ないが、そうでない場合には、合成信号の品質に多くの影響を与える、すなわち、エネルギが大きいサブ帯域の信号を先にコーディングすることが効果的である。
【0033】
本発明は、図1とような拡張コーデックで限定されたビット数を考慮して、より効率的な正弦波パルスコーディングを行うことにより、合成された信号の品質を向上させることができるオーディオ信号の符号化及び復号化に関するものである。以下では、音声及びオーディオ信号をオーディオ信号と称し、本発明を説明する。
【0034】
図2は、本発明の一実施形態に係るオーディオ信号符号化装置の構成図である。
【0035】
図2に示すように、オーディオ信号符号化装置202は、入力部204、演算部206、及びコーディング部208を備える。入力部204は、変換されたオーディオ信号、例えば、オーディオ信号がMDCTによって変換された結果物であるMDCT係数を受信する。
【0036】
演算部206は、入力部204を介して入力された変換されたオーディオ信号を複数個のサブ帯域に分けて、このサブ帯域のエネルギを各々演算する。そして、演算部206は、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する。このとき、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって予め定められた数が決定される。
【0037】
コーディング部208は、演算部206によって選択されたサブ帯域に対して正弦波パルスコーディングを行う。コーディング部208は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順に正弦波パルスコーディングを行うことができる。本発明の他の実施形態において、コーディング部208は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順序ではない他の順序、例えば、帯域幅またはインデックス順序に正弦波パルスコーディングを行うことができる。
【0038】
一方、演算部206は、選択されたサブ帯域のうち、互いに隣接したサブ帯域があるか否かを確認し、隣接したサブ帯域を1つのサブ帯域に併合することができる。そして、コーディング部208は、このように併合されたサブ帯域に対して正弦波パルスコーディングを行うことができる。
【0039】
図3は、本発明の一実施形態に係るオーディオ信号復号化装置の構成図である。
【0040】
図3に示すように、オーディオ信号復号化装置302は、入力部304、演算部306、及び復号化部308を備える。入力部204は、変換されたオーディオ信号、例えば、MDCT係数を受信する。
【0041】
演算部306は、入力部304を介して入力された変換されたオーディオ信号を複数個のサブ帯域に分けて、このサブ帯域のエネルギを各々演算する。そして、演算部306は、サブ帯域のうち、相対的に大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する。このとき、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって予め定められた数が決定される。
【0042】
復号化部308は、演算部306によって選択されたサブ帯域に対して正弦波パルス復号化を行う。復号化部308は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順に正弦波パルスコーディングを行うことができる。本発明の他の実施形態において、復号化部308は、予め定められた数の相対的に大きいエネルギを有するサブ帯域に対して、エネルギが大きい順序ではない他の順序、例えば、帯域幅またはインデックス順序に正弦波パルスコーディングを行うことができる。
【0043】
図2及び図3に示されたオーディオ信号符号化装置202及びオーディオ信号復号化装置302は、図1の狭帯域コーディングモジュール110、広帯域拡張コーディングモジュール112、または超広帯域拡張コーディングモジュール114に含まれることができる。
【0044】
以下では、図4図6及び図1の超広帯域拡張コーディングモジュール114でオーディオ信号を符号化または復号化する実施形態によって本発明によるオーディオ信号符号化及び復号化方法を説明する。
【0045】
超広帯域拡張コーディングモジュール114は、7−14kHzに該当するMDCT係数を複数個のサブ帯域に分けて、各サブ帯域のゲインとシェープをコーディングまたは復号化して誤差信号を求める。その後、超広帯域拡張コーディングモジュール114は、誤差信号に対して正弦波パルスコーディングまたは復号化を行う。もし、正弦波パルスコーディングに用いられるビット数が十分であれば、全てのサブ帯域に正弦波パルスコーディングが適用され得るが、実際にそのようなビット数が十分でないため、一部のサブ帯域に対してのみ正弦波パルスコーディングが適用される。したがって、合成信号の品質により多くの影響を及ぼすサブ帯域に正弦波パルスコーディングを適用することにより、同じビット率が与えられたとき、よりよい信号品質を得ることができる。
【0046】
図4は、本発明の一実施形態に係るオーディオ信号符号化方法のフローチャートである。
【0047】
図4に示すように、超広帯域拡張コーディングモジュール114に含まれたオーディオ信号符号化装置は、変換されたオーディオ信号、例えば、7−14kHzに該当するMDCT係数を受信する(S402)。そして、受信された変換されたオーディオ信号を複数個のサブ帯域に分け(S404)、分けられた複数個のサブ帯域のエネルギを各々演算する(S406)。図7は、9個のサブ帯域に分けられたMDCT係数と、各サブ帯域の相対的エネルギの大きさを示す。図7に示すように、サブ帯域1、4、5、6、7のエネルギが他のサブ帯域のエネルギに比べて相対的に大きいことが分かる。
【0048】
表1は、8個のサブ帯域に分けられたMDCT係数のインデックス及びエネルギを表す。
【表1】
【0049】
オーディオ信号符号化装置は、サブ帯域のうち、大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択する(S408)。例えば、表1のMDCT係数は、表2のようにエネルギ順に整列され、そのうち、エネルギが一番大きい5個のサブ帯域(陰影表示)が選択される。
【表2】
【0050】
本発明では、表2のように予め定められた数、例えば、5個のサブ帯域を選択するようになる。この予め定められた数は、1つのサブ帯域でコーディングする正弦波パルス数及び1つの正弦波パルスをコーディングするのに必要なビット数によって決定される。
【0051】
1つの正弦波パルスをコーディングするのに必要なビット数は次のとおりである。まず、1つの正弦波パルスの符号(+、−)をコーディングするのに1ビットが必要である。そして、正弦波パルスの位置をコーディングするのに必要なビット数は、正弦波パルス検索区間の大きさ、例えば、1つのサブ帯域の大きさによって決定される。もし、サブ帯域の大きさが32であれば、正弦波パルスの位置をコーディングするのには5ビットが必要である(2=32)。そして、正弦波パルスの大きさ(利得)をコーディングするのに必要なビット数は、量子化器の構造及びコードブックの大きさによって決定される。つまり、1つの正弦波パルスをコーディングするのに必要なビット数は、正弦波パルスの符号、位置、大きさをコーディングするのに必要なビットの合計である。
【0052】
正弦波パルスコーディングのために与えられたビット及び1つの正弦波パルスをコーディングするのに必要なビット数によって10個の正弦波パルスを伝送できる場合、1つのサブ帯域当り2個の正弦波パルスをコーディングするとしたら、総5個のサブ帯域に正弦波パルスコーディングを適用することができる。したがって、オーディオ信号コーディング装置は、表2のように、エネルギが一番大きい5個のサブ帯域を選択し、選択されたサブ帯域(5、6、3、1、2)に対して正弦波パルスコーディングを行う(S410)。
【0053】
図5は、本発明の一実施形態に係る正弦波パルスコーディング実行ステップ(図4のS410)を示したフローチャートである。
【0054】
本発明の他の実施形態では、図4のステップS408で選択されたサブ帯域のうち、互いに隣接したサブ帯域があるか否かを確認し(S502)、隣接したサブ帯域を1つのサブ帯域に併合し(S504)、併合されたサブ帯域に対して正弦波パルスコーディングを行う(S506)。
【0055】
例えば、表2において選択された5個のサブ帯域(5、6、3、1、2)のうち、サブ帯域5と隣接したサブ帯域、すなわち4または6があるか否かを確認する。5個のサブ帯域のうち、サブ帯域5と隣接したサブ帯域6が存在するので、オーディオ信号符号化装置は、サブ帯域5とサブ帯域6の各々に2個の正弦波パルスをコーディングする代わりに、2つのサブ帯域を1つのサブ帯域に併合し、この1つのサブ帯域に対して4個の正弦波パルスをコーディングする。例えば、サブ帯域5がサブ帯域6より大きいエネルギを有しているとしたら、併合されたサブ帯域では、4個の正弦波パルスが全てサブ帯域5にのみ位置することができる。このように、隣接したサブ帯域を併合し、併合されたサブ帯域に正弦波パルスコーディングを適用することにより、さらに効率的な正弦波パルスコーディングがなされる。
【0056】
一方、コーデックの特性によって符号器と復号器とで合成された7−14kHz帯域の信号が互いに一致しないことがある。符号器と復号器とで各々演算されたサブ帯域のエネルギの差による誤差を減らすために、オーディオ信号符号化装置は、表3のようにサブ帯域を再整列して正弦波パルスコーディングを行うこともできる。
【表3】
【0057】
すなわち、オーディオ信号符号化装置は、5個のサブ帯域に対してエネルギの大きさ順に正弦波パルスコーディングを行わず、帯域幅の順序またはインデックスの順序によって正弦波パルスコーディングを行うことができる。このように選択されたサブ帯域のエネルギの大きさ順序を考慮しないことにより、符号器と復号器とで発生し得る上位帯域合成信号の差による誤差を減らすことができる。
【0058】
図6は、本発明の一実施形態に係るオーディオ信号復号化方法のフローチャートである。
【0059】
まず、変換されたオーディオ信号を受信する(S602)。そして、変換されたオーディオ信号を複数個のサブ帯域に分け(S604)、サブ帯域のエネルギを各々演算する(S606)。
【0060】
次に、サブ帯域のうち、大きいエネルギを有するサブ帯域を予め定められた数の分だけ選択し(S608)、選択されたサブ帯域に対して正弦波パルス復号化を行う(S610)。図6のステップS602〜ステップS610は、前述した本発明の一実施形態に係るオーディオ信号符号化方法の各ステップと類似しているので、詳細な説明を省略する。
【0061】
図7は、既存正弦波パルスコーディング及び本発明に係る適応型正弦波パルスコーディングの結果を比較するための図である。
【0062】
図7(a)は、既存正弦波パルスコーディングによる結果を示す。図7に示された各サブ帯域の相対的エネルギの大きさをみると、サブ帯域1、4、5、6、7のエネルギが他のサブ帯域に比べて相対的に大きい。しかし、既存の正弦波パルスコーディングは、サブ帯域のエネルギの大きさとは関係なく、帯域順またはインデックス順にパルスコーディングを適用するので、(a)のように、サブ帯域1、2、3、4、5に正弦波パルスがコーディングされる。
【0063】
図7(b)は、本発明に係る適応的正弦波パルスコーディングによる結果を示す。本発明によれば、(b)のように、相対的にエネルギが大きいサブ帯域、すなわち、サブ帯域1、4、5、6、7に正弦波パルスコーディングが適用される。
【0064】
前述したように、本発明は、音声を含むオーディオ信号に適用される。音声信号のエネルギ分布をみると、有声音のエネルギは、ほとんど低い周波数帯域に位置し、無声音と破裂音のエネルギは、相対的に高い周波数帯域に位置する。それに対し、音楽信号は、周波数によってエネルギの変化が多様に現れる。したがって、音楽信号は、音声信号のように周波数帯域によるエネルギ分布の特徴を定義するのが難しい。合成された信号の品質は、エネルギが大きい周波数帯域の信号によってさらに多くの影響を受ける。したがって、正弦波パルスコーディングを適用するサブ帯域を固定させるよりは、本発明のように、入力信号の特性によってサブ帯域を選択して正弦波パルスコーディングを適用することにより、同じビット率で合成された信号の品質をより向上させることができる。
【0065】
以下では、図8及び図9によって本発明の他の実施形態に係るオーディオ信号符号化及び復号化方法及び装置について説明する。
【0066】
図8は、本発明の他の実施形態に係るオーディオ信号符号化装置の構成図である。
【0067】
図8に示されたオーディオ信号符号化装置は、32kHzの入力信号を受信し、広帯域信号及び超広帯域信号を合成して出力する。このオーディオ信号符号化装置は、広帯域拡張コーディングモジュール802、808、822と超広帯域拡張コーディングモジュール804、806、810、812とで構成される。広帯域拡張コーディングモジュール、すなわち、G.729.1コアコーデック(core codec)は、16kHz信号を用いて動作することに対し、超広帯域拡張コーディングモジュールは、32kHz信号を用いる。超広帯域拡張コーディングは、MDCTドメインで行われる。2つのモード、すなわち、ジェネリックモード814と正弦波モード816とが超広帯域拡張コーディングモジュールの1番目の階層をコーディングするために用いられる。ジェネリックモード814または正弦波モード816のうち、いずれかを用いるかの可否は、入力信号の測定されたトーナリティ(Tonality)に基づいて決定される。より上位の超広帯域階層は、高周波数コンテンツ(content)の品質を改善する正弦波コーディング部818、820または広帯域コンテンツの認知品質(perceptual quality)を改善するのに用いられる広帯域信号改善部822によってコーディングされる。
【0068】
32kHzの入力信号は、まず、ダウンサンプリング部802に入力され、16kHzでダウンサンプリングされる。そして、ダウンサンプリングされた16kHz信号は、G.729.1コーデック808に入力される。G.729.1コーデック808は、入力された16kHz信号に対して広帯域コーディングを行う。G.729.1コーデック808から出力された合成された32kbit/s信号は、広帯域信号改善部822に入力され、広帯域信号改善部822は、入力された信号の品質を改善する。
【0069】
一方、32kHz入力信号は、MDCT部806に入力され、MDCTドメインに変換される。MDCTドメインに変換された入力信号は、トーナリティ測定部804に入力され、入力信号のトーナル(tonal)可否が決定される(810)。言い替えれば、1番目の超広帯域階層のコーディングモードは、MDCTドメインで入力信号の現在フレーム及び以前フレームのログドメインエネルギ(logarithmic domain energies)を比較することにより行われるトーナリティ測定に基づいて定義される。トーナリティ測定は、入力信号の現在フレームと過去フレームのスペックトラルピーク(spectral peaks)間の相関関係分析(correlation analysis)に基づく。
【0070】
次に、トーナリティ測定部804によって出力されたトーナリティ情報により、入力信号がトーナルであるか否かが決定される(810)。例えば、トーナリティ情報が特定しきい値(threshold)より大きければ、入力信号はトーナルであるものと、それとも、入力信号はトーナルでないものと判断される。トーナリティ情報は、さらに、復号器に伝達されるビットストリームにも含まれる。もし、入力信号がトーナルであれば正弦波モード816が、それとも、ジェネリックモード814が用いられる。
【0071】
ジェネリックモード814は、入力信号のフレームがトーナルでないとき(tonal=0)に用いられる。ジェネリックモード814は、高周波数をコーディングするために、G.729.1広帯域コーデック808のコーディングされたMDCTドメイン表現を活用する。高周波数帯域(7−14kHz)は、4個のサブ帯域に分けられ、コーディングされエンベロープ標準化された(envelope normalized)広帯域コンテンツからそれぞれのサブバンドに対する選択された類似性基準(similarity criteria)が探索される。最も類似したマッチ(match)は、合成された高周波数コンテンツを取得するために、2つのスケーリング要素、すなわち、リニア(linear)ドメインの1番目のスケーリング要素及びログドメインの2番目のスケーリング要素によってスケーリングされる。このコンテンツは、さらに、ジェネリックモード814及び正弦波コーディング部818内の追加的な正弦波によって改善される。
【0072】
ジェネリックモード814では、本発明に係るオーディオ符号化方法によって、コーディングされた信号の品質改善がなされ得る。例えば、ビットバジェット(bit budget)は、初めの4kbit/sの超広帯域階層に2つの正弦波を追加するように許容する。追加する正弦波の位置を探索するトラックの開始位置は、合成された高周波数信号のサブ帯域エネルギに基づいて選択される。合成されたサブ帯域のエネルギは、次の数式1のように演算されることができる。
【数1】
ここで、kはサブ帯域インデックスを表し、
【数2】
はk番目のサブ帯域のエネルギを表す。また、
【数3】
は合成された高周波数信号を表す。それぞれのサブ帯域は32個のMDCT係数からなる。相対的に大きいエネルギを有するサブ帯域が正弦波コーディングの探索トラックとして選択される。例えば、探索トラックは、1の単位の大きさを有する32個の位置を含むことができる。このような場合、探索トラックはサブ帯域と一致する。
【0073】
2つの正弦波の大きさ(amplitude)は、それぞれ4−bit、1次元コードブックによって量子化される。
【0074】
正弦波モード816は、入力信号がトーナルであるときに用いられる。正弦波モード816で、高周波数信号は、高周波数スペクトルに有限個の正弦波コンポーネントセットを追加することにより生成される。例えば、追加される正弦波の総個数は10個であるが、4個は7000−8600Hz周波数範囲に、4個は8600−10200Hz周波数範囲に、1個は10200−11800Hz周波数範囲に、1個は11800−12600Hz周波数範囲に位置することができる。
【0075】
正弦波コーディング部818、820は、ジェネリックモード814または正弦波モード816によって出力された信号の品質を改善する。正弦波コーディング部818、820によって追加される正弦波の数(Nsin)はビットバジェットによって変わる。正弦波コーディング部818、820の正弦波コーディングのためのトラックは、合成された高周波数コンテンツのサブ帯域エネルギに基づいて選択される。
【0076】
例えば、7000−13400Hz周波数範囲の合成された高周波数コンテンツは、8個のサブ帯域に分けられる。それぞれのサブ帯域は、32個のMDCT係数で構成され、サブ帯域エネルギは、各々数式1のように演算されることができる。
【0077】
正弦波コーディングのためのトラックは、相対的に大きいエネルギを有するNsin/Nsin_track個のサブ帯域を探すことにより選択される。ここで、Nsin_trackは、トラック当り正弦波の個数であり、2に設定される。選択されたNsin/Nsin_track個のサブ帯域は、各々正弦波コーディングに用いられるトラックに対応する。例えば、Nsinが4であれば、初めの2個の正弦波が一番大きいサブ帯域エネルギを有するサブ帯域に位置し、残りの2個の正弦波は、2番目に大きいエネルギを有するサブ帯域に位置する。正弦波コーディングのためのトラック位置は、利用可能なビットバジェット及び高周波数信号エネルギ特性によってフレーム毎に(frame by frame)変わる。
【0078】
図9は、本発明の他の実施形態に係るオーディオ信号復号化装置の構成図である。
【0079】
図9に示されたオーディオ信号復号化装置は、符号化装置によって符号化された広帯域信号及び超広帯域信号を受信し、これを32kHz信号で出力する。このオーディオ信号復号化装置は、広帯域拡張復号化モジュール902、914、916、918と超広帯域拡張復号化モジュール904、920、922とで構成される。広帯域拡張復号化モジュールは、入力された16kHz信号を復号化し、超広帯域拡張復号化モジュールは、32kHz出力を提供するために、高周波数を復号化する。超広帯域拡張復号化は、ほとんどMDCTドメインで行われる。2つのモード、すなわち、ジェネリックモード906及び正弦波モード908が拡張の1番目の階層を復号化するために用いられるが、これは、初めて復号化されるトーナリティ指示子(indicator)に依存する。2番目の階層は、広帯域信号改善及び追加的な正弦波間にビットを分散させるために、符号器と同様のビット割当を利用する。3番目の超広帯域階層は正弦波復号化部910、912で構成されるが、これは、高周波数コンテンツの品質を改善する。4番目及び5番目の拡張階層は広帯域信号改善を提供する。合成された超広帯域コンテンツを改善するために、時間ドメインで前処理(pre−processing)が利用される。
【0080】
符号化装置によって符号化された信号はG.729.1コーデック902に入力される。G/729。1コーデック902は16kHzの合成信号を出力し、これは、広帯域信号改善部914に入力される。広帯域信号改善部914は、入力された信号の品質を改善する。広帯域信号改善部914から出力された信号は、前処理部916による前処理、アップサンプリング部918によるアップサンプリングを経る。
【0081】
一方、高周波数復号化を始める前に、広帯域信号が合成される必要がある。このような合成は、G.729.1コーデック902によって行われる。高周波数信号復号化では、一般的な前処理関数を適用する前に、32kbit/s広帯域合成が利用される。
【0082】
高周波数信号の復号化は、G.729.1広帯域復号化から合成されたMDCTドメイン表現を取得することにより始まる。MDCTドメイン広帯域コンテンツは、ジェネリックコーディングフレームの高周波数信号を復号化するために要求されるが、ここで、高周波数信号は、広帯域周波数範囲からのコーディングされたサブ帯域の適応的応答(adaptive replication)によって構成される。
【0083】
ジェネリックモード906は、適応的サブ帯域応答によって高周波数信号を構成する。また、2個の正弦波コンポーネントが1番目の4kbit/s超広帯域拡張階層のスペクトルに追加される。ジェネリックモード906と正弦波モード808とは、正弦波モード復号化技術に基づいた類似した向上階層(enhancement layers)を活用する。
【0084】
ジェネリックモード906では、本発明に係るオーディオ復号化方法によって、復号化された信号の品質改善がなされ得る。ジェネリックモード906は、2個の正弦波コンポーネントを再構成された全体高周波数スペクトルに追加する。この正弦波は、位置、符号、及び大きさで表現される。このとき、正弦波を追加するためのトラックの開始位置は、上述したように、相対的に大きいエネルギを有するサブ帯域のインデックスから取得される。
【0085】
正弦波モード908において、高周波数信号は、有限個の正弦波コンポーネントセットによって生成される。例えば、追加される正弦波の総個数は10個であるが、4個は7000−8600Hz周波数範囲に、4個は8600−10200Hz周波数範囲に、1個は10200−11800Hz周波数範囲に、1個は11800−12600Hz周波数範囲に位置することができる。
【0086】
正弦波復号化部910、912は、ジェネリックモード906または正弦波モード908によって出力された信号の品質を改善する。1番目の超広帯域向上階層は、10個の正弦波コンポーネントを正弦波モードフレームの高周波数信号スペクトルにさらに追加する。ジェネリックモードフレームで、追加される正弦波コンポーネントの数は、低周波数及び高波数改善間の適応的ビット割当によって設定される。
【0087】
正弦波復号化部910、912の復号化過程は次のとおりである。まず、ビットストリームから正弦波の位置が取得される。その後、ビットストリームは、伝送されたコーディングインデックス及び大きさコードブックインデックスを求めるために復号化される。
【0088】
正弦波復号化のためのトラックは、相対的に大きいエネルギを有するNsin/Nsin_track個のサブ帯域を探すことにより選択される。ここで、Nsin_trackは、トラック当り正弦波の個数であり、2に設定される。選択されたNsin/Nsin_track個のサブ帯域は、それぞれ正弦波復号化に用いられるトラックに対応する。
【0089】
それぞれの対応するトラックと関係のある10個の正弦波の位置インデックスは、ビットストリームから初めて求められる。その後、10個の正弦波の符号が復号化される。最後に、正弦波の大きさ(3個の8ビットコードブックインデックス)が復号化される。
【0090】
このように、正弦波復号化部910、912によって品質が改善された信号は、IMDCT920による逆MDCT、前処理部922による前処理を経る。アップサンプリング部918の出力信号及び前処理部922の出力信号は加えられて32kHz出力信号で出力される。
【0091】
前述した本発明は、本発明の属する技術分野における通常の知識を有した者にとって、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であるため、前述の実施形態及び添付した図面によって限定されるものではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9