特許第6229957号(P6229957)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許6229957音声信号を再生するための装置および方法、符号化音声信号を生成するための装置および方法、コンピュータプログラム、および符号化音声信号
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6229957
(24)【登録日】2017年10月27日
(45)【発行日】2017年11月15日
(54)【発明の名称】音声信号を再生するための装置および方法、符号化音声信号を生成するための装置および方法、コンピュータプログラム、および符号化音声信号
(51)【国際特許分類】
   G10L 21/0388 20130101AFI20171106BHJP
【FI】
   G10L21/0388 100
【請求項の数】12
【全頁数】21
(21)【出願番号】特願2015-528988(P2015-528988)
(86)(22)【出願日】2013年8月27日
(65)【公表番号】特表2015-526769(P2015-526769A)
(43)【公表日】2015年9月10日
(86)【国際出願番号】EP2013067730
(87)【国際公開番号】WO2014033131
(87)【国際公開日】20140306
【審査請求日】2015年3月18日
(31)【優先権主張番号】61/693,575
(32)【優先日】2012年8月27日
(33)【優先権主張国】US
(31)【優先権主張番号】12187265.9
(32)【優先日】2012年10月4日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】ディスヒ サッシャ
(72)【発明者】
【氏名】シューベルト ベンヤミン
(72)【発明者】
【氏名】マルトラス マルクス
(72)【発明者】
【氏名】ヘルムリッヒ クリスティアン
(72)【発明者】
【氏名】シュミット コンスタンティン
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2011−215198(JP,A)
【文献】 特開2004−053895(JP,A)
【文献】 EHRER A,AUDIO CODING TECHNOLOGY OF EXAC,PROCEEDINGS OF 2004 INTERNATIONAL SYMPOSIUM ON INTELLIGENT MULTIMEDIA, VIDEO AND SPEECH PROCESSING,米国,IEEE,2004年10月20日,P290-293
(58)【調査した分野】(Int.Cl.,DB名)
G10L 21/0388
(57)【特許請求の範囲】
【請求項1】
第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータ(120;321;705)および第2の周波数帯の前記音声信号の第2部分に関するサイド情報を表す第2のデータ(126;322;708)に基づいて前記音声信号を再生する装置であって、前記第2の周波数帯は、前記第1の周波数帯より高い周波数を含み、前記装置は、
前記第1のデータ(120;321;705)に基づく前記音声信号の前記第1部分(777)を再生するように構成された第1の再生装置(100)と、
前記音声信号の前記第1部分(777)に関して少なくとも部分的に無相関であるあるいは前記第2の周波数帯にシフトされた前記音声信号の前記第1部分(777)の少なくとも部分的に脱相関されたバージョンであるパッチ信号(122;204)を前記第2の周波数帯に提供するように構成されたプロバイダ(102;200、202a)と、
後処理プロセッサを表し、前記第2のデータに基づき前記パッチ信号を後処理することにより、前記第2のデータ(126;322;708)および前記パッチ信号(122;204)に基づき前記第2の周波数帯に前記音声信号の前記第2部分を再生するように構成された第2の再生装置(106)(106)と、但し、前記音声信号の前記第2部分のスペクトルエンベロープ、前記音声信号の前記第2部分におけるノイズフロア、前記音声信号の前記第2部分における各部分帯域に対する音調測定および前記音声信号の前記第2部分における突出した正弦波部分の明示的な符号化は、前記第2のデータにより表されたサイド情報を表す、
前記音声信号の前記第2部分が前記第2の再生装置により再生される前に前記音声信号の前記再生された第1部分(777)および前記パッチ信号(122;204)を結合するかあるいは前記音声信号の前記再生された第1部分(777)および前記音声信号の前記再生された第2部分を結合するための結合器(104)とを備え、
前記プロバイダは、前記パッチ信号が、前記第2のデータに基づき前記第2の再生装置により後処理される前に、前記パッチ信号を提供する、
ことを特徴とする装置。
【請求項2】
前記第2の再生装置(106)は、前記音声信号の前記第1部分(777)が前記音声信号の前記第1部分と前記音声信号の前記第2部分との間の相関を示すインジケータを含まない場合に前記第2のデータ(126;322;708)および前記パッチ信号(122;204)に基づき前記第2の周波数帯の前記音声信号を再生するように構成され、かつ、前記第2の再生装置(106)は、前記音声信号の前記第1部分(777)が前記音声信号の前記第1部分と前記音声信号の前記第2部分との間の相関を示すインジケータを含む場合に前記第2の周波数帯にシフトされかつ脱相関されない前記音声信号の前記第2のデータ(126;322;708)および前記第1部分のバージョンに基づき前記第2の周波数帯に前記音声信号を再生するように構成される、
ことを特徴とする請求項1に記載の装置。
【請求項3】
前記プロバイダ(102)は、前記音声信号の前記第1部分に関して無相関である合成パッチ信号を提供するように構成される、
ことを特徴とする請求項1または2に記載の装置。
【請求項4】
前記合成パッチ信号は、ノイズ信号である、
ことを特徴とする請求項3に記載の装置。
【請求項5】
前記プロバイダ(102)は、シフト装置(200)および脱相関器(202a….202p)を備え、それらは、前記第2の周波数帯にシフトされた前記音声信号の前記第1部分(777)の脱相関バージョンとして前記パッチ信号(122;204)を生成するように構成されている、
ことを特徴とする請求項1または2に記載の装置。
【請求項6】
前記脱相関器(202a…202p)は、前記音声信号の前記第1部分(777)のスペクトルエンベロープおよび前記音声信号の前記第1部分(777)の時間エンベロープのうちの少なくとも1つを保存するように構成される、
ことを特徴とする請求項5に記載の装置。
【請求項7】
前記脱相関器(202a…202p)は、
前記音声信号の前記第1部分における群遅延変動が生じるように構成された全域通過フィルタ、
前記音声信号の前記第1部分のスペクトル係数の位相ランダム化を生じるように構成された位相ランダマイザ、および、
周波数に依存する時間遅延を前記音声信号の前記第1部分であるサブ部分に適用するように構成されたアプリケータ、
のいずれか1つを備えた、
ことを特徴とする請求項5または6に記載の装置。
【請求項8】
前記脱相関器(202a…202p)は、
前記音声信号の前記第1部分(777)が、前記音声信号の前記第1部分と前記音声信号の前記第2部分との間の相関を示すインジケータを含まない場合に、より高い脱相関を適用するために、および前記音声信号の前記第1部分(777)が、前記音声信号の前記第1部分と前記音声信号の前記第2部分との間の相関を示すインジケータを含む場合に、より低い脱相関を適用するかあるいは脱相関を適用しないために、脱相関の程度を変化させるように構成された信号適応脱相関器を備えた、
ことを特徴とする請求項5〜7のいずれか1つに記載の装置。
【請求項9】
前記音声信号の前記第1信号部分(777)は、前記音声信号の前記第1部分と前記音声信号の前記第2部分との間の相関を示すインジケータを含むか否かを検出するように構成された検出器(108)を備えた、
ことを特徴とする請求項2または8のいずれか1つに記載の装置。
【請求項10】
前記プロバイダ(200、202a…202p)は、第3の周波数帯の第2のパッチ信号を提供するように構成され、前記第2のパッチ信号は、前記音声信号の前記第1部分に関して無相関であるかまたは前記音声信号の前記第1部分の脱相関バージョンであり、それは前記第3の周波数帯へシフトされ、前記第2のパッチ信号は、第1のパッチ信号に関して無相関であるか、脱相関であり、装置は、第3の再生装置を備え、前記第3の再生装置は、前記第2のパッチ信号に基づく前記音声信号の第3部分および前記第3の周波数帯における前記音声信号の前記第3部分に関するサイド情報を示す第3のデータを再生するように構成され、前記第3の周波数帯は、前記第2の周波数帯より高い周波数を含む、
ことを特徴とする請求項1〜9のいずれか1つに記載の装置。
【請求項11】
第1の周波数帯における音声信号の第1部分の符号化バージョンを表す第1のデータ(120;321;705)および第2の周波数帯における前記音声信号の第2部分に関するサイド情報を表す第2のデータ(126;322;708)に基づいて前記音声信号を再生する方法であり、前記第2の周波数帯は前記第1の周波数帯より高い周波数を含み、前記方法は、
前記第1のデータ(120;321;705)に基づき前記第1の周波数帯の前記音声信号(777)を再生すること、
前記第2の周波数帯にパッチ信号(122;204)を提供すること、但し、前記パッチ信号(122;204)は、少なくとも部分的に前記音声信号の前記第1部分(777)に関して無相関、あるいは、少なくとも部分的に前記音声信号の前記第1部分(777)の脱相関バージョンであり、それは、前記第2の周波数帯へシフトされ、
前記第2のデータに基づき前記パッチ信号を後処理する後処理プロセッサにより前記第2のデータ(126;322;708)および前記パッチ信号(122;204)に基づいて前記第2の周波数帯における前記音声信号の前記第2部分を再生すること、但し、前記音声信号の前記第2部分のスペクトルエンベロープ、前記音声信号の前記第2部分におけるノイズフロア、前記音声信号の前記第2部分における各部分帯域に対する音調測定および前記音声信号の前記第2部分における突出した正弦波部分の明示的な符号化は、前記第2のデータにより表されたサイド情報を表す、および、
前記音声信号の前記第2部分が再生されるかまたは前記音声信号の前記再生された第1部分(777)および前記音声信号の前記再生された第2部分を結合する前に、前記音声信号の前記再生された第1部分(777)および前記パッチ信号(122;204)を結合することを含み、
前記パッチ信号は、前記第2のデータに基づき前記後処理プロセッサにより後処理される前に提供される、
ことを特徴とする方法。
【請求項12】
コンピュータプログラムがコンピュータで実行されるときに、請求項11に記載の方法を実行するためのプログラムコードを含む、
ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号を再生するための、装置、方法およびコンピュータプログラムに関し、そして、特に、利用できるデータレートが減少される状況における音声信号を再生するための装置、方法およびコンピュータプログラムに関する。さらに、本発明は、符号化音声信号を生成する装置、方法およびコンピュータプログラムおよび対応する符号化音声信号に関する。
【背景技術】
【0002】
効率的な記憶およびこれらのデータレートを減少された信号の伝送のために、音声信号の知覚適応符号化は、多くの分野に受け入れられた。符号化アルゴリズムは、特に、MPEG−1/2、レイヤー3“MP3”、MPEG−2/4 先進的音響符号化(AAC)またはMPEG−H 音声音響統合符号化方式(USAC)として、知られている。基礎をなす符号化技術は、特に最小限のビットレートを達成する際に、音声品質の低下につながる。障害は、主に送信される音声信号帯域のエンコーダ側の制限によって、しばしば生じる。
【0003】
こうした状況では、音声信号をエンコーダ側に制限する帯域に従属させて、高品質音声エンコーダによって音声信号の下側帯域のみを符号化することは、周知の最新鋭技術である。上側帯域は、しかしながら、一組のパラメータによって非常に粗く特徴づけられるだけであり、そして、それは例えば上側帯域のスペクトルエンベロープを伝達する。デコーダ側において、上側帯域は、復号化された下側帯域信号をそれ以外は空の上側帯域にパッチすることにより、および、調整を制御された次のパラメータを実行することにより、その時合成される。
【0004】
帯域制限された音声信号の帯域幅を拡張するための標準的方法は、帯域制限のために失われた情報に近似するために、高周波数域(HF)に、低周波信号部分(LF)をコピーする機能を使用する。原則として、この種のコピー機能は、単側波帯(SSB)変調によって時間領域において計算されるスペクトルシフトに技術的に等しいが、計算上はるかに複雑ではない。スペクトル帯域複製(SBR)のようなこの種の方法は、M. Dietz, L. Liljeryd, K. Kjoerling and 0. Kunz, スペクトル帯域複製、オーディオ符号化における新規なアプローチ、第112回AESコンベンション、ミュンヘン、2002年5月、S. Meltzer, R. Boehm and F. Henn, デジタルラジオ・モンディエール(DRM)のようなデジタル放送のためのSBR強化オーディオコーデック、第112回AESコンベンション、ミュンヘン、2002年、T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, SBRによるmp3の強化:新しいmp3PROアルゴリズムの特徴と将来性、第112回AESコンベンション、ミュンヘン、2002年、International Standard ISO/IEC 14496-3:2001/FPDAM l, 帯域幅拡張、ISO/IEC、2002年または「音声帯域幅拡張方法および装置」Vasu Iyengarら 米国特許第5455888号明細書に記載されている。
【0005】
これらの方法において、ハーモニック転位は実行されないが、下側帯域の連続した帯域通過信号は、上側帯域の連続したフィルタバンクチャネルに導入される。これにより、音声信号の上側帯域の粗近似が、達成される。信号のこの粗近似は、そのとき、オリジナルの信号から得られる制御情報を使用している後処理によりオリジナルに近似される更なるステップ中に存在する。ここで、MPEG−4規格にも記載されているように、例えば、スケールファクタは、音調を適合させかつ正弦波信号部分により補充するために、スペクトルエンベロープ、逆フィルタリングおよびノイズフロアの追加を適合させるために役立つ。
【0006】
それは、Nagel, F.; Disch, S. 音声コーデックのためのハーモニック帯域幅拡張方法 音響、音声および信号処理に関するIEEE国際会議(ICASSP)、2009年、Nagel, F.; Disch, S.; Rettelbach, N. 音声コーデックのための新規な過渡的ハンドリングを有する帯域幅拡張方法により駆動される位相ボコーダ、第126回AESコンベンション、2009年、Zhong, H.; Villemoes, L.; Ekstrand, P. et al. QMFベースのハーモニックスペクトル帯域複製, 第131回オーディオ技術学会会議、2011年、Villemoes, L.; Ekstrand, P.; Hedelin, P. 拡張ハーモニック転移のための方法, 信号処理の音声および音響への応用に関するIEEEワークショップ(WASPAA)、2011年に記載されているハーモニック帯域幅拡張技術から公知であり、上側帯域を合成する際に不必要な聴覚粗さが、信号にもたらされ得る。前記粗さの(多くのものの内の)1つの原因は、パッチのスペクトル不整合および/または下側帯域および第1のパッチ間の、または、連続的なパッチ間の遷移領域の不調和効果である。計算の複雑性の代価でではあるが、ハーモニック帯域幅拡張技術は、これらの2つの態様を改善するように設計されている。
【0007】
フィルタバンク領域のフィルタバンク計算およびパッチは、特にハーモニック帯域幅拡張において、実際高い計算効果になり得る。国際公開第1998/57436号において、高度なパッチ技術は、計算量を適度に保つと共に、いずれが、若干の限られた範囲に、異なるスペクトルパッチの間にいわゆるガードバンドを導くことにより、かつ、スペクトル不整列を減少するために修正されたコピーアップパッチを実行することにより不調和効果を回避し得るかについて記述している。
【0008】
これから離れて、更なる方法が、例えばE. Larsen, R.M. Aarts, and M. Danessis, 音楽および音声の効率的な高周波帯域幅拡張、第112回AESコンベンション、ミュンヘン、ドイツ、2002年5月に記述されているいわゆる「ブラインド帯域幅拡張」のように存在し、そこではオリジナルのHF域に関する情報が使用されない。さらに、いわゆる「人工帯域幅拡張」の方法も、K. Kaeyhkoe, 狭帯域音声信号のロバスト広帯域強化、研究レポート、ヘルシンキ工科大学、音響および音声信号処理研究室、2001年に記述されて存在する。
【0009】
J. Maekinen et al.: AMR-WB+:第3世代携帯オーディオサービス放送のための新しいオーディオ符号化規格、IEEE、ICASSP2005年において、帯域幅拡張のための方法が記載されており、そこにおいて、SBR技術に従う連続した帯域通過信号のアップコピーとともに、帯域幅拡張のコピー操作が、ミラーリング、例えば、アップサンプリングによって置き換えられる。
【0010】
帯域幅拡張のための更なる技術は、以下の文献に記載されている。R.M. Aarts, E. Larsen, and O. Ouweltjes, 低周波と高周波の帯域幅拡張の統合アプローチ、第115回AESコンベンション、ニューヨーク、2003年10月、E. Larsen and R.M. Aarts, オーディオ帯域幅拡張−音響心理学への応用、信号処理とスピーカデザイン、John Wiley & Sons Ltd、2004年、E. Larsen, R.M. Aarts, and M. Danessis, 音楽および音声の効率的な高周波帯域幅拡張、第112回AESコンベンション、ミュンヘン、2002年5月、J. Makhoul, 線形予測による音声のスペクトル解析、IEEE学会誌オーディオと電気音響、AU−21(3)、1973年6月、米国特許出願第08/951029号明細書、米国特許第6895375号明細書。
【0011】
ハーモニック帯域幅拡張の公知の方法は、高い複雑度を示す。一方、複雑度を削減した帯域幅拡張の方法は、品質の低下を示す。特に、低ビットレートについては、かつ、LF域の低帯域幅と結合して、粗さおよび不快と認識される音質などのアーチファクトが、生じ得る。この理由は、主として近似されたHF(高周波)部分がスペクトルのLF部分の一つ以上の直接のコピーまたはミラー操作に基づくという事実である。
【先行技術文献】
【特許文献】
【0012】
【特許文献1】米国特許第5455888号明細書
【特許文献2】国際公開第1998/57436号
【特許文献3】米国特許出願第08/951029号明細書
【特許文献4】米国特許第6895375号明細書
【特許文献5】国際公開第2007/118583号
【非特許文献】
【0013】
【非特許文献1】M. Dietz, L. Liljeryd, K. Kjoerling and 0. Kunz, スペクトル帯域複製、オーディオ符号化における新規なアプローチ、第112回AESコンベンション、ミュンヘン、2002年5月
【非特許文献2】S. Meltzer, R. Boehm and F. Henn, デジタルラジオ・モンディエール(DRM)のようなデジタル放送のためのSBR強化オーディオコーデック、第112回AESコンベンション、ミュンヘン、2002年
【非特許文献3】T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, SBRによるmp3の強化:新しいmp3PROアルゴリズムの特徴と将来性、第112回AESコンベンション、ミュンヘン、2002年
【非特許文献4】International Standard ISO/IEC 14496-3:2001/FPDAM l, 帯域幅拡張、ISO/IEC、2002年
【非特許文献5】Nagel, F.; Disch, S. 音声コーデックのためのハーモニック帯域幅拡張方法 音響、音声および信号処理に関するIEEE国際会議(ICASSP)、2009年
【非特許文献6】Nagel, F.; Disch, S.; Rettelbach, N. 音声コーデックのための新規な過渡的ハンドリングを有する帯域幅拡張方法により駆動される位相ボコーダ、第126回AESコンベンション、2009年
【非特許文献7】Zhong, H.; Villemoes, L.; Ekstrand, P. et al. QMFベースのハーモニックスペクトル帯域複製, 第131回オーディオ技術学会会議、2011年
【非特許文献8】Villemoes, L.; Ekstrand, P.; Hedelin, P. 拡張ハーモニック転移のための方法, 信号処理の音声および音響への応用に関するIEEEワークショップ(WASPAA)、2011年
【非特許文献9】E. Larsen, R.M. Aarts, and M. Danessis, 音楽および音声の効率的な高周波帯域幅拡張、第112回AESコンベンション、ミュンヘン、ドイツ、2002年5月
【非特許文献10】K. Kaeyhkoe, 狭帯域音声信号のロバスト広帯域強化、研究レポート、ヘルシンキ工科大学、音響および音声信号処理研究室、2001年
【非特許文献11】J. Maekinen et al.: AMR-WB+:第3世代携帯オーディオサービス放送のための新しいオーディオ符号化規格、IEEE、ICASSP2005年
【非特許文献12】R.M. Aarts, E. Larsen, and O. Ouweltjes, 低周波と高周波の帯域幅拡張の統合アプローチ、第115回AESコンベンション、ニューヨーク、2003年10月
【非特許文献13】E. Larsen and R.M. Aarts, オーディオ帯域幅拡張−音響心理学への応用、信号処理とスピーカデザイン、John Wiley & Sons Ltd、2004年
【非特許文献14】E. Larsen, R.M. Aarts, and M. Danessis, 音楽および音声の効率的な高周波帯域幅拡張、第112回AESコンベンション、ミュンヘン、2002年5月
【非特許文献15】J. Makhoul, 線形予測による音声のスペクトル解析、IEEE学会誌オーディオと電気音響、AU−21(3)、1973年6月
【発明の概要】
【発明が解決しようとする課題】
【0014】
改良された方法における音声信号を再生する装置および方法を提供することは、本発明の目的である。更に、改良された方法で再生され得る符号化音声信号を生成する装置および方法を提供することは、本発明の目的である。対応するコンピュータプログラムおよび対応する符号化音声信号を提供することは、本発明の更なる目的である。
【課題を解決するための手段】
【0015】
この目的は、請求項1に記載の音声信号を再生する装置、請求項11に記載の音声信号を再生する方法、および請求項12に記載のコンピュータプログラムによって達成される。
【0016】
本発明の実施例は、第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータおよび第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータに基づいて音声信号を再生する装置を提供し、第2の周波数帯は、第1の周波数帯より高い周波数を含み、上記の装置は、以下を含む。
第1のデータに基づき音声信号の第1部分を再生するように構成された第1の再生装置、
音声信号の第1部分に関して無相関であるかまたは音声信号の第1部分の脱相関バージョンであり、第2の周波数帯へシフトされた第2の周波数帯のパッチ信号を提供するように構成されたプロバイダ、
第2のデータおよびパッチ信号に基づき第2の周波数帯の音声信号の第2部分を再生するように構成された第2の再生装置、および、
音声信号の第2部分が第2の再生装置により再生される前に音声信号の再生された第1部分とパッチ信号とを結合するための、あるいは、音声信号の再生された第1部分と音声信号の再生された第2部分とを結合するための結合器。
【0017】
本発明の実施例は、第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータおよび第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータに基づいて音声信号を再生する方法を提供し、第2の周波数帯は、第1の周波数帯より高い周波数を含み、上記の方法は、以下を含む。
第1のデータに基づいて第1の周波数帯の音声信号を再生すること、
音声信号の第1部分に関して無相関であるかまたは音声信号の第1部分の脱相関バージョンであり、それは第2の周波数帯へシフトされた第2の周波数帯のパッチ信号を提供すること、
第2のデータおよびパッチ信号に基づいて第2の周波数帯の音声信号を再生すること、および、
音声信号の第2部分が再生される前に音声信号の再生された第1部分およびパッチ信号を結合すること、または、音声信号の再生された第1部分および音声信号の再生された第2部分を結合すること。
【0018】
本発明の実施例は、脱相関のサブバンド音声信号を使用して帯域幅拡張を提供している音声信号の再生に関する。既に、既存の方法とは対照的に、大部分の信号歪みおよびアーチファクト、それは帯域幅拡張のために現在典型的である、は、相関している(コピーアップされたかミラーされた)サブバンド音声信号よりむしろ、帯域幅拡張のための脱相関されたサブバンド音声信号を用いて回避され得る。これは、音声信号を提供することによって達成され、それは音声信号の高周波部分の再生の基礎を形成し、音声信号の第1部分(LF部分)に関して無相関であるかまたは脱相関である。本発明の実施例は、音声信号の第2信号部分を再生するときに、低周波部分および高周波部分間の相関が維持される必要はないとの認識に基づく。むしろ、発明者は、アーチファクト、例えば粗さおよび不快であると認識された音質が、脱相関のあるいは完全に無相関のパッチ信号を利用することによって回避され得ると認識した。
【0019】
本発明の実施例は、符号化音声信号を生成する装置を提供し、符号化音声信号は、第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータおよび第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータを含み、第2の周波数帯は、第1の周波数帯より高い周波数を含み、上記の装置は、以下を含む。
符号化音声信号から音声信号を再生するときに、音声信号の第1部分と、音声信号の第2部分が再生されることに基づくパッチ信号との間に使用されるある程度の脱相関に関する符号化音声信号情報を加算するように構成された脱相関情報加算器。
【0020】
本発明の実施例は、符号化音声信号を生成する方法を提供し、符号化音声信号は、第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータおよび第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータを含み、第2の周波数帯は、第1の周波数帯より高い周波数を含み、上記の方法は、以下を含む。
符号化音声信号から音声信号を再生するときに、音声信号の第1部分と、音声信号の第2部分が再生されることに基づくパッチ信号との間に使用されるある程度の脱相関に関する符号化音声信号情報を加算すること。
【0021】
本発明の実施例は、以下を含む符号化音声信号を提供する。
第1の周波数帯の音声信号の第1部分の符号化バージョンを表す第1のデータ、
第1の周波数帯より高い周波数を含む第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータ、および、
符号化音声信号から音声信号を再生するときに、音声信号の第1部分と、音声信号の第2部分が再生されることに基づくパッチ信号との間に使用されるある程度の脱相関に関する情報。
【0022】
このように、本発明の実施例は、脱相関の適当な程度を使用している適当な方法で符号化音声信号を復号化し得る方法の符号化音声信号を生成し得る。脱相関の適当な程度は、音声信号の第1部分および/または第2部分の特性に基づいてエンコーダ側で決定され得る。
【0023】
以下に、本発明の実施例は、添付の図面に関して更に詳細に説明される。
【図面の簡単な説明】
【0024】
図1A図1Aは、音声信号を再生する装置の実施例のブロック図である。
図1B図1Bは、音声信号を再生する装置の他の実施例のブロック図である。
図2図2は、音声信号を再生する装置の更なる実施例のブロック図である。
図3図3は、符号化音声信号を生成する装置の実施例のブロック図である。
図4A図4Aは、本発明の実施例との関連でエンコーダ側を図式的に示す説明図である。
図4B図4Bは、本発明の実施例との関連でデコーダ側を図式的に示す説明図である。
図5A図5Aは、本発明の実施例の効果を例示している線図である。
図5B図5Bは、本発明の実施例の効果を例示している線図である。
図6図6は、本発明が発する音声信号を再生する装置のブロック図である。
図7A図7Aは、図6に示される装置の動作を説明する際に役立つ信号線図である。
図7B図7Bは、図6に示される装置の動作を説明する際に役立つ信号線図である。
図7C図7Cは、図6に示される装置の動作を説明する際に役立つ信号線図である。
図7D図7Dは、図6に示される装置の動作を説明する際に役立つ信号線図である。
【発明を実施するための形態】
【0025】
本発明の実施例を詳細に説明する前に、それは、本発明の基礎をなす理論的な思考について手短に述べることは、価値があると考えられる。
【0026】
上述したように、コピー動作(またはミラー動作)に基づく帯域幅拡張は、例えばSBR(SBR=スペクトル帯域複製)のように、HF域に直接LFスペクトルの大部分をコピーする。
【0027】
SBR装置の実施例は、図6および7を参照して記載されている。音声信号2のエンベロープは、図7Aに示される。音声信号2は、低周波部分(または低周波帯域)4、および、高周波部分(または高周波帯域)6を含む。概して、音声信号の知覚的な符号化において、低周波部分4は、高品質音声エンコーダ、例えばPCMエンコーダ(PCM=パルス符号変調)によって符号化されるが、その一方で、上側帯域は、サイド情報によって非常に粗く特徴づけられるだけである。符号化低周波部分を表すデータおよびサイド情報を表すデータは、対応するコアコーデックを使用して送信される。図6は、コアコーデックからのベースバンド信号8を示し、それは図7Bに示された低周波部分4を表す。この信号8は、単側波帯変調/コピーアップ装置に適用され、そこにおいて、信号8は、高周波部分6の周波数帯域にシフトされる。このシフトされた信号は、図7Cの信号10として示される。シフトされた信号10および信号8は、パッチ装置12に適用され、そこにおいて、両方の信号は、図7Cに示されるスペクトルを得るために、結合される(加算される)。信号部分8は、p個の異なるより高い周波数帯域にシフトされ得る。但し、p≧1である。このように、一つ以上の(p)シフトされた信号および信号8の組合せが、パッチ装置12において発生し得る。
【0028】
パッチ装置12の出力信号は、後処理装置14に適用され、それはまた、高周波部分6の音声信号を表すサイド情報16を受信する。このように、音声信号6の高周波部分10´は、サイド情報16および低周波部分4の音声信号に基づいて再生される。結果として生じる音声信号は、図7Dに示される。後処理装置14は、低周波部分4および高周波部分6の周波数帯域をカバーする全帯域出力を出力する。
【0029】
従って、コピー動作(またはミラー動作)に基づく帯域幅拡張は、例えばSBRのような、低周波スペクトルの大部分を高周波帯域に直接コピーする。これは、音声信号の時間領域表現の単側波帯変調を使用することにより、または、音声信号のスペクトル表現の直接のコピープロセス(コピーアップ)により達成され得る。この処理ステップは、通常「パッチ」と呼ばれている。
【0030】
通常、異なる高周波数帯にコピーされる複数のパッチが、存在し得る。それぞれの周波数帯域は、重複し得るあるいは重複し得ない。対応するHFパッチの各々は、このように、それが抽出された低周波帯域と、完全に相関している。発明者は、このことにより、時間的エンベロープ変調が、LF帯域およびそれぞれのHFパッチのスペクトル位置の間のスペクトル距離に依存する周波数を有する両方の信号を重畳することによって発生し得ると認識した。
【0031】
システム理論的な観点から、この現象は、サンプリング周波数としてのFsを有するnサンプルの遅延を含む有限インパルス応答(FIR)櫛形フィルタの動作に対する二重性と考えられていることである。このフィルタは、1/n*Fsの櫛幅(振幅周波数応答の2つの極大値の間のスペクトル距離)を有する振幅周波数応答を有する。それ故、システム理論的な二重性には、以下の直接的な対応関係がある:
【0032】
時間遅延<−>周波数変換
振幅周波数応答<−>時間的エンベロープ。
【0033】
発明者は、そこから生じる時間的変調が不快な態様で聞き取れて、周期的に反復するサイド極大値の形で波形振幅の自己相関関数内で可視とされ得ると認識した。コピーアップSBRのためのノイズ信号エンベロープの自己相関シーケンス内のこの種の周期的に反復するサイド極大値は、図5Aに示される。図5Aは、白色雑音の振幅エンベロープの自己相関関数を示し、そこにおいて、帯域幅は3つのダイレクトコピーアップパッチによって拡大され、それは各々の間で、かつ、LF帯域とともに完全に相関している。
【0034】
LFおよびHF信号が同じ振幅を示す場合にのみ、最大変調度が達成される。実際には、変調効果は従って、しばしばわずかにより低く、その理由は、HF域は、概してLF域より著しく静かである(より小音量)。ノイズのような信号または顕著な倍音構造を有する準定常信号は、変調アーチファクトに関して特に決定的であると見なされる。
【0035】
各々の中で完全に相関しているいくつかのパッチ(図6のp)の存在のために、上述の二重性は、また、もちろん有効である。振幅エンベロープの時間的変調は、対応するFIRフィルタの振幅周波数応答に対する二重性であるようである。
【0036】
このように、本発明の実施例によれば、パッチまたは複数のパッチは、各々から、および、LF帯域から脱相関されている。本発明の実施例では、それはより高い周波数帯域に導入されて、場合によっては、後処理され得る前に、低周波信号構成要素から、それぞれ導出される信号を脱相関する一つ以上の脱相関器が使用される。
【0037】
本発明の実施例は、相互に脱相関されたパッチを用いてコピー動作またはミラー動作のために発生する説明された問題を回避する。本発明の実施例では、それぞれのHFパッチは、脱相関器を使用する個々の方法、例えば全域通過フィルタまたは他の公知の脱相関方法によって、あるいは、すぐに自然に脱相関方法におけるパッチを合成的に作成するために、LF帯域から、脱相関されている。
【0038】
本発明の実施例では、脱相関の程度は、固定して決定され得るかまたはデコーダ側で調整され得るか、または、それはエンコーダからデコーダへのパラメータとして送信され得る。さらにまた、全パッチは、脱相関され得るか、またはパッチの特定部分のみであり得る。符号化音声信号に加えられた対応する情報の一部として、エンコーダからデコーダへのパラメータとして送信されることによっても、パッチの部分は、脱相関されるべきである。
【0039】
かく乱または寄生エンベロープ変調による歪または音声着色は、それらがLF帯域の単側波帯変調/コピーアップに基づいて現在の方法によって存在するときに、発明の方法によって本質的に回避されるので、帯域幅拡張のための従来の方法と比較したとき、発明の方法は有益である。これは、LF信号部分の脱相関バージョンである、または、LF信号部分に関して完全に無相関であるHFパッチを用いて達成される。
【0040】
本発明の実施例が実現され得るシナリオは、現在図4Aおよび4Bに関して記載されている。
【0041】
エンコーダ側は、図4Aに示され、また、デコーダ側は、図4Bに示される。音声信号は、入力700でローパス/ハイパスの組合せに入力される。ローパス/ハイパスの組合せは、一方では図Aに703で示した音声信号のローパスフィルタ処理バージョンを生成するためにローパス(LP)を含む。このローパスフィルタ処理された音声信号は、音声エンコーダ704で符号化される。音声エンコーダは、例えば、MP3エンコーダ(MPEG−1/2レイヤー3)またはAACエンコーダであり、MPEG−2/4規格に記載されている。帯域制限された音声信号703の透過的であるか有利に知覚的に透過的表現を提供している代替音声エンコーダは、完全に符号化されたまたは知覚的に符号化されたおよび知覚的に透過的に符号化された音声信号705をそれぞれ生成するためにエンコーダ704で使用し得る。音声信号の上側帯域は、「HP」によって示されるフィルタ702のハイパス部分による出力706で出力される。音声信号のハイパス部分、すなわち上側帯域またはHF帯域は、また、HF部分として示され、異なるパラメータ(音声信号の高周波部分を表すサイド情報を表す)を算出するように実現されたパラメータ計算機707に供給される。これらのパラメータは、例えば、比較的粗い解像度の上側帯域706のスペクトルエンベロープ、例えばバーク尺度上の各バーク帯域ごとに知覚的に適合された尺度(重要な帯域)上の各周波数グループのためのスケーリング係数の表現である。パラメータ計算機707により算出され得る更なるパラメータは、各帯域当たりのエネルギーがこの帯域のエンベロープのエネルギーに関連し得る上側帯域のノイズフロアである。パラメータ計算機707によって算出され得る更なるパラメータは、スペクトルエネルギーがどのように帯域において分配されるか、すなわち非音調信号が、この帯域中に存在する帯域におけるスペクトルエネルギーが比較的均一に分配されるかどうか、または、音調信号が、むしろこの帯域のために存在するこの帯域のエネルギーが帯域の特定の場所で比較的強く集中されるかどうか、について示す上側帯域の各部分的な帯域のための音調計測を含む。帯域幅拡張概念が、上側帯域の突出した正弦波部分のこの種の明確な符号化のない再生において、非常に基本的に、または、同じことを回復するのみ、あるいは全く回復しないだけであるので、更なるパラメータは、それらの高さおよびそれらの周波数に関して上側帯域において比較的強く突出しているピークを明確に符号化することにある。
【0042】
いずれにせよ、パラメータ計算機707は、それらが量子化スペクトル値、例えば差分符号化、予測またはハフマン符号化、など、のための音声エンコーダ704で実行され得るので、類似のエントロピー減少ステップを受け得る上側帯域のパラメータ708だけを生成するために実現されている。パラメータ表現708および音声信号705は、それから、概して例えばMPEG4規格において標準化されたような特定のフォーマットに従うビットストリームである出力側データストリーム710を提供するために実現されたデータストリームフォーマッタ709に供給される。
【0043】
本発明に適し得るように、デコーダ側は、図Bに示される。データストリーム710は、音声信号部分705からパラメータ部分708を分離するために実現されたデータストリームインタプリタ711に入力される。パラメータ部分708は、復号化パラメータ713を得るために、パラメータデコーダ712によって復号化される。これと並行して、音声信号部分705は、例えば、図6の8で示された音声信号777を得るために、音声デコーダ714によって復号化される。
【0044】
実現に依存して、音声信号777は、第1の出力715を介して出力され得る。出力715で、小帯域幅で低品質でもある音声信号が、そのとき得られ得る。しかしながら、品質向上のために、帯域幅拡張720は、拡張されたかあるいは高い帯域幅をそれぞれ、有しかつ高品質の出力側に関して音声信号12を得るために、図1A、1Bおよび2を参照して以下にて説明されるように、発明の方法を利用して実行され得る。
【0045】
音声信号を再生する発明装置の一つの実施例、そして、それにより、その帯域幅を拡大することは、図1Aに示される。装置は、第1の再生装置100、プロバイダ102、結合器104および第2の再生装置106を備える。任意には、遷移検出器108が、設けられ得る。第1の再生装置100は、その入力で、第1の周波数帯の音声データの第1部分の符号化バージョンを表す第1のデータ120を受信する。例えば、第1のデータ120は、図4Bに示される音声信号部分705に対応し得る。第1の再生装置100は、第1のデータ120に基づき第1の周波数帯の音声信号を再生する。例えば、第1の再生装置100は、図4Bに示される音声デコーダ714によって形成され得る。第1の再生装置110は、第1の周波数帯の音声信号を出力し、そして、それは図4Bに示される音声信号777に対応し得る。音声信号777は、プロバイダ102に適用され、そして、それは第2の周波数帯におけるパッチ信号122を提供する。パッチ信号122は、音声信号777の第1部分に関して少なくとも部分的に無相関であるかまたは部分的に少なくとも音声信号の第1部分の脱相関されたバージョンであり、そして、それは第2の周波数帯へシフトされた。音声信号777およびパッチ信号122は、結合器104における加算等で結合される。結合信号124は、出力されて、第2の再生装置106に適用される。第2の再生装置106は、結合信号124および第2の周波数帯の音声信号の第2部分に関するサイド情報を表している第2のデータ126を受信する。例えば、第2のデータ126は、図4Bに関して上記の復号化パラメータ713に対応し得る。第2の再生装置106は、(結合信号124の範囲内で)パッチ信号に基づき、かつ、第2のデータ126に基づき第2の周波数帯の音声信号を再生する。
【0046】
本発明の実施例では、第1の周波数帯は、図7Aに示された音声信号の第1部分と関連した周波数域に対応し得て、そして、第2の周波数帯は、図7Aに示された音声信号の第2部分と関連した周波数域に対応し得る。
【0047】
図1Aに図示した実施例によれば、第2の再生装置106は、高帯域を有する再生された音声信号128を出力する。
【0048】
図1Bに示された別の実施例において、プロバイダ102の出力は、第2の再生装置106に連結され、かつ、第2の再生装置106の出力は、結合器104に連結される。このように、図1Bに図示した実施例によれば、第2の周波数帯の音声信号130は、パッチ信号を音声信号の第1部分777と連結する前にプロバイダ102によって提供されているパッチ信号から再生される。また、第2の再生装置は、第2のデータ126およびパッチ信号122に基づき第2の周波数帯の音声信号130を再生する。図1Bの図示した実施例によれば、結合器104は、再生された音声信号128を出力する。
【0049】
本発明の実施例において、プロバイダは、シフト装置および脱相関器を備え、それは、第2の周波数帯へシフトされる音声信号の第1部分の脱相関バージョンとしてパッチ信号を生成するように構成される。本発明の実施例において、プロバイダは、音声信号の第1部分に関して無相関である合成パッチ信号を提供するように構成される。本発明の実施例において、プロバイダは、複数のパッチ信号を複数のより高い周波数帯に提供するように構成される。この種の実施例において、第2の再生装置および第2の結合器は、複数の第2の信号部分を再生して、複数の信号部分を再生された音声信号に結合するのに適合されている。
【0050】
帯域幅拡張を使用する音声信号、それは脱相関されたサブバンド音声信号を使用する、を再生する装置の実施例は、図2に示される。装置は、図4Bに示される信号777であり得るコアコーデックからベースバンド信号を受信する。信号777は、シフト装置200に適用される。シフト装置200は、低周波域から高周波域まで、例えば図7Aの低周波部分4と関連した周波数域から図7Aの高周波部分6と関連した周波数域まで、信号777をシフトするように構成される。
【0051】
シフト装置200は、単に周波数領域の高周波域へ信号部分777を単にコピーアップするよう構成され得る。あるいは、シフト装置200は、第1の周波数帯から第2の周波数帯へ音声信号の第1部分をシフトするために時間領域の単側波帯変調を実行するように構成される単側波帯変調装置として実現され得る。
【0052】
音声信号のシフトされた第1部分は、脱相関装置202aに適用される。音声信号のシフトされた脱相関の第1部分は、パッチ信号204として、脱相関装置202aによって出力される。パッチ信号204は、パッチ装置206に適用され、そこにおいて、パッチ信号204は、音声信号の第1部分777と結合される。例えば、パッチ信号および音声信号の第1部分は、パッチ装置206において連結されるかまたは加えられる。結合信号は、パッチ装置206から出力されて、後処理装置210に適用される。
【0053】
後処理装置210は、第2のデータ212を受信して、第2のデータ212およびパッチ信号204(それは、結合信号208に含まれる)に基づいて第2の周波数帯の音声信号の第2部分を再生するように構成される第2の再生装置を表す。また、第2のデータ212は、サイド情報を表して、図4Bに関して上記で説明された復号化パラメータ713に対応し得る。後処理装置210の全帯域出力214は、再生された音声信号を表す。
【0054】
図2に示した実施例において、シフト装置200および脱相関装置202aは、プロバイダがパッチ信号204を提供するように構成されることを表している。
【0055】
本発明の実施例では、シフト装置200は、複数(p)の異なる周波数帯に音声信号の第1部分777をシフトするように構成され得る。脱相関装置202a−202pは、p本のパッチ信号を提供するために、各シフトされたバージョンごとに設けられ得る。複数のパッチ(例えばpパッチ)が使用される場合に備えて、pパッチは、各々およびLFバンドの中で無相関であるべきである。それから、各周波数帯と関連したシフトされたバージョンは、パッチ装置206内で結合される。音声信号の複数のより高い周波数部分が後処理装置210において再生されるように、より高周波数帯の各々のためのサイド情報を表す第2のデータは、後処理装置210に提供され得る。
【0056】
本発明の実施例では、第1および第2の周波数帯(そして、任意に更なる周波数帯)は、周波数方向において重複し得るかまたは重複し得ない。
【0057】
従って、本発明の実施例で、プロバイダは、第1の周波数帯の音声信号の第1部分を第2の周波数帯に、または、複数の異なる第2の周波数帯にシフトするように構成されるシフター装置、および音声信号の第1部分から音声信号の第1部分にシフトされたバージョンを脱相関するための脱相関器を備える。本発明の実施例においては、脱相関器は、例えば空間音声符号化脱相関として知られているように同じ特性を有し得る。本発明の実施例において、脱相関器は、スペクトル帯域複製を使用した従来の帯域幅拡張に典型的である信号歪みおよびアーチファクトを回避するために、充分な脱相関を提供し得る。脱相関器は、音声信号の第1部分のスペクトルエンベロープの保存を提供し得る、および/または音声信号の第1部分の時間的エンベロープ、すなわち過渡信号、の保存を提供し得る。このように、適当な脱相関器を設計することは、概して、一時的な保存と脱相関との間になされるトレードオフを含み得る。
【0058】
本発明の実施例では、脱相関器は、時間領域またはサブバンド時間領域、例えば全域通過フィルタにおけるIIR(IIR=無限インパルス応答)フィルタとして実現し得、そこにおいて、脱相関は、群遅延変動を介して達成される。本発明の実施例では、脱相関器は、複素(オーバーサンプリングされた)変換/フィルタバンク表現(DFT、QMF表現)(DFT=離散フーリエ変換;QMF=直交ミラーフィルタ)におけるスペクトル係数の位相ランダム化を提供するように構成され得る。本発明の実施例では、脱相関器は、フィルタバンク表現の周波数依存時間遅延のアプリケーションを提供するために構成され得る。
【0059】
本発明の実施例は、過渡信号を保存するために脱相関の程度を変化させる信号適応脱相関器を備え得る。高い脱相関は、準定常信号のために提供され得、そして、低い脱相関は、過渡信号のために提供され得る。従って、本発明の実施例において、パッチ信号を提供するためのプロバイダは、脱相関の異なる程度の間で切り替え得る。
【0060】
実施例において、パッチ信号を提供するためのプロバイダは、第1の信号部分が音声信号の第1部分と音声信号の第2部分との間の強い相関を示すインジケータを備えるかどうかに依存している脱相関の異なる程度の間で切り替え得る。この種のインジケータのための実施例は、音声信号の第1部分の過渡信号、音声信号の第1部分のパルス列からなる有声音声および/または音声信号の第1部分の金管楽器の音である。以下に、実施例が記載されており、そこにおいて、インジケータは、音声信号の第1部分の過渡信号である。
【0061】
本発明の実施例では、装置は、音声信号の第1部分が過渡信号を含むかどうかを検出するように構成される検出器を備え得る。この種の検出器108は、図1Aおよび1Bに図式的に示される。検出器108の出力信号に応じて、プロバイダ102は、準定常信号のための高い脱相関、すなわち音声信号の第1部分が過渡信号を有しない場合、および音声信号の第1部分が過渡信号を有する場合に低い脱相関、を有するパッチ信号を提供するように構成され得る。
【0062】
本発明の別の実施例において、装置は、準定常信号のために起動して、過渡信号部分のために停止する信号適応脱相関器を備え得る。換言すれば、第1の信号部分が過渡信号部分を含む場合に、プロバイダはその脱相関のないシフトされた第1の信号部分を出力するように、そして、第1の信号部分が過渡信号または過渡的信号部分を含まない場合に、脱相関パッチ信号のみを出力するように、構成され得る。このような実施例では、第2の再生装置は、音声信号の第1部分が過渡信号を有しない場合、第2のデータおよびパッチ信号に基づき第2の周波数帯の音声信号を再生するように構成され、音声信号の第1部分が過渡信号を有する場合、第2のデータおよび第2の周波数帯にシフトされ脱相関されていない音声信号の第1部分のバージョンに基づいて、第2の周波数帯に音声信号を再生するように構成される。
【0063】
過渡信号または過渡信号部分は、音声信号が全体で多く、すなわち例えば音声信号のエネルギーが1つの時間的部分から次の時間的部分までの50%以上によって変化する、すなわち増加あるいは減少するという事実にあると、考えられると見なし得る。しかしながら、50%の閾値は実施例だけであり、そして、それはより少ないかより大きな値であり得る。あるいは、過渡的な検出のために、エネルギー分布の変化は、例えば独唱曲から歯擦音への移行で、考慮され得る。
【0064】
本発明の実施例では、プロバイダは、音声信号の第1部分に関して無相関である合成パッチ信号を提供するように構成され得る。換言すれば、パラメータの後処理が細かい顆粒状(高ビットレートコーデックシナリオ)である場合、または、信号のHF帯がいずれにせよ雑音類似である場合、無相関の合成パッチ信号(例えば合成ノイズ)を有するパッチは、すでに十分であり得る。
【0065】
本発明の実施例では、LF帯および帯域幅拡張(SBRのような)の範囲内のHF帯の相関は、パラメータ後処理(例えば低ビットレートコーデックシナリオのため)の過度に粗な時間グリッド、過渡信号の正確な再生、そして、豊かな倍音構造(通常、音調は脱相関に影響を受けず、そして、このように、音調の保存は、脱相関器を設計する際の課題を提起しない)を有するトーンの維持、を強化するために、それにもかかわらず有効である。
【0066】
例えば空間音声符号化脱相関から公知の脱相関器に関心がある限り、例えば国際公開第2007/118583号が参照される。
【0067】
本発明の実施例では、プロバイダ102は、適応脱相関器を備え得、それは、エンコーダからデコーダまで送信されるパラメータに基づき、HFパッチの脱相関を調整する。このような実施例では、装置は、符号化音声信号から音声信号を再生するときに、第2部分が再生されることに基づき音声信号の第1部分とパッチ信号との間に用いられるある程度の脱相関に関する情報を含む第1のデータ、第2のデータおよび第3のデータに基づく音声信号を再生するように構成されている。例えば、本出願の図3に示される脱相関情報加算器300によって、この種の第3のデータは、エンコーダ側に関する符号化音声データに加えられ得る。図3に示される装置は、脱相関情報加算器を除いて図4Aに示される装置に対応する。
【0068】
脱相関情報加算器300は、ローパスフィルタ702の出力を受信して、ローパスフィルタ702の出力信号から、特性を検出し得る。例えば、脱相関情報加算器は、ローパスフィルタ702の出力信号の過渡信号を検出し得る。ローパスフィルタ702の出力特性に応じて、脱相関情報加算器は、音声信号の第1部分と符号化音声信号から音声信号を再生するときに、第2部分が再生されることに基づくパッチ信号との間に使用されるべきある程度の脱相関に関する情報を符号化音声信号710に加える。例えば、脱相関情報は、デコーダ側のプロバイダが低い脱相関を実行するように、あるいは、音声信号の低周波部分に過渡部分が存在する場合にいかなる脱相関をも実行しないように、命じ得る。
【0069】
本発明の実施例では、脱相関情報加算器は、音声信号の高周波部分706を受け得て、そこから特性を引き出すように構成され得る。例えば、HF帯がノイズ状であることを脱相関情報加算器が検出する場合に、それはデコーダ側のプロバイダに合成ノイズ信号に基づいてパッチ信号を提供するように勧告し得る。
【0070】
このような実施例では、データストリーム710によって表される符号化音声信号320は、音声信号の第1部分の符号化バージョンを表す第1のデータ321、第2の周波数帯の音声信号の第2部分に関するサイド情報を表す第2のデータ322および音声信号の第1部分と符号化音声信号から音声信号を再生するときに第2部分が再生されることに基づくパッチ信号との間に使用されるある程度の脱相関に関する情報323を含む。
【0071】
従って、本発明の実施例は、音声信号を再生するための、すなわち音声信号帯域のデコーダ側の拡張のための、改良された方法を提供する。他の実施例において、本発明は、符号化音声信号を生成する装置を提供する。他の実施例においてさえ、本発明は、この種の符号化音声信号に関する。
【0072】
発明の方法によって達成される有益な効果は、本出願の図5Bに示すように、脱相関パッチのノイズ信号エンベロープの自己相関シーケンスを有するコピーアップSBR(図5Aに示される)のためのノイズ信号エンベロープの自己相関シーケンスの比較によって可視化され得る。図5Bは、白色雑音の振幅エンベロープの自己相関関数であり、そこにおいて、帯域幅は、各々の中で、そして、LF帯に無相関の3つのパッチによって拡張される。図5Bは、明らかに、図5Aに示される不必要な側の最大の消滅を示す。
【0073】
本出願は、完全な帯域幅が利用できないすべての音声アプリケーションに適用できるか適している。発明の方法は、音声コンテンツの配布または放送、例えばデジタルラジオ、インターネットストリーミングおよび音声通信アプリケーションにおける使用を見出し得る。本発明の実施例は、脱相関のサブバンド音声信号を使用している帯域幅拡張に関連する。
【0074】
若干の態様が装置との関連で記載されていたにもかかわらず、これらの態様も対応する方法の説明を表すことは明らかであり、そこでは、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関連で記載されている態様も、対応するブロックまたは事項または対応する装置の特徴の説明を表す。
【0075】
特定の実現要求に応じて、本発明の実施例は、ハードウェアで、または、ソフトウェアで実現され得る。実現は、その上に格納される電子的に読み込み可能な制御信号を有するディジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ、を使用して実行され得る。そして、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協働する(または協働し得る)。
【0076】
本発明によるいくつかの実施例は、電子的に読み込み可能な制御信号を有するデータキャリアを含み、本願明細書において記載されている方法の1つが実行されるように、それはプログラム可能なコンピュータシステムと協同し得る。
【0077】
通常、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実施され得て、コンピュータプログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの1つを実行するために実施されている。プログラムコードは、有形の機械読み取り可読担体に例えば格納され得る。
【0078】
他の実施例は、本願明細書において記載されていて、機械可読キャリアまたは非一時的記憶媒体に格納される方法の1つを実行するためのコンピュータプログラムを含む。
【0079】
換言すれば、発明方法の実施例は、従って、コンピュータプログラムがコンピュータで実行されるとき、本願明細書において記載されている方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0080】
発明方法の更なる実施例は、従って、その上に記録されて、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムを含むデータ担体(またはディジタル記憶媒体またはコンピュータ可読媒体)である。
【0081】
発明方法の更なる実施例は、従って、本願明細書において記載されている方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、データ通信接続、例えばインターネットを介して転送されるように例えば構成され得る。
【0082】
更なる実施例は、本願明細書において記載された方法の1つを実行するために構成されあるいは適用された処理手段、例えばコンピュータまたはプログラム可能論理装置を含む。
【0083】
更なる実施例は、その上に、本願明細書において記載された方法の1つを実行するためのコンピュータプログラムをインストールされたコンピュータを含む。
【0084】
いくつかの実施例では、プログラム可能論理装置(例えばフィールドプログラマブルゲートアレイ)は、本願明細書において記載されている方法の機能のいくつかまたは全てを実行するために使用し得る。いくつかの実施例では、フィールドプログラマブルゲートアレイは、本願明細書において記載されている方法の1つを実行するために、マイクロプロセッサと協働し得る。通常、方法は、いかなるハードウェア装置によっても好適に実行される。
【0085】
上記した実施例は、本発明の原理のために、単に図示するだけである。本願明細書において記載されている装置の修正および変更および詳細は、他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲のみにより制限され、および、本願明細書および実施例の説明により示される具体的詳細の記載によっては制限されないことが、意図される。
図1A
図1B
図2
図3
図4A
図4B
図5A
図5B
図6
図7A
図7B
図7C
図7D