IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

<>
  • 特許-高調波転換 図1
  • 特許-高調波転換 図2
  • 特許-高調波転換 図3
  • 特許-高調波転換 図4
  • 特許-高調波転換 図5
  • 特許-高調波転換 図6
  • 特許-高調波転換 図7
  • 特許-高調波転換 図8
  • 特許-高調波転換 図9
  • 特許-高調波転換 図10
  • 特許-高調波転換 図11
  • 特許-高調波転換 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-15
(45)【発行日】2024-10-23
(54)【発明の名称】高調波転換
(51)【国際特許分類】
   G10L 21/0388 20130101AFI20241016BHJP
【FI】
G10L21/0388 100
【請求項の数】 13
【外国語出願】
(21)【出願番号】P 2023072385
(22)【出願日】2023-04-26
(62)【分割の表示】P 2021128117の分割
【原出願日】2010-03-12
(65)【公開番号】P2023083608
(43)【公開日】2023-06-15
【審査請求日】2023-04-26
(31)【優先権主張番号】61/243,624
(32)【優先日】2009-09-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】エクストランド,ペール
(72)【発明者】
【氏名】ヴィレモエス,ラルス,ファルック
【審査官】山下 剛史
(56)【参考文献】
【文献】国際公開第2009/095169(WO,A1)
【文献】特表2001-521648(JP,A)
【文献】特開2008-20913(JP,A)
【文献】国際公開第2008/081144(WO,A2)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
転換因子Tによって入力オーディオ信号を転換して出力オーディオ信号を生成するオーディオ信号処理装置であって、当該オーディオ信号処理装置は:
関数v(n)=sin((π/L)(n+0.5))、0≦n<Lを有する長さLの分解窓を使って前記入力オーディオ信号のL個の時間領域標本値のフレームを抽出する段階と;
前記L個の時間領域標本値をM個の複素周波数領域係数に変換する段階と;
前記転換因子Tを使って前記複素周波数領域係数の位相を変更する段階と;
変更された周波数領域係数をM個の変更された時間領域標本値に変換する段階と;
合成窓を使って前記M個の変更された時間領域標本値から前記出力オーディオ信号のL個の時間領域出力標本値のフレームを生成する段階とを実行する一つまたは複数のコンポーネントを有しており、
M=F*Lであり、Fは、周波数領域オーバーサンプリング因子であり、
前記出力オーディオ信号のL個の時間領域出力標本値のフレームは、前記入力オーディオ信号のL個の時間領域標本値のフレームには存在しない複数の高周波数成分を含み、前記高周波数成分の少なくとも一つは転換因子Tを使って生成され、前記高周波数成分の少なくとも他の一つは第二の転換因子T2を使って生成され、TはT2に等しくない、
オーディオ信号処理装置。
【請求項2】
前記オーバーサンプリング因子Fは(T+1)/2以上であり、前記転換因子Tは1より大きい整数である、請求項1記載のオーディオ信号処理装置。
【請求項3】
前記位相の変更が、前記位相に転換因子Tを乗算することを含む、請求項1記載のオーディオ信号処理装置。
【請求項4】
前記分解窓が長さLを、追加的な(F-1)*L個のゼロによるゼロ・パディングとともに有する、請求項1記載のオーディオ信号処理装置。
【請求項5】
前記一つまたは複数のコンポーネントがさらに:
前記分解窓を前記入力オーディオ信号に沿って分解ストライドだけシフトさせて、前記入力オーディオ信号の一連のフレームを生じる段階と;
L個の時間領域出力標本値の一連のフレームを合成ストライドだけシフトさせる段階と;
L個の時間領域出力標本値の一連のシフトされたフレームを重ねて加算して、前記出力オーディオ信号を生成する段階とを実行する、
請求項1記載のオーディオ信号処理装置。
【請求項6】
前記一つまたは複数のコンポーネントがさらに、前記出力オーディオ信号のサンプリング・レートを転換因子Tにより増加させ、転換された出力オーディオ信号を生じる、請求項5記載のオーディオ信号処理装置。
【請求項7】
前記合成ストライドが前記分解ストライドのT倍である、請求項6記載のオーディオ信号処理装置。
【請求項8】
転換因子Tによって入力オーディオ信号を転換して出力オーディオ信号を生成する、オーディオ信号処理装置によって実行される方法であって、当該方法は:
関数v(n)=sin((π/L)(n+0.5))、0≦n<Lを有する長さLの分解窓を使って前記入力オーディオ信号のL個の時間領域標本値のフレームを抽出する段階と;
前記L個の時間領域標本値をM個の複素周波数領域係数に変換する段階と;
前記転換因子Tを使って前記複素周波数領域係数の位相を変更する段階と;
変更された周波数領域係数をM個の変更された時間領域標本値に変換する段階と;
合成窓を使って前記M個の変更された時間領域標本値から前記出力オーディオ信号のL個の時間領域出力標本値のフレームを生成する段階とを含み、
M=F*Lであり、Fは、周波数領域オーバーサンプリング因子であり、
前記出力オーディオ信号のL個の時間領域出力標本値のフレームは、前記入力オーディオ信号のL個の時間領域標本値のフレームには存在しない複数の高周波数成分を含み、前記高周波数成分の少なくとも一つは転換因子Tを使って生成され、前記高周波数成分の少なくとも他の一つは第二の転換因子T2を使って生成され、TはT2に等しくない、
方法。
【請求項9】
前記L個の時間領域標本値をM個の複素周波数領域係数に変換することが、フーリエ変換、高速フーリエ変換、離散フーリエ変換、ウェーブレット変換のうちの一つを実行することである、請求項8記載の方法。
【請求項10】
前記オーバーサンプリング因子Fは(T+1)/2以上であり、前記転換因子Tは1より大きい整数である、請求項8記載の方法。
【請求項11】
前記入力オーディオ信号がオーディオ信号の低周波数成分を含む、請求項8記載の方法。
【請求項12】
オーディオ信号処理装置での実行のための命令を有する非一時的なコンピュータ可読媒体であって、前記命令は、前記オーディオ信号処理装置によって実行されると、前記オーディオ信号処理装置に請求項8記載の方法を実行させるものである、コンピュータ可読媒体。
【請求項13】
コンピュータで実行されたときに請求項8記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム・プロダクト。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、周波数において信号を転換する、および/または時間において信号を伸張/圧縮することに、特にオーディオ信号の符号化に関する。換言すれば、本発明は、時間スケールおよび/または周波数スケールの修正に関する。より具体的には、本発明は、周波数領域高調波転換器(harmonic transposer)を含む高周波数再構成(HFR: high frequency reconstruction)に関する。
【背景技術】
【0002】
スペクトル帯域複製(SBR: Spectral Band Replication)技術のようなHFR技術は、伝統的な知覚的なオーディオ・コーデックの符号化効率を著しく改善できる。MPEG-4先進オーディオ符号化(AAC: Advanced Audio Coding)と組み合わせて、HFR技術は非常に効率的なオーディオ・コーデックをなす。それはすでにXM衛星ラジオ(XM Satellite Radio)システムおよびデジタル・ラジオ・モンディアル(Digital Radio Mondiale)内ですでに使用されており、3GPP(登録商標)、DVDフォーラムなどの範囲内で標準化されている。AACとSBRの組み合わせはaacPlusと呼ばれる。これはMPEG-4規格の一部であり、該規格では高効率AACプロファイル(High Efficiency AAC Profile)と称されている。一般に、HFR技術はいかなる知覚的オーディオ・コーデックとも、上位互換かつ下位互換な仕方で組み合わされることができ、よってユーレカ(Eureka)DABシステムにおいて使われているMPEG-2レイヤー2のようなすでに確立されている放送システムをアップグレードする可能性をもたらす。HFR転換法も、音声コーデックと組み合わされて、超低ビットレートで広い帯域幅の音声を可能にできる。
【0003】
HRFの背後にある基本的な発想は、信号の高周波数範囲の特性と、同じ信号の低周波数範囲の特性との間には通例強い相関があるという観察である。よって、信号のもとの入力高周波数範囲の表現のためのよい近似が、低周波数範囲から高周波数範囲への信号転換によって達成できる。
【0004】
転換の概念はWO98/57436において、高周波数帯域を、オーディオ信号のより低い周波数帯域から再生成する方法として確立された。この概念を音響符号化および/または音声符号化において使うことによってビットレートの実質的な節約が得られる。以下では、音響符号化〔オーディオ符号化〕に言及するが、記載される方法およびシステムは音声符号化にも、統合音声音響符号化(unified speech and audio coding)においても等しく適用可能であることを注意しておくべきである。
【0005】
HFRベースのオーディオ符号化システムでは、低帯域幅信号がコア波形符号化器に呈示され、より高い周波数は前記低帯域幅信号の転換および追加的な副情報を使ってデコーダ側で再生成される。副情報は典型的には非常に低ビットレートでエンコードされ、目標スペクトル形を記述する。コア符号化信号の帯域幅が狭い低ビットレートのためには、ハイバンド、すなわちオーディオ信号の高周波数範囲を知覚的に快適な特性をもって再生成または合成することがますます重要になる。
【0006】
従来技術では、たとえば高調波転換(harmonic transposition)または時間伸張(time-stretching)を使う、高調波周波数再構成方法のためのいくつかの方法がある。一つの方法は、十分高い周波数分解能で周波数解析を実行するという原理のもとに動作する、位相ボコーダ(phase vocoder)に基づく。信号を再合成する前に、周波数領域で信号修正が実行される。信号修正は、時間伸張または転換動作であってもよい。
【0007】
これらの方法に関して存在する根底にある問題の一つは、定常音についての高品質の転換を得るための意図される高周波数分解能と、過渡的または打撃的な音についての系の時間応答という相反する制約である。換言すれば、定常信号の転換のためには高周波数分解能が有益であるものの、そのような高周波数分解能は典型的には大きな窓サイズを必要とし、それは信号の過渡部分を扱うときには有害になる。この問題に対処する一つのアプローチは、転換器の窓を入力信号特性の関数として、たとえば窓切り換えを使うことによって、適応的に変化させることでありうる。典型的には信号の定常部分については、高い周波数分解能を達成するために長い窓が有用である。一方、信号の過渡部分については、転換器の良好な過渡的応答、すなわち良好な時間分解能を実装するために短い窓が使われる。しかしながら、このアプローチは、過渡検出などといった信号解析施策が転換システムに組み込まれなければならないという欠点がある。そのような信号解析施策はしばしば、信号処理の切り換えをトリガーする判断ステップ、たとえば過渡信号の存在についての判断を含む。さらに、そのような施策は典型的には系の信頼性に影響し、信号処理を切り換えるときに、たとえば窓サイズを切り換えるときに信号アーチファクトを導入することがある。
【0008】
本発明は、窓切り換えの必要なしに高調波転換の過渡的な性能に関する上述した問題を解決する。さらに、改善された高調波転換が、複雑さをそれほど追加することなく達成される。
【先行技術文献】
【特許文献】
【0009】
【文献】EP0940015B1/WO98/57436
【発明の概要】
【発明が解決しようとする課題】
【0010】
本発明は、高調波転換についての改善された過渡性能や、高調波転換のための既知の方法に対するさまざまな改善の問題に関する。さらに、本発明は、提案される改善を維持しながら、いかにして追加される複雑さを最小限に保ちうるかを説明する
なかでも、本発明は、次の側面のうちの少なくとも一つを有することがある:
・転換器の動作点における転換因子の関数である因子だけ周波数においてオーバーサンプリングする;
・分解窓および合成窓の組み合わせの適切な選択;および
・異なる転換された信号が組み合わされる場合についての、そのような信号の時間整列を保証すること。
【課題を解決するための手段】
【0011】
本発明のある側面によれば、転換因子Tを使って入力信号から転換された出力信号を生成するためのシステムが記述される。転換された出力信号は、入力信号の時間伸張および/または周波数シフトされたバージョンであってもよい。入力信号に対して、転換された出力信号は転換因子Tだけ時間的に伸張されていてもよい。あるいはまた、転換された出力信号の周波数成分が転換因子Tにより上にシフトされていてもよい。
【0012】
システムは、入力信号のL個の標本値を抽出する長さLの分解窓を含んでいてもよい。典型的には、入力信号のL個の標本値は、時間領域における入力信号、たとえばオーディオ信号の標本値である。抽出されたL個の標本値は、入力信号のフレームと称される。システムはさらに、L個の時間領域標本値をM個の複素係数に変換する次数M=F×Lの分解変換ユニットを有する。ここで、Fは周波数オーバーサンプリング因子である。M個の複素係数は典型的には周波数領域における係数である。分解変換はフーリエ変換、高速フーリエ変換、離散フーリエ変換、ウェーブレット変換または(可能性としては変調された)フィルタバンクの分解段であってもよい。オーバーサンプリング因子Fは、転換因子Tに基づくまたはTの関数である。
【0013】
オーバーサンプリング動作は、追加的な(F-1)×L個の0による分解窓のゼロ・パディングと称されてもよい。それはまた、分解窓のサイズより因子F倍大きい分解変換のサイズMを選ぶことと見ることもできる。
【0014】
システムはまた、転換因子Tを使うことによって複素係数の位相を変更する非線形処理ユニットをも有していてもよい。位相の変更は、複素係数の位相を転換因子T倍することを含んでいてもよい。さらに、システムは、変更された係数をM個の変更された標本値に変換する次数Mの合成変換ユニットと、出力信号を生成するための長さLの合成窓とを有していてもよい。合成変換は逆フーリエ変換、逆高速フーリエ変換、逆離散フーリエ変換、逆ウェーブレット変換または(可能性としては)変調されたフィルタバンクの合成段であってもよい。典型的には、分解変換および合成変換は、たとえば転換因子T=1のときに入力信号の完全な再構成を達成するために、互いに関係している。
【0015】
本発明のもう一つの側面によれば、オーバーサンプリング因子Fは転換因子Tに比例する。特に、オーバーサンプリング因子Fは(T+1)/2以上であってもよい。オーバーサンプリング因子Fのこの選択は、転換によって引き起こされうる望まれない信号アーチファクト、たとえばプレ・エコーおよびポスト・エコーが合成窓によって阻止されることを保証する。
【0016】
より一般的な形では、分解窓(analysis window)の長さはLaであってもよく、合成窓(synthesis window)の長さはLsであってもよいことを注意しておくべきである。また、そのような場合、変換ユニットの次数Mを転換次数Tに基づいて、すなわち転換次数Tの関数として選択することが有益でありうる。さらに、Mを、分解窓と合成窓の平均長さより大きくなるよう、すなわち(La+Ls)/2より大きくなるよう選択することが有益でありうる。ある実施形態では、変換ユニットの次数Mと平均窓長の差が(T-1)に比例する。あるさらなる実施形態では、Mは(TLa+Ls)/2以上であるよう選択される。分解窓および合成窓の長さが等しい、すなわちLa=Ls=Lである場合が上記の一般的な場合の特別な場合であることを注意しておくべきである。一般的な場合について、オーバーサンプリング因子は
【数1】
であってもよい。システムはさらに、分解窓を、入力信号に沿って標本値Sa個ぶんの分解ストライド(stride〔きざみ幅、歩幅〕)だけシフトさせる分解ストライド・ユニットを有していてもよい。分解ストライド・ユニットの結果として、入力信号の一連のフレームが生成される。さらに、システムは、合成窓および/または出力信号の一連のフレームを、標本値Ss個ぶんの合成ストライドだけシフトさせる合成ストライド・ユニットを有していてもよい。結果として、出力信号の一連のシフトされたフレームが生成され、それらのフレームは重畳加算(overlap-add)ユニットにおいて重ねられ、加えられてもよい。
【0017】
換言すれば、分解窓は入力信号のL個またはより一般にLa個の標本値を、たとえば入力信号のL個の標本値の組に0でない窓係数を乗算することによって、抽出または単離してもよい。そのようなL個の標本値の組は、入力信号フレームまたは入力信号のフレームと称されてもよい。分解ストライド・ユニットは、分解窓を入力信号に沿ってシフトさせ、それにより入力信号の異なるフレームを選択する。すなわち、入力信号のフレームのシーケンスを生成する。一連のフレームの間の標本値距離は分解ストライドによって与えられる。同様にして、合成ストライド・ユニットは、合成窓および/または出力信号のフレームをシフトさせる。すなわち、出力信号のシフトされたフレームのシーケンスを生成する。出力信号の一連のフレームの間の標本値距離は、合成ストライドによって与えられる。出力信号は、出力信号のフレームのシーケンスを重畳させ、時間的に一致する標本値どうしを加えることによって決定されてもよい。
【0018】
本発明のあるさらなる側面によれば、合成ストライドは分解ストライドのT倍である。そのような場合、出力信号は入力信号を、転換因子Tによって時間伸張したものに対応する。換言すれば、合成ストライドを分解ストライドのT倍大きくなるよう選択することによって、入力信号に対する出力信号の時間シフトまたは時間伸張を得ることができる。この時間シフトは次数Tのものである。
【0019】
換言すれば、上述したシステムは、次のように記述されてもよい:分解窓ユニット、分解変換ユニットおよび分解ストライドSaをもつ分解ストライド・ユニットを使って、M個の複素係数のセットのスイートまたはシーケンスが入力信号から決定されてもよい。分解ストライドは、分解窓が入力信号に沿って前に動かされる標本値の数〔標本値何個ぶん動かされるか〕を定義する。二つの相続く標本値の間の経過時間はサンプリング・レートによって与えられるので、分解ストライドは、入力信号の二つのフレームの間の経過時間をも定義する。結果として、M個の複素係数の二つの相続くセットの間の経過時間も分解ストライドSaによって与えられる。
【0020】
複素係数の位相がたとえば転換因子T倍することによって変更されうる非線形処理ユニットを通過後、M個の複素係数のセットのスイートまたはシーケンスは、時間領域に再変換されてもよい。M個の変更された複素係数の各セットは、合成変換ユニットを使ってM個の変更された標本値に変換されてもよい。合成窓ユニットおよび合成ストライドSsをもつ合成ストライド・ユニットに関わる続く重畳加算動作において、M個の変更された標本値のセットのスイートは重畳および加算されて出力信号を形成してもよい。この重畳加算動作において、M個の変更された標本値の相続くセットは、互いに対してSs個の標本値だけシフトされてもよく、その後に、合成窓を乗算され、その後加算されて出力信号を生じてもよい。結果として、合成ストライドSsが分解ストライドSaのT倍である場合、信号は因子Tだけ時間伸張されてもよい。
【0021】
本発明のあるさらなる側面によれば、合成窓は分解窓および合成ストライドから導出される。特に、合成窓は次の公式によって与えられてもよい。
【0022】
【数2】
ここで、vs(n)は合成窓、va(n)は分解窓、Δtは合成ストライドSsである。分解窓および/または合成窓は、ガウス窓、コサイン窓、ハミング(Hamming)窓、ハン(Hann)窓、長方形窓、バートレット(Bartlett)窓、ブラックマン(Blackman)窓、0≦n<Lとして関数v(n)=sin{(π/L)(n+0.5)}の一つであってもよい。ここで、分解窓および合成窓の長さが異なる場合、LはそれぞれLaまたはLsであってもよい。
【0023】
本発明のもう一つの側面によれば、システムはさらに、たとえば転換次数Tによって出力信号のレート変換を実行し、それにより転換された出力信号を生じる収縮ユニットを有する。合成ストライドを分解ストライドのT倍となるよう選ぶことによって、上に概説したように時間伸張された出力信号を得ることができる。時間伸張された信号のサンプリング・レートが因子T倍増加させられる場合、あるいは時間伸張された信号が因子T倍ダウンサンプリングされる場合、入力信号を転換因子Tによって周波数シフトしたものに対応する転換された出力信号が生成されうる。ダウンサンプリング動作は、出力信号の標本値のサブセットだけを選択するステップを有していてもよい。典型的には、出力信号のT番目毎の標本値だけが保持される。あるいはまた、サンプリング・レートが因子T倍上げられてもよい。すなわち、サンプリング・レートがT倍高く解釈される。換言すれば、再サンプリングまたはサンプリング・レート変換は、サンプリング・レートがより高い値またはより低い値に変えられることを意味する。ダウンサンプリングは、より低い値へのレート変換を意味する。
【0024】
本発明のあるさらなる側面によれば、システムは入力信号から第二の出力信号を生成してもよい。システムは、第二の転換因子T2を使うことによって複素係数の位相を変更する第二の非線形処理ユニットと、第二の合成ストライドだけ合成窓および/または第二の出力信号のフレームをシフトする第二の合成ストライド・ユニットとを有していてもよい。位相の変更は、位相を因子T2倍することを含んでいてもよい。第二の転換因子を使って複素係数の位相を変更し、第二の変更された係数をM個の第二の変更された標本値に変換し、合成窓を適用することによって、第二の出力信号のフレームが、入力信号のフレームから生成されうる。第二の合成ストライドを第二の出力信号のフレームのシーケンスに適用することによって、第二の出力信号は重畳加算ユニットにおいて生成されてもよい。
【0025】
第二の出力信号は、たとえば第二の転換次数T2によって第二の出力信号のレート変換を実行する第二の収縮ユニットにおいて収縮されてもよい。これは、第二の転換された出力信号を生じる。まとめると、第一の転換された出力信号は第一の転換因子Tを使って生成でき、第二の転換された出力信号は第二の転換因子T2を使って生成できる。これら二つの転換された出力信号は次いで、組み合わせユニットにおいてマージされ、全体としての転換された出力信号を生じてもよい。マージ動作は、二つの転換された出力信号を加えることを含んでいてもよい。そのような複数の転換された出力信号の生成および組み合わせは、合成されるべき高周波数信号成分の良好な近似を得るために有益であることがある。転換された出力信号が、複数の転換次数を使っていくつ生成されてもよいことを注意しておくべきである。この複数の転換された出力信号は次いで、組み合わせユニットにおいてマージ、たとえば加算されて、全体的な転換された出力信号を生じてもよい。
【0026】
組み合わせユニットが、マージに先立って、第一および第二の転換された出力信号に重みをかけることが有益であることがありうる。重み付けは、第一および第二の転換された出力信号のエネルギーまたは帯域幅当たりのエネルギーがそれぞれ入力信号のエネルギーまたは帯域幅当たりのエネルギーに対応するよう、実行されてもよい。
【0027】
本発明のあるさらなる側面によれば、システムは、時間オフセットを、組み合わせユニットにはいる前の第一および第二の転換された出力信号に適用する整列ユニットを有していてもよい。そのような時間オフセットは、二つの転換された出力信号の、時間領域における互いに対するシフトを含んでいてもよい。時間オフセットは、転換次数および/または窓の長さの関数であってもよい。特に、時間オフセットは
(T-2)L/4
として決定されてもよい。
【0028】
本発明のもう一つの側面によれば、上記の転換システムは、オーディオ信号を含む受信されたマルチメディア信号をデコードするためのシステムに組み込まれてもよい。デコード・システムは、上に概説したシステムに対応する転換ユニットを有していてもよい。ここで、入力信号は典型的には、オーディオ信号の低周波数成分であり、出力信号はオーディオ信号の高周波数成分である。換言すれば、入力信号は典型的にはある帯域幅をもつ低域通過信号であり、出力信号は典型的にはより高い帯域幅をもつ帯域通過信号である。さらに、受領されたビットストリームからオーディオ信号の低周波数成分をデコードするためのコア・デコーダを有していてもよい。そのようなコア・デコーダは、ドルビーE(Dolby E)、ドルビー・デジタル(Dolby Digital)またはAACのような符号化方式に基づいていてもよい。特に、そのようなデコード・システムは、オーディオ信号およびビデオのような他の信号を含む受領されたマルチメディア信号をデコードするためのセットトップボックスであってもよい。
【0029】
本発明は、転換因子Tによって入力信号を転換する方法をも記述していることを注意しておくべきである。本方法は、上に概説したシステムに対応し、上述した側面のいかなる組み合わせを含んでいてもよい。長さLの分解窓を使って入力信号の標本値を抽出する段階と、転換因子Tの関数としてオーバーサンプリング因子Fを選択する段階とを含んでいてもよい。さらに、L個の標本値を時間領域から周波数領域に変換してF×L個の複素係数を生じる段階と、転換因子Tを用いて複素係数の位相を変更する段階とを含んでいてもよい。さらなる段階において、本方法は、F×L個の変更された複素係数を時間領域に変換してF×L個の変更された標本値を生じてもよく、長さLの合成窓を使って出力信号を生成してもよい。本方法はまた、分解窓および合成窓の一般的な長さに、すなわち上で概説したような一般的なLaおよびLsに適応されてもよいことを注意しておくべきである。
【0030】
本発明のあるさらなる側面によれば、本方法は、入力信号に沿って標本値Sa個ぶんの分解ストライドだけ分解窓をシフトさせる、および/または標本値Ss個ぶんの合成ストライドだけ合成窓および/または出力信号のフレームをシフトさせる段階を有していてもよい。合成ストライドが分解ストライドのT倍となるよう選択することによって、出力信号は入力信号に対して因子T倍だけ時間伸張されてもよい。転換次数Tによる出力信号のレート変換を実行する追加的ステップを実行するとき、転換された出力信号が得られてもよい。そのような転換された出力信号は、入力信号の対応する周波数成分に対して、因子Tだけ上にシフトされた周波数成分を含んでいてもよい。
【0031】
本方法はさらに、第二の出力信号を生成するための諸段階を含んでいてもよい。これは、第二の転換因子T2を使うことによって複素係数の位相を変更することによって、実装されてもよい。第二の合成ストライドによって合成窓および/または第二の出力信号のフレームをシフトすることによって、第二の転換因子T2および第二の合成ストライドを使って第二の出力信号が生成されてもよい。第二の転換次数T2によって第二の出力信号のレート変換を実行することにより、第二の転換された出力信号が生成されてもよい。最終的に、第一および第二の転換された出力信号をマージすることによって、異なる転換因子をもつ二つ以上の転換によって生成された高周波数信号成分を含むマージされたまたは全体的な転換された出力信号を得ることができる。
【0032】
本発明の他の側面によれば、本発明は、プロセッサ上での実行のために、およびコンピューティング・デバイス上で実行されたときに本発明の方法ステップを実行するために適応されたソフトウェア・プログラムを記述する。本発明はまた、プロセッサ上での実行のために、およびコンピューティング・デバイス上で実行されたときに本発明の方法ステップを実行するために適応されたソフトウェア・プログラムを有する記憶媒体をも記述する。さらに、本発明は、コンピュータ上で実行されたときに本発明の方法を実行するための実行可能な命令を含むコンピュータ・プログラム・プロダクトを記述する。
【0033】
あるさらなる側面によれば、転換因子Tによって入力信号を転換するためのもう一つの方法およびシステムが記述される。この方法およびシステムは、スタンドアローンで、あるいは上に概説した方法およびシステムと組み合わせて使用されてもよい。本稿において概説される特徴のいずれもこの方法/システムに適用されてもよいし、逆もまたしかりである。
【0034】
本方法は、長さLの分解窓を使って入力信号の標本値のフレームを抽出する段階を含んでいてもよい。次いで、入力信号のフレームは時間領域から周波数領域に変換されてM個の複素係数を生じてもよい。複素係数の位相は、転換因子Tを用いて変更されてもよく、M個の変更された複素係数は時間領域に変換されてM個の変更された標本値を生じてもよい。最終的には、出力信号のフレームは、長さLの合成窓を使って生成されてもよい。本方法およびシステムは、互いに異なる分解窓および合成窓を使ってもよい。分解窓および合成窓は、その形、長さ、窓を定義する係数の数および/または窓を定義する係数の値に関して異なっていてもよい。これを行うことにより、分解窓および合成窓の選択における追加的な自由度を得ることができ、転換された出力信号のエイリアシングが軽減または除去されうる。
【0035】
もう一つの側面によれば、分解窓および合成窓は互いに対して双直交(bi-orthogonal)である。合成窓vs(n)は次式によって与えられてもよい。
【0036】
【数3】
ここで、cは定数、va(n)は分解窓(311)、Δtsは合成窓の時間ストライドであり、s(n)は次式によって与えられる。
【0037】
【数4】
合成窓の時間ストライドΔtsは典型的には合成ストライドSsに対応する。
【0038】
あるさらなる側面によれば、分解窓は、そのz変換が単位円上でデュアル零点〔二重/二位の零点〕(dual zeros)を有するよう選択されてもよい。好ましくは、分解窓のz変換は単位円上にデュアル零点を有するだけである。たとえば、分解窓は二乗正弦窓(squared sine window)であってもよい。別の例では、長さLの分解窓は、長さLの二つの正弦窓を畳み込んで長さ2L-1の二乗正弦窓を生じることによって決定されてもよい。あるさらなる段階において、ゼロが二乗正弦窓にアペンドされて、長さ2Lのベース窓を生じてもよい。最終的には、ベース窓は線形補間を使って再サンプリングされ、それにより分解窓として長さLの偶対称な窓(even symmetric window)を生じてもよい。
【0039】
本稿で記載される方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえば、デジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントはたとえば、ハードウェアおよび/または特定用途向け集積回路(application specific integrated circuit)として実装されてもよい。記載される方法およびシステムにおいて遭遇される信号は、ランダム・アクセス・メモリまたは光記憶媒体といったメディア上に記憶されてもよい。それらの信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットといったネットワークを介して転送されてもよい。本稿で記載される方法およびシステムを使用する典型的な装置はセットトップボックスまたはオーディオ信号をデコードする他の顧客構内設備である。エンコード側では、本方法およびシステムは放送ステーションにおいて、たとえばビデオまたはテレビ・ヘッドエンド・システムにおいて使用されてもよい。
【0040】
本稿において記載される本発明の諸実施形態および諸側面が任意に組み合わされてもよいことは注意しておくべきである。特に、システムについて概説された諸側面は、本発明によって包含される対応する方法にも適用可能であることを注意しておくべきである。さらに、本発明の開示は、従属請求項における引用によって明示的に与えられる請求項の組み合わせ以外の請求項の組み合わせをもカバーすることを注意しておくべきである。すなわち、請求項およびその技術的特徴は、任意の順序および任意の形において組み合わされることができる。
【0041】
本発明についてこれから、本発明の範囲や精神を限定するものではない、例解するための例によって、付属の図面を参照しつつ述べていく。
【図面の簡単な説明】
【0042】
図1】高調波転換器の分解窓および合成窓に現れるある特定の位置におけるディラックを示す図である。
図2】高調波転換器の分解窓および合成窓に現れる異なる位置におけるディラックを示す図である。
図3】本発明に基づいて現れる図2の位置についてのディラックを示す図である。
図4】HFR向上オーディオ・デコーダの動作を示す図である。
図5】いくつかの次数を使う高調波転換器の動作を示す図である。
図6】周波数領域(FD: frequency domain)高調波転換器の動作を示す図である。
図7】一連の分解合成窓を示す図である。
図8】異なるストライドにおける分解窓および合成窓を示す図である。
図9】窓の合成ストライドに対する再サンプリングの効果を示す図である。
図10】本稿において概説される向上された高調波転換方式を使うエンコーダの実施形態を示す図である。
図11】本稿において概説される向上された高調波転換方式を使うデコーダの実施形態を示す図である。
図12図10および図11に示された転換ユニットの実施形態を示す図である。
【発明を実施するための形態】
【0043】
以下に記載される実施形態は単に、改善された高調波転換のための本発明の原理を例解するものである。本稿に記載される構成および詳細に対する修正および変形が他の当業者に明白となるであろうことは理解される。したがって、本発明は、ここに記載される実施形態の記述および説明によって呈示される個別的な詳細によってではなく、付属の特許請求の範囲によってのみ限定されることが意図されている。
【0044】
以下では、周波数領域における高調波転換の原理と、本発明によって教示される提案される改善が概説される。高調波転換のキーとなる要素は、正弦波の周波数を保存する、整数転換因子Tによる時間伸張である。換言すれば、高調波転換は、基本となる信号を因子T倍、時間伸張することに基づく。時間伸張は、入力信号を構成する正弦波の周波数が維持されるように行われる。そのような時間伸張は、位相ボコーダを使って実行されうる。位相ボコーダは、分解窓va(n)および合成窓vs(n)を用いて窓処理されたDFTフィルタバンクによって確立される周波数領域表現に基づく。そのような分解/合成変換は、短時間フーリエ変換(STFT: short-time Fourier Transform)とも称される。
【0045】
短時間フーリエ変換は、一連の重なり合ったスペクトル・フレームを得るために時間領域入力信号に対して実行される。考えられる側波帯(side-band)効果を最小限にするために、適切な分解/合成窓、たとえばガウス窓、コサイン窓、ハミング窓、ハン窓、長方形窓、バートレット窓、ブラックマン窓などが選択されるべきである。入力信号から各スペクトル・フレームがピックアップされる時間遅延は、ホップ・サイズまたはストライドと称される。入力信号のSTFTは分解段と称され、入力信号の周波数領域表現に導く。周波数領域表現は複数のサブバンド信号を含む。ここで、各サブバンド信号は、入力信号のある周波数成分を表す。
【0046】
次いで、入力信号の周波数領域表現は、所望される仕方で処理されうる。入力信号の時間伸張の目的のためには、各サブバンド信号が、たとえばサブバンド信号標本値を遅延させることによって、時間伸張されてもよい。これは、分解ホップ・サイズより大きい合成ホップ・サイズを使うことによって達成されてもよい。時間領域信号は、逆(高速)フーリエ変換をすべてのフレームに対して実行し、その後、フレームを逐次累積することによって再構築されてもよい。合成段のこの動作は、重畳加算動作と称される。結果として得られる出力信号は、入力信号と同じ周波数成分を含む、入力信号の時間伸張されたバージョンである。換言すれば、結果として得られる出力信号は、入力信号と同じスペクトル組成をもつが、入力信号より遅い、すなわちその進行は時間的に引き伸ばされている。
【0047】
次いで、より高い周波数への転換を、その後の工程で、あるいは統合された仕方で、伸張された信号のダウンサンプリングを通じて得ることができる。結果として、転換された信号は初期信号の時間長さをもつが、あらかじめ定義された転換因子だけ上方にシフトされた周波数成分を有する。
【0048】
数学的には、位相ボコーダは次のように記述できる。入力信号x(t)がサンプリング・レートRでサンプリングされて、離散入力信号x(n)を生じる。分解段の間に、一連の値kについて特定の分解時刻ta kにおける入力信号x(n)についてSTFTが決定される。分解時刻は好ましくはta k=kΔtaを通じて一様に選択される。ここで、Δtaは分解ホップ因子または分解ストライドである。これらの分解時刻ta kのそれぞれにおいて、もとの信号x(n)の窓掛けされた部分に対してフーリエ変換が計算される。ここで、分解窓va(t)はta kを中心としている。すなわち、va(t-ta k)である。入力信号x(n)のこの窓掛けされた部分はフレームと称される。結果は、入力信号x(n)のSTFT表現であり、次のように表せる。
【0049】
【数5】
ここで、Ωm=2πm/MはSTFT分解のm番目のサブバンド信号の中心周波数であり、Mは離散フーリエ変換(DFT: discrete Fourier transform)のサイズである。実際上は、窓関数va(n)は限られた時間スパンをもつ。すなわち、限られた数Lの標本値のみをカバーする。Lは典型的にはDFTのサイズMに等しい。結果として、上記の和は有限個の項をもつ。サブバンド信号X(ta km)は、インデックスkを介して時間の関数であるとともに、サブバンド中心周波数Ωmを介して周波数の関数でもある。
【0050】
合成段は、典型的にはts k=kΔtsに従って一様に分布している合成時刻ts kにおいて実行されうる。ここで、Δtsは合成ホップ因子または合成ストライドである。これらの合成時刻のそれぞれにおいて、短時間信号yk(n)が合成時刻ts kにおいて、X(ta km)と同一であってもよいSTFTサブバンド信号Y(ts km)を逆フーリエ変換することによって得られる。しかしながら、典型的にはSTFTサブバンド信号は修正、たとえば時間伸張および/または位相変調および/または振幅変調され、それにより分解サブバンド信号X(ta km)は合成サブバンド信号Y(ts km)とは異なる。ある好ましい実施形態では、STFTサブバンド信号は位相変調される、すなわちSTFTサブバンド信号の位相が修正される。短期合成信号yk(n)次のように表すことができる。
【0051】
【数6】
短期信号yk(n)は、合成時刻ts kにおいての、m=0,…,M-1についての合成サブバンド信号Y(ts km)を含む全体的な出力信号y(n)の成分と見てもよい。すなわち、短期信号yk(n)は、特定の信号フレームについての逆DFTである。全体的な出力信号y(n)は、あらゆる合成時刻ts kにおける窓掛けされた短時間信号yk(n)を重畳および加算することによって得ることができる。すなわち、出力信号y(n)は次のように表すことができる。
【0052】
【数7】
ここで、vs(n-ts k)は合成時刻ts kを中心とした合成窓である。合成窓は典型的には限られた数Lの標本値を有し、上記の和は限られた数の項しかもたない。
【0053】
以下では、周波数領域における時間伸張の実装について概説する。時間伸張器の諸側面を記述するための好適な出発点は、T=1の場合、すなわち転換因子Tが1に等しく、伸張が行われない場合を考えることである。DFTフィルタバンクの分解時間ストライドΔtaおよび合成時間ストライドΔtsが等しい、すなわちΔta=Δts=Δtと想定すると、分解およびそれに続く合成の組み合わされた効果は、Δt周期の関数
【数8】
による振幅変調の効果である。ここで、q(n)=va(n)vs(n)は二つの窓の点ごとの積、すなわち分解窓と合成窓の点ごとの積である。K(n)=1またはその他の定数値となるよう窓を選ぶことが有利である。そうすれば、窓掛けされたDFTフィルタバンクが完全な再構成を達成するからである。分解窓va(n)が与えられ、分解窓がストライドΔtに比べて十分長い継続期間であるとすると、
【数9】
に従って合成窓を選ぶことによって完全な再構成を得ることができる。
【0054】
T>1、すなわち1より大きな転換因子については、時間伸張は、合成ストライドをΔts=Δtに維持する一方、ストライドΔta=Δt/Tで分解を実行することによって得ることができる。換言すれば、因子Tによる時間伸張は、合成段におけるホップ因子またはストライドよりT倍小さな分解窓におけるホップ因子またはストライドを適用することによって得ることができる。上に挙げた公式から見て取れるように、分解ストライドよりT倍大きな合成ストライドの使用は短期合成信号yk(n)を、重畳加算動作において、T倍大きな間隔だけシフトさせることになる。これが最終的には出力信号y(n)の時間伸張につながる。
【0055】
因子Tによる時間伸張はさらに分解と合成の間の因子Tによる位相乗算に関わることがあることを注意しておくべきである。換言すれば、因子Tによる時間伸張はサブバンド信号の因子Tによる位相乗算を含む。
【0056】
以下では、上記の時間伸張動作がどのように高調波転換動作中に移行されうるかを概説する。ピッチ・スケール修正(pitch-scale modification)または高調波転換(harmonic transposition)は、時間伸張された出力信号y(n)のサンプル・レート変換を実行することによって得ることができる。因子Tによる高調波転換を実行するために、入力信号x(n)の因子Tによる時間伸張されたバージョンである出力信号y(n)が、上述した位相ボコーディング方法を使って得られてもよい。次いで、出力信号y(n)を因子Tだけダウンサンプリングすることによって、あるいはサンプリング・レートをRからTRに変換することによって、高調波転換が得られてもよい。換言すれば、出力信号y(n)を入力信号x(n)と同じサンプリング・レートをもつが継続時間がT倍になっていると解釈する代わりに、出力信号y(n)は同じ継続時間だがサンプリング・レートがT倍であると解釈してもよい。すると、その後のTのダウンサンプリングは、最終的に信号どうしが加算できるよう、出力サンプリング・レートを入力サンプリング・レートに等しくすることと解釈されてもよい。
【0057】
入力信号x(n)が正弦波であると想定し、対称分解窓va(n)を想定する場合、上記の位相ボコーダに基づく時間伸張の方法は、奇数のTについては完全に機能し、同じ周波数をもつ入力信号x(n)の時間伸張されたバージョンを生じる。その後のダウンサンプリングと組み合わせて、入力信号x(n)の周波数のT倍の周波数をもつ正弦波y(n)が得られる。
【0058】
偶数のTについては、上に概説した時間伸張/調和転換方法はより近似的なものになる。分解窓va(n)の周波数応答の負の値のサイドローブが、位相乗算によって異なる忠実度で再現されるからである。負のサイドローブは典型的には、大半の実際的な窓(またはプロトタイプ・フィルタ)は、単位円上に位置する、180度の位相シフトを生じる多数の離散的なゼロをもつという事実に由来する。偶数の転換因子を使って位相角に乗算するときは、位相シフトは典型的には、使用される転換因子に依存して、0(あるいはむしろ360の倍数)度に変換される。換言すれば、偶数の転換因子を使うときは、位相シフトは消える。これは典型的には転換された出力信号y(n)におけるエイリアシングにつながる。特に不都合なシナリオは、正弦波が、分解フィルタの第一サイドローブのトップに対応する周波数に位置しているときに生じうる。大きさ応答におけるこのローブの阻止に依存して、エイリアシングは出力信号においてより聞こえやすくなったり聞こえにくくなったりする。偶数の因子Tについては、全体的なストライドΔtを小さくすることは典型的には、計算量が高くなることを代償として、時間伸張器の性能を改善する。
【0059】
ここに参照によってくみこまれる「スペクトル帯域複製を使ったソース符号化向上」と題する特許文献1では、偶数の転換因子を使うときに高調波転換器から生じるエイリアシングを如何にして回避するかについての方法が記載されている。相対位相ロックと呼ばれるこの方法は、隣接するチャネル間の相対的な位相差を評価し、正弦波がいずれかのチャネルにおいて位相反転しているかどうかを判定する。検出は、特許文献1の式(32)を使うことによって実行される。位相反転されているとして検出されたチャネルは、位相角が実際の転換因子を乗算された後に補正される。
【0060】
以下では、偶数および/または奇数の転換因子Tを使うときにエイリアシングを回避する新たな方法が記述される。特許文献の相対位相ロック法とは逆に、本方法は位相角の検出および補正を必要としない。上記の問題に対する新たな解決策は、同一でない分解および合成変換窓を利用する。完全再構成(PR: perfect reconstruction)の場合、これは、直交な変換/フィルタバンクではなく、双直交な変換/フィルタバンクに対応する。
【0061】
ある分解窓va(n)が与えられたときに双直交変換を得るためには、合成窓vs(n)は
【数10】
に従うよう選ばれる。ここで、cは定数、Δtsは合成時間ストライド、Lは窓長さである。シーケンスs(n)が
【数11】
として定義される、すなわちva(n)=vs(n)が分解窓掛けおよび合成窓掛けの両方に使われる場合、直交変換の条件は
s(m)=c 0≦m<Δts
である。
【0062】
しかしながら、以下では、別のシーケンスw(n)が導入される。w(n)は合成窓vs(n)が分解窓va(n)からどのくらい外れているか、すなわち双直交変換が直交変換の場合とどのくらい違うかについての指標である。シーケンスw(n)は
w(n)=vs(n)/va(n) 0≦n<L
によって与えられる。
【0063】
すると、完全再構成の条件は
【数12】
によって与えられる。ある可能な解について、w(n)は、合成時間ストライドΔtsに関して周期的である、すなわちw(n)=w(n+Δtsi) ∀i,nと制約されることができる。すると、次式が得られる。
【0064】
【数13】
よって、合成窓vs(n)に対する条件は次のようになる。
【0065】
【数14】
上で概説したようにして合成窓vs(n)を導出することによって、分解窓va(n)を設計するときのずっと大きな自由度が与えられる。この追加的な自由度は、転換された信号のエイリアシングを示さない分解窓/合成窓の対を設計するために使うことができる。
【0066】
偶数の転換因子についてエイリアシングを抑制する分解/合成窓対を得るために、いくつかの実施形態が以下で概説される。第一の実施形態によれば、窓またはプロトタイプ・フィルタは、ある「エイリアシング」レベルより下の周波数応答において第一のサイドローブのレベルを減衰させるのに十分長くされる。分解窓ストライドΔtaはこの場合、窓長さLの(小さな)一部でしかない。これは典型的には、たとえば打撃性の信号における過渡成分のぼかし(smearing)につながる。
【0067】
第二の実施形態によれば、分解窓va(n)は単位円上にデュアル零点をもつよう選ばれる。デュアル零点から帰結する位相応答は、360度の位相シフトである。これらの位相シフトは、転換因子が奇数か偶数かによらず、位相角が転換因子を乗算されるときに保持される。単位円上にデュアル零点をもつ適正かつなめらかな分解フィルタva(n)が得られるとき、合成窓は上に概説した諸式から得られる。
【0068】
第二の実施形態の例では、分解フィルタ/窓va(n)は「二乗正弦窓」、すなわち正弦窓
v(n)=sin{(π/L)(n+0.5)} 0≦n<L

【数15】
のように自分自身と畳み込みしたものである。しかしながら、結果として得られるフィルタ/窓va(n)は、長さLa=2L-1、すなわち奇数個のフィルタ/窓係数をもち、奇対称(odd symmetric)であることを注意しておくべきである。偶数長さをもつフィルタ/窓、特に偶対称(even symmetric)フィルタがより適切であるとき、フィルタを得るには、まず長さLの二つの正弦窓を畳み込みしてもよい。次いで、結果として得られるフィルタの終わりにゼロをアペンドする。その後、この2Lの長さのフィルタが、線形補間を使って再サンプリングされて長さLの偶対称フィルタにされる。この偶対称フィルタはいまだに単位円上にのみデュアル零点を有している。
【0069】
全体として、転換された出力信号におけるエイリアシングが回避されるか著しく軽減されうるよういかにして分解窓と合成窓の対を選択しうるかを概説してきた。本方法は、偶転換因子を使うときに特に重要である。
【0070】
ボコーダ・ベースの高調波転換器のコンテキストにおいて考えるべきもう一つの側面は、位相復元〔アンラッピング〕である。汎用位相ボコーダにおける位相復元問題に関しては細心の注意を払う必要があるものの、高調波転換器は、整数の転換因子Tが使われるときは曖昧さなく定義された位相動作をもつことを注意しておくべきである。よって、好ましい諸実施形態では、転換次数Tは整数値である。そうでなければ、位相復元技法が適用できる。ここで、位相復元とは、二つの相続くフレームの間の位相増分を使って各チャネル中の近くの正弦波の瞬間周波数を推定するプロセスである。
【0071】
音響および/または声信号の転換を扱うときに考えるべきさらにもう一つの側面は、定常および/または過渡的な信号セクションの処理である。典型的には、変調間アーチファクトなしに定常的な音響信号を転換できるためには、DFTフィルタバンクの周波数分解能は高めである必要があり、したがって、窓は入力信号x(n)、特に音響および/または音声信号における過渡成分と比較して長い。結果として、転換器は貧弱な過渡応答をもつ。しかしながら、以下で述べるように、この問題は、窓設計、変換サイズおよび時間ストライド・パラメータの修正によって解決できる。よって、位相ボコーダ過渡応答向上のための多くの現状技術の方法とは異なり、提案される解決策は、過渡成分検出のようないかなる信号適応的動作にも依拠しない。
【0072】
以下では、ボコーダを使った過渡信号の高調波転換が概説される。出発点として、プロトタイプ過渡信号である時刻t=t0における離散時間のディラック・パルス
【数16】
を考える。そのようなディラック・パルスのフーリエ変換は単位大きさおよびt0に比例する傾きの線形位相をもつ。
【0073】
【数17】
そのようなフーリエ変換は、無限継続時間の平坦な分解窓va(n)が使われる上記の位相ボコーダの分解段と考えることができる。因子Tによって時間伸張された出力信号y(n)、すなわち時刻t=Tt0におけるディラック・パルスδ(t-Tt0)を生成するためには、所望されるディラック・パルスδ(t-Tt0)を逆フーリエ変換の出力として与える合成サブバンド信号Y(Ωm)=exp(-jΩmTt0)を得るために、分解サブバンド信号の位相は因子Tを乗算されるべきである。
【0074】
これは、因子Tによる分解サブバンド信号の位相乗算の動作がディラック・パルスの、すなわち過渡入力信号の所望される時間シフトにつながることを示している。二つ以上の0でない標本値を有するより現実的な過渡信号については、因子Tによる分解サブバンド信号の時間伸張のさらなる動作が実行されるべきであることを注意しておくべきである。換言すれば、異なるホップ・サイズが分解側と合成側で使用されるべきである。
【0075】
しかしながら、上記の考察が、無限長の分解および合成窓を使った分解/合成段についてのものであることを注意しておくべきである。実際、無限継続時間の窓をもつ理論的な転換器はディラック・パルスδ(t-t0)の正しい伸張を与える。有限継続時間の窓掛けされた分解については、各分解ブロックが、DFTのサイズに等しい周期をもつ周期信号の一周期区間として解釈されるべきであるという事実によって、状況は複雑になる。
【0076】
このことは、図1に示されている。図1は、ディラック・パルスδ(t-t0)の分解および合成100を示している。図1の上部は分解段110への入力を示し、図1の下部は合成段120の出力を示している。上のグラフと下のグラフは時間領域を表している。様式化された分解窓111および合成窓121は三角形の(バートレット)窓として描かれている。時刻t=t0における入力パルスδ(t-t0) 112が上のグラフ110に縦の矢印として描かれている。DFT変換ブロックはサイズM=Lであると想定される。すなわち、DFT変換のサイズは、窓のサイズと等しくなるよう選ばれている。因子Tによるサブバンド信号の位相乗算は、t=Tt0におけるディラック・パルスδ(t-Tt0)のDFT分解を生じる。ただし、周期Lをもつディラック・パルス列に区分されている。これは、適用される窓およびフーリエ変換の有限長のためである。周期Lをもつ区分されたパルス列は、下のグラフにおいて破線の矢印123、124によって描かれている。
【0077】
分解窓および合成窓が有限長である現実世界のシステムでは、パルス列は実際には(転換因子に依存して)若干数のパルスしか含まない。一つの主パルス、すなわち所望される項と、若干数のプレ・パルスおよび若干数のポスト・パルス、すなわち所望されない項である。プレ・パルスとポスト・パルスが生じるのは、DFTが周期的(周期L)であるからである。パルスが分解窓内に位置され、複素位相がT倍されたときに折り返される〔ラップされる〕(すなわち、パルスが窓の終わりの外までシフトされ、最初に戻る)とき、望まれないパルスが現れる。望まれないパルスは、分解窓における位置および転換因子に依存して、入力パルスと同じ極性をもつこともあるし、もたないこともある。
【0078】
このことは、t=0を中心として長さLをもつDFTを使って、区間-L/2≦t0<L/2に位置されるディラック・パルスδ(t-t0)を変換するときに数学的に見ることができる。
【0079】
【数18】
この分解サブバンド信号は因子Tを位相乗算されて、合成サブバンド信号Y(Ωm)=exp(-jΩmTt0)が得られる。逆DFTを適用して、周期的な合成信号
【数19】
すなわち周期Lをもつディラック・パルス列が得られる。
【0080】
図1の例では、合成窓掛けは有限窓vs(n) 121を使う。有限合成窓121は、実線の矢印122として描かれているt=Tt0における所望されるパルスδ(t-Tt0)を拾い、破線の矢印123、124として示されている他の寄与を消す。
【0081】
分解および合成段がホップ因子または時間ストライドΔtに従って時間軸に沿って移動するにつれ、パルスδ(t-t0) 112は、それぞれの分解窓111の中心に対して別の位置をもつようになる。上で概説したように、時間伸張を達成するための動作は、パルス112を、窓の中心に対してその位置のT倍動かすことにある。この位置が窓121内である限り、この時間伸張動作は、すべての寄与を足し合わせるとt=Tt0における単一の時間伸張された合成パルスδ(t-Tt0)になることを保証する。
【0082】
しかしながら、図2の状況については問題が起こる。ここでは、パルスδ(t-t0) 212がDFTブロックの端のほうでさらに外に動いてしまう。図2は、図1と同様の分解/合成配位200を示している。上のグラフ210は分解段への入力および分解窓211を示し、下のグラフ220は合成段の出力および合成窓221を示す。因子Tによって入力ディラック・パルス212を時間伸張するとき、時間伸張されたディラック・パルス222、すなわちδ(t-Tt0)は合成窓221の外側になる。同時に、パルス列のもう一つのディラック・パルス224、すなわち時刻t=Tt0-Lにおけるδ(t-Tt0+L)が合成窓によってピックアップされる。換言すれば、入力ディラック・パルス212はT倍遅い時刻に遅延されるのではなく、入力ディラック・パルス212より前にある時刻に繰り上げられるのである。オーディオ信号に対する最終的な効果は、長めの転換器窓のスケールの時間距離における、すなわち入力ディラック・パルス212よりもL-(T-1)t0だけ早い時刻t=Tt0-Lにおけるプレ・エコーの発生である。
【0083】
本発明によって提案される解決策の原理が図3を参照して記述される。図3は、図2と同様の分解/合成シナリオ300を示している。上のグラフ310は分解窓311とともに分解段への入力を示しており、下のグラフ320は合成窓321とともに合成段の出力を示している。本発明の基本的発想は、プレ・エコーを回避するようDFTサイズを適応させるということである。これは、結果として得られるパルス列から望まれないディラック・パルス像が合成窓によってピックアップされないよう、DFTサイズMを設定することによって、達成されうる。DFT変換301のサイズはM=FLに増加させられる。ここで、Lは窓関数302の長さであり、因子Fは周波数領域のオーバーサンプリング因子である。換言すれば、DFT変換301のサイズは、窓サイズ302より大きくなるよう選択される。特に、DFT変換301のサイズは合成窓の窓サイズ302より大きくなるよう選択されてもよい。DFT変換の増加した長さ301のため、ディラック・パルス322、324を含むパルス列の周期はFLである。Fの十分大きな値を選択することによって、すなわち十分大きな周波数領域オーバーサンプリング因子を選択することによって、パルス伸張への所望されない寄与を消すことができる。このことは、図3に示されている。時刻t=Tt0-FLにおけるディラック・パルス324は合成窓321の外側にある。したがって、ディラック・パルス324は合成窓321によってピックアップされず、結果として、プレ・エコーが回避できる。
【0084】
ある好ましい実施形態では、合成窓および分解窓が等しい「正常」長さをもつことを注意しておくべきである。しかしながら、変換またはフィルタバンクの周波数帯域において標本値を破棄または挿入することによって出力信号の暗黙的な再サンプリングを使うときは、合成窓サイズは、再サンプリングまたは転換因子に依存して、典型的には分解サイズとは異なる。
【0085】
Fの最小値、すなわち最小の周波数領域オーバーサンプリング因子は、図3から演繹できる。所望されないディラック・パルス像をピックアップしないための条件は、次のように定式化できる:位置t=t0<L/2の任意の入力パルスδ(t-t0)について、すなわち分解窓311内に含まれる任意の入力パルスについて、時刻t=Tt0-FLにおける所望されない像δ(t-Tt0+FL)がt=-L/2における合成窓の左端より左に位置しなければならない。等価だが、条件T(L/2)-FL≦-L/2が満たされねばならない。これは規則
F≧(T+1)/2 (3)
につながる。
【0086】
公式(3)から見て取れるように、最小周波数領域オーバーサンプリング因子Fは転換/時間伸張因子Tの関数である。より具体的には、最小周波数領域オーバーサンプリング因子Fは転換/時間伸張因子Tに比例する。
【0087】
上記の思考の流れを分解および合成窓が異なる長さをもつ場合について繰り返すことによって、より一般的な公式が得られる。LAおよびLSがそれぞれ分解窓および合成窓の長さであるとし、Mが用いられるDFTサイズであるとする。すると、公式(3)を拡張する規則は、
M≧(TLA+LS)/2 (4)
である。
【0088】
この規則が実際に(3)の拡張であることは、M=FLおよびLA=LS-Lを(4)に代入して結果として得られる式の両辺をLで割ることによって検証できる。
【0089】
上記の分析は、過渡信号、すなわちディラック・パルスというやや特殊なモデルについて実行されている。しかしながら、その考え方は、上記の時間伸張方式を使うとき、ほぼ平坦なスペクトル包絡線をもち、時間区間[a,b]の外側では0になる入力信号が、区間[Ta,Tb]の外側で小さい出力信号に伸張されることを示すよう拡張できる。また、適切な周波数領域オーバーサンプリング因子を選択するための上記の規則を尊重したときに伸張された信号においてプレ・エコーが消えることは、実際の音響および/または音声信号のスペクトログラムを調べることによってもチェックできる。より定量的な分析をすれば、公式(3)の条件によって課される値よりやや劣る周波数領域オーバーサンプリング因子を使うときでもプレ・エコーが軽減されることが明らかになる。これは、典型的な窓関数vs(n)が端近くで小さく、それにより窓関数の端近くに位置される所望されないプレ・エコーを減衰させるという事実による。
【0090】
まとめると、本発明は、周波数応答高調波転換器または時間伸張器の過渡応答を、オーバーサンプリング量が選ばれた転換因子の関数であるようなオーバーサンプリングされた変換を導入することによって改善する新たな方法を教示する。
【0091】
以下では、本発明に基づく高調波転換のオーディオ・デコーダにおける応用をより詳細に述べる。高調波転換器についての一般的な使用事例は、いわゆる帯域幅拡張または高周波数再生成(HFR: high frequency regeneration)を用いる音響/音声コーデック・システムにある。音響符号化〔オーディオ符号化〕に言及するが、記載される方法およびシステムは音声符号化にも、統合音声音響符号化(unified speech and audio coding)においても等しく適用可能であることを注意しておくべきである。
【0092】
そのようなHFRシステムでは、転換器は、いわゆるコア・デコーダによって与えられる低周波数信号成分から高周波数信号成分を生成するために使われうる。高周波数成分の包絡線、ビットストリームにおいて伝達される副情報に基づいて、時間および周波数において整形されてもよい。
【0093】
図4は、HFR向上されたオーディオ・デコーダの動作を示している。コア・オーディオ・デコーダ401は低帯域幅オーディオ信号を出力し、それがアップサンプラー404に入力される。アップサンプラー404は、所望されるフル・サンプリング・レートで最終的なオーディオ出力寄与を生成するために必要とされることがある。そのようなアップサンプリングは、帯域幅制限されたコア・オーディオ・コーデックが外部オーディオ・サンプリング・レートの半分で動作する一方HFR部分はフル・サンプリング周波数で処理されるデュアル・レート・システムについては必要とされる。結果として、単一レート・システムについては、このアップサンプラー404は省略される。401の低帯域幅出力は、転換された信号、すなわち所望される高周波数範囲を含む信号を出力する転換器または転換ユニット402にも送られる。この転換された信号は、包絡線調整器403によって時間および周波数において整形されてもよい。最終的なオーディオ出力は、低帯域幅コア信号と包絡線調整された転換された信号との和である。
【0094】
図4のコンテキストで概説されたように、コア・デコーダ出力信号は、転換ユニット402において前処理ステップとして因子2だけアップサンプリングされてもよい。因子Tによる転換は、時間伸張の場合、転換されない信号のT倍の長さをもつ信号を生じる。T倍高い周波数への所望されるピッチ・シフト(pitch-shifting)または周波数転換(frequency transposition)を達成するために、時間伸張された信号のダウンサンプリングまたはレート変換がその後実行される。上述したように、この動作は、位相ボコーダにおける異なる分解ストライドおよび合成ストライドの使用を通じて達成されてもよい。
【0095】
全体的な転換次数は、種々の方法で得ることができる。第一の可能性は、上で指摘したように、転換器の入口において、デコーダ出力信号を因子2によってアップサンプリングすることである。そのような場合、因子Tによって周波数転換された所望された出力信号を得るためには、時間伸張された信号は因子Tによってダウンサンプリングされる必要がある。第二の可能性は、前記前処理ステップを省略し、コア・デコーダの出力信号に対して時間伸張動作を直接実行することである。そのような場合、グローバルなアップサンプリング因子2を保持し、因子Tによる周波数転換を達成するために、転換された信号は、因子T/2によってダウンサンプリングされなければならない。換言すれば、TではなくT/2の転換器402の出力信号のダウンサンプリングを実行するときには、コア・デコーダ信号のアップサンプリングは省略してもよい。しかしながら、それでもコア信号は、アップサンプラー404において、該信号を転換された信号と組み合わせる前にアップサンプリングする必要があることを注意しておくべきである。
【0096】
高周波数成分を生成するために、転換器402がいくつかの異なる整数転換因子を使ってもよいことも注意しておくべきである。このことは、図5に示されている。図5は、異なる転換次数または転換因子Tのいくつかの転換器を有する、図4の転換器402に対応する高調波転換器501の動作を示している。転換されるべき信号が、それぞれ転換次数T=2,3,……,Tmaxをもつ個々の転換器501-2、501-3、……、501-Tmaxのバンクに渡される。典型的には、転換次数Tmax=3がたいていのオーディオ符号化用途にとって十分である。異なる転換器501-2、501-3、……、501-Tmaxの寄与は502において合計され、組み合わされた転換器出力を与える。第一の実施形態では、この合計動作は個々の寄与を足し合わせることを含んでいてもよい。もう一つの実施形態では、ある種の周波数への複数の寄与を加えることの効果が緩和されるよう、寄与は異なる重みを用いて重み付けされる。たとえば、三次の寄与は、二次の寄与よりも低い利得をもって加えられてもよい。最後に、合計ユニット502が、出力周波数に依存して選択的にこれらの寄与を加えてもよい。たとえば、二次の転換は第一のより低い目標周波数単位について使用されてもよく、三次の転換は第二のより高い目標周波数単位について使用されてもよい。
【0097】
図6は、501の個々のブロックの一つ、すなわち転換次数Tの転換器501-Tの一つのような高調波転換器の動作を示している。分解ストライド・ユニット601は転換されるべき入力信号の一連のフレームを選択する。これらのフレームは、分解窓ユニット602において分解窓と重ね合わされる、たとえば乗算される。入力信号のフレームを選択し、入力信号の標本値に分解窓関数を乗算する動作は、たとえば分解ストライドだけ入力信号に沿ってシフトされる窓関数を使うことによって、一意的なステップにおいて実行されてもよいことを注意しておく。分解変換ユニット603では、入力信号の窓処理されたフレームが周波数領域に変換される。分解変換ユニット603はたとえばDFTを実行してもよい。DFTのサイズは分解窓のサイズLよりF倍大きいよう選択され、それにより、M=F×L個の複素周波数領域係数を生成する。これらの複素係数は、非線形処理ユニット604において、たとえばそれらの位相を転換因子T倍することによって、変更される。複素周波数領域信号のシーケンス、すなわち入力信号のフレームのシーケンスの複素係数は、サブバンド信号と見てもよい。分解ストライド・ユニット601、分解窓ユニット602および分解変換ユニット603の組み合わせは、組み合わされた分解段または分解フィルタバンクと見てもよい。
【0098】
変更された係数または変更されたサブバンド信号は、合成変換ユニット605を使って時間領域に再変換される。変換された複素係数の各セットについて、これは変更された標本値のフレーム、すなわちM個の変更された標本値のセットを与える。合成窓ユニット606を使って、変更された標本値の各セットからL個の標本値が抽出され、それにより出力信号のフレームを与えてもよい。全体としては、出力信号のフレームのシーケンスが、入力信号のフレームのシーケンスについて生成されうる。このシーケンスのフレームは、合成ストライド・ユニット607において合成ストライドだけ互いにシフトされる。合成ストライドは分解ストライドよりT倍大きくてもよい。出力信号は、出力信号のシフトされたフレームが重畳されて同じ時刻の標本値どうしが加算される重畳加算ユニット608において生成される。上記のシステムを通過することによって、入力信号は因子Tだけ時間伸張されうる。すなわち、出力信号は、入力信号の時間伸張バージョンであってもよい。
【0099】
最後に、出力信号は収縮ユニット609を使って時間的に収縮されてもよい。収縮ユニット609は次数Tのサンプリング・レート変換を実行してもよい。すなわち、標本値の数を不変のままにしつつ、出力信号のサンプリング・レートを因子Tだけ増加させてもよい。これは、入力信号と同じ時間的長さをもつが入力信号に対して因子Tだけ上にシフトされた周波数成分を有する転換された出力信号を与える。組み合わせユニット609はまた、因子Tによるダウンサンプリング動作をも実行してもよい。すなわち、T番目毎の標本値だけを保持して他の標本値は破棄してもよい。このダウンサンプリング動作は、低域通過フィルタ動作によって達成されてもよい。全体的なサンプリング・レートが不変のままであるならば、転換された出力信号は、入力信号の周波数成分に対して因子Tだけ上にシフトされた周波数成分を有する。
【0100】
収縮ユニット609がレート変換とダウンサンプリングの組み合わせを実行してもよいことを注意しておくべきである。例として、サンプリング・レートは因子2だけ増加させられてもよい。同時に、信号は因子T/2だけダウンサンプリングされてもよい。全体として、レート変換とダウンサンプリングのそのような組み合わせも、因子Tによる入力信号の高調波転換である出力信号につながる。一般に、収縮ユニット609は、転換次数Tによる高調波転換を与えるために、レート変換および/またはダウンサンプリングの組み合わせを実行すると述べてもよい。これは、コア・オーディオ・デコーダ401の低帯域幅出力の高調波転換を実行するときに特に有用である。上で概説したように、そのような低帯域幅出力はエンコーダにおいて因子2だけダウンサンプリングされていてもよく、したがって、再構成された高周波数成分とマージする前にアップサンプリング・ユニット404におけるアップサンプリングを必要としうる。にもかかわらず、「アップサンプリングされない」低帯域幅出力を使って転換ユニット402において高調波転換を実行することは、計算量を軽減するために有用であることがある。そのような場合、転換ユニット402の収縮ユニット609は次数2のレート変換を実行し、それにより高周波数成分の必要とされるアップサンプリング動作を暗黙的に実行してもよい。結果として、次数Tの転換された出力信号は、因子T/2だけ収縮ユニット609においてダウンサンプリングされる。
【0101】
図5に示されるような異なる転換次数の複数の並列転換器の場合、いくつかの変換またはフィルタバンク動作は異なる転換器501-2、501-3、……、501-Tmaxの間で共有されてもよい。フィルタバンク動作の共有は、好ましくは、転換ユニット402のより効果的な実装を得るために、分解についてなされてもよい。異なる転換器からの出力を再サンプリングする好ましい方法は、合成段より前にDFTビンまたはサブバンド・チャネルを破棄することであってもよい。このように、再サンプリング・フィルタは省略されてもよく、より小さなサイズの逆DFT/合成フィルタバンクを実行するとき、計算量が軽減されうる。
【0102】
今述べたように、分解窓は、異なる転換因子の信号に共通であってもよい。共通の分解窓を使うとき、ローバンド信号に適用される窓700のストライドの例が図7に描かれている。図7は、分解ホップ因子または分解時間ストライドΔtaだけ互いに対して変位されている分解窓701、702、703および704のストライドを示している。
【0103】
ローバンド信号、たとえばコア・デコーダの出力信号に適用される窓のストライドの例が図8(a)に描かれている。長さLの分解窓が各分解変換について動かされるストライドはΔtaと表されている。そのような各分解変換および入力信号の窓掛けされた部分はフレームとも称される。分解変換は、入力標本値からなるフレームを、複素FFT係数のセットに変換/コンバートする。分解変換後、複素FFT係数はデカルト座標から極座標に変換されてもよい。その後のフレームについてのFFT係数のスイート(suite)は、分解サブバンド信号をなす。使用される転換因子T=2,3,…,Tmaxのそれぞれについて、FFT係数の位相角はそれぞれの転換因子Tを乗算され、デカルト座標に変換し戻される。
【0104】
よって、転換因子T毎に、特定のフレームを表す複素FFT係数の異なるセットがあることになる。換言すれば、転換因子T=2,3,…,Tmaxのそれぞれについて、そして各フレームについて、FFT係数の別個のセットが決定される。結果として、転換次数T毎に、合成サブバンド信号Y(ts km)の異なるセットが生成される。
【0105】
合成段では、合成窓の合成ストライドΔtsは、それぞれの転換器において使用される転換次数Tの関数として決定される。上で概説したように、時間伸張動作は、サブバンド信号の時間伸張、すなわちフレームのスイートの時間伸張をも含む。この動作は、因子Tによって分解ストライドΔtaより増大させられている合成ホップ因子または合成ストライドΔtsを選ぶことによって実行されうる。結果として、次数Tの転換器についての合成ストライドΔtsTはΔtsT=TΔtaによって与えられる。図8の(b)および(c)は、それぞれ転換因子T=2およびT=3についての合成窓の合成ストライドΔtsTを示している。ここで、Δts2=2Δta、Δts3=3Δtaである。
【0106】
図8はまた、図8の(a)に対してそれぞれ図8の(b)および(c)において因子T=2およびT=3によって「伸張」されている基準時間trをも示している。しかしながら、出力においては、この基準時間trは二つの転換因子について整列される必要がある。出力を整列させるために、三次の転換信号、すなわち図8の(c)は、因子3/2でダウンサンプリングまたはレート変換される必要がある。このダウンサンプリングは二次の転換信号に関する高調波転換につながる。図9は、T=3について、窓の合成ストライドに対する、該再サンプリングの効果を示している。分解された信号が、アップサンプリングされていないコア・デコーダの出力信号であるとすると、図8の(b)の信号は事実上、因子2によって周波数転換されており、図8の(c)の信号は事実上、因子3によって周波数転換されている。
【0107】
以下では、共通の分解窓を使うときの異なる転換因子の転換シーケンスの時間整列の側面を扱う。換言すれば、異なる転換次数を用いる周波数転換器の出力信号を整列させる側面を扱う。上で概説した方法を使うとき、ディラック関数δ(t-t0)は、適用される転換因子Tによって与えられる時間の量だけ、時間伸張される、すなわち時間軸に沿って動かされる。時間伸張動作を周波数シフト動作に変換するために、同じ転換因子Tを使った間引きまたはダウンサンプリングが実行される。転換因子または転換次数Tによるそのような間引きが時間伸張されたディラック関数δ(t-Tt0)に対して実行される場合、ダウンサンプリングされたディラック・パルスは、第一の分解窓701の中央のゼロ基準時間710に対して時間整列される。このことは、図7に示されている。
【0108】
しかしながら、異なる転換次数Tを使うとき、ゼロ基準が入力信号の「ゼロ」時間に整列されているのでない限り、間引きはゼロ基準についての異なるオフセットにつながる。結果として、間引きされた転換信号の時間オフセット調整は、合計ユニット502において合計されることができる前に実行される必要がある。例として、次数T=3の第一の転換器および次数T=4の第二の転換器が想定される。さらに、コア・デコーダの出力信号はアップサンプリングされないとする。すると、転換器は三次の時間伸張された信号を因子3/2によって間引きして、四次の時間伸張された信号を因子2によって間引きする。二次の時間伸張された信号、すなわちT=2は、端に、入力信号に比べてより高いサンプリング周波数、すなわち2倍高いサンプリング周波数をもつとして解釈され、事実上、出力信号を因子2によってピッチ・シフトさせる。
【0109】
転換され、ダウンサンプリングされた信号を整列させるために、(T-2)L/4の時間オフセットを間引き前に転換信号に加える必要があることを示せる。すなわち、三次および四次の転換については、それぞれL/4およびL/2のオフセットが適用される必要がある。このことを具体的な例で検証するために、二次の時間伸張された信号についてのゼロ基準が時刻または標本値L/2に、すなわち図7におけるゼロ基準710に対応するとする。これは、間引きが使われないからである。三次の時間伸張された信号については、基準は、因子3/2によるダウンサンプリングのため、(L/2)(2/3)=L/3に移行する。上述した規則に従う時間オフセットが間引き前に加えられれば、基準は((L/2)+(L/4))(2/3)=L/2に移行する。これは、ダウンサンプリングされた転換された信号の基準がゼロ基準710と整列されていることを意味する。同様にして、オフセットなしの四次転換については、ゼロ基準は(L/2)(1/2)=L/4に対応するが、提案されるオフセットを使うときは、基準は((L/2)+(L/2))(1/2)=L/2に移行する。これもまた、二次のゼロ基準710、すなわちT=2を使う転換された信号についてのゼロ基準と整列されている。
【0110】
複数の転換次数を同時に使うときに考えられるべきもう一つの側面は、異なる転換因子の転換シーケンスに適用される利得に関する。換言すれば、異なる転換次数の転換器の出力信号を組み合わせる側面に対処してもよい。転換された信号の利得を選択するときには、二つの原理があり、異なる理論的アプローチのもとに考察されうる。一方の選択肢では、転換された信号はエネルギー保存的である、つまりその後転換されてT倍転換されたハイバンド信号を構成するローバンド信号における全エネルギーが保存されるとされる。この場合、帯域幅当たりのエネルギーは、転換因子Tだけ減少させられるべきである。信号は周波数において同じ量Tだけ伸張されているからである。しかしながら、無限小の帯域幅内にエネルギーをもつ正弦波は転換後にそのエネルギーを保持する。これは、時間伸張の時に転換器によってディラック・パルスが時間的に動かされるのと同様に、すなわち、パルスの継続時間が時間伸張動作によって変えられないのと同様に、転換するときに周波数において正弦波が動かされる、すなわち周波数転換動作によって周波数における継続長(つまり帯域幅)は変えられないという事実に起因する。すなわち、たとえ帯域幅当たりのエネルギーがT倍低下したとしても、正弦波は周波数における一点にそのすべてのエネルギーを有しており、点ごとのエネルギーは保存される。
【0111】
転換された信号の利得を選択するときのもう一方の選択肢は、転換後の帯域幅当たりのエネルギーを保つことである。この場合、広帯域の白色雑音および過渡信号が、転換後、平坦な周波数応答を示し、その一方、正弦波のエネルギーは因子Tだけ増大する。
【0112】
本発明のさらなる側面は、共通分解窓を使うときの分解および合成位相ボコーダ窓の選択である。分解および合成位相ボコーダ窓、すなわちva(n)およびvs(n)を慎重に選択することが有益である。完全再構成を許容するために合成窓vs(n)が上記の公式2に従うべきであるのみならず、さらに、分解窓va(n)もサイドローブ・レベルの十分な阻止をもつべきである。さもなければ、望ましくない「エイリアシング」項が典型的には、周波数変動する正弦波についての主たる項との干渉として聞こえるようになる。そのような望ましくない「エイリアシング」項は、上述したように偶数転換因子の場合には定常的な正弦波についても現れることがある。本発明は、良好なサイドローブ阻止比のため、正弦波窓の使用を提案する。よって、分解窓は
va(n)=sin{(π/L)(n+0.5)} 0≦n<L (4)
とすることが提案される。
【0113】
合成ホップ・サイズΔtsが分解窓長さLの約数でない場合、すなわち、分解窓長さLが合成ホップ・サイズで整除できない場合、合成窓vs(n)は分解窓va(n)と同一であるか、上記の公式(2)によって与えられる。例として、L=1024、Δts=384であれば、1024/384=2.667は整数ではない。上に概説したように双直交の分解および合成窓の対を選択することも可能であることを注意しておくべきである。これは、特に偶数転換次数Tを使うときに、出力信号におけるエイリアシングの軽減のために有益であることがある。
【0114】
以下では、統合音声音響符号化(USAC)のための例示的なエンコーダ1000および例示的なデコーダ1100をそれぞれ示す図10および図11が参照される。USACエンコーダ1000およびデコーダ1100の一般的な構造は次のように述べられる:まず、ステレオまたは多チャネル処理を扱うためのMPEGサラウンド(MPEGS: MPEG Surround)機能ユニットおよび入力信号におけるより高いオーディオ周波数のパラメトリック表現を扱う向上スペクトル帯域複製(eSBR: enhanced Spectral Band Replication)ユニット1001および1101からなる共通の前処理/後処理があってもよい。eSBRは本稿で概説される高調波転換法を利用してもよい。二つの分枝があり、一方は修正された先進オーディオ符号化(AAC: Advanced Audio Coding)ツール経路からなり、他方は線形予測符号化(LPまたはLPC領域)ベースの経路からなる。この後者は、LPC残差の周波数領域表現または時間領域表現をフィーチャーする。AACおよびLPC両方についてのすべての伝送されるスペクトルは、MDCT領域で表され、次いで量子化および算術符号化されてもよい。時間領域表現はACELP励振符号化方式を使ってもよい。
【0115】
エンコーダ1000の向上スペクトルバンド複製(eSBR)ユニット1001は本稿で概説した高周波数再構成システムを有していてもよい。いくつかの実施形態では、eSBRユニット1001は、図4図5および図6のコンテキストで概説された転換ユニットを有していてもよい。高調波転換に関係するエンコードされたデータ、たとえば使用される転換次数、必要とされる周波数領域オーバーサンプリングの量または用いられる利得、が、エンコーダ1000において導出され、他のエンコードされた情報と、ビットストリーム・マルチプレクサにおいてマージされ、エンコードされたオーディオ・ストリームとして対応するデコーダ1100に転送されてもよい。
【0116】
図11に示されるデコーダ1100も向上されたスペクトル帯域幅複製(eSBR)ユニット1101を有している。このeSBRユニット1101はエンコードされたオーディオ・ビットストリームまたはエンコードされた信号をエンコーダ1000から受け取り、本稿で概説された方法を使って信号の高周波数成分またはハイバンドを生成し、それがデコードされた低周波数成分またはローバンドとマージされてデコード信号を生じる。eSBRユニット1101は本稿で概説された種々のコンポーネントを有していてもよい。特に、図4図5および図6のコンテキストで概説された転換ユニットを有していてもよい。eSBRユニット1101は、高周波数再構成を実行するために、ビットストリームを介してエンコーダ1000によって与えられた高周波数成分についての情報を使ってもよい。そのような情報は、合成サブバンド信号、ひいてはデコード信号の高周波数成分を生成するための、もとの高周波数成分のスペクトル包絡や、使用される転換次数、必要とされる周波数領域オーバーサンプリングの量または用いられる利得であってもよい。
【0117】
さらに、図10および図11は、USACエンコーダ/デコーダの、以下のような可能な追加的コンポーネントを示している。
【0118】
・ビットストリーム・ペイロード・デマルチプレクサ・ツール。これは、ビットストリーム・ペイロードを各ツールのための部分に分離し、各ツールに、そのツールに関係するビットストリーム・ペイロード情報を与える。
【0119】
・スケール因子ノイズレス・デコード・ツール。これは、ビットストリーム・ペイロード・デマルチプレクサから情報を受け、その情報をパースし、ハフマンおよびDPCM符号化されたスケール因子をデコードする。
【0120】
・スペクトル・ノイズレス・デコード・ツール。これは、ビットストリーム・ペイロード・デマルチプレクサから情報を受け、その情報をパースし、算術符号化されたデータをデコードし、量子化されたスペクトルを再構成する。
【0121】
・逆量子化ツール。これはスペクトルについての量子化された値を受け、整数値を、スケーリングされていない再構成されたスペクトルに変換する。この量子化器は好ましくは圧縮伸張量子化器であり、その圧縮伸張因子は選ばれたコア符号化モードに依存する。
【0122】
・ノイズ充填ツール。これはデコードされたスペクトルにおけるスペクトル・ギャップを充填するために使われる。該スペクトル・ギャップは、たとえばエンコーダにおけるビット需要に対する強い制約に起因してスペクトル値が0に量子化されるときに現れる。
【0123】
・再スケーリング・ツール。これは、スケール因子の整数表現を実際の値に変換し、スケーリングされていない逆量子化されたスペクトルに、関連するスケール因子を乗算する。
【0124】
・ISO/IEC14496-3に記載されているようなM/Sツール。
【0125】
・ISO/IEC14496-3に記載されているような時間的ノイズ整形(TNS: temporal noise shaping)ツール。
【0126】
・フィルタバンク/ブロック切り換えツール。これは、エンコーダにおいて実行された周波数マッピングの逆を適用する。フィルタバンク・ツールのためには好ましくは逆修正離散コサイン変換(IMDCT)が使われる。
【0127】
・時間歪みフィルタバンク/ブロック切り換えツール。これは、時間歪みモードが有効にされているときに通常のフィルタバンク/ブロック切り換えツールを置換する。フィルタバンクは好ましくは通常のフィルタバンクについてと同じもの(IMDCT)であり、さらに、窓掛けされた時間領域標本値が、歪められた時間領域から線形の時間領域に、時間変動する再サンプリングによってマッピングされる。
【0128】
・MPEGサラウンド(MPEGS)ツール。これは、一つまたは複数の入力信号から、適切な空間的パラメータによって制御される該入力信号に洗練された上方混合(upmix)手順を適用することによって、複数の信号を生成する。USACのコンテキストでは、MPEGSは好ましくは、伝送される下方混合(downmix)された信号とともにパラメトリック副情報を伝送することによって、多チャネル信号を符号化するために使われる。
【0129】
・信号分類器ツール。これは、もとの入力信号を分析して、それから、種々の符号化モードの選択をトリガーする制御情報を生成する。入力信号の分析は典型的には実装依存であり、所与の入力信号フレームについて最適なコア符号化モードを選ぼうとする。信号分類器の出力は任意的に、他のツール、たとえばMPEGサラウンド、向上SBR、時間歪みフィルタバンクなど、の振る舞いに影響するためにも使われてもよい。
【0130】
・LPCフィルタ・ツール。これは、線形予測合成フィルタを通じて、再構成された励振信号をフィルタ処理することによって、励振領域信号から時間領域信号を生成する。
【0131】
・ACELPツール。これは、長期予測器(適応符号語)をパルス様シーケンス(イノベーション符号語)と組み合わせることによって時間領域励振信号を効率的に表現する方法を提供する。
【0132】
図12は、図10および図11に示されるeSBRユニットのある実施形態を示している。eSBRユニット1200は以下ではデコーダのコンテキストで記述され、eSBRユニット1200への入力は信号の、ローバンドとしても知られる低周波数成分である。
【0133】
図12では、低周波数成分1213は、QMF周波数帯域を生成するためにQMFフィルタバンクに入力される。これらのQMF周波数帯域は、本稿で概説される分解サブバンドと混同すべきではない。QMF周波数帯域は、時間領域ではなく、周波数領域において、信号の低周波数成分と高周波数成分を操作およびマージする目的のために使われる。低周波数成分1214は本稿で概説された高周波数再構成のためのシステムに対応する転換ユニット1204に入力される。転換ユニット1204は、信号のハイバンドとしても知られる高周波数成分1212を生成し、それがQMFフィルタバンク1203によって周波数領域に変換される。QMF変換された低周波数成分およびQMF変換された高周波数成分の両方は操作およびマージ・ユニット1205に入力される。このユニット1205は高周波数成分の包絡線調整を実行してもよく、調整された高周波数成分および低周波数成分を組み合わせる。組み合わされた出力信号は、逆QMFフィルタバンク1201によって時間領域に再変換される。
【0134】
典型的には、QMFフィルタバンク1202は32個のQMF周波数帯域を有する。そのような場合、低周波数成分1213は帯域幅fs/4をもつ。ここで、fs/2は信号1213のサンプリング周波数である。高周波数成分1212は帯域幅fs/2をもち、64個のQMF周波数帯域を有するQMFバンク1203を通じてフィルタリングされる。
【0135】
本稿では高調波転換のための方法が概説してきた。この高調波転換法は、過渡信号の転換のために特に好適である。本方法は、周波数領域オーバーサンプリングと、ボコーダを使った高調波転換との組み合わせを含む。転換動作は分解窓、分解窓ストライド、転換サイズ、合成窓、合成窓ストライドの組み合わせに、また分解された信号の位相調整に依存する。この方法の使用により、プレ・エコーおよびポスト・エコーのような望ましくない効果を避けることができる。さらに、本方法は、信号処理における不連続のために典型的には信号歪みを導入する、過渡信号検出のような信号分析施策を使わない。さらに、提案される方法は低下した計算量しかもたない。本発明に基づく高調波転換法は、分解/合成窓、利得値および/または時間整列の適切な選択によってさらに改善されうる。
【0136】
いくつかの態様を記載しておく。
〔態様1〕
転換因子Tを使って入力信号から出力信号を生成するシステムであって:
・長さLaの分解窓を適用し、それにより前記入力信号のフレームを抽出する分解窓ユニットと;
・標本値をM個の複素係数に変換する次数Mの分解変換ユニットと;
・転換因子Tを使うことによって前記複素係数の位相を変更する非線形処理ユニットと;
・変更された係数をM個の変更された標本値に変換する、次数Mの合成変換ユニットと;
・前記M個の変更された標本値に長さLsの合成窓を適用して、それにより前記出力信号のフレームを生成する合成窓ユニットとを有しており、
Mは転換因子Tに基づく、
システム。
〔態様2〕
Mと、前記分解窓と前記合成窓の平均長さとの間の差が、(T-1)に比例する、態様1記載のシステム。
〔態様3〕
Mは(TLa+Ls)/2以上である、態様2記載のシステム。
〔態様4〕
・前記分解変換ユニットが、フーリエ変換、高速フーリエ変換、離散フーリエ変換、ウェーブレット変換のうちの一つを実行し;
・前記合成変換ユニットが、対応する逆変換を実行する、
態様1ないし3のうちいずれか一項記載のシステム。
〔態様5〕
・前記分解窓を、前記入力信号に沿って標本値Sa個ぶんの分解ストライドだけシフトさせる分解ストライド・ユニットと;
・前記出力信号の一連のフレームを、標本値Ss個ぶんの合成ストライドだけシフトさせる合成ストライド・ユニットと;
・前記合成ストライド・ユニットからの一連のシフトされたフレームを重ねて加算し、それにより前記出力信号を生成する重畳加算ユニットとをさらに有する、
態様1ないし4のうちいずれか一項記載のシステム。
〔態様6〕
・前記合成ストライドが前記分解ストライドのT倍であり;
・前記出力信号が、前記入力信号を、転換因子Tによって時間伸張したものに対応する、
態様5記載のシステム。
〔態様7〕
前記合成窓が、前記分解窓および前記分解ストライドから導出される、態様5または6のうちいずれか一項記載のシステム。
〔態様8〕
前記合成窓が公式
【数20】
によって与えられ、
・vs(n)は前記合成窓であり、
・va(n)は前記分解窓であり、
・Δtは前記合成ストライドである、
態様7記載のシステム。
〔態様9〕
前記分解および/または合成窓が:
・ガウス窓;
・コサイン窓;
・ハミング窓;
・ハン窓;
・長方形窓;
・バートレット窓;
・ブラックマン窓
・Lは前記分解窓の長さLaおよび/または前記合成窓の長さLsであるとし、0≦n<Lとして、関数v(n)=sin{(π/L)(n+0.5)}をもつ窓、
のうちの一つである、
態様1ないし8のうちいずれか一項記載のシステム。
〔態様10〕
・転換因子Tによって前記出力信号のサンプリング・レートを増大させる、および/または
・前記サンプリング・レートを不変に保ちながら転換因子Tによって前記出力信号をダウンサンプリングする、
ことにより第一の転換された出力信号を生じる収縮ユニットをさらに有する、態様5記載のシステム。
〔態様11〕
・前記合成ストライドが前記分解ストライドのT倍であり;
・前記第一の転換された出力信号が、前記入力信号を、転換因子Tによって周波数シフトしたものに対応する、
態様10記載のシステム。
〔態様12〕
前記位相を変更することが、前記位相を転換因子T倍することを含む、態様1記載のシステム。
〔態様13〕
・第二の転換因子T2を使うことによって前記複素係数の位相を変更し、それにより第二の出力信号のフレームを生じる第二の非線形処理ユニットと;
・前記第二の出力信号の一連のフレームを第二の合成ストライドだけシフトさせ、それにより前記重畳加算ユニットにおいて第二の重畳加算された出力信号を生成する第二の合成ストライド・ユニットとをさらに有する、
態様10記載のシステム。
〔態様14〕
・前記第二の転換因子T2を使って第二の転換された出力信号を生じる第二の収縮ユニットと;
・第一および第二の転換された出力信号をマージする組み合わせユニットとをさらに有する、
態様13記載のシステム。
〔態様15〕
前記第一および第二の転換された出力信号のマージが、前記第一および第二の転換された出力信号の標本値を加算することを含む、態様14記載のシステム。
〔態様16〕
・前記組み合わせユニットが、マージに先立って、前記第一および第二の転換された出力信号に対して重み付けを行い;
・重み付けは、前記第一および第二の転換された出力信号のエネルギーまたは帯域幅当たりのエネルギーがそれぞれ前記入力信号のエネルギーまたは帯域幅当たりのエネルギーに対応するよう、実行される、
態様14記載のシステム。
〔態様17〕
・前記組み合わせユニットにはいる前の前記第一および第二の転換された出力信号を時間オフセットさせる整列ユニットをさらに有する、
態様14記載のシステム。
〔態様18〕
前記第一および第二の転換された出力信号のそれぞれについての前記時間オフセットは、L=La=Lsとして、その転換された出力信号の転換因子Tおよび/または窓の長さLの関数である、態様17記載のシステム。
〔態様19〕
前記時間オフセットは、(T-2)L/4として決定される、態様18記載のシステム。
〔態様20〕
前記分解窓および前記合成窓は互いに異なり、互いに対して双直交である、態様1ないし19のうちいずれか一項記載のシステム。
〔態様21〕
前記分解窓のz変換が単位円上にデュアル零点を有する、態様20記載のシステム。
〔態様22〕
転換因子Tを使って入力信号から出力信号を生成するシステムであって:
・分解窓を適用し、それにより前記入力信号のフレームを抽出する分解窓ユニットと;
・標本値をM個の複素係数に変換する次数Mの分解変換ユニットと;
・転換因子Tを使うことによって前記複素係数の位相を変更する非線形処理ユニットと;
・変更された係数をM個の変更された標本値に変換する、次数Mの合成変換ユニットと;
・前記M個の変更された標本値に合成窓を適用して、それにより前記出力信号のフレームを生成する合成窓ユニットとを有しており、
前記分解窓および前記合成窓は互いに異なり、互いに対して双直交であり、
前記分解窓のz変換が単位円上でデュアル零点を有する、
システム。
〔態様23〕
オーディオ信号を含む受信されたマルチメディア信号をデコードするシステムであって、態様1ないし22のうちいずれか一項記載のシステムを有する転換ユニットを有しており、前記入力信号は前記オーディオ信号の低周波数成分であり、前記出力信号は前記オーディオ信号の高周波数成分である、システム。
〔態様24〕
前記オーディオ信号の前記低周波数成分をデコードするコア・デコーダをさらに有する、態様23記載のシステム。
〔態様25〕
前記コア・デコーダが、ドルビーE、ドルビー・デジタル、AACのうちの一つである符号化方式に基づく、態様24記載のシステム。
〔態様26〕
オーディオ信号を含む受信されたマルチメディア信号をデコードするセットトップボックスであって、前記オーディオ信号から、転換された出力信号を生成するために、態様1ないし22のうちいずれか一項記載のシステムを有する転換ユニットを有している、システム。
〔態様27〕
転換因子Tによって入力信号を転換する方法であって:
・長さLaの分解窓を使って前記入力信号の標本値からなるフレームを抽出する段階と;
・前記入力信号の前記フレームを時間領域から周波数領域に変換してM個の複素係数を生じる段階と;
・転換因子Tを用いて前記複素係数の位相を変更する段階と;
・M個の変更された複素係数を時間領域に変換してM個の変更された標本値を生じる段階と;
・長さLsの合成窓を使って出力信号のフレームを生成する段階とを含み、
Mは転換因子Tに基づく、
方法。
〔態様28〕
・前記入力信号に沿って標本値Sa個ぶんの分解ストライドだけ前記分解窓をシフトさせ、それにより前記入力信号の一連のフレームを生じる段階と;
・標本値Ss個ぶんの合成ストライドだけ前記出力信号の一連のフレームをシフトさせる段階と;
・一連のフレームをシフトさせる前記段階からの一連のシフトされたフレームを重ねて加算し、それにより前記出力信号を生成する段階とをさらに含む、
態様27記載の方法。
〔態様29〕
前記合成ストライドが前記分解ストライドのT倍である、態様28記載の方法。
〔態様30〕
・転換因子Tによる前記出力信号のレート変換を実行し、それにより第一の転換された出力信号を生じる段階をさらに含む、
態様29記載の方法。
〔態様31〕
・サンプリング・レートを不変に保ちつつ、転換因子Tによって前記出力信号のダウンサンプリングを実行し、それにより転換された出力信号を生じる段階をさらに含む、態様29記載の方法。
〔態様32〕
・第二の転換因子T2を使うことによって前記複素係数の位相を変更し、それにより第二の出力信号のフレームを生成する段階と;
・第二の合成ストライドによって前記第二の出力信号の一連のフレームをシフトさせ、それにより前記第二の出力信号のシフトされたフレームを重ねて加算することによって第二の重畳加算された出力信号を生成する段階とをさらに含む、
態様28ないし31のうちいずれか一項記載の方法。
〔態様33〕
・第二の転換因子T2によって前記第二の出力信号のレート変換を実行し、それにより第二の転換された出力信号を生じる段階と;
・前記第一および第二の転換された出力信号をマージしてマージされた出力信号を生じる段階とをさらに含む、
態様32が態様30を引用する場合の態様32記載の方法。
〔態様34〕
転換因子Tによって入力信号を転換する方法であって:
・分解窓を使って前記入力信号の標本値からなるフレームを抽出する段階と;
・前記入力信号の前記フレームを時間領域から周波数領域に変換してM個の複素係数を生じる段階と;
・転換因子Tを用いて前記複素係数の位相を変更する段階と;
・M個の変更された複素係数を時間領域に変換してM個の変更された標本値を生じる段階と;
・合成窓を使って出力信号のフレームを生成する段階とを含み、
前記分解窓および前記合成窓は互いに異なり、互いに対して双直交であり、
前記分解窓のz変換が単位円上でデュアル零点を有する、
方法。
〔態様35〕
前記合成窓vs(n)が
【数21】
によって与えられ、cは定数、va(n)は前記分解窓、Δtsは前記合成窓の時間ストライド、Lは前記分解窓および前記合成窓の長さであり、s(n)は
【数22】
によって与えられる、態様34記載の方法。
〔態様36〕
前記分解窓が二乗正弦窓である、態様34または35記載の方法。
〔態様37〕
態様34または35記載の方法であって、長さLの分解窓は、
・長さLの二つの正弦窓を畳み込んで長さ2L-1の二乗正弦窓を生じ;
・前記二乗正弦窓にゼロをアペンドして、長さ2Lのベース窓を生じ;
・線形補間を使って前記ベース窓を再サンプリングし、前記分解窓として長さLの偶対称な窓を生じることによって決定される、
方法。
〔態様38〕
プロセッサ上での実行用に適応されたソフトウェア・プログラムであって、コンピューティング・デバイス上で実行されたときに態様27ないし37のうちいずれか一項記載の方法段階を実行するための、ソフトウェア・プログラム。
〔態様39〕
プロセッサ上での実行用に適応されたソフトウェア・プログラムであって、コンピューティング・デバイスで実行されたときに態様27ないし37のうちいずれか一項記載の方法段階を実行するための、ソフトウェア・プログラムを格納している記憶媒体。
〔態様40〕
コンピュータで実行されたときに態様27ないし37のうちいずれか一項記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12