特許第5873936号(P5873936)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許5873936知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御
<>
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000002
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000003
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000004
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000005
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000006
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000007
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000008
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000009
  • 特許5873936-知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 図000010
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5873936
(24)【登録日】2016年1月22日
(45)【発行日】2016年3月1日
(54)【発明の名称】知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御
(51)【国際特許分類】
   G10L 19/02 20130101AFI20160216BHJP
【FI】
   G10L19/02 150
   G10L19/02 180A
【請求項の数】21
【全頁数】23
(21)【出願番号】特願2014-559187(P2014-559187)
(86)(22)【出願日】2013年2月26日
(65)【公表番号】特表2015-508911(P2015-508911A)
(43)【公表日】2015年3月23日
(86)【国際出願番号】EP2013053831
(87)【国際公開番号】WO2013127801
(87)【国際公開日】20130906
【審査請求日】2014年9月29日
(31)【優先権主張番号】61/603,773
(32)【優先日】2012年2月27日
(33)【優先権主張国】US
(31)【優先権主張番号】12178265.0
(32)【優先日】2012年7月27日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ディッシュ,サッシャ
(72)【発明者】
【氏名】ヘルレ,ユルゲン
(72)【発明者】
【氏名】エドラー,ベルント
(72)【発明者】
【氏名】ナーゲル,フレデリック
【審査官】 千本 潤介
(56)【参考文献】
【文献】 特開2005−208627(JP,A)
【文献】 特表2011−514987(JP,A)
【文献】 特開2004−053940(JP,A)
【文献】 国際公開第2011/110494(WO,A1)
【文献】 特表2009−500952(JP,A)
【文献】 国際公開第2011/048792(WO,A1)
【文献】 米国特許出願公開第2009/0192806(US,A1)
【文献】 欧州特許出願公開第01918911(EP,A1)
【文献】 特表2003−517157(JP,A)
【文献】 特開平11−251918(JP,A)
【文献】 特表2008−504566(JP,A)
【文献】 特表2007−514977(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/02
(57)【特許請求の範囲】
【請求項1】
符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得るデコーダであって、
前記符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得る復号化ユニット(110)と、
前記復号化済みオーディオ信号を調整して位相調整されたオーディオ信号を得る位相調整ユニット(120;430;560)と、を含み、
前記位相調整ユニット(120;430;560)は、前記符号化済みオーディオ信号の垂直位相コヒーレンスに依存する制御情報を受信するよう構成され、
前記位相調整ユニット(120;430;560)は、前記制御情報に基づいて前記復号化済みオーディオ信号を調整するよう構成されている、デコーダ。
【請求項2】
請求項1に記載のデコーダであって、
前記位相調整ユニット(120;430;560)は、前記位相調整が活性であることを前記制御情報が示したときに前記復号化済みオーディオ信号を調整するよう構成され、
前記位相調整ユニット(120;430;560)は、前記位相調整が不活性であることを前記制御情報が示したときに前記復号化済みオーディオ信号を調整しないように構成されている、デコーダ。
【請求項3】
請求項1に記載のデコーダにおいて、
前記位相調整ユニット(120;430;560)は前記制御情報を受信するよう構成され、前記制御情報は位相調整の強度を示す強度値を含み、
前記位相調整ユニット(120;430;560)は、前記強度値に基づいて前記復号化済みオーディオ信号を調整するよう構成されている、デコーダ。
【請求項4】
請求項1乃至3のいずれかに記載のデコーダにおいて、
前記デコーダは、前記復号化済みオーディオ信号を複数のサブバンドの複数のサブバンド信号へと分解する分析フィルタバンクをさらに備え、
前記位相調整ユニット(120;430;560)は、前記複数のサブバンド信号の複数の第1位相値を決定するよう構成され、
前記位相調整ユニット(120;430;560)は、前記複数の第1位相値の少なくともいくつかを修正することにより前記符号化済みオーディオ信号を調整して、前記位相調整されたオーディオ信号の第2位相値を得るように構成されている、デコーダ。
【請求項5】
請求項4に記載のデコーダにおいて、
前記位相調整ユニット(120;430;560)は、前記位相値の少なくともいくつかを以下の式を適用することにより調整するよう構成され、
px'(f) = px(f) - dp(f)
及び
dp(f) = α * (p0(f) + const)
ここで、fは中心周波数として周波数fを持つ1つのサブバンドを示す周波数であり、
px(f)は前記中心周波数として周波数fを持つ前記サブバンドのサブバンド信号の第1位相値の1つであり、
px'(f)は前記中心周波数として周波数fを持つ前記サブバンドのサブバンド信号の第2位相値の1つであり、
constは−π≦const≦πの範囲の第1角度であり、
αは0≦α≦1の範囲の実数であり、
p0(f)は−π≦p0(f)≦πの範囲の第2角度であり、この第2角度p0(f)は中心周波数として周波数fを持つ前記サブバンドの1つに割り当てられている、デコーダ。
【請求項6】
請求項4に記載のデコーダにおいて、
前記位相調整ユニット(120;430;560)は、前記複数のサブバンド信号の少なくとも幾つかを指数位相項によって乗算することにより、前記位相値の少なくとも幾つかを調整するよう構成され、
前記指数位相項は、式e-jdp(f)によって定義され、
前記複数のサブバンド信号は複素サブバンド信号であり、
jは虚数単位である、デコーダ。
【請求項7】
請求項1乃至6のいずれかに記載のデコーダにおいて、
前記デコーダはさらに合成フィルタバンク(125)を含み、
前記位相調整されたオーディオ信号は、スペクトルドメインで表現されている位相調整されたスペクトルドメインオーディオ信号であり、
前記合成フィルタバンク(125)は、前記位相調整されたスペクトルドメインオーディオ信号をスペクトルドメインから時間ドメインへ変換して、位相調整された時間ドメインオーディオ信号を得るよう構成されている、デコーダ。
【請求項8】
オーディオ入力信号に基づいて制御情報を符号化するエンコーダであって、
前記オーディオ入力信号を時間ドメインからスペクトルドメインへ変換して、複数のサブバンドに割り当てられている複数のサブバンド信号を含む変換済みオーディオ信号を得る変換ユニット(210)と、
前記変換済みオーディオ信号の垂直位相コヒーレンスを示す前記制御情報を生成する制御情報生成部(220;420;520;600)と、
前記変換済みオーディオ信号と前記制御情報とを符号化する符号化ユニット(230)と、を備えるエンコーダ。
【請求項9】
請求項8に記載のエンコーダにおいて、
前記変換ユニット(210)は、前記オーディオ入力信号を時間ドメインからスペクトルドメインへと変換して、複数のサブバンド信号を含む前記変換済みオーディオ信号を得るための蝸牛フィルタバンクを備える、エンコーダ。
【請求項10】
請求項8又は9に記載のエンコーダにおいて、
前記制御情報生成部(220;420;520;600)は、前記複数のサブバンド信号の各々についてサブバンドエンベロープを決定し、複数のサブバンド信号エンベロープを得るよう構成され、
前記制御情報生成部(220;420;520;600)は、前記複数のサブバンド信号エンベロープに基づいて結合済みエンベロープを生成するよう構成され、
前記制御情報生成部(220;420;520;600)は、前記結合済みエンベロープに基づいて前記制御情報を生成するよう構成されている、エンコーダ。
【請求項11】
請求項10に記載のエンコーダにおいて、
前記制御情報生成部(220;420;520;600)は、前記結合済みエンベロープに基づいてある特徴数を生成するよう構成され、
前記制御情報生成部(220;420;520;600)は、前記特徴数がある閾値より大きいときに位相調整が活性化されることを示す前記制御情報を生成するよう構成され、
前記制御情報生成部(220;420;520;600)は、前記特徴数がある閾値以下のときに位相調整が不活性化されることを示す前記制御情報を生成するよう構成されている、エンコーダ。
【請求項12】
請求項10又は11に記載のエンコーダにおいて、
前記制御情報生成部(220;420;520;600)は、前記結合済みエンベロープの幾何平均と前記結合済みエンベロープの算術平均との比を計算することによって、前記制御情報を生成するよう構成されている、エンコーダ。
【請求項13】
請求項8乃至12のいずれかに記載のエンコーダにおいて、
前記制御情報生成部(220;420;520;600)は、前記制御情報が前記サブバンド信号の垂直位相コヒーレンスの程度を示す強度値を含むように、前記制御情報を生成するよう構成されている、エンコーダ。
【請求項14】
第1オーディオ信号を処理して第2オーディオ信号を得る装置であって、
前記第1オーディオ信号の垂直位相コヒーレンスを示す制御情報を生成するための制御情報生成部(710;820)と、
前記第1オーディオ信号を調整して前記第2オーディオ信号を得る位相調整ユニット(720;830)と、を備え、
前記位相調整ユニット(720;830)は、前記制御情報に基づいて前記第1オーディオ信号を調整するよう構成されている、装置。
【請求項15】
請求項8乃至13のいずれかに記載のエンコーダ(310)と、
請求項1乃至7のいずれかに記載の少なくとも1つのデコーダ(320)と、を備え、
前記エンコーダ(310)は、オーディオ入力信号を変換して変換済みオーディオ信号を得るよう構成され、
前記エンコーダ(310)は、前記変換済みオーディオ信号を符号化して符号化済みオーディオ信号を得るよう構成され、
前記エンコーダ(310)は、前記変換済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を符号化するよう構成され、
前記エンコーダ(310)は、前記符号化済みのオーディオ信号と制御情報とを前記少なくとも1つのデコーダへと供給するよう配置され、
前記少なくとも1つのデコーダ(320)は、前記符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るよう構成され、
前記少なくとも1つのデコーダ(320)は、前記符号化済み制御情報に基づいて前記復号化済みオーディオ信号を調整し、位相調整されたオーディオ信号を得るよう構成されている、システム。
【請求項16】
符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る方法であって、
前記符号化済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を受信するステップと、
前記符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るステップと、
前記制御情報に基づいて前記復号化済みオーディオ信号を調整して前記位相調整されたオーディオ信号を得るステップと、
を備える方法。
【請求項17】
オーディオ入力信号に基づいて制御情報を符号化する方法であって、
前記オーディオ入力信号を時間ドメインからスペクトルドメインへ変換して、複数のサブバンドに割り当てられている複数のサブバンド信号を含む変換済みオーディオ信号を得るステップと、
前記変換済みオーディオ信号の垂直位相コヒーレンスを示す前記制御情報を生成するステップと、
前記変換済みオーディオ信号と前記制御情報とを符号化するステップと、を備える方法。
【請求項18】
第1オーディオ信号を処理して、第2オーディオ信号を得る方法であって、
前記第1オーディオ信号の垂直位相コヒーレンスを示す制御情報を生成するステップと、
前記制御情報に基づいて前記第1オーディオ信号を調整して、前記第2オーディオ信号を得るステップと、を備える方法。
【請求項19】
コンピュータ又は信号プロセッサにより実行されたとき、請求項16に記載の方法を実行させるコンピュータプログラム。
【請求項20】
コンピュータ又は信号プロセッサにより実行されたとき、請求項17に記載の方法を実行させるコンピュータプログラム。
【請求項21】
コンピュータ又は信号プロセッサにより実行されたとき、請求項18に記載の方法を実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オーディオ出力信号を生成する装置及び方法に関し、特に、知覚的オーディオコーデックにおいてハーモニック信号のための位相コヒーレンス制御を実行する装置及び方法に関する。
【背景技術】
【0002】
オーディオ信号処理はますます重要になりつつある。特に、限られた容量の伝送または記憶チャネルを使用する消費者に対してオーディオ及びマルチメディアを提供する全てのタイプのアプリケーションにとって、知覚的オーディオ符号化は、主流の可能ならしめるデジタル技術として急増してきた。現代の知覚的オーディオコーデックには、ますます低いビットレートにおいて満足なオーディオ品質を配信することが求められている。その代わり、大部分のリスナーにとっては最も許容可能であるようなある符号化アーチファクトについて、リスナーは我慢を強いられている。
【0003】
それらのアーチファクトの1つは、周波数上の位相コヒーレンス(「垂直」位相コヒーレンス:vertical phase coherence)の欠如である(非特許文献1を参照)。その結果として生じる主観的なオーディオ信号品質における損傷は、多くの定常信号にとっては、通常はあまり大きくない。しかしながら、人間の聴覚システムによって単一の複合音として知覚されるような多くのスペクトル成分からなるハーモニックな調性サウンドにおいては、結果的に生じる知覚的歪みが不快に感じられる。
【0004】
垂直位相コヒーレンス(VPC)の保全が重要となる典型的な信号は、発声されたスピーチ、金管楽器または擦弦楽器などであり、それら楽器は、例えばその物理的なサウンド生成の性質から倍音コンテンツが豊富であってハーモニックな倍音同志の間で位相ロックされているサウンドを生成する「楽器」などである。特に、ビット予算が非常に限られた非常に低いビットレートにおいては、現状技術のコーデックを使用することにより、スペクトル成分のVPCを実質的に弱めてしまう場合が多い。しかし、上述のような信号においては、VPCは重要な知覚的聴覚キューであり、信号の高いVPCが保全されるべきである。
【0005】
以下に、現状技術に係る知覚的オーディオ符号化について考察する。現状技術では、知覚的オーディオ符号化は複数の共通のテーマに従っており、それらテーマには、時間/周波数ドメイン処理と、冗長性の低減(エントロピー符号化)と、知覚的効果の断定的活用を通じた無意味部の除去(非特許文献2を参照)などが含まれる。典型的には、時間ドメイン信号をスペクトル表現、例えば時間/周波数表現へと変換する分析フィルタを用いて、入力信号が分析される。そのようにスペクトル係数へと変換することで、信号成分をそれらの周波数コンテンツに依存して、例えば個々の倍音構造を有する異なる楽器ごとに、選択的に処理することが可能となる。
【0006】
それと並行して、入力信号はその知覚的特徴に関して分析される。例えば、時間および周波数依存のマスキング閾値が計算されてもよい。その時間/周波数依存のマスキング閾値は、目標符号化閾値を介して、量子化ユニットに対し、絶対エネルギー値またはマスク対信号比(MSR)の形態で、各周波数帯域および符号化時間フレームについて配信されてもよい。
【0007】
分析フィルタバンクによって配信されたスペクトル係数は、その信号を表現するために必要なデータレートを低減させるべく量子化される。このステップは情報の損失を招き、信号内に符号化の歪み(エラー、ノイズ)を導入してしまう。この符号化ノイズの可聴の影響を最小化するために、量子化ステップサイズは、各周波数帯域およびフレームについての目標符号化閾値に従って制御される。理想的には、各周波数帯域内に入り込む符号化ノイズは符号化(マスキング)閾値よりも低くなり、結果的に、主観的なオーディオにおいては何の劣化も知覚できない(無意味部の除去)。周波数および時間における量子化ノイズの聴覚心理要件に従うこのような制御は、精巧なノイズ成形効果をもたらすものであり、コーダを知覚的オーディオコーダと呼ぶにふさわしくするものである。
【0008】
次に、現代のオーディオコーダは、量子化されたスペクトルデータに対し、例えばハフマン符号化または算術符号化などのエントロピー符号化を実行する。エントロピー符号化とは、ビットレートをさらに節約するロスレス符号化ステップである。
【0009】
最後に、全ての符号化されたスペクトルデータと関連する追加的なパラメータ、例えば各周波数帯域についての量子化部の設定などのサイド情報などを含むパラメータとが一緒にパックされて1つのビットストリームになるが、このビットストリームはファイルの記憶または伝送のために意図された最終的な符号化済みの表現である。
【0010】
次に、現状技術に係る帯域幅拡張について考察する。フィルタバンクに基づく知覚的オーディオ符号化において、消費されるビットレートの主要部分は、通常、量子化されたスペクトル係数に対して使用される。そのため、非常に低いビットレートにおいては、知覚的に損傷のない再現を達成するために必要な精度で全ての係数を表現するには、使用可能なビットが不十分となる場合が起こり得る。従って、低いビットレート要件では、知覚的オーディオ符号化によって得られるオーディオ帯域幅に対して実質上の制限を設けている。
【0011】
長年支配的だったこのような基本的制限は、帯域幅拡張(非特許文献3を参照)によって排除される。帯域幅拡張の中核的思想は、欠損した高周波コンテンツをコンパクトなパラメトリック形態で伝送し復元する追加的な高周波プロセッサによって、帯域制限された知覚的コーデックを補足することである。高周波コンテンツは、ベースバンド信号の単一の副帯域変調に基づいて(例えば非特許文献4を参照)、又は例えば非特許文献5に記載のボコーダのようなピッチシフティング技術の適用に基づいて、生成することができる。
【0012】
特に低いビットレートのために、コンパクトなパラメトリック表現を用いて正弦波成分(sinusoids)を符号化するパラメトリック符号化のスキームが設計されている(例えば非特許文献6〜9を参照)。個々のコーダによるが、余った残余は更にパラメトリック符号化されるか又は波形符号化される。
【0013】
次に、現状技術に係るパラメトリック空間オーディオ符号化について考察する。オーディオ信号の帯域幅拡張と同様に、空間オーディオ符号化(SAC)は、波形符号化のドメインには触れず、代わりに、元の空間的サウンドイメージの知覚的に満足できる複製を配信することに焦点を当てるものである。人間であるリスナーによって知覚されるサウンドシーンは、そのシーンが実際のオーディオ音源から構成されているか、又はそのシーンが虚像のサウンドを投影している2個以上のラウドスピーカによって再生されているかにかかわらず、本質的にリスナーの耳の信号間の差(いわゆる両耳間差)によって決定される。個々のオーディオ入力チャネル信号を離散的に符号化する代わりに、SACに基づくシステムは、多チャネルオーディオ信号の空間的イメージを捕獲して、伝送されたダウンミックス信号から高品質な多チャネル表現を合成するために使用可能なパラメータのコンパクトな集合を生成する(例えば非特許文献10〜12を参照)。
【0014】
パラメトリックな性質から、空間オーディオ符号化は波形保存的ではない。その結果、オーディオ信号の全てのタイプについて完全に損傷のない品質を達成することは困難である。それにもかかわらず、空間オーディオ符号化は、低域および中間のビットレートにおいて相当な利得をもたらす非常に有力な手法である。
【0015】
タイムストレッチングやピッチシフティングの効果などのデジタルオーディオ効果は、通常、同期オーバーラップ加算(synchronized overlap-add:SOLA)のような時間ドメイン技術の適用か、又は例えばボコーダを使用することによる周波数ドメイン技術の適用によって取得される。さらに、現状技術において、SOLAの処理をサブバンドにおいて適用するハイブリッドシステムも提案されている。ボコーダ及びハイブリッドシステムは、通常、垂直位相コヒーレンスの欠損に起因すると考えられるフェージネス(phasiness)と呼ばれるアーチファクトに悩まされる。タイムストレッチング・アルゴリズムのサウンド品質にもたらす改善に関する幾つかの文献が存在し(例えば非特許文献13,14を参照)、それらは重要な部分において垂直位相コヒーレンスを保全することを用いている。
【0016】
現状技術の知覚的オーディオコーデックを使用すると、オーディオ信号のスペクトル成分の垂直位相コヒーレンス(VPC)を弱める場合が多く発生する。特に、パラメトリック符号化技術が適用される低いビットレートにおいて多くなる。しかしながら、ある信号においては、VPCは重要な知覚的キューである。結果的に、そのようなサウンドの知覚的品質は損傷を受ける。
【0017】
現状技術のオーディオコーダは、通常、符号化されるべき信号の重要な位相特性を無視することで、オーディオ信号の知覚的品質の妥協を行っている(例えば非特許文献2を参照)。オーディオコーダ内で伝送されるスペクトル係数の粗い量子化によって既に、復号化された信号のVPCを変化させている可能性もある。更に、帯域幅拡張(非特許文献3〜5を参照)、パラメトリック多チャネル符号化(非特許文献10〜12を参照)又は正弦波成分のパラメトリック符号化(非特許文献6〜9を参照)など、特にパラメトリック符号化技術の適用によって、周波数上の位相コヒーレンスは損傷を受けることが多い。
【0018】
そのような損傷の結果として、遥か遠くから聞こえるような、鈍く、従ってリスナーの注目を殆ど喚起できないサウンドが生まれてしまう(非特許文献15を参照)。垂直位相コヒーレンスが重要である信号要素タイプは多数存在する。VPCが重要な典型的信号とは、例えば、発音されたスピーチ、金管楽器または擦弦楽器などのハーモニック倍音コンテンツを豊富に含むトーンである。
【先行技術文献】
【非特許文献】
【0019】
【非特許文献1】[8] Laroche, J.; Dolson, M., "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997
【非特許文献2】[1] Painter, T.; Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.
【非特許文献3】[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6.
【非特許文献4】[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0 . Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.
【非特許文献5】[4] Nagel, F.; Disch, S. ; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.
【非特許文献6】[9] Purnhagen, H.; Meine, N.;, "HILN-the MPEG-4 parametric audio coding tools," Circuits and Systems, 2000. Proceedings. ISCAS 2000 Geneva. The 2000 IEEE International Symposium on, vol.3, no., pp.201-204 vol.3, 2000
【非特許文献7】[10] Oomen, Werner; Schuijers, Erik; den Brinker, Bert; Breebaart, Jeroen:," Advances in Parametric Coding for High-Quality Audio," Audio Engineering Society Convention 114, preprint, Amsterdam/NL, March 2003
【非特許文献8】[11] van Schijndel, N.H.; van de Par, S.; , "Rate-distortion optimized hybrid sound coding," Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on, vol., no., pp. 235-238, 16-19 Oct. 2005
【非特許文献9】[12] http://people.xiph.org/-xiphmont/demo/ghost/demo.html
【非特許文献10】[5] Faller, C.; Baumgarte, F. Binaural Cue Coding- Part II: Schemes and applications, IEEE Trans. On Speech and Audio Processing, Vol. 11, No. 6, Nov. 2003.
【非特許文献11】[6] Schuijers, E.; Breebaart, J.; Purnhagen, H.; Engdegard, J. Low complexity parametric stereo coding, 116th AES Convention, Berlin, Germany, 2004; Preprint 6073.
【非特許文献12】[7] Herre, J.; Kjoerling, K.; Breebaart, J. et al. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the AES, Vol. 56, No. 11, November 2008; pp. 932-955.
【非特許文献13】[14] D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/timedomain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225- IV 228, Montreal, May 2004.
【非特許文献14】[15] J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003.
【非特許文献15】[13] D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010.
【発明の概要】
【発明が解決しようとする課題】
【0020】
本発明の目的は、オーディオ信号処理のための改善された概念を提供することであり、特に、知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御に関する改善された概念を提供することである。本発明の目的は、請求項1に記載のデコーダと、請求項8に記載のエンコーダと、請求項14に記載の装置と、請求項15に記載のシステムと、請求項16に記載の復号化方法と、請求項17に記載の符号化方法と、請求項18に記載のオーディオ信号処理の方法と、請求項19に記載のコンピュータプログラムとによって達成される。
【0021】
符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得るデコーダが提供される。このデコーダは、復号化ユニットと位相調整ユニットとを含む。復号化ユニットは、符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るよう構成されている。位相調整ユニットは、復号化済みオーディオ信号を調整して位相調整されたオーディオ信号を得るよう構成されている。位相調整ユニットは、符号化済みオーディオ信号の垂直位相コヒーレンスに依存する制御情報を受信するよう構成されている。更に、位相調整ユニットは、制御情報に基づいて復号化済みオーディオ信号を調整するよう構成されている。
【0022】
一実施形態において、位相調整ユニットは、位相調整が活性であることを制御信号が示したときに復号化済みオーディオ信号を調整するよう構成されてもよい。また位相調整ユニットは、位相調整が不活性であることを制御信号が示したときに復号化済みオーディオ信号を調整しないように構成されてもよい。
【0023】
他の実施形態において、位相調整ユニットは制御情報を受信するよう構成され、その制御情報が位相調整の強度を示す強度値を含んでもよい。更に、位相調整ユニットは、その強度値に基づいて復号化済みオーディオ信号を調整するよう構成されてもよい。
【0024】
他の実施形態によれば、デコーダは、復号化済みオーディオ信号を複数のサブバンドの複数のサブバンド信号へと分解する分析フィルタバンクをさらに備えてもよい。位相調整ユニットは、複数のサブバンド信号の複数の第1位相値を決定するよう構成されてもよい。更に、位相調整ユニットは、複数の第1位相値の少なくともいくつかを修正することにより符号化済みオーディオ信号を調整して、位相調整されたオーディオ信号の第2位相値を得るよう構成されてもよい。
【0025】
他の実施形態によれば、位相調整ユニットは、位相値の少なくともいくつかを以下の式を適用することにより調整するよう構成され、
px'(f) = px(f) - dp(f),
及び
dp(f) = α * (p0(f) + const),
ここで、fは中心周波数として周波数fを持つ1つのサブバンドを示す周波数であり、px(f)は、中心周波数として周波数fを持つサブバンドのサブバンド信号の第1位相値のうちの1つであり、px'(f)は、中心周波数として周波数fを持つサブバンドのサブバンド信号の第2位相値のうちの1つであり、constは−π≦const≦πの範囲の第1角度であり、αは0≦α≦1の範囲の実数であり、p0(f)は−π≦p0(f)≦πの範囲の第2角度であり、この第2角度p0(f)は中心周波数として周波数fを持つサブバンドの1つに割り当てられていてもよい。代替的に、上述の位相調整はまた、複素サブバンド信号(例えば離散フーリエ変換の複素スペクトル係数)を指数位相項e-jdp(f)によって乗算することにより達成することができ、ここでjは虚数単位である。
【0026】
他の実施形態によれば、デコーダは合成フィルタバンクを更に含んでもよい。位相調整されたオーディオ信号は、スペクトルドメインで表現されている位相調整されたスペクトルドメインオーディオ信号であってもよい。合成フィルタバンクは、位相調整されたスペクトルドメインオーディオ信号をスペクトルドメインから時間ドメインへ変換して、位相調整された時間ドメインオーディオ信号を得るよう構成されていてもよい。
【0027】
一実施形態において、デコーダはVPC制御情報を復号化するよう構成されてもよい。
【0028】
更に、他の実施形態によれば、デコーダは、制御情報を適用して従来のシステムよりもより良好に保全されたVPCを有する復号化済み信号を得るよう構成されてもよい。
【0029】
更に、デコーダは、デコーダ内における測定及び/又はビットストリーム内に含まれた活性化情報によって主導されながらVPCを操作するよう構成されてもよい。
【0030】
更に、オーディオ入力信号に基づいて制御情報を符号化するエンコーダが提供される。このエンコーダは、変換ユニットと制御情報生成部と符号化ユニットとを含む。変換ユニットは、オーディオ入力信号を時間ドメインからスペクトルドメインへ変換して、複数のサブバンドに割り当てられている複数のサブバンド信号を含む変換済みオーディオ信号を得るよう構成されている。制御情報生成部は制御情報を生成し、その制御情報が変換済みオーディオ信号の垂直位相コヒーレンスを示すよう構成される。符号化ユニットは、変換済みオーディオ信号と制御情報とを符号化するよう構成されている。
【0031】
一実施形態において、エンコーダの変換ユニットは、オーディオ入力信号を時間ドメインからスペクトルドメインへと変換して、複数のサブバンド信号を含む変換済みオーディオ信号を得るための蝸牛(cochlear)フィルタバンクを備えている。
【0032】
他の実施形態によれば、制御情報生成部は、複数のサブバンド信号の各々についてサブバンドエンベロープを決定し、複数のサブバンド信号エンベロープを得るよう構成されてもよい。更に、制御情報生成部は、複数のサブバンド信号エンベロープに基づいて結合済みエンベロープを生成するよう構成されてもよい。更に、制御情報生成部は、結合済みエンベロープに基づいて制御情報を生成するよう構成されてもよい。
【0033】
別の実施形態において、制御情報生成部は、結合済みエンベロープに基づいてある特徴数を生成するよう構成されてもよい。更に、制御情報生成部は、その特徴数がある閾値より大きいときに位相調整が活性化されることを示す制御情報を生成するよう構成されてもよい。更に、制御情報生成部は、その特徴数がある閾値以下のときに位相調整が不活性化されることを示す制御情報を生成するよう構成されてもよい。
【0034】
更に他の実施形態によれば、制御情報生成部は、結合済みエンベロープの幾何平均と結合済みエンベロープの算術平均との比を計算することによって、制御情報を生成するよう構成されてもよい。
【0035】
代替的に、結合済みエンベロープの最大値が結合済みエンベロープの平均値と比較されてもよい。例えば最大/平均比、即ち、結合済みエンベロープの最大値と結合済みエンベロープの平均値との比が形成されてもよい。
【0036】
一実施形態においては、制御情報生成部は、制御情報がサブバンド信号の垂直位相コヒーレンスの程度を示す強度値を含むように、制御情報を生成するよう構成されてもよい。
【0037】
一実施形態に係るエンコーダは、エンコーダ側でのVPCの測定を、例えば周波数上の位相及び/又は位相派生的な測定を通じて実行するよう構成されてもよい。
【0038】
更に、一実施形態に係るエンコーダは、垂直位相コヒーレンスの知覚的特徴(perceptual salience)の測定を実行するよう構成されてもよい。
【0039】
更に、一実施形態に係るエンコーダは、位相コヒーレンス特徴及び/又はVPC測定値から活性化情報を導出するよう構成されてもよい。
【0040】
更に、一実施形態に係るエンコーダは、時間−周波数適応型のVPCキュー又は制御情報を抽出するよう構成されてもよい。
【0041】
更に、一実施形態に係るエンコーダは、VPC制御情報のコンパクトな表現を決定するよう構成されてもよい。
【0042】
本発明の実施形態において、VPC制御情報はビットストリーム内で伝送されてもよい。
【0043】
更に、第1オーディオ信号を処理して第2オーディオ信号を得る装置が提供される。その装置は、制御情報生成部と位相調整ユニットとを含む。制御情報生成部は、制御情報が第1オーディオ信号の垂直位相コヒーレンスを示すように、制御情報を生成する。位相調整ユニットは、第1オーディオ信号を調整して第2オーディオ信号を得るよう構成されている。更に位相調整ユニットは、制御情報に基づいて第1オーディオ信号を調整するよう構成されている。
【0044】
更にあるシステムが提供される。このシステムは、上述の実施形態の1つに従うエンコーダと、上述の実施形態の1つに従う少なくとも1つのデコーダとを含む。エンコーダは、オーディオ入力信号を変換して変換済みオーディオ信号を得るよう構成されている。更に、エンコーダは、変換済みオーディオ信号を符号化して符号化済みオーディオ信号を得るよう構成されている。更に、エンコーダは、変換済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を符号化するよう構成されている。また、エンコーダは、符号化済みのオーディオ信号と制御情報とを少なくとも1つのデコーダへと供給するよう構成されている。その少なくとも1つのデコーダは、符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るよう構成されている。更に、その少なくとも1つのデコーダは、符号化済み制御情報に基づいて復号化済みオーディオ信号を調整し、位相調整されたオーディオ信号を得るよう構成されている。
【0045】
本発明実施形態において、VPCはエンコーダ側において測定され、適切でコンパクトなサイド情報として符号化済みオーディオ信号とともに伝送されてもよく、また、その信号のVPCがデコーダにおいて復元されてもよい。代替的な実施形態によれば、VPCは、そのデコーダ内で生成された制御情報によって主導されながら、及び/又はサイド情報内でエンコーダから伝送された活性化情報によって誘導されながら、デコーダ内で操作される。VPC処理は、それが知覚的に有利となる場合にだけ復元されるように、時間−周波数選択的であってもよい。
【0046】
更に、符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る方法が提供される。この復号化の方法は、
−符号化済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を受信するステップと、
−符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るステップと、
−制御情報に基づいて復号化済みオーディオ信号を調整して位相調整されたオーディオ信号を得るステップと、を含む。
【0047】
更に、オーディオ入力信号に基づいて制御情報を符号化する方法が提供される。この方法は、
−オーディオ入力信号を時間ドメインからスペクトルドメインへ変換して、複数のサブバンドに割り当てられている複数のサブバンド信号を含む変換済みオーディオ信号を得るステップと、
−変換済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を生成するステップと、
−変換済みオーディオ信号と制御情報とを符号化するステップと、を含む。
【0048】
更に、第1オーディオ信号を処理して、第2オーディオ信号を得る方法が提供される。この方法は、
−第1オーディオ信号の垂直位相コヒーレンスを示す制御情報を生成するステップと、
−制御情報に基づいて第1オーディオ信号を調整して、第2オーディオ信号を得るステップと、を含む。
【0049】
更に、コンピュータ又は信号プロセッサにより実行されたとき、上述した方法の1つを実行するコンピュータプログラムが提供される。
【0050】
本発明の実施形態においては、信号処理、符号化又は伝送のプロセスによって垂直位相コヒーレンス(VPC)が改変されていた場合には、信号のVPCを保全するための手段が提供される。
【0051】
幾つかの実施形態において、本発明のシステムは、入力信号のVPCをその符号化の前に測定し、適切でコンパクトなサイド情報を符号化済みのオーディオ信号とともに伝送し、デコーダにおいてその伝送されたコンパクトなサイド情報に基づいて信号のVPCを復元する。代替的に、本発明の方法は、デコーダ内で生成された制御情報によって主導されて、及び/又はサイド情報内でエンコーダから伝送された活性化情報により誘導されて、デコーダ内でVPCを操作する。
【0052】
他の実施形態においては、損傷を受けた信号のVPCは、その損傷を受けた信号自身を分析することにより制御されるVPC調整プロセスを使用することで、元のVPCを復元するように処理されることができる。
【0053】
両方のケースにおいて、上述の処理は、VPCの復元が知覚的に有利となる場合にだけ復元されるように時間−周波数選択的であってもよい。
【0054】
知覚的なオーディオコーダの改善されたサウンド品質が適度なサイド情報コストにおいて提供される。知覚的なオーディオコーダの他にも、VPCの測定及び復元は、タイムストレッチングやピッチシフティングのような位相ボコーダに基づくデジタルオーディオ効果にとって有益である。
【0055】
本発明の実施形態は従属請求項において提示される。
【図面の簡単な説明】
【0056】
以下に、本発明の実施形態を図面を参照しながら説明する。
図1a】符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る、一実施形態に係るデコーダを示す。
図1b】符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る、他の実施形態に係るデコーダを示す。
図2】オーディオ入力信号に基づいて制御情報を符号化する、一実施形態に係るエンコーダを示す。
図3】エンコーダと少なくとも1つのデコーダとを含む、一実施形態に係るシステムを示す。
図4】一実施形態に係るVPC処理を有するオーディオ処理を示す。
図5】一実施形態に係る知覚的オーディオエンコーダ及びデコーダを示す。
図6】一実施形態に係るVPC制御生成部を示す。
図7】オーディオ信号を処理して第2オーディオ信号を取得する、一実施形態に係る装置を示す。
図8】他の実施形態に係るVPC処理を有するオーディオ処理システムを示す。
【発明を実施するための形態】
【0057】
図1aは符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る、一実施形態に係るデコーダを示す。このデコーダは復号化ユニット110と位相調整ユニット120とを含む。復号化ユニット110は符号化済みオーディオ信号を復号化して復号化済みオーディオ信号を得るよう構成されている。位相調整ユニット120は復号化済みオーディオ信号を調整して位相調整されたオーディオ信号を得るよう構成されている。更に位相調整ユニット120は、符号化済みオーディオ信号の垂直位相コヒーレンス(VPC)に依存する制御情報を受信するよう構成されている。更に位相調整ユニット120は、復号化済みオーディオ信号を制御情報に基づいて調整するよう構成されている。
【0058】
図1aの実施形態は、符号化済み信号の垂直位相コヒーレンスを復元することが、あるオーディオ信号にとって重要であるという点を考慮するものである。例えば、オーディオ信号部分が発声されたスピーチ、金管楽器または擦弦楽器を含む場合、垂直位相コヒーレンスの保全が重要である。この目的で、位相調整ユニット120は符号化済みオーディオ信号のVPCに依存する制御情報を受信するよう構成されている。
【0059】
例えば、符号化済み信号部分が発声されたスピーチ、金管楽器または擦弦楽器を含む場合、その符号化済み信号のVPCは高い。そのような場合には、制御情報は位相調整が活性化されると示してもよい。
【0060】
他の信号部分はパルス状の調性信号または過渡を含んでおらず、そのような信号部分のVPCは低くなり得る。そのような場合には、制御情報は位相調整が不活性化されると示してもよい。
【0061】
他の実施形態において、制御情報は強度値を含み得る。そのような強度値は実行されるべき位相調整の強度を示してもよい。例えば、その強度値は0≦α≦1の値αであってもよい。α=1又は1に近い値である場合には、その値は強い強度値を示している。その場合、有意な位相調整が位相調整ユニット120によって実行されるであろう。αが0に近い値である場合には、位相調整ユニット120は軽微な位相調整しか実行しないであろう。α=0の場合には、位相調整は全く実行されないであろう。
【0062】
図1bは、符号化済みオーディオ信号を復号化して位相調整されたオーディオ信号を得る、他の実施形態に係るデコーダを示す。復号化ユニット110と位相調整ユニット120とに加え、図1bのデコーダは、分析フィルタバンク115と合成フィルタバンク125とを含む。
【0063】
分析フィルタバンク115は、復号化済みのオーディオ信号を複数のサブバンドのサブバンド信号へと分解する。図1bの位相調整ユニット120は、それら複数のサブバンド信号の複数の第1位相値を決定するよう構成されてもよい。更に、位相調整ユニット120は、それら複数の第1位相値のうちの少なくとも幾つかを修正することによって符号化済みオーディオ信号を調整して、位相調整されたオーディオ信号の第2位相値を取得するよう構成されてもよい。
【0064】
位相調整されたオーディオ信号とは、スペクトルドメインで表現されている、位相調整されたスペクトルドメインのオーディオ信号であってもよい。図1bの合成フィルタバンクは、位相調整されたスペクトルドメインのオーディオ信号を、スペクトルドメインから時間ドメインへと変換して、位相調整された時間ドメインのオーディオ信号を得るよう構成されてもよい。
【0065】
図2は、オーディオ入力信号に基づいて制御情報を符号化する、一実施形態に係る対応するエンコーダを示す。このエンコーダは変換ユニット210と、制御情報生成部220と、符号化ユニット230とを含む。変換ユニット210は、オーディオ入力信号を時間ドメインからスペクトルドメインへと変換して、複数のサブバンドに割り当てられた複数のサブバンド信号を含む変換済みオーディオ信号を取得するよう構成されている。制御情報生成部220は、制御情報が変換済みオーディオ信号の垂直位相コヒーレンス(VPC)を示すように、その制御情報を生成するよう構成されている。符号化ユニット230は、変換済みのオーディオ信号と制御情報とを符号化するよう構成されている。
【0066】
図2のエンコーダは、符号化されるべきオーディオ信号の垂直位相コヒーレンスに依存する制御情報を符号化するよう構成されている。制御情報を生成するために、エンコーダの変換ユニット210は、オーディオ入力信号をスペクトルドメインへと変換し、その結果として得られる変換済みオーディオ信号は、複数のサブバンドの複数のサブバンド信号を含む。
【0067】
その後、制御情報生成部220は、変換済みオーディオ信号の垂直位相コヒーレンスに依存する情報を決定する。
【0068】
例えば、制御情報生成部220は、特定のオーディオ信号部分をVPCが高い信号部分として分類し、例えば値α=1と設定してもよい。他の信号部分に関しては、制御情報生成部220は、特定のオーディオ信号部分をVPCが低い信号部分として分類し、例えばα=0と設定してもよい。
【0069】
他の実施形態において、制御情報生成部220は、変換済みオーディオ信号のVPCに依存する強度値を決定してもよい。例えば、制御情報生成部は検査された信号部分について強度値を割り当ててもよく、その強度値はその信号部分のVPCに依存してもよい。デコーダ側では、そのオーディオ信号の元のVPCを復元する目的で、復号化されたオーディオ信号のサブバンド位相値に対して、小さな位相調整だけを実行すべきか、又は強い位相調整を実行すべきかを決定するために、その強度値が使用されてもよい。
【0070】
図3は他の実施形態を示す。図3では、あるシステムを提示する。そのシステムは、エンコーダ310と、少なくとも1つのデコーダとを含む。図3は単一のデコーダ320しか図示していないが、他の実施形態は2個以上のデコーダを含み得る。図3のエンコーダ310は図2の実施形態のエンコーダであってもよく、図3のデコーダは図1aの実施形態または図1bの実施形態のデコーダであってもよい。図3のエンコーダ310は、オーディオ入力信号を変換して、変換済みオーディオ信号(図示せず)を得るよう構成されている。更に、エンコーダ310は、その変換済みオーディオ信号を符号化して、符号化済みオーディオ信号を得るよう構成されている。更に、エンコーダは、変換済みオーディオ信号の垂直位相コヒーレンスを示す制御情報を符号化するよう構成されている。エンコーダは、それら符号化済みのオーディオ信号と制御情報とを少なくとも1つのデコーダへと供給するよう配置されている。
【0071】
図3のデコーダ320は、符号化済みオーディオ信号を復号化して復号化済みオーディオ信号(図示せず)を得るよう構成されている。更にデコーダ320は、復号化済みオーディオ信号を符号化済み制御情報に基づいて調整して、位相調整されたオーディオ信号を得るよう構成されている。
【0072】
以上を要約すると、上述した実施形態は、特に高位の垂直位相コヒーレンスを有する信号部分において、信号の垂直位相コヒーレンスを保全することを目的としている。
【0073】
本発明が提案する概念は、以下においては「オーディオシステム」とも呼ばれるオーディオ処理システムによって配信される知覚的品質を向上させるものであり、その方法は、オーディオ処理システムへの入力信号のVPC特性を測定し、かつその測定されたVPC特性に基づいて、オーディオシステムにより生成される出力信号のVPCを調整することによって最終的な出力信号を形成し、その結果、最終的な出力信号の意図されたVPCが達成されるようにすることである。
【0074】
図4は、上述の実施形態により強化された一般的なオーディオ処理システムを示す。特に、図4はVPC処理のシステムを示している。オーディオシステム410の入力信号から、VPC制御生成部420がVPC及び/又はその知覚的特徴を測定し、VPC制御情報を生成する。オーディオシステム410の出力は、VPC調整ユニット430へと供給され、VPC制御情報はVPC調整ユニット430内において、VPCを回復させるために使用される。
【0075】
重要な実際のケースとして、この概念は例えば従来のオーディオコーデックに適用されることができ、その方法は、エンコーダ側においてVPC及び/又は位相コヒーレンスの知覚的特徴を測定し、符号化されたオーディオ信号とともに適切でコンパクトなサイド情報を伝送し、デコーダにおいてその伝送されたコンパクトなサイド情報に基づいて信号のVPCを復元するものである。
【0076】
図5は一実施形態に係る知覚的オーディオエンコーダとデコーダとを示す。特に、図5は両側でVPC処理を実行する知覚的オーディオコーデックを示す。
【0077】
エンコーダ側では、符号化ユニット510とVPC制御生成部520とビットストリーム・マルチプレクスユニット530とが示されている。デコーダ側では、ビットストリーム・デマルチプレクスユニット540と復号化ユニット550とVPC調整ユニット560とが示されている。
【0078】
エンコーダ側では、VPC制御情報がVPC制御生成部520によって生成されてコンパクトなサイド情報として符号化され、そのサイド情報はマルチプレクスユニット530によって符号化済みオーディオ信号とともにビットストリーム内へと多重化される。VPC制御情報の生成は、知覚的に有益である場合についてだけ、VPCが測定され且つ制御情報が符号化されるように、時間−周波数選択的であってもよい。
【0079】
デコーダ側では、VPC制御情報がビットストリーム・デマルチプレクスユニット540によってビットストリームから抽出されて、適切なVPCを回復するためにVPC調整ユニット560内において適用される。
【0080】
図6はVPC制御生成部600の可能な構成の詳細を示す。入力オーディオ信号について、VPCがVPC測定ユニット610によって測定され、VPCの知覚的特徴がVPC特徴測定ユニット620によって測定される。これらの測定から、VPC制御情報がVPC制御情報導出ユニット630によって導出される。オーディオ入力は2つ以上のオーディオ信号を含む可能性もある。例えば、第1オーディオ入力に加え、第1入力信号の処理済みのバージョン(図5を参照)を含む第2オーディオ入力も、VPC制御生成部に対して適用され得る。
【0081】
本発明の実施形態においては、入力信号のVPCを測定し及び/又は入力信号のVPCの知覚的特徴を測定するためのVPC制御生成部をエンコーダ側が含んでもよい。VPC制御生成部は、VPC調整を制御するためのVPC制御情報をデコーダ側に提供してもよい。例えば、その制御情報は、デコーダ側のVPC調整の活性化または不活性化を信号伝達してもよく、又はその制御情報はデコーダ側のVPC調整の強度を決定してもよい。
【0082】
垂直位相コヒーレンスはオーディオ信号の主観的な品質にとって重要であるため、信号が調性及び/又はハーモニックである場合、かつそのピッチがあまり急速に変化しない場合、VPC制御ユニットの典型的な構成は、ピッチ検出部もしくはハーモニック度検出部を含んでもよく、又は、少なくともピッチ強度の尺度を提供するピッチ変化検出部を含んでもよい。
【0083】
更に、VPC制御生成部により生成される制御情報は、元の信号のVPCの強度を信号伝達してもよい。又は、制御情報は、元の信号の知覚されたVPCがデコーダ側のVPC調整の後では略復元されているように、デコーダのVPC調整を駆動する修正パラメータを信号伝達してもよい。代替的または追加的に、1つ又は複数の設定されるべき目標VPC値が信号伝達されてもよい。
【0084】
VPC制御情報は、例えばビットストリーム内に追加的サイド情報として埋め込むことにより、エンコーダからデコーダへとコンパクトに伝送されてもよい。
【0085】
本発明の実施形態において、デコーダは、エンコーダ側のVPC制御生成部によって提供されたVPC制御情報を読み出すよう構成されてもよい。この目的で、デコーダはビットストリームからVPC制御情報を読み出してもよい。更にデコーダは、VPC調整ユニットを使用することにより、標準的なオーディオデコーダの出力をVPC制御情報に依存して処理するよう構成されてもよい。更にデコーダは、処理されたオーディオ信号を出力信号として導出するよう構成されてもよい。
【0086】
以下に、一実施形態に係るエンコーダ側のVPC制御生成部について説明する。
【0087】
ピッチ検出部の使用により、(例えばスピーチ符号化又は音楽信号分析から周知であるように)高いVPCを示す準定常の周期的信号が識別されることができ、そのピッチ検出部は、ピッチ強度及び/又は周期性の度合の測定を行う。実際のVPCは、蝸牛フィルタバンクの適用と、後続のサブバンドエンベロープ検出と、その後の周波数に亘る蝸牛エンベロープの合計とによって測定することができる。もし例えば、サブバンドエンベロープがコヒーレントである場合には、その合計は時間的に非平坦な信号をもたらし、他方、非コヒーレントなサブバンドエンベロープの合計は、時間的により平坦な信号をもたらす。(例えば所定の閾値とそれぞれ比較することによる)ピッチ強度及び/又は周期性の度合とVPC尺度との結合された評価から、VPC制御情報を導出することができ、その情報は、例えば「VPC調整オン」又は「VPC調整オフ」を示す信号フラグを含んでいる。
【0088】
時間ドメインにおけるパルス状の事象は、それらのスペクトル表現に関して強い位相コヒーレンスを示す。例えば、フーリエ変換されたディラックインパルスは、線形的に増大する位相を有する平坦なスペクトルを持つ。同じことが、f_0の基底周波数を有する一連の周期的パルスについても言える。ここで、スペクトルはラインスペクトルである。f_0の周波数距離を有するこれらの単一ラインもまた、位相コヒーレントである。それらの位相コヒーレンスが(大きさは無修正のままで)損なわれた場合、結果として得られる時間ドメイン信号は、もはや一連のディラックパルスではなくなり、代わりに、パルスが時間において有意に拡幅されている。このような修正は可聴となり、特に一連のパルスと類似するサウンド、例えば発声されたスピーチ、金管楽器または擦弦楽器などにとって重要である。
【0089】
従って、VPCは、オーディオ信号の時間におけるエンベロープの局所的な非平坦性を判定することにより間接的に測定できる(エンベロープの絶対値が考慮されてもよい)。
【0090】
サブバンドエンベロープを周波数に亘って合計することで、エンベロープの合計が平坦な結合済みエンベロープ(低いVPC)になるのか、又は非平坦な結合済みエンベロープ(高いVPC)になるのかを判定することができる。本発明が提案する概念は、合計されたエンベロープが知覚的に適応され聴覚的に精密な周波数帯域に関連している場合に特に有利である。
【0091】
次に、例えば結合済みエンベロープの幾何平均と結合済みエンベロープの算術平均との比を計算することで、制御情報を生成することができる。
【0092】
代替的に、結合済みエンベロープの最大値が結合済みエンベロープの平均値と比較されてもよい。例えば結合済みエンベロープの最大値と結合済みエンベロープの平均値との比のように、最大/平均の比が計算されてもよい。
【0093】
例えばエンベロープの合計のような結合済みエンベロープを形成する代わりに、符号化されるべきオーディオ信号のスペクトルの位相値そのものが予測可能性について検査されてもよい。高い予測可能性は高いVPCを示し、低い予測可能性は低いVPCを示す。
【0094】
VPC又はVPC特徴が聴覚心理的な尺度として定義され得る場合には、蝸牛フィルタバンクを使用することがオーディオ信号に関して特に有利である。特定のフィルタ帯域幅の選択が、スペクトルのどの複数の部分的なトーンが1つの共通のサブバンドに関連し、従ってあるサブバンドエンベロープを形成するために一緒に寄与するか、を定義することになるため、知覚的に適応された複数のフィルタは、人間の聴覚システムの内部処理を最も正確にモデル化することが可能である。
【0095】
同じ大きさのスペクトルを有する位相コヒーレントな信号と位相コヒーレントでない信号との間における聴覚的な知覚の差は、更に、その信号内(又は複数の信号内)のハーモニックなスペクトル成分の優位性に依存している。それらハーモニックな成分の例えば100Hzのような低い基底周波数は、高い基底周波数であれば減少させるような知覚差を増大させる。なぜなら、低い基底周波数は、より多数の倍音が同一のサブバンドに対して割り当てられるという結果をもたらすからである。同一のサブバンド内のそれらの倍音は再度合計され、それらのサブバンドエンベロープが検査され得る。
【0096】
更に、倍音の振幅も関連している。倍音の振幅が高い場合には、時間ドメインエンベロープの増大がより鋭角的になり、信号がよりパルス状となり、従ってVPCがますます重要となり、例えばVPCがより高くなる。
【0097】
以下に、一実施形態に係るデコーダ側のVPC調整ユニットを提示する。そのようなVPC調整ユニットは、VPC制御情報フラグを含む制御情報を含んでもよい。
【0098】
VPC制御情報フラグが「VPC調整オフ」を示す場合、専用のVPC処理は何も適用されない(「通過」又は代替的に、単純な遅延)。フラグが「VPC調整オン」を示す場合には、信号セグメントが分析フィルタバンクによって分解されて、周波数fにおける各スペクトルラインの位相p0(f)の測定が開始される。これにより、位相調整オフセットdp(f)=α*(p0(f)+const)が計算され、ここで、「const」は−πとπとの間のラジアン角度を示す。「VPC調整オン」が信号伝達されるその信号セグメントと後続の連続的なセグメントとに対し、スペクトルラインx(f)の位相px(f)がpx'(f)=px(f)−dp(f)となるように調整される。VPC調整された信号は、合成フィルタバンクによって最終的に時間ドメインへと変換される。
【0099】
本発明の概念は、理想的な位相応答からのずれを判定するために初期測定を実行するという考えに基づいている。このずれは、後に補償される。αは0≦α≦1の範囲内の角度であってもよく、α=0は補償なしを意味し、α=1は理想的な位相応答に関する十分な補償を意味する。理想的な位相応答とは、例えば最高の平坦性を有する位相応答をもたらす位相応答であってもよい。「const」は固定の付加的角度であって、位相コヒーレンスを変化させず、他方で代替的な絶対位相の操作を可能にして、その結果、対応する信号を生成可能にするものであり、constが90°の場合、例えばその信号のヒルベルト変換(Hilbert transform)に相当する。
【0100】
図7は、第1オーディオ信号を処理して第2オーディオ信号を得る他の実施形態に係る装置を示す。この装置は制御情報生成部710と位相調整ユニット720とを備える。制御情報生成部710は、第1オーディオ信号の垂直位相コヒーレンスを示すような制御情報を生成するよう構成されている。位相調整ユニット720は第1オーディオ信号を調整して第2オーディオ信号を得るよう構成されている。更に、位相調整ユニット720は、制御情報に基づいて第1オーディオ信号を調整するよう構成されている。
【0101】
図7は片側の実施形態である。制御情報の決定と位相調整の実行とは、エンコーダ(制御情報生成)とデコーダ(位相調整)との間で分離されない。代わりに、制御情報生成と位相調整とは単一の装置またはシステムによって実行される。
【0102】
図8において、VPCは、デコーダ側で生成される制御情報によって主導されながらそのデコーダ内で操作され(「片側のシステム」)、その制御情報は復号化されたオーディオ信号を分析することで生成される。図8には、一実施形態に係る片側のVPC処理を有する知覚的オーディオコーデックが示されている。
【0103】
例えば図7図8とに示す一実施形態に係る片側のシステムは、以下に示す特徴を持ち得る。
【0104】
任意の現存する信号処理プロセスまたはオーディオシステムの出力、例えばオーディオデコーダの出力は、(例えばエンコーダ側の)損傷なしの/元の信号に対するアクセスを用いて生成されたVPC制御情報に対するアクセスを持たずに処理される。代わりに、VPC制御情報は、所与の信号、例えばデコーダなどオーディオシステムの出力から、直接的に生成されることができる(VPC制御情報は「盲目的に」生成され得る)。
【0105】
VPC調整を制御するVPC制御情報は、例えばVPC調整ユニットを活性化/不活性化させる信号、若しくはVPC調整の強度を決定する信号を含んでもよく、又は、VPC制御情報は、設定すべき1つ又は複数の目標VPC値を含んでいてもよい。
【0106】
更に、その処理はVPC調整ステージ(VPC調整ユニット)であって、盲目的に生成されたVPC制御情報を使用しかつその出力をシステム出力として提供するステージにおいて実行されてもよい。
【0107】
以下に、デコーダ側のVPC制御生成部の実施形態を示す。デコーダ側の制御生成部は、エンコーダ側の制御生成部とかなり類似するものであってもよい。それは例えば、ピッチ強度及び/又は周期性の度合の測定値と、所定の閾値との比較とを出力するピッチ検出部を含んでもよい。しかしながら、閾値は、エンコーダ側の制御生成部において使用された閾値とは異なる可能性がある。なぜなら、デコーダ側のVPC生成部は、既にVPC歪みを受けた信号に対して操作するからである。そのVPC歪みが軽度であれば、VPC制御情報を生成するために残りのVPCが測定されて所与の閾値と比較されてもよい。
【0108】
好ましい実施形態によれば、測定されたVPCが高い場合には、出力信号のVPCを更に増大させるためにVPC修正が適用され、測定されたVPCが低い場合には、VPC修正は何も適用されない。VPCの保全は調性及びハーモニックな信号にとって最も重要であることから、好ましい実施形態に係るVPC処理のために、ピッチ検出部、又は少なくともピッチ変化検出部が使用され、優性ピッチの強度の測定を提供してもよい。
【0109】
最後に、両側の手法と片側の手法とは組み合わせられることができ、その場合、VPC調整処理は、伝送された両方のVPC制御情報、即ち元の/損傷なしの信号から導出された情報と、処理済み(例えば復号化された)オーディオ信号から抽出された情報とによって制御される。例えば、そのような組み合わせから結合されたシステムがもたらされる。
【0110】
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
【0111】
構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて実装可能である。この実装は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどを使用して実行することができる。
【0112】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含んでも良い。
【0113】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実装することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動できる。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
【0114】
他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリア又は非一時的な記憶媒体に記憶されたコンピュータプログラムを含む。
【0115】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
【0116】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
【0117】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるように構成されても良い。
【0118】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0119】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0120】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイが、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0121】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1a
図1b
図2
図3
図4
図5
図6
図7
図8