特許第5908112号(P5908112)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧
特許5908112クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム
<>
  • 特許5908112-クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム 図000002
  • 特許5908112-クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム 図000003
  • 特許5908112-クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム 図000004
  • 特許5908112-クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム 図000005
  • 特許5908112-クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム 図000006
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5908112
(24)【登録日】2016年4月1日
(45)【発行日】2016年4月26日
(54)【発明の名称】クリッピングアーチファクトを回避する装置、方法及びコンピュータプログラム
(51)【国際特許分類】
   G10L 19/032 20130101AFI20160412BHJP
【FI】
   G10L19/032
【請求項の数】28
【全頁数】14
(21)【出願番号】特願2014-546539(P2014-546539)
(86)(22)【出願日】2012年12月14日
(65)【公表番号】特表2015-500514(P2015-500514A)
(43)【公表日】2015年1月5日
(86)【国際出願番号】EP2012075591
(87)【国際公開番号】WO2013087861
(87)【国際公開日】20130620
【審査請求日】2014年7月15日
(31)【優先権主張番号】61/576,099
(32)【優先日】2011年12月15日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085497
【弁理士】
【氏名又は名称】筒井 秀隆
(72)【発明者】
【氏名】ホイベルガー,アルベルト
(72)【発明者】
【氏名】エドラー,ベルント
(72)【発明者】
【氏名】レッテルバッハ,ニコラス
(72)【発明者】
【氏名】ゲエルスベルガー,ステファン
(72)【発明者】
【氏名】ヒルペルト,ヨハネス
【審査官】 大野 弘
(56)【参考文献】
【文献】 米国特許出願公開第2010/0266142(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/032
(57)【特許請求の範囲】
【請求項1】
エンコードされるべき入力オーディオ信号の時間セグメントをエンコードして、対応するエンコード済み信号セグメントを得るエンコーダと、
前記エンコード済み信号セグメントをデコードして、リ・デコード済み信号セグメントを得るデコーダと、
実際の信号クリッピング又は知覚可能な信号クリッピングの少なくとも一方に関し、前記リ・デコード済み信号セグメントを分析して、対応するクリッピング警告を生成するクリッピング検出部と、を備え、
前記エンコーダは、前記クリッピング警告に応じて、少なくとも1つの修正済みエンコーディングパラメータを用いて前記オーディオ信号の前記時間セグメントを再度エンコードすることで、クリッピング発生確率を低減させるよう構成されており、前記少なくとも1つの修正済みエンコーディングパラメータは、前記エンコーダに、ある周波数係数についてより小さい量子化閾値を選択することによって量子化部におけるラウンディング処理を修正させる、オーディオエンコーディング装置。
【請求項2】
前記入力オーディオ信号を分割して少なくとも前記時間セグメントを得るセグメンタを更に備える、請求項1に記載のオーディオエンコーディング装置。
【請求項3】
前記時間セグメントが前記エンコーダによってエンコードされ、かつ対応する前記エンコード済み信号セグメントが前記デコーダによってリ・デコードされる間に、前記入力オーディオ信号の前記時間セグメントをバッファ済みセグメントとしてバッファリングするオーディオ信号セグメントバッファを更に備え、
前記クリッピング警告は、条件に応じて、前記入力オーディオ信号のバッファ済みセグメントを前記エンコーダへと再度供給して、前記少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードさせる、請求項1又は2に記載のオーディオエンコーディング装置。
【請求項4】
前記エンコーダのための入力選択部であって、前記クリッピング検出部から制御信号を受信し、前記制御信号に依存して前記時間セグメントと前記バッファ済みセグメントとの一方を選択する入力選択部を更に備える、請求項3に記載のオーディオエンコーディング装置。
【請求項5】
前記エンコード済み信号セグメントが前記デコーダによってリ・デコードされている間でかつ前記オーディオエンコーディング装置によって出力される前に、前記エンコード済み信号セグメントをバッファリングし、前記エンコード済み信号セグメントを、前記少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードされた潜在的な後続のエンコード済み信号セグメントによって置換可能とする、エンコード済みセグメントバッファを更に備える、請求項1乃至4のいずれか1項に記載のオーディオエンコーディング装置。
【請求項6】
前記少なくとも1つの修正済みエンコーディングパラメータは、前記エンコーダによって前記時間セグメントに対して適用された全体的ゲインを含む、請求項1乃至5のいずれか1項に記載のオーディオエンコーディング装置。
【請求項7】
前記少なくとも1つの修正済みエンコーディングパラメータは、前記エンコーダに、少なくとも1つの選択された周波数エリアにおいて周波数ドメインでの再量子化を実行させる、請求項1乃至6のいずれか1項に記載のオーディオエンコーディング装置。
【請求項8】
前記少なくとも1つの選択された周波数エリアは、全体的信号の中で最大エネルギーに寄与するか、又は知覚的に最も無意味である、請求項7に記載のオーディオエンコーディング装置。
【請求項9】
前記ラウンディング処理は、最高のパワー寄与を有する周波数エリアについて修正される、請求項1乃至8のいずれか1項に記載のオーディオエンコーディング装置。
【請求項10】
前記ラウンディング処理は、量子化精度を増大させることにより更に修正される、請求項1乃至9のいずれか1項に記載のオーディオエンコーディング装置。
【請求項11】
前記修正済みエンコーディングパラメータは、ピーク振幅を減少させるために、振幅及び位相の少なくとも一方における変化を少なくとも1つの周波数エリアに対して導入するよう前記エンコーダに実行させる、請求項1乃至10のいずれか1項に記載のオーディオエンコーディング装置。
【請求項12】
前記導入された修正の可聴性を評価する可聴性分析部を更に備える、請求項11に記載のオーディオエンコーディング装置。
【請求項13】
前記ピーク振幅の減少を時間ドメインにおいてチェックするために、前記デコーダの出力に接続されたピーク振幅決定部を更に備える、請求項11又は12に記載のオーディオエンコーディング装置。
【請求項14】
前記ピーク振幅が所要の閾値を下回るまで、前記振幅及び位相の少なくとも一方における変化の導入と前記ピーク振幅の減少の前記時間ドメインにおけるチェックとを繰り返すよう構成された、請求項13に記載のオーディオエンコーディング装置。
【請求項15】
エンコードされるべき入力オーディオ信号の時間セグメントをエンコードして、対応するエンコード済み信号セグメントを得るステップと、
前記エンコード済み信号セグメントをデコードして、リ・デコード済み信号セグメントを得るステップと、
実際の信号クリッピング又は知覚可能な信号クリッピングの少なくとも一方に関し、前記リ・デコード済み信号セグメントを分析するステップと、
対応するクリッピング警告を生成するステップと、
前記クリッピング警告に依存して、少なくとも1つの修正済みエンコーディングパラメータを用いて前記時間セグメントのエンコードを繰り返すことで、クリッピング発生確率を低減させるステップであって、前記少なくとも1つの修正済みエンコーディングパラメータは、ある周波数係数についてより小さい量子化閾値を選択することによってラウンディング処理を修正させる、ステップと、
を含むオーディオエンコーディング方法。
【請求項16】
前記入力オーディオ信号を分割して、前記入力オーディオ信号の少なくとも前記時間セグメントを得るステップを更に含む、請求項15に記載の方法。
【請求項17】
前記時間セグメントがエンコードされ、かつ対応する前記エンコード済み信号セグメントがリ・デコードされる間に、前記入力オーディオ信号の前記時間セグメントをバッファ済みセグメントとしてバッファリングするステップと、
前記バッファ済みセグメントを、少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードするステップと、
を更に含む、請求項15又は16に記載の方法
【請求項18】
前記エンコード済み信号セグメントがリ・デコードされている間でかつ出力される前に、前記エンコード済み信号セグメントをバッファリングし、前記エンコード済み信号セグメントを、前記少なくとも1つの修正済みエンコーディングパラメータを用いて前記時間セグメントを再度エンコードすることで得られた潜在的な後続のエンコード済み信号セグメントによって置換可能とするステップを更に含む、請求項15乃至17のいずれか1項に記載の方法。
【請求項19】
前記エンコードを繰り返す動作は、全体的ゲインを前記時間セグメントに対して適用することを含み、前記全体的ゲインは前記修正済みエンコーディングパラメータに基づいて決定される、請求項15乃至18のいずれか1項に記載の方法。
【請求項20】
前記エンコードを繰り返す動作は、少なくとも1つの選択された周波数エリアにおいて周波数ドメインでの再量子化を実行することを含む、請求項15乃至19のいずれか1項に記載の方法。
【請求項21】
前記少なくとも1つの選択された周波数エリアは、全体的信号の中で最大エネルギーに寄与するか、又は知覚的に最も無意味である、請求項20に記載の方法。
【請求項22】
前記ラウンディング処理は、最高のパワー寄与を有する周波数エリアについて修正される、請求項21に記載の方法。
【請求項23】
前記ラウンディング処理は、量子化精度を増大させることにより更に修正される、請求項21又は22に記載の方法。
【請求項24】
ピーク振幅を減少させるために、振幅及び位相の少なくとも一方における変化を少なくとも1つの周波数エリアに対して導入するステップを更に含む、請求項15乃至23のいずれか1項に記載の方法。
【請求項25】
前記導入された修正の可聴性を評価するステップを更に含む、請求項24に記載の方法。
【請求項26】
前記ピーク振幅の減少を時間ドメインにおいてチェックするステップを更に含む、請求項24又は25に記載の方法。
【請求項27】
前記ピーク振幅が所要の閾値を下回るまで、前記振幅及び位相の少なくとも一方における変化の導入と前記ピーク振幅の減少の時間ドメインにおけるチェックとを繰り返すステップを更に含む、請求項26に記載の方法。
【請求項28】
コンピュータ又は信号プロセッサ上で作動されたとき、請求項15乃至27のいずれか1項に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
現在のオーディオコンテンツ製作と配信の系列においては、デジタル的に利用可能なマスターコンテンツ(PCMストリーム)が、コンテンツ作成サイトにおいて例えばプロフェッショナルAACエンコーダを用いてエンコードされている。結果として得られたAACビットストリームは、次に例えばApple iTunes(登録商標)ミュージックストアを介した購入のために利用可能となる。稀ではあるが、幾つかのデコードされたPCMサンプルが「クリッピング」であることが出現した。それはつまり、2つ以上の連続的なサンプルが、出力波形のための均一に量子化された固定ポイント表現(PCM)の基底にあるビット解像度(例えば16ビット)によって表現され得る、最大レベルに到達したことを意味している。これは可聴のアーチファクト(クリック又は短い歪み)をもたらす可能性がある。しかし、そのようなアーチファクトの問題はデコーダ側で発生するため、コンテンツが配信された後にはそのような問題を解決する方法がない。デコーダ側でこの問題に対処する唯一の方法は、アンチクリッピング機能を提供するデコーダのための「プラグイン」を作成することであろう。技術的には、これはサブバンド内のエネルギー配分の修正を意味するであろう(但し、順方向モード上に限る。即ち、聴覚心理モデルを考慮した反復ループはないであろう)。エンコーダの入力においてはクリッピングの閾値を下回るオーディオ信号であった場合でも、現代の知覚的オーディオエンコーダにおけるクリッピングの原因は多様に存在する。第1に、オーディオエンコーダは、伝送データレートを削減する目的で伝送される信号に対する量子化を適用するが、これは入力波形の周波数分解において利用可能なものである。周波数ドメインにおける量子化エラーは、オリジナル波形に対する信号の振幅および位相の小さなずれという結果を招く。振幅および位相のエラーが建設的に合算された場合、結果として得られる時間ドメインの振幅がオリジナル波形よりも一時的に高くなる可能性がある。第2に、パラメトリックなコーディング法(例えばスペクトル帯域複製:SBR)は、信号パワーを幾分粗い方法でパラメータ化し、位相情報は省略される。その結果、受信者側の信号は正確なパワーを持って再生されるが、波形の保護は省かれてしまう。フルスケールに近い振幅を有する信号はクリッピングしがちである。
【背景技術】
【0002】
圧縮されたビットストリーム表現の中では、周波数分解のダイナミックレンジが典型的な16ビットPCMレンジよりも遥かに大きいので、ビットストリームはより高い信号レベルを運び得る。その結果、デコーダの出力信号が固定ポイントPCM表現へと変換(及び制限)されたときにだけ、実際のクリッピングが発生する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
クリッピングを起こさないエンコード済み信号をデコーダに対して供給することで、デコーダにおけるクリッピングの発生を防止し、その結果、デコーダ側でのクリッピング防止を実装する必要がなくなることは、望ましいであろう。換言すれば、デコーダがクリッピング防止に関する信号処理を行う必要がなく標準的なデコーディングを実行できることは、望ましいであろう。特に、多様なデコーダが現在既に開発されており、デコーダ側におけるクリッピング防止の利便性を享受するためには、それらのデコーダはアップグレードされることが必要となるであろう。更に、一旦クリッピングが発生すれば(即ちエンコードされるべきオーディオ信号がクリッピング発生しがちな方法でエンコードされていた場合には)、幾つかの情報は回復不能に失われる可能性があり、その結果、クリッピング防止可能なデコーダでさえも、先行及び/又は後続の信号部分に基づいて、クリッピングされた信号部分を補外または補間しなければならない可能性がある。
【課題を解決するための手段】
【0004】
本発明の一実施形態によれば、オーディオエンコーディング装置が提供される。そのオーディオエンコーディング装置は、エンコーダとデコーダとクリッピング検出部とを備える。エンコーダは、エンコードされるべき入力オーディオ信号の時間セグメントをエンコードして、対応するエンコード済み信号セグメントを得るよう構成されている。デコーダは、エンコード済み信号セグメントをデコードして、リ・デコード済み信号セグメントを得るよう構成されている。クリッピング検出部は、実際の信号クリッピング又は知覚可能な信号クリッピングのうちの少なくとも1つに関し、リ・デコード済み信号セグメントを分析するよう構成されている。クリッピング検出部はまた、対応するクリッピング警告を生成するよう構成されている。エンコーダは更に、そのクリッピング警告に応じて、少なくとも1つの修正済みエンコーディングパラメータを用いてオーディオ信号の時間セグメントを再度エンコードすることで、クリッピング発生確率を低減させるよう構成されている。
【0005】
更なる実施形態においては、オーディオエンコーディングの方法が提供される。その方法は、エンコードされるべき入力オーディオ信号の時間セグメントをエンコードして、対応するエンコード済み信号セグメントを得るステップを含む。その方法は更に、エンコード済み信号セグメントをデコードして、リ・デコード済み信号セグメントを得るステップを含む。リ・デコード済み信号セグメントは、実際の又は知覚可能な信号クリッピングのうちの少なくとも1つに関して分析される。分析されたリ・デコード済み信号セグメント内に実際の又は知覚可能な信号クリッピングが検出された場合には、対応するクリッピング警告が生成される。そのクリッピング警告に依存して、少なくとも1つの修正済みエンコーディングパラメータを用いて時間セグメントのエンコードが繰り返され、その結果、クリッピング発生確率が低減される。
【0006】
更なる実施形態は、コンピュータ又は信号プロセッサ上で作動したときに上述の方法を実行する、コンピュータプログラムを提供する。
【0007】
本発明の実施形態は、次のような知見に基づいている。即ち、全てのエンコード済み時間セグメントは、潜在的なクリッピング問題に関し、その時間セグメントをデコーディングすることによって、ほぼ即時的に検証できるという知見である。デコーディングはエンコーディングと比べて実質的に演算が複雑でない。従って、追加のデコーディングに起因する処理のオーバーヘッドは、典型的に許容範囲内である。追加のデコーディングに起因する遅延もまた、例えばストリーミング・メディアアプリケーション(例えばインターネットラジオ等)にとっては、典型的に許容範囲内である。時間セグメントの反復的なエンコーディングが不必要である限り、即ち入力オーディオ信号のリ・デコード済み時間セグメント内で潜在的なクリッピングが検出されない限り、遅延は略1つの時間セグメントか、又は1よりも僅かに多数の時間セグメントとなる。ある時間セグメント内で潜在的なクリッピング問題が識別されたために、時間セグメントが再度エンコードされなければならない場合には、遅延は増大する。しかしながら、想定されかつ考慮されるべき典型的な最大遅延は、依然として比較的短いものである。
【0008】
本発明の好適な実施形態を以下に説明する。
【図面の簡単な説明】
【0009】
本発明の好適な実施形態を以下に説明する。
図1】本発明の少なくとも幾つかの実施例に係る、オーディオエンコーディング装置の概略的なブロック図である。
図2】本発明の他の実施例に係る、オーディオエンコーディング装置の概略的なブロック図である。
図3】本発明の少なくとも幾つかの実施例に係る、オーディオエンコーディング方法の概略的なフロー図である。
図4】デコーダによって出力される全体的信号に対して最大エネルギーに寄与する周波数エリアを修正することで実行される、周波数ドメインにおけるクリッピング防止の概念を示す概略図である。
図5】知覚的に最も無意味な周波数エリアを修正することで実行される、周波数ドメインにおけるクリッピング防止の概念を示す概略図である。
【発明を実施するための形態】
【0010】
上述したように、現代の知覚的オーディオエンコーダにおけるクリッピングの原因は多様である。たとえエンコーダの入力においてクリッピングの閾値を下回るオーディオ信号を想定した場合でも、デコードされた信号がクリッピングの挙動を示す可能性がある。伝送データレートを減少させる目的で、オーディオエンコーダは、入力波形の周波数分解において利用可能な量子化を伝送された信号に対して適用する可能性がある。周波数ドメインにおける量子化エラーは、デコードされた信号の振幅および位相のオリジナルの波形に対する小さなずれという結果を招く。オリジナル信号とデコードされた信号との間の差を生む他の可能性のある原因は、パラメトリックなコーディング法(例えばスペクトル帯域複製:SBR)であり、信号パワーを幾分粗い方法でパラメータ化する方法である。結果的に、受信者側のデコードされた信号は正確なパワーを持って再生されるが、波形の保護は省略されてしまう。フルスケールに近い振幅を有する信号はクリッピングしがちである。
【0011】
この問題に対する新たな解決策は、エンコーダとデコーダとの両方をある「コーデック」システムへと結合することであり、そのシステムは、各セグメント/フレーム毎に、上述した「クリッピング」が除去されるような方法でエンコーディング処理を自動的に調整する。この新たなシステムはエンコーダを備え、そのエンコーダがビットストリームをエンコードし、かつこのビットストリームが出力される前に、デコーダが絶えずこのビットストリームを並行してデコードし、何らかの「クリッピング」が発生するかどうかを監視する。そのようなクリッピングが発生する場合には、デコーダはエンコーダをトリガーして、異なるパラメータを用いてそのセグメント/フレーム(又は複数の連続的なフレーム)のリ・エンコードを実行させ、もはやクリッピングが起こらないようにする。
【0012】
図1は、本発明の実施形態に係るオーディオエンコーディング装置100の概略的なブロック図を示す。図1はまた、ネットワーク160と、受信端にあるデコーダ170とを示す。オーディオエンコーディング装置100は、オリジナルオーディオ信号、特に入力オーディオ信号の時間セグメントを受信するよう構成されている。オリジナルオーディオ信号は、例えばパルス符号変調(PCM)フォーマットで供給されてもよいが、オリジナルオーディオ信号の他の表現もまた可能である。オーディオエンコーディング装置100は、時間セグメントをエンコードするため、及び対応するエンコード済み信号セグメントを生成するためのエンコーダ122を含む。エンコーダ122によって実行される時間セグメントのエンコーディングは、オーディオエンコーディング・アルゴリズムに基づいてもよく、典型的には、オーディオ信号を記憶又は伝送するために必要なデータ量を削減する目的で実行されてもよい。時間セグメントは、オリジナルオーディオ信号のフレームに対応してもよく、オリジナルオーディオ信号の「ウィンドウ」に対応してもよく、オリジナルオーディオ信号のブロックに対応してもよく、又はオリジナルオーディオ信号の他の時間的セクションに対応してもよい。2つ以上のセグメントが互いにオーバーラップしてもよい。
【0013】
エンコード済み信号セグメントは、通常、ネットワーク160を介して受信端にあるデコーダ170へと送信される。デコーダ170は、受信されたエンコード済み信号セグメントをデコードして、対応するデコード済み信号セグメントを供給し、その信号セグメントは、次にデジタルからオーディオへの変換や増幅などの更なる処理を経て、出力デバイス(ラウドスピーカ、ヘッドホン等)へと送られてもよい。
【0014】
エンコーダ122の出力は、オーディオエンコーディング装置100とネットワーク160とを接続するネットワークインターフェイスに加え、デコーダ132の入力とも接続されている。デコーダ132は、エンコード済み信号セグメントをデコードし、対応するリ・デコード済み信号セグメントを生成するよう構成されている。理想的には、リ・デコード済み信号セグメントは、オリジナル信号の時間セグメントと同一であるべきである。しかし、エンコーダ122がデータ量を有意に減少させるよう構成されている場合があり、及び他の理由にも起因して、リ・デコード済み信号セグメントが入力オーディオ信号の時間セグメントとは異なる可能性がある。多くの場合、これらの差は殆ど認知できないが、幾つかの場合、特にリ・デコード済み信号セグメントによって表されたオーディオ信号がクリッピング挙動を示す場合には、これらの差がリ・デコード済み信号セグメント内での可聴障害という結果をもたらすことがある。
【0015】
クリッピング検出部142は、デコーダ132の出力に接続されている。リ・デコード済みオーディオ信号がクリッピングと判断され得る1つ以上のサンプルを含むことを、クリッピング検出部142が発見した場合には、クリッピング検出部が点線で示す接続を介してエンコーダ122に対してクリッピング警告を発し、その警告は、エンコーダ122にオリジナルオーディオ信号の時間セグメントを再度エンコードさせる。しかし、今回のエンコードは、削減された全体的ゲイン又は修正された周波数重み付けなど、少なくとも1つの修正済みエンコーディングパラメータを用いて実行され、その修正された周波数重み付けでは、少なくとも1つの周波数エリア又は帯域が前に使用された周波数重み付けに比べて減衰されている。エンコーダ122は、先行するエンコード済み信号セグメントに取って代わる第2のエンコード済み信号セグメントを出力する。クリッピング検出部142が対応するリ・デコード済み信号セグメントを分析し、かつ潜在的なクリッピングを発見しなくなるまで、ネットワーク160を介した先行するエンコード済み信号セグメントの伝送が遅延されてもよい。このような方法で、潜在的なクリッピングの発生に関して検証されたエンコード済み信号セグメントだけが受信端へと送信される。
【0016】
任意ではあるが、デコーダ132又はクリッピング検出部142は、そのようなクリッピングの可聴性を評価してもよい。クリッピングの影響が可聴性の所定の閾値を下回る場合には、デコーダは修正なしで処理を進めてもよい。パラメータを変更するために、以下のような方法が可能である。
【0017】
・簡易な方法:デコーダの出力でのクリッピングを回避する一定の周波数独立型ファクタによって、エンコーダ入力ステージにおける当該セグメント/フレーム(又は複数の連続的なフレーム)のゲインを僅かに減少させる。そのゲインは信号特性に従ってあらゆるフレーム内で適応され得る。必要な場合には、ゲインを減少させながら1回以上の反復を実行してもよい。なぜなら、エンコーダ入力におけるレベルの低下がデコーダ出力におけるレベルの低下を常にもたらすとは限らないからである。場合によるが、エンコーダがクリッピングに関して好適でない影響をもたらす異なる量子化ステップを選択していた可能性もある。
【0018】
・先進的な方法#1:全体的信号に対して最大エネルギーに寄与する周波数エリア、又は知覚的に最も無意味な周波数エリア内で、周波数ドメインにおける再量子化を実行する。クリッピングが量子化エラーによって引き起こされる場合、2つの方法が適切である。
(a)クリッピング問題に対して最も影響を与えていると考えられる周波数帯域内において最高のパワー寄与をもたらしている周波数係数について、より小さい量子化閾値を選択するように、量子化器内でのラウンディング処理を修正する。
(b)ある周波数帯域内における量子化精度を増大させて、量子化エラーの量を減少させる。
(c)エンコーダ内においてクリッピングなしの挙動が判定されるまで、(a)と(b)のステップを繰り返す。
【0019】
・先進的な方法#2:この方法はOFDM(直交周波数分割多重)に基づくシステムにおけるクレストファクタ・リダクションと類似している。
(a)全てのサブバンド/又はそれらの部分集合の振幅と位相に小さい(非可聴の)変化を導入し、ピーク振幅を減少させる。
(b)導入された修正の可聴性を評価する。
(c)時間ドメインにおけるピーク振幅の減少をチェックする。
(d)時間信号のピーク振幅が所要の閾値を下回るまで、(a)から(c)のステップを繰り返す。
【0020】
本発明が提案するオーディオエンコーディング装置の一態様によれば、この問題に対し、上述したエラーの発生を防止するための人的操作をもはや必要としない「自動的」な解決策が提供される。完全な信号の全体的ラウドネスを減少させる代わりに、信号の短いセグメントだけについてラウドネスが減少させられ、完全な信号の全体的ラウドネスにおける変化は限定的となる。
【0021】
図2は本発明の更なる可能な実施形態に係るオーディオエンコーディング装置200の概略的なブロック図を示す。オーディオエンコーディング装置200は、図1で概略的に示したオーディオエンコーディング装置100と類似している。図1に示した構成要素に追加して、オーディオエンコーディング装置200は、セグメンタ112と、オーディオ信号セグメントバッファ152と、エンコード済みセグメントバッファ154とを含む。セグメンタ112は、入力されるオリジナルオーディオ信号を複数の時間セグメントに分割するよう構成されている。個々の時間セグメントは、エンコーダ122と、オーディオ信号セグメントバッファ152とに供給され、バッファ152は、エンコーダ122によって現在処理されている単数又は複数の時間セグメントを一時的に記憶するよう構成されている。セグメンタ112の出力とエンコーダ122及びオーディオ信号バッファ152の入力との間には、選択部116が相互接続されており、その選択部116は、セグメンタ112によって供給される時間セグメント、又はオーディオ信号セグメントバッファによって供給される記憶された先行する時間セグメントのいずれかを選択して、エンコーダ122の入力へと送るよう構成されている。選択部116は、クリッピング検出部142から発せられる制御信号によって制御されており、リ・デコード済み信号セグメントが潜在的なクリッピング挙動を示した場合には、選択部116はオーディオ信号セグメントバッファ152の出力を選択して、先行する時間セグメントが少なくとも1つの修正済みエンコーディングパラメータを用いて再度エンコードされるように制御されている。
【0022】
エンコーダ122の出力は、(図1で概略的に示したオーディオエンコーディング装置100の場合と同様に)デコーダ132の入力へと接続されており、また、エンコード済みセグメントバッファ154の入力へも接続されている。エンコード済みセグメントバッファ154は、デコーダ132により実行されるデコーディングと、クリッピング検出部142により実行されるクリッピング分析とを待ちながら、エンコード済み信号セグメントを一時的に記憶するよう構成されている。オーディオエンコーディング装置200は、エンコード済みセグメントバッファ154の出力と、オーディオエンコーディング装置200のネットワークインターフェイスと、に接続されたスイッチ156又はリリース要素を更に含む。スイッチ156は、クリッピング検出部142によって発せられる更なる制御信号によって制御されている。更なる制御信号は選択部116を制御する制御信号と同一でもよく、その制御信号から更なる制御信号が導出されてもよく、又はその制御信号が更なる制御信号から導出されてもよい。
【0023】
換言すれば、図2に示すオーディオエンコーディング装置200は、入力オーディオ信号を分割して少なくとも時間セグメントを得るセグメンタ112を含んでもよい。オーディオエンコーディング装置は、オーディオ信号セグメントバッファ152を更に含んでもよく、そのバッファ152は、時間セグメントがエンコーダによってエンコードされ、対応するエンコード済み信号セグメントがデコーダによってリ・デコードされる間に、入力オーディオ信号の時間セグメントをバッファ済みセグメントとしてバッファリングする。クリッピング警告は、条件に応じて、入力オーディオ信号のバッファ済みセグメントがエンコーダへと再度供給され、少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードさせてもよい。オーディオエンコーディング装置はエンコーダのための入力選択部116を更に含んでもよく、その入力選択部はクリッピング検出部142からの制御信号を受信するよう構成されており、更に、その制御信号に依存して時間セグメントとバッファ済みセグメントとの一方を選択するよう構成されている。幾つかの実施例においては、選択部116はエンコーダ122の一部であってもよい。オーディオエンコーディング装置は、エンコード済みセグメントバッファ154を更に含んでもよく、そのバッファは、エンコード済み信号セグメントがオーディオエンコーディング装置によって出力される前でデコーダ132によってリ・デコードされている間に、そのエンコード済み信号セグメントをバッファリングするものであり、その結果、エンコード済み信号セグメントが、少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードされた潜在的な後続のエンコード済み信号セグメントによって置換され得るようになる。
【0024】
図3は、エンコードされるべき入力オーディオ信号のある時間セグメントをエンコードするステップ31を含む、オーディオエンコーディング方法の概略的なフロー図を示す。ステップ31の結果として、対応するエンコード済み信号セグメントが得られる。まだ送信端においてであるが、この方法のステップ32において、エンコード済み信号セグメントがデコードされて、リ・デコード済み信号セグメントが得られる。リ・デコード済み信号セグメントは、ステップ34において概略的に示すように、実際の又は知覚的な信号クリッピングの少なくとも1つに関し分析される。本発明の方法はステップ36を含み、このステップでは、リ・デコード済み信号セグメントが1つ以上の潜在的にクリッピングしがちなオーディオサンプルを含むことがステップ34において発見された場合に、対応するクリッピング警告が生成される。そのクリッピング警告に依存して、本発明の方法のステップ38において、クリッピング発生確率を減少させるべく、少なくとも1つの修正済みエンコーディングパラメータを用いた入力オーディオ信号の時間セグメントのエンコーディングが繰り返される。
【0025】
本発明の方法は、入力オーディオ信号を分割して、入力オーディオ信号の少なくとも時間セグメントを得るステップを更に含んでもよい。その方法はまた、時間セグメントがエンコードされて対応するエンコード済み信号セグメントがリ・デコードされる間に、入力オーディオ信号の時間セグメントをバッファ済みセグメントとしてバッファリングするステップを更に含んでもよい。バッファ済みセグメントは、次に条件に応じて、即ちクリッピング発生確率が所定の閾値を上回るとクリッピング検出部が示した場合に、少なくとも1つの修正済みエンコーディングパラメータを用いてエンコードされてもよい。
【0026】
本発明の方法はまた、エンコード済み信号セグメントをバッファリングするステップを更に含んでも良く、このステップでは、エンコード済み信号セグメントがリ・デコードされている間でかつ出力される前に、そのエンコード済み信号セグメントをバッファリングすることで、エンコード済み信号セグメントが、少なくとも1つの修正済みエンコーディングパラメータを用いて時間セグメントを再度エンコードすることにより得られた潜在的な後続のエンコード済み信号セグメントによって置き換えられ得るようになる。エンコーディングを繰り返すこの動作は、エンコーダによって時間セグメントに対して全体的ゲインを適用することを含んでもよく、その全体的ゲインは、修正済みのエンコーディングパラメータに基づいて決定されていてもよい。
【0027】
エンコーディングを繰り返す前記動作は、少なくとも1つの選択された周波数エリアにおいて周波数ドメインでの再量子化を実行することを含んでもよい。その少なくとも1つの選択された周波数エリアは、全体的信号の中で最大エネルギーに寄与するエリアか、又は知覚的に最も無意味なエリアであってもよい。オーディオエンコーディングの方法の更なる実施形態によれば、少なくとも1つの修正済みエンコーディングパラメータは、エンコーディングの量子化作業の中のラウンディング処理の修正を引き起こす。そのラウンディング処理は、最高のパワー寄与を有する周波数エリアについて修正されてもよい。
【0028】
ラウンディング処理は、より小さい量子化閾値を選択すること及び量子化精度を増大させることのうち、少なくとも1つにより修正されてもよい。その方法はまた、ピーク振幅を減少させるために、少なくとも1つの周波数エリアに対して振幅または位相のうちの少なくとも1つにおいて小さい変化を導入することを更に含んでもよい。代替的に又は追加的に、導入された修正の可聴性が評価されてもよい。その方法はまた、時間ドメインにおけるピーク振幅の減少をチェックするために、デコーダの出力に関するピーク振幅決定を更に含んでもよい。その方法はまた、ピーク振幅が所要の閾値を下回るまで、振幅及び位相の少なくとも一方に小さい変化を導入すること及び時間ドメインにおけるピーク振幅の減少をチェックすることの繰り返しを更に含んでもよい。
【0029】
図4は幾つかの実施例に係る、信号セグメントの周波数ドメイン表現と少なくとも1つの修正済みエンコーディングパラメータの影響とを概略的に示す図である。信号セグメントは周波数ドメインで5個の周波数帯域によって表現されている。しかし、この図は単に説明的な例であり、従って実際の周波数帯域の数は異なり得る点に注意されたい。更に、個々の周波数帯域はその帯域幅において同一である必要がなく、例えば周波数が増大するに従って帯域幅も増大してもよい。図4で概略的に示された例においては、周波数f2とf3との間の周波数エリア又は帯域が当面の信号セグメント内で最高の振幅及び/又はパワーを有する周波数帯域である。ここで、エンコード済み信号セグメントがそのまま受信端へと伝送されて、そこでデコーダ170によってデコードされた場合に、クリッピングが発生する可能性があることをクリッピング検出部142が発見したと仮定する。その場合、一方法によれば、最高の信号振幅/パワーを有する周波数エリアは、図4でハッチングと下向きの矢印とによって示されるように、所定量だけ低減される。信号セグメントのこのような修正は、オリジナルオーディオ信号に比べて最終的な出力オーディオ信号を僅かに変化させるかも知れないが、その修正は(特にオリジナルオーディオ信号と直接比較した場合を除き)クリッピング事象よりも可聴性が低くなり得る。
【0030】
図5は幾つかの代替的な実施例に係る、信号セグメントの周波数ドメイン表現と少なくとも1つの修正済みエンコーディングパラメータの影響とを概略的に示す図である。この例においては、オーディオ信号セグメントの繰り返しエンコーディングの前に修正される周波数エリアは、最強の周波数エリアではなく、例えば聴覚心理の理論又はモデルに従って知覚的に最も無意味な周波数エリアである。図示された場合においては、周波数f3とf4との間の周波数エリア/帯域は、周波数f2とf3との間の比較的強い周波数エリア/帯域の次にある。従って、周波数f3とf4との間の周波数エリアは、典型的に、有意に高い信号寄与を含む隣接する2つの周波数エリアによってマスキングされると考えられる。しかしながら、周波数f3とf4との間の周波数エリアは、デコードされた信号セグメントにおいてクリッピング事象の発生に寄与する可能性がある。周波数f3とf4との間のマスキングされる周波数エリアについての信号振幅/パワーを減少させることにより、リスナーにとって過度に可聴であるか又は知覚的である修正を行わずに、クリッピング発生確率を所望の閾値を下回るように減少させることができる。
【0031】
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又はその特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するユニットもしくは項目又は特徴を表している。
【0032】
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットなどの無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送されることができる。
【0033】
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて実装可能である。この実装は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどを使用して実行することができる。
【0034】
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する、非一時的なデータキャリアを含んでも良い。
【0035】
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実装することができ、このプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動できる。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されても良い。
【0036】
他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
【0037】
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有する、コンピュータプログラムである。
【0038】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
【0039】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるように構成されても良い。
【0040】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0041】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0042】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスは、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0043】
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3
図4
図5