特開2023-15055 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオの特許一覧

特開2023-15055ハーモニックフィルタツールのハーモニック依存制御

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023015055

(43)【公開日】2023-01-31

(54)【発明の名称】ハーモニックフィルタツールのハーモニック依存制御

(51)【国際特許分類】

G10L 19/26 20130101AFI20230124BHJP

G10L 25/90 20130101ALI20230124BHJP

G10L 21/0264 20130101ALI20230124BHJP

【ＦＩ】

G10L19/26 Z

G10L19/26 A

G10L19/26 B

G10L25/90

G10L21/0264 A

【審査請求】有

【請求項の数】27

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2022164445

(22)【出願日】2022-10-13

(62)【分割の表示】P 2019220392の分割

【原出願日】2015-07-27

(31)【優先権主張番号】14178810.9

(32)【優先日】2014-07-28

(33)【優先権主張国・地域又は機関】EP

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．３ＧＰＰ

(71)【出願人】

【識別番号】591037214

【氏名又は名称】フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ

(74)【代理人】

【識別番号】100079577

【弁理士】

【氏名又は名称】岡田全啓

(72)【発明者】

【氏名】マルコビックゴラン

(72)【発明者】

【氏名】ヘルムリッヒクリスティアン

(72)【発明者】

【氏名】ラベリエマニュエル

(72)【発明者】

【氏名】ジャンダーマヌエル

(72)【発明者】

【氏名】ドーラシュテファン

(57)【要約】（修正有）

【課題】符号化効率、知覚品質が改善された音声コーデックのハーモニックフィルタツールを提供する。
【解決手段】ハーモニックフィルタツールの制御に依存したハーモニシティ（及び時間測定）依存性の制御を行うための装置１０において、音声信号１２のピッチ１８を決定するピッチ推定器１６と、ピッチ１８を使用している音声信号１２のハーモニシティの測定２２を決定するハーモニシティ測定器２０と、ピッチ１８に応じて音声信号１２の時間的構造の特徴を測定している少なくとも一つの時間的構造測定２６を決定する時間的構造解析器２４と、時間的構造測定２６およびハーモニシティの測定２２に応じてハーモニックフィルタツール３０を制御する制御信号１４を出力するコントローラ２８と、を備える。
【選択図】図４

【特許請求の範囲】

【請求項1】

音声コーデックのハーモニックフィルタツールのハーモニシティに依存する制御を実行するための装置（１０）であって、
音声コーデックによって処理されるべき音声信号（１２）のピッチ（１８）を決定するように構成されるピッチ推定器（１６）と；
ピッチ（１８）を使用している音声信号（１２）のハーモニシティの測定（２２）を決定するように構成されるハーモニシティ測定器（２０）と；
ピッチ（１８）に応じて、音声信号（１２）の時間的構造の特徴を測定している少なくとも一つの時間的構造測定（２６）を決定するように構成される時間的構造解析器（２４）と；
時間的構造測定（２６）およびハーモニシティの測定（２２）に応じてハーモニックフィルタツール（３０）を制御するように構成されたコントローラ（２８）とを備えた、装置。

【請求項2】

前記ハーモニシティ測定器（２０）は、音声信号（１２）の正規化された相関あるいは前記ピッチ（１８）のピッチ－遅延において、または、その周辺で、そのプレ修正バージョンを計算することによりハーモニシティの測定（２２）を決定するように構成される、請求項１に記載の装置。

【請求項3】

前記ピッチ推定器（１６）は、第１のステージおよび第２のステージから成るステージにおける前記ピッチ（１８）を決定するように構成されている、請求項１または２に記載の装置。

【請求項4】

前記ピッチ推定器（１６）は、前記第１のステージの中で、第１のサンプルレートのダウンサンプリングされた領域で前記ピッチの予備推定を決定するとともに、前記第２のステージの中で、前記第１のサンプリングレートより高い第２のサンプリングレートで、前記ピッチの予備推定を精製する、請求項３に記載の装置。

【請求項5】

前記ピッチ推定器（１６）は、自己相関を使用して前記ピッチ（１８）を決定するように構成される、請求項１ないし４のいずれかに記載の装置。

【請求項6】

前記時間的構造解析器（２４）が前記ピッチ（１８）に応じて時間的に配置された時間領域の中で少なくとも一つの時間的構造測定（２６）を決定するように構成される、請求項１ないし５のいずれかに記載の装置。

【請求項7】

前記時間的構造解析器（２４）は、前記ピッチ（１８）に依存して、前記時間領域の、または前記時間的構造測定（２６）の前記決定へのより高い影響の領域の時間的に過去の先端（３８）を配置するように構成される、請求項６に記載の装置。

【請求項8】

前記時間的構造アナライザ（２４）は、時間領域の、または時間的構造測定の前記決定へのより高い影響の領域の時間的に過去の先端（３８）が、前記ピッチ（１８）の減少を伴う時間量の単調増加により過去の方向に遷移するように、時間領域の、または時間的構造測定の前記決定へのより高い影響の領域の時間的に過去の先端（３８）を配置するように構成されている、請求項６または７に記載の装置。

【請求項9】

時間的構造解析器（２４）は、時間領域の、または時間的構造測定の前記決定へのより高い影響の領域の時間的に過去の先端（３８）から現在のフレーム（３４ａ）の時間的に未来の先端（４４）まで延びる時間候補領域内で前記音声信号（１２）の時間的構造に依存する、時間的構造測定（２６）の決定へのより大きな影響の、時間的に未来の先端（４０）を配置するように構成された、請求項７または８に記載の装置。

【請求項10】

時間的構造解析器（２４）は、時間領域（３６）の、あるいは時間的構造測定（２６）の前記決定へのより高い影響の領域の時間的に未来の見出し端を配置するための時間候補領域内で振幅または最大および最小のエネルギーサンプル間の比率を使用するように構成されている、請求項９に記載の装置。

【請求項11】

前記コントローラ（２８）は、
チェック結果を得るために、予め定められた条件が、少なくとも一つの時間的構造測定（２６）およびハーモニシティの測定（２２）によって適合されるかどうか調べるように構成されるロジック（１２０）；
および、
前記チェック結果に依存して前記ハーモニックフィルタツール（３０）を有効および無効の間で切り替わるように構成されたスイッチ（１２４）を含む、請求項１ないし１０のいずれかに記載の装置。

【請求項12】

少なくとも一つの時間的構造測定（２６）は、時間領域の中で音声信号の平均または最大エネルギー変化を測定し、ロジックは、
少なくとも一つの時間的構造測定（２６）が、予め定められた第１の閾値より小さく、かつ、ハーモニシティの測定（２２）は、現行フレームおよび／または先行フレームのために、第２の閾値を越える場合、の両方を満たす場合、予め定められた条件を満たすように、設定される、請求項１１に記載の装置。

【請求項13】

前記ロジック（１２０）は、予め定められた条件が、ハーモニシティの測定（２２）は、現行フレームのために、第３の閾値を越え、かつ、ハーモニシティの測定は、現行フレームおよび／または先行フレームのために、ピッチ（１８）のピッチ遅延の増加によって減少する第４の閾値を越える場合にも満たされるように、構成されている、請求項１２に記載の装置。

【請求項14】

前記コントローラ（２８）が、デコード側に音声コーデックのデータストリームにより明確に制御信号を送ることにより、または、
デコード側でポストフィルタを制御するためにデコード側に音声コーデッのデータストリームにより明確に制御信号の信号を送ることにより、かつデコード側でポストフィルタの制御に沿って、エンコーダ側でプレフィルタを制御することにより、ハーモニックフィルタツール（３０）を制御するように構成されている、請求項１ないし１３のいずれかに記載の装置。

【請求項15】

時間的構造解析器（２４）が、複数のスペクトル帯域のスペクトル帯域につき少なくとも一つの時間的構造測定（２６）の１値を得るために、スペクトル識別方法の少なくとも１つの時間的構造測定（２６）を決定するように構成される、請求項１ないし１４のいずれかに記載の装置。

【請求項16】

前記コントローラ（２８）は、フレームの単位で前記ハーモニックフィルタツール（３０）を制御するように構成され、かつ前記時間的構造解析器（２４）は、音声信号のエネルギーサンプルを得るためにフレームのフレーム率より高いサンプルレートで音声信号（１２）のエネルギーをサンプリングし、エネルギーサンプルに基いて少なくとも一つの時間的構造計測（２６）を決定するように構成される請求項１ないし１５のいずれかに記載の装置。

【請求項17】

時間的構造解析器（２４）は、ピッチ（１８）に応じて時間的に配置される時間領域内で少なくとも一つの時間的構造測定（２６）を決定するように構成され、かつ、時間的構造解析器（２４）は、時間領域内でエネルギーサンプルの直ちに連続的なエネルギーサンプルの対の間で変化を測定するエネルギー変化値のセットを計算することによりエネルギーサンプルに基づいて少なくとも１つの時間的構造測定（２６）を決定するように構成され、エネルギー変化値のセットを、各々エネルギー変化値のセットの正確に１つに依存する最大値演算子または加数の総和を含むスカラー関数に掛けさせる、請求項１６に記載の装置。

【請求項18】

前記時間スペクトル解析器（２４）は、ハイパスフィルタリング領域内で音声信号（１２）のエネルギーのサンプリングを実行するように構成される、請求項１６または１７のいずれかに記載の装置。

【請求項19】

ピッチ推定器（１６）、ハーモニシティ測定器（２０）および時間的構造解析器（２４）は、元の音声信号およびその若干のプレ修正バージョンを含む音声信号（１２）の異なるバージョンに基づいて、その決定を実行する、請求項１ないし１８のいずれかに記載の装置。

【請求項20】

コントローラ（２８）は、時間的構造測定（２６）およびハーモニシティの測定（２２）に依存して、ハーモニックフィルタツール（３０）を制御する際に、
ハーモニックフィルタツール（３０）のプレフィルタおよび／またはポストフィルタの有効化および無効化を切り替え、または
ハーモニックフィルタツール（３０）のプレフィルタおよび／またはポストフィルタのフィルタ強度を徐々に適応し、
ハーモニックフィルタツール（３０）は、プレフィルタさらにポストフィルタアプローチからなり、かつ、ハーモニックフィルタツール（３０）のプレフィルタは、音声信号のピッチのハーモニックの範囲内で量子化ノイズを増加させるように構成され、かつ、ハーモニックフィルタツール（３０）のポストフィルタは、したがって、送信されたスペクトルを再成形するように構成される、または、ハーモニックフィルタツール（３０）は、ポストフィルタのみのアプローチからなり、かつ、ハーモニックフィルタツール（３０）のポストフィルタは、音声信号のピッチのハーモニックス間に発生している量子化ノイズをフィルタリングするように構成される、請求項１ないし１９のいずれかに記載の装置。

【請求項21】

ハーモニックフィルタツール（３０）および請求項１ないし２０のいずれかに記載のハーモニックフィルタツールのハーモニシティ依存制御を実行するための装置を含む音声エンコーダまたは音声デコーダ。

【請求項22】

請求項１６ないし１８のいずれかに記載のハーモニックフィルタツールのハーモニシティ依存制御を実行するための装置（１０）と、
エネルギーサンプルに基づく音声コーデックによって処理されるべき音声信号の過渡現象を検出するように構成された過渡現象検出器とを含むシステム。

【請求項23】

請求項２２に記載のシステムを含み、変換ブロックおよび／または検出された過渡現象に応じた重畳長を切換えるように構成された、変換ベースエンコーダ。

【請求項24】

検出された過渡現象に応じて変換符号化励起モードおよび符号励起線型予測モードを切り替えることをサポートするように構成された、請求項２２に記載の音声エンコーダ。

【請求項25】

検出された過渡現象に応じて変換ブロックおよび／または変換符号化励起モードにおける重畳長を切換えるように構成される、請求項２４に記載の音声エンコーダ。

【請求項26】

音声コーデックのハーモニックフィルタツールのハーモニシティ依存制御を実行するための方法（１０）であって、
音声コーデックによって処理されるべき音声信号（１２）のピッチ（１８）を決定する工程と；
ピッチ（１８）を使用している音声信号（１２）のハーモニシティの測定（２２）を決定する工程と；
ピッチ（１８）に応じて、音声信号の時間的構造の特性を測定している少なくとも一つの時間的構造測定（２６）を決定する工程と；
時間的構造測定（２６）およびハーモニシティの測定（２２）に応じてハーモニックフィルタツール（３０）を制御する工程とを含む、方法。

【請求項27】

コンピュータ上で動作するときに、請求項２６による方法を実行するためのプログラムコードを有する、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本願発明は、プレ／ポストフィルタまたはポストフィルタのみのアプローチのようにハーモニックフィルタツールの制御の決定に関する。このようなツールは、例えば、ＭＰＥＧ－Ｄ音声音響統合符号化方式（ＵＳＡＣ）および今後の３ＧＰＰ・ＥＶＳコーデックに適用可能である。

【背景技術】

【0002】

高調波（harmonic：以下、ハーモニックとも称す）音声信号を特に低ビットレートで処理するとき、ＡＡＣ、ＭＰ３、またはＴＣＸのような変換ベースの音声コーデックは、一般的に、インターハーモニック量子化ノイズをもたらす。

【0003】

変換ベースの音声コーデックが、低い周波数分解能および／またはより短い変換サイズおよび／またはより低い窓周波数応答による選択的な導入のために、低遅延で動作する場合、この効果は、さらに悪化する。

【0004】

このインターハーモニックノイズは、一般的に非常に迷惑な「さえずる」アーチファクトとして知覚され、それは、いくつかの音楽や有声音声のような高い音調の音声素材を主観的に推定するとき、変換ベースの音声コーデックの性能を著しく低下させる。

【0005】

この問題に対する一般的な解決策は、変換領域又は時間領域のいずれかで、過去の入力又は復号化サンプルの加算または減算に基づいて、自己回帰（ＡＲ）モデルを用いた予測ベースの技術、好ましくは、予測を使用することである。

【0006】

しかしながら、再び時間的構造を変化させて信号中のこのような技術を使用することは、このような打楽器音楽事象や音声破裂音の一時的なにじみや単一インパルス状のトランジェントの繰返しに起因するインパルス列の生成などの望ましくない影響をもたらす。このように、特別な注意が、トランジェントとハーモニック成分の両方が含まれている信号のために、あるいは、トランジェントおよびパルス列（後者は、非常に短い期間の個々のパルスで構成されるハーモニック信号に属する；この種の信号は、パルス列として知られている）との間に曖昧さがある信号のために、払われる。

【0007】

いくつかの解決策は、ハーモニック音声信号に関する変換ベースの音声コーデックの主観的品質を改善するために存在する。それらのすべては、非常にハーモニックで定常な波形の長期周期（ピッチ）を利用し、変換領域又は時間領域のいずれかで、予測ベースの技術に基づいている。解決策のほとんどは、長期予測（ＬＴＰ）又はピッチ予測のいずれかとして知られていて、信号に適用されるフィルタの対によって特徴付けられる：エンコーダにおけるプレフィルタ（通常、時間または周波数領域における最初のステップとして）およびデコーダにおけるポストフィルタ（通常、時間または周波数領域における最後のステップとして）である。いくつかの他の解決策は、しかしながら、ハーモニックポストフィルタまたは低音ポストフィルタとして一般に知られているデコーダ側に関する単一のポストフィルタリング処理のみを適用する。これらの方法の全ては、プレおよびポストフィルタの対であるかポストフィルタのみであるかにかかわらず、以下においてハーモニックフィルタツールとして示されるであろう。

【0008】

変換領域アプローチの例は、以下の非特許文献１，２，３に示される通りである。
プレおよびポストフィルタリングの両方を適用する時間領域アプローチの例は、以下の非特許文献４，５，６，７，８に示される通りである：
ポストフィルタリングのみが適用される時間領域アプローチの例は、以下の非特許文献９，１０，１１，１２に示される通りである。
トランジェント検出器の例は、以下の非特許文献１３に示される通りである。
音響心理学上の関連文献は、以下の非特許文献１４，１５である。

【先行技術文献】

【非特許文献】

【0009】

【非特許文献1】[1] H. Fuchs, "Improving MPEG Audio Coding by Backward Adaptive Linear Stereo Prediction", 99th AES Convention, New York, 1995, Preprint 4086.

【非特許文献2】[2] L. Yin, M. Suonio, M. Vaeaenaenen, "A New Backward Predictor for MPEG Audio Coding", 103rd AES Convention, New York, 1997, Preprint 4521.

【非特許文献3】[3] Juha Ojanperae, Mauri Vaeaenaenen, Lin Yin, "Long Term Predictor for Transform Domain Perceptual Audio Coding", 107th AES Convention, New York, 1999, Preprint 5036.

【非特許文献4】[4] Philip J. Wilson, Harprit Chhatwal, "Adaptive transform coder having long term predictor", U.S. Patent 5,012,517, April 30, 1991.

【非特許文献5】[5] Jeongook Song, Chang-Heon Lee, Hyen-O Oh, Hong-Goo Kang, "Harmonic Enhancement in Low Bitrate Audio Coding Using an Efficient Long-Term Predictor", EURASIP Journal on Advances in Signal Processing, August 2010.

【非特許文献6】[6] Juin-Hwey Chen, "Pitch-based pre-filtering and post-filtering for compression of audio signals", U.S. Patent 8,738,385, May 27, 2014.

【非特許文献7】[7] Jean-Marc Valin, Koen Vos, Timothy B. Terriberry, "Definition of the Opus Audio Codec", ISSN: 2070-1721, IETF RFC 6716, September 2012.

【非特許文献8】[8] Rakesh Taori, Robert J. Sluijter, Eric Kathmann "Transmission System with Speech Encoder with Improved Pitch Detection", U.S. Patent 5,963,895, October 5, 1999.

【非特許文献9】[9] Juin-Hwey Chen, Allen Gersho, "Adaptive Postfiltering for Quality Enhancement of Coded Speech", IEEE Trans. on Speech and Audio Proc., vol. 3, January 1995.

【非特許文献10】[10] Int. Telecommunication Union, "Frame error robust variable bit-rate coding of speech and audio from 8？32 kbit/s", Recommendation ITU-T G.718, June 2008. www.itu.int/rec/T-REC-G.718/e, section 7.4.1.

【非特許文献11】[11] Int. Telecommunication Union, "Coding of speech at 8 kbit/s using conjugate structure algebraic CELP (CS-ACELP)", Recommendation ITU-T G.729, June 2012. www.itu.int/rec/T-REC-G.729/e, section 4.2.1.

【非特許文献12】[12] Bruno Bessette et al., "Method and device for frequency-selective pitch enhancement of synthesized speech", U.S. Patent 7,529,660, May 30, 2003.

【非特許文献13】[13] Johannes Hilpert et al., "Method and Device for Detecting a Transient in a Discrete-Time Audio Signal", U.S. Patent 6,826,525, November 30, 2004.

【非特許文献14】[14] Hugo Fastl, Eberhard Zwicker, "Psychoacoustics: Facts and Models", 3rd Edition, Springer, December 14, 2006.

【非特許文献15】[15] Christoph Markus, "Background Noise Estimation", European Patent EP 2,226,794, March 6, 2009.

【0010】

以前に記載されている全ての技術は、単一のしきい値判定（例えば、予測ゲイン[5]またはピッチゲイン[4]や基本的に正規化相関に比例しているハーモニシティ[6]）に基づいて、予測フィルタをイネーブルにするとき決定を有している。さらに、OPUS [7]は、ピッチが変化している場合は閾値を増加させ、前のフレームのゲインが所定の固定された閾値を超えた場合、閾値を低下させるヒステリシスを使用する。OPUS[7]は、また、トランジェントが、いくつかの特定のフレーム構成で検出された場合、長期（ピッチ）予測器をディセーブルにする。この設計のための理由は、ハーモニック及び過渡信号成分のミックスにおいて、トランジェントはミックスを支配し、その上にＬＴＰまたはピッチ予測を活性化することは、前述したように、主観的に改善よりも害を引き起こすという一般的な信念に由来するようである。しかしながら、以下で説明する波形のいくつかの混合物のために、過渡音声フレームに関する長期またはピッチ予測器を活性化することは、大幅に符号化品質や効率を向上させ、それ故、有益である。さらに、予測器を活性化するときに、予測ゲイン、現在の技術水準における唯一のアプローチよりも瞬間的な信号特性に基づいてその強度を変化させることは、有益であり得る。

【発明の概要】

【発明が解決しようとする課題】

【0011】

従って、例えば、改善された符号化効率、例えば、改善された目的の符号化ゲインまたはより良い知覚品質など、がもたらす音声コーデックのハーモニックフィルタツールのハーモニシティ依存制御のための概念を提供することが、本発明の目的である。

【課題を解決するための手段】

【0012】

この目的は、本願の独立請求項の主題で達成される。

【0013】

制御可能な－切換え可能あるいは調整可能でさえある－ハーモニックフィルタツールを使用する音声コーデックの符号化効率が、ハーモニックフィルタツールを制御するためのハーモニシティの大きさに加え時間的構造の大きさを使用するこのツールのハーモニシティ依存制御を実行することにより改善され得ることは、本願発明の基本的な発見である。特に、音声信号の時間的構造は、ピッチに依存する態様において推定される。このことは、ハーモニシティの大きさのみに基づいてなされた制御は、実行しないことに決定される状況において、あるいは、その状況においてハーモニックフィルタツールを使用するけれどもこのツールの使用を削減することは、符号化効率を増加する状況において、ハーモニックフィルタツールが適用されるように、一方、ハーモニックフィルタツールが非効率であり得るか破壊的でさえあり得るかという他の状況においては、制御はハーモニックフィルタツールの装置を適切に削減するように、ハーモニックフィルタツールの状況適応制御を達成することを可能にする。

【0014】

従属請求項の主題及び本出願の好ましい実施形態に関する本発明の有利な実施は、図面に関して、以下に記載されている。

【図面の簡単な説明】

【0015】

【図1】図１は、実施形態に係るフィルタゲインに関してハーモニックフィルタツールを制御するための装置のブロック図である。

【図2】図２は、ハーモニックフィルタツールを適用するために満たされるべき可能な所定の条件の例を示す図である。

【図3】図３は、図２の状態例を実現するように、とりわけ、パラメータ化し得る、決定ロジックの可能な実装を示すフロー図である。

【図4】図４は、ハーモニックフィルタツールの制御に依存したハーモニシティ（及び時間測定）依存性の制御を行うための装置のブロック図である。

【図5】図５は、実施形態に係る時間的構造の大きさを決定するための時間領域の時間的位置を説明するための模式図である。

【図6】図６は、実施形態による時間領域内の音声信号のエネルギーを時間的にサンプリングするエネルギーサンプルのグラフを示す図である。

【図7】図７は、ハーモニックプレ／ポストフィルタツールが使用される実施形態により、エンコーダが図４の装置を使用するとき、音声コーデックのエンコーダおよびデコーダをそれぞれ示すことにより、音声コーデックにおける図４の装置の使用を示すブロック図である。

【図8】図８は、ハーモニックポストフィルタツールが使用される実施形態により、エンコーダが図４の装置を使用するとき、音声コーデックのエンコーダ及びデコーダをそれぞれ示すことにより、音声コーデックにおける図４の装置の使用を示すブロック図である。

【図9】図９は、実施形態による図４のコントローラのブロックダイアグラムを示す図である。

【図10】図１０は、図４の装置が、トランジェント検出器と図６のエネルギーサンプルの使用を共有する可能性を示すシステムのブロックダイアグラムを示す図である。

【図11】図１１は、少なくとも１つの時間的構造の大きさを決定するための時間領域のピッチ依存位置を付加的に示すとともに、低ピッチ信号の一例として、音声信号のうち、時間領域部分（波形の部分）のグラフを示す図である。

【図12】図１２は、少なくとも１つの時間的構造の大きさを決定するための時間領域のピッチ依存位置を付加的に示すとともに、高ピッチ信号の一例として、音声信号のうち、時間領域の部分のグラフを示す図である。

【図13】図１３は、ハーモニック信号内のインパルスおよびステップトランジェントの典型的なスペクトログラムを示す図である。

【図14】図１４は、インパルスおよびステップ過渡に関するＬＴＰの影響を説明するための例示的なスペクトログラムを示す図である。

【図15】図１５は、インパルスのためのおよびステップトランジェントのための図２,３,１６および１７による制御を示すために、図１４に示された音声信号の時間領域部分およびそのロウパスフィルタリングおよびハイパスフィルタリングされたバージョンをそれぞれ順次示す図である。

【図16】図１６は、図２および図３による少なくとも１つの時間的構造の大きさを決定するためのインパルス類似のトランジェントおよび時間領域の配置のためのセグメントのエネルギーの時間シーケンス－エネルギーサンプルのシーケンス－のための例の棒グラフを示す図である。

【図17】図１７は、図２および図３による少なくとも１つの時間的構造の大きさ定を決定するためのステップ類似のトランジェントおよび時間領域の配置のためのセグメントのエネルギーの時間シーケンス－エネルギーサンプルのシーケンス－のための例の棒グラフを示す図である。

【図18】図１８は、パルス列（ショートＦＦＴスペクトログラムの使用を除く）の典型的なスペクトログラムを示す図である。

【図19】図１９は、パルス列の例示的な波形を示す図である。

【図20】図２０は、パルス列の元のショートＦＦＴスペクトログラムを示す図である。

【図21】図２１は、パルス列の元のロングＦＦＴスペクトログラムを示す図である。

【発明を実施するための形態】

【0016】

以下の説明は、ハーモニックフィルタツール制御の最初の詳細な実施形態で始まる。この第１の実施の形態に導いた思考の簡単な概説が、提示されている。これらの思考は、しかしながら、また、後に説明する実施形態に適用される。以下に、本出願の実施形態に起因する効果をより具体的に概説するために、音声信号部分のための特定の具体例に続いて、一般化された実施形態が、提示されている。

【0017】

例えば、予測ベースの技術であるハーモニックフィルタツールをイネーブルにまたは制御するための決定メカニズムは、例えば、正規化された相関または予測ゲインおよび時間的構造の大きさ、例えば時間的な平坦性の大きさ、または、エネルギー変化等のハーモニシティの大きさの組合せに基づく。

【0018】

決定は、以下に概説するように、単に現在のフレームからのハーモニシティの大きさに依存するのではなく、以前のフレームからのハーモニシティの大きさおよび現在の、および任意には、以前のフレームからの時間的構造の大きさに依存する。

【0019】

決定方式は、予測ベースの技術がトランジェントのためにもイネーブルになっているように設計され得て、それを使用するときはいつでも、それぞれのモデルが締結したように、音響心理学的に有益であろう。

【0020】

予測ベースの技術を可能にするために使用されるしきい値は、一実施形態では、ピッチ変化の代わりに、現在のピッチに依存し得る。

【0021】

決定方式は、例えば、特定のトランジェントの繰り返しを避け得るが、トランジェント検出器が、通常、ショート変換ブロック（すなわち１つ以上のトランジェントの存在）を示す特定の時間的構造を有するいくつかのトランジェントおよび信号のための予測ベースの技術を可能にする。

【0022】

以下に示す決定技術は、変換領域または時間領域のいずれかにおいて、プレフィルタに加えポストフィルタまたはポストフィルタのみのいずれかのアプローチを、上述の予測に基づく方法のいずれにも適用し得る。さらに、予測器の動作帯域制限（ロウパスを有する）またはサブ帯域（帯域通過特性を有する）に適用し得る。

【0023】

ＬＰＴ、ピッチ予測、またはハーモニックポストフィルタリングの活性化についての全体的な目的は、次の両方の条件が達成されるということである。
－客観的または主観的な利点は、フィルタを活性化することによって得られ、
－有意なアーチファクトは、前記フィルタの活性化によって導入されない。

【0024】

自己相関および／または予測ゲインにより通常実行されるフィルタを使用する客観的な利益が存在するかどうかを決定することは、ターゲットの信号上で測定し、かつ周知である。［１－７］

【0025】

主観的な利益の測定は、リスニングテストを経て得られた知覚的改善データが、一般的に、対応する客観的測定、すなわち、上記の相関および／または予測ゲインに比例するので、少なくとも定常信号に対しても直接的である。

【0026】

最先端の技術においてなされるように、フィルタリングによって生じるアーチファクトの存在を確認または予測することは、しかしながら、ある閾値にフレームタイプ（定常のためのロング変換対過渡フレームのためのショート変換）またはある閾値への予測ゲインのような客観的測定の単純な比較よりも、より洗練された技術を要求する。本質的に、アーチファクトを防止するために、フィルタリングが目標波形において引き起こす変化が時間または周波数におけるどこかにおいて時間可変スペクトル時間マスキング閾値を著しく越えないことを保証しなければならない。以下に示す実施形態のいくつかに応じた決定方式は、このように、符号化されるべきおよび／またはフィルタリングされるべき音声信号の各フレーム毎に連続して実行すべき３つのアルゴリズムのブロックからなる次のフィルタ決定及び制御方式を使用する。

【0027】

例えば正規化相関やゲイン値（以下、「予測ゲイン」と呼ばれる）等の一般的に使用されるハーモニックフィルタデータを算出するハーモニック測定ブロック。後にもう一度述べるように、単語「ゲイン」は、一般的に、フィルタの強度、例えば明示的なゲイン係数または１つ以上のフィルタ係数のセットの絶対的なまたは相対的な大きさ、と共通に関連する任意のパラメータのための一般化を意味する。

【0028】

事前に定義されたスペクトルおよび時間分解能（上記のように、これはまた、フレームタイプ決定のために使用されるフレーム過渡性の大きさを含んでいてもよい）を有する時間周波数（Ｔ／Ｆ）振幅またはエネルギーまたは平坦性データを計算するＴ／Ｆエンベロープ測定ブロック。典型的には、過去の信号サンプルを用いて、現在のフレームのフィルタリングに使用される音声信号の領域は、ピッチに依存する（そして、それに応じて、計算されたＴ／Ｆエンベロープに依存する）ので、ハーモニック測定ブロックで得られたピッチは、Ｔ／Ｆエンベロープ測定ブロックに入力される。

【0029】

フィルタリングのために使用するための（そして、したがって、ビットストリームで送信するための）どのフィルタゲインについての最終決定を行うフィルタゲイン演算ブロック。理想的には、このブロックは、予測ゲイン以下の各送信可能フィルタゲインのために、上記フィルタゲインのフィルタリング後の目標信号のスペクトル時間励起パターン状のエンベロープを計算し、元の信号の励起パターンエンベロープとこの「実際の」エンベロープとを比較する必要がある。その後、符号化／伝送のために、対応するスペクトル時間的な"実際の"エンベロープが一定量以上により"元の"エンベロープと異ならない最大フィルタゲインを使用可能し得る。このフィルタゲインを、我々は、心理音響的に最適と呼ぶ。

【0030】

後述する他の実施形態では、三ブロック構造は、少し修正される。

【0031】

換言すれば、ハーモニシティおよびＴ／Ｆエンベロープの大きさは、対応するブロックにおいて得られ、それは、入力およびフィルタリングされた出力フレームの両者の心理音響学的励起パターンを導くために続いて使用され、最終的に、“現実の”および“元の”エンベロープ間の比率により与えられるマスキング閾値が大きく超過されないように、フィルタゲインが適合される。この点を評価するために、このコンテキストにおける励起パターンが、検査される信号のスペクトログラム状の表現に酷似しているが、人間の聴覚のある特性の後モデルにした時間的平滑化を示し、「ポストマスキング」として明示することに留意すべきである。

【0032】

図１は、上で紹介した３ブロック間の接続を示す。残念ながら、２つの励起パターンのフレーム方向導出と最大フィルタゲインのため力まかせ探索は、多くの場合、計算が複雑である。従って、単純化は、以下の説明に示されている。

【0033】

提案されたフィルタ活性化決定方式で励起パターンの高コスト計算を回避するために、低複雑性エンベロープの大きさが、励起パターンの特性の推定値として使用される。これは、Ｔ／Ｆエンベロープ測定ブロックにおいて、セグメントエネルギー（ＳＥ）、時間平坦性の大きさ（ＴＦＭ）、最大エネルギー変化（ＭＥＣ）等のデータまたはフレームタイプ（ロング／定常的またはショート／過渡的）等の伝統的なフレーム構成情報は、音響心理学的基準の推定値を導出するために十分であることが見出された。これらの推定値は、その後、フィルタゲイン演算部において、符号化または伝送のために使用される最適なフィルタゲインを高精度に決定するために利用され得る。全体的な最適ゲインのためにコンピュータ的に徹底的な探索を防止するために、すべての可能なフィルタゲイン（またはそのサブセット）上のレート歪みループは、一回の条件演算子で置換され得る。このような「安価な」演算子は、ハーモニシティおよびＴ／Ｆエンベロープ測定ブロックからのデータを使用して計算されたいくつかのフィルタゲインが、ゼロに設定されなければならないか（ハーモニックフィルタリングを使用しないという決定）またはそうでないか（ハーモニックフィルタリングを使用するという決定）を決定するのに役立つ。ハーモニシティ測定ブロックが変わらないことに注意されたい。この低複雑度の実施形態の段階的な実現は、以下に記載されている。

【0034】

前述したように、一回の条件演算子にかけられた「最初の」フィルタゲインは、ハーモニシティおよびＴ／Ｆエンベロープ測定ブロックからのデータを使用して導出される。より具体的には、「最初の」フィルタゲインは、（ハーモニシティ測定ブロックからの）時間可変予測ゲインと（Ｔ／Ｆエンベロープ測定ブロックの音響心理学的エンベロープデータからの）時間可変スケール係数との積に等しくなり得る。さらに計算負荷を低減するために、例えば、０．６２５のように固定された一定のスケール係数は、代わりに、信号適応時間可変のものに代えて使用され得る。これは、典型的に十分な品質を保持し、また、以下の実現において考慮される。

【0035】

フィルタツールを制御するための具体的な実施形態の段階的な説明が、今、提示される。

【0036】

１．トランジェント検出および時間測定

【0037】

【0038】

【0039】

【0040】

【0041】

ここで、以下の式は、入力サンプリング周波数で、２．５ミリ秒セグメントにおけるサンプル数である。

【0042】

蓄積されたエネルギーは、以下を使用して計算される。

【0043】

【0044】

【0045】

【0046】

【0047】

各セグメントに対するエネルギー変化は、次のように計算される。

【0048】

【0049】

時間平坦性の大きさは、次のように計算される。

【0050】

【0051】

最大エネルギー変化は、次のように計算される。

【0052】

【0053】

【0054】

【0055】

【0056】

【0057】

【0058】

２．変換ブロック長の切換え

【0059】

オーバーラップ長とＴＣＸの変換ブロック長は、トランジェントとその場所の存在に依存する。

【0060】

表１：トランジェント位置に基づく、オーバーラップと変換長の符号化

【0061】

【0062】

基本的には上述のトランジェント検出器は、複数のトランジェントが存在するならば、ＭＩＮＩＭＡＬオーバーラップがＦＵＬＬオーバーラップよりも好ましいＨＡＬＦオーバーラップよりも好ましいという制約との最後の攻撃のインデックスを返す。ポジション２または６での攻撃が充分強くない場合、ＨＡＬＦオーバーラップが、ＭＩＮＩＭＡＬオーバーラップに代えて選択される。

【0063】

３．ピッチ推定

【0064】

フレーム当たりの１ピッチラグ（整数部+小数部分）は、（フレームサイズ例えば２０ｍｓ）と推定される。これは、複雑さを軽減するために３つのステップで行われ、推定精度が向上する。

【0065】

ａ．ピッチラグの整数部分の第１の推定

【0066】

滑らかなピッチ展開の輪郭を生成するピッチ解析アルゴリズム（Rec.ITU-T G. 718,sec.6.6に記載された、例えば開ループピッチ解析）が、使用される。この解析は、一般に、サブフレーム単位（サブフレームサイズ、例えば１０ミリ秒）、で行われ、サブフレームごとに１ピッチラグ推定値を生成する。これらのピッチラグ推定値は、小数部を持っておらず、一般的にダウンサンプリングされた信号（サンプリングレートは例えば６４００Ｈｚ）で推定されていることに注意されたい。使用される信号は、任意の音声信号、例えばRec.ITU-T G. 718,sec.6.5に記載されたように、ＬＰＣ加重音声信号とし得る。

【0067】

ｂ．ピッチラグの整数部分の精密化

【0068】

ピッチラグの最後の整数部は、（例えば12.8kHz、16kHzの、32kHz…）において使用されるダウンサンプリング信号のサンプリングレートよりも一般的に高いコアエンコーダサンプリングレートで動作する音声信号ｘ［ｎ］に関して推定される。信号ｘ［ｎ］は、音声信号、例えばＬＰＣ重み付き音声信号とし得る。

【0069】

ピッチラグの整数部分は、自己相関関数を最大化するラグＴ_intである。

【0070】

【0071】

【0072】

【0073】

ｃ．ピッチラグの小数部分の推定

【0074】

【0075】

４．決定ビット

【0076】

前記入力音声信号がいかなるハーモニックコンテンツを含まない場合、あるいは、予測ベース技術が時間的構造（例えば、短期トランジェントの繰返し）における歪を導く場合、パラメータは、ビットストリームにおいてエンコードされない。フィルタパラメータをデコードすべきか否かをデコーダが知っているように、１ビットのみが送信される。決定は、いくつかのパラメータに基づいてなされる。

【0077】

ステップ３．ｂ．において推定された整数ピッチラグでの正規化相関

【0078】

【0079】

入力信号が整数ピッチラグにより完全に予測可能である場合、正規化された相関は、「１」であり、全く予測可能でない場合、「０」である。（１に近い）高い値は、その時、ハーモニック信号を示す。より強固な決定のために、現在のフレーム（norm＿corr（curr））のために正規化された相関を除いて、過去のフレーム（norm＿corr（prev））の正規化された相関は、決定において使用され得る：例えば、

【0080】

（norm＿corr（curr）* norm＿corr（prev））＞０．２５の場合
もしくは
max（norm＿corr（curr），norm＿corr（prev））＞０．５の場合
現在のフレームは、いくつかのハーモニックコンテンツを含む（bit＝１）

【0081】

【0082】

【0083】

【0084】

決定ロジックの原理は、図３のブロック図に示されている。図３は、しきい値は制限されないという意味で、図２よりもより一般的である点に留意すべきである。これらは、図２に応じてまたは異なって設定され得る。さらに、図３は、図２の例示的なビットレート依存性をなくし得ることを示している。当然のことながら、図３の決定ロジックは、図２のビットレート依存性を含むように変化させ得る。さらに、図３は、現在のみまたは過去のピッチに関しても利用に関するあいまいさを保っている。その限りにおいて、図３は、図２の実施例が、この点に関して変更可能なことを示している。

【0085】

【0086】

トランジェントの検出は、長期予測のどの決定メカニズムが使用され、長期予測に対するどの決定メカニズムが使用され、信号のどの部分が決定に使用される測定のために使用されるかに影響を与えることは、上記の例から明らかであり、長期予測のディセーブルを直接にトリガすることは、上記の例から明らかではない。
変換長決定に使用される時間測定は、ＬＴＰの決定に使用される時間測定とは完全に異なってもよく、または、それらは、オーバーラップしまたは厳密にに同じであるが異なる領域に計算されてもよい。

【0087】

ピッチラグに依存する正規化された相関のための閾値に到達した場合、低ピッチ信号のために、トランジェントの検出は、完全に無視される。

【0088】

５．ゲイン推定および量子化

【0089】

ゲインは、一般に、コア符号器のサンプリングレートで入力音声信号に関して推定されるが、それはまた、ＬＰＣ重み付き音声信号のようないかなる音声信号ともし得る。この信号は、ｙ［ｎ］を指摘し、ｘ［ｎ］と同じまたは異なり得る。

【0090】

ｙ［ｎ］の予測ｙ_p［ｎ］は、以下のフィルタによりｙ［ｎ］をフィルタリングすることによって最初に検出された。

【0091】

【0092】

【0093】

ピッチラグ分解能が１／４のときのＢ（ｚ）の一例

【0094】

【0095】

【0096】

【0097】

そして、０と１の間に制限されている。

【0098】

最終的に、ゲインは、例えば均一な量子化を使用して、例えば２ビットに量子化される。ゲインが０に量子化された場合、パラメータは、ビットストリームにおいて１決定ビット（ビット=０）のみ符号化されていない。

【0099】

説明は、ハーモニックフィルタツールのハーモニシティ依存制御のための、また上述の漸進的な実施例への一般化された実施例を示す以下に概説されたもののためにも、本出願の実施例の利点を動機付けし、概説する限り提出された。しばしば、ハーモニシティ依存制御概念は、他の音声コーデックの枠組において有利に使用されてもよく、上記で概説された具体的な詳細に関連して変化されてもよいが、提出された限りの説明は、非常に具体的である。この理由のために、本願の実施形態は、より一般的な方法で、以下に再度記載されている。それにもかかわらず、時々、以下の説明は、以下で生じる一般的に記述された要素は更なる実施例に従って実現され得る方法について明らかにするために上記詳細を使用するために上記で提出された詳細な説明に戻って参照する。そうすることで、これらの具体的な実施の詳細のすべては、以下に説明された要素に向かって上記の説明から個々に移されてもよいことに留意すべきである。従って、以下に概略された説明において、参照が、上記提出された説明になされるときはいつでも、この参照は、さらなる参照から上記の説明まで独立していることを意味する。

【0100】

従って、上記の詳細な説明から現れるより一般的な実施形態が、図４に示されている。特に、図４は、音声コーデックの、例えばハーモニックプレ／ポストフィルタやハーモニックポストフィルタツール等の、ハーモニックフィルタツールのハーモニシティ依存制御を実行するための装置を示す。装置は、一般に、参照符号１０を用いて示される。装置１０は、音声コーデックによって処理されるべき音声信号１２を受信し、かつ装置１０の制御タスクを満たすために制御信号１４を出力する。装置１０は、音声信号１２の現在のピッチラグ１８を決定するように構成されたピッチ推定器１６、および現在のピッチラグ１８を使用する音声信号１２のハーモニシティの大きさ２２を決定するように構成されたハーモニシティ測定器２０を含む。特に、ハーモニシティの大きさは、予測ゲインであり得るか、１（単一）またはそれ以上（マルチタップ）のフィルタ係数または最大正規化相関によって実現され得る。図１のハーモニシティ測定計算ブロックは、ピッチ推定器１６およびハーモニシティ測定器２０の両者のタスクを含む。

【0101】

装置１０は、さらに、ピッチラグ１８に依存した態様で少なくとも一つの時間的構造の大きさ２６を決定するように構成された時間的構造解析器２４を含み、大きさ２６は、音声信号１２の時間的構造の特性を測定する。例えば、依存性は、上述され、後でより詳述されるように、大きさ２６は、音声信号１２の時間的構造の特性を測定する時間領域の位置に依存し得る。しかしながら、完全性のために、ピッチラグ１８に関する大きさ２６の決定の依存性は、上述および後述された記載とは異なって具体化され得ることが、簡潔に記録される。例えば、時間的部分、すなわち、決定窓の位置に反して、ピッチラグに依存する態様において、依存性は、ピッチラグから相対的に現在のフレームまで独立に位置する窓内で音声信号のそれぞれの時間間隔が大きさ２６に寄与する重みを単に時間的に変化し得る。下記の記述に関し、これは、決定窓３６が現在および過去のフレームの連鎖に対応して固定的に配置され得ること、および、ピッチ依存性配置位置が、音声信号の時間的構造が大きさ２６に影響する増加する重みの窓として単に機能することを意味し得る。しかしながら、当分の間、時間窓がピッチラグに従って位置されるように配置されることが仮定される。時間的構造解析器２４は、図１のＴ／Ｆエンベロープ測定計算ブロックに対応する。

【0102】

結局、図４の装置は、ハーモニックプレ／ポストフィルタまたはハーモニックポストフィルタを制御するために時間的構造の大きさ２６およびハーモニシティの大きさ２２に依存する制御信号１４を出力するように構成されたコントローラ２８を含む。図４および図１を比較したとき、最適フィルタゲイン算出ブロックは、コントローラ２８の可能な実現に対応する、あるいは示す。

【0103】

装置１０の動作モードは、次のようである。特に、装置１０のタスクは、音声コーデックのハーモニックフィルタツールを制御することであり、図１ないし３に関して、上記で概説したより詳細な説明をすることは、そのフィルタ強度あるいはフィルタゲインの代わりにこのツールの漸次な制御または適合を示すが、例えば、コントローラ２８は、漸次な制御のタイプに制限されていない。一般的に言えば、図１から３に関して上記特定の実施例の場合であるように、コントローラ２８による制御は、０と最大値との間のハーモニシティフィルタツールのフィルタ強度またはゲインと漸次適合し得るが、異なる可能性が同様に利用可能であり、例えば、２つの非ゼロフィルタゲイン値の間の漸次な制御、階段状制御、または、ハーモニックフィルタツールのオンまたはオフを切替えるためのイネーブル（非ゼロ）またはディセーブル（ゼロゲイン）の間で切替える等の２値制御が同様に利用可能である。

【0104】

上記の説明から明らかになったように、破線３０により図４において示されたハーモニックフィルタツールは、変換ベース音声コーデック等の音声コーデックの主観的品質を、特に、音声信号のハーモニック位相に関して改善することを目的とする。特に、この種のツール３０は、低ビットレートシナリオにおいて特に有用であり、導入された量子化ノイズは、ツール３０なしに、その種のハーモニック位相において、可聴アーチファクトを導く。しかしながら、フィルタツール３０は、卓越してハーモニックでない音声信号の他の時間位相に否定的に影響しないことは重要である。さらに、上述したように、フィルタツール３０は、ポストフィルタアプローチまたはプレフィルタに加えポストフィルタアプローチであってもよい。プレおよび／またはポストフィルタは、変換領域または時間領域で動作し得る。例えば、ツール３０のポストフィルタは、例えば、ピッチラグ１８に対応する、または依存設定された、スペクトル距離に配置された、極大値を有する伝達関数を有していてもよい。例えば、ＦＩＲおよびＩＩＲフィルタの形態におけるＬＴＰフィルタの形態におけるプレフィルタおよび／またはポストフィルタの実現は、それぞれ実現可能である。プレフィルタは、ポストフィルタの伝達関数の実質的に逆関数である伝達関数を有していてもよい。実際には、プレフィルタは、音声信号の現在のピッチのハーモニック内の量子化雑音を増加させることにより、音声信号のハーモニック成分内の量子化雑音を隠蔽しようとし、ポストフィルタは、それに応じて送信スペクトルを再整形する。音声信号のピッチのハーモニックの間に生じる量子化ノイズをフィルタリングするために、ポストフィルタのみのアプローチの場合、ポストフィルタは、送信された音声信号を実際に修正する。

【0105】

図４は、いくつかの意味で、簡略化した方法で描かれたことに注意すべきである。例えば、図４は、ピッチ推定器１６、ハーモニシティ測定器２０、および時間的構造解析部２４が、直接音声信号１２に動作する、例えばそのタスクを実行する、または少なくともその同じバージョンで、これはその場合であることを必要としないことを、示唆している。実際は、ピッチ推定器１６、時間的構造解析器２４およびハーモニシティ測定器２０は、元の音声信号の異なるものおよびそのいくつかのプレ修正バージョンのような音声信号１２の異なるバージョンについて作用することができ、そこにおいて、これらバージョンは、内部的におよび音声コーデックに関しても同様に要素１６、２０および２４の間で変更し得る。そして、それは元の音声信号のいくつかの修正バージョンに関しても作用し得える。例えば、時間的構造解析器２４は、その入力サンプリングレート、すなわち音声信号１２の元のサンプリングレートで、音声信号１２に作用することができる、または、それは、その内部的に符号化／復号化されたバージョンに作用し得る。音声コーデックは、次に、入力サンプリングレートより通常低いいくつかの内部コアサンプリングレートで作動し得る。例えば、ピッチ－推定器１６は、次に、知覚できることに関して、他のスペクトル構成要素よりより重要であるスペクトル構成要素に関してピッチ推定を改善するために、音声信号１２のプレ修正バージョン、例えば音声信号１２の音響心理学的加重バージョン上の、に関するピッチ推定作業を実行し得る。例えば、上述のように、ピッチ－推定器１６は、第１のステージおよび第２のステージを含むステージにおけるピッチラグ１８を決定するように構成され得る。そして、第１のステージが、それから第２のステージにおいて精製（refine：以下、リファインとも称す）されるピッチラグの予備推定を生じる。例えば、それが上述されたように、ピッチ推定器１６は、第１のサンプルレートに対応するダウンサンプリングされた領域で、ピッチラグの予備推定を決定し得る、そして、そのとき、第１のサンプルレートより高い第２のサンプルレートでピッチラグの予備推定をリファインする。

【0106】

ハーモニシティ測定器２０に関する限り、それが、音声信号の正規化された相関またはピッチラグ１８でのプレ修正バージョンを計算することによるハーモニシティの大きさ２２を決定し得ることは、図１ないし３に関して上記の議論から明らかになった。ハーモニシティ測定器２０が、例えばピッチラグ１８を含んでいて、囲んでいる時間的遅延間隔においてピッチラグ１８の他にいくつかの相関時間的距離でさえ正規化された相関を計算するように構成さえされ得る点に留意する必要がある。微小なピッチを有するマルチタップＬＴＰまたは可能なＬＴＰを使用しているフィルタツール３０の場合には、例えば、これは、有利であり得る。その場合、ハーモニシティ測定器２０は、実際のピッチラグ１８、例えば図１ないし３に関して、上記で概説される実際の実施例における整数ピッチラグ、に隣接しているラグインデックスでさえ、相関を解析し得るかまたは推定し得る。

【0107】

ピッチ推定器１６に関するより詳細でかつ可能な実現例のために、参照が、上記で提出された部分「ピッチ推定」になされる。ハーモニシティ測定器２０の考えられる実施態様は、正規化相関の式に関して、上記で議論された。しかしながら、上述されたように、用語「ハーモニシティの大きさ」が、正規化された相関のみならず例えばハーモニックフィルタの予測ゲインのようなハーモニシティを測定するヒントを含み、ハーモニックフィルタは、プレ／ポストフィルタアプローチを使用する場合におけるおよびこのハーモニックフィルタを使用する音声コーデックに関わりなくあるいはこのハーモニックフィルタが単に大きさ２２を決定するためにハーモニック測定器２０により使用されるかどうかに関し、ハーモニックフィルタは、フィルタ２３０のプレフィルタと等しいまたは異なっていてもよい。

【0108】

図１ないし３までに関して、上述されていたように、時間的構造解析器２４は、ピッチラグ１８に応じて時間的に配置される時間領域の中で、少なくとも一つの時間的構造の大きさ２６を決定するように構成され得る。これを更に示すために、図５を参照されたい。図５は、音声信号のスペクトログラム３２、すなわち、存在するとすれば音声コーデックの変換ブロックレートと一致し得るあるいは一致し得ないいくつかの変換ブロックレートで時間的にサンプリングされた、時間的構造解析器２４により内部的に使用された音声信号のバージョンのサンプリングレートに例えば依存するいくつかの最高周波数ｆ_H、までのそのスペクトル分解、を例示する。図示の目的のために、図５は、例えば、コントローラがフィルタツール３０の制御を実行し得るユニットにおけるフレームへの時間的に細分されたスペクトログラム３２を示し、フレーム細分は、フィルタツール３０からなるまたは使用する音声コーデックにより使用されたフレーム細分と例えば一致し得る。

【0109】

しばらくの間、コントローラ２８の制御作業が実行される現行フレームが、フレーム３４ａであると、実例として仮定する。上述され、図５に示されたように、時間的構造決定器が少なくとも一つの時間的構造の大きさ２６を決定する、時間領域３６は、現行フレーム３４ａと必ずしも一致するというわけではない。むしろ、時間領域３６の時間的に過去の端部３８および時間的に未来の端部４０の両方は、現行フレーム３４ａの時間的に過去のおよび未来の端部４２および４４から逸脱し得る。上述されたように、時間的構造解析器２４は、現行フレーム３４ａのための、各フレーム３４のためのピッチラグ１８を決めるピッチ推定器１６で決定されるピッチラグ１８に応じて時間領域３６の時間的に過去の端部３８を配置し得る。上記の議論から明白になったように、時間的に過去の端部３８が、例えば、ピッチラグ１８の増加によって単調増加する時間量４６によって現行フレーム３４ａの過去の端部４２と関連して、過去の方向に移動するように、時間的構造解析器２４は、時間領域の時間的過去の端部３８を配置し得る。換言すれば、ピッチラグ１８がより大きいほど、総計４６は、より大きい。図１から３に関する上記の議論から明らかになったように、合計は、式８に従ってセットされ得る。但し、Ｎ_pastは、時間的置換４６のための大きさである。

【0110】

時間領域３６の時間的に未来の端部４０は、次に、時間領域３６の時間的に過去の端部３８から現行フレーム４４の時間的に未来の端部まで伸びている時間的候補領域４８の中で、音声信号の時間的構造に応じて、時間的構造解析器２４によって設定され得る。特に、上述されたように、時間的構造解析器２４は、時間領域３６の時間的に未来の端部４０の位置を決定するために時間的候補領域４８の中で音声信号のエネルギーサンプルの相違測定を推定し得る。図１から３までに関して示された上記の具体的な詳細において、時間的候補領域４８の中の最大および最小のエネルギーサンプルの相違のための測定が、その間の振幅比率のような相違測定、として使用された。特に、上記の具体的な実施例において、変数Ｎ_newは、図５の５０で示された現行フレーム３４ａの時間的に過去の端部４２に関して、時間的未来３６の時間的に未来の端部４０の位置を測定した。

【0111】

上記の説明から明らかになったように、ハーモニックフィルタツール３０が都合よく用いられることができる状況を正しく確認するための装置の１０の能力が増加するという点で、ピッチラグ１８に依存している時間領域３６の配置は、有利である。特に、この種の状況の正しい検出は、より信頼できる。すなわち、そのような状況が、偽陽性検出を実質的に増加させることなく、より高い確率で検出される。

【0112】

図１から３までに関して上述されたように、時間的構造解析器２４は、その時間領域３６の中で音声信号のエネルギーの時間的サンプリングに基いて時間領域３６の中で少なくとも一つの時間的構造の大きさを決定し得る。これは、図６において示され、ここで、エネルギーサンプルは、任意の時間およびエネルギー軸によって張られる時間／エネルギー平面においてプロットされる点によって示される。前述したように、エネルギーサンプル５２は、フレーム３４のフレーム率より高いサンプルレートで音声信号のエネルギーをサンプリングすることによって得られ得る。少なくとも一つの時間的構造の大きさ２６を決定する際に、解析器２４は、上述のように、時間領域３６内で直ちに連続的なエネルギーサンプル５２の対の間に、変化の間、例えば一組のエネルギー変化値を計算し得る。前記説明において、式５は、このために用いられた。この測定により、エネルギー変化値は、直ちに連続的なエネルギーサンプル５２の各対から得られ得る。解析器２４は、それから、少なくとも一つの構造的エネルギーの大きさ２６を得るために、時間領域３６の中のエネルギーサンプル５２からスカラー関数（function）まで得られたエネルギー変化値のセットを従属させ得る。上記の具体的な実施例において、時間平坦性の大きさは、例えば、加数以上の合計に基いて決定され、そして、それぞれは、エネルギー変化値のセットのうちの厳密に１つに依存する。最大エネルギー変化は、次に、エネルギー変化値上に適用される最大演算子を使用している式７に従って決定された。

【0113】

すでに上記した様に、エネルギーサンプル５２は、その元の、変更されていないバージョンの音声信号１２のエネルギーを必ずしも測定するというわけではない。むしろ、エネルギーサンプル５２は、若干修正された領域の音声信号のエネルギーを測定し得る。上記の具体的な実施例において、例えば、同じもののハイパスフィルタリングを行った後に得られるように、エネルギーサンプルは、音声信号のエネルギーを測定した。したがって、スペクトル的に低い側の領域での音声信号のエネルギーは、音声信号のスペクトル的により高い構成要素より少ないエネルギーサンプル５２に影響する。しかしながら、また、他の可能性が、同様に存在する。特に、時間的構造解析器２４が、存在する限りの実施例に従ってサンプル時間につき少なくとも１つの時間的構造の大きさ２６の１つの値を単に使用する実施例は、単に１つの実施例であり、かつ、複数のスペクトル帯域のスペクトル帯域につき少なくとも１つの時間的構造の大きさの１つの値を得るために、代替物がどの時間的構造解析器がスペクトル的に識別可能な態様で時間的構造の大きさを決定するかに応じて存在することは、留意すべきである。従って、時間領域３６、すなわちこの種のスペクトル帯域につき１つ、の中で決定されるように、時間的構造解析器２４は、それから現行フレーム３４ａのための少なくとも一つの時間的構造の大きさ２６の１値以上をコントローラ２８に与え、スペクトル帯域の分割は、例えば、スペクトログラム３２の全てのスペクトル間隔にわたっている。

【0114】

図７は、装置１０およびハーモニックプレ／ポストフィルタアプローチに従ってハーモニックフィルタツール３０をサポートしている音声コーデックの使用を示す。図７は、変換ベースのエンコーダ７０とともに変換ベースのデコーダ７２を示し、エンコーダ７０は、音声信号１２をデータストリーム７４に符号化し、デコーダ７２は、７６で示すようにスペクトル領域の、または、任意には、７８で示される時間領域の音声信号を再構成するためにデータストリーム７４を受信する。エンコーダおよびデコーダ７０および７２が、別々の／分離した存在物であって、並行して単に説明の便宜上図７に示されることは、明らかでなければならない。

【0115】

変換ベースのエンコーダ７０は、音声信号１２を変換する変換器８０を具備する。変換器８０は、オーバーラップ変換、その中の臨界的にサンプリングされたオーバーラップ変換、その例は、MDCTである、が使用され得る。図７の実施例において、変換ベース音声エンコーダ７０も、変換器８０による出力として音声信号のスペクトルをスペクトル的に形成するスペクトル形成器８２を含む。スペクトル形成器８２は、スペクトル知覚関数の実質的に逆である伝達関数に従って音声信号のスペクトルをスペクトル的に形成し得る。スペクトル知覚関数は、線形予測として導出され得て、このように、スペクトル知覚関数に関する情報は、線スペクトル周波数値の、例えば量子化された線スペクトル対の形で、例えば線形予測係数の形で、データストリーム７４内で、デコーダ７２に伝達され得る。あるいは、知覚モデルは、スケーリング係数、スケーリング係数帯域につき１つのスケーリング係数、の形でスペクトル知覚関数を決定するために使用され得る。そして、スケーリング係数帯域が、例えば、バーク帯域と一致し得る。エンコーダ７０も、例えば、すべてのスペクトル線に対し等しい量子化機能を有するスペクトル的に形成されたスペクトルを量子化する量子化器８４を含む。このようにして、スペクトル的に形成され量子化されたスペクトルは、デコーダ７２にデータストリーム７４内で伝送される。

【0116】

完全性のみのために、変換器８０およびスペクトル形成器８２間の順序が、説明の便宜のみのために、図７において選択される点に留意する必要がある。理論的に、スペクトル形成器８２は、時間領域、すなわちアップストリーム変換器８０の中で実際にスペクトル形成の原因となり得る。更に、スペクトル知覚機能を決定するために、図７において特に示されないにもかかわらず、スペクトル形成器８２は、時間領域における音声信号１２にアクセスできた。デコーダの側で、デコーダ７２は、スペクトル形成器８２の変換関数の逆でデータストリーム７４から得られたように入力されスペクトル的に形成され量子化されたスペクトルを形成するように構成されたスペクトル形成器８６を含むものとして、すなわち、任意の逆変換器８８により支援されたスペクトル知覚関数を実質的に有するように、図７において示される。逆変換器８８は、変換器８０と関連して逆変換を実行して、例えば、この目的を達成するために、時間領域エイリアシングキャンセリングを実行するためにオーバーラップ付加プロセスにより支援される変換ブロックベース逆変換を実行し得て、それによって、時間領域の音声信号を再構成する。

【0117】

図７に示したように、ハーモニックプレフィルタは、変換器８０の上流または下流の位置でエンコーダ７０により構成される。例えば、ハーモニックプレフィルタ９０、アップストリーム変換器８０は、伝達関数またはスペクトル形成器８２に加えてハーモニックで音声信号のスペクトルを効果的に減衰するために、フィルタリングに時間領域の中で音声信号１２を従属させ得る。あるいは、ハーモニックプレフィルタは、スペクトル領域内の同じ減衰を実行するか引起こしているこの種のプレフィルタ９２を有する配置されたダウンストリーム変換器８０でもよい。図７に示すように、対応するポストフィルタ９４および９６は、デコーダ７２の範囲内で配置される：プレフィルタ９２の場合には、スペクトル領域内で上流に位置するポストフィルタ９４内で逆変換器８８は、音声信号のスペクトルを逆に形成し、プレフィルタ９２の伝達関数を逆関数化し、プレフィルタ９０が使用される場合、ポストフィルタ９６は、逆変換器８８の下流で、プレフィルタ９０の伝達関数を逆関数化した伝達関数で、時間領域内で再構成された音声信号のフィルタリングを実行する。

【0118】

図７の場合、装置１０は、それぞれのポストフィルタを制御するために、かつデコーダ側でポストフィルタの制御に従って、エンコーダ側でプレフィルタを制御するために、音声コーデックのデータストリーム７４を介してデコーダ側に明確に制御信号９８を伝送することにより、対９０および９６または９２および９４により実現された音声コーデックのハーモニックフィルタツールを制御する。

【0119】

完全性のために、図８は、また、要素８０、８２、８４、８６および８８を含む変換ベース音声コーデックを使用する装置１０の使用を示し、しかしながら、音声コーデックがハーモニックポストフィルタのみのアプローチをサポートするケースを示している。ここで、ハーモニックフィルタツール３０は、スペクトル領域においてハーモニックポストフィルタリングを実行するために、デコーダ７２内で逆変換器８８の上流に位置するポストフィルタ１００により、あるいは、時間領域においてデコーダ７２内でハーモニックポストフィルタリングを実行するために逆変換器８８の下流に位置するポストフィルタ１０２を使用することにより、実現され得る。ポストフィルタ１００および１０２の動作モードは、ポストフィルタ９４および９６の一つと実質的に同様である：これらポストフィルタの目的は、ハーモニックの間の量子化ノイズを減らすことである。装置１０は、データストリーム７４の中で明確な信号伝達によりこれらポストフィルタを制御し、明確な信号伝達が、参照符号１０４を使用している図８に示される。

【0120】

すでに上述されているように、制御信号９８または１０４は、例えば、フレーム３４につき、例えば、定期的に送られる。フレームに関して、同上が必ずしも等しい長さであるというわけではないことに注意されたい。フレーム３４の長さは、変化することもできる。

【0121】

上述の説明、特に図２および３に関するもの、は、どのように、コントローラ２８がハーモニックフィルタツールを制御するかについて可能性を明らかにした。その議論から明らかになったように、少なくとも一つの時間的構造測定が時間領域３６の中で音声信号の平均または最大エネルギーバリエーションを測定するということでもよい。更に、コントローラ２８は、その制御オプションの範囲内で、ハーモニックフィルタツール３０のディセーブルを含んでもよい。これを図９に示す。図９は、チェック結果１２２を得るために、既定の条件が少なくとも一つの時間的構造の大きさおよびハーモニシティの大きさによって満たされるかどうかを調べるように構成される論理回路（以下、ロジックと称す）１２０を含むものとして、コントローラ２８を示す。それはバイナリ特性であって、既定の条件が満たされるか否かを示す。コントローラ２８は、チェック結果１２２に応じてハーモニックフィルタツールをイネーブルとディセーブルとの間で切替わるように構成されるスイッチ１２４から成るものとして、示される。チェック結果１２２が、既定の状態がロジック１２０によって満たされるために承認されたことを示す場合、スイッチ１２４は、制御信号１４として直接状況を示すか、または、スイッチ１２４は、ハーモニックフィルタツール３０のためのある程度のフィルタゲインとともに状況を示す。すなわち、後者の場合において、スイッチ１２４は、完全にハーモニックフィルタツール３０のスイッチを切り、完全にハーモニックフィルタツール３０のスイッチを入れることの間で切替えるのみではなく、フィルタ強度またはフィルタゲインにおいて変化しているいくつかの中間状態に、ハーモニックフィルタツール３０をそれぞれ設定する。その場合、すなわち、スイッチ１２４も完全にスイッチを切り、完全にツール３０のスイッチを入れることとの間で適応し／ハーモニックフィルタツール３０をどこかで制御する場合、スイッチ１２４は、すなわちツール３０を適応させるために、制御信号１４の中間状態を決定するために少なくとも時間的構造の大きさ２６およびハーモニシティの大きさ２２に依存し得る。換言すれば、スイッチ１２４は、大きさ２６および２２に基いて、また、ハーモニックフィルタツール３０を制御するためのゲイン要素または適合要素を決定し得る。あるいは、スイッチ１２４は、ハーモニックフィルタツール３０、音声信号１２のオフ状態を直接に示していない制御信号１４のすべての状態を使用する。チェック結果１２２が既定の条件が満たされないことを示す場合、制御信号１４は、ハーモニックフィルタツール３０のディセーブルを示す。

【0122】

図２および３の前記説明から明らかになったように、既定の条件は、両方の少なくとも一つの時間的構造の大きさが既定の第１の閾値より小さく、かつ、ハーモニシティの大きさが、現行フレームおよび／または先行フレームのために、第２の閾値を越える場合、既定の条件は、満たされ得る。変形例が、存在することもできる：ハーモニシティの大きさが、現行フレームのために、第３の閾値を越える場合、既定の条件は、さらに、満たされることができる、そして、ハーモニシティの大きさは、現行フレームおよび／または先行フレームのために、ピッチラグの増加とともに減少する第４の閾値を越える。

【0123】

特に、図２および３の実施例で、既定の条件が満たされる３つの変形例が実際に存在した。そして、変形例が少なくとも一つの時間的構造の大きさに依存している：

【0124】

1. １つの時間的構造の大きさ＜現行および先行フレームのための閾値および複合化されたハーモニシティ＞第２の閾値；
2.
１つの時間的構造の大きさ＜第３の閾値および（現行または先行フレームのためのハーモニシティ）＞第４の閾値；
3.
（１つの時間的構造の大きさ、＜第５の閾値またはすべての時間の大きさ＜閾値）および現行フレームのためのハーモニシティ＞第６の閾値。

【0125】

このように、図２および図３は、ロジック１２４のための可能な実施例を示す。

【0126】

図１から３までに関して上述されたように、装置１０が音声コーデックのハーモニックフィルタツールを制御するために用いられるだけでないことは可能である。むしろ、装置１０は、トランジェント検出と並行して、トランジェント検出のみならずハーモニックフィルタツールの制御の両方を実行可能なシステムを形成し得る。図１０は、この可能性を示す。図１０は、装置１０およびトランジェント検出器１５２から成るシステム１５０を示し、かつ、装置１０が上記で議論したように制御信号１４を出力すると共に、トランジェント検出器１５２は、音声信号１２におけるトランジェントを検出するように構成される。こうするために、しかしながら、トランジェント検出器１５２は、装置１０内で発生する中間的な結果を利用する：トランジェント検出器１５２は、その検出のために、エネルギーサンプル５２が一時的に、または、スペクトル時間的に音声信号のエネルギーをサンプルするその検出を使用する、または、あるいは、しかしながら、選択自由に、例えば、現在のフレーム３４ａ内の時間領域３６よりも時間領域内のエネルギーサンプルを推定する。これらのエネルギーサンプルに基いて、トランジェント検出器１５２は、トランジェント検出を実行し、検出信号１５４として検出されるトランジェントを示す。上記の例の場合には、過渡検出信号は、実質的に、式４の条件が満たされる、すなわち、時間的に連続的なエネルギーサンプルのエネルギー変化が若干の閾値を上回る位置を示した。

【0127】

上記の議論から明らかになりもしたので、図８において表されるもののような変換ベースのエンコーダ、または、変換コード化励起エンコーダは、変換ブロックおよび／または過渡検出信号１５４に依存するオーバーラップ長を切換えるために、図１０のシステムを含み、または使用し得る。更に、付加的に、または、代わりに、図１０のシステムを含んでいるまたは使用しているオーディオ（音声）エンコーダは、切換モードタイプでもよい。例えば、ＵＳＡＣおよびＥＶＳは、モード間の切換を使用する。このように、この種のエンコーダは、変換コード化された励起モードと符号化励起線型予測モードとの間で切換わることをサポートするように構成され得て、エンコーダは、図１０のシステムのトランジェント検出信号１５４に依存している切換えを実行するように構成され得る。変換符号化励起モードに関する限り、変換ブロックおよび／またはオーバーラップ長を切替えることは、再び、トランジェント検出信号１５４に依存していることがあり得る。

【0128】

前記実施例の効果のための実施例

【0129】

実施例１：

【0130】

ＬＴＰ決定のための時間の大きさが算出される領域のサイズは、ピッチ（式（８）参照）に依存しており、そして、この領域は、変換長のための時間の大きさが算出される（通常現在のフレームおよび先読み）領域とは異なる。

【0131】

図１１の実施例において、トランジェントは、時間の大きさが算出される領域の内側に存在して、このようにＬＴＰ決定に影響する。上記したように、動機付けは、現行フレームのためのＬＴＰが、「ピッチラグ」を意味する部分から過去のサンプルを利用して、トランジェントの一部に到達するということである。

【0132】

図１２の実施例において、トランジェントは、時間の大きさが算出される領域の外に存在して、このようにＬＴＰ決定に影響しない。以前の図と異なり、現行フレームのためのＬＴＰがトランジェントに達しなかったので、これは合理的である。

【0133】

両方の実施例（図１１および図１２）において、変換長構成は、現行フレーム、すなわち「フレーム長」でマークされた領域の範囲内のみで時間の大きさに基づき決定される。これは、両方の実施例で、トランジェントが現行フレームで検出されるというわけではなく、そして、好ましくは、（多くの連続した短い変換の代わりに）単一の長い変換が使用されることを意味する。

【0134】

実施例２：

【0135】

ここで、我々は、ハーモニック信号の範囲内でインパルスおよびステップトランジェントのためのＬＴＰの挙動について述べ、それについて、１つの実施例は、図１３の信号のスペクトログラムによって与えられ、符号化する際に、信号は、（ＬＴＰ決定が、ピッチゲインのみに基づくので）完全な信号のためのＬＴＰを含み、出力のスペクトログラムは、図１４に示されるように見える。

【0136】

スペクトログラムが図１４に存在する、信号の波形は、図１５に示される。図１５も、ロウパス（ＬＰ）フィルタリングされかつハイパス（ＨＰ）フィルタリングされた同じ信号を含む。ＬＰフィルタリングされた信号において、ハーモニック構造は、より明確になり、ＨＰフィルタリングされた信号において、インパルス状のトランジェントの位置およびその軌跡は、より明白である。完全な信号、ＬＰ信号およびＨＰ信号のレベルは、プレゼンテーションのために図において修正される。

【0137】

短いインパルス状のトランジェント（図１３における最初のトランジェントのような）のために、長期予測は、図１４および図１５に見られるように、トランジェントの反復を生じる。ステップ状の長いトランジェント（図１３における第２のトランジェントのように）の間長期予測を使用することは、トランジェントが長期のために充分強いので、いかなる付加的な歪も導かず、そしてこのことは、長期予測を使用して生成された信号の部分をマスクする（同時のおよびポストマスキング）。決定メカニズムは、（予測の利益を利用するために）ステップ状のトランジェントのためのＬＴＰをイネーブルにし、（アーチファクトを防止するために）短いインパルス状のトランジェントのためのＬＴＰをディセーブルにする。

【0138】

【0139】

実施例３：
しかしながら、場合によっては、時間の大きさの使用は、不利であり得る。図１８におけるスペクトログラムおよび図１９における波形は、Fatboy Slimによる「Ｋａｌｉｆｏｒｎｉａ」の始めから、約３５ミリ秒の抜粋を示す。それがエネルギーの大きな時間的変動を検出するにつれて、時間平坦性の大きさに、および、最大エネルギー変化に依存するＬＴＰ決定は、この種の信号のためのＬＴＰをディセーブルにする。

【0140】

このサンプルは、低ピッチ信号を形成するトランジェントおよびパルス列の間のあいまいさの例である。

【0141】

同じ信号から６００ミリ秒を抜粋する、図２０に見られるように、信号が、存在し、信号は、繰り返された非常に短いインパルス状のトランジェント（スペクトログラムが、短時間長ＦＦＴを使用して生成される）を含む。

【0142】

【0143】

このように、前記実施例は、とりわけ、例えば、音声符号化のためのより良好なハーモニックフィルタ決定のための概念を明らかにした。前記概念からのわずかな逸脱が可能であることは、ついでに再述されなければならない。特に、上記の如く、音声信号１２は、会話または音楽信号でもよく、ピッチ推定、ハーモニシティ測定または時間的構造解析または測定の目的で、信号１２の前処理バージョンにより置き換えられ得る。また、時間またはスペクトル領域において、ピッチ推定は、ピッチラグの測定値に限られ得ることができないが、当業者に公知でなければならないので、基本周波数の測定値により実行されることもでき、そして、それは式、例えば「ピッチラグ＝サンプリング周波数／ピッチ周波数」）を介して等価なピッチラグに容易に変換され得る。このように、一般的に言って、ピッチ推定器１６は、次に、ピッチ－ラグおよびピッチ周波数における目録それ自体である音声信号のピッチを推定する。

【0144】

若干の態様が装置の文脈で記載されていたにもかかわらず、これらの態様も対応する方法の説明を表すことは明らかであり、ここで、１ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で記載されている態様は、対応する装置の対応するブロックまたは部材または特徴の説明をも表す。方法ステップのいくつかまたは全ては、ハードウェア装置、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路等、によって、または使用によって、実行され得る。いくつかの実施形態では、最も重要な方法ステップのいくつかの一つ以上は、この種の装置によって実行され得る。

【0145】

本願発明の符号化された音声信号は、デジタル記憶媒体上に保存され得るか、または、例えばインターネット等の無線伝送媒体または有線伝送媒体等の伝送媒体上に送信され得る。

【0146】

特定の実施要件に応じて、本願発明の実施例は、ハードウェアにおいて、または、ソフトウェアにおいて実施され得る。実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕ―Ｒａｙ（登録商標）、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して実行され得て、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する（または協同し得る）。従って、デジタル記憶媒体は、計算機可読でもよい。

【0147】

本願発明による若干の実施例は、本願明細書において記載されている方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協同することができる、電子的に読み込み可能な制御信号を有するデータ担体を含む。

【0148】

通常、本願発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実施され得て、コンピュータプログラム製品がコンピュータで動くときに、プログラムコードが方法のうちの１つを実行するために作動している。プログラムコードは、機械可読担体に、例えば格納され得る。

【0149】

他の実施例は、本願明細書において記載されていて、機械可読担体に格納される方法のうちの１つを実行するためのコンピュータプログラムを含む

【0150】

換言すれば、本願発明の方法の実施例は、従って、コンピュータプログラムがコンピュータで動くとき、本願明細書において記載されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

【0151】

本願発明の方法の更なる実施例は、従って、その上に記録されて、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを含むデータ担体（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データ担体、デジタル記憶媒体または記録媒体は、典型的に有形、および／または、非遷移である。

【0152】

本願発明の方法の更なる実施例は、従って、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を、例えばインターネットを経て転送されるように例えば構成され得る。

【0153】

更なる実施例は、本願明細書において記載されている方法の１つを実行するように構成され、あるいは適合された処理手段、例えばコンピュータまたはプログラマブルロジック装置を具備している。

【0154】

更なる実施例は、本願明細書において記載されている方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを具備している。

【0155】

本願発明による更なる実施例には、レシーバに本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを転送する（例えば、電子的に、または、光学的に）ように構成される装置またはシステムが具備されている。レシーバは、例えば、コンピュータ、モバイル機器、メモリデバイス等でもよい。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含み得る。

【0156】

いくつかの実施形態では、プログラム可能なロジック装置（例えばフィールドプログラマブルゲートアレイ）は、本願明細書において記載されている方法の機能のいくつかまたは全てを実行するために使用され得る。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書において記載されている方法のうちの１つを実行するために、マイクロプロセッサと協同することができる。通常、方法は、いかなるハードウェア装置によっても好ましくは実行される。

【0157】

上記した実施例は、本発明の原理のために、単に図示するだけである。
配置の修正および変更および本願明細書において記載されている詳細は、他の当業者にとって明らかであるものと理解される。従って、未決の特許請求の範囲だけによって、そして、本願明細書において実施例の記述および説明として示される具体的な詳細のみでないことによって制限されることが、意図される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12】

【図13】

【図14】

【図15】

【図16】

【図17】

【図18】

【図19】

【図20】

【図21】

【手続補正書】

【提出日】2022-11-14

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

音声コーデックのハーモニックフィルタツールのハーモニシティに依存した制御を実行するための装置であって、
音声信号のハーモニシティの大きさを決定するように構成されるハーモニシティ測定器と、
前記音声信号の時間的構造の特徴を測定する少なくとも１つの時間的構造の大きさを決定するように構成される時間的構造解析器と、
前記時間的構造の大きさおよび前記ハーモニシティの大きさに応じて前記ハーモニックフィルタツールを制御するように構成されるコントローラと
を備える、装置。

【請求項2】

前記ハーモニシティ測定器は、前記音声信号の正規化された相関あるいは前記音声信号のピッチラグにおいて、またはその周辺で、前記音声信号の正規化された相関のプレ修正済みバージョンを計算することにより、前記ハーモニシティの大きさを決定するように構成される、請求項１に記載の装置。

【請求項3】

前記音声信号のピッチを決定するように構成されるピッチ推定器をさらに備える、請求項１に記載の装置。

【請求項4】

前記ピッチ推定器は、第１のステージにおいて、第１のサンプリングレートのダウンサンプリングされた領域での前記ピッチの予備推定を決定するとともに、第２のステージにおいて、前記第１のサンプリングレートより高い第２のサンプリングレートでの前記ピッチの予備推定をリファインする、請求項３に記載の装置。

【請求項5】

前記ピッチ推定器は、自己相関を使用して前記ピッチを決定するように構成される、請求項３に記載の装置。

【請求項6】

前記時間的構造解析器は、前記ピッチ（１８）に応じて時間的に配置された時間領域の中で前記少なくとも１つの時間的構造の大きさを決定するように構成される、請求項３に記載の装置。

【請求項7】

前記時間的構造解析器は、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に過去を向く端部を前記ピッチに応じて配置するように構成される、請求項６に記載の装置。

【請求項8】

前記時間的構造解析器は、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に過去を向く端部が、前記ピッチの減少に伴って単調に増加する時間量分、過去の方向に移動されるように、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に過去を向く端部を配置するように構成される、請求項３に記載の装置。

【請求項9】

前記時間的構造解析器は、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に過去を向く端部から現在のフレームの時間的に未来を向く端部まで延びる時間的候補領域内での前記音声信号の時間的構造に依存して、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に未来を向く端部を配置するように構成される、請求項７に記載の装置。

【請求項10】

前記時間的構造解析器は、前記時間領域または前記時間的構造の大きさの決定に対する影響がより高い領域の時間的に未来を向く端部を配置するために、振幅または前記時間的候補領域内の最大エネルギーサンプルおよび最小のエネルギーサンプル間の比率を使用するように構成される、請求項９に記載の装置。

【請求項11】

前記コントローラ（２８）は、
前記少なくとも１つの時間的構造の大きさおよび前記ハーモニシティの大きさが既定の条件を満たしているかどうかをチェックしてチェック結果を得るように構成される論理回路と、
前記チェック結果に依存して前記ハーモニックフィルタツールのイネーブルおよびディセーブルの間で切り替えるように構成されるスイッチと
を含む、請求項１に記載の装置。

【請求項12】

前記少なくとも１つの時間的構造の大きさは前記時間領域内での前記音声信号の平均または最大エネルギー変化を測定し、前記論理回路は、
前記少なくとも１つの時間的構造の大きさが既定の第１の閾値より小さく、かつ、前記ハーモニシティの大きさが、現在のフレームおよび／または前のフレームについて、第２の閾値を越える、の両方を満たす場合、前記既定の条件を満たすように構成される、
請求項１１に記載の装置。

【請求項13】

前記論理回路は、前記ハーモニシティの大きさが現在のフレームについては第３の閾値を越え、かつ、前記ハーモニシティの大きさが現在のフレームおよび／または前のフレームについては、前記音声信号のピッチラグの増大に伴って減少する第４の閾値を越える場合にも、前記既定の条件が満たされるように構成される、請求項１２に記載の装置。

【請求項14】

前記コントローラは、
音声コーデックのデータストリームを介して制御信号を復号側に明確にシグナリングすること、または、
音声コーデックのデータストリームを介して制御信号を復号側に明確にシグナリングして前記復号側でポストフィルタを制御し、かつ前記復号側での前記ポストフィルタの制御に即して、符号化側でプレフィルタを制御すること
によって、前記ハーモニックフィルタツールを制御するように構成される、請求項１に記載の装置。

【請求項15】

前記時間的構造解析器は、前記少なくとも１つの時間的構造の大きさをスペクトル識別的に決定して、複数のスペクトル帯域のうちのスペクトル帯域ごとに１つ、前記少なくとも１つの時間的構造の大きさの値を取得するように構成される、請求項１に記載の装置。

【請求項16】

前記コントローラは、フレーム単位で前記ハーモニックフィルタツールを制御するように構成され、前記時間的構造解析器は音声信号のエネルギーを前記フレームのフレーム率より高いサンプルレートでサンプリングして前記音声信号のエネルギーサンプルを取得して、前記エネルギーサンプルに基づいて前記少なくとも１つの時間的構造の大きさを決定するように構成される、請求項１に記載の装置。

【請求項17】

前記時間的構造解析器は、前記音声信号のピッチに応じて時間的に配置された時間領域内の前記少なくとも１つの時間的構造の大きさを決定するように構成され、また前記時間的構造解析器は、前記時間領域内の前記エネルギーサンプルのうちの直ちに連続するエネルギーサンプルの対の間での変化を測定するエネルギー変化値のセットを計算し、前記エネルギー変化値のセットを、各々が前記エネルギー変化値のセットのうちの厳密に１つに依存する最大値演算子または加数の総和を含むスカラー関数に掛けることによって、前記少なくとも１つの時間的構造の大きさを前記エネルギーサンプルに基づいて決定するように構成される、請求項１６に記載の装置。

【請求項18】

前記時間スペクトル解析器は、ハイパスフィルタリングされた領域内で前記音声信号のエネルギーのサンプリングを実行するように構成される、請求項１６に記載の装置。

【請求項19】

前記ピッチ推定器、前記ハーモニシティ測定器および前記時間的構造解析器は、元の音声信号および元の音声信号をプレ修正したバージョンをいくつか含む前記音声信号の異なるバージョンに基づいて決定を実行する、請求項３に記載の装置。

【請求項20】

前記コントローラは、前記ハーモニックフィルタツールを制御する際に、前記時間的構造の大きさおよび前記ハーモニシティの大きさに依存して、
前記ハーモニックフィルタツールのプレフィルタおよび／またはポストフィルタの有効化と無効化とを切り替える、または
前記ハーモニックフィルタツールの前記プレフィルタおよび／または前記ポストフィルタのフィルタ強度を漸次適合させるように構成され、
ここで前記ハーモニックフィルタツールは、プレフィルタおよびポストフィルタアプローチからなり、かつ、前記ハーモニックフィルタツールの前記プレフィルタは前記音声信号のピッチの高調波内の量子化ノイズを増加させるように構成され、また、前記ハーモニックフィルタツールの前記ポストフィルタは、送信されたスペクトルをそれに従って再成形するように構成される、または、前記ハーモニックフィルタツールはポストフィルタのみのアプローチからなり、かつ、前記ハーモニックフィルタツールの前記ポストフィルタは前記音声信号の前記ピッチの高調波間に発生している量子化ノイズをフィルタリングするように構成される、
請求項１に記載の装置。

【請求項21】

ハーモニックフィルタツールと、ハーモニシティに依存した前記ハーモニックフィルタツールの制御を実行するための請求項１に記載の装置とを含む、オーディオエンコーダまたはオーディオデコーダ。

【請求項22】

ハーモニックフィルタツールのハーモニシティに依存した制御を実行するための請求項１６に記載の装置と、
音声コーデックがエネルギーサンプルに基づいて処理する音声信号のトランジェントを検出するように構成されたトランジェント検出器と
を含むシステム。

【請求項23】

請求項２２に記載のシステムを含み、検出された前記トランジェントに応じて変換ブロックおよび／またはオーバーラップ長を切換えるように構成される、変換ベースエンコーダ。

【請求項24】

請求項２２に記載のシステムを含み、前記検出されたトランジェントに応じて、変換符号化励起モードと符号励起線形予測モードとの切り替えをサポートするように構成される、オーディオエンコーダ。

【請求項25】

前記検出されたトランジェントに応じて前記変換符号化励起モードにおける変換ブロックおよび／またはオーバーラップ長を切り替えるように構成される、請求項２４に記載のオーディオエンコーダ。

【請求項26】

音声コーデックのハーモニックフィルタツールのハーモニシティに依存した制御を実行するための方法であって、
前記音声信号のハーモニシティの大きさを決定するステップと、
前記音声信号の時間的構造の特性を測定する少なくとも１つの時間的構造の大きさを決定するステップと、
前記時間的構造の大きさおよび前記ハーモニシティの大きさに応じて前記ハーモニックフィルタツールを制御するステップと
を含む、方法。

【請求項27】

音声コーデックのハーモニックフィルタツールのハーモニシティに依存した制御を実行するための方法を実行するためにコンピュータプログラムを格納した非一時的デジタル記憶媒体であって、前記方法は、
前記コンピュータプログラムがコンピュータによって実行されるときに、
音声信号のハーモニシティの大きさを決定するステップと、
前記音声信号の時間的構造の特性を測定する少なくとも１つの時間的構造の大きさを決定するステップと、
前記時間的構造の大きさおよび前記ハーモニシティの大きさに応じて、前記ハーモニックフィルタツールを制御するステップと
を含む、非一時的デジタル記憶媒体。

【外国語明細書】

知財求人

青山学院大学 (神奈川県相模原市中央区淵野辺)

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版