特許7385549 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許7385549補償値を用いて音声信号を符号化する装置および方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3a
3b
3c
4
5
6
7
8a
8b
9
10
11a
11b
11c

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-11-14

(45)【発行日】2023-11-22

(54)【発明の名称】補償値を用いて音声信号を符号化する装置および方法

(51)【国際特許分類】

G10L 19/02 20130101AFI20231115BHJP

G10L 21/0388 20130101ALI20231115BHJP

G10L 19/00 20130101ALI20231115BHJP

【ＦＩ】

G10L19/02 160A

G10L19/02 150

G10L21/0388

G10L19/00 330B

【請求項の数】 24

【外国語出願】

(21)【出願番号】P 2020201431

(22)【出願日】2020-12-04

(62)【分割の表示】P 2019510950の分割

【原出願日】2017-08-21

(65)【公開番号】P2021047441

(43)【公開日】2021-03-25

【審査請求日】2021-01-03

(31)【優先権主張番号】16185398.1

(32)【優先日】2016-08-23

(33)【優先権主張国・地域又は機関】EP

【前置審査】

(73)【特許権者】

【識別番号】500341779

【氏名又は名称】フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン

(74)【代理人】

【識別番号】100134119

【弁理士】

【氏名又は名称】奥町哲行

(72)【発明者】

【氏名】ディッシュ・ザシャ

(72)【発明者】

【氏名】ロイテルフーバー・フランツ

(72)【発明者】

【氏名】ブーテ・ヤン

(72)【発明者】

【氏名】ムルトラス・マークス

(72)【発明者】

【氏名】エドラー・ベルント

【審査官】大野弘

(56)【参考文献】

【文献】特表２０１３－５３８３７４（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１９／０２

Ｇ１０Ｌ２１／０３８８

Ｇ１０Ｌ１９／００

(57)【特許請求の範囲】

【請求項1】

音声信号（１００）を符号化する装置であって、前記音声信号（１００）が、フレームの時系列を含み、
第１のスペクトル帯域（１８０）の第１の音声データをコア符号化する、コアエンコーダ（１１０）と、
前記第１のスペクトル帯域（１８０）とは異なる、第２のスペクトル帯域（１９０）の第２の音声データをパラメトリックに符号化する、パラメトリックコーダ（１２０）とを備え、前記パラメトリックコーダ（１２０）は、
第１の解析結果（１２２）を取得するために、前記第１のスペクトル帯域（１８０）の前記第１の音声データを解析し、第２の解析結果（１２３）を取得するために、前記第２のスペクトル帯域（１９０）の前記第２の音声データを解析する、解析器（１２１）と、
前記第１の解析結果（１２２）、および前記第２の解析結果（１２３）を用いて補償値（１２５）を計算する補償器（１２４）であって、前記フレームの時系列の以前のフレームの以前の補償値を用いて、前記フレームの時系列の現在のフレームの現在の補償値を計算するように構成される補償器（１２４）と、
前記補償値（１２５）を用いて、前記第２のスペクトル帯域（１９０）の前記第２の音声データからパラメータ（１７０）を計算する、パラメータ計算機（１２６）とを備える、パラメトリックコーダ（１２０）と
を備える、装置。

【請求項2】

前記解析器（１２１）が、前記第１の解析結果（１２２）として第１の定量値を計算し、前記第２の解析結果（１２３）として第２の定量値を計算するように構成され、
前記補償器（１２４）が、前記第１の定量値から、かつ前記第２の定量値から、定量補償値（１２５）を計算するように構成され、
前記パラメータ計算機（１２６）が、前記定量補償値（１２５）を用いて定量パラメータを計算するように構成される、
請求項１に記載の装置。

【請求項3】

前記解析器（１２１）が、前記第１の解析結果（１２２）を取得するために前記第１の音声データの第１の特徴を解析し、前記第２の解析結果（１２３）を取得するために、前記第２のスペクトル帯域（１９０）の前記第２の音声データの、同じ前記第１の特徴を解析するように構成され、
前記パラメータ計算機（１２６）が、第２の特徴を評価することによって、前記第２のスペクトル帯域（１９０）の前記第２の音声データから、前記パラメータ（１７０）を計算するように構成され、前記第２の特徴は、前記第１の特徴とは異なっている、
請求項１または２に記載の装置。

【請求項4】

前記第１の特徴が、前記第１のスペクトル帯域（１８０）内のスペクトル微細構造特徴、もしくはエネルギー分布特徴であり、または
前記第２の特徴が、前記第２のスペクトル帯域（１９０）内のスペクトル値の包絡尺度、あるいはエネルギー関連尺度またはパワー関連尺度である、
請求項３に記載の装置。

【請求項5】

前記第１のスペクトル帯域（１８０）、および前記第２のスペクトル帯域（１９０）が、それぞれ相互に排他的であり、
前記解析器（１２１）が、前記第２のスペクトル帯域（１９０）の前記第２の音声データを用いることなく前記第１の解析結果（１２２）を計算し、かつ前記第１のスペクトル帯域（１８０）の前記第１の音声データを用いることなく前記第２の解析結果（１２３）を計算するように構成される、
請求項１から４のいずれか一項に記載の装置。

【請求項6】

前記パラメトリックコーダ（１２０）が、第３のスペクトル帯域（２０２）の第３の音声データをパラメトリックに符号化するように構成され、
前記第３のスペクトル帯域（２０２）が、前記第２のスペクトル帯域（１９０）よりも高い周波数を有し、
前記補償器（１２４）が、前記第３のスペクトル帯域（２０２）に対する補償値の計算に第３の重み値（ｄ）を使用するように構成され、
前記第３の重み値が、前記第２のスペクトル帯域（１９０）に対する前記補償値（１２５）の計算に用いられた第２の重み値とは異なる、
請求項１から５のいずれか一項に記載の装置。

【請求項7】

前記解析器（１２１）が、前記第２のスペクトル帯域（１９０）の前記第２の音声データの、音調対ノイズ比（ｔｏｎａｌ－ｔｏ－ｎｏｉｓｅｒａｔｉｏ）（４００）をさらに計算するように構成され、
前記補償器（１２４）が、前記第２の音声データの前記音調対ノイズ比（４００）に応じて前記補償値（１２５）を計算するように構成され、その結果、第１の音調対ノイズ比に対する第１の補償値が取得される、または第２の音調対ノイズ比に対する第２の補償値が取得され、前記第１の補償値は、前記第２の補償値よりも大きくなり、前記第１の音調対ノイズ比は、前記第２の音調対ノイズ比よりも大きくなる、
請求項１から６のいずれか一項に記載の装置。

【請求項8】

前記パラメータ計算機（１２６）が、前記第２の音声データから非補償パラメータ（５０２）を計算するように構成され、かつ前記パラメータ（１７０）を取得するために、前記非補償パラメータ（５０２）と前記補償値（１２５）とを結合する（５０３）ように構成される、
請求項１から７のいずれか一項に記載の装置。

【請求項9】

前記第１のスペクトル帯域（１８０）のコア符号化された音声データ（１６０）と、前記パラメータ（１７０）とを出力する、出力インターフェース（１４０）をさらに備える、
請求項１から８のいずれか一項に記載の装置。

【請求項10】

前記補償器（１２４）が、音響心理モデル（１００２）を適用することによって前記補償値（１２５）を決定するように構成され、前記音響心理モデル（１０００）が、前記補償値（１２５）を取得するために、前記第１の解析結果（１２２）と前記第２の解析結果（１２３）とを用いて、前記第１の音声データと前記第２の音声データとの間の音響心理学的不一致を評価するように構成される、
請求項１から９のいずれか一項に記載の装置。

【請求項11】

前記解析器（１２１）が、前記第１の解析結果（１２２）を取得するために、前記現在のフレームの前記第１のスペクトル帯域（１８０）の前記第１の音声データを解析し、前記現在のフレームの第２の解析結果（１２３）を取得するために、前記第２のスペクトル帯域（１９０）の、前記現在のフレームの第２の音声データを解析するように構成され、
前記補償器（１２４）が、前記現在のフレームの前記第１の解析結果（１２２）と、前記現在のフレームの前記第２の解析結果（１２３）とを用いて、前記現在のフレームの補償値（１２５）を計算するように構成され、
前記パラメータ計算機（１２６）が、前記現在のフレームの前記補償値（１２５）を用いて、前記フレームの、前記第２のスペクトル帯域（１９０）の前記第２の音声データから、前記パラメータ（１７０）を計算するように構成される、または
前記パラメトリックコーダ（１２０）が、前記第１の解析結果（１２２）と前記第２の解析結果（１２３）とに基づいて、前記現在のフレームの前記第２のスペクトル帯域（１９０）の前記パラメータ（１７０）が、補償状況の前記補償値（１２５）、または非補償状況の前記補償値（１２５）のいずれを用いて計算されるかを検出する、補償検出器（２１０）をさらに備える、
請求項１から１０のいずれか一項に記載の装置。

【請求項12】

前記パラメトリックコーダ（１２０）が、前記第１の解析結果（１２２）と前記第２の解析結果（１２３）とに基づいて、前記現在のフレームの前記第２のスペクトル帯域（１９０）の前記パラメータ（１７０）が、補償状況の前記補償値（１２５）、または非補償状況の前記補償値（１２５）のいずれを用いて計算されるかを検出する、補償検出器（２１０）を備え、
前記補償検出器（２１０）が、前記第１の解析結果（１２２）と、前記第２の解析結果（１２３）との差分が所定の特徴を有するとき、または前記第２の解析結果（１２３）が所定の特徴を有するときに、前記補償状況を検出するように構成され、
前記補償検出器（２１０）が、前記符号化する装置にパワースペクトルが使用できないとき、もしくは前記現在のフレームが過渡フレーム（２２３）であることが検出されたときは、スペクトル帯域が補償されないことを検出するように構成される、または
前記補償器（１２４）が、前記第１の解析結果（１２２）と第２の解析結果（１２３）との商に基づいて、前記補償値（１２５）を計算するように構成される、
請求項１から１０に記載の装置。

【請求項13】

前記解析器（１２１）が、前記第１の解析結果（１２２）として、スペクトル平坦性尺度（ｓｐｅｃｔｒａｌｆｌａｔｎｅｓｓｍｅａｓｕｒｅ）、波高率、または前記第１のスペクトル帯域（１８０）に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成され、かつ前記第２の解析結果（１２３）として、スペクトル平坦性尺度もしくは波高率、または前記第２のスペクトル帯域（１９０）に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成される、または
前記パラメータ計算機（１２６）が、前記第２の音声データから、スペクトル包絡情報、もしくは利得係数を計算するように構成される、または
前記補償器（１２４）が、前記補償値（１２５）を計算するように構成され、その結果、前記第１の解析結果（１２２）と、前記第２の解析結果（１２３）との間の第１の差分に対して、第１の補償値が取得され、前記第１の解析結果（１２２）と、前記第２の解析結果（１２３）との間の第２の差分に対して、第２の補償値が計算され、前記第１の差分が、前記第２の差分よりも大きく、前記第１の補償値が、前記第２の補償値よりも大きい、
請求項１から１１のいずれか一項に記載の装置。

【請求項14】

前記パラメトリックコーダ（１２０）が、補償検出器（２１０）を備え、
前記解析器（１２１）が、前記第２の音声データからスペクトル傾斜（６０８）を計算するように構成され、
前記解析器（１２１）が、前記第２のスペクトル帯域（１９０）の境界近くに音調成分があるかどうかを調べる（６１６）ように構成され、
前記補償検出器（２１０）が、前記スペクトル傾斜が所定の閾値を下回る（６１０）ときにのみ、もしくは前記スペクトル傾斜が所定の閾値を上回り（６１４）、前記調査（６１６）により前記境界近くに音調成分が存在すると判定された（６１８）ときに、前記補償値（１２５）を用いて前記パラメータ（１７０）を計算すると判定する（６１２）ように構成される、
請求項１３に記載の装置。

【請求項15】

前記第１のスペクトル帯域（１８０）の、符号化された第１の音声データを復号して、符号化されて復号された第１の音声データを取得する、デコーダ（８００）をさらに備え、
前記解析器（１２１）が、前記符号化されて復号された第１の音声データを用いて、前記第１の解析結果（１２２）を計算する（８０１）ように構成され、かつ
符号化するために前記装置に入力された前記音声信号（１００）から来た前記第２の音声データから、前記第２の解析結果（１２３）を計算する（８０２）ように構成される、
請求項１から１４のいずれか一項に記載の装置。

【請求項16】

前記第２のスペクトル帯域（１９０）のパッチング結果をシミュレートする、パッチシミュレータ（８０４）をさらに備え、前記パッチング結果は、コア符号化された音声信号に含まれる、前記第２のスペクトル帯域（１９０）からの少なくとも１つのスペクトル線（３５１、３５２）を含み、
前記解析器（１２１）が、前記第１の音声データ、および前記第２のスペクトル帯域（１９０）からの前記少なくとも１つのスペクトル線（３５１´、３５２´）を用いて前記第１の解析結果（１２２）を計算するように構成され、かつ
符号化するために前記装置に入力された前記音声信号（１００）から来る前記第２の音声データから、前記第２の解析結果（１２３）を計算するように構成される、
請求項１から１５のいずれか一項に記載の装置。

【請求項17】

前記コアエンコーダ（１１０）が、一連の実値スペクトルの前記第１の音声データを符号化するように構成され、
前記解析器（１２１）が、一連のパワースペクトルから前記第１の解析結果（１２２）および前記第２の解析結果（１２３）を計算するように構成され、
パワースペクトルが、符号化するために前記装置に入力された前記音声信号（１００）から計算される、または前記コアエンコーダ（１１０）が使用する実値スペクトルから導出される、
請求項１から１６のいずれか一項に記載の装置。

【請求項18】

前記コアエンコーダ（１１０）が、少なくとも強調開始周波数（３１０）まで拡張するコア帯域で、前記音声信号（１００）をコア符号化するように構成され、
前記コア帯域が、前記第１のスペクトル帯域（１８０）、および前記第１のスペクトル帯域（１８０）と重なり合う少なくとも１つの別のソース帯域（３０２、３０３）を含み、
前記音声信号（１００）が、前記強調開始周波数（３１０）から最大周波数（３５４）まで拡張する強調範囲を有し、前記第２のスペクトル帯域（１９０）、および少なくとも１つの別のターゲット帯域が前記強調範囲に含まれ、前記第２のスペクトル帯域（１９０）と、前記別のターゲット帯域とが互いに重なり合わない、
請求項１から１７のいずれか一項に記載の装置。

【請求項19】

前記強調開始周波数（３１０）が交差周波数であり、コア符号化信号が、前記交差周波数（３１０）に帯域制限される、または、
前記強調開始周波数（３１０）が、インテリジェントギャップ充填（ｉｎｔｅｌｌｉｇｅｎｔｇａｐｆｉｌｌｉｎｇ、ＩＧＦ）開始周波数であり、コア符号化信号が、前記強調開始周波数よりも大きくなる前記最大周波数（３５４）に帯域制限される、
請求項１８に記載の装置。

【請求項20】

前記パラメータ計算機（１２６）が、
前記第２のスペクトル帯域（１９０）の前記第２の音声データに基づいて、前記第２のスペクトル帯域（１９０）の利得係数を計算し、
前記補償値（１２５）として減衰係数を計算し、かつ
補償済み利得係数を前記パラメータ（１７０）として取得するために、前記第２のスペクトル帯域（１９０）の前記利得係数に前記減衰係数を乗じるように構成され、
前記装置が、前記第１のスペクトル帯域（１８０）のコア符号化された音声データ（１６０）、および前記パラメータ（１７０）として前記補償済み利得係数を出力する、出力インターフェース（１４０）をさらに備える、
請求項１から１９のいずれか一項に記載の装置。

【請求項21】

音声信号（１００）を符号化する方法であって、前記音声信号（１００）が、フレームの時系列を含み、
第１のスペクトル帯域（１８０）の第１の音声データをコア符号化（１１０）するステップと、
前記第１のスペクトル帯域（１８０）とは異なる、第２のスペクトル帯域（１９０）の第２の音声データをパラメトリックに符号化する（１２０）ステップとを含み、前記パラメトリックに符号化する（１２０）ステップは、
第１の解析結果（１２２）を取得するために、前記第１のスペクトル帯域（１８０）の前記第１の音声データを解析し、第２の解析結果（１２３）を取得するために、前記第２のスペクトル帯域（１９０）の前記第２の音声データを解析する（１２１）工程と、
前記第１の解析結果（１２２）、および前記第２の解析結果（１２３）を用いて補償値（１２５）を計算する（１２４）工程であって、前記フレームの時系列の以前のフレームの以前の補償値を用いて、前記フレームの時系列の現在のフレームの現在の補償値を計算することを含む、計算する（１２４）工程と、
前記補償値（１２５）を用いて、前記第２のスペクトル帯域（１９０）の前記第２の音声データからパラメータ（１７０）を計算する（１２６）工程と
を含む、方法。

【請求項22】

音声信号（１００）を処理するシステムであって、
請求項１から２０のいずれか一項に記載の、前記音声信号を符号化する装置と、
前記第１のスペクトル帯域（１８０）の符号化された第１の音声データ（１６０）を含む、符号化された音声信号、および前記第２のスペクトル帯域（１９０）の第２の音声データを表す、パラメータ（１７０）を受信する、デコーダとを備え、
前記デコーダは、前記パラメータ（１７０）、および前記第１のスペクトル帯域（１８０）の復号された第１の音声データを用いて、前記第２のスペクトル帯域（１９０）用に合成された音声データを再生成するために、スペクトル強調処理を行うように構成される、システム。

【請求項23】

音声信号（１００）を処理する方法であって、
請求項２１に記載の方法に従って、前記音声信号を符号化するステップと、
前記第１のスペクトル帯域（１８０）の符号化された第１の音声データ（１６０）を含む、符号化された音声信号、および前記第２のスペクトル帯域（１９０）の第２の音声データを表す、パラメータ（１７０）を受信するステップと、
前記パラメータ（１７０）、および前記第１のスペクトル帯域（１８０）の復号された第１の音声データを用いて、前記第２のスペクトル帯域（１９０）用に合成された音声データを再生成するために、スペクトル強調処理を行うステップと、
を含む、方法。

【請求項24】

コンピュータ、またはプロセッサで実行されると、請求項２１または２３に記載の前記方法を行う、コンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声の符号化および復号に関し、特に、帯域幅拡張、あるいはスペクトル帯域複製（ＳＢＲ）またはインテリジェントギャップ充填（ＩＧＦ）などのスペクトル強調技術を用いた、音声符号化／復号に関する。

【背景技術】

【0002】

音声信号の記憶または送信は、厳しいビットレート制限を受けることが多い。過去に非常に低いビットレートしか使用できなかったときは、送信された音声の帯域幅をコーダで大幅に減少させていた。現代の音声コーデックは、今日では帯域幅拡張（ＢＷＥ）法［１－２］を用いて、広帯域信号を符号化することができる。このようなアルゴリズムは、高周波数コンテンツ（ＨＦ）のパラメトリック表示に依存し、これは、ＨＦスペクトル領域への転置（「パッチング」）、およびパラメータ駆動による後処理を適用することによって復号された信号の、低周波数部分（ＬＦ）を符号化した波形から生成される。しかしながら、例えば、いくつかのターゲット領域にコピーされたパッチ内のスペクトル微細構造が、原コンテンツのスペクトル微細構造と大きく異なっている場合は、不快なアーチファクトが生じて、復号された音声信号の知覚的品質が低下する。

【0003】

ＢＷＥスキームでは、所与のいわゆる交差周波数を上回るＨＦスペクトル領域の再構築は、スペクトルパッチングに基づくことが多い。通常、ＨＦ領域は複数の隣接するパッチからなり、これらのパッチはそれぞれ、所与の交差周波数を下回る、ＬＦスペクトルの帯域通過（ＢＰ）領域から供給される。最先端のシステムでは、１組の隣接する副帯域係数をソース領域からターゲット領域にコピーすることによって、フィルタバンク表示内でパッチングが効率的に行われている。次の手順では、エンコーダで測定されて、サイド情報としてビットストリームで送信された元のＨＦ信号の包絡に近似するように、スペクトル包絡が調整される。

【0004】

しかしながら、スペクトル微細構造の不一致が存在することが多く、これがアーチファクトの認知につながる場合がある。通常知られている不一致は、音調性に関するものである。元のＨＦが、やや優位なエネルギーコンテンツを有する音調を含み、音調のスペクトル位置にコピーされるパッチの特徴がノイズの多いものである場合、この帯域通過ノイズは拡大されて、不快なノイズバーストとして聞こえる可能性がある。

【0005】

スペクトル帯域複製（ＳＢＲ）は、現代の音声コーデック［１］に採用されている、よく知られているＢＷＥである。ＳＢＲでは、音調性不一致の問題に、人工的に置き換えた正弦波を挿入することによって対処する。しかしながらこれには、別のサイド情報をデコーダに送信することが必要になり、ＢＷＥデータのビット需要が大きくなる。さらに、後続のブロックのために音調の挿入のオン／オフが切り替えられた場合は、挿入された音調が経時的に不安定になる可能性がある。

【0006】

インテリジェントギャップ充填（ＩＧＦ）は、ＭＰＥＧ－Ｈ３ＤＡｕｄｉｏ、または３ＧＰＰＥＶＳコーデックなどの現代のコーデックの、セミパラメトリック符号化技術を示す。ＩＧＦは、低ビットレート制限によるエンコーダの量子化プロセスによって導入される、スペクトルホールの充填に適合させることができる。通常、ビット配分が制限されていて透過符号化ができない場合は、まず信号の高周波数（ＨＦ）領域にスペクトルホールが出現し、ビットレートが最も低い上部スペクトル範囲全体に次第に影響を及ぼす。デコーダ側では、このようなスペクトルホールは、低周波数（ＬＦ）コンテンツからセミパラメトリック方式で生成された合成ＨＦコンテンツと、別のパラメトリック側情報によって制御される後処理とを用いて、ＩＧＦを介して置換される。

【0007】

ＩＧＦは基本的に、より低い周波数からスペクトル部分（タイルと呼ばれる）をコピーすることによって、かつ利得係数を適用してエネルギーを調整することによって、高周波数スペクトルを充填することに基づいているが、スペクトル微細構造の観点から、原信号において、コピーアッププロセスのソースとして用いられる周波数範囲がその宛先と異なっている場合は、問題となる場合がある。

【0008】

強い知覚的影響を与える可能性があるこのような事例の１つは、音調性の相違である。この音調性不一致は、２つの異なる方法で生じる可能性があり、１つは、強い音調性を有する周波数範囲が、構造的にノイズ様と思われるスペクトル領域にコピーされるためであり、もう１つは逆に、原信号内でノイズが音調成分に置き換わるためである。ＩＧＦにおいて前者の事例は、ほとんどの音声信号が、通常は高周波数に向かうほどよりノイズ様になるためより一般的であり、スペクトル白色化を適用することによって対処され、必要な場合は、どのくらいの白色化が必要かを知らせるパラメータがデコーダに送信される。後者の事例については、波形符号化を介してＨＦ帯域の音調ラインを保存するように、コアコーダの全帯域符号化能力を用いて音調性を訂正することができる。このいわゆる「残存ライン（ｓｕｒｖｉｖｉｎｇｌｉｎｅ）」は、音調性の強さに基づいて選択することができる。波形符号化は、ビットレートの観点からは非常に要求が厳しく、低ビットレートのシナリオでは使用できない可能性が最も高い方法である。さらに、音調成分を符号化するフレームと、符号化しないフレームとの間の切り替えは不快なアーチファクトを引き起こすため、これを防止する必要がある。

【0009】

インテリジェントギャップ充填技術については、欧州特許出願公開第２８３００５４号明細書でさらに開示され説明されている。ＩＧＦ技術は、コアデコーダが処理する同じスペクトル領域で帯域幅拡張を行うことによって、一方では帯域幅拡張の分離に関する問題に対処し、他方ではコア復号化に関する問題に対処する。したがって、フルレートのコアエンコーダ／デコーダが提供され、全音声信号範囲を符号化および復号する。これは、エンコーダ側のダウンサンプラ、およびデコーダ側のアップサンプラを必要としない。その代わりに、処理全体が全サンプリングレート、または全帯域幅領域で行われる。高い符号化利得を得るために、音声信号は、第１のスペクトル部分の第１の組を見つけるために解析され、この音声信号は高分解能で符号化する必要があり、この第１のスペクトル部分の第１の組は、ある実施形態では、音声信号の音調部分を含んでいてもよい。他方では、第２のスペクトル部分の第２の組を構成する、音声信号内の非音調成分、またはノイズが多い成分は、低スペクトル分解能でパラメトリックに符号化される。符号化された音声信号は、次に、第１のスペクトル部分の第１の組のみが、高スペクトル分解能で、波形保存方式で符号化されることを必要とし、さらに第２のスペクトル部分の第２の組が、第１の組から供給された周波数「タイル」を用いて、低分解能でパラメトリックに符号化される。デコーダ側では、全帯域デコーダであるコアデコーダが、波形保存方式で、すなわち追加の周波数再生成があると知ることなく、第１のスペクトル部分の第１の組を再構築する。しかしながら、このようにして生成されたスペクトルには、多数のスペクトルギャップがある。このようなギャップは、その後、一方ではパラメトリックデータを適用する周波数再生成を用いて、他方ではソーススペクトル範囲、すなわちフルレート音声デコーダによって再構築された第１のスペクトル部分を用いて、本発明のインテリジェントギャップ充填（ＩＧＦ）技術で充填される。

【0010】

ＩＧＦ技術は、３ＧＰＰＴＳ２６．４４５Ｖ１３．２．０（２０１６－０６）、ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ、ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎＧｒｏｕｐＳｅｒｖｉｃｅｓａｎｄＳｙｓｔｅｍＡｓｐｅｃｔ、ＣｏｄｅｃｆｏｒＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）、ＤｅｔａｉｌｅｄＡｌｇｏｒｉｔｈｍｉｃＤｅｓｃｒｉｐｔｉｏｎ（ｒｅｌｅａｓｅ１３）にも含まれ開示されている。特に、エンコーダ側に関しては、この参考文献の第５．３．３．２．１１節の「ＩｎｔｅｌｌｉｇｅｎｔＧａｐＦｉｌｌｉｎｇ」が参照され、デコーダ側の実施に対しては、さらに第６節の、特に第６．２．２．３．８節「ＩＧＦＡｐｐｌｙ」、その他第６．２．２．２．９節「ＩＧＦＢｉｔｓｔｒｅａｍＲｅａｄｅｒ」、または第６．２．２．３．１１節「ＩＧＦＴｅｍｐｏｒａｌＦｌａｔｔｅｎｉｎｇ」などの、ＩＧＦ関連の節が参照される。

【0011】

欧州特許出願公開第２３０１０２７号明細書では、帯域幅拡張出力データを生成する装置および方法が開示されている。有声音信号では、計算済みのノイズフロアを低くすることで、元の計算済みノイズフロアと比較して、知覚的な高品質が得られる。結果として生じる音声は、この事例では残響が少なくなる。歯擦音を含む音声信号の場合、ノイズフロアの人工的な増加が、歯擦音に関するパッチング法の欠点をカバーする場合がある。したがって、参考文献では、有声音などの信号に対してノイズフロアを減少させること、および歯擦音などを含む信号に対してノイズフロアを増加させることについて開示されている。異なる信号を区別するために、実施形態ではエネルギー分布データ（例えば、歯擦音パラメータ）を用い、エネルギーのほとんどが、複数または１つの高周波数に位置するかどうか、すなわち音声信号のスペクトル表示が、高周波数に向かって傾斜する増加または減少を示すかどうかを測定する。別の実施では、歯擦音パラメータを生成するために、第１のＬＰＣ係数（ＬＰＣは、線形予測符号のこと）をさらに用いる。

【先行技術文献】

【特許文献】

【0012】

【文献】欧州特許出願公開第２８３００５４号明細書

【文献】欧州特許出願公開第２３０１０２７号明細書

【非特許文献】

【0013】

【文献】３ＧＰＰＴＳ２６．４４５Ｖ１３．２．０（２０１６－０６）、ＴｈｉｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ、ＴｅｃｈｎｉｃａｌＳｐｅｃｉｆｉｃａｔｉｏｎＧｒｏｕｐＳｅｒｖｉｃｅｓａｎｄＳｙｓｔｅｍＡｓｐｅｃｔ、ＣｏｄｅｃｆｏｒＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅｓ（ＥＶＳ）、ＤｅｔａｉｌｅｄＡｌｇｏｒｉｔｈｍｉｃＤｅｓｃｒｉｐｔｉｏｎ（ｒｅｌｅａｓｅ１３）

【発明の概要】

【発明が解決しようとする課題】

【0014】

音声符号化、または音声処理に対する改善した概念を提供することが、本発明の目的である。

【課題を解決するための手段】

【0015】

この目的は、請求項１の音声信号を符号化する装置、請求項２３の音声信号を符号化する方法、請求項２４の音声信号を処理するシステム、請求項２５の音声信号を処理する方法、または請求項２６のコンピュータプログラムによって達成される。

【0016】

音声信号を符号化する装置は、第１のスペクトル帯域の第１の音声データをコア符号化するコアエンコーダと、第１のスペクトル帯域とは異なる、第２のスペクトル帯域の第２の音声データをパラメトリックに符号化するパラメトリックコーダとを備える。特に、パラメトリックコーダは、第１の解析結果を取得するために、第１のスペクトル帯域の第１の音声データを解析し、第２の解析結果を取得するために、第２のスペクトル帯域の第２の音声データを解析する、解析器を備える。補償器は、第１の解析結果および第２の解析結果を用いて、補償値を計算する。さらに、パラメータ計算機が、補償器によって決定された補償値を用いて、第２のスペクトル帯域の第２の音声データからパラメータを計算する。

【0017】

したがって、本発明は、デコーダ側でいくつかのパラメータを用いて行った再構築が、音声信号に必要ないくつかの特徴に対処するかどうかを明らかにするために、通常はソース帯域である第１のスペクトル帯域が、第１の解析結果を得るために解析されるという理解に基づく。同様に、通常はターゲット帯域であり、かつ第１のスペクトル帯域、すなわちソース帯域を用いてデコーダ側で再構築される第２のスペクトル帯域が、第２の解析結果を得るために、解析器によってさらに解析される。したがって、ソース帯域については、ターゲット帯域と同様に、別の解析結果が計算される。

【0018】

次に、これら２つの解析結果に基づいて、補償器が、修正値に対する補償なく取得されるはずであったいくつかのパラメータを変更するために、補償値を計算する。言い換えれば、本発明は、第２のスペクトル帯域のパラメータが元の音声信号から計算されて、第２のスペクトル帯域が計算済みのパラメータを用いて再構築されるように、デコーダに送信される通常の手順とは異なり、その代わりに、一方ではターゲット帯域から計算された補償済みパラメータ、他方では、第１の解析結果と第２の解析結果との両方に依存する補償値を生じさせる。

【0019】

補償済みパラメータの計算は、まず非補償パラメータを計算し、次に、この非補償パラメータを補償値と結合できることによって補償済みパラメータを取得する、あるいは補償済みパラメータは、中間結果として未補償パラメータを得ることなく１回で計算することができる。補償済みパラメータは、次に、エンコーダからデコーダに送信することができ、その後、デコーダは、スペクトル帯域複製、またはインテリジェントギャップ充填、その他補償済みパラメータ値を用いた任意の手順などの、一定の帯域幅拡張技術を適用する。したがって、パラメータが所望のスペクトル帯域拡張結果になるかどうかにかかわらず、一定のパラ―メータ計算アルゴリズムを厳守することに対しては、パラメータ計算に加えて、ソース帯域およびターゲット帯域で信号解析を行うことによって、かつその後に、ソース帯域からの結果と、ターゲット帯域からの結果とに基づいて、すなわち第１のスペクトル帯域と第２のスペクトル帯域とのそれぞれに基づいて補償値の計算を行うことによって、柔軟に対処することができる。

【0020】

好ましくは、解析器、および／または補償器は、音響心理学的不一致を判定する、一種の音響心理モデルを適用する。したがって、実施形態において、補償値の計算は、音調性などのいくつかの信号パラメータの音響心理学的不一致の検出に基づき、補償の手法は、スペクトル帯域利得係数などの他の信号パラメータの修正を介した、知覚的不快感の全体的な最小化に適用される。したがって、異種のアーチファクトをトレードオフすることによって、知覚的にうまくバランスのとれた結果が得られる。

【0021】

「何としても音調性を固定しようとする」従来技術の手法とは対照的に、実施形態ではむしろ、音調性不一致が検出された、問題があるスペクトルの部分に減衰を印加することによるアーチファクトの改善を教示し、これによって音調性不一致に対して、スペクトルエネルギー包絡の不一致をトレードオフする。

【0022】

いくつかの信号パラメータの入力において、知覚的不快さのモデルを含む補償の手法では、単に信号パラメータが適合するのではなく、最良の知覚的適合を得る手法を決定することができる。

【0023】

この手法は、潜在的なアーチファクトの知覚的重要性を重み付けすること、および全体的な欠陥を最小化するために、パラメータの組み合わせを選択することからなる。

【0024】

この手法は、ＭＤＣＴなどの変換に基づいて、ＢＷＥ内で適用されることを主に意図している。それにもかかわらず、本発明の教示は、例えば、同様に直交ミラーフィルタバンク（ＱＭＦ）に基づくシステム内でほぼ適用可能である。

【0025】

この技法を適用し得る１つの可能なシナリオは、インテリジェントギャップ充填（ＩＧＦ）との関係における、ノイズ帯域の検出、およびそれに続く減衰である。

【0026】

実施形態では、音調性不一致の発生を検出すること、および対応するスケーリング係数を減衰させてその影響を低減することによって、生じ得る音調性不一致を処理する。これは、一方では原音のスペクトルエネルギー包絡からの逸脱につながり得るが、他方ではＨＦのノイズの多さを低減することにつながり、知覚的品質を全体的に向上させるのに役立つ。

【0027】

したがって本実施形態は、具体的には、例えば、ソースまたは第１のスペクトル帯域と、ターゲットまたは第２のスペクトル帯域との間にスペクトル微細構造の不一致が存在する場合に、通常は知覚的不快さのモデルによって操作される知覚的品質を、新しいパラメトリック補償技術によって改善する。

【0028】

好ましい実施形態については、添付の図面に照らして以下で説明する。

【図面の簡単な説明】

【0029】

【図1】一実施形態による、音声信号を符号化する装置のブロック図を示す。

【図2】補償検出器を中心とする、符号化する装置のブロック図を示す。

【図3a】ソース範囲、およびＩＧＦまたは帯域幅拡張範囲を有する音声スペクトルの概略図と、ソース帯域と宛先帯域との間の関連するマッピングとを示す。

【図3b】コアエンコーダがＩＧＦ技術を適用し、第２のスペクトル帯域に残存ラインがある、音声信号のスペクトルを示す。

【図3c】第１の解析結果の計算に使用される、第１のスペクトル帯域の、シミュレートされた第１の音声データの図を示す。

【図4】補償器の図をより詳細に示す。

【図5】パラメータ計算機の図をより詳細に示す。

【図6】一実施形態における、補償検出器の機能を図示したフローチャートを示す。

【図7】非補償の利得係数を計算する、パラメータ計算機の機能を示す。

【図8a】符号化されて復号された第１のスペクトル帯域から第１の解析結果を計算するコアデコーダを有する、エンコーダの実施を示す。

【図8b】一実施形態における、エンコーダのブロック図を示し、パッチシミュレータが、第２のスペクトル帯域からシフトした第１のスペクトル帯域幅ラインを生成して、第１の解析結果を取得するように適合されている。

【図9】インテリジェントギャップ充填の実施における、音調性不一致の影響を示す。

【図10】一実施形態における、パラメトリックエンコーダの実施を示す。

【図11a】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストの結果を示す。

【図11b】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストの別の結果を示す。

【図11c】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストのさらに別の結果を示す。

【発明を実施するための形態】

【0030】

図１は、本発明の一実施形態による、音声信号１００を符号化する装置を示す。本装置は、コアエンコーダ１１０と、パラメトリックコーダ１２０とを備える。さらに、コアエンコーダ１１０、およびパラメトリックコーダ１２０は、その入力側がスペクトル解析器１３０に接続され、その出力側が出力インターフェース１４０に接続される。出力インターフェース１４０は、符号化された音声信号１５０を生成する。出力インターフェース１４０は、一方では符号化されたコア信号１６０を受信し、入力ライン１７０においては、第２のスペクトル帯域の少なくとも１つのパラメータ、および通常は、第２のスペクトル帯域のパラメータを含む、完全なパラメータ表示を受信する。さらに、スペクトル解析器１３０は、音声信号１００を第１のスペクトル帯域１８０と、第２のスペクトル帯域１９０とに分離する。特に、パラメータ計算機は、図１に信号解析器として図示されている解析器１２１を備え、解析器１２１は、第１の解析結果１２２を取得するために第１のスペクトル帯域１８０の第１の音声データを解析し、第２の解析結果１２３を取得するために第２のスペクトル帯域１９０の第２の音声データを解析する。第１の解析結果１２２と、第２の解析結果１２３とは、両方とも補償器１２４に提供されて、補償値１２５を計算する。したがって、補償器１２４は、第１の解析結果１２２と、第２の解析結果１２３とを用いて、補償値を計算するように構成される。次に、一方では補償値１２５と、第２のスペクトル帯域１９０からの少なくとも第２の音声データ（第１のスペクトル帯域からの第１のスペクトルデータも同様に使用されてもよい）とが、両方ともパラメータ計算機１２６に提供されて、補償値１２５を用いて、第２のスペクトル帯域の第２の音声データから、パラメータ１７０を計算する。

【0031】

図１のスペクトル解析器１３０は、例えば、個別のスペクトル帯域、またはＭＤＣＴラインを取得するための、単純な時間－周波数変換器にすることができる。したがってこの実施において、スペクトル解析器１３０は、スペクトルデータを取得するために、修正離散コサイン変換（ＭＤＣＴ）を実施する。次に、このスペクトルデータは、一方はコアエンコーダ１１０用のデータ、もう一方はパラメトリックコーダ１２０用のデータに分離するためにさらに解析される。コアエンコーダ１１０用のデータは、少なくとも第１のスペクトル帯域を含む。さらに、コアエンコーダが１つ以上のソース帯域を符号化するときは、コアデータは別のソースデータをさらに含んでもよい。

【0032】

したがって、コアエンコーダは、スペクトル帯域複製技術の場合は、コア符号化される入力データとして、交差周波数よりも低い全帯域幅を受信してもよく、次にパラメトリックコーダが、この交差周波数を上回るすべての音声データを受信する。

【0033】

しかしながら、インテリジェントギャップ充填の枠組みの場合は、コアエンコーダ１１０は、これもスペクトル解析器１３０によって解析される、ＩＧＦ開始周波数を上回るスペクトル線をさらに受信してもよく、その結果、スペクトル解析器１３０は、ＩＧＦ開始周波数を上回るデータをもさらに決定し、ＩＧＦ開始周波数を上回るこのデータは、コアエンコーダによってさらに符号化される。このために、スペクトル解析器１３０は、「音調マスク（ｔｏｎａｌｍａｓｋ）」として実施されてもよく、これについては例えば、３ＧＰＰＴＳ２６．４４５Ｖ１３．０．０（１２）の第５．３．３．２．１１．５節に開示されている「ＩＧＦＴｏｎａｌＭａｓｋ」でも説明されている。このように、コアエンコーダでどのスペクトル成分を送信するべきかを決定するために、スペクトル解析器１３０によって音調マスクが計算される。したがって、すべての有意なスペクトルコンテンツが識別され、その一方で、ＩＧＦを介したパラメトリック符号化によく適するコンテンツは、音調マスクによってゼロに量子化される。スペクトル解析器１３０は、パラメトリック符号化によく適するスペクトルコンテンツをパラメトリックコーダ１２０に転送するが、このデータは例えば、音調マスク処理によってゼロに設定されているデータであってもよい。

【0034】

図２に示す実施形態では、パラメトリックコーダ１２０は、第３のスペクトル帯域の第３の音声データをパラメトリックに符号化して、この第３のスペクトル帯域の別のパラメータ２００を取得するようにさらに構成される。この事例では、解析器１２１は、第３のスペクトル帯域２０２の第３の音声データを解析して、第１の解析結果１２２と第２の解析結果１２３とに加えて、第３の解析結果２０４を取得するように構成される。

【0035】

さらに、図１のパラメトリックコーダ１２０は、少なくとも第３の解析結果２０４を用いて、第３のスペクトル帯域が補償されているかどうかを検出するための、補償検出器２１０をさらに備える。この検出結果は、第３のスペクトル帯域の補償状況の有無を示す、制御ライン２１２によって出力される。制御ライン２１２によって示される通り、第３のスペクトル帯域が補償されていないことを補償検出器が検出すると、パラメータ計算機１２６は、補償値なしで第３のスペクトル帯域の別のパラメータ２００を計算するように構成される。しかしながら、第３のスペクトル帯域が補償されていることを補償検出器が検出した場合は、パラメータ計算機は、補償器１２４によって計算された追加の補償値で、第３の解析結果２００から、第３のスペクトル帯域の別のパラメータ２００を計算するように構成される。

【0036】

好ましい実施形態では、定量補償が適用されると、解析器１２１は、第１の解析結果として第１の定量値１２２を計算し、第２の解析結果として第２の定量値１２３を計算するように構成される。次に、補償器１２４は、第１の定量値から、かつ第２の定量値から、定量補償値１２５を計算するように構成される。最後に、パラメータ計算機が、定量補償値を用いて定量パラメータを計算するように構成される。

【0037】

しかしながら本発明は、定性的な解析結果のみしか得られない場合にも適用可能である。この場合は、定性補償値が計算され、これが次に、一定の非補償パラメータをある程度低下、または上昇させるように、パラメータ計算機を制御する。したがって、両方の解析結果によって、パラメータがある程度増加または減少する場合があり、ある程度の増加または減少は固定されて、いかなる定量的結果にも依存しない。しかしながら、固定された増加／減少の増分の計算はあまり計算集約的ではないが、定量的結果は、固定された増加／減少の増分よりも好ましい。

【0038】

好ましくは、信号解析器１２１は、第１の解析結果を取得するために音声データの第１の特徴を解析し、第２の解析結果を取得するために第２のスペクトル帯域の第２の音声データの、同じ第１の特徴をさらに解析する。これとは逆に、パラメータ計算機は、第２の特徴を評価することによって、第２のスペクトル帯域の第２の音声データからパラメータを計算するように構成され、この第２の特徴は、この第１の特徴とは異なる。

【0039】

例示的に、図２は、第１の特徴が、第１の帯域、第２の帯域、その他任意の帯域などの一定の帯域内のスペクトル微細構造、またはエネルギー分布である状況を示す。これとは逆に、パラメータ計算機によって適用された、またはパラメータ計算機によって決定された第２の特徴は、スペクトル包絡尺度、エネルギー尺度、またはパワー尺度であり、あるいは一般に、帯域内のパワー／エネルギーの絶対的または相対的な尺度を与える、利得係数などの振幅関連尺度である。しかしながら、利得係数の特徴から異なる特徴を測定する他のパラメータは、同様にパラメータ計算機によって計算することができる。さらに、一方は個別のソース帯域、他方は宛先帯域、すなわちそれぞれ第１のスペクトル帯域と、第２のスペクトル帯域との他の特徴は、解析器１２１によって適用し解析することができる。

【0040】

さらに、解析器１２１は、第２のスペクトル帯域１９０の第２の音声データを用いることなく第１の解析結果１２２を計算し、かつ第１のスペクトル帯域１８０の第１の音声データを用いることなく第２の解析結果１２３をさらに計算するように構成され、この実施形態では、第１のスペクトル帯域と第２のスペクトル帯域とは相互に排他的である、すなわち互いに重なり合わない。

【0041】

さらに、スペクトル解析器１３０は、音声信号のフレームを構築するように、または音声サンプルのフレームを取得するために、音声サンプルの入来ストリームを窓処理するようにさらに構成され、隣接するフレームの音声サンプルは互いに重なる。例えば、５０％重なり合う場合は、前のフレームの後半部分が、後のフレームの前半に含まれる、同じ元の音声サンプルから導出された音声サンプルを有し、フレーム内の音声サンプルは、窓処理によって元の音声サンプルから導出される。

【0042】

この場合、音声信号は、例えば、フレームビルダの機能をさらに有する図１のブロック１３０によってさらに提供されるような、フレームの時系列を含み、補償器１２４は、以前のフレームの以前の補償フレーム値を用いて、現在のフレームの現在の補償値を計算するように構成される。これは通常、一種の平滑化処理となる。

【0043】

後で概説するように、図２に示す補償検出器２１０は、これに加えて、またはこれに代えて、符号２２１、２２３で示す、図２の他の機能からのパワースペクトル入力、および過渡入力をそれぞれ含んでもよい。

【0044】

特に、補償検出器２１０は、図１の元の音声信号１００のパワースペクトルが使用可能なときは、パラメータ計算機１２６が使用する補償のみを指示するように構成される。このこと、すなわちパワースペクトルの使用可否については、いくつかのデータ要素またはフラグによって信号が送られる。

【0045】

さらに、補償検出器２１０は、過渡情報ライン２２３が現在のフレームに対して、過渡が存在しないという信号を送ったときは、制御ライン２１２を介してのみ補償処理を可能にするように構成される。したがって、ライン２２３が、過渡が存在するという信号を送ったときは、解析結果にかかわらず、補償処理全体が無効になる。これは当然のことながら、第２のスペクトル帯域に補償を知らせる信号が送られると、第３のスペクトル帯域に適用される。しかしながら、このフレームに対して過渡状況などの状況が検出されると、いくつかのフレームでは、これが第２のスペクトル帯域にも適用される。したがって、この状況により、いくつかの時間フレームに対して、パラメータ補償がまったく行われないようにすることができ、そしてこれは行われないようになる。

【0046】

図３ａは、振幅Ａ（ｆ）、または２乗振幅Ａ^２（ｆ）のスペクトルの図を示す。特に、ＸＯＶＥＲまたはＩＧＦ開始周波数が示されている。

【0047】

さらに、重なり合っている１組のソース帯域が示され、ソース帯域は、第１のスペクトル帯域１８０と、別のソース帯域３０２と、さらに別のソース帯域３０３とを含む。また、ＩＧＦまたはＸＯＶＥＲ周波数を上回る宛先帯域は、例えば、第２のスペクトル帯域１９０、別の宛先帯域３０５、さらに別の宛先帯域３０７、および第３のスペクトル帯域２０２である。

【0048】

通常は、ＩＧＦまたは帯域幅拡張の枠組み内のマッピング機能によって、個々のソース帯域１８０、３０２、３０３と、個々の宛先帯域３０５、１９０、３０７、２０２との間のマッピングを定義する。このマッピングは、３ＧＰＰＴＳ２６．４４５の事例として固定されてもよく、あるいはいくつかのＩＧＦエンコーダアルゴリズムによって、適応的に決定することができる。いずれの場合も、図３ａでは、下の表に、重なり合わない宛先帯域、および重なり合うソース帯域の場合の、宛先帯域とソース帯域との間のマッピングを示し、このマッピングがいくつかのフレームに対して固定される、あるいは適応的に決定されて実際に適応的に決定されているかどうかにかかわりなく、図３ａの上部にスペクトルが示されている。

【0049】

図４は、補償器１２４の実施をより詳細に示す。この実施では、補償器１２４は、第１のスペクトル帯域に対する、スペクトル平坦性尺度、波高率、スペクトル傾斜値、その他任意の種類のパラメトリックデータとすることができる第１の解析結果１２２に加えて、第２のスペクトル帯域に対する解析結果１２３を受信する。この解析結果は、ここでも、第２のスペクトル帯域のスペクトル平坦性尺度、第２のスペクトル帯域の波高率、または傾斜値、すなわち第２のスペクトル帯域に限定したスペクトル傾斜値であってもよく、第１のスペクトル帯域の傾斜値またはスペクトル傾斜値もまた、第１のスペクトル帯域に限定される。また、補償器１２４は、第２のスペクトル帯域の停止線などの、第２のスペクトル帯域のスペクトル情報を受信する。したがって、図２のパラメトリック計算機１２６が、第３のスペクトル帯域２０２の第３の音声データをパラメトリックに符号化するように構成される状況では、第３のスペクトル帯域は、第２のスペクトル帯域よりも高い周波数を含む。これについては、図３ａの例にも図示されており、第３のスペクトル帯域は第２のスペクトル帯域よりも高い周波数にある、すなわち帯域２０２は、帯域１９０よりも高い周波数を有する。この状況では、補償器１２４は、第３のスペクトル帯域に対する補償値の計算に重み値を使用するように構成され、この第３の重み値は、第２のスペクトル帯域に対する補償値の計算に用いられた重み値とは異なる。したがって一般に補償器１２４は、同じ他の入力値に対して、周波数が高いと補償値が小さくなるように、補償値１２５の計算に影響を与える。

【0050】

重み値は、例えば、後で述べるように、第１および第２の解析結果に基づいた補償値の計算に適用される、指数αなどの指数にすることができ、あるいは低い周波数に対してパラメータを計算するときの影響に比べて、高い周波数に異なる影響を与えられる、例えば、乗算値、または加算もしくは減算される値にもすることができる。

【0051】

また、図４に示すように、補償器は、第２のスペクトル帯域の音調対ノイズ比を受信し、第２のスペクトル帯域の第２の音声データの、音調対ノイズ比に依存する補償値を計算する。したがって、第１の音調対ノイズ比に対する第１の補償値が取得される、または第２の音調対ノイズ比に対する第２の補償値が取得され、第１の音調対ノイズ比が第２の音調対ノイズ比よりも大きいときは、第１の補償値は第２の補償値よりも大きくなる。

【0052】

前述したように、補償器１２４は、音響心理モデルを適用することによって補償値をほぼ決定するように構成され、音響心理モデルは、補償値を取得するために、第１の解析結果と第２の解析結果とを用いて、第１の音声データと第２の音声データとの間の音響心理学的不一致を評価するように構成される。音響心理学的不一致を評価するこの音響心理モデルは、後のＳＦＭ計算との関連で後述する、フィードフォワード計算として実施することができ、あるいはその代わりに、合成手順によるある種の解析を適用する、フィードバック計算モジュールにすることができる。さらに、音響心理モデルは、ニューラルネットワークとして、またはどの場合に補償が必要で、どの場合に補償が必要でないかを決定するために、一定のトレーニングデータによって自動的に排出される、類似の構造として実装されてもよい。

【0053】

続いて、図２に示す補償検出器２１０、または概して、パラメータ計算機１２０に含まれる検出器の機能を示す。

【0054】

補償検出器の機能は、第１の解析結果と第２の解析結果との差分が、例えば、図６の６００および６０２におけるように、図示されているような所定の特徴を有するときに、補償状況を検出するように構成される。ブロック６００は、第１の解析結果と第２の解析結果との差分を計算するように構成され、次にブロック６０２は、差分が所定の特徴、または所定の値を有するかどうかを判定する。所定の特徴がないと判定された場合は、次に、符号６０３で示すように、ブロック６０２によって補償が行われないことが判定される。しかしながら、所定の特徴が存在すると判定された場合は、ライン６０４を介して制御が進行する。さらに、検出器は、これに代えて、またはこれに加えて、第２の解析結果が、いくつかの所定の値、またはいくつかの所定の特徴を有するかどうかを判定するように構成される。特徴がないと判定された場合は、次にライン６０５によって、補償が行われないことを知らせる信号が送信される。しかしながら、所定の値があると判定された場合は、ライン６０６を介して制御が進行する。本実施形態では、補償があるかないかを判定するには、ライン６０４および６０６があれば十分と考えられる。しかしながら、図６に示す実施形態では、後述するように、図１の第２のスペクトル帯域１９０の、第２の音声データのスペクトル傾斜に基づいた別の判定が行われる。

【0055】

一実施形態では、解析器は、第１の解析結果として、スペクトル平坦性尺度、波高率、または第１のスペクトル帯域に対する、スペクトル平坦性尺度と波高率との商を計算し、かつ第２の解析結果として、スペクトル平坦性尺度、または波高率、あるいは第２の音声データのスペクトル平坦性尺度と波高率との商を計算するように構成される。

【0056】

このような実施形態では、パラメータ計算機１２６は、第２の音声データから、スペクトル包絡情報、または利得係数を計算するようにさらに構成される。

【0057】

さらに、このような実施形態では、補償器１２４は、補償値１２５を計算するように構成され、その結果、第１の解析結果と第２の解析結果との間の第１の差分に対して第１の補償値が得られ、かつ第１の解析結果と第２の解析結果との差分に対して第２の補償値が計算され、第１の補償値が第２の補償値よりも大きいときは、第１の差分が第２の差分よりも大きい。

【0058】

次に、図６の説明はさらに、補償状況が検出されるかどうかについて、任意に追加判定されることを示している。

【0059】

ブロック６０８において、第２の音声データからスペクトル傾斜が計算される。６１０で示すように、このスペクトル傾斜が閾値を下回ると判定されたときは、６１２に示すように、補償状況であることが肯定され確認される。しかしながら、スペクトル傾斜が所定の閾値を下回らず、閾値を上回ると判定されたときは、この状況を知らせる信号がライン６１４によって送信される。ブロック６１６において、音調成分が、第２のスペクトル帯域１９０の境界近くにあるかどうかが判定される。符号６１８で示すように、境界近くに音調成分があると判定されると、補償状況であることが再度肯定され確認される。しかしながら、境界近くに音調成分が存在しないと判定されると、補償は取り消される、すなわちライン６２０で示すようにオフに切り替えられる。ブロック６１６における判定、すなわち音調成分が境界に近いかどうかの判定は、任意の実施形態で、シフト済みＳＦＭ計算を行うことによってなされる。ブロック６０８で判定されるように、傾斜に急激な減少があるときは、ＳＦＭが計算される周波数領域は、対応するスケール因子帯域（ＳＦＢ）、または第２のスペクトル帯域の幅の半分だけ下方にシフトする。強い傾斜に対しては、ＳＦＭが計算される周波数領域は、第２のスペクトル帯域の幅の半分だけ上方にシフトされる。このようにして、ＳＦＭが低いために、減衰するはずだった音調成分を正しく検出することができ、高いＳＦＭ値に対して減衰が適用されることはない。

【0060】

続いて、図５についてより詳細に説明する。具体的には、パラメータ計算機１２６は、第２のスペクトル帯域、すなわち宛先帯域の音声データから非補償パラメータを計算する、計算機５０１を備えてもよく、パラメータ計算機１２６は、非補償パラメータ５０２と、補償値１２５とを結合する、結合器５０３をさらに備える。この結合は、例えば、非補償パラメータ５０２が利得値で、補償値１０５が定量補償値のときは、乗算であってもよい。しかしながら、結合器５０３によって行われる結合は、あるいは、補償値を指数または加算修正として用いた重み付け処理にすることもでき、補償値は、加算値または減算値として用いられる。

【0061】

さらに、図５に示す実施形態は、非補償パラメータが計算された後に、続いて結合値との結合が行われる唯一の実施形態であることに留意されたい。代替的な実施形態では、補償値は、補償済みパラメータの計算に既に導入しておくことができ、その結果、明示的な非補償パラメータを伴う中間結果は発生しない。その代わりに単一の処理のみが行われ、この「単一の処理」の結果、補償値を用いて、かつ計算アルゴリズムを用いて補償済みパラメータが計算され、補償値１２５がこのような計算に導入されないときは、その計算結果は非補償パラメータになる。

【0062】

図７は、非補償パラメータを計算するために、計算機５０１によって適用される手順を示す。図７に示す「ＩＧＦスケール因子の計算」は、３ＧＰＰＴＳ２６．４４５Ｖ１３．３．３（２０１５／１２）の第５．３．３．２．１１．４節とおおよそ一致する。「複素」ＴＣＸパワースペクトルＰ（スペクトル線の実数部および虚数部が評価されるスペクトル）が使用可能になると、非補償パラメータを計算する図５の計算機５０１は、７００で示すように、パワースペクトルＰから、第２のスペクトル帯域の振幅関連尺度の計算を行う。さらに、計算機５０１は、７０２で示すように、複素スペクトルＰから、第１のスペクトル帯域の振幅関連尺度の計算を行う。また、計算機５０１は、符号７０４で示すように、第１のスペクトル帯域、すなわちソース帯域の実数部から振幅関連尺度の計算を行い、その結果、３つの振幅関連尺度、Ｅ_{ｃｐｌｘ，ｔａｒｇｅｔ}、Ｅ_{ｃｐｌｘ，ｓｏｕｒｃｅ}、Ｅ_{ｒｅａｌ，ｓｏｕｒｃｅ}が得られ、別の利得係数計算機能７０６に入力されて、最終的には、Ｅ_{ｒｅａｌ，ｓｏｕｒｃｅ}をＥ_{ｃｐｌｘ，ｓｏｕｒｃｅ}で割って、Ｅ_{ｃｐｌｘ，ｔａｒｇｅｔ}を乗じたものの関数となる利得係数が得られる。

【0063】

あるいは、複素ＴＣＸパワースペクトルが使用できないときは、図７の下部に示すように、振幅関連尺度は、実際の第２のスペクトル帯域のみから計算される。

【0064】

さらに、ＴＣＸパワースペクトルＰは、例えば、従属節５．３．３．２．１１．１．２に示されているように、次の式に基づいて計算されることに留意されたい。

【0065】

Ｐ（ｓｂ）＝Ｒ^２（ｓｂ）＋Ｉ^２（ｓｂ），ｓｂ＝０，１，２，…，ｎ－１
ここで、ｎは実際のＴＣＸ窓の長さであり、Ｒは、現在のＴＣＸスペクトルの（コサイン変換された）実数値部を含むベクトルであり、Ｉは現在のＴＣＸスペクトルの（サイン変換された）虚数部を含むベクトルである。特に、「ＴＣＸ」という用語は、３ＧＰＰ用語に関するものであるが、通常は、スペクトル解析器１３０が、図１のコアエンコーダ１１０、またはパラメトリックコーダ１２０に提供するような、第１のスペクトル帯域、または第２のスペクトル帯域のスペクトル値のことを言う。

【0066】

図８ａは、好ましい実施形態を示し、信号解析器１２１は、符号化されて再度復号された第１のスペクトル帯域を計算し、そして当然、符号化／復号された第１のスペクトル帯域の音声データを計算する、コアデコーダ８００をさらに備える。

【0067】

次に、コアデコーダ８００は、符号化／復号された第１のスペクトル帯域を、信号解析器８２１に含まれる解析結果計算機８０１に送って、第１の解析結果１２２を計算する。さらに、信号解析器は、図１の信号解析器１２１に含まれる第２の解析結果計算機８０２を備え、計算済みの第２の解析結果１２３を計算する。したがって、信号解析器１２１は、符号化して再度復号した第１のスペクトル帯域を用いて、実際の第１の解析結果１２２が計算されるように構成され、第２の解析結果は、元の第２のスペクトル帯域から計算される。したがって、解析結果計算機８０１への入力が、デコーダで使用可能な、第１のスペクトル帯域の復号された第１の音声データに含まれる量子化誤差を既にすべて有しているので、デコーダ側の状況は、エンコーダ側で良好にシミュレートされる。

【0068】

図８ｂは、信号解析器の好ましい別の実施を示し、これは、図８ａの手順に代えて、あるいは図８ａの手順に加えて、パッチシミュレータ８０４を有する。パッチシミュレータ８０４は、ＩＧＦエンコーダの機能を具体的に認識する、すなわち、コアエンコーダによって実際に符号化される第２の宛先帯域内に、複数の線、または少なくとも１つの線があり得ることを認識する。

【0069】

具体的には、この状況は図３ｂに示されている。
図３ｂは、図３ａの上図と同様に、第１のスペクトル帯域１８０と、第２のスペクトル帯域１９０とを示している。しかしながら、図３ａで述べたことに加えて、第２のスペクトル帯域は、第２のスペクトル帯域内に含まれる特定の線３５１、３５２を含み、これはスペクトル解析器１３０によって、第１のスペクトル帯域１８０に加えて、コアエンコーダ１１０によってさらに符号化される線として決定されたものである。

【0070】

ＩＧＦ開始周波数３１０を上回る、いくつかの線のこの特定の符号化は、コアエンコーダ１１０が、ＩＧＦ開始周波数よりも高くなる、最大ｆ_ｍａｘ３５４のナイキスト周波数を有する全帯域エンコーダであるという状況を反映している。これは、交差周波数が最大周波数でもあり、したがってコアエンコーダ１１０のナイキスト周波数でもある、ＳＢＲ技術に関連する実施とは対照的である。

【0071】

テストシミュレータ８０４は、コアデコーダ８００から、第１のスペクトル帯域１８０、または符号化された第１のスペクトル帯域のいずれかを受け、さらに、スペクトル解析器１３０、またはコアエンコーダ１１０からの情報を受け、コアエンコーダ出力信号に含まれる、第２のスペクトル帯域に実際のラインがある。これについては、スペクトル解析器１３０が、ライン８０６を介して信号を送る、またはライン８０８を介してコアエンコーダが信号を送る。ここでパッチシミュレータ８０４は、４つのスペクトル帯域の単純な第１の音声データを用いることによって、かつ線３５１、３５２を第１のスペクトル帯域にシフトさせて、第２のスペクトル帯域から線３５１、３５２を第１のスペクトル帯域に挿入することによって、第１のスペクトル帯域の第１の音声データをシミュレートする。したがって、線３５１´および３５２´は、図３ｂの線３５１、３５２を第２のスペクトル帯域から第１のスペクトル帯域にシフトさせることによって得られたスペクトル線を表す。好ましくは、スペクトル線３５１、３５２は、第１のスペクトル帯域に対しては、帯域境界内にあるこれらの線の位置が、両方の帯域で同一になる、すなわち線と帯域境界との間の差周波数が、第２のスペクトル帯域１９０、および第１のスペクトル帯域１８０と同一になるように生成される。

【0072】

したがって、パッチシミュレータは、図３ｃに示す、シミュレートされたデータ８０８を出力し、これは、単純な第１のスペクトル帯域のデータを有し、これに加えて、第２のスペクトル帯域から第１のスペクトル帯域にシフトされた線を有する。ここで、解析結果計算機８０１は、特定のデータ８０８を用いて第１の解析結果１０２を計算し、解析結果計算機８０２は、第２のスペクトル帯域の元の第２の音声データ、すなわち図３ｂに示す、線３５１、３５２を含む元の音声データから、第２の解析結果１２３を計算する。

【0073】

パッチシミュレータ８０４を用いたこの手順には、追加の線３５１、３５２に、例えば、音調性の高さその他の一定の条件を、入力する必要がないという利点がある。その代わりに、第２のスペクトル帯域のいくつかの線が、コアエンコーダによって符号化されるかどうかを判定するのは、完全にスペクトル解析器１３０、またはコアエンコーダ１１０次第となる。しかしながら、この処理の結果は、図８ｂに示すように、これらの線を第１の解析結果１２２の計算に対する追加の入力として用いることによって、自動的に計算される。

【0074】

続いて、インテリジェントギャップ充填の枠組み内の、音調性不一致の影響が図示される。

【0075】

ノイズ帯域アーチファクトを検出するには、ソーススケール因子帯域（ＳＦＢ）と、ターゲットＳＦＢとの間の音調性の相違を判定する必要がある。音調性の計算には、スペクトル平坦性尺度（ＳＦＭ）を使用することができる。ソース帯域の方がターゲット帯域よりもノイズが多いという音調性不一致が見つかった場合、一定量の減衰を印加する必要がある。この状況は図９に示されており、本発明の処理は適用されていない。

【0076】

ツールの急激なオン／オフ動作を避けるために、減衰係数にいくらかの平滑化を適用することも理に適っている。正しい位置に減衰を印加するのに必要なステップについては、以下で詳細に説明する。（なお、減衰は、ＴＣＸパワースペクトルＰが使用可能で、かつフレームが非過渡（フラグｉｓＴｒａｎｓｉｅｎｔが無効）であるという、この両方に当てはまる場合にのみ印加される）。

【0077】

音調性不一致の検出：パラメータ
第１のステップにおいて、音調性不一致がノイズ帯域アーチファクトを引き起こす場合がある、これらのＳＦＢを識別する必要がある。これを行うために、ＩＧＦ範囲の各ＳＦＢの音調性と、コピーアップに使用される対応する帯域とを決定する必要がある。音調性を計算するための１つの適切な尺度は、スペクトル平坦性尺度（ＳＦＭ）であり、これは、スペクトルの幾何平均をその算術平均で割った商に基づき、０～１の範囲になる。値が０に近いと音調性が強いことを示し、値が１に近いと、スペクトルにノイズが非常に多いことを表す。式は、次のようになる。

【0078】

ここでＰはＴＣＸパワースペクトル、ｂは開始線、ｅは現在のＳＦＢの停止線であり、ｐは以下の式で定義される。

【0079】

ＳＦＭに加えて波高率が計算され、最大エネルギーをスペクトル内の全周波数ビンの平均エネルギーで割ることによって、スペクトル内部でエネルギーがどのように分布するかをさらに示す。ＳＦＭを波高率で割ると、現在のフレームにおけるＳＦＢの音調性尺度になる。波高率は、次の式で計算される。

【0080】

ここでＰは、ＴＣＸパワースペクトル、ｂは開始線、ｅは現在のＳＦＢの停止線であり、Ｅ_ｍａｘは以下の式で定義される。

【0081】

しかしながら、円滑な音調性推定を実現するために、以前のフレームの結果をさらに用いるのが理に適っている。したがって音調性推定は、次の式によって行われる。

ここでｓｆｍは、実際のスペクトル平坦性計算の結果を示し、変数ＳＦＭは、波高率で割った商、ならびに平滑化を含む。

【0082】

ここで、ソースと宛先との音調性の差分が計算される。

この差分が正の値になれば、コピーアップを実行するために、ターゲットスペクトルよりもノイズが多いものが用いられるという条件を示す。このようなＳＦＢは、減衰の有力な候補となる。

【0083】

しかしながら、ＳＦＭ値の低さは、必ずしも音調性の強さを示さず、ＳＦＢにおけるエネルギーの急激な減少、または傾斜による可能性もある。このことは特に、ＳＦＢの中央部のどこかに帯域制限がある項目に適合する。これは、信号にわずかにローパスフィルタがかかった印象を与える、望ましくない減衰につながる可能性がある。

【0084】

このような場合に減衰を避けるために、ＳＦＭ_ｄｉｆｆが正の全帯域でエネルギーのスペクトル傾斜を計算することによって、影響を受ける可能性があるＳＦＢが決定され、一方向の強い傾斜は、低ＳＦＭ値を引き起こす急激な低下を示し得る。スペクトル傾斜は、ＳＦＢにおいて、以下の式で求められる回帰直線の傾斜で、全スペクトルビンを通じた線形回帰として計算される。

ｘをビン番号とし、ＰはＴＣＸパワースペクトル、ｂは開始線、ｅは現在のＳＦＢの停止線である。

【0085】

しかしながら、ＳＦＢの境界に近い音調成分もまた急な傾斜を引き起こす場合があるが、これも減衰を受ける必要がある。このような２つの事例を分けるために、急な傾斜を伴う帯域に、別のシフト済みＳＦＭ計算を行う必要がある。

【0086】

傾斜値の閾値は、次の式で定義される。

正規化として、ＳＦＢ幅で除算する。

【0087】

強い傾斜

がある場合は、ＳＦＭが計算される周波数領域は、ＳＦＢの幅の半分だけ下方にシフトされ、強い傾斜

に対しては、上方にシフトされる。このようにして、ＳＦＭが低いために、減衰するはずだった音調成分を正しく検出することができ、高いＳＦＭ値に対して減衰が適用されることはない。ここでの閾値は値０．０４として定義され、減衰は、シフト済みＳＦＭが閾値を下回った場合にのみ印加される。

【0088】

知覚的不快さのモデル
減衰は、正のＳＦＭ_ｄｉｆｆに印加されるべきではなく、ターゲットＳＦＢの音調性が実際に非常に高い場合に限り有効となる。特定のＳＦＢにおいて、原信号がノイズの多い背景に重ね合わせられると、ノイズの多い帯域に対する知覚差がむしろ小さくなり、減衰によるエネルギー損失が原因で音を感じにくくなることが、むしろ利点になる場合がある。

【0089】

妥当な範囲内で印加されることを確実にするために、減衰は、ターゲットＳＦＢの音調性が実際に非常に高い場合にのみ用いられなければならない。したがって、

および

の両方が保持される場合に限り、減衰が印加されるべきである。

【0090】

考慮するべき別の問題として、ＩＧＦスペクトルにおける音調成分の背景の問題がある。ノイズ帯域アーチファクトによって引き起こされる知覚的劣化は、元の音調成分を囲む擬似ノイズ背景がほとんどないか、まったくないときには常に、最も顕著になりやすい。この場合、原音をＩＧＦで生成されたＨＦスペクトルと比較すると、導入されたノイズ帯域は、まったく新しい、非常に目立って突出したものとして受けとられる。その一方で、かなりの量の背景ノイズが既に存在する場合は、別のノイズが背景に溶け込んで、より不快感の少ない知覚差となる。したがって、印加される減衰の量は、影響を受けるＳＦＢの音調対ノイズ比にも依存していなければならない。

【0091】

この音調対ノイズ比の計算に対し、ＳＦＢにおけるすべてのビンｉの二乗されたＴＣＸパワースペクトル値Ｐが合計されて、帯域の平均エネルギーを得るために、ＳＦＢの幅（開始線ｂと停止線ｅとによって求められる）で除算される。この平均は実質的に、帯域内の全エネルギーの正規化に用いられる。

１未満の正規化されたエネルギーＰ_{ｎｏｒｍ，ｋ}を有するすべてのビンは、次に合計されて、ノイズ部Ｐ_{ｎｏｉｓｅ}として数えられ、

で求められる、閾値１＋ａｄａｐを上回るものはすべて、音調部Ｐ_{ｔｏｎａｌ}として数えられる。この閾値はＳＦＢの幅に依存し、その結果、音調成分の高エネルギービンの影響が大きいために、狭い帯域は閾値が低くなって、平均が高くなる。音調部およびノイズ部から、最終的にログ比が算出される。

【0092】

減衰は、ソースと宛先との間のＳＦＭの差分、およびターゲットＳＦＢのＳＦＭの両方に依存し、差分の大きさとターゲットＳＦＭの小ささとは、両方とも減衰がより強くなることにつながる。音調性の差分が大きくなるほど強い減衰を印加する必要があるのは、理に適っている。さらに、減衰の量は、ターゲットＳＦＭが低い場合、すなわちターゲットＳＦＢの音調性がより高い場合は、より迅速に増加させる必要がある。つまり、極めて音調性が高いＳＦＢに対しては、ＳＦＭが減衰範囲内に納まるＳＦＢに対するよりも、強い減衰が印加される。

【0093】

また、最も高い帯域のエネルギーが奪われると、帯域が制限されたという知覚的印象につながりやすいので、高い周波数に対しては、減衰はより慎重に印加しなければならず、高周波になるほど人の聴覚系の感受性が低くなるために、ＳＦＢの微細構造の重要性は低くなる。

【0094】

音調性不一致の補償：減衰係数の計算
これらすべての考慮事項を１つの減衰式に組み入れるには、ターゲットＳＦＭとソースＳＦＭとの比が、公式の基礎として取り入れられる。この方法では、ＳＦＭのより大きい差分絶対値と、より小さいターゲットＳＦＭ値との両方がより強い減衰になり、単に差分をとるよりもよく適合する。周波数と音調対ノイズ比とに依存性をさらに追加するために、この比に調整パラメータが適用される。したがって減衰式は、次の式で表すことができる。

【0095】

ここでｄは、スケーリング係数で乗算される減衰係数であり、αおよびβは、減衰調整パラメータであり、次の式で計算される。

【0096】

ここでｅは、現在のＳＦＢの停止線であり、

ここでａｄａｐはＳＦＢの幅に依存し、次の式で計算される。

【0097】

パラメータαは、高周波数により小さい減衰を印加するために周波数とともに減少し、βは、減衰されるＳＦＢの音調対ノイズ比が閾値を下回った場合に、減衰の強度をさらに減少させるために用いられる。この閾値を顕著に下回るほど、減衰は削減される。

【0098】

減衰は一定の制約内でのみ有効になるため、オンからオフへ急激に移行するのを防止するために、平滑化を適用する必要がある。これを実現するために、いくつかの平滑化メカニズムが有効化される。

【0099】

移行した後は直接、ＴＣＸへのコア切り替え、または減衰されていない以前のフレームの減衰が、高エネルギー過渡後の極端なエネルギー低下を避けるために、そのすべての力が徐々に印加される。さらに、以前のフレームの結果も計算に入れるために、ＩＩＲフィルタの形式の忘却係数が使用される。

【0100】

平滑化の技法はすべて、次の式に含まれる。

ここでｄ_ｐｒｅｖは、以前のフレームの減衰係数である。以前のフレームで減衰が有効でなかった場合は、ｄ_ｐｒｅｖがｄ_ｃｕｒｒで上書きされるが、最低０．１までに制限される。変数の平滑化は別の平滑化係数であり、以前のフレームにおいて、減衰が無効だった場合、過渡フレームの間（フラグｉｓＴｒａｎｓｉｅｎｔが有効）は２に設定され、あるいはコア切り替えの後（フラグｉｓＣｅｌｐＴｏＴＣＸが有効）は１に設定される。減衰を伴う各フレームにおいて、変数は１まで減少するが、０を下回ることはない。

【0101】

最後のステップにおいて、減衰係数ｄに、スケーリング利得ｇが乗算される。

図１０は、本発明の好ましい実施を示す。

【0102】

例えば、スペクトル解析器１３０による出力としての音声信号は、図１０の左側にある（ｃ）で示すように、ＭＤＣＴスペクトル、または複素スペクトルとしても使用可能である。

【0103】

信号解析器１２１は、ブロック８０２によってターゲットコンテンツの音調性を検出するために、かつ符号８０１において（シミュレートされた）ソースコンテンツの音調性を検出するために、図１０の音調性検出器８０１および８０２によって実施される。

【0104】

次に、補償値を得るために、減衰係数計算１２４が行われ、その後、補償器５０３が、符号５０１、７００～７０６から得られたデータを用いて処理する。符号５０１、および符号７００～７０６は、ターゲットコンテンツからの包絡推定、およびシミュレートされたソースコンテンツからの包絡推定、ならびに例えば、図７に符号７００～７０６で示されている、これに続くスケーリング係数計算を反映している。

【0105】

したがって、非補償のスケーリングベクトルは、図５を参照して述べたのと同様に、値５０２としてブロック５０３に入力される。さらに、図１０にはノイズモデル１０００が別の構築ブロックとして示されているが、図４を参照して述べたように、同じものを減衰係数計算機１２４内に直接含めることもできる。

【0106】

また、白色化推定器をさらに備える図１０のパラメトリックＩＧＦエンコーダは、例えば、『ＣｏｄｉｎｇｏｆＩＧＦｗｈｉｔｅｎｉｎｇｌｅｖｅｌｓ』の第５．３．３．２．１１．６．４項で述べられているように、白色化レベルを計算するように構成される。特に、ＩＧＦ白色化レベルは、タイルごとに１ビットまたは２ビットを用いて、計算され送信される。このデータは、最後に完全なＩＧＦパラメトリックデータを得るために、同様にビットストリーム多重化装置１４０に導入される。

【0107】

また、「スペクトル希薄化（ｓｐａｒｓｉｆｙｓｐｅｃｔｒｕｍ）」のブロックがさらに提供され、これは、コアエンコーダ１１０によって符号化されるスペクトル線の決定に関するブロック１３０に対応し、図１０では別のブロック１０２０として示されている。この情報は、好ましくは、特定のＩＧＦ状況を反映するために、補償器５０３によって使用される。

【0108】

さらに、ブロック８０１の左側にある「シミュレートされた」という用語、および図１０の「包絡推定」というブロックは、図８ａに示す状況を指し、「シミュレートされたソースコンテンツ」は、第１のスペクトル帯域で、符号化されて再度復号された音声データである。

【0109】

あるいは、「シミュレートされた」ソースコンテンツは、線１８０で示すように、第１のスペクトル帯域の、元の第１の音声データからパッチシミュレータ８０４によって得られたデータであり、または第２のスペクトル帯域から第１のスペクトル帯域にシフトした線で強化された、コアデコーダ８００によって得られる復号された第１のスペクトル帯域である。

【0110】

続いて、３ＧＰＰＴＳ２６．４４５コーデックの修正バージョンを構成する、本発明の別の実施形態が図示される。本発明のプロセスを指定する、新たに追加された文字を以下に示す。ここで、既に３ＧＰＰＴＳ２６．４４５の規格に既に含まれている、いくつかの従属節が明示的に参照される。

【0111】

５．３．３．２．１１．１．９スペクトル傾斜関数ＳＬＯＰＥ

を、従属節５．３．３．２．１１．１．２に従って計算したＴＣＸパワースペクトルとし、ｂはスペクトル傾斜測定範囲の開始線、ｅは停止線である。

【0112】

ＩＧＦに適用されるＳＬＯＰＥ関数は、次の式で定義される。

【0113】

ＳＬＯＰＥ：

ここでｎは実際のＴＣＸ窓の長さ、ｘはビン番号である。

【0114】

５．３．３．２．１１．１．１０．音調対ノイズ比関数ＴＮＲ

を、従属節５．３．３．２．１１．１．２に従って計算したＴＣＸパワースペクトルとし、ｂは音調対ノイズ比測定範囲の開始線、ｅは停止線である。

【0115】

ＩＧＦに適用されるＴＮＲ関数は、次の式で定義される。

【0116】

ＴＮＲ：

ここでｎは実際のＴＣＸ窓の長さ、

は次の式で定義される。

そして、ａｄａｐは次の式で定義される。

減衰：
ＩＧＦ減衰係数計算については、フレームにわたってフィルタ状態を保持するために、すべてサイズがｎＢの６つの静的配列（ターゲットおよびソース範囲のＳＦＭ計算についてはｐｒｅｖＴａｒｇｅｔＦＩＲ、ｐｒｅｖＳｒｃＦＩＲ、ｐｒｅｖＴａｒｇｅｔＩＩＲ、およびｐｒｅｖＳｒｃＩＩＲ、ならびにｐｒｅｖＤａｍｐおよびｄａｍｐＳｍｏｏｔｈ）が必要とされる。また、以前のフレームから入力フラグｉｓＴｒａｎｓｉｅｎｔの情報を保存するために、静的フラグｗａｓＴｒａｎｓｉｅｎｔが必要になる。

【0117】

フィルタ状態のリセット
ベクトルｐｒｅｖＴａｒｇｅｔＦＩＲ、ｐｒｅｖＳｒｃＦＩＲ、ｐｒｅｖＴａｒｇｅｔＩＩＲ、ｐｒｅｖＳｒｃＩＩＲ、ならびにｐｒｅｖＤａｍｐおよびｄａｍｐＳｍｏｏｔｈはすべて、ＩＧＦモジュールにおける大きさｎＢの静的配列であり、次の式の通り初期化される。

【0118】

ｆｏｒｋ＝０，１，…，ｎＢ－１

この初期化は、次の条件で行われるものとする。

【0119】

・コーデックの起動を伴う
・ビットレートの切り替えを伴う
・コーデックタイプの切り替えを伴う
・ｉｓＣｅｌｐＴｏＴＣＸ＝真など、ＣＥＬＰからＴＣＸへの移行を伴う
・ｉｓＴｒａｎｓｉｅｎｔ＝真など、現在のフレームが過渡プロパティを有する場合
・ＴＣＸパワースペクトルＰが使用可能でない場合
減衰係数の計算
ＴＣＸパワースペクトルＰが使用可能で、ｉｓＴｒａｎｓｉｅｎｔが偽の場合は、次の式によって計算する。

および

ここで

は、関数ｔＦで既にマッピングされているものとし、従属節５．３．３．２．１１．１．１を参照されたく、

は、従属節５．３．３．２．１１．１．８で説明されている、ＩＧＦターゲット範囲をＩＧＦソース範囲にマッピングするマッピング関数であり、ｎＢは、表９４に示すように、スケール因子帯域の数である。ＳＦＭは、スペクトル平坦性尺度関数であり、従属節５．３．３．２．１１．１．３で説明されており、ＣＲＥＳＴは波高率関数であり、従属節５．３．３．２．１１．１．４で説明されている。

【0120】

ｉｓＣｅｌｐＴｏＴＣＸが真、またはｗａｓＴｒａｎｓｉｅｎｔが真の場合、以下のように設定される。

【0121】

ｆｏｒｋ＝０，１，…，ｎＢ－１

以下の通り計算する。

および

これらのベクトルで、以下の通り計算する。

ｉｆｆｏｒ

または

であり、以下を設定する。

【0122】

他に、従属節５．３．３．２．１１．１．９で説明されているように、ＳＬＯＰＥ関数でスペクトル傾斜を計算する。

ｉｆｆｏｒ

またはｅｌｓｅｉｆ

【0123】

ここでｔｈｒｅｓｈＴｉｌｔは、次のように定義される。

シフトしたスペクトラムのＳＦＭを計算する。

シフトは次のように定義される。

ｉｆ

以下を設定する。

ｉｆｆｏｒ

帯域ｋにおいて、現在のフレームの減衰係数ｄａｍｐＣｕｒｒをゼロに設定する。

あるいは、

を以下のように計算する。

【0124】

ここでａｌｐｈａは、以下のように定義され、

ｂｅｔａは以下のように定義される。

ここでＴＮＲは、従属節５．３．３．２．１１．１．１０で説明される音調対ノイズ比関数であり、ａｄａｐは以下のように定義される。

ｉｆｆｏｒ

次のように設定する。

サイズｎＢの減衰係数ｄのベクトルを計算する。

最後に、ｉｓＴｒａｎｓｉｅｎｔが偽で、パワースペクトルＰが使用可能であれば、フィルタを更新する。

【0125】

ｆｏｒｋ＝０，１…，ｎＢ－１

前述した部分の値／指数／パラメータの名前は、本明細書全体を通じて述べられている、対応するパラメータ／指数／値と同様である。次に、聞き取りテストのいくつかの結果を、図１１ａ～図１１ｃを参照して説明する。

【0126】

これらの聞き取りテストは、可能化された減衰で符号化された項目と、減衰なしで符号化された項目とを比較することによって、減衰の利点を示すために行った。

【0127】

図１１ａに示す第１の結果は、モノラルアイテム（ｍｏｎｏ－ｉｔｅｍｓ）を用いた、ビットレート１３．２ｋｂｐｓでサンプル比が３２ｋＨｚのＡ－Ｂ比較テストである。図１１ａには、１３．２ｋｂｐｓにおける、減衰あり対減衰なしのＡ－Ｂテストの結果が示されている。

【0128】

図１１ｂに示す２つ目の結果は、モノラルアイテムを用いた、２４．４ｋｂｐｓでサンプル比３２ｋＨｚのＭＵＳＨＲＡテストの結果である。ここでは、減衰なしの２つのバージョンを、減衰ありの新しいバージョンと比較した。その結果が、図１１ｂ（絶対評価）、および図１１ｃ（差分評価）に示されている。

【0129】

本発明による符号化された音声信号は、デジタル記憶媒体、または非一時的な記憶媒体に記憶することができ、あるいは無線送信媒体、またはインターネットなどの有線送信媒体などの送信媒体で送信することができる。

【0130】

装置に関し、いくつかの態様について説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、ブロックまたは機器は、方法ステップ、または方法ステップの特徴に対応する。同様に、方法ステップに関して説明した態様は、対応するブロックまたは符号、あるいは対応する装置の特徴の説明をさらに表す。

【0131】

いくつかの実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。この実装は、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を用いて実行することができ、これらには電子的に読み取り可能な制御信号が記憶されており、各方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することが可能である）。

【0132】

本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を含むデータ担体を備え、これは、本明細書で説明する方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる。

【0133】

通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで実行されるときに、方法の１つを実行するために有効になる。プログラムコードは、例えば、機械読み取り可能な担体に記憶されてもよい。

【0134】

他の実施形態は、本明細書で説明する方法の１つを実行するためのコンピュータプログラムを含み、機械読み取り可能な担体、または非一時的な記憶媒体に記憶される。

【0135】

言い換えれば、発明的方法の実施形態は、したがって、コンピュータプログラムがコンピュータで実行されるときに、本明細書で説明する方法の１つを実行するためのプログラムコードを含む、コンピュータプログラムである。

【0136】

発明的方法の別の実施形態は、したがって、本明細書で説明する方法の１つを実行するための、そこに記録されたコンピュータプログラムを含む、データ担体（またはデジタル記憶媒体もしくはコンピュータ可読媒体）である。

【0137】

発明的方法のさらに別の実施形態は、したがって、本明細書で説明する方法の１つを実行するためのコンピュータプログラムを表す、データ列または一連の信号である。データ列または一連の信号は、例えば、インターネットを介したデータ通信接続等を介して転送されるように構成されてもよい。

【0138】

別の実施形態は、本明細書で説明する方法の１つを実行するように構成されるかまたは適合された、コンピュータ、またはプログラム可能な論理装置等の処理手段を含む。

【0139】

別の実施形態は、本明細書で説明する方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

【0140】

いくつかの実施形態では、本明細書で説明する方法の機能のいくつか、またはすべてを実行するために、プログラム可能な論理装置（例えばフィールド・プログラマブル・ゲート・アレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ））が用いられてもよい。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の１つを実行するために、マイクロプロセッサと協働してもよい。一般に、本方法は、好ましくは、任意のハードウェア装置で実行される。

【0141】

上述の実施形態は、本発明の原理の単なる例示である。本明細書で説明した配置および詳細の、修正および変形は、当業者には明らかであることが理解されよう。したがって、添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明として提示した、具体的な詳細によっては限定されないことを意図している。

【図1】