IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許7385549補償値を用いて音声信号を符号化する装置および方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-14
(45)【発行日】2023-11-22
(54)【発明の名称】補償値を用いて音声信号を符号化する装置および方法
(51)【国際特許分類】
   G10L 19/02 20130101AFI20231115BHJP
   G10L 21/0388 20130101ALI20231115BHJP
   G10L 19/00 20130101ALI20231115BHJP
【FI】
G10L19/02 160A
G10L19/02 150
G10L21/0388
G10L19/00 330B
【請求項の数】 24
【外国語出願】
(21)【出願番号】P 2020201431
(22)【出願日】2020-12-04
(62)【分割の表示】P 2019510950の分割
【原出願日】2017-08-21
(65)【公開番号】P2021047441
(43)【公開日】2021-03-25
【審査請求日】2021-01-03
(31)【優先権主張番号】16185398.1
(32)【優先日】2016-08-23
(33)【優先権主張国・地域又は機関】EP
【前置審査】
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100134119
【弁理士】
【氏名又は名称】奥町 哲行
(72)【発明者】
【氏名】ディッシュ・ザシャ
(72)【発明者】
【氏名】ロイテルフーバー・フランツ
(72)【発明者】
【氏名】ブーテ・ヤン
(72)【発明者】
【氏名】ムルトラス・マークス
(72)【発明者】
【氏名】エドラー・ベルント
【審査官】大野 弘
(56)【参考文献】
【文献】特表2013-538374(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/02
G10L 21/0388
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
音声信号(100)を符号化する装置であって、前記音声信号(100)が、フレームの時系列を含み、
第1のスペクトル帯域(180)の第1の音声データをコア符号化する、コアエンコーダ(110)と、
前記第1のスペクトル帯域(180)とは異なる、第2のスペクトル帯域(190)の第2の音声データをパラメトリックに符号化する、パラメトリックコーダ(120)とを備え、前記パラメトリックコーダ(120)は、
第1の解析結果(122)を取得するために、前記第1のスペクトル帯域(180)の前記第1の音声データを解析し、第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の前記第2の音声データを解析する、解析器(121)と、
前記第1の解析結果(122)、および前記第2の解析結果(123)を用いて補償値(125)を計算する補償器(124)であって、前記フレームの時系列の以前のフレームの以前の補償値を用いて、前記フレームの時系列の現在のフレームの現在の補償値を計算するように構成される補償器(124)と、
前記補償値(125)を用いて、前記第2のスペクトル帯域(190)の前記第2の音声データからパラメータ(170)を計算する、パラメータ計算機(126)とを備える、パラメトリックコーダ(120)と
を備える、装置。
【請求項2】
前記解析器(121)が、前記第1の解析結果(122)として第1の定量値を計算し、前記第2の解析結果(123)として第2の定量値を計算するように構成され、
前記補償器(124)が、前記第1の定量値から、かつ前記第2の定量値から、定量補償値(125)を計算するように構成され、
前記パラメータ計算機(126)が、前記定量補償値(125)を用いて定量パラメータを計算するように構成される、
請求項1に記載の装置。
【請求項3】
前記解析器(121)が、前記第1の解析結果(122)を取得するために前記第1の音声データの第1の特徴を解析し、前記第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の前記第2の音声データの、同じ前記第1の特徴を解析するように構成され、
前記パラメータ計算機(126)が、第2の特徴を評価することによって、前記第2のスペクトル帯域(190)の前記第2の音声データから、前記パラメータ(170)を計算するように構成され、前記第2の特徴は、前記第1の特徴とは異なっている、
請求項1または2に記載の装置。
【請求項4】
前記第1の特徴が、前記第1のスペクトル帯域(180)内のスペクトル微細構造特徴、もしくはエネルギー分布特徴であり、または
前記第2の特徴が、前記第2のスペクトル帯域(190)内のスペクトル値の包絡尺度、あるいはエネルギー関連尺度またはパワー関連尺度である、
請求項3に記載の装置。
【請求項5】
前記第1のスペクトル帯域(180)、および前記第2のスペクトル帯域(190)が、それぞれ相互に排他的であり、
前記解析器(121)が、前記第2のスペクトル帯域(190)の前記第2の音声データを用いることなく前記第1の解析結果(122)を計算し、かつ前記第1のスペクトル帯域(180)の前記第1の音声データを用いることなく前記第2の解析結果(123)を計算するように構成される、
請求項1から4のいずれか一項に記載の装置。
【請求項6】
前記パラメトリックコーダ(120)が、第3のスペクトル帯域(202)の第3の音声データをパラメトリックに符号化するように構成され、
前記第3のスペクトル帯域(202)が、前記第2のスペクトル帯域(190)よりも高い周波数を有し、
前記補償器(124)が、前記第3のスペクトル帯域(202)に対する補償値の計算に第3の重み値(d)を使用するように構成され、
前記第3の重み値が、前記第2のスペクトル帯域(190)に対する前記補償値(125)の計算に用いられた第2の重み値とは異なる、
請求項1から5のいずれか一項に記載の装置。
【請求項7】
前記解析器(121)が、前記第2のスペクトル帯域(190)の前記第2の音声データの、音調対ノイズ比(tonal-to-noise ratio)(400)をさらに計算するように構成され、
前記補償器(124)が、前記第2の音声データの前記音調対ノイズ比(400)に応じて前記補償値(125)を計算するように構成され、その結果、第1の音調対ノイズ比に対する第1の補償値が取得される、または第2の音調対ノイズ比に対する第2の補償値が取得され、前記第1の補償値は、前記第2の補償値よりも大きくなり、前記第1の音調対ノイズ比は、前記第2の音調対ノイズ比よりも大きくなる、
請求項1から6のいずれか一項に記載の装置。
【請求項8】
前記パラメータ計算機(126)が、前記第2の音声データから非補償パラメータ(502)を計算するように構成され、かつ前記パラメータ(170)を取得するために、前記非補償パラメータ(502)と前記補償値(125)とを結合する(503)ように構成される、
請求項1から7のいずれか一項に記載の装置。
【請求項9】
前記第1のスペクトル帯域(180)のコア符号化された音声データ(160)と、前記パラメータ(170)とを出力する、出力インターフェース(140)をさらに備える、
請求項1から8のいずれか一項に記載の装置。
【請求項10】
前記補償器(124)が、音響心理モデル(1002)を適用することによって前記補償値(125)を決定するように構成され、前記音響心理モデル(1000)が、前記補償値(125)を取得するために、前記第1の解析結果(122)と前記第2の解析結果(123)とを用いて、前記第1の音声データと前記第2の音声データとの間の音響心理学的不一致を評価するように構成される、
請求項1から9のいずれか一項に記載の装置。
【請求項11】
前記解析器(121)が、前記第1の解析結果(122)を取得するために、前記現在のフレームの前記第1のスペクトル帯域(180)の前記第1の音声データを解析し、前記現在のフレームの第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の、前記現在のフレームの第2の音声データを解析するように構成され、
前記補償器(124)が、前記現在のフレームの前記第1の解析結果(122)と、前記現在のフレームの前記第2の解析結果(123)とを用いて、前記現在のフレームの補償値(125)を計算するように構成され、
前記パラメータ計算機(126)が、前記現在のフレームの前記補償値(125)を用いて、前記フレームの、前記第2のスペクトル帯域(190)の前記第2の音声データから、前記パラメータ(170)を計算するように構成される、または
前記パラメトリックコーダ(120)が、前記第1の解析結果(122)と前記第2の解析結果(123)とに基づいて、前記現在のフレームの前記第2のスペクトル帯域(190)の前記パラメータ(170)が、補償状況の前記補償値(125)、または非補償状況の前記補償値(125)のいずれを用いて計算されるかを検出する、補償検出器(210)をさらに備える、
請求項1から10のいずれか一項に記載の装置。
【請求項12】
前記パラメトリックコーダ(120)が、前記第1の解析結果(122)と前記第2の解析結果(123)とに基づいて、前記現在のフレームの前記第2のスペクトル帯域(190)の前記パラメータ(170)が、補償状況の前記補償値(125)、または非補償状況の前記補償値(125)のいずれを用いて計算されるかを検出する、補償検出器(210)を備え、
前記補償検出器(210)が、前記第1の解析結果(122)と、前記第2の解析結果(123)との差分が所定の特徴を有するとき、または前記第2の解析結果(123)が所定の特徴を有するときに、前記補償状況を検出するように構成され、
前記補償検出器(210)が、前記符号化する装置にパワースペクトルが使用できないとき、もしくは前記現在のフレームが過渡フレーム(223)であることが検出されたときは、スペクトル帯域が補償されないことを検出するように構成される、または
前記補償器(124)が、前記第1の解析結果(122)と第2の解析結果(123)との商に基づいて、前記補償値(125)を計算するように構成される、
請求項1から10に記載の装置。
【請求項13】
前記解析器(121)が、前記第1の解析結果(122)として、スペクトル平坦性尺度(spectral flatness measure)、波高率、または前記第1のスペクトル帯域(180)に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成され、かつ前記第2の解析結果(123)として、スペクトル平坦性尺度もしくは波高率、または前記第2のスペクトル帯域(190)に対する、前記スペクトル平坦性尺度と前記波高率との商を計算するように構成される、または
前記パラメータ計算機(126)が、前記第2の音声データから、スペクトル包絡情報、もしくは利得係数を計算するように構成される、または
前記補償器(124)が、前記補償値(125)を計算するように構成され、その結果、前記第1の解析結果(122)と、前記第2の解析結果(123)との間の第1の差分に対して、第1の補償値が取得され、前記第1の解析結果(122)と、前記第2の解析結果(123)との間の第2の差分に対して、第2の補償値が計算され、前記第1の差分が、前記第2の差分よりも大きく、前記第1の補償値が、前記第2の補償値よりも大きい、
請求項1から11のいずれか一項に記載の装置。
【請求項14】
前記パラメトリックコーダ(120)が、補償検出器(210)を備え、
前記解析器(121)が、前記第2の音声データからスペクトル傾斜(608)を計算するように構成され、
前記解析器(121)が、前記第2のスペクトル帯域(190)の境界近くに音調成分があるかどうかを調べる(616)ように構成され、
前記補償検出器(210)が、前記スペクトル傾斜が所定の閾値を下回る(610)ときにのみ、もしくは前記スペクトル傾斜が所定の閾値を上回り(614)、前記調査(616)により前記境界近くに音調成分が存在すると判定された(618)ときに、前記補償値(125)を用いて前記パラメータ(170)を計算すると判定する(612)ように構成される、
請求項13に記載の装置。
【請求項15】
前記第1のスペクトル帯域(180)の、符号化された第1の音声データを復号して、符号化されて復号された第1の音声データを取得する、デコーダ(800)をさらに備え、
前記解析器(121)が、前記符号化されて復号された第1の音声データを用いて、前記第1の解析結果(122)を計算する(801)ように構成され、かつ
符号化するために前記装置に入力された前記音声信号(100)から来た前記第2の音声データから、前記第2の解析結果(123)を計算する(802)ように構成される、
請求項1から14のいずれか一項に記載の装置。
【請求項16】
前記第2のスペクトル帯域(190)のパッチング結果をシミュレートする、パッチシミュレータ(804)をさらに備え、前記パッチング結果は、コア符号化された音声信号に含まれる、前記第2のスペクトル帯域(190)からの少なくとも1つのスペクトル線(351、352)を含み、
前記解析器(121)が、前記第1の音声データ、および前記第2のスペクトル帯域(190)からの前記少なくとも1つのスペクトル線(351´、352´)を用いて前記第1の解析結果(122)を計算するように構成され、かつ
符号化するために前記装置に入力された前記音声信号(100)から来る前記第2の音声データから、前記第2の解析結果(123)を計算するように構成される、
請求項1から15のいずれか一項に記載の装置。
【請求項17】
前記コアエンコーダ(110)が、一連の実値スペクトルの前記第1の音声データを符号化するように構成され、
前記解析器(121)が、一連のパワースペクトルから前記第1の解析結果(122)および前記第2の解析結果(123)を計算するように構成され、
パワースペクトルが、符号化するために前記装置に入力された前記音声信号(100)から計算される、または前記コアエンコーダ(110)が使用する実値スペクトルから導出される、
請求項1から16のいずれか一項に記載の装置。
【請求項18】
前記コアエンコーダ(110)が、少なくとも強調開始周波数(310)まで拡張するコア帯域で、前記音声信号(100)をコア符号化するように構成され、
前記コア帯域が、前記第1のスペクトル帯域(180)、および前記第1のスペクトル帯域(180)と重なり合う少なくとも1つの別のソース帯域(302、303)を含み、
前記音声信号(100)が、前記強調開始周波数(310)から最大周波数(354)まで拡張する強調範囲を有し、前記第2のスペクトル帯域(190)、および少なくとも1つの別のターゲット帯域が前記強調範囲に含まれ、前記第2のスペクトル帯域(190)と、前記別のターゲット帯域とが互いに重なり合わない、
請求項1から17のいずれか一項に記載の装置。
【請求項19】
前記強調開始周波数(310)が交差周波数であり、コア符号化信号が、前記交差周波数(310)に帯域制限される、または、
前記強調開始周波数(310)が、インテリジェントギャップ充填(intelligent gap filling、IGF)開始周波数であり、コア符号化信号が、前記強調開始周波数よりも大きくなる前記最大周波数(354)に帯域制限される、
請求項18に記載の装置。
【請求項20】
前記パラメータ計算機(126)が、
前記第2のスペクトル帯域(190)の前記第2の音声データに基づいて、前記第2のスペクトル帯域(190)の利得係数を計算し、
前記補償値(125)として減衰係数を計算し、かつ
補償済み利得係数を前記パラメータ(170)として取得するために、前記第2のスペクトル帯域(190)の前記利得係数に前記減衰係数を乗じるように構成され、
前記装置が、前記第1のスペクトル帯域(180)のコア符号化された音声データ(160)、および前記パラメータ(170)として前記補償済み利得係数を出力する、出力インターフェース(140)をさらに備える、
請求項1から19のいずれか一項に記載の装置。
【請求項21】
音声信号(100)を符号化する方法であって、前記音声信号(100)が、フレームの時系列を含み、
第1のスペクトル帯域(180)の第1の音声データをコア符号化(110)するステップと、
前記第1のスペクトル帯域(180)とは異なる、第2のスペクトル帯域(190)の第2の音声データをパラメトリックに符号化する(120)ステップとを含み、前記パラメトリックに符号化する(120)ステップは、
第1の解析結果(122)を取得するために、前記第1のスペクトル帯域(180)の前記第1の音声データを解析し、第2の解析結果(123)を取得するために、前記第2のスペクトル帯域(190)の前記第2の音声データを解析する(121)工程と、
前記第1の解析結果(122)、および前記第2の解析結果(123)を用いて補償値(125)を計算する(124)工程であって、前記フレームの時系列の以前のフレームの以前の補償値を用いて、前記フレームの時系列の現在のフレームの現在の補償値を計算することを含む、計算する(124)工程と、
前記補償値(125)を用いて、前記第2のスペクトル帯域(190)の前記第2の音声データからパラメータ(170)を計算する(126)工程と
を含む、方法。
【請求項22】
音声信号(100)を処理するシステムであって、
請求項1から20のいずれか一項に記載の、前記音声信号を符号化する装置と、
前記第1のスペクトル帯域(180)の符号化された第1の音声データ(160)を含む、符号化された音声信号、および前記第2のスペクトル帯域(190)の第2の音声データを表す、パラメータ(170)を受信する、デコーダとを備え、
前記デコーダは、前記パラメータ(170)、および前記第1のスペクトル帯域(180)の復号された第1の音声データを用いて、前記第2のスペクトル帯域(190)用に合成された音声データを再生成するために、スペクトル強調処理を行うように構成される、システム。
【請求項23】
音声信号(100)を処理する方法であって、
請求項21に記載の方法に従って、前記音声信号を符号化するステップと、
前記第1のスペクトル帯域(180)の符号化された第1の音声データ(160)を含む、符号化された音声信号、および前記第2のスペクトル帯域(190)の第2の音声データを表す、パラメータ(170)を受信するステップと、
前記パラメータ(170)、および前記第1のスペクトル帯域(180)の復号された第1の音声データを用いて、前記第2のスペクトル帯域(190)用に合成された音声データを再生成するために、スペクトル強調処理を行うステップと、
を含む、方法。
【請求項24】
コンピュータ、またはプロセッサで実行されると、請求項21または23に記載の前記方法を行う、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声の符号化および復号に関し、特に、帯域幅拡張、あるいはスペクトル帯域複製(SBR)またはインテリジェントギャップ充填(IGF)などのスペクトル強調技術を用いた、音声符号化/復号に関する。
【背景技術】
【0002】
音声信号の記憶または送信は、厳しいビットレート制限を受けることが多い。過去に非常に低いビットレートしか使用できなかったときは、送信された音声の帯域幅をコーダで大幅に減少させていた。現代の音声コーデックは、今日では帯域幅拡張(BWE)法[1-2]を用いて、広帯域信号を符号化することができる。このようなアルゴリズムは、高周波数コンテンツ(HF)のパラメトリック表示に依存し、これは、HFスペクトル領域への転置(「パッチング」)、およびパラメータ駆動による後処理を適用することによって復号された信号の、低周波数部分(LF)を符号化した波形から生成される。しかしながら、例えば、いくつかのターゲット領域にコピーされたパッチ内のスペクトル微細構造が、原コンテンツのスペクトル微細構造と大きく異なっている場合は、不快なアーチファクトが生じて、復号された音声信号の知覚的品質が低下する。
【0003】
BWEスキームでは、所与のいわゆる交差周波数を上回るHFスペクトル領域の再構築は、スペクトルパッチングに基づくことが多い。通常、HF領域は複数の隣接するパッチからなり、これらのパッチはそれぞれ、所与の交差周波数を下回る、LFスペクトルの帯域通過(BP)領域から供給される。最先端のシステムでは、1組の隣接する副帯域係数をソース領域からターゲット領域にコピーすることによって、フィルタバンク表示内でパッチングが効率的に行われている。次の手順では、エンコーダで測定されて、サイド情報としてビットストリームで送信された元のHF信号の包絡に近似するように、スペクトル包絡が調整される。
【0004】
しかしながら、スペクトル微細構造の不一致が存在することが多く、これがアーチファクトの認知につながる場合がある。通常知られている不一致は、音調性に関するものである。元のHFが、やや優位なエネルギーコンテンツを有する音調を含み、音調のスペクトル位置にコピーされるパッチの特徴がノイズの多いものである場合、この帯域通過ノイズは拡大されて、不快なノイズバーストとして聞こえる可能性がある。
【0005】
スペクトル帯域複製(SBR)は、現代の音声コーデック[1]に採用されている、よく知られているBWEである。SBRでは、音調性不一致の問題に、人工的に置き換えた正弦波を挿入することによって対処する。しかしながらこれには、別のサイド情報をデコーダに送信することが必要になり、BWEデータのビット需要が大きくなる。さらに、後続のブロックのために音調の挿入のオン/オフが切り替えられた場合は、挿入された音調が経時的に不安定になる可能性がある。
【0006】
インテリジェントギャップ充填(IGF)は、MPEG-H 3D Audio、または3GPP EVSコーデックなどの現代のコーデックの、セミパラメトリック符号化技術を示す。IGFは、低ビットレート制限によるエンコーダの量子化プロセスによって導入される、スペクトルホールの充填に適合させることができる。通常、ビット配分が制限されていて透過符号化ができない場合は、まず信号の高周波数(HF)領域にスペクトルホールが出現し、ビットレートが最も低い上部スペクトル範囲全体に次第に影響を及ぼす。デコーダ側では、このようなスペクトルホールは、低周波数(LF)コンテンツからセミパラメトリック方式で生成された合成HFコンテンツと、別のパラメトリック側情報によって制御される後処理とを用いて、IGFを介して置換される。
【0007】
IGFは基本的に、より低い周波数からスペクトル部分(タイルと呼ばれる)をコピーすることによって、かつ利得係数を適用してエネルギーを調整することによって、高周波数スペクトルを充填することに基づいているが、スペクトル微細構造の観点から、原信号において、コピーアッププロセスのソースとして用いられる周波数範囲がその宛先と異なっている場合は、問題となる場合がある。
【0008】
強い知覚的影響を与える可能性があるこのような事例の1つは、音調性の相違である。この音調性不一致は、2つの異なる方法で生じる可能性があり、1つは、強い音調性を有する周波数範囲が、構造的にノイズ様と思われるスペクトル領域にコピーされるためであり、もう1つは逆に、原信号内でノイズが音調成分に置き換わるためである。IGFにおいて前者の事例は、ほとんどの音声信号が、通常は高周波数に向かうほどよりノイズ様になるためより一般的であり、スペクトル白色化を適用することによって対処され、必要な場合は、どのくらいの白色化が必要かを知らせるパラメータがデコーダに送信される。後者の事例については、波形符号化を介してHF帯域の音調ラインを保存するように、コアコーダの全帯域符号化能力を用いて音調性を訂正することができる。このいわゆる「残存ライン(surviving line)」は、音調性の強さに基づいて選択することができる。波形符号化は、ビットレートの観点からは非常に要求が厳しく、低ビットレートのシナリオでは使用できない可能性が最も高い方法である。さらに、音調成分を符号化するフレームと、符号化しないフレームとの間の切り替えは不快なアーチファクトを引き起こすため、これを防止する必要がある。
【0009】
インテリジェントギャップ充填技術については、欧州特許出願公開第2830054号明細書でさらに開示され説明されている。IGF技術は、コアデコーダが処理する同じスペクトル領域で帯域幅拡張を行うことによって、一方では帯域幅拡張の分離に関する問題に対処し、他方ではコア復号化に関する問題に対処する。したがって、フルレートのコアエンコーダ/デコーダが提供され、全音声信号範囲を符号化および復号する。これは、エンコーダ側のダウンサンプラ、およびデコーダ側のアップサンプラを必要としない。その代わりに、処理全体が全サンプリングレート、または全帯域幅領域で行われる。高い符号化利得を得るために、音声信号は、第1のスペクトル部分の第1の組を見つけるために解析され、この音声信号は高分解能で符号化する必要があり、この第1のスペクトル部分の第1の組は、ある実施形態では、音声信号の音調部分を含んでいてもよい。他方では、第2のスペクトル部分の第2の組を構成する、音声信号内の非音調成分、またはノイズが多い成分は、低スペクトル分解能でパラメトリックに符号化される。符号化された音声信号は、次に、第1のスペクトル部分の第1の組のみが、高スペクトル分解能で、波形保存方式で符号化されることを必要とし、さらに第2のスペクトル部分の第2の組が、第1の組から供給された周波数「タイル」を用いて、低分解能でパラメトリックに符号化される。デコーダ側では、全帯域デコーダであるコアデコーダが、波形保存方式で、すなわち追加の周波数再生成があると知ることなく、第1のスペクトル部分の第1の組を再構築する。しかしながら、このようにして生成されたスペクトルには、多数のスペクトルギャップがある。このようなギャップは、その後、一方ではパラメトリックデータを適用する周波数再生成を用いて、他方ではソーススペクトル範囲、すなわちフルレート音声デコーダによって再構築された第1のスペクトル部分を用いて、本発明のインテリジェントギャップ充填(IGF)技術で充填される。
【0010】
IGF技術は、3GPP TS26.445V13.2.0(2016-06)、Third Generation Partnership Project、Technical Specification Group Services and System Aspect、Codec for Enhanced Voice Services(EVS)、Detailed Algorithmic Description(release13)にも含まれ開示されている。特に、エンコーダ側に関しては、この参考文献の第5.3.3.2.11節の「Intelligent Gap Filling」が参照され、デコーダ側の実施に対しては、さらに第6節の、特に第6.2.2.3.8節「IGF Apply」、その他第6.2.2.2.9節「IGF Bitstream Reader」、または第6.2.2.3.11節「IGF Temporal Flattening」などの、IGF関連の節が参照される。
【0011】
欧州特許出願公開第2301027号明細書では、帯域幅拡張出力データを生成する装置および方法が開示されている。有声音信号では、計算済みのノイズフロアを低くすることで、元の計算済みノイズフロアと比較して、知覚的な高品質が得られる。結果として生じる音声は、この事例では残響が少なくなる。歯擦音を含む音声信号の場合、ノイズフロアの人工的な増加が、歯擦音に関するパッチング法の欠点をカバーする場合がある。したがって、参考文献では、有声音などの信号に対してノイズフロアを減少させること、および歯擦音などを含む信号に対してノイズフロアを増加させることについて開示されている。異なる信号を区別するために、実施形態ではエネルギー分布データ(例えば、歯擦音パラメータ)を用い、エネルギーのほとんどが、複数または1つの高周波数に位置するかどうか、すなわち音声信号のスペクトル表示が、高周波数に向かって傾斜する増加または減少を示すかどうかを測定する。別の実施では、歯擦音パラメータを生成するために、第1のLPC係数(LPCは、線形予測符号のこと)をさらに用いる。
【先行技術文献】
【特許文献】
【0012】
【文献】欧州特許出願公開第2830054号明細書
【文献】欧州特許出願公開第2301027号明細書
【非特許文献】
【0013】
【文献】3GPP TS26.445V13.2.0(2016-06)、Third Generation Partnership Project、Technical Specification Group Services and System Aspect、Codec for Enhanced Voice Services(EVS)、Detailed Algorithmic Description(release13)
【発明の概要】
【発明が解決しようとする課題】
【0014】
音声符号化、または音声処理に対する改善した概念を提供することが、本発明の目的である。
【課題を解決するための手段】
【0015】
この目的は、請求項1の音声信号を符号化する装置、請求項23の音声信号を符号化する方法、請求項24の音声信号を処理するシステム、請求項25の音声信号を処理する方法、または請求項26のコンピュータプログラムによって達成される。
【0016】
音声信号を符号化する装置は、第1のスペクトル帯域の第1の音声データをコア符号化するコアエンコーダと、第1のスペクトル帯域とは異なる、第2のスペクトル帯域の第2の音声データをパラメトリックに符号化するパラメトリックコーダとを備える。特に、パラメトリックコーダは、第1の解析結果を取得するために、第1のスペクトル帯域の第1の音声データを解析し、第2の解析結果を取得するために、第2のスペクトル帯域の第2の音声データを解析する、解析器を備える。補償器は、第1の解析結果および第2の解析結果を用いて、補償値を計算する。さらに、パラメータ計算機が、補償器によって決定された補償値を用いて、第2のスペクトル帯域の第2の音声データからパラメータを計算する。
【0017】
したがって、本発明は、デコーダ側でいくつかのパラメータを用いて行った再構築が、音声信号に必要ないくつかの特徴に対処するかどうかを明らかにするために、通常はソース帯域である第1のスペクトル帯域が、第1の解析結果を得るために解析されるという理解に基づく。同様に、通常はターゲット帯域であり、かつ第1のスペクトル帯域、すなわちソース帯域を用いてデコーダ側で再構築される第2のスペクトル帯域が、第2の解析結果を得るために、解析器によってさらに解析される。したがって、ソース帯域については、ターゲット帯域と同様に、別の解析結果が計算される。
【0018】
次に、これら2つの解析結果に基づいて、補償器が、修正値に対する補償なく取得されるはずであったいくつかのパラメータを変更するために、補償値を計算する。言い換えれば、本発明は、第2のスペクトル帯域のパラメータが元の音声信号から計算されて、第2のスペクトル帯域が計算済みのパラメータを用いて再構築されるように、デコーダに送信される通常の手順とは異なり、その代わりに、一方ではターゲット帯域から計算された補償済みパラメータ、他方では、第1の解析結果と第2の解析結果との両方に依存する補償値を生じさせる。
【0019】
補償済みパラメータの計算は、まず非補償パラメータを計算し、次に、この非補償パラメータを補償値と結合できることによって補償済みパラメータを取得する、あるいは補償済みパラメータは、中間結果として未補償パラメータを得ることなく1回で計算することができる。補償済みパラメータは、次に、エンコーダからデコーダに送信することができ、その後、デコーダは、スペクトル帯域複製、またはインテリジェントギャップ充填、その他補償済みパラメータ値を用いた任意の手順などの、一定の帯域幅拡張技術を適用する。したがって、パラメータが所望のスペクトル帯域拡張結果になるかどうかにかかわらず、一定のパラ―メータ計算アルゴリズムを厳守することに対しては、パラメータ計算に加えて、ソース帯域およびターゲット帯域で信号解析を行うことによって、かつその後に、ソース帯域からの結果と、ターゲット帯域からの結果とに基づいて、すなわち第1のスペクトル帯域と第2のスペクトル帯域とのそれぞれに基づいて補償値の計算を行うことによって、柔軟に対処することができる。
【0020】
好ましくは、解析器、および/または補償器は、音響心理学的不一致を判定する、一種の音響心理モデルを適用する。したがって、実施形態において、補償値の計算は、音調性などのいくつかの信号パラメータの音響心理学的不一致の検出に基づき、補償の手法は、スペクトル帯域利得係数などの他の信号パラメータの修正を介した、知覚的不快感の全体的な最小化に適用される。したがって、異種のアーチファクトをトレードオフすることによって、知覚的にうまくバランスのとれた結果が得られる。
【0021】
「何としても音調性を固定しようとする」従来技術の手法とは対照的に、実施形態ではむしろ、音調性不一致が検出された、問題があるスペクトルの部分に減衰を印加することによるアーチファクトの改善を教示し、これによって音調性不一致に対して、スペクトルエネルギー包絡の不一致をトレードオフする。
【0022】
いくつかの信号パラメータの入力において、知覚的不快さのモデルを含む補償の手法では、単に信号パラメータが適合するのではなく、最良の知覚的適合を得る手法を決定することができる。
【0023】
この手法は、潜在的なアーチファクトの知覚的重要性を重み付けすること、および全体的な欠陥を最小化するために、パラメータの組み合わせを選択することからなる。
【0024】
この手法は、MDCTなどの変換に基づいて、BWE内で適用されることを主に意図している。それにもかかわらず、本発明の教示は、例えば、同様に直交ミラーフィルタバンク(QMF)に基づくシステム内でほぼ適用可能である。
【0025】
この技法を適用し得る1つの可能なシナリオは、インテリジェントギャップ充填(IGF)との関係における、ノイズ帯域の検出、およびそれに続く減衰である。
【0026】
実施形態では、音調性不一致の発生を検出すること、および対応するスケーリング係数を減衰させてその影響を低減することによって、生じ得る音調性不一致を処理する。これは、一方では原音のスペクトルエネルギー包絡からの逸脱につながり得るが、他方ではHFのノイズの多さを低減することにつながり、知覚的品質を全体的に向上させるのに役立つ。
【0027】
したがって本実施形態は、具体的には、例えば、ソースまたは第1のスペクトル帯域と、ターゲットまたは第2のスペクトル帯域との間にスペクトル微細構造の不一致が存在する場合に、通常は知覚的不快さのモデルによって操作される知覚的品質を、新しいパラメトリック補償技術によって改善する。
【0028】
好ましい実施形態については、添付の図面に照らして以下で説明する。
【図面の簡単な説明】
【0029】
図1】一実施形態による、音声信号を符号化する装置のブロック図を示す。
図2】補償検出器を中心とする、符号化する装置のブロック図を示す。
図3a】ソース範囲、およびIGFまたは帯域幅拡張範囲を有する音声スペクトルの概略図と、ソース帯域と宛先帯域との間の関連するマッピングとを示す。
図3b】コアエンコーダがIGF技術を適用し、第2のスペクトル帯域に残存ラインがある、音声信号のスペクトルを示す。
図3c】第1の解析結果の計算に使用される、第1のスペクトル帯域の、シミュレートされた第1の音声データの図を示す。
図4】補償器の図をより詳細に示す。
図5】パラメータ計算機の図をより詳細に示す。
図6】一実施形態における、補償検出器の機能を図示したフローチャートを示す。
図7】非補償の利得係数を計算する、パラメータ計算機の機能を示す。
図8a】符号化されて復号された第1のスペクトル帯域から第1の解析結果を計算するコアデコーダを有する、エンコーダの実施を示す。
図8b】一実施形態における、エンコーダのブロック図を示し、パッチシミュレータが、第2のスペクトル帯域からシフトした第1のスペクトル帯域幅ラインを生成して、第1の解析結果を取得するように適合されている。
図9】インテリジェントギャップ充填の実施における、音調性不一致の影響を示す。
図10】一実施形態における、パラメトリックエンコーダの実施を示す。
図11a】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストの結果を示す。
図11b】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストの別の結果を示す。
図11c】補償済みパラメータ値を用いて音声データを符号化して得られた、聞き取りテストのさらに別の結果を示す。
【発明を実施するための形態】
【0030】
図1は、本発明の一実施形態による、音声信号100を符号化する装置を示す。本装置は、コアエンコーダ110と、パラメトリックコーダ120とを備える。さらに、コアエンコーダ110、およびパラメトリックコーダ120は、その入力側がスペクトル解析器130に接続され、その出力側が出力インターフェース140に接続される。出力インターフェース140は、符号化された音声信号150を生成する。出力インターフェース140は、一方では符号化されたコア信号160を受信し、入力ライン170においては、第2のスペクトル帯域の少なくとも1つのパラメータ、および通常は、第2のスペクトル帯域のパラメータを含む、完全なパラメータ表示を受信する。さらに、スペクトル解析器130は、音声信号100を第1のスペクトル帯域180と、第2のスペクトル帯域190とに分離する。特に、パラメータ計算機は、図1に信号解析器として図示されている解析器121を備え、解析器121は、第1の解析結果122を取得するために第1のスペクトル帯域180の第1の音声データを解析し、第2の解析結果123を取得するために第2のスペクトル帯域190の第2の音声データを解析する。第1の解析結果122と、第2の解析結果123とは、両方とも補償器124に提供されて、補償値125を計算する。したがって、補償器124は、第1の解析結果122と、第2の解析結果123とを用いて、補償値を計算するように構成される。次に、一方では補償値125と、第2のスペクトル帯域190からの少なくとも第2の音声データ(第1のスペクトル帯域からの第1のスペクトルデータも同様に使用されてもよい)とが、両方ともパラメータ計算機126に提供されて、補償値125を用いて、第2のスペクトル帯域の第2の音声データから、パラメータ170を計算する。
【0031】
図1のスペクトル解析器130は、例えば、個別のスペクトル帯域、またはMDCTラインを取得するための、単純な時間-周波数変換器にすることができる。したがってこの実施において、スペクトル解析器130は、スペクトルデータを取得するために、修正離散コサイン変換(MDCT)を実施する。次に、このスペクトルデータは、一方はコアエンコーダ110用のデータ、もう一方はパラメトリックコーダ120用のデータに分離するためにさらに解析される。コアエンコーダ110用のデータは、少なくとも第1のスペクトル帯域を含む。さらに、コアエンコーダが1つ以上のソース帯域を符号化するときは、コアデータは別のソースデータをさらに含んでもよい。
【0032】
したがって、コアエンコーダは、スペクトル帯域複製技術の場合は、コア符号化される入力データとして、交差周波数よりも低い全帯域幅を受信してもよく、次にパラメトリックコーダが、この交差周波数を上回るすべての音声データを受信する。
【0033】
しかしながら、インテリジェントギャップ充填の枠組みの場合は、コアエンコーダ110は、これもスペクトル解析器130によって解析される、IGF開始周波数を上回るスペクトル線をさらに受信してもよく、その結果、スペクトル解析器130は、IGF開始周波数を上回るデータをもさらに決定し、IGF開始周波数を上回るこのデータは、コアエンコーダによってさらに符号化される。このために、スペクトル解析器130は、「音調マスク(tonal mask)」として実施されてもよく、これについては例えば、3GPP TS 26.445 V13.0.0(12)の第5.3.3.2.11.5節に開示されている「IGF Tonal Mask」でも説明されている。このように、コアエンコーダでどのスペクトル成分を送信するべきかを決定するために、スペクトル解析器130によって音調マスクが計算される。したがって、すべての有意なスペクトルコンテンツが識別され、その一方で、IGFを介したパラメトリック符号化によく適するコンテンツは、音調マスクによってゼロに量子化される。スペクトル解析器130は、パラメトリック符号化によく適するスペクトルコンテンツをパラメトリックコーダ120に転送するが、このデータは例えば、音調マスク処理によってゼロに設定されているデータであってもよい。
【0034】
図2に示す実施形態では、パラメトリックコーダ120は、第3のスペクトル帯域の第3の音声データをパラメトリックに符号化して、この第3のスペクトル帯域の別のパラメータ200を取得するようにさらに構成される。この事例では、解析器121は、第3のスペクトル帯域202の第3の音声データを解析して、第1の解析結果122と第2の解析結果123とに加えて、第3の解析結果204を取得するように構成される。
【0035】
さらに、図1のパラメトリックコーダ120は、少なくとも第3の解析結果204を用いて、第3のスペクトル帯域が補償されているかどうかを検出するための、補償検出器210をさらに備える。この検出結果は、第3のスペクトル帯域の補償状況の有無を示す、制御ライン212によって出力される。制御ライン212によって示される通り、第3のスペクトル帯域が補償されていないことを補償検出器が検出すると、パラメータ計算機126は、補償値なしで第3のスペクトル帯域の別のパラメータ200を計算するように構成される。しかしながら、第3のスペクトル帯域が補償されていることを補償検出器が検出した場合は、パラメータ計算機は、補償器124によって計算された追加の補償値で、第3の解析結果200から、第3のスペクトル帯域の別のパラメータ200を計算するように構成される。
【0036】
好ましい実施形態では、定量補償が適用されると、解析器121は、第1の解析結果として第1の定量値122を計算し、第2の解析結果として第2の定量値123を計算するように構成される。次に、補償器124は、第1の定量値から、かつ第2の定量値から、定量補償値125を計算するように構成される。最後に、パラメータ計算機が、定量補償値を用いて定量パラメータを計算するように構成される。
【0037】
しかしながら本発明は、定性的な解析結果のみしか得られない場合にも適用可能である。この場合は、定性補償値が計算され、これが次に、一定の非補償パラメータをある程度低下、または上昇させるように、パラメータ計算機を制御する。したがって、両方の解析結果によって、パラメータがある程度増加または減少する場合があり、ある程度の増加または減少は固定されて、いかなる定量的結果にも依存しない。しかしながら、固定された増加/減少の増分の計算はあまり計算集約的ではないが、定量的結果は、固定された増加/減少の増分よりも好ましい。
【0038】
好ましくは、信号解析器121は、第1の解析結果を取得するために音声データの第1の特徴を解析し、第2の解析結果を取得するために第2のスペクトル帯域の第2の音声データの、同じ第1の特徴をさらに解析する。これとは逆に、パラメータ計算機は、第2の特徴を評価することによって、第2のスペクトル帯域の第2の音声データからパラメータを計算するように構成され、この第2の特徴は、この第1の特徴とは異なる。
【0039】
例示的に、図2は、第1の特徴が、第1の帯域、第2の帯域、その他任意の帯域などの一定の帯域内のスペクトル微細構造、またはエネルギー分布である状況を示す。これとは逆に、パラメータ計算機によって適用された、またはパラメータ計算機によって決定された第2の特徴は、スペクトル包絡尺度、エネルギー尺度、またはパワー尺度であり、あるいは一般に、帯域内のパワー/エネルギーの絶対的または相対的な尺度を与える、利得係数などの振幅関連尺度である。しかしながら、利得係数の特徴から異なる特徴を測定する他のパラメータは、同様にパラメータ計算機によって計算することができる。さらに、一方は個別のソース帯域、他方は宛先帯域、すなわちそれぞれ第1のスペクトル帯域と、第2のスペクトル帯域との他の特徴は、解析器121によって適用し解析することができる。
【0040】
さらに、解析器121は、第2のスペクトル帯域190の第2の音声データを用いることなく第1の解析結果122を計算し、かつ第1のスペクトル帯域180の第1の音声データを用いることなく第2の解析結果123をさらに計算するように構成され、この実施形態では、第1のスペクトル帯域と第2のスペクトル帯域とは相互に排他的である、すなわち互いに重なり合わない。
【0041】
さらに、スペクトル解析器130は、音声信号のフレームを構築するように、または音声サンプルのフレームを取得するために、音声サンプルの入来ストリームを窓処理するようにさらに構成され、隣接するフレームの音声サンプルは互いに重なる。例えば、50%重なり合う場合は、前のフレームの後半部分が、後のフレームの前半に含まれる、同じ元の音声サンプルから導出された音声サンプルを有し、フレーム内の音声サンプルは、窓処理によって元の音声サンプルから導出される。
【0042】
この場合、音声信号は、例えば、フレームビルダの機能をさらに有する図1のブロック130によってさらに提供されるような、フレームの時系列を含み、補償器124は、以前のフレームの以前の補償フレーム値を用いて、現在のフレームの現在の補償値を計算するように構成される。これは通常、一種の平滑化処理となる。
【0043】
後で概説するように、図2に示す補償検出器210は、これに加えて、またはこれに代えて、符号221、223で示す、図2の他の機能からのパワースペクトル入力、および過渡入力をそれぞれ含んでもよい。
【0044】
特に、補償検出器210は、図1の元の音声信号100のパワースペクトルが使用可能なときは、パラメータ計算機126が使用する補償のみを指示するように構成される。このこと、すなわちパワースペクトルの使用可否については、いくつかのデータ要素またはフラグによって信号が送られる。
【0045】
さらに、補償検出器210は、過渡情報ライン223が現在のフレームに対して、過渡が存在しないという信号を送ったときは、制御ライン212を介してのみ補償処理を可能にするように構成される。したがって、ライン223が、過渡が存在するという信号を送ったときは、解析結果にかかわらず、補償処理全体が無効になる。これは当然のことながら、第2のスペクトル帯域に補償を知らせる信号が送られると、第3のスペクトル帯域に適用される。しかしながら、このフレームに対して過渡状況などの状況が検出されると、いくつかのフレームでは、これが第2のスペクトル帯域にも適用される。したがって、この状況により、いくつかの時間フレームに対して、パラメータ補償がまったく行われないようにすることができ、そしてこれは行われないようになる。
【0046】
図3aは、振幅A(f)、または2乗振幅A(f)のスペクトルの図を示す。特に、XOVERまたはIGF開始周波数が示されている。
【0047】
さらに、重なり合っている1組のソース帯域が示され、ソース帯域は、第1のスペクトル帯域180と、別のソース帯域302と、さらに別のソース帯域303とを含む。また、IGFまたはXOVER周波数を上回る宛先帯域は、例えば、第2のスペクトル帯域190、別の宛先帯域305、さらに別の宛先帯域307、および第3のスペクトル帯域202である。
【0048】
通常は、IGFまたは帯域幅拡張の枠組み内のマッピング機能によって、個々のソース帯域180、302、303と、個々の宛先帯域305、190、307、202との間のマッピングを定義する。このマッピングは、3GPP TS 26.445の事例として固定されてもよく、あるいはいくつかのIGFエンコーダアルゴリズムによって、適応的に決定することができる。いずれの場合も、図3aでは、下の表に、重なり合わない宛先帯域、および重なり合うソース帯域の場合の、宛先帯域とソース帯域との間のマッピングを示し、このマッピングがいくつかのフレームに対して固定される、あるいは適応的に決定されて実際に適応的に決定されているかどうかにかかわりなく、図3aの上部にスペクトルが示されている。
【0049】
図4は、補償器124の実施をより詳細に示す。この実施では、補償器124は、第1のスペクトル帯域に対する、スペクトル平坦性尺度、波高率、スペクトル傾斜値、その他任意の種類のパラメトリックデータとすることができる第1の解析結果122に加えて、第2のスペクトル帯域に対する解析結果123を受信する。この解析結果は、ここでも、第2のスペクトル帯域のスペクトル平坦性尺度、第2のスペクトル帯域の波高率、または傾斜値、すなわち第2のスペクトル帯域に限定したスペクトル傾斜値であってもよく、第1のスペクトル帯域の傾斜値またはスペクトル傾斜値もまた、第1のスペクトル帯域に限定される。また、補償器124は、第2のスペクトル帯域の停止線などの、第2のスペクトル帯域のスペクトル情報を受信する。したがって、図2のパラメトリック計算機126が、第3のスペクトル帯域202の第3の音声データをパラメトリックに符号化するように構成される状況では、第3のスペクトル帯域は、第2のスペクトル帯域よりも高い周波数を含む。これについては、図3aの例にも図示されており、第3のスペクトル帯域は第2のスペクトル帯域よりも高い周波数にある、すなわち帯域202は、帯域190よりも高い周波数を有する。この状況では、補償器124は、第3のスペクトル帯域に対する補償値の計算に重み値を使用するように構成され、この第3の重み値は、第2のスペクトル帯域に対する補償値の計算に用いられた重み値とは異なる。したがって一般に補償器124は、同じ他の入力値に対して、周波数が高いと補償値が小さくなるように、補償値125の計算に影響を与える。
【0050】
重み値は、例えば、後で述べるように、第1および第2の解析結果に基づいた補償値の計算に適用される、指数αなどの指数にすることができ、あるいは低い周波数に対してパラメータを計算するときの影響に比べて、高い周波数に異なる影響を与えられる、例えば、乗算値、または加算もしくは減算される値にもすることができる。
【0051】
また、図4に示すように、補償器は、第2のスペクトル帯域の音調対ノイズ比を受信し、第2のスペクトル帯域の第2の音声データの、音調対ノイズ比に依存する補償値を計算する。したがって、第1の音調対ノイズ比に対する第1の補償値が取得される、または第2の音調対ノイズ比に対する第2の補償値が取得され、第1の音調対ノイズ比が第2の音調対ノイズ比よりも大きいときは、第1の補償値は第2の補償値よりも大きくなる。
【0052】
前述したように、補償器124は、音響心理モデルを適用することによって補償値をほぼ決定するように構成され、音響心理モデルは、補償値を取得するために、第1の解析結果と第2の解析結果とを用いて、第1の音声データと第2の音声データとの間の音響心理学的不一致を評価するように構成される。音響心理学的不一致を評価するこの音響心理モデルは、後のSFM計算との関連で後述する、フィードフォワード計算として実施することができ、あるいはその代わりに、合成手順によるある種の解析を適用する、フィードバック計算モジュールにすることができる。さらに、音響心理モデルは、ニューラルネットワークとして、またはどの場合に補償が必要で、どの場合に補償が必要でないかを決定するために、一定のトレーニングデータによって自動的に排出される、類似の構造として実装されてもよい。
【0053】
続いて、図2に示す補償検出器210、または概して、パラメータ計算機120に含まれる検出器の機能を示す。
【0054】
補償検出器の機能は、第1の解析結果と第2の解析結果との差分が、例えば、図6の600および602におけるように、図示されているような所定の特徴を有するときに、補償状況を検出するように構成される。ブロック600は、第1の解析結果と第2の解析結果との差分を計算するように構成され、次にブロック602は、差分が所定の特徴、または所定の値を有するかどうかを判定する。所定の特徴がないと判定された場合は、次に、符号603で示すように、ブロック602によって補償が行われないことが判定される。しかしながら、所定の特徴が存在すると判定された場合は、ライン604を介して制御が進行する。さらに、検出器は、これに代えて、またはこれに加えて、第2の解析結果が、いくつかの所定の値、またはいくつかの所定の特徴を有するかどうかを判定するように構成される。特徴がないと判定された場合は、次にライン605によって、補償が行われないことを知らせる信号が送信される。しかしながら、所定の値があると判定された場合は、ライン606を介して制御が進行する。本実施形態では、補償があるかないかを判定するには、ライン604および606があれば十分と考えられる。しかしながら、図6に示す実施形態では、後述するように、図1の第2のスペクトル帯域190の、第2の音声データのスペクトル傾斜に基づいた別の判定が行われる。
【0055】
一実施形態では、解析器は、第1の解析結果として、スペクトル平坦性尺度、波高率、または第1のスペクトル帯域に対する、スペクトル平坦性尺度と波高率との商を計算し、かつ第2の解析結果として、スペクトル平坦性尺度、または波高率、あるいは第2の音声データのスペクトル平坦性尺度と波高率との商を計算するように構成される。
【0056】
このような実施形態では、パラメータ計算機126は、第2の音声データから、スペクトル包絡情報、または利得係数を計算するようにさらに構成される。
【0057】
さらに、このような実施形態では、補償器124は、補償値125を計算するように構成され、その結果、第1の解析結果と第2の解析結果との間の第1の差分に対して第1の補償値が得られ、かつ第1の解析結果と第2の解析結果との差分に対して第2の補償値が計算され、第1の補償値が第2の補償値よりも大きいときは、第1の差分が第2の差分よりも大きい。
【0058】
次に、図6の説明はさらに、補償状況が検出されるかどうかについて、任意に追加判定されることを示している。
【0059】
ブロック608において、第2の音声データからスペクトル傾斜が計算される。610で示すように、このスペクトル傾斜が閾値を下回ると判定されたときは、612に示すように、補償状況であることが肯定され確認される。しかしながら、スペクトル傾斜が所定の閾値を下回らず、閾値を上回ると判定されたときは、この状況を知らせる信号がライン614によって送信される。ブロック616において、音調成分が、第2のスペクトル帯域190の境界近くにあるかどうかが判定される。符号618で示すように、境界近くに音調成分があると判定されると、補償状況であることが再度肯定され確認される。しかしながら、境界近くに音調成分が存在しないと判定されると、補償は取り消される、すなわちライン620で示すようにオフに切り替えられる。ブロック616における判定、すなわち音調成分が境界に近いかどうかの判定は、任意の実施形態で、シフト済みSFM計算を行うことによってなされる。ブロック608で判定されるように、傾斜に急激な減少があるときは、SFMが計算される周波数領域は、対応するスケール因子帯域(SFB)、または第2のスペクトル帯域の幅の半分だけ下方にシフトする。強い傾斜に対しては、SFMが計算される周波数領域は、第2のスペクトル帯域の幅の半分だけ上方にシフトされる。このようにして、SFMが低いために、減衰するはずだった音調成分を正しく検出することができ、高いSFM値に対して減衰が適用されることはない。
【0060】
続いて、図5についてより詳細に説明する。具体的には、パラメータ計算機126は、第2のスペクトル帯域、すなわち宛先帯域の音声データから非補償パラメータを計算する、計算機501を備えてもよく、パラメータ計算機126は、非補償パラメータ502と、補償値125とを結合する、結合器503をさらに備える。この結合は、例えば、非補償パラメータ502が利得値で、補償値105が定量補償値のときは、乗算であってもよい。しかしながら、結合器503によって行われる結合は、あるいは、補償値を指数または加算修正として用いた重み付け処理にすることもでき、補償値は、加算値または減算値として用いられる。
【0061】
さらに、図5に示す実施形態は、非補償パラメータが計算された後に、続いて結合値との結合が行われる唯一の実施形態であることに留意されたい。代替的な実施形態では、補償値は、補償済みパラメータの計算に既に導入しておくことができ、その結果、明示的な非補償パラメータを伴う中間結果は発生しない。その代わりに単一の処理のみが行われ、この「単一の処理」の結果、補償値を用いて、かつ計算アルゴリズムを用いて補償済みパラメータが計算され、補償値125がこのような計算に導入されないときは、その計算結果は非補償パラメータになる。
【0062】
図7は、非補償パラメータを計算するために、計算機501によって適用される手順を示す。図7に示す「IGFスケール因子の計算」は、3GPP TS 26.445 V13.3.3(2015/12)の第5.3.3.2.11.4節とおおよそ一致する。「複素」TCXパワースペクトルP(スペクトル線の実数部および虚数部が評価されるスペクトル)が使用可能になると、非補償パラメータを計算する図5の計算機501は、700で示すように、パワースペクトルPから、第2のスペクトル帯域の振幅関連尺度の計算を行う。さらに、計算機501は、702で示すように、複素スペクトルPから、第1のスペクトル帯域の振幅関連尺度の計算を行う。また、計算機501は、符号704で示すように、第1のスペクトル帯域、すなわちソース帯域の実数部から振幅関連尺度の計算を行い、その結果、3つの振幅関連尺度、Ecplx,target、Ecplx,source、Ereal,sourceが得られ、別の利得係数計算機能706に入力されて、最終的には、Ereal,sourceをEcplx,sourceで割って、Ecplx,targetを乗じたものの関数となる利得係数が得られる。
【0063】
あるいは、複素TCXパワースペクトルが使用できないときは、図7の下部に示すように、振幅関連尺度は、実際の第2のスペクトル帯域のみから計算される。
【0064】
さらに、TCXパワースペクトルPは、例えば、従属節5.3.3.2.11.1.2に示されているように、次の式に基づいて計算されることに留意されたい。
【0065】
P(sb)=R(sb)+I(sb),sb=0,1,2,…,n-1
ここで、nは実際のTCX窓の長さであり、Rは、現在のTCXスペクトルの(コサイン変換された)実数値部を含むベクトルであり、Iは現在のTCXスペクトルの(サイン変換された)虚数部を含むベクトルである。特に、「TCX」という用語は、3GPP用語に関するものであるが、通常は、スペクトル解析器130が、図1のコアエンコーダ110、またはパラメトリックコーダ120に提供するような、第1のスペクトル帯域、または第2のスペクトル帯域のスペクトル値のことを言う。
【0066】
図8aは、好ましい実施形態を示し、信号解析器121は、符号化されて再度復号された第1のスペクトル帯域を計算し、そして当然、符号化/復号された第1のスペクトル帯域の音声データを計算する、コアデコーダ800をさらに備える。
【0067】
次に、コアデコーダ800は、符号化/復号された第1のスペクトル帯域を、信号解析器821に含まれる解析結果計算機801に送って、第1の解析結果122を計算する。さらに、信号解析器は、図1の信号解析器121に含まれる第2の解析結果計算機802を備え、計算済みの第2の解析結果123を計算する。したがって、信号解析器121は、符号化して再度復号した第1のスペクトル帯域を用いて、実際の第1の解析結果122が計算されるように構成され、第2の解析結果は、元の第2のスペクトル帯域から計算される。したがって、解析結果計算機801への入力が、デコーダで使用可能な、第1のスペクトル帯域の復号された第1の音声データに含まれる量子化誤差を既にすべて有しているので、デコーダ側の状況は、エンコーダ側で良好にシミュレートされる。
【0068】
図8bは、信号解析器の好ましい別の実施を示し、これは、図8aの手順に代えて、あるいは図8aの手順に加えて、パッチシミュレータ804を有する。パッチシミュレータ804は、IGFエンコーダの機能を具体的に認識する、すなわち、コアエンコーダによって実際に符号化される第2の宛先帯域内に、複数の線、または少なくとも1つの線があり得ることを認識する。
【0069】
具体的には、この状況は図3bに示されている。
図3bは、図3aの上図と同様に、第1のスペクトル帯域180と、第2のスペクトル帯域190とを示している。しかしながら、図3aで述べたことに加えて、第2のスペクトル帯域は、第2のスペクトル帯域内に含まれる特定の線351、352を含み、これはスペクトル解析器130によって、第1のスペクトル帯域180に加えて、コアエンコーダ110によってさらに符号化される線として決定されたものである。
【0070】
IGF開始周波数310を上回る、いくつかの線のこの特定の符号化は、コアエンコーダ110が、IGF開始周波数よりも高くなる、最大fmax354のナイキスト周波数を有する全帯域エンコーダであるという状況を反映している。これは、交差周波数が最大周波数でもあり、したがってコアエンコーダ110のナイキスト周波数でもある、SBR技術に関連する実施とは対照的である。
【0071】
テストシミュレータ804は、コアデコーダ800から、第1のスペクトル帯域180、または符号化された第1のスペクトル帯域のいずれかを受け、さらに、スペクトル解析器130、またはコアエンコーダ110からの情報を受け、コアエンコーダ出力信号に含まれる、第2のスペクトル帯域に実際のラインがある。これについては、スペクトル解析器130が、ライン806を介して信号を送る、またはライン808を介してコアエンコーダが信号を送る。ここでパッチシミュレータ804は、4つのスペクトル帯域の単純な第1の音声データを用いることによって、かつ線351、352を第1のスペクトル帯域にシフトさせて、第2のスペクトル帯域から線351、352を第1のスペクトル帯域に挿入することによって、第1のスペクトル帯域の第1の音声データをシミュレートする。したがって、線351´および352´は、図3bの線351、352を第2のスペクトル帯域から第1のスペクトル帯域にシフトさせることによって得られたスペクトル線を表す。好ましくは、スペクトル線351、352は、第1のスペクトル帯域に対しては、帯域境界内にあるこれらの線の位置が、両方の帯域で同一になる、すなわち線と帯域境界との間の差周波数が、第2のスペクトル帯域190、および第1のスペクトル帯域180と同一になるように生成される。
【0072】
したがって、パッチシミュレータは、図3cに示す、シミュレートされたデータ808を出力し、これは、単純な第1のスペクトル帯域のデータを有し、これに加えて、第2のスペクトル帯域から第1のスペクトル帯域にシフトされた線を有する。ここで、解析結果計算機801は、特定のデータ808を用いて第1の解析結果102を計算し、解析結果計算機802は、第2のスペクトル帯域の元の第2の音声データ、すなわち図3bに示す、線351、352を含む元の音声データから、第2の解析結果123を計算する。
【0073】
パッチシミュレータ804を用いたこの手順には、追加の線351、352に、例えば、音調性の高さその他の一定の条件を、入力する必要がないという利点がある。その代わりに、第2のスペクトル帯域のいくつかの線が、コアエンコーダによって符号化されるかどうかを判定するのは、完全にスペクトル解析器130、またはコアエンコーダ110次第となる。しかしながら、この処理の結果は、図8bに示すように、これらの線を第1の解析結果122の計算に対する追加の入力として用いることによって、自動的に計算される。
【0074】
続いて、インテリジェントギャップ充填の枠組み内の、音調性不一致の影響が図示される。
【0075】
ノイズ帯域アーチファクトを検出するには、ソーススケール因子帯域(SFB)と、ターゲットSFBとの間の音調性の相違を判定する必要がある。音調性の計算には、スペクトル平坦性尺度(SFM)を使用することができる。ソース帯域の方がターゲット帯域よりもノイズが多いという音調性不一致が見つかった場合、一定量の減衰を印加する必要がある。この状況は図9に示されており、本発明の処理は適用されていない。
【0076】
ツールの急激なオン/オフ動作を避けるために、減衰係数にいくらかの平滑化を適用することも理に適っている。正しい位置に減衰を印加するのに必要なステップについては、以下で詳細に説明する。(なお、減衰は、TCXパワースペクトルPが使用可能で、かつフレームが非過渡(フラグisTransientが無効)であるという、この両方に当てはまる場合にのみ印加される)。
【0077】
音調性不一致の検出:パラメータ
第1のステップにおいて、音調性不一致がノイズ帯域アーチファクトを引き起こす場合がある、これらのSFBを識別する必要がある。これを行うために、IGF範囲の各SFBの音調性と、コピーアップに使用される対応する帯域とを決定する必要がある。音調性を計算するための1つの適切な尺度は、スペクトル平坦性尺度(SFM)であり、これは、スペクトルの幾何平均をその算術平均で割った商に基づき、0~1の範囲になる。値が0に近いと音調性が強いことを示し、値が1に近いと、スペクトルにノイズが非常に多いことを表す。式は、次のようになる。
【0078】
ここでPはTCXパワースペクトル、bは開始線、eは現在のSFBの停止線であり、pは以下の式で定義される。
【0079】
SFMに加えて波高率が計算され、最大エネルギーをスペクトル内の全周波数ビンの平均エネルギーで割ることによって、スペクトル内部でエネルギーがどのように分布するかをさらに示す。SFMを波高率で割ると、現在のフレームにおけるSFBの音調性尺度になる。波高率は、次の式で計算される。
【0080】
ここでPは、TCXパワースペクトル、bは開始線、eは現在のSFBの停止線であり、Emaxは以下の式で定義される。
【0081】
しかしながら、円滑な音調性推定を実現するために、以前のフレームの結果をさらに用いるのが理に適っている。したがって音調性推定は、次の式によって行われる。
ここでsfmは、実際のスペクトル平坦性計算の結果を示し、変数SFMは、波高率で割った商、ならびに平滑化を含む。
【0082】
ここで、ソースと宛先との音調性の差分が計算される。
この差分が正の値になれば、コピーアップを実行するために、ターゲットスペクトルよりもノイズが多いものが用いられるという条件を示す。このようなSFBは、減衰の有力な候補となる。
【0083】
しかしながら、SFM値の低さは、必ずしも音調性の強さを示さず、SFBにおけるエネルギーの急激な減少、または傾斜による可能性もある。このことは特に、SFBの中央部のどこかに帯域制限がある項目に適合する。これは、信号にわずかにローパスフィルタがかかった印象を与える、望ましくない減衰につながる可能性がある。
【0084】
このような場合に減衰を避けるために、SFMdiffが正の全帯域でエネルギーのスペクトル傾斜を計算することによって、影響を受ける可能性があるSFBが決定され、一方向の強い傾斜は、低SFM値を引き起こす急激な低下を示し得る。スペクトル傾斜は、SFBにおいて、以下の式で求められる回帰直線の傾斜で、全スペクトルビンを通じた線形回帰として計算される。
xをビン番号とし、PはTCXパワースペクトル、bは開始線、eは現在のSFBの停止線である。
【0085】
しかしながら、SFBの境界に近い音調成分もまた急な傾斜を引き起こす場合があるが、これも減衰を受ける必要がある。このような2つの事例を分けるために、急な傾斜を伴う帯域に、別のシフト済みSFM計算を行う必要がある。
【0086】
傾斜値の閾値は、次の式で定義される。
正規化として、SFB幅で除算する。
【0087】
強い傾斜
がある場合は、SFMが計算される周波数領域は、SFBの幅の半分だけ下方にシフトされ、強い傾斜
に対しては、上方にシフトされる。このようにして、SFMが低いために、減衰するはずだった音調成分を正しく検出することができ、高いSFM値に対して減衰が適用されることはない。ここでの閾値は値0.04として定義され、減衰は、シフト済みSFMが閾値を下回った場合にのみ印加される。
【0088】
知覚的不快さのモデル
減衰は、正のSFMdiffに印加されるべきではなく、ターゲットSFBの音調性が実際に非常に高い場合に限り有効となる。特定のSFBにおいて、原信号がノイズの多い背景に重ね合わせられると、ノイズの多い帯域に対する知覚差がむしろ小さくなり、減衰によるエネルギー損失が原因で音を感じにくくなることが、むしろ利点になる場合がある。
【0089】
妥当な範囲内で印加されることを確実にするために、減衰は、ターゲットSFBの音調性が実際に非常に高い場合にのみ用いられなければならない。したがって、
および
の両方が保持される場合に限り、減衰が印加されるべきである。
【0090】
考慮するべき別の問題として、IGFスペクトルにおける音調成分の背景の問題がある。ノイズ帯域アーチファクトによって引き起こされる知覚的劣化は、元の音調成分を囲む擬似ノイズ背景がほとんどないか、まったくないときには常に、最も顕著になりやすい。この場合、原音をIGFで生成されたHFスペクトルと比較すると、導入されたノイズ帯域は、まったく新しい、非常に目立って突出したものとして受けとられる。その一方で、かなりの量の背景ノイズが既に存在する場合は、別のノイズが背景に溶け込んで、より不快感の少ない知覚差となる。したがって、印加される減衰の量は、影響を受けるSFBの音調対ノイズ比にも依存していなければならない。
【0091】
この音調対ノイズ比の計算に対し、SFBにおけるすべてのビンiの二乗されたTCXパワースペクトル値Pが合計されて、帯域の平均エネルギーを得るために、SFBの幅(開始線bと停止線eとによって求められる)で除算される。この平均は実質的に、帯域内の全エネルギーの正規化に用いられる。
1未満の正規化されたエネルギーPnorm,kを有するすべてのビンは、次に合計されて、ノイズ部Pnoiseとして数えられ、
で求められる、閾値1+adapを上回るものはすべて、音調部Ptonalとして数えられる。この閾値はSFBの幅に依存し、その結果、音調成分の高エネルギービンの影響が大きいために、狭い帯域は閾値が低くなって、平均が高くなる。音調部およびノイズ部から、最終的にログ比が算出される。
【0092】
減衰は、ソースと宛先との間のSFMの差分、およびターゲットSFBのSFMの両方に依存し、差分の大きさとターゲットSFMの小ささとは、両方とも減衰がより強くなることにつながる。音調性の差分が大きくなるほど強い減衰を印加する必要があるのは、理に適っている。さらに、減衰の量は、ターゲットSFMが低い場合、すなわちターゲットSFBの音調性がより高い場合は、より迅速に増加させる必要がある。つまり、極めて音調性が高いSFBに対しては、SFMが減衰範囲内に納まるSFBに対するよりも、強い減衰が印加される。
【0093】
また、最も高い帯域のエネルギーが奪われると、帯域が制限されたという知覚的印象につながりやすいので、高い周波数に対しては、減衰はより慎重に印加しなければならず、高周波になるほど人の聴覚系の感受性が低くなるために、SFBの微細構造の重要性は低くなる。
【0094】
音調性不一致の補償:減衰係数の計算
これらすべての考慮事項を1つの減衰式に組み入れるには、ターゲットSFMとソースSFMとの比が、公式の基礎として取り入れられる。この方法では、SFMのより大きい差分絶対値と、より小さいターゲットSFM値との両方がより強い減衰になり、単に差分をとるよりもよく適合する。周波数と音調対ノイズ比とに依存性をさらに追加するために、この比に調整パラメータが適用される。したがって減衰式は、次の式で表すことができる。
【0095】
ここでdは、スケーリング係数で乗算される減衰係数であり、αおよびβは、減衰調整パラメータであり、次の式で計算される。
【0096】
ここでeは、現在のSFBの停止線であり、
ここでadapはSFBの幅に依存し、次の式で計算される。
【0097】
パラメータαは、高周波数により小さい減衰を印加するために周波数とともに減少し、βは、減衰されるSFBの音調対ノイズ比が閾値を下回った場合に、減衰の強度をさらに減少させるために用いられる。この閾値を顕著に下回るほど、減衰は削減される。
【0098】
減衰は一定の制約内でのみ有効になるため、オンからオフへ急激に移行するのを防止するために、平滑化を適用する必要がある。これを実現するために、いくつかの平滑化メカニズムが有効化される。
【0099】
移行した後は直接、TCXへのコア切り替え、または減衰されていない以前のフレームの減衰が、高エネルギー過渡後の極端なエネルギー低下を避けるために、そのすべての力が徐々に印加される。さらに、以前のフレームの結果も計算に入れるために、IIRフィルタの形式の忘却係数が使用される。
【0100】
平滑化の技法はすべて、次の式に含まれる。
ここでdprevは、以前のフレームの減衰係数である。以前のフレームで減衰が有効でなかった場合は、dprevがdcurrで上書きされるが、最低0.1までに制限される。変数の平滑化は別の平滑化係数であり、以前のフレームにおいて、減衰が無効だった場合、過渡フレームの間(フラグisTransientが有効)は2に設定され、あるいはコア切り替えの後(フラグisCelpToTCXが有効)は1に設定される。減衰を伴う各フレームにおいて、変数は1まで減少するが、0を下回ることはない。
【0101】
最後のステップにおいて、減衰係数dに、スケーリング利得gが乗算される。
図10は、本発明の好ましい実施を示す。
【0102】
例えば、スペクトル解析器130による出力としての音声信号は、図10の左側にある(c)で示すように、MDCTスペクトル、または複素スペクトルとしても使用可能である。
【0103】
信号解析器121は、ブロック802によってターゲットコンテンツの音調性を検出するために、かつ符号801において(シミュレートされた)ソースコンテンツの音調性を検出するために、図10の音調性検出器801および802によって実施される。
【0104】
次に、補償値を得るために、減衰係数計算124が行われ、その後、補償器503が、符号501、700~706から得られたデータを用いて処理する。符号501、および符号700~706は、ターゲットコンテンツからの包絡推定、およびシミュレートされたソースコンテンツからの包絡推定、ならびに例えば、図7に符号700~706で示されている、これに続くスケーリング係数計算を反映している。
【0105】
したがって、非補償のスケーリングベクトルは、図5を参照して述べたのと同様に、値502としてブロック503に入力される。さらに、図10にはノイズモデル1000が別の構築ブロックとして示されているが、図4を参照して述べたように、同じものを減衰係数計算機124内に直接含めることもできる。
【0106】
また、白色化推定器をさらに備える図10のパラメトリックIGFエンコーダは、例えば、『Coding of IGF whitening levels』の第5.3.3.2.11.6.4項で述べられているように、白色化レベルを計算するように構成される。特に、IGF白色化レベルは、タイルごとに1ビットまたは2ビットを用いて、計算され送信される。このデータは、最後に完全なIGFパラメトリックデータを得るために、同様にビットストリーム多重化装置140に導入される。
【0107】
また、「スペクトル希薄化(sparsify spectrum)」のブロックがさらに提供され、これは、コアエンコーダ110によって符号化されるスペクトル線の決定に関するブロック130に対応し、図10では別のブロック1020として示されている。この情報は、好ましくは、特定のIGF状況を反映するために、補償器503によって使用される。
【0108】
さらに、ブロック801の左側にある「シミュレートされた」という用語、および図10の「包絡推定」というブロックは、図8aに示す状況を指し、「シミュレートされたソースコンテンツ」は、第1のスペクトル帯域で、符号化されて再度復号された音声データである。
【0109】
あるいは、「シミュレートされた」ソースコンテンツは、線180で示すように、第1のスペクトル帯域の、元の第1の音声データからパッチシミュレータ804によって得られたデータであり、または第2のスペクトル帯域から第1のスペクトル帯域にシフトした線で強化された、コアデコーダ800によって得られる復号された第1のスペクトル帯域である。
【0110】
続いて、3GPP TS26.445コーデックの修正バージョンを構成する、本発明の別の実施形態が図示される。本発明のプロセスを指定する、新たに追加された文字を以下に示す。ここで、既に3GPP TS 26.445の規格に既に含まれている、いくつかの従属節が明示的に参照される。
【0111】
5.3.3.2.11.1.9スペクトル傾斜関数SLOPE
を、従属節5.3.3.2.11.1.2に従って計算したTCXパワースペクトルとし、bはスペクトル傾斜測定範囲の開始線、eは停止線である。
【0112】
IGFに適用されるSLOPE関数は、次の式で定義される。
【0113】
SLOPE:
ここでnは実際のTCX窓の長さ、xはビン番号である。
【0114】
5.3.3.2.11.1.10.音調対ノイズ比関数TNR
を、従属節5.3.3.2.11.1.2に従って計算したTCXパワースペクトルとし、bは音調対ノイズ比測定範囲の開始線、eは停止線である。
【0115】
IGFに適用されるTNR関数は、次の式で定義される。
【0116】
TNR:
ここでnは実際のTCX窓の長さ、
は次の式で定義される。
そして、adapは次の式で定義される。
減衰:
IGF減衰係数計算については、フレームにわたってフィルタ状態を保持するために、すべてサイズがnBの6つの静的配列(ターゲットおよびソース範囲のSFM計算についてはprevTargetFIR、prevSrcFIR、prevTargetIIR、およびprevSrcIIR、ならびにprevDampおよびdampSmooth)が必要とされる。また、以前のフレームから入力フラグisTransientの情報を保存するために、静的フラグwasTransientが必要になる。
【0117】
フィルタ状態のリセット
ベクトルprevTargetFIR、prevSrcFIR、prevTargetIIR、prevSrcIIR、ならびにprevDampおよびdampSmoothはすべて、IGFモジュールにおける大きさnBの静的配列であり、次の式の通り初期化される。
【0118】
for k=0,1,…,nB-1
この初期化は、次の条件で行われるものとする。
【0119】
・コーデックの起動を伴う
・ビットレートの切り替えを伴う
・コーデックタイプの切り替えを伴う
・isCelpToTCX=真など、CELPからTCXへの移行を伴う
・isTransient=真など、現在のフレームが過渡プロパティを有する場合
・TCXパワースペクトルPが使用可能でない場合
減衰係数の計算
TCXパワースペクトルPが使用可能で、isTransientが偽の場合は、次の式によって計算する。
および
ここで
は、関数tFで既にマッピングされているものとし、従属節5.3.3.2.11.1.1を参照されたく、
は、従属節5.3.3.2.11.1.8で説明されている、IGFターゲット範囲をIGFソース範囲にマッピングするマッピング関数であり、nBは、表94に示すように、スケール因子帯域の数である。SFMは、スペクトル平坦性尺度関数であり、従属節5.3.3.2.11.1.3で説明されており、CRESTは波高率関数であり、従属節5.3.3.2.11.1.4で説明されている。
【0120】
isCelpToTCXが真、またはwasTransientが真の場合、以下のように設定される。
【0121】
for k=0,1,…,nB-1
以下の通り計算する。
および
これらのベクトルで、以下の通り計算する。
if for
または
であり、以下を設定する。
【0122】
他に、従属節5.3.3.2.11.1.9で説明されているように、SLOPE関数でスペクトル傾斜を計算する。
if for
または else if
【0123】
ここでthreshTiltは、次のように定義される。
シフトしたスペクトラムのSFMを計算する。
シフトは次のように定義される。
if
以下を設定する。
if for
帯域kにおいて、現在のフレームの減衰係数dampCurrをゼロに設定する。
あるいは、
を以下のように計算する。
【0124】
ここでalphaは、以下のように定義され、
betaは以下のように定義される。
ここでTNRは、従属節5.3.3.2.11.1.10で説明される音調対ノイズ比関数であり、adapは以下のように定義される。
if for
次のように設定する。
サイズnBの減衰係数dのベクトルを計算する。
最後に、isTransientが偽で、パワースペクトルPが使用可能であれば、フィルタを更新する。
【0125】
for k=0,1…,nB-1
前述した部分の値/指数/パラメータの名前は、本明細書全体を通じて述べられている、対応するパラメータ/指数/値と同様である。次に、聞き取りテストのいくつかの結果を、図11a~図11cを参照して説明する。
【0126】
これらの聞き取りテストは、可能化された減衰で符号化された項目と、減衰なしで符号化された項目とを比較することによって、減衰の利点を示すために行った。
【0127】
図11aに示す第1の結果は、モノラルアイテム(mono-items)を用いた、ビットレート13.2kbpsでサンプル比が32kHzのA-B比較テストである。図11aには、13.2kbpsにおける、減衰あり対減衰なしのA-Bテストの結果が示されている。
【0128】
図11bに示す2つ目の結果は、モノラルアイテムを用いた、24.4kbpsでサンプル比32kHzのMUSHRAテストの結果である。ここでは、減衰なしの2つのバージョンを、減衰ありの新しいバージョンと比較した。その結果が、図11b(絶対評価)、および図11c(差分評価)に示されている。
【0129】
本発明による符号化された音声信号は、デジタル記憶媒体、または非一時的な記憶媒体に記憶することができ、あるいは無線送信媒体、またはインターネットなどの有線送信媒体などの送信媒体で送信することができる。
【0130】
装置に関し、いくつかの態様について説明してきたが、これらの態様は、対応する方法の説明も表していることは明らかであり、ブロックまたは機器は、方法ステップ、または方法ステップの特徴に対応する。同様に、方法ステップに関して説明した態様は、対応するブロックまたは符号、あるいは対応する装置の特徴の説明をさらに表す。
【0131】
いくつかの実施要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアに実装することができる。この実装は、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリなどのデジタル記憶媒体を用いて実行することができ、これらには電子的に読み取り可能な制御信号が記憶されており、各方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することが可能である)。
【0132】
本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を含むデータ担体を備え、これは、本明細書で説明する方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる。
【0133】
通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータで実行されるときに、方法の1つを実行するために有効になる。プログラムコードは、例えば、機械読み取り可能な担体に記憶されてもよい。
【0134】
他の実施形態は、本明細書で説明する方法の1つを実行するためのコンピュータプログラムを含み、機械読み取り可能な担体、または非一時的な記憶媒体に記憶される。
【0135】
言い換えれば、発明的方法の実施形態は、したがって、コンピュータプログラムがコンピュータで実行されるときに、本明細書で説明する方法の1つを実行するためのプログラムコードを含む、コンピュータプログラムである。
【0136】
発明的方法の別の実施形態は、したがって、本明細書で説明する方法の1つを実行するための、そこに記録されたコンピュータプログラムを含む、データ担体(またはデジタル記憶媒体もしくはコンピュータ可読媒体)である。
【0137】
発明的方法のさらに別の実施形態は、したがって、本明細書で説明する方法の1つを実行するためのコンピュータプログラムを表す、データ列または一連の信号である。データ列または一連の信号は、例えば、インターネットを介したデータ通信接続等を介して転送されるように構成されてもよい。
【0138】
別の実施形態は、本明細書で説明する方法の1つを実行するように構成されるかまたは適合された、コンピュータ、またはプログラム可能な論理装置等の処理手段を含む。
【0139】
別の実施形態は、本明細書で説明する方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
【0140】
いくつかの実施形態では、本明細書で説明する方法の機能のいくつか、またはすべてを実行するために、プログラム可能な論理装置(例えばフィールド・プログラマブル・ゲート・アレイ(field programmable gate array))が用いられてもよい。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法の1つを実行するために、マイクロプロセッサと協働してもよい。一般に、本方法は、好ましくは、任意のハードウェア装置で実行される。
【0141】
上述の実施形態は、本発明の原理の単なる例示である。本明細書で説明した配置および詳細の、修正および変形は、当業者には明らかであることが理解されよう。したがって、添付の特許請求の範囲によってのみ限定され、本明細書の実施形態の記述および説明として提示した、具体的な詳細によっては限定されないことを意図している。
図1
図2
図3a
図3b
図3c
図4
図5
図6
図7
図8a
図8b
図9
図10
図11a
図11b
図11c