(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-10
(54)【発明の名称】望ましくない音の粗さを除去するための装置および方法
(51)【国際特許分類】
G10L 25/69 20130101AFI20240703BHJP
G10L 21/0208 20130101ALI20240703BHJP
G10L 19/008 20130101ALI20240703BHJP
【FI】
G10L25/69
G10L21/0208 100B
G10L19/008 100
【審査請求】有
【予備審査請求】有
(21)【出願番号】P 2023579329
(86)(22)【出願日】2021-09-20
(85)【翻訳文提出日】2024-02-21
(86)【国際出願番号】 EP2021075816
(87)【国際公開番号】W WO2022268347
(87)【国際公開日】2022-12-29
(32)【優先日】2021-06-24
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】500242786
【氏名又は名称】フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ザシャ・ディッシュ
(72)【発明者】
【氏名】スティーブン・ヴァン・デー・パー
(72)【発明者】
【氏名】アンドレアス・ニーダーマイアー
(72)【発明者】
【氏名】ベルント・エドラー
(57)【要約】
一実施形態による、オーディオ入力信号を処理してオーディオ出力信号を取得するための装置(100)が提供される。装置(100)は、オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定するように構成された信号分析器(110)を備える。さらに、装置(100)は、1つまたは複数のスペクトル帯域の音の粗さに関する情報に応じてオーディオ入力信号を処理するように構成された信号プロセッサ(120)を備える。
【特許請求の範囲】
【請求項1】
オーディオ入力信号を処理してオーディオ出力信号を取得するための装置(100)であって、
前記オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定するように構成された信号分析器(110)と、
前記1つまたは複数のスペクトル帯域の前記音の粗さに関する前記情報に応じて前記オーディオ入力信号を処理するように構成された信号プロセッサ(120)とを備える装置(100)。
【請求項2】
前記オーディオ入力信号の前記1つまたは複数のスペクトル帯域の前記音の粗さは、前記エンコード済みオーディオ信号を取得するために元のオーディオ信号をエンコードすることによって持ち込まれ、および/または前記オーディオ入力信号を取得するために前記エンコード済みオーディオ信号をデコードすることによって持ち込まれる符号化誤差に依存する請求項1に記載の装置(100)。
【請求項3】
前記信号分析器(110)は、前記1つまたは複数のスペクトル帯域内の複数の純音性成分を決定するように構成され、
前記信号分析器(110)は、前記複数の純音性成分の各々の一方から前記複数の純音性成分の他方へのスペクトル近接度に応じて前記複数の純音性成分のうちから1つまたは複数の純音性成分を選択するように構成され、
前記信号プロセッサ(120)は、前記1つまたは複数の純音性成分を除去しおよび/または減衰させおよび/または修正するように構成される請求項1または2に記載の装置(100)。
【請求項4】
前記信号分析器(110)は、ステアリング情報を含むビットストリームを受信するように構成され、
前記信号分析器110は、前記ステアリング情報にさらに応じて純音性成分のグループから前記1つまたは複数の純音性成分を選択するように構成される請求項3に記載の装置(100)。
【請求項5】
前記ステアリング情報は、第1の時間周波数領域または第1の周波数領域で表現され、前記ステアリング情報は、第1のスペクトル分解能を有し、
前記信号分析器(110)は、第2のスペクトル分解能を有する第2の時間周波数領域において前記複数の純音性成分を決定するように構成され、前記第2のスペクトル分解能は前記第1のスペクトル分解能とは異なるスペクトル分解能である請求項4に記載の装置(100)。
【請求項6】
前記信号プロセッサ(120)は、時間平滑化を採用することによって、または時間減衰を採用することによって、前記1つまたは複数の純音性成分を除去しおよび/または減衰させおよび/または修正するように構成される請求項3から5のいずれか一項に記載の装置(100)。
【請求項7】
前記信号プロセッサ(120)は、前記オーディオ入力信号の振幅スペクトルから1つまたは複数のサイドピークを除去することによって、または減衰させることによって、前記オーディオ入力信号を処理するように構成され、前記1つまたは複数のサイドピークの各サイドピークは、前記振幅スペクトル内の別の局所的ピークから事前定義された周波数距離内に配置され、前記他の局所的ピークよりも小さい振幅を有する、前記振幅スペクトル内の局所的ピークである請求項1から6のいずれか一項に記載の装置(100)。
【請求項8】
前記信号分析器(110)は、前記音の粗さに関する前記情報を取得するために前記オーディオ入力信号の前記1つまたは複数のスペクトル帯域の初期振幅スペクトルにおける複数の局所的ピークを決定するように構成される請求項1から7のいずれか一項に記載の装置(100)。
【請求項9】
前記複数の局所的ピークは、複数の局所的ピークの第1のグループであり、
前記信号分析器(110)は、平滑化された振幅スペクトルを取得するために前記1つまたは複数のスペクトル帯域の前記初期振幅スペクトルを平滑化するように構成され、
前記信号分析器(110)は、前記平滑化された振幅スペクトルにおける1つまたは複数の局所的ピークの第2のグループを決定するように構成され、
前記信号分析器(110)は、前記音の粗さに関する前記情報として、局所的ピークの前記第2のグループ内に対応するピークを有しない前記複数の局所的ピークの前記第1のグループのすべての局所的ピークを含む1つまたは複数の局所的ピークの第3のグループを、1つまたは複数の局所的ピークの前記第3のグループが1つまたは複数の局所的ピークの前記第2のグループの任意の局所的ピークを含まないように決定するように構成される請求項8に記載の装置(100)。
【請求項10】
前記信号分析器(110)は、前記第1のグループの前記複数のピークの各ピークについて、前記第2のグループが前記ピークに関連付けられているピークを含むかどうかを、前記ピークと同じ周波数に配置されている前記第2のグループのピークが、前記ピークと関連付けられ、前記ピークから事前定義された周波数距離内に配置されている前記第2のグループのピークが、前記ピークと関連付けられ、前記ピークから前記事前定義された周波数距離の外に配置されている前記第2のグループのピークが、前記ピークと関連付けられていないように決定するように構成される請求項9に記載の装置(100)。
【請求項11】
前記信号プロセッサ(120)は、前記オーディオ出力信号の前記1つまたは複数のスペクトル帯域の振幅スペクトルを取得するために前記1つまたは複数のスペクトル帯域の前記初期振幅スペクトルにおける前記第3のグループの前記1つまたは複数の局所的ピークを除去することによって、または減衰させることによって前記オーディオ入力信号を処理するように構成される請求項9または10に記載の装置(100)。
【請求項12】
前記第3のグループの前記1つまたは複数のサイドピークあるいは前記1つまたは複数の局所的ピークの各ピークを除去するかまたは減衰させるために、前記信号プロセッサ(120)は、前記ピークおよび前記ピークの周辺領域を減衰させるように構成される請求項7または請求項10もしくは11に記載の装置(100)。
【請求項13】
前記信号プロセッサ(120)は、前記ピークの前記周辺領域を、前記ピークの直前の極小値および前記ピークの直後の極小値が前記周辺領域を制限するように決定するように構成される請求項12に記載の装置(100)。
【請求項14】
前記オーディオ入力信号の前記周波数スペクトルは、複数のスペクトル帯域を含み、
前記信号分析器(110)は、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を受信するか、または決定するように構成され、
前記信号分析器(110)は、前記オーディオ入力信号の前記1つまたは複数のスペクトル帯域について前記音の粗さに関する前記情報を決定するように構成され、
前記信号分析器(110)は、前記オーディオ入力信号の前記複数のスペクトル帯域のうちの他の任意のスペクトル帯域について、前記音の粗さに関する情報を決定しないように構成される請求項1から13のいずれか一項に記載の装置(100)。
【請求項15】
前記信号分析器(110)は、前記音の粗さに関する前記情報が決定されなければならない、前記1つまたは複数のスペクトル帯域に関する前記情報をエンコーダ側から受信するように構成される請求項14に記載の装置(100)。
【請求項16】
前記信号分析器(110)は、バイナリマスクまたは圧縮バイナリマスクとして、前記音の粗さに関する前記情報が決定されなければならない、前記1つまたは複数のスペクトル帯域に関する前記情報を受信するように構成される請求項14または15に記載の装置(100)。
【請求項17】
前記装置(100)は、選択フィルタを受信するように構成され、
前記信号分析器(110)は、前記選択フィルタに応じて、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を決定するように構成される請求項14から16のいずれか一項に記載の装置(100)。
【請求項18】
前記信号分析器(110)は、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を決定するように構成される請求項14に記載の装置(100)。
【請求項19】
前記信号分析器(110)は、前記音の粗さに関する前記情報が決定されなければならない前記1つまたは複数のスペクトル帯域に関する前記情報を示すサイド情報を前記信号分析器(110)が受信することなく、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を決定するように構成される請求項18に記載の装置(100)。
【請求項20】
前記信号分析器(110)は、人工知能の概念を採用することによって、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を決定するように構成される請求項18または19に記載の装置(100)。
【請求項21】
前記信号分析器(110)は、前記信号分析器(110)によって採用されている前記人工知能の概念としてニューラルネットワークを採用することによって、前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を決定するように構成される請求項20に記載の装置(100)。
【請求項22】
前記ニューラルネットワークは、畳み込みニューラルネットワークである請求項21に記載の装置(100)。
【請求項23】
前記信号分析器110は、1つまたは複数のトランジェントを含む、前記複数のスペクトル帯域のうちのそれらのスペクトル帯域に対して前記音の粗さに関する前記情報を使用しないように構成される請求項14から22のいずれか一項に記載の装置(100)。
【請求項24】
エンコード済みオーディオ信号からオーディオ出力信号を生成するための装置(200)であって、
前記エンコード済みオーディオ信号をデコードしてデコード済みオーディオ信号を取得するように構成されたオーディオデコーダ(210)と、
請求項1から23のいずれか一項に記載の処理のための装置(100)とを備え、
前記オーディオデコーダ(210)は、前記デコード済みオーディオ信号を前記オーディオ入力信号として請求項1から23のいずれか一項に記載の処理のための前記装置(100)に供給するように構成され、
請求項1から23のいずれか一項に記載の処理のための前記装置(100)は、前記デコード済みオーディオ信号を処理して前記オーディオ出力信号を取得するように構成される装置(200)。
【請求項25】
前記オーディオデコーダ(210)は、第1のフレーム長を有する第1の時間ブロック毎の処理を使用して前記エンコード済みオーディオ信号をデコードするように構成され、
処理のための前記装置(100)の前記信号分析器(110)は、第2のフレーム長を有する第2の時間ブロック毎の処理を使用して前記音の粗さに関する前記情報を決定するように構成され、前記第2のフレーム長は、前記第1のフレーム長よりも長い、請求項24に記載の装置(200)。
【請求項26】
前記オーディオデコーダ(210)は、前記エンコード済みオーディオ信号をデコードして、ミッドチャネルおよびサイドチャネルを含むミッドサイド信号である前記デコード済みオーディオ信号を取得するように構成され、
処理のための前記装置(100)は、前記ミッドサイド信号を処理して処理のための前記装置(100)の前記オーディオ出力信号を取得するように構成され、
生成のための前記装置(200)は、変換後に前記オーディオ出力信号がステレオ信号の左チャネルおよび右チャネルを含むように前記オーディオ出力信号を変換する変換モジュールをさらに備える請求項24または25に記載の装置(200)。
【請求項27】
初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するためのオーディオエンコーダ(300)であって、
前記初期オーディオ信号をエンコードして前記エンコード済みオーディオ信号を取得するためのエンコーディングモジュール(310)と、
前記初期オーディオ信号に応じて、さらに前記エンコード済みオーディオ信号に応じて、前記補助情報を生成し出力するためのサイド情報生成器(320)とを備え、
前記補助情報は、デコーダ側で音の粗さの情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す指示を含むオーディオエンコーダ(300)。
【請求項28】
前記サイド情報生成器(320)は、知覚分析モデルまたは心理音響モデルに応じて前記付加的情報を生成するように構成される請求項27に記載のオーディオエンコーダ(300)。
【請求項29】
前記サイド情報生成器(320)は、前記知覚分析モデルまたは前記心理音響モデルを使用して前記エンコード済みオーディオ信号中の音の粗さの知覚される変化を推定するように構成される請求項28に記載のオーディオエンコーダ(300)。
【請求項30】
前記サイド情報生成器(320)は、前記補助情報として、粗さの増大を示し、前記デコーダ側で前記音の粗さに関する前記情報が決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を示すバイナリマスクを生成するように構成される請求項27から29のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項31】
前記サイド情報生成器(320)は、前記バイナリマスクを圧縮バイナリマスクとして生成するように構成される請求項30に記載のオーディオエンコーダ(300)。
【請求項32】
前記サイド情報生成器(320)は、時間変調処理を採用することによって前記補助情報を生成するように構成される請求項27から31のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項33】
前記サイド情報生成器(320)は、選択フィルタを生成することによって前記補助情報を生成するように構成される請求項27から32のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項34】
前記サイド情報生成器(320)は、時間平滑化を採用することによって前記選択フィルタを生成するように構成される請求項33に記載のオーディオエンコーダ(300)。
【請求項35】
前記サイド情報生成器(320)は、ニューラルネットワークを採用することによって音の粗さに関する情報がデコーダ側で決定されなければならない、前記複数のスペクトル帯域のうちの前記1つまたは複数のスペクトル帯域を示す前記補助情報の前記指示を生成するように構成される請求項27から34のいずれか一項に記載のオーディオエンコーダ(300)。
【請求項36】
前記ニューラルネットワークは、畳み込みニューラルネットワークである請求項35に記載のオーディオエンコーダ(200)。
【請求項37】
システムであって、
初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するための請求項27から36のいずれか一項に記載のオーディオエンコーダ(300)と、
エンコード済みオーディオ信号からオーディオ出力信号を生成するための請求項24から26のいずれか一項に記載の装置(200)とを備え、
請求項24から26のいずれか一項に記載の前記装置(200)は、エンコード済みオーディオ信号に応じて、また前記補助情報に応じて、前記オーディオ出力信号を生成するように構成されるシステム。
【請求項38】
オーディオ入力信号を処理してオーディオ出力信号を取得するための方法であって、
前記オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定するステップと、
前記1つまたは複数のスペクトル帯域の前記音の粗さに関する前記情報に応じて前記オーディオ入力信号を処理するステップとを含む方法。
【請求項39】
初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するための方法であって、
前記初期オーディオ信号をエンコードして前記エンコード済みオーディオ信号を取得するステップと、
前記初期オーディオ信号に応じて、さらに前記エンコード済みオーディオ信号に応じて、前記補助情報を生成し出力するステップとを含み、
前記補助情報は、デコーダ側で音の粗さの情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す指示を含む方法。
【請求項40】
コンピュータまたは信号プロセッサ上で実行されたときに請求項38または39に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、望ましくない音の粗さ(auditory roughness)を除去するための装置および方法に関する。
【背景技術】
【0002】
非常に低いビットレートでの知覚的オーディオ符号化において、時には、変調アーチファクトが明確な純音性成分(tonal component)を含むオーディオ信号に持ち込まれる。このような変調アーチファクトは、しばしば音の粗さとして知覚される。これは、量子化誤差、または複製された帯域のエッジに不規則な高調波構造を引き起こすオーディオ帯域幅拡張に起因することがあり得る。特に、量子化誤差に起因する粗さアーチファクトは、純音性成分のエンコーディングにかなり多くのビットを投じなければ克服することが困難である。
【0003】
低ビットレートオーディオ符号化では、生の非圧縮16ビットサンプリングPCMオーディオ信号と比較して、必要とするデジタル情報がかなり少ないオーディオ信号の非常に効率的な表現が使用される。xHE-AACおよびMPEG-Hのような最新の変換コーダでは、効率性は、各オーディオフレームが心理音響モデルによって監視され、利用可能なビットバジェットによって制約される可変精度で表現され得るMDCTを使用して生の入力オーディオ信号を時間周波数領域表現に変換することによって部分的に取得される。エンコーディングプロセスにおいて両方の制御メカニズムを適用することにより、その結果は、量子化ノイズが時間フレームおよび周波数帯域にわたって変化しているオーディオビットストリームとなる。
【0004】
理想的な場合において、エンコーダ側では、量子化ノイズは聴覚マスキングに起因してこれが聞き取れなくなるように整形される。しかしながら、非常に低いビットレートについては、量子化ノイズは、特に、長い継続時間を有する純音性成分がオーディオ信号中に存在する場合に、ある時点において聞こえるようになる。その理由は、これらの純音性成分を量子化することは、オーディオフレームにまたがる振幅を変化させ、可聴振幅変調を引き起こし得ることである。典型的な変換コーダのオーディオフレームレートが43Hzの場合、これらの変調は、最大でこの半分のレートで信号に加えられる。これは、粗さ知覚を引き起こす変調レートより低いが、(遅い)r-ラフネスを引き起こす範囲内にある。さらに、時間領域のオーディオフレームを周波数領域に変換するために使用される短期ウィンドウ処理に起因して、完全な静止純音性成分は、隣接する周波数ビンの範囲内で表現され、それらのうちのいくつかは、特に非常に低いビットレートで、ゼロに量子化されがちである。
【0005】
ビットレートを純粋な変換コーダに対する良好なオーディオ音質に必要な範囲よりも低くすることは、xHE-AACで使用されるSpectral Band Replication(スペクトル帯域複製)[1]、SBRまたはMPEG-Hとともに使用されるIntelligent Gap Filling(インテリジェントギャップ充填)[2]、IGFのような付加的なセミパラメトリック技術を使用することで可能である。高周波成分は、低周波スペクトルのシフトされたコピーおよびスペクトルエンベロープ整形を使用して再構成される。それぞれSBRまたはIGFを使えば、良好なオーディオ音質を維持することが可能である。
【0006】
しかし、すでに存在している時間変調とともに純音性周波数成分がコピーされるので、SBRおよびIGFは、粗さアーチファクトを増幅し得る。
【0007】
それに加えて、それらの技術は、特に、複製された帯域の間の遷移領域において、新しい粗さアーチファクトを持ち込むことがあり、多くのオーディオフレームでは、元の信号に存在していた規則的な調和格子からの逸脱があり得る。最近の研究により、心理音響モデルを使用して最良の複製マッピングを適応的に決定することは、オーディオ音質の改善につながり得ることが示された[5]。
【0008】
音色性信号中のノイズを抑制するための事後フィルタ処理アプローチは、信号の粗さを部分的に除去する。前記アプローチは、基本周波数の測定に依存し、基本周波数にチューニングされた櫛形フィルタを適用することを通してノイズを除去するか、または長期予測器(LTP)などの、予測符号化に依存する。これらのアプローチはすべて、モノピッチ信号のみに対して機能し、多数のピッチを示すポリフォニックまたは不協和コンテンツからノイズを除去することはできない。それに加えて、この方法では、元の信号に存在するノイズと、エンコーディング-デコーディングプロセスに起因して持ち込まれるノイズとを区別することができない。
【0009】
したがって、音の粗さ除去のための改善された概念が提供されれば、これは高く評価されるであろう。
【先行技術文献】
【非特許文献】
【0010】
【非特許文献1】[1] Dietz, M., Liljeryd, L., Kjorling, K., and Kunz, O., “Spectral Band Replication, a Novel Approach in Audio Coding,” in Audio Engineering Society Convention 112, 2002.
【非特許文献2】[2] Disch, S., Niedermeier, A., Helmrich, C. R., Neukam, C., Schmidt, K., Geiger, R., Lecomte, J., Ghido, F., Nagel, F., and Edler, B., “Intelligent Gap Filling in Perceptual Transform Coding of Audio,” in Audio Engineering Society Convention 141, 2016.
【非特許文献3】[3] Dau, T., Kollmeier, B., and Kohlrausch, A., “Modelling auditory processing of amplitude modulation. I. Detection and masking with narrow-band carriers,” J. Acoust. Soc. Am., 102, pp. 2892-2905, 1997.
【非特許文献4】[4] van de Par, S., Disch, S., Niedermeier, A., Burdiel Perez, E., and Edler, B., “Temporal Envelope-Based Psychoacoustic Modelling for Evaluating Non-Waveform Preserving Audio Codecs,” in Audio Engineering Society Convention 147, 2019.
【非特許文献5】[5] Disch, S., van de Par, S., Niedermeier, A., Burdiel Perez, E., Berasategui Ceberio, A., and Edler, B., “Improved Psychoacoustic Model for Efficient Perceptual Audio Codecs,” in Audio Engineering Society Convention 145, 2018.
【発明の概要】
【発明が解決しようとする課題】
【0011】
本発明の目的は、音の粗さ除去のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置、請求項27に記載のオーディオエンコーダ、請求項38に記載の方法、請求項39に記載の方法、および請求項40に記載のコンピュータプログラムによって解決される。
【課題を解決するための手段】
【0012】
一実施形態による、オーディオ入力信号を処理してオーディオ出力信号を取得するための装置が提供される。この装置は、オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定するように構成された信号分析器を備える。さらに、この装置は、1つまたは複数のスペクトル帯域の音の粗さに関する情報に応じてオーディオ入力信号を処理するように構成された信号プロセッサを備える。
【0013】
さらに、一実施形態による、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するためのオーディオエンコーダが提供される。オーディオエンコーダは、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号を取得するためのエンコーディングモジュールを備える。さらに、オーディオエンコーダは、初期オーディオ信号に応じて、さらにエンコード済みオーディオ信号に応じて、補助情報を生成して出力するためのサイド情報生成器を備える。補助情報は、デコーダ側で音の粗さの情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す指示を含む。
【0014】
さらに、一実施形態による、オーディオ入力信号を処理してオーディオ出力信号を取得するための方法が提供される。この方法は、
- オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定することと、
- 1つまたは複数のスペクトル帯域の音の粗さに関する情報に応じてオーディオ入力信号を処理することとを含む。
【0015】
さらに、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するための方法が提供される。この方法は、
- 初期オーディオ信号をエンコードしてエンコード済みオーディオ信号を取得することと、
- 初期オーディオ信号に応じて、さらにエンコード済みオーディオ信号に応じて、補助情報を生成し出力することとを含む。
【0016】
補助情報は、デコーダ側で音の粗さの情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す指示を含む。
【0017】
さらに、コンピュータプログラムが提供され、コンピュータプログラムの各々は、コンピュータまたは信号プロセッサ上で実行されているときに上で説明されている方法のうちの1つを実施するように構成される。
【0018】
なかんずく、本発明は、特に、量子化誤差に起因する粗さアーチファクトは、純音性成分のエンコーディングにかなり多くのビットを投じなければ軽減することが困難であるという発見に基づく。実施形態は、エンコーダによって伝送される少量のガイダンス情報によって制御されるデコーダ側のこれらの粗さアーチファクトを除去するための新しい発明概念を提供する。
【0019】
実施形態のいくつかは、フレーム単位では、連続するフレームにわたって発生している振幅変調を見ることは非常に困難であるが、人間の聴覚系は、オーディオ符号化で使用される典型的なフレーム長よりも長い時間スパンにわたってオーディオ信号を評価するので依然としてそれらを粗さアーチファクトとして知覚するであろうという発見に基づいている。実施形態のいくつかでは、デコード済みオーディオ信号は、たとえば、より長いフレーム長で分析されることがあり、これにより、純音性成分に存在する振幅変調アーチファクトは、一次純音性成分の隣に出現するサイドバンド、またはさらにはサイドピークとして、振幅スペクトルにおいてより目立つことになる。
【0020】
そのようなサイドピークの出現を考慮して、原理的には、これらのサイドピークを検出してスペクトルから除去することが可能であろう。初期の実験は、実際にこれが行われ得ること、およびその結果、粗さのアーチファクトが相当低減されることを示している。
【0021】
しかしながら、そのようなサイドピークをやみくもに除去することは、オーディオ信号に望ましくない聴感上の変化をもたらす可能性がある。たとえば、それ自体非常に粗い信号部分を含む元のオーディオ信号を考える。この場合、粗さは、除去されるべきではない。実際、サイドピーク除去をやみくもに適用すると、ノイズによく似た、または密に詰まったスペクトルを有するオーディオ信号セクションにおいて、はっきりと聞き取れる「チュービネス(tubiness)」アーチファクトを引き起こすことがわかった。
【0022】
上記の問題を克服するために、サイドピーク除去が選択的に、すなわち、エンコーディングおよびデコーディングプロセスが粗さアーチファクトを引き起こすオーディオ信号の部分のみにおいて、行われる必要があるように見える。この決定は、そのようなアーチファクトの知覚に関係しているので、そのような決定は、元の信号とデコード済み信号を比較して、どのような時間周波数領域において粗さアーチファクトが引き起こされるかを決定する心理音響モデルによって行われ得る。
【0023】
上述の粗さアーチファクトを除去するために、振幅変調に敏感な、心理音響モデルを使用する方法が提供される。このモデルは、Dauら[3]のモデルに基づくが、すでに[4]において説明されている多くの修正を含んでおり、後で詳述される。粗さアーチファクトが除去されるべきかどうかについて心理音響モデルが行う決定は、たとえば、元の信号へのアクセスを必要とすることがあり、したがって、オーディオエンコーディング/デコーディングチェーンのエンコーダ側で行われる必要がある。これは、補助情報がエンコーダからデコーダに送信される必要があることを意味する。これはビットレートを増大するが、その増分は非常にわずかであることが判明しており、変換コーダのビットバジェットから容易に取ることが可能である。
【0024】
実施形態は、ビットストリーム中のエンコーダから伝送された少量のガイダンス情報によって制御されるデコーダ側で粗さアーチファクトを除去する。
【0025】
実施形態は、音の粗さを除去するための概念を提供する。
【0026】
これらの実施形態のうちのいくつかは、純音性成分の変調が一次純音の隣にスペクトルサイドピークを生成するという概念に基づきデコーダ側で粗さアーチファクトを低減するかまたは除去する。これらのサイドピークは、たとえば、スペクトル分析が長い時間ウィンドウに基づくときにより良好に観察され得る。いくつかの特定の実施形態では、分析ウィンドウは、たとえば、典型的なエンコーディングフレームの長さを超えて拡張され得る。
【0027】
原理上、スペクトルサイドピークは、スペクトルから除去され得、この方法で、粗さアーチファクトも除去される。このアルゴリズムは、たとえば、より強い一次純音性成分へのスペクトル近接度に基づき除去する必要のあるサイドピークを選択し得る。このような粗さ除去がオーディオ信号に対してやみくもに適用されたときに、これは元のオーディオ信号中に存在した粗さも除去する。
【0028】
実施形態では、心理音響モデルが、低ビットレートコーデックによってどのようなスペクトル時間間隔で粗さが持ち込まれるかを分析する。粗さが除去されるべきであるスペクトル時間間隔が、次いで、ビットストリームの補助部分においてシグナリングされ、デコーダに送信される。
【0029】
実施形態によれば、ビットストリームによって供給されるデコーダのポストプロセッサは、たとえば、粗さ除去を制御するための小さなガイダンス情報を含み得る。
【0030】
別の実施形態では、ガイダンス情報は、たとえば、デコーダ側で推定され得る。
【0031】
次に、本発明の実施形態が、図を参照しつつより詳しく説明される。
【図面の簡単な説明】
【0032】
【
図1】一実施形態による、オーディオ入力信号を処理してオーディオ出力信号を取得するための装置を例示する図である。
【
図2】オーディオデコーダと
図1の処理のための装置とを備えるオーディオ出力信号を生成するための装置を例示する図である。
【
図3】一実施形態による、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するためのオーディオエンコーダを例示する図である。
【
図4】一実施形態による、
図3のオーディオエンコーダと、エンコード済みオーディオ信号からオーディオ出力信号を生成するための
図2の装置とを備えるシステムを例示する図である。
【
図5】一実施形態による粗さ低減の処理チェーン全体の概要を例示する図である。
【
図6】一実施形態による粗さ低減(RR)のエンコーダ処理概要を例示する図である。
【
図7】一実施形態による粗さ低減のデコーダ処理概要を例示する図である。
【
図8】一実施形態によるスパース化プロセスの詳細図を例示する図である。
【
図9】一実施形態による粗さ除去デコーダアルゴリズムのフレーム毎の処理の概要を例示する図である。
【
図10】平滑化された振幅スペクトルとともに、非平滑化振幅スペクトルサンプルを青色で例示する図である。
【
図11】基底膜フィルタバンク(basilar membrane filterbank)、ヘアセルモデル(haircell model)、適応ループ、および変調フィルタバンクからなる心理音響モデルを例示する図である。
【
図12】Web-MUSHRAツールを使用したリスニングテストのステレオ信号からなる、項目の第1のセットの結果を例示する図である。
【
図13】Web-MUSHRAツールを使用したリスニングテストのモノラル信号からなる、項目の第2のセットの結果を例示する図である。
【発明を実施するための形態】
【0033】
図1は、一実施形態による、オーディオ入力信号を処理してオーディオ出力信号を取得するための装置100を例示している。
【0034】
装置100は、オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さに関する情報を決定するように構成された信号分析器110を備える。
【0035】
さらに、装置100は、1つまたは複数のスペクトル帯域の音の粗さに関する情報に応じてオーディオ入力信号を処理するように構成された信号プロセッサ120を備える。
【0036】
一実施形態によれば、オーディオ入力信号の1つまたは複数のスペクトル帯域の音の粗さは、たとえば、エンコード済みオーディオ信号を取得するために元のオーディオ信号をエンコードすることによって持ち込まれ、および/またはオーディオ入力信号を取得するためにエンコード済みオーディオ信号をデコードすることによって持ち込まれる符号化誤差に依存し得る。
【0037】
一実施形態において、信号分析器110は、1つまたは複数のスペクトル帯域内の複数の純音性成分を決定するように構成される。信号分析器110は、たとえば、複数の純音性成分の各々の一方から複数の純音性成分の他方へのスペクトル近接度に応じて複数の純音性成分のうちから1つまたは複数の純音性成分を選択するように構成され得る。さらに、信号プロセッサ120は、たとえば、1つまたは複数の純音性成分を除去しおよび/または減衰させおよび/または修正するように構成され得る。
【0038】
たとえば、プロセッサは、たとえば、ピーク操作後に帯域エネルギーを保持するために、除去されるかもしくは減衰されたピークのスペクトル近傍を修正するか、または局所的スペクトル重心を保持するために残りの主ピークをシフトさせ得る。これは、スペクトル近傍に複素係数を適用することを必要とする。
【0039】
一実施形態によれば、信号分析器110は、たとえば、ステアリング情報(steering information)を含むビットストリームを受信するように構成され得る。さらに、信号分析器110は、たとえば、ステアリング情報にさらに応じて純音性成分のグループから1つまたは複数の純音性成分を選択するように構成され得る。
【0040】
一実施形態において、ステアリング情報は、たとえば、第1の時間周波数領域または第1の周波数領域で表現されてもよく、ステアリング情報は、第1のスペクトル分解能を有する。信号分析器110は、たとえば、第2のスペクトル分解能を有する第2の時間周波数領域において複数の純音性成分を決定するように構成されてもよく、第2のスペクトル分解能は第1のスペクトル分解能とは異なるスペクトル分解能である。一実施形態では、第2のスペクトル分解能は、たとえば、第1のスペクトル分解能よりも粗くてもよい。別の実施形態では、第2のスペクトル分解能は、たとえば、第1のスペクトル分解能よりも細かいものとしてよい。
【0041】
一実施形態によれば、信号プロセッサ120は、たとえば、時間平滑化を採用することによって、または時間減衰を採用することによって、1つまたは複数の純音性成分を除去しおよび/または減衰させおよび/または修正するように構成され得る。
【0042】
一実施形態において、信号プロセッサ120は、たとえば、オーディオ入力信号の振幅スペクトルから1つまたは複数のサイドピークを除去することによって、または減衰させることによって、オーディオ入力信号を処理するように構成されてもよく、1つまたは複数のサイドピークの各サイドピークは、たとえば、振幅スペクトル内の別の局所的ピークから事前定義された周波数距離内に配置され、前記他の局所的ピークよりも小さい振幅を有する、振幅スペクトル内の局所的ピークであってもよい。
【0043】
一実施形態によれば、信号分析器110は、たとえば、音の粗さに関する情報を取得するためにオーディオ入力信号の1つまたは複数のスペクトル帯域の初期振幅スペクトルにおける複数の局所的ピークを決定するように構成され得る。
【0044】
一実施形態において、複数の局所的ピークは、複数の局所的ピークの第1のグループである。信号分析器110は、たとえば、平滑化された振幅スペクトルを取得するために1つまたは複数のスペクトル帯域の初期振幅スペクトルを平滑化するように構成され得る。さらに、信号分析器110は、たとえば、平滑化された振幅スペクトルにおける1つまたは複数の局所的ピークの第2のグループを決定するように構成され得る。さらに、信号分析器110は、たとえば、音の粗さに関する情報として、局所的ピークの第2のグループ内に対応するピークを有しない複数の局所的ピークの第1のグループのすべての局所的ピークを含む1つまたは複数の局所的ピークの第3のグループを、1つまたは複数の局所的ピークの第3のグループが1つまたは複数の局所的ピークの第2のグループの任意の局所的ピークを含まないように決定するように構成され得る。
【0045】
一実施形態によれば、信号分析器110は、たとえば、第1のグループの複数のピークの各ピークについて、第2のグループが前記ピークに関連付けられているピークを含むかどうかを、前記ピークと同じ周波数に配置されている第2のグループのピークが、たとえば、前記ピークと関連付けられ、前記ピークから事前定義された周波数距離内に配置されている第2のグループのピークが、たとえば、前記ピークと関連付けられ、前記ピークから事前定義された周波数距離の外に配置されている第2のグループのピークが、たとえば、前記ピークと関連付けられ得ないように決定するように構成され得る。
【0046】
一実施形態において、信号プロセッサ120は、たとえば、オーディオ出力信号の1つまたは複数のスペクトル帯域の振幅スペクトルを取得するために1つまたは複数のスペクトル帯域の初期振幅スペクトルにおける第3のグループの1つまたは複数の局所的ピークを除去することによって、または減衰させることによってオーディオ入力信号を処理するように構成され得る。
【0047】
一実施形態によれば、第3のグループの1つまたは複数のサイドピークあるいは1つまたは複数の局所的ピークの各ピークを除去するかまたは減衰させるために、信号プロセッサ120は、たとえば、前記ピークおよび前記ピークの周辺領域を減衰させるように構成され得る。
【0048】
一実施形態において、信号プロセッサ120は、たとえば、前記ピークの周辺領域を、前記ピークの直前の極小値および前記ピークの直後の極小値が前記周辺領域を制限するように決定するように構成され得る。
【0049】
一実施形態によれば、オーディオ入力信号の周波数スペクトルは、複数のスペクトル帯域を含む。さらに、信号分析器110は、たとえば、音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を受信するか、または決定するように構成され得る。さらに、信号分析器110は、たとえば、オーディオ入力信号の前記1つまたは複数のスペクトル帯域について音の粗さに関する情報を決定するように構成され得る。さらに、信号分析器110は、たとえば、オーディオ入力信号の複数のスペクトル帯域のうちの他の任意のスペクトル帯域について、音の粗さに関する情報を決定しないように構成され得る。
【0050】
一実施形態において、信号分析器110は、たとえば、音の粗さに関する情報が決定されなければならない1つまたは複数のスペクトル帯域に関する情報をエンコーダ側から受信するように構成され得る。
【0051】
一実施形態によれば、信号分析器110は、たとえば、バイナリマスクとしてまたは圧縮されたバイナリマスクとして、音の粗さに関する情報が決定されなければならない、1つまたは複数のスペクトル帯域に関する情報を受信するように構成され得る。
【0052】
一実施形態によれば、装置100は、たとえば、選択フィルタを受信するように構成され得る。信号分析器110は、たとえば、選択フィルタに応じて、音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を決定するように構成され得る。
【0053】
一実施形態によれば、信号分析器110は、たとえば、音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を決定するように構成され得る。
【0054】
一実施形態において、信号分析器110は、たとえば、音の粗さに関する情報が決定されなければならない1つまたは複数のスペクトル帯域に関する前記情報を示すサイド情報を信号分析器110が受信することなく、音の粗さに関する情報が決定されなければならない複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を決定するように構成され得る。
【0055】
一実施形態によれば、信号分析器110は、たとえば、人工知能の概念を採用することによって、音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を決定するように構成され得る。
【0056】
一実施形態において、信号分析器110は、たとえば、信号分析器110によって採用される人工知能の概念としてニューラルネットワークを採用することによって、音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を決定するように構成され得る。ニューラルネットワークは、たとえば、畳み込みニューラルネットワークであってもよい。
【0057】
一実施形態によれば、信号分析器110は、たとえば、1つまたは複数のトランジェントを含む、複数のスペクトル帯域のうちのスペクトル帯域に対して音の粗さに関する情報を使用しない(たとえば、粗さのピークを除去するフィルタにおいて)ように構成され得る。たとえば、このアルゴリズムでは、フィルタは、たとえば、トランジェントを含むフレームの期間において単純に適用され得ない。
【0058】
図2は、一実施形態による、オーディオ出力信号をエンコード済みオーディオ信号から生成するための装置200を例示している。
【0059】
図2の装置200は、エンコード済みオーディオ信号をデコードしてデコード済みオーディオ信号を取得するように構成されたオーディオデコーダ210を備える。
【0060】
さらに、
図2の装置200は、
図1の処理のための装置100をさらに含む。
【0061】
オーディオデコーダ210は、処理のためデコード済みオーディオ信号をオーディオ入力信号として装置100に供給するように構成されている。
【0062】
処理のための装置100は、デコード済みオーディオ信号を処理してオーディオ出力信号を取得するように構成される。
【0063】
一実施形態によれば、オーディオデコーダ210は、たとえば、第1のフレーム長を有する第1の時間ブロック毎の処理を使用してエンコード済みオーディオ信号をデコードするように構成され得る。
【0064】
処理のための装置100の信号分析器110は、たとえば、第2のフレーム長を有する第2の時間ブロック毎の処理を使用して音の粗さに関する情報を決定するように構成されるものとしてよく、第2のフレーム長は、たとえば、第1のフレーム長よりも長いものとしてよい。
【0065】
一実施形態において、オーディオデコーダ210は、たとえば、エンコード済みオーディオ信号をデコードして、ミッドチャネルおよびサイドチャネルを含むミッドサイド信号であるデコード済みオーディオ信号を取得するように構成され得る。処理のための装置100は、たとえば、ミッドサイド信号を処理して処理のための装置100のオーディオ出力信号を取得するように構成され得る。生成のための装置200は、たとえば、変換後にオーディオ出力信号がステレオ信号の左チャネルおよび右チャネルを含むようにオーディオ出力信号を変換する変換モジュールをさらに備え得る。
【0066】
図3は、一実施形態による、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するためのオーディオエンコーダ300を例示している。
【0067】
オーディオエンコーダ300は、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号を取得するためのエンコーディングモジュール310を備える。
【0068】
さらに、オーディオエンコーダ300は、初期オーディオ信号に応じて、さらにエンコード済みオーディオ信号に応じて、補助情報を生成して出力するためのサイド情報生成器320を備える。
【0069】
補助情報は、デコーダ側で音の粗さの情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す指示を含む。
【0070】
一実施形態によれば、サイド情報生成器320は、たとえば、知覚分析モデルまたは心理音響モデルに応じて付加的情報を生成するように構成され得る。
【0071】
一実施形態において、サイド情報生成器320は、たとえば、知覚分析モデルまたは心理音響モデルを使用してエンコード済みオーディオ信号中の音の粗さの知覚される変化を推定するように構成され得る。
【0072】
一実施形態によれば、サイド情報生成器320は、たとえば、補助情報として、粗さの増大を示し、デコーダ側で音の粗さに関する情報が決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示すバイナリマスクを生成するように構成され得る。
【0073】
一実施形態において、サイド情報生成器320は、たとえば、バイナリマスクを圧縮バイナリマスクとして生成するように構成され得る。
【0074】
一実施形態によれば、サイド情報生成器320は、たとえば、時間変調処理を採用することによって補助情報を生成するように構成され得る。
【0075】
一実施形態において、サイド情報生成器320は、たとえば、選択フィルタを生成することによって補助情報を生成するように構成され得る。
【0076】
一実施形態によれば、サイド情報生成器320は、たとえば、時間平滑化を採用することによって選択フィルタを生成するように構成され得る。
【0077】
一実施形態において、サイド情報生成器320は、たとえば、ニューラルネットワークを採用することによって音の粗さに関する情報がデコーダ側で決定されなければならない、複数のスペクトル帯域のうちの1つまたは複数のスペクトル帯域を示す補助情報の指示を生成するように構成され得る。ニューラルネットワークは、たとえば、畳み込みニューラルネットワークであってもよい。
【0078】
【0079】
システムは、初期オーディオ信号をエンコードしてエンコード済みオーディオ信号および補助情報を取得するために
図3のオーディオエンコーダ300を備える。
【0080】
さらに、システムは、エンコード済みオーディオ信号からオーディオ出力信号を生成するために
図2の装置200を備える。
【0081】
オーディオ出力信号を生成するための装置200は、エンコード済みオーディオ信号に応じて、また補助情報に応じて、オーディオ出力信号を生成するように構成される。
【0082】
以下では、本発明のいくつかの実施形態が説明されている。
【0083】
図5は、一実施形態による粗さ低減(RR)の処理チェーン全体の概要を例示している。緑色のブロックは、本発明の粗さ低減を示し、青色のブロックはオーディオコーデックに通常存在している処理ブロックに関係する。
【0084】
図6は、一実施形態による粗さ低減(roughness reduction: RR)のエンコーダ処理概要を例示している。エンコーダでは、粗さ低減エンコーダ部は、知覚分析(perceptual analysis: PA)モデルを使用して、元のPCM信号とエンコード済みおよび符号化済み信号とを比較する。この方法を機能させるために、高度な変調ベースの心理音響モデルの使用が良い選択肢である。PAモデルは、信号の音の粗さの知覚変化を推定し、粗さの増大を呈示するスペクトル帯域を示すバイナリマスクを導出する。このバイナリマスクは圧縮され、サイド情報として知覚コーダのビットストリームに追加される。実験により、この補助情報がモノラル信号およびステレオ信号に対して約0.4kbpsの追加ビットレートしか必要としないことが示されている。信号の流れのスケッチが
図6に示されている。
【0085】
図7は、一実施形態による粗さ低減(RR)のデコーダ処理概要を例示している。デコーダでは、粗さ低減デコーダ部は、ビットストリームからサイド情報を抽出し、「スパース化」と示される処理ブロックにそれを供給する。このブロックは、バイナリマスクによって粗さが増大したと示された帯域の不要な純音性サイドピークを除去する。信号の流れが
図7に示されている。ステレオ信号については、知覚される空間的変動を回避するため、スパース化はM/S表現で行われる。
【0086】
図8は、一実施形態による「スパース化」プロセスの詳細図を例示している。
【0087】
以下では、本発明の実施形態がより詳細に説明されている。
【0088】
最初に、実施形態によるオーディオコーデックのためのガイド付き音の粗さ除去(guided auditory roughness removal)の概念が説明される。
【0089】
特に、粗さ除去(RR)アルゴリズムが説明される。これらの実施形態のいくつかにおいて、たとえば、オーディオ信号がデコードされた後に実行される粗さ除去をステアリングする(steer)ためにエンコーダ側で補助情報を抽出することを必要とし得る。
【0090】
図5に戻ると、標準的なオーディオエンコーダおよびデコーダが、RRビットストリーム内の補助情報をRRデコーダに送信するRRエンコーダにどのように接続されるかを示すスキーマが図示されている。特に、
図5は、粗さ除去コーデックのアプリケーションコンテキストの概要を例示している。これは、従来のオーディオエンコーダ-デコーダペア(青色で示されている)を中心に構築されている。
【0091】
使用される方法を説明するために、まず、アルゴリズムのコアが説明されるが、そこでは、(RRデコーダ側で)粗さを除去するためにスペクトル成分が変更され、次いで、心理音響モデルが、粗さアーチファクトが持ち込まれる(RRエンコーダ側で)信号の部分をどのように選択するかに向けて進む。
【0092】
以下では、粗さ除去がより詳細に説明される。
【0093】
図9は、一実施形態による粗さ除去デコーダアルゴリズムのフレーム毎の処理の概要を例示している。時間領域フレームおよび補助情報が入力として使用される。粗さアーチファクトを引き起こすスペクトル成分が除去される時間領域出力フレームが生成される。
【0094】
粗さ除去デコーダは、フレーム毎に動作する。各フレーム内の処理の概要が
図9に示されている。見るとわかるように、時間フレームは、スペクトル表現に変換される。原理的に、このスペクトルに対して行われる唯一の処理は、減衰フィルタ(H)をスペクトルに適用し、次いで時間領域フレームに再び変換することである。フィルタHは、粗さアーチファクトを引き起こすスペクトルピークが減衰されるように設計されるべきである。
【0095】
減衰フィルタの導出のために、2つの分離されたフィルタが最初に導出されるが、これらは
図9の低い方の2つのブランチのところに見える。最初に、信号スペクトルに基づき、アルゴリズムが、粗さに関連付けられているすべてのピークを決定する。これらの特定のピークに基づき、高いスペクトル分解能を有する減衰マスクH
sが導出される。この減衰マスクは、元のエンコード済み信号中に存在していたピークを含む、粗さを引き起こすすべてのピークを単純に除去することになるであろう。そのような理由で、粗さ除去エンコーダで取得される補助情報は、オーディオエンコーディングアルゴリズムによって知覚可能な粗さアーチファクトが持ち込まれているスペクトル帯域を決定するために拾い上げられる。これらのスペクトル帯域について、知覚可能な粗さアーチファクトを有する帯域に対して低い利得を有する第2の減衰マスクが導出される(H
a)。知覚モデルはyes-no決定しかもたらさないので、H
aの出力にローパスフィルタを適用することが有益であることがわかった。次いで両方の減衰フィルタが、単一の減衰フィルタHに組み合わされる。そのフィルタの出力は、次のフレームにおいてH
aに適用されるローパスフィルタに対する先行状態として使用される。それは、前のフレームの減衰H
sも現在のフレームにおいて効果を有し続けることを意味する。
【0096】
r-ラフネスおよび粗さは、振幅変調に関連付けられているので、粗く聞こえるオーディオ成分は、隣接するサイドピークが10Hzと低い周波数で分離され得る、主スペクトルピークによって表される。そのようなサイドピークを観察することができるように、十分に長い分析ウィンドウが使用される必要がある。本明細書において提示されるアルゴリズムにおいて、44.1kHzでの5644個のサンプルの分析ウィンドウ、またはサンプリング周波数に応じて適合するサンプル長が使用された。
【0097】
以下では、粗さピークを見つける段階が、
図9を参照しつつ説明される。持ち込まれるr-ラフネスアーチファクトを表しているサイドピークを除去するために多くの方法が考察され得る。ここで、粗さアーチファクトの持ち込まれる仕方を考察する方法が提供される。まず、5644個のサンプル区間から取得されたスペクトル内で、すべての局所的ピークが選択され、
【0098】
【0099】
で示される。
図3において、スペクトルは青で示され、ピークは青丸で示されている。(多くの低い振幅を有する微小ピークが出現していることに留意されたい。)第2に、振幅スペクトルは、10サンプル長のハンウィンドウで平滑化され(赤で示されている)、赤丸は見つかったピークを示している。この平滑化されたスペクトルでは、サンプル番号620の一番左のピークに見られるようにエンコーディングプロセスに起因して生じるサイドピークが大部分取り除かれると考えられ、非平滑化スペクトル(青色)における顕著なサイドピークは、平滑化スペクトル(赤色)中にもはや存在していない。この平滑化スペクトルでは、すべての局所的ピークが、再び選択され、
【0100】
【0101】
で表される。
【0102】
原理的に、除去されるサイドピークは、
【0103】
【0104】
を検査し、
【0105】
【0106】
においてどのような要素が見つからないかを決定することによってここで決定され得る。しかしながら、元のスペクトルに出現した(
【0107】
【0108】
における要素である)強いピークは、平滑化されたスペクトル(ピークは
【0109】
【0110】
で表される)において全く同じスペクトル配置にない場合のあることに留意する必要がある。周囲のスペクトルが傾いているときに、これは、平滑化後に支配的なピークの位置に偏りを生じさせ得る。そのような理由で、最初に、
【0111】
【0112】
におけるどのような成分が、
【0113】
【0114】
に、スペクトル位置においてシフトされているとはいえまだ存在しているかを示すマッピングが導出される。残りのピークは、除去されることが必要なサイドピークとして分類され、
【0115】
【0116】
と表記される。
【0117】
これらのサイドピークは
【0118】
【0119】
で示されているが、これを除去するために、まず、周囲スペクトル範囲が、除去されるべき各ピークについて選択される。この範囲は、非平滑化スペクトルにおいてピークのいずれかの側で見つかった第1の極小値によって区切られる。この範囲内で、20dBの減衰が、次いで、最初にユニティゲインを有する周波数領域フィルタHsに挿入される。この手順は、除去されるべきピーク毎に繰り返される。前述のように、このフィルタHsは、スペクトルに直接適用することはできないが、それは、元の信号中にすでに存在し、粗さの原因となったピークも除去するからである。
【0120】
そのような理由で、第2のフィルタHaが、サイドピーク除去フィルタHs内のどのような領域がフィルタリングに実際に適用されるべきかを決定する選択フィルタとして使用すべきであるエンコーダ側からの補助情報に基づき決定される。この選択は、新しいフィルタを作成する式
H=1-(1-Hs)(1-Ha) (1)
を介して取得される。
【0121】
この組合せの効果は、新しいフィルタHにおいて減衰をもたらすためにHsおよびHaの両方が減衰をもたらしているべきであるということである。この新しい減衰フィルタHは、次に、エンコーディングプロセスによって持ち込まれる粗さの原因となるサイドピークを除去するためにスペクトルに適用され得るが、これは、音声抜粋に知覚可能な何らかの不安定さを引き起こすことがわかった。これは、どの帯域が粗さアーチファクトを含むかということに関してエンコーダ側の決定プロセスの不確実性に起因し得る。それに加えて、エンコーダ側での決定は、補助情報を送信するためのビットレートを大幅に制限されたままに保つことによって動機づけられるオールオアナッシングの決定である。不安定性を低減するために、フィルタHaに時間平滑化が適用される。そうするために、前のフレームで得られたフィルタHは、それぞれ、0.4および0.6の係数を有する新しく計算されたフィルタHaと組み合わされる。
【0122】
図10は、赤色で示される平滑化された振幅スペクトルとともに、非平滑化振幅スペクトルサンプルを青色で例示している。対応する色の円は、スペクトル中の局所的ピークを表す。
【0123】
図10では、減衰フィルタが元のスペクトル(青)に適用され、その結果、かなり大きい減衰が引き起こされたスペクトル領域にのみ緑色の曲線が見える。そこで、元のスペクトル(青)にはピークがあったが、平滑化されたスペクトル(赤)にはピークがなかった、サンプル620の周りで、青色のスペクトルのピークがかなり減衰しており、この方式で潜在的な可聴変調アーチファクトを低減することがわかる。
【0124】
以下では、粗さ除去のステアリングのための心理音響モデルが説明されている。
【0125】
前のセクションで述べたように、粗さ誘発サイドピークは、これらがオーディオエンコーディングプロセスの結果生じるときにのみ除去されるべきである。この情報は、たとえば、元の信号にアクセスする必要があり、したがって、エンコーダ側でのみ取得され得る。このセクションでは、オーディオ信号中の粗さを検出することができる心理音響モデルが、この目的にどのように使用されるかが説明される。
【0126】
この目的のために使用される心理音響モデルは、以前にパラメトリックオーディオエンコーダ[5]におけるエンコーディング決定のステアリングに使用され、その後、様々なオーディオエンコーディング方法[4]に起因する知覚された劣化に関する予測を行うのに非常に適していることが示された。このモデルは、Dauらのモデル[3]の拡張であり、各聴覚フィルタチャネルに対して、変調フィルタバンクが時間変調に関するオーディオ信号の分析を提供することを仮定している。
【0127】
このモデルは、
図11に概略として示されている。特に、
図11は、Dauら[3]に従う基底膜フィルタバンク、ヘアセルモデル、適応ループ、および変調フィルタバンクからなる心理音響モデルを例示している。
【0128】
最初に、オーディオ信号は、人間の蝸牛における周波数選択処理を近似するバンドパス特性を有する多数の並列ガンマトーンフィルタによって処理され、ガンマトーンフィルタバンクが複素数値出力を提供し、そこから振幅が取り出され、したがってガンマトーン出力のヒルベルトエンベロープを効果的に抽出することを除き、Dauら[3]の元のモデルおよび以前の出版物[4]、[5]と一致している。この修正は、適応ループを説明するときに説明されるべきモデルの次の段階である適応ループとの相互作用があるので含められた。
【0129】
聴覚伝導路(たとえば聴覚神経)における適応プロセスをモデル化するためにDauモデルに含められた適応ループ。各適応ループは、減衰段階としてモデル化され、減衰係数はそのループの出力のローパスフィルタリングバージョンである。その結果、適応ループは、信号開始後、入力信号のオフセット後も持続する減少した利得を有することになる。この特性は、リスニングテストで観察される前方マスキング効果をモデル化するために使用される。全部で5つの適応ループが、Dauモデルにおいて提案され、これは異なる時定数を有する。定常状態、すなわち開始から長い時間が経過した状態では、適応ループは、対数変換の形状に近似することが示され得る。
【0130】
信号の開始時に、適応ループは、まだ、定常状態に向かって見出されるような減少した利得を有しないので、心理音響学的観察に沿わない信号の開始に加えられたいかなる変化に対しても不釣り合いな感度を引き起こす有意なオーバーシュートを引き起こす。このような理由で、適応ループの最大利得は、対数法則に従って入力レベルに依存するようになされた。
【0131】
非常に低い周波数の信号(<100Hz)では、適応ループの時定数は、2つの期間の間の減衰をある程度抑えることを可能にする。これは、効果的に平均的な減衰を小さくし、したがって低い周波数における入力信号のいかなる変化に対しても全体的な感度を高める。このような理由で、適応ループの前にヒルベルトエンベロープが抽出される。このヒルベルトエンベロープは、半波整流とそれに続くローパスフィルタから成り立っていた元のダウモデルで使用されていたヘアセル処理を置き換える。
【0132】
各聴覚チャネルの適応ループの後に、出力は変調フィルタバンクに供給されるが、これはDauらで提案されたフィルタバンクに匹敵し、フィルタからDC成分を除去する追加の段階を有する([4]を参照)。これは、ヒルベルトエンベロープのDC成分が変調成分に比べてかなり高い可能性があるので、重要である。変調フィルタのフィルタ形状が浅いことに起因して、変調フィルタ出力は、DC成分によって支配され得る([5]を参照)。この特性は、Dauらの元のモデルでは、そのモデルが刺激の顕著な違いだけを扱っていたのでそれほど重要ではないが、現在の設定では、元のオーディオ信号中に強いベースライン変調がすでに存在しているかどうかを知ることは興味深いことである。これがその場合であるときに、リスニングテストでは、追加された変調が検出されにくくなることが示された。変調フィルタの出力に強いDC成分が存在すると、ベースライン変調を取得することが困難になる。
【0133】
最後に、変調フィルタバンクの出力は、結果として、時間t、聴覚フィルタ番号k、変調フィルタ番号mの関数であり、入力信号xに依存する内部表現をもたらす。内部表現は、粗さに関連付けられている変調周波数範囲内の顕著な追加の変調が導入されるかどうかを決定するために処理される。この目的のために、5Hzから35Hzを中心とする変調フィルタにおける変調強度の増大と、元のオーディオ信号の同じフィルタにおけるベースライン変調強度との間の比が計算される。
【0134】
この方式で、変調強度の相対的な増大が決定される。これが0.6の基準値を超えたときに、対応する時間および周波数の区間は、サイドピークが除去される必要のある区間としてエンコーダにシグナリングされる。アルゴリズムの標準的設定では、値もまたサイド情報に対するビットレートを下げるために隣接する2つの帯域にわたって平均される。しかしながら、リスニングテストでは条件が追加され、隣接要素にわたるこの平均が品質への影響を調査するために省かれる。
【0135】
以下では、粗さ除去エンコーダおよび/またはデコーダの特性が説明される。
【0136】
図5に示されているように、粗さ除去アルゴリズムは、通常のエンコーダ-デコーダ組合せを中心に構築されている、すなわち、このアルゴリズムは、コーデックとは独立して適用され得るが、コーデックと統合されてもよい。エンコーダ側では、最初に、オーディオ信号がエンコードされ、その結果ビットストリームがデコーダ側に送信される。
【0137】
粗さ除去エンコーダは、元の入力信号とビットストリームとを取り込み、再びオーディオ信号を直接的にデコードする。前のセクションで概説された音響心理モデルを使用して、デコーダ側でどのような時間周波数区間がSect.2.1で概説された粗さ除去アルゴリズムの適用を受けるかの決定がなされる。この決定は、入力信号がステレオの場合、入力信号のモノラルダウンミックスに基づき行われ、この方法に必要なビットレートを相対的に高めることをさらに制限する。
【0138】
補助情報(RRビットストリーム)は粗さ除去デコーダに送信され、デコーダ側で利用可能なデコード済み信号を使用して、適切な信号部分から粗さの原因となるサイドピークを除去する。
【0139】
トランジェントを含むフレーム内のサイドピークを除去することは、かなりのプリエコーを引き起こすことが判明した。
【0140】
これは、サイドピーク除去とともになされる狭帯域スペクトル修正によって引き起こされる。プリエコーが持ち込まれるのを回避するため、デコーダ側において、トランジェント検出器が、サイドピーク除去を行われるべきではないフレームをシグナリングする。サイドピーク除去のためのフィルタ計算は、そのようなトランジェントフレームにおいてもそのまま継続し、信号には適用されないだけであることに留意されたい。
【0141】
ステレオ信号については、原理的には、粗さ除去アルゴリズムは、両方のチャネルに独立して適用されることも可能であろう。
【0142】
場合によっては、最初にステレオ信号をミッドサイド表現に変換し、このアルゴリズムを2回、ミッドチャネルとサイドチャネルの両方において独立して適用することは有益であり得ると考えられた。
【0143】
リスニングテストでは、両方のオプションが評価される。エンコーディングプロセスにおいて、フレームレートがかなり遅く、44.1kHzのサンプリング周波数(15.6Hz)で2822個のサンプル毎にフレームが区切られていることが有益である。それに加えて、標準設定では、42個の帯域の21の対に対してまとめて補助情報が提供される。
【0144】
各決定に対する単一のビットからなる、補助情報は、6個の聴覚帯域にグループ化され、周波数が互いに近い帯域間の可能な相関を利用するために、ハフマンエンコーダで1つの数として記憶される。決定が帯域の対毎に伝送されるときにリスニングテストにおいて使用される項目に対して0.30kビット/秒の平均ビットレートが得られ、単一の帯域に対する情報が伝送されるときに0.65ビット/秒の平均ビットレートが得られる。
【0145】
非公式のリスニング実験が実施されている。リスニング実験では、実施形態の上で説明されている概念を採用することによって取得され得る品質利得を評価する。特に、リスニングテストは、波形およびパラメトリックコーダを用いて約14kbpsのステレオで符号化された項目について音質の明らかな改善が得られることを示している。それに加えて、32kbpsモノラルで純粋な波形コーダでエンコードされた項目についても、提案されたアルゴリズムが適用されたときに改善を示す。両方の場合において、品質改善は、粗さアーチファクトの除去に起因する。
【0146】
提案された方法が本当に音質の向上をもたらすかどうかを調べるために、MUSHRAリスティングテストが実施された。リスニングでは項目の2つの異なるセットが使用されており、第1のセットはステレオでエンコードされた項目であり、第2のセットはモノラルでエンコードされた項目であった。ステレオ項目の大半は、左耳および右耳の信号をそれぞれ独立に、各々32kビット/秒のビットレートでエンコードした実験的波形エンコーダでエンコードされた。
【0147】
それに加えて、1つの項目はIGFベースの方法でエンコードされた。項目の第2のセットは、すべてIGFベースの方法でエンコードされた。Table 1(表1)に、これらの項目の要約をまとめた。
【0148】
【0149】
アルゴリズム内で、ミッド-サイド符号化(既定)を含めるだけでなく、左右の耳の信号を独立にエンコードするオプションもある。そのような理由で、項目の第1のセットにおいて、両方のオプションがMUSHRAテストに含められた。また、補助情報は、聴覚帯域の対毎に(既定)、または聴覚帯域毎に独立して伝送され得る。これら2つのオプションは、項目の第2のセットに含められた。すべての測定条件がTable 2(表2)にリストされている。
【0150】
【0151】
隠れ基準は元のオーディオ信号であり、アンカーは元の信号の3.5kHzローパスフィルタ処理バージョンであり、未処理デコード済み信号は粗さ除去なしの信号を表し、RRはミッドサイド処理、もしくは独立した左右処理、または補助情報の各ビットに対する2つの帯域、もしくは単一の帯域の使用のいずれかによる粗さ除去アルゴリズムが適用された様々な条件を意味する。
【0152】
全部でN人の被験者がリスニングテストに参加した。リスニングテストは、Web-MUSHRAツールを使用し、高音質ヘッドホンを用いてホームオフィスにおいて実行された。
【0153】
【0154】
特に、
図12は、Web-MUSHRAツールを使用したリスニングテストのステレオ信号からなる、項目の第1のセットの結果を例示している。
【0155】
図13は、Web-MUSHRAツールを使用したリスニングテストのモノラル信号からなる、項目の第2のセットの結果を例示している。
【0156】
以下では、さらなる実施形態が説明されている。
【0157】
一実施形態によれば、(たとえば、後処理)装置/方法が提供され、これは、たとえば、隣接する成分とのスペクトル近接度に基づき(デコード済み)オーディオ信号中の純音性成分を識別し、除去するかまたは減衰させる。
【0158】
一実施形態において、ビットストリームで送信された情報によって(部分的に)ステアリングされるデコード済み信号中の純音性成分を除去するかまたは減衰させる(たとえば、後処理)装置/方法が提供される。
【0159】
一実施形態によれば、ビットストリームからの粗いt/f分解能情報、およびデコーダ側で導出されるより細かいスペクトル分解能情報を使用する(たとえば、後処理)装置/方法が提供される。
【0160】
一実施形態において、たとえば、オーディオデコーダで使用されるよりも長いフレーム長を使用する時間ブロック毎の処理が、たとえば、採用され得る。
【0161】
一実施形態によれば、たとえば、時間平滑化または時間減衰が、たとえば、採用されてもよい。
【0162】
一実施形態において、たとえば、トランジェントステアードスイッチングウィンドウ(transient steered switching window)または後処理におけるトランジェントを有するスキッピングブロック(skipping block)が、たとえば、採用され得る。
【0163】
一実施形態によれば、たとえば、ミッド-サイド同期または符号化を使用するステレオ信号が、たとえば、採用され得る。
【0164】
一実施形態において、たとえば、時間変調処理が、ビットストリーム内の情報を決定するためにエンコーダ側で聴覚モデルに基づき採用され得る。
【0165】
一実施形態によれば、たとえば、純音性成分が除去されるかまたは減衰される領域を選択するビットストリームによって駆動される付加的な選択フィルタが、たとえば、採用され得る。
【0166】
一実施形態において、たとえば、スペクトル領域内で滑らかな遷移を有する選択フィルタが、たとえば、採用され得る。
【0167】
一実施形態によれば、たとえば、フィルタは、たとえば、時間的平滑化を前提としてもよい。
【0168】
いくつかの態様は装置の文脈内で説明されているが、これらの態様は対応する方法の説明にもなっており、ブロックまたは装置は方法ステップまたは方法ステップの特徴に対応することは明らかである。それと同様に、方法ステップの文脈内において説明されている態様は、対応する装置の対応するブロックまたは項目または特徴の説明ともなっている。方法ステップのうちのいくつかまたはすべては、たとえばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のような、ハードウェア装置によって(またはそれを使用することで)実行され得る。いくつかの実施形態において、最も重要な方法ステップのうちの1つまたは複数は、そのような装置によって実行され得る。
【0169】
いくつかの実装形態の要件に応じて、本発明の実施形態は、ハードウェアもしくはソフトウェアで、または少なくとも部分的にハードウェアで、もしくは少なくとも部分的にソフトウェアで実装され得る。実装形態は、それぞれの方法が実行されるようなプログラム可能なコンピュータシステムと連携する(または連携することができる)、電子的に読み取り可能な制御信号が記憶される、デジタル記憶媒体、たとえば、フロッピィディスク、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行され得る。したがって、デジタル記憶媒体は、コンピュータ可読であるものとしてよい。
【0170】
本発明によるいくつかの実施形態は、本明細書で説明されている方法のうちの1つが実行されるようなプログラム可能なコンピュータシステムと連携することができる、電子的に読み取り可能な制御信号を収めたデータキャリアを含む。
【0171】
一般に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラム製品がコンピュータ上で稼動するときに方法のうちの1つを実行するように動作可能である。プログラムコードは、たとえば、機械可読キャリア上に記憶され得る。
【0172】
他の実施形態は、機械可読媒体上に記憶されている、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0173】
したがって、言い換えると、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で稼動しているときに、本明細書で説明されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0174】
したがって、本発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムが記録されるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、また記録媒体は、典型的には、有形であり、および/または非一時的なものである。
【0175】
したがって、発明の方法のさらなる実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、たとえば、データ通信ネットワーク、たとえばインターネットを介して、転送されるように構成され得る。
【0176】
さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するように構成されるか、または適合される処理手段、たとえば、コンピュータ、またはプログラム可能な論理デバイスを含む。
【0177】
さらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
【0178】
本発明によるさらなる一実施形態は、本明細書で説明されている方法のうちの1つを実行するためのコンピュータプログラムをレシーバーに(たとえば、電子的にまたは光学的に)転送するように構成されている装置またはシステムを含む。レシーバーは、たとえば、コンピュータ、モバイルデバイス、メモリデバイス、または同様のものであってよい。装置またはシステムは、たとえば、コンピュータプログラムをレシーバーに転送するためのファイルサーバーを含み得る。
【0179】
いくつかの実施形態において、プログラム可能な論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)は、本明細書で説明されている方法の機能のうちのいくつかまたはすべてを実行するために使用されてよい。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本明細書で説明されている方法のうちの1つを実行するためにマイクロプロセッサと連携し得る。一般的に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。
【0180】
本明細書で説明されている装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実装され得る。
【0181】
本明細書で説明されている方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実行され得る。
【0182】
上で説明されている実施形態は、単に、本発明の原理について例示しているだけである。本明細書で説明されている配置構成および詳細の修正および変更は、当業者には明らかであることは理解される。したがって、次に示す特許請求項の範囲によってのみ制限され、本明細書の実施形態の記述および説明を用いて提示されている具体的詳細によって制限されないことが意図されている。
【符号の説明】
【0183】
100 装置
110 信号分析器
120 信号プロセッサ
200 装置
210 オーディオデコーダ
300 オーディオエンコーダ
310 エンコーディングモジュール
320 サイド情報生成器
【国際調査報告】