特許第5792821号(P5792821)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェラインの特許一覧

特許5792821ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法
<>
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000004
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000005
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000006
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000007
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000008
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000009
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000010
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000011
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000012
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000013
  • 特許5792821-ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5792821
(24)【登録日】2015年8月14日
(45)【発行日】2015年10月14日
(54)【発明の名称】ビットストリーム・ドメインにおけるコード化オーディオフレームのレベルを推定する装置及び方法
(51)【国際特許分類】
   G10L 19/083 20130101AFI20150928BHJP
   G10L 25/21 20130101ALI20150928BHJP
【FI】
   G10L19/083
   G10L25/21
【請求項の数】19
【全頁数】24
(21)【出願番号】特願2013-532195(P2013-532195)
(86)(22)【出願日】2011年10月6日
(65)【公表番号】特表2013-543146(P2013-543146A)
(43)【公表日】2013年11月28日
(86)【国際出願番号】EP2011067466
(87)【国際公開番号】WO2012045816
(87)【国際公開日】20120412
【審査請求日】2013年6月14日
(31)【優先権主張番号】61/390,739
(32)【優先日】2010年10月7日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】500341779
【氏名又は名称】フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100085464
【弁理士】
【氏名又は名称】野口 繁雄
(72)【発明者】
【氏名】ラルフ・ガイゲル
(72)【発明者】
【氏名】マルクス・シュネル
(72)【発明者】
【氏名】マンフレッド・ルツキィ
(72)【発明者】
【氏名】マルコ・ディアトシュク
【審査官】 五貫 昭一
(56)【参考文献】
【文献】 特表2008−546021(JP,A)
【文献】 特開平8−123495(JP,A)
【文献】 特開2001−92500(JP,A)
【文献】 特表2002−534702(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/083
G10L 25/21
(57)【特許請求の範囲】
【請求項1】
符号化されたオーディオ信号のレベルを推定するための装置であって、
複数のコードブックから1つのコードブックを識別されたコードブックとして決定するためのコードブック決定器(110)であって、前記オーディオ信号は前記識別されたコードブックを用いて符号化されているコードブック決定器(110)と、
前記識別されたコードブックに関連づけられたレベル値を導出レベル値として導出するように構成され、かつ前記導出レベル値を用いて前記オーディオ信号のレベル推定値を推定するように構成された推定ユニット(120)と、
を備えた装置。
【請求項2】
前記推定ユニット(120)はスケーリングユニット(220)を備え、
前記スケーリングユニット(220)は、前記符号化されたオーディオ信号に関連したスケールファクタ又は前記符号化されたオーディオ信号の一部分に関連したスケールファクタを導出スケールファクタとして導出するように適合化されており、
前記スケーリングユニット(220)は、前記導出スケールファクタ及び前記導出レベル値に基づいて、スケーリングされたレベル値を得るように適合化されており、
かつ、前記推定ユニット(120)は、前記スケーリングされたレベル値を用いて前記オーディオ信号のレベル推定値を推定するように適合化されている請求項1に記載の装置。
【請求項3】
前記導出レベル値は導出エネルギー値であり、かつ前記スケーリングユニット(220)は、スケーリングされたレベル値を得るために、導出エネルギー値に前記導出スケールファクタの二乗を掛けることによって前記導出エネルギー値に前記導出スケールファクタを適用するように適合化されているか、
前記導出レベル値は導出振幅値であり、かつ前記スケーリングユニット(220)は、スケーリングされたレベル値を得るために、導出振幅値に前記導出スケールファクタを掛けることによって前記導出振幅値に前記導出スケールファクタを適用するように適合化されているか、又は、
前記導出レベル値は導出ラウドネス値であり、かつ前記スケーリングユニット(220)は、前記導出スケールファクタをラウドネス領域へ変換するように、かつスケーリングされたレベル値を得るために、前記導出ラウドネス値に前記変換された導出スケールファクタを適用するように適合化されている請求項2に記載の装置。
【請求項4】
前記推定ユニット(120)は、前記オーディオ信号のレベル推定値を、前記識別されたコードブックの全てのコードワードの確率加重レベル和平均値の合計を示すコードブックのレベル値を用いて推定するように構成されている請求項1から3のいずれか一項に記載の装置。
ここで、
前記確率加重レベル和平均値の各々は、前記識別されたコードブックのコードワードの確率加重レベル和値の、前記コードブックに関連づけられたディメンション値に対する割合を示し、
前記確率加重レベル和値の各々は、前記識別されたコードブックの考察されるコードワードのレベル和値と、前記識別されたコードブックの前記考察されるコードワードに関連づけられた確率値との積を示し、
前記レベル和値の各々は、前記識別されたコードブックのコードワードのレベル値列の数値を示し、
前記レベル値列の各々は、前記コードブックのレベル値がエネルギー値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の二乗値を示し、前記コードブックのレベル値が振幅値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の絶対値を示し、前記コードブックのレベル値がラウドネス値である場合は前記コードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値のラウドネス領域へ変換されている値を示し、かつ、
前記数値列の各々は、前記コードブックのコードワードにより符号化された数値列である。
【請求項5】
前記推定ユニット(120)はさらにレベル値導出器(210)を備え、
前記レベル値導出器(210)は、
前記識別されたコードブックに関連づけられた前記レベル値をメモリにおいて検索することによって前記導出レベル値を導出するように適合化されているか、
前記識別されたコードブックに関連づけられた前記レベル値をローカルデータベースに要求するように適合化されているか、又は、
前記識別されたコードブックに関連づけられた前記レベル値をリモートコンピュータに要求するように適合化されている請求項1から4のいずれか一項に記載の装置。
【請求項6】
コードブックに関連づけられたレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースをさらに備え、複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値を有し、かつ、
前記レベル値導出器(210)は、前記識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから導出することによって、前記識別されたコードブックに関連づけられた前記レベル値を前記導出レベル値として導出するように構成されている請求項5に記載の装置。
【請求項7】
前記メモリ又はデータベースは、前記複数のコードブック・レベル・メモリ値を内部に格納しており、
前記コードブック・レベル・メモリ値の各々は、そのコードブック・レベル・メモリ値が関連づけられた関連するコードブックの全てのコードワードの確率加重レベル和平均値の合計を示し、
前記確率加重レベル和平均値の各々は、前記関連するコードブックのコードワードの確率加重レベル和値の、前記関連するコードブックに関連づけられたディメンション値に対する割合を示し、
前記確率加重レベル和値の各々は、前記関連するコードブックの考察されるコードワードのレベル和値と、前記関連するコードブックの前記考察されるコードワードに関連づけられた確率値との積を示し、
前記レベル和値の各々は、前記関連するコードブックのコードワードのレベル値列の数値を示し、
前記レベル値列の各々は、前記コードブックのレベルメモリ値がエネルギー値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の二乗値を示し、前記コードブックのレベルメモリ値が振幅値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値の絶対値を示し、前記コードブックのレベルメモリ値がラウドネス値である場合は前記関連するコードブックの各コードワードに関するコードワードの数値列の逆量子化数値列の各値のラウドネス領域へ変換されている値を示し、かつ、
前記数値列の各々は、前記関連するコードブックのコードワードにより符号化された数値列である請求項6に記載の装置。
【請求項8】
前記推定ユニット(120)はさらに、予測フィルタ調整器を備え、
前記予測フィルタ調整器(240)は、前記符号化されたオーディオ信号に関連する1又は複数の予測フィルタ係数、又は前記符号化されたオーディオ信号の一部分に関連する1又は複数の予測フィルタ係数を、導出予測フィルタ係数として導出するように適合化されており、
前記予測フィルタ調整器(240)は、前記導出予測フィルタ係数及び前記導出レベル値に基づいて予測フィルタ調整されたレベル値を得るように適合化されており、
かつ、前記推定ユニット(120)は、前記予測フィルタ調整されたレベル値を用いて前記オーディオ信号のレベル推定値を推定するように適合化されている請求項1から7のいずれか一項に記載の装置。
【請求項9】
入力データから出力データストリームを発生するための装置であって、
符号化されたオーディオ信号を含む前記入力データを受信するための受信機インタフェース(610)と、
前記符号化されたオーディオ信号のレベルを推定するための請求項1から8のいずれか一項に記載の装置(620)と、
前記符号化されたオーディオ信号の一部分が前記出力データストリームに含まれるべきか否かを、前記出力データストリームの前記部分に関する前記レベル推定値に基づいて決定するための決定器(630)と、
を備えている装置。
【請求項10】
該装置はさらに、ミキサを備え、
該装置は、テレビ会議システムにおける複数の参加者について、バック・データ・ストリームを出力データストリームとして発生するように適合化されており、
前記受信機インタフェース(610)は、前記複数の参加者から、オーディオ信号を含む複数の参加者データストリームを受信するように適合化されており、
前記決定器は、各参加者データストリームの前記レベル推定値に基づいて、参加者データストリームが前記バック・データ・ストリームに含まれるべきか否かを決定するように適合化されており、
前記ミキサは、前記バック・データ・ストリームに含まれるべき参加者データストリームのみをミキシングし、かつ含まれないと決定された参加者データストリームを包含しないものである請求項9に記載の装置。
【請求項11】
前記決定器(630)は、考察される参加者データストリームの前記レベル推定がしきい値を下回る場合、前記考察される参加者データストリームは前記バック・データ・ストリームに含まれないように決定するように適合化されている請求項10に記載の装置。
【請求項12】
前記決定器(630)は、前記バック・データ・ストリームに含まれる唯一のデータストリームが、特定のスケールファクタバンドに関する全ての参加者データストリームの前記レベル推定のうちで最も高いレベル推定値を有するデータストリームであると決定するように適合化されている請求項10に記載の装置。
【請求項13】
バッファ管理のための装置であって、
あるバッファのバッファ・オーディオ・データにアクセス・バッファ・オーディオ・データとしてアクセスするためのバッファ・アクセス・ユニットであって、前記バッファ・オーディオ・データは符号化されたオーディオ信号を含むバッファ・アクセス・ユニットと、
前記符号化されたオーディオ信号のレベルを推定するための請求項1から12のいずれか一項に記載の装置と、
前記符号化されたオーディオ信号の前記レベル推定値に基づいて、前記アクセス・バッファ・オーディオ・データが前記バッファから削除されるべきか否かを決定するための決定器と、
を備えている装置。
【請求項14】
コードブックに関連づけられたコードブックレベル値を発生するための方法であって、
前記コードブックの各コードワードについて、前記コードブックのコードワードに関連づけられた数値列を決定することと、
前記コードブックの各コードワードについて逆量子化数値列を、前記コードブックの各コードワードについてコードワードの前記数値列の数値へ逆量子化器を適用することにより決定することと、
前記コードブックの各コードワードのレベル値列を、コードブックレベル値としてエネルギー値が発生される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値の二乗を計算することにより決定し、又は、コードブックレベル値として振幅値が発生される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値の絶対値を計算することにより決定し、又はコードブックレベル値としてラウドネス値が決定される場合には前記コードブックの各コードワードについてコードワードの前記逆量子化数値列の各値をラウドネス領域へ変換することにより決定することと、
前記コードブックの各コードワードについてのレベル和値を、前記コードブックの各コードワードの前記レベル値列の値を合計することにより計算することと、
前記コードブックの各コードワードについての確率加重レベル和値を、前記コードブックの各コードワードについて、前記コードワードの前記レベル和値に前記コードワードに関連づけられた確率値を掛けることにより決定することと、
前記コードブックの各コードワードについての確率加重レベル和平均値を、前記コードブックの各コードワードについて、コードワードの前記確率加重レベル和値を前記コードブックに関連づけられるディメンション値で除算することにより決定することと、
前記コードブックレベル値を、全てのコードワードの確率加重レベル和平均値を合計することにより計算することを含む方法。
【請求項15】
前記コードワードに関連づけられた前記確率値は、式:
-(長さ(コードワード))
に従って計算される請求項14に記載の方法。
ここで、長さ(コードワード)は前記コードワードの長さを示す。
【請求項16】
符号化されたオーディオ信号のレベルを推定するための方法であって、
複数のコードブックから1つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することを含む方法。
【請求項17】
入力データから出力データストリームを発生するための方法であって、
符号化されたオーディオ信号を含む前記入力データを受信することと、
複数のコードブックから1つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することと、
前記符号化されたオーディオ信号の一部分が前記出力データストリームに含まれるべきか否かを、前記符号化されたオーディオ信号の前記一部分に関する前記レベル推定値に基づいて決定することを含む方法。
【請求項18】
符号化されたオーディオ信号を含む入力データをバッファに格納するための方法であって、
前記符号化されたオーディオ信号を含む前記入力データを受信することと、
複数のコードブックから1つのコードブックを、前記オーディオ信号を符号化するのに用いられたコードブック、すなわち識別されたコードブックとして決定することと、
前記識別されたコードブックに関連づけられたレベル値を導出することと、
前記レベル値を用いて前記オーディオ信号のレベル推定値を推定することと、
前記符号化されたオーディオ信号の一部分が前記バッファに格納されるべきか否かを、前記符号化されたオーディオ信号の前記一部分に関する前記レベル推定値に基づいて決定することを含む方法。
【請求項19】
コンピュータ又は信号プロセッサに請求項14から18のいずれか一項に記載の方法を実行させるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオ処理に関し、具体的には、ビットストリーム・ドメインにおける符号化されたオーディオ信号のレベルを推定するための装置及び方法に関する。
【背景技術】
【0002】
オーディオ処理は多様な進歩を遂げ、オーディオデータ信号を如何にして効率的に符号化しかつ復号するかということが多くの研究の主題となっている。効率的な符号化は、例えばMPEG AAC(MPEG=動画専門家グループ、AAC=アドバンスト・オーディオ・コーディング)によって提供される。
【0003】
MPEG AACによれば、オーディオ信号のスペクトル値は、スケールファクタ、量子化及びコードブック、具体的にはハフマンコードブックを使用して符号化される。
【0004】
ハフマン符号化が実行される前に、エンコーダは、符号化されるべき複数のスペクトル係数を異なるセクションにグループ化する。スペクトル係数の各セクションについて、エンコーダは、ハフマン符号化のためのハフマンコードブックを選ぶ。MPEG AACはスペクトルデータを符号化するための11の異なるスペクトル・ハフマン・コードブックを提供しており、エンコーダはそこからそのセクションのスペクトル係数の符号化に最も適するコードブックを選択する。エンコーダは、そのセクションのスペクトル係数のハフマン符号化に使用されたコードブックを識別するコードブック識別子をサイド情報としてデコーダへ与える。
【0005】
デコーダ側では、デコーダは受信したサイド情報を分析して、あるセクションのスペクトル値の符号化に使用されているのは複数のスペクトル・ハフマン・コードブックのうちのどれであるかを決定する。デコーダは、デコーダによって復号されるべきセクションのスペクトル係数を符号化するために使用されたハフマンコードブックに関するサイド情報に基づいてハフマン復号を実行する。
【0006】
ハフマン復号の後、デコーダにおいて複数の量子化されたスペクトル値が得られる。その後、デコーダは、エンコーダによって実行されていることのある非一様量子化を反転するために逆量子化を実行することがある。これにより、デコーダにおいて、逆量子化されたスペクトル値が得られる。
【0007】
しかしながら、逆量子化されたスペクトル値は、まだスケーリングされていないことがある。導出されたスケーリングされていないスペクトル値はスケールファクタバンドにグループ化されていて、各スケールファクタバンドは共通のスケールファクタを有する。各スケールファクタバンドのスケールファクタは、デコーダでサイド情報として利用でき、エンコーダにより与えられている。この情報を用いて、デコーダは、スケールファクタバンドのスケーリングされていないスペクトル値にそれらのスケールファクタを掛ける。これにより、スケーリングされたスペクトル値が得られる。
【0008】
次に、この最新技術によるスペクトル値の符号化及び復号について、図7図10を参照して説明する。
【0009】
図7は、最新技術によるエンコーダを示す。エンコーダは、符号化されるオーディオ信号ASを時間領域から周波数領域へ変換するためのT/Fフィルタバンク710を備えており、周波数領域オーディオ信号を得る。その周波数領域オーディオ信号は、スケールファクタを決定するためにスケールファクタユニット720へ供給される。スケールファクタユニット720は、周波数領域オーディオ信号のスペクトル係数を幾つかのグループに分割するように適合化されている。スペクトル係数のそれらのグループはスケールファクタバンドと呼ばれ、それぞれ1つのスケールファクタを共有する。スケールファクタは、それぞれのスケールファクタバンドにおける全てのスペクトル係数の振幅を変更するために使用される利得値を表す。さらに、スケールファクタユニット720は、周波数領域オーディオ信号のスケーリングされていないスペクトル係数を生成して出力するようにも適合化されている。
【0010】
さらに、図7におけるエンコーダは、スケールファクタユニット720から出力されたスケーリングされていないスペクトル係数を量子化するための量子化器を備えている。量子化器730は非一様量子化器とすることができる。
【0011】
量子化の後、量子化されたスケーリングされていないオーディオ信号スペクトルは、ハフマン符号化のためにハフマンエンコーダ740へ供給される。ハフマン符号化は、オーディオ信号の量子化スペクトルの冗長性を低減するために使用される。複数のスケーリングされていない量子化スペクトル係数は、セクションにグループ化される。MPEG−AACでは11のコードブックが提供されるが、1つのセクションのスペクトル係数は全て同じハフマンコードブックによって符号化される。
【0012】
エンコーダは、可能な11のハフマンコードブックの中から、該当するセクションのスペクトル係数の符号化に特に適する1つを選ぶ。このため、エンコーダによる特定のセクションのためのハフマンコードブックの選択は、その特定のセクションのスペクトル値に依存する。ハフマン符号化されたスペクトル係数は、その後、サイド情報と共にデコーダへ送信することができる。そのサイド情報は、例えばスペクトル係数のセクションを符号化するために使用されたハフマンコードブック、特定のスケールファクタバンドに使用されたスケールファクタなどに関する情報を含む。
【0013】
2つ又は4つのスペクトル係数が、セクションのスペクトル係数をハフマン符号化するために使用されたハフマンコードブックのコードワードによって符号化される。エンコーダは、符号化されたスペクトル係数を表すコードワードを、セクションのスペクトル係数を符号化するために使用されたハフマンコードブックに関する情報だけでなく、セクションの長さを含むサイド情報もいっしょにデコーダへ送信する。
【0014】
MPEG AACでは、オーディオ信号のスペクトルデータを符号化するために11のスペクトル・ハフマン・コードブックが提供される。異なるスペクトル・ハフマン・コードブックは、そのコードブックインデックス(1から11までの間の値)によって識別することができる。ハフマンコードブックのディメンションは、考察されるハフマンコードブックのあるコードワードによって幾つのスペクトル係数が符号化されるかを示す。MPEG AACにおいて、ハフマンコードブックのディメンションは2又は4の何れかであり、1つのコードワードが2つ又は4つのオーディオ信号スペクトル値を符号化することを示す。
【0015】
しかしながら、異なるハフマンコードブックは、他の特性に関しても相違している。例えば、ハフマンコードブックによって符号化できるスペクトル係数の最大絶対値はコードブック毎に変わり、例えば1、2、4、7、12又はそれ以上とできる。さらに、考察されるハフマンコードブックは符号付きの値を符号化するように適合化される場合もあれば、されない場合もある。
【0016】
ハフマン符号化を用いて、スペクトル係数は異なる長さのコードワードによって符号化される。MPEG AACは、最大絶対値1を有する2つの異なるハフマンコードブック、最大絶対値2を有する2つの異なるハフマンコードブック、最大絶対値4を有する2つの異なるハフマンコードブック、最大絶対値7を有する2つの異なるハフマンコードブック及び最大絶対値12を有する2つの異なるハフマンコードブックを提供し、各ハフマンコードブックは別個の確率分布関数を表す。ハフマンエンコーダは常に、スペクトル係数の符号化に最も適合するハフマンコードブックを選ぶ。
【0017】
図8は最新技術によるデコーダを示す。ハフマン符号化されたスペクトル値は、ハフマンデコーダ750によって受信される。フマンデコーダ750は、サイド情報として、スペクトル値の各セクションについてスペクトル値を符号化するために使用されたハフマンコードブックに関する情報も受信する。ハフマンデコーダ750は次に、ハフマン復号を実行してスケーリングされていない量子化スペクトル値を得る。そのスケーリングされていない量子化スペクトル値は逆量子化器760へ供給される。逆量子化器は逆量子化を実行してスケーリングされていない逆量子化スペクトル値を得る。そのスケーリングされていない逆量子化スペクトル値はスケーラ770へ供給される。スケーラ770は、各スケールファクタバンドのサイド情報としてスケールファクタも受信する。スケーラ770は、受信したスケールファクタに基づいて、スケーリングされていない逆量子化スペクトル値をスケーリングし、スケーリングされた逆量子化スペクトル値を得る。次に、F/Tフィルタバンク780が、時間領域オーディオ信号のサンプル値を得るために、周波数領域オーディオ信号のスケーリングされた逆量子化スペクトル値を周波数領域から時間領域へ変換する。
【0018】
図9図7のエンコーダとは異なる最新技術によるエンコーダを示す。図9のエンコーダは、エンコーダ側TNSユニット(TNS=時間領域雑音整形)をさらに備えている点で図7のエンコーダとは異なる。時間領域雑音整形は、オーディオ信号のスペクトルデータ部分に対し濾波プロセスを実行することによって、量子化雑音の時間形状を制御するように使用できる。エンコーダ側TNSユニット715は、符号化されるべき周波数領域オーディオ信号のスペクトル係数について線形予測コーディング(LPC)の計算を実行することを決定する。LPC計算の結果として得られるものは、とりわけ、PARCOR係数とも称される反射係数である。時間領域雑音整形は、同じくLPC計算によって導出される予測利得が所定のしきい値を超えていなければ使用されない。しかし、予測利得がしきい値を上回れば時間領域雑音整形が使用される。エンコーダ側TNSユニットは、所定のしきい値より小さい全ての反射係数を除去する。残りの反射係数は線形予測係数に変換され、このエンコーダ内で雑音整形フィルタ係数として使用される。エンコーダ側TNSユニットは次に、TNSが使用されるスペクトル係数に対してフィルタ演算を実行し、オーディオ信号の処理されたスペクトル係数を得る。TNS情報を示すサイド情報、例えば反射係数(PARCOR係数)はデコーダへ送信される。
【0019】
図10図8に示されているデコーダとは相違する最新技術によるデコーダを示す。図10のデコーダは、デコーダ側TNSユニット775をさらに備えている限りにおいて図8に示されているデコーダとは相違する。デコーダ側TNSユニットはオーディオ信号のスケーリングされた逆量子化スペクトルを受信し、TNS情報、例えば反射係数(PARCOR係数)を示す情報も受信する。デコーダ側TNSユニット775は、オーディオ信号の逆量子化スペクトルを処理して、オーディオ信号の処理された逆量子化スペクトルを得る。
【0020】
複数のアプリケーションにとって、符号化されたオーディオ信号のレベル、例えばエネルギー、振幅又はラウドネスを決定又は推定することは重要である。これは、テレビ会議システムについて特にいえる。数人の参加者が異なるロケーションに存在するテレビ会議は、多地点制御装置(MCU)によって処理される。多地点制御装置の目的は、オーディオデータがコード化されたフォーマットで与えられる様々な入力ストリーム及び出力ストリームをミキシングすることにある。
【0021】
この最新技術によれば、入力ストリームは全てMCUにおいて復号され、次いで、復号されたオーディオデータは、出力ストリームへ混合される最も支配的なストリームを識別するためにさらに分析される。これは、この最新技術によれば、後に最も支配的なストリーム、例えば最も高いレベルを示すストリーム、例えば最大量のエネルギーを示すストリームを識別するために、入力ストリームのさらなる分析用に全ての入力ストリームがハフマン復号され、逆量子化され、かつスケーリングされることを意味する。1つのスケールファクタバンドのレベル、例えばエネルギー、を推定するためのこの最新技術による手法は、全てのスペクトル値についてハフマン復号及び逆量子化を行い、かつ全ての逆量子化されたスペクトル値の二乗を合計することによってエネルギーを計算することであると思われる。
【発明の概要】
【発明が解決しようとする課題】
【0022】
本発明の目的は、符号化されたオーディオ信号のレベル推定について改良された概念を提供することにある。本発明のこの目的は、請求項1に記載の装置、請求項14、16,17及び18に記載の方法、並びに請求項19に記載のコンピュータプログラムによって達成される。
【課題を解決するための手段】
【0023】
符号化されたオーディオ信号のレベルを推定するための装置が提供される。本装置は、複数のコードブックについて1つのコードブックを識別されたコードブックとして決定するためのコードブック決定器を備えている。符号化されたオーディオ信号は、その識別されたコードブックを用いて符号化されている。本装置はさらに、識別されたコードブックに関連づけられたレベル値を導出レベル値として導出するように構成された推定ユニットを備えている。さらに、その推定ユニットは符号化されたオーディオ信号のレベル推定値を、導出レベル値を用いて推定するように適合化されている。
【0024】
ある実施形態において、導出レベル値は導出されたエネルギー値とすることができ、その場合、レベル推定のための装置はエネルギー推定をレベル推定として実行するように適合化することができる。別の実施形態において、導出レベル値は導出された振幅値とすることができ、その場合、レベル推定のための装置は振幅推定をレベル推定として実行するように適合化することができる。さらなる実施形態において、導出レベル値は導出されたラウドネス値とすることができ、その場合、レベル推定のための装置はラウドネス推定をレベル推定として実行するように適合化することができる。
【0025】
本発明は、全ての復号ステップの複雑さを減らすために、レベル、例えばエネルギー、振幅又はラウドネスは、最も支配的なストリームを識別するためのビットストリームパラメータから直接に推定できる、という発見に基づいている。レベル推定、例えばエネルギー推定、振幅推定又はラウドネス推定はビットストリーム情報、例えばビットストリームエレメントに基づくことができる。ビットストリームエレメントは、ハフマンコードブック、スケールファクタ及び、例えばTNSフィルタ係数を含む。これらのビットストリームエレメントは、調和したAAC−ELDストリーム(AAC−ELD:アドバンスト・オーディオ・コーディング−強化低遅延)のレベルを推定するために使用できる。したがって、本発明によれば、オーディオビットストリームを完全に復号する必要はなく、代わりに、オーディオ信号の符号化に使用されたコードブックの決定に基づいてレベル推定値が与えられ、その識別されたコードブックに関連づけられたレベル値が導出され、そしてこのレベル値を用いてオーディオ信号のレベル推定値が推定される。
【0026】
ある実施形態において、推定ユニットはスケーリングユニットを備えている。そのスケーリングユニットは、符号化されたオーディオ信号に関するスケールファクタ、又は符号化されたオーディオ信号の一部分に関するスケールファクタを導出スケールファクタとして導出するように適合化することができる。そのスケーリングユニットは、スケーリングされたレベル値、例えばスケーリングされたエネルギー、振幅又はラウドネス値を、導出スケールファクタ及び導出レベル値に基づいて得るように適合化することができる。さらに、推定ユニットはオーディオ信号のレベル推定値を、スケーリングユニットで得られたスケーリングされたレベル値を用いて推定するように適合化することができる。この実施形態によれば、レベル推定値は、オーディオ信号を符号化するために使用されたコードブックに関する情報、識別されたコードブックに関連づけられたレベル値及びスケールファクタに基づいて与えられる。
【0027】
ある実施形態では、導出レベル値はエネルギー値であり、その場合、スケーリングユニットは、導出エネルギー値に導出スケールファクタの二乗を掛けることによりスケーリングされたエネルギー値を得るように、導出スケールファクタを導出エネルギー値に適用するように適合化することができる。これにより、導出スケールファクタは導出エネルギーに適用され、その方法はMPEG−2 AACによるデコーダにおいてスケーリングされていない逆量子化スペクトル係数にスケールファクタが適用されるのに類似しているが、スペクトル係数を復号する必要はない。
【0028】
別の実施形態では、導出レベル値は振幅値であり、その場合、スケーリングユニットは、導出振幅値に導出スケールファクタを掛けることによりスケーリングされた振幅値を得るように、導出スケールファクタを導出振幅値に適用するように適合化することができる。
【0029】
さらなる実施形態では、導出レベル値はラウドネス値であり、その場合、スケーリングユニットは、導出ラウドネス値に導出スケールファクタの三乗を掛けることによりスケーリングされたラウドネス値を得るように、導出スケールファクタを導出ラウドネス値に適用するように適合化することができる。ラウドネスの計算には、(3/2)乗を掛ける等の別の方法がある。概して、導出レベル値がラウドネス値である場合、スケールファクタはラウドネス領域へ変換されなければならない。
【0030】
別の実施形態において、推定ユニットは、ある特定のレベル値を導出レベル値として用いてオーディオ信号のレベル推定値を推定するように構成されている。したがって、この場合の推定ユニットは、具体的には、レベル推定をその特定の種類のレベル値に基づいて実行するように構成されている。
【0031】
ある実施形態では、導出レベル値は導出エネルギー値であり、その場合、推定ユニットは、導出エネルギー値としてコードブックエネルギー値を用いて、エネルギー推定値をオーディオ信号のレベル推定値として推定するように構成されている。コードブックエネルギー値とは、識別されたコードブックの全コードワードの確率加重エネルギー和平均値の和を示す。各確率加重和平均値は、識別されたコードブックのコードワードの確率加重エネルギー和値の、そのコードブックに関連づけられたディメンション値に対する割合を示す。各確率加重エネルギー和値は、識別されたコードブックの考察されたコードワードのエネルギー和値と、識別されたコードブックの考察されたコードワードに関連づけられた確率値との積を示す。各エネルギー和値は、識別されたコードブックのコードワードのエネルギー値列の数値を示す。各エネルギー値列は、そのコードブックの各コードワードに関する、コードワードの数値列の逆量子化された数値の列の各値の二乗値を示す。コードワードの各数値列は、コードブックのコードワードによって符号化された数値の列である。
【0032】
さらなる実施形態では、推定ユニットはさらにレベル値導出器を備えている。レベル値導出器は、導出レベル値を、識別されたコードブックに関連づけられたレベル値をメモリにおいて検索することにより導出するように適合化されている。別の実施形態では、レベル値導出器は、識別されたコードブックに関連づけられたレベル値をローカルデータベースに要求するように適合化されている。さらに別の実施形態では、レベル値導出器は、識別されたコードブックに関連づけられたレベル値をリモートコンピュータに要求するように適合化されている。
【0033】
別の実施形態では、本装置はさらに、コードブックに関連づけられたレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースを備えており、複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値をもっている。その場合、レベル値導出器は識別されたコードブックに関連づけられたレベル値を導出するように構成されており、それは識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから導出することによってなされる。
【0034】
ある実施形態では、前記メモリ又はデータベースは、その内部にコードブック・レベル・メモリ値として複数のコードブック・エネルギー・メモリ値を格納している。各コードブック・エネルギー・メモリ値は、識別されたコードブックの全てのコードワードの確率加重エネルギー和平均値の合計を示す。各エネルギー和値は、識別されたコードブックのコードワードのエネルギー値列の数値を示す。さらに、各エネルギー値列は、そのコードブックの各コードワードに関する、コードワードの数値列の逆量子化された数値の列の各値の二乗値を示す。各数値列は、コードブックのコードワードによって格納された数値列である。この実施形態は、ある特定のコードブックに関連づけられている複数のコードブック・エネルギー・メモリ値を内部に格納している、メモリ又はデータベースを提供し、この場合、格納されたコードブック・エネルギー・メモリ値は、エネルギー推定に使用されることに特に適する特別な特性を有する。
【0035】
別の実施形態では、前記メモリ又はデータベースは、その内部に、コードブック・レベル・メモリ値として複数の振幅値を格納している。さらの別の実施形態では、前記メモリ又はデータベースは、その内部に、コードブック・レベル・メモリ値として複数のラウドネス値を格納している。
【0036】
別の実施形態では、推定ユニットはさらに予測フィルタ調整器を備えている。予測フィルタ調整器は1つ又は複数の予測フィルタ係数を導出予測フィルタ係数として導出するように適合化されている。予測フィルタ係数は、符号化されたオーディオ信号又は符号化されたオーディオ信号の一部分に関連している。予測フィルタ調整器はさらに、導出予測フィルタ係数及び導出レベル値に基づいて、予測フィルタ調整されたレベル値を取得するようにも適合化されている。さらに、推定ユニットはオーディオ信号のレベル推定値を、予測フィルタ調整されたレベル値を用いて推定するように適合化されている。
【0037】
別の実施形態によれば、テレビ会議システムにおける複数の参加者に関してバック・データ・ストリームを発生するための装置が提供される。本装置は、複数の参加者から、オーディオ信号を含む複数の参加者データストリームを受信するための受信機インタフェースを備えている。さらに、バック・データ・ストリームを発生するための本装置は、これまでに述べた実施形態のうちの1つによる符号化されたオーディオ信号のレベルを推定するための装置を備えている。このレベル推定のための装置は、各参加者データストリーム毎のレベル推定を、データストリームを完全に復号することなく実行するように調整されている。さらに、バック・データ・ストリームを発生するための本装置は、レベル推定に基づいて、参加者データストリームがバック・データ・ストリームへ含まれるべきか否かを決定するための決定器を備えている。さらに、バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれるべき参加者データストリームのみを混合し、含まれないと決定された参加者データストリームを含まないためのミキサを備えている。バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれないと決定された参加者データストリームを完全には復号しないように構成されている。ある実施形態では、前記決定器は、考察される参加者データストリームのレベル推定がしきい値を下回る場合、考察される参加者データストリームはバック・データ・ストリームに含まれないことを決定するように適合化されている。さらなる実施形態では、前記決定器は、バック・データ・ストリームに含まれる唯一のデータストリームが、特定のスケールファクタバンドに関する全ての参加者データストリームのレベル推定のうちで最も高いレベル推定値を有するデータストリームであると決定するように適合化されている。
【0038】
ある実施形態では、あるコードブックに関連づけられたレベル値を発生するための方法が提供される。本方法は、
コードブックの各コードワードについて、コードブックのコードワードに関連づけられた数値列を決定すること、
コードブックの各コードワードについての逆量子化された数値列を、コードブックの各コードワードについてのコードワードの前記数値列の数値へ逆量子化器を適用することにより決定すること、
コードブックの各コードワードについてのレベル値列を、コードブックの各コードワードについてコードワードの逆量子化された前記数値列の各値を二乗することにより計算すること、
コードブックの各コードワードについてのレベル和値を、コードブックの各コードワードの前記レベル値列の値を合計することにより計算すること、
コードブックの各コードワードについての確率加重レベル和値を、コードブックの各コードワードについて、コードワードの前記レベル和値にコードワードに関連づけられた確率値を掛けることにより決定すること、
コードブックの各コードワードについての確率加重レベル和平均値を、コードブックの各コードワードについて、コードワードの前記確率加重レベル和値をコードブックに関連づけられたディメンション値で除算することにより決定すること、及び
コードブックのレベル値を、全てのコードワードの前記確率加重レベル和平均値を合計することにより計算することを含む。
【0039】
図面を参照して、好適な実施形態について説明する。
【図面の簡単な説明】
【0040】
図1図1はある実施形態によるレベル推定のための装置を示す。
図2図2はある実施形態による推定ユニットを示す。
図3図3は別の実施形態による推定ユニットを示す。
図4A図4Bとともにレベル値を発生するための方法を示す。
図4B図4Aとともにレベル値を発生するための方法を示す。
図5図5は予測フィルタ調整器を備えているさらなる実施形態による推定ユニットを示す。
図6図6はバック・データ・ストリームを発生するための装置を示す。
図7図7は最新技術によるエンコーダを示す。
図8図8は最新技術によるデコーダを示す。
図9図9は最新技術による別のエンコーダを示す。
図10図10は最新技術によるさらなるデコーダを示す。
【発明を実施するための形態】
【0041】
図1はある実施形態による装置を示す。本装置はコードブック決定器110と推定ユニット120を備えている。コードブック決定器110は複数のコードブックから1つのコードブックを識別されたコードブックとして決定するように適合化されており、オーディオ信号はその識別されたコードブックを用いて符号化されている。推定ユニット120は、識別されたコードブックに関連づけられたレベル値、例えばエネルギー値、振幅値又はラウドネス値を導出レベル値として導出するように適合化されている。さらに、推定ユニット120は、オーディオ信号のレベル推定値、例えばエネルギー推定値、振幅推定値又はラウドネス推定値を導出レベル値を用いて推定するように適合化されている。例えば、コードブック決定器110は、オーディオ信号を符号化するためにエンコーダにより使用されたコードブックを、符号化されたオーディオ信号と共に送信されたサイド情報を受信することによって決定することができる。具体的には、そのサイド情報は、オーディオ信号の考察されるセクションを符号化するために使用されたコードブックを識別する情報を含むことができる。このような情報は、例えば、エンコーダからデコーダへ、オーディオ信号の考察されるセクションを符号化するために使用されたハフマンコードブックを識別する数字として送信することができる。
【0042】
図2はある実施形態による推定ユニットを示す。その推定ユニットは、レベル値導出器210とスケーリングユニット220を備えている。そのレベル値導出器は、識別されたコードブック、即ちエンコーダによりスペクトルデータを符号化するために使用されたコードブック、に関連づけられたレベル値を導出するように適合化されている。そのレベル値の導出は、メモリ内でそのレベル値を検索すること、ローカルデータベースからのそのレベル値を要求すること、又はリモートコンピュータからのそのレベル値を要求することによってなされる。ある実施形態において、レベル値導出器が検索又は要求するそのレベル値は、識別されたコードブックを用いて符号化されたスケーリングされていない符号化スペクトル値の平均レベルを示す平均レベル値とすることができる。
【0043】
この場合、導出レベル値は実際のスペクトル値から計算されず、代わりに、使用されたコードブックにのみ依存する平均レベル値が使用される。先に説明したように、エンコーダは、一般に、オーディオ信号のセクションのそれぞれのスペクトルデータを符号化するために最も適した複数のコードブックからコードブックを選択するように適合化されている。コードブックは、例えば符号化できる最大絶対値に関して相違することから、ハフマンコードブックにより符号化される平均値はコードブック毎に異なり、また、それ故に、個々のコードブックにより符号化された符号化スペクトル係数の平均レベル値もコードブック毎に異なる。
【0044】
したがって、ある実施形態によれば、個々のハフマンコードブックを使用してオーディオ信号のスペクトル係数を符号化するための平均レベル値はハフマンコードブック毎に決定することができ、かつ、例えば、メモリ、データベース又はリモートコンピュータに格納することができる。よってレベル値導出器は、識別されたコードブックに関連づけられた導出レベル値を得るには、単に、スペクトルデータの符号化に使用された識別されたコードブックに関連づけられたレベル値を検索するか又は要求するだけでよい。
【0045】
しかしながら、MPEG AACの場合がそうであるように、ハフマンコードブックはしばしばスケーリングされていないスペクトル値を符号化するために使用されることを考慮しなければならない。よって、レベル推定の実行に際しては、スケーリングを考慮すべきである。したがって、図2の推定ユニットはスケーリングユニット220も備えている。そのスケーリングユニットは、符号化されたオーディオ信号に関するスケールファクタ又は符号化されたオーディオ信号の一部分に関するスケールファクタを、導出スケールファクタとして導出するように適合化されている。例えば、デコーダに関して、スケーリングユニット220はスケールファクタバンド毎に1つのスケールファクタを決定する。例えば、スケーリングユニット220は、スケールファクタバンドのスケールファクタに関する情報を、エンコーダからデコーダへ送信されるサイド情報を受信することによって受信してもよい。スケーリングユニット220は、スケーリングされたレベル値を、スケールファクタ及び導出レベル値に基づいて決定するようにさらに適合化されている。
【0046】
一実施形態では導出レベル値が導出エネルギー値であり、その場合、スケーリングユニットは、導出スケールファクタを導出エネルギー値に適用し、導出エネルギー値に導出スケールファクタの二乗を掛けることによりスケーリングされたレベル値を得るように適合化されている。
【0047】
別の実施形態では導出レベル値が導出振幅値であり、その場合、スケーリングユニットは、導出スケールファクタを導出振幅値に適用し、導出振幅値に導出スケールファクタを掛けることによりスケーリングされたレベル値を得るように適合化されている。
【0048】
さらに別の実施形態では導出レベル値が導出ラウドネス値であり、その場合、スケーリングユニット(220)は、導出スケールファクタを導出ラウドネス値に適用し、導出ラウドネス値に導出スケールファクタの三乗を掛けることによりスケーリングされたレベル値を得るように適合化されている。ラウドネスの計算には、(3/2)乗を掛ける等の代替方法が存在する。一般に、導出レベル値がラウドネス値である場合、スケールファクタはラウドネス領域へ変換されなければならない。
【0049】
これらの実施形態は、エネルギー値がオーディオ信号のスペクトル係数の二乗に基づいて決定されること、振幅値がオーディオ信号のスペクトル係数の絶対値に基づいて決定されること、及びラウドネス値がオーディオ信号のラウドネス領域へ変換されているスペクトル係数に基づいて決定されること、を考慮に入れている。
【0050】
その推定ユニットは、オーディオ信号のレベル推定値を、スケーリングされたレベル値を用いて推定するように適合化されている。図2の実施形態では、推定ユニットは、スケーリングされたレベル値をレベル推定値として出力するように適合化されており、この場合はスケーリングされたレベル値の後処理は行われない。しかし、図3の実施形態に示されているように、推定ユニットは後処理を行うように適合化することもできる。したがって、図3の推定ユニットは、レベル推定値を推定するために1又は複数のスケーリングされたレベル値を後処理するためのポストプロセッサ230を備えている。例えば、推定ユニットのレベル推定値は、ポストプロセッサ230が複数のスケーリングされたレベル値の平均値を決定することによって決定することができる。この平均値は、推定ユニットがレベル推定値として出力することができる。
【0051】
提示している実施形態とは対照的に、最新技術による手法は、例えば1つのスケールファクタバンドのエネルギーを推定する場合、全てのスペクトル値についてハフマン復号及び逆量子化を行い、かつ全ての逆量子化されたスペクトル値の二乗を合計することによってエネルギーを計算することであると思われる。
【0052】
しかしながら、提案している実施形態では、最新技術によるこの複雑な計算プロセスが、スケールファクタ及び使用されたコードブックのみに依存して実際の量子化された値に依存しない平均レベルの推定に置き換えられる。
【0053】
本発明の実施形態は、ハフマンコードブックは専用の統計に従って最適なコーディングを提供するように設計される、という事実を採用している。これは、コードブックがデータの確率に従って設計されていることを意味する。そのデータとは、例えばAAC−ELD(AAC−ELD=アドバンスト・オーディオ・コーディング−強化低遅延)、即ちスペクトル線、である。このプロセスを逆にして、コードブックに従ってデータの確率を得ることができる。コードブック内部の各データエントリ(インデックス)の確率は、コードワードの長さによって与えられる。例えば、
p(インデックス)=2^−長さ(コードワード)
即ち、
p(インデックス)=2-長さ(コードワード)
である。ここで、p(インデックス)はコードブック内部のデータエントリ(インデックス)の確率である。
【0054】
これに基づけば、期待レベルは事前に計算し、かつ次の方法で格納することができる。即ち、各インデックスは整数値(x)、例えばスペクトル線、の列を表す。但し、列の長さはコードブックの大きさに依存し、例えばAAC−ELDでは2又は4である。
【0055】
図4A及び図4Bは、ある実施形態による、コードブックに関連づけられたレベル値、例えばエネルギー値、振幅値又はラウドネス値を発生する方法を示す。
【0056】
本方法は、コードブックの各コードワードについて、コードブックのコードワードに関連づけられた数値列を決定すること(ステップ410)を含んでいる。先に説明したように、コードブックは、数値列、例えば2つ又は4つの数値による列を、そのコードブックのコードワードにより符号化する。そのコードブックは、数値列の複数個を符号化するために複数のコードブックを備えている。決定される数値列は、そのコードブックの考察されるコードワードにより符号化される数値列である。ステップ410は、そのコードブックの各コードワードについて実行される。例えば、そのコードブックが81個のコードワードを含んでいれば、ステップ410において81の数値列が決定される。
【0057】
ステップ420では、そのコードブックの各コードワードについて逆量子化された数値列が決定される。逆量子化された数値列の決定は、そのコードブックの各コードワードについて、コードワードの数値列の数値へ逆量子化器を適用することにより行われる。先に説明したように、エンコーダは、一般に、オーディオ信号のスペクトル値の符号化に際して量子化を使用することができる。その量子化は、例えば非線形量子化である。その結果、この量子化はデコーダ側で反転されなければならない。
【0058】
この後、ステップ430では、そのコードブックの各コードワードについてレベル値列が決定される。
【0059】
もし、そのコードブックのレベル値としてエネルギー値が発生されるのであれば、各コードワードについてエネルギー値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の二乗が計算される。
【0060】
もし、コードブックのレベル値として振幅値が発生されるのであれば、各コードワードについて振幅値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の絶対値が計算される。
【0061】
もし、コードブックのレベル値としてラウドネス値が発生されるのであれば、各コードワードについてラウドネス値列が決定され、かつそのコードブックの各コードワードについて、逆量子化された数値列の各値の三乗が計算される。ラウドネスの計算には、(3/2)乗を掛ける等の代替方法が存在する。一般に、コードブックのレベル値としてラウドネス値が発生される場合、逆量子化された数値列の値はラウドネス領域へ変換されなければならない。
【0062】
続いて、ステップ440では、コードブックの各コードワードのレベル和値が計算される。レベル和値の計算は、コードブックの各コードワードについてレベル値列の値を合計することによりなされる。
【0063】
次に、ステップ450では、そのコードブックの各コードワードについて確率加重レベル和値が決定される。その確率加重レベル和値の決定は、そのコードブックの各コードワードについて、コードワードのレベル和値にそのコードワードに関連づけられた確率値を掛けることによりなされる。この場合、数値列、例えばスペクトル係数列には、他のスペクトル係数列ほど頻繁には現われないものがあることを考慮する。コードワードに関連づけられた確率値はこのことを考慮する。そのような確率値はコードワードの長さから導出することができる。それは、ハフマン符号化が使用される場合、現われる可能性の高いコードワードはより短い長さを有するコードワードを用いて符号化され、現われる可能性の高くない他のコードワードはより長い長さを有するコードワードを用いて符号化されるからである。
【0064】
ステップ460では、コードブックの各コードワードについて、確率加重レベル和平均値が決定される。確率加重レベル和平均値の決定は、そのコードブックの各コードワードについて、コードワードの確率加重レベル和値をそのコードブックに関連づけられたディメンション値で割り算することによりなされる。ディメンション値は、そのコードブックのコードワードによって符号化されるスペクトル値の数を示す。この場合、決定される確率加重レベル和平均値は、コードワードによって符号化されるスペクトル係数のレベル値(確率加重されたレベル値)を表す。
【0065】
次に、ステップ470では、そのコードブックのレベル値が、全てのコードワードの確率加重レベル和平均値を合計することにより計算される。
【0066】
レベル値のこのような発生は、1つのコードブックにつき一度しか実行してはならないことに留意すべきである。コードブックのレベル値が決定されれば、この値は、例えばこれまでに述べた実施形態によるレベル推定のための装置によって、簡単に検索でき、かつ使用できる。
【0067】
以下、ある実施形態による、コードブックに関連づけられたエネルギー値を発生するための方法を提示する。所定のコードブックによってコード化されたデータのエネルギーの期待値の推定に際し、下記の諸ステップは、そのコードブックの各インデックスにつき一度しか実行してはならない。
A) その列(例えば、AAC−ELD:x^(4/3))の整数値へ逆量子化を適用する。
B) A)の列の各値を二乗してエネルギーを計算する。
C) B)の列の和を作る。
D) C)にインデックスの所定の確率を掛ける。
E) そのコードブックのディメンションで除算して、スペクトル線当たりの期待エネルギーを求める。
【0068】
最後に、E)により計算された全ての値は、その完全なコードブックの期待エネルギーを得るために合計しなければならない。
【0069】
これらのステップの出力がテーブルに格納された後は、推定されたエネルギー値は、そのコードブックのインデックスに基づいて、即ちどのコードブックが使用されるかに依存して、簡単に検索することができる。実際のスペクトル値はこの推定のためにハフマン復号される必要はない。
【0070】
完全なオーディオフレームのスペクトルデータの全体エネルギーを推定するためには、スケールファクタが考慮されなければならない。スケールファクタは、ビットストリームから、さほどの複雑さなしに抽出することができる。スケールファクタは、期待エネルギーに適用される前に、例えば使用されるスケールファクタの二乗を計算することにより修正することができる。その後、期待エネルギーに、使用されるスケールファクタの二乗が掛けられる。
【0071】
上述の実施形態によれば、各スケールファクタバンドのスペクトルレベルは、ハフマン符号化されたスペクトル値を復号することなく推定することができる。レベルの推定値は、低レベル、例えば低電力を有するストリームを識別するために使用することができる。低レベルを有するストリームは後続のミキシングプロセスに関連がない。したがって、そのようなストリームの完全な復号を回避できる。
【0072】
ある実施形態によれば、レベル推定のための装置は、コードブックに関連づけられるレベル値を示す複数のコードブック・レベル・メモリ値を内部に格納しているメモリ又はデータベースをさらに備えており、前記複数のコードブックの各々は、各々に関連づけられ、かつ前記メモリ又はデータベースに格納されたコードブック・レベル・メモリ値を有する。さらに、レベル値導出器は、識別されたコードブックに関連づけられたコードブック・レベル・メモリ値を前記メモリ又はデータベースから引き出すことによって、識別されたコードブックに関連づけられたレベル値を導出するように構成されている。
【0073】
上述の実施形態によって推定されたレベルは、コーデックにおいて例えばAAC−ELD TNS(時間領域雑音整形)フィルタリングのために、予測フィルタリング等の予測としてのさらなる処理ステップが適用されれば変わりうる。この場合、予測の係数はビットストリーム内のものとして、例えばTNSではPARCOR係数として送信される。
【0074】
図5は、推定ユニットがさらに予測フィルタ調整器240を備えている実施形態を示す。予測フィルタ調整器は、符号化されたオーディオ信号又はその一部分に関連する、1又は複数の予測フィルタ係数を導出予測フィルタ係数として導出するように適合化されている。さらに、予測フィルタ調整器は、導出予測フィルタ係数及び導出レベル値に基づいて、予測フィルタ調整されたレベル値を得るように適合化されている。さらに、この推定ユニットはオーディオ信号のレベル推定値を、予測フィルタ調整されたレベル値を用いて推定するように適合化されている。
【0075】
ある実施形態において、TNSのためのPARCOR係数は、予測フィルタ係数として使用される。フィルタリングプロセスの予測利得は、これらの係数から極めて効率的な方法で決定することができる。TNSに関して、予測利得は、次の式に従って計算することができる。その式とは、すなわち、利得=1/prod(1-parcor.^2)である。
【0076】
例えば、3つのPARCOR係数、例えば、parcor1、parcor2及びparcor3を考慮しなければならないとすると、利得は、式:
に従って計算することができる。
【0077】
n個のPARCOR係数、parcor1、parcor2、…、parcornの場合は、次の式が適用される:
【0078】
これは、フィルタリングを介するオーディオ信号の増幅は、フィルタリング演算自体を適用することなく推定できることを意味する。
【0079】
上述の実施形態のうちの1つによるレベル推定のための装置は、テレビ会議システム、例えば多地点制御装置(MCU)に使用することができる。
【0080】
図6は、ある実施形態によるテレビ会議システムにおいて、複数の参加者に対してバック・データ・ストリームを発生するための装置を示す。本装置は、複数の参加者データストリームp1、p2、…、pnを受信するための受信機インタフェース610を備えている。参加者データストリームp1、p2、…、pnは複数の参加者からのオーディオ信号を含む。さらに、バック・データ・ストリームを発生するための本装置は、これまでに述べた実施形態のうちの1つによる符号化されたオーディオ信号のレベルを推定するための装置620を備えている。レベル推定のための装置620は、各参加者データストリームについてのレベル推定を、データストリームを完全に復号することなく実行するように調整されている。図6に示されているように、レベル推定のための装置は、オーディオ・データ・ストリームp1、p2、…、pnを受信し、受信したオーディオ信号を含むオーディオ・データ・ストリームp1、p2、…、pnの各々についてレベル推定を実行する。装置620は、オーディオ・データ・ストリームp1、p2、…、pnに関連するレベル推定値ee1、ee2、…、eenを決定器630へ送出する。決定器630は、各参加者データストリームのレベル推定に基づいて、参加者データストリームがバック・データ・ストリームへ含まれるべきか否かを決定するように適合化されている。次に、決定器630は、各参加者データストリームについて、参加者データストリームp1、p2、…、pnがバック・データ・ストリームに含まれるか否かに関する決定dec1、dec2、…、decnをミキサ640へ送出する。ミキサ640も参加者データストリームp1、p2、…、pnを受信するようにも適合化されている。決定dec1、dec2、…、decnに基づいて、ミキサ640は、バック・データ・ストリームに含まれるべき参加者データストリームのみをミキシングし、含まれないと決定された参加者データストリームを包含しない。
【0081】
バック・データ・ストリームを発生するための本装置は、バック・データ・ストリームに含まれないと決定された参加者データストリームを完全には復号しないように構成されている。
【0082】
ある実施形態において、決定器630は、考察される参加者データストリームのレベル推定がしきい値を下回る場合、その参加者データストリームはバック・データ・ストリームに含まれないことを決定するように適合化されている。
【0083】
ある実施形態において、バック・データ・ストリームを発生するための装置は、参加者データストリームがバック・データ・ストリームに含まれるべきか否かをフレーム毎に決定するように適合化されている。例えば、各オーディオフレームについてその参加者データストリームがバック・データ・ストリームに含まれるべきか否かが決定されて、その参加者データストリームのそのオーディオフレーム全体がバック・データ・ストリームに含まれるべきか否かが決定される。
【0084】
ある代替実施形態において、バック・データ・ストリームを発生するための装置は、参加者データストリームがバック・データ・ストリームに含まれるべきか否かをスケールファクタバンドに基づいて決定するように適合化されている。例えば、あるオーディオフレームの異なるスケールファクタバンドに関し、あるスケールファクタバンドがバック・データ・ストリームに含まれるかどうかの決定はスケールファクタバンドによって異なることがある。
【0085】
さらなる実施形態においては、決定器630は、バック・データ・ストリームに含まれるデータストリームが、特定のスケールファクタバンドに関して、全ての参加者データストリームのレベル推定値のうちで最も高いレベル推定値を有するデータストリームだけであると決定するように適合化されている。
【0086】
別の実施形態においては、決定器630は、バック・データ・ストリームに含まれデータストリームが、特定のスケールファクタバンドに関して、全ての参加者データストリームのレベル推定値のうちで最も高い2つのレベル推定値を有するデータストリームの2つだけであると決定するように適合化されている。
【0087】
ある代替実施形態においては、図6におけるレベル推定のための装置620は、複数のオーディオ信号のそれぞれに1つずつのレベル推定値を推定する単一のレベル推定用装置ではなく、n個からなる複数のレベル推定値用装置を備え、各レベル推定用装置がn個のオーディオ信号ストリームのうちの1つについて1つのレベル推定値を与えるものである。
【0088】
レベル推定のための装置は、他の様々なアプリケーションに適用することもできる。ある実施形態では、バッファ管理のための装置が提供される。バッファ管理のための装置は、あるバッファのバッファ・オーディオ・データにアクセス・バッファ・オーディオ・データとしてアクセスするためのバッファ・アクセス・ユニットを備えている。その場合、バッファ・オーディオ・データは符号化されたオーディオ信号を含んでいる。さらに、バッファ管理のための装置は、これまでに述べた実施形態のうちの1つによる符号化されたオーディオ信号のレベルを推定するための装置を備えている。さらに、バッファ管理のための装置は、アクセス・バッファ・オーディオ・データがバッファから削除されるべきか否かを、符号化されたオーディオ信号のレベル推定値に基づいて決定するための決定器を備えている。
【0089】
このようなバッファ管理のための装置は、ジッタバッファを管理するために特に有益であり、例えばVoIP(ボイス・オーバー・インターネット・プロトコル)に使用される。ある実施形態によるバッファ管理のための装置は、重要なオーディオフレームをバッファ内に保つように適合化されており、かつバッファがバッファ超過の危険性が存在する状態にあるときは、さほど重要でないフレームをバッファから削除するように適合化されている。例えば、バッファのオーディオ・データ・コンテンツ全体が調べられる場合があり、その場合は、バッファ管理のための装置は、レベル推定に基づいて、オーディオ・データ・コンテンツ(バッファ・オーディオ・データ)をバッファから削除すべきか否かを決定する。
【0090】
ある実施形態において、入力データを格納するための装置は、オーディオデータが格納されるか放棄されるかをフレーム毎に決定するように適合化され、例えば、各オーディオフレームについて、そのオーディオフレーム全体が格納されるか放棄されるかが決定される。
【0091】
幾つかの態様を装置の面から述べてきたが、これらの態様は対応する方法についての説明も表すことは明らかである。その際、1つのブロック又はデバイスは1つの方法ステップ又はある方法ステップの1つの特徴に対応する。同様に、方法ステップの面から述べられている態様は、対応する装置の対応するブロック又はアイテム又は特徴についての説明も表す。
【0092】
所定の実装要件によって、本発明の実施形態は、ハードウェア又はソフトウェアにおいて実装することができる。その実装はデジタル記憶媒体を用いて実行することができる。そのようなデジタル記憶媒体は、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであり、個々の方法が実行されるようにプログラム可能コンピュータシステムと共働する(又は共働できる)電子的に読取り可能な制御信号を格納している。
【0093】
本発明によるいくつかの実施形態は非一時的データキャリアを含み、そのデータキャリアは、本明細書に記述されている方法のうちの1つが実行されるようにプログラム可能コンピュータシステムと共働できる電子的に読取り可能な制御信号を有する。
【0094】
一般に、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実装することができる。そのプログラムコードは、そのコンピュータ・プログラム製品がコンピュータ上で作動するときに本明細書に記述されている方法の1つを実行する働きをする。そのプログラムコードは、例えば、機械読取り可能キャリアに格納できる。
【0095】
他の実施形態は、機械読取り可能キャリアに格納され、本明細書に記述されている方法のうちの1つを実行するためのコンピュータプログラムを含む。
【0096】
言い替えれば、本発明の一実施形態は、それ故、コンピュータプログラムであり、このコンピュータプログラムがコンピュータ上で実行されるときに本明細書に記述されている方法の1つを実行するためのプログラムコードを有する。
【0097】
本発明的方法のさらなる実施形態は、それ故、データキャリア(又は、デジタル記憶媒体又はコンピュータ読取り可能媒体)であり、本明細書に記述されている方法の1つを実行するためのコンピュータプログラムを記録してもつ。
【0098】
本発明的方法のさらなる実施形態は、それ故、データストリーム又は信号列であり、本明細書に記述されている方法の1つを実行するためのコンピュータプログラムを表す。そのデータストリーム又は信号列は、例えば、データ通信接続、例えばインターネットを介して伝送されるように構成できる。
【0099】
さらなる実施形態は、処理手段、例えばコンピュータ又はプログラマブル論理デバイスを含み、本明細書に記述されている方法の1つを実行するように構成又は適合化されている。
【0100】
さらなる実施形態は、本明細書に記述されている方法の1つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。
【0101】
いくつかの実施形態では、プログラマブル論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)は、本明細書に記述されている方法の機能のうちの幾つか又は全てを実行するために使用できる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法の1つを実行するためにマイクロプロセッサと共働できる。一般に、これらの方法は、好ましくは任意のハードウェア装置によって実行される。
【0102】
これまでに述べた実施形態は本発明の原理を例示するものにすぎない。理解すべきは、本明細書に記述されている装置及びその詳細の修正及び変形が他の当業者にとって明らかであるということである。よって、意図するところは、添付の特許請求の範囲によってのみ限定され、本明細書における実施形態の記述及び説明により示された具体的な詳細によっては限定されないということである。
図1
図2
図3
図4A
図4B
図5
図6
図7
図8
図9
図10