特許5883561 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト　ツァ　フェルダールング　デァ　アンゲヴァンテン　フォアシュンク　エー．ファオの特許一覧

特許5883561アップミックスを使用した音声符号器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13a
13b
13c
13d
13e
13f
13g
13h
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5883561

(24)【登録日】2016年2月12日

(45)【発行日】2016年3月15日

(54)【発明の名称】アップミックスを使用した音声符号器

(51)【国際特許分類】

G10L 19/008 20130101AFI20160301BHJP

H04S 3/00 20060101ALI20160301BHJP

【ＦＩ】

G10L19/008 200

G10L19/008 100

H04S3/00 Z

【請求項の数】7

【全頁数】41

(21)【出願番号】特願2010-529293(P2010-529293)

(86)(22)【出願日】2008年10月17日

(65)【公表番号】特表2011-501823(P2011-501823A)

(43)【公表日】2011年1月13日

(86)【国際出願番号】EP2008008800

(87)【国際公開番号】WO2009049896

(87)【国際公開日】20090423

【審査請求日】2010年6月15日

(31)【優先権主張番号】60/980,571

(32)【優先日】2007年10月17日

(33)【優先権主張国】US

(31)【優先権主張番号】60/991,335

(32)【優先日】2007年11月30日

(33)【優先権主張国】US

【前置審査】

(73)【特許権者】

【識別番号】591037214

【氏名又は名称】フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ

(74)【代理人】

【識別番号】100079577

【弁理士】

【氏名又は名称】岡田全啓

(72)【発明者】

【氏名】ヘルムートオリヴァー

(72)【発明者】

【氏名】ヘレユールゲン

(72)【発明者】

【氏名】テレンチエフレオニード

(72)【発明者】

【氏名】ヘルツァーアンドレーアス

(72)【発明者】

【氏名】ファルヒコルネリア

(72)【発明者】

【氏名】ヒルペアトジョーハン

【審査官】間宮嘉誉

(56)【参考文献】

【文献】特表２００８−５４２８１５（ＪＰ，Ａ）

【文献】 Jonas ENGDEGARD, et al.，Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding，Proc. 124th Convention of Audio Engineering Society，NL，Audio Engineering Society，２００８年５月１７日，pp.1-15

【文献】 Jurgen HERRE, et al.，New Concepts in Parametric Coding of Spatial Audio: From SAC to SAOC，Proc. 2007 IEEE International Conference on Multimedia and Expo，中国，IEEE，２００７年７月２日，pp.1894-1897

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１９／００−１９／２６

Ｈ０４Ｓ１／００− ７／００

ＳｃｉｅｎｃｅＤｉｒｅｃｔ

ＩＥＥＥＸｐｌｏｒｅ

ＣｉＮｉｉ

ＪＳＴＰｌｕｓ（ＪＤｒｅａｍＩＩＩ）

ＪＳＴ７５８０（ＪＤｒｅａｍＩＩＩ）

(57)【特許請求の範囲】

【請求項1】

符号化された、第１の入力チャンネルおよび第２の入力チャンネルを有する第１のタイプのステレオ音声信号およびＮ個の第２のタイプの音声信号を有する多重音声オブジェクト信号を復号するための音声復号器であって、前記多重音声オブジェクト信号は左ダウンミックスチャンネルＬ０および右ダウンミックスチャンネルＲ０を有するステレオダウンミックス信号（５６；１１２）およびサイド情報（５８）から成り、前記サイド情報は、第１の予め決められた時間／周波数分解能における前記第１のタイプのステレオ音声信号および前記第２のタイプの音声信号のレベル情報（６０）およびＮ個の残留信号ｒｅｓ₁，・・・，ｒｅｓ_Nを含み、
前記音声復号器は、
前記レベル情報（６０）に基づいた予測係数マトリクスｃ_ji（６４）を計算するための計算手段（５２）と、

に従って、前記ダウンミックス信号から前記第１のアップミックス信号および前記第２のアップミックス信号を発生させるように構成され、
かつ、Ｄ^-1は前記第１のタイプのステレオ音声信号および前記第２のタイプの音声信号が前記ダウンミックス信号にダウンミックスされるというダウンミックス方法によって一意的に決定されるマトリクスであると共に、前記サイド情報により構成されていること、
を特徴とする、音声復号器。

【請求項2】

前記ダウンミックス方法が前記サイド情報の範囲内で時間的に異なることを特徴とする、請求項１に記載の音声復号器。

【請求項3】

前記残留信号ｒｅｓは、第２の予め決められた時間／周波数分解能で残留レベル値を指定する、ことを特徴とする、請求項１または２のいずれかに記載の音声復号器。

【請求項4】

前記多重音声オブジェクト信号が、予め決められたスピーカ構成に、前記第１のタイプのステレオ音声信号を空間的に演奏するための空間的演奏情報を含むこと、
を特徴とする、請求項１ないし３のいずれかに記載の音声復号器。

【請求項5】

前記アップミックス手段が、予め決められたスピーカ構成に、前記第１のアップミックス音声信号を、前記第２のアップミックス音声信号から離して空間的に提供し、もしくは、前記第２のアップミックス音声信号を、前記第１のアップミックス音声信号から離して空間的に提供し、もしくは、前記第１のアップミックス音声信号と前記第２のアップミックス音声信号とを混合して、混合した信号を空間的に提供するように構成されていることを特徴とする、請求項１ないし４のいずれかに記載の音声復号器。

【請求項6】

符号化された、第１の入力チャンネルおよび第２の入力チャンネルを有する第１のタイプのステレオ音声信号およびＮ個の第２のタイプの音声信号を有する多重音声オブジェクト信号を復号するための音声復号器上で実行される方法であって、前記多重音声オブジェクト信号は左ダウンミックスチャンネルＬ０および右ダウンミックスチャンネルＲ０を有するステレオダウンミックス信号（５６；１１２）およびサイド情報（５８）から成り、前記サイド情報は、第１の予め決められた時間／周波数分解能における前記第１のタイプのステレオ音声信号および前記第２のタイプの音声信号のレベル情報（６０）およびＮ個の残留信号ｒｅｓ₁，・・・，ｒｅｓ_Nを含み、

に従って、前記ダウンミックス信号から前記第１のアップミックス信号および前記第２のアップミックス信号を発生させるように構成され、
かつ、Ｄ^-1は前記第１のタイプのステレオ音声信号および前記第２のタイプの音声信号が前記ダウンミックス信号にダウンミックスされるというダウンミックス方法によって独自に決定されるマトリクスであると共に、前記サイド情報により構成されていること、
を特徴とする、方法。

【請求項7】

プロセッサが動くときに、請求項６に記載の方法を前記プロセッサに実行させるためのプログラム・コードを有していることを特徴とする、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、信号のアップミックスを使用した音声符号器に関する。

【背景技術】

【0002】

多くの音声符号化アルゴリズムは、１個のチャンネルの音声データ（すなわち、モノラル音声信号）を、効果的に符号化、または圧縮するために提案されてきた。心理音響効果を使用して、音声サンプルは、例えばＰＣＭ符号化音声信号から無関係なものを除去するために、適切にスケーリングされ、量子化され、あるいは、ゼロにさえ設定される。冗長性除去も実行される。

【0003】

更なるステップとして、ステレオ音声信号の左と右のチャンネルの間の類似性は、ステレオ音声信号を効果的に符号化、または圧縮するために利用されてきた。

【0004】

しかしながら、最近のアプリケーションは、音声符号化アルゴリズムの更なる要求を発生させている。例えば、テレビ会議、コンピュータゲーム、音楽演奏などにおいては、部分的に、または、完全に相関関係がない複数の音声信号が、並行して送信されなければならない。これらの音声信号を符号化するために必要なビット伝送速度を、低ビット伝送速度アプリケーションと互換性を有するために十分低く保つために、最近、多重入力音声信号を、ステレオやモノラルなどのダウンミックス（ｄｏｗｎｍｉｘ）信号へダウンミックスする音声符号器／復号器が提案されている。例えば、ＭＰＥＧサラウンド規格は、入力チャンネルをダウンミックス信号に、規格で定めた方法でダウンミックスする。ダウンミックスは、いわゆるＯＴＴ^-1ボックスとＴＴＴ^-1ボックスを使用して実行される。ＯＴＴ^-1ボックスは２個の信号を１個の信号にダウンミックスし、ＴＴＴ^-1ボックスは３個の信号を２個の信号にダウンミックスする。４個以上の信号をダウンミックスするためには、これらのボックスの階層構造が使用される。それぞれのＯＴＴ^-1ボックスは、モノラル・ダウンミックス信号以外に、２個の入力チャンネルの間のチャンネル・レベル差を出力し、同様に、２個の入力チャンネルの間の一貫性（コヒーレンス）もしくは相関関係を表わすチャンネル一貫性／相関関係パラメータを出力する。このパラメータは、ＭＰＥＧサラウンドデータ・ストリームの中のＭＰＥＧサラウンド符号器のダウンミックス信号と共に出力される。同様に、それぞれのＴＴＴ^-1ボックスは、チャンネル予測係数を送信し、結果として発生したステレオ・ダウンミックス信号から３個の入力チャンネルを復号させる。また、チャンネル予測係数は、ＭＰＥＧサラウンドデータ・ストリームの中で、サイド情報として送信される。ＭＰＥＧサラウンド復号器（デコーダ）は、送信されたサイド情報を使用して、ダウンミックス信号をアップミックス（ｕｐｍｉｘ）し、復号させる。オリジナル・チャンネルは、ＭＰＥＧサラウンド符号器（エンコーダ）に入力する。

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、残念なことに、ＭＰＥＧサラウンドは、多くのアプリケーションで発生する全ての要求を十分に満たさない。例えば、ＭＰＥＧサラウンド復号器は、ＭＰＥＧサラウンド符号器のダウンミックス信号をアップミックスすることに専念する。その結果、ＭＰＥＧサラウンド符号器の入力チャンネルは、そのまま復号される。言い換えれば、ＭＰＥＧサラウンドデータ・ストリームは、符号化のために使用されているスピーカ構成によって再生されることに専念している。

【0006】

しかしながら、いくつかの意味合いで、仮に、スピーカ構成を復号器の側で変えることができるならば、それは好ましいことである。

【0007】

後者のニーズを扱うために、空間音声オブジェクト符号化（ＳＡＯＣ）規格が、現在、設計される。各チャンネルは個々のオブジェクトとして扱われる。そして、全てのオブジェクトは、ダウンミックス信号にダウンミックスされる。しかしながら、さらに、個々のオブジェクトは、例えば、楽器またはボーカル・トラックとして、個々の音源を含む。しかし、ＭＰＥＧサラウンド復号器と異なり、ＳＡＯＣ復号器は、個別にダウンミックス信号を自由にアップミックスし、個々のオブジェクトをどんなスピーカ構成上にも自由に再生する。ＳＡＯＣ復号器がＳＡＯＣデータ・ストリームの中に符号化された個々のオブジェクトを復号させるために、ステレオ（または、多重チャンネル）信号と一緒に形成されるオブジェクトごとに、オブジェクト・レベル差とオブジェクト相関関係パラメータとが、ＳＡＯＣビット・ストリームの中で、サイド情報として送信される。この他、ＳＡＯＣ復号器／トランスコーダには、個々のオブジェクトがダウンミックス信号にダウンミックスされる方法を明らかにする情報が提供される。この結果、復号器の側で、個々のＳＡＯＣチャンネルを復号することが可能であり、かつ、ユーザが制御した演奏情報を利用することによって、これらの信号をどんなスピーカ構成上にも提供することが可能である。

【0008】

しかしながら、ＳＡＯＣ符号器／復号器は、個別に音声オブジェクトを処理するように設計されているけれども、いくつかのアプリケーションはさらに要求する。例えば、カラオケ・アプリケーションは、バックグラウンド（背景）音声信号を、フォアグランド（前面）音声信号から完全に分離することを要求する。逆もまた同様です。独奏モードの中では、フォアグランド・オブジェクトを、バックグラウンド・オブジェクトから分離しなければならない。しかしながら、個々の音声ブジェクトの平等な処理のため、バックグラウンド・オブジェクトまたはフォアグランド・オブジェクトを、ダウンミックス信号から完全に取り除くことは困難であった。

【0009】

それゆえ、本発明の目的は、例えば、カラオケ／独奏モード・アプリケーションなどにおいて、個々のオブジェクトのより良い分離が達成される、音声信号のアップミックスを使用した音声復号器および方法を提供することである。

【課題を解決するための手段】

【0010】

この目的は、請求項１に記載の音声復号器、請求項６に記載の復号化の方法、および請求項７に記載のプログラムによって達成される。

【0011】

本発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の発明を実施するための形態の説明から一層明らかとなろう。

【図面の簡単な説明】

【0012】

【図1】本発明の実施形態が実行されるＳＡＯＣ符号器／復号器の配置を示すブロック図である。

【図2】モノラル音声信号のスペクトル表現を示す模式説明図である。

【図3】本発明の実施形態に係る音声復号器を示すブロック図である。

【図4】本発明の実施形態に係る音声符号器を示すブロック図である。

【図5】比較例のカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図6】本発明の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図7】図７ａは比較例のカラオケ／独奏モード・アプリケーションのための音声符号器を示すブロック図であり、図７ｂは本発明の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声符号器を示すブロック図である。

【図8】図８ａと図８ｂは品質測定結果のプロット図である。

【図9】比較例のカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図10】本発明の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図11】本発明の別の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図12】本発明の別の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声符号器／復号器の配置を示すブロック図である。

【図13a】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13b】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13c】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13d】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13e】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13f】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13g】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図13h】本発明の実施形態に係るＳＯＡＣビットストリームの可能な構文を反映する表である。

【図14】本発明の実施形態に係るカラオケ／独奏モード・アプリケーションのための音声復号器を示すブロック図である。

【図15】残留信号を送信するために費やされたデータ量を信号で知らせるための可能な構文を反映する表である。

【発明を実施するための形態】

【0013】

本発明に係る実施形態が以下で詳細に説明される前に、ＳＡＯＣ符号器／復号器とＳＡＯＣビット・ストリームで送信されたＳＡＯＣパラメータとが、以下で詳細に概説される本発明に係る特定の実施形態の理解を容易にするために提供される。

【0014】

図１は、ＳＡＯＣ符号器１０とＳＡＯＣ復号器１２の概略配置を示すブロック図である。ＳＡＯＣ符号器１０は、入力としてＮ個のオブジェクト、すなわち、音声信号１４₁〜１４_Nを受信する。特に、ＳＡＯＣ符号器１０はダウンミキサ１６を備え、ダウンミキサ１６は音声信号１４₁〜１４_Nを受信し、それらをダウンミックス信号１８にダウンミックスする。図１には、ダウンミックス信号１８が、ステレオ・ダウンミックス信号として例示的に示されている。しかしながら、ダウンミックス信号はモノラル・ダウンミックス信号であってもよい。ステレオ・ダウンミックス信号１８のチャンネルは、Ｌ０とＲ０とで表示されている。モノラル・ダウンミックスの場合には、ダウンミックス信号は単にＬ０で表示される。ＳＡＯＣ復号器１２が個々のオブジェクト（音声信号）１４₁〜１４_Nを復号するように、ダウンミキサ１６は、ＳＡＯＣパラメータを含んでいるサイド情報２０を、ＳＡＯＣ復号器１２に提供する。ＳＡＯＣパラメータは、オブジェクト・レベル差（ＯＬＤ）、オブジェクト相関関係パラメータ（ＩＯＣ）、ダウンミックス利得値（ＤＭＧ）、およびダウンミックス・チャンネル・レベル差（ＤＣＬＤ）を含んでいる。ＳＡＯＣパラメータを含むサイド情報２０は、ダウンミックス信号１８と共に、ＳＡＯＣ復号器１２によって受信されるＳＡＯＣ出力データ・ストリームを形成する。

【0015】

ＳＡＯＣ復号器１２は、ＳＡＯＣ復号器１２に入力される演奏情報２６によって予め定められた演奏情報と共に、ダウンミックス信号１８とサイド情報２０とを受信するアップミキサ２２を備えている。アップミキサ２２は、ユーザが選択したチャンネル２４₁〜２４_Mのどんなセット上にも、音声信号１４₁〜１４_Nを復号して提供する。

【0016】

音声信号１４₁〜１４_Nは、どんな符号化領域（例えば、時間領域やスペクトル領域など）のダウンミキサ１６の中にも入力される。音声信号１４₁〜１４_Nが、符号化されたＰＣＭなどの時間領域のダウンミキサ１６に搬送される場合には、ダウンミキサ１６は、ハイブリッドＱＭＦバンクのようなフィルタ・バンク、すなわち、最も少ない周波数帯のナイキスト（Ｎｙｑｕｉｓｔ）フィルタ拡張部を有する複雑に指数関数的に調整されたフィルタのバンクを使用し、その中で周波数分解能を増加させる。スペクトル領域に音声信号１４₁〜１４_Nを移すために、スペクトル領域の中で、音声信号１４₁〜１４_Nは、異なるスペクトル部分に関連している数個の副バンドに表示される。仮に、音声信号１４₁〜１４_Nが、既にダウンミキサ１６によって予想された表現であるならば、音声信号１４₁〜１４_Nはスペクトル分解を実行する必要はない。

【0017】

図２は、前記スペクトル領域の音声信号を示す。見てのとおり、音声信号は、複数の副バンド信号として表示される。それぞれの副バンド信号３０₁〜３０_Pは、小ボックスによって示される副バンド値３２のシーケンスから成る。副バンド信号３０₁〜３０_Pの副バンド値３２は、時間的に互いに同期している。従って、連続したフィルタ・バンク時間帯３４ごとに、それぞれの副バンド信号３０₁〜３０_Pは、１個の正確な副バンド値３２を含む。周波数軸３６によって示されるように、副バンド信号３０₁〜３０_Pは、異なる周波数領域に関係している。そして、時間軸３８によって示されるように、フィルタ・バンク時間帯３４は、時間的に連続して配置されている。

【0018】

前述したように、ＳＡＯＣダウンミキサ１６は、入力音声信号１４₁〜１４_NからＳＡＯＣパラメータを計算する。ＳＡＯＣダウンミキサ１６は、この計算を時間／周波数分解能の中で実行する。時間／周波数分解能は、フィルタ・バンク時間スロット３４と副バンド分解によって決定されるので、オリジナルの時間／周波数分解能に比例して、所定量減少する。この所定量は、サイド情報２０の中で、それぞれの構文要素のｂｓフレーム長（ｂｓＦｒａｍｅＬｅｎｇｔｈ）とｂｓ残留周波数（ｂｓＦｒｅｑＲｅｓ）によって、ＳＡＯＣ復号器１２の側に合図される。例えば、連続したフィルタ・バンク時間スロット３４のグループは、フレーム４０を形成する。言い換えれば、音声信号は、例えば、時間的に重なっているフレーム、または、時間的にすぐ隣のフレームに分割される。この場合、ｂｓフレーム長は、パラメータ時間スロット４１の数を定義する。すなわち、時間ユニットは処理周波数帯の数を定義し、処理周波数帯ごとにＳＡＯＣパラメータが計算される。時間ユニットでは、ＯＬＤやＩＯＣなどのＳＡＯＣパラメータが、ＳＡＯＣフレーム４０とｂｓ残留周波数の中で計算される。この基準によれば、各フレーム４０は、図２中の点線４２によって例示された時間／周波数タイル（ｔｉｌｅ）に分割される。

【0019】

ＳＡＯＣダウンミキサ１６は、以下の計算式に従ってＳＡＯＣパラメータを計算する。特に、ＳＡＯＣダウンミキサ１６は、各オブジェクトｉごとに、オブジェクト・レベル差（ＯＬＤ）を計算する。

合計とインデックス（指数）ｎ，ｋとは、それぞれ、所定の時間／周波数タイル４２に属する、全てのフィルタ・バンク時間スロット３４、および、全てのフィルタ・バンク副バンド３０（３０₁〜３０_P）にわたる。その結果、音声信号または音声オブジェクトｉの全ての副バンド値ｘ_iのエネルギーは合算され、全ての音声オブジェクトまたは音声信号の中で、そのタイルの最も高いエネルギー値に正規化される。

【0020】

さらに、ＳＡＯＣダウンミキサ１６は、異なる音声オブジェクト（音声信号）１４₁〜１４_Nの組の対応する時間／周波数タイルの類似測度（ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ）を計算できる。ＳＡＯＣダウンミキサ１６は、音声オブジェクト１４₁〜１４_Nの全ての組の間の類似測度を計算するけれども、ＳＡＯＣダウンミキサ１６は、音声オブジェクト１４₁〜１４_Nに対して、類似測度の信号を抑圧したり、類似測度の計算を制限したりする。音声オブジェクト１４₁〜１４_Nは、コモン・ステレオ・チャンネルの左または右のチャンネルを形成する。どのような場合でも、類似測度は、オブジェクト相関関係パラメータＩＯＣ_i,jと称される。計算式は以下の通りである。

インデックスｎ，ｋは、所定の時間／周波数タイル４２に属する全ての副バンド値にわたる。英字ｉとｊは、音声オブジェクト１４₁〜１４_Nの所定の組を示している。

【0021】

ＳＡＯＣダウンミキサ１６は、それぞれの音声オブジェクト１４₁〜１４_Nに適用される利得ファクタの使用によって、音声オブジェクト１４₁〜１４_Nをダウンミックスする。すなわち、利得ファクタＤ_iは音声オブジェクトｉに適用され、こうして重み付けされた全ての音声オブジェクト１４₁〜１４_Nが合計され、モノラル・ダウンミックス信号を得る。図１に例示されているステレオ・ダウンミックス信号の場合は、利得ファクタＤ_1,iは音声オブジェクトｉに適用され、こうして利得ファクタＤ_1,iが適用された（重み付けされた）全ての音声オブジェクトが合算され、左のダウンミックス・チャンネルＬ０を得る。さらに、利得ファクタＤ_2,iは音声オブジェクトｉに適用され、こうして利得ファクタＤ_2,iが適用された全ての音声オブジェクトが合算され、右のダウンミックス・チャンネルＲ０を得る。

【0022】

このダウンミックス方法は、ダウンミックス利得ＤＭＧ_iによって、そして、ステレオ・ダウンミックス信号の場合にはダウンミックス・チャンネル・レベル差ＤＣＬＤ_iによって、ＳＡＯＣ復号器１２の側に信号で合図される。

【0023】

ダウンミックス利得は、以下の計算式に従って計算される。

【0024】

正規モードにおいて、ＳＡＯＣダウンミキサ１６は、以下の計算式に従ってダウンミックス信号を発生させる。

上記計算式において、パラメータＯＬＤとＩＯＣは音声信号の関数であり、パラメータＤＭＧとＤＣＬＤは利得ファクタＤの関数である。ところで、利得ファクタＤが時間変化することは注意される。

【0025】

正規モードにおいて、ＳＡＯＣダウンミキサ１６は、全ての音声オブジェクト１４₁〜１４_Nを贔屓なく、すなわち、全ての音声オブジェクト１４₁〜１４_Nを等しく処理してミックスする。

【0026】

アップミキサ２２は、１個の計算ステップにおいて、ダウンミックス手順の逆と、マトリクスＡによって表示された「演奏情報」の履行と、を実行する。

ここに、マトリクスEは、パラメータＯＬＤとＩＯＣの関数である。

【0027】

言い換えれば、正規モードにおいて、音声オブジェクト１４₁〜１４_Nを、バックグラウンド・オブジェクト（ＢＧＯ）、または、フォアグランド・オブジェクト（ＦＧＯ）に分類することは、実行されない。音声オブジェクトがアップミキサ２２の出力で提供される情報は、演奏マトリクスＡによって供給される。仮に、例えば、インデックス１の音声オブジェクトＯｂｊ₁が、ステレオ・バックグラウンド・オブジェクト（ＢＧＯ）の左チャンネルであり、そして、インデックス２の音声オブジェクトＯｂｊ₂が、ステレオ・バックグラウンド・オブジェクト（ＢＧＯ）の右チャンネルであり、そして、インデックス３の音声オブジェクトＯｂｊ₃が、フォアグランド・オブジェクト（ＦＧＯ）であったならば、演奏マトリクスＡは以下のようになり、カラオケタイプの出力信号を作り出す。

【0028】

しかしながら、前述したように、この正規モードのＳＡＯＣ符号器／復号器の使用によるバックグラウンド・オブジェクト（ＢＧＯ）とフォアグランド・オブジェクト（ＦＧＯ）の伝送は、許容できる結果を達成しない。

【0029】

図３および図４は、前記説明した欠点を克服する本発明の実施形態を示す。図３および図４に記載された音声復号器５０および音声符号器８０と、それらの関連する機能とは、「向上モード」のような追加モードを表わす。図１のＳＡＯＣ符号器／復号器は、「向上モード」に切り替えることができる。後者の可能性の例は、以下に提示される。

【0030】

図３は音声復号器５０を示している。音声復号器５０は、予測係数計算手段５２とダウンミックス信号をアップミックスするアップミックス手段５４とを含む。

【0031】

音声復号器５０は、符号化された第１のタイプの音声信号と第２のタイプの音声信号とを有する多重音声オブジェクト信号を、復号するために専念する。第１のタイプの音声信号と第２のタイプの音声信号とは、それぞれ、モノラルまたはステレオ音声信号である。例えば、第１のタイプの音声信号はバックグラウンド・オブジェクトであり、第２のタイプの音声信号はフォアグランド・オブジェクトである。すなわち、図３と図４の実施形態は、必ずしもカラオケ／独奏モード・アプリケーションに制限されるものではない。むしろ、図３の音声復号器５０と図４の音声符号器８０は、他の場所で有効に使用される。

【0032】

多重音声オブジェクト信号は、ダウンミックス信号５６とサイド情報５８とから成る。サイド情報５８はレベル情報６０を含む。レベル情報６０は、例えば時間／周波数タイル４２のような、第１の予め決められた時間／周波数分解能で、第１のタイプの音声信号と第２のタイプの音声信号のスペクトルエネルギーを記述している。特に、レベル情報６０は、オブジェクト当たり１個の正規化されたスペクトルエネルギースカラ値と時間／周波数タイル（時間／周波数分解能）とを含む。正規化は、それぞれの時間／周波数分解能で、第１のタイプの音声信号と第２のタイプの音声信号との中の最も高いスペクトルエネルギー値に関連付けられる。後者は、レベル情報６０を代表するオブジェクト・レベル差（ＯＬＤ）を結果として生ずる。レベル情報６０は、ここではレベル差情報とも呼ばれる。以下の実施形態では、オブジェクト・レベル差（ＯＬＤ）を使用するけれども、他に正規化されたスペクトルエネルギー表現を使用してもよい。

【0033】

サイド情報５８は、任意に、第２の予め決められた時間／周波数分解能の中の残留レベル値を規定する残留信号６２を含む。第２の予め決められた時間／周波数分解能は、第１の予め決められた時間／周波数分解能に等しくてもよいし、異なっていてもよい。

【0034】

予測係数計算手段５２は、レベル情報６０に基づいて予測係数を計算するように構成されている。さらに加えて、予測係数計算手段５２は、サイド情報５８に含まれる相関関係情報に基づいて予測係数を計算してもよい。さらに、予測係数計算手段５２は、サイド情報５８に含まれる時間変化ダウンミックス方法情報を使用して、予測係数を計算してもよい。予測係数計算手段５２によって計算された予測係数は、ダウンミックス信号５６から、元の音声オブジェクトまたは音声信号を、検索したり、アップミックスしたりするために必要である。

【0035】

アップミックス手段５４は、予測係数計算手段５２から受信した予測係数６４に基づいたダウンミックス信号５６と、任意の残留信号６２と、をアップミックスするように構成されている。残留信号６２を使用するとき、復号器５０は、一方のタイプの音声信号から他方のタイプの音声信号へのクロストーク（混線）を、より一層抑圧できる。また、アップミックス手段５４は、時間変化ダウンミックス方法情報を使用して、ダウンミックス信号５６をアップミックスする。さらに、アップミックス手段５４は、ユーザ入力６６を使用して、ダウンミックス信号５６から復号した音声信号のうちのどれを、またはどの範囲までを、出力６８において実際に出力すべきか、を決定する。第１の極端な場合として、ユーザ入力６６は、第１のタイプの音声信号に近似する第１のアップミックス信号のみを出力するように、アップミックス手段５４に命令する。正反対の第２の極端な場合によれば、ユーザ入力６６は、第２のタイプの音声信号に近似する第２のアップミックス信号のみを出力するように、アップミックス手段５４に命令する。中間的オプションの場合も同様に可能であり、第１および第２のアップミックス信号の混合が出力６８で出力される。

【0036】

図４は、図３の音声復号器５０によって復号される多重音声オブジェクト信号を、発生させるために適した音声符号器８０の一実施形態を示すブロック図である。図４の音声符号器８０は、符号化されるべき音声信号８４がスペクトル領域の範囲内にない場合には、スペクトル分解手段８２を含む。音声信号８４の中には、順に、少なくとも１個の第１のタイプの音声信号（バックグラウンド・オブジェクト）と、少なくとも１個の第２のタイプの音声信号（フォアグランド・オブジェクト）とが存在する。スペクトル分解手段８２は、これらの音声信号８４のそれぞれを、例えば、図２に示したような表現にスペクトル分解するように構成されている。すなわち、スペクトル分解手段８２は、予め決められた時間／周波数分解能で、音声信号８４をスペクトル分解する。スペクトル分解手段８２は、ハイブリッドＱＭＦバンクなどのフィルタ・バンクを含む。

【0037】

音声符号器８０は、さらに、レベル情報計算手段８６とダウンミックス手段８８とを含み、任意に、予測係数計算手段９０と残留信号設定手段９２とを含む。さらに、音声符号器８０は、相関関係情報計算手段９４を含んでいてもよい。レベル情報計算手段８６は、スペクトル分解手段８２によって任意に出力されている音声信号から、第１の予め決められた時間／周波数分解能で、第１のタイプの音声信号のレベルと第２のタイプの音声信号のレベルとを記述しているレベル情報を計算する。同様に、ダウンミックス手段８８は、第１のタイプの音声信号と第２のタイプの音声信号とをダウンミックスする。ダウンミックス手段８８は、ダウンミックス信号５６を出力する。また、レベル情報計算手段８６は、レベル情報６０を出力する。予測係数計算手段９０は、図３の予測係数計算手段５２と同様の行動をする。すなわち、予測係数計算手段９０は、レベル情報６０から予測係数６４を計算して、予測係数６４を残留信号設定手段９２に出力する。残留信号設定手段９２は、同様に、ダウンミックス信号５６、予測係数６４、および第２の予め決められた時間／周波数分解能の元の音声信号に基づいて、残留信号６２を設定する。その結果、予測係数６４と残留信号６２の両方に基づいて、ダウンミックス信号５６をアップミックスすることは、第１のタイプの音声信号に近似する第１のアップミックス音声信号と、第２のタイプの音声信号に近似する第２のアップミックス音声信号と、を結果として発生させる。承認された近似は、残留信号６２が無い場合と比較される。

【0038】

レベル情報６０（仮に存在するとすれば、残留信号６２とレベル情報６０）は、サイド情報５８に含まれる。サイド情報５８は、ダウンミックス信号５６と共に、図３の音声復号器５０によって復号される多重音声オブジェクト信号を形成する。

【0039】

図４に示すように、および図３の記述との類似から、仮に、予測係数計算手段９０が存在しているならば、相関関係情報計算手段９４によって出力された相関関係情報、および／または、ダウンミックス手段８８によって出力された時間変化ダウンミックス方法を使用して、予測係数６４を計算してもよい。さらに、仮に、残留信号設定手段９２が存在しているならば、ダウンミックス手段８８によって出力された時間変化ダウンミックス方法を使用して、適切に残留信号６２を設定してもよい。

【0040】

第１のタイプの音声信号（バックグラウンド・オブジェクト）は、モノラルまたはステレオ音声信号である。同様に、第２のタイプの音声信号（フォアグランド・オブジェクト）は、モノラルまたはステレオ音声信号である。残留信号６２は任意である。しかしながら、残留信号６２が仮に存在しているならば、残留信号６２は、例えば、レベル情報を計算するために使用されたパラメータ時間／周波数分解能と同じ時間／周波数分解能のサイド情報の範囲内の信号であってもよいし、あるいは、異なった時間／周波数分解能が使用されてもよい。さらに、残留信号６２の合図は、レベル情報６０が信号で合図する時間／周波数分解能４２によって支配されるスペクトル領域の副部分に制限される。例えば、残留信号６２が送られる際の時間／周波数分解能は、構文要素のｂｓ残留帯（ｂｓＲｅｓｉｄｕａｌＢａｎｄｓ）とｂｓＳＡＯＣフレーム当たりの残留フレーム（ｂｓＲｅｓｉｄｕａｌＦｒａｍｅｓＰｅｒＳＡＯＣＦｒａｍｅ）との使用によって、サイド情報５８の範囲内で示される。これら２個の構文要素は、フレームを、時間／周波数分解能４２に導く副分割より、別の時間／周波数分解能に導く副分割を定義する。

【0041】

ところで、残留信号６２は、潜在的に使用されるコア符号器９６から生じる情報損失を反映したり、反映しなかったりする。コア符号器９６は、音声符号器８０によってダウンミックス信号５６を符号化するために、任意に使用される。図４に示すように、残留信号設定手段９２は、復元可能なダウンミックス信号のバージョンに基づいて、コア符号器９６の出力から、または、コア符号器９６’へのバージョン入力から、残留信号６２の設定を実行する。同様に、図３の音声復号器５０はコア復号器９８を含み、ダウンミックス信号５６を復号または解凍する。

【0042】

多重音声オブジェクト信号の中で、残留信号６２に使用される時間／周波数分解能は、レベル情報６０を計算するために使用される時間／周波数分解能と異なる。残留信号６２に使用される時間／周波数分解能は、音質と多重音声オブジェクト信号の圧縮比との間の良好な妥協を達成可能にする。どのような場合でも、残留信号６２は、ユーザ入力６６に従って出力６８で出力されるべき第1および第２のアップミックス信号（図３参照）の中で、１個の音声信号から他の音声信号へのクロストークを、より一層抑圧することを可能にする。

【0043】

以下の実施形態から明確になるように、２個以上の第２のタイプの音声信号（フォアグランド・オブジェクト）が符号化される場合に、２個以上の残留信号６２が、サイド情報５８の中に送信される。サイド情報５８は、残留信号６２が第２のタイプの特定の音声信号のために送信されれるかどうかに関して個々の決定を許す。その結果、残留信号６２の数は、１から第２のタイプの音声信号の数にアップする。

【0044】

図３の音声復号器５０において、予測係数計算手段５２は、レベル情報（ＯＬＤ）６０に基づいて、予測係数から成る予測係数マトリクスＣを計算するように構成される。アップミックス手段５４は、以下の計算式に従って、ダウンミックス信号ｄから、第１のアップミックス信号Ｓ_１、および／または、第２のアップミックス信号Ｓ_２を発生させるように構成される。

ここに、前記計算式中の「１」は、スカラまたはアイデンティティ・マトリクスを示し、ダウンミックス信号ｄのチャンネル数に依存する。Ｄ^−１は、第１のタイプの音声信号（バックグラウンド・オブジェクト）および第２のタイプの音声信号（フォアグランド・オブジェクト）がダウンミックス信号にダウンミックスされるというダウンミックス方法によって、独自に決定されるマトリクスである。また、Ｄ^−１は、サイド情報を含む。Ｈは、ダウンミックス信号ｄから独立している項である。しかし、仮に、残留信号６２が存在するならば、Ｈは、残留信号６２に依存している項である。

【0045】

上述したように、そして、以下でさらに説明するように、ダウンミックス方法は、サイド情報５８の中で、時間的に変化する、および／または、スペクトル的に変化する。仮に、第１のタイプの音声信号（バックグラウンド・オブジェクト）が、第１の入力チャンネル（Ｌ）と第２の入力チャンネル（Ｒ）とを有するステレオ音声信号であるならば、例えば、レベル情報６０は、時間／周波数分解能４２で、第１の入力チャンネル（Ｌ）、第２の入力チャンネル（Ｒ）および第２のタイプの音声信号（フォアグランド・オブジェクト）の、それぞれの正規化されたスペクトルエネルギーについて記述する。

【0046】

【0047】

残留信号ｒｅｓに依存している項Ｈが関係する限り、アップミックス手段５４は、以下の式によって表わされるアップミックスを実行する。

【0048】

多重音声オブジェクト信号は、複数の第２のタイプの音声信号（フォアグランド・オブジェクト）を等しく含み、サイド情報５８は、第２のタイプの音声信号あたり１個の残留信号６２を含む。残留分解能パラメータは、サイド情報５８の中に存在し、残留信号６２がサイド情報５８の範囲内で送信されるスペクトル領域を定義する。残留分解能パラメータは、スペクトル領域の上限および下限を等しく定義する。

【0049】

さらに、多重音声オブジェクト信号は、予め決められたスピーカ構成に、第１のタイプの音声信号（バックグラウンド・オブジェクト）を空間的に提供するための空間的演奏情報を含む。言い換えれば、第１のタイプの音声信号は、ステレオにダウンミックスされた多重チャンネル（３個以上のチャンネル）ＭＰＥＧサラウンド信号である。

【0050】

以下において、前記残留信号６２を使用して合図をする実施形態が説明される。しかしながら、「オブジェクト」という用語は、二重の意味でしばしば使用される。時々、オブジェクトは、個々のモノラル音声信号を示す。したがって、ステレオ・オブジェクトは、ステレオ信号の１個のチャンネルを形成するモノラル音声信号を示す。しかしながら、他の状況では、ステレオ・オブジェクトは、２個のオブジェクト、すなわち、ステレオ・オブジェクトの右チャンネルに関係するオブジェクトと左チャンネルに関係するオブジェクトとを示す。実際の意味は、文脈から明らかになる。

【0051】

次の実施形態について説明する前に、次の実施形態は、２００７年の規範モデル０（ＲＭ０）として選定されたＳＡＯＣ規格の基本的技術で現れた欠陥によって動機を与えた。規範モデル０（ＲＭ０）は、パンニング（ｐａｎｎｉｎｇ）位置および増幅／減衰に関して、複数の音声オブジェクトの個々の操作を許した。特別なシナリオは、「カラオケ」タイプのアプリケーションの文脈の中で提示されてきた。この場合において、
・モノラル、ステレオ、またはサラウンド・バックグランド・シーン（以下、バックグランド・オブジェクトと称される、ＢＧＯ）は、あるＳＡＯＣオブジェクトの１セットから伝送されて、変更なしで再生される。すなわち、あらゆる入力チャンネル信号は、変更のないレベルで、同じ出力チャンネルを通して再生される。
・興味を引く所定のオブジェクト（以下、フォアグランド・オブジェクト（ＦＧＯ）と称する、通常はリード・ボーカル）は、変更されて再生される。フォアグランド・オブジェクト（ＦＧＯ）は、通常、防音スタジオの中央に置かれて音を消される。すなわち、歌の間中、十分に許容される程度まで減衰される。

【0052】

オブジェクト位置の操作は、主観的な評価の手順から目に見え、そして、基本的な技術原則から期待できるので、高品質な結果に導く。しかし、オブジェクト・レベルの操作は、一般的に、より一層やりがいがある。通常、追加的な信号の増幅／減衰が高ければ高いほど、より多くの潜在的な人工物が生じる。この意味で、カラオケ・シナリオは非常に要求が厳しい。なぜなら、フォアグランド・オブジェクト（ＦＧＯ）の極端な（理想的には全部の）減衰が要求されるからである。

【0053】

二重の使用の場合は、バックグラウンド／ＭＢＯなしで、フォアグランド・オブジェクト（ＦＧＯ）だけを再生させる場合であり、以下において独奏モードと称される。

【0054】

しかしながら、仮に、サラウンド・バックグランド・シーンが関わるならば、それは多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）と称される。多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）の取り扱いは以下の通りであり、図５に示されている。
・多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）は、通常の５−２−５ＭＰＥＧサラウンド・ツリー１０２を使用して符号化される。５−２−５ＭＰＥＧサラウンド・ツリー１０２は、ステレオＭＢＯダウンミックス信号１０４、およびＭＢＯＭＰＳサイド情報ストリーム１０６を発生させる。
・ステレオＭＢＯダウンミックス信号１０４は、（数個の）フォアグランド・オブジェクト（ＦＧＯ）１１０と共に、ステレオ・オブジェクト（すなわち、２個のオブジェクト・レベル差、およびチャンネル相関関係）として、後続のＳＡＯＣ符号器１０８によって符号化される。ＳＡＯＣ符号器１０８は、コモン・ダウンミックス信号１１２およびＳＡＯＣサイド情報ストリーム１１４を発生させる。

【0055】

トランスコーダ１１６において、ダウンミックス信号１１２が前処理され、ＭＰＳサイド情報ストリーム１０６とＳＡＯＣサイド情報ストリーム１１４が、１個のＭＰＳ出力サイド情報ストリーム１１８の中に再符号化される。これは、現在、不連続な方法で起こる。すなわち、フォアグランド・オブジェクト（ＦＧＯ）１１０の完全な抑圧、または、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）の完全な抑圧のいずれか一方のみが、支持される。

【0056】

最終的に、結果として発生したダウンミックス１２０とＭＰＳ出力サイド情報ストリーム１１８とは、ＭＰＥＧサラウンド復号器１２２によって提供される。

【0057】

図５において、ステレオＭＢＯダウンミックス信号１０４と制御可能なフォアグランド・オブジェクト（ＦＧＯ）信号１１０との両方が、コモン（単一のステレオ）ダウンミックス信号１１２に結合される。制御可能なＦＧＯ信号１１０によるこのダウンミックスの「汚染」は、制御可能なＦＧＯ信号１１０を取り除いたカラオケ・バージョンを復号することが、困難だからであり、それは十分に高音質である。以下の提案は、この問題を回避することを目的とする。

【0058】

１個のフォアグランド・オブジェクト（ＦＧＯ）、例えば１個のリード・ボーカルを想定して、図６の以下の実施形態によって使用される主要な観点は、ＳＡＯＣダウンミックス信号１１２が、バックグランド・オブジェクト（ＢＧＯ）信号１０４とフォアグランド・オブジェクト（ＦＧＯ）信号１１０との結合であるということである。すなわち、３個の音声信号が、２個のダウンミックス・チャンネルを介して、ダウンミックスされ、送信されるということである。理想的には、これらの信号は、明確なカラオケ信号を作り出すために（すなわち、フォアグランド・オブジェクト（ＦＧＯ）信号１１０を取り除くために）、または、明確な独奏信号を作り出すために（すなわち、バックグランド・オブジェクト（ＢＧＯ）信号１０４を取り除くために）、再びトランスコーダ１１６の中で再び分離されるべきである。これは、図６の実施形態によれば、ＳＡＯＣ符号器１０８の中のＴＴＴ（ｔｗｏ−ｔｏ−ｔｈｒｅｅ）符号器ボックス１２４（以下、ＭＰＥＧサラウンド仕様から知られているように、ＴＴＴ^-1ボックスと称する）を使用することによって達成される。バックグランド・オブジェクト（ＢＧＯ）信号１０４とフォアグランド・オブジェクト（ＦＧＯ）信号１１０とは、ＳＡＯＣ符号器１０８の中で、単一のＳＡＯＣダウンミックス信号１１２に結合される。ここに、フォアグランド・オブジェクト（ＦＧＯ）信号１１０は、ＴＴＴ^-1ボックス１２４の「中央」の信号入力に送られ、バックグランド・オブジェクト（ＢＧＯ）信号１０４は、ＴＴＴ^-1ボックス１２４の「左／右」の信号入力に送られる。次に、トランスコーダ１１６は、ＴＴＴ復号器ボックス１２６（以下、ＭＰＥＧサラウンド仕様から知られているように、ＴＴＴボックスと称する）を使用することによって、バックグランド・オブジェクト（ＢＧＯ）信号１０４の近似を作り出すことができる。すなわち、ＴＴＴボックス１２６の「左／右」の出力Ｌ、Ｒは、バックグランド・オブジェクト（ＢＧＯ）信号１０４の近似を搬送する。ＴＴＴボックス１２６の「中央」の出力Ｃは、フォアグランド・オブジェクト（ＦＧＯ）信号１１０の近似を搬送する。

【0059】

図６の実施形態と図３，４の音声復号器５０と音声符号器８０の実施形態とを比較するとき、符号１０４は、音声信号８４の中の第１のタイプの音声信号（バックグランド・オブジェクト（ＢＧＯ）信号）に対応している。スペクトル分解手段８２は、ＭＰＳ符号器１０２に含まれている。符号１１０は、音声信号８４の中の第２のタイプの音声信号（フォアグランド・オブジェクト（ＦＧＯ）信号）に対応している。ＴＴＴ^-1ボックス１２４が、手段８８〜９２の機能に対して責任を負う。レベル情報計算手段８６と相関関係情報計算手段９４の機能は、ＳＡＯＣ符号器１０８で実行される。符号１１２は、符号５６に対応している。符号１１４は、残留信号６２を差し引いたサイド情報５８に対応している。ＴＴＴボックス１２６が、予測係数計算手段５２およびアップミックス手段５４の機能に対して責任を負う。ミックスボックス１２８の機能は、アップミックス手段５４に含まれる。最後に、信号１２０は、出力６８の信号出力に対応する。さらに、図６は、ＳＡＯＣ符号器１０８からＳＡＯＣトランスコーダ１１６へ、ダウンミックス信号１１２を輸送するためのコア符号器／復号器経路１３１を示す。このコア符号器／復号器経路１３１は、任意のコア符号器９６とコア復号器９８に対応している。図６に示されているように、このコア符号器／復号器経路１３１は、符号器１０８からトランスコーダ１１６へ合図を輸送されたサイド情報ストリーム１１４を、符号化／圧縮する。

【0060】

図６のＴＴＴボックス１２６の導入から生じる利点は、以下の記述で明確になる。例えば、
・ＴＴＴボックス１２６の「左／右」の出力信号Ｌ、Ｒを、容易にＭＰＳダウンミックス１２０に搬送する。（そして、伝送されたＭＢＯＭＰＳビット・ストリーム１０６を、容易にストリーム１１８に通す。）多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）だけが、最終のＭＰＳ復号器１２２によって再生される。これはカラオケモードに対応している。
・ＴＴＴボックス１２６の「中央」の出力信号Ｃを、容易に左と右のＭＰＳダウンミックス１２０に搬送する。（そして、フォアグランド・オブジェクト（ＦＧＯ）信号１１０を、所望の位置とレベルに提供する、ありふれたＭＰＳビット・ストリーム１１８を容易に作り出す。）フォアグランド・オブジェクト（ＦＧＯ）信号１１０だけが、最終のＭＰＳ復号器１２２によって再生される。これは独奏モードに対応している。

【0061】

ＴＴＴボックス１２６の３個の出力信号Ｌ．Ｒ．Ｃ．の取り扱いは、ＳＡＯＣトランスコーダ１１６のミックスボックス１２８の中で実行される。

【0062】

図６の処理構成は、図５の処理構成より多くの異なる利点を提供する。
・この枠組みは、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）信号１００と、フォアグランド・オブジェクト（ＦＧＯ）信号１１０との明確な構造的分離を提供する。
・ＴＴＴボックス１２６の構造は、基本波形に基づいて、３個の出力信号Ｌ．Ｒ．Ｃ．の可能な限り良い再建を試みる。したがって、最終のＭＰＳ出力信号１３０は、ダウンミックス信号のエネルギーの重み付け（および相関関係除去）によって形成されるだけなく、ＴＴＴ処理のおかげで、波形に関して、より接近している。
・ＭＰＥＧサラウンドＴＴＴボックス１２６と共に、残留符号化を使用することによって、再構築精度を高めることができる。このように、残留信号１３２の残留帯域幅と残留ビット速度が増加するので、再構築の品質において意義のある増進が達成できる。残留信号１３２は、ＴＴＴ^-1ボックス１２４によって出力され、アップミックスするためのＴＴＴボックス１２６によって使用される。理想的には（すなわち、残留符号化とダウンミックス信号の符号化において、無限に優れた量子化のためには）、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）信号１００とフォアグランド・オブジェクト（ＦＧＯ）信号１１０との間の干渉は、打ち消される。

【0063】

図６の処理構成は、多くの特性を有している。
・二重のカラオケ／独奏モード：図６の取り組み方は、同じ技術手段を使用することによって、カラオケと独奏の両方の機能を提供する。すなわち、ＳＡＯＣパラメータは再利用される。
・洗練性：カラオケ／独奏信号の品質は、ＴＴＴ^-1ボックス１２４およびＴＴＴボックス１２６の中で使用される残留符号情報の量を制御することによって、必要に応じて洗練される。例えば、パラメータの「ｂｓ残留サンプリング周波数インデックス」、「ｂｓ残留帯域」、および「ｂｓＳＡＯＣフレーム当たりの残留フレーム」が使用される。
・ダウンミックスでのフォアグランド・オブジェクト（ＦＧＯ）信号の位置決め：ＭＰＥＧサラウンド仕様に規定されるＴＴＴボックスを使用するとき、フォアグランド・オブジェクト（ＦＧＯ）信号は、常に、左右のダウンミックス・チャンネルの間の中央の位置にミックスされる。位置決めにおけるより多くの柔軟性を許容するために、同じ原則に従う「一般化されたＴＴＴ符号器ボックス」が採用される。一般化されたＴＴＴ符号器ボックスは、「中央」の入力／出力に関連した信号の左右非対称の位置決めを許す。
・多重フォアグランド・オブジェクト（ＦＧＯｓ）信号：説明された構成においては、１個のフォアグランド・オブジェクト（ＦＧＯ）信号だけの使用が、説明される（これは、最も重要なアプリケーションの場合に対応する）。しかしながら、提案された概念は、以下の尺度を１個または組み合わせを使用することによって、数個のフォアグランド・オブジェクト（ＦＧＯｓ）信号を収容できる。
・グループ化されたフォアグランド・オブジェクト（ＦＧＯｓ）信号：図６に示すように、ＴＴＴボックスの中央の入力／出力に接続される信号は、実際に、ただ一つのフォアグランド・オブジェクト（ＦＧＯ）信号だけより、むしろいくつかのフォアグランド・オブジェクト（ＦＧＯｓ）信号１１０の合計である。これらのフォアグランド・オブジェクト（ＦＧＯｓ）信号１１０は、多重チャンネル出力信号１３０において、独自に位置決め／制御ができる。しかしながら、フォアグランド・オブジェクト（ＦＧＯｓ）信号１１０が、同じようにスケーリングされ、かつ、位置決めされるとき、最高の品質の利点が達成される。フォアグランド・オブジェクト（ＦＧＯｓ）信号１１０は、ステレオ・ダウンミックス信号１１２において、共通の位置を共有する。そして、１個の残留信号１３２だけが存在する。どのような場合においても、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）１００と制御可能なＦＧＯｓ信号１１０との間の干渉は打ち消される。ただし、制御可能なＦＧＯｓ信号１１０間の干渉は打ち消されない。
・順に搬送されるＦＧＯｓ信号：図６の取り組み方を拡張することによって、ダウンミックス信号１１２の中のコモンＦＧＯ信号の位置に関する制限が、克服できる。多重ＦＧＯｓ信号は、説明したＴＴＴ構成の数ステージを順に搬送されることによって、調整することができる。それぞれのステージは、１個のＦＧＯ信号に対応し、残留符号化ストリームを作り出す。このようにして、制御可能なＦＧＯｓ信号１１０間の干渉は、それぞれのＦＧＯ信号間で理想的に打ち消される。もちろん、このオプションは、グループ化されたＦＧＯ信号取り組み方で使用したビット速度より高いビット速度を必要とする。実施形態は後述する。
・ＳＡＯＣサイド情報：ＭＰＥＧサラウンドでは、ＴＴＴボックスに関連するサイド情報は、1組のチャンネル予測係数（ＣＰＣ）である。対照的に、ＳＡＯＣパラメータ化とＭＢＯ／カラオケ・シナリオとは、それぞれのオブジェクト信号ごとのオブジェクトエネルギーと、ＭＢＯダウンミックスの２個のチャンネル間の相関関係信号（すなわち、「ステレオ・オブジェクト」のパラメータ化）と、を送信する。向上カラオケ／独奏モード無しの場合に関連するパラメータ化における変化の数を最小化するために、つまり、ビット・ストリーム形式を最小化のために、1組のチャンネル予測係数（ＣＰＣ）が、ダウンミックス信号（ＭＢＯダウンミックス信号およびＦＧＯｓ信号）のエネルギーとＭＢＯダウンミックス・ステレオ・オブジェクトの相関関係信号と、から計算できる。したがって、送信されてきたパラメータ化を変更させたり、増大させたりする必要は全くない。そして、1組のチャンネル予測係数（ＣＰＣ）は、ＳＡＯＣトランスコーダ１１６の中で、送信されてきたＳＡＯＣパラメータ化から計算できる。こうして、残留データが無視されるとき、向上カラオケ／独奏モードを使用したビット・ストリームは、（残留符号化無しの）正規モード復号器によって復号される。

【0064】

概要において、図６の実施形態は、ある選択されたオブジェクト（または、それらのオブジェクトのない場面）の高められた再生を目的とし、以下の方法の中で、ステレオ・ダウンミックスを使用する現在のＳＡＯＣ符号化の取り組み方を拡張する。
・正規モードにおいて、それぞれのオブジェクト信号は、（左右のダウンミックス・チャンネルへの貢献のために、）ダウンミックス・マトリクスの中への記入（エントリー）によって重み付けされる。そして、左右のダウンミックス・チャンネルへの全ての重み付けされた貢献が、左右のダウンミックス・チャンネルを形成するために合算される。
・向上カラオケ／独奏形式、すなわち、向上モードにおいて、全てのオブジェクトの貢献は、フォアグランド・オブジェクト（ＦＧＯ）と残りのオブジェクトの貢献（ＢＧＯ）とを形成する１セットのオブジェクトの貢献に区切られる。フォアグランド・オブジェクト（ＦＧＯ）は、モノラル・ダウンミックス信号に加えられる。残りのオブジェクトの貢献（ＢＧＯ）は、ステレオ・ダウンミックスに加えられる。そして、両者は、一般化されたＴＴＴ符号器ボックスを使用して合算され、コモンＳＡＯＣステレオ・ダウンミックスを形成する。

【0065】

したがって、通常の合算は、「ＴＴＴ合算」に置き換えられる。ＴＴＴ合算は、所望すれば、順に合算される。

【0066】

ＳＡＯＣ符号器の正規モードと向上モードとの間の前述の違いを強調するために、図７ａと図７ｂを参照する。ここに、図７ａは正規モードに関係し、図７ｂは向上モードに関係する。正規モードでは、ＳＡＯＣ符号器１０８は、前述のＤＭＸパラメータＤ_ijを使用する。ＤＭＸパラメータＤ_ijは、オブジェクトｊを重み付けし、かつ、重み付けされたオブジェクトｊをＳＡＯＣチャンネルｉ、すなわちＬ０またはＲ０に加えるためのものである。図７ｂの向上モードの場合には、ＤＭＸパラメータＤ_iのベクトルのみが必要である。すなわち、ＤＭＸパラメータＤ_iは、フォアグランド・オブジェクト（ＦＧＯｓ）１１０の重み付けされた合計を形成する方法を示し、その結果、ＴＴＴ^-1ボックス１２４の中央チャンネルＣを得る。そして、ＤＭＸパラメータＤ_iは、左のＭＢＯチャンネルと右のＭＢＯチャンネルとに、それぞれ、中央信号Ｃを分配する方法をＴＴＴ^-1ボックス１２４に命令し、その結果、Ｌ_DMXまたはＲ_DMXを得る。

【0067】

問題として、図７ｂに従った処理は、波形を保存しない符号器／復号器（ＨＥ−ＡＡＣ／ＳＢＲ）では、それほどよく働かない。その問題の解決策は、ＨＥ−ＡＡＣのエネルギーベースの一般化されたＴＴＴモードと高周波である。この問題と取り組む実施形態は後述される。

【0068】

順に搬送されるＴＴＴｓを持つものの可能なビット・ストリーム形式は以下の通りである。仮に、「正規の復号モード」が読みこなされるならば、ＳＡＯＣビット・ストリームは、更にスキップできることを必要とする。

ｎｕｍＴＴＴｓｉｎｔ
ｆｏｒ（ｔｔｔ＝０；ｔｔｔ＜ｎｕｍＴＴＴｓ；ｔｔｔ＋＋）
｛ｎｏ＿ＴＴＴ＿ｏｂｊ［ｔｔｔ］ｉｎｔ
ＴＴＴ＿ｂａｎｄｗｉｄｔｈ［ｔｔｔ］；
ＴＴＴ＿ｒｅｓｉｄｕａｌ＿ｓｔｒｅａｍ［ｔｔｔ］
｝

【0069】

複雑さとメモリ仕様に関して、以下のことを述べることができる。前記説明からわかるように、図６の向上カラオケ／独奏モードは、それぞれ、符号器と復号器／トランスコーダの中に１個の概念的な要素、すなわち、一般化されたＴＴＴ^-1／ＴＴＴ符号器要素のステージを加えることによって、実行される。両方の要素は、複雑さにおいて、正規の「中央に置かれた」ＴＴＴ対応部品に一致する。係数値における変化は、複雑さに影響を及ぼさない。考えられる主要なアプリケーション（リード・ボーカルとしての１個のフォアグランド・オブジェクト（ＦＧＯ））に対しては、単一のＴＴＴで十分である。

【0070】

この追加構成とＭＰＥＧサラウンドシステムの複雑さとの関係は、ＭＰＥＧサラウンド復号器全体の構成を見ることによって認識できる。ＭＰＥＧサラウンド復号器は、等価ステレオ・ダウンミックス（５−２−５構成）の場合、１個のＴＴＴ要素と２個のＯＴＴ要素とから成る。これは、追加された機能が、計算の複雑さとメモリ消費の観点から、妥当な価格で手に入ることを示している。残留符号化を使用する概念的な要素が、「反−相関器（ｄｅｃｏｒｒｅｌａｔｏｒ）」を代わりに含む対応部品より、平均して複雑でないことに注意しなさい。

【0071】

ＭＰＥＧＳＡＯＣ規範モデル０（ＲＭ０）の図６のこの拡張は、特別な独奏、またはミュート（消音）／カラオケタイプのアプリケーションの音質改善を提供する。図５，６，７に対応する記述は、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）を、背景シーンまたはバックグランド・オブジェクト（ＢＧＯ）と呼ぶ。一般に、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）は、このタイプのオブジェクトに制限されず、むしろ、モノラル・オブジェクトまたはステレオ・オブジェクトである。

【0072】

主観的な評価の手順が、カラオケまたは独奏のアプリケーションの出力信号の音質に関しての改善を示す。評価された条件は、以下の通りである。
・規範モデル０（ＲＭ０）
・向上モード・・・ｒｅｓ０（残留符号化無し）
・向上モード・・・ｒｅｓ６（最低６個のハイブリッドＱＭＦ帯域における残留符号化有り）
・向上モード・・・ｒｅｓ１２（最低１２個のハイブリッドＱＭＦ帯域における残留符号化有り）
・向上モード・・・ｒｅｓ２４（最低２４個のハイブリッドＱＭＦ帯域における残留符号化有り）
・隠された参照（ＨｉｄｄｅｎＲｅｆｅｒｅｎｃｅ）
・低アンカー（Ｌｏｗｅｒａｎｃｈｏｒ）・・・リファレンスの３．５ｋＨｚ帯制限バージョン

【0073】

仮に、残留符号化無しで使用されるならば、提案された向上モードのビット速度は、規範モデル０（ＲＭ０）と同様です。他の全ての向上モードは、残留符号化の６つの帯域毎に約１０キロビット／秒を必要とする。

【0074】

図８ａは、１０個のリスニング対象を有するミュート／カラオケ・テストの結果を示す。提案された解決法は、常に、規範モデル０（ＲＭ０）より高く、追加された残留符号化のステップごとに増加する、平均ＭＵＳＨＲＡ得点を有する。規範モデル０（ＲＭ０）の性能における統計的に重要な改善は、残留符号化の６個以上のハイブリッドＱＭＦ帯域を持つ向上モードに対して、明確に観測できる。

【0075】

図８ｂは、９個のリスニング対象を有する独奏テストの結果を示す。提案された解決法は、同様の利点を示している。追加された残留符号化が多ければ多いほど、平均ＭＵＳＨＲＡ得点は明確に増加する。残留符号化の２４個のハイブリッドＱＭＦ帯域を持つ向上モードと、残留符号化無しの向上モードとの間の利得は、略５０ＭＵＳＨＲＡポイントである。

【0076】

全体的に見て、カラオケのアプリケーションの良好な品質は、規範モデル０（ＲＭ０）より約１０キロビット／秒早いビット速度を有する装置の費用で達成される。優れた品質は、規範モデル０（ＲＭ０）の最速ビット速度に、約４０キロビット／秒追加すれば、達成できる。最大固定ビット速度が与えられている現実的なアプリケーション・シナリオでは、提案された向上モードは、残留符号化の「未使用のビット速度」を、許される最大のビット速度に達するまで、うまく費やすことを許す。したがって、可能な限り良好で総合的な音質が獲得される。提示された実験結果の更なる改善は、残留符号化のビット速度の、より知的な使用によって可能である。提示された構成は、常に、残留符号化を、直流から所定の上限周波数まで使用することである。高められた実行は、フォアグランド・オブジェクト（ＦＧＯ）とバックグランド・オブジェクト（ＢＧＯ）との分離に関連している周波数領域のビットだけを費やす。

【0077】

以上の記述において、カラオケタイプのアプリケーションのＳＡＯＣ技術の向上が説明されている。ＭＰＥＧＳＡＯＣが処理する多重チャンネルＦＧＯ音声場面の向上カラオケ／独奏モードのアプリケーションの追加の詳細な実施形態が提示される。

【0078】

変更して再生される多重フォアグランド・オブジェクト（ＦＧＯｓ）信号との対照で、多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）信号は、変更しないで再生しなければならない。すなわち、あらゆる入力チャンネル信号は、同じものが出力チャンネルを通して、変更のないレベルで再生される。その結果、ＭＰＥＧサラウンド符号器によって合図する多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）信号の前処理は、ステレオ・ダウンミックス信号の発生を提案している。ステレオ・ダウンミックス信号は、ＳＡＯＣ符号器、ＭＢＯトランスコーダおよびＭＰＳ復号器を含む後続のカラオケ／独奏モード処理ステージに入力されるべき（ステレオ）バックグラウンド・オブジェクト（ＢＧＯ）信号として機能する。図９は全体構成図を示す。

【0079】

図９に示したカラオケ／独奏モード符号器構成によれば、入力オブジェクトは、ステレオ・バックグラウンド・オブジェクト（ＢＧＯ）１０４とフォアグランド・オブジェクト（ＦＧＯ）１１０に分類される。

【0080】

規範モデル０（ＲＭ０）において、これらのアプリケーション・シナリオの取り扱いは、ＳＡＯＣ符号器／トランスコーダ・システムによって実行される。しかし、図６の向上は、さらに、ＭＰＥＧサラウンド構成の要素的な構築ブロックを利用する。特定の音声オブジェクトの強い増幅／減衰が要求されるとき、符号器１０８にＴＴＴ^-1（ｔｈｒｅｅ−ｔｏ−ｔｗｏ）ボックス１２４を組み込み、トランスコーダ１１６にＴＴＴ（ｔｗｏ−ｔｏ−ｔｈｒｅｅ）ボックス１２６を対応させると、性能が向上する。拡張した構成の２個の基本特性は、以下の通りである。
・（規範モデル０（ＲＭ０）と比較して）残留信号の利用による、より一層良好な信号分離。
・ミキシング仕様を一般化することによって、ＴＴＴ^-1ボックス１２４の中央の入力として示される信号（すなわち、フォアグランド・オブジェクト（ＦＧＯ）信号）の柔軟な位置決め。

【0081】

ＴＴＴ構築ブロックの簡単な装置は、符号器側にて３個の入力信号に関係するので、図６は、図１０に記載された（ダウンミックスした）モノラル信号と同じ多重フォアグランド・オブジェクト（ＦＧＯｓ）信号の処理に焦点を当てている。多重フォアグランド・オブジェクト（ＦＧＯｓ）信号の処理も、記述されている。しかし、さらに、以下において、より詳細に説明される。

【0082】

図１０から見て取れるように、図６の向上モードにおいて、全ての多重フォアグランド・オブジェクト（ＦＧＯｓ）信号の組み合わせが、ＴＴＴ^-1ボックス１２４の中央チャンネルＣに送られる。

【0083】

図６と図１０のフォアグランド・オブジェクト（ＦＧＯ）モノラル・ダウンミックスの場合において、符号器１０８のＴＴＴ^-1ボックス１２４の構成は、中央入力Ｃに送り込まれるフォアグランド・オブジェクト（ＦＧＯ）と、左右の入力を提供するバックグランド・オブジェクト（ＢＧＯ）とを含む。基本的な対称マトリクスＤは、以下に与えられる。

【0084】

この線形システムを通して得られた３番目の信号Ｆ０は捨てられる。しかし、２個の予測係数ｃ₁とｃ₂（ＣＰＣ）を、以下の計算式に組み込むことによって、トランスコーダ１１６側にて復号できる。

【0085】

トランスコーダ１１６での逆処理は、以下の計算式によって与えられる。

【0086】

【0087】

【0088】

さらに、ＣＰＣｓの実行によって導入されたエラーは、ビット・ストリームの範囲内で送信できる残留信号１３２によって表わされる。

【0089】

いくつかのアプリケーション・シナリオにおいて、全ての多重フォアグランド・オブジェクト（ＦＧＯｓ）信号の単一のモノラル・ダウンミックスの制限は、不適当である。したがって、克服される必要がある。例えば、多重フォアグランド・オブジェクト（ＦＧＯｓ）信号は、送信されたステレオ・ダウンミックスにおける異なる位置、および／または、個々の減衰で、２個以上の独立したグループに分割できる。したがって、図１１に示した、順に搬送する（カスケード）構成は、２以上の連続したＴＴＴ^-1ボックス１２４ａ，１２４ｂを含む。カスケード構成は、所望のステレオ・ダウンミックス１１２が得られるまで、符号器１０８の側で、全てのＦＧＯグループＦ₁，Ｆ₂の段階的なダウンミックスを発生させる。ＴＴＴ^-1ボックス１２４ａ，１２４ｂのそれぞれ（または、少なくともいくつか）は、それぞれのステージまたはＴＴＴ^-1ボックス１２４ａ、１２４ｂに対応する、残留信号１３２ａ，１３２ｂを設定する。逆に、トランスコーダ１１６は、入手可能な対応するＣＰＣｓと残留信号１３２ａ，１３２ｂとを組み込んで、連続して適用されたＴＴＴボックス１２６ａ，１２６ｂを使用して、連続したアップミックスを実行する。フォアグランド・オブジェクト（ＦＧＯ）処理の順は、符号器１０８で指定され、トランスコーダ１１６の側で考慮しなければならない。

【0090】

図１１に示した２ステージのカスケード構成に関係する詳細な数学は、以下で説明される。

【0091】

一般的に損失がなければ、簡単な図であるが、以下の説明は、図１１に示した２個のＴＴＴボックスから成るカスケード構成に基づいている。２個の対称マトリクスは、フォアグランド・オブジェクト（ＦＧＯ）モノラル・ダウンミックスの場合と同様であるが、適切にそれぞれの信号に適用されなければならない。

【0092】

逆過程は、以下の式によって表される。

【0093】

２ステージのカスケード構成の特別な場合は、左右のチャンネルを有する１個のステレオ・フォアグランド・オブジェクト（ＦＧＯ）を含む。左右のチャンネルは、バックグランド・オブジェクト（ＢＧＯ）の対応するチャンネルに、適切にまとめられ、以下の式を発生させる。

【0094】

【0095】

一般的なＮステージカスケード構成の場合は、以下の式に従って、多重チャンネル・フォアグランド・オブジェクト（ＦＧＯ）ダウンミックスについて言及する。

各ステージは、それ自身のＣＰＣｓと残留信号とを特徴付ける。

【0096】

トランスコーダ１１６側では、逆のカスケード構成のステップが、以下の式によって与えられる。

【0097】

ＴＴＴボックスの順を保存するという必要性を撤廃するために、カスケード構成は、Ｎ個のマトリクスを１個の単一対称ＴＴＮマトリクスの中に再配列することによって、容易に等価パラレルに変換できる。その結果、以下の一般的なＴＴＮスタイルが生じる。

ここに、マトリクスの最初の２個の行は、送信されるべきステレオ・ダウンミックスを示す。他方、ＴＴＮ（ｔｗｏ−ｔｏ−Ｎ）という用語は、トランスコーダ１１６側でのアップミックス過程を示す。

【0098】

この記述を使用して、特にパンニングされたステレオ・フォアグランド・オブジェクト（ＦＧＯ）の特別な場合は、以下のようにマトリクスを減少させる。

従って、このユニットは、ＴＴＦ（ｔｗｏ−ｔｏ−ｆｏｕｒ）ボックスと称することができる。また、ＳＡＯＣステレオ・前置プロセッサ・モジュールを再利用するＴＴＦ構成を生ずることも可能である。

【0099】

Ｎ＝４の制限のために、既存のＳＡＯＣシステムの部品を再利用するＴＴＦ構成の実現が、可能になる。処理は、以下で説明される。

【0100】

【0101】

【0102】

【0103】

【0104】

【0105】

【0106】

【0107】

【0108】

【0109】

【0110】

５つ以上のフォアグランド・オブジェクト（ＦＧＯ）の取り扱いに対しては、前述した処理ステップのパラレル（平行）ステージを組み立てることによって、前記実施形態を拡張できる。

【0111】

直前に説明された実施形態は、多重チャンネル・フォアグランド・オブジェクト（ＦＧＯ）音声場面のための向上カラオケ／独奏モードの詳細な記述を提供する。この一般化は、カラオケ・アプリケーション・シナリオのクラスを拡大することを目指す。ＭＰＥＧＳＡＯＣ規範モデルの音質は、向上カラオケ／独奏モードの適用によって、さらに改良できる。改良は、一般的なＮＴＴ構成を、ＳＡＯＣ符号器のダウンミックス部分に取り入れることによって、かつ、ＳＡＯＣ符号器に対応する部品を、ＳＡＯＣ−ＭＰＳトランスコーダに取り入れることによって、達成される。残留信号の使用は、音質の結果を高める。

【0112】

図１３ａ〜図１３ｈは、本発明に係る実施形態に従うＳＡＯＣサイド情報ビットの可能な構文を示す。

【0113】

ＳＡＯＣ符号器／復号器の向上モードに関するいくつかの実施形態について説明した後、実施形態のいくつかは、ＳＡＯＣ符号器への音声入力が、通常のモノラル音源またはステレオ音源だけではなく、多重チャンネル・オブジェクトも含むアプリケーション・シナリオに関係があることに注目されるべきである。このことは、図５〜図７ｂに関して明らかに説明された。そのような多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）は、多数の、そして、しばしば未知数の音源に関係する複合サウンドシーンと見做すことができる。制御可能な演奏機能は、音源ごとに必要ない。これらの音源は、個別に、ＳＡＯＣ符号器／復号器構成によって、効率的に扱うことができない。したがって、ＳＡＯＣ構成の概念は、これらの複雑な入力信号、すなわち、典型的なＳＡＯＣ音声オブジェクトを伴った、ＭＢＯチャンネルに対処するために、拡張することであると考えられる。したがって、図５〜図７ｂの実施形態において、ＭＰＥＧサラウンド符号器は、ＳＡＯＣ符号器１０８およびＭＰＳ符号器１００を囲んでいる点線によって示されるように、ＳＡＯＣ符号器の中に組み込まれるべきであると考えられる。結果として生じるダウンミックス１０４は、ステレオ入力オブジェクトとして、ＳＡＯＣ符号器１０８に提供される。制御可能なＳＡＯＣオブジェクト１１０も、一緒に、ＳＡＯＣ符号器１０８に提供され、トランスコーダ側に送信されて結合ステレオ・ダウンミックス１１２を作り出す。パラメータ領域において、ＭＰＳビットストリーム１０６とＳＡＯＣビットストリーム１１４の両者が、ＳＡＯＣトランスコーダ１１６の中に搬送される。ＳＡＯＣトランスコーダ１１６は、特定のＭＢＯアプリケーション・シナリオに依存し、適切なＭＰＳビットストリーム１１８を、ＭＰＥＧサラウンド復号器１２２に供給する。この操作は、ダウンミックス信号１１２を、ＭＰＳ復号器１２２のダウンミックス信号１２０に変更するために、演奏情報または演奏マトリクスを使用して、何らかのダウンミックス前処理を使うことで実行される。

【0114】

向上カラオケ／独奏モードの別の実施形態が、以下で説明される。それは、結果として生じる音質の重要な減少無しで、複数の音声オブジェクトのレベル増幅／減衰に関して、複数の音声オブジェクトの個々の操作を許す。特別な「カラオケタイプ」アプリケーション・シナリオは、バックグラウンド音声シーンの知覚品質を傷付けること無く維持して、特定のオブジェクトである、通常のリード・ボーカル（以下、フォアグランド・オブジェクト（ＦＧＯ）と称する）の完全抑制を必要とする。また、それは、静的バックグラウンド音声シーン（以下、バックグランド・オブジェクト（ＢＧＯ）と称す）無しで、特定のＦＧＯ信号を個別に再生させる能力を伴う。ＢＧＯは、パンニングに関してユーザの制御可能性を必要としない。このシナリオは、「独奏」モードと称される。通常のアプリケーションの場合は、ステレオＢＧＯ信号と最大４個のＦＧＯ信号とを含む。ＦＧＯ信号は、例えば、２個の独立したステレオ・オブジェクトを表わすことができる。

【0115】

この実施形態と図１４によると、向上カラオケ／独奏トランスコーダ１５０は、ＴＴＮ（ｔｗｏ−ｔｏ−Ｎ）ボックスまたはＯＴＮ（ｏｎｅ−ｔｏ−Ｎ）ボックス１５２のいずれかを組み込んでいる。両者は、ＭＰＥＧサラウンド仕様から知られているＴＴＴボックスを、一般化して高めた変更品である。適切な要素ボックスの選択は、送信されるダウンミックス信号１１２の数に依存する。すなわち、ＴＴＮボックスはステレオ・ダウンミックス信号に専念する。一方、モノラル・ダウンミックス信号に対しては、ＯＴＮボックスが適用される。ＳＡＯＣ符号器の中の対応するＴＴＮ^-1ボックスまたはＯＴＮ^-1ボックスは、ＢＧＯ信号およびＦＧＯ信号を、コモンＳＡＯＣステレオ・ダウンミックス信号またはモノラル・ダウンミックス信号１１２に結合して、ＳＡＯＣサイド情報（ビットストリーム）１１４を発生させる。ダウンミックス信号１１２における、全ての個々のフォアグランド・オブジェクト（ＦＧＯ）の任意の予め定義された位置決めは、ＴＴＮボックスまたはＯＴＮボックス１５２のいずれかによって支持される。トランスコーダ１５０側では、（外部から適用される操作モード１５８に依存している、）ＢＧＯ信号１５４またはＦＧＯ信号１５６の組み合わせが、ＳＡＯＣサイド情報１１４と任意に組み込まれる残留信号だけを使用して、ＴＴＮまたはＯＴＮボックス１５２によって、ダウンミックス信号１１２から復号される。復号された音声オブジェクト信号１５４／１５６と演奏情報１６０とは、ＭＰＥＧサラウンド・ビットストリーム１６２と対応する前処理ダウンミックス信号１６４とを作り出すために使用される。ミキサー１６６は、ダウンミックス信号１１２の処理を実行し、ＭＰＳ入力ダウンミックス信号１６４を得る。そして、ＭＰＳトランスコーダ１６８は、ＳＡＯＣパラメータ（ＳＡＯＣサイド情報）１１４をＭＰＳパラメータ１６２にコード変換する責任を負う。ＴＴＮ／ＯＴＮボックス１５２とミキサー１６６とは、向上カラオケ／独奏モード処理１７０を共に実行し、ミキサーの機能がアップミックス手段５４に含まれている状態で、図３の予測係数計算手段５２とアップミックス手段５４に対応する。

【0116】

多重チャンネル・バックグランド・オブジェクト（ＭＢＯ）は、前述したのと同様にを扱うことができる。すなわち、それは、モノラルまたはステレオ・ダウンミックス信号を生じるＭＰＥＧサラウンド符号器によって前処理される。モノラルまたはステレオ・ダウンミックス信号は、ＢＧＯとして機能し、後続の向上ＳＡＯＣ符号器に入力される。この場合、トランスコーダは、ＳＡＯＣビット・ストリームの次に、追加のＭＰＥＧサラウンド・ビットストリームを提供しなければならない。

【0117】

次に、ＴＴＮ／ＯＴＮボックス１５２によって実行される計算を説明する。第１の予め決められた時間／周波数分解能４２の中で表わされたＴＴＮ／ＯＴＮマトリクスＭは、２個のマトリクスの積である。

【0118】

【0119】

【0120】

２個のオブジェクトグループＢＧＯとＦＧＯとを再構築するために、ダウンミックス情報は、ダウンミックス・マトリクスＤの逆によって利用される。ダウンミックス・マトリクスＤは、信号Ｆ０₁〜Ｆ０_Nの線形結合を更に定めるために拡張される。

【0121】

以下において、符号器側でのダウンミックスが記載される。ＴＴＮ^-1ボックスの中において、拡張ダウンミックス・マトリクスは、以下の式で表される。

【0122】

ＴＴＮ／ＯＴＮボックス１５２は、ステレオＢＧＯとステレオ・ダウンミックスとに対して、以下の式で表される出力を生じる。この場合、ＢＧＯ、および／または、ダウンミックスは、モノラル信号である。従って、線形システムは変化する。

【0123】

【0124】

以下の実施形態によると、ＴＴＮマトリクスは、エネルギーモードで使用される。符号化／復号化手順に基づいたエネルギーは、ダウンミックス信号の符号化を波形でなく保存するために設計される。したがって、対応するエネルギーモードのＴＴＮアップミックス・マトリクスは、特定の波形を当てにしないが、入力音声オブジェクトの相対的なエネルギー分布を説明する。このマトリクスＭ_Energyの要素は、以下の式に従って対応するＯＬＤｓから得られる。

【0125】

従って、モノラル・ダウンミックスに対して、エネルギーに基づいたアップミックス・マトリクスＭ_Energyは、以下の式となる。

【0126】

【0127】

【0128】

これに関して、残留信号ｒｅｓは、復号器によって無視される、または、提供されない、すなわち、それは任意であることに再び注目する。残留信号がない場合、復号器（例えば、予測係数計算手段５２）は、以下の式に従って、ＣＰＣｓに基づいた仮想信号を予測する。

【0129】

次に、以下の式で表わされるＢＧＯ信号、および／または、ＦＧＯ信号が、符号器の４つの可能な線形結合の１個の逆によって、例えば、アップミックス手段５４によって得られる。

ここに、Ｄ^-1は、パラメータＤＭＧとＤＣＬＤの関数である。

【0130】

したがって、合計で、残留信号ｒｅｓを無視しているＴＴＮ（ＯＴＮ）ボックス１５２は、以下の式で表わされる、直前に記載した両方の計算ステップを計算する。

【0131】

【0132】

最後に、図１５は、サイド情報の中で、残留データを移送するために費やされたデータ量を、どのようにセットするかの更なる可能性を示す。この構文によると、サイド情報は「ｂｓ残留サンプリング周波数インデックス（ｂｓＲｅｓｉｄｕａｌＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｎｄｅｘ）」、すなわち、表に関連しているインデックス、例えば、インデックス対周波数分解能を含む。あるいは、分解能は、フィルタ・バンクの分解能またはパラメータ分解能などの予め決められた分解能になるように推論される。さらに、サイド情報は、残留信号が送信される時間分解能を定義する「ｂｓＳＡＯＣフレーム当たりの残留フレーム（ｂｓＲｅｓｉｄｕａｌＦｒａｍｅｓＰｅｒＳＡＯＣＦｒａｍｅ）」を含む。サイド情報が含む「ｂｓＮｕｍＧｒｏｕｐｓＦＧＯ」は、ＦＧＯｓの数を示す。構文要素「ｂｓ残留提供（ｂｓＲｅｓｉｄｕａｌＰｒｅｓｅｎｔ）」は、各FGOに対して伝送され、それぞれのＦＧＯに対して、残留信号が伝送されるかどうかに関して示す。仮に、存在するならば、「ｂｓ残留帯域（ｂｓＲｅｓｉｄｕａｌＢａｎｄｓ）」は、残留値が伝送されるスペクトル帯の数を示す。

【0133】

実際の実行に依存して、ハードウェアまたはソフトウェアの中で、本発明に係る符号化／復号化方法が実行される。したがって、本発明は、ＣＤ、ディスクまたは他のデータキャリアなどのコンピュータ読み込み可能な媒体に格納できる、コンピュータ・プログラムに関する。したがって、本発明は、コンピュータで実行されるとき、上図に関係して記載された符号化の本発明の方法または復号化の本発明的の方法を実行するプログラム・コードを有するコンピュータ・プログラムである。

【図1】