特開2024-23412 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ ノキア　テクノロジーズ　オサケユイチアの特許一覧

特開2024-23412音場関連のレンダリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024023412

(43)【公開日】2024-02-21

(54)【発明の名称】音場関連のレンダリング

(51)【国際特許分類】

G10L 19/22 20130101AFI20240214BHJP

H04S 7/00 20060101ALI20240214BHJP

【ＦＩ】

G10L19/22

H04S7/00 300

【審査請求】有

【請求項の数】1

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023200065

(22)【出願日】2023-11-27

(62)【分割の表示】P 2021557218の分割

【原出願日】2020-03-19

(31)【優先権主張番号】1904261.3

(32)【優先日】2019-03-27

(33)【優先権主張国・地域又は機関】GB

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．３ＧＰＰ

(71)【出願人】

【識別番号】515076873

【氏名又は名称】ノキアテクノロジーズオサケユイチア

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100092624

【弁理士】

【氏名又は名称】鶴田準一

(74)【代理人】

【識別番号】100141162

【弁理士】

【氏名又は名称】森啓

(72)【発明者】

【氏名】ミッコ－ビッレライティネン

(72)【発明者】

【氏名】ユハビルカモ

(72)【発明者】

【氏名】ラッセラークソネン

(57)【要約】（修正有）

【課題】音場関連のオーディオ表現およびレンダリングのための装置および方法を提供する。
【解決手段】音場関連のオーディオ表現およびレンダリングのためデコーダ／レンダラの動作は、ビットストリーム（ＭＡＳＡストリーム）を受信又は取得し、ビットストリームに基づいて搬送オーディオ信号タイプを決定してイプ信号またはインジケータおよび可能な他の追加パラメータを生成し、決定された搬送オーディオ信号タイプに基づいて、ビットストリーム（ＭＡＳＡストリーム）をアンビソニック信号に変換する。
【選択図】図３

【特許請求の範囲】

【請求項1】

少なくとも２つのオーディオ信号を取得し、前記少なくとも２つのオーディオ信号のタイプを決定し、少なくとも２つのオーディオ信号の決定されたタイプに基づいて、レンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理するように構成された手段を含む装置。

【請求項2】

前記少なくとも２つのオーディオ信号は、伝送オーディオ信号、前もって処理されたオーディオ信号、のうちの１つである、請求項１に記載の装置。

【請求項3】

前記手段は、前記少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータを取得するように構成される、請求項１または２に記載の装置。

【請求項4】

前記手段は、前記少なくとも２つのオーディオ信号に関連する前記少なくとも１つのパラメータに基づいて、前記少なくとも２つのオーディオ信号のタイプを決定するように構成された、請求項３に記載の装置。

【請求項5】

前記少なくとも１つのパラメータに基づいて前記少なくとも２つのオーディオ信号のタイプを決定するように構成された前記手段は、前記少なくとも１つのパラメータから少なくとも１つのタイプ信号を抽出して復号するステップと、前記少なくとも１つのパラメータが、前記少なくとも２つのオーディオ信号に関連する空間オーディオ態様を表すとき、前記少なくとも２つのオーディオ信号のタイプを決定するために、前記少なくとも１つのパラメータを解析するステップと、のうちの１つを実行するように構成される、請求項４に記載の装置。

【請求項6】

前記手段は、前記少なくとも２つのオーディオ信号のタイプを決定するために前記少なくとも１つのパラメータを解析し、前記少なくとも２つのオーディオ信号に基づいて、ブロードバンドの左または右チャンネル対トータルエネルギー比率を決定し、前記少なくとも２つのオーディオ信号に基づいて、トータルエネルギーに対するより高い周波数の左または右チャンネルの比率を決定し、前記少なくとも２つのオーディオ信号に基づいて合計対トータルエネルギー比率を決定し、前記少なくとも２つのオーディオ信号に基づいて減算対ターゲット・エネルギー比率を決定し、前記ブロードバンドの左または右チャンネル対トータルエネルギー比率、前記高周波数左または右のチャネル対トータルエネルギー比率、少なくとも２つのオーディオ信号に基づいた前記合計対トータルエネルギー比率、および、前記減算対ターゲット・エネルギー比率のうちの少なくとも１つに基づいて、前記少なくとも２つのオーディオ信号の前記タイプを決定するように構成される、請求項５に記載の装置。

【請求項7】

前記手段は、前記少なくとも１つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータを決定するように構成される、請求項１ないし６のいずれか１項に記載の装置。

【請求項8】

前記少なくとも２つのオーディオ信号の前記決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理するように構成された前記手段は、前記少なくとも２つのオーディオ信号の前記タイプに関連する前記少なくとも１つのタイプパラメータに基づいて、前記少なくとも２つのオーディオ信号を変換するように構成される、請求項７に記載の装置。

【請求項9】

前記少なくとも２つのオーディオ信号のタイプは、キャプチャ・マイク配置、キャプチャ・マイク分離距離、キャプチャ・マイクパラメータ、トランスポートチャネル識別子、間隔を置いたオーディオ信号タイプ、ダウンミックスオーディオ信号タイプ、同一オーディオ信号タイプ、およびトランスポートチャンネルの配置のうちの少なくとも１つを含む、請求項１ないし８のいずれか１項に記載の装置。

【請求項10】

前記少なくとも２つのオーディオ信号を処理するように構成された手段が、前記少なくとも２つのオーディオ信号をアンビソニックオーディオ信号表現に変換すること、前記少なくとも２つのオーディオ信号をマルチチャンネルオーディオ信号表現に変換すること、前記少なくとも２つのオーディオ信号をより少ないオーディオ信号にダウンミックスすること、のうちの１つを実行するように構成されている、請求項１ないし９のいずれか１項に記載の装置。

【請求項11】

前記少なくとも２つのオーディオ信号を処理するように構成された手段が、前記少なくとも２つのオーディオ信号および前記少なくとも２つのオーディオ信号のタイプに基づいて、少なくとも１つのプロトタイプ信号を生成するように構成されている、請求項１ないし１０のいずれかに記載の装置。

【請求項12】

少なくとも２つのオーディオ信号の取得するステップと、前記少なくとも２つのオーディオ信号のタイプを決定するステップと、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理するステップと、を含む、方法。

【請求項13】

前記少なくとも２つのオーディオ信号は、搬送オーディオ信号、および、以前に処理されたオーディオ信号を転送のうちの１つである、請求項１２に記載の方法。

【請求項14】

前記少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータを取得するステップをさらに含む、請求項１２または１３に記載の方法。

【請求項15】

前記少なくとも２つのオーディオ信号のタイプを決定するステップは、前記少なくとも２つのオーディオ信号に関連する前記少なくとも１つのパラメータに基づいて、前記少なくとも２つのオーディオ信号のタイプを決定するステップを含む、請求項１４に記載の方法。

【請求項16】

少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備える装置であって、前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサを用いて、前記装置に、少なくとも２つのオーディオ信号を取得させ、前記少なくとも２つのオーディオ信号のタイプを決定させ、前記少なくとも２つのオーディオ信号の前記決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理させるように構成される、装置。

【請求項17】

前記少なくとも２つのオーディオ信号は、搬送オーディオ信号、および、以前に処理されたオーディオ信号うちの１つである、請求項１６に記載の装置。

【請求項18】

前記装置が、前記少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータを取得する、請求項１６または１７に記載の装置。

【請求項19】

前記装置は、前記少なくとも２つのオーディオ信号に関連する前記少なくとも１つのパラメータに基づいて、前記少なくとも２つのオーディオ信号のタイプを決定する、請求項１８に記載の装置。

【請求項20】

前記少なくとも１つのパラメータに基づいて前記少なくとも２つのオーディオ信号のタイプを決定する前記装置は、前記少なくとも１つのパラメータから少なくとも１つのタイプ信号を抽出して復号することと、少なくとも１つのパラメータが少なくとも２つのオーディオ信号に関連する空間オーディオ態様を表すとき、前記少なくとも２つのオーディオ信号のタイプを決定するために、前記少なくとも１つのパラメータを解析することと、のうちの１つをさらに行う、請求項１９に記載の装置。

【請求項21】

前記少なくとも２つのオーディオ信号のタイプがさらに引き起こされることを決定するために前記少なくとも１つのパラメータを解析する前記装置は、さらに、前記少なくとも２つのオーディオ信号に基づいて、ブロードバンドの左または右チャンネル対トータルエネルギー比率を決定し、少なくとも２つのオーディオ信号に基づいて、より高い周波数の左または右チャンネル対トータルエネルギー比率を決定し、少なくとも２つのオーディオ信号に基づいて合計対トータルエネルギー比率避決定し、少なくとも２つのオーディオ信号に基づいて減算対ターゲット・エネルギー比率を決定し、前記ブロードバンド左または右チャンネル対トータルエネルギー比率、前記少なくとも２つのオーディオ信号に基づいた前記より高い周波数の左または右チャンネル対トータルエネルギー比率、前記少なくとも２つのオーディオ信号に基づいた前記合計対トータルエネルギー比率、および前記減算対ターゲット・エネルギー比率のうちの少なくとも１つに基づいて前記少なくとも２つのオーディオ信号のタイプを決定する、請求項２０に記載の装置。

【請求項22】

前記装置は、前記少なくとも１つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータを決定する、請求項１６ないし２１のいずれか１項に記載の装置。

【請求項23】

前記少なくとも２つのオーディオ信号を処理する前記装置は、前記少なくとも２つのオーディオ信号をアンビソニックオーディオ信号表現に変換すること、前記少なくとも２つのオーディオ信号をマルチチャンネルオーディオ信号表現に変換すること、前記少なくとも２つのオーディオ信号をより少ないオーディオ信号にダウンミックスすること、のうちの１つをさらに行う、請求項１６ないし２２のいずれか１項に記載の装置。

【請求項24】

前記少なくとも２つのオーディオ信号を処理する前記装置は、前記少なくとも２つのオーディオ信号および前記少なくとも２つのオーディオ信号のタイプに基づいて、少なくとも１つのプロトタイプ信号を生成する、請求項１６ないし２３のいずれか１項に記載の装置。

【請求項25】

レンダリングされる前記少なくとも２つのオーディオ信号を処理する前記装置が、前記少なくとも２つのオーディオ信号の前記タイプに関連する前記少なくとも１つのタイプパラメータに基づいて、前記少なくとも２つのオーディオ信号を変換させる、請求項１６ないし２４のいずれか１項に記載の装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音場関連のオーディオ表現およびレンダリングのための装置および方法に関するが、オーディオデコーダのためのオーディオ表現に限るものではない。

【背景技術】

【0002】

イマーシブオーディオコーデックは、低ビットレート動作から透明度まで、多数の動作ポイントをサポートしている。このようなコーデックの一例は、仮想現実（ＶＲ）のためのイマーシブ音声およびオーディオのようなイマーシブサービスでの使用を含む３ＧＰＰ４Ｇ／５Ｇネットワークのような通信ネットワーク上での使用に適するように設計されているイマーシブ音声およびオーディオサービス（ＩＶＡＳ）コーデックである。この音声コーデックは、音声、音楽、汎用音声の符号化、復号、レンダリングを扱うことが期待される。さらに、音場および音源に関する空間情報を含むチャネルベースのオーディオおよびシーンベースのオーディオ入力をサポートすることが期待される。また、コーデックは、様々な伝送条件下で高いエラーロバスト性をサポートするだけでなく、会話サービスを可能にするために低い待ち時間で動作することが期待される。

【0003】

入力信号は、サポートされている多数のフォーマットのいずれかで（また、可能なフォーマットの組み合わせによって）ＩＶＡＳエンコーダに提示することができる。たとえば、モノラルオーディオ信号（メタデータなし）は、ＥＶＳ（ＥｎｈａｎｃｅｄＶｏｉｃｅＳｅｒｖｉｃｅ）エンコーダを使用してエンコードできる。他の入力フォーマットは、ＩＶＡＳ符号化ツールを利用してもよい。少なくともいくつかの入力は、メタデータ支援空間オーディオ（ＭＡＳＡ）ツールまたは任意の適切な空間メタデータベーススキームを利用できる。これは、空間オーディオ処理に適したパラメトリック空間オーディオ形式である。パラメトリック空間音声処理は、音声（または音場）の空間的側面がパラメータの集合を用いて記述される音声信号処理の分野である。例えば、マイクロホンアレイからのパラメトリック空間オーディオキャプチャでは、マイクロホンアレイ信号から、周波数帯域における音の方向、および周波数帯域におけるキャプチャされた音の指向性部分と無指向性部分との間の比率などのパラメータのセットを推定することは、典型的で有効な選択である。これらのパラメータは、マイクロホンアレイの位置で捕捉された音の知覚空間特性をよく記述することが知られている。これらのパラメータは、それに応じて空間音の合成、バイノーラルでのヘッドホン、ラウドスピーカ、またはアンビソニックのような他のフォーマットに利用することができる。

【0004】

たとえば、オーディオ信号と空間メタデータの２つのチャネル（ステレオ）がある。空間メタデータは、更に、方向インデックス（時間－周波数パラメータ間隔における音の到着方向を記述する）、方向対トータルエネルギー比率（方向指標、すなわち、時間－周波数サブフレームに対するエネルギー比率を記述する）、拡張コヒーレンス（Ｓｐｒｅａｄｃｏｈｅｒｅｎｃｅ）（周囲方向に対する無指向性音のエネルギーゼ比率を記述する）、拡散対トータルエネルギー比率（Ｄｉｆｆｕｓｅ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）（周囲方向に対する無指向性音のコヒーレンスを記述する）、サラウンドコヒーレンス（Ｓｕｒｒｏｕｎｄｃｏｈｅｒｅｎｃｅ）（周囲方向に対する無指向性音のコヒーレンスを記述する）、残余対トータルエネルギー比率（Ｒｅｍａｉｎｄｅｒ－ｔｏ－ｔｏｔａｌｅｎｅｒｇｙｒａｔｉｏ）（エネルギー比率の合計が１であるという要件を満たすための残余（マイクノイズなど）の音響エネルギーのエネルギー比率を記述する）、および、距離（対数スケールにおける方向指標（すなわち、時間－周波数サブフレーム）から発する音の距離を記述する）、のようなパラメータを定義することができる。

【0005】

ＩＶＡＳストリームは、バイナリ、マルチチャンネル、およびアンビソニック（Ａｍｂｉｓｏｎｉｃ）（ＦＯＡ／ＨＯＡ）出力など、さまざまな出力形式にデコードおよびレンダリングできる。

【0006】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理するように構成された手段は、少なくとも２つのオーディオ信号をアンビソニックオーディオ信号表現に変換すること、少なくとも２つのオーディオ信号をマルチチャンネルオーディオ信号表現に変換すること、および少なくとも２つのオーディオ信号をより少ないオーディオ信号にダウンミックスすること、を構成することができる。

【0007】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理するように構成された手段は、少なくとも２つのオーディオ信号と少なくとも２つのオーディオ信号のタイプに基づいて少なくとも１つのプロトタイプ信号を生成するように構成することができる。

【0008】

第２の態様によれば、少なくとも２つのオーディオ信号を得るステップと、少なくとも２つのオーディオ信号のタイプを決定するステップと、少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理するステップと、を含む方法が提供される。

【0009】

少なくとも２つのオーディオ信号は、搬送オーディオ信号、および前に処理されたオーディオ信号のうちの１つであり得る。

【0010】

本方法は、少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータを取得することをさらに含むことができる。

【0011】

少なくとも２つのオーディオ信号のタイプを決定することは、少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータに基づいて、少なくとも２つのオーディオ信号のタイプを決定することを含むことができる。

【0012】

少なくとも１つのパラメータに基づいて少なくとも２つのオーディオ信号のタイプを決定することは、少なくとも１つのパラメータから少なくとも１つのタイプの信号を抽出してデコードすることと、少なくとも１つのパラメータが少なくとも２つのオーディオ信号に関連する空間オーディオアスペクトを表す場合に、少なくとも１つのパラメータを解析して少なくとも２つのオーディオ信号のタイプを決定することとのうちの１つを含むことができる。

【0013】

少なくとも１つのパラメータを解析して、前記少なくとも２つのオーディオ信号のタイプを決定することは、前記少なくとも２つのオーディオ信号に基づいて、ブロードバンドの左または右のチャネル対トータルエネルギー比率を決定することと、前記少なくとも２つのオーディオ信号に基づいて、より高い周波数の左または右のチャネル対トータルエネルギー比率を決定することと、前記少なくとも２つのオーディオ信号に基づいて、合計対トータルエネルギー比率に対する合計を決定することと、前記少なくとも２つのオーディオ信号に基づいて、減算対ターゲット・エネルギー比率を決定することと、前記少なくとも２つのオーディオ信号のタイプを、前記ブロードバンドの左または右のチャネル対トータルエネルギー比率、前記少なくとも２つのオーディオ信号に基づいて、より高い周波数の左または右のチャネル対トータルエネルギー比率、前記少なくとも２つのオーディオ信号に基づいて、合計対トータルエネルギー比率、および前記減算対ターゲット・エネルギー比率のうちの少なくとも１つに基づいて決定することと、を含むことができる。

【0014】

本願方法は、少なくとも１つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータを決定することをさらに含むことができる。

【0015】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理することは、少なくとも２つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータに基づいて少なくとも２つのオーディオ信号を変換することを更に含むことができる。

【0016】

少なくとも２つのオーディオ信号のタイプは、キャプチャマイクロホン配置、キャプチャマイクロホン分離距離、キャプチャマイクロホンパラメータ、トランスポートチャネル識別子、間隔を置いたオーディオ信号タイプ、ダウンミックスオーディオ信号タイプ、同一オーディオ信号タイプ、およびトランスポートチャネル配置のうちの少なくとも１つを含むことができる。

【0017】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理することは、少なくとも２つのオーディオ信号をアンビソニックオーディオ信号表現に変換すること、少なくとも２つのオーディオ信号をマルチチャンネルオーディオ信号表現に変換すること、および少なくとも２つのオーディオ信号をより少ないオーディオ信号にダウンミックスすることのうちの１つを含むことができる。

【0018】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理することは、少なくとも２つのオーディオ信号および少なくとも２つのオーディオ信号のタイプに基づいて少なくとも１つのプロトタイプ信号を生成することを含むことができる。

【0019】

第３の態様によれば、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリとを備える、装置であって、前記少なくとも１つのメモリと、前記少なくとも１つのコンピュータプログラムコードとは、前記少なくとも１つのプロセッサを用いて、前記装置に、少なくとも、前記装置が少なくとも２つのオーディオ信号を取得することと、前記少なくとも２つのオーディオ信号のタイプを決定することと、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理することと、をさせるように構成される、装置が提供される。

【0020】

少なくとも２つのオーディオ信号は、搬送オーディオ信号、および前に処理されたオーディオ信号のうちの１つであり得る。

【0021】

手段は、少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータを取得するように構成されることができる。

【0022】

少なくとも２つのオーディオ信号のタイプを決定するようにした装置は、少なくとも２つのオーディオ信号に関連する少なくとも１つのパラメータに基づいて、少なくとも２つのオーディオ信号のタイプを決定するようにすることができる。

【0023】

前記少なくとも１つのパラメータに基づいて前記少なくとも２つのオーディオ信号のタイプを決定する装置は、前記少なくとも１つのパラメータから少なくとも１つのタイプ信号を抽出してデコードすることと、前記少なくとも１つのパラメータが前記少なくとも２つのオーディオ信号に関連する空間オーディオ態様を表すとき、前記少なくとも１つのパラメータを解析して、前記少なくとも２つのオーディオ信号のタイプを決定することとのうちの１つを実行することができる。

【0024】

少なくとも２つの音響信号の種類を決定するための少なくとも１つのパラメータを解析する装置は、少なくとも２つの音響信号に基づいて、ブロードバンド左または右チャネル対トータルエネルギー比率を決定し、少なくとも２つの音響信号に基づいて、より高い周波または右チャネル対トータルエネルギー比率を決定し、少なくとも２つの音響信号に基づいて、合計対トータルエネルギー比率を決定し、少なくとも２つの音響信号に基づいて、減算対トータルエネルギー比率を決定しブロードバンド左または右チャネル対トータルエネルギー比率、少なくとも２つの音響信号に基づく高周波左または右チャネル対トータルエネルギー比率、少なくとも２つの音響信号に基づく、合計対トータルエネルギー比率、および、減算対ターゲット・エネルギー比率のうちの少なくとも１つに基づいて、少なくとも２つの音響信号のタイプを決定することができる。

【0025】

装置は、少なくとも１つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータを決定することができる。

【0026】

少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理した装置は、少なくとも２つのオーディオ信号のタイプに関連する少なくとも１つのタイプパラメータに基づいて、少なくとも２つのオーディオ信号を変換させることができる。

【0027】

【0028】

装置は、少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理し、少なくとも２つのオーディオ信号をアンビソニックオーディオ信号表現に変換し、少なくとも２つのオーディオ信号をマルチチャンネルオーディオ信号表現に変換し、少なくとも２つのオーディオ信号をより少ないオーディオ信号にダウンミックスすることができる。

【0029】

本願装置は、少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された少なくとも２つのオーディオ信号を処理し、少なくとも２つのオーディオ信号と少なくとも２つのオーディオ信号のタイプに基づいて少なくとも１つのプロトタイプ信号を生成することができる。

【0030】

第４の態様によれば、少なくとも２つのオーディオ信号を得るように構成された回路を得るステップと、前記少なくとも２つのオーディオ信号のタイプを決定するように構成された決定回路と、前記少なくとも２つのオーディオ信号の前記決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理するように構成された処理回路と、を含む装置が提供される。

【0031】

第５の態様によれば、装置に、少なくとも２つのオーディオ信号を取得することと、前記少なくとも２つのオーディオ信号のタイプを決定することと、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理することとを少なくとも実行させるための命令を含むコンピュータプログラムが提供される（またはプログラム命令を含むコンピュータ可読メディアが提供される）。

【0032】

第６の態様によれば、装置に、少なくとも２つのオーディオ信号を取得することと、前記少なくとも２つのオーディオ信号のタイプを決定することと、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理することと、を少なくとも実行させるためのプログラム命令を含む、非一時的コンピュータ可読メディアが提供される。

【0033】

第７の態様によれば、少なくとも２つのオーディオ信号を取得する手段と、少なくともも２つのオーディオ信号のタイプを決定する手段と、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理する手段と、を備える装置が提供される。

【0034】

第８の態様によれば、少なくとも２つのオーディオ信号を取得することと、前記少なくとも２つのオーディオ信号のタイプを決定することと、前記少なくとも２つのオーディオ信号の決定されたタイプに基づいてレンダリングされるように構成された前記少なくとも２つのオーディオ信号を処理することと、を装置に実行させるためのプログラム命令を含む、コンピュータ可読メディアが提供される。

【0035】

上述の方法の動作を実行する手段を含む装置。

【0036】

上記の方法のアクションを実行するように構成された装置。

【0037】

コンピュータに上述の方法を実行させるためのプログラム命令を含むコンピュータプログラム。

【0038】

メディア上に記憶されたコンピュータプログラム製品は、本明細書に記載する方法を装置に実行させることができる。

【0039】

電子デバイスは、本明細書に記載する装置を含むことができる。

【0040】

チップセットは、本明細書に記載する装置を含むことができる。

【0041】

本発明の実施形態は、最新技術に関連する課題に対処することを目的としている。

【図面の簡単な説明】

【0042】

本出願の理解を深めるために、ここでは、添付の図面を例として参照することにする。

【図1】図１は、いくつかの実施形態を実施するのに適した装置のシステムを概略的に示す。

【図2】図２は、いくつかの実施形態によるデコーダ／レンダラの例を概略的に示す。

【図3】図３は、いくつかの実施形態による例のデコーダ／レンダラの動作のフロー図を示す。

【図4】図４は、いくつかの実施形態に従う、図２に示されるような一例の搬送オーディオ信号タイプ決定器を概略的に示す。

【図5】図５は、いくつかの実施形態に従う、図２に示されるような第２例の搬送オーディオ信号タイプ決定器を概略的に示す。

【図6】図６は、いくつかの実施例に基づく第２例の搬送オーディオ信号タイプ決定器の動作のフロー図を示す。

【図7】図７は、いくつかの実施形態による、図２に示されるような、アンビソニクスフォーマットコンバータへのメタデータ支援空間オーディオ信号の例を概略的に示す。

【図8】図８は、いくつかの実施形態による、アンビソニクス・フォーマット・変換器へのサンプルメタデータ支援空間オーディオ信号の動作のフロー図を示す。

【図9】図９は、いくつかの実施形態による第２の例のデコーダ／レンダラを概略的に示す。

【図10】図１０は、いくつかの実施形態によるさらなる例のデコーダ／レンダラの動作のフロー図を示す。

【図11】図１１は、いくつかの実施形態による、図９に示されるような、マルチチャンネルオーディオ信号フォーマット変換器へのメタデータ支援空間オーディオ信号の例を概略的に示す。

【図12】図１２は、いくつかの実施形態による、マルチチャネルオーディオ信号フォーマットコンバータへの、サンプルメタデータ支援空間オーディオ信号の動作のフロー図を示す。

【図13】図１３は、いくつかの実施形態による第３の例のデコーダ／レンダラを概略的に示す。

【図14】図１４は、いくつかの実施形態による第３の例のデコーダ／レンダラの動作のフロー図を示す。

【図15】図１５は、いくつかの実施形態に従った、図１３に示されるような、例示的なメタデータ支援空間オーディオ信号ダウンミキサーを示す。

【図16】図１６は、いくつかの実施形態による、例のメタデータ支援空間オーディオ信号ダウンミキサーの動作のフロー図を示す。

【図17】図１７は、図１、２、４、５、７、９、１１、１３および１５に示される装置を実現するのに適した例の装置を示す。

【発明を実施するための形態】

【0043】

以下では、空間メタデータ支援オーディオ信号の効率的なレンダリングを提供するための、適切な装置および可能なメカニズムをさらに詳細に説明する。

【0044】

図１に関して、オーディオキャプチャおよびレンダリングを実現するための装置およびシステムの例が示されている。システム１００は、「解析」部１２１と「デマルチプレクサ／デコーダ／シンセサイザ」部１３３とを備えて示されている。「解析」部１２１は、マルチャネルラウドスピーカ信号を受信してからメタデータおよび搬送信号を符号化するまでの部分であり、「デマルチプレクサ／デコーダ／シンセサイザ」部１３３は、符号化されたメタデータおよび搬送信号を復号してから、再生成された信号を提示するまでの部分である（たとえば、マルチャネルラウドスピーカ形成）。

【0045】

システム１００および「解析」パート１２１への入力は、マルチチャネル信号１０２である。以下の例では、マイクロホンチャネル信号入力が記載されているが、他の実施形態では、任意の適切な入力（または合成マルチチャネル）フォーマットを実現することができる。例えば、いくつかの実施形態では、空間解析器および空間解析は、エンコーダの外部で実施されてもよい。例えば、ある実施形態では、オーディオ信号に関連する空間メタデータは、別個のビットストリームとしてエンコーダに提供されてもよい。ある実施形態では、空間メタデータは、空間（方向）インデックス値のセットとして提供されてもよい。

【0046】

マルチチャネル信号は、搬送信号発生器１０３および解析プロセッサ１０５に渡される。

【0047】

いくつかの実施形態では、搬送信号発生器１０３は、マルチチャネル信号を受信し、決定された数のチャネルを含む適切な搬送信号を発生し、搬送信号１０４を出力するように構成される。例えば、トランスポート信号発生器１０３は、マルチチャネル信号の２つのオーディオチャネルダウンミックスを生成するように構成することができる。判定されたチャネル数は、任意の適切な数のチャネルとすることができる。いくつかの実施形態における搬送信号発生器は、例えば、ビーム形成技術によって、入力オーディオ信号を決定されたチャネル数に選択または結合し、これらを搬送信号として出力するように構成される。

【0048】

いくつかの実施形態では、搬送信号発生器１０３は任意であり、マルチチャネル信号は、搬送信号がこの例にあるのと同様に、「エンコーダ／ＭＵＸ」ブロック１０７に未処理で渡される。

【0049】

いくつかの実施形態では、解析プロセッサ１０５はまた、マルチチャネル信号を受信し、その信号を解析して、マルチチャネル信号に関連し、したがって搬送信号１０４に関連したメタデータ１０６を生成するように構成される。解析プロセッサ１０５は、各時間－周波数解析間隔に対して、方向パラメータ１０８およびエネルギー比率パラメータ１１０（その一例は拡散性パラメータ）およびコヒーレンス・パラメータ１１２を含むメタデータを生成するように構成することができる。方向、エネルギー比率及びコヒーレンス・パラメータは、実施形態では、空間オーディオパラメータとみなすことができる。言い換えると、空間オーディオパラメータは、マルチチャネル信号（または一般に２つ以上の再生オーディオ信号）によって作成された音場を特徴付けることを目的とするパラメータを含む。

【0050】

一部の実施形態では、生成されるパラメータは、周波数帯域ごとに異なる場合がある。したがって、例えばバンドＸでは、すべてのパラメータが生成されて送信されるのに対し、バンドＹでは、生成されて送信されるパラメータは１つだけであり、さらにバンドＺでは、パラメータは生成されず、送信されない。この実用的な例としては、最高帯域などの一部の周波数帯では、知覚上の理由から一部のパラメータが不要であることが考えられる。トランスポート信号１０４およびメタデータ１０６は、「エンコーダ／ＭＵＸ」ブロック１０７に渡すことができる。

【0051】

いくつかの実施形態では、空間オーディオパラメータは、方向および非方向（例えば、拡散）パラメータにグループ化されるか、または分離されてもよい。

【0052】

「エンコーダ／ＭＵＸ」ブロック１０７は、トランスポート（例えばダウンミックス）信号１０４を受信し、これらのオーディオ信号の適切なエンコードを生成するように構成することができる。「エンコーダ／ＭＵＸ」ブロック１０７は、ある実施形態では、コンピュータ（メモリ上および少なくとも１つのプロセッサ上に記憶された適切なソフトウェアを実行する）、または代替的には、例えば、ＦＰＧＡまたはＡＳＩＣを利用する特定の装置であり得る。符号化は、任意の適切なスキームを使用して実施することができる。「エンコーダ／ＭＵＸ」ブロック１０７は、さらに、メタデータを受信し、情報の符号化または圧縮された形態を生成するように構成されてもよい。ある実施形態では、「エンコーダ／ＭＵＸ」ブロック１０７は、図１に示す伝送または記憶の前に、単一データストリーム１１１にインターリーブ、多重化、または符号化ダウンミックス信号内にメタデータを破線によって埋め込むことができる。多重化は、任意の適切なスキームを使用して実施することができる。

【0053】

デコーダ側では、受信または検索されたデータ（ストリーム）は、「デマルチプレクサ／デコーダ／シンセサイザ」１３３によって受信されてもよい。「デマルチプレクサ／デコーダ／シンセサイザ」１３３は、符号化されたストリームをデマルチプレクスし、オーディオ信号をデコードして、トランスポート信号を得ることができる。同様に、「デマルチプレクサ／デコーダ／シンセサイザ」１３３は、符号化されたメタデータを受信し、復号するように構成してもよい。一部の実施形態では、「デマルチプレクサ／デコーダ／シンセサイザ」１３３は、コンピュータ（メモリ上および少なくとも１つのプロセッサ上に記憶された適当なソフトウェアを実行する）、または代替的に、例えば、ＦＰＧＡまたはＡＳＩＣを利用する特定の装置であり得る。

【0054】

システム１００の「デマルチプレクサ／デコーダ／シンセサイザ」部分１３３は、さらに、トランスポート信号およびメタデータに基づいて、任意の適切なフォーマットで、マルチチャンネル信号１１０の形態の合成空間オーディオを再作成するように構成されてもよい（これらは、マルチチャンネルラウドスピーカフォーマットであり得るし、ある実施形態では、使用ケースに応じて、ヘッドフォンリスニング用のバイノーラル信号またはアンビソニック（Ａｍｂｉｓｏｎｉｃｓ）信号のような任意の適切な出力フォーマットであり得る）。

【0055】

したがって、概要の最初に、システム（解析パート）はマルチチャンネルオーディオ信号を受信するように設定されている。

【0056】

次に、システム（解析パート）は適切な搬送オーディオ信号を生成するように設定される（たとえば、オーディオ信号チャンネルの一部を選択またはダウンミックスすることで）。

【0057】

次に、システムは、トランスポート信号およびメタデータを記憶／伝達するために符号化するように構成される。

【0058】

この後、システムはエンコードされたトランスポートとメタデータを保存／送信することができる。

【0059】

システムは、符号化された搬送及びメタデータを検索／受信することができる。

【0060】

次に、システムは、符号化搬送およびメタデータ・パラメータから搬送およびメタデータを抽出し、例えば逆多重化し、符号化搬送およびメタデータ・パラメータを復号するように構成される。

【0061】

システム（合成部）は、抽出された搬送音声信号とメタデータに基づいて、出力マルチチャンネル音声信号を合成するように構成されている。デコーダ（合成部分）に関しては、空間メタデータを受信し、例えば、５．１信号のダウンミックス、モバイルデバイスからの２つの間隔のあるマイクロホン信号、または一致するマイクロホンアレイからの２つのビームパターンであり得る（潜在的には前処理されたバージョンの）オーディオ信号を転送するように構成される。

【0062】

デコーダは、空間メタデータおよび搬送オーディオ信号から空間オーディオ（アンビソニックなど）をレンダリングするように構成されてもよい。これは、典型的には、このような入力から空間オーディオをレンダリングするために、線形およびパラメトリックレンダリングの２つのアプローチのうちの１つを採用することによって達成される。

【0063】

周波数帯域での処理を仮定すると、線形レンダリングは、所望の出力を生成するためにいくつかの静的混合重量を利用することを言う。パラメトリックレンダリングとは、空間メタデータに基づいて搬送オーディオ信号を変更し、目的の出力を生成することである。

【0064】

様々な入力からアンビソニックを生成する方法が提示されている。

【0065】

５．１．信号からの搬送オーディオ信号と空間メタデータの場合、パラメトリック処理を使用してアンビソニックをレンダリングできる。

【0066】

オーディオ信号や空間的なメタデータを離れたマイクから搬送する場合は、リニア処理とパラメトリック処理の組み合わせを使用することもできる。

【0067】

同時マイクからの搬送音声信号と空間メタデータの場合、線形処理とパラメトリック処理の組合せが使用できる。

【0068】

したがって、様々な種類の入力からアンビソニックをレンダリングするための様々な方法がある。しかし、一定アンビソニックレンダリング方法はすべて、ある種の入力を想定している。以下に説明するいくつかの実施形態は、以下のような問題の発生を防止する装置および方法を示す。

【0069】

線形レンダリングを使用すると、アンビソニックの左向きの１次（８桁）信号であるＹ信号を、Ｙ（ｆ）＝Ｓ_０（ｆ）－Ｓ_１（ｆ）により２つの一致する反対のカーディオイドから作成できる。ここで、ｆは周波数である。別の例として、Ｙ信号は、Ｙ（ｆ）＝－ｉ（Ｓ_０（ｆ）－Ｓ_１（ｆ））ｇ_ｅｑ（ｆ）により作成することができる。ここで、ｇ_ｅｑ（ｆ）は、（マイクロホンの距離に依存する）周波数依存イコライザであり、ｉ虚数単位である。離間して配置されたマイク（－９０度の位相シフトと周波数依存イコライゼーションを含む）の処理は、一致するマイクの処理とは異なり、間違った処理技術を使用すると音質が劣化する可能性がある。

【0070】

一部のレンダリングスキームでパラメトリックレンダリングを使用するには、線形平均を使用して「プロトタイプ」信号を生成する必要がある。これらのプロトタイプ信号は、次に、空間メタデータに基づいて時間周波数領域で適応的に修正される。最適には、プロトタイプ信号はターゲット信号にできるだけ追従する必要がある。これにより、パラメトリック処理の必要性が最小限に抑えられ、したがってパラメトリック処理による潜在的なアーチファクトが最小限に抑えられる。たとえば、プロトタイプ信号には、対応する出力チャンネルに関連するすべての信号成分が十分な範囲で含まれている必要がある。

【0071】

一例として、無指向性信号Ｗがレンダリングされると（同様の効果が他のアンビソニック信号にも存在する）、プロトタイプは、例えば２つの簡単なアプローチで、ステレオ搬送オーディオ信号から作成することができる。１つのチャネル（左チャネルなど）、または、２つのチャネルの合計を選択する。

【0072】

どちらを選択するかは、搬送オーディオ信号のタイプに大きく依存する。搬送信号が５．１信号から発生する場合、通常、左側の信号は左搬送オーディオ信号のみで、右側の信号は右搬送オーディオ信号のみである（一般的なダウンミックスマトリックスを使用する場合）。したがって、プロトタイプに１つのチャネルを使用すると、もう１つのチャネルの信号内容が失われ、明確なアーチファクトが生成される（たとえば、ワーストケースでは、選択された１つのチャネルに信号がまったく存在しない）。したがって、この場合、Ｗプロトタイプは、両方のチャネルの合計として定式化する方が良かった。一方、搬送信号が離れたマイクから発生する場合、Ｗ信号のプロトタイプとして搬送オーディオ信号の合計を使用すると、厳しいコムフィルタリングが発生する（信号間に時間遅延があるため）。これにより、上記と同様のアーチファクトが発生する。この場合、少なくとも高い周波数範囲で、２つのチャンネルのうちの１つのみをＷプロトタイプとして選択した方が良い。

【0073】

したがって、すべての搬送オーディオ信号タイプに適合する適切な選択肢はない。

【0074】

したがって、リニア法とパラメトリック法の両方を用いて、ある搬送オーディオ信号タイプ用に設計された空間オーディオ処理を別の搬送オーディオ信号タイプに適用することは、オーディオ品質の明確な劣化を生み出すことが期待される。

【0075】

以下の実施形態および実施例に関してさらに詳細に論じられるような概念は、デコーダがエンコーダから少なくとも２つの搬送音声信号を受信する場合の音声符号化および復号化に関する。さらに、実施形態は、搬送オーディオ信号が、少なくとも２つのタイプ、例えば、５．１信号のダウンミックス、間隔を置いたマイクロホン信号、または一致するマイクロホン信号であり得る。さらに、いくつかの実施形態では、装置および方法は、搬送オーディオ信号の処理の品質を改善し、決定された出力（例えば、アンビソニック、５．１、モノ）を提供するための解決策を実装する。搬送オーディオ信号のタイプを決定し、決定された搬送オーディオ信号のタイプに基づいてオーディオの処理を実行することにより、品質を改善することができる。

【0076】

本明細書でさらに詳細に論じられるいくつかの実施形態では、搬送オーディオ信号タイプは、搬送オーディオ信号の種類を示すメタデータの取得、または搬送オーディオ信号（および利用可能な場合は空間メタデータ）自体に基づいた搬送オーディオ信号の種類の決定のいずれかによって決定される。

【0077】

搬送オーディオ信号タイプを記述するメタデータは、例えば、間隔のあるマイク（マイクの位置に付随する場合もある）、一致するマイクまたは連桁は、一致するマイク（マイクの方向パターンを伴う可能性がある）と実質的に似ている、マルチチャンネルオーディオ信号（５．１など）からのダウンミックス、の条件を含むことができる。

【0078】

搬送オーディオ信号自体の解析に基づく搬送オーディオ信号タイプの判定は、（異なる方法で）結合する周波数帯またはスペクトル効果を、期待されるスペクトル効果（利用可能な場合は空間メタデータに部分的に基づいて）と比較することに基づくことができる。

【0079】

さらに、いくつかの実施形態においては、オーディオ信号のプロセシングは、アンビソニック（Ａｍｂｉｓｏｎｉｃ）信号のレンダリング、マルチチャンネルオーディオ信号（５．１など）のレンダリング、およびオーディオ信号のより少ない数へのダウンミックスのトランスポートを含むことができる：

【0080】

図２は、いくつかの実施形態を実施するのに適したデコーダ例の概要図を示す。この実施形態は、例えば、「デマルチプレクサ／デコーダ／シンセサイザ」ブロック１３３内で実現することができる。この例では、入力は２つのオーディオチャンネルと空間メタデータを含むメタデータ支援空間オーディオ（ＭＡＳＡ）ストリームである。しかしながら、本明細書で論じるように、入力フォーマットは、任意の適切なメタデータ支援空間オーディオフォーマットであり得る。

【0081】

【0082】

ＭＡＳＡ－アンビソニック信号変換器２０３は、ビットストリームおよび搬送オーディオ信号タイプ２０２（および場合によってはいくつかの追加パラメータ２０４）を受信するように構成され、決定された搬送オーディオ信号タイプ２０２（および可能な追加パラメータ２０４）に基づいて、ＭＡＳＡストリームをアンビソニック信号に変換するように構成される。

【0083】

例の動作は、図３に示すフロー・ダイアグラムに要約される。

【0084】

最初の動作は、ステップ３０１によって図３に示すように、ビットストリーム（ＭＡＳＡストリーム）を受信または取得することの１つである。

【0085】

次の動作は、ステップ３０３によって図３に示されるように、ビットストリームに基づいて搬送オーディオ信号タイプを決定する（そして、タイプ信号またはインジケータおよび可能な他の追加パラメータを生成する）１つである。

【0086】

搬送オーディオ信号タイプを決定した次の動作は、ステップ３０５によって図３に示されるように、決定された搬送オーディオ信号タイプに基づいて、ビットストリーム（ＭＡＳＡストリーム）をアンビソニック信号に変換することである。

【0087】

図４は、一例の搬送オーディオ信号型判定器２０１の概要図を示す。この例では、搬送オーディオ信号タイプ決定子の例が、搬送オーディオ信号タイプがＭＡＳＡストリームで使用可能な場合に適している。

【0088】

この例における搬送オーディオ信号タイプ決定器２０１の例は、搬送オーディオ信号タイプ抽出器４０１を含む。搬送オーディオ信号タイプ抽出器４０１は、ビット（ＭＡＳＡ）ストリームを受信し、ＭＡＳＡストリームからタイプインジケータを抽出（すなわち、読み出しおよび／またはデコード）するように構成される。この種の情報は、例えば、ＭＡＳＡストリームの「チャンネルオーディオフォーマット」フィールドで利用可能である。加えて、追加のパラメータが利用可能であれば、それらも抽出される。この情報は、搬送オーディオ信号タイプ抽出器４０１から出力される。ある実施形態では、搬送オーディオ信号タイプは、「スペース」、「ダウンミックス」、「一致」を含むことができる。いくつかの他の実施形態では、搬送オーディオ信号タイプは、任意の適切な値を含むことができる。

【0089】

図５は、さらなる例としての搬送オーディオ信号タイプ判定器２０１の概要図を示す。この例では、搬送オーディオ信号タイプをＭＡＳＡストリームから直接抽出またはデコードすることはできない。この例では、ＭＡＳＡストリームの解析から搬送オーディオ信号タイプを推定または決定する。いくつかの実施形態におけるこの判定は、異なる搬送オーディオ信号タイプのあるスペクトル効果を明らかにする一組の推定器／エネルギー比較を使用することに基づいている。

【0090】

ある実施形態では、搬送オーディオ信号タイプ決定器２０１は、搬送オーディオ信号および空間メタデータ抽出器／デコーダ５０１を含む。搬送オーディオ信号および空間メタデータ抽出器／復号器５０１は、ＭＡＳＡストリームを受信し、搬送オーディオ信号および空間メタデータをＭＡＳＡストリームから抽出および／または復号するように構成される。得られた搬送オーディオ信号５０２は、時間／周波数変換器５０３に転送することができる。得られた空間メタデータ５２２は、さらに、ターゲット・エネルギーコンパレータ５１１への減算に転送することができる。

【0091】

いくつかの実施形態では、搬送オーディオ信号タイプ判定器２０１は、時間／周波数変換器５０３を含む。時間／周波数変換器５０３は、搬送オーディオ信号５０２を受信し、それらを時間－周波数領域に変換するように構成される。適切な変換は、例えば、短時間フーリエ変換（ＳＴＦＴ）および錯体変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果の信号は、Ｓ_ｉ（ｂ，ｎ）のように表される。ここで、ｉは、チャネル・インデックス、ｂは、周波数ビン・インデックス、および、ｎは、タイムインデックスである。搬送オーディオ信号（抽出器および／またはデコーダからの出力）がすでに時間周波数領域にある状況では、これは省略されてもよいし、あるいはある時間周波数領域表現から別の時間周波数領域表現への変換を含むことができる。Ｔ／Ｆドメイン搬送オーディオ信号５０４は、コンパレータに転送することができる。

【0092】

ある実施形態では、搬送オーディオ信号タイプ決定器２０１は、ブロードバンドＬ／Ｒトータルエネルギー比較器５０５を含む。ブロードバンドＬ／Ｒ対トータルエネルギーコンパレータ５０５は、Ｔ／Ｆドメイン搬送オーディオ信号５０４を受信し、トータル比率パラメータに対してブロードバンドＬ／Ｒを出力するように構成される。

【0093】

ブロードバンドＬ／Ｒからトータルエネルギーコンパレータ５０５内で、ブロードバンドの左、右、およびトータルエネルギーが計算される。

【数1】

ここで、Ｂは、周波数ビンの数である。これらのエネルギーは、例えば、

【数2】

により平滑化される。ここで、ａ_１およびｂ_１は平滑化係数である（例えば、ａ_１＝０．０１およびｂ_１＝１－ａ_１）。次いで、トータルエネルギーコンパレータ５０５に対するブロードバンドＬ／Ｒは、最小の左および右のエネルギーを選択し、スケーリングするように構成される。

【数3】

ここで、乗算器２は、２つのチャネルの合計であるＥ’_{（ｔｏｔａｌ，ｂｂ）}（ｎ）に関するエネルギーを正規化するものである。

【0094】

次いで、ブロードバンドＬ／Ｒ対トータルエネルギーコンパレータ５０５は、次のようにして、ブロードバンドＬ／Ｒ対トータルエネルギー割合５０６を生成することができる。

【数4】

これは、次に、比率５０６として出力される。

【0095】

いくつかの実施形態では、搬送オーディオ信号タイプ判定器２０１は、高周波数Ｌ／Ｒ－トータルエネルギー比較器５０７を含む。高周波数Ｌ／Ｒ－トータルエネルギー比較器５０７は、Ｔ／Ｆドメイン搬送オーディオ信号５０４を受信し、高周波数Ｌ／Ｒ－トータル比率パラメータを出力するように構成される。

【0096】

ブロードバンドＬ／Ｒ－トータルエネルギー比較器５０７内では、高周波数帯域の左、右、およびトータルエネルギーが計算される。

【数5】

ここで、Ｂ_１は、高周波領域が開始するように定義された第１のビンである（その値は適用されたＴ／Ｆ変換に依存し、それは、例えば、６ｋＨｚに対応することができる）。これらのエネルギーは、例えば、

【数6】

により平滑化される。ここで、ａ_２およびｂ_２は平滑化係数である。エネルギー差は、高周波数においてより速いペースで生じ得るので、平滑化係数は、より少ない平滑化を提供するように設定され得る（例えば、ａ_２＝０．１およびｂ_２＝１－ａ_２）。

【0097】

次いで、高周波Ｌ／Ｒ対トータルエネルギー比較器５０７は、左右のエネルギーから小さい方を選択するように構成することができ、その結果は、２で乗算される。

【数7】

【0098】

次いで、高周波Ｌ／Ｒ対トータルエネルギー比較器５０７は、次いで、高周波Ｌ／Ｒ対トータル比率５０８を生成することができる。

【数8】

として出力される。

【0099】

いくつかの実施形態では、搬送オーディオ信号タイプ判定器２０１は、トータルエネルギー比較器５０９を含む。合計対トータルエネルギー比較器５０９に対する総和は、Ｔ／Ｆドメイン搬送オーディオ信号５０４を受信し、トータルエネルギー比率パラメータに対する総和を出力するように構成される。合計対トータルエネルギー比較器５０９への和は、いくつかの周波数において、２つのチャネルが、位相がずれている状況を検出するように構成され、この状況は、特に、間隔を置いたマイクロホン録音に対して典型的な現象である。

【0100】

合計対トータルエネルギー比較器５０９への総和は、総信号のエネルギーと、各周波数ビンに対する総エネルギーとを計算するように構成される。

【数9】

【0101】

これらのエネルギーは、例えば、

【数10】

により平滑化される。ここで、ａ_３およびｂ_３は平滑化係数である（例えば、ａ_３＝０．０１およびｂ_３＝１－ａ_３）。

【0102】

次いで、合計対トータルエネルギー比較器５０９は、最小合計対トータル比率５１０を以下のように計算するように構成される。

【数11】

ここで、Ｂ_２は、この計算が実行される周波数領域の最も高いビンである（この値は、使用されるＴ／Ｆ変換に依存する。例えば、１０ｋＨｚに対応する場合がある）。

【0103】

次いで、合計対トータルエネルギー比較器５０９への合計は、比率χ（ｎ）５１０を出力するように構成される。

【0104】

いくつかの実施形態では、搬送オーディオ信号タイプ判定器２０１は、ターゲット・エネルギー比較器５１１への減算を含む。ターゲット・エネルギーコンパレータ５１１への減算は、Ｔ／Ｆドメイン搬送オーディオ信号５０４および空間メタデータ５２２を受信し、ターゲット・エネルギー比率パラメータ５１２への減算を出力するように構成される。

【0105】

ターゲット・エネルギー比較器５１１への減算は、左右のチャネルの差のエネルギーを計算するように構成される。

【数12】

【0106】

これは、少なくともいくつかの入力信号タイプの場合、アンビソニックのＹ信号の「プロトタイプ」と考えることができる（Ｙ信号は、ダイポールの方向パターンを持ち、左側に正のローブ、右側に負のローブがある）。

【0107】

次いで、ターゲット・エネルギー比較器５１１への減算は、Ｙ信号に対するターゲット・エネルギーＥ_{ｔａｒｇｅｔ}（ｂ，ｎ）を計算するように構成することができる。これは、空間メタデータに基づいて、トータルエネルギーが球面調和間でどのように分散されるべきかを推定することに基づいている。例えば、いくつかの実施形態では、ターゲット・エネルギー比較器５１１への減算は、空間メタデータおよびエネルギー推定値に基づいて目標共分散行列（チャネルエネルギーおよび相互相関）を構築するように構成される。しかし、一部の実施形態では、Ｙ信号のエネルギーのみが推定され、これは目標共分散行列の１つのエントリである。したがって、Ｙのターゲット・エネルギーＥ_{ｔａｒｇｅｔ}（ｂ，ｎ）は、２つの部分から構成される。

【数13】

ここで、Ｅ_{（ｔａｒｇｅｔ，ａｍｂ）}（ｂ，ｎ）は、

【数14】

で定義される、ターゲット・エネルギーのアンビエンス／無指向部分である。ここで、は空間メタデータの０と１の間の直接対トータルエネルギー比率パラメータで、ｃ_ｓｕｒ（ｂ，ｎ）は、空間メタデータの０と１の間のサラウンドコヒーレンス・パラメータである（その場合、陽性と負のローブは互いにキャンセルされるため、サラウンドコヒーレント音はＹダイポールではキャプチャされない）。３による除算は、アンビソニック出力に対してＳＮ３Ｄ正規化スキームを仮定しているためであり、Ｙ成分のアンビエンスエネルギー（ａｍｂｉｅｎｃｅｅｎｅｒｇｙ）は、その場合全オムニエネルギー（ｏｍｉｎｉ－ｅｎｅｒｇｙ）の３分の１である。

【0108】

空間メタデータは、パラメータがいくつかの周波数または時間指標に対して同じであり得るように、ｂ，ｎ毎よりも低い周波数および／または時間分解能であり得ることに留意されたい。

【0109】

このＥ_{（ｔａｒｇｅｔ，ｄｉｒ）}（ｂ，ｎ）は、より指向性の高い部分のエネルギーである。それを定式化するには、空間メタデータのスプレッドコヒーレンスｃ_{ｓｐｒｅａｄ}（ｂ，ｎ）パラメータ０～１の機能としてのスプレッドコヒーレンス分布ベクトルを、

【数15】

のように定義する必要がある。

【0110】

ターゲット・エネルギー比較器５１１への減算は、方位角値のベクトル、

【数16】

を決定するように構成することもできる。ここで、θ（ｂ，ｎ）は、ラジアン単位の空間メタデータの方位値である。ベクトルエントリベースのｓｉｎ（）動作を仮定すると、直接部分ターゲット・エネルギーは、

【数17】

のようになる。

【0111】

したがって、Ｅ_{ｔａｒｇｅｔ}（ｂ，ｎ）が得られる。これらのエネルギーは、いくつかの実施形態において、例えば、

【数18】

平滑化されることが可能である。ここで、ａ_４とｂ_４とは平滑化係数である（例えば、ａ_４＝０．０００４およびｂ_４＝１－ａ_４）。

【0112】

さらに、ターゲット・エネルギー比較器５１１への減算は、次のように最低周波数ビンにおけるエネルギーを使用してターゲット比率５１２への減算を計算するように構成される。

【数19】

これは、出力である。

【0113】

ある実施形態では、搬送オーディオ信号タイプ決定器２０１は、搬送オーディオ信号タイプ（推定メトリックに基づく）決定器５１３を含む。搬送オーディオ信号タイプ決定器５１３は、トータル比率５０６に対するブロードバンドＬ／Ｒ、トータル比率５０８に対する高周波数Ｌ／Ｒ、トータル比率５１０に対する分合計、およびターゲット比率５１２に対する減算を受信し、これらの推定されたメトリックに基づいて搬送オーディオ信号タイプを決定するように構成される。

【0114】

決定は様々な方法で行うことができ、実際の実装は、使用されるＴ／Ｆ変換のように、多くの側面で異なる可能性がある。限定的でない形式の一例は、搬送オーディオ信号タイプ（推定されたメトリックに基づく）決定器５１３が、まず、非メトリックへの変更を計算することである。

【数20】

【0115】

搬送オーディオ信号タイプ（推定メトリックに基づく）決定器５１３は、次に、ダウンミックスメトリックへの変化を計算するように構成することができる。

【数21】

【0116】

搬送オーディオ信号タイプ（推定メトリクスに基づく）決定器５１３は、次いで、これらのメトリクスに基づいて、搬送オーディオ信号が、間隔を置いたマイクロホンから発生するか、またはサラウンドサウンド信号（５．１など）からのダウンミックスであるかを決定することができる。例えば、

【数22】

である。

【0117】

この例では、搬送オーディオ信号タイプ（推定されたメトリックに基づく）決定器５１３は、一致するマイクロホンタイプを検出しない。しかしながら、実際には、Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”タイプに従った処理は、一般に、一致したキャプチャの場合（例えば、左右に向けられたカーディオイドを用いた場合）、良好なオーディオを生成することができる。

【0118】

搬送オーディオ信号タイプ（推定メトリックに基づく）決定器５１３は、次に搬送オーディオ信号タイプを搬送オーディオ信号タイプ２０２として出力するように構成することができる。いくつかの実施形態では、他のパラメータ２０４が出力されてもよい。

【0119】

図６は、図５に示される装置の動作を要約するものであり、したがって、いくつかの実施形態では、第１の動作は、ステップ６０１によって図６に示されるように、ＭＡＳＡストリーム（またはビットストリーム）から搬送オーディオ信号およびメタデータを抽出および／または復号する動作である。

【0120】

次の動作は、ステップ６０３によって図６に示すように、搬送オーディオ信号を時間－周波数領域変換することができる。

【0121】

次に、一連の比較を行うことができる。例えば、ブロードバンドＬ／Ｒエネルギーをトータルエネルギー値と比較することによって、ステップ６０５によって図６に示すようにブロードバンドＬ／Ｒ対トータルエネルギー比率を生成することができる。

【0122】

例えば、高周波数Ｌ／Ｒエネルギーをトータルエネルギー値と比較することによって、ステップ６０７によって、図６に示すように、高周波数Ｌ／Ｒ対トータルエネルギー比率を生成することができる。

【0123】

合計エネルギーをトータルエネルギー値と比較することによって、合計対トータルエネルギー比率は、図６に示すように、ステップ６０９によって生成されてもよい。

【0124】

さらに、ステップ６１１によって、図６に示されるように、減算対ターゲット・エネルギー比率が生成されてもよい。

【0125】

これらのメトリックを決定した後、本方法は、ステップ６１３によって図６に示すように、これらのメトリック比率を解析することによって、搬送オーディオ信号タイプを決定することができる。

【0126】

図７は、ＭＡＳＡからアンビソニックへの変換器２０３の例をさらに詳細に示す。ＭＡＳＡ対アンビソニック変換器２０３は、ＭＡＳＡストリーム（ビットストリーム）および搬送オーディオ信号タイプ２０２および可能な追加パラメータ２０４を受信するように構成され、決定された搬送オーディオ信号タイプに基づいてＭＡＳＡストリームをアンビソニック信号に変換するように構成される。

【0127】

ＭＡＳＡ対アンビソニック変換器２０３は、搬送オーディオ信号および空間メタデータ抽出器／デコーダ５０１を含む。これは、図５に示すように、搬送オーディオ信号タイプ決定器内に見られるのと同じ方法で、ＭＡＳＡストリームを受信し、搬送オーディオ信号５０２および空間メタデータ５２２を出力するように構成される。いくつかの実施形態では、抽出部材／復号器５０１は、搬送音声信号タイプ判定器からの抽出部材／復号器である。得られた搬送オーディオ信号５０２は、時間／周波数変換器５０３に転送することができる。得られた空間メタデータ５２２は、さらに、信号ミキサー７０５に転送することができる。

【0128】

ある実施形態では、ＭＡＳＡ対アンビソニックコンバータ２０３は、時間／周波数変換器５０３を含む。時間／周波数変換器５０３は、搬送オーディオ信号５０２を受信し、それらを時間－周波数領域に変換するように構成される。適切な変換は、例えば、短時間フーリエ変換（ＳＴＦＴ）および錯体変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果の信号は、Ｓ_ｉ（ｂ，ｎ）のように表される。ここで、ｉは、チャネル・インデックス、ｂは、周波数ビン・インデックス、および、ｎは時間インデックスである。オーディオ抽出および／または復号化の出力がすでに時間周波数領域にある場合、このブロックは省略されてもよいし、あるいはある時間周波数領域表現から別の時間周波数領域表現への変換を含むことができる。Ｔ／Ｆドメイン搬送オーディオ信号５０４は、プロトタイプ信号クリエータ７０１に転送することができる。いくつかの実施形態では、時間／周波数変換器５０３は、搬送音声信号タイプ判定器からの同一時間／周波数変換器である。

【0129】

ある実施形態では、ＭＡＳＡ対アンビソニック変換器２０３は、プロトタイプ信号クリエータ７０１を含む。プロトタイプ信号作成器７０１は、Ｔ／Ｆドメイン搬送オーディオ信号５０４、搬送オーディオ信号タイプ２０２、および可能な追加パラメータ２０４を受信するように構成される。次いで、Ｔ／Ｆプロトタイプ信号７０２を信号ミキサー７０５およびデコレレータ（ｄｅｃｏｒｒｅｌａｔｏｒ）７０３に出力することができる。

【0130】

ある実施形態では、ＭＡＳＡ対アンビソニック変換器２０３は、デコレレータ７０３を含む。デコレレータ７０３は、Ｔ／Ｆプロトタイプ信号７０２を受信し、デコレレーション（非相関）を適用し、デコレレーションＴ／Ｆプロトタイプ信号７０４を信号ミキサー７０５に出力するように構成される。いくつかの実施形態において、デコレレータ７０３はオプションである。

【0131】

ある実施形態では、ＭＡＳＡ対アンビソニック変換器２０３は、信号ミキサー７０５を含む。信号ミキサー７０５は、Ｔ／Ｆプロトタイプ信号７０２および非相関Ｔ／Ｆプロトタイプ信号および空間メタデータ５２２を受信するように構成される。

【0132】

プロトタイプ信号作成器７０１は、搬送オーディオ信号タイプに基づいて、アンビソニック（ＦＯＡ／ＨＯＡ）の球面調和関数の各々についてプロトタイプ信号を生成するように構成される。

【0133】

いくつかの実施形態では、プロトタイプ信号作成者７０１は、以下のように動作するように構成される。もしＴ（ｎ）＝“ｓｐａｃｅｄ”であれば、Ｗ信号のプロトタイプを、

【数23】

のように作成することができれば実際には、低周波数の搬送オーディオ信号の平均として作成することができる。

【0134】

実際には、Ｗ_{ｐｒｏｔｏ}（ｂ，ｎ）は、低周波のオーディオ信号を搬送する手段として作成することができる。信号の位相は大まかには同相で、コムフィルタリングは行われない。また、高周波数のチャンネルの１つを選択する。Ｂ_３の値は、Ｔ／Ｆ変換とマイク間の距離によって異なる。距離が不明な場合は、一部のデフォルト値が使用されることがある（１ｋＨｚに対応する値など）。Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”またはＴ（ｎ）＝“ｃｏｉｎｃｉｄｅｎｔ”ならば、Ｗ信号のプロトタイプを次のように作成できる。

【数24】

【0135】

オリジナルのオーディオ信号は、通常、これらの信号タイプとの間に大きな遅延がないと仮定できるため、Ｗ_{ｐｒｏｔｏ}（ｂ，ｎ）は、搬送オーディオ信号を合計することによって作成される。

【0136】

Ｙプロトタイプ信号に関して、もしＴ（ｎ）＝“ｓｐａｃｅｄ”ならば、Ｙ信号のプロトタイプを次のように作成することができる。

【数25】

【0137】

中域周波数（Ｂ_４およびＢ_５との間）では、トランスポート信号を差し引いて位相を－９０度ずらし、イコライジングすることでダイポール信号を作ることができる。したがって、特にマイクロホンの距離が分かっていれば、Ｙ信号の良いプロトタイプとしての役目を果たし、したがってイコライズ係数は適切である。低周波と高周波ではこれは実現不可能であり、プロトタイプ信号は無指向性Ｗ信号の場合と同様に生成される。

【0138】

マイクロホンの距離が正確に分かっている場合、Ｙプロトタイプは、それらの周波数（つまり、Ｙ（ｂ，ｎ）＝Ｙ_{ｐｒｏｔｏ}（ｂ，ｎ））でＹのために直接使用されてもよい。マイクの間隔がわからない場合は、ｇ_ｅｑ（ｂ）＝１を使用することができる。

【0139】

いくつかの実施形態における信号ミキサー７０５は、周波数帯域における利得処理を適用して、潜在的利得平滑化を用いて周波数帯域におけるターゲット・エネルギーに周波数帯域におけるＷ_{ｐｒｏｔｏ}（ｂ，ｎ）のエネルギーを補正することができる。ある周波数帯域における無指向性信号のターゲット・エネルギーは、その周波数帯域における搬送オーディオ信号エネルギーの合計とすることができる。このプロセシングの結果、無指向性信号Ｗ（ｂ，ｎ）が得られる。

【0140】

Ｙ_{ｐｒｏｔｏ}（ｂ，ｎ）をそのままＹ（ｂ，ｎ）に使用できないＹ信号について、周波数がＢ_４とＢ_５の間にある場合は、適応ゲイン処理を行う。この場合は、上記の無指向性Ｗの場合と似ている。プロトタイプシグナルは、潜在的に間違ったスペクトルを除いて、すでにＹダイポールになっている。シグナルミキサーは、周波数帯域でプロトタイプシグナルのゲイン処理を実行する。（さらに、この特定のコンテキストでは、Ｙ信号の非相関処理は必要ない）。利得処理は、空間的メタデータ（方向、比率、他のパラメータ）および周波数帯域における全体的な信号エネルギー推定値（例えば、搬送信号エネルギーの合計）を使用して、Ｙ成分のエネルギーが周波数帯域内にあるべきものを決定し、次いで、決定されたエネルギーである周波数帯域内のプロトタイプ信号のエネルギーを利得で補正し、次いで、その結果が出力Ｙ（ｂ，ｎ）となる。

【0141】

前述のＹ（ｂ，ｎ）を生成する手順は、現在のコンテキストＴ（ｎ）＝“ｓｐａｃｅｄ”ではすべての周波数に対して有効ではない。プロトタイプ信号は異なる周波数で異なるため、信号ミキサーとデコレレータは、このトランスポート信号タイプを持つ周波数に応じて異なる構成になる。異なる種類のプロトタイプ信号を説明するために、Ｙダイポールの負のゲイン方向（陽性と負のローブを持つ）から音が到着するシナリオを考えることができる。中周波（Ｂ_４およびＢ_５の間）では、Ｙプロトタイプ信号の位相は、到来する音のその方向のためであるはずであるので、Ｗプロトタイプ信号の位相とは逆である。他の周波数（Ｂ_４以下およびＢ_５以上）では、プロトタイプＹ信号の位相は、Ｗプロトタイプ信号の位相と同じである。適切な相（およびエネルギーと相関）の合成は、次に、それらの周波数における信号ミキサーおよびデコレレータによって説明される。

【0142】

波長が大きい低周波数（Ｂ_４以下）では、間隔を置いたマイク（通常は互いに若干近い）で取り込んだオーディオ信号間の位相差は小さくなる。したがって、プロトタイプ信号の作成者は、ＳＮＲの理由により、Ｂ_４およびＢ_５間の周波数と同じ方法でプロトタイプ信号を生成するように設定すべきではない。したがって、典型的には、プロトタイプ信号として代わりにチャネル合計無指向性信号が使用される。波長が小さい高周波数（Ｂ_５以上）では、空間エイリアシングによってビームパターンがひどく歪む（とのＢ_４およびＢ_５間の周波数のような方法が使用される場合）。そのため、チャネル選択の無指向性プロトタイプ信号を使用する方が良い。

【0143】

次に、これらの周波数（Ｂ_４以下またはＢ_５以上）での信号ミキサーとデコレレータの構成について説明する。単純な例では、空間メタデータ・パラメータ・設定は、周波数帯域の方位θと比率ｒで構成される。利得ｓｉｎ（θ）ｓｑｒｔ（ｒ）を信号ミキサー内のプロトタイプ信号に適用してＹダイポール信号を生成し、その結果がコヒーレント部分信号となる。プロトタイプ信号も（デコレレータで）非相関化され、非相関化された結果が信号ミキサーで受信される。ここで、係数ｓｑｒｔ（１－ｒ）ｇ_{ｏｒｄｅｒ}で乗算され、結果は非相関部分信号になる。ゲインｇ_{ｏｒｄｅｒ}は、公知のＳＮ３Ｄ正規化方式に従った球調和次数での拡散場ゲインである。例えば、第１オーダーの場合（この場合はＹダイポールの場合）はｓｑｒｔ（１／３）、第２オーダーの場合はｓｑｒｔ（１／５）、第３の場合はｓｑｒｔ（１／７）というようになる。コヒーレント部分信号とインコヒーレント部分信号を加算した。その結果、プロトタイプ信号エネルギーが間違っている可能性があるため、誤ったエネルギーを除いて、合成されたＹ信号が得られる。中周波数（Ｂ_４とＢ_５との間）の文脈で説明されている周波数帯における同じエネルギー補正手順を適用して、周波数帯におけるエネルギーを所望の目標に補正することができ、出力は信号Ｙ（ｂ，ｎ）である。

【0144】

Ｘ、Ｚ成分や２次以上の成分など、他の球面調和に関して、方位に関するゲイン（及び他の潜在的パラメータ）がどの球面調和信号が合成されているかに依存することを除いて、上述の手順を適用することができる。例えば、ＷプロトタイプからＸダイポールコヒーレント部分に対して生成するゲインはｃｏｓ（θ）ｓｑｒｔ（ｒ）である。非相関、割合－処理、エネルギー補正は、Ｂ_４とＢ_５との間の周波数以外のＹ成分に対して上記で決定されたものと同じにすることができる。

【0145】

高度、スプレッドコヒーレンス、サラウンドコヒーレンスなどのその他のパラメータは、上記の手順で考慮できる。スプレッドコヒーレンス・パラメータには、０～１の値を指定できる。コヒーレンス拡散値０は点音源を示す。言い換えれば、マルチラウドスピーカシステムを使用してオーディオ信号を再生する場合、サウンドはできるだけ少ないラウドスピーカ（例えば、方向が中央の場合は中央のラウドスピーカのみ）で再生する必要がある。拡散コヒーレンスの値が増加するにつれて、値０．５になるまで、センターラウドスピーカの周囲の他のラウドスピーカにより多くのエネルギーが拡散され、エネルギーはセンターと隣接するラウドスピーカの間で均等に拡散される。拡散コヒーレンスの値が０．５以上に増加すると、センターラウドスピーカのエネルギーは値１になるまで減少し、センターラウドスピーカにはエネルギーはなく、エネルギーはすべて近隣のラウドスピーカにある。周囲のコヒーレンス・パラメータの値は０～１である。値が１の場合、すべての（またはほぼすべての）ラウドスピーカチャンネル間にコヒーレンスがあることを意味する。値が０の場合、すべての（またはほぼすべての）ラウドスピーカチャンネル間にコヒーレンスがないことを意味する。これについては、ＧＢ出願第１７１８３４１．９、加えて、ＰＣＴ出願ＰＣＴ／ＦＩ２０１８／０５０７８８でさらに説明されている。

【0146】

例えば、増加したサラウンドコヒーレンスは、球面調和成分における合成アンビエンスエネルギーの減少によって実施することができ、エレベーションは、コヒーレント部分の生成におけるアンビソニックパターンの定義にしたがってエレベーション関連利得を加えることによって追加することができる。

【0147】

Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”またはＴ（ｎ）＝“ｃｏｉｎｃｉｄｅｎｔ”であれば、Ｙ信号のプロトタイプを、

【数26】

のように作成できる。

【0148】

この状況では、オリジナルのオーディオ信号は通常これらの信号タイプとの間に有意な遅延を持たないと仮定できるため、位相シフトの必要はない。「混合信号」ブロックに関して、Ｔ（ｎ）＝“ｃｏｉｎｃｉｄｅｎｔ”の場合、ＹとＷのプロトタイプは、（実際の方向性パターンに応じて）場合によってはゲイニング後に、ＹとＷの出力に直接使用されることがある。Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”の場合、Ｙ_{ｐｒｏｔｏ}（ｂ，ｎ）とＷ_{ｐｒｏｔｏ}（ｂ，ｎ）は、Ｙ（ｂ，ｎ）とＷ（ｂ，ｎ）に直接使用することはできない。ただし、Ｔ（ｎ）＝“ｓｐａｃｅｄ”の場合に決定された望ましいターゲットへの周波数帯でのエネルギー補正が必要な場合がある（無指向性成分は到来する音の角度に関わらず、空間ゲイン１となることに留意する）。

【0149】

他の球面調和関数（ＸやＺなど）では、対象信号をうまく再現するプロトタイプを作成することはできない。典型的なダウンミックス信号は、フロントバックＸ軸やトップボトムＺ軸ではなく、左右軸に向いているからである。したがって、いくつかの実施形態では、アプローチは、例えば、無指向性（ｏｍｎｉｄｉｒｅｃｔｉｏｎａｌ）信号のプロトタイプを利用することである。

【数27】

【0150】

同様に、Ｗ_{ｐｒｏｔｏ}（ｂ，ｎ）も同じ理由で高次の高調波に使用される。このような状況での信号ミキサーとデコレレータは、これらの球状調和成分に対して、Ｔ（ｎ）＝“ｓｐａｃｅｄ”の場合と同様の方法で信号を処理することができる。

【0151】

場合によっては、オーディオ再生中に搬送オーディオ信号のタイプが変わることがある（例えば、実際の信号タイプの変更や自動タイプ検出の不完全さなどによる）。急激に変化するタイプによるアーチファクトを避けるために、一部の実施形態におけるプロトタイプ信号を補間することができる。これは、例えば、旧型に応じたプロトタイプ信号から、新型に応じたプロトタイプ信号に単純に直線補間することによって実現されてもよい。

【0152】

信号ミキサーの出力は、得られた時間－周波数領域アンビソニック信号であり、逆Ｔ／Ｆ変圧器７０７に転送される。

【0153】

いくつかの実施形態では、ＭＡＳＡ－アンビソニック信号変換器２０３は、信号を時間領域に変換するように構成された逆数Ｔ／Ｆ変圧器７０７を含む。時間領域アンビソニック信号９０６は、ＭＡＳＡ－アンビソニック信号変換器からの出力である。

【0154】

図８に関して、図７に示す装置の動作の概要を示す。

【0155】

したがって、ある実施形態では、第１の動作は、ステップ８０１によって図８に示すように、ＭＡＳＡストリーム（またはビットストリーム）から搬送オーディオ信号およびメタデータを抽出および／または復号する動作である。

【0156】

次の動作は、ステップ８０３によって図８に示されるように、搬送オーディオ信号を時間－周波数領域変換することができる。

【0157】

次いで、本方法は、時間－周波数領域の搬送信号に基づいてプロトタイプのオーディオ信号を作成し、更に、ステップ８０５によって図８に示されるように、搬送オーディオ信号のタイプ（更に、付加的なパラメータに基づいて）に基づいて、プロトタイプのオーディオ信号を作成することを含む。

【0158】

いくつかの実施形態では、本方法は、ステップ８０７によって図８に示されるように、時間－周波数プロトタイプオーディオ信号上に非相関化を適用するステップを含む。

【0159】

次いで、ステップ８０９によって、図８に示されるように、空間メタデータおよび搬送オーディオ信号タイプに基づいて、相関のない時間－周波数プロトタイプオーディオ信号および時間－周波数プロトタイプオーディオ信号を混合することができる。

【0160】

次いで、混合信号は、ステップ８１１によって、図８に示されるように、逆時間－周波数変換されてもよい。

【0161】

次いで、ステップ８１３によって、図８に示されるように、時間領域信号を出力することができる。

【0162】

図９は、いくつかの実施形態を実施するのに適したデコーダ例の概要図を示す。この実施例は、例えば、図１に示す「デマルチプレクサ／デコーダ／シンセサイザ」ブロック１３３内に実装することができ、この例では、入力は、２つのオーディオチャネルおよび空間メタデータを含むメタデータ支援空間オーディオ（ＭＡＳＡ）ストリームである。しかしながら、本明細書で論じるように、入力フォーマットは、任意の適切なメタデータ支援空間オーディオフォーマットであり得る。

【0163】

（ＭＡＳＡ）ビットストリームは、搬送オーディオ信号タイプ決定器２０１に転送される。搬送オーディオ信号タイプ決定器２０１は、ビットストリームに基づいて搬送オーディオ信号タイプ２０２、および場合によってはいくつかの追加パラメータ２０４（マイクロホン距離など）を決定するように構成される。決定されたパラメータは、ＭＡＳＡからマルチチャネルオーディオ信号変換器９０３に転送される。いくつかの実施形態における搬送オーディオ信号タイプ決定器２０１は、図２に関して上述したのと同じ搬送オーディオ信号タイプ決定器２０１であるか、または、図２に示す例に関して上述したように搬送オーディオ信号タイプ決定器２０１と同様に動作するように構成された搬送オーディオ信号タイプ決定器２０１の別個のインスタンスであり得る。

【0164】

ＭＡＳＡ対マルチチャネルオーディオ信号変換器９０３は、ビットストリームおよび搬送オーディオ信号タイプ２０２（および場合によってはいくつかの追加パラメータ２０４）を受信するように構成され、決定された搬送オーディオ信号タイプ２０２（および可能な追加パラメータ２０４）に基づいて、ＭＡＳＡストリームをマルチチャネルオーディオ信号（５．１など）に変換するように構成される。

【0165】

図９に示す例の動作は、図１０に示すフロー・ダイアグラムにまとめられている。

【0166】

最初の動作は、ステップ３０１によって図１０に示すように、ビットストリーム（ＭＡＳＡストリーム）を受信または取得することの１つである。

【0167】

次の動作は、ステップ３０３によって図１０に示されるように、ビットストリームに基づいて搬送オーディオ信号タイプを決定する（およびタイプ信号またはインジケータおよび可能な他の追加パラメータを生成する）１つの動作である。

【0168】

搬送オーディオ信号タイプを決定したら、次の操作は、ステップ１００５によって図１０に示されるように、決定された搬送オーディオ信号タイプに基づいて、ビットストリーム（ＭＡＳＡストリーム）をマルチチャンネルオーディオ信号（５．１など）に変換することである。

【0169】

図１１は、例示的なＭＡＳＡ－マルチチャネルオーディオ信号変換器９０３を更に詳細に示す。ＭＡＳＡ対マルチチャネルオーディオ信号変換器９０３は、ＭＡＳＡストリーム（ビットストリーム）および搬送オーディオ信号タイプ２０２および可能な追加パラメータ２０４を受信するように構成され、決定された搬送オーディオ信号タイプに基づいてＭＡＳＡストリームをマルチチャネルオーディオ信号に変換するように構成される。

【0170】

ＭＡＳＡ対マルチチャネル音声信号変換器９０３は、搬送音声信号および空間メタデータ抽出器／デコーダ５０１を含む。これは、図５に示すように、また、議論されるように、搬送オーディオ信号タイプ決定器内に見られるのと同じ方法で、ＭＡＳＡストリームを受信し、搬送オーディオ信号５０２および空間メタデータ５２２を出力するように構成される。ある実施形態では、抽出器／復号器５０１は、先に説明した搬送オーディオ信号タイプ決定器からの抽出器／復号器、または抽出器／復号器の別個のインスタンスである。得られた搬送オーディオ信号５０２は、時間／周波数変換器５０３に転送することができる。得られた空間メタデータ５２２は、さらに、ターゲット信号特性決定器１１０１に転送することができる。

【0171】

いくつかの実施形態では、ＭＡＳＡ－マルチチャネル音声信号変換器９０３は、時間／周波数変換器５０３を含む。時間／周波数変換器５０３は、搬送オーディオ信号５０２を受信し、それらを時間－周波数領域に変換するように構成される。適切な変換は、例えば、短時間フーリエ変換（ＳＴＦＴ）および錯体変調直交ミラーフィルタバンク（ＱＭＦ）を含む。その結果、得られた信号をＳ_ｉ（ｂ，ｎ）とする。ここで、ｉはチャンネルインデックス、ｂは周波数ビン・インデックス、ｎは時間インデックスを表す。ここで、は、チャネル・インデックス、周波数ビン・インデックス、および時間インデックスである。オーディオ抽出および／または復号化の出力がすでに時間周波数領域にある場合、このブロックは省略されてもよいし、あるいはある時間周波数領域表現から別の時間周波数領域表現への変換を含むことができる。Ｔ／Ｆドメイン搬送オーディオ信号５０４は、プロトタイプ信号クリエータ１１１１に転送することができる。いくつかの実施形態では、時間／周波数変換器５０３は、搬送音声信号タイプ決定器またはＭＡＳＡ－アンビソニック変換器または別個のインスタンスからの同一時間／周波数変換器である。ある実施形態では、ＭＡＳＡ対マルチチャネルオーディオ信号変換器９０３は、プロトタイプ信号クリエータ１１１１を含む。

【0172】

プロトタイプ信号作成者１１１１は、Ｔ／Ｆドメイン搬送オーディオ信号５０４、搬送オーディオ信号タイプ２０２、および可能な追加パラメータ２０４を受信するように構成される。次いで、Ｔ／Ｆプロトタイプ信号１１１２を信号ミキサー１１０５およびデコレレータ１１０３に出力することができる。

【0173】

プロトタイプ信号作成者１１１１ａの動作に関する一例として、５．１マルチチャネルオーディオ信号構成へのレンダリングについて説明する。この例では、左側（左フロントおよび左サラウンド）出力チャンネルのプロトタイプ信号を

【数28】

のように作成でき、右サイドの出力（右フロントと右サラウンド）チャンネルを

【数29】

のように作成できる。

【0174】

したがって、中央平面の両側への出力チャネルに対して、プロトタイプ信号は、対応する搬送オーディオ信号を直接利用することができる。センター出力チャンネルの場合、プロトタイプのオーディオ信号には左右からのエネルギーが含まれている必要がある。これは、どちらのサイドへのパンにも使用できるからである。したがって、プロトタイプ信号は、アンビソニックレンダリングの場合、全方向チャネルと同じように作成できる。つまり、Ｔ（ｎ）＝“ｓｐａｃｅｄ”の場合、

【数30】

ある実施形態では、プロトタイプのオーディオ信号は、プロトタイプのセンターオーディオチャネルを生成することができる。
Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”またはＴ（ｎ）＝“ｃｏｉｎｃｉｄｅｎｔ”である場合、

【数31】

【0175】

ある実施形態では、ＭＡＳＡ対マルチチャネル音声信号変換器９０３は、デコレレータ１１０３を含む。デコレレータ１１０３は、Ｔ／Ｆプロトタイプ信号１１１２を受信し、デコレレーションを適用し、デコレレーションＴ／Ｆプロトタイプ信号１１０４を信号ミキサー１１０５に出力するように構成される。いくつかの実施形態において、デコレレータ１１０３はオプションである。

【0176】

ある実施形態では、ＭＡＳＡ対マルチチャネルオーディオ信号変換器９０３は、ターゲット信号特性決定器１１０１を含む。一部の実施形態における目標信号特性決定器１１０１は、空間メタデータおよび周波数帯域内の信号エネルギーの全体推定に基づいて、周波数帯域内の目標共分散行列（目標信号特性）を生成するように構成される。いくつかの実施形態では、このエネルギー推定値は、周波数帯における搬送信号エネルギーの合計とすることができる。このターゲット共分散行列（ターゲット信号特性）判定は、特許出願ＧＢ１７１８３４１．９によって提供されるのと同様の方法で実行することができる。

【0177】

次に、ターゲット信号特性１１０２を信号ミキサー１１０５に渡すことができる。

【0178】

ある実施形態では、ＭＡＳＡ対マルチチャネルオーディオ信号変換器９０３は、信号ミキサー１１０５を含む。信号ミキサー１１０５は、プロトタイプ信号の共分散行列を測定するように構成され、推定された（プロトタイプ信号）共分散行列および目標共分散行列に基づいてミクシングソリューションを定式化する。いくつかの実施形態において、ミクシングソリューションは、ＧＢ１７１８３４１．９に記載されているものと同様であり得る。ミクシングソリューションをプロトタイプ信号と非相関プロトタイプ信号に適用し、得られた信号を目標信号特性に基づいて周波数帯域特性で得た。つまり、決定された目標共分散行列に基づいている。いくつかの実施形態では、ＭＡＳＡ－マルチチャネル音声信号変換器９０３は、信号を時間領域に変換するように構成された逆数Ｔ／Ｆ変圧器７０７を含む。時間領域マルチチャネルオーディオ信号は、ＭＡＳＡからマルチチャネルオーディオ信号変換器への出力である。

【0179】

図１２に関して、図１１に示す装置の動作の概要を示す。

【0180】

したがって、ある実施形態では、第１の動作は、ステップ８０１によって図１２に示すように、ＭＡＳＡストリーム（またはビットストリーム）から搬送オーディオ信号およびメタデータを抽出および／または復号する動作である。

【0181】

次の動作は、ステップ８０３によって図１２に示されるように、搬送オーディオ信号を時間－周波数領域変換することができる。

【0182】

次いで、本方法は、時間－周波数領域の搬送信号に基づいてプロトタイプのオーディオ信号を作成し、さらに、ステップ１２０５によって、図１２に示されるように、搬送オーディオ信号のタイプ（さらに、追加のパラメータに基づいて）に基づいて、プロトタイプのオーディオ信号を作成するステップを含む。

【0183】

いくつかの実施形態では、本方法は、ステップ１２０７によって、図１２に示されるように、時間－周波数プロトタイプオーディオ信号上に非相関化を適用するステップを含む。

【0184】

次いで、ステップ１２０８によって、図１２に示されるように、時間－周波数領域搬送オーディオ信号および空間メタデータ（ターゲット信号の共分散行列を生成するために）に基づいて、ターゲット信号特性を決定することができる。

【0185】

プロトタイプのオーディオ信号の共分散行列は、ステップ１２０９までに図１２に示すように測定することができる。

【0186】

次いで、ステップ１２０９によって、図１２に示されるように、非相関時間－周波数プロトタイプオーディオ信号および時間－周波数プロトタイプオーディオ信号を、目標信号特性に基づいて混合することができる。

【0187】

次いで、混合信号は、ステップ１２１１によって、図１２に示されるように、逆時間－周波数変換されてもよい。

【0188】

次いで、時間領域信号は、ステップ１２１３によって、図１２に示されるように出力され得る。

【0189】

図１３は、いくつかの実施形態を実現するのに適したさらなる例のデコーダの概要図を示す。他の実施形態では、同様の方法は、例えばエンコーダの一部として、デコーダ以外の装置で実施することができる。この実施例は、例えば、図１に示すように、（ＩＶＡＳ）デマルチプレクサ／デコーダ／シンセサイザブロック１３３内に実装することができ、この例では、入力は、２つのオーディオチャネルおよび空間メタデータを含むメタデータ支援空間オーディオ（ＭＡＳＡ）ストリームである。しかしながら、本明細書で論じるように、入力フォーマットは、任意の適切なメタデータ支援空間オーディオフォーマットであり得る。

【0190】

（ＭＡＳＡ）ビットストリームは、搬送オーディオ信号タイプ決定器２０１に転送される。搬送オーディオ信号タイプ決定器２０１は、搬送オーディオ信号タイプ２０２、および場合によってはいくつかの追加パラメータ２０４（このような追加パラメータの一例は、マイクロホン距離）をビットストリームに基づいて決定するように構成される。決定されたパラメータは、ダウンミキサー１３０３に転送される。いくつかの実施形態における搬送オーディオ信号タイプ決定器２０１は、上述したように同じ搬送オーディオ信号タイプ決定器２０１であるか、上述したように搬送オーディオ信号タイプ決定器２０１と同様に動作するように構成された搬送オーディオ信号タイプ決定器２０１の別個のインスタンスであり得る。

【0191】

ダウンミキサー１３０３は、ビットストリームおよび搬送オーディオ信号タイプ２０２（および場合によってはいくつかの追加パラメータ２０４）を受信するように構成され、決定された搬送オーディオ信号タイプ２０２（および可能な追加パラメータ２０４）に基づいて、２つの搬送オーディオ信号から１つの搬送オーディオ信号にＭＡＳＡストリームをダウンミックスするように構成される。次に、出力ＭＡＳＡストリーム１３０６が出力される。

【0192】

図１３に示す例の動作は、図１４に示すフロー・ダイアグラムにまとめられている。

【0193】

最初の動作は、ステップ３０１によって図１４に示されるように、ビットストリーム（ＭＡＳＡストリーム）を受信または取得することである。

【0194】

次の動作は、ステップ３０３によって図１４に示されるように、ビットストリームに基づいて搬送オーディオ信号タイプを決定する（そして、タイプ信号またはインジケータおよび可能な他の追加パラメータを生成する）ことである。

【0195】

搬送オーディオ信号のタイプを決定した後、次の動作は、ステップ１４０５によって図１４に示されるように、決定された搬送オーディオ信号のタイプ２０２（および可能な追加パラメータ２０４）に基づいて、２つの搬送オーディオ信号から１つの搬送オーディオ信号へのＭＡＳＡストリームをダウンミックスする。

【0196】

図１５は、ダウンミキサー１３０３の一例をさらに詳細に示す。ダウンミキサー１３０３は、ＭＡＳＡストリーム（ビットストリーム）および搬送オーディオ信号タイプ２０２および可能な追加パラメータ２０４を受信するように構成され、決定された搬送オーディオ信号タイプに基づいて、２つの搬送オーディオ信号を１つの搬送オーディオ信号にダウンミックスするように構成される。

【0197】

ダウンミキサー１３０３は、搬送オーディオ信号および空間メタデータ抽出器／デコーダ５０１を含む。これは、ＭＡＳＡストリームを受信し、そこで議論されている搬送オーディオ信号タイプ決定器内に見られるのと同じ方法で搬送オーディオ信号５０２および空間メタデータ５２２を出力するように構成される。ある実施形態では、抽出器／復号器５０１は、先に説明した抽出器／復号器、または抽出器／復号器の別個のインスタンスである。得られた搬送オーディオ信号５０２は、時間／周波数変換器５０３に転送することができる。得られた空間メタデータ５２２は、さらに、信号マルチプレクサ１５０７に転送することができる。

【0198】

いくつかの実施形態では、ダウンミキサー１３０３は、時間／周波数変換器５０３を含む。時間／周波数変換器５０３は、搬送オーディオ信号５０２を受信し、それらを時間－周波数領域に変換するように構成される。適切な変換は、例えば、短時間フーリエ変換（ＳＴＦＴ）および錯体変調直交ミラーフィルタバンク（ＱＭＦ）を含む。結果の信号は、Ｓ_ｉ（ｂ，ｎ）のように表される。ここで、は、チャネル・インデックス、周波数ビン・インデックス、および時間インデックスである。オーディオ抽出および／または復号化の出力がすでに時間周波数領域にある場合、このブロックは省略されてもよいし、あるいはある時間周波数領域表現から別の時間周波数領域表現への変換を含むことができる。Ｔ／Ｆドメイン搬送オーディオ信号５０４は、プロトタイプ信号作成器１５１１に転送することができる。いくつかの実施形態では、時間／周波数変換器５０３は、先に説明したものと同じ時間／周波数変換器、または別個のインスタンスである。

【0199】

いくつかの実施形態において、ダウンミキサー１３０３は、プロトタイプ信号作成器１５１１を含む。プロトタイプ信号作成器１５１１は、Ｔ／Ｆドメイン搬送オーディオ信号５０４、搬送オーディオ信号タイプ２０２、および可能な追加パラメータ２０４を受信するように構成される。次いで、Ｔ／Ｆプロトタイプ信号１５１２をプロトエネルギー決定器１５０３に出力し、プロトタイプ信号をターゲット・エネルギーコライザ１５０５に整合させることができる。

【0200】

一部の実施形態におけるプロトタイプ信号作成者１５１１は、受信した搬送オーディオ信号タイプに基づいて、２つの搬送オーディオ信号を使用して、モノ搬送オーディオ信号のプロトタイプ信号を作成するように構成される。例えば、以下を使用することができる。Ｔ（ｎ）＝“ｓｐａｃｅｄ”である場合、

【数32】

である。
Ｔ（ｎ）＝“ｄｏｗｎｍｉｘ”またはＴ（ｎ）＝“ｃｏｉｎｃｉｄｅｎｔ”である場合、

【数33】

である。

【0201】

いくつかの実施形態において、ダウンミキサー１３０３は、ターゲット・エネルギー決定器１５０１を含む。ターゲット・エネルギー決定器１５０１は、Ｔ／Ｆドメイン搬送オーディオ信号５０４を受信し、搬送オーディオ信号のエネルギーの合計としてターゲット・エネルギー値

【数34】

を生成するように構成される。

【0202】

ターゲット・エネルギー値は、次に、対象イコライザ１５０５に一致するようにプロトにパスすることができる。

【0203】

いくつかの実施形態では、ダウンミキサー１３０３は、プロトエネルギー決定器１５０３を含む。プロトエネルギー決定器１５０３は、Ｔ／Ｆプロトタイプ信号１５１２を受信し、例えば、

【数35】

のようにエネルギー値を決定するように構成される。

【0204】

次に、プロトエネルギー値をプロトに渡して、対象イコライザ１５０５に一致させることができる。

【0205】

いくつかの実施形態におけるダウンミキサー１３０３は、ターゲット・エネルギーコライザ１５０５に一致するプロトを含む。いくつかの実施形態におけるターゲット・エネルギーコライザ１５０５に一致させるためのプロトは、Ｔ／Ｆプロトタイプ信号１５０２、プロトエネルギー値、およびターゲット・エネルギー値を受信するように構成される。いくつかの実施形態におけるイコライザ１５０５は、まず、例えば、

【数36】

を用いて、時間の経過とともにエネルギーを平滑化するように構成される。ここで、ａ_５とｂ_５とは平滑化係数である（例えば、ａ_５＝０．１およびｂ_５＝１－ａ_５）。次に、イコライザ１５０５は、

【数37】

のようにしてイコライゼーションゲインを決定するように構成される。

【0206】

次いで、プロトタイプ信号は、次のようなこれらの利得を用いてイコライズすることができる。

【数38】

イコライズされたプロトタイプ信号は逆Ｔ／Ｆ変圧器７０７に渡される。

【0207】

いくつかの実施形態では、ダウンミキサー１３０３は、イコライザの出力を時間領域バージョンに変換するように構成された逆数Ｔ／Ｆ変圧器７０７を含む。次いで、時間領域イコライズオーディオ信号（モノラル信号）１５１０は、搬送オーディオ信号および空間メタデータマルチプレクサ１５０７（またはマルチプレクサ）に渡される。

【0208】

いくつかの実施形態では、ダウンミキサー１３０３は、搬送オーディオ信号および空間メタデータマルチプレクサ１５０７（またはマルチプレクサ）を含む。搬送オーディオ信号および空間メタデータマルチプレクサ１５０７（またはマルチプレクサ）は、空間メタデータ５２２およびモノオーディオ信号１５１０を受信し、それらを多重化して、適切な出力フォーマット（たとえば、１つの搬送オーディオ信号のみを有するＭＡＳＡストリーム）１５０６を再生成するように構成される。一部の実施形態では、入力モノラルオーディオ信号は、パルス符号変調（ＰＣＭ）形式である。このような実施形態では、信号は、多重化されるだけでなく、符号化されてもよい。いくつかの実施形態では、多重化は省略されてもよく、モノ搬送オーディオ信号および空間メタデータは、オーディオエンコーダで直接使用される。

【0209】

ある実施形態では、図１５に示す装置の出力は、空間メタデータが破棄されるモノＰＣＭオーディオ信号１５１０である。

【0210】

いくつかの実施形態では、他のパラメータを実装することができ、例えば、いくつかの実施形態では、タイプが「間隔を置いて」いる場合に、間隔を置いたマイクロホン距離を推定することができる。

【0211】

図１６に関して、図１５に示される装置の一例の動作が示される。

【0212】

したがって、ある実施形態では、第１の動作は、ステップ１６０１によって図１６に示すように、ＭＡＳＡストリーム（またはビットストリーム）から搬送オーディオ信号およびメタデータを抽出および／または復号する動作である。

【0213】

次の動作は、ステップ１６０３によって図１６に示されるように、搬送オーディオ信号の時間－周波数領域変換であり得る。

【0214】

次いで、本方法は、時間－周波数領域の搬送信号に基づいてプロトタイプのオーディオ信号を作成し、さらに、ステップ１６０５によって、図１６に示されるように、搬送オーディオ信号のタイプ（さらに、追加のパラメータに基づいて）に基づいて、プロトタイプのオーディオ信号を作成するステップを含む。

【0215】

さらに、いくつかの実施形態では、方法は、ステップ１６０４によって図１６に示されるように、変換された搬送オーディオ信号に基づいて、ターゲット・エネルギー値を生成、決定、または計算するように構成される。

【0216】

さらに、いくつかの実施形態では、方法は、ステップ１６０６によって、図１６に示されるように、プロトタイプのオーディオ信号エネルギー値に基づいて、プロトタイプのオーディオ信号エネルギー値を生成、決定、または計算するように構成される。

【0217】

エネルギーを決定した後、本方法は、ステップ１６０７によって、図１６に示されるように、ターゲットオーディオ信号エネルギーに一致するように、プロトタイプオーディオ信号をさらにイコライズすることができる。

【0218】

次いで、イコライズされたプロトタイプ信号（モノ信号）は、ステップ１６０９によって、図１６に示されるように、時間領域モノ信号を生成するために、逆時間－周波数領域変換されてもよい。

【0219】

次いで、ステップ１６１０によって、図１６に示すように、時間領域モノラルオーディオ信号を空間メタデータと（任意に符号化し、多重化してもよい）。

【0220】

次に、ステップ１６１１によって図１６に示すように、多重化されたオーディオ信号を（ＭＡＳＡデータストリームとして）出力することができる。

【0221】

上述したように、示されたブロック図は、可能な実装の一例にすぎない。他の実用的な実装は、上記の例とは異なる可能性がある。例えば、実装は、個別のＴ／Ｆ変換器を持たないことがある。

【0222】

さらに、上に示したような入力ＭＡＳＡストリームを有するのではなく、いくつかの実施形態では、オーディオチャネルおよび（空間）メタデータを利用する任意の適切なビットストリームを使用することができる。さらに、いくつかの実施形態では、ＩＶＡＳコーデックは、任意の他の適切なコーデック（例えば、オーディオチャネルおよび空間メタデータの動作モードを有するもの）に置き換えることができる。

【0223】

いくつかの実施形態では、搬送オーディオ信号タイプ決定器を使用して、搬送オーディオ信号タイプ以外のパラメータを推定することができる。例えば、マイクロホンの間隔を推定することができる。マイクロホンの間隔は、可能な追加パラメータ２０４の一例である。これは、いくつかの実施形態において、Ｅ_ｓｕｍ（ｂ，ｎ）およびＥ_ｓｕｂ（ｂ，ｎ）の極大と極小の周波数を検査し、それらに基づいてマイクロホン間の時間遅延を決定し、遅延と推定到着方向（空間メタデータにおいて利用可能）に基づいて間隔を推定することによって、実現することができる。また、２つの信号間の遅延を推定する方法もある。

【0224】

図１７に関して、解析装置または合成装置として使用され得る電子装置の例が示されている。この装置は、任意の適切な電子装置または装置とすることができる。例えば、ある実施形態では、装置１７００は、モバイル装置、ユーザ装置、タブレットコンピュータ、コンピュータ、オーディオ再生装置等である。

【0225】

ある実施形態では、装置１７００は、少なくとも１つのプロセッサまたは中央処理ユニット１７０７を含む。プロセッサ１７０７は、本明細書に記載するような方法のような様々なプログラムコードを実行するように構成することができる。

【0226】

ある実施形態では、装置１７００はメモリ１７１１を含む。ある実施形態では、少なくとも１つのプロセッサ１７０７は、メモリ１７１１に結合される。メモリ１７１１は、任意の適切な記憶手段とすることができる。ある実施形態では、メモリ１７１１は、プロセッサ１７０７上に実装可能なプログラムコードを格納するためのプログラムコード・セクションを含む。さらに、いくつかの実施形態では、メモリ１７１１は、例えば、本明細書に記載する実施形態にしたがって処理された、または処理されるべきデータを記憶するための記憶データ・セクションをさらに含むことができる。プログラムコード・セクション内に記憶された実施されたプログラムコードおよび記憶されたデータ・セクション内に記憶されたデータは、メモリ・プロセッサ結合を介して必要なときにいつでもプロセッサ１７０７によって検索することができる。

【0227】

ある実施形態では、装置１７００は、ユーザインターフェース１７０５を含む。ユーザインターフェース１７０５は、いくつかの実施形態において、プロセッサ１７０７に結合することができる。ある実施形態では、プロセッサ１７０７は、ユーザインターフェース１７０５の動作を制御し、ユーザインターフェース１７０５から入力を受信することができる。ある実施形態では、ユーザインターフェース１７０５は、ユーザが、例えばキーパッドを介して、装置１７００にコマンドを入力することを可能にすることができる。ある実施形態では、ユーザインターフェース１７０５は、ユーザが装置１７００から情報を取得することを可能にすることができる。例えば、ユーザインターフェース１７０５は、装置１７００からユーザに情報を表示するように構成されたディスプレイを含むことができる。ユーザインターフェース１７０５は、ある実施形態では、情報を装置１７００に入力することを可能にし、装置１７００のユーザに情報をさらに表示することの両方が可能なタッチスクリーンまたはタッチインターフェースを備えることができる。いくつかの実施形態において、ユーザインターフェース１７０５は、本明細書に記載するように、位置決定器と通信するためのユーザインターフェースであり得る。

【0228】

ある実施形態では、装置１７００は、入出力ポート１７０９を含む。いくつかの実施形態における入出力ポート１７０９は、トランシーバを含む。このような実施形態のトランシーバは、プロセッサ１７０７に結合され、例えば無線通信ネットワークを介して、他の装置または電子装置との通信を可能にするように構成されることができる。トランシーバまたは任意の適切なトランシーバまたはトランスミッタおよび／またはレシーバ手段は、一部の実施形態では、ワイヤまたは有線結合を介して他の電子装置または装置と通信するように構成することができる。

【0229】

トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態では、トランシーバは、適切なユニバーサル移動通信システム（ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘのような無線ローカルエリアネットワーク（ＷＬＡＮ）プロトコル、ブルートゥース（Ｂｌｕｅｔｏｏｔｈ）（登録商標））のような適切な短距離無線周波数通信プロトコル、または赤外線データ通信経路（ＩＲＤＡ）を使用することができる。

【0230】

トランシーバ入出力ポート１７０９は、信号を受信するように、および、いくつかの実施形態では、適切なコードを実行するプロセッサ１７０７を使用することによって、本明細書に記載するようにパラメータを決定するように構成されてもよい。

【0231】

いくつかの実施形態では、装置１７００は、合成装置の少なくとも一部として採用されてもよい。入出力ポート１７０９は、任意の適切なオーディオ出力、例えば、マルチチャンネルスピーカーシステムおよび／またはヘッドホン（これは、ヘッドトラッキングされたヘッドホンまたは追跡されていないヘッドホンであり得る）または同様のものに結合することができる。

【0232】

一般に、本発明の様々な実施形態は、ハードウェアまたは特殊目的回路、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実現することができる。例えば、いくつかの態様は、ハードウェアで実施されてもよいが、本発明はこれに限定されないが、コントローラ、マイクロプロセッサまたは他の計算装置によって実行されてもよいファームウェアまたはソフトウェアで実施されてもよい。本発明の様々な態様は、ブロック図、フロー図、または何らかの他の絵表示として図示および説明することができるが、本明細書に記載するこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊目的回路または論理、汎用ハードウェアまたはコントローラ、または他の計算装置、またはそれらの組み合わせで実装することができることが、よく理解される。

【0233】

本発明の実施形態は、プロセッサエンティティ内などのモバイル装置のデータプロセッサによって実行可能なコンピュータソフトウェアによって、またはハードウェアによって、あるいはソフトウェアとハードウェアの組み合わせによって実行可能なコンピュータソフトウェアによって実現することができる。さらに、図のような論理フローの任意のブロックは、プログラムステップ、または相互接続された論理回路、ブロックおよび機能、またはプログラムステップおよび論理回路、ブロックおよび機能の組み合わせを表すことができることに留意されたい。このソフトウェアは、メモリチップなどの物理メディア、またはプロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピー（登録商標）ディスクなどの磁気メディア、およびたとえばＤＶＤやそのデータ変異体などの光学メディアに格納することができる。

【0234】

メモリは、ローカル技術環境に適した任意のタイプでよく、半導体ベースのメモリデバイス、磁気メモリデバイスおよびシステム、光メモリデバイスおよびシステム、固定メモリおよび取り外し可能メモリなどの任意の適切なデータ記憶技術を使用して実施することができる。データプロセッサは、ローカル技術環境に適した任意のタイプでよく、限定されない例として、汎用コンピュータ、特殊目的コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ、特定用途向け集積回路（ＡＳＩＣ）、ゲートレベル回路、およびマルチコアプロセッサキテクチャに基づくプロセッサのうちの１つ以上を含むことができる。

【0235】

本発明の実施形態は、集積回路モジュールなどの様々な部品において実施可能である。集積回路の設計は、高度に自動化された処理によるものであり、大規模である。論理レベルの設計を、エッチングされ、半導体基板上に形成される準備ができているの整った半導体回路設計に変換するための、複雑で強力なソフトウェアツールが利用可能である。

【0236】

カリフォルニア州マウンテンビューにあるシノプシス社（Ｓｙｎｏｐｓｙｓ、Ｉｎｃ）およびカリフォルニア州サンノゼにあるケイデンスデザイン社（ＣａｄｅｎｃｅＤｅｓｉｇｎ）から提供されているようなプログラムは、設計の十分に確立されたルール、及び予め記憶された設計モジュールのライブラリを用いて、導体を自動的にルーティングし、半導体チップ上の部品の位置を特定する。半導体回路の設計が完了すると、結果として得られた設計は、標準化された電子フォーマット（例えば、Ｏｐｕｓ、ＧＤＳＩＩ等）で、半導体製造設備または製造のための「ｆａｂ」に伝送され得る。

【0237】

上述の説明は、本発明の例示的な実施形態の完全かつ参考的な説明を例示的な例および非限定的な例によって提供したものである。しかしながら、添付の図面および付随の請求項を熟読する際に、前述の説明を考慮して、種々の修正および適合が、当業者に明白になるであろう。しかしながら、この発明の教示のこのような変更および類似した変更のすべては、引き続き、添付のクレームに定義されている本発明の範囲内に収まるであろう。

【図1】