(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-23
(54)【発明の名称】バイノーラル信号の後処理
(51)【国際特許分類】
H04S 7/00 20060101AFI20240116BHJP
【FI】
H04S7/00 300
H04S7/00 340
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023536843
(86)(22)【出願日】2021-12-16
(85)【翻訳文提出日】2023-06-16
(86)【国際出願番号】 US2021063878
(87)【国際公開番号】W WO2022133128
(87)【国際公開日】2022-06-23
(32)【優先日】2020-12-17
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2021-03-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ブレーバールト,ディルク イェルーン
(72)【発明者】
【氏名】チェンガルレ,ジュリオ
(72)【発明者】
【氏名】ブラウン,シー. フィリップ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162AA07
5D162BA07
5D162CA01
5D162CA05
5D162CA11
5D162CB12
5D162CB16
5D162CD07
5D162CD25
5D162DA27
5D162DA28
(57)【要約】
音声処理の方法は、バイノーラル音声信号に対してオブジェクト抽出を実行して、主成分信号と残差成分信号を生成するステップを含む。システムは、異なる処理パラメータを使用して主成分と残差成分を処理し、改善された聴取体験を提供する処理済みバイノーラル信号を生成することができる。
【特許請求の範囲】
【請求項1】
コンピュータによって実施されるオーディオ処理の方法であって、
バイノーラル信号に信号変換を実行するステップであって、前記信号変換を実行するステップは、
前記バイノーラル信号を第1信号ドメインから第2信号ドメインに変換するステップと、
変換されたバイノーラル信号を生成するステップであって、前記第1信号ドメインが時間ドメインであり、第2信号ドメインが周波数ドメインであるステップと、
を含むステップと、
前記変換されたバイノーラル信号に対して空間分析を実行するステップであって、前記空間分析を実行するステップは、複数の推定されたレンダリングパラメータを生成するステップを含み、前記複数の推定されたレンダリングパラメータは、複数のレベル差と複数の位相差を含む、ステップと、
前記複数の推定されたレンダリングパラメータの少なくとも第1サブセットを使用して、前記変換されたバイノーラル信号から複数の推定されたオブジェクトを抽出するステップであって、前記複数の推定されたオブジェクトを抽出するステップは、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号を生成するステップを含む、ステップと、
前記複数の推定されたレンダリングパラメータの少なくとも第2サブセットを使用して、前記複数の推定されたオブジェクトに対してオブジェクト処理を実行するステップであって、前記オブジェクト処理を実行するステップは、左主成分信号、右主成分信号、左残残差成分信号、及び右残差成分信号に基づいて処理済み信号を生成するステップを含む、ステップと、
を含む方法。
【請求項2】
前記オブジェクト処理が、再配置、レベル調整、イコライゼーション、ダイナミックレンジ調整、デッシング、マルチバンド圧縮、没入性向上、エンベロープ、アップミックス、変換、チャネル再マッピング、記憶、及びアーカイブのうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項3】
前記処理済み信号を生成するステップは、
オブジェクト処理パラメータの第1セットを使用して、前記左主成分信号と前記右主成分信号から左主処理済み信号と右主処理済み信号を生成するステップと、
オブジェクト処理パラメータの第2セットを使用して、前記左残差成分信号と右残差成分信号から左残差処理済み信号と右残差処理済み信号を生成するステップであって、オブジェクト処理パラメータの前記第2セットは、オブジェクト処理パラメータの前記第1セットとは異なる、ステップと、
を含む、請求項1に記載の方法。
【請求項4】
センサからセンサデータを受信するステップであって、前記センサは、ヘッドセット、ヘッドフォン、イヤホン及びマイクのうちの少なくとも1つの構成要素である、ステップ、を更に含み、
前記オブジェクト処理を実行するステップは、前記センサデータに基づいて前記処理済み信号を生成するステップを含む、請求項1に記載の方法。
【請求項5】
前記オブジェクト処理を実行するステップは、
前記センサデータに基づいて、前記左主成分信号及び前記右主成分信号にバイノーラルパンニングを適用するステップであって、前記バイノーラルパンニングを適用するステップは、左主処理済み信号及び右主処理済み信号を生成するステップを含む、ステップと、
前記バイノーラルパンニングを適用せずに、前記左残差成分信号及び前記右残差成分信号から、左残差処理済み信号及び右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項6】
前記オブジェクト処理を実行するステップは、
前記左主成分信号及び前記右主成分信号からモノラルオブジェクトを生成するステップと、
前記センサデータに基づいて、前記モノラルオブジェクトにバイノーラルパンニングを適用するステップと、
前記バイノーラルパンニングを適用せずに、前記左残差成分信号及び前記右残差成分信号から、左残差処理済み信号及び右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項7】
前記オブジェクト処理を実行するステップは、
前記左主成分信号、前記右主成分信号、前記左残差成分信号及び前記右残差成分信号からマルチチャネル出力信号を生成するステップを含み、
前記マルチチャネル出力信号は、少なくとも1つの左チャネル及び少なくとも1つの右チャネルを含み、前記少なくとも1つの左チャネルは、フロント左チャネル、サイド左チャネル、リア左チャネル及び左高さチャネルの少なくとも1つを含み、前記少なくとも1つの右チャネルは、フロント右チャネル、サイド右チャネル、リア右チャネル及び右高さチャネルの少なくとも1つを含む、請求項1に記載の方法。
【請求項8】
前記オブジェクト処理を実行するステップは、
前記左主成分信号及び前記右主成分信号に音声向上処理を適用するステップであって、前記音声向上処理を適用するステップは、左主処理済み信号及び右主処理済み信号を生成するステップを含む、ステップと、
前記音声向上処理を適用せずに、前記左残差成分信号から左残差処理済み信号を及び前記右残差成分信号から右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項9】
前記処理済み信号を生成するステップは、
第1レベル調整値を用いて前記左主成分信号と前記右主成分信号にレベル調整を適用するステップであって、前記レベル調整を適用するステップは、左主処理済み信号と右主処理済み信号を生成するステップを含む、ステップと、
第2レベル調整値を用いて前記左残成分信号と前記右残成分信号にレベル調整を適用するステップであって、前記レベル調整を適用するステップは、左残処理済み信号と右残処理済み信号を生成するステップを含み、前記第2レベル調整値が前記第1レベル調整値と異なる、ステップと、
を含む、請求項1に記載の方法。
【請求項10】
前記信号変換が時間-周波数変換であり、前記変換されたバイノーラル信号が、所与の期間にわたって変換された複数の時間周波数タイルを含み、
前記空間分析が、前記複数の時間周波数タイルの各々に対して実行され、
前記複数の時間周波数タイルの所与の時間周波数タイルが、前記複数の推定されたレンダリングパラメータの所与のサブセットに関連付けられる、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記複数の推定されたレンダリングパラメータが、頭部関連伝達関数、頭部関連インパルス応答、及びバイノーラルルームインパルス応答の少なくとも1つに対応する、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記複数の位相差が複数のアンラップされた位相差であり、前記複数のアンラップされた位相差が、証拠に基づくアンラッピング及びモデルに基づくアンラッピングの少なくとも1つを実行することによってアンラップされる、請求項1から11のいずれか一項に記載の方法。
【請求項13】
前記証拠に基づくアンラッピングを実行するステップは、
各帯域において、前記左主成分信号と前記右主成分信号の総エネルギを推定するステップと、
各帯域に基づく相互相関を計算するステップと、
前記相互相関に基づく近隣の帯域に渡るエネルギに従って、複数の候補位相差から前記複数のアンラップされた位相差を選択するステップと、
を含む、請求項12に記載の方法。
【請求項14】
前記モデルに基づくアンラッピングを実行するステップは、
所与の帯域の頭部関連伝達関数に適用される所与のレベル差に従って、複数の候補位相差から前記複数のアンラップされた位相差を選択するステップを含む、請求項12に記載の方法。
【請求項15】
前記複数の位相差の所与の位相差が、前記第2信号ドメインにおける所与のインデックスについて、前記変換されたバイノーラル信号の左成分と前記変換されたバイノーラル信号の右成分の内積の位相角として計算される、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記複数のレベル差の所与のレベル差が、前記変換されたバイノーラル信号の左成分、前記変換されたバイノーラル信号の右成分、及び前記複数の位相差の所与のうちの位相差に基づく2次方程式に従い計算される、請求項1から15のいずれか一項に記載の方法。
【請求項17】
前記左主処理済み信号、前記右主処理済み信号、前記左残差処理済み信号及び前記右残差処理済み信号に対して逆信号変換を実行して処理済み信号を生成するステップであって、前記処理済み信号は前記第1信号ドメインにある、ステップ、
をさらに含む請求項1から16のいずれか一項に記載の方法。
【請求項18】
前記処理済み信号に対して時間ドメイン処理を実行するステップであって、時間ドメイン処理を実行するステップは、修正された時間ドメイン信号を生成するステップを含む、ステップ、
を更に含む請求項1から17のいずれか一項に記載の方法。
【請求項19】
プロセッサにより実行されると請求項1~18のいずれか一項に記載の方法を含む処理を実行するよう機器を制御するコンピュータプログラムを格納している非一時的コンピュータ可読媒体。
【請求項20】
オーディオ処理のための機器であって、前記機器は、
プロセッサを含み、前記プロセッサは、請求項1から18のいずれか一項に記載の方法を含む処理を実行するよう前記機器を制御するように構成されている、プロセッサ、
を含む機器。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願]
本願は、参照により全体がここに組み込まれる、2021年3月2日に出願した米国仮出願番号第63/155,471号、及び2020年12月17日に出願したスペイン国特許出願番号第P202031265号、の優先権の利益を主張する。
【0002】
[技術分野]
本開示は、オーディオ処理、特にナイノーラルオーディオ信号の後処理に関する。
【背景技術】
【0003】
特に断りの無い限り、本章に記載されるアプローチは、本願の請求の範囲に対する従来技術ではなく、本章に含まれることにより従来技術として認められるものではない。
【0004】
オーディオソース分離とは、一般に、他の音声の混合物に存在するオブジェクトのレベル、位置、又はその他の属性を分離又は操作するために、オーディオミックスから特定の成分を抽出することを表す。ソース分離の方法は、代数的導出に基づく、機械学習を用いる、などである場合がある。抽出後に何らかの操作を適用し、分離された成分をバックグラウンドオーディオと混合することができる。また、ステレオ又はマルチチャネルのオーディオでは、ミックスに存在するオブジェクトを特定の空間位置から分離又は操作する方法に関する多くのモデルが存在する。これらのモデルは、線形の実数値ミキシングモデルに基づいており、例えば、抽出又は操作の対象となるオブジェクトが、線形の周波数に依存しない利得によってミックス信号に存在すると仮定される。別の言い方をすると、iのオブジェクトインデックスを持つオブジェクト信号x
i、及びミックス信号s
jについて、仮定されたモデルは、式(1)に従って未知の線形利得g
ijを使用する:
【数1】
【0005】
ヘッドフォンでの再生を目的としたステレオ信号など、バイノーラルオーディオコンテンツが広く利用できるようになってきている。バイノーラルオーディオのソースには、レンダリングされたバイノーラルオーディオとキャプチャされたバイノーラルオーディオが含まれる。
【0006】
レンダリングされたバイノーラルオーディオは、一般に計算によって生成されるオーディオを表す。例えば、Dolby Atmos(商標)オーディオなどのオブジェクトベースのオーディオは、人間の耳で発生する反射だけでなく、耳の間の時間とレベルの違い(inter-aural timedifference(ITD)及びinter-aural level difference(ILD))を導入する頭部関連伝達関数(head-related transfer function (HRTF))を使用して、ヘッドフォン用にレンダリングできる。正しく実行されれば、認識されるオブジェクトの位置をリスナーの周囲の任意の場所に操作できる。さらに、部屋の反射と遅延残響を追加して、認識される距離感を作り出すことができる。リスナーの周りに音源オブジェクトを配置するバイノーラルレンダラを備えた製品の1つに、Dolby Atmos Production Suite(商標)(DAPS)システムがある。
【0007】
キャプチャされるバイノーラルオーディオは、一般的に、耳でマイク信号をキャプチャすることによって生成されるオーディオを表す。バイノーラルオーディオをキャプチャする方法の1つは、ダミーヘッドの耳にマイクを配置することである。別の方法は、ワイヤレスイヤホン市場の力強い成長によって可能になる。イヤホンには、例えば電話をかけるために、マイクも含まれている可能性があるため、バイノーラルオーディオのキャプチャは消費者にとってアクセスしやすくなっている。
【0008】
レンダリングされたバイノーラルオーディオとキャプチャされたバイノーラルオーディオの両方について、通常は何らかの形式の後処理が必要である。このような後処理の例には、頭の動きを補償するためのシーンの向きを変更したり回転すること、特定のオブジェクトのレベルを背景に対して再調整することで、例えばスピーチや会話のレベルを高めたり、背景音や部屋の残響を減衰させたりすること、ミックス内の、又はリスナーの前などの特定の方向からのみの、特定のオブジェクトのイコライゼーション又はダイナミックレンジ処理、などが含まれる。
【発明の概要】
【0009】
既存のオーディオ後処理システムには多くの問題がある。1つの問題は、多くの既存の信号分解及びアップミキシングプロセスが線形利得を使用することである。線形利得は、ステレオオーディオのようなチャネルベースの信号ではうまく機能するが、バイノーラルオーディオでは周波数に依存するレベルと時間の差があるため、うまく機能しない。バイノーラルオーディオでうまく機能するアップミックスプロセスを改善する必要がある。
【0010】
バイノーラル信号の向きを変えたり回転させたりする方法は存在するが、これらの方法は一般にフルミックス又はコヒーレントエレメントのみで回転による相対的な変化を行うように動作する。バイノーラルでレンダリングされたオブジェクトをミックスから分離し、異なるオブジェクトに基づいて異なる処理を実行する必要がある。
【0011】
実施形態は、バイノーラルレンディション又はバイノーラルキャプチャから1つ以上のオブジェクトを抽出して処理する方法に関連している。この方法は、(1)レンダリング中に使用された、又はキャプチャに存在するHRTFの属性の推定、(2)推定されたHRTF属性の推定に基づくソースの分離、及び(3)分離された1つ以上のソースの処理、を中心としている。
【0012】
実施形態によると、コンピュータで実装されたオーディオ処理の方法は、バイノーラル信号に信号変換を実行するステップを含み、これには、バイノーラル信号を第1信号ドメインから第2信号ドメインに変換すること、及び変換されたバイノーラル信号を生成することが含まれ、第1信号ドメインは時間ドメインであり、第2信号ドメインは周波数ドメインである。この方法は、さらに、変換されたバイノーラル信号に空間分析を実行することを含み、空間分析の実行には、推定されたレンダリングパラメータの生成が含まれ、推定されたレンダリングパラメータには、レベル差及び位相差が含まれる。この方法は、さらに、推定されたレンダリングパラメータの少なくとも第1サブセットを使用して、変換されたバイノーラル信号から推定されたオブジェクトを抽出することを含み、ここで、推定されたオブジェクトの抽出には、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号の生成が含まれる。この方法は、さらに、推定されたレンダリングパラメータの少なくとも第2サブセットを使用して、推定されたオブジェクトに対してオブジェクト処理を実行することを含み、ここで、オブジェクト処理の実行には、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号に基づく処理済み信号の生成が含まれる。
【0013】
その結果、システムがバイノーラル信号に異なる周波数依存レベルと時間差を適用できるため、リスナーの経験が向上する。
【0014】
処理済み信号を生成することは、オブジェクト処理パラメータの第1セットを使用して、左主成分信号と右主成分信号から左主処理済み信号と右主処理済み信号を生成することと、オブジェクト処理パラメータの第2セットを使用して、左残差成分信号と右残差成分信号から左残差処理済み信号と右残差処理済み信号を生成することと、を含む。オブジェクト処理パラメータの第2セットは、オブジェクト処理パラメータの第1セットとは異なる。このようにして、主成分と残差成分を別々に処理することができる。
【0015】
別の実施形態によると、機器はプロセッサを含む。プロセッサは、ここで説明する1つ以上の方法を実装するために装置を制御するように構成される。機器は、更に、本願明細書に記載され得方法のうちの1つ以上と同様の詳細を含んでよい。
【0016】
別の実施形態によると、非一時的コンピュータ可読媒体は、プロセッサにより実行されると本願明細書に記載の方法を含む処理を実行するよう機器を制御するコンピュータプログラムを格納している。
【0017】
以下の詳細な説明及び添付の図面は、種々の実装の特性及び利点の更なる理解を提供する。
【図面の簡単な説明】
【0018】
【
図1】オーディオ処理システム100のブロック図である。
【0019】
【
図2】オブジェクト処理システム208のブロック図である。
【0020】
【
図3A】再レンダリングに関するオブジェクト処理システム108(
図1を参照)の実施形態を示す。
【
図3B】再レンダリングに関するオブジェクト処理システム108(
図1を参照)の実施形態を示す。
【0021】
【
図4】オブジェクト処理システム408のブロック図である。
【0022】
【
図5】オブジェクト処理システム508のブロック図である。
【0023】
【
図6】実施形態による、本願明細書に記載される特徴及び処理を実施する装置アーキテクチャ600を示す。
【0024】
【
図7】オーディオ処理の方法700のフローチャートである。
【発明を実施するための形態】
【0025】
本願明細書には、オーディオ処理に関する技術が記載される。以下の詳細な説明を通じて、説明を目的として、本発明の完全な理解を提供するために、多数の例及び特定の詳細が説明される。しかしながら、当業者には、請求の範囲により定められるような本開示が、これらの例における特徴の一部又は全部を、単独で又は以下に記載される他の特徴と組み合わせて含んでよく、更に本願明細書に記載され得特徴及び概念の変更及び均等物を含んでよいことが明らかである。
【0026】
以下の説明では、種々の方法、処理、及び手順が詳述される。特定のステップが特定の順序で記載されることがあるが、そのような順序は主に便宜上、及び明確さのためである。特定のステップは、1回より多く繰り返されてよく、他のステップの前又は後に生じてよく、それらのステップが別の順序で記載される場合でも、他のステップと並行して生じてよい。第1ステップが第2ステップが開始される前に完了していなければならない場合にのみ、第2ステップは、第1ステップの後に続く必要がある。そのような状況は、文脈から明確でないときに、具体的に指摘される。
【0027】
本願明細書では、用語「及び」、「又は」、「及び/又は」が使用される。そのような用語は、包含的意味を有するとして解釈されるべきである。例えば、「A及びB」は、少なくとも以下:「A及びBの両方」、「少なくともA及びBの両方」を意味してよい。例えば、「A又はB」は、少なくとも以下:「少なくともA」、「少なくともB」、「A及びBの両方」、「少なくともA及びBの両方」を意味してよい。例えば、「A及び/又はB」は、少なくとも以下:「A及びB」、「A又はB」を意味してよい。排他的論理和が意図されるとき、そのようなことに特に留意すべきである。例えば、「A又はBのいずれか」、「A及びBのうちの多くても1つ」、等。
【0028】
本願明細書は、ブロック、要素、コンポーネント、回路、等のような構造に関連付けられる種々の処理関数を記載する。一般に、これらの構造は、1つ以上のコンピュータプログラムにより制御されるプロセッサにより実装されてよい。
【0029】
1.バイノーラル後処理システム
【0030】
以下でより詳細に説明するように、実施形態は、バイノーラル混合物から1つ以上の成分を抽出し、さらに、(1)周波数に依存し、(2)相対的な時間差を含む、それらの位置又はレンダリングパラメータを推定する方法を記述する。これにより、以下の1つ以上が可能になる。バイノーラル演奏又はキャプチャにおける1つ以上のオブジェクトの位置の正確な操作、処理が各オブジェクトの推定位置に依存する、バイノーラル演奏又はキャプチャにおける1つ以上のオブジェクトの処理、及びバイノーラル演奏又はキャプチャからの各ソースの位置の推定を含むソース分離。
【0031】
図1は、オーディオ処理システム100のブロック図である。オーディオ処理システム100は、1つ以上のプロセッサによって実行される1つ以上のコンピュータプログラムによって実装することができる。プロセッサは、ヘッドセット、ヘッドフォン、携帯電話、ラップトップコンピュータなど、オーディオ処理システム100の機能を実装する装置のコンポーネントであってもよい。オーディオ処理システム100は、信号変換システム102、空間分析システム104、オブジェクト抽出システム106、及びオブジェクト処理システム108を含む。オーディオ処理システム100は、(簡潔にするために)詳細に議論されていない他のコンポーネント及び機能を含むことができる。一般に、オーディオ処理システム100では、バイノーラル信号は、まず時間周波数変換を使用して信号変換システム102によって処理される。その後、空間分析システム104は、1つ以上のオブジェクトに適用されたレベルと時間の違いを含む、例えばバイノーラルレンダリングパラメータなどのレンダリングパラメータを推定する。その後、これらの1つ以上のオブジェクトは、オブジェクト抽出システム106によって抽出される及び/又はオブジェクト処理システム108によって処理される。以下の段落では、各コンポーネントの詳細について説明する。
【0032】
信号変換システム102は、バイノーラル信号120を受信し、バイノーラル信号120に対して信号変換を行い、変換されたバイノーラル信号122を生成する。信号変換は、バイノーラル信号120を第1信号ドメインから第2信号ドメインに変換することを含む。第1信号ドメインは時間ドメインであってもよく、第2信号ドメインは周波数ドメインであってもよい。信号変換は、高速フーリエ変換(fast Fourier transform (FFT))や離散フーリエ変換(discrete Fourier transform (DFT))のようなフーリエ変換、直交ミラーフィルタ(quadrature mirror filter (QMF))変換、複素QMF(complex QMF (CQMF))変換、ハイブリッドCQMF(hybrid CQMF (HCQMF))変換などを含む多くの時間対周波数変換の1つであってもよい。信号変換は複素数値信号となることがある。
【0033】
一般に、信号変換システム102は、変換されたバイノーラル信号122をもたらすバイノーラル信号120に何らかの時間/周波数分離を提供する。例えば、信号変換システム102は、バイノーラル信号120のブロック又はフレーム、例えば20msブロックのような10-100msのブロックを変換することができる。その後、変換されたバイノーラル信号122は、バイノーラル信号120の各変換されたブロックの時間周波数タイルのセットに対応する。タイルの数は、信号変換システム102によって実装される周波数帯域の数に依存する。例えば、信号変換システム102は、20個のバンドなど、10から100個の間のバンドを持つフィルタバンクによって実装される場合があり、その場合、変換されたバイノーラル信号122は、同数の時間周波数タイルを持つ。
【0034】
空間分析システム104は、変換されたバイノーラル信号122を受信し、変換されたバイノーラル信号122に対して空間分析を行い、多くの推定されたレンダリングパラメータ124を生成する。一般に、推定されたレンダリングパラメータ124は、頭部関連伝達関数(HRTF)、頭部関連インパルス応答(HRIR)、バイノーラルルームインパルス応答(BRIR)などのパラメータに対応している。推定されたレンダリングパラメータ124には、以下でより詳細に説明するように多くのレベル差(パラメータh)が含まれ、及び以下でより詳細に説明するように多くの位相差(パラメータφ)が含まれる。
【0035】
オブジェクト抽出システム106は、変換されたバイノーラル信号122と推定されたレンダリングパラメータ124を受け取り、推定されたレンダリングパラメータ124を使用して変換されたバイノーラル信号122に対してオブジェクト抽出を行い、多数の推定されたオブジェクト126を生成する。一般に、オブジェクト抽出システム106は、変換されたバイノーラル信号122の時間周波数タイルごとに1つのオブジェクトを生成する。例えば、100個のタイルの場合、推定されたオブジェクトの数は100になる。
【0036】
各推定されたオブジェクトは、以下でxとして表される主成分信号と、以下でdとして表される残差成分信号として表すことができる。主成分信号は、左主成分信号xlと右主成分信号xrを含むことができる。残差成分信号は、左残差成分信号dlと右残差成分信号drを含むことができる。次に、推定されたオブジェクト126には、各時間周波数タイルの4つの成分信号が含まれる。
【0037】
オブジェクト処理システム108は、推定されたオブジェクト126と推定されたレンダリングパラメータ124を受け取り、推定されたレンダリングパラメータ124を使用して推定されたオブジェクト126に対してオブジェクト処理を行い、処理済み信号128を生成する。オブジェクト処理システム108は、オブジェクト抽出システム106によって使用されるものとは異なる推定されたレンダリングパラメータ124のサブセットを使用することができる。オブジェクト処理システム108は、以下でさらに詳細に説明するように、多くの異なるオブジェクト処理プロセスを実装することができる。
【0038】
2.空間分析及びオブジェクト抽出
【0039】
音声処理システム100は、空間分析システム104とオブジェクト抽出システム106によって実装されているように、空間分析とオブジェクト抽出の実行の一部として多くの計算を実行することができる。これらの計算には、HRTFの推定、位相アンラッピング、オブジェクト推定、オブジェクト分離、及び位相アラインメントの1つ以上が含まれることがある。
【0040】
2.1.HRTFの推定
【0041】
以下では、複素数値信号(例えば、DFT、CQMF、HCQMFなど)を提供する時間周波数変換を使用して、サブバンドと時間フレームに信号が存在すると仮定する。各時間/周波数タイル内で、方程式(2a)~(2b)に従って、n個の周波数又は時間インデックスを持つ複素数値バイノーラル信号ペア(l[n]、r[n])をモデル化できると仮定する。
【数2】
【0042】
複素位相角φ
lとφ
rは、狭いサブバンド内のHRTFによって導入される位相シフトを表す。h
lとh
rは、主成分信号xに適用されるHRTFの大きさを表し、d
rは2つの未知の残差信号である。ほとんどの場合、HRTFφ
lとφ
rの絶対位相には興味がない。代わりに、耳間位相差(inter-aural phase difference (IPD))φを使用してもよい。IPDφを右チャネル信号にプッシュすると、我々の信号モデルは式(3a)~(3b)で表すことができる:
【数3】
【0043】
同様に、我々は主にヘッドシャドウ効果(例えば、耳間レベル差(inter-aural level difference, ILD))の推定に興味がある場合がある。したがって、式(4a)~(4b)のように、実数値のヘッドシャドウ減衰hを使用してモデルを記述することができる。
【数4】
【0044】
式(5)のように、残差信号の内積の期待値が0であると仮定する:
【数5】
【0045】
さらに、式(6)のように、信号xと任意の残差信号の内積の期待値も0であると仮定する:
【数6】
【0046】
最後に、式(7)のように、2つの残差信号が等しいエネルギを持つことも必要である:
【数7】
【0047】
次に、式(8)のように、相対IPD位相角φを直接求める:
【数8】
【0048】
つまり、各タイルの位相差は、変換されたバイノーラル信号(例えば、
図1の122)の左成分lと、変換されたバイノーラル信号の右成分r*の内積の位相角として計算される。
【0049】
次に、式(9)のように、相対的な位相角を適用することによって、修正された右チャネル信号r'を作成する:
【数9】
【0050】
式(10)のように、重み付けされた組み合わせに従って、l[n]とr'[n]から主成分x^'を推定する:
【数10】
【0051】
式(10)において、キャレット又はハット記号^は推定値を表し、式(11)に従って重みw'rを計算することができる:
【数11】
【0052】
式(12)のようにコスト関数Exを定式化することができる:
【数12】
【0053】
以下の偏導関数を0に設定すると:
【数13】
式(13a)~(13b)が得られる:
【数14】
【0054】
このとき、式(14a)~(14c)を次のように記述できる:
【数15】
【0055】
置換により式(15a)~(15i)となる:
【数16】
【0056】
式(16)のように、式(15a)~(15i)は、HRTFに存在したレベル差hの解を与える:
【数17】
【0057】
つまり、各タイルのレベル差は、変換されたバイノーラル信号の左成分、変換されたバイノーラル信号の右成分、及び位相差に基づいて、2次方程式に従って計算される。変換されたバイノーラル信号の左成分の例は、
図1の122の左成分であり、式A、B、及びCの変数l及びl*によって表される。変換されたバイノーラル信号の右成分の例は、
図1の122の右成分であり、式A、B、及びCの変数r’及びr’*によって表される。位相差の例は、推定されたレンダリングパラメータ124の位相差情報であり、式(8)のIPD位相角φによって表され、式(9)に従ってr'を計算するために使用される。
【0058】
具体的な例として、空間分析システム104(
図1参照)は、式(1)~(16)を使用して変換されたバイノーラル信号122を操作することによってHRTFを推定することができ、特に式(8)はIPD位相角φを生成し、式(16)は推定されたレンダリングパラメータ124を生成する部分としてレベル差hを生成する。
【0059】
2.2.位相アンラッピング
【0060】
前のセクションでは、推定IPDφは、式(8)に従って、常に2π間隔にラップされる。所与のオブジェクトの位置を正確に決定するには、位相をアンラップする(unwrap)必要がある。一般に、アンラップとは、ラップされたIPDによって示される複数の可能な位置が与えられたとき、近隣のバンドを使用して最も可能性の高い位置を決定することを表す。位相をアンラップするには、証拠に基づくアンラッピングとモデルに基づくアンラッピングという様々な戦略を採用できる。
【0061】
2.2.1.証拠に基づくアンラッピング
【0062】
証拠に基づく位相のアンラッピングでは、近隣のバンドからの情報を使用して、アンラップされたIPDの最適な推定値を導き出すことができる。近隣のサブバンドb-1、b、b+1に対して3つのIPD推定値があると仮定し、φ
b-1、φ
b、φ
b+1と表す。バンドbに対するアンラップされた位相候補φ^
bは次式(17)で与えられる:
【数18】
【0063】
各候補φ^
b,Nbは次式(18)のようにITDτ^
b,Nを持つ:
【数19】
【0064】
式(18)において、f
bはバンドbの中心周波数を表す。各バンドσ
2
bの主成分の全エネルギの推定値もあり、式(19)で与えられる:
【数20】
【0065】
したがって、バンドbの主成分x
bのITDτの関数としてのバンドbの相互相関関数Rb(τ)は、式(20)のようにモデル化できる:
【数21】
【0066】
これで、アンラップされたIPD候補ごとに近隣のバンドvにわたってエネルギを累積し、式(21)のように、バンド間の単一のITDでほとんどのエネルギを占める推定値として最大値を取ることができる:
【数22】
【0067】
つまり、システムは、各バンドにおいて、左主成分信号と右主成分信号の合計エネルギを推定し、各バンドに基づいて相互相関を計算し、相互相関に基づいて近隣のバンド間のエネルギに応じて各バンドに適切な位相差を選択する。
【0068】
2.2.2.モデルに基づくアンラッピング
【0069】
モデルに基づくアンラッピングでは、例えば式(16)のようにヘッドシャドウパラメータの推定値が与えられた場合、単純なHRTFモデル(例えば球形ヘッドモデル)を使用して、バンドbのhの値が与えられた場合のN^bの最適値を求めることができる。つまり、所与のヘッドシャドウマグニチュードの大きさに一致する最適なアンラップされた位相を求める。このアンラップは、モデルと様々なバンドのhの値が与えられると、計算によって実行できる。つまり、システムは、頭部関連伝達関数に適用される所与のバンドのレベル差に応じて、多くの候補位相差から所与のバンドの適切な位相差を選択する。
【0070】
具体的な例として、両方の種類のアンラッピングに対して、空間分析システム104(
図1を参照)は、推定されたレンダリングパラメータ124の生成の部分として位相アンラッピングを実行できる。
【0071】
2.3.主オブジェクト推定
【0072】
<xx*>、<dd*>、及びhの推定値(式(15a)、(15b)、及び(16)による)に従って、重みw
l、w'
rを計算できる。式(10)~(11)も参照する。式(22a)~(22b)として上から式(13a)~(13b)を繰り返す:
【数23】
【0073】
次に、式(23a)~(23b)に従って重みw
l、w'
rを計算することができる:
【数24】
【0074】
具体的な例として、空間分析システム104(
図1参照)(
図1参照)は、推定されたレンダリングパラメータ124の生成の一部として重みを生成することによって、主オブジェクトの推定を実行することができる。
【0075】
2.4.主オブジェクトと残差の分離
【0076】
システムは、2つのバイノーラル信号ペアを推定することができる。1つはレンダリングされた主成分用、もう1つは残差用である。レンダリングされた主成分ペアは、式(24a)~(24b)のように表すことができる:
【数25】
【0077】
式(24a)~(24b)では、信号l
x[n]は左の主成分信号(例えば、
図2の220)に対応し、信号r
x[n]は右の主成分信号(例えば、
図2の222)に対応する。式(24a)~(24b)は、式(25)のようにアップミックス行列Mで表すことができる:
【数26】
【0078】
残差信号l
d[n]とr
d[n]は、式(26)のように推定できる:
【数27】
【0079】
式(26)では、信号l
d[n]は左の残差成分信号(例えば、
図2の224)に対応し、信号[n]は右の残差成分信号(例えば、
図2の226)に対応する。
【0080】
完全再構成要件は、式(27)によるDの式を与える:
【数28】
【0081】
式(27)において、Iは単位行列に対応する。
【0082】
具体的な例として、オブジェクト抽出システム106(
図1参照)は、推定されたオブジェクト126の生成の一部として主オブジェクト推定を実行することができる。その後、推定されたオブジェクト126は、例えば成分信号220、222、224及び226(
図2参照)としてオブジェクト処理システム(例えば、
図1の108、
図2の208など)に提供されることができる。
【0083】
2.5.全体の位相整合
【0084】
ここまではすべての位相整合を右チャネルと右チャネル予測係数に適用した。例えば、式(9)を参照。よりバランスのとれた分布を得るために、1つの戦略は、抽出された主成分の位相と残差を式m=l+rのようにダウンミックスmに揃えることである。2つの予測係数に適用される位相シフトθは、式(28)のようになる:
【数29】
【0085】
次に、式(10)及び(23a)~(23b)の重みの式は、位相シフトθを使用して修正され、式(29a)~(29b)のように、我々の信号x^
θの最終的な予測係数を与える:
【数30】
【0086】
これにより、式(25)が修正され、式(30)となる:
【数31】
【0087】
したがって、サブミックス抽出行列Mはθの結果として変化しないが、式(31)のように、x^
θを計算するための予測係数はθに依存する:
【数32】
【0088】
最後に、x^
θの再レンダリングは式(32)で与えられる:
【数33】
【0089】
具体的な例として、空間分析システム104(
図1参照)は、推定されたレンダリングパラメータ124の生成の一部として重みの生成の一部として全体的な位相整合の一部を実行することができ、オブジェクト抽出システム106は、推定されたオブジェクト126の生成の一部として全体的な位相整合の一部を実行することができる。
【0090】
3.オブジェクト処理
【0091】
前述のように、オブジェクト処理システム108は、多数の異なるオブジェクト処理プロセスを実装することができる。これらのオブジェクト処理は、再配置、レベル調整、イコライゼーション、ダイナミックレンジ調整、デッシング、マルチバンド圧縮、没入性向上、エンベロープ、アップミックス、変換、チャネル再マッピング、記憶、及びアーカイブのうちの1つ以上を含む。再配置とは、一般に、処理されたバイノーラル信号の左右成分信号のHRTFパラメータを調整するなどして、知覚されるオーディオシーン内の1つ以上の識別されるオブジェクトを移動することを表す。レベル調整とは、一般に、知覚されるオーディオシーン内の1つ以上の識別されるオブジェクトのレベルを調整することを表す。イコライゼーションとは、一般に、周波数に依存する利得を適用することによって、1つ以上の識別されるオブジェクトの音色を調整することを表す。ダイナミックレンジ調整とは、一般に、1つ以上の識別されるオブジェクトのラウドネスを、定義されたラウドネス範囲内に収まるように調整することを表す。例えば、近くの話者が大きすぎると認識されないように、及び遠くの話者が小さすぎると認識されないように、音声を調整する。デッシング(De-essing)とは、一般に、「s」、「sh」、「x」、「ch」、「t」、「th」などの耳障りな子音に対する聞き手の知覚を低下させるなど、歯擦音の低減を表す。マルチバンド圧縮とは、一般に、1つ以上の識別されるオブジェクトの異なる周波数帯域に異なるラウドネス調整を適用することを表す。例えば、ノイズ帯域のラウドネスとラウドネスの範囲を小さくしたり、スピーチバンドのラウドネスを大きくしたりする。没入性の向上とは、一般に、1つ以上の識別されるオブジェクトのパラメータをビデオ信号などの他の感覚情報に一致するように調整することを表す。例えば、移動する音を移動する3次元のビデオピクセルの集まりに一致させたり、ウェット/ドライバランスを調整して、エコーが知覚される視覚的な部屋のサイズに対応するようにしたりする。エンベロープとは、一般に、1つ以上の識別されるオブジェクトの位置を調整して、音がリスナーの周囲全体から発生しているという認識を高めることを表す。アップミックス、変換、及びチャネル再マッピングとは、一般に、ある種類のチャネル配置を別の種類のチャネル配置に変更することを表す。アップミックスとは、一般に、オーディオ信号のチャネル数を増やすことを指し、例えば、バイノーラルオーディオなどの2チャネルの信号を、7.1.4チャネルサラウンド音声などの12チャネルの信号にアップミックスする。変換とは、一般に、オーディオ信号のチャネル数を減らすことを指し、例えば、5.1チャネルサラウンド音声などの6チャネルの信号を、ステレオオーディオなどの2チャネルの信号に変換する。チャネルの再マッピングとは、一般にアップミックスと変換の両方を含む操作を表す。ストレージとアーカイブは、一般に、バイノーラル信号を、関連するメタデータを持つ1つ以上の抽出されたオブジェクト、及び1つのバイノーラル残差信号として保存することを表す。
【0092】
オブジェクト処理プロセスを実行するために、様々なオーディオ処理システムやツールが使用される場合がある。このようなオーディオ処理システムの例としては、Dolby Atmos Production Suite(商標)(DAPS)システム、Dolby Volume(商標)システム、Dolby Media Enhance(商標)システム、Dolby(商標)モバイルキャプチャオーディオ処理システムなどがある。
【0093】
以下の図は、オーディオ処理システム100の様々な実施形態におけるオブジェクト処理の詳細を示している。
【0094】
図2は、オブジェクト処理システム208のブロック図である。オブジェクト処理システム208は、オブジェクト処理システム108(
図1参照)として使用することができる。
【0095】
オブジェクト処理システム208は、左主成分信号220、右主成分信号222、左残差成分信号224、右残差成分信号226、オブジェクト処理パラメータの第1セット230、オブジェクト処理パラメータの第2セット232、及び推定されたレンダリングパラメータ124を受信する(
図1参照)。成分信号220、222、224及び226は、推定されたオブジェクト126に対応する成分信号である(
図1参照)。推定されたレンダリングパラメータ124には、空間分析システム104によって計算されたレベル差及び位相差が含まれる(
図1参照)。
【0096】
オブジェクト処理システム208は、オブジェクト処理パラメータ230を使用して、左主成分信号220及び右主成分信号222から左主処理済み信号240及び右主処理済み信号242を生成する。オブジェクト処理システム208は、オブジェクト処理パラメータ232を使用して、左残差成分信号224及び右残差成分信号226から左残差処理済み信号244及び右残差処理済み信号246を生成する。処理済み信号240、242、244及び246は、処理済み信号128に対応する(
図1参照)。オブジェクト処理システム208は、例えば、左(又は右)主(又は残差)成分信号のみから左(又は右)主(又は残差)処理済み信号を生成するような、直接フィード処理を行うことができる。オブジェクト処理システム208は、例えば、左及び右主(又は残差)成分信号の両方から左(又は右)主(又は残差)処理済み信号を生成するような、クロスフィード処理を行うことができる。
【0097】
オブジェクト処理システム208は、実行される処理の特定のタイプに応じて、処理済み信号240、242、244、246のうちの1つを生成するときに、推定されたレンダリングパラメータ124の1つ以上のレベル差と1つ以上の位相差を使用することができる。一例として、再配置は、レベル差の少なくとも一部、例えばすべて、及び位相差の少なくとも一部、例えばすべてを使用する。別の例として、レベル調整は、レベル差の少なくとも一部、例えばすべてを使用し、及び位相差のすべてより少ない、例えばいずれも使用しない。別の例として、再配置は、レベル差のすべてより少ない、例えばいずれも使用せず、及び位相差の少なくとも一部、例えば1.5kHzより下の低周波数を使用する。低周波のみを使用することは、これらの周波数を超えるチャネル間位相差がソースが知覚される場所にあまり寄与しないため許容されるが、位相を変更すると可聴アーティファクトが発生する可能性がある。そのため、低周波の位相差のみを調整し、高周波の位相差をそのまま維持することは、オーディオ品質と知覚される場所の間のより良いトレードオフになる可能性がある。
【0098】
オブジェクト処理パラメータ230及び232により、オブジェクト処理システム208は、主成分信号220及び222を処理するためにパラメータの一方のセットを使用し、残差成分信号224及び226を処理するために別のパラメータのセットを使用することができる。これにより、前述の異なるオブジェクト処理プロセスを実行するときに、主成分と残差成分の差分処理が可能になる。例えば、再配置では、オブジェクト処理パラメータ230によって決定されるように、主成分を再配置することができるが、オブジェクト処理パラメータ232は、残差成分が変化しないようなものである。別の例として、マルチバンド圧縮では、主成分のバンドをオブジェクト処理パラメータ230を使用して圧縮し、残差成分のバンドを異なるオブジェクト処理パラメータ232を使用して圧縮することができる。
【0099】
オブジェクト処理システム208は、追加の処理ステップを実行するための追加コンポーネントを含むことができる。追加コンポーネントの1つは逆変換システムである。逆変換システムは、処理済み信号240、242、244と246に対して逆変換を行い、時間ドメインの処理済み信号を生成する。逆変換は、信号変換システム102によって実行される変換の逆変換である(
図1参照)。
【0100】
もう1つの追加コンポーネントは、時間ドメイン処理システムである。遅延効果、エコー効果、残響効果、ピッチシフト、音色変更など、幾つかのオーディオ処理技術は時間ドメインでうまく機能する。逆変換システムの後に時間ドメイン処理システムを実装することにより、オブジェクト処理システム208は、処理済み信号に対して時間ドメイン処理を実行し、修正された時間ドメイン信号を生成することができる。
【0101】
オブジェクト処理システム208の詳細は、他の点ではオブジェクト処理システム108の詳細と同様であってよい。
【0102】
図3A~3Bは、再レンダリングに関するオブジェクト処理システム108(
図1を参照)の実施形態を示す。
図3Aは、オブジェクト処理システム308のブロック図であり、オブジェクト処理システム108として使用することができる。オブジェクト処理システム308は、左主成分信号320、右主成分信号322、左残差成分信号324、右残差成分信号326、及びセンサデータ330を受信する。成分信号320、322、324及び326は、推定されたオブジェクト126に対応する成分信号である(
図1参照)。センサデータ330は、ヘッドセット、ヘッドフォン、イヤホン、マイクなどの装置に配置されたジャイロスコープやその他の頭部追跡センサなどのセンサによって生成されるデータに対応する。
【0103】
オブジェクト処理システム308は、センサデータ330を使用して、左主成分信号320及び右主成分信号322に基づき左主処理済み信号340及び右主処理済み信号342を生成する。オブジェクト処理システム308は、センサデータ330から修正することなく、左残差処理済み信号344と右残差処理済み信号346を生成する。オブジェクト処理システム308は、オブジェクト処理システム208(
図2参照)と同様の方法で、直接フィード処理又はクロスフィード処理を使用することができる。オブジェクト処理システム308は、バイノーラルパンニングを使用して、主処理済み信号340及び342を生成することができる。つまり、主成分信号320及び322は、バイノーラルパンニングが適用されるオブジェクトとして扱われ、残差成分信号324及び326の拡散音は変更されない。
【0104】
代替として、オブジェクト処理システム308は、左主成分信号320及び右主成分信号322からモノラルオブジェクトを生成し、センサデータ330を使用してモノラルオブジェクトに対してバイノーラルパンニングを実行してもよい。オブジェクト処理システム308は、位相整合されたダウンミックスを使用してモノラルオブジェクトを生成してもよい。
【0105】
さらに、頭部追跡システムがハイエンドのイヤホンやヘッドフォン製品の一般的な機能になりつつあるため、例えば仮想現実、拡張現実、又はその他の没入型メディアアプリケーションにおいて、リスナーの向きをリアルタイムで知り、それに応じてシーンを回転させることが可能である。ただし、オブジェクトベースのプレゼンテーションが利用可能でない限り、レンダリングされたバイノーラルプレゼンテーションでの回転方法の有効性と品質は制限される。この問題に対処するために、オブジェクト抽出システム106(
図1参照)は、主成分を分離してその位置を推定し、オブジェクト処理システム308は、主成分をオブジェクトとして扱い、バイノーラルパンニングを適用すると同時に、残りの部分の拡散音をそのままにする。これにより、以下のような応用が可能になる。
【0106】
1つの応用例は、残像内のアンビエンスによって伝えられるオーディオシーンの空間性を損なうことなく、オブジェクトによって伝えられる正確な位置を維持しながら、リスナーの視点に従ってオーディオシーンを回転させるオブジェクト処理システム308である。
【0107】
もう1つの応用例は、バイノーラルのイヤホン又はマイクで録音中に発生した不要なヘッド回転を補償するオブジェクト処理システム308である。頭部回転は、主成分の位置から推測することができる。例えば、主成分が静止していると仮定すると、検出された位置の変化をすべて補正できる。頭部回転は、オーディオ記録と同期して頭部追跡データを取得することによっても推測できる。
【0108】
図3Bは、オブジェクト処理システム358のブロック図であり、オブジェクト処理システム108(
図1を参照)として使用することができる。オブジェクト処理システム358は、左主成分信号370、右主成分信号372、左残差成分信号374、右残差成分信号376、及び構成情報380を受信する。成分信号370、372、374及び376は、推定されたオブジェクト126に対応する成分信号である(
図1参照)。構成情報380は、アップミキシング、変換、又はチャネル再マッピングのためのチャネルレイアウトに対応する。
【0109】
オブジェクト処理システム358は、構成情報380を使用してマルチチャネル出力信号390を生成する。その後、マルチチャネル出力信号390は、構成情報380で指定された特定のチャネルレイアウトに対応する。例えば、構成情報380で5.1チャネルサラウンド音声へのアップミキシングが指定されている場合、オブジェクト処理システムは、成分信号370、372、374及び376から5.1チャネルサラウンド音声チャネル信号の6個のチャネルを生成するためにアップミキシングを行う。
【0110】
より具体的には、ラウドスピーカレイアウトによるバイノーラル録音の再生は、録音の空間的特性を保持したい場合に幾つかの課題を提起する。典型的な解決策は、クロストークキャンセレーションを含み、ラウドスピーカの前の非常に小さなリスニングエリアでのみ効果的である傾向がある。主と残差の分離を使用し、主成分の位置を推定することによって、オブジェクト処理システム358は、主成分を、時間の経過とともに関連する位置を持つ動的オブジェクトとして扱うことができ、これは様々なラウドスピーカレイアウトに正確にレンダリングすることができる。オブジェクト処理システム358は、2対Nチャネルアップミキサーを使用して拡散成分を処理し、没入型チャネルベースのベッドを形成することができる。一緒に、主成分から生じる動的オブジェクトと、残差成分から生じるチャネルベースのベッドは、任意のセットのラウドスピーカで元のバイノーラル録音の没入型プレゼンテーションをもたらす。拡散コンテンツのアップミックスを生成するためのシステムの例としては、次の文献に記載されているように、拡散コンテンツが直交行列に従って相関解除され、分散される場合がある:Mark Vinton, David McGrath, Charles Robinson and Phillip Brown, “Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications”, in 57th International Conference: The Future of Audio Entertainment Technology-Cinema, Television and the Internet(March 2015)。
【0111】
多くの既存のシステムに対するこの時間周波数分解の利点は、頭部の移動に合わせて音場全体を回転させるのではなく、再パニングがオブジェクトごとに異なる可能性があることである。さらに、多くの既存のシステムでは、過剰な耳間時間遅延(ITD)が信号に追加され、自然よりも大きな遅延が発生する可能性がある。オブジェクト処理システム358は、これらの既存のシステムと比較して、これらの問題を克服するのに役立つ。
【0112】
図4は、オブジェクト処理システム408のブロック図であり、オブジェクト処理システム108(
図1を参照)として使用することができる。オブジェクト処理システム408は、左主成分信号420、右主成分信号422、左残差成分信号424、右残差成分信号426、及び構成情報430を受信する。成分信号420、422、424及び426は、推定されたオブジェクト126に対応する成分信号である(
図1参照)。構成情報430は、音声改善処理の構成設定に対応する。
【0113】
オブジェクト処理システム408は、構成情報430を使用して、左主成分信号420及び右主成分信号422に基づき左主処理済み信号440及び右主処理済み信号442を生成する。オブジェクト処理システム408は、構成情報430から修正することなく、左残差処理済み信号444と右残差処理済み信号446を生成する。オブジェクト処理システム408は、オブジェクト処理システム208(
図2参照)と同様の方法で、直接フィード処理又はクロスフィード処理を使用することができる。オブジェクト処理システム408は、構成情報430によって提供される手動の音声改善処理パラメータを使用することもできるし、又は構成情報430は、国際公開公報WO2020/014517に記載されているような音声改善処理システムによる自動処理の設定に対応することもできる。つまり、主成分信号420及び422は、音声改善処理が適用されるオブジェクトとして扱われ、残差成分信号424及び426の拡散音は変更されない。
【0114】
具体的には、ポッドキャストやビデオログなどの音声コンテンツのバイノーラル録音には、群集ノイズ、自然音、都市ノイズなど、音声と並んで状況的な環境音が含まれていることが多い。背景音に影響を与えずにレベル、調性、ダイナミックレンジなどの音声品質を向上させることが望ましい場合が多い。主成分と残差成分への分離により、オブジェクト処理システム408は独立した処理を行うことができる。レベル、イコライゼーション、歯擦音低減、ダイナミックレンジ調整は、構成情報430に基づいて主成分に適用することができる。処理後、オブジェクト処理システム408は、信号を処理済み信号440、442、444と446に再結合して、強化されたバイノーラルプレゼンテーションを形成する。
【0115】
図5は、オブジェクト処理システム508のブロック図であり、オブジェクト処理システム108(
図1を参照)として使用することができる。オブジェクト処理システム508は、左主成分信号520、右主成分信号522、左残差成分信号524、右残差成分信号526、及び構成情報530を受信する。成分信号520、522、524及び526は、推定されたオブジェクト126に対応する成分信号である(
図1参照)。構成情報530は、レベル調整処理の構成設定に対応する。
【0116】
オブジェクト処理システム508は、構成情報530の中のレベル調整値の第1セットを使用して、左主成分信号520及び右主成分信号522に基づき左主処理済み信号540及び右主処理済み信号542を生成する。オブジェクト処理システム508は、構成情報530の中のレベル調整値の第2セットを使用して、左残差成分信号520及び右残差成分信号522に基づき左残差処理済み信号540及び右残差処理済み信号542を生成する。オブジェクト処理システム508は、オブジェクト処理システム208(
図2参照)と同様の方法で、直接フィード処理又はクロスフィード処理を使用することができる。
【0117】
より具体的には、大きな屋内空間、反射面のある部屋などの残響環境で行われる録音は、特に対象となる音源がマイクの近くにない場合に、かなりの量の残響を含むことがある。残響が過剰になると、音源の明瞭度が低下することがある。バイノーラル録音では、残響音と周囲の音、例えば自然や機械からの非局在的なノイズは、左右のチャネルで相関しない傾向があるため、分解を適用した後の残差信号に主に残る。この特性により、オブジェクト処理システム508は、主成分と残差成分の相対的なレベルを制御し、それらを修正されたバイノーラル信号に加算することによって、録音における環境音の量、例えば知覚される残響の量を制御することができる。その後、修正されたバイノーラル信号は、例えば、明瞭さを高めるために残差が少なくなったり、知覚される没入感を高めるために主成分が少なくなったりする。
【0118】
構成情報530で設定された主成分と残差成分の望ましいバランスは、フェーダーや「バランス」ノブを操作するなどして手動で定義することも、相対的なレベルの分析と、それらのレベル間の望ましいバランスの定義に基づいて自動的に求めることもできる。一実施例では、このような分析は、録音全体にわたる主成分と残差成分の二乗平均平方根(root-mean-square(RMS))レベルの比較である。別の実施例では、分析は時間の経過に応じて適応的に行われ、それに応じて主信号と残差信号の相対レベルが時間変化する方法で調整される。音声コンテンツの場合、このプロセスの前に音声活動検出などのコンテンツ分析を行うことで、音声又は非音声部分中の主成分と残差成分の相対バランスを異なる方法で修正することができる。
【0119】
4.ハードウェア及びソフトウェアの詳細
【0120】
以下の段落では、前述のバイノーラル事後処理に関連する様々なハードウェア及びソフトウェアの詳細について説明する。
【0121】
図6は、実施形態による、本願明細書に記載される特徴及び処理を実施する装置アーキテクチャ600を示す。アーキテクチャ600は、限定ではないが、デスクトップコンピュータ、消費者オーディオ/ビジュアル(AV)機器、無線放送機器、モバイル装置、例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブル装置、等、を含む任意の電子装置に実装することができる。示される例示的な実施形態では、アーキテクチャ600は、ラップトップコンピュータのためのものであり、プロセッサ601、周辺機器インタフェース602、オーディオサブシステム603、スピーカ604、マイクロフォン605、センサ606、例えば、加速度計、ジャイロ、気圧計、磁気計、カメラ、等、位置プロセッサ607、例えば、GNSS受信機、無線通信サブシステム608、例えば、Wi-Fi、Bluetooth、セルラ、等、及びタッチコントローラ610及び他の入力コントローラ611を含むI/Oサブシステム609、タッチ面612、及び他の入力/制御装置613を含む。より多くの又は少ないコンポーネントを有する他のアーキテクチャも、開示の実施形態を実装するために使用できる。
【0122】
メモリインタフェース414は、プロセッサ601、周辺機器インタフェース602、及びメモリ615、例えば、フラッシュ、RAM、ROM、等に結合される。メモリ615は、限定ではないが、オペレーティングシステム命令616、通信命令617、GUI命令618、センサ処理命令619、電話命令620、電子メッセージング命令621、ウェブ閲覧命令622、オーディオ処理命令623、GNSS/ナビゲーション命令624、及びアプリケーション/データ625、を含むコンピュータプログラム命令及びデータを格納する。オーディオ処理命令623は、本願明細書に記載されたオーディオ処理を実行するための命令を含む。
【0123】
実施形態によれば、アーキテクチャ600は、オーディオ処理システム100(
図1を参照)、本明細書に記載される1つ以上のオブジェクト処理システム(例えば、
図2の208、
図3Aの308、
図3Bの358、
図4の408、
図5の508など)等を実装するラップトップコンピュータのようなコンピュータシステムに対応することができる。
【0124】
実施形態によれば、アーキテクチャ600は複数の装置に対応することができる。複数の装置は、IEEE802.15.1標準接続などの有線又は無線接続を介して通信することができる。例えば、アーキテクチャ600は、プロセッサ601を実装するコンピュータシステム又は携帯電話、スピーカなどのオーディオサブシステム603、ジャイロスコープ又は他の頭部追跡センサなどの1つ以上のセンサ606等を実装するヘッドセットに対応することができる。例えば、アーキテクチャ600は、プロセッサ601を実装するコンピュータシステム又は携帯電話、マイク及びスピーカなどのオーディオサブシステム603等を実装するイヤホンに対応することができる。
【0125】
図7は、オーディオ処理の方法700のフローチャートである。方法700は、例えば、1つ以上のコンピュータプログラムを実行することによって、オーディオ処理システム100(
図1参照)、ここに記載された1つ以上のオブジェクト処理システム(例えば、
図2の208、
図3Aの308、
図3Bの358、
図4の408、
図5の508など)等の機能を実装するために、
図6のアーキテクチャ600の構成要素を持つ、例えば、ラップトップコンピュータ、携帯電話等の装置によって実行することができる。
【0126】
702で、信号変換はバイノーラル信号に対して実行される。信号変換の実行は、バイノーラル信号を第1信号ドメインから第2信号ドメインに変換すること、及び変換されたバイノーラル信号を生成することを含む。第1信号ドメインは時間ドメインであってもよく第2信号ドメインは周波数ドメインであってもよい。例えば、信号変換システム102(
図1参照)は、バイノーラル信号120を変換して、変換されたバイノーラル信号122を生成することができる。
【0127】
704で、空間分析は変換されたバイノーラル信号に対して実行される。空間分析の実行には、推定されたレンダリングパラメータの生成が含まれ、推定されたレンダリングパラメータにはレベル差と位相差が含まれる。例えば、信号変換システム104(
図1参照)は、変換されたバイノーラル信号122に空間分析を実行して、推定されたレンダリングパラメータ124を生成することができる。
【0128】
706で、推定されたレンダリングパラメータの少なくとも第1サブセットを使用して、変換されたバイノーラル信号から推定されたオブジェクトが抽出される。推定されたオブジェクトの抽出には、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号の生成が含まれる。例えば、オブジェクト抽出システム106(
図1参照)は、推定されたレンダリングパラメータ124の1つ以上を使用して、変換されたバイノーラル信号122に対してオブジェクト抽出を実行し、推定されたオブジェクト126を生成することができる。推定されたオブジェクト126は、左主成分信号220、右主成分信号222、左残差成分信号224、右残差成分信号226(
図2参照)、
図3の成分信号320、322、324及び326などの成分信号に対応することができる。
【0129】
708で、複数の推定されたレンダリングパラメータの少なくとも第2サブセットを使用して、推定されたオブジェクトに対してオブジェクト処理が実行される。オブジェクト処理の実行には、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号に基づく処理済み信号の生成が含まれる。例えば、オブジェクト処理システム108(
図1参照)は、推定されたレンダリングパラメータ124の1つ以上を使用して、推定されたオブジェクト126に対してオブジェクト処理を実行し、処理済み信号128を生成することができる。別の例として、処理システム208(
図2参照)は、推定されたレンダリングパラメータ124の1つ以上とオブジェクト処理パラメータ230及び232を使用して、成分信号220、222、224及び226に対してオブジェクト処理を実行することができる。
【0130】
方法700は、ここに記載されているように、オーディオ処理システム100、オブジェクト処理システム108、208、308の1つ以上などの他の機能に対応する追加のステップを含むことができる。例えば、方法700は、センサデータ、頭部追跡データなどを受信し、センサデータ又は頭部追跡データに基づいて処理を実行することを含むことができる。別の例として、オブジェクト処理(708を参照)は、処理パラメータの1つのセットを使用して主成分を処理し、処理パラメータの別のセットを使用して残差成分を処理することを含むことができる。別の例として、方法700は、逆変換の実行、逆変換された信号に対する時間ドメイン処理の実行などを含むことができる。
【0131】
実装の詳細
【0132】
実施形態は、ハードウェア、コンピュータ可読媒体に格納された実行可能モジュール、又は両者の組合せ、例えば、プログラマブルロジックアレイ、等で実装されてよい。特に指定されない限り、実施形態により実行されるステップは、特定の実施形態に本来存在し得るが、任意の特定のコンピュータ又は他の機器に関連してよい。特に、種々の汎用メカニズムは、本願明細書の教示に従い記述されたプログラムと共に使用されてよく、或いは、所要の方法のステップを実行するために、より特化した機器、例えば、集積回路、等を構成するためにより便利であってよい。従って、実施形態は、各々少なくとも1つのプロセッサ、揮発性及び不揮発性メモリ及び/又は記憶素子を含む少なくとも1つのデータ記憶システム、少なくとも1つの入力装置又はポート、及び少なくとも1つの出力装置又はポートを含む、1つ以上のプログラマブルコンピュータシステムを実行する1つ以上のコンピュータプログラムで実装されてよい。プログラムコードは、本願明細書に記載の機能を実行し出力情報を生成するために入力データに適用される。出力情報は、知られている方法で1つ以上の出力装置に適用される。
【0133】
各々のそのようなコンピュータプログラムは、望ましくは、記憶媒体又は装置がコンピュータシステムにより読み取られると本願明細書に記載された手順を実行するようコンピュータを構成し及び動作させるために、汎用又は専用プログラマブルコンピュータにより読み取り可能な記憶媒体又は装置、例えば、固体メモリ若しくは媒体、又は磁気若しくは光媒体、等に格納され又はダウンロードされる。本発明のシステムは、コンピュータ可読記憶媒体として実装され、コンピュータプログラムにより構成されることも考えられ、ここで、記憶媒体は、特定の及び所定の方法で本願明細書に記載の機能を実行するようコンピュータシステムを動作させるよう構成される。ソフトウェア自体、及び無形又は一時的信号は、それらが非特許対象物である限り排除される。
【0134】
ここに記載されるシステムの太陽は、デジタル又はデジタルかされたオーディオファイルを処理する適切なコンピュータに基づく音声処理ネットワーク環境で実施されてよい。適応型オーディオシステムの部分は、コンピュータの間で送信されるデータをバッファリング及びルーティングするよう機能する1つ以上のルータ(図示しない)を含む任意の所望の数の個別機械を含む1つ以上のネットワークを含んでよい。このようなネットワークは、種々の異なるネットワークプロトコル上で構築されてよく、インターネット、広域ネットワーク(Wide Area Network (WAN))、ローカルエリアネットワーク(Local Area Network (LAN))、又はそれらの任意の組合せであってよい。
【0135】
コンポーネント、ブロック、プロセス、又は他の機能的コンポーネントのうちの1つ以上は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されてよい。また、留意すべきことに、ここに開示した種々の機能は、ハードウェア、ファームウェア、及び/又は種々の機械可読若しくはコンピュータ可読媒体の中に具現化されたデータ及び/又は命令として、それらの動作の観点で、レジスタトランスファ、論理コンポーネント、及び/又は他の特性、の任意の数の組合せを用いて記載され得る。このようなフォーマットされたデータ及び/又は命令が具現化されるコンピュータ可読媒体は、限定ではないが、光、磁気、又は半導体記憶媒体のような、種々の形式の物理的な非一時的不揮発性記憶媒体を含む。
【0136】
以上の説明は、本開示の態様がどのように実施されるかの例と共に本開示の種々の実施形態を説明した。上述の例及び実施形態は、唯一の実施形態であると見なされるべきではなく、以下の請求の範囲により定められるような本開示の柔軟性及び利点を説明するために提示された。上述の開示及び以下の請求の範囲に基づき、他の構成、実施形態、実装及び均等物が当業者に明らかであり、請求の範囲により定められるような本開示の精神及び範囲から逸脱することなく利用されてよい。
【手続補正書】
【提出日】2022-12-20
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
コンピュータによって実施されるオーディオ処理の方法であって、
バイノーラル信号に信号変換を実行するステップであって、
前記バイノーラル信号はバイノーラル演奏又はバイノーラルキャプチャであり、前記信号変換を実行するステップは、
前記バイノーラル信号を第1信号ドメインから第2信号ドメインに変換するステップと、
変換されたバイノーラル信号を生成するステップであって、前記第1信号ドメインが時間ドメインであり、第2信号ドメインが周波数ドメインであ
り、前記信号変換は時間-周波数変換であり、前記変換されたバイノーラル信号は所与の時間期間に渡り変換された複数の時間周波数タイルを含む、ステップと、
を含むステップと、
前記変換されたバイノーラル信号
の前記複数の時間周波数タイルの各々に対して空間分析を実行するステップであって、前記空間分析を実行するステップは、複数の推定されたレンダリングパラメータを生成するステップを含み、
前記複数の時間周波数タイルのうちの所与の時間周波数タイルは、前記複数の推定されたレンダリングパラメータの所与のサブセットに関連付けられ、前記複数の推定されたレンダリングパラメータは、複数のレベル差と複数の位相差を含
み、前記複数の推定されたレンダリングパラメータは、バイノーラル演奏中に使用される又はバイノーラルキャプチャにおいて存在する頭部関連伝達関数、頭部関連インパルス応答、及びバイノーラルルームインパルス応答の少なくとも1つに対応する、ステップと、
前記複数の推定されたレンダリングパラメータの少なくとも第1サブセットを使用して、前記変換されたバイノーラル信号から複数のオブジェクトを
生成するステップであって、前記オブジェクトは、
前記変換されたバイノーラル信号のそれぞれの時間周波数タイル毎に、左主成分信号、右主成分信号、左残差成分信号、及び右残差成分信号
のそれぞれにより表される、ステップと、
前記複数の推定されたレンダリングパラメータの少なくとも第2サブセットを使用して、前記複数のオブジェクトに対してオブジェクト処理を実行するステップであって、前記オブジェクト処理を実行するステップは、
前記左主成分信号、
前記右主成分信号、
前記左残残差成分信号、及び
前記右残差成分信号に基づいて処理済み信号を生成するステップを含む、ステップと、
を含
み、
前記オブジェクト処理が、再配置、レベル調整、イコライゼーション、ダイナミックレンジ調整、デッシング、マルチバンド圧縮、没入性向上、エンベロープ、アップミックス、変換、チャネル再マッピング、記憶、及びアーカイブのうちの少なくとも1つを含む、方法。
【請求項2】
前記処理済み信号を生成するステップは、
オブジェクト処理パラメータの第1セットを使用して、前記左主成分信号と前記右主成分信号から左主処理済み信号と右主処理済み信号を生成するステップと、
オブジェクト処理パラメータの第2セットを使用して、前記左残差成分信号と右残差成分信号から左残差処理済み信号と右残差処理済み信号を生成するステップであって、オブジェクト処理パラメータの前記第2セットは、オブジェクト処理パラメータの前記第1セットとは異なる、ステップと、
を含
み、
前記オブジェクト処理は、前記左主処理済み信号、前記右主処理済み信号
前記左残差処理済み信号、及び前記右残差処理済み信号を使用することを含む、請求項1に記載の方法。
【請求項3】
センサからセンサデータを受信するステップであって、前記センサは、ヘッドセット、ヘッドフォン、イヤホン及びマイクのうちの少なくとも1つの構成要素である、ステップ、を更に含み、
前記オブジェクト処理を実行するステップは、前記センサデータに基づいて前記処理済み信号を生成するステップを含む、請求項1に記載の方法。
【請求項4】
前記オブジェクト処理を実行するステップは、
センサデータに基づいて、前記左主成分信号及び前記右主成分信号にバイノーラルパンニングを適用するステップであって、前記バイノーラルパンニングを適用するステップは、左主処理済み信号及び右主処理済み信号を生成するステップを含む、ステップと、
前記バイノーラルパンニングを適用せずに、前記左残差成分信号及び前記右残差成分信号から、左残差処理済み信号及び右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項5】
前記オブジェクト処理を実行するステップは、
前記左主成分信号及び前記右主成分信号からモノラルオブジェクトを生成するステップと、
センサデータに基づいて、前記モノラルオブジェクトにバイノーラルパンニングを適用するステップと、
前記バイノーラルパンニングを適用せずに、前記左残差成分信号及び前記右残差成分信号から、左残差処理済み信号及び右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項6】
前記オブジェクト処理を実行するステップは、
前記左主成分信号、前記右主成分信号、前記左残差成分信号及び前記右残差成分信号からマルチチャネル出力信号を生成するステップを含み、
前記マルチチャネル出力信号は、少なくとも1つの左チャネル及び少なくとも1つの右チャネルを含み、前記少なくとも1つの左チャネルは、フロント左チャネル、サイド左チャネル、リア左チャネル及び左高さチャネルの少なくとも1つを含み、前記少なくとも1つの右チャネルは、フロント右チャネル、サイド右チャネル、リア右チャネル及び右高さチャネルの少なくとも1つを含む、請求項1に記載の方法。
【請求項7】
前記オブジェクト処理を実行するステップは、
前記左主成分信号及び前記右主成分信号に音声向上処理を適用するステップであって、前記音声向上処理を適用するステップは、左主処理済み信号及び右主処理済み信号を生成するステップを含む、ステップと、
前記音声向上処理を適用せずに、前記左残差成分信号から左残差処理済み信号を及び前記右残差成分信号から右残差処理済み信号を生成するステップと、
を含む、請求項1に記載の方法。
【請求項8】
前記処理済み信号を生成するステップは、
第1レベル調整値を用いて前記左主成分信号と前記右主成分信号にレベル調整を適用するステップであって、前記レベル調整を適用するステップは、左主処理済み信号と右主処理済み信号を生成するステップを含む、ステップと、
第2レベル調整値を用いて前記左残成分信号と前記右残成分信号にレベル調整を適用するステップであって、前記レベル調整を適用するステップは、左残処理済み信号と右残処理済み信号を生成するステップを含み、前記第2レベル調整値が前記第1レベル調整値と異なる、ステップと、
を含
み、
前記オブジェクト処理は、前記左主処理済み信号、前記右主処理済み信号
前記左残差処理済み信号、及び前記右残差処理済み信号を使用することを含む、請求項1に記載の方法。
【請求項9】
前記複数の位相差が複数のアンラップされた位相差であり、前記複数のアンラップされた位相差が、証拠に基づくアンラッピング及びモデルに基づくアンラッピングの少なくとも1つを実行することによってアンラップされる、請求項1から
8のいずれか一項に記載の方法。
【請求項10】
前記証拠に基づくアンラッピングを実行するステップは、
各帯域において、前記左主成分信号と前記右主成分信号の総エネルギを推定するステップと、
各帯域に基づく相互相関を計算するステップと、
前記相互相関に基づく近隣の帯域に渡るエネルギに従って、複数の候補位相差から前記複数のアンラップされた位相差を選択するステップと、
を含む、請求項
9に記載の方法。
【請求項11】
前記モデルに基づくアンラッピングを実行するステップは、
所与の帯域の頭部関連伝達関数に適用される所与のレベル差に従って、複数の候補位相差から前記複数のアンラップされた位相差を選択するステップを含む、請求項
9に記載の方法。
【請求項12】
前記複数の位相差のうちの所与の位相差が、前記第2信号ドメインにおける所与のインデックスについて、前記変換されたバイノーラル信号の左成分と前記変換されたバイノーラル信号の右成分の内積の位相角として計算される、請求項1から
11のいずれか一項に記載の方法。
【請求項13】
前記複数のレベル差のうちの所与のレベル差が、前記変換されたバイノーラル信号の左成分、前記変換されたバイノーラル信号の右成分、及び前記複数の位相差のうちの所与の位相差に基づく2次方程式に従い計算される、請求項1から
12のいずれか一項に記載の方法。
【請求項14】
前記左主処理済み信号、前記右主処理済み信号、前記左残差処理済み信号及び前記右残差処理済み信号に対して逆信号変換を実行して処理済み信号を生成するステップであって、前記処理済み信号は前記第1信号ドメインにある、ステップ、
をさらに含む請求項1から
13のいずれか一項に記載の方法。
【請求項15】
前記処理済み信号に対して時間ドメイン処理を実行するステップであって、時間ドメイン処理を実行するステップは、修正された時間ドメイン信号を生成するステップを含む、ステップ、
を更に含む請求項1から
14のいずれか一項に記載の方法。
【請求項16】
プロセッサにより実行されると請求項1~
15のいずれか一項に記載の方法を含む処理を実行するよう機器を制御するコンピュータプログラムを格納している非一時的コンピュータ可読媒体。
【請求項17】
オーディオ処理のための機器であって、前記機器は、
プロセッサ
と任意的なセンサを含み、前記プロセッサは、請求項1から
15のいずれか一項に記載の方法を含む処理を実行するよう前記機器を制御するように構成されている、プロセッサ、
を含む機器。
【国際調査報告】