(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】チャネル・ベースのオーディオからチャネル及びオブジェクト・ベースのオーディオを生成する方法
(51)【国際特許分類】
H04S 7/00 20060101AFI20241106BHJP
【FI】
H04S7/00 300
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024524745
(86)(22)【出願日】2022-10-14
(85)【翻訳文提出日】2024-06-24
(86)【国際出願番号】 US2022046641
(87)【国際公開番号】W WO2023076039
(87)【国際公開日】2023-05-04
(32)【優先日】2021-10-25
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2022-01-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-01-18
(33)【優先権主張国・地域又は機関】EP
(81)【指定国・地域】
(71)【出願人】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】リー,シュイ
(72)【発明者】
【氏名】ツェンガレ,ジュリオ
(72)【発明者】
【氏名】ビン,チンユエン
(72)【発明者】
【氏名】ホーガン,マイケル ゲッティ
【テーマコード(参考)】
5D162
【Fターム(参考)】
5D162CD13
5D162EG02
(57)【要約】
オーディオ処理方法は、参照オーディオ信号、抽出されたオーディオ・オブジェクト、抽出されたベッド・チャンネル、レンダリングされたオーディオ信号、及びチャネル・ベースのオーディオ信号の部分ラウドネスに基づいて検出スコアを生成することを含む。検出スコアは、オーディオ・オブジェクト及びベッド・チャネルのうちの1つ以上におけるオーディオ・アーチファクトを示す。抽出されたオーディオ・オブジェクト及び抽出されたベッド・チャネルは、検出スコアに従って、オーディオ・アーチファクトを低減するように修正されることが可能である。
【特許請求の範囲】
【請求項1】
コンピュータが実行するオーディオ処理方法であって:
チャネル・ベースのオーディオ信号を受信するステップ;
前記チャネル・ベースのオーディオ信号に基づいて参照オーディオ信号を生成するステップ;
前記チャネル・ベースのオーディオ信号に基づいて、複数のオーディオ・オブジェクトと複数のベッド・チャネルとを生成するステップ;
前記複数のオーディオ・オブジェクトと前記複数のベッド・チャネルとに基づいて、レンダリングされたオーディオ信号を生成するステップ;
複数の信号の複数の部分ラウドネスに基づいて検出スコアを生成するステップであって、前記複数の信号は、前記参照オーディオ信号と、前記複数のオーディオ・オブジェクトと、前記複数のベッド・チャネルと、前記レンダリングされたオーディオ信号と、前記チャネル・ベースのオーディオ信号とを含み、前記検出スコアは、前記複数のオーディオ・オブジェクトと前記複数のベッド・チャネルのうちの1つ以上におけるオーディオ・アーチファクトを示す、ステップ;
前記検出スコアに基づいて複数のパラメータを生成するステップ;及び
前記チャネル・ベースのオーディオ信号と、前記複数のオーディオ・オブジェクトと、前記複数のベッド・チャネルと、前記複数のパラメータとに基づいて、複数の修正されたオーディオ・オブジェクトと複数の修正されたベッド・チャネルとを生成するステップ;
を含むコンピュータが実行する方法。
【請求項2】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、前記複数の部分ラウドネスを算出するステップを含み、
前記複数の部分ラウドネスは、前記参照オーディオ信号の部分ラウドネスと、前記複数のオーディオ・オブジェクトの部分ラウドネスと、前記複数のベッド・チャネルの部分ラウドネスと、前記レンダリングされたオーディオ信号の部分ラウドネスと、前記チャネル・ベースのオーディオ信号の部分ラウドネスとを含む、方法。
【請求項3】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、第1のエネルギーと第2のエネルギーとの比率を算出するステップを含み、
前記第1のエネルギーは前記複数のオーディオ・オブジェクトのエネルギーであり、前記第2のエネルギーは、前記複数のオーディオ・オブジェクトのエネルギーと前記複数のベッド・チャネルのエネルギーとの合計であり、
前記検出スコアは、前記第1のエネルギーと前記第2のエネルギーとの比率に基づいて生成される、方法。
【請求項4】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、前記複数のオーディオ・オブジェクトの各々に対する平均ポジションを算出するステップを含み、
前記検出スコアは、前記複数のオーディオ・オブジェクトの各々に対する平均ポジションに基づいて生成される、方法。
【請求項5】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは:
前記複数の部分ラウドネスに基づいて複数のブースト・スコアを算出するステップであって、前記複数の部分ラウドネスは、前記チャネル・ベースのオーディオ信号の部分ラウドネスと、前記参照オーディオ信号の部分ラウドネスと、前記複数のオーディオ・オブジェクトの部分ラウドネスと、前記レンダリングされたオーディオ信号の部分ラウドネスとを含む、ステップ;及び
前記複数のブースト・スコアのうちで最も大きなものと、前記複数のブースト・スコアのうちで次に最も大きなものとの合計に基づいて、最終的なブースト・スコアを算出するステップ;
を含み、前記検出スコアは、前記最終的なブースト・スコアに基づいて生成される、方法。
【請求項6】
請求項5に記載のコンピュータが実行する方法において、前記複数のブースト・スコアのうちの所与のブースト・スコアは、第1の値と、第2の値と、第3の値との積を含み、
前記第1の値は、所与の信号の複数のチャネル間の部分ラウドネスの相関であり、
前記第2の値は、隣接するブロック間の所与の信号の複数のチャネルにおけるエネルギー変化の度合いであり、
前記第3の値は、前記所与の信号の複数のチャネルの複数のラウドネス比率の間の差分スコアである、方法。
【請求項7】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、前記レンダリングされたオーディオ信号の部分ラウドネスと、前記参照オーディオ信号の部分ラウドネスとの間の複数の偏差メトリックを算出するステップを含み、
前記複数の偏差メトリックは、偏差差分と偏差比率とを含み、
前記偏差差分は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
前記偏差比率は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
前記検出スコアは、前記複数の偏差メトリックに基づいて生成される、方法。
【請求項8】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、偏差差分と、偏差比率と、ブースト・スコアとに基づいて連続性スコアを算出するステップを含み、
前記偏差差分は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
前記偏差比率は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
前記ブースト・スコアは、前記チャネル・ベースのオーディオ信号の部分ラウドネスと、前記参照オーディオ信号の部分ラウドネスと、前記複数のオーディオ・オブジェクトの部分ラウドネスと、前記レンダリングされたオーディオ信号の部分ラウドネスとに基づいており、
前記検出スコアは、前記連続性スコアに基づいて生成される、方法。
【請求項9】
請求項8に記載のコンピュータが実行する方法において、前記検出スコアは、第1の値と第2の値との合計に適用される双曲線正接関数に基づいて生成され、前記第1の値は、前記偏差差分と前記偏差比率との積であり、前記第2の値は前記連続性スコアである、方法。
【請求項10】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、第1のエネルギーと第2のエネルギーとの比率に基づいてオブジェクト・エネルギーのウェイトを算出するステップを含み、
前記第1のエネルギーは、前記複数のオーディオ・オブジェクトのエネルギーであり、
前記第2のエネルギーは、前記複数のオーディオ・オブジェクトのエネルギーと前記複数のベッド・チャネルのエネルギーとの合計であり、
前記検出スコアは、前記オブジェクト・エネルギーのウェイトに基づいて生成される、方法。
【請求項11】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、前記レンダリングされたオーディオ信号の部分ラウドネスのラウドネス・ウェイトを算出するステップを含み、
前記ラウドネス・ウェイトは、前記レンダリングされたオーディオ信号の部分ラウドネスが増加するにつれて増加し、
前記検出スコアは、前記ラウドネス・ウェイトに基づいて生成される、方法。
【請求項12】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは:
偏差差分と、偏差比率と、ブースト・スコアとに基づいて連続性スコアを算出するステップ;
第1のエネルギーと第2のエネルギーとの比率に基づいてオブジェクト・エネルギーのウェイトを算出するステップであって、前記第1のエネルギーは、前記複数のオーディオ・オブジェクトのエネルギーであり、前記第2のエネルギーは、前記複数のオーディオ・オブジェクトのエネルギーと前記複数のベッド・チャネルのエネルギーとの合計である、ステップ;及び
前記レンダリングされたオーディオ信号の部分ラウドネスのラウドネス・ウェイトを算出するステップであって、前記ラウドネス・ウェイトは、前記レンダリングされたオーディオ信号の部分ラウドネスが増加するにつれて増加する、ステップ;
を含み、前記偏差差分は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
前記偏差比率は、前記レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、前記参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
前記ブースト・スコアは、前記チャネル・ベースのオーディオ信号の部分ラウドネスと、前記参照オーディオ信号の部分ラウドネスと、前記複数のオーディオ・オブジェクトの部分ラウドネスと、前記レンダリングされたオーディオ信号の部分ラウドネスとに基づいており、
前記検出スコアは、前記連続性スコアと、前記オブジェクト・エネルギーのウェイトと、前記ラウドネス・ウェイトとに基づいて生成される、方法。
【請求項13】
請求項1に記載のコンピュータが実行する方法において、前記検出スコアを生成するステップは、前記レンダリングされたオーディオ信号の総ラウドネスの比率と、前記参照オーディオ信号の総ラウドネスの比率と、前記複数のオーディオ・オブジェクト各々のエネルギーと、前記複数のオーディオ・オブジェクト各々のポジションとを平滑化するステップ;
を含み、前記検出スコアは、前記レンダリングされたオーディオ信号の総ラウドネスの比率であって平滑化されたものと、前記参照オーディオ信号の総ラウドネスの比率であって平滑化されたものと、前記複数のオーディオ・オブジェクト各々のエネルギーであって平滑化されたものと、前記複数のオーディオ・オブジェクト各々のポジションであって平滑化されたものとに基づいて生成される、方法。
【請求項14】
コンピュータ・プログラムを記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ・プログラムは、プロセッサにより実行されると、請求項1-13のうちの何れか一項に記載の方法を含む処理を実行するように装置を制御する、記憶媒体。
【請求項15】
プロセッサを含むオーディオ処理装置であって、前記プロセッサは、請求項1-13のうちの何れか一項に記載の方法を含む処理を実行するように前記装置を制御するように構成されている、装置。
【発明の詳細な説明】
【技術分野】
【0001】
[0001] 関連出願の相互参照
本件出願は、以下の先行出願:2021年10月25日付で出願されたES特許出願P202130998号、及び2022年1月12日付で出願された米国仮出願63/298673号の優先権を主張しており、これら全ての全体は参照により本件に援用される。
【0002】
[0002] 本開示はオーディオ処理に関連し、特に、チャネル・ベースのオーディオからオブジェクト・ベースのオーディオを生成することに関連する。
【背景技術】
【0003】
[0003] 本件では特に示されていない限り、このセクションで説明されるアプローチは、本件出願のクレームに対する先行技術ではなく、このセクションに含めることによって先行技術であると認められてもいない。
【0004】
[0004] 近年、マルチメディア産業において、3次元(3D)映画やテレビ・コンテンツが、映画や家庭でますます人気を集めている。これらの発展に続いて、幾つかのオーディオ再生システムも提案されている。ステレオ・オーディオ(例えば、2チャネル、5.1チャネル・サラウンド・サウンド、7.1チャネル・サラウンド・サウンド)のような従来のマルチチャネル・システムは、より没我的な音場(immersive sound field)を作り出すように拡張されている。
【0005】
[0005] 次世代オーディオ・システムの例は、ベッド・チャネル(bed channels)と呼ばれるオーディオ・チャネルとオーディオ・オブジェクトの両方を含むフォーマットである。オーディオ・オブジェクトとは、個々のオーディオ要素であって定義された時間の間に存在するものを指し、オーディオ・オブジェクトの位置、速度、及びサイズを記述する空間情報のようなメタデータを有する。ベッド・チャネルとは、予め定義された固定されたスピーカー位置で再生されることになっているオーディオ・チャネルを指す。伝送中、オブジェクトとベッド・チャネルは別々に送信され、次いで、再生システムによって使用されて、芸術的意図を適応的に再作成することを、再生環境における再生スピーカーの特定の配置に基づいて行い;スピーカーの配置に基づくオーディオ出力の生成は、レンダリングと呼ばれることがある。
【発明の概要】
【0006】
[0006] 既存のオーディオ処理システムに関する1つの問題は、既存のオーディオ・コンテンツの大部分が、5.1,7.1又はステレオのようなチャネル・ベースである、ということである。従来のチャネル・ベースのコンテンツを、チャネル及びオブジェクト・ベースのフォーマットに変換するためには、従来の混合されたものからオブジェクトとベッド・チャネルを抽出する自動化された技術又はツールを開発する必要がある。更に、自動化されたレンダリング・ツールは、抽出されたオーディオ・オブジェクト及びベッド・チャネルを更に修正又はアップミックスして、従来のコンテンツの再生を改善するようにも望まれている。更に、自動オブジェクト抽出及びアンビエンス・アップミキシング・プロセス(ambience upmixing process)に導入されるアーチファクトや不正確な推定が存在する可能性があり、従って、自動化された方法でこれらの問題を検出し、最終的な出力コンテンツの品質を向上させることも望まれている。実施形態は、抽出されたオーディオ・オブジェクト及びベッド・チャネルの統計を評価して不連続性を識別すること、及び、抽出されたオーディオ・オブジェクト及びベッド・チャネルを必要に応じて調整して不連続性を低減することを目的としている。この自動評価及び調整は、オーディオ・エンジニアによる広範なマニュアル評価及び操作を必要とする可能性のある従来の方法を上回る改善となる。
【0007】
[0007] 実施形態は、オーディオ信号処理技術を使用して、任意のマルチ・チャネル・オーディオ・コンテンツ(e.g.,5.1,7.1等)を、チャネル・ベースのフォーマットからチャネル及びオブジェクト・ベースのフォーマットに自動的に変換する。チャネル及びオブジェクト・ベースのオーディオ・コンテンツの品質を改善するために、システムは、3つのモジュール:(1)制御モジュールであって、オブジェクト抽出及びレンダリング・モジュールの結果を検証及び評価するもの;(2)適応後処理モジュールであって、制御モジュールの結果に基づいて後処理パラメータを取得するもの;及び(3)修正モジュールであって、取得した後処理パラメータに基づいて、抽出されたチャネル及びオブジェクト・ベースのオーディオ・コンテンツを修正するもの、を実装している。
【0008】
[0008] 実施形態によれば、コンピュータが実行するオーディオ処理方法は、チャネル・ベースのオーディオ信号を受信するステップと、チャネル・ベースのオーディオ信号に基づいて参照オーディオ信号を生成するステップと、チャネル・ベースのオーディオ信号に基づいて、複数のオーディオ・オブジェクトと複数のベッド・チャネルとを生成するステップとを含む。方法は、複数のオーディオ・オブジェクトと複数のベッド・チャネルに基づいて、レンダリングされたオーディオ信号を生成するステップを更に含む。方法は、複数の信号の複数の部分ラウドネス(partial loudnesses)に基づいて検出スコアを生成するステップを更に含む。複数の信号は、参照オーディオ信号と、複数のオーディオ・オブジェクトと、複数のベッド・チャネルと、レンダリングされたオーディオ信号と、チャネル・ベースのオーディオ信号とを含む。検出スコアは、複数のオーディオ・オブジェクトと複数のベッド・チャネルのうちの1つ以上におけるオーディオ・アーチファクトを示す。方法は、検出スコアに基づいて複数のパラメータを生成するステップを更に含む。方法は、チャネル・ベースのオーディオ信号と、複数のオーディオ・オブジェクトと、複数のベッド・チャネルと、複数のパラメータとに基づいて、複数の修正されたオーディオ・オブジェクトと複数の修正されたベッド・チャネルとを生成するステップを更に含む。
【0009】
[0009] その結果、修正されたオーディオ・オブジェクト及び修正されたベッド・チャネルは、修正されていないオーディオ・オブジェクト及び修正されていないベッド・チャネルと比較して、オーディオ・アーチファクトを低減している。
【0010】
[0010] 別の実施形態によれば、装置は1つ以上のスピーカー及びプロセッサを含む。プロセッサは、装置を制御して本件で説明される1つ以上の方法を実施するように構成されている。装置は、本件で説明される1つ以上の方法と同様な詳細を更に含む可能性がある。
【0011】
[0011] 別の実施形態によれば、非一時的なコンピュータ読み取り可能な媒体はコンピュータ・プログラムを記憶し、コンピュータ・プログラムは、プロセッサによって実行されると、本件で説明される1つ以上の方法を含む処理を実行するように装置を制御する。
【0012】
[0012] 以下の詳細な説明及び添付の図面は、様々な実装の性質及び利点の更なる理解をもたらす。
【図面の簡単な説明】
【0013】
【
図1】[0013]
図1は、オーディオ・コンテンツ生成器100のブロック図である。
【
図2】[0014]
図2は、オーディオ処理の方法200のフローチャートである。
【
図3A】[0015]
図3Aは、チャネル番号と領域との間のマッピングを示す図である。
【
図3B】[0015]
図3Bは、チャネル番号と領域との間のマッピングを示す図である。
【
図4】[0016]
図4は、実施形態による本件で説明される特徴及びプロセスを実施するためのデバイス・アーキテクチャ400である。
【
図5】[0017]
図5は、オーディオ処理方法500のフローチャートである。
【発明を実施するための形態】
【0014】
[0018] 本件で説明されるものはオーディオ処理に関連する技術である。以下の説明では、説明の目的で、多数の例及び具体的な詳細が述べられており、本開示の十分な理解をもたらす。しかしながら、クレームによって規定される本開示は、これらの例における特徴の一部又は全部を単独で、又は以下で説明される他の特徴と組み合わせて含む可能性があり、また、本件で説明される特徴及び概念の修正及び同等物を更に含む可能性がある、ということは当業者に明らかであろう。
【0015】
[0019] 以下の説明では、様々な方法、プロセス、及び手順が詳述される。特定のステップが特定の順序で説明される鴨しれないが、そのような順序は、主に、便宜及び明確性のためのものである。特定のステップが、複数回繰り返されてもよく、他のステップより前又は後に、たとえそれらのステップが別の方法で別の順序で説明されていたとしても生じる可能性があり、また、他のステップと並行して生じてもよい。第2のステップが第1のステップに続くことを必要とするのは、第2のステップが開始される前に第1のステップが完了していなければならない場合だけである。このような状況は、文脈から明らかでない場合には、具体的に指摘されるであろう。
【0016】
[0020] 本件明細書では、「及び」、「又は」、「及び/又は」という用語が使用されている。このような用語は、包括的な意味を有するものとして理解されるべきである。例えば、「A及びB」は、少なくとも:「AとBの双方」、「AとBの少なくとも双方」を意味する可能性がある。別の例として、「A又はB」は、少なくとも:「少なくともA」、「少なくともB」、「AとBの双方」、「AとBの少なくとも双方」を意味する可能性がある。別の例として、「A及び/又はB」は、少なくとも:「A及びB」、「A又はB」を意味する可能性がある。排他的ORが意図される場合、そのような事項は、例えば、「A又はBの何れか」、「A及びBのうち高々1つ」等のように具体的に注記されるであろう。
【0017】
[0021] 本件明細書は、ブロック、要素、構成要素、回路などのような構造に関連する様々な処理機能を説明している。一般に、これらの構造は、1つ以上のコンピュータ・プログラムによって制御されるプロセッサによって実施することが可能である。
【0018】
[0022]
図1は、オーディオ・コンテンツ生成器100のブロック図である。オーディオ・コンテンツ生成器100は、一般に、入力チャネル・ベースのオーディオ信号130を、出力オーディオ信号150であってオーディオ・オブジェクトを含むもの、例えばチャネル及びオブジェクト・ベースのオーディオ信号(修正されたオーディオ信号150とも呼ばれる)に変換する。チャネル・ベースのオーディオ信号130は、一般に、ステレオ信号、例えば2チャネル、5.1チャネル・サラウンド信号、7.1チャネル・サラウンド信号などのようなマルチ・チャネル・オーディオ信号に対応する。チャネル・ベースのオーディオ信号130は、一般に、多数のオーディオ・サンプルを含み、例えば、各チャネルは多数のサンプルを有している。オーディオ・サンプルは、ブロックに配列されていてもよい。本件で更に詳細に説明されるように、オーディオ・コンテンツ生成器100は、ブロック単位で動作し、ここで、各ブロックは、0.20秒から0.30秒の間の持続時間を有する。特定の実施形態によれば、ブロック・サイズは0.25秒であり;この値は、リスナー(又は視聴者)に対して妥当な結果をもたらし、所望に調整されることが可能である。チャネル・ベースのオーディオ信号130は、48 kHzのサンプル・レートを有する可能性があり、その場合、0.25秒のブロック・サイズは、ブロック当たり約12,000サンプルとなる。修正されたオーディオ信号150とも呼ばれる出力オーディオ信号150は、本件で更に詳細に説明されるように、一般に、チャネル・ベースのオーディオ信号130を変換及び修正することにより生じる。
【0019】
[0023] オーディオ・コンテンツ生成器100の構成要素は、1つ以上のコンピュータ・プログラムによって制御される1つ以上のプロセッサによって実施されてもよい。オーディオ・コンテンツ生成器100は、ベッド生成器102、オブジェクト抽出器104、メタデータ推定器106、レンダラ108、ベッド生成器110、レンダラ112、コントローラ114、適応後処理プロセッサ116、及び信号修正器118を含む。オーディオ・コンテンツ生成器100は、簡明化のために本件では詳述されない他の構成要素を含む可能性がある。
【0020】
[0024] ベッド生成器102は、チャネル・ベースのオーディオ信号130を受信し、ベッド生成を実行し、1つ以上のベッド・チャネル132をチャネル・ベースのオーディオ信号130に基づいて生成する。一般に、ベッド・チャネルは、チャネル・ベースのフォーマットで表現されるオーディオ信号成分を含み、ベッド・チャネルの各々は、予め定められた固定された位置でのサウンド再生に対応する。ベッド・チャネルは、ダイレクト信号(direct signals)とも呼ばれる指向性オーディオ信号(directional
audio signals)のためのベッド・チャネルと、拡散信号とも呼ばれる拡散オーディオ信号(diffusive
audio signals)のためのベッド・チャネルとを含む可能性がある。ダイレクト信号は、定められた位置又は定められた方向から生じているように知覚されることになるオーディオに対応する。拡散信号は、例えば、定められた方向から生じているようには知覚されないことになるオーディオに対応し、効率的なオーサリング及び分配のために音場における背景音又は周辺音のような比較的複雑なオーディオ・テクスチャを表現する。具体的には、ベッド・チャネル132は、チャネル・ベースのオーディオ信号130に基づいて生成された拡散信号に対応する。ベッド・チャネル132は、1つ以上の高さチャネルを含んでもよい。
【0021】
[0025] オブジェクト抽出器104は、チャネル・ベースのオーディオ信号130を受信し、オーディオ・オブジェクト抽出を実行し、チャネル・ベースのオーディオ信号130に基づいて1つ以上のオーディオ・オブジェクト134を生成する。各オーディオ・オブジェクト134は、オーディオ・データ及びメタデータに対応し、メタデータは、オブジェクト位置、オブジェクト・サイズ、オブジェクト速度などのような情報を示し;出力システムは、メタデータを使用して、出力端における特定のスピーカー配置に従ってオーディオ・データを出力する。これは、ベッド・チャネル132、即ち1つ以上のスピーカーに特に関連付けられている各ベッド・チャネルを有するものと対比されることが可能である。メタデータは、メタデータ推定器106を参照しながらより詳細に説明される。
【0022】
[0026] オブジェクト抽出器104は、チャネル・ベースのオーディオ信号130を、指向性オーディオ信号と拡散オーディオ信号に分解するように構成された信号分解器を含むことが可能である。これらの実施形態では、オブジェクト抽出器104は、指向性オーディオ信号からオーディオ・オブジェクトを抽出するように構成されてもよい。一部の実施形態では、信号分解器は、成分分解器と確率計算器とを含んでもよい。成分分解器は、チャネル・ベースのオーディオ信号130に対して信号成分分解を実行するように構成される。確率計算器は、分解された信号成分を分析することによって、拡散性に関する確率を計算するように構成される。
【0023】
[0027] 代替的又は追加的に、オブジェクト抽出器104は、スペクトル・コンポーザー及び時間コンポーザーを含んでもよい。スペクトル・コンポーザーは、チャネル・ベースのオーディオ信号130内の各フレームに対して、スペクトル構築を実行して、同じオーディオ・オブジェクトを含むチャネルを識別及び集約するように構成されている。フレームは、所定の時間における信号内の各チャネルについて、予め定められた数の連続するサンプル(典型的には数百)のベクトルである。時間コンポーザーは、時間に沿ってオーディオ・オブジェクトを形成するために、フレームのセットにわたって識別及び集約されたチャネルの時間的合成を実行するように構成される。例えば、スペクトル・コンポーザーは、フレームのセットの各々に対して、ある周波数レンジをサブ・バンドのセットに分割するように構成された分周器を含んでもよい。従って、スペクトル・コンポーザーは、サブ・バンドのセットの中の包絡線及びスペクトル形状のうちの少なくとも1つの類似性に基づいて、同じオーディオ・オブジェクトを含むチャネルを識別及び集約するように構成されてもよい。
【0024】
[0028] メタデータ推定器106は、オーディオ・オブジェクト134を受信し、メタデータ推定を実行し、オーディオ・オブジェクト134に基づいてメタデータ136を生成する。メタデータ136は、一般に、タイムスタンプ及び位置を含み、位置は、(x,y,z)座標として与えられてもよい。メタデータ推定器106は、パン法則反転(panning-law inverting)を使用してメタデータ推定を実行してもよい。所与のオーディオ・オブジェクトの“x”位置を推定するために、メタデータ推定器106は、所与のオーディオ・オブジェクトの左から右へのエネルギー比率のアークタンジェントを計算してもよい。“y”位置を推定するために、メタデータ推定器106は、所与のオーディオ・オブジェクトの背面から前面へのエネルギー比率のアークタンジェントを計算してもよい。“z”位置を推定するために、メタデータ推定器106は、“x”及び“y”位置の推定値を利用して、所定の関数z=f(x,y)を計算してもよい;一実施形態では、fはドーム関数(dome function)であり、そのドーム関数は、x及びyがスピーカー・レイアウトの中央にある場合にz=1のように評価し、x及びyがスピーカー・レイアウトの境界にある場合にz=0のように評価する。
【0025】
[0029] レンダラ108は、ベッド・チャネル132、オーディオ・オブジェクト134、及びメタデータ136を受信し、レンダリングを実行し、ベッド・チャネル132、オーディオ・オブジェクト134、及びメタデータ136に基づいて、レンダリングされたオーディオ信号138を生成する。レンダリングされたオーディオ信号138は、5.1チャネル信号、7.1チャネル信号、5.1.4チャネル信号、7.1.4チャネル信号などの1つ以上を含むチャネル・ベースのオーディオ信号である。レンダリングされたオーディオ信号138は、2つのチャネル・ベースのオーディオ信号を含むことが可能であり、そのうちの1つは、天井チャネル(ceiling channels)を省略する。例えば、レンダリングされたオーディオ信号138は、5.1.4チャネル信号及び5.1チャネル信号、7.1.4チャネル信号及び7.1チャネル信号などを含む可能性がある。
【0026】
[0030] ベッド生成器110は、チャネル・ベースのオーディオ信号130を受信し、ベッド生成を実行し、1つ以上の参照ベッド・チャネル140を生成する。参照ベッド・チャネル140は、直接信号と拡散信号の両方のためのベッド・チャネルを含む。対照的に、ベッド・チャネル132は、拡散信号のみを含む。ベッド発生器110は他の点についてはベッド発生器102と同様であってもよい。
【0027】
[0031] レンダラ112は、参照ベッド・チャネル140を受信し、レンダリングを実行し、参照ベッド・チャネル140に基づいて参照オーディオ信号142を生成する。参照オーディオ信号142は、チャネル・ベースのオーディオ信号であり、5.1チャネル信号、7.1チャネル信号、5.1.4チャネル信号、7.1.4チャネル信号などうちの1つ以上を含む。一般に、参照オーディオ信号は、レンダリングされたオーディオ信号138に使用されるフォーマットと同様のフォーマットを有する;例えば、レンダリングされたオーディオ信号138が5.1.4チャネル信号及び5.1チャネル信号である場合、参照オーディオ信号は5.1.4チャネル信号である。レンダリングされたオーディオ信号138と比較して、参照オーディオ信号142もまた、チャネル・ベースのオーディオ信号130に基づいてレンダリングされる;しかしながら、参照オーディオ信号142は、オーディオ・オブジェクト又はメタデータではなく、ベッド・チャネルに基づいてレンダリングされる。レンダラ112は他の点についてはレンダラ108と同様であってもよい。
【0028】
[0032] コントローラ114は、チャネル・ベースのオーディオ信号130、ベッド・チャネル132、オーディオ・オブジェクト134、メタデータ136、レンダリングされたオーディオ信号138、及び参照オーディオ信号142を受信し、信号メトリックの数を算出し、チャネル・ベースのオーディオ信号130、ベッド・チャネル132、オーディオ・オブジェクト134、メタデータ136、レンダリングされたオーディオ信号138、及び参照オーディオ信号142に基づいて検出スコア144を生成する。信号メトリックは、信号の部分ラウドネス(partial loudnesses)に基づいて算出されてもよい。検出スコア144は、オーディオ・オブジェクト及びベッド・チャネルのうちの1つ又は複数におけるオーディオ・アーチファクトを示す。例えば、ベッド・チャネル132は、ベッド生成器102の特定の動作から生じるオーディオ・アーチファクトを有する可能性があり;オーディオ・オブジェクト134は、オブジェクト抽出器104の特定の動作から生じるオーディオ・アーチファクトを有する可能性があり;又は、ベッド・チャネル132及びオーディオ・オブジェクト134の両方が、オーディオ・アーチファクトを有する可能性がある。コントローラ114の更なる詳細は、
図2を参照しながら説明される。
【0029】
[0033]
図2は、オーディオ処理方法200のフローチャートである。方法200は、1つ以上のコンピュータ・プログラムを実行することが可能な1つ以上のプロセッサによって実施されるように、コントローラ114(
図1参照)によって実行されることが可能である。
図1に関連して説明したように、コントローラ114は4つの入力を受ける。
第1の入力は、オーディオ・オブジェクト134、ベッド・チャネル132、及びメタデータ136であり、これらは、先行する構成要素の出力である。オーディオ・オブジェクト134は、x
obj,iのように記述することが可能であり、ここで、i∈[1,...,I]はオブジェクト・インデックスであり、Iはオブジェクトの数である。ベッド・チャネル132は、x
bed,jのように記述することが可能であり、ここで、j∈[1,...,B]はベッド・チャネル・インデックスであり、Bはベッド・チャネルの数である。メタデータは、m
iのように記述することが可能であり、ここで、i∈[1,...,I]はオブジェクト・インデックスである。
第2の入力は、チャネル・ベースのオーディオ信号130であり、これは、X
inのように記述することができる。
第3の入力は、レンダリングされたオーディオ信号138であり、これは、例えば5.1.4又は7.1.4のような天井チャネルを有するレンダリングされた信号と、例えば5.1又は7.1のような天井チャネルを有しないレンダリングされた信号とを含む可能性があり、これらはそれぞれX
out及びX
out,fのように記述することが可能である。
第4の入力は、参照オーディオ信号142であり、5.1.4又は7.1.4であってもよく、X
refのように記述することが可能である。なお、X
in,X
out,X
out,f,X
refは原文では太文字で記載されている。
概して、コントローラ114は、参照オーディオ信号142を使用して、レンダリングされたオーディオ信号138の品質を検出する。
【0030】
[0034] 上述したように、オーディオ・コンテンツ生成器100(
図1参照)は、チャネル・ベースのオーディオ信号130をブロック毎に順次処理する。ブロック長Lは、L=0.25sのように設定されてもよい。しかしながら、ブロック長は所望の値に変更されることが可能である。
【0031】
[0035] 202において、参照オーディオ信号142(Xrefのように示される)、オーディオ・オブジェクト134(xobj,iのように示される)、ベッド・チャネル132(xbed,jのように示される)、レンダリングされたオーディオ信号138(Xout及びXout,fのように示される)、及びチャネル・ベースのオーディオ信号130(Xinのように示される)の部分ラウドネスの数を算出する;これらの部分ラウドネスはそれぞれxref,ktc,xobj,ikt,xbed,jkt,xout,ktc,xout,f,ktc,xin,ktc のように記述され、ここで、k∈[1,...,K]は周波数バンド・インデックスであり、Kは周波数バンドの総数であり、tは現在のブロック・インデックスであり、c∈[1,...,C]はチャネル・インデックスであり、Cはチャネルの総数である。ラウドネスは、人間が耳にする心理的音響に起因して算出され、ラウドネス情報の評価は音質の評価と相関している。
【0032】
[0036] 204において、式(1)に従って、ベッド・チャネルとオブジェクトのエネルギーに対するオブジェクトのエネルギーの比率rtを計算する:
【0033】
【数1】
[0037] 式(1)において、x
^
obj,tはオーディオ・オブジェクト134のエネルギーであり、式(2)に従って計算することができる:
【0034】
【数2】
[0038] 式(1)において、x
^
bed,tは、ベッド・チャネル132のエネルギーであり、式(3)に従って計算することができる:
【0035】
【数3】
[0039] 式(2)及び(3)において、変数t,i,C,k,K,j,B,k,Kは202に関連して上述したとおりである。式(2)において計算されるオーディオ・オブジェクト134のエネルギーは、式(4)に従って時間にわたって平滑化されてもよい:
【0036】
【数4】
[0040] 式(3)において計算されるベッド・チャネル132のエネルギーは、式(5)に従って時間にわたって平滑化されてもよい:
【0037】
【数5】
[0041] 式(4)及び(5)において、μは平滑化パラメータであり、0.7に設定される可能性があり;この値は、例えば0.6及び0.8の範囲に対して必要に応じて調整されてもよい。例えば、オーディオ・コンテンツ生成器100(
図1参照)のユーザーは、修正されたオーディオ信号150を聞き、評価を行い、平滑化パラメータを調整し、平滑化パラメータが許容可能な結果を生成するまで、反復評価を続けることが可能である。x
^
obj,0及びx
^
bed,0 はゼロに初期化される。
【0038】
[0042] 換言すれば、比率rtは、第1のエネルギーと第2のエネルギーとの比率であり、第1のエネルギーは、オーディオ・オブジェクト134のエネルギーであり、第2のエネルギーは、オーディオ・オブジェクト134のエネルギーとベッド・チャネル132のエネルギーとの和である。比率は、総エネルギーに対する各オブジェクトの寄与を決定するために計算される。
【0039】
[0043] 206において、メタデータ136に基づいて、ブロックt内の各オーディオ・オブジェクト134の平均位置を計算する。先ず第1に、ブロックt内の各オブジェクトiのメタデータmi,pが取得され、ここで、pはブロックtにおける時間サンプルであり、(t-1)*L≦p≦t*L である。第2に、ブロックt内の各オブジェクトiの平均位置mi,tが、式(6)に従って取得される。
【0040】
【数6】
[0044] 式(6)において、Lは前述したブロック長である。第3に、先行するブロック内の位置を用いて、ブロックtにおける平均位置が、式(7)に従って平滑化される。
【0041】
【数7】
[0045] 式(7)において、μ
mは平滑化パラメータである。平滑化パラメータは調整可能であり、概して、0.5ないし1.0の範囲にある;平滑化パラメータの典型的な値は0.7である。例えば、オーディオ・コンテンツ生成器100(
図1参照)のユーザーは、修正されたオーディオ信号150を聞き、評価を行い、平滑化パラメータを調整し、平滑化パラメータが許容可能な結果を生成するまで、反復評価を続けることが可能である。最初のブロックでは、m
i,0はゼロに設定される。換言すれば、オーディオ・オブジェクト134の平均位置は、所与のオブジェクトのブロック間の潜在的な不連続性を検査するために計算される。
【0042】
[0046] 208において、部分ラウドネスに基づいてブースト・スコアscoreijの数を計算し、部分ラウドネスは、
チャネル・ベースのオーディオ信号130の部分ラウドネスxin,ktc,
参照オーディオ信号142の部分ラウドネスxref,ktc,
オーディオ・オブジェクト134の部分ラウドネスxobj,ikt,
レンダリングされたオーディオ信号138の部分ラウドネスxout,ktc及びxout,f,ktcを含む。
最終ブースト・スコアboostscoreは、2つ以上のブースト・スコアを選択することに基づいて算出され;実施形態によれば、最終ブースト・スコアを算出するために2つの最大ブースト・スコアが加算される。最終ブースト・スコアboostscoreを算出する全詳細は、次の8つのステップで詳述される。
【0043】
[0047] 先ず第1に、部分ラウドネスの全てのバンドの和、例えば信号エネルギーが、式(8.1,8.2,8.3,8.4,8.5)に従って計算される:
【0044】
【数8】
[0048] 第2に、総ラウドネスの各チャネルの比率が、式(9.1,9.2,9.3,9.4)に従って計算される:
【0045】
【数9】
[0049] 第3に、部分ラウドネスの各々と前のブロックとの差分が、式(10.1,10.2,10.3)に従って計算される:
【0046】
【数10】
[0050] 換言すれば、d
out,tcは、レンダリングされたオーディオ138の現在のブロックの部分ラウドネスx
out,tc,rと、レンダリングされたオーディオ138の前のブロックの部分ラウドネスx
^
out,(t-1)c,rとの間の差分に対応する。同様に、d
ref,tcは、参照オーディオ142の現在のブロックの部分ラウドネスx
ref,tc,rと、参照オーディオ142の前のブロックの部分ラウドネスx
^
ref,(t-1)c,rとの間の差分に対応する。前のブロックの部分ラウドネスは、それらが平滑化されていることを示すためにキャレット(caret)(^)とともに記述されていることに留意されたい;下記220参照。
【0047】
[0051] 第4に、各ブロックの位置(mi,t)と前のブロックの位置(m^
i,t-1)との差分dm,tは、式(11)に従って計算される:
【0048】
【数11】
[0052] 式(11)において、位置m
i,tは206で算出されてもよい。前のブロックの位置は、それらが平滑化されたことを示すためにキャレット(^)とともに記述されていることに留意されたい;下記220参照。
【0049】
[0053] 第5に、オブジェクトのエネルギー比率が閾値θを超えているオブジェクトのインデックスfが、TABLE 1のプロセスに従って算出される:
TABLE 1
【0050】
【表1】
[0054] 換言すれば、1行目において、エネルギー比が算出される。2行目において、エネルギー比率が閾値θを超えるならば、そのオブジェクトiはインデックスに加えられる;越えないならば、そのオブジェクトはインデックスに加えられない。このようにして、静かなオブジェクト、例えば、そのエネルギー比率が閾値を超えないものは、インデックス化されない。閾値は望まれるように調整されることが可能であり;閾値の一般的な範囲は0.0ないし0.5の間にあり、良好に機能する典型的な値は0.2である。例えば、オーディオ・コンテンツ生成器100(
図1参照)のユーザーは、修正されたオーディオ信号150を聞き、評価を行い、閾値を調整し、閾値が許容可能な結果を生成するまで、反復評価を続けることが可能である。
【0051】
[0055] 第6に、レンダリングされたオーディオ信号138(xout,tc,r)と参照オーディオ信号142(xref,tc,r)との間のラウドネスの比率の差分と、レンダリングされたオーディオ信号138(xour,f,tc,r)とチャネル・ベースのオーディオ信号130(xin,tc,r)との間のラウドネスの比率の差分とが、式(12.1,12.2)に従って算出される:
【0052】
【数12】
[0056] 換言すれば、ラウドネスの差分d
tc,r及びd
tc,f,rは、レンダリングされたオーディオ信号138と参照オーディオ信号142との間、及びレンダリングされたオーディオ信号138とチャネル・ベースのオーディオ信号130との間で対応するチャネルにおけるエネルギー変化が存在するかどうかを検出するために使用される。
【0053】
[0057] 第7に、ウェイト・スコアwij,相関スコアcorij,差分スコアdiffijが計算される。これらの計算には、7つのサブ・ステップを含む。サブ・ステップ1において、dti,r<0.0であり、i≦5であるのはC=9の場合である、又はi≦7であるのはC=11の場合である(dti,r<0.0
and also i≦5 if C=0 or i≦7 if
C=11)ようなインデックスiを見出す。Cは202で議論されるようなチャネルの総数である。これは、5.1から5.1.4、及び5.1又は7.1から7.1.4のレンダラに対して、これらのチャネルが、水平面チャネルにおいてエネルギー減少を有することのみを考慮していることを意味する。
【0054】
[0058] サブ・ステップ2において、dtj,r>0.0 であるようなインデックスjを見出す。これは、どのチャネルがエネルギー増加を有するかを見出すために使用される。
【0055】
[0059] サブ・ステップ3において、チャネル・インデックスi及びjが同じ空間領域にあるかどうかを検査する。
図3A-3Bに示されるマッピングは、この判定を行うために使用される。
図3Aは、9個のチャネルを有する5.1.4に関するチャネル番号と領域との間のマッピングを示し、
図3Bは、11個のチャネルを有する7.1.4に関するチャネル番号と領域との間のマッピングを示す。
【0056】
[0060] C=9の場合、
図3Aを使用し、i=1及びj=3,4,6,8であるならば、i,jは同じ領域にある。
i=2及びj=3,5,7,9であるならば、i,jは同じ領域にある。
i=3及びj=1,2,6,7であるならば、i,jは同じ領域にある。
i=4及びj=6,8であるならば、i,jは同じ領域にある。
i=5及びj=7,9であるならば、i,jは同じ領域にある。
[0061] C=11の場合、
図3Bを使用し、i=1及びj=3,4,6,8,10であるならば、i,jは同じ領域にある。
i=2及びj=3,5,7,9,11であるならば、i,jは同じ領域にある。
i=3及びj=1,2,8,9であるならば、i,jは同じ領域にある。
i=4,6及びj=6,8,10であるならば、i,jは同じ領域にある。
i=5,7及びj=7,9,11であるならば、i,jは同じ領域にある。
[0062] チャネル・インデックスi,jが同じ空間領域にある場合、ウェイト・スコアw
ijを計算し、サブ・ステップ4に進み;そうでなければ再びサブ・ステップ1に進む。
【0057】
[0063] ウェイト・スコアwijは、隣接するブロック間でのチャネルjにおけるエネルギー変化の程度を示す。ウェイト・スコアwijは、式(13)に従って算出することが可能である:
【0058】
【数13】
[0064] 換言すれば、ウェイト・スコアは、レンダリングされたオーディオ138のラウドネスの差分(d
out,tj,式(10.1)参照)と、参照オーディオ142のラウドネスの差分(d
ref,tj,式(10.2)参照)との間の差分に対応する。
【0059】
[0065] サブ・ステップ4において、ウェイト・スコアは、TABLE 2の何れかの条件(Condition 1-6)が満たされる場合に、wij=0に設定するように更新される:
TABLE 2
【0060】
【表2】
[0066] これらのパラメータθ
1ないしθ
17は閾値である。一般に、閾値は、TABLE 2の何れかの条件が満たされる場合に、所与のウェイト・スコアがゼロに設定されるような値に設定される。このようなケースでは、抽出されたオブジェクトにアーチファクトが出現する確率は小さく、そのため、最終的なスコアも小さくするために、ウェイト・スコアは0に設定される。例えば、条件4の場合、d
m,fが小さければ、オブジェクトは連続的であり、アーチファクトは存在しない。条件5の場合、r
tが大きければ、入力内のほとんどの内容はオブジェクトに抽出され、アーチファクトは存在しない。デフォルト値の例は次のとおりである:
θ
1= -0.1,
θ
2= 0.1,
θ
3= -0.1,
θ
4= 0.1,
θ
5= -0.15,
θ
6= 0.15,
θ
7= -0.25,
θ
8= 0.25,
θ
9= 0.5,
θ
10= -0.35,
θ
11= 0.35,
θ
12= -0.02,
θ
13= 0.02,
θ
14= -0.01,
θ
15= 0.01,
θ
16= 0.7,
θ
17= 0.1,
[0067] サブ・ステップ5において、t-1ブロックでのチャネルiの部分ラウドネスx
out,k(t-1)iとtブロックでのチャネルjの部分ラウドネスx
out,ktjとの間の相関corr
ijを算出する。これは、レンダリングされたオーディオ138に関し、チャネルiでのコンテンツ・エネルギーとチャネルjでのコンテンツ・エネルギーが相関しているかどうかを検査するために使用される。
【0061】
[0068] サブ・ステップ6において、以下の2つのステップに従って、チャネルiとチャネルjのラウドネス比率の間の差分スコアdiffijを算出する。先ず第1に、チャネルiとチャネルjの間の位置ウェイト・パラメータpijを算出する。位置ウェイト・パラメータpijは、TABLE 3のプロセスに従って計算することができる:
TABLE 3
【0062】
【表3】
[0069] 換言すれば、TABLE 3のプロセスは、チャネルi及びチャネルjがフロントにある場合には(
図3A-3B参照)、位置ウェイトを増加させるために使用されており、なぜならフロント・チャネルはリスニングにとってより重要だからである。
【0063】
[0070] 第2に、式(14)に従って差分スコアdiffijを算出する:
【0064】
【数14】
[0071] 式(14)において、関数f
1は、p
ij,d
tj,r,d
ti,rの組み合わせ(combination)である。f
1の一例は式(15)によって与えられる:
【0065】
【数15】
[0072] 換言すれば、差分スコアは、チャネルに対するラウドネスの比率の差分(式(12.1)参照)の間の差分であって、位置ウェイト・パラメータp
ijによってスケーリングされたものに対応する。差分スコアはチャネルjにおけるエネルギー・ブーストの程度を示す。
【0066】
[0073] サブ・ステップ7において、現在のi,jペアのブースト・スコアscoreijが、式(16)を用いて計算される:
【0067】
【数16】
[0074] 式(16)において、関数f
2は、corr
ij,w
ij,diff
ijの組み合わせである。f
2の一例は式(17)によって与えられる:
【0068】
【数17】
[0075] 換言すれば、ブースト・スコアは、チャネル間の部分ラウドネスの相関(corr
ij,上記サブ・ステップ5参照)と、隣接するブロック間のチャネルにおけるエネルギー変化の程度(ウェイト・スコアw
ij,式(13)参照)と、チャネルのラウドネス比率の差分スコア(diff
ij,上記サブ・ステップ6参照)との積である。従って、チャネルjにおけるエネルギー・ブーストの程度が高い場合であり、チャネルi及びjにおける内容が大きく相関する場合であり、且つチャネルjにおける内容が隣接ブロック間で速やかに変化する場合に、最終的なブースト・スコアは高くなる。
【0069】
[0076] 第8に、2つの最も高い差分スコアdiffijを用いて最終ブースト・スコアboostscoreを計算する。例えば、最大の差分スコアがブースト・スコアscoreAの成分であり、次に大きな差分スコアがブースト・スコアscoreBの成分である場合、最終ブースト・スコアboostscoreは式(18)に従って算出されることが可能である:
【0070】
【数18】
[0077] 210において、レンダリングされたオーディオ138(d
out,tc)と参照オーディオ142(d
ref,tc)の部分ラウドネスの間の偏差メトリック(deviation
metrics)を算出する。偏差メトリックは、std
out,t,std
ref,t,std
dif,t,std
r,tを含む。std
out,tを取得するために全てのチャネルについてd
out,tcの標準偏差が算出される。std
ref,tを取得するために全てのチャネルについてd
ref,tcの標準偏差が算出される。std
out,t及びstd
ref,tの偏差差分std
dif,tを、式(19)に従って算出することが可能である:
【0071】
【数19】
[0078] 換言すれば、偏差差分は、レンダリングされたオーディオ138の部分ラウドネスの標準偏差と参照オーディオ142の部分ラウドネスの標準偏差との間の差分である。
【0072】
[0079] stdout,t及びstdref,tの偏差比率stdr,tを、式(20)に従って算出することが可能である:
【0073】
【数20】
[0080] 換言すれば、偏差比率は、閾値パラメータと比率のうちの最小値であり、その比率は、レンダリングされたオーディオ138の部分ラウドネスの標準偏差と、参照オーディオ142の部分ラウドネスの標準偏差との比率である。閾値パラメータratio_thresholdは、偏差比率の上限として機能する。閾値パラメータの典型的な値は8である;この値は、std
out,t/std
ref,tが十分に大きい場合に、std
r,tを、比率std
out,t/std
ref,tに対してより敏感にするために増やされるか、或いは、std
r,tを、比率std
out,t/std
ref,tの外れ値(outliers)に対して堅牢にするために減らされることが可能である。例えば、比率std
out,t/std
ref,tは大きいがアーチファクトは存在しない場合、閾値パラメータratio_thresholdは低減されるべきである。
【0074】
[0081] 212において、ブロックtの連続性スコアconscoreを、式(21)に従って算出する:
【0075】
【数21】
[0082] 式(21)において、関数f
3は、std
dif,t,std
r,t,boost
scoreの組み合わせである。f
3の一例は式(22)によって与えられる:
【0076】
【数22】
[0083] 換言すれば、連続性スコアは、双曲線正接関数は正の数に適用されることに起因して、0と1の範囲内にあり、また、例えば、偏差差分、偏差比率、及び最終ブースト・スコアのような組み合わせの1つ以上の成分を増やすと増加する。
【0077】
[0084] 214において、オブジェクト・エネルギーのウェイトobjscoreを式(23)に従って算出する:
【0078】
【数23】
[0085] 式(23)において、f
4はエネルギー比率r
t(式(1)参照)に基づいている。f
4の一例は式(24)によって与えられる:
【0079】
【数24】
[0086] 換言すれば、オブジェクト・エネルギーのウェイトobj
scoreは、双曲線正接関数がゼロの最小値を有する二乗値に適用されることに起因して、1から約1.25の範囲内にあり、エネルギー比率r
tが0.5を上回って増加すると増加する。要するに、オブジェクト・エネルギーのより大きなウェイトは、より大きなエネルギーのオブジェクトの結果として生じる。
【0080】
[0087] 216において、レンダリングされたオーディオ信号138のラウドネス・ウェイトloudscoreを算出する。まず第1に、レンダリングされたオーディオ信号138の総ラウドネスxout,tが、式(25)に従って算出される:
【0081】
【数25】
[0088] 換言すれば、総ラウドネスx
out,tは、レンダリングされたオーディオ信号138の部分ラウドネス(x
out,tc,式(8.2)も参照されたい)の全てのチャネルCにわたる合計である。
【0082】
[0089] 第2に、ラウドネス・ウェイトloudscoreが、式(26)に従って算出される:
【0083】
【数26】
[0090] 式(26)において、関数f
5は、総ラウドネスx
out,t に基づいている。f
5の一例は式(27)によって与えられる:
【0084】
【数27】
[0091] 換言すれば、ラウドネス・ウェイトloud
scoreは、双曲線正接関数が正の数に適用されることに起因して、0ないし1の範囲内にあり、総ラウドネスx
out,tが増加するにつれて増加する。従って、より大きなラウドネス・ウェイト・スコアは、レンダリングされたオーディオ信号138のラウドネスのより大きな値の結果生じる。
【0085】
[0092] 218において、ブロックに対する検出スコアscoretを式(28)に従って算出する:
【0086】
【数28】
[0093] 換言すれば、検出スコアscore
tは、連続性スコアcon
score(式(21)も参照されたい)と、オブジェクト・エネルギーのウェイトobj
score(式(23)も参照されたい)と、ラウドネス・ウェイトloud
score(式(26)も参照されたい)との組み合わせである。f
6の一例は式(29)によって与えられる:
【0087】
【数29】
[0094] 換言すれば、検出スコアscore
tは、連続性スコアcons
coreと、オブジェクト・エネルギーのウェイトobj
scoreと、ラウドネス・ウェイトloud
scoreとの積である。一般に、検出スコアは、その構成要素の1つ以上が増加するにつれて増加する。
【0088】
[0095] 220において、レンダリングされたオーディオ信号138の総ラウドネスの比率(xout,tc,r)と、参照オーディオ信号142の総ラウドネスの比率(xref,tc,r)と、各オーディオ・オブジェクト134のエネルギー(xobj,it)と、各オーディオ・オブジェクト134の位置(mi,t)とは、それぞれ平滑化される。レンダリングされたオーディオ信号138の総ラウドネスの平滑化された比率は、x^
out,tc,rとして記述され、式(30.1)に従って算出されることが可能である:
【0089】
【数30】
[0096] 式(30.1)において、レンダリングされたオーディオ信号138の総ラウドネスの比率(x
out,tc,r)は、式(9.1)に従って算出されることが可能である。
【0090】
[0097] 参照オーディオ信号142の総ラウドネスの平滑化された比率は、x^
ref,tc,rとして記述され、式(30.2)に従って算出されることが可能である:
【0091】
【数31】
[0098] 式(30.2)において、参照オーディオ信号142の総ラウドネスの比率(x
ref,tc,r)は、式(9.2)に従って算出されることが可能である。
【0092】
[0099] オーディオ・オブジェクト142の各々の平滑化された比率は、x^
obj,itとして記述され、式(30.3)に従って算出されることが可能である:
【0093】
【数32】
[0100] 式(30.3)において、オーディオ・オブジェクト134の各々のエネルギー(x
obj,it)は、式(8.1)に従って算出されることが可能である。
【0094】
[0101] オーディオ・オブジェクト142の各々の平滑化された位置は、m^
i,tとして記述され、式(30.4)に従って算出されることが可能である:
【0095】
【数33】
[0102] 式(30.4)において、オーディオ・オブジェクト134の各々の位置(m
i,t)は、式(6)に従って算出されることが可能である。
【0096】
[0103] 式(30.1,30.2,30.3,30.4)では、現在のブロック(t)の各信号の値は、前のブロック(t-1)の値を用いて、平滑化パラメータ(μ)に従って平滑化される。平滑化パラメータのデフォルト値は0.5である。平滑化パラメータは、例えば、修正されたオーディオ信号150を聴く評価に従って、オーディオ・コンテンツ生成器100(
図1参照)のユーザーによって望まれるように調整されることが可能である。
評価の結果、修正されたオーディオ信号150が望ましくない、例えば、不連続性を含む、ということであるならば、平滑化パラメータは増される可能性がある。
評価の結果、修正されたオーディオ信号150が望ましい、例えば、不連続性を含まない、ということであるならば、平滑化パラメータは減らされ、ベッド生成及びオブジェクト抽出の現在の結果に対する、修正されたオーディオ信号150の応答性を高めることが可能である。
【0097】
[0104] 式(30.1,30.2,30.3,30.4)に従って算出される平滑化された値は、次のブロックについて式(10.1,10.2,10.3,11)を計算する際に使用される;上記208参照。
【0098】
[0105]
図1に戻り、適応後処理プロセッサ116は、検出スコア144を受け取り、平均化及び平滑化を実行し、検出スコア144に基づいてパラメータ146を生成する。適応後処理プロセッサ116は、ブロック単位で動作することが可能である。平均化を実行するために、適応後処理プロセッサ116は、TABLE 4で詳細に説明されるプロセスに従って、K個の先行ブロックとK個の後続ブロックの検出スコアを平均化することにより、所与のブロックtに関する平均検出スコア
【0099】
【数34】
を算出することが可能である:
TABLE 4
【0100】
【表4】
[0106] 換言すれば、1行目において、平均検出スコアはゼロに初期化される。2行目において、ブロック・カウントiはt-Kからt+Kまでループさせられる。第3-4行目において、ウェイトwが計算され、ウェイトは、所与のブロックtから先行ブロック又は後続ブロックに向かって遠ざかるほど減らされる。第4行目において、指数関数は、必要に応じて別の関数に置き換えられてもよく;一般に、ウェイトwはdisが増えるにつれて減少する。第5行目において、ウェイトが各ブロックの検出スコアに適用され、重み付けされた検出スコアが加算されて平均検出スコアが生成される。
【0101】
[0107] TABLE 4のプロセスにおいて、パラメータKは、1ないし15の範囲内にある可能性のある調整可能な値である。Kを増加させることは、連続性検出の閾値を増加させることに対応し、Kを減少させることは、不連続検出の閾値を減少させることに対応する。良好に動作するKの値は5及び10である可能性がある。適応後処理プロセッサ116は、5の値とともに開始してもよく、ユーザーは、修正されたオーディオ150を生成する結果を評価することが可能であり;結果が許容できない場合、ユーザーはKを10に調整し、結果を評価することが可能である。
【0102】
[0108] 要するに、適応ポスト・プロセッサ116は、1つ以上のブロックを見るために(即ち、考察対象とするために)平均化を実行して、検出スコア144に基づいて不連続性を特定する。
【0103】
[0109] 平滑化を実行するために、適応後処理プロセッサ116は、TABLE 5に詳述されるプロセスに従って平均検出スコアを調整することが可能である:
TABLE 5
【0104】
【表5】
[0110] パラメータa
f及びa
l(エイエル)は平滑化パラメータであり;それらの合計は1.0である。a
fに対する値は0.60及び0.80の範囲内にある可能性があり;0.70という値は良好に機能する可能性がある。a
l(エイエル)に対する値の0.20及び0.40の範囲内にある可能性があり;0.30という値は良好に機能する可能性がある。ユーザーは、修正されたオーディオ150を生成する結果を評価することが可能であり;その結果が許容できないものである場合、ユーザーは、平滑化パラメータを調整し、その結果を評価することが可能である。
【0105】
[0111] 換言すれば、1-2行目において、現在のブロックの平均検出スコアが前のブロックの平均検出スコアよりも大きいか又は等しい場合、現在のブロックの平均検出スコアは、前のブロックの平均検出スコアに向かって少し調整される、例えば減らされる。3-4行目において、現在のブロックの平均検出スコアが前のブロックの平均検出スコアよりも小さい場合、現在のブロックの平均検出スコアは、前のブロックの平均検出スコアに向かって少し調整される、例えば増やされる。
【0106】
[0112] 要するに、適応後処理プロセッサ116は、連続するブロック間の検出スコアの変化を減少させ、警報率(alarm rate)の閾値を減少させる平滑化を実行することを、偽警報率(false alarm rate)を増加させることを犠牲にして実行して、システムを、不連続性検出に対してより敏感にする。
【0107】
[0113] 信号修正器118は、チャネル・ベースのオーディオ信号130、ベッド・チャネル132、オーディオ・オブジェクト134、及びパラメータ146を受信し、信号修正を実行し、チャネル・ベースのオーディオ信号130、ベッド・チャネル132、オーディオ・オブジェクト134、及びパラメータ146に基づいて、修正されたオーディオ信号150を生成する。修正されたオーディオ信号150は、修正されたオーディオ・オブジェクトと修正されたベッド・チャネルとを含む。修正されたオーディオ・オブジェクトは、パラメータ146に従って修正されたオーディオ・オブジェクト134に対応する。修正されたベッド・チャネルは、パラメータ146に従って修正されたベッド・チャネル132に対応する。修正されたオーディオ信号150はまた、メタデータ136を含むことも可能である。信号修正器118は、入力を以下のように修正することが可能である。
【0108】
[0114] 先ず、信号修正器118は、ミキシング・パラメータwetdrytを、式(31)に従って算出する:
【0109】
【数35】
[0115] 平均検出スコアscore
^
tは、上述の適応後処理プロセッサ116によって算出される。換言すれば、ミキシング・パラメータwetdry
tは、元の入力、例えば、チャネル・ベースのオーディオ信号130と、抽出された信号、例えば、オーディオ・オブジェクト134及びベッド・チャネル132との間のクロスフェード又はミキシングとして機能する。ミキシング・パラメータは、0(例えば、バイパス)から、1(例えば、抽出されたオーディオ・オブジェクト134及びベッド・チャネル132の全影響を適用すること)までの範囲内にある。
【0110】
[0116] 信号修正器118は、抽出されたオーディオ・オブジェクト134を式(32)に従って修正する:
【0111】
【数36】
[0117] 信号修正器118は、どのチャネルが修正されるのかに応じて、ベッド・チャネル132を別様に修正する。左、右、中央のチャネル(j=L,R,C)に関し、信号修正器118は、式(33.1)に従って、ベッド・チャネル132の修正を実行する:
【0112】
【数37】
[0118] 左側サラウンド・チャネル及び左後サラウンド・チャネル(j=Lss,Lrs)に関し、信号修正器118は、式(33.2)に従って、ベッド・チャネル132の修正を実行する:
【0113】
【数38】
[0119] 右側サラウンド・チャネル及び右後サラウンド・チャネル(j=Rss,Rrs)に関し、信号修正器118は、式(33.3)に従って、ベッド・チャネル132の修正を実行する:
【0114】
【数39】
[0120] 換言すれば、信号修正器118は、修正されたオーディオ信号150を生成するためにミキシング・パラメータを使用して、抽出された信号、例えばベッド・チャネル132又はオーディオ・オブジェクト134と、元の信号、例えばチャネル・ベースのオーディオ信号130とをクロスフェードする。
【0115】
[0121]
図4は、実施形態による本件で説明される特徴及びプロセスを実施するためのデバイス・アーキテクチャ400である。アーキテクチャ400は任意の電子デバイスで実施されてもよく:デスクトップ・コンピュータ、コンシューマ・オーディオ/ビジュアル(AV)機器、無線放送機器、モバイル・デバイス、例えば、スマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ、ウェアラブル・デバイスなどを含むが、これらに限定されない。図示の例示的な実施形態では、アーキテクチャ400は、ラップトップ・コンピュータ用であり、プロセッサ401、周辺機器インターフェース402、オーディオ・サブシステム403、スピーカー404、マイクロホン405、センサー406(例えば、加速度計、ジャイロ、気圧計、磁力計、カメラなど)、位置プロセッサ407(例えば、GNSS受信機など)、無線通信サブシステム408(例えば、Wi-Fi、Bluetooth(登録商標)、セルラーなど)、及びI/Oサブシステム409(タッチ・コントローラ410及びその他の入力コントローラ411、タッチ表面412、及びその他の入力/制御デバイス413を含むもの)を含む。より多くの又はより少ない構成要素を備える他のアーキテクチャを、開示された実施形態を実施するために使用することも可能である。
【0116】
[0122] メモリ・インターフェース414は、プロセッサ401、周辺機器インターフェース402、及びメモリ415(例えば、フラッシュ、RAM、ROMなど)に結合される。メモリ415は、コンピュータ・プログラム命令及びデータであって、オペレーティング・システム命令416、通信命令417、GUI命令418、センサー処理命令419、電話命令420、電子メッセージ命令421、ウェブ・ブラウジング命令422、オーディオ処理命令423、GNSS/ナビゲーション命令424、及びアプリケーション/データ425を含むが、これらに限定されないものを格納する。オーディオ処理命令423は、本件で説明されるオーディオ処理を実行するための命令を含む。
【0117】
[0123] 実施形態によれば、アーキテクチャ400は、PC又はラップトップ・コンピュータであって、チャネル・ベースのオーディオ信号130(
図1参照)から、修正されたオーディオ信号150を生成するために、オーディオ・エンジニアが使用するものに対応する可能性がある。
【0118】
[0124]
図5は、オーディオ処理の方法500のフローチャートである。方法500は、例えば、1つ以上のコンピュータ・プログラムを実行することによって、オーディオ・コンテンツ生成器100(
図1参照)などの機能を実施するために、
図4のアーキテクチャ400の構成要素を備えたデバイス(例えば、ラップトップ・コンピュータ、携帯電話など)によって実行される可能性がある。
【0119】
[0125] 502において、チャネル・ベースのオーディオ信号が受信される。例えば、オーディオ・コンテンツ生成器100(
図1参照)は、例えばメモリ415(
図4参照)におけるストレージから、チャネル・ベースのオーディオ信号130を受信することができる。
【0120】
[0126] 504において、チャネル・ベースのオーディオ信号に基づいて、参照オーディオ信号が生成される。例えば、レンダラ112(
図1参照)は、チャネル・ベースのオーディオ信号130に基づいて、参照オーディオ信号142を生成することができる。
【0121】
[0127] 506において、オーディオ・オブジェクト及びベッド・チャネルが、チャネル・ベースのオーディオ信号に基づいて生成される。例えば、チャネル・ベースのオーディオ信号130に基づいて、ベッド生成器102(
図1参照)はベッド・チャネル132を生成し、オブジェクト生成器104はオーディオ・オブジェクト134を生成することができる。
【0122】
[0128] 508において、レンダリングされたオーディオ信号が、オーディオ・オブジェクト及びベッド・チャネルに基づいて生成される。例えば、レンダラ108(
図1参照)は、オーディオ・オブジェクト134及びベッド・チャネル132に基づいて、レンダリングされたオーディオ信号138を生成することができる。また、レンダラ108は、レンダリングされたオーディオ信号138を生成する場合に、メタデータ136を使用することも可能である。
【0123】
[0129] 510において、検出スコアが、多数の信号の部分ラウドネスに基づいて生成され、ここで、多数の信号は、参照オーディオ信号、オーディオ・オブジェクト、ベッド・チャネル、レンダリングされたオーディオ信号、及びチャネル・ベースのオーディオ信号を含む。検出スコアは、複数のオーディオ・オブジェクト及び複数のベッド・チャネルのうちの1つ又は複数におけるオーディオ・アーチファクトを示す。例えば、コントローラ114(
図1参照)は、参照オーディオ信号142、オーディオ・オブジェクト134、ベッド・チャネル132、レンダリングされたオーディオ信号138、及びチャネル・ベースのオーディオ信号130の部分ラウドネスに基づいて、検出スコア144を生成することができる。コントローラ114は、検出スコア144を生成する場合に、
図2の方法200に示されるステップのうちの1つ以上を含む、1つ以上のサブ・ステップを実施することができる。
【0124】
[0130] 512において、検出スコアに基づいてパラメータが生成される。例えば、適応後処理プロセッサ116(
図1参照)は、検出スコア144に基づいてパラメータ146を生成することができる。適応後処理プロセッサ116は、ブロック単位で動作し、パラメータを生成する場合に、現在のブロックの前後のブロックを見る(即ち、考察対象範囲を定める)調整可能な閾値を含んでもよい。
【0125】
[0131] 514において、修正されたオーディオ・オブジェクト及び修正されたベッド・チャネルが、チャネル・ベースのオーディオ信号、オーディオ・オブジェクト、ベッド・チャネル、及びパラメータに基づいて生成される。例えば、信号修正器118(
図1参照)は、チャネル・ベースのオーディオ信号130、オーディオ・オブジェクト134、ベッド・チャネル132、及びパラメータ146に基づいて、例えば、修正されたオーディオ・オブジェクト及び修正されたベッド・チャネルを含む修正されたオーディオ信号150を生成することができる。信号修正器118は、元の入力(例えば、チャネル・ベースのオーディオ信号130など)と、抽出された信号(例えば、オーディオ・オブジェクト134及びベッド・チャネル132など)との間のクロスフェードとして動作するミキシング・パラメータを含んでもよい。
【0126】
[0132] 修正されたオーディオ信号150は、次いで、例えばソリッド・ステート・メモリにおけるもののようなデバイスのメモリに記憶され、例えばクラウド・ストレージのために別のデバイスへ送信され、オーディオ・プレゼンテーションにレンダリングされ、例えば1つ又は複数のスピーカーなどを使用してサウンドとして出力されることが可能である。
【0127】
[0133] 方法500は、本件で説明されるように、オーディオ・コンテンツ生成器100などの他の機能に対応する追加のステップを含んでもよい。
【0128】
[0134] 実装の詳細
[0135] 実施形態は、ハードウェア、コンピュータ可読媒体に記憶された実行可能モジュール、又はそれら両方の組み合わせ、例えばプログラマブル論理アレイなどで実施することが可能である。別意に指定されていない限り、実施形態によって実行されるステップは、特定の実施形態におけるものであってもよいが、本質的に何らかの特定のコンピュータ又はその他の装置に関連することを必須としていない。特に、種々の汎用マシンが、本件における教示に従って書かれたプログラムとともに使用されてもよく、あるいは、必要な方法ステップを実行するために、より特殊な装置、例えば集積回路などを構築することがより便利であるかもしれない。従って、実施形態は、1つ以上のプログラム可能なコンピュータ・システムであって、少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム(揮発性及び不揮発性メモリ及び/又は記憶素子を含む)、少なくとも1つの入力デバイス又はポート、及び少なくとも1つの出力デバイス又はポートをそれぞれが含むものにおいて動作する1つ以上のコンピュータ・プログラムで実施されることが可能である。プログラム・コードは、本件で説明される機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、既知の方法で1つ以上の出力デバイスに適用される。
【0129】
[0136] このようなコンピュータ・プログラムの各々は、記憶媒体又はデバイスがコンピュータ・システムによって読み込まれて本件で説明される手順を実行する場合にコンピュータを構築及び動作させるために、汎用又は専用のプログラム可能なコンピュータによって読み取り可能な記憶媒体又はデバイス(例えば、ソリッド・ステート・メモリ又は媒体、磁気又は光学媒体など)に記憶又はダウンロードされることが好ましい。本発明のシステムは、コンピュータ・プログラムで構成されたコンピュータ読み取り可能な記憶媒体として実施されるように想定されてもよく、その場合において、そのように構成された記憶媒体は、コンピュータ・システムを、特定の所定の方法で動作させて、本件で説明された機能を実行する。ソフトウェア自体であって無形の又は一時的な信号は、特許を受けることができない対象である範囲内にある点では除外される。
【0130】
[0137] 本件で説明されるシステムの態様は、デジタル又はデジタル化されたオーディオ・ファイルを処理するための適切なコンピュータ・ベースのサウンド処理ネットワーク環境で実施されてもよい。適応オーディオ・システムの一部は、コンピュータ間で伝送されるデータをバッファリング及びルーティングするように機能する1つ以上のルーター(図示せず)を含む、任意の所望数の個々のマシンを含む1つ以上のネットワークを含む可能性がある。このようなネットワークは、様々な異なるネットワーク・プロトコルにおいて構築されてもよく、インターネット、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、又はそれらの任意の組み合わせであってもよい。
【0131】
[0138] 構成要素、ブロック、プロセス、又はその他の機能的な構成要素のうちの1つ以上は、システムのプロセッサ・ベースの演算デバイスの実行を制御するコンピュータ・プログラムを介して実装されてもよい。また、本件で開示される様々な機能は、ハードウェア、ファームウェアの任意の数の組み合わせを使用して、及び/又は、それらの動作、レジスタ転送、論理構成要素、及び/又はその他の特性に関して、様々な機械読み取り可能な媒体又はコンピュータ読み取り可能な媒体に具現化されるデータ及び/又は命令として、説明される可能性があることに留意されたい。そのようなフォーマットされたデータ及び/又は命令が組み込まれる可能性のあるコンピュータ読み取り可能な媒体は、光学、磁気、又は半導体記憶媒体のような様々な形態における物理的な、非一時的な、不揮発性の記憶媒体を含むが、これらに限定されない。
【0132】
[0139] 上記の説明は、本開示の様々な実施形態を、本開示の態様がどのように実施され得るかの例とともに示している。上記の例及び実施形態は、その実施形態だけであるように見なされるべきではなく、以下のクレームによって規定される本開示の柔軟性及び利点を説明するために提示されている。上記の開示及びクレームに基づいて、他の配置、実施形態、実装及び均等物が当業者には明らかであり、クレームによって規定される開示の精神及び範囲から逸脱することなく使用される可能性がある。
【0133】
[0140] 本発明の様々な態様は、以下に列挙される例示的な実施形態(enumerated example embodiments,EEEs)により理解することができる。
【0134】
(EEE1)
コンピュータが実行するオーディオ処理方法であって:
チャネル・ベースのオーディオ信号を受信するステップ;
チャネル・ベースのオーディオ信号に基づいて参照オーディオ信号を生成するステップ;
チャネル・ベースのオーディオ信号に基づいて、複数のオーディオ・オブジェクトと複数のベッド・チャネルとを生成するステップ;
複数のオーディオ・オブジェクトと複数のベッド・チャネルに基づいて、レンダリングされたオーディオ信号を生成するステップ;
複数の信号の複数の部分ラウドネスに基づいて検出スコアを生成するステップであって、複数の信号は、参照オーディオ信号と、複数のオーディオ・オブジェクトと、複数のベッド・チャネルと、レンダリングされたオーディオ信号と、チャネル・ベースのオーディオ信号とを含み、検出スコアは、複数のオーディオ・オブジェクトと複数のベッド・チャネルのうちの1つ以上におけるオーディオ・アーチファクトを示す、ステップ;
検出スコアに基づいて複数のパラメータを生成するステップ;及び
チャネル・ベースのオーディオ信号と、複数のオーディオ・オブジェクトと、複数のベッド・チャネルと、複数のパラメータとに基づいて、複数の修正されたオーディオ・オブジェクトと複数の修正されたベッド・チャネルとを生成するステップを含む。
【0135】
(EEE2)
EEE1のコンピュータが実行する方法において、1つ以上のスピーカーが、複数の修正されたオーディオ・オブジェクトと複数の修正されたベッド・チャネルとを表現するものをサウンドとして出力するステップを更に含む。
【0136】
(EEE3)
EEE1-2のうちの何れか一項のコンピュータが実行する方法において、チャネル・ベースのオーディオ信号は複数のブロックを含み、複数のブロックのうちの所与のブロックは複数のサンプルを含み、検出スコアは、複数のブロックについてブロックごとに生成される。
【0137】
(EEE4)
EEE1-3のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、複数の部分ラウドネスを算出するステップを含み、
複数の部分ラウドネスは、参照オーディオ信号の部分ラウドネスと、複数のオーディオ・オブジェクトの部分ラウドネスと、複数のベッド・チャネルの部分ラウドネスと、レンダリングされたオーディオ信号の部分ラウドネスと、チャネル・ベースのオーディオ信号の部分ラウドネスとを含む。
【0138】
(EEE5)
EEE1-4のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、第1のエネルギーと第2のエネルギーとの比率を算出するステップを含み、
第1のエネルギーは複数のオーディオ・オブジェクトのエネルギーであり、第2のエネルギーは、複数のオーディオ・オブジェクトのエネルギーと複数のベッド・チャネルのエネルギーとの合計であり、
検出スコアは、第1のエネルギーと第2のエネルギーとの比率に基づいて生成される。
【0139】
(EEE6)
EEE1-5のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、複数のオーディオ・オブジェクトの各々に対する平均ポジションを算出するステップを含み、
検出スコアは、複数のオーディオ・オブジェクトの各々に対する平均ポジションに基づいて生成される。
【0140】
(EEE7)
EEE1-6のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは:
複数の部分ラウドネスに基づいて複数のブースト・スコアを算出するステップであって、複数の部分ラウドネスは、チャネル・ベースのオーディオ信号の部分ラウドネスと、参照オーディオ信号の部分ラウドネスと、複数のオーディオ・オブジェクトの部分ラウドネスと、レンダリングされたオーディオ信号の部分ラウドネスとを含む、ステップ;及び
複数のブースト・スコアのうちで最も大きなものと、複数のブースト・スコアのうちで次に最も大きなものとの合計に基づいて、最終的なブースト・スコアを算出するステップ;
を含み、検出スコアは、最終的なブースト・スコアに基づいて生成される。
【0141】
(EEE8)
EEE7のコンピュータが実行する方法において、複数のブースト・スコアのうちの所与のブースト・スコアは、第1の値と、第2の値と、第3の値との積を含み、
第1の値は、所与の信号の複数のチャネル間の部分ラウドネスの相関であり、
第2の値は、隣接するブロック間の所与の信号の複数のチャネルにおけるエネルギー変化の度合いであり、
第3の値は、所与の信号の複数のチャネルの複数のラウドネス比率の間の差分スコアである。
【0142】
(EEE9)
EEE1-8のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、レンダリングされたオーディオ信号の部分ラウドネスと、参照オーディオ信号の部分ラウドネスとの間の複数の偏差メトリックを算出するステップを含み、
複数の偏差メトリックは、偏差差分と偏差比率とを含み、
偏差差分は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
偏差比率は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
検出スコアは、複数の偏差メトリックに基づいて生成される。
【0143】
(EEE10)
EEE9のコンピュータが実行する方法において、検出スコアは、偏差差分と偏差比率の積に適用される双曲線正接関数に基づいて生成される。
【0144】
(EEE11)
EEE1-10のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、偏差差分と、偏差比率と、ブースト・スコアとに基づいて連続性スコアを算出するステップを含み、
偏差差分は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
偏差比率は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
ブースト・スコアは、チャネル・ベースのオーディオ信号の部分ラウドネスと、参照オーディオ信号の部分ラウドネスと、複数のオーディオ・オブジェクトの部分ラウドネスと、レンダリングされたオーディオ信号の部分ラウドネスとに基づいており、
検出スコアは、連続性スコアに基づいて生成される。
【0145】
(EEE12)
EEE11のコンピュータが実行する方法において、検出スコアは、第1の値と第2の値との合計に適用される双曲線正接関数に基づいて生成され、第1の値は、偏差差分と偏差比率との積であり、第2の値は連続性スコアである。
【0146】
(EEE13)
EEE1-12のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、第1のエネルギーと第2のエネルギーとの比率に基づいてオブジェクト・エネルギーのウェイトを算出するステップを含み、
第1のエネルギーは、複数のオーディオ・オブジェクトのエネルギーであり、
第2のエネルギーは、複数のオーディオ・オブジェクトのエネルギーと複数のベッド・チャネルのエネルギーとの合計であり、
検出スコアは、オブジェクト・エネルギーのウェイトに基づいて生成される。
【0147】
(EEE14)
EEE13のコンピュータが実行する方法において、検出スコアは、オブジェクト・エネルギーのウェイトに適用される双曲線正接関数に基づいて生成される。
【0148】
(EEE15)
EEE1-14のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、レンダリングされたオーディオ信号の部分ラウドネスのラウドネス・ウェイトを算出するステップを含み、
ラウドネス・ウェイトは、レンダリングされたオーディオ信号の部分ラウドネスが増加するにつれて増加し、
検出スコアは、ラウドネス・ウェイトに基づいて生成される。
【0149】
(EEE16)
EEE1-15のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは:
偏差差分と、偏差比率と、ブースト・スコアとに基づいて連続性スコアを算出するステップ;
第1のエネルギーと第2のエネルギーとの比率に基づいてオブジェクト・エネルギーのウェイトを算出するステップであって、第1のエネルギーは、複数のオーディオ・オブジェクトのエネルギーであり、第2のエネルギーは、複数のオーディオ・オブジェクトのエネルギーと複数のベッド・チャネルのエネルギーとの合計である、ステップ;及び
レンダリングされたオーディオ信号の部分ラウドネスのラウドネス・ウェイトを算出するステップであって、ラウドネス・ウェイトは、レンダリングされたオーディオ信号の部分ラウドネスが増加するにつれて増加する、ステップ;
を含み、偏差差分は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との間の差分であり、
偏差比率は、レンダリングされたオーディオ信号の部分ラウドネスの標準偏差と、参照オーディオ信号の部分ラウドネスの標準偏差との比率に基づいており、
ブースト・スコアは、チャネル・ベースのオーディオ信号の部分ラウドネスと、参照オーディオ信号の部分ラウドネスと、複数のオーディオ・オブジェクトの部分ラウドネスと、レンダリングされたオーディオ信号の部分ラウドネスとに基づいており、
検出スコアは、連続性スコアと、オブジェクト・エネルギーのウェイトと、ラウドネス・ウェイトとに基づいて生成される。
【0150】
(EEE17)
EEE1-16のうちの何れか一項のコンピュータが実行する方法において、検出スコアを生成するステップは、レンダリングされたオーディオ信号の総ラウドネスの比率と、参照オーディオ信号の総ラウドネスの比率と、複数のオーディオ・オブジェクト各々のエネルギーと、複数のオーディオ・オブジェクト各々のポジションとを平滑化するステップ;
を含み、検出スコアは、レンダリングされたオーディオ信号の総ラウドネスの比率であって平滑化されたものと、参照オーディオ信号の総ラウドネスの比率であって平滑化されたものと、複数のオーディオ・オブジェクト各々のエネルギーであって平滑化されたものと、複数のオーディオ・オブジェクト各々のポジションであって平滑化されたものとに基づいて生成される。
【0151】
(EEE18)
非一時的なコンピュータ読み取り可能な記憶媒体はコンピュータ・プログラムを記憶しており、コンピュータ・プログラムは、プロセッサにより実行されると、EEE1-17のうちの何れか一項の方法を含む処理を実行するように装置を制御する。
【0152】
(EEE19)
オーディオ処理装置はプロセッサを含み、プロセッサは、EEE1-17のうちの何れか一項の方法を含む処理を実行するように装置を制御するように構成されている。
【0153】
(EEE20)
EEE19の装置は、1つ以上のスピーカーを更に含み、スピーカーは、複数の修正されたオーディオ・オブジェクトと複数の修正されたベッド・チャネルとを表現するものを出力するように構成されている。
【先行技術文献】
【特許文献】
【0154】
【特許文献1】米国特許第9756445号明細書
【特許文献2】米国特許第9794718号明細書
【特許文献3】米国特許第9165558号明細書
【特許文献4】米国特許第10275685号明細書
【特許文献5】米国特許第6167404号明細書
【特許文献6】米国特許出願公開第2020/0322743号明細書
【特許文献7】米国特許出願公開第2017/0098452号明細書
【特許文献8】米国特許出願公開第2020/0126570号明細書
【非特許文献】
【0155】
【非特許文献1】Philip Coleman, Andreas Franck, Jon Francombe, Qingju Liu, Teofilo de Campos, Richard J. Hughes, Dylan Menzies, Marcos F. Simon Galvez, Yan Tang, James Woodcock, Philip J. B. Jackson, Frank Melchior, Chris Pike, Filippo M. Fazi, Trevor J. Cox and Adrian Hilton, An Audio-Visual System for Object-Based Audio: From Recording to Listening, in IEEE Transactions on Multimedia (Volume: 20, Issue: 8, Aug. 2018), DOI: 10.1109/TMM.2018.2794780.
【非特許文献2】Benjamin Guy Shirley, Improving Television Sound for People with Hearing Impairments, PhD Thesis, University of Salford (2013), DOI: 10.13140/2.1.3823.4881.
【非特許文献3】Joao Martins, Object-Based Audio and Sound Reproduction (April 26, 2018), available at <audioxpress.com/article/object-based-audio-and-sound-reproduction>.
【国際調査報告】