(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023062138
(43)【公開日】2023-05-02
(54)【発明の名称】オーディオ符号化システムにおけるユーザー対話のためのラウドネス制御
(51)【国際特許分類】
G10L 21/0364 20130101AFI20230425BHJP
G10L 19/008 20130101ALI20230425BHJP
【FI】
G10L21/0364
G10L19/008 200
G10L19/008 100
【審査請求】有
【請求項の数】25
【出願形態】OL
(21)【出願番号】P 2023025054
(22)【出願日】2023-02-21
(62)【分割の表示】P 2021019428の分割
【原出願日】2016-06-09
(31)【優先権主張番号】15172593.4
(32)【優先日】2015-06-17
(33)【優先権主張国・地域又は機関】EP
(71)【出願人】
【識別番号】500341779
【氏名又は名称】フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
(74)【代理人】
【識別番号】100205981
【弁理士】
【氏名又は名称】野口 大輔
(72)【発明者】
【氏名】ケッヒ,ファビアン
(72)【発明者】
【氏名】ウーレ,クリスチャン
(72)【発明者】
【氏名】クラッツシュメール,ミヒャエル
(72)【発明者】
【氏名】ノイゲバウエル,ベルンハルト
(72)【発明者】
【氏名】マイエル,ミヒャエル
(57)【要約】 (修正有)
【課題】ラウドネス補償の実行可能性を改善するオーディオプロセッサを提供する。
【解決手段】オーディオプロセッサ(1)は、ユーザー入力(200)に応じてオーディオ信号(100)を修正するオーディオ信号修正部(2)と、基準ラウドネス(L
ref)又は基準ゲイン(gi)に基づき、かつ、ユーザー入力に依存している修正済みラウドネス(L
mod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するラウドネス制御部(6)と、ラウドネス補償ゲイン(C)を使用して信号のラウドネスを操作するラウドネス操作部(5)と、を備え、修正済み信号(101)を取得する。
【選択図】
図2
【特許請求の範囲】
【請求項1】
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
前記オーディオ信号(100)はメタデータを含み、
前記オーディオプロセッサ(1)は、
ユーザー入力(200)に応じて前記オーディオ信号(100)を修正して修正済み信号(101)を取得するよう構成された、オーディオ信号修正部(2)と、
一方ではオリジナル・オーディオシーンに対応する基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力(200)に依存しており、
前記ラウドネス制御部(6)は、前記ラウドネス補償ゲイン(C)を決定するためにどのグループが使用されるべきか又はどのグループが使用されるべきでないかを示す前記オーディオ信号(100)の前記メタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記グループは1つ以上のオーディオ要素を含む、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して前記修正済み信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
【請求項2】
請求項1に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記メタデータのデータに含まれた少なくとも1つのフラグに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記フラグは前記ラウドネス補償ゲイン(C)を決定するためにあるグループが考慮されるべきかどうか、又はどのように考慮されるべきかを示している、オーディオプロセッサ。
【請求項3】
請求項1又は2に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記グループが前記オーディオ信号(100)のメタデータに含まれたアンカーに属する場合に、前記ラウドネス補償ゲイン(C)を決定するためにそのグループだけを使用するよう構成されている、オーディオプロセッサ。
【請求項4】
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
前記オーディオ信号(100)はメタデータを含み、
前記オーディオプロセッサ(1)は、
ユーザー入力(200)に応じて前記オーディオ信号(100)を修正して修正済み信号(101)を取得するよう構成された、オーディオ信号修正部(2)と、
一方ではオリジナル・オーディオシーンに対応する基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力(200)に依存しており、
前記ラウドネス制御部(6)は、少なくとも1つのプリセットに言及する前記オーディオ信号(100)の前記メタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記プリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットを指している、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して前記修正済み信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
【請求項5】
請求項4に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至3のいずれかに従って構成されている、オーディオプロセッサ。
【請求項6】
請求項1乃至5のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記プリセットによって言及される前記セットの前記少なくとも1つのグループのグループラウドネス(Li)及び/又は基準ゲイン(gi)に基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
【請求項7】
請求項1乃至6のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、個々のグループラウドネス(Li)と個々の基準ゲイン(gi)とを使用して、前記プリセットによって言及された前記セットについての前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、前記個々のグループラウドネス(Li)と個々の修正済みゲイン(hi)とを使用して、前記プリセットによって言及された前記セットについての前記修正済みラウドネス(Lmod)を決定するよう構成され、かつ
前記修正済みゲイン(hi)は、前記ユーザー入力によって修正されている、
オーディオプロセッサ。
【請求項8】
請求項4乃至7のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、選択されたプリセットに言及している前記メタデータのデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記プリセットは前記ユーザー入力(200)によって選択される、オーディオプロセッサ。
【請求項9】
請求項4乃至8のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、デフォルトプリセットに言及している前記メタデータのデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記デフォルトプリセットは前記ユーザー入力(200)より前に、又は前記ユーザー入力(200)から独立して設定されている、オーディオプロセッサ。
【請求項10】
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
前記オーディオ信号(100)はメタデータを含み、
前記オーディオプロセッサ(1)は、
ユーザー入力に応じて前記オーディオ信号(100)を修正して修正済み信号(101)を取得するよう構成された、オーディオ信号修正部(2)と、
一方ではオリジナル・オーディオシーンに対応する基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力(200)に依存しており、
前記ラウドネス制御部(6)は、あるグループがスイッチオフされるかスイッチオンされるかを示す前記オーディオ信号(100)の前記メタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記グループは1つ以上のオーディオ要素を含む、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して前記修正済み信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
【請求項11】
請求項10に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至9のいずれかに従って構成されている、オーディオプロセッサ。
【請求項12】
請求項10又は11に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、あるグループが前記ユーザー入力(200)に応じてスイッチオフされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを排除するよう構成されている、オーディオプロセッサ。
【請求項13】
請求項10乃至12のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、あるグループが前記メタデータの中でスイッチオフされている場合に、前記基準ラウドネス(Lref)を決定するために前記グループを排除し、かつあるグループが前記ユーザー入力(200)によりスイッチオンされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを包含するよう構成され、
及び/又は
前記ラウドネス制御部(6)は、あるグループが前記メタデータの中でスイッチオンされている場合に、前記基準ラウドネス(Lref)を決定するために前記グループを包含し、かつあるグループが前記ユーザー入力(200)によりスイッチオフされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを除外するよう構成されている、
オーディオプロセッサ。
【請求項14】
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
前記オーディオ信号(100)はメタデータを含み、
前記オーディオプロセッサ(1)は、
ユーザー入力に応じて前記オーディオ信号(100)を修正して修正済み信号(101)を取得するよう構成された、オーディオ信号修正部(2)と、
一方ではオリジナル・オーディオシーンに対応する基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力(200)に依存しており、
前記オーディオ信号に含まれる1グループの前記メタデータの中で少なくとも1つのグループラウドネスが欠けた状態の前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成された、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して前記修正済み信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
【請求項15】
請求項14に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至13のいずれかに従って構成されている、オーディオプロセッサ。
【請求項16】
請求項14又は15に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記オーディオ信号(100)のメタデータが少なくとも1つのグループラウドネスを失っている場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン(gi)及び少なくとも1つの修正済みゲイン(hi)だけを使用して前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
【請求項17】
請求項14乃至16のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記オーディオ信号(100)のメタデータがグループラウドネスについて無効である場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン(gi)及び少なくとも1つの修正済みゲイン(hi)だけを使用して前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
【請求項18】
請求項1乃至17のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記オーディオ信号(100)は前記メタデータを有するビットストリームを含み、かつ
前記メタデータは少なくとも1つのグループについての前記基準ゲイン(gi)を含む、オーディオプロセッサ。
【請求項19】
請求項1乃至18のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記オーディオ信号(100)の前記メタデータは、少なくとも1つのグループについてのグループラウドネス(Li)を含む、オーディオプロセッサ。
【請求項20】
請求項1乃至19のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、少なくとも1つのグループのグループラウドネス(Li)及び基準ゲイン(gi)を使用して、前記少なくとも1つのグループについて前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、前記グループラウドネス(Li)及び修正済みゲイン(hi)を使用して、前記修正済みラウドネス(Lmod)を決定するよう構成され、
前記修正済みゲイン(hi)は前記ユーザー入力(200)によって修正される、
オーディオプロセッサ。
【請求項21】
請求項1乃至20のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、複数のグループの個々のグループラウドネス(Li)及び前記基準ゲイン(gi)を使用して、前記複数のグループについて前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、複数のグループの個々のグループラウドネス(Li)及び前記修正済みゲイン(hi)を使用して、前記複数のグループについて前記修正済みラウドネス(Lmod)を決定するよう構成されている、
オーディオプロセッサ。
【請求項22】
請求項1乃至21のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記ラウドネス補償ゲイン(C)が上限閾値(Cmax)より低くなるように、及び/又は前記ラウドネス補償ゲイン(C)が下限閾値(Cmin)より大きくなるように、前記ラウドネス補償ゲイン(C)に対して制限動作を行うよう構成されている、オーディオプロセッサ。
【請求項23】
請求項1乃至22のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス操作部(5)は、補正済みゲイン(Gcorrected)を前記修正済み信号に対して適用するよう構成され、前記補正済みゲイン(Gcorrected)は、前記ラウドネス補償ゲイン(C)とラウドネス正規化ゲイン(GN)とによって決定され、前記ラウドネス正規化ゲイン(GN)は、前記ユーザー入力(200)と前記オーディオ信号(100)の前記メタデータに含まれるメタデータラウドネスレベルとにより設定される前記目標ラウドネスレベルにより決定される、オーディオプロセッサ。
【請求項24】
オーディオ信号(100)を処理する方法であって、
前記オーディオ信号(100)はメタデータを含み、
前記方法は、
ユーザー入力(200)に応じて前記オーディオ信号(100)を修正して修正済み信号(101)を取得するステップと、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方ではオリジナル・オーディオシーンに対応する修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するステップであって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存している、ステップであって、
前記ラウドネス補償ゲイン(C)は、このラウドネス補償ゲイン(C)を決定するために、前記オーディオ信号(100)に含まれるあるグループが使用されるべきか又は使用されるべきでないかを示す前記オーディオ信号(100)の前記メタデータに基づいて決定され、前記グループは1つ以上のオーディオ要素を含み、
及び/又は
前記ラウドネス補償ゲイン(C)は、1つのプリセットに言及する前記オーディオ信号(100)の前記メタデータに基づいて決定され、前記プリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットに言及しており、
及び/又は
前記ラウドネス補償ゲイン(C)は、あるグループがスイッチオフされるかスイッチオンされるかを示す前記オーディオ信号(100)の前記メタデータに基づいて決定され、前記グループは1つ以上のオーディオ要素を含み、
及び/又は
前記ラウドネス補償ゲイン(C)は、前記オーディオ信号(100)に含まれる1グループの前記メタデータの中で少なくとも1つのグループラウドネス(LA)が欠けた状態の前記オーディオ信号(100)の前記メタデータに基づいて決定される、ステップと、前記ラウドネス補償ゲイン(C)を使用して前記修正済み信号(101)のラウドネスを操作するステップと、
を備える方法。を含む方法。
【請求項25】
コンピュータ又はプロセッサ上で作動するとき、請求項23に記載の方法を実行するためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明はオーディオプロセッサ及びオーディオ符号器に関する。本発明は、またその対応する方法にも関する。
【背景技術】
【0002】
現代のオーディオ符号化システムは、復号器側で単純に再生されるような、ラウドスピーカ・チャネルベースの表現でオーディオコンテンツを効率的に伝送するための手段を提供するだけではない。それらは、ユーザーが前記コンテンツと対話することを可能にし、それ故、そのオーディオが復号器において如何にして再生され、かつレンダリングされるかに影響を及ぼすことを可能にする、さらに進歩した特徴を追加的に含む。この点は、レガシーオーディオ符号化システムに比べて、新たな形式のユーザー体験を可能にする。
【0003】
進歩したオーディオ符号化システムについての実例は、MPEG-H 3Dオーディオ標準(非特許文献1)である。これは、3つの異なるフォーマット、即ちチャネルベース、オブジェクトベース、及び高次アンビソニックス(higher order ambisonics:HOA)を使用したシーンベース、における没入型オーディオコンテンツの伝送を可能にする。これは、各人仕様化のためのユーザー対話、及び異なる使用シナリオに対するオーディオの適応のような、新たな可能性を提案するよう設計されてきた。
【0004】
コンテンツフォーマットについての前記3つの異なるカテゴリーは、次のように記述することができる。
-チャネルベース:伝統的に、(単純な2チャネルステレオから始まる)空間オーディオコンテンツは、正確に定義され、リスナーに対して固定された目標位置で、ラウドスピーカによって再生されるよう指示された1組のチャネル信号として配信されてきた。
-オブジェクトベース:オーディオオブジェクトは、オーディオと共にメタデータとして提供された関連するサイド情報によって特定された、特異な目標位置から到来するように再生されるべきである信号である。チャネル信号とは対照的に、オーディオオブジェクトの実際の配置は、時間と共に変化することができ、またその配置は、音響生成プロセスの間に予め定義される必要がなく、再生時に目標ラウドスピーカ設定に対してレンダリングすることによって決定される。オーディオオブジェクトの実際の配置は、1つのオブジェクト又はオブジェクトのグループの場所又はレベルに関して、ユーザー対話(user interactivity)を含んでも良い。
-高次アンビソニックス(HOA)は、チャネル又はオブジェクトとは直接的な関係を持たない、幾つかの「係数信号」を伝送することによって、3D音場をキャプチャする代替的アプローチである。再生のための実際のオブジェクト信号は、所与のラウドスピーカ構成を考慮して、復号器で生成される。
【0005】
ユーザー対話を含むオブジェクトベースのオーディオ符号化システムにおけるラウドネス補償のための方法は、特許文献1に開示されている。復号器はオーディオオブジェクト信号を含むオーディオ入力信号を受信し、オーディオ出力信号を生成する。信号プロセッサは、オーディオ入力信号に関連するラウドネス情報とレンダリング情報とに基づいて、オーディオ出力信号についてのラウドネス補償値を決定する。そのレンダリング情報は、1つ以上のオーディオオブジェクト信号が増幅又は減衰されるべきか、及びユーザー嗜好によって調整され得るかどうかを指示している。
【先行技術文献】
【特許文献】
【0006】
【非特許文献】
【0007】
【非特許文献1】J. Herre at al., “MPEG-H Audio - The New Standard for Universal Spatial / 3D Audio Coding”, 137th AES Convention, 2014, Los Angeles
【発明の概要】
【発明が解決しようとする課題】
【0008】
本発明の目的は、ラウドネス補償の実行可能性を改善することである。
【課題を解決するための手段】
【0009】
前記目的は、以下の要素を含む、オーディオ信号を処理するオーディオプロセッサによって達成される。すなわち、ユーザー入力に応じて前記オーディオ信号を修正するよう構成された、オーディオ信号修正部と、一方では基準ラウドネス又は基準ゲインに基づき、かつ他方では修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存しており、前記ラウドネス制御部は、前記ラウドネス補償ゲインを決定するためにどのグループが使用されるべきか又は使用されるべきでないかを示す前記オーディオ信号のメタデータに基づいて、前記ラウドネス補償ゲインを決定するよう構成され、前記グループは1つ以上のオーディオ要素を含む、ラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0010】
オーディオプロセッサ-又は復号器又はオーディオ信号を処理する装置-は、オーディオ信号を受信し、一実施形態では出力信号を生成し、その出力信号は、例えばラウドスピーカ又はイアホンによって再生されるべき又は媒体等に記憶されるべきオーディオ信号の、オーディオオブジェクトとオーディオ要素等とを含む。
【0011】
オーディオプロセッサは、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部を介してユーザー入力に対して反応する。ユーザー入力は、一実施形態においては、あるグループの増幅又は減衰、及び/又はあるグループをスイッチオフすること、又はあるグループをスイッチオンすることを示す。そのグループは、例えばオーディオオブジェクト、チャネル、オブジェクト又はHOA成分などの1つ以上のオーディオ要素を含む。ユーザー入力は、実施形態にもよるが、信号の再生のために使用されるプレイバック構成に関連するデータにも言及する。さらなるユーザー入力は、プリセットの選択にも言及する。プリセットは、少なくとも1つのグループから成るセットを指し、-実施形態よるが-個々のグループについて特異に測定されたグループラウドネス値及び/又はゲイン値を特定している。ユーザー入力は、オーディオ信号を適切に修正するオーディオ修正部によって使用される。ある実施形態では、メタデータは複数のプリセットに帰属するデータを含む。
【0012】
前記プリセットは、一実施形態では1グループから成るセットを指し、別の実施形態では前記プリセットに帰属しない複数のグループを定義する。
【0013】
オーディオプロセッサは、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部を更に含む。このラウドネス補償ゲイン-ここではCと称する-により、ユーザーによって所望または設定された全体ラウドネスを有する信号を供給するために、ユーザー入力の効果を釣り合わせることが可能になる。ラウドネス補償ゲインは、一方では基準ラウドネス又は基準ゲインに基づいて、他方では修正済みラウドネス又は修正済みゲインに基づいて、決定される。よって、ラウドネス補償ゲインは、基準ラウドネス又は基準ゲインと、修正済みラウドネス又は修正済みゲインと、に基づいて決定される。修正済みラウドネス又は修正済みゲインはユーザー入力に依存している。
【0014】
ラウドネス制御部は、追加的に、オーディオ信号のメタデータに基づいて、ラウドネス補償ゲインを決定するよう構成されている。オーディオ信号に関連しているメタデータは、オーディオ信号と個別グループについての情報を搬送し、一実施形態においては、オーディオ信号そのものに含まれる。
【0015】
(ここで説明するオーディオプロセッサの実施形態の)メタデータのデータは、ラウドネス補償ゲインを決定するために、あるグループ(特にオーディオ信号に含まれる)が使用されるべきかどうか(例えば考慮されるべきかどうか)、又は使用されるべきでないか(例えば無視されるべきかどうか)、を示している。よって、対応するグループについての情報は、ラウドネス補償ゲインを決定するために、考慮されるか又は無視されるかのいずれかである。少なくとも1つの実施形態においては、1グループ又は複数のグループが考慮されるか又は無視されるかは、ユーザー入力にさらに依存している。
【0016】
一実施形態では、グループを考慮し又は無視することは、そのグループ及び個々の値がラウドネス補償ゲインの一部の決定のためにだけ使用される、例えば基準ラウドネス又は修正済みラウドネスの計算のためにだけ使用される、という意味で部分的に考慮し又は無視することを含む。
【0017】
ラウドネス補償ゲインは、オーディオプロセッサに含まれるラウドネス操作部によって使用される。ラウドネス操作部は、信号のラウドネスを、ラウドネス補償ゲインを使用して操作する。適用されるラウドネス補償ゲインは、ユーザー入力によって影響されているだけでなく、オーディオ信号に関連し又は属するメタデータのデータの結果でもある。
【0018】
ラウドネス操作部によって操作される信号は、一実施形態によれば、オーディオプロセッサによって提供され、かつオーディオ信号に基づく出力信号である。この実施形態のラウドネス操作部は、出力信号を提供し、ラウドネス補償ゲインを使用して出力信号のラウドネスを操作する。
【0019】
異なる実施形態においては、ラウドネス操作部は、このラウドネス操作部に提供され、かつ好ましくはユーザー入力によって既に修正済みの信号のラウドネスを操作する。この実施形態では、オーディオプロセッサの一部が信号を提供又は生成し、その信号はラウドネス操作部へ供給されて然るべく処理される、すなわちラウドネス操作部によってそのラウドネスに関して修正される。
【0020】
さらなる実施形態では、そのラウドネスがラウドネス操作部によって操作される信号はオーディオ信号である。この場合、ラウドネス操作部は修正によってオーディオ信号のメタデータを修正する。この実施形態は、オーディオプロセッサが修正済みオーディオ信号を提供する、さらなる実施形態に関連している。この修正済みオーディオ信号は、ユーザー入力に従って、かつラウドネスの修正に従って修正されている。この修正済みオーディオ信号は、後でビットストリームにもなる。
【0021】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、メタデータのデータに含まれた少なくとも1つのフラグに基づいて、ラウドネス補償ゲインを決定するよう構成され、そのフラグはラウドネス補償ゲインを決定するためにあるグループが考慮されるべきかどうか、又はどのように考慮されるべきかを示している。この実施形態では、メタデータは、例えばラウドネス補償ゲインを計算するために関連するグループが考慮されるべきか否かをそれぞれ示す「真」又は「偽」の値のいずれかを有するフラグを含む。あるグループを考慮することは、一実施形態では、計算のどのステップについてそのグループが使用されるべきであるかという問題にも言及している。これは、例えば基準ラウドネス及び修正済みラウドネスの計算にも言及している。基準ラウドネス及び修正済みラウドネスは、ユーザー入力の前及び後でそれぞれ計算された全体のラウドネスである。異なる実施形態では、前記フラグは対応するグループが短期間だけ存在し、それ故、ラウドネス補償ゲインを決定するためには無視され得る、ことを示している。
【0022】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、幾つかのグループがオーディオ信号のメタデータに含まれたアンカーに属する場合に、ラウドネス補償ゲインを決定するためにそれらのグループだけを使用するよう構成される。そのアンカーは、一実施形態では、例えば声音、ダイアログ、又は特別な音響効果に属するオーディオ要素を指している。
【0023】
アンカーに属するグループの取り扱いは、以下の実施形態の中でさらに説明する。
【0024】
一実施形態において、ラウドネス制御部は、アンカーに属する少なくとも1つのグループの修正済みゲインが対応する基準ゲインより大きい場合、ラウドネス補償ゲインを決定するために前記アンカーに属するグループだけを使用するよう構成される。よって、これら「アンカーグループ」の少なくとも1つのグループのゲイン値がユーザー入力に応じて増加する場合、つまり、ユーザーがこれらグループの中の少なくとも1つを増幅させた場合に、アンカーのそれらグループだけがラウドネス補償ゲインの計算のために使用される。
【0025】
代替的又は追加的な実施形態において、ラウドネス制御部は、前記アンカーに属する少なくとも1つのグループの修正済みゲインが対応する基準ゲインより小さい場合に、ラウドネス補償ゲインを決定するためにアンカーに属するグループとアンカーに属しないグループとを使用するよう構成される。よって、この実施形態では、少なくとも1つのアンカーグループのゲイン値がユーザー入力に起因して低下した場合には、アンカーに属するグループだけでなく、アンカーに属しないグループも計算のために使用される。
【0026】
一実施形態では、前述の2つの実施形態が結合される。よって、アンカーに属する少なくとも1つのグループのゲインの変更は、アンカーグループのみ、又はアンカーグループ及び非アンカーグループのいずれが、ラウドネス補償ゲインを決定するために使用されるかを決定する。
【0027】
本発明の目的は、以下の要素を含むオーディオ信号を処理するオーディオプロセッサによって達成される。すなわち、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部と、一方では基準ラウドネス又は基準ゲインに基づき、かつ他方では修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存しており、前記ラウドネス制御部は、少なくとも1つのプリセットを示す前記オーディオ信号のメタデータに基づいて、前記ラウドネス補償ゲインを決定するよう構成され、前記プリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットを指している、ラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0028】
オーディオプロセッサの全般的説明については、上記説明を参照されたい。
【0029】
オーディオプロセッサのラウドネス制御部は、オーディオ信号に関連し又は属するメタデータのデータを参照する。そのデータはプリセットを示しており、ここでプリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットを指している。この実施形態では、グループの組合せが特定のプリセットのための特定のラウドネス及び/又はゲイン値に関連している場合を考慮する。それ故、メタデータは異なるプリセット又は少なくともあるデフォルトプリセットに依存するグループについてのデータを含む。したがって、ラウドネス制御部は、ユーザーによって選択されたプリセットと関連したデータ、又はデフォルトプリセットであるプリセットと関連したデータを使用する。
【0030】
オーディオプロセッサは、ある実施形態では、前述の実施形態の少なくとも1つに従って構成される。よって、上述の実施形態は、前述のオーディオプロセッサを用いて少なくとも部分的に実現される。
【0031】
オーディオプロセッサのある実施形態によれば、ラウドネス制御部は、プリセットによって示されるセットの少なくとも1つのグループのグループラウドネス及び/又はゲイン値に基づいて、ラウドネス補償ゲインを決定するよう構成されている。そのプリセットは、オーディオ信号に含まれるオーディオ要素のグループの特定のセットを指している。これらグループについて、対応するプリセットが選択され又はデフォルトプリセットとして設定される場合に、メタデータは、ラウドネス補償ゲインを決定するために使用されるべき特定のデータ-すなわちグループラウドネス及び/又はゲイン値-を含む。
【0032】
さらなる実施形態において、ラウドネス制御部は、個々のグループラウドネスと個々のゲイン値とを使用して、プリセットによって示されたセットについての基準ラウドネスを決定するよう構成される。ラウドネス制御部はまた、個々のグループラウドネスと個々の修正済みゲイン値とを使用して、プリセットによって示されたセットについての修正済みラウドネスを決定するよう構成される。修正済みゲイン値は、ユーザー入力によって修正されている。この実施形態では、基準ラウドネスと修正済みラウドネスとは、プリセットと関連し、かつそのプリセットに属するグループについての値に基づいて決定される。その決定は、-例えば基準ラウドネス又は修正済みラウドネスの決定に関し-それらのグループが使用されるべきかどうか及びどのように使用されるべきかについての指示をも担う。
【0033】
さらなる実施形態において、ラウドネス制御部は、選択されたプリセットを示しているオーディオ信号のメタデータに含まれたデータに基づいてラウドネス補償ゲインを決定するよう構成され、そのプリセットはユーザー入力により選択されている。この実施形態において、前記プリセットはユーザー入力を介してユーザーによって選択されている。
【0034】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、デフォルトプリセットを示しているオーディオ信号のメタデータに含まれたデータに基づいてラウドネス補償ゲインを決定するよう構成される。このデフォルトプリセットはユーザー入力より前に、又はユーザー入力とは別に設定されている。この実施形態は、ユーザーがプリセットを選択しない場合を取り扱う。このために、例えば如何なるユーザー入力よりも前にデフォルトプリセットが使用され、それにより例えばユーザーによる対話が無い場合でも、データのあるセット-ここではデフォルトプリセットをカバーしている-がラウドネス補償ゲインを決定するために使用されることが保証される。
【0035】
本発明の目的は、以下の要素を含むオーディオ信号を処理するオーディオプロセッサによって達成される。すなわち、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部と、一方では基準ラウドネス又は基準ゲインに基づき、かつ他方では修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存しており、前記ラウドネス制御部は、あるグループがスイッチオフされるかスイッチオンされるかを示す前記オーディオ信号のメタデータに基づいて、前記ラウドネス補償ゲインを決定するよう構成され、前記グループは1つ以上のオーディオ要素を含むラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0036】
この実施形態のオーディオプロセッサの全般的説明については、上記説明を参照されたい。
【0037】
ここで、ラウドネス制御部は、あるグループがスイッチオフされるかスイッチオンされるかを示すオーディオ信号のメタデータに基づいて、ラウドネス補償ゲインを決定するよう構成される。一例では、オーディオ信号はオーディオオブジェクトとして、1つの動画の異なる言語バージョンに属する異なるサウンドトラックを含んでいてもよい。プリセットは、また異なる言語バージョンを示していても良い。よって、プリセットが異なる毎に、1言語の1サウンドトラックがスイッチオンされる一方で、他のバージョンがスイッチオフされるであろう。この実施例はまた、ユーザーが異なる言語バージョンの間で所望かつ提供された言語バージョンに切り替え得ること、よってデフォルトプリセットと関連したサウンドトラックをスイッチオフし得ることを示している。とは言え、あるグループをスイッチオンすることは、常に他のグループをスイッチオフすること意味する訳ではなく、その逆も然りである。
【0038】
一実施形態におけるオーディオプロセッサは、前述の実施形態の少なくとも1つに従って構成される。
【0039】
よって、上述の実施形態は、前述のオーディオプロセッサを用いて少なくとも部分的に実現される。上述したオーディオプロセッサは、後述する実施形態を考慮する少なくとも1つの実施形態において、後述のオーディオプロセッサを用いても同様に実現される。
【0040】
一実施形態によれば、ラウドネス制御部は、あるグループがユーザー入力によってスイッチオフされるかスイッチオンされるかどうかに依存するユーザー入力に基づいて、ラウドネス補償ゲインを決定する。ここで、ユーザー対話はラウドネス制御部ゲインの決定に影響を及ぼす。
【0041】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、あるグループがユーザー入力に応じてスイッチオフされている場合に、修正済みラウドネスを決定するために前記グループを排除するよう構成されている。この実施形態では、ユーザーがあるグループをスイッチオフすると、そのグループはユーザー嗜好を表すラウドネス値からもたらされる修正済みラウドネスを決定するために使用されない。
【0042】
さらなる実施形態において、ラウドネス制御部は、あるグループがメタデータの中でスイッチオフされた場合に、基準ラウドネスを決定するために前記グループを排除し、そのグループがユーザー入力によってスイッチオンされた場合に、修正済みラウドネスを決定するためにそのグループを包含するよう構成されている。この実施形態では、あるグループがメタデータの中でスイッチオフされ、かつ基準ラウドネスを決定するために使用されない。もしユーザーがそのグループをスイッチオンした場合、そのグループは修正済みラウドネスの評価のために包含される。
【0043】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、あるグループがメタデータの中でスイッチオンされているとき、基準ラウドネスを決定するために前記グループを包含し、かつあるグループがユーザー入力によりスイッチオフされているとき、修正済みラウドネスを決定するために前記グループを除外するよう構成される。この実施形態では、前述の実施形態の逆の場合が考慮される。
【0044】
本発明の目的は、また以下の要素を含むオーディオ信号を処理するオーディオプロセッサによって達成される。すなわち、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部と、一方では基準ラウドネス又は基準ゲインに基づき、かつ他方では修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存しており、前記オーディオ信号に含まれる1グループのメタデータの中で少なくとも1つのグループラウドネスが欠けた状態の前記オーディオ信号のメタデータに基づいて、前記ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0045】
この実施形態におけるオーディオプロセッサの全般的説明については、上記説明を参照されたい。
【0046】
このオーディオプロセッサ(又は復号器)において、ラウドネス制御部は、オーディオ信号内に存在するあるグループについて、対応するグループラウドネスが欠けている状態に対処する。グループラウドネスは、特定のプリセット又はプレイバック構成などに関して欠けていてもよいし、又は、メタデータは、このグループについての如何なるグループラウドネスが完全に空になっていてもよい。
【0047】
一実施形態におけるオーディオプロセッサは、前述の実施形態の少なくとも1つに従って構成される。よって、上述の実施形態は、既述のオーディオプロセッサを用いて少なくとも部分的に実現される。上述したオーディオプロセッサは、後述する実施形態を考慮する少なくとも1つの実施形態において、後述のオーディオプロセッサを用いても同様に実現される。
【0048】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、プリセットのラウドネスと、欠けているグループラウドネスを有するグループの基準ゲインと、あるグループラウドネスを持つグループについてのグループラウドネス及び基準ゲインとを使用して、欠けているグループラウドネスを計算するよう構成される。プリセットのラウドネスは、プリセットの複数のグループの全体のラウドネスである。
【0049】
さらなる実施形態では、ラウドネス制御部は、オーディオ信号のメタデータが少なくとも1つのグループラウドネスを欠いている場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン及び少なくとも1つの修正済みゲインだけを使用してラウドネス補償ゲインを決定するよう構成されている。この実施形態において、少なくとも1つのグループラウドネスが欠けている場合と、全てのグループラウドネスが欠けている場合とは、同様に取り扱われる。
【0050】
オーディオプロセッサの一実施形態に従えば、ラウドネス制御部は、オーディオ信号のメタデータがグループラウドネスについて無効である場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン及び少なくとも1つの修正済みゲインだけを使用してラウドネス補償ゲインを決定するよう構成されている。
【0051】
本発明の目的は、また以下の要素を含むオーディオ信号を処理するオーディオプロセッサによって達成される。すなわち、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部と、一方では基準ラウドネス又は基準ゲインに基づき、かつ他方では修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存しており、前記信号の再生のためのプレイバック構成に言及している前記オーディオ信号のメタデータに基づいて、前記ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0052】
この実施形態におけるオーディオプロセッサの全般的説明については、上記説明を参照されたい。
【0053】
オーディオプロセッサは、特定のプレイバック構成を示しているデータに基づいてラウドネス補償ゲインを決定する。オーディオ信号に関連しかつ一実施形態ではオーディオ信号に含まれるメタデータは、従って少なくとも1つのプレイバック構成に特有のデータを含んでいる。一実施形態では、各プレイバック構成について、メタデータは個々のプレイバック-又は再生-構成に対応するデータを含んでいる。
【0054】
一実施形態におけるオーディオプロセッサは、前述の実施形態の少なくとも1つに従って構成される。よって、一実施形態においては、このオーディオプロセッサは前述の実施形態の少なくとも1つと結合される。
【0055】
オーディオプロセッサの一実施形態によれば、ラウドネス制御部は、プレイバック構成を示しかつ関連するグループラウドネス及び/又は基準ゲイン値を含むメタデータのデータに基づいて、ラウドネス補償ゲインを決定するよう構成されている。よって、異なるプレイバック構成は、個々のグループについての異なるゲイン値及び/又はグループラウドネスと関連している。
【0056】
一実施形態において、メタデータは異なるプリセット及び異なるプレイバック構成についてのデータを有する。
【0057】
さらなる実施形態において、オーディオプロセッサは、メタデータに含まれかつプレイバック構成を示すデータを現在のプレイバック構成を示すデータへと変換するための構成変換部を有し、ラウドネス制御部は、この構成変換部によって提供されたデータを使用してラウドネス補償ゲインを決定するよう構成されている。この実施形態では、オーディオプロセッサは、信号の再生のための現在のプレイバック構成がメタデータによって提供されたプレイバック構成と異なる状況に対処する。よって、メタデータのデータは、現在のプレイバック構成と適合するように変換され、変換されたデータはラウドネス補償ゲインの決定のために使用される。
【0058】
一実施形態では、オーディオプロセッサは、信号を所定のプレイバック構成へと変換するためのフォーマット変換部を含む。さらなる実施形態では、ラウドネス制御部は、フォーマット変換部によって使用される特定のプレイバック構成について特有のラウドネス値を選択するよう構成される。
【0059】
以下の実施形態は、前述の実施形態のいずれかによって実現され得る。
【0060】
一実施形態では、オーディオ信号はメタデータを有するビットストリームを含み、かつメタデータは少なくとも1つのグループについての基準ゲインを含む。
【0061】
オーディオプロセッサの一実施形態によれば、オーディオ信号のメタデータは少なくとも1つのグループについてのグループラウドネスを含む。さらなる実施形態では、メタデータはオーディオ信号に属する複数のグループについてのグループラウドネスを含む。
【0062】
さらなる実施形態では、ラウドネス制御部は、-少なくとも1つの-グループについてのグループラウドネス及びゲイン値を使用して、少なくとも1つのグループについて基準ラウドネスを決定するよう構成され、ラウドネス制御部は、前記グループラウドネス及び修正済みゲイン値を使用して修正済みラウドネスを決定するよう構成され、前記修正済みゲイン値はユーザー入力によって修正される。
【0063】
一実施形態では、ラウドネス制御部は、複数のグループの個々のグループラウドネス-Liと称す-及びゲイン値-giと称す-を使用して、前記複数のグループについて基準ラウドネス-Lrefと称す-を決定するよう構成される。さらに、ラウドネス制御部は、複数のグループの個々のグループラウドネス-Liと称す-及び修正済みゲイン値-hiと称す-を使用して、前記複数のグループについて修正済みラウドネス-Lmodと称す-を決定するよう構成される。一実施形態では、2つの複数のグループは同じであり、別の実施形態では異なる。その複数のグループはまた、メタデータの個々のデータに依存している。
【0064】
さらなる実施形態では、ラウドネス制御部は、ラウドネス補償ゲインが上限閾値より低くなるように、及び/又は前記ラウドネス補償ゲインが下限閾値より大きくなるように、前記ラウドネス補償ゲインに対して制限動作を行うよう構成されている。
【0065】
オーディオプロセッサの一実施形態によれば、ラウドネス操作部は、ラウドネス補償ゲインと正規化ゲインとによって決定された補正済みゲインを前記信号に対して適用するよう構成され、正規化ゲインは、ユーザー入力により設定される目標ラウドネスレベルとオーディオ信号のメタデータに含まれるメタデータラウドネスレベルとにより決定されるものである。一実施形態では、正規化ゲインは、オーディオ信号の個々のグループのラウドネスレベルと、オーディオ信号の再生のためにユーザーによって体験されるべくユーザーによって設定されたラウドネスレベルとの比を使用して決定される。
【0066】
オーディオプロセッサの前述の実施形態は、ユーザー入力に従ったラウドネス補償を可能にする。ラウドネス補償は、オーディオ信号の複数のグループ及びそれらの関連性、又はラウドネス補償のための使用法を記述するデータを考慮することによって改善される。
【0067】
前述の実施形態はオーディオプロセッサ又はオーディオ復号器について言及している。以下では、オーディオプロセッサによって使用されるべきメタデータと関連し、又はそれを含むオーディオ信号を提供しながら、符号器について説明する。
【0068】
その目的は、メタデータを含むオーディオ信号を生成するオーディオ符号器によって達成される。このオーディオ符号器は、1つ以上のオーディオ要素を含む少なくとも1つのグループについてラウドネス値を決定するラウドネス決定部と、前記決定されたラウドネス値をグループラウドネスとして前記メタデータへ導入するメタデータ書き込み部と、を含む。
【0069】
オーディオ符号器の一実施形態によれば、ラウドネス決定部は、異なるプレイバック構成について異なるラウドネス値及び/又は異なるゲイン値を決定するよう構成され、メタデータ書き込み部は、決定された異なるラウドネス値及び/又は異なるゲイン値を個々のプレイバック構成に関連付けてメタデータへ導入するよう構成される。この実施形態において、メタデータは、異なるプレイバック構成に関連するグループについては異なるデータを含んでおり、よってオーディオ信号の各グループのプレイバックを改善する。
【0070】
一実施形態では、ラウドネス決定部は、1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットを示す異なるプリセットについて、異なるラウドネス値及び/又は異なるゲイン値を決定するよう構成される。さらに、メタデータ書き込み部は、決定された異なるラウドネス値及び/又は異なるゲイン値を個々のプリセットに関連付けてメタデータへ導入するよう構成される。この実施形態では、プリセットは特定のグループラウドネス及び/又は基準ゲイン値に関連しているグループの特定のセットを示している。
【0071】
さらなる実施形態では、オーディオ符号器はさらにコントローラを含み、このコントローラは、ラウドネス補償ゲインを決定するためにどのグループが使用されるべきか又は無視されるべきかを決定するよう構成され、メタデータ書き込み部は、前記ラウドネス補償ゲインを決定するためにどのグループが使用されるべきか又は無視されるべきかを示す指示をメタデータへ書き込むよう構成される。この指示は、一実施形態ではフラグである。幾つかの実施形態では、前記指示はプリセット、プレイバック構成、アンカー及び/又は持続時間を示しており、よってグループの関連性を示す。
【0072】
少なくとも1つの実施形態では、メタデータはオーディオ信号の少なくとも1つのグループについて、異なる値を持つ異なるデータ(例えばグループラウドネス又は基準ゲイン)を含んでいる。
【0073】
オーディオ符号器の一実施形態によれば、オーディオ符号器はさらに推定器を含み、この推定器は、あるグループについてグループラウドネス値を計算するよう構成され、前記グループについての前記グループラウドネス値はラウドネス決定部によっては決定されない。メタデータ書き込み部は、オーディオ信号の全てのグループが関連するグループラウドネスを有するように、計算されたグループラウドネス値をメタデータへ導入するよう構成される。この実施形態では、オーディオ符号器は、有効なデータに基づいてグループラウドネスを計算することによって、失ったグループラウドネスを補償する。
【0074】
本発明の目的は、オーディオ信号を処理する方法によっても達成される。
【0075】
その方法は少なくとも以下のステップを含む。
・ユーザー入力に応じて前記オーディオ信号を修正するステップ
・一方では基準ラウドネス(ユーザーによって修正される前の、関連する個々のグループの全体ラウドネスとして)又は基準ゲインに基づき、かつ他方では修正済みラウドネス(基準ラウドネスと対を成す、ユーザーによって修正された後の、関連するグループの結合されたラウドネスとして)又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するステップであって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存している、ステップ。
ラウドネス補償ゲイン-Cと称す-の決定は、以下の実施形態の少なくとも1つ又は組合せを使用して実行される。すなわち、ラウドネス補償ゲインは、オーディオ信号に関連し-又はそれに含まれる-メタデータのデータに基づいて決定される。異なる実施形態では、個々のグループが1つ以上のオーディオ要素を含んでおり、データは以下の通りである:
-そのデータは、このラウドネス補償ゲインを決定するために、オーディオ信号に含まれたあるグループが考慮されるべきか、又は無視されるべきかを示している。
-そのデータはプリセットに言及しており、そのプリセットは少なくとも1つのグループから成るセットに言及している。
-そのデータは、あるグループがスイッチオフされるかスイッチオンされるかを示している。
-そのデータの中で、オーディオ信号に含まれたあるグループの少なくとも1つのグループラウドネスが欠けている。
-そのデータは、信号の再生のためのプレイバック構成に言及している。
・ラウドネス補償ゲインを使用してオーディオ信号に関連した出力信号のラウドネスを操作するステップ。
【0076】
本発明の目的は、メタデータを含むオーディオ信号を生成する方法によっても達成される。この方法は、1つ以上のオーディオ要素を含むあるグループについてラウドネス値を決定するステップと、前記グループについて決定されたラウドネス値をグループラウドネスとして前記メタデータへ導入するステップと、を含む。
【0077】
本発明の目的は、コンピュータ又はプロセッサ上で作動するとき、前述の方法を実行するためのコンピュータプログラムによっても達成される
【0078】
装置の実施形態(オーディオプロセッサ又はオーディオ符号器に拘わらず)は、方法のステップ及びその方法の対応する実施形態によって実行されることも可能である。したがって、装置の実施形態に関する説明は方法に対しても適用できる。
【0079】
本発明は添付図面を参照しながら、添付図面に示された実施形態により説明する。
【図面の簡単な説明】
【0080】
【
図2】本発明に従うオーディオプロセッサの概略図である。
【発明を実施するための形態】
【0081】
図1は、オーディオプロセッサの一例としてMPEG-H 3Dオーディオ復号器の概略図を示し、このシステムの全ての主要な構成ブロックを示す。
・第1ステップとして、受信されたオーディオストリーム500(伝送されたオーディオ信号を含む。それらは関連するメタデータを伴うチャネル、オブジェクト、又はHOA成分であり得る)は、復号器501によって復号化され、オーディオコンテンツ502と関連するメタデータ503とを提供する。
・チャネル信号は、チャネルレンダラー及びフォーマット変換部としての役割を持つ、フォーマット変換器504を使用して目標再生ラウドスピーカ設定にマッピングされる。
・オブジェクト信号は、関連するオブジェクトメタデータを使用して、オブジェクトレンダラー505によって目標再生ラウドスピーカ設定へとレンダリングされる。
・高次アンビソニックスコンテンツは、関連するHOAメタデータを使用して、HOAレンダラー506によって目標再生ラウドスピーカ設定へとレンダリングされる。
・フォーマット変換器504、オブジェクトレンダラー505、及びHOAレンダラー506の出力としてのオーディオ信号507の形態の異なる要素(チャネル、オブジェクト、HOA)に対応するラウドスピーカ信号は、次にミキシングステージにおいて一緒にミキシングされる。これはミキサー508によって実行され、ミックス済みオーディオ信号509を提供する。
・ミキサー508の出力509は次にラウドネス制御ステージによって処理される。ここで、オーディオ信号は所望の目標ラウドネスレベルへと正規化される。ラウドネス制御部510は正規化と共にラウドネス補償を実行する。この目的で、ラウドネス制御部510はユーザー入力511を受信する。ユーザー対話の結果としてのユーザー入力511は、プレイバックのために使用されるべきラウドネス構成についての情報にも言及しており、ユーザー入力はフォーマット変換器504、オブジェクトレンダラー505、及びHOAレンダラー506へも提供される。ラウドネス制御部510に対して、受信されたオーディオストリーム500から復号器501によって抽出された、特にレンダリング及び/又はラウドネスの情報に言及するメタデータ503が供給される。結果としての信号512は、図示された実施形態では、プレイバックとして利用可能なラウドスピーカ構成のラウドスピーカに対して提供される。
【0082】
可能なユーザー対話性(双方向性)は、例えば2つの異なるカテゴリーへと分割され得る。
・伝送されたオーディオプログラムのプリセットの選択
・オーディオ要素のグループのデフォルトレンダリングの操作
【0083】
MPEG-H 3Dオーディオ及び本発明の文脈におけるプリセット及びグループの意味は、以下に説明する。
【0084】
伝送されたオーディオプログラムのために利用可能な個々のチャネル、オブジェクト及びHOAシーンは、オーディオ要素と称される。1つのグループは個々のオーディオ要素の特定の集合体を指している。オーディオ要素の特定のグループ化情報は、MPEG-H 3Dオーディオメタデータに含まれており、そのメタデータはオーディオストリームの中でオーディオコンテンツと一緒に伝送される。1つのグループの要素が独自に双方向的に変更され得ることはない。グループ全体でだけ操作されることができ、すなわち含まれた全ての要素が一緒に操作される。一例が、ステレオ又は5.1チャネルのラウドスピーカ構成に対応するチャネルからなる、あるグループによって与えられる。特殊な場合には、あるグループは単一の要素、例えばプログラムのダイアログ・オブジェクトだけで構成されることができる。その場合、ユーザーはオーディオシーン内で例えばこのダイアログ・オブジェクトのレベルを変更することができる。
【0085】
プリセットは、オーディオシーンにおけるグループの組合せを定義している。プリセットは、同じオーディオストリーム内での同じオーディオプログラムの異なる表現を効率的に信号化するために使用され得る。このプリセット定義は、個々のグループのデフォルト又は初期のレンダリング情報も含んでおり、そのレンダリング情報は、ユーザーが如何なる操作も適用しない場合に使用される。このレンダリング情報の最重要な例は、全体のオーディオシーンをレンダリングする際に、あるグループに適用されるゲインである。プリセットを定義している構成情報は、符号器で決定され、それはメタデータ、例えばMPEG-H 3Dオーディオメタデータの一部である。
【0086】
主要な又はデフォルトのオーディオシーンは、グループ化情報を必ずしも特定する必要なく、全てのオーディオ要素を含むプリセットの特殊な形式と考えることができる点に留意すべきである。しかしながら、個々のオーディオ要素のためのデフォルト又は初期のレンダリング情報(例えばゲイン)は、典型的には、主要なオーディオシーンについてのメタデータの中でも提供される。
【0087】
次世代のオーディオ配信についての最も重要な特徴の1つは、進化したラウドネス制御であり、すなわちラウドネス情報の適切な信号化とラウドネス正規化である。ラウドネス制御は放送アプリケーションにおいて特に重要であり、そこではラウドネス制御は適用可能な放送規則と推奨を満足するための不可欠な特徴を表している。
【0088】
MPEG-H 3Dオーディオに含まれたラウドネス制御構想は、オーディオプログラムの測定されたラウドネスを表すメタデータに基づいている。そのメタデータは、オーディオプロセッサによって処理されるべきオーディオ信号の一例としてのオーディオストリーム内で、実際のオーディオコンテンツと一緒に伝送される。一実施形態に従う復号器において、ラウドネス正規化ゲインが伝送されたラウドネス情報と目標ラウドネスレベルとに基づいて計算される。一実施形態のラウドネス正規化ゲインは、
図1に一例として図示するように、ミキサー508の後でオーディオ信号に対して適用される。
【0089】
同じオーディオストリーム内で同じオーディオプログラムの多数のプリセットを有する特異な特徴を実現するために、各プリセットの測定されたラウドネスに対応する追加的なラウドネスメタデータが、そのオーディオストリームに含まれる。フォーマット変換(ダウンミキシング)又はダイナミックレンジ処理のような処理ステップは、潜在的にオーディオのラウドネスを変更し得る。よって、一実施形態では、正確なラウドネス正規化を保証するために、追加的なラウドネス情報がこれらの場合でも含まれる。
【0090】
他の実施形態では、個々のグループの又は単一のオーディオ要素であっても、ラウドネス情報が伝送される。グループラウドネスの情報は、一実施形態では異なるラウドスピーカ構成に関して供給される。例えば、あるグループが複数のチャネル信号からなる場合、ステレオ又は5.1ラウドスピーカ構成への再生を想定して、異なるグループラウドスピーカ情報が含まれ得る。グループのラウドネス情報は、本発明で提案された双方向(対話型)シナリオにおけるラウドネス制御のために使用されるであろう。
【0091】
上述のラウドネス情報は、あるプログラムのための大きな多様性のある構成(例えば異なるプリセット、又は異なるラウドスピーカ再生レイアウト)に言及している。これら構成は静的であるから、一実施形態は、それらのラウドネスを符号器(又は符号化プロセスの前に)で測定し、例えばMPEG-H 3DAストリームの中に対応するメタデータフィールドを導入することを想定している。
【0092】
しかしながら、上述のように、MPEG-H 3DAのような現代のオーディオ符号化システムの重要な特徴は、復号器でのユーザー双方向性の支援である。ユーザーは、例えば特定のグループの音量を調整し、又はそれらグループをスイッチオン又はスイッチオフすることができる。重要な使用例は、ダイアログ強化(dialog enhancement)であり、そこではユーザーはダイアログ・オブジェクトのレベル、又はそのダイアログと関連するグループを操作することができる。他の実施例では、ユーザーはHOAベースのグループによって表現される、没入型音響ベッドのレベルを増加させる。他の実施例では、ユーザーは、例えば聴覚障害者用トラック又はボイスオーバートラックのためのビデオ記述を表す、特定のグループに切り替えることを希望する。
【0093】
グループのレベルの変更は、レンダリング済みオーディオシーンの全体ラウドネスが未修正の場合に比べて変更されることをも含む。よって、一貫したプレイバック・ラウドネスは、ゲイン双方向の後ではもはや確保されない。ユーザーは異なるオブジェクトのレベルをより頻繁に変更し得るので、オーディオ出力のラウドネスレベルは同じプログラムでも、時間と共に変化し得る。
【0094】
オーディオプログラムの静的な表現についてだけでなく、オーディオシーンのラウドネスを変更するユーザー対話を考慮するためにも、ラウドネス制御を提供することは非常に望ましい。本発明では、オーディオ要素のグループのレベルに対してユーザー対話を行う場合にも、一貫したラウドネス正規化を可能にするために、復号器においてラウドネス制御を改善できるようになる。
【0095】
レンダリングされたオーディオシーン内でユーザーがあるオーディオ要素又はグループのレベルを変更する際、プログラム又はプリセットのラウドネスは保存される。ある実施形態では、オリジナル・オーディオシーンに対応する基準ラウドネスと、ユーザーのゲイン対話を考慮した修正済みラウドネスとに基づいて、ラウドネス補償ゲインが決定される。次に、ラウドネス補償ゲインは、標準ラウドネス正規化ゲインと一緒にレンダリング済みオーディオ信号に適用され、所望の復号器目標ラウドネスを達成する。
【0096】
図2は、オーディオプロセッサ1-復号器又は単にオーディオ信号を処理する装置とも呼ばれる-の実施例を概略的に示しており、そのオーディオプロセッサはオーディオ信号100を受信し、出力信号101を提供する。この実施例における出力信号101は、プレイバック状況のラウドスピーカに接続された増幅器(図示せず)に供給され、又はラウドスピーカもしくはヘッドホンに直接的に供給されるのに好適なオーディオ信号である。オーディオ信号100は、個別のオーディオオブジェクトのオーディオ信号と、オーディオ要素についての情報及びそれらの取り扱い方法についての情報を提供するメタデータとを有するビットストリームを含む。
【0097】
オーディオ信号100は、ユーザー入力200を受信するオーディオ信号修正部(audio signal modifier)2に提供される。ユーザー入力200は、-この実施例では-少なくともあるプリセットの選択に言及している。プリセットはオーディオ要素のグループと、オーディオ要素の対応するグループの関連する基準ゲインgi及び/又はグループラウドネスLiと、の特異な組合せを指している。もしユーザーがプリセットを選択しない場合には、この実施例ではデフォルト値を有するデフォルトプリセットが使用されるであろう。
【0098】
さらに、ユーザーはユーザー入力200を介して個別グループのゲイン値を設定する。修正済みゲイン値hiは、対応するグループがメタデータに含まれた基準ゲイン値giに対応しながら増幅され又は減衰されるであろうことを意味している。例えば、ユーザーは増幅された背景合唱を好んで聞き、(通常とは違って)リーディングボイスを聞きたがらない可能性もある。それ故、ユーザーは背景合唱のゲイン値を高くし、リーディングボイスのゲイン値を下げるか、又はこのボイスをスイッチオフするであろう。
【0099】
ユーザーはまた、あるグループをスイッチオフ又はオンする可能性を有する。もしユーザーがあるグループを聞きたいと望まない場合には、そのグループはスイッチオフされ得る。反対に、もしメタデータが、特定のプリセットについてあるグループがスイッチオフされることを意味するフラグを含む場合には、ユーザーはそのグループをスイッチオンすることができる。このことは、例えば、オーディオ信号が口述テキストの異なる言語バージョンを含み、プリセットが異なる言語を指している場合にあり得る。それ故、あるグループをスイッチオン又はオフすることは、そのグループがプレイバックにおいて使用されるか否かを指している。
【0100】
要するに、信号修正部2は、オーディオ信号100に属するオーディオ要素のグループを増幅又は減衰させることで、オーディオ信号100をユーザー入力200に従って修正し、かつ選択されたプリセット又はメタデータの個々のデータによってカバーされたデフォルトプリセットに従って修正する。
【0101】
信号修正部2の後には、データを現在のプレイバック構成へと変換する構成変換部3が続き、その現在のプレイバック構成により、オーディオ信号100が再生されることになる。どのプレイバック構成が与えられ、よって現在の状況となるかもまた、ユーザー入力200によって、例えばあるリストからの選択という形でカバーされる。例えば、メタデータはサラウンド音響状態を指しても良い一方で、現在のプレイバック状態はステレオプレイバックを可能にしてもよい。この変換は、一実施形態では、ラウドネス値と共にゲイン値に言及する。
【0102】
構成変換部3は変換済みデータを、ユーザー入力200をも受信するラウドネス制御部6へと提供する。これらデータに基づいて、ラウドネス制御部6はラウドネス補償ゲインCを計算し、そのラウドネス補償ゲインはラウドネス操作部5へと提供される。
【0103】
ラウドネス操作部5は、ラウドネス補償ゲインCとミキサー4から受信された信号とを使用して、出力信号101の全体ラウドネスを設定する。ミキサー4は、この実施形態では、構成変換部3を介して、オーディオ信号修正部2による修正と構成変換部3による変換との後のオーディオ信号100を受信し、オーディオ要素の異なるグループを組み合わせる(
図1を比較参照)。
【0104】
説明上、図示の例では、特異なオーディオシーンがプリセット、つまりグループの特異な組合せによって定義される場合について考察する。各グループは所定のプリセットのための関連する初期/デフォルトゲインを有する。さらに、そのプリセット内の各グループのラウドネスが利用可能であると仮定する。そのプリセットはユーザーによって選択されてもよいし、あるいはデフォルトプリセットとして設定されてもよい。以下の記号が使用される:
・Liはプリセットのi番目のグループのラウドネスである
・giはi番目のグループの初期/デフォルトゲイン(例えばdBスケールで与えられる)である
・hiはi番目のグループの修正済み対話(双方向)ゲイン(例えばdBスケールで与えられる)である
・Mrefは、あるプリセット(又はデフォルト・オーディオシーン)の基準ラウドネスの計算のために含まれたグループを表すインデックスのセットを示す
・Mmodは、あるプリセット(又は修正済みオーディオシーン)の修正済みラウドネスの計算のために含まれたグループを表すインデックスのセットを示す
【0105】
あるグループが、特異なラウドスピーカ構成、例えばHOAオーディオシーンに対応するチャネル信号の集合からなる場合に、多数のグループラウドネス値がメタデータの中に含まれ得る。これら異なるラウドネス値は、プレイバックのために使用される異なるラウドスピーカ構成に関連している。例えば、あるグループが5.1又は22.2ラウドスピーカ構成を持つチャネルベッドを表している場合、フォーマット変換器を使用して、そのチャネルベッドがステレオ再生システムにマッピングされるべき場合に比較して、異なるラウドネスが、そのグループをオリジナル5.1又は22.2ラウドスピーカ構成について再生するために測定されてもよい。この場合、一実施形態では、伝送されたメタデータの中で利用可能であれば、ステレオ再生と関連するグループラウドネスが選択される。そうでない場合には、オリジナルラウドスピーカ構成と関連するグループラウドネスが使用される。あるグループがHOAベースのオーディオシーンを表している場合に、適切なグループラウドネスを選択するために同様な方式が提案される。この場合、現在のプレイバックラウドスピーカ構成と関連するグループラウドネスが、基準ラウドスピーカレイアウトに関連したグループラウドネスに代えて、(そのメタデータの中で利用可能であれば)使用されるべきである。
【0106】
幾つかの実施形態では、ラウドネス情報は各グループのために別個に提供されるのではなく、同じラウドネス値がグループの集団によって引用される。
【0107】
一般に、異なるグループのオーディオ信号は相関関係がないと仮定するのが妥当である。その場合、プリセットの基準ラウドネスは、以下のように計算され得る。
【数1】
【0108】
同様に、修正済みオーディオシーンのラウドネスは、次のように計算される。
【数2】
【0109】
あるグループがプリセットのデフォルト設定においてスイッチオフされる場合には、そのグループは基準ラウドネスLrefを計算する際には排除される。同様に、もしユーザーがあるグループをスイッチオフする場合には、そのグループは修正済みラウドネスLmodを計算する際に排除される。あるグループがデフォルトプリセットにおいてスイッチオフされているが、修正済みシーンにおいてユーザーによってスイッチオンされた場合には、対応するグループラウドネスLiは基準ラウドネスLrefの計算から除外されるが、修正済みラウドネスLmodの計算には含まれ、その逆もまた真である。スイッチオフされたグループを排除することは、そのゲイン(gi又はhi)を-∞に設定することと等価であると解釈される点に留意すべきである。この場合、
Mref=Mmod
である。よって、両方のラウドネスLref及びLmodはグループの同じセットを引用して計算される。
【0110】
ラウドネス補償ゲインCは、プリセットの基準ラウドネスL
refをプリセットの修正済みラウドネスL
modに関係付けることから取得される。
【数3】
【0111】
ラウドネス補償ゲインCは、ある実施形態では、極端な場合についての所望でない挙動を回避するために、許可されたゲインのある範囲内に制限される。
【数4】
【0112】
先行技術(例えば特許文献1を参照)に従いラウドネス正規化のために使用されるラウドネス正規化ゲインG
Nは、次式に従って補正される。
【数5】
これにより、ユーザーによるゲイン対話の後での一貫性のあるラウドネスを確保する。代替的に、ラウドネス正規化はオリジナル正規化ゲインG
Nに基づいて実行され、ラウドネス補償は補償ゲインの限定バージョンC
limを使用してオーディオ信号に対して別個に実行される。
【0113】
上記説明は、オーディオプログラムのあるプリセットに基づいていた。あるプログラムについて利用可能なプリセットが常にある訳ではなく、単一のグローバルなデフォルトシーンだけが定義されていることもある。この場合には、上述のプリセットの場合と同様に取り扱われ、そこではインデックスMref及びMmodのセットは、デフォルトシーンとその修正済みバージョンのグループをそれぞれ指している。
【0114】
あるグループをラウドネス補償プロセスから意図的に除外することが適切である場合がある。例えば、1つのあるグループが、そのプログラム内の非常に短期間だけ活動的であり、残りの期間は完全に無音である場合がある。例えば国際テレコミュニケーションユニオン(International Telecommunication Union ITU)の3つのセクタの1つとしての、ITU-R BS.1770-3 - by the ITU Radiocommunication Sector (ITU-R)に従う、ラウドネス測定期間中のゲート処理に起因して、そのようなグループが有意に測定可能なラウドネスを依然として有し得る。その場合、このグループは非常に短期間だけ活動的であるにもかかわらず、このグループラウドネスは、全体のプログラム持続期間を通して、ラウドネス補償ゲインに影響を及ぼすであろう。他方で、そのような疎らなグループ信号は、全体のプログラム/プリセットの混合のラウドネス測定に対して極僅かな寄与しか有しない。
【0115】
例えば、ユーザーがそのような疎らなグループ/オブジェクトをブーストすることを選択する場合には、ラウドネス補償は全体のプログラム持続時間の間、全ての残りのオブジェクト要素を減衰させるであろう。そのような挙動は望ましくなく、ラウドネス補償プロセスはそのような特殊な疎らなグループを無視すべきである。それ故、メタデータは、ラウドネス補償の計算にとって無視されるべきこのグループのための対応するフラグを含んでいる。
【0116】
上述の機能を提供するために、あるグループがラウドネス補償から、つまりプリセット又はグローバルなオーディオシーンの基準ラウドネス及び修正済みラウドネスの計算から、除外されるべきかどうかを示すオーディオストリーム又はオーディオ信号に含まれたメタデータに対して、情報が付加される。この情報は、一実施形態では、あるグループがラウドネス補償プロセス内に含まれるか否かを示す、各グループについての単純なフラグである。
【0117】
ラウドネス制御に関する異なる放送規則は、プログラムラウドネスを定義するために異なるアプローチを使用する。EBU-R128がフルプログラム混合のラウドネスの測定を必要とするのに対し、ATSC A/85はプログラムのアンカー要素のラウドネスだけの測定を推奨しており、そのアンカー要素は典型的にはダイアログによって表現される。
【0118】
あるプログラムについてラウドネスを測定するそのような異なるアプローチは、ラウドネス補償のためにも考慮される。アンカーベースのラウドネス補償は、上述のようなフル混合のラウドネス補償から即座に結論づけられる。
【0119】
プリセット(又はプログラムのデフォルト混合)のアンカーベースの基準及び修正済みラウドネスのためには、プログラムアンカーに寄与するグループだけが含まれる。どのグループがプログラムアンカーの一部であるかの情報は、一実施形態では、オーディオストリーム/オーディオ信号のメタデータの中に含まれている。基準ラウドネスは次式によって得られる。
【数6】
ここで、A
refは、デフォルトオーディオシーン又はプリセットのアンカー要素の一部であるグループを指示するインデックスのセットを示している。
【0120】
同様に、グループインデックス(修正済みオーディオシーン又はプリセットのアンカー要素の一部であるグループを指している)のセットA
modを使用するアンカーベースのラウドネス補償の修正済みラウドネスは、次の通りである。
【数7】
【0121】
以上のことから、補償ゲインは次式のように得られる。
【数8】
【0122】
ラウドネス補償を実行するための残りのステップは、フルプログラム混合の場合(上述の通り)に比べて変更がない。
【0123】
幾つかの場合には、両方のラウドネス補償アプローチ-アンカーベース及びフルプログラム混合ベース-の混合は、ラウドネス補償のユーザー体験にとって有益である。
【0124】
一実施形態では、アンカーベースのアプローチは、1つ又は全てのアンカーグループがユーザーによって増幅される場合、つまりhi>giである場合に使用される。他方で、もしアンカーグループが減衰された場合、つまりhi<giである場合には、フル混合のラウドネスに対するラウドネス補償が使用される。アンカーグループに関する情報はメタデータに含まれている。
【0125】
上述のようなラウドネス補償アプローチは、プリセット又はグローバルオーディオシーン内の各グループのラウドネスについての情報を必要とする。幾つかのシナリオでは、ラウドネス情報は幾つかのグループについてのみ利用可能であって、その他のグループについては欠けていてもよい。よって、一実施形態では、欠けているグループラウドネス情報は、プリセット(又はデフォルトオーディオシーン)のラウドネスと利用可能なグループラウドネス値とから計算される。
【0126】
L
pがオーディオプログラムの考慮対象のプリセットの測定済みラウドネス、つまり個々のプリセットに帰属するオーディオオブジェクトの測定済みジョイントラウドネス、を示すと仮定する。さらに、Bはラウドネス情報が利用可能なグループに対するインデックスのセット、を示すと仮定する。プリセットの残差ラウドネスL
resは、プリセットラウドネスと利用可能なグループラウドネス情報とこれらグループのデフォルト/初期ゲインとから計算される。
【数9】
【0127】
残差ラウドネスの代替的表現は、利用できないグループラウドネス値と対応するデフォルト/初期ゲインとを考慮することによって、取得され得る。
【数10】
【0128】
実際上、ラウドネス情報が欠けている各グループのラウドネスは等しい、と仮定するのが妥当である。
【数11】
【0129】
この場合、残差ラウドネスは以下のように表され得る。
【数12】
【0130】
このことから、欠けているグループラウドネス値の推定は次式から即座に得られる。
【数13】
【0131】
次いで、ラウドネス補償にとって必要な基準ラウドネス及び修正済みラウドネスは、既に上述の通り計算され、如何なる欠けているグループラウドネスLiも対応する推定LAによって置き換えられる。
【0132】
欠けているグループラウドネス情報の推定は、オーディオ符号化システムの符号器側又は復号器側のいずれかで実行される。
【0133】
前記推定が符号器側で実行される場合、オーディオストリーム内で伝送されたメタデータ内のグループラウドネスに関する情報は測定されるか、又はその代わりに、上述のような対応する推定が含まれ得る。その場合、復号器側でのラウドネス補償ステージは全ての必要なラウドネス情報を有しており、全てのグループラウドネスが符号器によって事前に測定されている場合に従って、その処理を行うことができる。
【0134】
前記推定が復号器で実行される場合には、オーディオストリームのメタデータ内の欠けているグループラウドネス値は上述のように推定され、その場合、その推定されたグループラウドネス値に基づいてラウドネス補償が行われる。
【0135】
如何なるグループのラウドネスに関する情報もオーディオストリームのメタデータ内で提供されない、特殊な使用形態がある。この場合には、ラウドネス補償は、利用可能な関連するレンダリング情報、すなわちあるグループのデフォルト又は初期ゲインgiとユーザー対話後のその修正済みバージョンhiとにのみ基づいて、作動しなければならない。この作動は、それらグループについてのラウドネス情報が復号器側では既知でないため、ブラインドラウドネス補償と称される。他の実施形態では、たった1つのグループラウドネスだけがメタデータの中で失われている場合にも、ブラインドラウドネス補償が実行される。
【0136】
補償のために、あるプリセット内の全てのグループのラウドネス値が同じであるとの仮定が使用される。ブラインドラウドネス補償のある実施形態では、M
ref及びM
modにそれぞれ含まれた全てのグループについてLi=L
Aであるという仮定が導入される。これによって、ラウドネス補償ゲインを計算するための規則が次式に従って得られる。
【数14】
【0137】
ブラインドラウドネス補償のためのゲインファクタは、グループゲインについての情報だけを必要とするが、ラウドネス関連情報は必要としない点に留意すべきである。
【0138】
さらなる実施形態では、少なくとも1つのグループラウドネスが欠けている場合にブラインドラウドネス補償が実行される。よって、唯1つのグループラウドネスを欠いただけでもブラインドラウドネス補償が行われる。
【0139】
このセクションでは、上述の内容が要約される。
【0140】
一実施形態では、プリセット又はデフォルトオーディオシーンの基準ラウドネスの計算のために含まれるべきグループを示す、インデックスの全般的セットが特定される。このセットはオーディオストリームのメタデータ内の情報から導出され、あるグループがデフォルトオーディオシーン又はプリセットについてラウドネス補償を実行するために含まれるべきかどうかを示す。この情報は、通常、符号器においてオーディオストリームのメタデータ内に導入される。
【0141】
符号器では、これらビットストリーム要素を適切に定義することによって、ラウドネス補償プロセスが制御される。例えば、あるグループが除外されるべきとき、対応するビットストリーム要素は「偽」と設定される。一実施形態では、アンカーベースのラウドネス補償は、デフォルトオーディオシーン又はデフォルトプリセットのアンカー要素の一部であるグループだけを含み、かつ対応するビットストリーム要素を「真」と設定することによって、実現される。この情報を提供する他の手法は、異なる構成において使用され得る。
【0142】
一実施形態において既に説明した通り、あるグループがデフォルトオーディオシーン又はプリセットにおいてスイッチオフされている場合には、そのグループは基準ラウドネスLrefを計算するために排除される。結果的なインデックスのセットはKrefとして示される。
【0143】
同様に、修正済みシーンにおいてスイッチオフされた如何なるグループも、修正済みラウドネスLmodの計算から除外される。もし、あるグループがデフォルトシーンでスイッチオフされ、修正済みシーンにおいてユーザーによってスイッチオンされた場合には、対応するグループラウドネスは、基準ラウドネスLrefの計算から除外されるが、修正済みラウドネスLmodの計算には含まれ、その逆もまた真である。修正済みラウドネスLmodのグループインデックスのセットは、Kmodで示される。
【0144】
次に、ラウドネス補償ゲインは、MrefをKrefで置き換え、MmodをKmodで置き換えることにより、上述と同様にして計算される。
【0145】
基準又は修正済みのラウドネスの一方を計算するのに必要なグループラウドネス情報のいずれかが復号器において欠けている場合には、ブラインドラウドネス補償がフォールバックモード(fallback mode)として使用される。ラウドネス補償についてグループインデックス(Kref及びKmod)を選択することに関する上述と同じアプローチがフォールバックモードで適用される。
【0146】
図3は、異なるオーディオソースに基づいて1つのデジタルオーディオ信号100を生成する、オーディオ符号器20の一実施形態を示す。オーディオ信号100は、例えば上述のオーディオプロセッサによって使用されるメタデータを含む。
【0147】
オーディオ符号器20は、1つ以上のオーディオ要素50を持つ少なくとも1つのグループについてのラウドネス値を決定する、ラウドネス決定部21を含む。図示の例では、3つのオーディオソースX1、X2及びX3が存在し、それらは全て1つのグループに含まる。それらの内の2つ、即ちX2及びX3のラウドネス値は、L2及びL3として決定され、メタデータ書き込み部22へと供給される。メタデータ書き込み部22は、対応するグループ基準ラウドネス情報L2及びL3として2つのグループX2及びX3について決定されたラウドネス値を、オーディオ信号100のメタデータへと導入する。
【0148】
グループX1、X2及びX3についての基準ゲインg1,g2,g3としてのゲイン値もまた、メタデータ書き込み部22によってオーディオ信号100のメタデータへ書き込まれる。さらなる実施形態によれば、グループラウドネス及び基準ゲイン値が、特定のプリセット及び/又は異なるプレイバック構成について決定される。また、個々の全体ラウドネスLpとしての異なるプリセットについてのラウドネスも測定される。
【0149】
X1として標識が付された第1オーディオ要素50のラウドネスは、ラウドネス決定部21によって測定されず、推定部24(上述参照)によって計算され又は推定され、対応する基準ラウドネスL1としてメタデータ書き込み部22へ供給され、メタデータへと書き込まれる。
【0150】
図示の実施形態におけるコントローラ23は、ラウドネス決定部21とメタデータ書き込み部22へと接続されている。コントローラ23は、ラウドネス補償ゲインCを決定するためにどのグループが考慮されるべきか、又は無視されるべきかを決定する。そのグループの使用法に関するデータとして、ある指示がメタデータ書き込み部22によってメタデータへと書き込まれる。例えばフラグの形態の対応するデータは、オーディオプログラム又は復号器によって、ラウドネス補償ゲインCの決定のためにどのグループが使用されるべきか、又はどのグループが無視されるべきかを指示している。
【0151】
結果的なオーディオ信号100は、オーディオオブジェクト50から受信された実信号と、それら実信号を特徴付け且つそれらの意図されたオーディオ復号器1による処置とを特徴付けるメタデータと、を含む。メタデータのデータは、オーディオオブジェクトの複数のグループに言及するが、その一方で、1つのグループが1つのオーディオオブジェクト/要素だけをカバーすることも可能である。
【0152】
メタデータは、以下のデータの少なくとも幾つかを含む。
・個別グループについての測定されたラウドネス値Li
・個別のグループについての基準ゲイン値giであって、各グループのラウドネス又は突出度を他の関係するグループの合体に対して表す、基準ゲイン値gi
・所与のプリセット及び/又は所与のプレイバック構成のために組み合わせられたグループの結果的なラウドネスとしての基準ラウドネスLref
・1グループ又はその対応する値が、ラウドネス補償ゲインCの決定のために使用されるか否か(例えばそのグループがアンカーに属するかどうか、又はそのグループの持続時間が無視され得る程度に短いかどうかなど)、又はどのように使用されるか(例えば基準及び/又は修正済みラウドネスの計算のため)のインジケータ
【0153】
各グループにとって、メタデータは好ましくは、異なるプリセット及び/又は異なるプレイバック構成について、異なるデータのセットを含む。よって、異なる録音及び異なる再生状況は、関連するグループについて異なるデータセットをもたらすと考えられる。
【0154】
オーディオ符号化システムを用いてユーザー対話のためのラウドネス補償を実施する種々の実施例を介して、本発明を以下に説明する。
・符号器側で、デフォルトオーディオシーン及び/又はプリセットに含まれる各グループのラウドネスが決定される。ラウドネス情報は、オーディオストリーム又はオーディオ信号の一部として含まれるメタデータに導入される。
・少なくとも1つのグループについて多数のラウドネス値が含まれ、異なる値は異なるラウドスピーカ・プレイバック構成(例えばステレオ、5.1又はその他)と関連している。
・符号器側では、ラウドネス補償を実行するためにあるグループが含まれるべきかどうか、つまり基準ラウドネス及び修正済みラウドネスの計算のためにそのグループがそれぞれ考慮されるべきかどうかの情報に対応する、追加的なメタデータが生成される。例えば、デフォルトオーディオシーン又は所定のプリセットのアンカー要素の一部であるグループだけを含むようにメタデータを構成することによって、アンカーベースのラウドネス補償が実現される。
・復号器は、オーディオ信号および関連するメタデータを表すオーディオストリームを受信する。復号器はそのオーディオストリームを復号化し、チャネル及び/又はオブジェクト及び/又は高次アンビソニックス・フォーマットに対応する復号化済みオーディオ信号を生成する。
・メタデータに基づいて、復号器は、所与のオーディオシーン又はプリセットのラウドネス補償に対して含まれるべき全てのグループインデックスを選択する。
・復号器では、オーディオシーン又はプリセットの基準ラウドネスLrefが、各選択されたグループのデフォルトゲインgi及び対応するラウドネス情報に基づいて計算される。もし、1つのグループに対して多数のラウドネス値が伝送された場合には、所与のプレイバックラウドスピーカ構成に関連したラウドネス値が選択される。
・同様に、修正済みラウドネスLmodが、選択されたグループのラウドネス情報とユーザー対話後の修正済みゲインhiとから計算される。
・デフォルトオーディオシーン又はプリセットのためのラウドネス補償ゲインCが、基準ラウドネスLref及び修正済みラウドネスLmodに基づいて計算される。
・ラウドネス補償ゲインCは、プレイバックの前のオーディオ信号に適用され、出力信号を提供する。
【0155】
幾つかの実施形態では、符号器で全てのグループについて必要なラウドネス情報を測定することは不可能である。そこで、符号器は欠けているグループラウドネス値の推定を計算する。符号器は、欠けている(測定されない)グループラウドネス情報を推定するために、異なる方法を適用してもよい。その場合、復号器でのラウドネス補償は、全てのグループについてラウドネス情報が測定された場合と同様に実行される。
【0156】
さらなる実施形態では、オーディオストリームは限定数のグループについてのみラウドネス情報を有する。この場合には、欠けているグループラウドネス情報は復号器で推定される。その場合、復号器側でのラウドネス補償は、全ての必要なラウドネス情報がオーディオストリームのメタデータ内に含まれていた場合と同様に実行される。
【0157】
他の実施形態は、正確なラウドネス補償を実行するための何らかの所要のグループラウドネス情報が復号器側で欠けている場合の、ブラインドラウドネス補償をフォールバックモードとして含む。上述のように、基準及び修正済みのラウドネスの計算に含まれるべきグループを選択するための、インデックスのセットKref及びKmod を決定する同じメカニズムが、前記フォールバックモードで使用される。換言すると、グループインデックスのセットKref及びKmodの選択は、依然として符号器側で生成された対応する情報に基づいており、その情報はオーディオストリームのメタデータと共に提供される。
【0158】
本発明の幾つかの実施形態を以下に説明し、それらは前述の実施形態と結合され得る。
【0159】
第1実施形態は、オーディオ信号を処理するオーディオプロセッサについて言及し、そのオーディオプロセッサは、ユーザー入力に応じてオーディオ信号を修正するよう構成されたオーディオ信号修正部と、基準ラウドネス又は基準ゲインに基づき、かつ修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するよう構成されたラウドネス制御部であって、前記修正済みラウドネス又は前記修正済みゲインはユーザー入力に依存している、ラウドネス制御部と、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するよう構成されたラウドネス操作部と、を備える。
【0160】
第1実施形態に依存する第2実施形態は、オーディオ信号がメタデータを有するビットストリームを含み、そのメタデータがあるグループについてのグループラウドネスとあるグループについてのゲイン値とを有する、装置について言及している。
【0161】
第1又は第2実施形態に依存する第3実施形態は、装置について言及し、そこではラウドネス制御部が、1グループ又はグループから成るセットについての基準ラウドネスを、グループラウドネス又は複数のグループラウドネス及びそのグループについての基準ゲイン値又はそのグループから成るセットについての基準ゲイン値を使用して、計算するよう構成され、かつあるグループ又はグループから成るセットについての修正済みラウドネスを、グループラウドネス又は複数のグループラウドネス及びそのグループについての修正済みゲイン値又はそのグループから成るセットについての修正済みゲイン値を使用して、計算するよう構成され、修正済みゲイン値又は複数の修正済みゲイン値はユーザー入力によって修正される。
【0162】
先行する実施形態の1つに依存する第4実施形態は、装置について言及し、そこではラウドネス制御部は、あるグループがオーディオ信号のメタデータの中でスイッチオフされている場合には、基準ラウドネスを決定するために前記グループを排除するよう構成され、又は、あるグループがユーザー入力に応じてスイッチオフされている場合には、修正済みラウドネスを決定するために前記グループを排除するよう構成され、又は、あるグループがメタデータ内でスイッチオフされかつユーザー入力によってスイッチオンされた場合、基準ラウドネスの計算からそのグループを除外するよう構成され、またその逆もあり得る。
【0163】
先行する実施形態の1つに依存する第5実施形態は、装置について言及し、そこではラウドネス制御部が、基準ラウドネスをプリセットのラウドネスに関係付けることによって、ラウドネス補償ゲインを計算するよう構成され、そのプリセットは1つ以上のグループを含み、1つのグループは1つ以上のオブジェクトを含む。
【0164】
先行する実施形態のいずれかに依存する第6実施形態は、装置について言及し、そこではラウドネス制御部が、ラウドネス補償ゲインが上限閾値より低くなるように、又はラウドネス補償ゲインが下限閾値より大きくなるように、前記ラウドネス補償ゲインに対して制限動作を行うよう構成されている。
【0165】
先行する実施形態の1つに依存する第7実施形態は、装置について言及し、そこではラウドネス操作部が、ラウドネス補償ゲイン、及びオーディオプロセッサにより設定された目標レベルとオーディオ信号のメタデータ内で指示されたメタデータレベルとによって決定されたオリジナル正規化ゲインによって決定された、あるゲインを前記信号に適用するよう構成されている。
【0166】
先行する実施形態の1つに依存する第8実施形態は、装置について言及し、そこではオーディオ信号が、ラウドネス補償ゲインを決定するためにどのグループが使用されるべきか又はどのグループが使用されるべきでないかを示す補償メタデータ情報を含み、ラウドネス制御部は、ラウドネス補償ゲインを決定するために、補償メタデータ情報によって使用されるべく指示されたグループだけを使用するか、又はラウドネス補償ゲインを決定するために、補償メタデータ情報によって使用されないよう指示されたグループを使用しないように構成されている。
【0167】
先行する実施形態の1つに依存する第9実施形態は、装置について言及し、そこではオーディオ信号がアンカー要素を有するよう指示され、ラウドネス制御部は、ラウドネス補償ゲインを決定するために、アンカー要素の1つのオーディオオブジェクト又はオーディオオブジェクトのグループについての情報だけを使用するよう構成される。
【0168】
第1~第8実施形態の1つに依存する第10実施形態は、装置について言及し、そこではオーディオ信号がアンカー要素を有するよう指示され、ラウドネス制御部は、アンカー要素の1つ以上のオーディオオブジェクトがユーザー入力によって増幅された場合に、ラウドネス補償ゲインを決定するために、アンカー要素の1つのオーディオオブジェクト又はオーディオオブジェクトのグループについての情報だけを使用し、アンカー要素の1つ以上のオーディオオブジェクトがユーザー入力によって減衰された場合に、アンカー要素の1つ以上のオーディオオブジェクトからの情報と、アンカー要素に含まれない1つ以上のオーディオオブジェクトの情報とを使用するよう構成される。
【0169】
先行する実施形態の1つに依存する第11実施形態は、装置について言及し、そこではラウドネス制御部が、オーディオ信号内で欠けているグループラウドネスを、少なくとも2つのグループと、そのプリセットのための欠けていないゲイン及びラウドネス情報と、を含むプリセットのラウドネスを使用して計算するよう構成される。
【0170】
先行する実施形態の1つに依存する第12実施形態は、装置について言及し、そこではラウドネス制御部が、1つ以上のグループのための1つ以上のゲイン値と1つ以上のグループのための1つ以上の修正済みゲイン値とを使用してブラインドラウドネス補償を実行するよう構成される。
【0171】
先行する実施形態の1つに依存する第13実施形態は、装置について言及し、そこではラウドネス制御部が、オーディオ信号が基準ラウドネス情報を含むかどうかを検査し、かつオーディオ信号が基準ラウドネス情報を含まない場合に、1つ以上のグループのための1つ以上の基準ゲイン値と1つ以上のグループのための1つ以上の修正済みゲイン値とを使用してブラインドラウドネス補償を実行し、又は、修正済みラウドネス情報が計算され得ないかどうかを検査し、修正済みラウドネス情報が計算され得ない場合にブラインドラウドネス補償を実行し、このブラインドラウドネス補償は1つ以上のグループのための1つ以上の基準ゲイン値と1つ以上のグループのための1つ以上の修正済みゲイン値とを使用することを含む。
【0172】
先行する実施形態の1つに依存する第14実施形態は、装置について言及し、そこではオーディオ信号が異なるプレイバック構成について異なる基準ラウドネス情報値を有し、前記装置はさらに信号を所定のプレイバック構成に変換するフォーマット変換部を有し、ラウドネス制御部はフォーマット変換部によって使用される特定のプレイバック構成に対して特定のラウドネス値を選択するよう構成される。
【0173】
第15実施形態はメタデータを含むオーディオ信号を生成するオーディオ符号器について言及し、このオーディオ符号器は、1つ以上のオーディオオブジェクトを有する1つのグループについてラウドネスを決定するラウドネス決定部と、そのグループについてのラウドネスを基準ラウドネス情報としてメタデータへ導入するメタデータ書き込み部と、を備える。
【0174】
第15実施形態に依存する第16実施形態はオーディオ符号器について言及し、ここでラウドネス決定部は異なるプレイバック構成について異なるラウドネス値を決定するよう構成され、メタデータ書き込み部は、前記異なるプレイバック構成に関しては異なるラウドネス値をメタデータへと導入するよう構成される。
【0175】
第15又は第16実施形態に依存する第17実施形態はオーディオ符号器について言及し、ここでオーディオ符号器はさらに、どのグループがラウドネス補償のために使用されるべきか否かを決定するコントローラを備え、メタデータ書き込み部は、どのグループがラウドネス補償のために使用されるべきか又は使用されるべきでないかを示す指示をメタデータへ書き込むよう構成される。
【0176】
第15~第17実施形態の1つに依存する第18実施形態はオーディオ符号器について言及し、ここでラウドネス決定部はあるグループのためのグループラウドネス値を計算するよう構成され、そのグループのためのグループラウドネス値はメタデータ内では欠けており、オーディオ信号の全てのグループが関連する基準ラウドネス情報を有するように、メタデータ書き込み部は欠けているラウドネス値をメタデータへと導入するよう構成される。
【0177】
第19実施形態はオーディオ信号を処理する方法に言及し、その方法は、ユーザー入力に応じて前記オーディオ信号を修正するステップと、基準ラウドネス又は基準ゲインに基づき、かつ修正済みラウドネス又は修正済みゲインに基づいて、ラウドネス補償ゲインを決定するステップであって、前記修正済みラウドネス又は前記修正済みゲインは前記ユーザー入力に依存している、ステップと、前記ラウドネス補償ゲインを使用して信号のラウドネスを操作するステップと、を備える。
【0178】
第20実施形態はメタデータを含むオーディオ信号を生成する方法に言及し、1つ以上のオーディオオブジェクトを有するあるグループについてラウドネスを決定するステップと、そのグループについてのラウドネスを基準ラウドネス情報として前記メタデータへ導入するステップと、を備える。
【0179】
第21実施形態は、コンピュータ又はプロセッサ上で作動するとき、第19又は第20実施形態に従う方法を実行するためのコンピュータプログラムについて言及する。
【0180】
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応するブロック、項目、又は対応する装置の特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路のようなハードウエア装置により(を使用して)実行されることができる。幾つかの実施形態において、最も重要な方法ステップの一又は複数が、そのような装置によって実行されてもよい。
【0181】
本発明の、伝送され又は符号化された信号は、デジタル記憶媒体に格納されることができ、又はインターネットのような無線伝送媒体又は有線伝送媒体などの伝送媒体上で伝送されることができる。
【0182】
所定の実施要件によるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そのデジタル記憶媒体は、その中に格納された電子的に読み取り可能な制御信号を有し、それら制御信号は、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能である)。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
【0183】
本発明に従う幾つかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアを含み、それら制御信号は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能である。
【0184】
一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
【0185】
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
【0186】
換言すれば、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0187】
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。データキャリア、デジタル記憶媒体、又は記録媒体は、典型的には有形及び/又は非一時的である。
【0188】
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
【0189】
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
【0190】
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0191】
本発明の更なる実施形態は、本願明細書に記載の方法の一つを実行するためのコンピュータプログラムを、レシーバへと(例えば電子的または光学的に)伝送するよう構成された、装置またはシステムを含む。レシーバは、例えばコンピュータ、モバイル機器、メモリデバイスその他であり得る。装置またはシステムは、例えばコンピュータプログラムをレシーバへと伝送するファイルサーバーを含み得る。
【0192】
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
【0193】
上述の実施形態は、本発明の原理の単なる説明に過ぎない。上述の装置及び詳細の修正及び変更が当業者にとって明らかなことは理解されよう。従って、以下に添付する特許請求の範囲の主題によってのみ限定されるべきであり、実施形態の説明及び解説の方法で表現された特定の詳細によっては限定されないことが趣旨である。
[備考]
[請求項1]
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するよう構成された、オーディオ信号修正部(2)と、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存しており、前記ラウドネス制御部(6)は、前記ラウドネス補償ゲイン(C)を決定するためにどのグループが使用されるべきか又はどのグループが使用されるべきでないかを示す前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記グループは1つ以上のオーディオ要素を含む、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して信号のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
[請求項2]
請求項1に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記メタデータのデータに含まれた少なくとも1つのフラグに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記フラグは前記ラウドネス補償ゲイン(C)を決定するためにあるグループが考慮されるべきかどうか、又はどのように考慮されるべきかを示している、オーディオプロセッサ。
[請求項3]
請求項1又は2に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記グループが前記オーディオ信号(100)のメタデータに含まれたアンカーに属する場合に、前記ラウドネス補償ゲイン(C)を決定するためにそのグループだけを使用するよう構成されている、オーディオプロセッサ。
[請求項4]
請求項3に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記アンカーに属する少なくとも1つのグループの修正済みゲイン(hi)が対応する基準ゲイン(gi)より大きい場合、前記ラウドネス補償ゲイン(C)を決定するために前記アンカーに属するグループだけを使用するよう構成され、
及び/又は
前記ラウドネス制御部(6)は、前記アンカーに属する少なくとも1つのグループの修正済みゲイン(hi)が前記対応する基準ゲイン(gi)より小さく、かつ前記修正済みゲイン(hi)が前記ユーザー入力に依存する場合、前記ラウドネス補償ゲイン(C)を決定するために前記アンカーに属するグループと前記アンカーに属しないグループとを使用するよう構成されている、
オーディオプロセッサ。
[請求項5]
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するよう構成された、オーディオ信号修正部(2)と、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存しており、前記ラウドネス制御部(6)は、少なくとも1つのプリセットに言及する前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記プリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットを指している、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して信号のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
[請求項6]
請求項5に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至4のいずれかに従って構成されている、オーディオプロセッサ。
[請求項7]
請求項1乃至6のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記プリセットによって言及される前記セットの前記少なくとも1つのグループのグループラウドネス(Li)及び/又はゲイン値(gi)に基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
[請求項8]
請求項1乃至7のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、個々のグループラウドネス(Li)と個々のゲイン値(gi)とを使用して、前記プリセットによって言及された前記セットについての前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、前記個々のグループラウドネス(Li)と個々の修正済みゲイン値(hi)とを使用して、前記プリセットによって言及された前記セットについての前記修正済みラウドネス(Lmod)を決定するよう構成され、かつ
前記修正済みゲイン値(hi)は、前記ユーザー入力によって修正されている、
オーディオプロセッサ。
[請求項9]
請求項5乃至8のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、選択されたプリセットに言及している前記メタデータのデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記プリセットは前記ユーザー入力によって選択される、オーディオプロセッサ。
[請求項10]
請求項5乃至9のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、デフォルトプリセットに言及している前記メタデータのデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、
前記デフォルトプリセットは前記ユーザー入力より前に、又は前記ユーザー入力から独立して設定されている、オーディオプロセッサ。
[請求項11]
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するよう構成された、オーディオ信号修正部(2)と、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存しており、前記ラウドネス制御部(6)は、あるグループがスイッチオフされるかスイッチオンされるかを示す前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成され、前記グループは1つ以上のオーディオ要素を含む、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して信号のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
[請求項12]
請求項11に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至10のいずれかに従って構成されている、オーディオプロセッサ。
[請求項13]
請求項11又は12に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、あるグループが前記ユーザー入力に応じてスイッチオフされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを排除するよう構成されている、オーディオプロセッサ。
[請求項14]
請求項11乃至13のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、あるグループが前記メタデータの中でスイッチオフされている場合に、前記基準ラウドネス(Lref)を決定するために前記グループを排除し、かつあるグループが前記ユーザー入力によりスイッチオンされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを包含するよう構成され、
及び/又は
前記ラウドネス制御部(6)は、あるグループが前記メタデータの中でスイッチオンされている場合に、前記基準ラウドネス(Lref)を決定するために前記グループを包含し、かつあるグループが前記ユーザー入力によりスイッチオフされている場合に、前記修正済みラウドネス(Lmod)を決定するために前記グループを除外するよう構成されている、
オーディオプロセッサ。
[請求項15]
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するよう構成された、オーディオ信号修正部(2)と、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存しており、前記オーディオ信号に含まれる1グループのメタデータの中で少なくとも1つのグループラウドネスが欠けた状態の前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成された、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
[請求項16]
請求項15に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至14のいずれかに従って構成されている、オーディオプロセッサ。
[請求項17]
請求項15又は16に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、プリセットのラウドネス(Lp)と、欠けているグループラウドネスを有するグループの基準ゲイン(gi)と、グループラウドネス(Li)を有するグループについてのグループラウドネス(Li)及び基準ゲイン(gi)と、を使用して前記欠けているグループラウドネス(LA)を計算するよう構成された、オーディオプロセッサ。
[請求項18]
請求項15乃至17のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記オーディオ信号(100)のメタデータが少なくとも1つのグループラウドネスを失っている場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン(gi)及び少なくとも1つの修正済みゲイン(hi)だけを使用して前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
[請求項19]
請求項15乃至18のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記オーディオ信号(100)のメタデータがグループラウドネスについて無効である場合に、ブラインドラウドネス補償のために、少なくとも1つの基準ゲイン(gi)及び少なくとも1つの修正済みゲイン(hi)だけを使用して前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
[請求項20]
オーディオ信号(100)を処理するオーディオプロセッサ(1)であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するよう構成された、オーディオ信号修正部(2)と、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するよう構成されたラウドネス制御部(6)であって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存しており、前記オーディオ信号(100)の再生のためのプレイバック構成に言及している前記オーディオ信号(100)のメタデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成された、ラウドネス制御部(6)と、
前記ラウドネス補償ゲイン(C)を使用して信号(101)のラウドネスを操作するよう構成された、ラウドネス操作部(5)と、
を備えるオーディオプロセッサ。
[請求項21]
請求項20に記載のオーディオプロセッサ(1)であって、
前記オーディオプロセッサ(1)は、請求項1乃至19のいずれかに従って構成されている、オーディオプロセッサ。
[請求項22]
請求項20又は21に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、プレイバック構成に言及し、かつ関連するグループラウドネス(Li)及び/又は基準ゲイン値(gi)を含む、前記メタデータのデータに基づいて、前記ラウドネス補償ゲイン(C)を決定するよう構成されている、オーディオプロセッサ。
[請求項23]
請求項1乃至22のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記オーディオ信号(100)は前記メタデータを有するビットストリームを含み、かつ
前記メタデータは少なくとも1つのグループについての前記基準ゲイン(gi)を含む、オーディオプロセッサ。
[請求項24]
請求項1乃至23のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記オーディオ信号(100)の前記メタデータは、少なくとも1つのグループについてのグループラウドネス(Li)を含む、オーディオプロセッサ。
[請求項25]
請求項1乃至24のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、少なくとも1つのグループのグループラウドネス(Li)及びゲイン値(gi)を使用して、前記少なくとも1つのグループについて前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、前記グループラウドネス(Li)及び修正済みゲイン値(hi)を使用して、前記修正済みラウドネス(Lmod)を決定するよう構成され、
前記修正済みゲイン値(hi)は前記ユーザー入力によって修正される、
オーディオプロセッサ。
[請求項26]
請求項1乃至25のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、複数のグループの個々のグループラウドネス(Li)及びゲイン値(gi)を使用して、前記複数のグループについて前記基準ラウドネス(Lref)を決定するよう構成され、
前記ラウドネス制御部(6)は、複数のグループの個々のグループラウドネス(Li)及び修正済みゲイン値(hi)を使用して、前記複数のグループについて前記修正済みラウドネス(Lmod)を決定するよう構成されている、
オーディオプロセッサ。
[請求項27]
請求項1乃至26のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス制御部(6)は、前記ラウドネス補償ゲイン(C)が上限閾値(Cmax)より低くなるように、及び/又は前記ラウドネス補償ゲイン(C)が下限閾値(Cmin)より大きくなるように、前記ラウドネス補償ゲイン(C)に対して制限動作を行うよう構成されている、オーディオプロセッサ。
[請求項28]
請求項1乃至27のいずれか1項に記載のオーディオプロセッサ(1)であって、
前記ラウドネス操作部(5)は、前記ラウドネス補償ゲイン(C)と正規化ゲイン(GN)とによって決定された補正済みゲイン(Gcorrected)を前記信号に対して適用するよう構成され、前記正規化ゲイン(GN)は、ユーザー入力と前記オーディオ信号(100)のメタデータに含まれるメタデータラウドネスレベルとにより設定される目標ラウドネスレベルにより決定される、オーディオプロセッサ。
[請求項29]
メタデータを含むオーディオ信号(100)を生成するオーディオ符号器(20)において、
1つ以上のオーディオ要素(50)を有する少なくとも1つのグループについてラウドネス値を決定するラウドネス決定部(21)と、
決定されたラウドネス値をグループラウドネス(Li)として前記メタデータへ導入するメタデータ書き込み部(22)と、
を含むオーディオ符号器。
[請求項30]
請求項29に記載のオーディオ符号器(20)であって、
前記ラウドネス決定部(21)は、異なるプレイバック構成について異なるラウドネス値及び/又は異なるゲイン値を決定するよう構成され、かつ
前記メタデータ書き込み部(22)は、決定された異なるラウドネス値及び/又は異なるゲイン値を、個々のプレイバック構成に関連付けて前記メタデータへ導入するよう構成されている、オーディオ符号器。
[請求項31]
請求項29又は30に記載のオーディオ符号器(20)であって、
前記ラウドネス決定部(21)は、1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットに言及する異なるプリセットについて異なるラウドネス値及び/又は異なるゲイン値を決定するよう構成され、かつ
前記メタデータ書き込み部(22)は、決定された異なるラウドネス値及び/又は異なるゲイン値を、個々のプリセットに関連付けて前記メタデータへ導入するよう構成されている、オーディオ符号器。
[請求項32]
請求項29乃至31のいずれか1項に記載のオーディオ符号器(20)であって、
コントローラ(23)をさらに含み、
前記コントローラ(23)は、ラウドネス補償ゲイン(C)を決定するためにどのグループが使用されるべきか又は無視されるべきかを決定するよう構成され、かつ
前記メタデータ書き込み部(22)は、前記ラウドネス補償ゲイン(C)を決定するためにどのグループが使用されるべきか又は無視されるべきかを示す指示を前記メタデータへ書き込むよう構成されている、オーディオ符号器。
[請求項33]
請求項29乃至32のいずれか1項に記載のオーディオ符号器(20)であって、
推定器(24)をさらに含み、
前記推定器(24)は、あるグループについてグループラウドネス値を計算するよう構成され、
前記グループについての前記グループラウドネス値は前記ラウドネス決定部(21)によっては決定されず、
前記メタデータ書き込み部(22)は、前記オーディオ信号(100)の全てのグループが関連するグループラウドネスを有するように、計算されたグループラウドネス値を前記メタデータへ導入するよう構成されている、オーディオ符号器。
[請求項34]
オーディオ信号(100)を処理する方法であって、
ユーザー入力に応じて前記オーディオ信号(100)を修正するステップと、
一方では基準ラウドネス(Lref)又は基準ゲイン(gi)に基づき、かつ他方では修正済みラウドネス(Lmod)又は修正済みゲイン(hi)に基づいて、ラウドネス補償ゲイン(C)を決定するステップであって、前記修正済みラウドネス(Lmod)又は前記修正済みゲイン(hi)は前記ユーザー入力に依存している、ステップであって、
前記ラウドネス補償ゲイン(C)は、このラウドネス補償ゲイン(C)を決定するために、前記オーディオ信号(100)に含まれるあるグループが使用されるべきか又は使用されるべきでないかを示す前記オーディオ信号(100)のメタデータに基づいて決定され、前記グループは1つ以上のオーディオ要素を含み、
及び/又は
前記ラウドネス補償ゲイン(C)は、1つのプリセットに言及する前記オーディオ信号(100)のメタデータに基づいて決定され、前記プリセットは1つ以上のオーディオ要素を含む少なくとも1つのグループから成るセットに言及しており、
及び/又は
前記ラウドネス補償ゲイン(C)は、あるグループがスイッチオフされるかスイッチオンされるかを示す前記オーディオ信号(100)のメタデータに基づいて決定され、前記グループは1つ以上のオーディオ要素を含み、
及び/又は
前記ラウドネス補償ゲイン(C)は、前記オーディオ信号(100)に含まれる1グループのメタデータの中で少なくとも1つのグループラウドネス(LA)が欠けた状態の前記オーディオ信号(100)のメタデータに基づいて決定され、
及び/又は
前記ラウドネス補償ゲイン(C)は、前記オーディオ信号(100)の再生のためのプレイバック構成に言及している前記オーディオ信号(100)のメタデータに基づいて決定された、ステップと、
前記ラウドネス補償ゲイン(C)を使用して信号のラウドネスを操作するステップと、
を備える方法。
[請求項35]
メタデータを含むオーディオ信号(100)を生成する方法において、
1つ以上のオーディオ要素を有するあるグループについてラウドネス値を決定するステップと、
前記グループについて決定されたラウドネス値をグループラウドネス(Li)として前記メタデータへ導入するステップと、
を含む方法。
[請求項36]
コンピュータ又はプロセッサ上で作動するとき、請求項34又は35に記載の方法を実行するためのコンピュータプログラム。