(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-22
(54)【発明の名称】オーディオデータを処理する方法および装置
(51)【国際特許分類】
G10L 19/02 20130101AFI20241115BHJP
G10L 19/00 20130101ALI20241115BHJP
【FI】
G10L19/02 180B
G10L19/00 330B
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024534300
(86)(22)【出願日】2022-08-24
(85)【翻訳文提出日】2024-08-06
(86)【国際出願番号】 EP2022073628
(87)【国際公開番号】W WO2023104360
(87)【国際公開日】2023-06-15
(32)【優先日】2021-12-07
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-16
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100101683
【氏名又は名称】奥田 誠司
(74)【代理人】
【識別番号】100155000
【氏名又は名称】喜多 修市
(74)【代理人】
【識別番号】100188813
【氏名又は名称】川喜田 徹
(74)【代理人】
【識別番号】100202197
【氏名又は名称】村瀬 成康
(72)【発明者】
【氏名】ファーシュ,クリストフ
(57)【要約】
ここに記載するのは、再生すべきオーディオデータを処理する方法であって、符号化済みオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することであって、メタデータは1以上のダイナミックレンジコントロール(DRC)セットを含み、DRCセットがダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションをDRCセットの各々について含んでいる、受信と、メタデータをデコーダによって解析することにより、ダイナミックレンジ補償エフェクトを提供するように構成されたDRCセットを識別することと、符号化済みオーディオデータをデコーダによって復号化することにより、復号化済みオーディオデータを得ることと、ダイナミックラウドネス補償エフェクトを提供するように構成された、識別されたDRCセットの1つをデコーダによって選択することと、選択されたDRCセットに対応する1以上のDRCゲインをデコーダによってビットストリームから抽出することと、選択されたDRCセットに対応する1以上のDRCゲインをデコーダによって復号化済みオーディオデータに適用することにより、ダイナミックラウドネス補償済みオーディオデータを得ることと、ダイナミックラウドネス補償済みオーディオデータを再生用に出力することと、を含む方法である。さらにそれぞれのデコーダおよびコンピュータプログラム製品も記載している。
【選択図】
図6
【特許請求の範囲】
【請求項1】
再生すべきオーディオデータを処理する方法であって、
符号化済みオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することであって、前記メタデータは1以上のダイナミックレンジコントロール(DRC)セットを含み、前記DRCセットがダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションを前記DRCセットの各々について含む、受信と、
前記メタデータを前記デコーダによって解析することにより、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットを識別することと、
前記符号化済みオーディオデータを前記デコーダによって復号化することにより、復号化済みオーディオデータを得ることと、
前記ダイナミックラウドネス補償エフェクトを提供するように構成された前記識別されたDRCセットの1つを前記デコーダによって選択することと、
前記選択されたDRCセットに対応する1以上のDRCゲインを前記デコーダによって前記ビットストリームから抽出することと、
前記選択されたDRCセットに対応する前記1以上のDRCゲインを前記デコーダによって前記復号化済みオーディオデータに適用することにより、ダイナミックラウドネス補償済みオーディオデータを得ることと、
前記ダイナミックラウドネス補償済みオーディオデータを再生用に出力することと、
を含む方法。
【請求項2】
前記メタデータは、ダイナミックラウドネス調整を提供するように構成された複数のDRCセットを含み、前記複数のDRCセットの各々はさらに、1以上の再生条件と関連付けられており、前記デコーダに提供された再生条件のインジケーションに応答して前記選択が行われる、請求項1に記載の方法。
【請求項3】
前記1以上のDRCセットは、ダイナミックラウドネス補償エフェクトを提供することに加えて、ダイナミックレンジコントロールを提供するようにも構成されている、請求項1または2に記載の方法。
【請求項4】
前記再生条件は、前記デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性、および音響環境の特性のうちの1以上を含む、請求項2または3に記載の方法。
【請求項5】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションは、前記DRCセットが提供する1以上のエフェクトを示すパラメータ内に設けられている、請求項1から4のいずれか1つに記載の方法。
【請求項6】
前記DRCセットが提供する1以上のエフェクトを示す前記パラメータは、MEPG-D DRCビットストリームのdrcSetEffectビットフィールドであり、前記drcSetEffectビットフィールドの各ビットはそれぞれ異なるエフェクトに対応し、前記drcSetEffectビットフィールドのビットのうちの1つは、前記ダイナミックラウドネス補償エフェクトに対応している、請求項5に記載の方法。
【請求項7】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、前記DRCセットがダイナミックラウドネス補償ビットストリームペイロード内で特定されているか否かである、請求項1から4のいずれか1つに記載の方法。
【請求項8】
前記ダイナミックラウドネス補償ビットストリームペイロードは、既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれている、請求項7に記載の方法。
【請求項9】
前記エクステンションフィールドは、MEPG-D DRCビットストリームのuniDrcConfigExtensionフィールドであり、前記ダイナミックラウドネス補償ビットストリームペイロードは、uniDrcConfigExtTypeパラメータの特定の値に対してのみ含まれている、請求項8に記載の方法。
【請求項10】
前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを特定する複数のダイナミックラウドネス補償ペイロードが、前記既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれている、請求項8または9に記載の方法。
【請求項11】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントのフィールドである、請求項1から4のいずれか1つに記載の方法。
【請求項12】
前記フィールドは、dynamicLoudCompDRCSetパラメータであり、前記既に存在している構成エレメントは、MPEG-D DRCビットストリームのdownmixInstructionsエレメント、drcInstructionsBasicエレメントまたはdrcInstructionsUniDRCエレメントである、請求項11に記載の方法。
【請求項13】
前記フィールドは、将来使用するためにリザーブされている、以前から存在するフィールドである、請求項12に記載の方法。
【請求項14】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントの更新済みバージョンのフィールドである、請求項1から4のいずれか1つに記載の方法。
【請求項15】
前記フィールドは、dynamicLoudCompDRCSetパラメータであり、前記以前から存在する構成エレメントの前記更新済みバージョンは、downmixInstructionsV2エレメントまたはdrcInstructionsUniDrcV2エレメントである、請求項14に記載の方法。
【請求項16】
ダイナミックラウドネス補償エフェクトが望まれるというインジケーションがインターフェースを介して前記デコーダに提供され、前記インターフェースを介して前記デコーダに提供された前記インジケーションに応答して前記DRCセットが選択される、請求項1から15のいずれか1つに記載の方法。
【請求項17】
追加の所望のエフェクトに関するインジケーションが前記インターフェースを介して前記デコーダに提供され、前記メタデータは、前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを含み、前記選択は前記追加の所望のエフェクトに依存する、請求項16に記載の方法。
【請求項18】
ダイナミックラウドネス補償エフェクトが望まれるという前記インジケーションが、dynamicRangeControllerInterfaceペイロードのdrcEffectTypeRequestパラメータを介して提供される、請求項15または16に記載の方法。
【請求項19】
前記メタデータは、スタティックラウドネス調整を前記復号化済みオーディオデータに提供するように構成された1以上のスタティックラウドネス値を含む、請求項1から18のいずれか1つに記載の方法。
【請求項20】
1以上の前記スタティックラウドネス値に応答して、前記スタティックラウドネス調整を前記復号化済みオーディオデータまたは前記ダイナミックラウドネス補償済みオーディオデータに適用することを含む、請求項19に記載の方法。
【請求項21】
前記DRCセットのうちの第1のDRCセットは、ダイナミックレンジコントロールを提供するように構成されており、前記第1のDRCセットは、前記選択されたDRCセットであって、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットが前記第1のDRCセットとの組み合わせで適用されるように構成されているというインジケーションを含む、請求項1に記載の方法。
【請求項22】
前記選択されたDRCセットは、前記選択されたDRCセットに対応する前記1以上のDRCゲインが、前記第1のDRCセットに対応するDRCゲインとの組み合わせでのみ適用され得るか否かというインジケーションを含む、請求項21に記載の方法。
【請求項23】
前記第1のDRCセットに対応する前記DRCゲインを前記ビットストリームから抽出することと、前記第1のDRCセットに対応する前記DRCゲインを前記復号化済みオーディオデータに適用することと、をさらに含む、請求項21または22に記載の方法。
【請求項24】
再生すべきオーディオデータを処理するデコーダであって、請求項1から23のいずれか1つに記載の方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、デコーダ。
【請求項25】
コンピュータプログラム製品であって、請求項1から23のいずれか1つに記載の方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含む、コンピュータプログラム製品。
【請求項26】
コンピュータ読み取り可能記憶媒体であって、請求項25のコンピュータプログラム製品を格納する、コンピュータ読み取り可能記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概して、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す方法に関し、特に、ダイナミックラウドネス調整および/またはダイナミックレンジ圧縮をすべきオーディオデータに対して1以上の処理パラメータを決定し適用する方法に関する。本開示はさらに、ダイナミックラウドネス調整および/またはダイナミックレンジ圧縮を行うべきオーディオデータおよびメタデータを符号化することにより、ビットストリームにする方法に関する。本開示はさらに、それぞれのデコーダおよびエンコーダ並びにそれぞれのシステムおよびコンピュータプログラム製品に関する。本開示はさらに、再生すべきオーディオデータを処理する方法、再生すべきオーディオデータを処理するデコーダ、およびそれぞれのコンピュータプログラム製品に関する。
【0002】
本明細書中において特に上記開示に関していくつかの実施形態を記載するが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることを理解されたい。
【背景技術】
【0003】
本開示全体において背景技術を記載するが、その如何なる記載も、そのような技術が周知であるとか、当該分野において一般常識の一部をなしているとかと認めるものであると考えられるべきではない。
【0004】
オーディオコンテンツを再生する場合、ラウドネスは、個々の人間が感じる音圧である。映画またはテレビのコンテンツでは、リスナーが番組のラウドネスとして知覚するものを決定する最も重要なパラメータは番組内の会話のラウドネスであることが判明している。
【0005】
番組の平均ラウドネスを決定するためには、番組全体または番組内の会話のみを分析する必要がある。平均ラウドネスは典型的にはラウドネス規制(例えば、米国のCALM法)を順守するために必要であり、ダイナミックレンジコントロール(DRC)パラメータを揃えるためにも用いられる。番組のダイナミックレンジとは、最も小さい音と最も大きいとの差である。番組のダイナミックレンジはその内容によって異なり、例えば、アクション映画はドキュメンタリーとは異なる、より広いダイナミックレンジを有し得る。番組のダイナミックレンジは、クリエータの意図を反映する。しかし、オリジナルのダイナミックレンジにおいてオーディオコンテンツを再生するデバイスの性能は、様々である。そのため最適な聴取経験を提供するためには、ラウドネス管理に加えてダイナミックレンジコントロールが更なるキーファクターとなる。
【0006】
ラウドネス管理とダイナミックレンジコントロールとを行うためには、オーディオ番組全体またはオーディオ番組のあるセグメントを分析しなければならない。得られたラウドネスパラメータおよびDRCパラメータをオーディオデータまたは符号化済みオーディオデータと共に供給して、デコーダまたは再生デバイスに適用することができる。
【0007】
オーディオ番組全体またはオーディオ番組のあるセグメントを符号化前に分析することができない場合、例えばリアルタイム(ダイナミック)符号化の場合には、ラウドネス処理またはレベリングを用いて、ラウドネス規制の順守、そして該当する場合には潜在的ダイナミックレンジに対する制約の順守を、再生条件に依存して確実にする。このアプローチは、単一の再生環境にとって「最適化」された処理済みオーディオを供給する。
【発明の概要】
【発明が解決しようとする課題】
【0008】
そのため、「オリジナルの」未処理オーディオをメタデータと共に供給することによって、デバイスによる制約またはユーザによる要件に依存して、再生デバイスがメタデータを用いてオーディオをダイナミックに変更することを可能にする、メタデータベースの処理が必要とされている。
【課題を解決するための手段】
【0009】
本開示の第1の局面によると、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す方法が提供される。前記方法は、ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することを含み得る。前記方法はさらに、前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得ることを含み得る。前記方法はさらに、ダイナミックラウドネス調整のための1以上の処理パラメータを再生条件に基づいて前記デコーダによって前記メタデータから決定することを含み得る。前記方法はさらに、前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得ることを含み得る。そして前記方法はさらに、前記処理済みオーディオデータを再生用に出力することを含み得る。
【0010】
ダイナミックラウドネス調整のためのメタデータは、メタデータの複数のセットを含み得、各セットはそれぞれの(例えば、互いに異なる)再生条件に対応する。その後、(特定の)再生条件に基づいてダイナミックラウドネス調整のための1以上の処理パラメータを前記メタデータから決定することは、前記デコーダに提供された再生条件情報に応答して、前記(特定の)再生条件に対応するメタデータのセットを選択することと、前記選択されたメタデータのセットから、ダイナミックラウドネス調整のための1以上の処理パラメータを抽出することとを含み得る。この場合、前記再生条件情報は、前記(特定の)再生条件、またはそれから引き出された情報を示し得る。
【0011】
いくつかの実施形態において、前記メタデータは、ダイナミックラウドネス調整のための、複数の再生条件に対する処理パラメータを示し得る。
【0012】
いくつかの実施形態において、前記1以上の処理パラメータを決定することはさらに、ダイナミックレンジ圧縮(DRC)用の1以上の処理パラメータを再生条件に基づいて決定することを含み得る。
【0013】
いくつかの実施形態において、前記再生条件情報は、特定のラウドスピーカの設定を示し得る。概して、前記再生条件は、前記デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性、音響環境の特性のうちの1以上を含み得る。
【0014】
いくつかの実施形態において、前記選択されたメタデータのセットは、DRCシーケンスのセットであるDRCSetを含み得る。さらに前記メタデータの各セットは、DRCシーケンスのそれぞれのセットであるDRCSetを含み得る。概して、前記1以上の処理パラメータを決定することは、DRCシーケンスのセットであるDRCSet、イコライザパラメータのセットであるEQSet、およびダウンミックスのうち、前記再生条件に対応する少なくとも1つを前記デコーダによって選択することをさらに含むと言える。
【0015】
いくつかの実施形態において、前記1以上の処理パラメータを決定することはさらに、DRCSet、EQSet、およびダウンミックスのうち前記選択された少なくとも1つを示すメタデータ識別子を識別することにより、前記1以上の処理パラメータを前記メタデータから決定することを含み得る。具体的には、前記メタデータのセットを選択することは、特定のダウンミックスに対応するメタデータのセットを識別することを含み得る。前記特定のダウンミックスは、前記ラウドスピーカの設定に基づいて決定され得る。
【0016】
いくつかの実施形態において、前記メタデータは、平均ラウドネス値に関連する1以上の処理パラメータ、および必要に応じて、ダイナミックレンジ圧縮特性に関連する1以上の処理パラメータを含み得る。具体的には、メタデータの各セットは、前記平均ラウドネス値に関連する1以上の処理パラメータ、および必要に応じてダイナミックレンジ圧縮特性に関連する1以上の処理パラメータを含み得る。
【0017】
いくつかの実施形態において、前記ビットストリームはさらに、前記復号化済みオーディオデータに適用すべきスタティックラウドネス調整のための追加のメタデータを含み得る。
【0018】
いくつかの実施形態において、前記ビットストリームはMPEG-D DRCビットストリームであり得、MPEG-D DRCビットストリームシンタックスに基づいてメタデータの存在が通知され得る。
【0019】
いくつかの実施形態において、ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられ得る。
【0020】
いくつかの実施形態において、前記メタデータは1以上のメタデータペイロードを含み得、各メタデータペイロードはパラメータと識別子とのセットを複数含み得、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるeqSetId、およびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、前記セット内の前記識別子に関連する1以上の処理パラメータとの組み合わせとして含む。
【0021】
いくつかの実施形態において、前記1以上の処理パラメータを決定することは、前記ペイロード内の前記複数のセットから、DRCSet、EQSetおよびダウンミックスのうち前記デコーダによって選択された前記少なくとも1つに基づいて1セットを選択することを含み得、前記デコーダによって決定された前記1以上の処理パラメータは、前記選択されたセット内の前記識別子に関連する前記1以上の処理パラメータであり得る。
【0022】
本開示の第2の局面によると、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すデコーダが提供される。前記デコーダは、ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信するプロセスと、前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得るプロセスと、ダイナミックラウドネス調整のための1以上の処理パラメータを再生条件に基づいて前記デコーダによって前記メタデータから決定するプロセスと、前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得るプロセスと、前記処理済みオーディオデータを再生用に出力するプロセスとを含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。
【0023】
ダイナミックラウドネス調整のためのメタデータは、メタデータの複数のセットを含み得、各セットはそれぞれの(例えば、互いに異なる)再生条件に対応する。その後、(特定の)再生条件に基づいてダイナミックラウドネス調整のための1以上の処理パラメータを前記メタデータから決定することは、前記デコーダに提供された再生条件情報に応答して、前記(特定の)再生条件に対応するメタデータのセットを選択することと、前記選択されたメタデータのセットから、ダイナミックラウドネス調整のための1以上の処理パラメータを抽出することとを含み得る。この場合、前記再生条件情報は、前記(特定の)再生条件、またはそれから引き出された情報を示し得る。
【0024】
本開示の第3の局面によると、ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化してビットストリームにする方法が提供される。前記方法は、オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得ることを含み得る。前記方法はさらに、前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて、ダイナミックラウドネス調整のためのメタデータを生成することを含み得る。そして前記方法は、前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにすることを含み得る。
【0025】
いくつかの実施形態において、前記メタデータは、メタデータの複数のセットを含み得る。メタデータの各セットは、それぞれの(例えば、互いに異なる)再生条件に対応し得る。
【0026】
いくつかの実施形態において、前記方法はさらに、スタティックラウドネス調整のための追加のメタデータであって、デコーダが用いるべきメタデータを生成することを含み得る。
【0027】
いくつかの実施形態において、前記メタデータを生成することは、前記ラウドネス処理済みオーディオデータと前記オリジナルのオーディオデータとを比較することを含み得、前記比較の結果に基づいて前記メタデータが生成され得る。
【0028】
いくつかの実施形態において、前記メタデータを生成することはさらに、1以上の所定期間に亘ってラウドネスを測定することを含み得、前記測定されたラウドネスにさらに基づいて前記メタデータが生成され得る。
【0029】
いくつかの実施形態において、前記測定は、前記オーディオデータ全体のラウドネスを測定することを含み得る。
【0030】
いくつかの実施形態において、前記測定は、前記オーディオデータ内の会話のラウドネスを測定することを含み得る。
【0031】
いくつかの実施形態において、前記ビットストリームはMPEG-D DRCビットストリームであり得、MPEG-D DRCビットストリームシンタックスに基づいてメタデータの存在が通知され得る。
【0032】
いくつかの実施形態において、ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられ得る。
【0033】
いくつかの実施形態において、前記メタデータは1以上のメタデータペイロードを含み得、各メタデータペイロードはパラメータと識別子とのセットを複数含み得、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるeqSetId、およびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、前記セット内の前記識別子に関連する前記1以上の処理パラメータとの組み合わせとして含み、前記1以上の処理パラメータは、デコーダによるダイナミックラウドネス調整のためのパラメータであり得る。
【0034】
いくつかの実施形態において、前記drcSetId、前記eqSetId、および前記downmixIdのうちの前記少なくとも1つは、DRCシーケンスのセットであるDRCSet、イコライザパラメータのセットであるEQSet、およびダウンミックスのうち、前記デコーダによって選択されるべき少なくとも1つに関連し得る。
【0035】
本開示の第4の局面によると、ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するエンコーダが提供される。前記エンコーダは、オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得ることと、前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて前記ダイナミックラウドネス調整のためのメタデータを生成することと、前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにすることとを含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。
【0036】
本開示の第5の局面によると、ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するエンコーダと、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すデコーダとのシステムが提供される。
【0037】
本開示の第6の局面によると、処理能力を有するデバイスによって実行されると、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す方法、またはダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化してビットストリームにする方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含むコンピュータプログラム製品が提供される。
【0038】
本開示の第7の局面によると、本明細書に記載のコンピュータプログラム製品を格納するコンピュータ読み取り可能記憶媒体が提供される。
【0039】
本開示の第8の局面によると、再生すべきオーディオデータを処理する方法が提供される。前記方法は、符号化済みオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することを含み得る。前記メタデータは1以上のダイナミックレンジコントロール(DRC)セットを含み、前記DRCセットがダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションを前記DRCセットの各々について含む。前記方法はさらに、前記メタデータを前記デコーダによって解析することにより、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットを識別することを含み得る。前記方法はさらに、前記符号化済みオーディオデータを前記デコーダによって復号化することにより、復号化済みオーディオデータを得ることを含み得る。前記方法はさらに、前記ダイナミックラウドネス補償エフェクトを提供するように構成された前記識別されたDRCセットの1つを前記デコーダによって選択することを含み得る。前記方法はさらに、前記選択されたDRCセットに対応する前記1以上のDRCゲインを前記デコーダによって前記復号化済みオーディオデータに適用することにより、ダイナミックラウドネス補償済みオーディオデータを得ることを含み得る。そして前記方法はさらに、前記ダイナミックラウドネス補償済みオーディオデータを再生用に出力することを含み得る。
【0040】
いくつかの実施形態において、前記メタデータは、ダイナミックラウドネス調整を提供するように構成された複数のDRCセットを含み得、前記複数のDRCセットの各々はさらに、1以上の再生条件と関連付けられ得、前記デコーダに提供された再生条件のインジケーションに応答して前記選択が行われ得る。
【0041】
いくつかの実施形態において、前記1以上のDRCセットは、ダイナミックラウドネス補償エフェクトを提供することに加えて、ダイナミックレンジコントロールを提供するようにも構成され得る。
【0042】
いくつかの実施形態において、前記再生条件は、前記デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性、および音響環境の特性のうちの1以上を含み得る。
【0043】
いくつかの実施形態において、前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションは、前記DRCセットが提供する1以上のエフェクトを示すパラメータ内に設けられ得る。
【0044】
いくつかの実施形態において、前記DRCセットが提供する1以上のエフェクトを示す前記パラメータは、MEPG-D DRCビットストリームのdrcSetEffectビットフィールドであり得、前記drcSetEffectビットフィールドの各ビットはそれぞれ異なるエフェクトに対応し、前記drcSetEffectビットフィールドのビットのうちの1つは、前記ダイナミックラウドネス補償エフェクトに対応している。
【0045】
いくつかの実施形態において、前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、前記DRCセットがダイナミックラウドネス補償ビットストリームペイロード内で特定されているか否かであり得る。
【0046】
いくつかの実施形態において、前記ダイナミックラウドネス補償ビットストリームペイロードは、既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれ得る。
【0047】
いくつかの実施形態において、前記エクステンションフィールドは、MEPG-D DRCビットストリームのuniDrcConfigExtensionフィールドであり得、前記ダイナミックラウドネス補償ビットストリームペイロードは、uniDrcConfigExtTypeパラメータの特定の値に対してのみ含まれ得る。
【0048】
いくつかの実施形態において、前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを特定する複数のダイナミックラウドネス補償ペイロードが、前記既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれ得る。
【0049】
いくつかの実施形態において、前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントのフィールドであり得る。
【0050】
いくつかの実施形態において、前記フィールドは、dynamicLoudCompDRCSetパラメータであり得、前記既に存在している構成エレメントは、MPEG-D DRCビットストリームのdownmixInstructionsエレメント、drcInstructionsBasicエレメントまたはdrcInstructionsUniDRCエレメントであり得る。
【0051】
いくつかの実施形態において、前記フィールドは、将来使用するためにリザーブされている、以前から存在するフィールドであり得る。
【0052】
いくつかの実施形態において、前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントの更新済みバージョンのフィールドであり得る。
【0053】
いくつかの実施形態において、前記フィールドは、dynamicLoudCompDRCSetパラメータであり得、前記以前から存在する構成エレメントの前記更新済みバージョンは、downmixInstructionsV2エレメントまたはdrcInstructionsUniDrcV2エレメントであり得る。
【0054】
いくつかの実施形態において、ダイナミックラウドネス補償エフェクトが望まれるというインジケーションがインターフェースを介して前記デコーダに提供され得、前記インターフェースを介して前記デコーダに提供された前記インジケーションに応答して前記DRCセットが選択され得る。
【0055】
いくつかの実施形態において、追加の所望のエフェクトに関するインジケーションが前記インターフェースを介して前記デコーダに提供され得、前記メタデータは、前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを含み得、前記選択は前記追加の所望のエフェクトに依存し得る。
【0056】
いくつかの実施形態において、ダイナミックラウドネス補償エフェクトが望まれるという前記インジケーションが、dynamicRangeControllerInterfaceペイロードのdrcEffectTypeRequestパラメータを介して提供され得る。
【0057】
いくつかの実施形態において、前記メタデータは、スタティックラウドネス調整を前記復号化済みオーディオデータに提供するように構成された1以上のスタティックラウドネス値を含み得る。
【0058】
いくつかの実施形態において、1以上の前記スタティックラウドネス値に応答して、前記スタティックラウドネス調整は、前記復号化済みオーディオデータまたは前記ダイナミックラウドネス補償済みオーディオデータに適用され得る。
【0059】
いくつかの実施形態において、前記DRCセットのうちの第1のDRCセットは、ダイナミックレンジコントロールを提供するように構成され得、前記第1のDRCセットは、前記選択されたDRCセットであって、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットが前記第1のDRCセットとの組み合わせで適用されるように構成され得るというインジケーションを含み得る。
【0060】
いくつかの実施形態において、前記選択されたDRCセットは、前記選択されたDRCセットに対応する前記1以上のDRCゲインが、前記第1のDRCセットに対応するDRCゲインとの組み合わせでのみ適用され得るか否かというインジケーションを含み得る。
【0061】
いくつかの実施形態において、前記第1のDRCセットに対応する前記DRCゲインは、前記ビットストリームから抽出され得、前記復号化済みオーディオデータに適用され得る。
【0062】
本開示の第9の局面によると、再生すべきオーディオデータを処理するデコーダが提供される。前記デコーダは、上記した再生すべきオーディオデータを処理する方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。
【0063】
本開示の第10の局面によると、上記のように再生すべきオーディオデータを処理する方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含むコンピュータプログラム製品が提供される。
【0064】
本開示の第11の局面によると、本明細書に記載のコンピュータプログラム製品を格納するコンピュータ読み取り可能記憶媒体が提供される。
【0065】
本開示の実施形態例を実施例により添付の図面を参照して以下に述べる。以下の実施例は例に過ぎない。
【図面の簡単な説明】
【0066】
【
図1】再生すべきオーディオデータにメタデータベースのダイナミック処理を施すデコーダの一例を示す図である。
【
図2】再生すべきオーディオデータにメタデータベースのダイナミック処理を施す方法の一例を示す図である。
【
図3】ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するエンコーダの一例を示す図である。
【
図4】ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化するビットストリームにする方法の一例を示す図である。
【
図5】本明細書に記載の方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含むデバイスの一例を示す図である。
【
図6】再生すべきオーディオデータを処理する方法の一例を示す図である。
【発明を実施するための形態】
【0067】
(概要)
番組または会話の平均ラウドネスは、放送番組またはストリーミング番組のラウドネス規制遵守のために用いられる主要なパラメータまたは値である。平均ラウドネスは典型的には最大24または23LKFSに設定されている。ラウドネスメタデータをサポートするオーディオコーデックの場合、番組全体のラウドネスを表すこの単一ラウドネス値はビットストリーム中に搬送される。復号化プロセスでこの値を用いることによりゲイン調整が可能となり、その結果、再生レベルが予測可能となる。これにより番組は公知の一貫したレベルで再生される。そのため、このラウドネス値が適切かつ正確に設定されることが重要である。平均ラウドネスは符号化前に番組全体を測定することに依存する。しかし、ラウドネスが不明且つダイナミックレンジが変化する状態でダイナミック符号化をするようなリアルタイム状況においては、これは不可能である。
【0068】
符号化前にファイル全体のラウドネスを測定することが不可能であるとき、符号化前にオーディオデータを変更する又はオーディオデータのコンターを生成することにより必要なラウドネスを得るために、ダイナミックラウドネスレベラがよく用いられる。このタイプのラウドネス管理は、規制遵守のための劣った方法としてよく見られる。なぜならこのタイプのラウドネス管理は、オーディオコンテンツ内のダイナミックレンジの相互関係をしばしば変更し、そのために制作意図を変えてしまうかもしれないからである。これが特に顕著なのは、すべての再生デバイスに1つのオーディオアセットを付与するすることが望まれる場合である。このような付与は、メタデータ駆動型コーデックおよび供給システムの利点の1つである。
【0069】
いくつかのアプローチでは、オーディオコンテンツが、必要な目標ラウドネスと混合され、これに対応するラウドネスメタデータがその値に設定される。このような状況でもまだラウドネスレベラが用いられ得る。なぜならラウドネスレベラは、オーディオコンテンツを目標ラウドネスに向かわせる補助となるからである。しかし、ラウドネスレベラはあまり「アクティブ」ではなく、オーディオコンテンツが必要な目標ラウドネスから外れ始めたときにのみ用いられる。
【0070】
上記を鑑みると、本明細書に記載の方法および装置は、リアルタイム処理状況を作り出すことを目標としている。リアルタイム処理状況はダイナミック処理状況とも呼ばれ、さらにメタデータ駆動型である。メタデータは、リアルタイム状況においてダイナミックラウドネス調整およびダイナミックレンジ圧縮を可能にする。上記の方法および装置は、以下をイネーブルにするという利点を有する。
・リアルタイムラウドネス調整およびMPEG-D DRCシンタックスにおけるDRCの使用
・リアルタイムラウドネス調整およびdownmixIdと組み合わせたDRCの使用
・リアルタイムラウドネス調整およびdrcSetIdと組み合わせたDRCの使用
・リアルタイムラウドネス調整およびeqSetIdと組み合わせたDRCの使用
【0071】
すなわち、デコーダの設定(例えば、DRCSet、EQSetおよびダウンミックス)に依存して、デコーダはシンタックスに基づき、パラメータと識別子との適切なセット用の所与のペイロードをサーチすることができる。これは上記設定と識別子とを合致させることにより行われる。その後、設定に最も良く合致する識別子を有するセットに含まれるパラメータが、ダイナミックラウドネス調整のための処理パラメータとして選択され、受信されたオリジナルのオーディオデータに適用されて訂正が行われる。
【0072】
さらに、ダイナミック処理のためのパラメータの複数のセット(dynLoudCompValueの複数の例)が送信可能である。
【0073】
メタデータ駆動型ダイナミックラウドネス補償は、全体ラウドネスを訂正することに加えて、DRCゲインの計算および適用を「中心にする」(center)ためにも使用可能である。これらを中心にすることは、ダイナミックラウドネス補償を介してコンテンツのラウドネスを訂正した結果であり得、DRCが典型的にはどのようにして計算され適用されているかということであり得る。この意味で、ダイナミックラウドネス補償のためのメタデータは、DRCパラメータを揃えるために用いられると言ってもよい。
【0074】
(オーディオデータに対するメタデータベースのダイナミック処理)
図1の例を参照して、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すデコーダ100について述べる。デコーダ100は、
図2の例に示すステップS101からS105によるプロセスを含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。
【0075】
デコーダ100は、オーディオデータおよびメタデータを含むビットストリームを受信し得、未処理の(オリジナルの)オーディオデータ、メタデータから決定されたダイナミック処理パラメータ適用後の処理済みオーディオデータ、および/またはメタデータ自体を、要件に依存して出力可能であり得る。
【0076】
図2の例を参照する。ステップS101において、デコーダ100は、ダイナミックラウドネス調整、および必要に応じてダイナミックレンジ圧縮(DRC)をすべきオーディオデータおよびメタデータを含むビットストリームを受信し得る。オーディオデータは符号化済みオーディオデータであってもよく、さらに未処理であってもよい。すなわち、オーディオデータはオリジナルのオーディオデータであると言ってもよい。メタデータは、メタデータの複数のセットを含み得る。例えばメタデータの各ペイロードは、メタデータのこのような複数のセットを含み得る。メタデータのこれらの互いに異なるセットは、それぞれの再生条件(例えば、互いに異なる再生条件)に関連し得る。
【0077】
ビットストリームのフォーマットに制限はないが、ある実施形態ではビットストリームはMPEG-D DRCビットストリームであり得る。この場合、MPEG-D DRCビットストリームシンタックスに基づいて、オーディオデータに対するダイナミック処理用のメタデータの存在が示され得る。ある実施形態では、ペイロードとしてのメタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられ得る。これを以下により詳細に示す。
【0078】
その後ステップS102において、オーディオデータおよびメタデータがデコーダによって復号化されることにより、復号化済みオーディオデータおよびメタデータが得られ得る。ある実施形態では、メタデータは、平均ラウドネス値に関連する1以上の処理パラメータ、および必要に応じてダイナミックレンジ圧縮特性に関連する1以上の処理パラメータを含み得る。メタデータの各セットは、それぞれの処理パラメータを含み得ることが理解される。メタデータは、ダイナミックまたはリアルタイム訂正の適用を可能にする。例えば、ライブのリアルタイム再生用に符号化および複合化する場合、ライブ再生オーディオのラウドネスが適切に管理されていることを確実にするために、「リアルタイム」またはダイナミックラウドネスメタデータの適用が望まれる。
【0079】
その後ステップS103において、デコーダが、再生条件に基づいてダイナミックラウドネス調整のための1以上の処理パラメータをメタデータから決定する。これは、再生条件または再生条件から引き出された情報(例えば、再生条件情報)を用いて、メタデータの複数のセットから適切なメタデータセットを識別することにより行われ得る。
【0080】
ある実施形態では、再生条件は、デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性および音響環境の特性のうちの1以上を含み得る。好ましくは、再生条件情報は特定のラウドスピーカの設定を示し得る。再生条件を考慮することにより、デコーダがデバイスおよび環境による制約に関して、ダイナミックラウドネス調整のための処理パラメータの選択をターゲットを絞って行うことができるようになる。
【0081】
ある実施形態では、ステップS103の1以上の処理パラメータを決定するプロセスはさらに、DRCシークエンスのセットであるDRCSet、イコライザパラメータのセットであるEQSet、およびダウンミックスのうち、再生条件に応じた少なくとも1つをデコーダによって選択することを含み得る。そのため、DRCSet、EQSetおよびダウンミックスのうちの上記少なくとも1つは、個々のデバイスおよび再生条件による環境上の制約と相関するか、又はこれらを示している。
【0082】
好ましくはステップS103は、DRCシーケンスのセットであるDRCSetを選択することを含む。換言すると、選択されたメタデータのセットはDRCシーケンスのこのようなセットを含み得る。
【0083】
ある実施形態では、ステップS103の決定するプロセスはさらに、DRCSet、EQSetおよびDownmixSetのうちの、上記選択された少なくとも1つを示すメタデータ識別子を識別することにより、上記1以上の処理パラメータをメタデータから決定することを含み得る。そのためメタデータ識別子はメタデータと、上記選択されたDRCSet、EQSetおよび/またはダウンミックスのうちのメタデータに対応するものとを関連づけることができ、したがってそれぞれの再生条件と関連づけることができる。
【0084】
ある実施形態では、特定のラウドスピーカの設定を用いてダウンミックスを決定し得、ダウンミックスを用いてメタデータの複数のセットのうちの適切な1つを識別し選択し得る。このような場合、特定のラウドスピーカの設定および/またはダウンミックスが、上記再生条件情報によって示され得る。
【0085】
ある実施形態では、メタデータは1以上のメタデータペイロード(例えば、dynLoudComp()ペイロード、例えば以下の表5に示す)を含み得る。この場合、各メタデータペイロードは、パラメータ(例えば、パラメータdynLoudCompValue)と識別子とのセットを複数含み得、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるEqSetIdおよびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、セット内の識別子に関連する1以上の処理パラメータとの組み合わせとして含む。すなわち、各ペイロードはエントリーのアレイを含み得、各エントリーは処理パラメータおよび識別子(例えば、drcSetId、eqSetId、downmixId)を含む。エントリーのアレイは、上記したメタデータの複数のセットに対応し得る。好ましくは、各エントリーがダウンミックス識別子を含む。
【0086】
そのため、さらなる実施形態では、ステップS103を決定するプロセスは、デコーダによって選択されたダウンミックスに基づいて(あるいは、DRCSet、EQSetおよよびダウンミックスのうちの少なくとも1つに基づいて)ペイロード内の複数のセットのうち1つを選択することを含み得る。この場合、ステップS103で決定された上記1以上の処理パラメータは、選択されたセット内の識別子に関連する1以上の処理パラメータであり得る。すなわち、デコーダ内に存在する設定(例えば、DRCSet、EQSetおよびダウンミックス)に依存するが、デコーダはパラメータと識別子との適切なセット用の所与のペイロードをサーチすることができる。これは上記設定と識別子とを合致させることにより行われる。その後、設定に最も良く合致する識別子を有するセットに含まれるパラメータが、ダイナミックラウドネス調整のための処理パラメータとして選択されることが可能となる。
【0087】
その後ステップS104において、上記決定された1以上の処理パラメータがデコーダによって複合化済みオーディオデータに適用されることにより、処理済みオーディオデータが得られ得る。そのため、処理済みオーディオデータ、例えばライブのリアルタイムオーディオデータのラウドネスが適切に管理される。
【0088】
その後ステップS105において、処理済みオーディオデータが再生のために出力される。
【0089】
ある実施形態では、ビットストリームはさらに、復号化済みオーディオデータに適用すべきスタティックラウドネス調整のための追加のメタデータを含み得る。スタティックラウドネス調整とは、リアルタイム状況用のダイナミック処理とは対照的に、汎用ラウドネス正規化のために行われる処理を指す。
【0090】
汎用ラウドネス正規化用の追加のメタデータとは別にダイナミック処理用のメタデータを搬送することにより、「リアルタイム」訂正を適用させないことが可能になる。
【0091】
例えば、ライブのリアルタイム再生用に符号化および復号化する場合、ライブ再生オーディオのラウドネスが適切に管理されていることを確実にするために、ダイナミック処理の適用が望まれる。しかし非リアルタイム再生、またはダイナミック訂正が望まれない又は必要とされないトランスコーディングの場合、メタデータから決定されたダイナミック処理パラメータを適用する必要はない。
【0092】
さらに、ダイナミック処理用(ダイナミック/リアルタイム)メタデータを追加のメタデータとは別にしておくことにより、所望であればオリジナルの未処理コンテンツを保持することができる。オリジナルのオーディオがメタデータと共に符号化される。これにより、再生デバイスがダイナミック処理を選択的に適用することが可能となり、さらにオリジナルのオーディオを再生することができるハイエンドデバイスでのオリジナルのオーディオコンテンツの再生をイネーブルにすることが可能になる。
【0093】
ダイナミックラウドネスメタデータを長時間のラウドネス測定/情報、例えば上記したcontentLoudness(ISO/IEC 23003-4)と区別しておくことには、いくつかの利点がある。これらが組み合わされると、コンテンツのラウドネス(またはダイナミックラウドネスメタデータが適用された後のもの)はコンテンツの実際のラウドネスを示さなくなる。なぜなら使用可能なメタデータは復号値だからである。コンテンツのラウドネス(または、番組またはアンカーラウドネス)とは何かということの曖昧さを取り除く他に、上記が特に有益である場合がいくつかある。
【0094】
ダイナミック処理用のメタデータを上記のように別にしておくことにより、デコーダまたは再生デバイスがダイナミック処理の適用をオフにすることが可能となり、代わりに、実装されたリアルタイムラウドネスレベラを適用することによりカスケードタイプのレベリングを回避することが可能となる。この状況が起こり得るのは例えば、デバイス自体のリアルタイムレベリング解決手段が、オーディオコーデックと共に用いられるものより優れている場合、またはデバイス自体のリアルタイムレベリング解決手段がディセーブルできず、そのためにさらなる処理において常にアクティブな解決手段となり、それが欠陥のある再生経験に繋がる場合である。
【0095】
さらに、ダイナミック処理用のメタデータを上記のように別にしておくことにより、ダイナミックラウドネス処理をサポートしないコーデックへのトランスコーディングが可能となる。この場合、再符号化前にそれ自体のラウドネス処理を適用したくなる。
【0096】
さらなる例は、ライブフィード用の単一の符号化によるライブ放送である。アーカイブまたはオンデマンドサービス用にダイナミック処理メタデータが使用または格納され得る。したがってアーカイブまたはオンデマンドサービス用に、番組全体に基づいた、より正確又はより適合したラウドネス測定を実行することができ、適切なメタデータをリセットすることができる。
【0097】
ワークフローを通して固定目標ラウドネスが用いられる使用法の場合、例えば、最大23LKFSが推奨されるR128準拠状況の場合も、上記は有利である。このシナリオでは、ダイナミック処理メタデータを追加することは、「安全のための」手段である。この場合、コンテンツが推定され且つ必要な目標に近く、ダイナミック処理メタデータの追加は、二次的チェックである。そのためオフにする能力を有することが望まれる。
【0098】
(ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化する)
図3および
図4の例を参照して、ダイナミックラウドネス調整および必要に応じてダイナミックレンジ圧縮(DRC)をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号するエンコーダについて述べる。上記エンコーダは、
図4の例のステップに示すプロセスを含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。
【0099】
ステップS201において、オリジナルのオーディオデータがラウドネス処理用のラウドネスレベラ201に入力されることにより、ラウドネスレベラ201からの出力としてラウドネス処理済みオーディオデータが得られ得る。
【0100】
その後ステップS202において、ラウドネス処理済みオーディオデータおよびオリジナルのオーディオデータに基づいて、ダイナミックラウドネス調整のためのメタデータが生成され得る。適切な平滑化およびタイムフレームを用いてアーティファクトを減少し得る。
【0101】
ある実施形態では、ステップS202は、ラウドネス処理済みオーディオデータをアナライザ202によってオリジナルのオーディオデータと比較することを含み得る。この場合、上記比較の結果に基づいてメタデータが生成され得る。このようにして生成されたメタデータは、デコーダのサイトでレベラのエフェクトをエミュレートすることができる。メタデータは以下を含み得る。
・オリジナルのオーディオデータに適用されると、再生すべきオーディオであってラウドネス規制を遵守したオーディオを生成するようなゲイン(ワイドバンドおよび/またはマルチバンド)処理パラメータ
・オーディオのダイナミクスを記載する処理パラメータ、例えば、
〇ピーク - サンプルおよび真のピーク
〇短期ラウドネス値
〇短期ラウドネス値の変化
【0102】
ある実施形態では、ステップS202はさらに、アナライザ202によって1以上の所定期間のラウドネスを測定することを含み得る。この場合、測定されたラウドネスにさらに基づいてメタデータが生成され得る。ある実施形態では、上記測定はオーディオデータ全体のラウドネスを測定することを含み得る。ある実施形態では、上記測定は、これに代えて又はこれに加えて、オーディオデータ内の会話のラウドネスを測定することを含み得る。
【0103】
その後ステップS203において、オリジナルのオーディオデータおよびメタデータが符号化されてビットストリームになり得る。ビットストリームのフォーマットに制限はないが、ある実施形態では、ビットストリームはMPEG-D DRCビットストリームであり得、MPEG-D DRCビットストリームシンタックスに基づいて、メタデータの存在が通知され得る。この場合、ある実施形態では、ペイロードとしてのメタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられ得る。これを以下により詳細に示す。
【0104】
ある実施形態では、メタデータは1以上のメタデータペイロードを含み得る。この場合、各メタデータペイロードは、パラメータと識別子とのセットを複数含み得、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるeqSetId、およびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、セット内の識別子に関連する1以上の処理パラメータとの組み合わせとして含む。この場合、上記1以上の処理パラメータは、デコーダによるダイナミックラウドネス調整のためのパラメータであり得る。この場合、ある実施形態では、drcSetId、EQSetIdおよびdownmixIdのうちの上記少なくとも1つは、DRCシーケンスのセットであるDRCSet、エコライザパラメータのセットであるEQSetおよびダウンミックスのうちの、デコーダによって選択されるべき少なくとも1つと関連し得る。概してメタデータは、メタデータの複数のセットを含むと言ってもよく、各セットがそれぞれの再生条件(例えば、互いに異なる再生条件)に対応する。
【0105】
ある実施形態では、上記方法はさらに、スタティックラウドネス調整のための追加のメタデータであってデコーダが用いるべきメタデータを生成することを含み得る。ダイナミックラウドネス処理のためのメタデータと追加のメタデータとをビットストリーム内で別々にしておき、オリジナルのオーディオデータをさらに符号化してビットストリームにすることは、上記に述べたいくつかの利点を有する。
【0106】
本明細書に記載する方法は、それぞれデコーダまたはエンコーダ上で実装され得る。この場合、デコーダおよびエンコーダは、上記方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含み得る。このような処理能力を有するデバイスの一例を
図5の例に示す。
図5は、2つのプロセッサ301と非一時的メモリ302とを含むデバイス300を示す。
【0107】
なお、本明細書に記載する方法はさらに、エンコーダとデコーダとのシステム上で実装可能である。エンコーダは、ダイナミックラウドネス調整および必要に応じてダイナミックレンジ圧縮(DRC)をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化する。デコーダは、本明細書に記載するように、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す。
【0108】
上記方法はさらに、処理能力を有するデバイスによって実行された場合に上記方法を実施するように構成された命令を有するコンピュータ読み取り可能記憶媒体を含むコンピュータプログラム製品として実装され得る。コンピュータプログラム製品は、コンピュータ読み取り可能記憶媒体上に格納され得る。
【0109】
(MPEG-D DRC変更ビットストリームシンタックス)
以下では、本明細書に記載の実施形態によると、ISO/IEC 23003-4に記載のMPEG-D DRCビットストリームシンタックスがどのように変更され得るかを述べる。
【0110】
さらにダイナミック処理メタデータをフレームベースのdynLoudComp更新として搬送するために、MPEG-D DRCシンタックスが、例えば以下の表2に示すloudnessInfoSetExtension()-エレメントのように拡張され得る。
【0111】
例えば、表1に示すようにloudnessInfoSetExtension()-エレメントに別のスイッチケースUNIDRCLOUDEXT_DYNLOUDCOMPが追加され得る。表5に示すように、スイッチケースUNIDRCLOUDEXT_DYNLOUDCOMPを用いて、新しいエレメントであるdynLoudComp()が識別され得る。表2に示すようにloudnessInfoSetExtension()-エレメントは、loudnessInfoSet()-エレメントのエクステンションであり得る。さらに表3に示すように、loudnessInfoSet()-エレメントは、uniDRC()の一部であり得る。
【0112】
【0113】
【0114】
【0115】
【0116】
【0117】
・drcSetIdは、dynLoudComp(メタデータに関連する)がDRC-set毎に適用されることをイネーブルにする。
・eqSetIdは、dynLoudCompがイコライゼーションツール用に様々な設定との組み合わせで適用されることをイネーブルにする。
・downmixIdは、dynLoudCompがDownmixId毎に適用されることをイネーブルにする。
【0118】
いくつかの場合には、上記のパラメータに加えて、dynLoudComp()エレメントが、methodDefinitionパラメータ(例えば4ビットで特定される)および/またはmeasurementSystemパラメータ(例えば4ビットで特定される)をさらに含むことが有利であり得る。methodDefinitionパラメータは、ダイナミック番組ラウドネスメタデータ(例えば、アンカーラウドネス、番組ラウドネス、短期ラウドネス、瞬間ラウドネスなど)を引き出すために用いられるラウドネス測定方法を特定する。measurementSystemパラメータは、ダイナミック番組ラウドネスメタデータ(例えば、EBU R.128、プリプロセシング有りまたは無しのITU-R BS-1770、ITU-R BS-1771など)を測定するために用いられるラウドネス測定方法を特定する。このようなパラメータは例えば、downmixIdパラメータとdynLoudCompValueパラメータとの間のdynLoudComp()エレメントに含まれ得る。
【0119】
【0120】
【0121】
【0122】
いくつかの場合には、dynLoudCompPresentパラメータおよび(dynLoudCompPresent=1であれば)dynLoudCompValueパラメータが、loudnessInfoV2()のloudnessInfoV2()のmeasurementCountループ外でなく、measurementCountループ内でreliabilityパラメータをフォローするように、上記表8に示すシンタックスを変更することが有利であり得る。さらに、dynLoudCompPresentが0である場合は、dynLoudCompValueを0に等しく設定することも有利であり得る。
【0123】
別のシンタックス2
あるいは、dynLoudComp()-エレメントをuniDrcGainExtension()-エレメントに組み入れることもできる。
【0124】
【0125】
【0126】
【0127】
セマンティクス
dynLoudCompValue
このフィールドは、dynLoudCompDb用の値を含む。値は、下の表に従って符号化される。デフォルト値は0dBである。
【0128】
【0129】
更新済みMEPG-D DRCラウドネス正規化処理
【表13】
【0130】
dynLoudCompの選択および処理用の疑似コード
【数1】
【0131】
いくつかの場合には、上記疑似コードに示す選択プロセス(例えば、dynLoudCompValueパラメータを選択する際にdrcSetID、eqSetIDおよびdownmixIdを考慮すること)に加えて、dynLoudCompValueパラメータを選択する際に、選択プロセスがmethodDefinitionパラメータおよび/またはmeasurementSystemパラメータを考慮することも有利であり得る。
【0132】
別の更新済みMEPG-D DRCラウドネス正規化処理
【表14】
【0133】
上記表14に示す別のラウドネス正規化処理を用いる場合、上記のラウドネス正規化処理疑似コードは、以下の別のラウドネス正規化処理疑似コードに置換され得る。なお、ダイナミックラウドネス処理メタデータがビットストリーム内に存在しない場合でも、dynLoudCompDbの値が規定されていることを確実にするために、dynLoudCompDbのデフォルト値、例えば0dBが想定され得る。
【0134】
【0135】
別のシンタックス3
いくつかの場合には、ダイナミックラウドネス処理値を送信する際のフレキシビリティを高めるために、以下の表に示すように、上記表1から表5に示すシンタックスと上記表6から表8に示す別のシンタックス1とを組み合わせることが有利であり得る。
【0136】
【0137】
【0138】
【0139】
dynLoudComp()の別のシンタックス3
【表18】
【0140】
インターフェースエクステンションシンタックス
いくつかの場合には、受信したビットストリーム内にダイナミックラウドネス処理情報が存在しているときでも、ダイナミックラウドネス処理が行われるか否かのコントロールを例えばエンドユーザによって行わせることが有利であり得る。このようなコントロールは、MPEG-D DRCインターフェースシンタックスを更新することにより、リバイス済みラウドネス正規化コントロールインターフェースペイロード(例えば、loudnessNormalizationControlInterfaceV1())を含む追加のインターフェースエクステンション(例えば、UNIDRCINTERFACEEXT_DYNLOUD)を含むようにすることにより提供され得る。これを以下の表に示す。
【0141】
【0142】
【0143】
【0144】
インターフェースエクステンションセマンティクス
loudnessNormalizationOn
このフラグは、ラウドネス正規化処理のオン/オフ切り替えをすべきか否かを示す。デフォルト値は0である。loudnessNormalizationOn=0であれば、loudnessNormalizationGainDbは0dBに設定される。
targetLoudness
このフィールドは、所望の出力ラウドネスを含む。値は以下の表に従って符号化される。
【0145】
【0146】
dynLoudnessNormalizationOn
このフラグは、ダイナミックラウドネス正規化処理のオン/オフ切り替えをすべきか否かを示す。デフォルト値は0である。dynLoudnessNormalizationOn=0であれば、dynloudnessNormalizationGainDbは0dBに設定される。
【0147】
ダイナミックラウドネス補償をイネーブルにする更なる方法
上記に加えて、ダイナミックラウドネス補償をイネーブルにする更なる方法も可能である。例えば、信号に適用すべき特定のダイナミックラウドネス補償値を示すパラメータを含めるのではなく、ダイナミックラウドネス補償をすでに含んでいるDRCゲインの特定のセットを規定すること、例えばこれらの特定のDRCゲインがデコーダによって適用された場合にダイナミックラウドネス補償が適用されるように規定することが可能である。このようなダイナミックラウドネス補償を適用するに適したDRCゲインのセットは、特定のビットストリームエレメントを介して識別され得る。これを以下にさらに述べる。このようなアプローチの利点は、他のラウドネス情報に加えて明示的なダイナミックラウドネス補償ゲインを送信する必要がないことである。
【0148】
さらに、ユーザはインターフェースを介して、ダイナミックラウドネス補償を含むDRCゲインが選択され適用されるべきであると特定することができる。これを以下にさらに述べる。
【0149】
最後に、ダイナミックラウドネス補償が行われるか否か及びどのようにして行われるかに関して、より厳密な制作上のコントロールを可能にするために、追加のビットストリームエレメントが提供され得る。例えばフラグは、ダイナミックラウドネス補償がユーザによってオフにされ得るか否かを示し得る。このような場合、ダイナミックラウドネス補償がディセーブルになることをコンテンツクリエータが許可するのであれば、ダイナミックラウドネス補償が適用されるか否かはユーザによる特定に従う。
【0150】
DRCセットエフェクトフィールドを介したダイナミックラウドネス補償でDRCセットを特定する
MPEG-D DRC基準では、特定のDRCセットによって提供された1以上のDRCエフェクトを示すことが可能である。例えばDRCセットは、「深夜の」視聴、「騒々しい環境での」視聴、「低再生レベル」での視聴などにとって適切であり得る。DRCセットエフェクトパラメータは、DRCセットによっていずれの特定のエフェクトが提供されるかを示し得る。
【0151】
さらにMPEG-D DRC基準は、ユーザが1以上の所望のDRCエフェクトおよび1以上のオプションの予備のDRCエフェクトを特定することを可能にする。ユーザからのこのような情報を用いて、使用可能なDRCセットの中から最も適したDRCセットを選択し得る。例えば、所望のDRCエフェクトに合致するDRCセットがあれば、そのセットが選択される。このようなセットは無いが予備のDRCエフェクトに合致するセットがあるのであれば、そのセットが選択され得る。
【0152】
規定されたDRCエフェクトのリストが、ダイナミックラウドネス補償を提供するDRCエフェクトを含むように拡張され得る。さらに、インターフェースを介してユーザが特定できるDRCエフェクトのリストもまた、ダイナミックラウドネス補償を提供するDRCセットエフェクトを含むように拡張され得る。このようにダイナミックラウドネス補償は、ダイナミックラウドネス補償エフェクトを提供すると示されているDRCセットを含むこと、およびダイナミックラウドネス補償を提供するDRCセットを望んでいることをインターフェースを介して示すこと、によって提供され得る。上記の場合、デコーダは、ダイナミックラウドネス補償DRCエフェクトに対応するDRCセットを選択し適用する。
【0153】
上記したように、ビットストリーム内で通知され得るDRCセットエフェクトを特定する表の前のバージョン(例えば、ISO/IEC 23003-4:2020の表A.45)が、「ダイナミックラウドネス補償」エフェクトというエントリーを含むように更新され得る。これを以下に示す。具体的には、以下の表に示すように、ダイナミックラウドネス補償エフェクトに対応する特定のビット位置(例えば、13)を有する行が追加され得る。
【0154】
【0155】
上記の例において、特定のDRCセットに関連づけられたビットフィールド(例えば、drcInstructionsBasic()、またはdrcInstructionsUniDrc()、またはdrcInstructionsUniDrcV1()ペイロードのdrcSetEffectビットフィールド)内のビットは、DRCセットがダイナミックラウドネス補償エフェクトを提供すると示すように設定(例えば、ビット位置13)され得る。
【0156】
同様に、インターフェースを介してデコーダに対して特定され得るDRCセットエフェクトを特定する表の前のバージョン(例えば、ISO/IEC 23003-4:2020の表12)が、ダイナミックラウドネス補償エフェクトというエントリーを含むように更新され得る。これを以下に示す。具体的には、以下の表に示すように、ダイナミックラウドネス補償エフェクトに対応する特定のインデックス値(例えば、9)を有する行が追加され得る。
【0157】
【0158】
上記の例において、使用可能であればダイナミックラウドネス補償エフェクトを提供するDRCセットが選択され適用されるべきだということをデコーダに命令するために、インターフェースパラメータ(例えば、dynamicRangeControllerInterface()ペイロードのdrcEffectTypeRequestパラメータ)が、ダイナミックラウドネス補償エフェクトに対応する特定の値(例えば、9)に設定され得る。しかし、ダイナミックラウドネス補償は、ラウドネス正規化との組み合わせで用いると意図され得るため、いくつかの場合には、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択し適用するために、さらにラウドネス正規化も行うデコーダが必要となり得る。このような要件は、デコーダ内でラウドネス正規化もイネーブルであるときに、デコーダが、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択することを可能にすることによってのみ達成され得る。これに代えて又はこれに加えて、このような要件は、ダイナミックラウドネス補償エフェクトを提供するDRCセットを要求するときに、ラウドネス正規化もまたイネーブルにする(例えば、フラグ上のラウドネス正規化および目標ラウドネス値の両方を設定することにより)ことを要求するようにインターフェースを変更することにより満たされ得る。
【0159】
新しいエクステンションペイロードを用いたダイナミックラウドネス補償でDRCセットを特定する
あるいは、ダイナミックラウドネス補償に対する命令を含む新しいペイロード(例えば、dynLoudInstructions())が規定され得る。このようなペイロードの1以上は、例えば既存のビットストリームのエクステンションフィールド(例えば、UNIDRCCONFEXT_V2)内に含まれ得る。このようなペイロードをエクステンションフィールドに含むことにより、新しいペイロードを解析するようには設計されていない既存のデコーダとの互換性が維持され得る。なぜならこのようなデコーダは追加のペイロードを単に無視するからである。このようなペイロードの各々には、ダイナミックラウドネス補償を提供するDRCセットに対応する独自の識別子(例えば、drcSetId)が割り当てられる。このようなセットの容易な識別を補助するために、新しいペイロードを介して通知されるDRCセットの各々に対するフラグ(例えば、dynamicLoudCompDRCSetフラグ)が1に設定され得る。
【0160】
さらに、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択する上記のユーザインターフェースが、この新しいタイプのペイロード(例えば、dynLoudInstructions()ペイロード)を介して通知されるDRCセットにも用いられ得る。具体的には、ユーザはインターフェースを介して(例えば、drcEffectTypeRequestフィールドを用いて)デコーダに、ダイナミックラウドネス補償を提供するDRCセットが望まれることを示し得る。その後デコーダは、新しいペイロードを介して通知されたDRCセット(例えば、ダイナミックラウドネス補償に対応すると識別されたDRC Set IDを有し、例えば1に設定されたdynamicLoudCompDRCSetフラグを有するDRCセット)があれば、それを選択する。しかし上記したように、ダイナミックラウドネス補償はラウドネス正規化との組み合わせで用いると意図され得るため、いくつかの場合には、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択し適用するために、さらにラウドネス正規化も行うデコーダが必要となり得る。このような要件は、デコーダ内でラウドネス正規化もイネーブルであるときに、デコーダが、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択することを可能にすることによってのみ達成され得る。これに代えて又はこれに加えて、このような要件は、ダイナミックラウドネス補償エフェクトを提供するDRCセットを要求するときに、ラウドネス正規化もまたイネーブルにする(例えば、フラグ上のラウドネス正規化および目標ラウドネス値の両方を設定することにより)ことを要求するようにインターフェースを変更することにより満たされ得る。
【0161】
このタイプの通知(例えば、drcSetEffectパラメータなどの既存のパラメータを介してダイナミックラウドネス補償を提供するDRCセットを通知するのではなく)の利点は、上記したように、ユーザがダイナミックラウドネス補償をイネーブルおよび/またはディセーブルにできるか否か、及びどのようにしてそれを行えるかを示す追加のパラメータを、このような新しいペイロード内に含むことができることである。例えば新しいペイロードは、ユーザインターフェースを介してダイナミックラウドネス補償をオフにすることが、ダイナミックラウドネス補償を適用する各DRCセットに対して許可されるか否かを示すパラメータ(例えば、dynamicLoudCompSwOffAllowedパラメータ)をも含み得る。
【0162】
ダイナミックラウドネス補償用の新しいペイロード(例えば、dynLoudInstructions()ペイロード)のシンタックスの例を以下の表に示す。
【0163】
【0164】
上記したように、独自のDRC Set IDは、ダイナミックラウドネス補償を提供するDRCセットとして特にDRC Setを示すフラグ(例えば、dynamicLoudCompDRCSet)と共に、ペイロードと関連づけられ得る。さらにペイロードは、DRCセットがオーディオ番組の1以上の特定のダウンミックス/ダウンミックス構造と共に用いると意図されていることを示す1以上のダウンミックス識別パラメータ(例えば、downmixIdパラメータ)と関連付けられ得る。このようなDRC Set識別子(例えば、drcSetIdパラメータ)は、フラグ(例えば、dynamicLoudCompDRCSetフラグ)と共に、ユーザのインジケーションに応答して、ペイロードと関連付けられたDRC Setの選択を可能にする。ユーザのインジケーションは、インターフェースを介して提供され、ユーザがダイナミックラウドネス補償DRCエフェクトを望んでいるというものである。さらに、1以上のダウンミックス識別子(例えば、downmixIDパラメータ)を含むことは、オーディオ番組の特定のダウンミックスと共に用いると意図されているダイナミックラウドネス補償を提供するDRCセットの選択をイネーブルにする。最後に、これも上記したように、ダイナミックラウドネス補償をオフにすることが許可されるか否かを示すパラメータ(例えば、dynamicLoudCompSWOffAllowed)を含むことにより、ダイナミックラウドネス補償がデコーダによって適用され得るか否かについてのコンテンツクリエータの追加のコントロールがイネーブルになる。
【0165】
最後に、上記したように、このような追加のペイロード(例えば、dynLoudInstructions()ペイロード)は、構成ペイロード(例えば、uniDrcConfigExtension()ペイロード)のエクステンションペイロード内に含まれ得る。特定のエクステンションのタイプ(例えば、0×2の値を有するUNIDRCCONFEXT_V2のuniDrcConfigExtType)を用いて、このような追加のペイロードが構成ペイロードのエクステンションフィールド内に存在することを示し得る。
【0166】
構成ペイロード(例えば、uniDrcConfigExtension()ペイロード)のエクステンションフィールド用のシンタックスの例を以下の表に示す。
【0167】
【0168】
構成ペイロードのエクステンションフィールドの特定のエクステンションタイプと関連付けられたデータは、ダイナミックラウドネス補償命令が存在するか否かを示すパラメータ(例えば、dynLoudPresentパラメータ)を含む。存在する場合、上記データは、エクステンションペイロード内のダイナミックラウドネス補償命令のセットの数を示すパラメータ(例えば、dynLoudInstructionsCountパラメータ)およびダイナミックラウドネス補償命令の各セット(例えば、各dynLoudInstructions()ペイロード)を含む。その場合、ダイナミックラウドネス補償命令用のシンタックスは上記の表に示すものであり得る。
【0169】
既存の構成エレメントを介してダイナミックラウドネス補償用のDRC Setを通知する。
さらに上記に代えて、既存の構成エレメントに新しいフィールドを追加することにより、特定のDRCセットがダイナミックラウドネス補償を提供することを示すことも可能である。例えば、DRCセットがダイナミックラウドネス補償を提供するか否かを示す新しいパラメータ(例えば、dynamicLoudCompDRCSetパラメータ)が既存の構成エレメント(例えば、downmixInstructions()エレメント、drcInstructionsBasic()エレメント、またはdrcInstructionsUniDrc()エレメント)に含まれ得る。理想的には、従来のデコーダとの互換性の問題を回避するために、新しいエレメントは、従来のデコーダが既に無視しているフィールド(例えば、リザーブドフィールド)内に含まれ得る。あるいは、新しいパラメータは、既存の構成エレメントの更新済みバージョン(例えば、downmixInstructionsV2()エレメントまたはdrcInstructionsUniDrcV2()エレメント)内に含まれ得る。このバージョンは、従来のデコーダに無視される。
【0170】
最後に、上記の選択プロセス同様、このようにダイナミックラウドネス補償を提供すると通知されたDRC Setは、ダイナミックラウドネス補償エフェクトを提供するDRC Setが望まれると示すことにより、インターフェースを介してデコーダによって選択され得る。インターフェースを介してデコーダにこのようなインジケーションが提供されると、デコーダは、ダイナミックラウドネス補償を提供する(例えば、1に等しいdynamicLoudCompDRCSetパラメータを有する)と示されたDRC Setを識別し選択する。複数のDRCセットがダイナミックラウドネス補償を提供すると示された場合には、デコーダは他のルール(例えば、ISO/IEC 23003-4:2020に規定された所定のルール)を用いて、ダイナミックラウドネス補償を提供する複数のDRCセットのうち最も適したDRCを選択し得る。
【0171】
しかし、ダイナミックラウドネス補償はラウドネス正規化と共に用いると意図され得るため、いくつかの場合には、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択し適用するために、さらにラウドネス正規化も行うデコーダが必要となり得る。このような要件は、デコーダ内でラウドネス正規化もイネーブルであるときに、デコーダが、ダイナミックラウドネス補償エフェクトを提供するDRCセットを選択することを可能にすることによってのみ達成され得る。これに代えて又はこれに加えて、このような要件は、ダイナミックラウドネス補償エフェクトを提供するDRCセットを要求するときに、ラウドネス正規化もまたイネーブルにする(例えば、フラグ上のラウドネス正規化および目標ラウドネス値の両方を設定することにより)ことを要求するようにインターフェースを変更することにより満たされ得る。
【0172】
図6は、上記の再生すべきオーディオデータを処理する方法の例を示す。
図6の例を参照する。ステップS301において、デコーダ100が符号化済みオーディオデータおよびメタデータを含むビットストリームを受信し得る。この場合、メタデータは、1以上のダイナミックレンジコントロール(DRC)セットを含み、DRCセットがダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションを各DRCセットについて含む。これは例えば上記したようになされる。
【0173】
ビットストリームのフォーマットに制限はないが、ある実施形態ではビットストリームはMPEG-D DRCビットストリームであり得る。その後、MPEG-D DRCビットストリームシンタックスに基づいて、ダイナミックラウドネス補償エフェクトを提供するメタデータの存在が通知され得る。これは例えば上記したようになされる。
【0174】
その後ステップS302において、デコーダはメタデータを解析することにより、ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットを識別し得る。これは例えば上記したようになされる。
【0175】
その後ステップS303において、デコーダはオーディオデータを復号化することにより、復号化済みオーディオデータを獲得し得る。これは例えば上記したようになされる。
【0176】
その後ステップS304において、デコーダはダイナミックラウドネス補償エフェクトを提供するように構成された、識別されたDRCセットのうちの1つを選択し得る。これは例えば上記したようになされる。
【0177】
その後ステップS305において、デコーダは、選択されたDRCセットに対応する1以上のDRCゲインをビットストリームから抽出し得る。これは例えば上記したようになされる。
【0178】
その後ステップS306において、デコーダは、選択されたDRCセットに対応する1以上のDRCゲインを復号化済みオーディオデータに適用することにより、ダイナミックラウドネス補償済みオーディオデータを獲得し得る。これは例えば上記したようになされる。
【0179】
最後にステップS307において、ダイナミックラウドネス補償済みオーディオデータが、再生のために出力される。これは例えば上記したようになされる。
【0180】
ダイナミックラウドネス補償データの効率的コーディング/送信
上記のように、ダイナミックレンジコントロールと組み合わされたダイナミックラウドネス補償は、ダイナミックレンジゲインとダイナミックラウドネス補償ゲインとの組み合わせであるゲインを含むDRCセットを送信することにより達成され得る。しかし、そのためには、ダイナミックレンジコントロールゲインデータを冗長に送信することが必要とされ得る。例えば、第1のDRCセットは、信号にダイナミックレンジコントロールを適用するゲインを含み得、そのDRCゲインセットが他のゲイン(例えば、ダイナミックラウドネス補償ゲイン)とは独立して適用されることを可能にすることが重要であり得る。そのため、ダイナミックレンジコントロールとダイナミックラウドネス補償との組み合わせを適用するゲインを含むDRCセットが望まれるのであれば、第1のセットのダイナミックレンジコントロールゲインと所望のダイナミックラウドネス補償ゲインとの組み合わせを表す第2のDRCセットを特定する必要がある。残念ながら、そのためには、第1のDRCセットおよび第2のDRCセットの両方が、第1のセットのダイナミックレンジコントロールゲインに関する情報を含むことを要求されるが、これは効率的ではない。
【0181】
同じ目的を達成する、より効率的なデータの送信方法は、第1のDRCセット内のダイナミックレンジコントロールのみ及び第2のDRCセット内のダイナミックラウドネス補償ゲインのみを、2つのDRCセット間の関係を示す追加のいくつかのメタデータと共に提供することである。例えば第1のDRCセットは、第1のDRCセットに依存する別のDRCセットがあることを示すパラメータを含み得る。その場合、デコーダは、例えばダイナミックレンジコントロールのみが望まれる場合には、第1のセットのゲインを独立して適用することが可能であることを理解し得る。さらにデコーダは、ダイナミックレンジコントロールとダイナミックラウドネス補償との組み合わせを得るために、第1および第2のDRCセットのゲインを組み合わせることも可能であることを理解する。最後に、第2のセットのゲインを単独で適用することが意図されない場合には、メタデータを第2のDRCセットと共に含むことにより、DRCセットのゲインが第1のセットとの組み合わせでのみ用いられ得るのか、あるいは第1のセットのゲインとは独立して用いられ得るのかを示し得る。
【0182】
例えば、2つのDRCセットを考える。第1のDRCセットはDRC Set 1(例えば、1に等しいdrcSetIdを有する)として識別され、ダイナミックレンジコントロール用のゲインを提供する。第2のDRC Setは、DRC Set 2(例えば、2に等しいdrcSetIdを有する)として識別され、ダイナミックラウドネス補償用のゲインを提供する。DRC Set 2は、DRC Set 1との組み合わせで用いると意図されているため、DRC Set 1は、DRC Set 2がDRC Set 1に依存していることを示すパラメータを含み得る(例えば、DRC Set 1のdependsOnDrcSetパラメータは2に等しいことがあり得る)。さらに、ダイナミックラウドネス補償がダイナミックレンジコントロールとの組み合わせでのみ用いると意図されているならば、DRC Set 2は、DRC Set 2のゲインが独立して用いられないかもしれないことを示すパラメータを含み得る(例えば、DRC Set 2のnoIndependentUseフラグが値1に設定され得る)。逆に、DRC Set 2がダイナミックレンジコントロールとの組み合わせでのみ用いると意図されていないならば、DRC Set 2は、DRC Set 2のゲインが独立して用いられ得ることを示すパラメータを含み得る(例えば、DRC Set 2のnoIndependentUseフラグが値0に設定され得る)。
【0183】
上記のダイナミックラウドネス補償データの効率的コーディング/送信は、上記のダイナミックラウドネス補償をイネーブルにする更なる方法のいずれとも共に用いられ得る。
【0184】
例えば、第1の場合では、ダイナミックラウドネス補償エフェクトを提供するDRC Setの存在が既存のエフェクトフラグ(例えば、少しのdrcSetEffectビットフィールド)を介して通知されるが、この場合、DRC Set 1は、ダイナミックラウドネス補償エフェクトに対応するビットが0に設定されたdrcSetEffectパラメータを有し得、DRC Set 2は、1に設定されたダイナミックラウドネス補償エフェクトに対応するビットを有し得、ビットフィールドの他のすべてのビットは両方のDRC Setについて同じであり得る。このようなシグナリングによると、ユーザがインターフェースを介してダイナミックラウドネス補償エフェクトを要求すると、デコーダは、ダイナミックレンジコントロールとダイナミックラウドネス補償との組み合わせを適用するためにDRC Set 1およびDRC Set 2のゲインを抽出し適用する。
【0185】
以下の表は、ダイナミックラウドネス補償データの効率的送信の上記シグナリングを達成するパラメータの値の例を示す。
【0186】
【0187】
第2の場合では、ダイナミックラウドネス補償エフェクトを提供するDRC Setの存在が新しいペイロード(例えば、dynLoudInstructionsペイロードが2に設定される)を用いて通知されるが、この場合、DRC Set 2は、新しいペイロードを介して通知される(例えば、dynLoudInstructionsペイロードが2に設定される)。DRC Set 1は上記のように通知される(例えば、drcSetIdパラメータは1に設定され、dependsonDrcSetパラメータは2に設定され、これによりDRC Set 2がDRC Set 1に依存していることが示される)。最後に、上記の新しいペイロード(例えば、dynLoudInstructions)を介して、DRC Set 2が独立して用いられるべきではない(例えば、常にDRC Set 1と共に用いられるべきである)ことを示すのは可能ではない。そのため、新しいペイロードに追加のパラメータが追加されて(例えば、dynLoudInstructionsにnoIndependentUseパラメータが追加されて)、新しいパラメータが1に設定されると、DRC Set 2がDRC Set 1とのみ共に用いられ、新しいパラメータが0に設定されると、DRC Set 2がDRC Set 1とは独立して用いられ得るようにし得る。第1の場合と同様、ユーザがインターフェースを介してダイナミックラウドネス補償エフェクトを要求すると、デコーダは、ダイナミックレンジコントロールとダイナミックラウドネス補償との組み合わせを適用するためにDRC Set 1およびDRC Set 2の両方のゲインを抽出し適用する。
【0188】
最後に、第3の場合では、上記のようにダイナミックラウドネス補償を効率的にイネーブルにするに必要なパラメータのすべてを既に含む既存の構成エレメントが用いられる。具体的には、DRC Set 1は、DRC Set 2が上記のようにDRC Set 1に依存しているというインジケーションを含み得、DRC Set 2は、それが独立して用いられ得るか否か、あるいはDRC Set 2との組み合わせでのみ用いられ得るかというインジケーションを含む。ここでも上の2つの場合同様、ユーザがインターフェースを介してダイナミックラウドネス補償エフェクトを要求すると、デコーダは、ダイナミックレンジコントロールとダイナミックラウドネス補償との組み合わせを適用するためにDRC Set 1およびDRC Set 2のゲインを抽出し適用する。
【0189】
上記のように、ダイナミックラウドネス補償をイネーブルにするために依存型DRC Setを用いることの利点は、ダイナミックラウドネス補償ゲインを含むDRC Set内のダイナミックレンジコントロールゲインを冗長に送信する必要がなくなるため、ダイナミックラウドネス補償に必要なデータをより効率的に送信できることである。
【0190】
(解釈)
特に断らない限り、以下の記載から明らかなように、開示された記載全体を通して、「処理する」、「計算する」、「決定する」、「分析する」などの用語を利用することは、電子量などの物理量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換する、コンピュータもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスの動作および/またはプロセスを指すことが理解される。
【0191】
同様に、「プロセッサ」という用語は、例えばレジスタおよび/またはメモリからの電子データを、例えばレジスタおよび/またはメモリに格納され得る他の電子データに変換するために、当該電子データを処理する任意のデバイスまたはデバイスの任意の部分を指し得る。「コンピュータ」または「コンピューティングマシン」または「コンピューティングプラットフォーム」は、1以上のプロセッサを含み得る。
【0192】
本明細書に記載の方法は、一実施形態例において、1以上のプロセッサであって、当該プロセッサのうちの1以上によって実行された際に本明細書に記載の方法のうちの少なくとも1を実施する1セットの命令を含むコンピュータ読み取り可能(または、マシン読み取り可能と呼ぶ)コードを受信するプロセッサによって実行可能である。対象となる動作を特定する1セットの命令(シーケンシャルまたはその他)を実行可能な任意のプロセッサが含まれる。したがって、一例は、1以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、およびプログラマブルDSPユニットのうちの1以上を含み得る。処理システムは、メインRAMおよび/もしくはスタティックRAM、および/またはROMを含むメモリサブシステムをさらに含み得る。これらのコンポーネント間の通信のために、バスサブシステムが含まれ得る。さらに、処理システムは、ネットワークによって結合されたプロセッサを有する分散型処理システムであり得る。処理システムがディスプレイを必要とする場合、例えば、液晶ディスプレイ(LCD)またはブラウン管ディスプレイ(CRT)などのディスプレイが含まれ得る。手動データ入力が必要な場合、処理システムはまた、キーボードなどの英数字入力ユニット、マウスなどのポインティング制御デバイスなどのうちの1以上の入力デバイスを含む。処理システムはまた、ディスクドライブユニットなどのストレージシステムを含み得る。いくつかの構成において、処理システムは、サウンド出力デバイス、およびネットワークインタフェースデバイスを含み得る。したがって、メモリサブシステムは、1以上のプロセッサによって実行された際に本明細書に記載の方法のうちの1以上を行わせる1セットの命令を含むコンピュータ読み取り可能コード(例えば、ソフトウェア)を担持するコンピュータ読み取り可能キャリア媒体を含む。なお、方法がいくつかの要素、例えばいくつかのステップを含む場合、特に断らない限り、そのような要素の順序付けは含意されない。ソフトウェアは、ハードディスク内に存在し得るか、あるいは、コンピュータシステムによる実行中に、RAM内および/またはプロセッサ内に、完全にまたは少なくとも部分的に、存在し得る。したがって、メモリおよびプロセッサはまた、コンピュータ読み取り可能コードを担持するコンピュータ読み取り可能キャリア媒体を構成する。さらに、コンピュータ読み取り可能キャリア媒体は、コンピュータプログラム製品を形成し得るか、またはコンピュータプログラム製品に含まれ得る。
【0193】
別の実施形態例において、1以上のプロセッサは、スタンドアロンデバイスとして動作するか、または、ネットワーク構成において、他のプロセッサに接続、例えば、ネットワーク接続され得、1以上のプロセッサは、サーバ-ユーザネットワーク環境において、サーバまたはユーザマシンの能力で、または、ピアツーピアもしくは分散ネットワーク環境において、ピアマシンとして、動作し得る。1以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、携帯情報端末(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチもしくはブリッジ、またはそのマシンによって対象となる動作を特定する1セットの命令(シーケンシャルまたはその他)を実行可能な任意のマシンを形成し得る。
【0194】
なお、「マシン」という用語はまた、本明細書に記載の方法のいずれか1以上を実行するための1セット(または、複数セット)の命令を個別にまたは共同で実行するマシンの任意の集団を含むと解釈される。
【0195】
したがって、本明細書に記載の方法のそれぞれの一実施形態例は、1セットの命令、例えば、1以上のプロセッサ(例えば、ウェブサーバ構成の一部である1以上のプロセッサ)上で実行するためのコンピュータプログラムを担持するコンピュータ読み取り可能キャリア媒体の形態である。したがって、当業者によって理解されるように、本開示の実施形態例は、方法、専用装置などの装置、データ処理システムなどの装置、またはコンピュータ読み取り可能キャリア媒体、例えばコンピュータプログラム製品として実現され得る。コンピュータ読み取り可能キャリア媒体は、1以上のプロセッサ上で実行された際にプロセッサに方法を実装させる1セットの命令を含むコンピュータ読み取り可能コードを担持する。したがって、本開示の局面は、方法、完全にハードウェアの実施形態例、完全にソフトウェアの実施形態例、またはソフトウェアおよびハードウェアの局面を組み合わせた実施形態例の形態をとり得る。さらに、本開示は、キャリア媒体(例えば、コンピュータ読み取り可能記憶媒体上のコンピュータプログラム製品)であって、媒体内に実現されたコンピュータ読み取り可能プログラムコードを担持する媒体の形態をとり得る。
【0196】
ソフトウェアは、さらに、ネットワークインターフェースデバイスを介して、ネットワークにわたって送受信され得る。キャリア媒体は、実施形態例において、単一の媒体であるが、「キャリア媒体」という用語は、1以上のセットの命令を格納する単一の媒体または複数の媒体(例えば、集中型もしくは分散型データベース、および/または関連するキャッシュおよびサーバ)を含むと解釈されるべきである。「キャリア媒体」という用語は、プロセッサのうちの1以上によって実行するための1セットの命令であって、当該1以上のプロセッサに本開示の方法のうちの任意の1以上を行わせる1セットの命令を格納、符号化または担持することができる任意の媒体も含むと解釈されるべきである。キャリア媒体は、不揮発性媒体、揮発性媒体、および伝送媒体を含むが、これらに限定されない多くの形態をとり得る。不揮発性媒体は、例えば、光ディスク、磁気ディスク、光磁気ディスクを含む。揮発性媒体は、メインメモリなどのダイナミックメモリを含む。伝送媒体は、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線および光ファイバを含む。伝送媒体はまた、電波および赤外線データ通信中に生成されるような音波または光波の形態をとり得る。したがって、例えば、「キャリア媒体」という用語は、ソリッドステートメモリ、光媒体および磁気媒体において実現されるコンピュータ製品、少なくとも1つのプロセッサまたは1以上のプロセッサによって検出可能であり、実行された際に方法を実装する1セットの命令を表す伝搬信号を担持する媒体、および1以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、1セットの命令を表す伝搬信号を担持するネットワーク内の伝送媒体を含むが、これらに限定されないと解釈される。
【0197】
上記方法のステップは、一実施形態例において、ストレージに格納された命令(例えば、コンピュータ読み取り可能コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサによって行われることが理解される。また、本開示は、任意の特定の実装またはプログラミング技法に限定されず、かつ、本開示は、本明細書に記載の機能を実装するための任意の適切な技法を使用して実装され得ることが理解される。本開示は、いずれの特定のプログラミング言語またはオペレーティングシステムにも限定されない。
【0198】
本開示全体を通して「一実施形態例」、「いくつかの実施形態例」または「実施形態例」と言及することは、当該実施形態例に関連して記載された特定の特徴、構造または特性が本開示の少なくとも1つの実施形態例に含まれることを意味する。したがって、本開示全体を通して様々な場所において現れる「一実施形態例において」、「いくつかの実施形態例において」または「実施形態例において」という語句は、必ずしもすべて同じ実施形態例を指すわけではない。さらに、特定の特徴、構造または特性は、1以上の実施形態例において、本開示から当業者には明らかであるように、任意の適切な様式で組み合わせられ得る。
【0199】
本明細書で使用されるように、特に断らない限り、共通のオブジェクトを記述するための「第1」、「第2」、「第3」などの序数詞の使用は、同様のオブジェクトの異なる例が参照されていることを単に示すに過ぎず、かつ、そのように記述されたオブジェクトが、時間的、空間的、ランキング順、または任意の他の様式で、所与の並びでなければならないことを含意することを意図しない。
【0200】
以下の特許請求の範囲および本明細書の記載において、「含んで」、「含み」、または「含む」という用語のいずれも、その用語に続く要素/特徴を少なくとも含むが、他の要素/特徴を除外しないことを意味するオープンな用語である。したがって、「含む」という用語は、特許請求の範囲で使用された場合、その後に列挙される手段または要素またはステップに限定されると解釈されるべきでない。例えば、AとBとを含むデバイスという表現の範囲は、要素AおよびBのみからなるデバイスに限定されるべきでない。本明細書で使用されるような、「含有して」または「含有する」という用語はまた、その用語に続く要素/特徴を少なくとも含むが、他の要素/特徴を除外しないことを意味するオープンな用語である。したがって、「含有する」は、「含む」と同義であり、「含む」を意味する。
【0201】
本開示の実施形態例の上記の記載において、本開示を簡素化し、様々な発明の局面のうちの1以上の理解を助けるために、本開示の様々な特徴が単一の実施形態例、図、またはその説明にまとめられることがあることを理解されたい。しかし、本開示の方法は、特許請求の範囲が各請求項に明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきでない。むしろ、以下の特許請求の範囲が反映するように、発明の局面は、上述の開示された単一の実施形態例のすべての特徴よりも少ない特徴に存在する。したがって、「発明を実施するための形態」続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、それ自体が本開示の別個の実施形態例として存在する。
【0202】
さらに、本明細書に記載のいくつかの実施形態例は、他の実施形態例に含まれたいくつかの特徴を含み、他の特徴を含まないが、異なる実施形態例の特徴の組合せは、当業者によって理解されるように、本開示の範囲内にあることを意味し、かつ、異なる実施形態例を形成する。例えば、以下の特許請求の範囲では、請求された実施形態のいずれも、任意の組み合わせで使用できる。
【0203】
本明細書で提供された記載において、多数の具体的な詳細が記載される。しかし、本開示の実施形態例は、これらの具体的な詳細なしに実施され得ることが理解される。他の例では、この記載の理解を不明瞭にしないために、周知の方法、構造および技法は、詳細には示していない。
【0204】
したがって、本開示の最良の形態であると考えられるものを記載したが、当業者は、本開示の思想から逸脱することなく、他の及びさらなる変更がそれに対してなされ得ることを認識し、かつ、すべてのそのような変形および変更が本開示の範囲内にあると請求することが意図される。例えば、上記のいずれの式も、使用され得る手順を単に代表するだけである。ブロック図に対して機能が追加または削除され得、かつ、機能ブロック間で動作が相互に交換され得る。ステップは、本開示の範囲内に記載の方法に対して追加または削除され得る。
【0205】
以下に列挙した実施形態例の2セット(EEE-AおよびEEE-B)は請求項ではないが、本明細書で開示する実施形態例のいくつかの局面の構造、特徴および機能を記載している。
【0206】
EEE-A1.再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す方法であって、
(a)ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信するプロセスと、
(b)前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得るプロセスと、
(c)ダイナミックラウドネス調整のための1以上の処理パラメータを再生条件に基づいて前記デコーダによって前記メタデータから決定するプロセスと、
(d)前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得るプロセスと、
(e)前記処理済みオーディオデータを再生用に出力するプロセスと、
を含む方法。
【0207】
EEE-A2.前記メタデータは、ダイナミックラウドネス調整のための、複数の再生条件に対する処理パラメータを示す、EEE-A1に記載の方法。
【0208】
EEE-A3.前記1以上の処理パラメータを決定する前記プロセスはさらに、ダイナミックレンジ圧縮(DRC)用の1以上の処理パラメータを再生条件に基づいて決定することを含む、EEE-A1またはEEE-A2に記載の方法。
【0209】
EEE-A4.前記再生条件は、前記デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性、音響環境の特性のうちの1以上を含む、EEE-A1からEEE-A3のいずれか1つに記載の方法。
【0210】
EEE-A5.プロセス(c)はさらに、DRCシーケンスのセットであるDRCSet、イコライザパラメータのセットであるEQSet、およびダウンミックスのうち、前記再生条件に対応する少なくとも1つを前記デコーダによって選択することを含む、EEE-A1からEEE-A4のいずれか1つに記載の方法。
【0211】
EEE-A6.プロセス(c)はさらに、DRCSet、EQSet、およびダウンミックスのうち前記選択された少なくとも1つを示すメタデータ識別子を識別することにより、前記1以上の処理パラメータを前記メタデータから決定することを含む、EEE-A5に記載の方法。
【0212】
EEE-A7.前記メタデータは、平均ラウドネス値に関連する1以上の処理パラメータ、および必要に応じて、ダイナミックレンジ圧縮特性に関連する1以上の処理パラメータを含む、EEE-A1からEEE-A6のいずれか1つに記載の方法。
【0213】
EEE-A8.前記ビットストリームはさらに、前記復号化済みオーディオデータに適用すべきスタティックラウドネス調整のための追加のメタデータを含む、EEE-A1からEEE-A7のいずれか1つに記載の方法。
【0214】
EEE-A9.前記ビットストリームはMPEG-D DRCビットストリームであり、MPEG-D DRCビットストリームシンタックスに基づいてメタデータの存在が通知される、EEE-A1からEEE-A8のいずれか1つに記載の方法。
【0215】
EEE-A10.ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられる、EEE-A9に記載の方法。
【0216】
EEE-A11.前記メタデータは1以上のメタデータペイロードを含み、各メタデータペイロードはパラメータと識別子とのセットを複数含み、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるeqSetId、およびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、前記セット内の前記識別子に関連する1以上の処理パラメータとの組み合わせとして含む、EEE-A1からEEE-A10のいずれか1つに記載の方法。
【0217】
EEE-A12.プロセス(c)は、前記ペイロード内の前記複数のセットから、DRCSet、EQSetおよびダウンミックスのうち前記デコーダによって選択された前記少なくとも1つに基づいて1セットを選択することを含み、プロセス(c)で決定された前記1以上の処理パラメータは、前記選択されたセット内の前記識別子に関連する前記1以上の処理パラメータである、EEE-A5に従属するEEE-A11に記載の方法。
【0218】
EEE-A13.再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すデコーダであって、
(a)ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信するプロセスと、
(b)前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得るプロセスと、
(c)ダイナミックラウドネス調整のための1以上の処理パラメータを再生条件に基づいて前記デコーダによって前記メタデータから決定するプロセスと、
(d)前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得るプロセスと、
(e)前記処理済みオーディオデータを再生用に出力するプロセスと、
を含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、デコーダ。
【0219】
EEE-A14.ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化してビットストリームにする方法であって、
(a)オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得るプロセスと、
(b)前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて、ダイナミックラウドネス調整のためのメタデータを生成するプロセスと、
(c)前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにするプロセスと、
を含む方法。
【0220】
EEE-A15.前記方法はさらに、スタティックラウドネス調整のための追加のメタデータであって、デコーダが用いるべきメタデータを生成することを含む、EEE-A14に記載の方法。
【0221】
EEE-A16.プロセス(b)は、前記ラウドネス処理済みオーディオデータと前記オリジナルのオーディオデータとを比較することを含み、前記比較の結果に基づいて前記メタデータが生成される、EEE-A14またはEEE-A15に記載の方法。
【0222】
EEE-A17.プロセス(b)はさらに、1以上の所定期間に亘ってラウドネスを測定することを含み、前記測定されたラウドネスにさらに基づいて前記メタデータが生成される、EEE-A16に記載の方法。
【0223】
EEE-A18.前記測定は、前記オーディオデータ全体のラウドネスを測定することを含む、EEE-A17に記載の方法。
【0224】
EEE-A19.前記測定は、前記オーディオデータ内の会話のラウドネスを測定することを含む、EEE-A17に記載の方法。
【0225】
EEE-A20.前記ビットストリームはMPEG-D DRCビットストリームであり、MPEG-D DRCビットストリームシンタックスに基づいてメタデータの存在が通知される、EEE-A14からEEE-A19のいずれか1つに記載の方法。
【0226】
EEE-A21.ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられる、EEE-A20に記載の方法。
【0227】
EEE-A22.前記メタデータは1以上のメタデータペイロードを含み、各メタデータペイロードはパラメータと識別子とのセットを複数含み、各セットは、DRCSet識別子であるdrcSetId、EQSet識別子であるeqSetId、およびダウンミックス識別子であるdownmixIdのうちの少なくとも1つを、前記セット内の前記識別子に関連する前記1以上の処理パラメータとの組み合わせとして含み、前記1以上の処理パラメータは、デコーダによるダイナミックラウドネス調整のためのパラメータである、EEE-A14からEEE-A21のいずれか1つに記載の方法。
【0228】
EEE-A23.前記drcSetId、前記eqSetId、および前記downmixIdのうちの前記少なくとも1つは、DRCシーケンスのセットであるDRCSet、イコライザパラメータのセットであるEQSet、およびダウンミックスのうち、前記デコーダによって選択されるべき少なくとも1つに関連する、EEE-A22に記載の方法。
【0229】
EEE-A24.ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するエンコーダであって、
(a)オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得るプロセスと、
(b)前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて前記ダイナミックラウドネス調整のためのメタデータを生成するプロセスと、
(c)前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにするプロセスと、
を含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、エンコーダ。
【0230】
EEE-A25.ダイナミックラウドネス調整および/またはダイナミックレンジ圧縮(DRC)をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するEEE-A24に記載のエンコーダと、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すEEE-A13に記載のデコーダとのシステム。
【0231】
EEE-A26.処理能力を有するデバイスによって実行されると、EEE-A1からEEE-A12およびEEE-A14からEEE-A23のいずれか1つに記載の方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含むコンピュータプログラム製品。
【0232】
EEE-A27.EEE-A26に記載のコンピュータプログラム製品を格納するコンピュータ読み取り可能記憶媒体。
【0233】
EEE-A28.再生すべきオーディオデータに対して前記メタデータベースのダイナミック処理を施すべきか否かというインジケーションをインターフェースを介して前記デコーダによって受信することと、再生すべきオーディオデータに対して前記メタデータベースのダイナミック処理を施すべきでないというインジケーションを前記デコーダが受信した場合、少なくとも、前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用するステップをスキップすることと、をさらに含む、EEE-A1からEEE-A12のいずれか1つに記載の方法。
【0234】
EEE-A29.前記デコーダは、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すべきか否かというインジケーションをインターフェースを介して受信するまで、少なくとも、前記決定された1以上の処理パラメータを前記復号化済みオーディオデータに適用するステップをスキップする、EEE-A28に記載の方法。
【0235】
EEE-A30.前記メタデータは、ダイナミックラウドネス調整のための、複数の再生条件に対する処理パラメータを示し、前記メタデータはさらに、前記複数の処理パラメータから1つの処理パラメータを引き出すために用いられるラウドネス測定方法を特定するパラメータを含む、EEE-A1からEEE-A12、EEE-A28およびEEE-A29のいずれか1つに記載の方法。
【0236】
EEE-A31.前記メタデータは、ダイナミックラウドネス調整のための、複数の再生条件に対する処理パラメータを示し、前記メタデータはさらに、前記複数の処理パラメータのうちの1つの処理パラメータを測定するために用いられるラウドネス測定システムを特定するパラメータを含む、EEE-A1からEEE-A12およびEEE-A28からEEE-A30のいずれか1つに記載の方法。
【0237】
EEE-B1.再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施す方法であって、
ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することであって、ダイナミックラウドネス調整のための前記メタデータはメタデータの複数のセットを含み、メタデータの各セットはそれぞれの再生条件に対応している、受信と、
前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得ることと、
前記デコーダに提供された再生条件情報に応答して、特定の再生条件に対応するメタデータのセットを選択し、前記選択されたメタデータのセットから、ダイナミックラウドネス調整のための1以上の処理パラメータを抽出することと、
前記抽出された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得ることと、
前記処理済みオーディオデータを再生用に出力することと、
を含む方法。
【0238】
EEE-B2.前記1以上の処理パラメータを抽出することはさらに、ダイナミックレンジ圧縮(DRC)用の1以上の処理パラメータを抽出することを含む、EEE-B1に記載の方法。
【0239】
EEE-B3.前記再生条件情報は、特定のラウドスピーカの設定を示す、EEE-B1またはEEE-B2に記載の方法。
【0240】
EEE-B4.前記選択されたメタデータのセットは、DRCシーケンスのセットであるDRSetを含む、EEE-B1からEEE-B3のいずれか1つに記載の方法。
【0241】
EEE-B5.前記メタデータのセットを選択することは、特定のダウンミックスに対応するメタデータのセットを識別することを含む、EEE-B1からEEE-B4のいずれか1つに記載の方法。
【0242】
EEE-B6.前記メタデータのセットの各々は、平均ラウドネス値に関連する1以上の処理パラメータ、および必要に応じて、ダイナミックレンジ圧縮特性に関連する1以上の処理パラメータを含む、EEE-B1からEEE-B5のいずれか1つに記載の方法。
【0243】
EEE-B7.前記ビットストリームはさらに、前記復号化済みオーディオデータに適用すべきスタティックラウドネス調整のための追加のメタデータを含む、EEE-B1からEEE-B6のいずれか1つに記載の方法。
【0244】
EEE-B8.前記ビットストリームはMPEG-D DRCビットストリームであり、MPEG-D DRCビットストリームシンタックスに基づいてメタデータの存在が通知される、EEE-B1からEEE-B7のいずれか1つに記載の方法。
【0245】
EEE-B9.ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられる、EEE-B8に記載の方法。
【0246】
EEE-B10.前記メタデータは1以上のメタデータペイロードを含み、各メタデータペイロードはパラメータと識別子とのセットを複数含み、各セットは、それぞれのダウンミックス識別子であるdownmixIdを、前記セット内の前記ダウンミックス識別子に関連する1以上の処理パラメータとの組み合わせとして含む、EEE-B1からEEE-B9のいずれか1つに記載の方法。
【0247】
EEE-B11.再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すデコーダであって、
ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することであって、ダイナミックラウドネス調整のための前記メタデータはメタデータの複数のセットを含み、メタデータの各セットはそれぞれの再生条件に対応している、受信と、
前記オーディオデータおよび前記メタデータを前記デコーダによって復号化することにより、復号化済みオーディオデータおよびメタデータを得ることと、
前記デコーダに提供された再生条件情報に応答して、特定の再生条件に対応するメタデータのセットを選択し、前記選択されたメタデータのセットから、ダイナミックラウドネス調整のための1以上の処理パラメータを抽出することと、
前記抽出された1以上の処理パラメータを前記復号化済みオーディオデータに適用することにより、処理済みオーディオデータを得ることと、
前記処理済みオーディオデータを再生用に出力することと、
を含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、デコーダ。
【0248】
EEE-B12.ダイナミックラウドネス調整をすべきオーディオデータおよびメタデータを符号化してビットストリームにする方法であって、
オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得ることと、
前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて前記ダイナミックラウドネス調整のためのメタデータを生成することと、
前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにすることと、
を含む方法。
【0249】
EEE-B13.前記方法はさらに、スタティックラウドネス調整のための追加のメタデータであって、デコーダが用いるべきメタデータを生成することを含む、EEE-B12に記載の方法。
【0250】
EEE-B14.メタデータを生成することは、前記ラウドネス処理済みオーディオデータと前記オリジナルのオーディオデータとを比較することを含み、前記比較の結果に基づいて前記メタデータが生成される、EEE-B12またはEEE-B13に記載の方法。
【0251】
EEE-B15.前記メタデータを生成することはさらに、1以上の所定期間に亘ってラウドネスを測定することを含み、前記測定されたラウドネスにさらに基づいて前記メタデータが生成される、EEE-B14に記載の方法。
【0252】
EEE-B16.前記測定は、前記オーディオデータ全体のラウドネスを測定することを含む、EEE-B15に記載の方法。
【0253】
EEE-B17.前記測定は、前記オーディオデータ内の会話のラウドネスを測定することを含む、EEE-B15に記載の方法。
【0254】
EEE-B18.前記ビットストリームはMPEG-D DRCビットストリームであり、MPEG-D DRCビットストリームシンタックスに基づいて前記メタデータの存在が通知される、EEE-B12からEEE-B17のいずれか1つに記載の方法。
【0255】
EEE-B19.ペイロードとして前記メタデータを搬送するためにloudnessInfoSetExtension()-エレメントが用いられる、EEE-B18に記載の方法。
【0256】
EEE-B20.前記メタデータは、メタデータの複数のセットを含み、メタデータの各セットは、それぞれの再生条件に対応している、EEE-B12からEEE-B19のいずれか1つに記載の方法。
【0257】
EEE-B21.前記メタデータは1以上のメタデータペイロードを含み、各メタデータペイロードはパラメータと識別子とのセットを複数含み、各セットは、それぞれのダウンミックス識別子であるdownmixIdを、前記セット内の前記ダウンミックス識別子に関連する1以上の処理パラメータとの組み合わせとして含み、前記1以上の処理パラメータは、デコーダによるダイナミックラウドネス調整のためのパラメータである、EEE-B12からEEE-B20のいずれか1つに記載の方法。
【0258】
EEE-B22.ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するエンコーダであって、
オリジナルのオーディオデータをラウドネス処理用のラウドネスレベラに入力することにより、前記ラウドネスレベラからの出力としてラウドネス処理済みオーディオデータを得ることと、
前記ラウドネス処理済みオーディオデータおよび前記オリジナルのオーディオデータに基づいて前記ダイナミックラウドネス調整のためのメタデータを生成することと、
前記オリジナルのオーディオデータおよび前記メタデータを符号化することにより前記ビットストリームにすることと、
を含む方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、エンコーダ。
【0259】
EEE-B23.ダイナミックラウドネス調整をすべきオリジナルのオーディオデータおよびメタデータをビットストリーム内で符号化するEEE-B22に記載のエンコーダと、再生すべきオーディオデータに対してメタデータベースのダイナミック処理を施すEEE-B11に記載のデコーダとのシステム。
【0260】
EEE-B24.処理能力を有するデバイスによって実行されると、EEE-B1からEEE-B10およびEEE-B12からEEE-B21のいずれか1つに記載の方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含むコンピュータプログラム製品。
【0261】
EEE-B25.EEE-B24に記載のコンピュータプログラム製品を格納するコンピュータ読み取り可能記憶媒体。
【手続補正書】
【提出日】2024-08-09
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
再生すべきオーディオデータを処理する方法であって、
符号化済みオーディオデータおよびメタデータを含むビットストリームをデコーダによって受信することであって、前記メタデータは1以上のダイナミックレンジコントロール(DRC)セットを含み、前記DRCセットがダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションを前記DRCセットの各々について含む、受信と、
前記メタデータを前記デコーダによって解析することにより、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットを識別することと、
前記符号化済みオーディオデータを前記デコーダによって復号化することにより、復号化済みオーディオデータを得ることと、
前記ダイナミックラウドネス補償エフェクトを提供するように構成された前記識別されたDRCセットの1つを前記デコーダによって選択することと、
前記選択されたDRCセットに対応する1以上のDRCゲインを前記デコーダによって前記ビットストリームから抽出することと、
前記選択されたDRCセットに対応する前記1以上のDRCゲインを前記デコーダによって前記復号化済みオーディオデータに適用することにより、ダイナミックラウドネス補償済みオーディオデータを得ることと、
前記ダイナミックラウドネス補償済みオーディオデータを再生用に出力することと、
を含
み、
前記DRCセットのうちの第1のDRCセットは、ダイナミックレンジコントロールを提供するように構成されており、前記第1のDRCセットは、前記選択されたDRCセットであって、前記ダイナミックラウドネス補償エフェクトを提供するように構成されたDRCセットが前記第1のDRCセットとの組み合わせで適用されるように構成されているというインジケーションを含む、方法。
【請求項2】
前記メタデータは、ダイナミックラウドネス調整を提供するように構成された複数のDRCセットを含み、前記複数のDRCセットの各々はさらに、1以上の再生条件と関連付けられており、前記デコーダに提供された再生条件のインジケーションに応答して前記選択が行われる、請求項1に記載の方法。
【請求項3】
前記1以上のDRCセットは、ダイナミックラウドネス補償エフェクトを提供することに加えて、ダイナミックレンジコントロールを提供するようにも構成されている、請求項1または2に記載の方法。
【請求項4】
前記再生条件は、前記デコーダのデバイスタイプ、再生デバイスの特性、ラウドスピーカの特性、ラウドスピーカの設定、背景ノイズの特性、周囲ノイズの特性、および音響環境の特性のうちの1以上を含む、請求項2
に記載の方法。
【請求項5】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かというインジケーションは、前記DRCセットが提供する1以上のエフェクトを示すパラメータ内に設けられている、請求項1
または2に記載の方法。
【請求項6】
前記DRCセットが提供する1以上のエフェクトを示す前記パラメータは、MEPG-D DRCビットストリームのdrcSetEffectビットフィールドであり、前記drcSetEffectビットフィールドの各ビットはそれぞれ異なるエフェクトに対応し、前記drcSetEffectビットフィールドのビットのうちの1つは、前記ダイナミックラウドネス補償エフェクトに対応している、請求項5に記載の方法。
【請求項7】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、前記DRCセットがダイナミックラウドネス補償ビットストリームペイロード内で特定されているか否かである、請求項1
または2に記載の方法。
【請求項8】
前記ダイナミックラウドネス補償ビットストリームペイロードは、既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれている、請求項7に記載の方法。
【請求項9】
前記エクステンションフィールドは、MEPG-D DRCビットストリームのuniDrcConfigExtensionフィールドであり、前記ダイナミックラウドネス補償ビットストリームペイロードは、uniDrcConfigExtTypeパラメータの特定の値に対してのみ含まれている、請求項8に記載の方法。
【請求項10】
前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを特定する複数のダイナミックラウドネス補償ペイロードが、前記既に規定されているビットストリームシンタックスのエクステンションフィールドに含まれている、請求項8
に記載の方法。
【請求項11】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントのフィールドである、請求項1
または2に記載の方法。
【請求項12】
前記フィールドは、dynamicLoudCompDRCSetパラメータであり、前記既に存在している構成エレメントは、MPEG-D DRCビットストリームのdownmixInstructionsエレメント、drcInstructionsBasicエレメントまたはdrcInstructionsUniDRCエレメントである、請求項11に記載の方法。
【請求項13】
前記フィールドは、将来使用するためにリザーブされている、以前から存在するフィールドである、請求項12に記載の方法。
【請求項14】
前記DRCセットが前記ダイナミックラウドネス補償エフェクトを提供するように構成されているか否かという前記インジケーションは、既に規定されているビットストリームシンタックスの、以前から存在する構成エレメントの更新済みバージョンのフィールドである、請求項1
または2に記載の方法。
【請求項15】
前記フィールドは、dynamicLoudCompDRCSetパラメータであり、前記以前から存在する構成エレメントの前記更新済みバージョンは、downmixInstructionsV2エレメントまたはdrcInstructionsUniDrcV2エレメントである、請求項14に記載の方法。
【請求項16】
ダイナミックラウドネス補償エフェクトが望まれるというインジケーションがインターフェースを介して前記デコーダに提供され、前記インターフェースを介して前記デコーダに提供された前記インジケーションに応答して前記DRCセットが選択される、請求項1
または2に記載の方法。
【請求項17】
追加の所望のエフェクトに関するインジケーションが前記インターフェースを介して前記デコーダに提供され、前記メタデータは、前記ダイナミックラウドネス補償エフェクトを提供するように構成された複数のDRCセットを含み、前記選択は前記追加の所望のエフェクトに依存する、請求項16に記載の方法。
【請求項18】
ダイナミックラウドネス補償エフェクトが望まれるという前記インジケーションが、dynamicRangeControllerInterfaceペイロードのdrcEffectTypeRequestパラメータを介して提供される、請求項15
に記載の方法。
【請求項19】
前記メタデータは、スタティックラウドネス調整を前記復号化済みオーディオデータに提供するように構成された1以上のスタティックラウドネス値を含む、請求項1
または2に記載の方法。
【請求項20】
1以上の前記スタティックラウドネス値に応答して、前記スタティックラウドネス調整を前記復号化済みオーディオデータまたは前記ダイナミックラウドネス補償済みオーディオデータに適用することを含む、請求項19に記載の方法。
【請求項21】
前記選択されたDRCセットは、前記選択されたDRCセットに対応する前記1以上のDRCゲインが、前記第1のDRCセットに対応するDRCゲインとの組み合わせでのみ適用され得るか否かというインジケーションを含む、請求項
1に記載の方法。
【請求項22】
前記第1のDRCセットに対応する前記DRCゲインを前記ビットストリームから抽出することと、前記第1のDRCセットに対応する前記DRCゲインを前記復号化済みオーディオデータに適用することと、をさらに含む、請求項
1に記載の方法。
【請求項23】
再生すべきオーディオデータを処理するデコーダであって、請求項1
または2に記載の方法を実行するように構成された1以上のプロセッサおよび非一時的メモリを含む、デコーダ。
【請求項24】
コンピュータプログラム製品であって、請求項1
または2に記載の方法をデバイスに実施させるように構成された命令を有するコンピュータ読み取り可能記憶媒体を含む、コンピュータプログラム製品。
【請求項25】
コンピュータ読み取り可能記憶媒体であって、請求項
24のコンピュータプログラム製品を格納する、コンピュータ読み取り可能記憶媒体。
【国際調査報告】