IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7518191オーディオシーンのシグナリングラウドネス調整のための方法及び装置
<>
  • 特許-オーディオシーンのシグナリングラウドネス調整のための方法及び装置 図1
  • 特許-オーディオシーンのシグナリングラウドネス調整のための方法及び装置 図2
  • 特許-オーディオシーンのシグナリングラウドネス調整のための方法及び装置 図3
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-08
(45)【発行日】2024-07-17
(54)【発明の名称】オーディオシーンのシグナリングラウドネス調整のための方法及び装置
(51)【国際特許分類】
   H04S 7/00 20060101AFI20240709BHJP
   G10L 21/034 20130101ALI20240709BHJP
   G10L 19/00 20130101ALI20240709BHJP
【FI】
H04S7/00 300
G10L21/034
G10L19/00 330A
【請求項の数】 14
(21)【出願番号】P 2022560921
(86)(22)【出願日】2021-10-15
(65)【公表番号】
(43)【公表日】2023-05-25
(86)【国際出願番号】 US2021055272
(87)【国際公開番号】W WO2022191876
(87)【国際公開日】2022-09-15
【審査請求日】2022-10-05
(31)【優先権主張番号】63/158,261
(32)【優先日】2021-03-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/501,749
(32)【優先日】2021-10-14
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ティエン,ジュン
(72)【発明者】
【氏名】シュウ,シャオジョン
(72)【発明者】
【氏名】リウ,シャン
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2017-069705(JP,A)
【文献】特表2019-525213(JP,A)
【文献】国際公開第2015/186535(WO,A1)
【文献】米国特許出願公開第2017/0302240(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00-7/00
G10L 21/034
G10L 19/00
(57)【特許請求の範囲】
【請求項1】
MPEG-Iの没入型オーディオストリームに関連付けられるオーディオシーンにおけるラウドネス調整のために装置が実行する方法であって、
前記オーディオシーンに含まれる音響信号の数を示す第1構文要素と、前記音響信号に含まれる音声信号の数を示す第2構文要素と、基準音声信号の識別子を示す第3構文要素とを含む、データ構造を受け取るステップと、
前記受け取ったデータ構造内の前記第2構文要素に基づいて、前記第1構文要素によって示される前記オーディオシーンの前記音響信号に含まれる前記音声信号の数決定するステップと、
前記オーディオシーンの前記音響信号に2つ以上の音声信号が含まれるという決定に応答して、
前記受け取ったデータ構造内の前記第3構文要素に基づいて、前記つ以上の音声信号から基準音声信号を決定するステップと、
アンカー音声信号に基づいて、前記オーディオシーンの前記基準音声信号のラウドネスレベルを調整するステップと、
前記基準音声信号の前記調整されたラウドネスレベルに基づいて、前記音響信号のラウドネスレベルを調整するステップと、
を含む、方法。
【請求項2】
前記受け取ったデータ構造は、1つ以上の音声信号が前記音響信号に含まれるかどうかを示す第構文要素を含み、当該方法は、
前記第4構文要素が、前記1つ以上の音声信号が前記音響信号に含まれることを示していることに基づいて、前記1つ以上の音声信号が前記音響信号に含まれると判断するステップ更に含む、
請求項1に記載の方法。
【請求項3】
前記受け取ったデータ構造は、複数の第構文要素を含み、前記第構文要素の各々は、前記音響信号のそれぞれ1つが音声信号であるかどうかを示し、
前記1つ以上の音声信号が前記音響信号に含まれる判断するステップは、前記音響信号のそれぞれ1つが音声信号であることを前記第構文要素の少なくとも1つが示すことに基づ
請求項に記載の方法。
【請求項4】
記1つ以上の音声信号が前記音響信号に含まれる判断するステップは、前記第構文要素によって示される前記声信号の数がゼロよりも大きいことに基づ
請求項に記載の方法。
【請求項5】
前記基準音声信号を決定するステップは、前記第2構文要素によって示される前記声信号の数が1より大きいことに基づ
請求項1乃至4のいずれか一項に記載の方法。
【請求項6】
前記受け取ったデータ構造は、複数の第6構文要素をみ、前記第6構文要素の各々は、前記音響信号のそれぞれ1つの識別インデックスを示す、
請求項1乃至5のいずれか一項に記載の方法。
【請求項7】
当該方法は、
声信号が前記音響信号に含まれないと判断するステップ更に含み、
前記音響信号のラウドネスレベルを調整するステップは、デフォルト基準信号に基づいて、前記音響信号の前記ラウドネスレベルを調整することを含む、
請求項1乃至6のいずれか一項に記載の方法。
【請求項8】
処理回路を含む装置であって、
前記処理回路は、請求項1乃至7のいずれか一項に記載の方法を実行するよう構成される、装置。
【請求項9】
MPEG-Iの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整シグナリングのために装置が実行する方法であって、
前記オーディオシーンに含まれる音響信号の数を示す第1構文要素と、前記音響信号に含まれる音声信号の数を示す第2構文要素と、基準音声信号の識別子を示す第3構文要素とを含む、データ構造生成するステップを含み、
前記生成されたデータ構造内の第2構文要素に基づいて、前記オーディオシーンの前記音響信号に含まれる音声信号の数が決定され、
前記オーディオシーンの前記音響信号に2つ以上の音声信号が含まれるという決定に応答して、
前記生成されたデータ構造内の前記第3構文要素に基づいて前記2つ以上の音声信号から基準音声信号が決定され、
前記オーディオシーンの作成者によって提供されるアンカー音声信号に基づいて、前記オーディオシーンの前記基準音声信号のラウドネスレベルが調整され、
前記基準音声信号の前記調整されたラウドネスレベルに基づいて、前記音響信号のラウドネスレベルが調整される、
方法。
【請求項10】
つ以上の音声信号が前記音響信号に含まれるかどうかを示す第構文要素を、前記生成されたデータ構造に含めるステップを更に含み、
前記第4構文要素が、前記1つ以上の音声信号が前記音響信号に含まれることをしていることに基づいて、前記1つ以上の音声信号が前記音響信号に含まれると判断される、
請求項9に記載の方法。
【請求項11】
複数の第構文要素を前記生成されたデータ構造に含めるステップを更に含み、前記第構文要素の各々は、前記音響信号のそれぞれ1つが音声信号であるかどうかを示し、
前記音響信号のそれぞれ1つが音声信号であることを前記第構文要素の少なくとも1つが示すことに基づいて、前記1つ以上の音声信号が前記音響信号に含まれると判断される、
請求項10に記載の方法。
【請求項12】
記第構文要素によって示される前記声信号の数がゼロよりも大きいことに基づいて、前記1つ以上の音声信号が前記音響信号に含まれると判断される、
請求項10に記載の方法。
【請求項13】
前記第2構文要素によって示される前記声信号の数が1より大きいことに基づいて、前記基準音声信号が決定される
請求項9乃至12のいずれか一項に記載の方法。
【請求項14】
複数の第6構文要素を前記生成されたデータ構造に含めるステップを更に含み、前記第6構文要素の各々は、前記音響信号のそれぞれ1つの識別インデックスを示す、
請求項9乃至13のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
参照による組み込み
本出願は、2021年3月8日に出願された米国仮出願第63/158,261号「SIGNALING LOUDNESS ADJUSTMENT FOR AUDIO SCENE」の優先権を主張する、2021年10月14日に出願された米国特許出願第17/501,749号「SIGNALING LOUDNESS ADJUSTMENT FOR AN AUDIO SCENE」の優先権の利益を主張する。先の出願の開示は、参照によってその全体が本明細書に組み込まれる。
【0002】
技術分野
本開示は、一般にオーディオシーンのラウドネス調整のシグナリング情報に関連する実施形態を説明する。
【背景技術】
【0003】
本明細書で提供される背景技術の説明は、本開示の背景を大まかに提示するためのものである。現在名前を挙げられている発明者の研究は、その研究がこの背景技術に記載された範囲において、出願時に先行技術として通常見なされ得ない記載の態様とともに、明示的にも暗黙的にも本開示に対する先行技術として認められない。
【0004】
MPEG(Moving Picture Experts Group)は、没入型オーディオ、没入型ビデオ及びシステムサポートを含む一連の規格を提案した。一連の規格は、ユーザが6自由度(6 DoF)を使用して環境をナビゲートして対話することができる仮想現実(VR:virtual reality)又は拡張現実(AR:augmented reality)プレゼンテーションをサポートすることができる。図1は、本開示の一実施形態による、6自由度の例を示す。図1では、6自由度を、空間的ナビゲーション(x、y、z)及びユーザ頭部方向(ヨー、ピッチ、ロール)で表すことができる。
【0005】
MPEG-Iプレゼンテーションの目標は、ユーザが仮想世界に実際に存在しているという感覚を与えることである。仮想世界(又は仮想シーン)のオーディオ信号は、現実世界と同じように知覚され、関連する視覚的な像(visual figure)から音が聞こえる。すなわち、音は正しい位置と正しい距離で知覚される。現実世界におけるユーザの物理的な動きは、仮想世界において一致する動き(matching movement)として知覚される。さらに、重要なことには、ユーザは仮想シーンと対話することができるので、音は現実的なものとして知覚されるべきであり、現実世界におけるユーザの経験に一致するべきである。
【0006】
対話的なVR/ARテストでは、異なるサウンドレベルがリスニングテストのセットアップに関与する。これらのサウンドレベルの関係は、技術的なセットアップによって与えられる可能性があり、あるいはラウドネス測定によって正規化される可能性があり、あるいは手動で設定される可能性がある。シーンのラウドネス調整のための手順は、MPEG-Iの没入型オーディオの提案募集(CfP:call of proposals)の一部として説明される。
【発明の概要】
【0007】
本開示の態様は、MPEG-Iの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための装置を提供する。1つの装置は、オーディオシーンに含まれる音響信号の数を示す第1構文要素を受け取る処理回路を含む。処理回路は、1つ以上の音声信号が、第1構文要素によって示される音響信号に含まれるかどうかを判断する。処理回路は、1つ以上の音声信号が音響信号に含まれることに基づいて、1つ以上の音声信号から基準音声信号を決定する。処理回路は、アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。処理回路は、基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。
【0008】
一実施形態において、処理回路は、1つ以上の音声信号が音響信号に含まれるかどうかを示す第2構文要素を受け取る。処理回路は、1つ以上の音声信号が音響信号に含まれることを第2構文要素が示していることに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0009】
一実施形態において、処理回路は、複数の第3構文要素を受け取り、第3構文要素の各々は、音響信号のそれぞれ1つが音声信号であるかどうかを示す。処理回路は、音響信号のそれぞれ1つが音声信号であることを第3構文要素の少なくとも1つが示すことに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0010】
一実施形態において、処理回路は、音響信号に含まれる1つ以上の音声信号の数を示す第4構文要素を受け取る。処理回路は、第4構文要素によって示される1つ以上の音声信号の数がゼロよりも大きいことに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0011】
一実施形態において、処理回路は、1つ以上の音声信号の数が1より大きいことに基づいて、基準音声信号を示す第5構文要素を受け取る。
【0012】
一実施形態において、処理回路は、複数の第6構文要素を受け取り、第6構文要素の各々は、音響信号のそれぞれ1つの識別インデックスを示す。
【0013】
一実施形態において、処理回路は、音声信号が音響信号に含まれないと判断する。処理回路は、デフォルト基準信号に基づいて、音響信号のラウドネスレベルを調整する。
【0014】
本開示の態様は、MPEG-Iの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための方法を提供する。1つの方法において、オーディオシーンに含まれる音響信号の数を示す第1構文要素を受け取る。1つ以上の音声信号が、第1構文要素によって示される音響信号に含まれるかどうかを判断する。1つ以上の音声信号が音響信号に含まれることに基づいて、1つ以上の音声信号から基準音声信号を決定する。アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。
【0015】
本開示の態様は、少なくとも1つのプロセッサによって実行されると、該少なくとも1つのプロセッサに、MPEG-Iの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための方法のいずれか1つ又組合せを実行させる命令を記憶する、非一時的なコンピュータ読取可能媒体も提供する。
【図面の簡単な説明】
【0016】
開示される主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。
【0017】
図1】本開示の実施形態による、6自由度の例を示す図である。
【0018】
図2】本開示の実施形態による、例示的なフローチャートを示す図である。
【0019】
図3】本開示の実施形態による、コンピュータシステムの概略図である。
【発明を実施するための形態】
【0020】
I. オーディオシーンのラウドネス調整
【0021】
本開示は、シーンのラウドネスを調整するためのシグナリング方法を含む。
【0022】
本開示の態様によると、シーン作成者は、シーンのラウドネスを調整するための基準信号としてアンカー音声信号(speech signal)を提供することができる。オーディオシーンにおける音響信号(sound signal)について、シーンのラウドネス調整の手順は次のように説明され得る。
【0023】
シーン音響と、指定されたアンカー音声信号との間のラウドネス調整は、シーン作成者(又はコンテンツ作成者)によって行われるべきである。一例では、シーン音響は、エンコーダ入力フォーマット(EIF:encoder input format)で使用されるパルスコード変調(PCM:pulse-code modulation)オーディオ信号とすることができる。パルスコード変調(PCM)は、サンプリングされたアナログ信号をデジタルで表すために使用される方法である。EIFは、MPEG-Iの没入型オーディオエンコーダが読み込んで圧縮する、シーンメタデータ情報の構造と表現を記述する。Dirac頭部関連伝達関数(HRTF:head related transfer function)を用いる一般バイノーラルレンダラ(GBR:general binaural renderer)が、コンテンツ作成者によってラウドネス調整のために使用される可能性がある。
【0024】
1つ以上(例えば1つ又は2つ)の測定ポイントをシーン内で定義することができる。これらの測定ポイントは、このシーンの通常のラウドネスを表すシーンタスクパス上の位置を表すべきである。
【0025】
シーン作成者は、これらの位置において、Dirac HRTFを用いるGBRでシーン出力信号を記録し、得られたオーディオファイル(例えばwavファイル)を使用して基準信号と比較し、シーンのラウドネスレベルに必要な調整を決定することができる。
【0026】
音声信号がシーン内に存在する場合、一例では、1つの測定位置は、音声源から約1.5m離れている可能性がある。そして、この測定位置における音声信号のラウドネスレベルを、アンカー音声信号と同じラウドネスレベルに調整することができる。
【0027】
シーン内のすべての他の音響信号のラウドネスレベルを、音声信号のラウドネスレベルに基づいて調整することができる。例えばすべての他の音響信号のラウドネスレベルの各々を、洗練された音声信号(refined speech signal)のラウドネスレベルに基づいて、それぞれのスケーラで乗算することができる。
【0028】
シーン内に音声信号が存在しない場合、シーン内の音響信号のラウドネスレベルをアンカー音声信号と比較して調整することができる。
【0029】
加えて、シーンタスクパス上のも最も音が大きい(loudest)ポイントを、シーン作成者によって識別すべきである。最も音が大きいポイントにおけるラウドネスレベルは、クリッピングがないことを確認すべきである。クリッピングのエッジケースは、例えば聞き手が音源に異常に接近するときに防止されるべきである。異常接近について音響レベルを調整することは、一実施形態では、レンダラの作業である。
【0030】
次いで、シーンタスクパス上のソフトポイント又はエリアが静かすぎないかについて確認すべきである。例えばシーンタスクパス上に長い沈黙の時間があるべきではない。
【0031】
いくつかの実施形態では、オーディオシーン内の音響信号に基づいて基準信号を決定し、基準信号をアンカー音声信号と同じラウドネスレベルに調整することが重要である。基準信号を決定することなしに、音響信号のスケーラは決定され得ない。例えばオーディオシーン内に2つの音響信号A(ラウドネスは5)と音響信号B(ラウドネスは20)が存在し、アンカー音声信号のラウドネスが10である場合、基準信号を決定せずには、音響信号Aを10までスケールアップするのか又は音響信号Bを10までスケールダウンするのかが明らかでない可能性がある。この場合、1つの可能な解決策は、音響信号Aと音響信号Bの双方を、アンカー音声信号と同じラウドネスレベル(例えば10)に調整することである。この解決策は、いくつかの用途では望ましくない可能性がある。したがって、オーディオシーン内の音響信号に基づいて基準信号が決定される場合、音響信号のスケーラを決定することができる。例えば音響信号Aが基準信号として選択される場合、次いで、音響信号Aを、2のスケーラ(with a scaler of 2)で10までスケールアップすることができ、音響信号Bを、同じ2のスケーラで40までスケールアップすることができる。加えて、アンカー音声信号のために、オーディオシーン内の音声信号を基準信号として選択することができる。
【0032】
本開示の態様によると、オーディオシーン内に2つ以上の音声信号が存在するとき、シーンのラウドネス調整を、以下のように行うことができる。
【0033】
シーン音響と指定されたアンカー音声信号との間のラウドネス調整を、シーン作成者(又はコンテンツ作成者)によって実行することができる。一例において、シーン音響は、EIFで使用されるPCMオーディオ信号とすることができる。Dirac HRTFを用いるGBRが、ラウドネス調整のためにコンテンツ作成者によって使用されることができる。
【0034】
1つ以上(例えば1つ又は2つ)の測定ポイントをシーン内で定義することができる。これらの測定ポイントは、このシーンの通常のラウドネスを表すシーンタスクパス上の位置を表すべきである。
【0035】
シーン作成者は、これらの位置において、GBR及びDirac HRTFを用いてシーン出力信号を記録し、得られたオーディオファイル(例えばwavファイル)を使用して基準信号と比較し、シーンのラウドネスレベルに必要な調整を決定することができる。
【0036】
2つ以上の音声信号がシーン内に存在する場合、調整された音声信号を作成することができる。次いで、調整された音声信号のラウドネスレベルを、アンカー音声信号と同じラウドネスへと更に調整することができる。その後、調整された音声信号を、洗練された音声信号として使用することができる。
【0037】
シーン内のすべての他の音響信号のラウドネスレベルを、洗練された音声信号のラウドネスレベルに基づいて調整することができる。例えばすべての他の音響信号のラウドネスレベルの各々を、洗練された音声信号のラウドネスレベルに基づいて、それぞれのスケーラで乗算することができる。
【0038】
加えて、シーンタスクパス上の最も音が大きいポイントを、シーン作成者によって識別することができる。最も音が大きいポイントにおけるラウドネスレベルは、クリッピングがないことを確認すべきである。クリッピングのエッジケースは、例えば聞き手が音源に異常に接近するときに防止されるべきである。異常接近について音響レベルを調整することは、一実施形態では、レンダラの作業である。
【0039】
次いで、シーンタスクパス上のソフトポイント又はエリアが静かすぎないかについて確認すべきである。例えばシーンタスクパス上に長い沈黙の時間があるべきではない。
【0040】
本開示の態様によると、2つ以上の音声信号が存在するとき、調整された音声信号を、シーン内に存在する2つ以上の音声信号から生成することができる。
【0041】
一実施形態では、調整された音声信号は、シーン内に存在する音声信号のうちの1つとすることができ、この場合、その選択はシーン作成者によって行われる。選択を、ユーザに対して示すことができる。例えば選択は、ビットストリームで又はオーディオ信号に関連するメタデータの一部として示されることができる。
【0042】
調整された音声信号を、異なる基準に従って選択することができる。例えば調整された音声信号を、音声信号のうちの1つ以上の音声信号の少なくとも1つの特性又は1つ以上の音声信号の間の少なくとも1つの数学的関係に基づいて選択することができる。例えば調整された音声信号を、音響レベル又は音量に基づいて決定することができる。一実施形態では、調整された音声信号は、シーン内に存在する最も音が大きい音声信号とすることができる。一実施形態では、調整された音声信号は、シーン内に存在する最も静かな音声信号とすることができる。
【0043】
いくつかの実施形態では、調整された音声信号を、音声信号の平均又は中央値又は音声信号のサブセットに基づいて決定することができる。さらに、いくつかの実施形態では、平均を重み付けすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在する最も音が大きい音声信号と最も静かな音声信号の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の中央値とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の分位数(quantile)、例えば25%から75%の分位数の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の重み付け平均とすることができ、ここで、重みは、距離ベース又はラウドネスベースとすることができる。
【0044】
いくつかの実施形態では、調整された音声信号を、音声信号のクラスタリングに基づいて決定することができる。例えば調整された音声信号は、シーン内に存在するすべての音声信号のクラスタリング中心(clustering center)に最も近くに位置する音声信号とすることができる。
【0045】
本開示に含まれる方法を、別個に又は任意の組合せで使用することができることに留意されたい。これらの方法を、部分的に又は全体として使用することができる。
【0046】
本開示は、シーンのラウドネス調整のためのシグナリング方法を含む。シグナリング方法では、調整のために必要な情報を示すことができる。シグナリング情報は、ビットストリームの一部又はメタデータの一部とすることができる。シグナリング情報を、パーティ間、例えば送信者と受信者との間で通信することができる。シグナリング情報を受け取った後、受信者は、そのような情報を使用して、受け取った音響信号の信号レベルを調整するかどうか及びどのように調整するかを決定することができる。
【0047】
いくつかの実施形態では、シグナリング情報は、シーン内に音声信号が存在するかどうかを指定することができる。例えばシグナリング情報は、シーン内に音声信号が存在するとき、音声信号が存在することを指定する。シーン内に音声信号が存在するとき、シグナリング情報は、シーン内に2つ以上の音声信号が存在するかどうかを指定することができる。さらに、シグナリング情報は、必要に応じて、2つ以上の音声信号の数を指定することができる。
【0048】
いくつかの実施形態において、シグナリング情報は、(シーン内に存在するとき)音声信号をラウドネス調整のための基準信号として使用するかどうか及びどのように使用するか、あるいはデフォルト信号レベルをラウドネス調整のための基準信号レベルとして使用するかどうか又はどのように使用するか、を指定することができる。
【0049】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)音声信号のうちの1つを取って、ラウドネス調整のためにアンカー音声信号と同じラウドネスに調整するかどうかを指定することができる。音声信号を取らない場合、デフォルト信号レベル(例えばアンカー音声信号のラウドネスレベル)を、他の音響信号を調整するための基準レベルとして使用することができる。
【0050】
一実施形態では、シグナリング情報は、音声信号のうちの1つがラウドネス調整のために取られると判断されるとき、シーン内に存在する音声信号のうちのどれを取って、アンカー音声信号と同じラウドネスに調整するかを指定することができる。
【0051】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)音声信号のうちの1つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの1つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、音声信号の特性(例えばレベル又は音量)に基づいて決定することができる。例えばシーン内に存在する最も音が大きい音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。別の例では、シーン内に存在する最も静かな音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。
【0052】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)音声信号のうちの1つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの1つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、音声信号のクラスタリングに基づいて決定することができる。例えばシーン内に存在するすべての音声信号のクラスタリング中心に最も近くに位置する音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。クラスタリング中心は、すべての音声信号の位置に基づいて導出されることができる。
【0053】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)音声信号のうちの1つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの1つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、調整された音声信号に基づいて決定することができる。例えば調整された音声信号を、シーン内の利用可能な音声信号に基づいて生成し、アンカー音声信号と同じラウドネスに調整することができる。
【0054】
いくつかの実施形態において、シグナリング情報は、シーン内の利用可能な音声信号に基づいて、調整された音声信号をどのように生成するかを指定することができる。調整された音声信号を、音声信号の平均又は中央値又は音声信号のサブセットに基づいて決定することができる。さらに、いくつかの実施形態では、平均を重み付けすることができる。
【0055】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在するすべての音声信号の平均とすることができる。
【0056】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在する最も音が大きい音声信号と最も静かな音声信号の平均とすることができる。
【0057】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在するすべての音声信号の中央値とすることができる。
【0058】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在するすべての音声信号の分位数の平均とすることができる。
【0059】
一実施形態では、シグナリング情報は、(シーン内に存在するとき)利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在するすべての音声信号の重み付けされた平均とすることができる。
【0060】
一実施形態では、シグナリング情報は、重みが距離ベースであることを指定することができる。例えば想定される中心からより離れるほど、より低いレベルの重みを割り当てることができる。
【0061】
一実施形態では、シグナリング情報は、重みがラウドネスベースであることを指定することができる。例えば音声信号がより静かであるほど、より低いレベルの重みを割り当てることができる。
【0062】
シグナリング情報の例示的な構文表を表1に示す。
【表1】
【0063】
表1において、構文要素num_sound(例えば2ビット以上)は、オーディオシーン内の音響信号の数を示す。オーディオシーン内の各音響信号について、シグナリング情報は、それぞれの構文要素sound_id(例えば2ビット以上)を含むことができ、この構文要素は、それぞれの音響信号の識別インデックスを指定する。オーディオシーン内の各音響信号について、シグナリング情報は、それぞれの1ビットのフラグis_speech_flagを含むことができ、これは、それぞれの音響信号が音声信号であるかどうかを指定する。
【0064】
一実施形態では、シグナリング情報は、1ビットのフラグspeech_present_flagを含むことができ、これは、シーン内に音声信号が存在するかどうかを指定する。
【0065】
一実施形態では、シーン内に音声信号が存在するかどうかを、1に等しい関連する構文要素is_speech_flagを有する音響信号が存在するかどうかを確認することによって、判断することができる。
【0066】
一実施形態では、シーン内に音声信号が存在すると判断された場合、シグナリング情報は、構文要素num_speech_signals(例えば2ビット以上)を含むことができ、この構文要素は、シーン内に存在する音声信号の数を指定する。
【0067】
一実施形態では、1に等しい関連する構文要素is_speech_flagを各々が有する音響信号の数を数えることによって、シーン内に存在する音声信号の数を導出することができる。
【0068】
一実施形態では、複数のラウドネス調整方法をサポートすることができる。複数のラウドネス調整方法は、本開示で説明される1つ以上の方法を含むことができる。一例では、これらの方法のサブセットを許容することができる。
【0069】
一実施形態では、シーン内に存在する音声信号の数が1より多い場合、シグナリング情報は、構文要素adjusted_speech_signal_method(例えば3ビット以上)を含むことができ、この構文要素は、ラウドネス調整のために調整された音声信号を生成する方法を指定する。
【0070】
表2は、ラウドネス調整のための例示的なシグナリング方法を示す。
【表2】
【0071】
本開示は、MPEG-Iの没入型オーディオストリームに関連するオーディオシーンのためのラウドネス調整シグナリングのためのデータ構造を含む。データ構造は、オーディオシーンに含まれる音響信号の数を示す第1構文要素をラウドネス調整情報内に、含む。第1構文要素に基づいて、1つ以上の音声信号が音響信号に含まれると判断されたことに応答して、基準音声信号が1つ以上の音声信号から決定される。オーディオシーンの基準音声信号のラウドネスレベルは、アンカー音声信号に基づいて調整される。音響信号のラウドネスレベルは、基準音声信号の調整されたラウドネスレベルに基づいて調整される。
【0072】
一実施形態では、データ構造は、1つ以上の音声信号が音響信号に含まれるかどうかを示す第2構文要素をラウドネス調整情報内に、含む。1つ以上の音声信号が音響信号に含まれることを第2構文要素が示していることに基づいて、1つ以上の音声信号は、音響信号に含まれると判断される。
【0073】
一実施形態では、データ構造は、複数の第3構文要素をラウドネス調整情報内に含む。第3構文要素の各々は、音響信号のそれぞれ1つが音声信号であるかどうかを示す。音響信号のそれぞれ1つが音声信号であることを第3構文要素のうちの少なくとも1つが示していることに基づいて、1つ以上の音声信号は、音響信号に含まれると判断される。
【0074】
一実施形態では、データ構造は、音響信号に含まれる1つ以上の音声信号の数を示す第4構文要素をラウドネス調整情報内に含む。第4構文要素によって示される1つ以上の音声信号の数がゼロより大きいことに基づいて、1つ以上の音声信号は、音響信号に含まれると判断される。
【0075】
一実施形態では、データ構造は、1つ以上の音声信号の数が1より大きいことに基づいて、基準音声信号を示す第5構文要素をラウドネス調整情報内に含む。
【0076】
一実施形態では、データ構造は、複数の第6構文要素をラウドネス調整情報内に含む。第6構文要素の各々は、音響信号のそれぞれ1つの識別インデックスを示す。
【0077】
II. フローチャート
【0078】
図2は、本開示の一実施形態による、例示のプロセス(200)の概略を示すフローチャートを示している。様々な実施形態では、プロセス(200)は、図3に示される処理回路のような処理回路によって実行される。いくつかの実施形態では、プロセス(200)は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス(200)を実行する。
【0079】
プロセス(200)は、一般に、ステップ(S210)で開始してよく、ここで、プロセス(200)は、オーディオシーンに含まれる音響信号の数を示す第1構文要素を受け取る。次いで、プロセス(200)はステップ(S220)に進む。
【0080】
ステップ(S220)において、プロセス(200)は、1つ以上の音声信号が、第1構文要素によって示される音響信号に含まれるかどうかを判断する。次いで、プロセス(200)はステップ(S230)に進む。
【0081】
ステップ(S230)において、プロセス(200)は、1つ以上の音声信号が音響信号に含まれることに基づいて、1つ以上の音声信号から基準音声信号を決定する。次いで、プロセス(200)はステップ(S240)に進む。
【0082】
ステップ(S240)において、プロセス(200)は、アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。次いで、プロセス(200)はステップ(S250)に進む。
【0083】
ステップ(S250)において、プロセス(200)は、基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。その後、プロセス(200)は終了する。
【0084】
一実施形態において、プロセス(200)は、1つ以上の音声信号が音響信号に含まれるかどうかを示す第2構文要素を受け取る。プロセス(200)は、1つ以上の音声信号が音響信号に含まれることを第2構文要素が示していることに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0085】
一実施形態において、プロセス(200)は、複数の第3構文要素を受け取り、第3構文要素の各々は、音響信号のそれぞれ1つが音声信号であるかどうかを示す。プロセス(200)は、音響信号のそれぞれ1つが音声信号であることを第3構文要素のうちの少なくとも1つが示していることに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0086】
一実施形態において、プロセス(200)は、音響信号に含まれる1つ以上の音声信号の数を示す第4構文要素を受け取る。プロセス(200)は、第4構文要素によって示される1つ以上の音声信号の数がゼロより大きいことに基づいて、1つ以上の音声信号が音響信号に含まれると判断する。
【0087】
一実施形態において、プロセス(200)は、1つ以上の音声信号の数が1より大きいことに基づいて、基準音声信号を示す第5構文要素を受け取る。
【0088】
一実施形態において、プロセス(200)は、複数の第6構文要素を受け取り、第6構文要素の各々は、音響信号のそれぞれ1つの識別インデックスを示す。
【0089】
一実施形態において、プロセス(200)は、音声信号が音響信号に含まれないと判断する。プロセス(200)は、デフォルト基準信号に基づいて、音響信号のラウドネスレベルを調整する。
【0090】
III. コンピュータシステム
【0091】
上述の技術を、コンピュータ読取可能命令を使用してコンピュータソフトウェアとして実装し、1つ以上のコンピュータ読取可能媒体に物理的に記憶することができる。例えば図3は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム(300)を示している。
【0092】
コンピュータソフトウェアは、アセンブリ、コンパイル、リンキング又は類似のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされ、1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィクス処理ユニット(GPU)等によって直接的に又は解釈やマイクロコード実行等を通して実行され得る命令を含む、コードを作成することができる。
【0093】
命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネット(IoT)デバイス等を含む様々なタイプのコンピュータ又はその構成要素において実行されることができる。
【0094】
コンピュータシステム(300)について図3に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関して、いかなる制限も示唆するように意図されていない。また、構成要素の構成は、コンピュータシステム(300)の例示の実施形態に示される構成要素の任意の1つ又は組合せに関するいかなる依存性又は要件も有するものとして解釈されてはならない。
【0095】
コンピュータシステム(300)は、特定のヒューマンインタフェース入力デバイスを含み得る。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力(キーストローク、スワイプ、データグローブの動き等)、オーディオ入力(声、拍手等)、視覚入力(ジェスチャ等)、嗅覚入力(図示せず)を通して、1人以上の人間のユーザによる入力に応答し得る。また、ヒューマンインタフェース入力デバイスは、オーディオ(音声、音楽、環境音等)、画像(スキャンされた画像、静止画像カメラから得られる写真画像等)、ビデオ(2次元ビデオ、立体映像を含む3次元ビデオ等)のような、人間による意識的入力に必ずしも直接関係しているとは限らない、特定の媒体をキャプチャするためにも使用されることができる。
【0096】
ヒューマンインタフェース入力デバイスは、キーボード(301)、マウス(302)、トラックパッド(303)、タッチスクリーン(310)、データグローブ(図示せず)、ジョイスティック(305)、マイクロホン(306)、スキャナ(307)及びカメラ(308)(各々の1つのみが図示される)のうちの1つ以上を含んでもよい。
【0097】
コンピュータシステム(300)はまた、特定のヒューマンインタフェース出力デバイスも含み得る。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音響、光及び嗅覚/味覚を通して、1人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えばタッチスクリーン(310)、データグローブ(図示せず)又はジョイスティック(305)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある)、オーディオ出力デバイス(スピーカー(309)、ヘッドフォン(図示せず)等)、視覚出力デバイス(各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック能力の有無にもかかわらないが、その一部は、立体画像出力や仮想現実グラス(図示せず)、ホログラフィックディスプレイ及びスモークタンク(図示せず)のような手段を介して、2次元視覚出力又は3次元以上の出力を出力することができる、CRT画面、LCD画面、プラズマ画面、OLED画面を含む画面(310)等)及びプリンタ(図示せず)を含んでよい。これらの視覚出力デバイス(画面(310)等)は、グラフィクスアダプタ(350)を通してシステムバス(348)に接続されることができる。
【0098】
コンピュータシステム(300)はまた、CD/DVDを有するCD/DVD ROM/RW(320)を含む光媒体又は類似の媒体(321)、サムドライブ(322)、取り外し可能ハードドライブ又はソリッドステートドライブ(323)、テープ及びフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特別なROM/ASIC/PLDベースのデバイスのような、ヒューマンアクセス可能なストレージデバイス及びそれらの関連する媒体も含むことができる。
【0099】
当業者はまた、現在開示されている主題に関連して使用されるとき、「コンピュータ読取可能媒体」という用語が、伝送媒体、搬送波又は他の一時的信号を包含しないことを理解すべきである。
【0100】
コンピュータシステム(300)はまた、1つ以上の通信ネットワーク(355)へのネットワークインタフェース(354)も含むことができる。1つ以上の通信ネットワーク(355)は、例えば無線、有線、光であり得る。1つ以上の通信ネットワーク(355)は更に、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワーク等であり得る。1つ以上の通信ネットワーク(355)の例は、イーサネット(登録商標)、無線LAN等のローカルエリアネットワーク、GSM、3G、4G、5G、LTE等を含むセルラネットワーク、ケーブルTV、衛星TV及び地上放送TVを含むTV有線又は無線ワイドエリアデジタルネットワーク、CANBus等を含む車両及び産業用ネットワークを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス(349)(例えばコンピュータシステム(300)のUSBポート等)に接続される外部ネットワークインタフェースアダプタを必要とし、他のものは、一般に、後述するシステムバスへの接続によって、コンピュータシステム(300)のコアに統合される(例えばPCコンピュータシステムへのイーサネット(登録商標)インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(300)は、他のエンティティと通信することができる。このような通信は、例えばローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対する、単方向の受信のみ(例えば放送TV)、単方向の送信専用(例えば特定のCANbusから特定のCANbusデバイスへ)又は双方向であり得る。上述のように、特定のプロトコル及びプロトコルスタックを、これらのネットワーク及びネットワークインタフェースの各々において使用することができる。
【0101】
前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能なストレージデバイス及びネットワークインタフェースを、コンピュータシステム(300)のコア(340)に接続することができる。
【0102】
コア(340)は、1つ以上の中央処理ユニット(CPU)(341)、グラフィクス処理ユニット(GPU)(342)、フィールドプログラマブルゲートアレイ(FPGA)(343)の形態の専用のプログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ(344)等を含むことができる。これらのデバイスは、読取専用メモリ(ROM)(345)、ランダムアクセスメモリ(RAM)(346)、内部非ユーザアクセス可能ハードドライブ、SSD等の内部大容量ストレージ(347)とともに、システムバス(348)を通して接続され得る。いくつかのコンピュータシステムでは、システムバス(348)は、追加のCPU、GPU等によって拡張を可能にするために、1つ以上の物理的プラグの形態でアクセス可能である。周辺デバイスは、コアのシステムバス(348)に直接接続されるか又は周辺バス(349)を介して接続されることができる。周辺バスのアーキテクチャは、PCI、USB等を含む。
【0103】
CPU(341)、GPU(342)、FPGA(343)及びアクセラレータ(344)は、組み合わされて上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードを、ROM(345)又はRAM(346)に記憶することができる。また、一時的なデータをRAM(346)に記憶することができ、一方、永久的なデータを、例えば内部大容量ストレージ(347)に記憶することができる。1つ以上のCPU(341)、GPU(342)、大容量ストレージ(347)、ROM(345)、RAM(346)等と密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかに対する高速記憶及び検索を可能にすることができる。
【0104】
コンピュータ読取可能媒体は、様々なコンピュータ実装される動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものとすることができ、あるいはそれらは、コンピュータソフトウェア技術の当業者に周知でかつ利用可能な種類のものとすることができる。
【0105】
限定ではなく例として、アーキテクチャ(300)及び具体的にはコア(340)を有するコンピュータシステムは、1つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行するプロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として機能性を提供することができる。このようなコンピュータ読取可能媒体は、上記で紹介したようなユーザアクセス可能な大容量ストレージ、並びにコア内部大容量ストレージ(347)又はROM(345)のような非一時的な性質のコア(340)の特定のストレージに関連付けられる媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアを、そのようなデバイスに記憶して、コア(340)によって実行することができる。コンピュータ読取可能媒体は、特定のニーズに応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア(340)及び具体的にはその中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM(346)に記憶されたデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、論理ハードワイヤ又は他の方法で回路(例えばアクセラレータ(344))内に具現化された結果として機能性を提供することができ、この回路は、ソフトウェアの代わりに又はソフトウェアとともに動作して、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及はロジックを含み、また、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への参照は、実行のためのソフトウェアを記憶する回路(集積回路(IC)等)、実行のためのロジックを具体化する回路又は適切な場合にはその双方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。
【0106】
本開示は、いくつかの例示的な実施形態について説明しているが、本開示の範囲内にある変更、置換及び様々な代替均等物がある。したがって、当業者は、本明細書に明示的に示されていないか又は説明されていないが、本開示の原理を具体化しており、よって、本開示の精神及び範囲内にある、様々システム及び方法を考案することができることが理解されよう。

図1
図2
図3