特許7518191 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特許7518191オーディオシーンのシグナリングラウドネス調整のための方法及び装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-08

(45)【発行日】2024-07-17

(54)【発明の名称】オーディオシーンのシグナリングラウドネス調整のための方法及び装置

(51)【国際特許分類】

H04S 7/00 20060101AFI20240709BHJP

G10L 21/034 20130101ALI20240709BHJP

G10L 19/00 20130101ALI20240709BHJP

【ＦＩ】

H04S7/00 300

G10L21/034

G10L19/00 330A

【請求項の数】 14

(21)【出願番号】P 2022560921

(86)(22)【出願日】2021-10-15

(65)【公表番号】

(43)【公表日】2023-05-25

(86)【国際出願番号】 US2021055272

(87)【国際公開番号】W WO2022191876

(87)【国際公開日】2022-09-15

【審査請求日】2022-10-05

(31)【優先権主張番号】63/158,261

(32)【優先日】2021-03-08

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/501,749

(32)【優先日】2021-10-14

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】520353802

【氏名又は名称】テンセント・アメリカ・エルエルシー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ティエン，ジュン

(72)【発明者】

【氏名】シュウ，シャオジョン

(72)【発明者】

【氏名】リウ，シャン

【審査官】冨澤直樹

(56)【参考文献】

【文献】特開２０１７－０６９７０５（ＪＰ，Ａ）

【文献】特表２０１９－５２５２１３（ＪＰ，Ａ）

【文献】国際公開第２０１５／１８６５３５（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１７／０３０２２４０（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０４Ｓ１／００－７／００

Ｇ１０Ｌ２１／０３４

Ｇ１０Ｌ１９／００

(57)【特許請求の範囲】

【請求項1】

ＭＰＥＧ－Ｉの没入型オーディオストリームに関連付けられるオーディオシーンにおけるラウドネス調整のために装置が実行する方法であって、
前記オーディオシーンに含まれる音響信号の数を示す第１構文要素と、前記音響信号に含まれる音声信号の数を示す第２構文要素と、基準音声信号の識別子を示す第３構文要素とを含む、データ構造を受け取るステップと、
前記受け取ったデータ構造内の前記第２構文要素に基づいて、前記第１構文要素によって示される前記オーディオシーンの前記音響信号に含まれる前記音声信号の数を決定するステップと、
前記オーディオシーンの前記音響信号に２つ以上の音声信号が含まれるという決定に応答して、
前記受け取ったデータ構造内の前記第３構文要素に基づいて、前記２つ以上の音声信号から基準音声信号を決定するステップと、
アンカー音声信号に基づいて、前記オーディオシーンの前記基準音声信号のラウドネスレベルを調整するステップと、
前記基準音声信号の前記調整されたラウドネスレベルに基づいて、前記音響信号のラウドネスレベルを調整するステップと、
を含む、方法。

【請求項2】

前記受け取ったデータ構造は、１つ以上の音声信号が前記音響信号に含まれるかどうかを示す第４構文要素を含み、当該方法は、
前記第４構文要素が、前記１つ以上の音声信号が前記音響信号に含まれることを示していることに基づいて、前記１つ以上の音声信号が前記音響信号に含まれると判断するステップを更に含む、
請求項１に記載の方法。

【請求項3】

前記受け取ったデータ構造は、複数の第５構文要素を含み、前記第５構文要素の各々は、前記音響信号のそれぞれ１つが音声信号であるかどうかを示し、
前記１つ以上の音声信号が前記音響信号に含まれると判断するステップは、前記音響信号のそれぞれ１つが音声信号であることを前記第５構文要素の少なくとも１つが示すことに基づく、
請求項２に記載の方法。

【請求項4】

前記１つ以上の音声信号が前記音響信号に含まれると判断するステップは、前記第２構文要素によって示される前記音声信号の数がゼロよりも大きいことに基づく、
請求項２に記載の方法。

【請求項5】

前記基準音声信号を決定するステップは、前記第２構文要素によって示される前記音声信号の数が１より大きいことに基づく、
請求項１乃至４のいずれか一項に記載の方法。

【請求項6】

前記受け取ったデータ構造は、複数の第６構文要素を含み、前記第６構文要素の各々は、前記音響信号のそれぞれ１つの識別インデックスを示す、
請求項１乃至５のいずれか一項に記載の方法。

【請求項7】

当該方法は、
音声信号が前記音響信号に含まれないと判断するステップを更に含み、
前記音響信号のラウドネスレベルを調整するステップは、デフォルト基準信号に基づいて、前記音響信号の前記ラウドネスレベルを調整することを含む、
請求項１乃至６のいずれか一項に記載の方法。

【請求項8】

処理回路を含む装置であって、
前記処理回路は、請求項１乃至７のいずれか一項に記載の方法を実行するよう構成される、装置。

【請求項9】

ＭＰＥＧ－Ｉの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整シグナリングのために装置が実行する方法であって、
前記オーディオシーンに含まれる音響信号の数を示す第１構文要素と、前記音響信号に含まれる音声信号の数を示す第２構文要素と、基準音声信号の識別子を示す第３構文要素とを含む、データ構造を生成するステップを含み、
前記生成されたデータ構造内の第２構文要素に基づいて、前記オーディオシーンの前記音響信号に含まれる音声信号の数が決定され、
前記オーディオシーンの前記音響信号に２つ以上の音声信号が含まれるという決定に応答して、
前記生成されたデータ構造内の前記第３構文要素に基づいて、前記２つ以上の音声信号から基準音声信号が決定され、
前記オーディオシーンの作成者によって提供されるアンカー音声信号に基づいて、前記オーディオシーンの前記基準音声信号のラウドネスレベルが調整され、
前記基準音声信号の前記調整されたラウドネスレベルに基づいて、前記音響信号のラウドネスレベルが調整される、
方法。

【請求項10】

１つ以上の音声信号が前記音響信号に含まれるかどうかを示す第４構文要素を、前記生成されたデータ構造に含めるステップを更に含み、
前記第４構文要素が、前記１つ以上の音声信号が前記音響信号に含まれることを示していることに基づいて、前記１つ以上の音声信号が前記音響信号に含まれると判断される、
請求項９に記載の方法。

【請求項11】

複数の第５構文要素を前記生成されたデータ構造に含めるステップを更に含み、前記第５構文要素の各々は、前記音響信号のそれぞれ１つが音声信号であるかどうかを示し、
前記音響信号のそれぞれ１つが音声信号であることを前記第５構文要素の少なくとも１つが示すことに基づいて、前記１つ以上の音声信号が前記音響信号に含まれると判断される、
請求項１０に記載の方法。

【請求項12】

前記第２構文要素によって示される前記音声信号の数がゼロよりも大きいことに基づいて、前記１つ以上の音声信号が前記音響信号に含まれると判断される、
請求項１０に記載の方法。

【請求項13】

前記第２構文要素によって示される前記音声信号の数が１より大きいことに基づいて、前記基準音声信号が決定される、
請求項９乃至１２のいずれか一項に記載の方法。

【請求項14】

複数の第６構文要素を前記生成されたデータ構造に含めるステップを更に含み、前記第６構文要素の各々は、前記音響信号のそれぞれ１つの識別インデックスを示す、
請求項９乃至１３のいずれか一項に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

参照による組み込み
本出願は、２０２１年３月８日に出願された米国仮出願第６３／１５８,２６１号「ＳＩＧＮＡＬＩＮＧＬＯＵＤＮＥＳＳＡＤＪＵＳＴＭＥＮＴＦＯＲＡＵＤＩＯＳＣＥＮＥ」の優先権を主張する、２０２１年１０月１４日に出願された米国特許出願第１７／５０１,７４９号「ＳＩＧＮＡＬＩＮＧＬＯＵＤＮＥＳＳＡＤＪＵＳＴＭＥＮＴＦＯＲＡＮＡＵＤＩＯＳＣＥＮＥ」の優先権の利益を主張する。先の出願の開示は、参照によってその全体が本明細書に組み込まれる。

【0002】

技術分野
本開示は、一般にオーディオシーンのラウドネス調整のシグナリング情報に関連する実施形態を説明する。

【背景技術】

【0003】

本明細書で提供される背景技術の説明は、本開示の背景を大まかに提示するためのものである。現在名前を挙げられている発明者の研究は、その研究がこの背景技術に記載された範囲において、出願時に先行技術として通常見なされ得ない記載の態様とともに、明示的にも暗黙的にも本開示に対する先行技術として認められない。

【0004】

ＭＰＥＧ（Moving Picture Experts Group）は、没入型オーディオ、没入型ビデオ及びシステムサポートを含む一連の規格を提案した。一連の規格は、ユーザが６自由度（６ＤｏＦ）を使用して環境をナビゲートして対話することができる仮想現実（ＶＲ：virtual reality）又は拡張現実（ＡＲ：augmented reality）プレゼンテーションをサポートすることができる。図１は、本開示の一実施形態による、６自由度の例を示す。図１では、６自由度を、空間的ナビゲーション（ｘ、ｙ、ｚ）及びユーザ頭部方向（ヨー、ピッチ、ロール）で表すことができる。

【0005】

ＭＰＥＧ－Ｉプレゼンテーションの目標は、ユーザが仮想世界に実際に存在しているという感覚を与えることである。仮想世界（又は仮想シーン）のオーディオ信号は、現実世界と同じように知覚され、関連する視覚的な像（visual figure）から音が聞こえる。すなわち、音は正しい位置と正しい距離で知覚される。現実世界におけるユーザの物理的な動きは、仮想世界において一致する動き（matching movement）として知覚される。さらに、重要なことには、ユーザは仮想シーンと対話することができるので、音は現実的なものとして知覚されるべきであり、現実世界におけるユーザの経験に一致するべきである。

【0006】

対話的なＶＲ／ＡＲテストでは、異なるサウンドレベルがリスニングテストのセットアップに関与する。これらのサウンドレベルの関係は、技術的なセットアップによって与えられる可能性があり、あるいはラウドネス測定によって正規化される可能性があり、あるいは手動で設定される可能性がある。シーンのラウドネス調整のための手順は、ＭＰＥＧ－Ｉの没入型オーディオの提案募集（ＣｆＰ：call of proposals）の一部として説明される。

【発明の概要】

【0007】

本開示の態様は、ＭＰＥＧ－Ｉの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための装置を提供する。１つの装置は、オーディオシーンに含まれる音響信号の数を示す第１構文要素を受け取る処理回路を含む。処理回路は、１つ以上の音声信号が、第１構文要素によって示される音響信号に含まれるかどうかを判断する。処理回路は、１つ以上の音声信号が音響信号に含まれることに基づいて、１つ以上の音声信号から基準音声信号を決定する。処理回路は、アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。処理回路は、基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。

【0008】

一実施形態において、処理回路は、１つ以上の音声信号が音響信号に含まれるかどうかを示す第２構文要素を受け取る。処理回路は、１つ以上の音声信号が音響信号に含まれることを第２構文要素が示していることに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0009】

一実施形態において、処理回路は、複数の第３構文要素を受け取り、第３構文要素の各々は、音響信号のそれぞれ１つが音声信号であるかどうかを示す。処理回路は、音響信号のそれぞれ１つが音声信号であることを第３構文要素の少なくとも１つが示すことに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0010】

一実施形態において、処理回路は、音響信号に含まれる１つ以上の音声信号の数を示す第４構文要素を受け取る。処理回路は、第４構文要素によって示される１つ以上の音声信号の数がゼロよりも大きいことに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0011】

一実施形態において、処理回路は、１つ以上の音声信号の数が１より大きいことに基づいて、基準音声信号を示す第５構文要素を受け取る。

【0012】

一実施形態において、処理回路は、複数の第６構文要素を受け取り、第６構文要素の各々は、音響信号のそれぞれ１つの識別インデックスを示す。

【0013】

一実施形態において、処理回路は、音声信号が音響信号に含まれないと判断する。処理回路は、デフォルト基準信号に基づいて、音響信号のラウドネスレベルを調整する。

【0014】

本開示の態様は、ＭＰＥＧ－Ｉの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための方法を提供する。１つの方法において、オーディオシーンに含まれる音響信号の数を示す第１構文要素を受け取る。１つ以上の音声信号が、第１構文要素によって示される音響信号に含まれるかどうかを判断する。１つ以上の音声信号が音響信号に含まれることに基づいて、１つ以上の音声信号から基準音声信号を決定する。アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。

【0015】

本開示の態様は、少なくとも１つのプロセッサによって実行されると、該少なくとも１つのプロセッサに、ＭＰＥＧ－Ｉの没入型オーディオストリームに関連付けられるオーディオシーンのラウドネス調整のための方法のいずれか１つ又組合せを実行させる命令を記憶する、非一時的なコンピュータ読取可能媒体も提供する。

【図面の簡単な説明】

【0016】

開示される主題の更なる特徴、性質及び様々な利点は、以下の詳細な説明及び添付の図面からより明らかになるであろう。

【0017】

【図1】本開示の実施形態による、６自由度の例を示す図である。

【0018】

【図2】本開示の実施形態による、例示的なフローチャートを示す図である。

【0019】

【図3】本開示の実施形態による、コンピュータシステムの概略図である。

【発明を実施するための形態】

【0020】

Ｉ. オーディオシーンのラウドネス調整

【0021】

本開示は、シーンのラウドネスを調整するためのシグナリング方法を含む。

【0022】

本開示の態様によると、シーン作成者は、シーンのラウドネスを調整するための基準信号としてアンカー音声信号（speech signal）を提供することができる。オーディオシーンにおける音響信号（sound signal）について、シーンのラウドネス調整の手順は次のように説明され得る。

【0023】

シーン音響と、指定されたアンカー音声信号との間のラウドネス調整は、シーン作成者（又はコンテンツ作成者）によって行われるべきである。一例では、シーン音響は、エンコーダ入力フォーマット（ＥＩＦ：encoder input format）で使用されるパルスコード変調（ＰＣＭ：pulse-code modulation）オーディオ信号とすることができる。パルスコード変調（ＰＣＭ）は、サンプリングされたアナログ信号をデジタルで表すために使用される方法である。ＥＩＦは、ＭＰＥＧ－Ｉの没入型オーディオエンコーダが読み込んで圧縮する、シーンメタデータ情報の構造と表現を記述する。Ｄｉｒａｃ頭部関連伝達関数（ＨＲＴＦ：head related transfer function）を用いる一般バイノーラルレンダラ（ＧＢＲ：general binaural renderer）が、コンテンツ作成者によってラウドネス調整のために使用される可能性がある。

【0024】

１つ以上（例えば１つ又は２つ）の測定ポイントをシーン内で定義することができる。これらの測定ポイントは、このシーンの通常のラウドネスを表すシーンタスクパス上の位置を表すべきである。

【0025】

シーン作成者は、これらの位置において、ＤｉｒａｃＨＲＴＦを用いるＧＢＲでシーン出力信号を記録し、得られたオーディオファイル（例えばｗａｖファイル）を使用して基準信号と比較し、シーンのラウドネスレベルに必要な調整を決定することができる。

【0026】

音声信号がシーン内に存在する場合、一例では、１つの測定位置は、音声源から約１.５ｍ離れている可能性がある。そして、この測定位置における音声信号のラウドネスレベルを、アンカー音声信号と同じラウドネスレベルに調整することができる。

【0027】

シーン内のすべての他の音響信号のラウドネスレベルを、音声信号のラウドネスレベルに基づいて調整することができる。例えばすべての他の音響信号のラウドネスレベルの各々を、洗練された音声信号（refined speech signal）のラウドネスレベルに基づいて、それぞれのスケーラで乗算することができる。

【0028】

シーン内に音声信号が存在しない場合、シーン内の音響信号のラウドネスレベルをアンカー音声信号と比較して調整することができる。

【0029】

加えて、シーンタスクパス上のも最も音が大きい（loudest）ポイントを、シーン作成者によって識別すべきである。最も音が大きいポイントにおけるラウドネスレベルは、クリッピングがないことを確認すべきである。クリッピングのエッジケースは、例えば聞き手が音源に異常に接近するときに防止されるべきである。異常接近について音響レベルを調整することは、一実施形態では、レンダラの作業である。

【0030】

次いで、シーンタスクパス上のソフトポイント又はエリアが静かすぎないかについて確認すべきである。例えばシーンタスクパス上に長い沈黙の時間があるべきではない。

【0031】

いくつかの実施形態では、オーディオシーン内の音響信号に基づいて基準信号を決定し、基準信号をアンカー音声信号と同じラウドネスレベルに調整することが重要である。基準信号を決定することなしに、音響信号のスケーラは決定され得ない。例えばオーディオシーン内に２つの音響信号Ａ（ラウドネスは５）と音響信号Ｂ（ラウドネスは２０）が存在し、アンカー音声信号のラウドネスが１０である場合、基準信号を決定せずには、音響信号Ａを１０までスケールアップするのか又は音響信号Ｂを１０までスケールダウンするのかが明らかでない可能性がある。この場合、１つの可能な解決策は、音響信号Ａと音響信号Ｂの双方を、アンカー音声信号と同じラウドネスレベル（例えば１０）に調整することである。この解決策は、いくつかの用途では望ましくない可能性がある。したがって、オーディオシーン内の音響信号に基づいて基準信号が決定される場合、音響信号のスケーラを決定することができる。例えば音響信号Ａが基準信号として選択される場合、次いで、音響信号Ａを、２のスケーラ（with a scaler of 2）で１０までスケールアップすることができ、音響信号Ｂを、同じ２のスケーラで４０までスケールアップすることができる。加えて、アンカー音声信号のために、オーディオシーン内の音声信号を基準信号として選択することができる。

【0032】

本開示の態様によると、オーディオシーン内に２つ以上の音声信号が存在するとき、シーンのラウドネス調整を、以下のように行うことができる。

【0033】

シーン音響と指定されたアンカー音声信号との間のラウドネス調整を、シーン作成者（又はコンテンツ作成者）によって実行することができる。一例において、シーン音響は、ＥＩＦで使用されるＰＣＭオーディオ信号とすることができる。ＤｉｒａｃＨＲＴＦを用いるＧＢＲが、ラウドネス調整のためにコンテンツ作成者によって使用されることができる。

【0034】

【0035】

シーン作成者は、これらの位置において、ＧＢＲ及びＤｉｒａｃＨＲＴＦを用いてシーン出力信号を記録し、得られたオーディオファイル（例えばｗａｖファイル）を使用して基準信号と比較し、シーンのラウドネスレベルに必要な調整を決定することができる。

【0036】

２つ以上の音声信号がシーン内に存在する場合、調整された音声信号を作成することができる。次いで、調整された音声信号のラウドネスレベルを、アンカー音声信号と同じラウドネスへと更に調整することができる。その後、調整された音声信号を、洗練された音声信号として使用することができる。

【0037】

シーン内のすべての他の音響信号のラウドネスレベルを、洗練された音声信号のラウドネスレベルに基づいて調整することができる。例えばすべての他の音響信号のラウドネスレベルの各々を、洗練された音声信号のラウドネスレベルに基づいて、それぞれのスケーラで乗算することができる。

【0038】

加えて、シーンタスクパス上の最も音が大きいポイントを、シーン作成者によって識別することができる。最も音が大きいポイントにおけるラウドネスレベルは、クリッピングがないことを確認すべきである。クリッピングのエッジケースは、例えば聞き手が音源に異常に接近するときに防止されるべきである。異常接近について音響レベルを調整することは、一実施形態では、レンダラの作業である。

【0039】

【0040】

本開示の態様によると、２つ以上の音声信号が存在するとき、調整された音声信号を、シーン内に存在する２つ以上の音声信号から生成することができる。

【0041】

一実施形態では、調整された音声信号は、シーン内に存在する音声信号のうちの１つとすることができ、この場合、その選択はシーン作成者によって行われる。選択を、ユーザに対して示すことができる。例えば選択は、ビットストリームで又はオーディオ信号に関連するメタデータの一部として示されることができる。

【0042】

調整された音声信号を、異なる基準に従って選択することができる。例えば調整された音声信号を、音声信号のうちの１つ以上の音声信号の少なくとも１つの特性又は１つ以上の音声信号の間の少なくとも１つの数学的関係に基づいて選択することができる。例えば調整された音声信号を、音響レベル又は音量に基づいて決定することができる。一実施形態では、調整された音声信号は、シーン内に存在する最も音が大きい音声信号とすることができる。一実施形態では、調整された音声信号は、シーン内に存在する最も静かな音声信号とすることができる。

【0043】

いくつかの実施形態では、調整された音声信号を、音声信号の平均又は中央値又は音声信号のサブセットに基づいて決定することができる。さらに、いくつかの実施形態では、平均を重み付けすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在する最も音が大きい音声信号と最も静かな音声信号の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の中央値とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の分位数（quantile）、例えば２５％から７５％の分位数の平均とすることができる。一実施形態では、調整された音声信号は、シーン内に存在するすべての音声信号の重み付け平均とすることができ、ここで、重みは、距離ベース又はラウドネスベースとすることができる。

【0044】

いくつかの実施形態では、調整された音声信号を、音声信号のクラスタリングに基づいて決定することができる。例えば調整された音声信号は、シーン内に存在するすべての音声信号のクラスタリング中心（clustering center）に最も近くに位置する音声信号とすることができる。

【0045】

本開示に含まれる方法を、別個に又は任意の組合せで使用することができることに留意されたい。これらの方法を、部分的に又は全体として使用することができる。

【0046】

本開示は、シーンのラウドネス調整のためのシグナリング方法を含む。シグナリング方法では、調整のために必要な情報を示すことができる。シグナリング情報は、ビットストリームの一部又はメタデータの一部とすることができる。シグナリング情報を、パーティ間、例えば送信者と受信者との間で通信することができる。シグナリング情報を受け取った後、受信者は、そのような情報を使用して、受け取った音響信号の信号レベルを調整するかどうか及びどのように調整するかを決定することができる。

【0047】

いくつかの実施形態では、シグナリング情報は、シーン内に音声信号が存在するかどうかを指定することができる。例えばシグナリング情報は、シーン内に音声信号が存在するとき、音声信号が存在することを指定する。シーン内に音声信号が存在するとき、シグナリング情報は、シーン内に２つ以上の音声信号が存在するかどうかを指定することができる。さらに、シグナリング情報は、必要に応じて、２つ以上の音声信号の数を指定することができる。

【0048】

いくつかの実施形態において、シグナリング情報は、（シーン内に存在するとき）音声信号をラウドネス調整のための基準信号として使用するかどうか及びどのように使用するか、あるいはデフォルト信号レベルをラウドネス調整のための基準信号レベルとして使用するかどうか又はどのように使用するか、を指定することができる。

【0049】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）音声信号のうちの１つを取って、ラウドネス調整のためにアンカー音声信号と同じラウドネスに調整するかどうかを指定することができる。音声信号を取らない場合、デフォルト信号レベル（例えばアンカー音声信号のラウドネスレベル）を、他の音響信号を調整するための基準レベルとして使用することができる。

【0050】

一実施形態では、シグナリング情報は、音声信号のうちの１つがラウドネス調整のために取られると判断されるとき、シーン内に存在する音声信号のうちのどれを取って、アンカー音声信号と同じラウドネスに調整するかを指定することができる。

【0051】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）音声信号のうちの１つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの１つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、音声信号の特性（例えばレベル又は音量）に基づいて決定することができる。例えばシーン内に存在する最も音が大きい音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。別の例では、シーン内に存在する最も静かな音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。

【0052】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）音声信号のうちの１つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの１つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、音声信号のクラスタリングに基づいて決定することができる。例えばシーン内に存在するすべての音声信号のクラスタリング中心に最も近くに位置する音声信号を取り、アンカー音声信号と同じラウドネスに調整することができる。クラスタリング中心は、すべての音声信号の位置に基づいて導出されることができる。

【0053】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）音声信号のうちの１つが、ラウドネス調整のために取られるかどうかを指定することができる。音声信号のうちの１つが、ラウドネス調整のために取られると判断される場合、取られてアンカー音声信号と同じラウドネスに調整される音声信号を、調整された音声信号に基づいて決定することができる。例えば調整された音声信号を、シーン内の利用可能な音声信号に基づいて生成し、アンカー音声信号と同じラウドネスに調整することができる。

【0054】

いくつかの実施形態において、シグナリング情報は、シーン内の利用可能な音声信号に基づいて、調整された音声信号をどのように生成するかを指定することができる。調整された音声信号を、音声信号の平均又は中央値又は音声信号のサブセットに基づいて決定することができる。さらに、いくつかの実施形態では、平均を重み付けすることができる。

【0055】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在するすべての音声信号の平均とすることができる。

【0056】

一実施形態では、シグナリング情報は、（シーン内に存在するとき）利用可能な音声信号から生成された、調整された音声信号を、ラウドネスレベル調整のための基準信号として取るかどうかを指定することができる。生成された、調整された音声信号が、ラウドネスレベル調整のための基準信号として取られると判断される場合、調整された音声信号は、シーン内に存在する最も音が大きい音声信号と最も静かな音声信号の平均とすることができる。

【0057】

【0058】

【0059】

【0060】

一実施形態では、シグナリング情報は、重みが距離ベースであることを指定することができる。例えば想定される中心からより離れるほど、より低いレベルの重みを割り当てることができる。

【0061】

一実施形態では、シグナリング情報は、重みがラウドネスベースであることを指定することができる。例えば音声信号がより静かであるほど、より低いレベルの重みを割り当てることができる。

【0062】

シグナリング情報の例示的な構文表を表１に示す。

【表1】

【0063】

表１において、構文要素num_sound（例えば２ビット以上）は、オーディオシーン内の音響信号の数を示す。オーディオシーン内の各音響信号について、シグナリング情報は、それぞれの構文要素sound_id（例えば２ビット以上）を含むことができ、この構文要素は、それぞれの音響信号の識別インデックスを指定する。オーディオシーン内の各音響信号について、シグナリング情報は、それぞれの１ビットのフラグis_speech_flagを含むことができ、これは、それぞれの音響信号が音声信号であるかどうかを指定する。

【0064】

一実施形態では、シグナリング情報は、１ビットのフラグspeech_present_flagを含むことができ、これは、シーン内に音声信号が存在するかどうかを指定する。

【0065】

一実施形態では、シーン内に音声信号が存在するかどうかを、１に等しい関連する構文要素is_speech_flagを有する音響信号が存在するかどうかを確認することによって、判断することができる。

【0066】

一実施形態では、シーン内に音声信号が存在すると判断された場合、シグナリング情報は、構文要素num_speech_signals（例えば２ビット以上）を含むことができ、この構文要素は、シーン内に存在する音声信号の数を指定する。

【0067】

一実施形態では、１に等しい関連する構文要素is_speech_flagを各々が有する音響信号の数を数えることによって、シーン内に存在する音声信号の数を導出することができる。

【0068】

一実施形態では、複数のラウドネス調整方法をサポートすることができる。複数のラウドネス調整方法は、本開示で説明される１つ以上の方法を含むことができる。一例では、これらの方法のサブセットを許容することができる。

【0069】

一実施形態では、シーン内に存在する音声信号の数が１より多い場合、シグナリング情報は、構文要素adjusted_speech_signal_method（例えば３ビット以上）を含むことができ、この構文要素は、ラウドネス調整のために調整された音声信号を生成する方法を指定する。

【0070】

表２は、ラウドネス調整のための例示的なシグナリング方法を示す。

【表2】

【0071】

本開示は、ＭＰＥＧ－Ｉの没入型オーディオストリームに関連するオーディオシーンのためのラウドネス調整シグナリングのためのデータ構造を含む。データ構造は、オーディオシーンに含まれる音響信号の数を示す第１構文要素をラウドネス調整情報内に、含む。第１構文要素に基づいて、１つ以上の音声信号が音響信号に含まれると判断されたことに応答して、基準音声信号が１つ以上の音声信号から決定される。オーディオシーンの基準音声信号のラウドネスレベルは、アンカー音声信号に基づいて調整される。音響信号のラウドネスレベルは、基準音声信号の調整されたラウドネスレベルに基づいて調整される。

【0072】

一実施形態では、データ構造は、１つ以上の音声信号が音響信号に含まれるかどうかを示す第２構文要素をラウドネス調整情報内に、含む。１つ以上の音声信号が音響信号に含まれることを第２構文要素が示していることに基づいて、１つ以上の音声信号は、音響信号に含まれると判断される。

【0073】

一実施形態では、データ構造は、複数の第３構文要素をラウドネス調整情報内に含む。第３構文要素の各々は、音響信号のそれぞれ１つが音声信号であるかどうかを示す。音響信号のそれぞれ１つが音声信号であることを第３構文要素のうちの少なくとも１つが示していることに基づいて、１つ以上の音声信号は、音響信号に含まれると判断される。

【0074】

一実施形態では、データ構造は、音響信号に含まれる１つ以上の音声信号の数を示す第４構文要素をラウドネス調整情報内に含む。第４構文要素によって示される１つ以上の音声信号の数がゼロより大きいことに基づいて、１つ以上の音声信号は、音響信号に含まれると判断される。

【0075】

一実施形態では、データ構造は、１つ以上の音声信号の数が１より大きいことに基づいて、基準音声信号を示す第５構文要素をラウドネス調整情報内に含む。

【0076】

一実施形態では、データ構造は、複数の第６構文要素をラウドネス調整情報内に含む。第６構文要素の各々は、音響信号のそれぞれ１つの識別インデックスを示す。

【0077】

ＩＩ．フローチャート

【0078】

図２は、本開示の一実施形態による、例示のプロセス（２００）の概略を示すフローチャートを示している。様々な実施形態では、プロセス（２００）は、図３に示される処理回路のような処理回路によって実行される。いくつかの実施形態では、プロセス（２００）は、ソフトウェア命令で実装され、したがって、処理回路がソフトウェア命令を実行すると、処理回路は、プロセス（２００）を実行する。

【0079】

プロセス（２００）は、一般に、ステップ（Ｓ２１０）で開始してよく、ここで、プロセス（２００）は、オーディオシーンに含まれる音響信号の数を示す第１構文要素を受け取る。次いで、プロセス（２００）はステップ（Ｓ２２０）に進む。

【0080】

ステップ（Ｓ２２０）において、プロセス（２００）は、１つ以上の音声信号が、第１構文要素によって示される音響信号に含まれるかどうかを判断する。次いで、プロセス（２００）はステップ（Ｓ２３０）に進む。

【0081】

ステップ（Ｓ２３０）において、プロセス（２００）は、１つ以上の音声信号が音響信号に含まれることに基づいて、１つ以上の音声信号から基準音声信号を決定する。次いで、プロセス（２００）はステップ（Ｓ２４０）に進む。

【0082】

ステップ（Ｓ２４０）において、プロセス（２００）は、アンカー音声信号に基づいて、オーディオシーンの基準音声信号のラウドネスレベルを調整する。次いで、プロセス（２００）はステップ（Ｓ２５０）に進む。

【0083】

ステップ（Ｓ２５０）において、プロセス（２００）は、基準音声信号の調整されたラウドネスレベルに基づいて、音響信号のラウドネスレベルを調整する。その後、プロセス（２００）は終了する。

【0084】

一実施形態において、プロセス（２００）は、１つ以上の音声信号が音響信号に含まれるかどうかを示す第２構文要素を受け取る。プロセス（２００）は、１つ以上の音声信号が音響信号に含まれることを第２構文要素が示していることに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0085】

一実施形態において、プロセス（２００）は、複数の第３構文要素を受け取り、第３構文要素の各々は、音響信号のそれぞれ１つが音声信号であるかどうかを示す。プロセス（２００）は、音響信号のそれぞれ１つが音声信号であることを第３構文要素のうちの少なくとも１つが示していることに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0086】

一実施形態において、プロセス（２００）は、音響信号に含まれる１つ以上の音声信号の数を示す第４構文要素を受け取る。プロセス（２００）は、第４構文要素によって示される１つ以上の音声信号の数がゼロより大きいことに基づいて、１つ以上の音声信号が音響信号に含まれると判断する。

【0087】

一実施形態において、プロセス（２００）は、１つ以上の音声信号の数が１より大きいことに基づいて、基準音声信号を示す第５構文要素を受け取る。

【0088】

一実施形態において、プロセス（２００）は、複数の第６構文要素を受け取り、第６構文要素の各々は、音響信号のそれぞれ１つの識別インデックスを示す。

【0089】

一実施形態において、プロセス（２００）は、音声信号が音響信号に含まれないと判断する。プロセス（２００）は、デフォルト基準信号に基づいて、音響信号のラウドネスレベルを調整する。

【0090】

ＩＩＩ．コンピュータシステム

【0091】

上述の技術を、コンピュータ読取可能命令を使用してコンピュータソフトウェアとして実装し、１つ以上のコンピュータ読取可能媒体に物理的に記憶することができる。例えば図３は、開示される主題の特定の実施形態を実装するのに適したコンピュータシステム（３００）を示している。

【0092】

コンピュータソフトウェアは、アセンブリ、コンパイル、リンキング又は類似のメカニズムの対象となり得る任意の適切な機械コード又はコンピュータ言語を使用してコーディングされ、１つ以上のコンピュータ中央処理ユニット（ＣＰＵ）、グラフィクス処理ユニット（ＧＰＵ）等によって直接的に又は解釈やマイクロコード実行等を通して実行され得る命令を含む、コードを作成することができる。

【0093】

命令は、例えばパーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネット（ＩｏＴ）デバイス等を含む様々なタイプのコンピュータ又はその構成要素において実行されることができる。

【0094】

コンピュータシステム（３００）について図３に示される構成要素は、本質的に例示的なものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関して、いかなる制限も示唆するように意図されていない。また、構成要素の構成は、コンピュータシステム（３００）の例示の実施形態に示される構成要素の任意の１つ又は組合せに関するいかなる依存性又は要件も有するものとして解釈されてはならない。

【0095】

コンピュータシステム（３００）は、特定のヒューマンインタフェース入力デバイスを含み得る。そのようなヒューマンインタフェース入力デバイスは、例えば触覚入力（キーストローク、スワイプ、データグローブの動き等）、オーディオ入力（声、拍手等）、視覚入力（ジェスチャ等）、嗅覚入力（図示せず）を通して、１人以上の人間のユーザによる入力に応答し得る。また、ヒューマンインタフェース入力デバイスは、オーディオ（音声、音楽、環境音等）、画像（スキャンされた画像、静止画像カメラから得られる写真画像等）、ビデオ（２次元ビデオ、立体映像を含む３次元ビデオ等）のような、人間による意識的入力に必ずしも直接関係しているとは限らない、特定の媒体をキャプチャするためにも使用されることができる。

【0096】

ヒューマンインタフェース入力デバイスは、キーボード（３０１）、マウス（３０２）、トラックパッド（３０３）、タッチスクリーン（３１０）、データグローブ（図示せず）、ジョイスティック（３０５）、マイクロホン（３０６）、スキャナ（３０７）及びカメラ（３０８）（各々の１つのみが図示される）のうちの１つ以上を含んでもよい。

【0097】

コンピュータシステム（３００）はまた、特定のヒューマンインタフェース出力デバイスも含み得る。そのようなヒューマンインタフェース出力デバイスは、例えば触覚出力、音響、光及び嗅覚／味覚を通して、１人以上の人間のユーザの感覚を刺激し得る。そのようなヒューマンインタフェース出力デバイスは、触覚出力デバイス（例えばタッチスクリーン（３１０）、データグローブ（図示せず）又はジョイスティック（３０５）による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスが存在する可能性もある）、オーディオ出力デバイス（スピーカー（３０９）、ヘッドフォン（図示せず）等）、視覚出力デバイス（各々タッチスクリーン入力機能の有無にかかわらず、各々触覚フィードバック能力の有無にもかかわらないが、その一部は、立体画像出力や仮想現実グラス（図示せず）、ホログラフィックディスプレイ及びスモークタンク（図示せず）のような手段を介して、２次元視覚出力又は３次元以上の出力を出力することができる、ＣＲＴ画面、ＬＣＤ画面、プラズマ画面、ＯＬＥＤ画面を含む画面（３１０）等）及びプリンタ（図示せず）を含んでよい。これらの視覚出力デバイス（画面（３１０）等）は、グラフィクスアダプタ（３５０）を通してシステムバス（３４８）に接続されることができる。

【0098】

コンピュータシステム（３００）はまた、ＣＤ／ＤＶＤを有するＣＤ／ＤＶＤＲＯＭ／ＲＷ（３２０）を含む光媒体又は類似の媒体（３２１）、サムドライブ（３２２）、取り外し可能ハードドライブ又はソリッドステートドライブ（３２３）、テープ及びフロッピーディスク（図示せず）のようなレガシー磁気媒体、セキュリティドングル（図示せず）のような特別なＲＯＭ／ＡＳＩＣ／ＰＬＤベースのデバイスのような、ヒューマンアクセス可能なストレージデバイス及びそれらの関連する媒体も含むことができる。

【0099】

当業者はまた、現在開示されている主題に関連して使用されるとき、「コンピュータ読取可能媒体」という用語が、伝送媒体、搬送波又は他の一時的信号を包含しないことを理解すべきである。

【0100】

コンピュータシステム（３００）はまた、１つ以上の通信ネットワーク（３５５）へのネットワークインタフェース（３５４）も含むことができる。１つ以上の通信ネットワーク（３５５）は、例えば無線、有線、光であり得る。１つ以上の通信ネットワーク（３５５）は更に、ローカル、ワイドエリア、メトロポリタン、車両用及び産業用、リアルタイム、遅延耐性ネットワーク等であり得る。１つ以上の通信ネットワーク（３５５）の例は、イーサネット（登録商標）、無線ＬＡＮ等のローカルエリアネットワーク、ＧＳＭ、３Ｇ、４Ｇ、５Ｇ、ＬＴＥ等を含むセルラネットワーク、ケーブルＴＶ、衛星ＴＶ及び地上放送ＴＶを含むＴＶ有線又は無線ワイドエリアデジタルネットワーク、ＣＡＮＢｕｓ等を含む車両及び産業用ネットワークを含む。特定のネットワークは、一般に、特定の汎用データポート又は周辺バス（３４９）（例えばコンピュータシステム（３００）のＵＳＢポート等）に接続される外部ネットワークインタフェースアダプタを必要とし、他のものは、一般に、後述するシステムバスへの接続によって、コンピュータシステム（３００）のコアに統合される（例えばＰＣコンピュータシステムへのイーサネット（登録商標）インタフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース）。これらのネットワークのいずれかを使用して、コンピュータシステム（３００）は、他のエンティティと通信することができる。このような通信は、例えばローカル又はワイドエリアデジタルネットワークを使用して、他のコンピュータシステムに対する、単方向の受信のみ（例えば放送ＴＶ）、単方向の送信専用（例えば特定のＣＡＮｂｕｓから特定のＣＡＮｂｕｓデバイスへ）又は双方向であり得る。上述のように、特定のプロトコル及びプロトコルスタックを、これらのネットワーク及びネットワークインタフェースの各々において使用することができる。

【0101】

前述のヒューマンインタフェースデバイス、ヒューマンアクセス可能なストレージデバイス及びネットワークインタフェースを、コンピュータシステム（３００）のコア（３４０）に接続することができる。

【0102】

コア（３４０）は、１つ以上の中央処理ユニット（ＣＰＵ）（３４１）、グラフィクス処理ユニット（ＧＰＵ）（３４２）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）（３４３）の形態の専用のプログラマブル処理ユニット、特定のタスク用のハードウェアアクセラレータ（３４４）等を含むことができる。これらのデバイスは、読取専用メモリ（ＲＯＭ）（３４５）、ランダムアクセスメモリ（ＲＡＭ）（３４６）、内部非ユーザアクセス可能ハードドライブ、ＳＳＤ等の内部大容量ストレージ（３４７）とともに、システムバス（３４８）を通して接続され得る。いくつかのコンピュータシステムでは、システムバス（３４８）は、追加のＣＰＵ、ＧＰＵ等によって拡張を可能にするために、１つ以上の物理的プラグの形態でアクセス可能である。周辺デバイスは、コアのシステムバス（３４８）に直接接続されるか又は周辺バス（３４９）を介して接続されることができる。周辺バスのアーキテクチャは、ＰＣＩ、ＵＳＢ等を含む。

【0103】

ＣＰＵ（３４１）、ＧＰＵ（３４２）、ＦＰＧＡ（３４３）及びアクセラレータ（３４４）は、組み合わされて上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードを、ＲＯＭ（３４５）又はＲＡＭ（３４６）に記憶することができる。また、一時的なデータをＲＡＭ（３４６）に記憶することができ、一方、永久的なデータを、例えば内部大容量ストレージ（３４７）に記憶することができる。１つ以上のＣＰＵ（３４１）、ＧＰＵ（３４２）、大容量ストレージ（３４７）、ＲＯＭ（３４５）、ＲＡＭ（３４６）等と密接に関連付けることができるキャッシュメモリを使用することにより、メモリデバイスのいずれかに対する高速記憶及び検索を可能にすることができる。

【0104】

コンピュータ読取可能媒体は、様々なコンピュータ実装される動作を実行するためのコンピュータコードをその上に有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計及び構築されたものとすることができ、あるいはそれらは、コンピュータソフトウェア技術の当業者に周知でかつ利用可能な種類のものとすることができる。

【0105】

限定ではなく例として、アーキテクチャ（３００）及び具体的にはコア（３４０）を有するコンピュータシステムは、１つ以上の有形のコンピュータ読取可能媒体に具現化されたソフトウェアを実行するプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ、アクセラレータ等を含む）の結果として機能性を提供することができる。このようなコンピュータ読取可能媒体は、上記で紹介したようなユーザアクセス可能な大容量ストレージ、並びにコア内部大容量ストレージ（３４７）又はＲＯＭ（３４５）のような非一時的な性質のコア（３４０）の特定のストレージに関連付けられる媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアを、そのようなデバイスに記憶して、コア（３４０）によって実行することができる。コンピュータ読取可能媒体は、特定のニーズに応じて、１つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア（３４０）及び具体的にはその中のプロセッサ（ＣＰＵ、ＧＰＵ、ＦＰＧＡ等を含む）に、ＲＡＭ（３４６）に記憶されたデータ構造を定義することと、ソフトウェアによって定義されたプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行させることができる。追加又は代替として、コンピュータシステムは、論理ハードワイヤ又は他の方法で回路（例えばアクセラレータ（３４４））内に具現化された結果として機能性を提供することができ、この回路は、ソフトウェアの代わりに又はソフトウェアとともに動作して、本明細書で説明される特定のプロセス又は特定のプロセスの特定の部分を実行することができる。ソフトウェアへの言及はロジックを含み、また、必要に応じて、その逆も可能である。コンピュータ読取可能媒体への参照は、実行のためのソフトウェアを記憶する回路（集積回路(ＩＣ)等）、実行のためのロジックを具体化する回路又は適切な場合にはその双方を包含することができる。本開示は、ハードウェアとソフトウェアの任意の適切な組合せを包含する。

【0106】

本開示は、いくつかの例示的な実施形態について説明しているが、本開示の範囲内にある変更、置換及び様々な代替均等物がある。したがって、当業者は、本明細書に明示的に示されていないか又は説明されていないが、本開示の原理を具体化しており、よって、本開示の精神及び範囲内にある、様々システム及び方法を考案することができることが理解されよう。

【図1】

【図2】

【図3】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版