(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-14
(45)【発行日】2024-06-24
(54)【発明の名称】適応オーディオ配信およびレンダリング
(51)【国際特許分類】
H04S 7/00 20060101AFI20240617BHJP
G10L 19/008 20130101ALI20240617BHJP
【FI】
H04S7/00 300
G10L19/008 200
G10L19/008 100
(21)【出願番号】P 2022566186
(86)(22)【出願日】2022-06-02
(86)【国際出願番号】 US2022072731
(87)【国際公開番号】W WO2022256828
(87)【国際公開日】2022-12-08
【審査請求日】2022-10-28
(32)【優先日】2021-06-02
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-31
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】リィウ,シャン
(72)【発明者】
【氏名】ティアン,ジュン
(72)【発明者】
【氏名】シュイ,シアオジョォン
【審査官】山下 剛史
(56)【参考文献】
【文献】特表2018-532146(JP,A)
【文献】特表2020-537418(JP,A)
【文献】特表2013-502183(JP,A)
【文献】国際公開第2021/015484(WO,A1)
【文献】米国特許出願公開第2021/0098004(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00- 7/00
G10L 19/00-19/26
(57)【特許請求の範囲】
【請求項1】
クライアントデバイスでオーディオ処理する方法であって、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信することと、
前記選択信号の送信に応答して前記オーディオ符号化構成に従って符号化され
た前記オーディオコンテンツを含む符号化されたビットストリームを前記サーバデバイスから受信することと、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングすることと、を含む、
方法。
【請求項2】
前記選択信号を送信することは、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信することを更に含む、
請求項1に記載の方法。
【請求項3】
前記符号化されたビットストリームを受信することは、
前記ビットストリームに従って符号化される1つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。
【請求項4】
前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化される1つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。
【請求項5】
前記符号化されたビットストリームを受信することは、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス(HOA)信号を含む前記符号化されたビットストリームを受信することを更に含む、
請求項2に記載の方法。
【請求項6】
前記選択信号を送信することは、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信することを更に含む、
請求項1に記載の方法。
【請求項7】
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。
【請求項8】
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。
【請求項9】
前記符号化されたビットストリームを受信することは、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス(HOA)信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信することを更に含む、
請求項6に記載の方法。
【請求項10】
前記選択信号を送信することは、
前記オーディオ符号化構成と関連付けられる識別子を送信することを更に含む、
請求項1に記載の方法。
【請求項11】
前記クライアントデバイスのメディア処理能力、前記クライアントデバイスのネットワーク接続、および嗜好入力のうちの少なくとも1つに従って、前記選択信号を決定することを更に含む、
請求項1に記載の方法。
【請求項12】
処理回路構成を含む、オーディオ処理のための装置であって、
前記処理回路構成は、
オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す選択信号をサーバデバイスに送信し、
前記選択信号を送信することに応答して、前記オーディオ符号化構成に従って符号化され
た前記オーディオコンテンツを含む符号化されたビットストリームを、前記サーバデバイスから受信し、
前記符号化されたビットストリームに基づいてオーディオ信号をレンダリングする、
ように構成される、
装置。
【請求項13】
前記処理回路構成は、
前記オーディオコンテンツを符号化するためのビットレートを示す前記選択信号を送信する
ように更に構成される、
請求項12に記載の装置。
【請求項14】
前記処理回路構成は、
前記ビットレートに従って符号化される1つ以上のオーディオチャネルを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。
【請求項15】
前記処理回路構成は、
記ビットレートに従って符号化される1つ以上のオーディオオブジェクトを含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。
【請求項16】
前記処理回路構成は、
前記ビットレートに従って符号化されるオーディオ高次アンビソニックス(HOA)信号を含む前記符号化されたビットストリームを受信する
ように構成される、
請求項13に記載の装置。
【請求項17】
前記処理回路構成は、
前記オーディオ入力中の前記オーディオコンテンツの一部分に対応するカテゴリ化層を示す前記選択信号を送信する
ように構成される、
請求項12に記載の装置。
【請求項18】
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。
【請求項19】
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。
【請求項20】
前記処理回路構成は、
前記オーディオ入力の前記オーディオコンテンツ中の高次アンビソニックス(HOA)信号の減少された次数のセットに基づいて符号化される前記符号化されたビットストリームを受信する
ように構成される、
請求項17に記載の装置。
【請求項21】
命令を格納する非一時的なコンピュータ読取可能媒
体であって、前記命令は、コンピュータによって実行されるときに、前記コンピュータに請求項1-11
のうちのいずれか1項に記載の方法を実行させる、非一時的なコンピュータ読取可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の参照)
本願は、2021年6月2日に出願された米国仮出願第63/196,066号「Adaptive Audio Delivery and Rendering」に対する優先権の利益を主張する、2022年5月31日に出願された米国特許出願第17/828,755号「ADAPTIVE AUDIO DELIVERY AND RENDERING」に対する優先権の利益を主張する。先の出願の開示は、その全体が参照により本明細書に援用される。
【0002】
(技術分野)
本開示は、オーディオ処理(audio processing)に概ね関連する実施形態を記載する。
【背景技術】
【0003】
本明細書で提供される背景記述は、本開示の文脈を概ね提示するためのものである。その業績がこの背景セクションに記載されている範囲における、現在指名されている発明者の業績、並びに出願時に他の点では先行技術として適格でないことがある記述の側面は、本開示に対する先行技術として明示的にも暗示的にも認められていない。
【0004】
仮想現実または拡張現実のアプリケーションにおいて、ユーザがアプリケーションの仮想世界における存在感を有するようにするために、アプリケーションの仮想シーンにおけるオーディオは、仮想シーンの関連する仮想フィギュア(virtual figures)から来るサウンド(sound)とともに、実世界におけるものとして知覚される。幾つかの例において、現実の世界におけるユーザの物理的な動きは、アプリケーション内の仮想シーンにおいて一致する動きを有するものとして知覚される。更に、そして、重要なことには、ユーザは、現実的であると知覚され且つ現実世界においてユーザの経験にマッチするオーディオを使用して、仮想シーンと対話することができる。
【発明の概要】
【0005】
本開示の態様は、オーディオ処理のための方法および装置(例えば、クライアントデバイスおよびサーバデバイス)を提供する。幾つかの例では、クライアントデバイスが、処理回路構成を含む。処理回路構成は、オーディオ入力中のオーディオコンテンツを符号化(エンコード)するためのオーディオ符号化構成(オーディオエンコーディング構成)を示す選択信号をサーバデバイスに送信する。処理回路構成は、選択信号の送信に応答して、符号化されたビットストリームをサーバデバイスから受信する。符号化されたビットストリームは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む。処理回路構成は、符号化されたビットストリームに基づいてオーディオ信号をレンダリングする。
【0006】
幾つかの実施形態において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力中のオーディオコンテンツの一部分に対応するカテゴリ化層を含む。
【0007】
幾つかの例では、オーディオ符号化構成と関連付けられる識別子が、クライアントデバイスからサーバデバイスに送信される。
【0008】
幾つかの例において、オーディオ符号化構成は、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、およびクライアントデバイスのユーザによる嗜好入力のうちの少なくとも1つに従って決定される。
【0009】
幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。一例において、符号化されたビットストリームは、ビットレートに従って符号化される1つ以上のオーディオチャネルを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化される1つ以上のオーディオオブジェクトを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化されるオーディオ高次アンビソニックス(HOA)信号のセットを含む。
【0010】
例えば、オーディオ符号化構成は、オーディオ入力中のオーディオコンテンツの一部分に対応するカテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットに基づいて符号化される。オーディオチャネルのサブセットは、オーディオ入力中のオーディオコンテンツのカテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットに基づいて符号化される。オーディオオブジェクトのサブセットは、オーディオ入力中のオーディオコンテンツのカテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のHOA信号の減少された次数のセットに基づいて符号化される。HOA信号の減少された次数のセットは、オーディオ入力中オーディオコンテンツのカテゴリ化層に対応する。
【0011】
本開示の態様は、コンピュータによって実行されるときにコンピュータにオーディオ処理の方法を実行させる命令を格納する非一時的なコンピュータ読取可能媒体(medium)も提供する。
【0012】
開示する主題のさらなる構成、性質、および様々な利点は、以下の詳細な記述および添付の図面からより明らかになるであろう。
【図面の簡単な説明】
【0013】
【
図1】本開示の幾つかの実施形態によるメディアシステムのブロック図を示している。
【0014】
【
図2】幾つかの例における垂直三層サウンドシステムのレイアウトを示している。
【0015】
【
図3A】幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。
【
図3B】幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。
【
図3C】幾つかの例におけるサウンドシステムにおけるスピーカ配置を示している。
【0016】
【
図4】幾つかの例におけるシーンの音場(sound field)における複数のサウンドソースの一例を示している。
【0017】
【
図5】本開示の一実施形態によるプロセス例を概説するフローチャートを示している。
【0018】
【
図6】本開示の一実施形態による別のプロセス例を概説するフローチャートを示している。
【0019】
【
図7】一実施形態によるコンピュータシステムの概略図である。
【発明を実施するための形態】
【0020】
本開示の態様は、適応(adaptive)オーディオコンテンツ配信(delivery)およびレンダリング(rendering)のための技術を提供する。本開示のある態様によれば、オーディオコンテンツ配信およびレンダリングは、しばしば、レンダリングデバイス能力、ネットワーク条件、ユーザの好みなどのような、様々な要因によって制約される。これらの制約に対処するために、適応オーディオコンテンツ配信およびレンダリングスキームを使用することができる。
【0021】
図1は、本開示の一実施形態に従ったメディアシステム(media system)(100)のブロック図を示している。メディアシステム(100)は、イマーシブメディアアプリケーション、拡張現実(AR)アプリケーション、仮想現実アプリケーション、ビデオゲームアプリケーション、スポーツゲームアニメーションアプリケーション、テレビ会議およびテレプレゼンスアプリケーション、メディアストリーミングアプリケーションおよび同等のもののような、様々な用途アプリケーションにおいて使用されることができる。
【0022】
メディアシステム(100)は、メディアサーバデバイス(110)と、ネットワーク(図示せず)によって接続されることができる、
図1に示すメディアクライアントデバイス(160A)および(160B)のような、複数のメディアクライアントデバイスとを含む。一例において、メディアサーバデバイス(110)は、オーディオコーディング(coding)機能およびビデオコーディング機能を有する1つ以上のデバイスを含むことができる。一例において、メディアサーバデバイス(110)は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、および同等物のような、単一のコンピューティングデバイスを含む。別の例において、メディアサーバデバイス(110)は、データセンタ、サーバファーム、および同等物を含む。メディアサーバデバイス(110)は、ビデオおよびオーディオコンテンツを受信することができ、適切なメディアコーディング標準に従って、ビデオコンテンツおよびオーディオコンテンツを1つ以上の符号化(エンコード)された(encoded)ビットストリームに圧縮することができる。符号化されたビットストリームは、ネットワークを介してメディアクライアントデバイス(160A)および(160B)に配信されることができる。
【0023】
メディアクライアントデバイス(例えば、メディアクライアントデバイス(160A)および(160B))は、それぞれ、メディアアプリケーションのためのビデオコーディング機能およびオーディオコーディング機能を有する1つ以上のデバイスを含む。一例において、メディアクライアントデバイスの各々は、デスクトップコンピュータ、ラップトップコンピュータ、サーバコンピュータ、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、ヘッドマウントディスプレイデバイス、および同等物のような、コンピューティングデバイスを含む。メディアクライアントデバイスは、適切なメディアコーディング標準に従って符号化されたビットストリームを復号化(デコード)する(decode)ことができる。復号化された(decoded)ビデオコンテンツおよびオーディオコンテンツは、メディア再生(media play)に使用されることができる。
【0024】
メディアサーバデバイス(110)は、任意の適切な技術を用いて実装されることができる。
図1の例において、メディアサーバデバイス(110)は、互いに結合された処理回路(130)とインターフェース回路(111)とを含む。
【0025】
処理回路(130)は、1つ以上の中央処理装置(CPU)、1つ以上のグラフィックス処理装置(GPU)、特定用途向け集積回路、および同等物のような、任意の適切な処理回路構成を含むことができる。
図1の例において、処理回路(130)は、オーディオエンコーダ(140)、ビデオエンコーダ(図示せず)、および同等物のような、様々なエンコーダを含むように構成されることができる。一例では、1つ以上のCPUおよび/またはGPUが、オーディオエンコーダ(140)として機能するように、ソフトウェアを実行することができる。別の例において、オーディオエンコーダ(140)は、特定用途向け集積回路を使用して実装されることができる。
【0026】
インターフェース回路(111)は、メディアサーバデバイス(110)をネットワークとインターフェース接続することができる。インターフェース回路(111)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路(111)は、符号化されたビットストリームを搬送する信号を、ネットワークを介して、メディアクライアントデバイス(160A)、メディアクライアントデバイス(160B)、および同等物のような、他のデバイスに送信することができる。インターフェース回路(111)は、メディアクライアントデバイス(160A)および(160B)のような、メディアクライアントデバイスから信号を受信することができる。
【0027】
ネットワークは、イーサネット接続、光ファイバ接続、WiFi接続、携帯電話ネットワーク接続および同等物のような、有線および/または無線接続を介して、メディアサーバデバイス(110)およびメディアクライアントデバイス(例えば、メディアクライアントデバイス(160A)および(160B))と適切に結合される。ネットワークは、ネットワークサーバデバイス、ストレージデバイス、ネットワークデバイスおよび同等物を含むことができる。ネットワークのコンポーネント(構成要素)は、有線および/または無線接続を介して互いに適切に結合される。
【0028】
メディアクライアントデバイス(例えば、メディアクライアントデバイス(160A)および(160B))は、それぞれ、コーディングされたビットストリームを復号化するように構成される。一例において、各メディアクライアントデバイスは、表示されることができるビデオフレームのシーケンスを再構成するためにビデオ復号化(デコーディング)を実行することができ、再生のためにオーディオ信号を生成するためにオーディオ復号化を実行することができる。
【0029】
メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、任意の適切な技術を使用して実装されることができる。
図1の例では、ユーザAが使用することができるユーザ機器としてイヤホンを備えるヘッドマウントディスプレイ(HMD)に限定されない、メディアクライアントデバイス(160A)が示されており、ユーザBが使用するスマートフォンに限定されない、メディアクライアントデバイス(160B)が示されている。
【0030】
図1において、メディアクライアントデバイス(160A)は、
図1に示すように互いに結合されたインターフェース回路(161A)と処理回路(170A)とを含み、メディアクライアントデバイス(160B)は、
図1に示すように互いに結合されたインターフェース回路(161B)と処理回路(170B)とを含む。
【0031】
インターフェース回路(161A)は、メディアクライアントデバイス(160A)をネットワークとインターフェース接続することができる。インターフェース回路(161A)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路(161A)は、ネットワークから符号化されたビットストリームを搬送する信号のような、データを搬送する信号を受信することができる。
【0032】
処理回路(170A)は、CPU、GPU、特定用途向け集積回路および同等物のような、適切な処理回路を含むことができる。処理回路(170A)は、オーディオデコーダ(171A)、レンダラ(172A)、および同等物のような、様々なコンポーネントを含むように構成されることができる。
【0033】
幾つかの例において、オーディオデコーダ(171A)は、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、符号化されたビットストリームにおけるオーディオコンテンツを復号化することができる。更に、レンダラ(172A)は、符号化されたビットストリームから復号化されたオーディオコンテンツからメディアクライアントデバイス(160A)に適した最終的なデジタル製品を生成することができる。処理回路(170A)は、さらなるオーディオ処理のために、ミキサ、後処理回路、および同等物のような、他の適切なコンポーネント(図示せず)を含むことができることに留意されたい。
【0034】
同様に、インターフェース回路(161B)は、メディアクライアントデバイス(160B)をネットワークとインターフェース接続することができる。インターフェース回路(161B)は、ネットワークから信号を受信する受信部分と、ネットワークに信号を送信する送信部分とを含むことができる。例えば、インターフェース回路(161B)は、ネットワークから符号化されたビットストリームを搬送する信号のような、データを搬送する信号を受信することができる。
【0035】
処理回路(170B)は、CPU、GPU、特定用途向け集積回路および同等物のような、適切な処理回路構成を含むことができる。処理回路(170B)は、オーディオデコーダ(171B)、レンダラ(172B)、および同等物のような、様々なコンポーネントを含むように構成されることができる。
【0036】
幾つかの例において、オーディオデコーダ(171B)は、オーディオコンテンツを符号化したスキームに適した復号化ツールを選択することによって、復号化されたビットストリームにおけるオーディオコンテンツを復号化することができる。更に、レンダラ(172B)は、符号化されたビットストリームから復号化されたオーディオコンテンツからメディアクライアントデバイス(160B)に適した最終的なデジタル製品を生成することができる。処理回路(170A)は、さらなるオーディオ処理のために、ミキサ、後処理回路、および同等物のような、他の適切なコンポーネント(図示せず)を含むことができることに留意されたい。
【0037】
本開示の一態様によれば、メディアクライアントデバイスは、異なるCPU構成、異なるメモリ構成、および同等物のような、異なるメディア処理能力を有することがある。同じ符号化されたビットストリームについて、幾つかのメディアクライアントデバイスは、如何なる問題もなく符号化されたビットストリームからオーディオをレンダリングすることがあるが、幾つかのメディアクライアントデバイスは、処理能力の欠如の故に、オーディオを成功裡にレンダリングできないことがある。本開示の別の態様によれば、帯域幅、待ち時間のような、ネットワーク条件も、レンダリングに影響を及ぼすことがある。加えて、メディアクライアントデバイスのユーザは、個人化を好むことがあり、オーディオをどのようにレンダリングするかについて好みを有することがある。
【0038】
本開示の幾つかの態様によれば、メディアシステム(100)は、適応オーディオ配信およびレンダリング技術を用いて構成される。適応オーディオ配信およびレンダリング技術は、聴覚体験を最適化することができるように、メディア処理能力制約、ネットワーク条件制約、ユーザ嗜好制約、および同等のもののような、様々な制約を考慮しながら、オーディオ配信およびレンダリングを調整することができる。
【0039】
本開示の幾つかの態様によれば、オーディオ入力は、異なるオーディオ符号化構成の符号化されたビットストリームに符号化されることができる。メディアサーバデバイス(110)および/またはメディアクライアントデバイスは、メディアクライアントデバイスについて、様々な制約に基づいて適切なオーディオ符号化構成の符号化されたビットストリームを選択することができ、符号化されたビットストリームは、メディアクライアントデバイスに配信されることができ、オーディオ出力は、符号化されたビットストリームに基づいてメディアクライアントデバイスによってレンダリングされることができる。
【0040】
幾つかの実施形態において、メディアサーバデバイス(110)は、メディアクライアントデバイスにそれぞれ適したオーディオ符号化構成を選択するように構成される。幾つかの例において、処理回路(130)は、メディアクライアントデバイスにそれぞれ適したオーディオ符号化構成を選択するように構成された適応コントローラ(135)を含む。
【0041】
幾つかの例において、メディアサーバデバイス(110)は、オーディオソース(101)(例えば、オーディオ注入サーバ)からオーディオ入力を受信する。オーディオエンコーダ(140)は、オーディオ入力を異なるオーディオ符号化構成の符号化されたビットストリームに符号化することができる。オーディオ符号化構成は、ビットレート、カテゴリ化層(カテゴリ化レイヤー)、および同等物のような、オーディオ符号化に影響を及ぼす1つ以上のパラメータを含むことができる。
【0042】
幾つかの例において、オーディオ符号化構成は、異なるビットレートを有し、オーディオ入力は、異なるビットレートに従って符号化されたビットストリームに符号化される。幾つかの例において、オーディオ符号化構成は、異なるカテゴリ化層を有し、オーディオ入力は、異なるカテゴリ化層に従って符号化されたビットストリームに符号化される。幾つかの例では、オーディオ符号化構成が、ビットレートおよびカテゴリ化層の両方を含むことができる。オーディオ符号化構成は、異なるビットレートおよび/または異なるカテゴリ化層を有し、オーディオ入力は、異なるビットレートおよび/または異なるカテゴリ化層に従って符号化されたビットストリームに符号化される。
【0043】
幾つかのオンデマンドストリーミングアプリケーションにおいて、メディアサーバデバイス(110)は、異なるオーディオ符号化構成に従ってプログラム全体のオーディオコンテンツを符号化することができ、符号化されたビットストリームを格納することができる。一般に、メディアサーバデバイス(110)は、異なるオーディオ符号化構成の符号化されたビットストリームを格納するために、(メディアクライアントデバイスと比べて)比較的大きな記憶能力を有するように構成されることができる。異なるオーディオ符号化構成の符号化されたビットストリームは、例えば、メディアクライアントデバイスのそれぞれのメディア処理能力、メディアクライアントデバイスのそれぞれのネットワーク条件、メディアクライアントデバイスのそれぞれのユーザ嗜好、および同等のものに基づいて、それぞれのメディアクライアントデバイスに適応的に提供されることができる。
【0044】
幾つかのリアルタイムストリーミングアプリケーションにおいて、メディアサーバデバイス(110)は、プログラムのオーディオコンテンツの一部をリアルタイムで受信することができ、オーディオコンテンツの一部を異なるオーディオ符号化構成に従って符号化することができる。符号化されたビットストリームは、バッファされることができる。一般に、メディアサーバデバイス(110)は、異なるオーディオ符号化構成に従ってオーディオコンテンツの一部をリアルタイムで符号化するために(メディアクライアントデバイスと比べて)比較的大きなメディア処理能力を有するように構成されることができ、異なるオーディオ符号化構成の符号化されたビットストリームをバッファするために(メディアクライアントデバイスと比べて)比較的大きな記憶能力を有するように構成されることができる。異なるオーディオ符号化構成の符号化されたビットストリームは、例えば、メディアクライアントデバイスのそれぞれのメディア処理能力、メディアクライアントデバイスのそれぞれのネットワーク条件、メディアクライアントデバイスのそれぞれのユーザ嗜好、および同等のものに基づいて、それぞれのメディアクライアントデバイスに適用的に提供されることができる。
【0045】
例えば、
図1の例において、第1の符号化されたビットストリームは、最低ビットレート、最低カテゴリ化層、最低品質、および同等のもののような、第1のオーディオ符号化構成に基づいて符号化され、第2の符号化されたビットストリームは、中位ビットレート、中位カテゴリ化層、中位品質、および同等のもののような、第2のオーディオ符号化構成に基づいて符号化され、第N番目の符号化されたビットストリームは、最高ビットレート、最高カテゴリ化層、最高品質、および同等のもののような、第N番目のオーディオ符号化構成に基づいて符号化される。
【0046】
幾つかの例において、適応コントローラ(135)は、メディア処理能力制約、ネットワーク条件制約、ユーザ嗜好制約、および同等の制約のような、メディアクライアントデバイスに関連する制約の1つ以上を考慮して、メディアクライアントデバイスのための符号化されたビットストリームの1つを選択する。次に、選択された符号化されたビットストリームは、例えば、ネットワークを介して、メディアクライアントデバイスに送信される。幾つかの例では、制約のうちの1つ以上が変化することがあり、制約の変化に応答して、適応コントローラ(135)は、別の符号化されたビットストリームに切り替えて、他の符号化されたビットストリームをメディアクライアントデバイスに送信することを決定することができる。
【0047】
一例において、メディアクライアントデバイス(160A)は、ゲームアプリケーションにおいてユーザAによって使用されるVR機器である。VR機器は、ビデオおよびオーディオ処理のための十分な処理能力を有するように構成され、ゲームアプリケーションは、ユーザ体験のために高品質オーディオを好む。適応コントローラ(135)は、メディアクライアントデバイス(160A)の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス(160A)の構成は、オーディオ処理のための十分な処理能力を示し、よって、処理能力制約を示さず、ネットワーク条件情報は、十分な帯域幅を示し、ネットワーク接続制約を示さず、適応コントローラ(135)は、メディアクライアントデバイス(160A)に送信するためにN番目のオーディオ符号化構成のN番目の符号化されたビットストリームを選択することができる。
【0048】
一例として、メディアクライアントデバイス(160B)は、テレビ会議において空港でユーザBによって使用されるスマートフォンである。スマートフォンは、ビデオおよびオーディオ処理について限定的な処理能力を有することがあり、テレビ会議は、ユーザ体験のために高品質オーディオを必要としない。適応コントローラ(135)は、メディアクライアントデバイス(160B)の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス(160B)の構成は、オーディオ処理のための限定的な処理能力を示し、ネットワーク条件情報は、空港での限定的な帯域幅を示し、その後、適応コントローラ(135)は、メディアクライアントデバイス(160B)に送信するために、第1のオーディオ符号化構成の第1の符号化されたビットストリームを選択することができる。
【0049】
幾つかの実施形態において、メディアクライアントデバイスは、様々な制約に基づいて適切なオーディオ符号化構成を選択することができ、メディアサーバデバイス(110)に相応して通知/要求することができる。次に、メディアサーバデバイス(110)は、適切なオーディオ符号化構成を使用して符号化される符号化されたビットストリームをメディアクライアントデバイスに送信する。幾つかの例では、1つ以上の制約が変化するとき、メディアクライアントデバイスは、別のオーディオ符号化構成に切り替えることを決定することができ、メディアサーバデバイス(110)に相応して通知することができる。次に、メディアサーバデバイス(110)は、他のオーディオ符号化構成に従って符号化される別の符号化されたビットストリームをメディアクライアントデバイスに送信する。
【0050】
図1の例において、メディアクライアントデバイス(160A)は、メディアクライアントデバイス(160A)に関連する様々な制約に基づいて適切なオーディオ符号化構成を選択するように構成された適応コントローラ(175A)を含み、メディアクライアントデバイス(160B)は、メディアクライアントデバイス(160B)に関連する様々な制約に基づいて適切なオーディオ符号化構成を選択するように構成された適応コントローラ(175B)を含む。
【0051】
一例において、適応コントローラ(175A)は、メディアクライアントデバイス(160A)の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス(160A)の構成は、オーディオ処理のための十分な処理能力を示し、よって、処理能力制約を示さず、ネットワーク条件情報は、十分な帯域幅を示し、ネットワーク接続制約を示さず、次に、適応コントローラ(175A)は、例えば、N番目のオーディオ符号化構成を選択することができる。
【0052】
一例において、適応コントローラ(175B)は、メディアクライアントデバイス(160B)の構成を取得することができ、ネットワーク条件情報を取得することができる。メディアクライアントデバイス(160B)の構成は、オーディオ処理のための限定的な処理能力を示し、ネットワーク条件情報は、空港での限定的な帯域幅を示し、次に、適応コントローラ(175B)は、例えば、第1のオーディオ符号化構成を選択することができる。
【0053】
本開示の幾つかの態様によれば、メディアクライアントサーバ(110)に注入されるオーディオ入力は、オーディオチャネル、オーディオオブジェクト、高次アンビソニックス(HOA:higher order ambisonics)信号のセット、またはそれらの2つ以上の組み合わせのような、送信および再生のための様々なフォーマットを有することがある。
【0054】
本開示の一態様によれば、シーンのオーディオコンテンツは、シーンの音場内の場所に関連するオーディオチャネルのフォーマットにあることができる。例えば、オーディオチャネルは、サウンドシステム内のスピーカと関連付けられてよい。サウンドシステムは、様々なマルチチャネル構成を有することができる。幾つかの例において、サウンドシステム内のスピーカは、上層、中間層、下層と呼ぶ、3つの垂直層において視聴者(audience)の周りに配置されてよい。
【0055】
図2は、視聴者の周りの垂直3層スピーカレイアウトを示している。
【0056】
本開示の一態様によれば、マルチチャネルフォーマットにあるオーディオコンテンツは、音場内の場所のための複数のオーディオチャネルを含む。
【0057】
図3A~
図3Cは、サウンドシステムにおける上層、中間層および下層のスピーカ構成を示している。サウンドシステムは、22.2マルチチャネルサウンドシステムによって示されており、22.2マルチチャネルオーディオコンテンツを再生することができる。22.2マルチチャネルオーディオコンテンツは、24個のオーディオチャネルを含む。一例において、24個のオーディオチャネルは、サウンドシステム内の24個のスピーカ場所に対応することができる。24個のオーディオチャネルは、2つの低周波エフェクト(LFE:low frequency effects)チャネルを含む。
図3A~
図3B中の小さな正方形は、スピーカ場所を表しており、小さな正方形内の数字は、スピーカ場所についての指標である。
図3Aは、上層におけるスピーカ構成を示しており、
図3Bは、中間層におけるスピーカ構成を示しており、
図3Cは、下層におけるスピーカ構成を示している。一例において、スピーカ場所23および24は、2つのLFEチャネル用であってよい。
【0058】
幾つかのサウンドシステムは、より少ない数のスピーカを有することがあり、22.2マルチチャネルオーディオコンテンツは、より少ないオーディオチャネルのオーディオコンテンツを形成するためにダウンミックスされる(down mixed)ことができる。
【0059】
一例では、2.0マルチチャネルサウンドシステムによって示されるサウンドシステムは、2つのスピーカ場所を含むことがあり、22.2マルチチャネルオーディオコンテンツは、2つのスピーカ場所に対応する2つのオーディオチャネルを含む2.0マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。別の例では、5.1マルチチャネルサウンドシステムによって示されるサウンドシステムは、6つのスピーカ場所を含むことがあり、22.2マルチチャネルオーディオコンテンツは、6つのスピーカ場所に対応する6つのオーディオチャネルを含む5.1マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。別の例では、9.2マルチチャネルサウンドシステムによって示されるサウンドシステムが、11個のスピーカ場所を含むことがあり、22.2マルチチャネルオーディオコンテンツは、11個のスピーカ場所に対応する11個のオーディオチャネルを含む9.2マルチチャネルオーディオコンテンツを形成するためにダウンミックスされることができる。
【0060】
より少ない数のチャネルのオーディオコンテンツは、より少ない数のビットによって表されることができ、より少ない配信およびレンダリングリソースを要求することができることに留意されたい。
【0061】
本開示の別の態様によれば、シーンのオーディオコンテンツは、シーンの音場におけるサウンドソース(音源)と関連付けられる複数のオーディオオブジェクトのフォーマットにあることができる。
【0062】
図4は、VRアプリケーションにおけるシーンの音場における複数のサウンドソース(411)~(415)の一例を示している。シーンのオーディオコンテンツは、サウンドソース(411)~(415)のためのオーディオオブジェクトをそれぞれ含むことができる。
【0063】
別の例では、病院オーディオシーンは、医師室におけるように音場設定を有することができる。音場は、サウンドソースとして、医師、患者、テレビ、ラジオ、ドア、テーブルおよび椅子を含むことができる。よって、シーンのオーディオコンテンツは、サウンドソースのために7つのオーディオオブジェクトをそれぞれ含むことができる。例えば、第1のオーディオオブジェクトは、医師のサウンドに対応し、第2のオーディオオブジェクトは、患者のサウンドに対応し、第3のオーディオオブジェクトは、テレビのサウンドに対応し、第4のオーディオオブジェクトは、ラジオのサウンドに対応し、第5のオーディオオブジェクトは、ドアのサウンドに対応し、第6のオーディオオブジェクトは、テーブルのサウンドに対応し、第7のオーディオオブジェクトは、椅子のサウンドに対応する。
【0064】
本開示の別の態様によれば、シーンのオーディオコンテンツは、HOAのセットのフォーマットにあることができる。
【0065】
アンビソニック(ambisonic)は、全球サラウンドサウンドフォーマットである。水平面に加えて、アンビソニックは、聴取者の上下のサウンドソースをカバーする。アンビソニックの送信チャネルは、スピーカ信号を搬送しない。代わりに、送信チャネルは、Bフォーマットと呼ばれる音場のスピーカ非依存表現を含み、次に、それはスピーカセットアップに従って復号化される。アンビソニックは、再生がラウドスピーカ位置ではなくソース方向に関して考えることを可能にし、再生のために使用されるスピーカのレイアウトおよび数についてのかなりの程度の柔軟性を視聴者に提供する。
【0066】
一例では、一次アンビソニックが、高さおよび深さについての追加的な差分チャネル(difference channels)を追加する、中(mid)/側(side)(M/S)ステレオの三次元拡張として理解されることができる。結果として得られた信号セットは、Bフォーマットと呼ばれ、音圧についてW(M/SにおけるM)とラベル付けされ、前方マイナス後方(front-minus-back)音圧勾配についてXとラベル付けされ、左マイナス右(left-minus-right)についてY(M/SにおけるS)とラベル付けされ、上下(up-minus-down)についてZとラベル付けされる、4つのコンポーネントチャネルを含む。
【0067】
高次アンビソニックを使用することによって一次アンビソニックの空間分解能を改良することができる。例えば、一次アンビソニックは、僅かにぼやけたソースを有するが、比較的小さな使用可能な視聴エリアまたはスイートスポットに及ぶ。より選択的な指向性成分のグループをBフォーマットに加えることによって、空間分解能を増加させることができ、スイートスポットを拡大することができる。その場合、結果として得られた信号セットは、二次アンビソニック、三次アンビソニック、または集合的に高次アンビソニック(HOA)と呼ばれる。一般に、高次アンビソニックのセットは、低次アンビソニックのセットに加えて、より選択的な指向性成分を含む。
【0068】
本開示の幾つかの態様によれば、メディアサーバデバイス(110)へのオーディオ入力は、(オーディオ符号化構成に対応する)幾つかの異なるビットレートで符号化されることができる。幾つかの例において、メディアクライアントサーバ(110)は、異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0069】
幾つかの実施態様において、オーディオ入力は、オーディオチャネルのフォーマットにあるオーディオコンテンツを含む。オーディオチャネルは、幾つかの異なるビットレートで符号化される。例えば、オーディオチャネルは、第1の符号化されたビットストリームを形成するために(第1のオーディオ符号化構成に対応する)第1のビットレートで符号化され、オーディオチャネルは、第2の符号化されたビットストリームを形成するために(第2のオーディオ符号化構成に対応する)第2のビットレートで符号化されなどである。幾つかの例において、メディアクライアントサーバ(110)は、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0070】
幾つかの実施形態において、オーディオ入力は、オーディオオブジェクトのフォーマットにあるオーディオコンテンツを含む。オーディオオブジェクトは、幾つかの異なるビットレートで符号化される。例えば、オーディオオブジェクトは、第1の符号化されたビットストリームを形成するために、(第1のオーディオ符号化構成に対応する)第1のビットレートで符号化され、オーディオオブジェクトは、第2のビットレートで第2の符号化されたビットストリームを形成するために、(第2のオーディオエンコード構成に対応する)第2のビットレートで符号化される。幾つかの例において、メディアクライアントサーバ(110)は、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化されたビットストリームを選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0071】
幾つかの実施形態において、オーディオ入力は、二次アンビソニック信号のセット、三次アンビソニック信号のセット、四次アンビソニック信号のセット、および同等のもののような、HOA信号のセットのフォーマットにあるオーディオコンテンツを含む。HOAフォーマットにあるオーディオコンテンツは、幾つかの異なるビットレートで符号化される。例えば、HOAフォーマットのオーディオコンテンツは、第1の符号化されたビットストリームを形成するために、(第1のオーディオ符号化構成に対応する)第1のビットレートで符号化され、HOAフォーマットのオーディオコンテンツは、第2のビットレートで第2の符号化されたビットストリームを形成するために、(第2のオーディオ符号化構成に対応する)第2のビットレートで符号化される。幾つかの例において、メディアクライアントサーバ(110)は、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、(異なるオーディオ符号化構成に対応する)異なるビットレートの符号化ビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0072】
幾つかの実施形態では、品質識別子(ID)がビットレートで割り当てられる。メディアサーバデバイス(110)またはコンテンツ作成者は、品質IDを使用して、オーディオ入力を配信のために符号化されたビットストリームに符号化するためにどのビットレートを使用するかを示すことができる。メディアクライアントデバイス(160A)またはメディアクライアントデバイス(160B)のようなメディアクライアントデバイスは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに基づいて、特定の品質IDを要求することができる。
【0073】
オーディオシーンのオーディオコンテンツは、オーディオチャネル、オーディオオブジェクト、HOAなどをミキシングする混合されたフォーマットにあり得ることに留意されたい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびHOAのうちの2つ以上のものの混合されたフォーマットであるとき、符号化ビットレートが、オーディオチャネル、オーディオオブジェクト、またはHOA信号に別々に適用されてよい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびHOAのうちの2つ以上のものの混合されたフォーマットであるとき、符号化ビットレートは、オーディオチャネル、オーディオオブジェクト、およびHOA信号の組み合わせに適用されてよい。
【0074】
本開示の幾つかの態様によれば、メディアサーバデバイス(110)へのオーディオ入力中のオーディオコンテンツは、幾つかのカテゴリ化層に分類されることができる。幾つかの例において、各カテゴリ化層は、オーディオ入力中のオーディオコンテンツの一部を含むことができる。幾つかの例では、より高いカテゴリ化層は、より低いカテゴリ化層と、オーディオ入力中のオーディオコンテンツの追加部分とを含むことができる。よって、カテゴリ化層は、オーディオ符号化構成におけるパラメータであることができる。幾つかの例において、メディアクライアントサーバ(110)は、(オーディオ符号化構成に対応する)異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、(オーディオ符号化構成に対応する)異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0075】
幾つかの実施態様において、オーディオ入力は、オーディオチャネルのフォーマットにあるオーディオコンテンツを含む。オーディオチャネルは、幾つかのカテゴリ化層に分類されることができる。
【0076】
例えば、オーディオ入力は、22.2マルチチャネルオーディオコンテンツのフォーマットにあるオーディオコンテンツを含む。例えば、22.2マルチチャネルオーディオコンテンツは、4つのカテゴリ化層、すなわち、2.0マルチチャネルオーディオコンテンツの第1のカテゴリ化層、5.1マルチチャネルオーディオコンテンツの第2のカテゴリ化層、9.2マルチチャネルオーディオコンテンツの第3のカテゴリ化層、および22.2マルチチャネルオーディオコンテンツの第4のカテゴリ化層に分類されることができる。2.0マルチチャネルオーディオコンテンツは、(第1のオーディオ符号化構成の)第1の符号化されたビットストリームに符号化されることができ、5.1マルチチャネルオーディオコンテンツは、(第2のオーディオ符号化構成の)第2の符号化されたビットストリームに符号化されることができ、9.2マルチチャネルオーディオコンテンツは、(第3のオーディオ符号化構成の)第3の符号化されたビットストリームに符号化されることができ、22.2マルチチャネルオーディオコンテンツは、(第4のオーディオ符号化構成の)第4の符号化されたビットストリームに符号化されることができる。
【0077】
幾つかの例において、メディアクライアントサーバ(110)は、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0078】
上記記述は、オーディオチャネルカテゴリ化の一例である。22.2マルチチャネルオーディオコンテンツは、幾つかの例において、上記記述とは異なって分類され得ることに留意されたい。
【0079】
別の実施形態において、オーディオオブジェクトは、幾つかのカテゴリ化層に分類される。病院のオーディオシーンを例にとると、病院のオーディオシーンのオーディオコンテンツは、サウンドソースのためのそれぞれ7つのオーディオオブジェクト、すなわち、医師のサウンドに対応する第1のオーディオオブジェクト、患者のサウンドに対応する第2のオーディオオブジェクト、テレビのサウンドに対応する第3のオーディオオブジェクト、ラジオのサウンドに対応する第4のオーディオオブジェクト、ドアのサウンドに対応する第5のオーディオオブジェクト、テーブルのサウンドに対応する第6のオーディオオブジェクト、および椅子のサウンドに対応する第7のオーディオオブジェクトを含むことができる。
【0080】
一例において、7つのオーディオオブジェクトは、第3のカテゴリ化層に分類されることができる。第1のカテゴリ化層は、医師のサウンドに対応する第1のオーディオオブジェクトと、患者のサウンドに対応する第2のオーディオオブジェクトとを含む。第2のカテゴリ化層は、医師のサウンドに対応する第1のオーディオオブジェクトと、患者のサウンドに対応する第2のオーディオオブジェクトと、テレビのサウンドに対応する第3のオーディオオブジェクトと、ラジオのサウンドに対応する第4のオーディオオブジェクトとを含む。第3のカテゴリ化層は、医師のサウンドに対応する第1のオーディオオブジェクトと、患者のサウンドに対応する第2のオーディオオブジェクトと、テレビのサウンドに対応する第3のオーディオオブジェクトと、ラジオのサウンドに対応する第4のオーディオオブジェクトと、ドアのサウンドに対応する第5のオーディオオブジェクトと、テーブルのサウンドに対応する第6のオーディオオブジェクトと、椅子のサウンドに対応する第7のオーディオオブジェクトとを含む。
【0081】
第1のカテゴリ化層は、(第1のオーディオ符号化構成の)第1の符号化されたビットストリームに符号化されることができ、第2のカテゴリ化層は、(第2のオーディオ符号化構成の)第2の符号化されたビットストリームに符号化されることができ、第3のカテゴリ化層は、(第3のオーディオ符号化構成の)第3の符号化されたビットストリームに符号化されることができる。幾つかの例において、メディアクライアントサーバ(110)は、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例において、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0082】
上記記述は、オーディオオブジェクトのカテゴリ化の一例である。オーディオオブジェクトを有するオーディオシーンは、幾つかの例において、上記記述とは異なって分類され得ることに留意されたい。
【0083】
別の実施形態では、HOA信号は、異なる順序に従って幾つかのカテゴリ化層に分類される。一例において、4次のHOA信号のセットは、4つのカテゴリ化層に分類されることができる。第1のカテゴリ化層は、一次のHOA信号のセットを含む。第2のカテゴリ化層は、二次のHOA信号のセットを含む。第3のカテゴリ化層は、三次のHOA信号のセットを含む。第4のカテゴリ化層は、四次のHOA信号のセットを含む。
【0084】
第1のカテゴリ化層は、(第1のオーディオ符号化構成の)第1の符号化されたビットストリームに符号化されることができ、第2のカテゴリ化層は、(第2のオーディオ符号化構成の)第2の符号化されたビットストリームに符号化されることができ、第3のカテゴリ化層は、(第3のオーディオ符号化構成の)第3の符号化されたビットストリームに符号化されることができ、第4のカテゴリ化層は、(第4のオーディオ符号化構成の)第4の符号化されたビットストリームに符号化されることができる。幾つかの例において、メディアクライアントサーバ(110)は、(異なるオーディオ符号化構成に対応する)異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。幾つかの例では、メディアクライアントデバイス(160A)および(160B)のようなメディアクライアントデバイスは、(異なるオーディオ符号化構成に対応する)異なるカテゴリ化層の符号化されたビットストリーム間で選択するか或いは切り替えることができる。例えば、選択または切り替えは、利用可能なリソース(例えば、処理能力、ネットワーク帯域幅)、および/またはユーザ嗜好、および同等のものに依存することができる。
【0085】
上記記述は、HOAカテゴリ化の一例である。HOA信号は、幾つかの例において上記記述とは異なって分類され得ることに留意されたい。
【0086】
幾つかの実施形態において、層識別子(ID)は、オーディオ入力のカテゴリ化層のために割り当てられることができる。サーバデバイスまたはコンテンツ作成者は、層IDを使用して、オーディオ入力のどの層が配信されるかを示すことができ、クライアントデバイスは、利用可能なリソースおよび/またはユーザ嗜好などに基づいて、特定の層IDを要求することができる。
【0087】
オーディオシーンのオーディオコンテンツは、オーディオチャネル、オーディオオブジェクト、HOAなどをミキシングする混合されたフォーマットにあり得ることに留意されたい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびHOAのうちの2つ以上のものの混合されたフォーマットにあるとき、カテゴリ化層は、オーディオチャネル、オーディオオブジェクト、またはHOA信号に従って別々に決定されてよい。幾つかの例では、オーディオコンテンツが、オーディオチャネル、オーディオオブジェクト、およびHOAのうちの2つ以上のものの混合されたフォーマットであるとき、カテゴリ化層は、オーディオチャネル、オーディオオブジェクト、およびHOA信号の組み合わせに基づいて決定されてよい。
【0088】
図5は、本開示の一実施形態によるプロセス(500)を概説するフローチャートを示している。プロセス(500)は、メディアクライアントデバイス(160A)および(160B)に使用されるような、オーディオ処理のためのクライアントデバイスにおいて使用されることができ、処理回路(170A)および処理回路(170B)、および同等のものによって実行されることができる。幾つかの実施形態において、プロセス(500)は、ソフトウェア命令において実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス(500)を実行する。プロセスは、(S5301)で始まり、(S510)に進む。
【0089】
(S510)で、選択信号がクライアントデバイスによって送信される。選択信号は、オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を示す。
【0090】
幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力のオーディオコンテンツの一部に対応するカテゴリ化層を含む。
【0091】
一例では、オーディオ符号化構成と関連付けられる識別子(例えば、品質識別子、カテゴリ化識別子)が送信される。
【0092】
一例において、選択信号は、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、およびクライアントデバイスのユーザによる嗜好入力のうちの少なくとも1つに従って決定される。
【0093】
(S520)で、符号化されたビットストリームが、選択信号の送信に応答して受信される。符号化されたビットストリームは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む。
【0094】
幾つかの例において、オーディオ符号化構成は、ビットレートを含む。一例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオチャネルを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオオブジェクトを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化されるオーディオ高次アンビソニック(HOA)信号のセットを含む。
【0095】
幾つかの例において、オーディオ符号化構成は、カテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットを含む(そのようなサブセットに基づいて符号化される)。オーディオチャネルのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットを含む(そのようなサブセットに基づいて符号化される)。オーディオオブジェクトのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のHOA信号の低減された次数のセットを含む(そのようなセットに基づいて符号化される)。HOA信号の低減された次数のセットは、カテゴリ化層に対応する。
【0096】
(S530)で、オーディオ信号は、符号化されたビットストリームに従ってレンダリングされる。次に、プロセスは、(S599)に進み、終了する。
【0097】
プロセス(500)は、適切に適合されることができる。プロセス(500)におけるステップは、修正および/または省略されることができる。追加的なステップを追加することができる。任意の適切な順序の実装を使用することができる。
【0098】
図6は、本開示の一実施形態によるプロセス(600)の概説するフローチャートを示している。プロセス(600)は、メディアサーバデバイス(110)において使用されるようなオーディオ処理のためのサーバデバイスにおいて使用されることができ、処理回路(130)および同等のものによって実行されることができる。幾つかの実施形態において、プロセス(600)は、ソフトウェア命令において実装され、よって、処理回路構成がソフトウェア命令を実行するとき、処理回路構成は、プロセス(600)を実行する。プロセスは、(S601)で開始し、(S610)に進む。
【0099】
(S610)で、サーバデバイスは、クライアントデバイス(例えば、メディアクライアントデバイス(160A)、メディアクライアントデバイス(160B)、および同等のもの)について、オーディオ入力中のオーディオコンテンツを符号化するためのオーディオ符号化構成を決定する。
【0100】
幾つかの例において、オーディオ符号化構成は、オーディオコンテンツを符号化するためのビットレートを含む。幾つかの例において、オーディオ符号化構成は、オーディオ入力のオーディオコンテンツ中の一部に対応するカテゴリ化層を含む。
【0101】
幾つかの例において、サーバデバイスは、クライアントデバイスのメディア処理能力、クライアントデバイスのネットワーク接続、および嗜好入力のうちの少なくとも1つに従って、オーディオ符号化構成を決定する。
【0102】
(S620)で、サーバデバイスは、オーディオ符号化構成に従って符号化されるオーディオコンテンツを含む符号化されたビットストリームを取得する。
【0103】
幾つかの例において、オーディオ符号化構成は、ビットレートを含む。一例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオチャネルを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化される複数のオーディオオブジェクトを含む。別の例において、符号化されたビットストリームは、ビットレートに従って符号化されるオーディオ高次アンビソニック(HOA)信号のセットを含む。
【0104】
幾つかの例において、オーディオ符号化構成は、カテゴリ化層を含む。一例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオチャネルのサブセットを含む(そのようなサブセットに基づいて符号化される)。オーディオチャネルのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のオーディオオブジェクトのサブセットを含む(そのようなサブセットに基づいて符号化される)。オーディオオブジェクトのサブセットは、カテゴリ化層に対応する。別の例において、符号化されたビットストリームは、オーディオ入力のオーディオコンテンツ中のHOA信号の低減された次数のセットを含む(そのようなセットに基づいて符号化される)。HOA信号の減少された次数のセットは、カテゴリ化層に対応する。
【0105】
(S630)で、符号化されたビットストリームは、クライアントデバイスに送信される。幾つかの例において、サーバデバイスは、オーディオ入力のオーディオコンテンツを符号化するために使用されるオーディオ符号化構成を示す識別子(ID)(例えば、品質識別子、カテゴリ化層識別子、および同等のもの)も送信する。
【0106】
次に、プロセスは、(S699)に進み、終了する。
【0107】
プロセス(600)は、適切に適合されることができる。プロセス(600)におけるステップは、修正および/または省略されることができる。追加的なステップを追加することができる。任意の適切な順序の実装を使用することができる。
【0108】
上述の技術は、コンピュータ読取可能命令を用いてコンピュータソフトウェアとして実装されることができ、1つ以上のコンピュータ読取可能媒体に物理的に格納されることができる。例えば、
図7は、開示する主題の特定の実施形態を実装するのに適したコンピュータシステム(700)を示している。
【0109】
コンピュータソフトウェアは、直接的に或いは1つ以上のコンピュータ中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)および同等物による解釈、マイクロコード実行および同等のことを通じて実行されることができる命令を含むコードを作成するために、アセンブリ、コンパイル、リンクまたは類似のメカニズムの対象となることがある、任意の適切な機械コードまたはコンピュータ言語を使用して、コーディングされることができる。
【0110】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、モノのインターネットデバイス、および同等物を含む、様々なタイプのコンピュータまたはそれらのコンポーネント上で実行されることができる。
【0111】
コンピュータシステム(700)について
図7に示すコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲または機能性についての如何なる制限を示唆することも意図していない。コンポーネントの構成は、コンピュータシステム(700)の例示的な実施形態に示すコンポーネントの任意の1つまたは組み合わせに関する如何なる従属性または要件を有するものとして解釈されてもならない。
【0112】
コンピュータシステム(700)は、特定のヒューマンインターフェース入力デバイスを含むことがある。そのようなヒューマンインターフェース入力デバイスは、例えば、(キーストローク、スワイプ、データグローブの動きのような)触覚入力、(音声(voice)、拍手のような)可聴入力、(ジェスチャのような)視覚入力、嗅覚入力(図示せず)を通じて、1人以上の人間ユーザによる入力に応答することがある。ヒューマンインターフェースデバイスは、(発話、音楽、周囲サウンドのような)オーディオ、(スキャンされた画像、静止画像カメラから得られる写真画像のような)画像、(例えば、二次元ビデオ、立体視ビデオを含む三次元ビデオのような)ビデオのような、人間による意識的な入力に必ずしも直接的に関係しない特定のメディアを取り込むために使用されることもできる。
【0113】
入力ヒューマンインターフェースデバイスは、キーボード(701)、マウス(702)、トラックパッド(703)、タッチスクリーン(710)、データグローブ(図示せず)、ジョイスティック(705)、マイクロホン(706)、スキャナ(707)、カメラ(708)のうちの1つ以上(各々1つだけが描かれている)を含んでよい。
【0114】
コンピュータシステム(700)は、特定のヒューマンインターフェース出力デバイスを含んでもよい。そのようなヒューマンインターフェース出力デバイスは、例えば、触覚出力、サウンド、光、および嗅覚/味覚を通じて、1人以上の人間ユーザの感覚を刺激することがある。そのようなヒューマンインターフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン(710)、データグローブ(図示せず)、またはジョイスティック(705)による触覚フィードバックであるが、入力デバイスとして機能しない触覚フィードバックデバイスもある)、(スピーカ(709)、ヘッドフォン(図示せず)のような)オーディオ出力デバイス、(各々がタッチスクリーン入力能力を持つか或いは持たない、各々が触覚フィードバック能力を持つか或いは持たない、それらの一部は、立体出力、仮想現実ガラス(図示せず)、ホログラフィックディスプレイおよびスモークタンク(図示せず)およびプリンタ(図示せず)のような手段を通じて、二次元視覚出力または三次元よりも多くの次元の出力を出力し得ることがある、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含む、スクリーン(710)のような)視覚出力デバイスを含むことがある。
【0115】
コンピュータシステム(700)は、人間がアクセス可能な記憶デバイスや、CD/DVDまたは同等物を備えるCD/DVD ROM/RW(720)、サムドライブ(722)、取り外し可能なハードドライブまたはソリッドステートドライブ(723)、テープおよびフロッピーディスク(図示せず)のようなレガシー磁気媒体、セキュリティドングル(図示せず)のような特殊化されたROM/ASIC/PLDベースのデバイス、および同等物を含む、光媒体のような、それらの関連する媒体も含むことができる。
【0116】
当業者は、現在開示されている主題に関連して使用されるような「コンピュータ可読媒体」という用語が、送信媒体、搬送波、または他の過渡信号を包含しないことも理解するはずである。
【0117】
コンピュータシステム(700)は、1つ以上の通信ネットワーク(755)へのインターフェース(754)を含むこともできる。ネットワークは、例えば、無線、有線、光であることができる。ネットワークは、更に、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、遅延耐性等であることができる。ネットワークの例は、イーサネット、無線LANのようなローカルエリアネットワーク、GSM、3G、4G、5G、LTEおよび同等のものを含むセルラネットワーク、ケーブルTV、衛星TV、および地上放送TVを含むTV有線または無線ワイドエリアデジタルネットワーク、CANBusを含む車両および産業などを含む。特定のネットワークは、一般に、(例えば、コンピュータシステム(700)のUSBポートのような)特定の汎用データポートまたは周辺バス(749)に取り付けられる外部ネットワークインターフェースアダプタを必要とし、他のネットワークは、一般に、以下に記載するようなシステムバスへの取り付けによって、コンピュータシステム(700)のコアに統合される(例えば、PCコンピュータシステムへのイーサネットインターフェースまたはスマートフォンコンピュータシステムへのセルラネットワークインターフェース)。これらのネットワークのいずれかを使用して、コンピュータシステム(700)は、他のエンティティと通信することができる。そのような通信は、単指向性、受信のみ(例えば、放送テレビ)、単指向性送信のみ(例えば、特定のCANbusデバイスへのCANbus)、または、例えば、ローカルまたはワイドエリアデジタルネットワークを使用する他のコンピュータシステムへの、双指向性であることができる。特定のプロトコルおよびプロトコルスタックは、上述のように、それらのネットワークおよびネットワークインターフェースの各々で使用されることができる。
【0118】
前述のヒューマンインターフェースデバイス、人間がアクセス可能な記憶デバイス、およびネットワークインターフェースは、コンピュータシステム(700)のコア(740)に取り付けられることができる。
【0119】
コア(740)は、1つ以上の中央処理装置(CPU)(741)、グラフィックス処理装置(GPU)(742)、フィールドプログラマブルゲートエリア(FPGA)(743)の形態の特殊化されたプログラマブル処理装置、特定のタスクのためのハードウェアアクセラレータ(744)、グラフィックスアダプタ(750)などを含むことができる。これらのデバイスは、読出し専用メモリ(ROM)(745)、ランダムアクセスメモリ(746)、内部ユーザアクセス可能でないハードドライブのような内部大容量記憶装置、SSD、および同等物(747)と共に、システムバス(748)を通じて接続されてよい。幾つかのコンピュータシステムにおいて、システムバス(748)は、追加のCPU、GPU、および同等物による拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス(748)に直接的に取り付けられることができ、或いは周辺バス(749)を通じて取り付けられることができる。一例において、スクリーン(710)は、グラフィックスアダプタ(750)に接続されることができる。周辺バスのためのアーキテクチャは、PCI、USB、および同等物を含む。
【0120】
CPU(741)、GPU(742)、FPGA(743)、およびアクセラレータ(744)は、組み合わせにおいて、上述のコンピュータコードを構成することができる、特定の命令を実行することができる。そのコンピュータコードは、ROM(745)またはRAM(746)に格納されることができる。移行データも、RAM(746)に格納されることができるのに対し、永久データは、例えば、内部大容量記憶装置(747)に格納されることができる。1つ以上のCPU(741)、GPU(742)、大容量記憶装置(747)、ROM(745)、RAM(746)、および同等物と密接に関連付けられることができるキャッシュメモリの使用を通じて、メモリデバイスのいずれかへの高速格納および検索を可能にすることができる。
【0121】
コンピュータ読取可能媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードをその上に有することができる。媒体およびコンピュータコードは、本開示の目的のために特別に設計および構築されたものであることができ、或いは、それらは、コンピュータソフトウェア技術の当業者によく知られており且つ利用可能である種類のものであることができる。
【0122】
一例として、限定によってではなく、アーキテクチャ(700)、具体的には、コア(740)を有する、コンピュータシステムは、1つ以上の有形のコンピュータ読取可能媒体において具現されるソフトウェアを実行する(CPU、GPU、FPGA、アクセラレータ、および同等物を含む)プロセッサの結果としての機能性を提供することができる。そのようなコンピュータ読取可能媒体は、上述のようなユーザアクセス可能な大容量記憶装置と関連付けられる媒体、並びにコア内部大容量記憶装置(747)またはROM(745)のような非一時的な性質を有するコア(740)の特定の記憶装置であってよい。本開示の様々な実施形態を実装するソフトウェアは、そのようなデバイスに格納されることができ、コア(740)によって実行されることができる。コンピュータ読取可能媒体は、特定のニーズに従って、1つ以上のメモリデバイスまたはチップを含むことができる。ソフトウェアは、コア(740)、特にコア内の(CPU、GPU、FPGA、および同等物を含む)プロセッサに、RAM(746)に格納されるデータ構造を定義ことと、ソフトウェアによって定義されるプロセスに従ってそのようなデータ構造を修正することとを含む、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。追加的にまたは代替的に、コンピュータシステムは、回路内に配線された或いは他の方法で具現されたロジック(論理)の結果として機能性(例えば、アクセラレータ(744))を提供することができ、それは、本明細書に記載する特定のプロセスまたは特定のプロセスの特定の部分を実行するためにソフトウェアの代わりに或いはソフトウェアと共に作動することができる。ソフトウェアへの言及は、ロジックを含み、必要に応じて、その逆も同様である。コンピュータ読取可能媒体への言及は、実行のためのソフトウェアを格納する(集積回路(IC)のような)回路、実行のためのロジックを具現する回路、または適切な場合にはそれらの両方を含むことができる。本開示は、ハードウェアおよびソフトウェアの任意の適切な組み合わせを含む。
【0123】
この開示は幾つかの例示的な実施形態を記載したが、本開示の範囲内にある変更、置換、および様々な代替的な均等物がある。よって、当業者は、本明細書に明示的に示されていないか或いは記載されていないが、本開示の原理を具現し、よって、本開示の精神および範囲内にある、数多くのシステムおよび方法を考案することができることが理解されるであろう。