(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-08
(45)【発行日】2023-12-18
(54)【発明の名称】リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法
(51)【国際特許分類】
H04N 7/15 20060101AFI20231211BHJP
H04N 21/236 20110101ALI20231211BHJP
G10L 19/008 20130101ALI20231211BHJP
【FI】
H04N7/15
H04N21/236
G10L19/008 100
(21)【出願番号】P 2022564046
(86)(22)【出願日】2022-03-14
(86)【国際出願番号】 US2022020150
(87)【国際公開番号】W WO2022192769
(87)【国際公開日】2022-09-15
【審査請求日】2022-10-20
(32)【優先日】2021-03-12
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-03-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】ロヒト・アビシェーク
(72)【発明者】
【氏名】イーラジ・ソダガー
【審査官】益戸 宏
(56)【参考文献】
【文献】特開2017-103641(JP,A)
【文献】中国特許出願公開第112260982(CN,A)
【文献】米国特許出願公開第2019/0335287(US,A1)
【文献】特表2019-530996(JP,A)
【文献】特表2018-518869(JP,A)
【文献】欧州特許出願公開第3016344(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 7/15
H04N 21/00 ー 21/858
G10L 19/00 ー 19/26
(57)【特許請求の範囲】
【請求項1】
セッション記述プロトコル(SDP)を使用して、遠隔会議でオーディオミキシングゲインをシグナリングするための方法であって、
360度ストリームから、オーディオミキシングゲインを含む入力オーディオストリームを受信するステップと、
前記SDPを使用して、前記入力オーディオストリームのリアルタイムトランスポートプロトコル(RTP)のヘッダ拡張を宣言するステップであって、前記RTPヘッダ拡張は要素を含み、前記要素は、要素識別子、前記要素の長さ、および前記オーディオミキシングゲインの大きさを含む、ステップと、
前記RTPヘッダ拡張を使用して、前記SDPの単一の属性に基づいて前記オーディオミキシングゲインをシグナリングするステップと、を含み、
前記オーディオミキシングゲインは、前記入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインとを含む、方法。
【請求項2】
前記SDP用の拡張バッカス・ナウア記法(ABNF)を用いて、前記オーディオミキシングゲインと前記単一の属性とが記述されている、請求項1に記載の方法。
【請求項3】
前記オーディオミキシングゲインをシグナリングするために、1バイトのRTPヘッダ拡張フォーマットが使用される、請求項1に記載の方法。
【請求項4】
前記オーディオミキシングゲインをシグナリングするために、2バイトのRTPヘッダ拡張フォーマットが使用される、請求項1に記載の方法。
【請求項5】
前記SDP内の統一資源識別子(URI)を使用して、前記RTPヘッダ拡張が宣言され、
前記RTPヘッダ拡張は、前記入力オーディオストリームの最初のパケットにのみ存在する、請求項1に記載の方法。
【請求項6】
前記オーディオミキシングゲインを更新するステップをさらに含み、
送信側が前記オーディオミキシングゲインを更新すると、前記オーディオミキシングゲインを規定する前記単一の属性のメディアレベル部分のみが送信され、
更新する前記ステップは、所定数未満の頻度を有する、請求項1に記載の方法。
【請求項7】
前記RTPヘッダ拡張は、前記オーディオミキシングゲインが更新されるときに繰り返される、請求項6に記載の方法。
【請求項8】
前記入力オーディオストリームおよび前記オーバーレイオーディオストリームからのオーディオミキシングゲインアレイをシグナリングするステップをさらに含む、請求項1に記載の方法。
【請求項9】
セッション記述プロトコル(SDP)を使用して、遠隔会議でオーディオミキシングゲインをシグナリングするためのシステムであって、
命令を記憶する少なくとも1つのメモリと、
前記命令を実行するように構成された少なくとも1つのプロセッサであって、前記命令を実行することで、
請求項1から8のいずれか一項に記載の方法を行う少なくとも1つのプロセッサと、を備え
る、システム。
【請求項10】
少なくとも1つのプロセッサによって実行されると、前記少なくとも1つのプロセッサに、
請求項1から8のいずれか一項に記載の方法を行わせる
、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年3月12日に出願された米国仮特許出願第63/160,630号に基づいており、これに対する優先権を主張し、その開示内容は、その全体が参照により本明細書に組み込まれる。
【0002】
本開示の実施形態は、リモート端末向けの没入型遠隔会議およびテレプレゼンス(Immersive Teleconferencing and Telepresence for Remote Terminals:ITT4RT)のオーディオミキシングゲインのシグナリングに関し、より詳細には、異なる使用事例に基づいて、360度の背景およびオーバーレイのオーディオストリームを共にミキシングするためのオーディオミキシングゲインをシグナリングする、セッション記述プロトコル(Session Description Protocol:SDP)属性およびリアルタイムトランスポートプロトコル(Real-time Transport Protocol:RTP)のヘッダ拡張を定義することに関する。
【背景技術】
【0003】
全方向性メディアストリームが用いられる場合、ヘッドマウントディスプレイ(head-mounted display:HMD)を使用しながら、ユーザのビューポートに対応するコンテンツの一部のみがレンダリングされ、ユーザに対し、メディアストリームのリアリスティックなビューを提供する。
【0004】
図1は、従来技術による没入型遠隔会議のシナリオ(シナリオ1)を示しており、当該会議は、ルームA(101)と、ユーザB(102)と、ユーザC(103)との間で編成されている。
図1に示すように、ルームA(101)は、全方向性/360度カメラ(104)を備えた会議室を表し、ユーザB(102)とユーザC(103)とは、それぞれHMDおよびモバイル端末を使用するリモート参加者である。この場合、参加者ユーザB(102)とユーザC(103)とは、自身のビューポート方向をルームA(101)に送信し、一方でルームA(101)は、ユーザB(102)およびユーザC(103)にビューポート依存ストリームを送信する。
【0005】
複数の会議室(2a01,2a02,2a03,2a04)を含む拡張シナリオ(シナリオ2)が
図2Aに示されている。ユーザB(2a06)はHMDを使用して、360度カメラ(104)からのビデオストリームを視聴しており、ユーザC(2a07)はモバイル端末を使用して、ビデオストリームを視聴している。ユーザB(2a06)とユーザC(2a07)とは、自身のビューポート方向を会議室(2a01,2a02,2a03,2a04)のうちの少なくとも1つに送信し、一方で当該会議室のうちの1つは、ユーザB(2a06)およびユーザC(2a07)にビューポート依存ストリームを送信する。
【0006】
図2Bに示すように、別の例示的なシナリオ(シナリオ3)は、メディアリソース機能(Media Resource Function:MRF)またはメディア制御装置(Media Control Unit:MCU)(2b05)を使用して会議がセットアップされる場合を想定しており、MRFとMCUとは、多人数参加型遠隔会議において端末をブリッジするためのメディア関連機能を提供する、マルチメディアサーバである。これらの会議室は、それぞれのビデオを各自MRF/MCU(2b05)に送信してもよい。これらのビデオはビューポート非依存ビデオであり、すなわち、ユーザのビューポートが特定のビデオをストリーム再生しているかどうかに関係なく、360度ビデオ全体がメディアサーバ(すなわち、MRF/MCUである)に送信される。メディアサーバは、ユーザ(ユーザB(2b06)およびユーザC(2b07)である)のビューポート方向を受信し、それに応じてユーザにビューポート依存ストリームを送信する。
【0007】
シナリオ3に加えて、リモートユーザは、会議室(2a01~2a04,2b01~2b04)から利用可能な360度ビデオのうちの1つの視聴を選択することができる。そのような場合、ユーザは、ストリーム配信を望むビデオおよびそのビューポート方向に関する情報を、会議室またはMRF/MCU(2b05)に送信する。ユーザは、アクティブスピーカに基づいて、あるルームから別のルームへの切替えをさらにトリガすることができる。メディアサーバは、アクティブなユーザが存在しない会議室がある場合、その会議室からのビデオストリームの受信を一時停止してもよい。
【0008】
ISO 23090-2ではオーバーレイを、「全方向性ビデオもしくは画像アイテムまたはビューポート上にレンダリングされた視聴覚媒体の一部分」と定義している。会議室Aの任意の参加者によって共有されているプレゼンテーションがある場合、このプレゼンテーションは会議室Aに表示されることに加えて、他のユーザ(会議室(2a02~2a04,2b02~2b04)、ユーザB(2b06)、および/またはユーザC(2b07)である)にもストリーム配信としてブロードキャストされる。当該ストリームは、360度ビデオ上にオーバーレイされ得る。さらに、オーバーレイは2Dストリームにも使用され得る。個々のオーディオストリームのデフォルトのオーディオミキシングゲインは、それぞれ360ビデオ(a0)およびオーバーレイビデオ(a1,a2,…,aN)のオーディオゲイン(r0,r1,…,rN)であり、オーディオ出力はr0*a0+r1*a1+…+rn*anに等しく、式中r0+r1+…+rN=1である。受信側またはMRF/MCUは、それらのミキシングゲインに比例させてオーディオソースをミキシングする。
【発明の概要】
【発明が解決しようとする課題】
【0009】
本開示の1つまたは複数の例示的な実施形態は、リアルタイムトランスポートプロトコル(RTP)のヘッダ拡張を使用して、オーバーレイおよび360度ストリームからのオーディオストリームをミキシングするための、オーディオミキシングゲインをシグナリングするためのシステムおよび方法を提供する。
【課題を解決するための手段】
【0010】
いくつかの実施形態によれば、SDPを使用して、遠隔会議でオーディオミキシングゲインをシグナリングするための方法が提供される。本方法は、360度ストリームから、オーディオミキシングゲインを含む入力オーディオストリームを受信するステップと、SDPを使用して、入力オーディオストリームのRTPヘッダ拡張を宣言するステップであって、RTPヘッダ拡張は要素を含み、要素は、要素識別子、要素の長さ、およびオーディオミキシングゲインの大きさを含む、ステップと、RTPヘッダ拡張を使用して、SDPの単一の属性に基づいてオーディオミキシングゲインをシグナリングするステップと、を含んでよく、オーディオミキシングゲインは、入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインとを含む。
【0011】
いくつかの実施形態によれば、SDPを使用して、遠隔会議でオーディオミキシングゲインをシグナリングするためのシステムが提供される。本システムは、命令を記憶する1つまたは複数のメモリと、命令を実行するように構成された1つまたは複数のプロセッサであって、命令を実行することで、360度ストリームから、オーディオミキシングゲインを含む入力オーディオストリームを受信することと、SDPを使用して、入力オーディオストリームのRTPヘッダ拡張を宣言することであって、RTPヘッダ拡張は要素を含み、要素は、要素識別子、要素の長さ、およびオーディオミキシングゲインの大きさを含む、ことと、RTPヘッダ拡張を使用して、SDPの単一の属性に基づいてオーディオミキシングゲインをシグナリングすることと、を行う1つまたは複数のプロセッサと、を備えてもよく、オーディオミキシングゲインは、入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインとを含む。
【0012】
いくつかの実施形態によれば、SDPを使用して、遠隔会議でオーディオミキシングゲインをシグナリングするための非一時的コンピュータ可読媒体が提供される。本記憶媒体は、1つまたは複数のプロセッサに接続されてもよく、また命令を記憶するように構成されてもよく、命令は、実行されると、少なくとも1つまたは複数のプロセッサに、360度ストリームから、オーディオミキシングゲインを含む入力オーディオストリームを受信することと、SDPを使用して、入力オーディオストリームのRTPヘッダ拡張を宣言することであって、RTPヘッダ拡張は要素を含み、要素は、要素識別子、要素の長さ、およびオーディオミキシングゲインの大きさを含む、ことと、RTPヘッダ拡張を使用して、SDPの単一の属性に基づいてオーディオミキシングゲインをシグナリングすることと、を行わせ、オーディオミキシングゲインは、入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインとを含む。
【0013】
以下の説明に更なる態様が部分的に記載され、また、これらの態様が、部分的には当該説明から明らかになるか、または本開示の提示された実施形態を実践することによって理解されてもよい。
【0014】
本開示の実施形態の上記および他の態様、特徴、および態様は、添付の図面と併せて以下の説明を参照することから、より明らかになるであろう。
【図面の簡単な説明】
【0015】
【
図1】没入型遠隔会議のエコシステムを示す概略図である。
【
図2A】多人数参加型マルチ会議室遠隔会議を示す概略図である。
【
図2B】MRF/MCUを使用した、多人数参加型マルチ会議室遠隔会議を示す概略図である。
【
図3】1つまたは複数の実施形態による、ある通信システムを示す概略ブロック図である。
【
図4】1つまたは複数の実施形態による、ストリーミング環境を示す概略図例である。
【
図5A】1つまたは複数の実施形態による、1バイトのRTPヘッダ拡張を使用したオーディオミキシングゲインを示す概略図である。
【
図5B】1つまたは複数の実施形態による、2バイトのRTPヘッダ拡張を使用したオーディオミキシングゲインを示す概略図である。
【
図6】1つまたは複数の実施形態による、RTPヘッダ拡張を使用して、遠隔会議でオーディオミキシングゲインのSDPシグナリングを行う方法を示すフローチャートである。
【
図7】1つまたは複数の実施形態による、あるコンピュータシステムを示す概略図である。
【発明を実施するための形態】
【0016】
本開示は、遠隔会議におけるオーバーレイおよび360度ストリームからのオーディオゲインのSDPシグナリングを行うための方法および装置に関する。本開示は、RTPヘッダ拡張を介したオーディオミキシング方式の遠隔会議における、オーバーレイおよび360度ストリームのオーディオミキシングゲインのシグナリングにさらに関する。
【0017】
図2Aおよび
図2Bに示すように、全方向性カメラを備えた複数の会議室が遠隔会議において存在し、会議室(2a01,2a02,2a03,2a04)のうちの1つからのビデオストリーム/オーディオストリームをユーザが選択し、これは没入型ストリームとして表示される。360度没入型ストリームと共に使用される追加のオーディオストリームまたはビデオストリームがある場合は、オーバーレイとして(すなわち、別個のストリームとして)送信される。端末装置は、複数のオーディオストリームを受信すると、それらを復号してミキシングし、ユーザにレンダリングする。送信側会議室は、すべての異なるオーディオストリームのミキシングゲインレベルを提供する。送信側会議室は、遠隔会議セッション中に、個々のオーディオストリームのミキシングゲインレベルをさらに更新してもよい。オーディオミキシングゲインは、オーディオストリームごとに定義されてもよい。したがって、本開示の実施形態に詳述されているように、単一のヘッダ拡張を使用して、すべてのオーディオゲイン(r
0,r
1,…,r
N)およびオーバーレイビデオ(a
1,a
2,…,a
N)を送信/受信する方法を用いることが望ましいであろう。
【0018】
本開示の実施形態は、添付の図面を参照して包括的に説明される。しかしながら、これらの実装形態例は複数の様々な形式で実装されてもよく、また、本開示を本明細書に記載のこれらの例に限定されるものと理解すべきではない。これとは反対に、これらの実装形態例は本開示の技術的ソリューションをより包括的かつ完全なものにし、かつ、これらの実装形態例の概念を当業者に包括的に伝えるために提供されている。添付の図面は本開示の図例にすぎないため、必ずしも正確な縮尺率で描画されてはいない。なお、添付の図面において同一の参照番号は同一または類似の構成要素を示すので、これらの構成要素に関して繰り返し説明することは控える。
【0019】
以下で述べている提案された特徴は別々に使用されてもよいし、または任意の順序で組み合わされてもよい。添付の図面に示されるブロック図は機能的要素であり、物理的または論理的に独立した要素には必ずしも対応していない。さらに、これらの実施形態は、処理回路(例えば、1つまたは複数のプロセッサもしくは1つまたは複数の集積回路である)によって実装されてもよいし、ソフトウェアの形式で実装されてもよいし、あるいは異なるネットワークおよび/またはプロセッサ装置および/またはマイクロコントローラ装置に実装されてもよい。一例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読媒体に記憶されたプログラムを実行する。
【0020】
図3は、本開示の実施形態による、ある通信システム(300)を示す概略ブロック図である。通信システム(300)は、ネットワーク(305)を介して相互接続された、少なくとも2つの端末(302,303)を備えてもよい。データの単方向送信を行う場合、ネットワーク(305)を介して相手方の端末(302)にデータを送信するために、第1の端末(303)がローカル位置でビデオデータを符号化してもよい。第2の端末(302)は、ネットワーク(305)から相手方の端末の符号化ビデオデータを受信し、当該符号化データを復号して、再生ビデオデータを表示してもよい。単方向データ送信は、遠隔会議などのメディアサービング用途で一般的に行われ得る。
【0021】
図3は、例えばテレビ電話会議中に行われ得る符号化ビデオの双方向送信をサポートするために設けられた、第2の端末対(301,304)を示す。データの双方向送信を行う場合、ネットワーク(305)を介して相手方の端末にデータを送信するために、各端末(301,304)はローカル位置でキャプチャされたビデオデータを符号化してもよい。各端末(301,304)は、相手方の端末によって送信された符号化ビデオデータをさらに受信してもよく、また、当該符号化データを復号してミキシングし、次いで再生ビデオデータをローカルディスプレイ装置に表示してもよい。
【0022】
図3では、これらの端末(301,302,303,304)がサーバ、パーソナルコンピュータ、およびモバイル端末として示され得るが、本開示の原理はそのように限定されるわけではない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、HMD、他のメディアプレーヤ、および/または専用のテレビ電話会議機器にも適用される。ネットワーク(305)は、端末(301,302,303,304)間で符号化ビデオデータを伝達する任意の数のネットワークを表しており、これには例えば、有線通信ネットワークおよび/または無線通信ネットワークが含まれる。通信ネットワーク(305)は、回路交換チャネルおよび/またはパケット交換チャネルでデータを交換してもよい。代表的なネットワークには、電気通信ネットワーク、ローカルエリアネットワーク、ワイドエリアネットワークおよび/またはインターネットが含まれる。本開示の実施形態で述べているミキシングゲインは、ネットワーク(305)などを介して、本明細書で以下に説明しているネットワークプロトコルを使用して送受信されてもよい。
【0023】
図4は、開示された主題の一適用例における例示的なストリーミング環境を示す。開示された主題は、例えば、没入型遠隔会議、テレビ電話会議およびテレプレゼンスなどを含む、他の動画対応用途にも等しく適用可能であり得る。
【0024】
ストリーミング環境は、ビデオソース(401)、例えばビデオカメラおよび当該会議(402)の1人または複数の参加者を含み得る、1つまたは複数の会議室(403)を備えてもよい。
図4に示すビデオソース(401)は、例えば、ビデオサンプルストリームを作成することができる360度ビデオカメラである。ビデオサンプルストリームは、後で使用するためにストリーミングサーバ(404)に送信されてもよいし、かつ/またはストリーミングサーバに記憶されてもよい。1つまたは複数のストリーミングクライアント(405,406)は、それぞれのビューポート情報をストリーミングサーバ(404)にさらに送信してもよい。ストリーミングサーバ(404)は当該ビューポート情報に基づいて、対応するストリーミングクライアント(405,406)にビューポート依存ストリームを送信してもよい。別の例示的な実施形態では、ストリーミングクライアント(405,406)がストリーミングサーバ(404)にアクセスして、ビューポート依存ストリームを取得してもよい。ストリーミングサーバ(404)および/またはストリーミングクライアント(405,406)は、以下により詳述しているように、開示された主題の態様を可能にするかもしくは実装するためのハードウェア、ソフトウェア、またはそれらの組合せを含んでもよい。
【0025】
没入型遠隔会議では、複数のオーディオストリームが送信側(例えば、403である)からストリーミングクライアント(例えば、405および/または406である)に送信されてもよい。これらのストリームは、360度ビデオ用のオーディオストリームと、オーバーレイ用の1つまたは複数のオーディオストリームとを含んでもよい。ストリーミングクライアント(405,406)はミキシングコンポーネント(407a,407b)を含んでもよい。当該ミキシングコンポーネントは、360度ビデオおよびオーバーレイのビューポート依存ストリームを復号してミキシングし、次いでディスプレイ408またはHDM、スピーカ、およびモバイル端末などの他のレンダリング装置上でレンダリングされ得る出力ビデオサンプルストリームを作成してもよい。実施形態が本構成に限定されることはなく、1つまたは複数の会議室(403)がネットワーク(例えば、ネットワーク305である)を介して、ストリーミングクライアント(405,406)と通信してもよい。
【0026】
送信側は、SDPオファーにおいて以下のメディアレベル属性を含めることにより、360度オーディオおよびオーバーレイオーディオのミキシングゲインを示すことができる。
3gpp_audio_mix_gain
【0027】
以下の拡張バッカス・ナウア記法(Augmented Backus-Naur Form:ABNF)を用いて、オーディオミキシングゲインが記述されてもよい。
a=3gpp_audio_mix_gain:<audio-mixing-gain>
【0028】
ネットワークの遮断を回避するために、SDPベースのソリューションを用いている間はオーディオミキシングゲインの更新が頻繁に行われなくてもよい。さらに、SDPオファーでは、送信側は以下のABNFを用いることによって、360度ビデオストリームおよびそのメディア属性内のすべてのオーバーレイのミキシングゲインアレイをシグナリングすることができる。
a=3gpp_audio_mix_gain:3gpp_360audio:<360_mixing_gain>
<overlay_id>:<overlay_mixing_gain>
【0029】
前述のABNFにおいて、3gpp_360audioは360度オーディオストリームの識別子であり、<360_mixing_gain>は360オーディオのミキシングゲイン値を表しており、<overlay_id>はオーバーレイの識別子として使用される一意のオーバーレイIDを表しており、<overlay_mixing_gain>はオーバーレイのオーディオミキシングゲインを表している。これらの識別子を使用して、メディアライン内のオーディオストリームにオーディオミキシング値がマッピングされる。1つまたは複数の実施形態によれば、一意のオーバーレイIDを有する複数のオーバーレイが同一のSDP属性内に存在してもよい。
【0030】
送信側が属性「3gpp_audio_mix_gain」を伴うSDPオファーを送信した場合、受信側は当該オファーを受諾してもよいし、または受諾しなくてもよい。当該オファーを受諾した場合、受信側は、送信側によって推奨されたミキシングゲインを使用して、360度オーディオストリームおよびオーバーレイのオーディオをミキシングする必要がある。受信側は、セッション中にミキシングゲインの値を変更してもよい。
【0031】
受信側が推奨されたミキシングゲインを使用することを選択した場合、送信側はミキシングゲイン値が変化したとき、セッション中にオーディオミキシングゲインの更新を送信してもよい。このミキシングゲイン値の変化が起こった場合、送信側は、メディアライン全体を送信する必要なしに、360オーディオおよびオーバーレイID識別子にミキシングゲインの更新値がマッピングされた状態で、メディア属性「a=3gpp_audio_mix_gain:」のみを送信することができる。これらの識別子を使用して、更新されたオーディオミキシング値がそれぞれのオーディオストリームへとマッピングされてもよい。
【0032】
表1は、送信側から受信側(例えば、ストリーミングクライアント(412,407)である)に送信されるSDPオファーの一例である。以下の例では、1つの3gppオーディオと2つのオーバーレイオーディオとがミキシングされている。
【0033】
【0034】
行「a=3gpp_audio_mix_gain:3gpp_360audio:7 12:5 13:4」は、360オーディオおよびオーバーレイのミキシングゲインを表している。「3gpp_360audio」は、ミキシングゲイン値が7である360度オーディオストリームのオーディオの識別子であり、「12」はオーバーレイIDであり、ミキシングゲイン値が「5」であるオーバーレイの識別子として機能しており、また「13」は、ミキシングゲイン値が「4」である第2のオーバーレイの識別子である。
【0035】
送信側が360度オーディオまたはオーバーレイのミキシングゲインを更新する必要がある場合、当該送信側は「3gpp_audio_mix_gain」を定義するメディア属性を送信することができる。以下は、ミキシングゲイン値が4である360度オーディオストリームが更新される場合にオーディオミキシングゲインを更新する、SDP更新の一例である。
a=3gpp_audio_mix_gain:3gpp_360audio:4 12:9 13:4
【0036】
上記のSDPによれば、識別子「12」を有するオーバーレイのミキシングゲイン値が、値「5」から値「9」に更新されている。識別子「13」を有する第2のオーバーレイのミキシングゲイン値は更新されていない。
【0037】
次に、いくつかの実施形態に従って、
図5Aおよび
図5Bを参照しながら、サーバからクライアントに対して行われるオーディオミキシングゲインのシグナリングについて説明する。
【0038】
サーバからクライアントに対してオーディオミキシングゲインをシグナリングするために、RTPベースのソリューションが用いられてもよい。RTPヘッダ拡張におけるRTPオーディオストリームのパケットは、RTP拡張を含むRTPパケットで搬送されるオーディオサンプルのミキシングゲインを示し得る。
図5Aに示すように、RTP拡張には1バイトのヘッダフォーマットが使用されてもよい。1バイトのヘッダフォーマットで行われるRTP拡張のヘッダ拡張の要素は、ID(5a01)、長さL(5a02)、およびミキシングゲイン(5a03)を含んでもよい。
【0039】
ID(5a01)は、当該要素のローカル識別子である4ビットのIDである。長さL(5a02)は、ヘッダ拡張要素のデータバイトから1を減算した4ビット長数であり、1バイトのヘッダに続く。ミキシングゲイン(5a03)は、ヘッダ拡張の1バイト分のミキシングゲインの大きさを表す。
【0040】
図5Bに示すように、2バイトのヘッダフォーマットがRTP拡張に同様に使用されてもよい。2バイトのヘッダフォーマットを使用して行われるRTP拡張のヘッダ拡張の要素は、ID(5b01)、長さL(5b02)、およびミキシングゲイン(5b03)を含んでもよい。2バイトのヘッダフォーマットはまた、例えばゼロ(0)の値を有するパディング(5b04)バイトを含んでもよい。
【0041】
ID(5b01)は、当該要素のローカル識別子である8ビットのIDである。長さL(5b02)は、拡張データの長さをバイト単位で示す8ビット長のフィールドであり、IDおよび長さのフィールドは含まれない。ミキシングゲイン(5b03)は、当該ミキシングゲインの大きさを表す。
【0042】
オーディオミキシングゲインのヘッダ拡張の宣言およびマッピングは、セッション記述プロトコル(SDP)のextmap属性において実行される。オーディオミキシングゲインのヘッダ拡張をSDPのextmap属性で宣言し、次いで当該オーディオミキシングゲインのヘッダ拡張をローカル拡張ヘッダ識別子へとマッピングするための統一資源識別子(Uniform Resource Identifier:URI)は、
urn:3gpp:rtp-hdrext:audio-mixing-gain
である。
【0043】
当該URIは、ヘッダ拡張を識別して記述している。いくつかの例示的な実施形態では、ヘッダ拡張は、RTPオーディオストリームの最初のパケットにのみ存在してもよく、最適化するためにミキシングゲインを更新する必要がある場合には、繰り返されてもよい。
【0044】
図6は、一実施形態による、RTPヘッダ拡張を使用して、遠隔会議でオーディオミキシングゲインをシグナリングするための方法600を示すフローチャートである。
【0045】
図6に示すように、方法600は動作610において、オーディオミキシングゲインを含む入力オーディオストリームを受信するステップを含む。入力オーディオストリームは、遠隔会議における360度ビデオ/オーディオストリーム由来のものであってもよい。
【0046】
方法600は動作620において、SDPを使用して、入力オーディオストリームのRTPヘッダ拡張を宣言するステップを含む。RTPヘッダ拡張は、各要素が要素識別子、当該要素の長さ、およびオーディオミキシングゲインの大きさを含む要素を包含する。RTPヘッダ拡張は、入力オーディオストリームの最初のパケットまたは入力オーディオストリームの各パケットにのみ存在してもよい。
【0047】
方法600は動作630において、RTPヘッダ拡張を使用して、SDPの単一の属性に基づいてオーディオミキシングゲインをシグナリングするステップを含む。当該オーディオミキシングゲインは、入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインとを含んでもよい。SDP用の拡張バッカス・ナウア記法(ABNF)を用いて、オーディオミキシングゲインと単一の属性とが記述されてもよい。RTPヘッダ拡張では、オーディオミキシングゲインをシグナリングするために、1バイトまたは2バイトのRTPヘッダ拡張フォーマットを使用してもよい。また、当該オーディオミキシングゲインが更新されてもよい。オーディオ信号が更新されると、オーディオミキシングゲインを規定する単一の属性のメディアレベル部分のみがシグナリングされ、次いでRTPヘッダ拡張が繰り返される。方法600は、入力オーディオストリームおよびオーバーレイオーディオストリームからのオーディオミキシングゲインアレイをシグナリングするステップをさらに含んでもよい。
【0048】
図6は本方法の例示的なブロックを示すが、いくつかの実装形態では、本方法は、
図6に図示されるものに対して、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。付加的に、または代替的に、本方法のブロックのうちの2つ以上が並列に実行されてもよい。
【0049】
上記の遠隔会議およびテレプレゼンスにおけるオーディオミキシングゲインをシグナリングする手法は、コンピュータ可読命令を使用してコンピュータソフトウェアとして実装されてもよく、また1つまたは複数のコンピュータ可読媒体に物理的に記憶されてもよい。例えば、
図7は、開示されている主題の特定の実施形態を実装するのに適したコンピュータシステム700を示す。
【0050】
コンピュータソフトウェアは、コンピュータ中央処理装置(CPU)、およびグラフィック処理装置(GPU)などによって、直接、または解釈、マイクロコードの実行などを介して実行され得る命令を含むコードを作成するために、アセンブリ、コンパイル、またはリンクなどの機構に従ってもよい、任意の適切な機械コードまたはコンピュータ言語を使用して符号化され得る。
【0051】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲーム機、およびモノのインターネット装置などを含む様々なタイプのコンピュータまたはそのコンポーネント上で実行され得る。
【0052】
コンピュータシステム700に関して
図7に示されているコンポーネントは本質的に例示であり、本開示の実施形態を実装するコンピュータソフトウェアの使用または機能の範囲に関するいかなる限定も示唆するものではない。また、コンポーネントの構成は、コンピュータシステム700の例示的な実施形態に示されているコンポーネントのいずれか1つまたは組合せに関連する依存関係または要件を有するものとして解釈されるべきではない。
【0053】
コンピュータシステム700は、特定のヒューマンインターフェース入力装置を備えてもよい。そのようなヒューマンインターフェース入力装置は、例えば、触覚入力(キーストローク、スワイプ、データグローブの動きなどである)、音声入力(声、拍手などである)、視覚入力(ジェスチャなどである)、嗅覚入力を介して、1人または複数の人間ユーザによる入力に応答してもよい。ヒューマンインターフェース装置を使用して、音声(発話、音楽、周囲音などである)、画像(スキャン画像、静止画像カメラから取得される写真画像などである)、ビデオ(二次元ビデオ、立体ビデオを含む三次元ビデオなどである)など、人間による意識的な入力に必ずしも直接関連しない特定の媒体をキャプチャすることもできる。
【0054】
入力ヒューマンインターフェース装置は、キーボード701、トラックパッド702、マウス703、タッチスクリーン709、データグローブ、ジョイスティック704、マイク705、カメラ706、スキャナ707のうちの1つまたは複数(それぞれ1つのみが図示されている)を含んでもよい。
【0055】
コンピュータシステム700は、特定のヒューマンインターフェース出力装置をさらに含んでもよい。そのようなヒューマンインターフェース出力装置は、例えば、触覚出力、音、光、および嗅覚/味覚を通じて、1人または複数の人間ユーザの感覚を刺激してもよい。そのようなヒューマンインターフェース出力装置は、触知出力装置(例えば、タッチスクリーン709、データグローブ、またはジョイスティック704による触覚フィードバックであるが、入力装置として機能しない触覚フィードバック装置も存在し得る)、音声出力装置(例えば、スピーカ708、ヘッドホンなどである)、視覚出力装置(例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン709であって、それぞれにタッチスクリーン入力機能を備えたものと備えていないものとがあり、それぞれに触覚フィードバック機能を備えたものと備えていないものとがあり、これらの一部は、ステレオグラフィック出力、仮想現実メガネ、ホログラフィックディスプレイ、およびスモークタンクなどの手段を介して、二次元視覚出力または三次元超出力を出力することができてもよい)、およびプリンタを含んでもよい。
【0056】
コンピュータシステム700には、人間がアクセス可能な記憶装置およびそれらの関連媒体、例えばCD/DVDまたは同様の媒体710を含むCD/DVD ROM/RW711などの光学媒体、サムドライブ712、リムーバブルハードドライブまたはソリッドステートドライブ713、テープおよびフロッピーディスクなどのレガシー磁気媒体、およびセキュリティドングルなどの専用のROM/ASIC/PLDベースの装置なども含めることができる。
【0057】
当業者は、本開示の主題に関連して使用される「コンピュータ可読媒体」という用語が伝送媒体も、搬送波も、そして他の一時的信号をも包含しないことをさらに理解すべきである。
【0058】
コンピュータシステム700は、1つまたは複数の通信ネットワーク714へのインターフェース715をさらに備えてもよい。ネットワーク714を、例えば無線、有線、光とすることができる。さらに、ネットワーク714を、ローカル、ワイドエリア、メトロポリタン、車両および産業、リアルタイム、および遅延耐性ネットワークなどとすることができる。ネットワーク714の例には、イーサネットなどのローカルエリアネットワーク、無線LAN、GSM、3G、4G、5G、およびLTEなどを含むセルラーネットワーク、ケーブルテレビ、衛星テレビ、および地上波放送テレビを含むテレビ有線または無線ワイドエリアデジタルネットワーク、ならびにCANBusなどを含む車両用および産業用などが含まれる。特定のネットワーク714では通常、特定の汎用データポートまたは周辺機器用バス716(例えば、コンピュータシステム700のUSBポートなどである)に接続された外部ネットワークインターフェースアダプタ(例えば、グラフィックアダプタ725である)が必要であるが、他のものは通常、以下に述べているようにシステムバスに接続することにより、コンピュータシステム700のコアに組み込まれている(例えば、PCコンピュータシステムへのイーサネットインターフェースの組込みまたはスマートフォンコンピュータシステムへのセルラーネットワークインターフェースの組込みである)。コンピュータシステム700は、これらのネットワーク714のいずれかを使用して、他のエンティティと通信することができる。そのような通信を、単方向受信のみ(例えば、放送テレビなどである)、単方向送信のみ(例えば、特定のCANbus装置に対するCANbusである)、または、例えば、ローカルもしくはワイドエリアデジタルネットワークを使用する他のコンピュータシステムとの双方向通信とすることができる。特定のプロトコルおよびプロトコルスタックが、上記で説明したように、それらのネットワークおよびネットワークインターフェースの各々で使用され得る。
【0059】
前述のヒューマンインターフェース装置、人間がアクセス可能な記憶装置、およびネットワークインターフェースが、コンピュータシステム700のコア717に接続され得る。
【0060】
コア717は、1つまたは複数の中央処理装置(CPU)718、グラフィック処理装置(GPU)719、フィールドプログラマブルゲートエリア(Field Programmable Gate Area:FPGA)720の形式の専用プログラマブル処理装置、および特定のタスク用のハードウェアアクセラレータ721などを含み得る。これらの装置は、読取り専用メモリ(ROM)723、ランダムアクセスメモリ(RAM)724、ユーザがアクセスできない内蔵ハードドライブなどの内部大容量記憶装置、およびSSDなど722と共に、システムバス726を介して接続されてもよい。一部のコンピュータシステムでは、システムバス726を、追加のCPU、およびGPUなどによる拡張を可能にするために、1つまたは複数の物理プラグの形式でアクセス可能とすることができる。周辺機器は、コアのシステムバス726に直接接続することも、周辺機器用バス716を介して接続することもできる。周辺機器用バスのアーキテクチャには、PCI、およびUSBなどが含まれる。
【0061】
CPU718、GPU719、FPGA720、およびアクセラレータ721は、組合せで前述のコンピュータコードを構成することができる、特定の命令を実行し得る。そのコンピュータコードは、ROM723またはRAM724に記憶され得る。一時データも同様にRAM724に記憶され得るが、永続データは、例えば内部大容量記憶装置722に記憶され得る。1つまたは複数のCPU718、GPU719、大容量記憶装置722、ROM723、およびRAM724などと密接に関連付けられ得るキャッシュメモリを使用することにより、メモリデバイスのいずれかを対象に高速に記憶させ、かつ高速に取り出すことが可能になり得る。
【0062】
コンピュータ可読媒体は、様々なコンピュータ実装動作を実行するためのコンピュータコードを有し得る。媒体およびコンピュータコードを、本開示の目的のために特別に設計され、かつ構成されたものとすることができ、またはそれらを、コンピュータソフトウェア技術の当業者に周知の利用可能な種類のものとすることができる。
【0063】
限定ではなく、一例として、アーキテクチャ700、具体的にはコア717を有するコンピュータシステムは、1つまたは複数の有形のコンピュータ可読媒体で具現化されたソフトウェアを1つまたは複数のプロセッサ(CPU、GPU、FPGA、およびアクセラレータなどを含む)が実行する結果として、機能を提供することができる。そのようなコンピュータ可読媒体を、上記で紹介したようにユーザがアクセス可能な大容量記憶装置のほか、コア内部大容量記憶装置722またはROM723などの非一時的性質のコア717の特定の記憶装置にも関連付けられた媒体とすることができる。本開示の様々な実施形態を実装するソフトウェアは、そのような装置に記憶されて、コア717によって実行され得る。特定の必要性に応じて、コンピュータ可読媒体は1つまたは複数のメモリデバイスまたはチップを含み得る。ソフトウェアは、コア717、具体的にはその中のプロセッサ(CPU、GPU、およびFPGAなどを含む)に、RAM724に記憶されたデータ構造を定義すること、および当該ソフトウェアによって定義されたプロセスに従って、そのようなデータ構造を修正することを含む、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行させることができる。付加的に、または代替として、コンピュータシステムは、本明細書に記載の特定のプロセスまたは特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、またはソフトウェアと共に動作できる回路(例えば、アクセラレータ721である)に配線された、または他の方法で具現化されたロジックの結果として、機能を提供することができる。必要に応じて、ソフトウェアへの言及はロジックを包含することができ、その逆も同様である。コンピュータ可読媒体への言及は、必要に応じて、実行のためのソフトウェアを記憶する回路(集積回路(integrated circuit:IC)などである)、実行のためのロジックを具現化する回路、またはこれらの両方を包含することができる。本開示は、ハードウェアとソフトウェアとの任意の適切な組合せを包含する。
【0064】
本開示ではいくつかの例示的な実施形態を説明してきたが、他に修正形態、置換形態および様々な代替均等形態が存在し、これらは本開示の範囲内にある。よって、本明細書に明示的に示されておらず、かつ記載もされていないが、本開示の原理を具現化し、したがってその趣旨および範囲内にある多数のシステムおよび方法を、当業者であれば考案できることが理解されるであろう。
【符号の説明】
【0065】
101 ルームA
102 ユーザB
103 ユーザC
104 360度カメラ
2a01 ルームA
2a02 ルームX
2a03 ルームY
2a04 ルームZ
2a06 ユーザB
2a07 ユーザC
2b01 ルームA
2b02 ルームX
2b03 ルームY
2b04 ルームZ
2b05 メディアリソース機能(MRF)/メディア制御装置(MCU)
2b06 ユーザB
2b07 ユーザC
300 通信システム
301,302,303,304 端末
305 通信ネットワーク
401 ビデオソース
402 会議
403 会議室
404 ストリーミングサーバ
405 ストリーミングクライアント
406 ストリーミングクライアント
407a ミキシングコンポーネント
407b ミキシングコンポーネント
408 ディスプレイ
700 コンピュータシステム
701 キーボード
702 トラックパッド
703 マウス
704 ジョイスティック
705 マイク
706 カメラ
707 スキャナ
708 スピーカ
709 タッチスクリーン
710 媒体
711 CD/DVD ROM/RW
712 サムドライブ
713 ソリッドステートドライブ
714 通信ネットワーク
715 インターフェース
716 周辺機器用バス
717 コア
718 中央処理装置(CPU)
719 グラフィック処理装置(GPU)
720 フィールドプログラマブルゲートエリア(FPGA)
721 ハードウェアアクセラレータ
722 コア内部大容量記憶装置
723 読取り専用メモリ(ROM)
724 ランダムアクセスメモリ(RAM)
725 グラフィックアダプタ
726 システムバス