IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・アメリカ・エルエルシーの特許一覧

特表2024-512904RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術
<>
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図1
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図2A
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図2B
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図3
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図4
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図5
  • 特表-RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-21
(54)【発明の名称】RTCPフィードバックを使用したリモート端末のためのテレコンファレンス及びリモートターミナルのためのテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術
(51)【国際特許分類】
   H04N 7/15 20060101AFI20240313BHJP
   H04L 67/131 20220101ALI20240313BHJP
【FI】
H04N7/15
H04L67/131
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023553545
(86)(22)【出願日】2022-03-25
(85)【翻訳文提出日】2023-09-04
(86)【国際出願番号】 US2022021965
(87)【国際公開番号】W WO2023080919
(87)【国際公開日】2023-05-11
(31)【優先権主張番号】63/276,433
(32)【優先日】2021-11-05
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/703,275
(32)【優先日】2022-03-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アビシェーク,ロヒット
(72)【発明者】
【氏名】ソダガァ,イラジ
【テーマコード(参考)】
5C164
【Fターム(参考)】
5C164FA10
5C164PA41
5C164VA06S
5C164VA09P
5C164VA11P
(57)【要約】
リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内の複数のオーディオミキシングゲインをシグナリングする方法及びデバイスが提供される。方法は:入力オーディオストリームを360度ストリームから受信するステップであって、入力オーディオストリームはミキシングゲインを含む、ステップと;ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言するステップと;宣言されたRTCPフィードバックレートを使用してミキシングゲインをシグナリングするステップと、を含む。ミキシングゲインは、前記入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインと、を含む。ミキシングゲインをシグナリングするために使用されるRTCPフィードバックレートは、一定またはイベントベースのフィードバックレートであり得る。
【特許請求の範囲】
【請求項1】
リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内の複数のオーディオミキシングゲインをシグナリングする方法であって、前記方法は:
入力オーディオストリームを360度ストリームから受信するステップであって、前記入力オーディオストリームはミキシングゲインを含む、ステップと;
前記ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言するステップと;
宣言された前記RTCPフィードバックレートを使用して前記ミキシングゲインをシグナリングするステップと;
を含む方法。
【請求項2】
前記ミキシングゲインは、前記入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインと、を含む、
請求項1記載の方法。
【請求項3】
前記RTCPフィードバックレートは一定レートである、
請求項1記載の方法。
【請求項4】
前記RTCPフィードバックレートはイベントベースレートである、
請求項1記載の方法。
【請求項5】
前記イベントベースレートは、T以上のイベント間隔に対してのみトリガされ、
Tは平均RTCPパケットサイズ及び割り振られた帯域幅に基づく、
請求項4記載の方法。
【請求項6】
前記ミキシングゲインの変化に基づいて、イベントベースレートを使用して前記ミキシングゲインをシグナリングするステップをさらに含む、
請求項1記載の方法。
【請求項7】
前記入力オーディオストリームの受信器は、セッション記述プロトコル(SDP)を使用して前記オーディオミキシングゲインを受信する能力を示す、
請求項1記載の方法。
【請求項8】
リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内の複数のオーディオミキシングゲインをシグナリングするデバイスであって、
プログラムコードを格納するように構成された少なくとも1つのメモリと;
前記プログラムコードを読み込んで、前記プログラムコードによって指示されるように動作するように構成された少なくとも1つのプロセッサと、を備え、
前記プログラムコードは:
前記少なくとも1つのプロセッサに、360度ストリームから入力オーディオストリームを受信させるように構成された受信コードであって、
前記入力オーディオストリームはミキシングゲインを含む、受信コードと;
前記少なくとも1つのプロセッサに、前記ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言させるように構成された宣言コードと;
前記少なくとも1つのプロセッサに、宣言された前記RTCPフィードバックレートを使用して前記ミキシングゲインをシグナリングさせるように構成されたシグナリングコードと、を含む、
デバイス。
【請求項9】
前記ミキシングゲインは、前記入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインと、を含む、
請求項8記載のデバイス。
【請求項10】
前記RTCPフィードバックレートは一定レートである、
請求項8記載のデバイス。
【請求項11】
前記RTCPフィードバックレートはイベントベースレートである、
請求項8記載のデバイス。
【請求項12】
前記イベントベースレートは、T以上のイベント間隔に対してのみトリガされ、
Tは平均RTCPパケットサイズ及び割り振られた帯域幅に基づく、
請求項11記載のデバイス。
【請求項13】
前記シグナリングコードは、前記少なくとも1つのプロセッサに、前記ミキシングゲインの変化に基づいて、前記イベントベースレートを使用して前記ミキシングゲインをシグナリングさせるようにさらに構成されている、
請求項11記載のデバイス。
【請求項14】
前記入力オーディオストリームの受信器は、セッション記述プロトコル(SDP)を使用して前記オーディオミキシングゲインを受信する能力を示す、
請求項8記載のデバイス。
【請求項15】
命令を含むコンピュータプログラムであって、
前記命令は、
リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用してテレコンファレンス内の複数のオーディオミキシングゲインをシグナリングするデバイスの少なくとも1つのプロセッサによって実行されたときに、前記プロセッサに、
入力オーディオストリームを360度ストリームから受信させ、前記入力オーディオストリームはミキシングゲインを含み;
前記ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言させ;
宣言された前記RTCPフィードバックレートを使用して前記ミキシングゲインをシグナリングさせる、
1つ以上の命令を含み、
請求項1乃至7いずれか1項記載の方法を実行するように構成された、
コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年11月11日に出願された米国仮特許出願No.63/276、433に基づくものであって、その優先権を主張しており、その開示は参照により全体的に本出願に組み込まれる。
【0002】
技術分野
本開示の実施形態は、イマーシブテレコンファレンス及びリモートターミナルのためのテレプレゼンス(ITT4RT)のためのオーディオミキシングゲインのシグナリングに関し、より詳細には、RTP制御プロトコル(RTCP)フィードバックを使用して、360度バックグラウンド及びオーバーレイの全てのオーディオミキシングゲインを一緒にシグナリングするためのリアルタイムトランスポートプロトコル(RTP)ヘッダ拡張を定義することに関する。
【背景技術】
【0003】
全方向性メディアストリームを使用する場合、ヘッドマウントディスプレイ(HMD)を使用しながら、ユーザのビューポートに対応するコンテンツの一部のみがレンダリングされ、ユーザにメディアストリームの現実的なビューを提供する。
【0004】
図1は、イマーシブテレコンファレンスの関連技術シナリオ(シナリオ1)を示しており、部屋A(101)、ユーザB(102)及びユーザC(103)の間で通話が編成されている。図1に示すように、部屋A(101)は全方位/360度カメラ(104)を備えた会議室を表し、ユーザB(102)とユーザC(103)はそれぞれHMDとモバイルデバイスを使用したリモート参加者である。この場合、参加者のユーザB(102)及びユーザC(103)は、自分のビューポートの向きをルームA(101)に送信し、ルームAはユーザB(102)とユーザC(103)にビューポート依存ストリームを送信する。
【0005】
図2Aに、複数の会議室(2a01、2a02、2a03、2a04)を含む拡張シナリオ(シナリオ2)を示す。ユーザB(2a06)はHMDを使用して360度カメラ(104)からのビデオストリームを視聴し、ユーザC(2a07)はモバイルデバイスを使用してビデオストリームを視聴する。ユーザB(2a06)及びユーザC(2a07)は、少なくとも1つの会議室(2a01、2a02、2a03、2a04)にビューポートの向きを送信し、会議室はユーザB(2a06)とユーザC(2a07)にビューポート依存ストリームを送信する。
【0006】
図2Bに示すように、別の例示的シナリオ(シナリオ3)は、MRF/MCU(2b05)を使用してコールを設定する場合であり、メディアリソース機能(MRF)及びメディア制御ユニット(MCU)は、マルチパーティ会議コールで端末をブリッジするためのメディア関連機能を提供するマルチメディアサーバである。会議室は、それぞれのビデオをMRF/MCU(2b05)に送信できる。これらのビデオは、ビューポートに依存しないビデオであり、すなわち、特定のビデオをストリーミングするユーザのビューポートに関係なく、360度ビデオ全体がメディアサーバ(すなわち、MRF/MCU)に送信される。メディアサーバはユーザ(ユーザB(2b06)及びユーザC(2b07))のビューポートの向きを受信し、それに応じてユーザにビューポート依存ストリームを送信する。
【0007】
シナリオ3に加えて、リモートユーザは会議室(2a01-2a04、2b01-2b04)から利用可能な360度ビデオのいずれかを視聴することを選択できる。このような場合、ユーザはストリーミングするビデオとそのビューポートの向きに関する情報を会議室又はMRF/MCU(2b05)に送信する。ユーザは、アクティブなスピーカーに基づいて、ある部屋から別の部屋への切り替えをトリガすることもできる。メディアサーバは、アクティブなユーザがいない会議室からのビデオストリームの受信を一時停止することがある。
【0008】
ISO23090-2は、オーバーレイを「全方向性ビデオ又は画像アイテム、又はビューポート上にレンダリングされる視覚メディアの一部」と定義している。会議室Aの参加者によってプレゼンテーションが共有されている場合、このプレゼンテーションは会議室Aに表示されるだけでなく、他のユーザ(会議室2a02-2a04、2b02-2b04、ユーザB(2b06)、及び/又はユーザC(2b07)にもストリームとして放送される)。このストリームは360度ビデオの上にオーバーレイできる。さらに、オーバーレイは2Dストリームにも使用できる。異なるオーディオストリームのデフォルトのオーディオミキシングゲインは、それぞれ、360度ビデオ(a0)及びオーバーレイビデオ(a、a、...、a)に対してはオーディオゲイン(r、r、..、r)であり、オーディオ出力はr*a+r*a+......+r*aと等しく、r+r+...+r=1である。レシーバ又はMRF/MCUは、音源のミキシング利得に比例して音源をミキシングする。
【発明の概要】
【0009】
本開示の1つ以上の例示的な実施形態は、単一のRTPヘッダ拡張において、オーバーレイ及び360度ストリームのオーディオミキシングゲインを共にシグナリングするためのシステムと方法を提供する。
【0010】
実施形態によれば、リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内で複数のオーディオミキシングゲインをシグナリングする方法が提供される。本方法は、入力オーディオストリームを360度ストリームから受信するステップであって、入力オーディオストリームはミキシングゲインを含む、ステップと;ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言するステップと;宣言されたRTCPフィードバックレートを使用してミキシングゲインをシグナリングするステップと、を含む。
【0011】
実施形態によれば、リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内で複数のオーディオミキシングゲインをシグナリングするデバイスが提供される。デバイスは、プログラムコードを格納するように構成された1つ以上のメモリと;プログラムコードを読み込んで、プログラムコードによって指示されるように動作するように構成された1つ以上のプロセッサと、を備える。プログラムコードは、少なくとも1つのプロセッサに、360度ストリームから入力オーディオストリームを受信させるように構成された受信コードであって、入力オーディオストリームはミキシングゲインを含む、受信コードと;少なくとも1つのプロセッサに、ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言させるように構成された宣言コードと;少なくとも1つのプロセッサに、宣言されたRTCPフィードバックレートを使用してミキシングゲインをシグナリングさせるように構成されたシグナリングコードと、を含む。
【0012】
実施形態によれば、リアルタイム伝送制御プロトコル(RTCP)フィードバックを使用するテレコンファレンス内の複数のオーディオミキシングゲインをシグナリングするための非一時的コンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つ以上のプロセッサに接続され得、デバイスの少なくとも1つのプロセッサによって実行されると、少なくとも1つ以上のプロセッサに、入力オーディオストリームを360度ストリームから受信させ、入力オーディオストリームはミキシングゲインを含み;ミキシングゲインを受信するためのRTCPフィードバックレートを割当てられた帯域幅に基づいて宣言させ;宣言されたRTCPフィードバックレートを使用してミキシングゲインをシグナリングさせる、ように構成され得る。
【0013】
追加の態様は、一部は以下の説明に記載され、一部は説明から明らかになるか、または本開示の提示された実施形態を実践することによって知ることができる。
【図面の簡単な説明】
【0014】
上記の及び他の態様、特徴、及び本開示の実施形態の態様は、以下の添付図面と併せて解釈される以下の説明からより明らかになるであろう。
【0015】
図1図1は、イマーシブテレコンファレンスのためのエコシステムの概略図を示す図である。
【0016】
図2A図2Aは、複数パーティ複数会議室でのテレコンファレンスの概略図を示す図である。
【0017】
図2B図2Bは、MRF/MCUを使用した複数パーティ複数会議室でのテレコンファレンスの概略図を示す図である。
【0018】
図3図3は、1つ以上の実施形態による通信システムの簡略化されたブロック図を示す図である。
【0019】
図4図4は、1つ以上の実施形態による、ストリーミング環境の単純化された例を示す図である。
【0020】
図5図5は、1つ以上の実施形態による、RTCPフィードバックを使用して複数のオーディオミキシングゲインをシグナリングするための方法のフローチャートである。
【0021】
図6図6は、1つ以上の実施形態による、コンピュータシステムの概略図を示す図である。
【発明を実施するための形態】
【0022】
本開示は、RTCPフィードバックを使用して、オーバーレイ及び360度ストリームのオーディオミキシングゲインを一緒にシグナリングするための方法及びデバイスに関する。
【0023】
図2A及び図2Bに示されるように、全方位カメラを有する複数の会議室がテレコンファレンス内にあり、ユーザは、イマーシブストリームとして表示されるべき会議室(2a01、2a02、2a03、2a04)のうちの1つからビデオ/オーディオストリームを選択する。360度イマーシブストリームで使用される追加のオーディオ又はビデオストリームは、オーバーレイとして(すなわち、独立したストリームとして)送信される。端末デバイスは、複数のオーディオストリームを受信すると、それらをデコードしミキシングしてユーザにレンダリングする。送信側会議室は、すべての異なるオーディオストリームのミキシングゲインレベルを提供する。送信側会議室は、テレコンファレンスセッション中に異なるオーディオストリームのミキシングゲインレベルを更新することもできる。オーディオミキシングのゲインは、オーディオストリームごとに定義できる。したがって、本開示の実施形態に詳述されているように、単一のヘッダ拡張を使用して、すべてのオーディオゲイン(r、r、..、r)及びオーバーレイビデオ(a、a、...、a)を送受信する方法を使用することが望ましいであろう。
【0024】
本開示の実施形態は、添付図面を参照して包括的に説明される。ただし、実装例は様々な複数の形式で実装される可能性があり、開示はここに記載されている例に限定されると解釈されるべきではない。逆に、実装例は、本開示の技術的解決法をより包括的かつ完全にするために提供され、実装例の考えを当業者に包括的に伝える。添付の図面は、本開示の単なる例示であり、必ずしも一定の縮尺で描かれているわけではない。なお、添付図面の同一参照番号は同一又は類似の構成要素を表すため、構成要素の繰り返し説明は省略する。
【0025】
以下で説明する提案された機能は、個別に使用することも、任意の順序で組み合わせて使用することもできる。添付図面に示されているブロック図の中には、機能的なエンティティであり、必ずしも物理的又は論理的に独立したエンティティに対応していないものもある。さらに、これらの実施形態は、処理回路(例えば、1つ以上のプロセッサ又は1つ以上の集積回路)によって実装されてもよいし、ソフトウェアの形で実装されてもよいし、異なるネットワーク及び/又はプロセッサ装置及び/又はマイクロコントローラ装置で実装されてもよい。一実施例では、1つ以上のプロセッサは、非一時的コンピュータ可読媒体に格納されたプログラムを実行する。
【0026】
図3は、本開示の一実施形態による通信システム(300)の簡略化されたブロック図である。通信システム(300)は、ネットワーク(305)を介して相互接続された少なくとも2つのターミナル(302、303)を含み得る。データの一方向伝送のために、第1ターミナル(303)は、ネットワーク(305)を介して他のターミナル(302)に伝送するために、ローカル位置でビデオデータをコーディングし得る。第2ターミナル(302)は、ネットワーク(305)から他方のターミナルのコーディングされたビデオデータを受信し、コーディングされたデータをデコードし、復元されたビデオデータを表示することができる。一方向性データ伝送は、テレコンファレンス等のメディア提供アプリケーション等において一般的であり得る。
【0027】
図3は、例えば、テレビ会議中に発生し得るコーディングビデオの双方向伝送をサポートするために設けられた第2ターミナルペア(301、304)を示す。データの双方向伝送のために、各ターミナル(301、304)は、ネットワーク(305)を介して他のターミナルに伝送するために、ローカル位置で捕捉されたビデオデータをコーディングすることができる。各ターミナル(301、304)はまた、他の端末によって送信されたコーディングビデオデータを受信することができ、コーディングビデオデータをデコードすることができ、復元されたビデオデータをローカル表示装置に表示することができる。
【0028】
図3において、ターミナル(301、302、303、304)は、サーバ、パーソナルコンピュータ、及びモバイルデバイスとして例示されることがあるが、本開示の原則はこれに限定されない。本開示の実施形態は、ラップトップコンピュータ、タブレットコンピュータ、HMD、他のメディアプレーヤー、及び/又は専用のビデオ会議機器に適用される。ネットワーク(305)は、たとえば有線及び/又は無線通信ネットワークを含む、ターミナル(301、302、303、304)間でコード化されたビデオデータを伝える任意の数のネットワークを表す。通信ネットワーク(305)は、回線交換チャネル及び/又はパケット交換チャネルでデータを交換することができる。代表的なネットワークには、テレコミュニケーションネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はインターネットが含まれる。本開示の実施形態で議論されているミキシングゲインは、ネットワーク(305)などを介して、以下に説明するネットワークプロトコルを使用して送受信することができる。
【0029】
図4に、開示された主題のアプリケーションのためのストリーミング環境の例を示す。開示された主題は、例えば、イマーシブテレコンファレンス、ビデオ電話会議及びテレプレゼンスなどを含む、他のビデオ対応アプリケーションにも同様に適用できる。
【0030】
ストリーミング環境は、1つ以上の会議室(403)を含むことができ、その会議室は、ビデオソース(401)、例えば、ビデオカメラ、及び会議の1人以上の参加者(402)を含むことができる。図4に示すビデオソース(401)は、例えば、ビデオサンプルストリームを作成することができる360度ビデオカメラである。ビデオサンプルストリームは、将来の使用のためにストリーミングサーバ(404)に送信及び/又は保存することができる。1つ以上のストリーミングクライアント(405、406)は、それぞれのビューポート情報をストリーミングサーバ(404)に送信することもできる。ストリーミングサーバ(404)は、ビューポート情報に基づいて、対応するストリーミングクライアント(405、406)にビューポート依存ストリームを送信することができる。別の例示的実施形態では、ストリーミングクライアント(405、406)は、ストリーミングサーバ(404)にアクセスして、ビューポート依存ストリームを取得することができる。ストリーミングサーバ(404)及び/又はストリーミングクライアント(405、406)は、以下により詳細に説明されるように、開示された主題の態様を有効化又は実装するために、ハードウェア、ソフトウェア、又はそれらの組み合わせを含むことができる。
【0031】
イマーシブテレコンファレンスでは、複数のオーディオストリームが送信器(例えば403)からストリーミングクライアント(例えば405及び/又は406)に送信されることができる。これらのストリームは、360度ビデオ用のオーディオストリームと、オーバーレイ用の1つ以上のオーディオストリームが含むことができる。ストリーミングクライアント(405、406)は、ミキシングコンポーネント(407a、407b)を含むことができる。ミキシングコンポーネントは、360度ビデオ及びオーバーレイのビューポート依存ストリームをデコードしてミキシングし、ディスプレイ408又はHDM、スピーカー、モバイルデバイスなどの他のレンダリングデバイスでレンダリングできる出力ビデオサンプルストリームを作成できる。実施形態はこの構成に限定されず、1つ以上の会議室(403)はネットワーク(例えばネットワーク305)を介してストリーミングクライアント(405、406)と通信することができる。
【0032】
ここで、RTCPフィードバックパケットを介してサーバからストリーミングクライアントに複数のオーディオミキシングゲインをシグナリングすることについて、実施形態にしたがって説明する。
【0033】
ストリーミングクライアント(以下、「受信器」)は、以下のセッション記述プロトコル(SDP)属性を使用して、オーディオゲインを受信するその能力を示すことができる:
a=rtcp-fb:*オーディオミキシングゲイン
【0034】
受信器は、SDPを使用してRTCPフィードバック周波数能力を定義することができる。同じ又は別の実施形態では、RTCPフィードバックは、一定レート又は可変レートのいずれかでサーバによって送信され得る。RTCPフィードバックが一定のレートで送信されるとき、RTCPフィードバックはまた、通常のRTCPレポートとともにビューポートオリエンテーション情報などの他の情報を含み得る。この場合、サーバは、RTCPトラフィックに割り当てられた標準5%帯域幅に従う(RTP/AVPFプロファイルによって許容されるように、5秒の最小RTCP送信間隔なしで)。表1は、オーディオ及びRTCPフィードバックバイトレート要件を含む96バイトのRTCPパケットを仮定して、オーディオゲインを送信するのに十分なRTCPフィードバック周波数を示す。
【表1】
【0035】
同じ又は別の例示的な実施形態では、(RTCPフィードバックを介して)送信されるオーディオゲインは、イベントベースのフィードバックに基づいてサーバによって送信され得る(すなわち、可変レートでRTCPフィードバックを送信する)。この場合、オーディオゲインのRTCPフィードバックは、任意のオーディオミキシングゲインが変化するイベントで直ちに与えられ得る。同じ又は別の例示的な実施形態では、受信器は、標準5%と異なる帯域幅を定義してもよい。
【0036】
受信器は、以下の条件が満たされる限り、イベントベースの即時フィードバックを送信することができる:
間隔当たりのイベント<=RTCP割り当て帯域幅/平均RTPCTパケットサイズ (1)
間隔当たりのイベント =報告されるイベントの数/時間間隔 (2)
【0037】
オーディオの場合、イベントベースのフィードバック間隔は、オーディオミキシングゲインが変化するときはいつでも送信され得る。したがって、許可されたRTCPトラフィックに割り当てられた標準5%帯域幅に従うために、サーバは、Tより小さい間隔に対してイベントベースの即時フィードバックをトリガしない:
≧平均RTCPパケットサイズ/RTCP割り当て帯域幅 (3)
【0038】
図5は、1つ以上の実施形態による、RTCPフィードバックを使用して複数のオーディオミキシングゲインをシグナリングするための方法500のフローチャートである。
【0039】
図5に示すように、動作510において、方法500は、入力オーディオストリームを360度ストリームから受信するステップであって、入力オーディオストリームはミキシングゲインを含む、ステップを含む。ミキシングゲインは、入力オーディオストリームからのオーディオゲインと、オーバーレイオーディオストリームからのオーディオゲインと、を含む。
【0040】
動作520において、方法500は、割当てられた帯域幅に基づいて、ミキシングゲインを受信するためのRTCPフィードバックレートを宣言するステップを含む。RTCPフィードバックレートは、一定のフィードバックレート又はイベントベースフィードバックレートであり得る。イベントベースレートは、平均RTCPパケットサイズ及び割り当てられた帯域幅に基づいて、イベント間隔に対してのみトリガされる。
【0041】
動作530において、方法500は、宣言されたRTCPフィードバックレートを使用してミキシングゲインをシグナリングするステップを含む。
【0042】
図5はこの方法の例示的ブロックを示しているが、いくつかの実装では、この方法は、図5に示されているものよりも、追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含むことができる。さらに又はあるいは、方法のブロックのうちの2つ以上は、並行して実施されることができる。
【0043】
上記で説明したRTCPフィードバックを使用してテレコンファレンス及びテレプレゼンスのための複数のオーディオミキシングゲインをシグナリングするための技術は、コンピュータ可読命令を使用するコンピュータソフトウェアとして実装され、1つ以上のコンピュータ可読媒体に物理的に格納され得る。例えば、図6は、開示された主題の特定の実施形態を実施するのに適しているコンピュータシステム600を示す。
【0044】
コンピュータソフトウェアは、アセンブリ、コンパイル、リンク、又は同様のメカニズムの対象となる、任意の適切なマシンコード又はコンピュータ言語を使用してコーディングすることができ、コンピュータの中央処理装置(CPU)、グラフィックス処理装置(GPU)などによって、直接実行できる命令又は解釈(interpretation)、マイクロコード実行等を通じて実行できる命令を含むコードを作成することができる。
【0045】
命令は、例えば、パーソナルコンピュータ、タブレットコンピュータ、サーバ、スマートフォン、ゲームデバイス、物品のインターネット等を含む種々のタイプのコンピュータ又はその構成要素上で実行されることができる。
【0046】
コンピュータシステム600のための図6に示されるコンポーネントは、例示的な性質のものであり、本開示の実施形態を実装するコンピュータソフトウェアの使用範囲又は機能性に関する制限を示唆することを意図するものではない。また、コンポーネントの構成は、コンピュータシステム600の例示的な実施形態に示されるコンポーネントのいずれか1つ又は組み合わせに関連する依存性又は要件を有すると解釈されるべきではない。
【0047】
コンピュータシステム600は、特定のヒューマンインタフェース入力デバイスを含み得る。このようなヒューマンインタフェース入力デバイスは、例えば、触覚入力(例えば、キーストローク、スワイプ、データグローブの動き)、音声入力(例えば、音声、拍手)、視覚入力(例えば、ジェスチャ)、嗅覚入力を介して、一人以上の人間ユーザによる入力に応答し得る。また、ヒューマンインタフェースデバイスは、オーディオ(例えば、音声、音楽、周囲の音)、画像(例えば、走査画像、静止画像カメラから得られる写真画像)、ビデオ(例えば、2次元ビデオ、立体画像を含む3次元ビデオ)等の、人間による意識的入力に必ずしも直接関係しない特定の媒体を捕捉するために用いられ得る。
【0048】
入力ヒューマンインタフェースデバイスには、次のものが1つ以上含まれ得る(それぞれ1つのみ表されている):キーボード601、トラックパッド602、マウス603、タッチスクリーン609、データグローブ、ジョイスティック604、マイクロホン605、カメラ606、スキャナ607。
【0049】
コンピュータシステム600はまた、特定のヒューマンインタフェース出力デバイスを含み得る。かかるヒューマンインタフェース出力デバイスは、例えば、触覚出力、音、光、及び嗅覚/味覚を通して、1人又は複数の人間ユーザの感覚を刺激し得る。かかるヒューマンインタフェース出力デバイスは、触覚出力デバイス(例えば、タッチスクリーン609、データグローブ、又はジョイスティック604による触覚フィードバック、しかし、入力デバイスとして働かない触覚フィードバックデバイスであることもできる)と、オーディオ出力デバイス(例えば、スピーカー608、ヘッドフォン)と、視覚出力デバイス(例えば、CRTスクリーン、LCDスクリーン、プラズマスクリーン、OLEDスクリーンを含むスクリーン609であり、各々がタッチスクリーン入力能力を有するか又は有さず、各々が触覚フィードバック能力を有するか又は有さず、そのうちのいくつかは、仮想現実眼鏡、ホログラフィックディスプレイ及びスモークタンク等の2次元視出力又は3次元以上の出力を可能にし得るもの)と、プリンタと、を含み得る。
【0050】
コンピュータシステム600はまた、人間がアクセス可能な記憶デバイスと、それらのアクセス可能な媒体とを含むことができ、媒体は、例えば、CD/DVD等の媒体610によるCD/DVD ROM/RW611を含む光学媒体ドライブ、USBメモリ612、着脱可能ヘッドドライブ又はソリッドステートドライブ613、テープ、フロッピーディスク等の従来の磁気媒体、セキュリティドングル等の特殊ROM/ASIC/PLDベースデバイス等である。
【0051】
当業者はまた、現在開示されている主題に関連して使用される「コンピュータ可読媒体」という用語は、伝送媒体、搬送波、又は他の一時的な信号を包含しないことを理解されたい。
【0052】
コンピュータシステム600はまた、1つ以上の通信ネットワーク614へのインターフェース615を含むことができる。ネットワーク614は、例えば、無線、有線、光であり得る。ネットワーク614は、さらに、ローカル、ワイドエリア、メトロポリタン、車両及び産業用、リアルタイム、遅延耐性などであり得る。ネットワーク614の例としては、イーサネット、無線LANなどのローカルエリアネットワーク、GSM、3G、4G、5G、LTE等を含むセルラーネットワーク、ケーブルTV、衛星TV、地上放送TVを含むTV有線又は無線広域デジタルネットワーク、CANBusを含む産業用及び車両用等を含む。特定のネットワーク614は、一般に、特定の汎用データポート又は周辺バス616(例えば、コンピュータシステム600のUSBポートなど)に取り付けられる外部ネットワークインターフェースアダプタ(例えば、グラフィックスアダプタ625)を必要とし、他のものは、一般に、後述するようにシステムバスに取り付けることによってコンピュータシステム600のコアに統合される(例えば、PCコンピュータシステムへのイーサネット(登録商標)インターフェース又はスマートフォンコンピュータシステムへのセルラーネットワークインタフェース)。これらのネットワーク614のいずれかを使用して、コンピュータシステム600は、他のエンティティと通信することができる。かかる通信は、単指向性通信、受信のみ(例えば、放送テレビ)通信、単指向性送信専用(例えば、特定のCANバスデバイスへのCANバス)通信、又は、例えばローカル又は広域デジタルネットワークを使用する他のコンピュータシステムへの、双方向通信であることができる。特定のプロトコル及びプロトコルスタックは、上述のように、それらのネットワーク及びネットワークインタフェースの各々で使用されることができる。
【0053】
前述のヒューマンインタフェースデバイス、人間がアクセス可能な記憶デバイス、及びネットワークインタフェースは、コンピュータシステム600のコア617に接続されることができる。
【0054】
コア617は、1つ以上の中央処理ユニット(CPU)618、グラフィックス処理ユニット(GPU)619、特殊フィールドプログラマブルゲートエリア(FPGA)620の形態の特殊なプログラマブル処理ユニット、特定のタスクのためのハードウェアアクセラレータ621等を含むことができる。これらのデバイスは、読出し専用メモリ(ROM)623、ランダムアクセスメモリ624、内部大容量記憶デバイス、例えば内部非ユーザアクセス可能ハードドライブ、SSD等622と共に、システムバス626を介して接続され得る。いくつかのコンピュータシステムでは、システムバス626は、追加のCPU、GPU等による拡張を可能にするために、1つ以上の物理プラグの形態でアクセス可能であることができる。周辺デバイスは、コアのシステムバス626に直接接続するか、又は周辺バス616を介して接続することができる。周辺バスのアーキテクチャは、PCI、USB等を含む。
【0055】
CPU618、GPU619、FPGA620、及びアクセラレータ621は、組み合わされて、上述のコンピュータコードを構成することができる特定の命令を実行することができる。そのコンピュータコードは、ROM623又はRAM624に格納されることができる。移行データは、RAM624に格納されることもできるが、永久データは例えば内部大容量記憶デバイス622に格納されことができる。1つ以上のCPU618、GPU619、大容量記憶デバイス622、ROM623、RAM624等と密接に関連付けることができるキャッシュメモリを使用することによって、メモリデバイスのいずれかへの高速記憶及び検索を可能にすることができる。
【0056】
コンピュータ可読媒体は、各種のコンピュータ実施動作(computer-implemented operations)を実行するためにその上のコンピュータコードを有することができる。媒体及びコンピュータコードは、本開示の目的のために特別に設計又は構築されることができるか、又はコンピュータソフトウェア技術の当業者に周知で利用可能な種類のものとすることができる。
【0057】
一例として、限定するものではなく、アーキテクチャ600、具体的にはコア617を有するコンピュータシステムは、1つ以上の有形のコンピュータ可読媒体に具現化されたソフトウェアを実行する(1つ以上の)プロセッサ(CPU、GPU、FPGA、アクセラレータ等を含む)の結果として機能性を提供することができる。かかるコンピュータ可読媒体は、コア-内部大容量記憶デバイス622又はROM623等の非一時的性質のコア617の特定の記憶デバイスと同様に、上述のようにユーザがアクセス可能な大容量記憶デバイスに関連する媒体であることができる。本開示の様々な実施形態を実装するソフトウェアは、かかるデバイスに記憶され、コア617によって実行され得る。コンピュータ読取可能媒体は、特定のニーズに応じて、1つ以上のメモリデバイス又はチップを含むことができる。ソフトウェアは、コア617及び具体的にその中のプロセッサ(CPU、GPU、FPGA等を含む)に、RAM624に記憶されたデータ構造を定義し、ソフトウェアによって定義されたプロセスにしたがって、かかるデータ構造を変更することを含む、本明細書に記載された特定のプロセス又は特定の部分を実行させることができる。付加的に又は代替的に、コンピュータシステムは、回路(例えば、アクセラレータ621)内に配線された又は他の方法で具現化されたロジックの結果として、機能性を提供することができ、これは、本明細書に記載される特定のプロセス又は特定のプロセスの特定の部分を実行するために、ソフトウェアの代わりに、又はソフトウェアと共に動作することができる。ソフトウェアへの言及は、論理を含み、また、必要に応じて、その逆も可能である。コンピュータ読取り可能媒体への参照は、実行のためのソフトウェアを記憶する(集積回路(IC)等の)回路、実行のためのロジックを具体化する回路、又は適切な場合にはその両方を含むことができる。本開示は、ハードウェア及びソフトウェアの任意の適切な組み合わせを包含する。
【0058】
本開示はいくつかの例示的な実施形態を説明しているが、本発明の範囲内に入る、変更、置換、及び様々な均等物が存在する。したがって、当業者は、本明細書に明示的に示されていないか又は記載されていないが、本発明の原理を実施し、したがってその概念及び範囲内にある多数のシステム及び方法を創造することができることが理解されよう。
図1
図2A
図2B
図3
図4
図5
図6
【国際調査報告】