IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー・インタラクティブエンタテインメント エルエルシーの特許一覧

特許7242764遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム
<>
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図1
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図2
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図2A
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図2B
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図3
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図4
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図5
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図6
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図7
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図8
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図9
  • 特許-遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-03-10
(45)【発行日】2023-03-20
(54)【発明の名称】遅延なくニアライブでライブインターネット音楽を演奏及び録音するための方法及びシステム
(51)【国際特許分類】
   H04N 21/8547 20110101AFI20230313BHJP
   G10K 15/02 20060101ALI20230313BHJP
【FI】
H04N21/8547
G10K15/02
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2021104993
(22)【出願日】2021-06-24
(65)【公開番号】P2022008251
(43)【公開日】2022-01-13
【審査請求日】2021-06-25
(31)【優先権主張番号】16/912569
(32)【優先日】2020-06-25
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518187455
【氏名又は名称】ソニー・インタラクティブエンタテインメント エルエルシー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】アルビー,ガルテン
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】特開2002-207492(JP,A)
【文献】特開2005-219631(JP,A)
【文献】特開2001-145167(JP,A)
【文献】米国特許出願公開第2015/0254056(US,A1)
【文献】米国特許出願公開第2018/0196393(US,A1)
【文献】特表2018-515009(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/8547
G10K 15/02
(57)【特許請求の範囲】
【請求項1】
遅延を伴わずにニアライブでライブインターネット音楽を演奏及びレコーディングするための方法であって、当該方法は、ロセッサによって実施され
電子カウントインを生成するステップと、
マスタークロックを生成するために前記電子カウントインを第1の演奏にバインドするステップと、
第1のミュージシャンの第1の演奏及び第1のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第2のミュージシャンのサウンドデバイスによって前記第1のミュージシャンの前記第1の演奏を受信するステップであって、前記第1の演奏を受信したことに応答して、前記第2のミュージシャンによって第2の演奏が創作される、ステップと、
前記第2の演奏及び第2のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第3のミュージシャンのサウンドデバイスによって第1のミックスされたオーディオを受信するステップであって、前記第1のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第1の演奏及び前記第2の演奏を前記第1のタイミング情報及び第2のタイミング情報と共に含み、前記第1のミックスされたオーディオを受信したことに応答して、前記第3のミュージシャンによって第3の演奏が創作される、ステップと、
前記第3の演奏及び第3のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信するステップと、
第4のミュージシャンのサウンドデバイスによって第2のミックスされたオーディオを受信するステップであって、前記第2のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第1のミックスされたオーディオ及び前記第3の演奏を前記第3のタイミング情報と共に含み、前記第2のミックスされたオーディオを受信したことに応答して、前記第4のミュージシャンによって第4の演奏が創作される、ステップと、
を含む、法。
【請求項2】
前記第1のミュージシャンの前記第1の演奏を現場においてフル解像度でレコーディングして、フル解像度メディアサーバに送信するステップと、
前記第1のタイミング情報を前記マスタークロックに送信するステップと、
をさらに含む、請求項1に記載の方法。
【請求項3】
前記第1のミュージシャンの前記第1の演奏の1つ以上の低解像度バージョンを圧縮オーディオメディアサーバに送信するステップと、
前記第1のタイミング情報を前記マスタークロックに送信するステップと、
をさらに含む、請求項1に記載の方法。
【請求項4】
複数のサウンドデバイスにおいて、ネットワークオーディオミキサーから、個々のミュージシャンの組み合わされた演奏を、互いに聞くために受信するステップと、
複数のサウンドデバイスにおいて、前記個々のミュージシャンのすべての組み合わされた蓄積的な演奏をオーディエンスが聞くために受信するステップと、
をさらに含む、請求項1に記載の方法。
【請求項5】
サウンドデバイスにおいてネットワークオーディオミキサーから解像度が向上したオーディオを受信するステップをさらに含む、
請求項1に記載の方法。
【請求項6】
前記電子カウントインは、オーディオ波形サンプルに基づいて特定時間に生じる特定の識別可能な波形を有す、請求項1に記載の方法。
【請求項7】
前記電子カウントインがビデオである、請求項1に記載の方法。
【請求項8】
前記電子カウントインが、オーディオ及びビデオである、請求項1に記載の方法。
【請求項9】
レコーディング機器を起動するステップと、
域幅をテストするためにネットワークをポーリングするステップと、
前記帯域幅が十分である場合、フル忠実度デジタルデータをそのタイミング情報と共に送信するステップと、
前記帯域幅が十分でない場合、オーディオをより小さなファイルサイズに圧縮するステップと、
をさらに含む、請求項1に記載の方法。
【請求項10】
前記第1のタイミング情報が、それぞれのレコーディングのロスレスバージョン及び圧縮バージョンのためのタイミング情報を含む、請求項1に記載の方法。
【請求項11】
前記ロスレスバージョンと前記圧縮バージョンとの間で切り替えるときに、レコーディングをストリーミングしながら同期を維持するステップをさらに含む、
請求項10に記載の方法。
【請求項12】
遅延を伴わずにニアライブでライブインターネット音楽を演奏及びレコーディングするためのシステムであって、
ロセッサと、
前記プロセッサに通信可能に結合されたメモリであって、前記メモリは、前記プロセッサによって実行されると、前記プロセッサに、
電子カウントインを生成させ、
マスタークロックを生成するために前記電子カウントインを第1の演奏にバインドさせ、
第1のミュージシャンの第1の演奏及び第1のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第2のミュージシャンのサウンドデバイスによって前記第1のミュージシャンの前記第1の演奏を受信させることであって、前記第1の演奏を受信したことに応答して、前記第2のミュージシャンによって第2の演奏が創作され、
前記第2の演奏及び第2のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第3のミュージシャンのサウンドデバイスによって第1のミックスされたオーディオを受信させることであって、前記第1のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第1の演奏及び前記第2の演奏を前記第1のタイミング情報及び第2のタイミング情報と共に含み、前記第1のミックスされたオーディオを受信したことに応答して、前記第3のミュージシャンによって第3の演奏が創作され、
前記第3の演奏及び第3のタイミング情報を前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信させ、
第4のミュージシャンのサウンドデバイスによって第2のミックスされたオーディオを受信させることであって、前記第2のミックスされたオーディオは、前記ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールによってミキシングされた前記第1のミックスされたオーディオ及び前記第3の演奏を前記第3のタイミング情報と共に含み、前記第2のミックスされたオーディオを受信したことに応答して、前記第4のミュージシャンによって第4の演奏が創作される、
を実行させる命令を含む、システム。
【請求項13】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記第1のミュージシャンの前記第1の演奏を現場においてフル解像度でレコーディングして、フル解像度メディアサーバに送信させ、
前記第1のタイミング情報を前記マスタークロックに送信させる、
請求項12に記載のシステム。
【請求項14】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記第1のミュージシャンの前記第1の演奏の1つ以上の低解像度バージョンを圧縮オーディオメディアサーバに送信させ、
前記第1のタイミング情報を前記マスタークロックに送信させる、
請求項12に記載のシステム。
【請求項15】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
複数のサウンドデバイスにおいて、ネットワークオーディオミキサーから、個々のミュージシャンの組み合わされた演奏を、互いに聞くために受信させ、
複数のサウンドデバイスにおいて、前記個々のミュージシャンのすべての組み合わされた蓄積的な演奏を、オーディエンスが聞くために受信させる、
請求項12に記載のシステム。
【請求項16】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
サウンドデバイスにおいてネットワークオーディオミキサーから解像度が向上したオーディオを受信させる、
請求項12に記載のシステム。
【請求項17】
前記電子カウントインは、オーディオ波形サンプルに基づいて、特定時間に生じる特定の識別可能な波形を有する、
請求項12に記載のシステム。
【請求項18】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
レコーディング機器を起動させ、
帯域幅をテストするためにネットワークをポーリングさせ、
前記帯域幅が十分である場合、フル忠実度デジタルデータをそのタイミング情報と共に送信させ、
前記帯域幅が十分でない場合、オーディオをより小さなファイルサイズに圧縮させる、
請求項12に記載のシステム。
【請求項19】
前記第1のタイミング情報が、それぞれのレコーディングのロスレスバージョン及び圧縮バージョンのためのタイミング情報を含む、
請求項12に記載のシステム。
【請求項20】
前記命令は、前記プロセッサによって実行されると、前記プロセッサに、さらに、
前記ロスレスバージョンと前記圧縮バージョンとの間で切り替えるときに、レコーディングをストリーミングしながら同期を維持させる、
請求項19に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は2020年6月25日出願の米国非仮特許出願第16/912,569号(発明の名称「Methods and Systems for Performing and Recording Live Internet Music Near Live with No Latency」)の優先権主張するものである。上記出願は、2020年6月25日出願の米国非仮特許出願第16/912,578号(発明の名称「Methods and Systems for Performing and Recording Live Internet Music Near Live with no Latency」)に関連する。上記二出願はその全体をここに参照援用する。
【0002】
本開示は、音楽演奏及びレコーディングの分野、ならびにネットワークの遅延及び同期に関する。
【背景技術】
【0003】
音楽は通常、同時演奏と非同時演奏を組み合わせてレコーディングされている。つまり、一部またはすべてのミュージシャンが、一度に音楽を演奏し、それが1回の演奏として録音されている。本来、すべての音楽は、すべてのミュージシャンが1度に1回の演奏として演奏して録音されていた。1950年代には、レスポールは最初にマルチトラックレコーダーを創作し、事前に録音された音楽パートの上に第2の音楽パートが演奏できるようになった。その後、ミュージシャンは最初の録音で1つ以上の楽器の録音を開始し、その後に他の楽器を追加することにした。これはオーバーダビングとして知られている。
【0004】
過去20年間、ミュージシャンは、異なる場所で他のミュージシャンとライブで(同時に)演奏ができることを常に望んでいたが、このことはある程度行われてきたものの、ほとんどの音楽スタイルにおいて、ネットワーク遅延は有効なレコーディングを行うには過大である。優れたミュージシャンは、数ミリ秒程度の不正確性で調子やドラムビートが「調子外れ」していても気付くことになる。光速でもロサンゼルスからニューヨークまでは約13ミリ秒(往復で26ミリ秒)要し、そのためミュージシャンがリアルタイムで一緒に演奏するにはこの遅延は過大である。
【発明の概要】
【0005】
例示的な実施形態は、遅延を伴わずにニアライブでライブインターネット音楽を演奏及び録音するためのシステム及び方法を提供する。
【0006】
例示的な方法は、プロセッサが、電子カウントインを生成するためにメモリ内に格納された命令を実行すること、電子カウントインを第1の演奏にバインドしてマスタークロックを生成すること、ならびに第1のミュージシャンの第1の演奏及び第1のタイミング情報をネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールに送信することを含む。第1のミュージシャンの第1の演奏は、現場においてフル解像度でレコーディングされ、フル解像度のメディアサーバに送信され得、第1のタイミング情報は、マスタークロックに送信され得る。代替的に、第1のミュージシャンの第1の演奏の低解像度バージョンは、圧縮オーディオメディアサーバに送信され得、第1のタイミング情報はマスタークロックへ送信され得る。
【0007】
続いて、例示的な実施形態によれば、第1のミュージシャンの第1の演奏は、第2のミュージシャンのサウンドデバイスに送信され、第2のミュージシャンは、第2の演奏を創作し、それと第2のタイミング情報をネットワークキャッシング、ストレージ、タイミング及びミキシング用モジュールに送信する。第1及び第2の演奏は、第1及び第2のタイミング情報と共にミックスされて、第1のミックスオーディオを生成し、これは、第3のミュージシャンのサウンドデバイスに送信されることができる。第3のミュージシャンは、第3のパフォーマンス及び第3のタイミング情報を創作し、これは第1のミックスオーディオとミックスされて、第2のミックスオーディオを生成する。このプロセスは、最後のミュージシャンが演奏して録音するまで繰り返されている。
【0008】
メディアのネットワークキャッシング、ストレージ、タイミング、及びミキシング用の例示的なシステムは、ネットワークをピング(ping)し、第1のユーザデバイスへの帯域幅を決定するように構成されたインターネット帯域幅テストモジュールと、インターネット帯域幅テストモジュールに通信可能に結合された品質/遅延設定モジュールであって、帯域幅に基づいてメディアの解像度を判定するように構成された品質/遅延設定モジュールと、品質/遅延設定モジュールに通信可能に結合されたネットワークオーディオミキサーであって、判定された解像度に従ってメディアを第1のユーザデバイスに送信するように構成されたネットワークオーディオミキサーと、を含む。システムは、第1のユーザデバイスからメディア及びマスタークロック用の時間同期コードを受信するように構成されたフル解像度メディアサーバ、及び/または第1のユーザデバイスからメディア及びマスタークロック用の時間同期コードを受信するように構成された圧縮メディアサーバを含む。
【0009】
続いて、様々な例示的な実施形態によれば、インターネット帯域幅テストモジュールは、ネットワークをピングし、第2のユーザデバイスに送信されるメディアの解像度を決定するために、第2のユーザデバイスへの帯域幅を判定する。さらなる例示的な実施形態では、メディアは、複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、演奏はある範囲の解像度を有している。この場合、フル解像度メディアサーバと圧縮メディアサーバの両方がメディアをネットワークオーディオミキサーに送信し、ネットワークオーディオミキサーはメディアを第2のユーザデバイスに送信する。システムは、第2のユーザデバイスから演奏を受信し、それを単一のミックストラックにミックスする。
【0010】
インターネット帯域幅、遅延、品質、及びメディアのミキシングを管理するための例示的なシステムは、一定期間にわたって帯域幅を測定するための構成要素を制御するメモリに格納された命令を実行するプロセッサ、さまざまな圧縮レベルを変化させる構成要素、及び品質が経時的に変化する共通のタイムコードを使用して、さまざまな解像度をシームレスにつなぎ合わせるための構成要素を含む。すべての構成要素は互いに通信可能に結合され、単一フェーダーにバス接続されている。
【0011】
本発明の上述の目的及び更なる目的、特徴、ならびに利点は、特に、添付の図面と併用されるときに、いくつかの具体的な実施形態の以下の詳細な説明を考慮して明確になることになり、様々な図面における同様の参照番号は、同様の構成要素を指定するために利用されている。
【図面の簡単な説明】
【0012】
図1】ミュージシャン、ネットワークサービス、及びオーディエンスを示すアーキテクチャの高レベル図である。
図2】第1のミュージシャン、ネットワークスタック、及び送信スタックの詳細を示している。
図2A】時間が音楽サンプルとどのように関連しているかを示している。
図2B】これがオーディオだけでなくビデオでも使用できることを示している。
図3】第2の(及びそれ以降の)ミュージシャン(複数可)に関連するネットワークスタック及び送信スタックを示している。
図4】チェーン内のミュージシャンがネットワークスタック及び送信スタックによってどのように接続されているか、そして再生同期と帯域幅がどのように最適化されているかを示している。
図5】音楽が1人のミュージシャンから次のミュージシャンに移動するときに、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュールがどのように連携するかを示している。
図6】インターネットの帯域幅、遅延、品質、及びミキシングがどのように連携するかを示している。
図7】さまざまな解像度で個々の演奏が作成されることができる方法を示している。
図8】例示的なジャムバンドのシナリオを示している。
図9】ジャムバンドシナリオのための例示的なタイミング状況を示している。
図10】例示的な演劇用ポッドキャストのシナリオを示している。
【発明を実施するための形態】
【0013】
全体を通して特定された要素は、例示的なものであり、それらの様々な代替物、同等物、または派生物を含み得る。ハードウェア、ソフトウェア、及びコンピュータ実行可能命令のさまざまな組み合わせが利用され得る。プログラムモジュール及びエンジンは、ルーチン、プログラム、オブジェクト、構成要素、及びデータ構造を含み得、これらは汎用または専用であり得るプロセッサによって実行されたとき、特定のタスクのパフォーマンスを実現する。コンピュータ可読記憶メディアに記憶されたコンピュータ実行可能命令及び関連するデータ構造は、方法のステップを実行するためのプログラミング手段、及び/または本明細書に開示される特定のシステム構成を実装する実施例を表す。
【0014】
本開示は、事前に来るミュージシャンのサウンドに対して、ミュージシャンがリアルタイムで連続して一緒に演奏することを可能にするためのメカニズムを説明している。多数のミュージシャンが一緒に曲を演奏している場合、第1の人物が開始し、音楽は数ミリ秒の遅延で第2の人物に届くことがあるが、その第2の人物は彼らが聞いたものに合わせて演奏し、彼らにとっては、2つの演奏は完全に時間が一致したものになっている。ここで第3の人物は、初めの2人のこの演奏(互いに時間は一致している)を、第2の人物が聞いたように聞くが、彼らはこれを実際に演奏されたよりも遅れて聞く場合があり、彼らは聞いているもの同時に演奏することになり、彼らにとっては、3つのすべての楽器は完全に時間一致することになる。このことは制限なく継続することができる。
【0015】
これを実現するために、一種の直列的なレコーディングが必要となる。しかしながら、オーディオがネットワークを介して転送されるため、容易に品質劣化する可能性がある。つまり、1人のミュージシャンのために音楽再生が開始されると、一時停止したり遅くしたりすることはできないが、正確なタイミングを可能にするためにビットレート(品質)が下がることがある。ここでは各演奏がフル解像度でクラウド(例えば、ネットワークサーバ)にレコーディングされ、必要に応じて圧縮されることが提案されている。また、最終的な演奏がクラウドに到達したときにフル解像度になるように、忠実度を維持するために現場でバッファリングする必要があることもあり得る。このように、演奏時にミュージシャンが聞く品質がわずかに損なわれたとしても、レコーディングとクラウドへの送信の品質を損なう必要はないため、最終的な結果は完全な忠実度で、最終的に再生するときには完璧なタイミングになる。
【0016】
図1で分かるように、全体的なシステムは、個々のミュージシャン(及びその機器とソフトウェアとレコーディング)ならびにネットワークキャッシング、ストレージ、タイミング、及びミキシング用構成要素で構成されている。シナリオは以下のようになっている。
【0017】
第1のミュージシャン(101)は、電子カウントイン(通常は1、2、3、4と言う)を言う、または生成することから開始する。様々な例示的な実施形態では、信号(デジタルデータまたはオーディオデータのいずれか)があり、これは曲の始まりを合図するとともに、他のミュージシャンがいつ開始するかを知るためのキューを出す。場合によっては、第1の(場合によっては後の)ミュージシャン(複数可)がそれに対して演奏するクリックトラック(メトロノーム)が存在することがある。他の場合では、それはボーカルのカウントオフまたは楽器によるピックアップである可能性がある。あるいは、指揮者によって与えられるような視覚的なキューである可能性がある。いずれの場合も、この最初のマーク(これも必ずしもダウンビートではない)は、共にマスタークロックになる第1の演奏に完全にバインドされており、これはすべてのローカルクロックと演奏の同期を維持するために使用されることになる。NTP、つまりネットワークタイムプロトコルを使用するのが最も容易であるが、NTPは通常100ミリ秒内でしか正確ではない。参加者のすべての演奏は、1ミリ秒未満の精度の共通クロックにバインドされている必要がある。第1のミュージシャン(101)の演奏及びタイミング情報(102)は、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用モジュール(103)に送信されている。
【0018】
各ミュージシャンの演奏は、フル解像度で、現場でレコーディングされる。これは最終的にフル解像度メディアサーバ(104)に送信される。これはリアルタイムで送信されることはできるが、送信され得ない。最適な帯域幅がない状況では、これは後で送信されることができる。
【0019】
遅延なくフル解像度のオーディオを送信するのに十分な帯域幅がない場合は、第1のミュージシャンの演奏の低解像度バージョンを圧縮オーディオメディアサーバ(105)に送信することができる。この低解像度バージョンは、後続のミュージシャンが自分の前に来るパートを聞いて、これに合わせて演奏するのに十分であるはずである。この低解像度バージョンは可能な限り高品質であるべきであり、理想的なネットワーク状況では、フル品質バージョンと実質的に区別がつかないはずである。しかし、帯域幅の状況によっては、フル解像度のオーディオが後で送信されることが可能である。
【0020】
同時に、同一のメディアファイル(フル解像度と圧縮したもの両方)の一部として、タイミング情報がマスタークロック(106)に送信される。オーディオは通常、44.1、48、または96キロヘルツでレコーディングされており、解釈上、本明細書で必要とされる1ミリ秒よりもはるかに正確なクロックがあることになる。オーディオレコーディングに関連付けられたタイムスタンプは、クロックを設定及び同期するために使用されている。
【0021】
第2のミュージシャン(107)が、フル解像度メディアサーバ(104)または圧縮オーディオメディアサーバ(105)から音楽を聞くと、ネットワーク帯域幅に応じて第2のミュージシャン(107)は演奏を追加する。第2のミュージシャンの演奏は、ここでネットワークキャッシング、ストレージ、タイミングモジュール(103)に送られ、オーディオ及びタイミング情報が保存される。同時に、最初の2人のミュージシャンのオーディオは、ネットワークオーディオミキサー(108)によって組み合わせられ(またはミキシングされ)、タイミング情報とともに第3のミュージシャン(109)に送られ、演奏はネットワークキャッシング、ストレージ及びタイミング用のモジュール(103)に返送され、そこで新たなオーディオ及びタイミング情報が、他の演奏とともに保存され、次いで、最後のミュージシャン(110)が演奏してレコーディングされるまで、さらなるミュージシャンに送信される。
【0022】
ネットワークオーディオミキサー(108)は、個々のミュージシャンの演奏を相互に聞くために組み合わせるだけでなく、すべてのミュージシャンの積み重ねた演奏をオーディエンス(111)が聞くためにも組み合わせる。以下でより詳細に説明するように、ネットワークオーディオミキサー(108)は、様々なトラック(または演奏)を単に組み合わせるだけでなく、それらを最大限の忠実度をもたらすような方法で組み合わせる。したがって、例えば、帯域幅の制約のために1人のミュージシャンの演奏が低解像度である場合でも帯域幅が向上すると、品質も同様に向上することになる。さらに、フル解像度バージョンは最終的にフル解像度メディアサーバ(104)に到達し、その解像度がサーバに到達すると、それ以降それを聞く人は常にフル解像度のものを聞くことになる。長期的には、このことは、音楽が後に再生される場合(例えば、ライブ演奏の2時間後)、それがフル解像度のものになることを意味している。状況によっては、帯域幅が増加している一部のミュージシャンの解像度は、演奏が展開されると、彼らのパートの解像度は増したものとなることができる。
【0023】
図2は、レコーディングならびにオーディオ及びタイミング情報の初期送信の詳細を提示している。同期のための信頼できる開始点は、プロセスの後半でこれらのシステム及びミュージシャンによって正確に識別される必要がある。例えば、ミュージシャンはカウントをとる(例えば、1、2、3、4)。「1」という単語が録音されるとき、オーディオ波形サンプルに基づいている特定の時間に生じる特定の識別可能な波形を有する。デジタル波形は、解釈上、1つの周波数(例えば、44.1kHz、48kHz、96kHzなど)でサンプリングされ、この場所は常に時間に関連付けられている。図2Aは、ピッチA4で演奏しているチェロのサンプルを示している。基本波は440Hzであり、これは約2.25ミリ秒となっている(波形の摂動は、倍音やボーイングなどのその他のノイズである)。レコーディングの共通点が見つかると、その点からピースの任意の場所までのミリ秒数が容易に計算されることができる。
【0024】
同じタイミング情報はビデオにも適用されることができる。例えば、第1のミュージシャンが指揮者である場合、ミュージシャン達は依然として(同時にではなくても)タイミングを合わせて続くことができる。実際には、クリックトラックやドラムループのような共通のリズムが必要かも知れないが、理論的には、同じ指揮者や他の視覚的なキュー(フィルムスコアリングなど)に従うことを妨げるものはない。図2Bを参照すると、図2の左側に類似しているが、マイク(201)がカメラ(213)に置き換えられており、ビデオのレコーディング(214)が、サンプリングクロック(202)によってローカルレコーディング(203、204)に同期されたレコーディング要素に加えられている点が異なっている。
【0025】
図2に戻ると、第1のミュージシャン(200)がマイク(201)にサウンドを出し、このことがオーディオ(または上で説明したビデオ)と共にクロック(202)を開始するサウンドはフル忠実度でレコーディング(203)され、送信用に準備される。レコーディング機器の電源がオンになり、ネットワークに接続された時点から、帯域幅をテストするためにネットワークがポーリングされる。帯域幅が十分である場合、次に、フル忠実度(ロスレス)バージョン(203)がタイミング情報とともに送信(205)される。しかし、帯域幅が十分でない場合、第1のミュージシャンのレコーディング環境にあるソフトウェアモジュールは、オーディオをより小さなファイルサイズに圧縮できる。例えば、オーディオコーデックAACは、48kHzのレコーディングから形成された128キロビット/秒(kbps)の妥当な忠実度であると見なされる。未圧縮ファイルは1536kbpsでストリーミングされ、ロスレス圧縮を使用しても依然として約800kbpsになる。(注記:いずれかの所与の解像度で複数のファイルを一緒に再生すると、楽器が単一レコーディングとして録音された場合よりも高い解像度のファイルになる。例えば、16ビットの48kオーディオの16チャネルは、共にミキシングされると、16ビットの48kオーディオの2チャネルよりも高い解像度になる。)遅延、帯域幅、品質のバランスについては、本開示の後半で詳しく説明している。
【0026】
送信フォーマットに関して、クロックは常に各レコーディングの各バージョン(ロスレスと圧縮の両方)にバインドされることになる。送信スタック(205)を見るときは、それぞれが同じ対応する時間/同期コードを有する2つの別々のストリームとして見る必要がある。このようにして、音楽がネットワークキャッシング、ストレージ、タイミング、及びミキシング用構成要素(サーバ/サービス)(206)に到着したとき、サービスが解像度(208、209)間で切り替える必要がある場合、完全な同期を維持するために共通(マスター)クロック(207)を使用することができる。他のミュージシャンの演奏を組み合わせるとき、これはネットワークオーディオミキサー(210)によって行われる。
【0027】
図3は、第2のミュージシャン(300)の追加を示している。オーディオ及び、場合によってビデオは、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用サービス(301)からから来ており、ここでは、第1のミュージシャンからのメディアが格納され、ロスレスオーディオ(304)を含む送信スタック(302)プロトコルを使用してインターネット経由で送信されタイミング情報(303)にバインドされ、帯域幅に応じて、圧縮オーディオ(305)もタイミング情報(303)にバインドされている。このプロセス全体にビデオを含めることが可能であり、視聴覚技術分野に従事する者は、本開示のデータに基づいてビデオを使用して容易に構築することができる。十分な帯域幅がある場合は、圧縮オーディオは必要なくなり得る。オーディオが到着すると、最初にミキシングモジュール(306)に入り、第2のミュージシャンのモニター(307)(おそらくヘッドフォン)に供給される。第2のミュージシャンが演奏するか、または歌うと、直接注入(電子楽器、またはピエゾピックアップや磁気ピックアップなどの音響用電気ピックアップの場合)またはマイク(308)によってミキシングモジュールに送られ、そこで第1のミュージシャンのオーディオと組み合わせられ(ミキシングされ)、第2のミュージシャンは、演奏しながら両方のパートを聞くことができる。
【0028】
第2のミュージシャンはロスレスでレコーディングされ(310)、オリジナルの録音と同じクロック同期(309)を使用してタイムスタンプが付加される。第2のミュージシャンからのオーディオは、同じ送信スタックプロトコル(312)を使用してオリジナルから受信したものと同じタイムコードで、ネットワークキャッシング、ストレージ、タイミング、及びミキシング用サービス(NCSTMS)(301)に送り返される。NCSTMSには既に第1のミュージシャンのオーディオ及び同じ同期タイムコードを有していることから、第1のミュージシャンのオーディオはNCSTMSに送り返す必要はない。NCSTMSには、様々なミュージシャンの演奏をミックスするネットワークオーディオミキサーがあることに留意されたい。これは個々のミュージシャンの場所にあるミキサーとは別のものである。
【0029】
図4は、再生同期及び帯域幅最適化(408)を示している。上述のように、同期は、オーディオ(及びビデオ)のすべての解像度にわたって共有されている共通のタイムコードに基づいている。品質と遅延の間には、時々トレードオフ関係があり得る。ミュージシャン(ミュージシャンN)が800kbps(ロスレス圧縮)でフル解像度で送信すると、次のミュージシャン(ミュージシャンN+1)の帯域幅は少なくなる。例えば、ネットワークのスループットをテストしたことに基づくと、ミュージシャンNが800kbpsでストリーミングする場合は、ミュージシャンは、遅延が15秒になるように十分な音楽をキャッシュする必要がある。しかしながら、ミュージシャンNが128kbpsでオーディオを送受信した場合、遅延はわずか75ミリ秒になる。再生同期及び帯域幅最適化モジュール(408)は、解像度を選択できるため、オーディオをミュージシャンN+1に送信するために必要な帯域幅を選択できる。
【0030】
これをもう少し詳しく見るために、図5図6を参照されたい。
【0031】
図5は、ミュージシャンN(500)を示している。ミュージシャンN(500)とNNCSTMモジュール(501)の間で利用可能な帯域幅を知るために、インターネット帯域幅テストモジュール(502)が使用されている。ネットワークを「ピング(ping)」して2点間の帯域幅を見つけることは、かなり標準的な方法であり、この機能は当該技術分野の従事者であれば誰でも利用できる。利用可能な帯域幅に基づいて、品質/遅延設定モジュール(503)は、ネットワークオーディオミキサーがミュージシャンNに送信すべきメディアの解像度を決定する(図6に詳細を示す)。帯域幅に応じて、ミュージシャンNは、メディアをマスタークロック(505)に送信される同期タイムコードと共にフル解像度メディアサーバ(506)または圧縮メディアサーバ(507)に送信する。「サーバ」とは、ホームコンピュータのハードドライブから、インターネット全体に広く分散しているサーバのアレイまで、あらゆるサーバ構成を意味することに留意すべきである。また「圧縮メディアサーバ」は、ビデオ及び/またはオーディオの複数の解像度を含むことができ、同様に分散されることもできる。チェーン内の次のミュージシャンであるミュージシャンN+1(508)にメディアを送信するため、帯域幅はインターネット帯域幅テストモジュール(502)によって再度テストされる必要がある。このことがミュージシャンN+1に送信されるメディアの解像度を決定する。ミュージシャンN+1に送信されるメディアは、これまでに演奏されたミュージシャンの個別レコーディングのすべてではなく、すべての演奏を組み合わせた単一のミックストラックであることに留意されたい。例えば、ミュージシャンN+1がチェーン内の5番目のミュージシャンであると仮定すると、これ以前のミュージシャンは、演奏品質に以下の帯域幅制限を有していたことになり、それらは、ミュージシャン1が800kbps(フルロスレス)、ミュージシャン2が450kbps、ミュージシャン3が800kbps、ミュージシャン4が325kbps及びミュージシャン5が800kbpsである。メディアは、フル解像度メディアサーバ(506)と圧縮メディアサーバ(507)の組み合わせから取得され、ネットワークオーディオミキサー(504)に送られる。組み合わせられた「ミックス」はミュージシャンN+1に送信されることになる。組み合わせられたミックスでは、ミュージシャン1と3のパートは、ミュージシャン2と4のパートよりも解像度が高くなることに留意されたい。他の演奏はすでにキャッシュされているため、NCSTMモジュールに返送されるメディアは、ミュージシャン5による新しい演奏のみであることに留意されたい。従って、ミュージシャン5に接続する際の帯域幅の制限は、ミュージシャン5のパートの品質にのみ影響し、さらには、チェーン内のミュージシャンにのみ影響し、すべてのミュージシャンのフル忠実度を受信することができる(いつ聞くかに応じて)最終的なリスナーには影響しない。
【0032】
図6は、システムの帯域幅、品質、遅延、及びミキシング用構成要素を示している。音楽の品質に対する帯域幅の影響は、双方向で発生する。アップロード帯域幅は、個々の演奏の最初の送信の品質に影響する(同じ演奏のその後の送信では依然としてフル解像度である)。ダウンロード帯域幅は、ミュージシャンが合わせて演奏しているときに聞く品質に影響する。
【0033】
アップロードするミュージシャンの作業環境には、帯域幅を測定する独自の機能があり、それによって、例えば、ある時点でフル帯域幅(605)が存在するようになり、帯域幅に応じて、異なるレベルの圧縮(606、607、608、609)がある可能性がある。システムは、経時的に変化する品質(タイミングではない)のみを伴う共通のタイムコードを使用して様々な解像度をシームレスにつなぎ合わせる。これらすべては、ミックス内のこのミュージシャンのレベル用の単一のフェーダーに仮想的にバス接続される(フェーダーを操作する人間がいる場合や、ミキシングを行うアルゴリズムがある場合がある)。このことは、チェーン内の第2のミュージシャン(610、611、612、613)などからN番目のミュージシャン(614、615、616)までに該当する。これらのレベルはミックスで組み合わされ、そのミックスがチェーン内の次のミュージシャン(508)にその帯域幅で送信される。NCSTMから個々のミュージシャンへの送信の帯域幅は、通常(今日一般的に行われているように)遅延がないことを確実にするために適切な帯域幅で送信されることに留意されたい。このことは、各ミュージシャンからのアップロード帯域幅とは無関係である。例えば、あるミュージシャンの帯域幅が特に低い場合、受信するストリームの品質が低くなる場合がある。しかしながら、これらは現場環境においてフル忠実度でレコーディングされ、低遅延リスナーに対する演奏の品質は、アップロード帯域幅を反映することになる。当然、前述のように、フル解像度の演奏がアップロードされると、後続のリスナーはフル解像度でそれを聞くことになる(当然、そのリスナーの帯域幅に依存する)。
【0034】
様々な解像度の説明を明確にするために、図7を参照することが有用になり得る。これは、様々な解像度のオーディオが、どのようにレコーディングされ、格納されるかを示している。第1のミュージシャン(701)とは異なる解像度が経時的に複数の波形(702)として表示されていることに留意されたい。後続のミュージシャンは、第1のミュージシャンからの演奏を可変解像度であるが、単一の演奏として聞くことになる。第2のミュージシャンも、後続のミュージシャン(704)と同様に、複数の解像度(703)で録音される場合がある。上述のように、これらの異なる演奏は、フェーダー(602、603、604)を使用するミキシングエンジニアによってミキシングされ、後続のミュージシャンまたはオーディエンスが聞くことができるようになっている。オーディオの一部の高解像度がネットワークキャッシング、ストレージ、タイミング、及びミキシング構成要素にアップロードされると、それらは後続のミックス(パフォーマンスの終了後など)で使用されて品質を向上させることができることに再度留意されたい。
【0035】
使用例として、図8に示されたジャムバンドのシナリオを参照する。ドラム(801)、パーカッション(802)、ベース(803)、ピアノ(804)、2本のギター(805及び806)の6人のミュージシャンが演奏すると仮定する。彼らはすべてNCSTM(807)に接続されており、オーディエンス(808)も同様である。ドラマーが演奏開始し、2小節後に、パーカッショニストとベースプレーヤーが参加すると仮定する。他のミュージシャンは、直後に、または数小節後に参加できる。各ミュージシャンは、前のミュージシャンを順番に聞くことだけができるが、レイアウトすることで順番は変更することができる。
【0036】
図9を見ると、クロック(901)上の実際の時間は、一時停止せずに進行しているが、実際の小節番号(902)はミュージシャンに合わせて移動している。ドラマーの小節1(903)が始まりであるが、後続の各ミュージシャン(904)の小節1は少し遅れており、それぞれが前の小節1より少し長くなっている。ドラマー(905)が演奏を開始して、パーカッショニスト(906)、ベースプレーヤー(907)、キーボードプレーヤー(908)がそれに続いている。1人のギタープレーヤー(909)がキーボードプレーヤーの直後に、第2のギタープレーヤーの前に開始するが、自身のソロ演奏の間にもう一方のギターを聞きたいであろうと想定する。この文脈で「前に開始する」と言うときは、音楽の順序と混同しないように「ネットワークの順序」を指している。ミュージシャン(または所定のキューを受けたミキシングエンジニア)は、リセットまたは「位置の変更」を押したとすると、新しい位置の時点のオーディオが聞こえ始める。
【0037】
図9では、灰色の領域(911、912及び913)は、誰かがレイアウトしていることを表している。従って、合計2秒の遅延があったとすると、ギタープレーヤーがスイッチを押すと、彼らは彼らがいる場所だが、すべてのミュージシャンが演奏している2秒後の音楽を聞くことになる。そのため、もし私が1つか2つの小節にレイアウトすると仮定すると、他のミュージシャンを聞きながら再び参加することができることになる。曲における場所を追跡するインタラクティブなコードチャートがあれば、これを計画したほうが容易かも知れないが、ミュージシャンは自身がどこにいるかを素早く認識できるようになるかも知れない。
【0038】
この想像上のジャムバンドのシナリオでは、ミュージシャンは逆上ってレイアウトして戻って、他のミュージシャンの演奏を聞くことができ、ドラマーまたはパーカッショニストでさえ、レイアウトして数ビート後に戻るが、他のミュージシャンを聞くことができる。必ずしもキューの最後に移動する必要はない。おそらく、シンガーは常にキューの最後にいて、「ドロップバック」すると最後から2番目に移動するか、1つまたは2つの場所にドロップバックすることができる。例えば、ドラマーとパーカッショニストは場所を交換することができる。問いかけと受け答えタイプの演奏が多く行われる可能性があるが、その答えは最後の再生まで聞くことはないであろう。
【0039】
別の使用例は、劇場型ポッドキャストシナリオである。このシナリオでは、図10に示すように、オンラインでニアライブのパフォーマンスを創作する複数の俳優がいる。これは台本によるものでも、インタビューまたはリアリティ番組のように自発的なものである場合もある。上で行っていたことを実行できるが、他にもいくつかのオプションがある。話し言葉は音楽ほど時間に敏感ではないので、もう少し時間で遊べる場合もある。また、パフォーマンスは、横並びであるよりも縦並びになっており、忠実度の要件もより柔軟になっている。ジャムバンドのシナリオでは、1人のミュージシャンが数小節をレイアウトすると、このミュージシャンが後でキューに入れることができる。また、間奏時間が短縮されることもできる。6人の俳優(1001、1002、1003、1004、1005及び1005)による演劇を仮定することにする。興味深くするために、俳優5と6(1005と1006)は同じ場所にいると仮定する。時間(1007)を追跡して、1分弱にわたって話をする俳優1(1001)から始める。俳優2(1002)は、彼らにとってリアルタイムでそれを聞いている。現在、俳優1は、1分も経たないうちに再参加することを計画している。議論のために、俳優1と2の間の遅延が100ミリ秒であると仮定することにする。俳優1が終了するとすぐに、俳優1はキューをジャンプすることができる。しかしながら、ここには2つの制約があり、1)俳優1は、俳優2が言うことを聞き逃したくない、2)俳優1は、俳優2のパートの少なくとも最後の部分を可能な限り変更されていない状態で聞きたい、そのために、それらのタイミングと抑揚は可能な限り自然になる。従って、解決策は次のようになり、それは、俳優1がキューをジャンプすると、俳優2より100ミリ秒遅れ、つまり、俳優2はすでに100ミリ秒話していることになる。そのため、俳優1がキューに戻るときは、その100ミリ秒を補う必要がある。これは、ピッチを変更せずにレコーディングを高速化するために広く使用される技術である。そのため、俳優1がキューに戻ると、俳優1は、録音から再生される俳優2を聞くことになるが、これはスピードアップされたものである。10%スピードアップされ(ピッチ変化がなければほとんど知覚できない)合計遅延が100ミリ秒である場合、俳優1は、俳優1のリアルタイムで、リアルスピードで俳優2を聞くことになる。これは、複数の俳優が入り、必要に応じて追いつくことで無期限に継続することができる。音楽のレコーディングシナリオと同様に、最終的な成果物(効果音が追加された話し言葉の場合)は、恐らくリアルタイムのライブよりも数分間遅れるだけになるであろう。
【0040】
本発明の本質的な教示から逸脱することなく、修正を行ってもよい。本明細書に記載の様々な方法論を実施するために様々な代替的システムを利用してもよく、前述のシステムから特定の結果を得るために様々な方法を使用してもよい。
図1
図2
図2A
図2B
図3
図4
図5
図6
図7
図8
図9
図10