(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-15
(45)【発行日】2024-03-26
(54)【発明の名称】オーディオ波形サンプルを用いてライブ音楽を演奏及び録音するための方法及びシステム
(51)【国際特許分類】
G10H 1/00 20060101AFI20240318BHJP
【FI】
G10H1/00 Z
G10H1/00 102Z
(21)【出願番号】P 2022580004
(86)(22)【出願日】2021-06-21
(86)【国際出願番号】 US2021038305
(87)【国際公開番号】W WO2021262616
(87)【国際公開日】2021-12-30
【審査請求日】2023-02-17
(32)【優先日】2020-06-25
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】518187455
【氏名又は名称】ソニー・インタラクティブエンタテインメント エルエルシー
(74)【代理人】
【識別番号】100105924
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】ガルテン,アルビー
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2014-153515(JP,A)
【文献】特開2008-089849(JP,A)
【文献】国際公開第2012/095949(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00-7/12
(57)【特許請求の範囲】
【請求項1】
ライブに近いライブインターネット音楽を遅延なしで演奏及び録音するための方法であって、当該方法は、プロセッサがメモリに記憶された命令を実行するによって行われ、該命令は、
電子カウントインを生成することと、
前記電子カウントインを第1の演奏にバインドしてマスタークロック
のクロック信号を生成することと、
第1のミュージシャンの第1の演奏及び第1のタイミング情報をネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
を含み、
前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、方法。
【請求項2】
前記第1のミュージシャンの第1の演奏をフルレゾリューションでローカルに録音し、それをフルレゾリューションメディアサーバで受信することと、前記第1のタイミング情報を前記マスタークロック上で受信することと、をさらに含む、請求項1に記載の方法。
【請求項3】
前記第1のミュージシャンの第1の演奏の1つ以上の低レゾリューションバージョンを圧縮オーディオメディアサーバにより受信することと、前記第1のタイミング情報を前記マスタークロックにより受信することと、をさらに含む、請求項1に記載の方法。
【請求項4】
前記第1のミュージシャンの第1の演奏を第2のミュージシャンのサウンド装置に送信し、該第2のミュージシャンが第2の演奏を作成することと、
前記第2の演奏及び第2のタイミング情報を前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
前記第1のタイミング情報及び前記第2のタイミング情報と共に、前記第1の演奏及び前記第2の演奏からのオーディオをネットワークオーディオミキサーによりミキシングして第1のミックスオーディオを生成することと、
前記第1のミックスオーディオを第3のミュージシャンのサウンド装置に送信し、該第3のミュージシャンが第3の演奏を作成することと、
前記第3の演奏及び第3のタイミング情報を前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
前記第3のタイミング情報と共に前記第3の演奏からのオーディオを、前記ネットワークオーディオミキサーにより前記第1のミックスオーディオとミキシングして第2のミックスオーディオを生成することと、
さらに含む、請求項1に記載の方法。
【請求項5】
ネットワークオーディオミキサーが、個々のミュージシャンの演奏を組み合わせて、個々のミュージシャンが互いに聴くことができるように送信することと、前記個々のミュージシャン全員の累積的な演奏を組み合わせて、オーディエンスが聴くことができるように送信することをさらに含む、請求項1に記載の方法。
【請求項6】
ネットワークオーディオミキサーが、帯域幅の増加に伴ってオーディオレゾリューションを上げることをさらに含む、請求項1に記載の方法。
【請求項7】
前記電子カウントインはオーディオ及びビデオである、請求項1に記載の方法。
【請求項8】
録音機器を作動させることと、
帯域幅をテストするためにネットワークをポーリングすることと、
前記帯域幅が十分な場合、前記タイミング情報と共に完全な忠実度のデジタルデータを前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによりの受信することと、
前記帯域幅が十分でない場合、ファイルサイズがより小さい圧縮オーディオを前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
をさらに含む、請求項1に記載の方法。
【請求項9】
前記第1のタイミング情報は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、各録音のロスレスバージョン及び圧縮バージョンのタイミング情報を含む、請求項1に記載の方法。
【請求項10】
前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために録音をストリーミングする間に、前記2つのバージョンの間で切り替えを行う場合に同期状態を維持することをさらに含む、請求項
9に記載の方法。
【請求項11】
メディア転送のためのネットワークキャッシュ、ストレージ、タイミング及びミキシングのためのシステムであって、当該システムは、
ネットワークにpingを行い、第1のユーザ装置への帯域幅を特定するように構成されたインターネット帯域幅テストモジュールと、
前記インターネット帯域幅テストモジュールに通信可能に結合された品質/遅延設定モジュールであって、該品質/遅延設定モジュールは、前記帯域幅に基づいてメディアのレゾリューションを決定するように構成されている、品質/遅延設定モジュールと、
前記品質/遅延設定モジュールに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは、決定された前記レゾリューションごとに前記メディアを前記第1のユーザ装置に送信し、電子カウントインを生成し、該電子カウントインを第1の演奏にバインドしてマスタークロック
のクロック信号を生成するように構成され、前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、ネットワークオーディオミキサーと、
を含む、システム。
【請求項12】
前記第1のユーザ装置から前記メディア及び前記マスタークロックのための時間同期コードを受信するように構成されたフルレゾリューションメディアサーバをさらに含む、請求項
11に記載のシステム。
【請求項13】
前記第1のユーザ装置から前記メディア及び前記マスタークロックのための時間同期コードを受信するように構成された圧縮メディアサーバをさらに含む、請求項
11に記載のシステム。
【請求項14】
前記インターネット帯域幅テストモジュールは、前記ネットワークにpingを行い、第2のユーザ装置への帯域幅を特定して、該第2のユーザ装置に送信されるべき前記メディアのレゾリューションを決定するようにさらに構成され、前記メディアは複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、該演奏はレゾリューションの範囲を有する、請求項
11に記載のシステム。
【請求項15】
前記メディアを前記ネットワークオーディオミキサーに送信するように構成されたフルレゾリューションメディアサーバ及び圧縮メディアサーバの両方をさらに含む、請求項
14に記載のシステム。
【請求項16】
前記ネットワークオーディオミキサーは、前記メディアを前記第2のユーザ装置に送信するようさらに構成されている、請求項
15に記載のシステム。
【請求項17】
前記システムは、前記第2のユーザ装置から演奏を受信するようさらに構成されている、請求項
16に記載のシステム。
【請求項18】
インターネット帯域幅、遅延、品質及びメディアのミキシングを管理するためのシステムであって、当該システムは、
メモリに記憶された命令を実行するプロセッサを含み、該命令は、
所定の期間にわたって帯域幅を計測するためのコンポーネントと、
異なる圧縮レベルを変化させるためのコンポーネントと、
経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントであって、前記コンポーネントの全ては互いに通信可能に連結され、単一のフェーダーにバス接続されている、コンポーネントと、
前記所定の期間にわたって帯域幅を計測するためのコンポーネントと、前記異なる圧縮レベルを変化させるためのコンポーネントと、前記経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントとに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは電子カウントインを生成し、該電子カウントインを第1の演奏にバインドしてマスタークロック
のクロック信号を生成するように構成され、前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は
、ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、ネットワークオーディオミキサーと、
を制御する、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2020年6月25日に出願された「ライブに近いライブインターネット音楽を遅延なしで演奏及び録音のための方法及びシステム」と題する米国非仮特許出願第16/912578号に対する優先権を主張しており、該非仮特許出願は、2020年6月25日に同時に出願された「ライブに近いライブインターネット音楽を遅延なしで演奏及び録音のための方法及びシステム」と題する米国非仮特許出願16/912569号に関連し、
本発明の分野
【0002】
本発明の開示は、音楽演奏及び録音の分野に関し、ネットワーク遅延(latency)及び同期に関する。
【背景技術】
【0003】
音楽は通常、同時演奏及び非同期演奏の何らかの組み合わせで録音される。つまり、ミュージシャンの一部又は全員が一度に音楽を演奏し、それが単一の演奏として録音される。もともとは、全ての音楽は、ミュージシャン全員が単一の演奏として一度に演奏して録音されていた。1950年代に、レス・ポールは、予め録音された音楽パート上に第2の音楽パートを演奏できるように初めてマルチトラックレコーダーを作成した。その後、ミュージシャンは最初の録音で1つ以上の楽器を録音し、その後に別の楽器を追加することを始めた。これはオーバーダビングとして知られている。
【0004】
過去20年間、ミュージシャンは常に、離れた場所で他のミュージシャンとライブで
(同時に)演奏できることを望んできた。これはある程度行われてきたが、ほとんどの音楽スタイルでは、ネットワーク遅延が大きすぎて有用な録音を作成できない。優れたミュージシャンであれば、ある音又はドラムビートが、最も遅くて数ミリ秒の低精度で「拍子が外れ」ていることに気づく。光速の場合でも、ロサンゼルスからニューヨークまで約13ミリ秒(往復の場合26ミリ秒)かかるため、この遅延はミュージシャンがリアルタイムで一緒に演奏するには大きすぎる。
【発明の概要】
【0005】
例示の実施形態は、ライブに近いライブインターネット音楽を遅延なしで演奏及び録音するためのシステム及び方法を提供する。
【0006】
例示の方法には、該命令は、電子カウントインを生成することと、前記電子カウントインを第1の演奏にバインドしてマスタークロックを生成することと、第1のミュージシャンの第1の演奏及び第1のタイミング情報をネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールに送信することとを行うために、プロセッサがメモリに記憶された命令を実行することを含む。前記第1のミュージシャンの第1の演奏はフルレゾリューションでローカルに録音され、フルレゾリューションメディアサーバに送信され、前記第1のタイミング情報は前記マスタークロックに送信され得る。あるいは、前記第1のミュージシャンの第1の演奏の低レゾリューションバージョンが圧縮オーディオメディアサーバに送信され、前記第1のタイミング情報は前記マスタークロックに送信され得る。
【0007】
その後、例示の実施形態によれば、前記第1のミュージシャンの第1の演奏が第2のミュージシャンのサウンド装置に送信され、該第2のミュージシャンが第2の演奏を作成し、それと第2のタイミング情報とをネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールに送信する。前記第1のタイミング情報及び前記第2のタイミング情報と共に、前記第1の演奏及び前記第2の演奏がミックスされて第1のミックスオーディオが生成され、それは第3のミュージシャンのサウンド装置に送信できる。第3のミュージシャンは第3の演奏及び第3のタイミング情報を作成し、それらは第1のミックスオーディオとミックスされて第2のミックスオーディオが生成される。このプロセスは、最後のミュージシャンが演奏し録音されるまで繰り返される。
【0008】
メディアのためのネットワークキャッシュ、ストレージ、タイミング及びミキシングのための例示のシステムは、ネットワークにpingを行い、第1のユーザ装置への帯域幅を特定するように構成されたインターネット帯域幅テストモジュールと、前記インターネット帯域幅テストモジュールに通信可能に結合された品質/遅延設定モジュールであって、該品質/遅延設定モジュールは、前記帯域幅に基づいてメディアのレゾリューションを決定するように構成されている、品質/遅延設定モジュールと、前記品質/遅延設定モジュールに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは、決定された前記レゾリューションごとに前記メディアを前記第1のユーザ装置に送信するように構成されている、ネットワークオーディオミキサーと、を含む。システムは、前記第1のユーザ装置から前記メディア及びマスタークロックのための時間同期コードを受信するように構成されたフルレゾリューションメディアサーバ及び/又は前記第1のユーザ装置から前記メディア及びマスタークロックのための時間同期コードを受信するように構成された圧縮メディアサーバを含む。
【0009】
その後、さまざまな例示の実施形態によれば、前記インターネット帯域幅テストモジュールは、前記ネットワークにpingを行い、第2のユーザ装置に送信されるべき前記メディアのレゾリューションを決定するために、第2のユーザ装置への帯域幅を特定する。さらなる例示の実施形態では、前記メディアは複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、該演奏はレゾリューションの範囲を有する。この場合、フルレゾリューションメディアサーバ及び圧縮メディアサーバの両方は前記メディアを前記ネットワークオーディオミキサーし、ネットワークオーディオミキサーは前記メディアを前記第2のユーザ装置に送信する。前記システムは、前記第2のユーザ装置から演奏を受信し、それを単一のミックストラックとミキシングする。
【0010】
インターネット帯域幅、遅延、品質及びメディアのミキシングを管理するための例示のシステムは、所定の期間にわたって帯域幅を計測するためのコンポーネントと、異なる圧縮レベルを変化させるためのコンポーネントと、経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントと、を制御するために、メモリに記憶された命令を実行するプロセッサを含む。全てのコンポーネントは互いに通信可能に連結され、単一のフェーダーにバス接続されている。
【図面の簡単な説明】
【0011】
本発明の上記の及びさらに他の目的、特徴及び利点は、そのいくつかの具体的な実施形態についての以下の詳細な説明を、特に、添付の図面と組み合わせて考慮することによって明らかになるであろう。様々な図における同様の参照番号は同様のコンポーネントを示すために用いられている。
【
図1】
図1は、ミュージシャン、ネットワークサービス及びオーディエンスを示すアーキテクチャの高レベルの図である。
【
図2】
図2は、第1のミュージシャン、ネットワークスタック及び伝送スタックのより詳細を示す。
【
図2A】
図2Aは、時間が音楽サンプルとどのように関連するかを示す。
【
図2B】
図2Bは、これがビデオに加えてオーディオとも用いることができ得ることを示す。
【
図3】
図3は、第2の(及びさらなる)ミュージシャンとの関連でネットワーク及び伝送スタックを示す。
【
図4】
図4は、チェーンにあるミュージシャンが、ネットワーク及び伝送スタックによってどのように接続され、再生同期及び帯域幅がどのように最適化されるかを示す。
【
図5】
図5は、音楽があるミュージシャンから次のミュージシャンに移るときに、ネットワークキャッシュ、ストレージ、タイミング及びミキシンモジュールがどのように連携するかを示す。
【
図6】
図6は、インターネット帯域幅、遅延、品質及びミキシングがどのように連携するかを示す。
【
図7】
図7は、個々の演奏がどのように異なるレゾリューションでできるかを示す。
【
図8】
図8は、典型的なジャムバンドのシナリオを示す。
【
図9】
図9は、ジャムバンドのシナリオのための典型的なタイミング状況を示す。
【
図10】
図10は、例示の劇場ポッドキャストシナリオを示す。
【発明を実施するための形態】
【0012】
全体を通して特定される要素は例示であり、様々な代替物、同等物又はその派生物を含み得る。ハードウェア、ソフトウェア及びコンピュータ実行可能命令の様々な組み合わせが利用され得る。プログラムモジュール及びエンジンは、汎用プロセッサ又はアプリケーション特定プロセッサであり得るプロセッサによって実行された場合に、特定のタスクの演奏を生じさせるルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造を含み得る。コンピュータ読み取り可能記憶媒体に記憶されたコンピュータ実行可能命令及び関連するデータ構造は、本明細書で開示する方法のステップを実行するための及び/又は特定のシステム構成を実施するためのプログラミング手段の例を表す。
【0013】
本開示は、ミュージシャンが共に連続して、前のミュージシャンの音に関してリアルタイムに演奏できるようにするためのメカニズムを説明する。複数のミュージシャンが一緒に曲を演奏している場合に、第1の人が演奏を始め、音楽が数ミリ秒の遅延を伴って第2の人に届き得るが、その第2の人が聞いたものに対して演奏を行い、2つの演奏は完全に拍子が合う。次に第3の人は、第2の人が聴いた(互いに拍子が正しい)最初の2人の演奏を聴き、聴くのは実際に演奏された時間よりも後であり得るが、彼らは聴いたものに対して正しい拍子で演奏し、3つの楽器の全ては完全に拍子が合う。これは制限なく続けることができる。
【0014】
これを実現するためには、ある種の連続した記録が必要になる。しかしながら、音声はネットワークを介して送信されるため、品質の低下が容易に起こり得る。つまり、1人のミュージシャンのために音楽の再生が一度開始されると、一時停止するか又はペースを落とすことはできないが、正確なタイミングを可能にするためにビットレート(品質)を下げることができ得る。ここでは、各演奏をフルレゾリューションで、クラウドで(例えば、ネットワークサーバ上に)録音し、必要に応じて圧縮することを提案する。また、最終的な演奏がクラウドに到着した場合にフルレゾリューションになるよう忠実性を維持するために、ローカルでバッファする必要もあり得る。このように、演奏時にミュージシャンが聴く品質が多少損なわれても、録音やクラウドへの転送の品質を損なう必要はないため、最終的な結果は完全な忠実性と、最後に全てが再生されるときの完全な時間で得られる。
【0015】
図1に示すように、システム全体は個々のミュージシャン(及びそれらの機器と、ソフトウェア及び録音)とネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネント(Network Caching, Storage, Timing and Mixing components)で構成されている。シナリオは以下の通りである。
【0016】
第1のミュージシャン(101)は、電子カウントイン(electric count-in)(典型的には1、2、3、4と言う)を口に出すか又は生成することにより始める。様々な例示の実施形態では、デジタルデータ又はオーディオデータのいずれかの信号があり、曲の開始及び他のミュージシャンがいつ始めるか知るための合図を伝達する。場合によっては、第1の(及び場合によってはその後の)ミュージシャンが併せて演奏するクリックトラック(メトロノーム)があり得る。他の場合では、ボーカルカウントオフ(vocal count off)又はインストゥルメンタルピックアップ(instrumental
pick up)があり得る。あるいは、指揮者によって与えられるもの等の視覚的な合図があり得る。いずれにせよ、この第1のマーク(繰り返しになるが、必ずしもダウンビートではない)は絶対的に第1の演奏にバインドされ、それは共に、全てのローカルクロック及び演奏を同期させるために用いられるマスタークロックになる。NTP又はネットワークタイムプロトコルを用いるのが最も簡単あり得るが、NTPは通常100ミリ秒以内の精度しかない。全ての参加者の演奏は、正確さが1ミリ秒未満の共通のクロックにバインドされる必要がある。第1のミュージシャン(101)の演奏及びタイミング情報(102)がネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュール(103)に送信される。
【0017】
各ミュージシャンの演奏は、フルレゾリューションでローカルに録音される。これは最終的にフルレゾリューションメディアサーバ(104)に送信される。これはリアルタイムで送信できるが、送信できない場合がある。最適な帯域幅がない状況では、これを後で送信できる。
【0018】
遅延なしでフルレゾリューションオーディオを送信するのに十分な帯域幅がない場合は、レゾリューションがより低いバージョンの第1のミュージシャンの演奏を圧縮オーディオメディアサーバ(105)に送信できる。このレゾリューションがより低いバージョンは、後続のミュージシャンが前に現れるパートを聞いて、それに合わせて演奏するのに十分である必要がある。このレゾリューションがより低いバージョンは可能な限り高品質であるべきであり、理想的なネットワーク条件では、品質が完全なバージョンと実質的に区別不能であるべきである。しかしながら、帯域幅の条件によっては、フルレゾリューションオーディオを後で送信しなければならないことがある。
【0019】
同時に且つ同じメディアファイル(フルレゾリューション及び圧縮の両方)の一部として、タイミング情報がマスタークロック(106)に送信される。オーディオは通常、44.1、48又は96キロヘルツで録音されるため、定義上、ここで要求される1ミリ秒よりもはるかに正確なクロックがある。クロックの設定及び同期のために、オーディオ録音に関連付けられたタイムスタンプが用いられる。
【0020】
第2のミュージシャン(107)がネットワーク帯域幅に応じてフルレゾリューションメディアサーバ(104)又は圧縮オーディオメディアサーバ(105)から音楽を聴くと、第2のミュージシャン(107)が演奏を加える。第2のミュージシャンの演奏は、オーディオ及びタイミング情報が記憶されたネットワークキャッシュ、ストレージ及びタイミングモジュール(103)に送信される。同時に、最初の2人のミュージシャンのオーディオがネットワークオーディオミキサー(108)によって組み合わされ(又はミキシングされ)、タイミング情報と共に第3のミュージシャン(109)に送信され、第3のミュージシャンの演奏は、新たなオーディオ及びタイミング情報が他の演奏とともに記憶されたネットワークキャッシュ、ストレージ及びタイミングモジュール(103)に返送され、その後、最後のミュージシャン(110)が演奏を行って録音されるまで、さらなるミュージシャンに送信される。
【0021】
ネットワークオーディオミキサー(108)は、個々のミュージシャンの演奏を、個々のミュージシャンが互いに聞くことができるよう組み合わせるだけでなく、オーディエンス(111)が聴くことができるように全てのミュージシャンの累積的な演奏も組み合わせる。以下で詳細に説明するように、ネットワークオーディオミキサー(108)は、異なるトラック(又は演奏)を単に組み合わせるだけではなく、最大限の忠実性を提供するようにそれらを組み合わせる。そのため、例えば、あるミュージシャンの演奏は帯域幅の制約によりレゾリューションが低いが、帯域幅が改善されれば、その品質も改善される。加えて、フルレゾリューションバージョンが最終的にフルレゾリューションメディアサーバ(104)に到達し、そのレゾリューションがサーバに到達すると、以降にそれを聴く人はフルレゾリューションを聴くことになる。長期的には、これは、音楽が後で再生される場合(例えば、ライブ演奏の2時間後)、それはフルレゾリューションになることを意味する。一部の状況では、帯域幅が増加した一部のミュージシャンのレゾリューションは、演奏の展開に応じてそれらのパートのレゾリューションを上げることができる。
【0022】
図2は、オーディオ及びタイミング情報の記録及び初期伝送の詳細を示す。同期のための信頼できる開始点は、プロセスの後半でそれらのシステム及びミュージシャンによって正確に識別できる必要がある。例えば、ミュージシャンがカウントオフを行う(例えば、1、2、3、4)とする。「1」という言葉が記録された場合、オーディオ波形サンプルに基づいて、特定の時間に生じる特定の識別可能な波形を有する。デジタル波形は、定義上、周波数(例えば、44.1kHz、48kHz、96kHz等)でサンプリングされ、場所は常に時間と関連付けられる。
図2Aは、ピッチA4を演奏するチェロのサンプルを示す。基本は440ヘルツであり、これは約2.25ミリ秒である(波形の摂動は、高調波と、ボーイング(bowing)等の他のノイズである)。録音の共通点が見つかると、その点から曲の任意の場所までのミリ秒の数を簡単に計算できる。
【0023】
同じタイミング情報をビデオに適用できる。例えば、第1のミュージシャンが指揮者である場合、ミュージシャンは(同時にではなくても)依然として拍子にあわせることができる。実際には、クリックトラック又はドラムループ等の共通のリズムが必要になり得るが、理論的には、同じ指揮者又は他の視覚的な合図(映画へのスコアリングのような)に従うことを止めるものは何もない。
図2Bを参照して、マイク(201)がカメラ(213)に置き換えられ、サンプリングクロック(202)によりローカルレコーディング(203、204)と同期される記録要素にビデオの録画(214)が追加されている点を除いて
図2の左側と同様である。
【0024】
図2に戻って、第1のミュージシャン(200)はマイク(201)で音を出し、それによりあるオーディオ(又は上述したようにビデオ)でクロック(202)が開始させる。音は完全な忠実度で録音され(203)、送信のために準備される。録音機器がオンにされ、ネットワークに接続された時点から、帯域幅をテストするためにネットワークがポーリングされる。帯域幅が十分であれば、完全な忠実度(ロスレス)のバージョン(203)がタイミング情報と共に送信される(205)。しかしながら、帯域幅が十分でない場合、第1のミュージシャンの録音環境にあるソフトウェアモジュールは、オーディオをより小さなファイルサイズに圧縮できる。例えば、オーディオコーデックAACは、48kHzの録音から作成された128キロビット/秒(kbps)で妥当な忠実度と見なされる。圧縮されていないファイルは、依然として約800kbpsであり得るロスレス圧縮を用いても1536kbpsでストリーミングされ得る。[注:任意の所与のレゾリューションの複数のファイルは、同時に再生された場合、楽器が単一の録音として記録された場合よりも高いレゾリューションのファイルになる。例えば、16ビット48kオーディオの16チャネルは、互いにミキシングされた場合、16ビット48kオーディオの2チャネルよりもレゾリューションが高くなる。]遅延、帯域幅及び品質のバランスについては、本開示の後で詳細に説明する。
【0025】
伝送形式に関して、クロックは、各録音の各バージョン(ロスレス及び圧縮の両方)に常にバインドされる。伝送スタック(205)を見た場合、それぞれが同じ対応する時間/同期コードを有する2つの別々のストリームとして見るべきである。このように、音楽がネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネント(サーバ/サービス)(206)に到着すると、サービスがレゾリューション(208、209)を切り替える必要がある場合、完全な同期を保つために共通(マスター)クロック(207)を用いることができる。他のミュージシャンの演奏が組み合わされる場合、これはネットワークオーディオミキサー(210)によって行われる。
【0026】
図3は、第2のミュージシャン(300)の追加を示す。オーディオと、場合によってはビデオとは、ネットワークキャッシュ、ストレージ、タイミング及びミキシングサービス(301)からのものであり、ストレージ、タイミング及びミキシングサービス(301)には第1のミュージシャンからのメディアが記憶され、タイミング情報(303)にバインドされたロスレスオーディオ(304)と、帯域幅に応じてタイミング情報(303)にもバインドされた圧縮オーディオ(305)を含む伝送スタック(302)プロトコルを用いてインターネットを介して送信される。このプロセス全体にビデオを含めることが可能であり、オーディオビジュアルの技術分野で実践されているものは、本開示のデータに基づいてビデオを用いて簡単に構築できる。十分な帯域幅がある場合、圧縮オーディオの必要ない場合がある。オーディオが到達すると、それは先ずミキシングモジュール(306)に入り、第2のミュージシャンのモニタ(307)(おそらくヘッドホン)に送られる。第2のミュージシャンが演奏するか又は歌を歌うと、それは(電子楽器又は圧電若しくは磁気ピックアップ等の音響電気ピックアップの場合)直接注入により又はマイク(308)によりミキシングモジュールに送られ、ミキシングモジュールでは、第1のミュージシャンからのオーディオと組み合わされ(ミックスされ)、第2のミュージシャンは一緒に演奏することで両方のパートを聴くことができる。
【0027】
第2のミュージシャンは、元の録音と同じクロック同期(309)を用いてロスレス(310)で録音され、タイムスタンプされる。第2のミュージシャンからのオーディオは、同じ伝送スタックプロトコル(312)を用いて元から受信したのと同じタイムコードでネットワークキャッシュ、ストr-ジ、タイミング及びミキシングサービス(NCSTMS)(301)に返信される。NCSTMSは既に第1のミュージシャンのオーディオ及び同じ同期されたタイムコードを有しているため、第1のミュージシャンのオーディオをNCSTMSに返信する必要がない。なお、NCSTMSには、異なるミュージシャンの演奏をミキシングするネットワークオーディオミキサーがある。これは、個々のミュージシャンの場所にあるミキサーとは別のものである。
【0028】
図4は、再生同期及び帯域幅最適化(408)を示す。上述したように、同期は、全てのレゾリューションのオーディオ(及びビデオ)にわたって共有されている共通のタイムコードに基づく。品質と遅延との間にはトレードオフがあり得る。ミュージシャン(ミュージシャンN)がフルレゾリューション(ロスレスで圧縮)を800kbpsで送信し、次のミュージシャン(ミュージシャンN+1)の帯域幅はそれよりも小さいとする。例えば、ネットワークのスループットをテストした結果、ミュージシャンNが800kbpsでストリーミングするには、遅延が15秒になるように十分な音楽をキャッシュする必要がある。しかしながら、ミュージシャンNが128kbpsでオーディオを送受信した場合、遅延は75ミリ秒にしかならない。再生同期及び帯域幅最適化モジュール(408)はレゾリューションを選択し得るため、オーディオをミュージシャンN+1に送信するために必要な帯域幅を選択し得る。
【0029】
これをもう少し詳細に見るには、
図5及び
図6を参照されたい。
【0030】
図5はミュージシャンN(500)を示す。ミュージシャンN(500)とNNCSTMモジュール(501)との間で使用可能であり得る帯域幅を知るために、インターネット帯域幅テストモジュール(502)が用いられる。ネットワークに「ping」を行って、2つの点の間の帯域幅を調べることはかなり標準的な方法であり、この機能は当業者であればだれでも利用可能である。利用可能な帯域幅に基づいて、品質/遅延設定モジュール(503)は、ネットワークオーディオミキサーがミュージシャンNにどのようなレゾリューションのメディアを送信すべきかの決定を行う(
図6でより詳細に示す)。帯域幅に応じて、ミュージシャンNはマスタークロック(505)に送られる同期タイムコードと共に、メディアをフルレゾリューションメディアサーバ(506)又は圧縮メディアサーバ(507)に送信する。なお、「サーバ」とは、ホームコンピュータ上のハードドライブから、インターネット上で幅広く分散された一連のサーバまでのあらゆるサーバ構成を意味する。また、「圧縮メディアサーバ」は、複数のレゾリューションのビデオ及び/又はオーディオを含むことができ、同様に配信でき得る。チェーン内の次のミュージシャンであるミュージシャンN+1(508)にメディアを送信するために、インターネット帯域幅テストモジュール(502)により帯域幅を再度テストしなければならない。これにより、メディアがどのレゾリューションでミュージシャンN+1に送信されかが決定される。なお、ミュージシャンN+1に送信されるメディアは、以前に演奏されたミュージシャンの個々の録音の全てではなく、それらの演奏の全てが組み合わされた単一のミックストラックである。たとえば、ミュージシャンN+1がチェーン内の第5のミュージシャンであり、それよりも前のミュージシャンにはそれらの演奏の品質には、ミュージシャン1-800kbps(フルロスレス);ミュージシャン2-450kbps;ミュージシャン3-800kbps;ミュージシャン4-325kbps;ミュージシャン5-800kbpsといった帯域幅制限があったとする。メディアは、フルレゾリューションメディアサーバ(506)及び圧縮メディアサーバ(507)の組み合わせからのものであり、ネットワークオーディオミキサー(504)に入力される。組み合わされた「ミックス」は、ミュージシャンN+1に送信される。なお、組み合わされたミックスでは、ミュージシャン1及び3のパートは、ミュージシャン2及び4のパートよりもレゾリューションが高くなる。なお、NCSTMモジュールに返信されるメディアは、他の演奏は既にキャッシュされているため、ミュージシャン5による新たな演奏のみとなる。そのため、ミュージシャン5に接続する際の帯域幅の制限は、ミュージシャン5のパートの品質にのみ影響し、その場合でも、(何時聴くかによって)チェーン内のミュージシャンにのみ影響し、全てのミュージシャンの完全な忠実性を受信できる最終的なリスナーに影響しない。
【0031】
図6は、システムの帯域幅、品質、遅延及びミキシングコンポーネントを示す。音楽の品質に対する帯域幅の影響は双方向で起こる。アップロード帯域幅は、個々の演奏の初期送信の品質に影響を与える(同じ演奏の後の送信で、依然フルレゾリューションである)。ダウンロード帯域幅は、ミュージシャンが演奏中に聴く品質に影響を及ぼす。
【0032】
ミュージシャンの動作をアップロードする環境は、帯域幅を測定する独自の機能があるため、例えば、ある時点に完全な帯域幅(605)があり得るか又は帯域幅に応じて異なるレベルの圧縮(606、607、608、609)がある場合がある。システムは、時間の経過とともに(タイミングではなく)品質だけが変化する共通のタイムコードを用いて様々なレゾリューションをシームレスにつなぎ合わせる。これらの全ては、このミュージシャンがミックス内で同じレベルになるように(this musician levels in the mix)単一のフェーダーに事実上バス接続されている(bussed)(フェーダーを担当する人間がいる場合もあれば又はミキシングを行うアルゴリズムがある場合もある)。これは、チェーン内の第2のミュージシャン(610、611、612、613)等から第Nのミュージシャン(614、615、616)までに当てはまる。これらのレベルはミックス内で組み合わされ、そのミックスがそれらの帯域幅でチェーン内の次のミュージシャン(508)に出力される。なお、NCSTMから任意の個々のミュージシャンへの伝送の帯域幅は、通常(今日一般的に行われているように)遅延がないことを確実にするために適切な帯域幅で送信される。これは、各ミュージシャンからのアップロード帯域幅に依存しない。例えば、1人のミュージシャンの帯域幅が特に低い場合、それらは低品質のストリームを受信し得る。しかしながら、それらはローカル環境で完全に忠実度で録音され、低遅延のリスナーに対する演奏の品質はアップロード帯域幅を反映する。もちろん、上述したように、フルレゾリューションの演奏がアップロードされると、後続のリスナーはそれをフルレゾリューションで聞くことになる(もちろん、そのリスナーの帯域に左右される)。
【0033】
異なるレゾリューションの議論を明確にするために、
図7を参照することが役立ち得る。これは、異なるレゾリューションのオーディオがどのように記録及び保存されるかを示す。なお、第1のミュージシャン(701)とは異なるレゾリューションが、時間の経過と共に複数の波形として表示されている(702)。後続のミュージシャンは、第1のミュージシャンからの演奏を、可変レゾリューションではあるが単一の演奏として聴くことになる。第2のミュージシャンも、次のミュージシャン(704)も複数のレゾリューション(703)で録音され得る。上述したように、これらの異なる演奏は、ミキシングエンジニアがフェーダーを使ってミックス(602、603、604)するため、後続のミュージシャン又はオーディエンスも聴くことができる。なお、高レゾリューションのオーディオの一部がネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネントにアップロードされると、品質を改善するために後続のミックス(例えば、演奏の終了後)で用いることができる。
【0034】
使用例として、
図8に示すジャムバンドのシナリオを見てみる。ドラム(801)、パーカッション(802)、ベース(803)、ピアノ(804)、ギター(805、806)を演奏する6人のミュージシャンがいるとする。これらは全員NCSTM(807)に接続されており、オーディエンス(808)も同様である。ドラム奏者からスタートし、二小節後にパーカッション奏者及びベース奏者が参加するものとする。他のミュージシャンは即座に参加するか又はいくつかの小節の後に参加できる。各ミュージシャンは順番が前のミュージシャンのみ聴くことができるが、計画により順番を変えることができる。
【0035】
図9を参照して、クロックの実際の時間(901)は間断なく進んでいるが、実際の小節の数(902)はミュージシャンに合わせて移動する。ドラム奏者(903)のための小節1は始まりであるが、後続の各ミュージシャン(904)の小節1は少し遅れ、それぞれが前のものよりもより少しだけ遅れが多くなる。ドラム奏者(905)が開始し、パーカッション奏者(906)、ベース奏者(907)、キーボード奏者(908)が後に続く。1人のギター奏者(909)はキーボード奏者の直後であって、第2のギター奏者よりも前に開始するが、ソロ中にもう他方のギターを聴くことができるようにしたいとする。この文脈で「~の前に開始する」と言うときは、音楽の順序ではなく「ネットワーク順」のことを指している。ミュージシャン(又は予め決められたキューのミキシングエンジニア)がリセット又は「ポジション変更」を行うと、彼らは新たなポジションの時点でオーディオを聴き始める。
【0036】
図9において、灰色の領域(911、912及び913)は、誰かがレイアウト(laying out)していることを表す。そこで、合計2秒間の遅延があるとして、ギター奏者がスイッチを押すと、演奏者全員が演奏しているにもかかわらず、演奏者は自分がいた場所から2秒後に音楽を聴き得る。そのため、1、2小節レイアウトすれば、他のミュージシャンの演奏を聞きながら再参加でき得る。曲中の位置の経過を追うインタラクティブなコードチャートがあれば、これを演出するのは容易であり得るが、ミュージシャンは自分がどこにいるかをかなり素早く認識できるようになり得る。
【0037】
この想像上のジャムバンドのシナリオでは、ミュージシャンは順番にレイアウトして、他のミュージシャンの演奏を聞いて戻ってくることができた。ドラム奏者又はパーカッション奏者でさえ、レイアウトし、数拍後に戻ってきても、他のミュージシャンの演奏を聴くことができ得る。必ずしも列の最後に行く必要はない。おそらく、歌手は常に列の最後にいて、「ドロップバック」は最後の隣までしか連れて行ってくれないか、1つ又は2つだけドロップバックし得る。例えば、ドラム奏者及びパーカッション奏者は場所を交換でき得る。多くの質疑応答型の演奏があり得るが、最終的な再生まで答えを聴くことはできない。
【0038】
もう1つの使用例は、劇場用ポッドキャスト(Theatrical Podcast)シナリオであり得る。このシナリオでは、
図10に示すように、多数の役者がオンラインでライブに近いパフォーマンスを作成している。これには脚本があってもいいし、インタビュー又はリアリティ番組のように自然発生的に行うこともでき得る。上記で説明したようなことができるが、他にもいくつかの選択肢がある。話し言葉は音楽ほど時間に敏感ではないため、少し多く時間と遊ぶ(play with time)ことができる得る。また、パフォーマンスは並列よりも連続的であり、忠実性の要件がより柔軟である。ジャムバンドシナリオでは、1人のミュージシャンが数小節のためにレイアウトする場合、そのミュージシャンを列の後に配置できる。また、その間のパフォーマンスの時間を圧縮することもできる。6人の役者(1001、1002、1003、1004、1005及び1006)による芝居を想像してみる。興味本位で、役者5及び6(1005と1006)が同じ場所にいるとする。時間(1007)を追跡し、1分弱話す役者1(1001)から始まる。役者2(1002)は、彼らにとってリアルタイムでそれを聞いている。現在、役者1は、1分弱後に再参加することを計画している。議論のために、役者1と2との間の遅延が100ミリ秒であると仮定する。役者1が終了するとすぐに、役者1は順番を無視して列に割り込む(jump the queue)ことができる。しかしながら、1)役者1は、役者2が言うことを聞き逃したくなく、2)役者1は、タイミング及び抑揚ができるだけ自然になるように、役者2の台詞の少なくとも最後の部分をできるだけ変更されていない状態で聞きたいという2つの制約がある。そのため、解決策は次のようになる。役者1が順番を無視して列に割り込むと、役者2よりも100ミリ秒遅れている。つまり、役者2は既に100ミリ秒間話している。そのため、役者1が順番を無視して列に割り込んで戻った場合に、その100ミリ秒を埋め合わせる必要がある。ピッチを変えずに録音の速度を上げることは一般的に用いられる技術である。そのため、役者1が順番を無視して列に割り込んで戻った場合、録音から役者2が再生されるが、速度が上げられている。10%速度が上げられ(ピッチの変化がなくてもほとんど知覚できない)、遅延の合計が100ミリ秒の場合、役者1は役者1のリアルタイムで役者2を実際の速度で聞くことになる。これは、複数の役者が入ってきて必要に応じて追いつくことで、無制限に続けることができる。音楽録音シナリオと同様に、最終的な製品(音響効果を加えられた話し言葉の場合)は、おそらくリアルタイムライブより数分だけ遅れることになり得る。
【0039】
本発明の本質的な教示から逸脱することなく変更が加えられ得る。本明細書で説明する様々な方法論を実施するために様々な代替的なシステムを利用してもよく、前述のシステムから特定の結果を得るために様々な方法が。