特許7456019 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ソニー・インタラクティブエンタテインメント　エルエルシーの特許一覧

特許7456019オーディオ波形サンプルを用いてライブ音楽を演奏及び録音するための方法及びシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
2A
2B
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-03-15

(45)【発行日】2024-03-26

(54)【発明の名称】オーディオ波形サンプルを用いてライブ音楽を演奏及び録音するための方法及びシステム

(51)【国際特許分類】

G10H 1/00 20060101AFI20240318BHJP

【ＦＩ】

G10H1/00 Z

G10H1/00 102Z

【請求項の数】 18

(21)【出願番号】P 2022580004

(86)(22)【出願日】2021-06-21

(65)【公表番号】

(43)【公表日】2023-06-15

(86)【国際出願番号】 US2021038305

(87)【国際公開番号】W WO2021262616

(87)【国際公開日】2021-12-30

【審査請求日】2023-02-17

(31)【優先権主張番号】16/912,578

(32)【優先日】2020-06-25

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】518187455

【氏名又は名称】ソニー・インタラクティブエンタテインメントエルエルシー

(74)【代理人】

【識別番号】100105924

【弁理士】

【氏名又は名称】森下賢樹

(72)【発明者】

【氏名】ガルテン，アルビー

【審査官】菊池智紀

(56)【参考文献】

【文献】特開２０１４－１５３５１５（ＪＰ，Ａ）

【文献】特開２００８－０８９８４９（ＪＰ，Ａ）

【文献】国際公開第２０１２／０９５９４９（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｈ１／００－７／１２

(57)【特許請求の範囲】

【請求項1】

ライブに近いライブインターネット音楽を遅延なしで演奏及び録音するための方法であって、当該方法は、プロセッサがメモリに記憶された命令を実行するによって行われ、該命令は、
電子カウントインを生成することと、
前記電子カウントインを第１の演奏にバインドしてマスタークロックのクロック信号を生成することと、
第１のミュージシャンの第１の演奏及び第１のタイミング情報をネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
を含み、
前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、方法。

【請求項2】

前記第１のミュージシャンの第１の演奏をフルレゾリューションでローカルに録音し、それをフルレゾリューションメディアサーバで受信することと、前記第１のタイミング情報を前記マスタークロック上で受信することと、をさらに含む、請求項１に記載の方法。

【請求項3】

前記第１のミュージシャンの第１の演奏の１つ以上の低レゾリューションバージョンを圧縮オーディオメディアサーバにより受信することと、前記第１のタイミング情報を前記マスタークロックにより受信することと、をさらに含む、請求項１に記載の方法。

【請求項4】

前記第１のミュージシャンの第１の演奏を第２のミュージシャンのサウンド装置に送信し、該第２のミュージシャンが第２の演奏を作成することと、
前記第２の演奏及び第２のタイミング情報を前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
前記第１のタイミング情報及び前記第２のタイミング情報と共に、前記第１の演奏及び前記第２の演奏からのオーディオをネットワークオーディオミキサーによりミキシングして第１のミックスオーディオを生成することと、
前記第１のミックスオーディオを第３のミュージシャンのサウンド装置に送信し、該第３のミュージシャンが第３の演奏を作成することと、
前記第３の演奏及び第３のタイミング情報を前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
前記第３のタイミング情報と共に前記第３の演奏からのオーディオを、前記ネットワークオーディオミキサーにより前記第１のミックスオーディオとミキシングして第２のミックスオーディオを生成することと、
さらに含む、請求項１に記載の方法。

【請求項5】

ネットワークオーディオミキサーが、個々のミュージシャンの演奏を組み合わせて、個々のミュージシャンが互いに聴くことができるように送信することと、前記個々のミュージシャン全員の累積的な演奏を組み合わせて、オーディエンスが聴くことができるように送信することをさらに含む、請求項１に記載の方法。

【請求項6】

ネットワークオーディオミキサーが、帯域幅の増加に伴ってオーディオレゾリューションを上げることをさらに含む、請求項１に記載の方法。

【請求項7】

前記電子カウントインはオーディオ及びビデオである、請求項１に記載の方法。

【請求項8】

録音機器を作動させることと、
帯域幅をテストするためにネットワークをポーリングすることと、
前記帯域幅が十分な場合、前記タイミング情報と共に完全な忠実度のデジタルデータを前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによりの受信することと、
前記帯域幅が十分でない場合、ファイルサイズがより小さい圧縮オーディオを前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールにより受信することと、
をさらに含む、請求項１に記載の方法。

【請求項9】

前記第１のタイミング情報は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、各録音のロスレスバージョン及び圧縮バージョンのタイミング情報を含む、請求項１に記載の方法。

【請求項10】

前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために録音をストリーミングする間に、前記２つのバージョンの間で切り替えを行う場合に同期状態を維持することをさらに含む、請求項９に記載の方法。

【請求項11】

メディア転送のためのネットワークキャッシュ、ストレージ、タイミング及びミキシングのためのシステムであって、当該システムは、
ネットワークにｐｉｎｇを行い、第１のユーザ装置への帯域幅を特定するように構成されたインターネット帯域幅テストモジュールと、
前記インターネット帯域幅テストモジュールに通信可能に結合された品質／遅延設定モジュールであって、該品質／遅延設定モジュールは、前記帯域幅に基づいてメディアのレゾリューションを決定するように構成されている、品質／遅延設定モジュールと、
前記品質／遅延設定モジュールに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは、決定された前記レゾリューションごとに前記メディアを前記第１のユーザ装置に送信し、電子カウントインを生成し、該電子カウントインを第１の演奏にバインドしてマスタークロックのクロック信号を生成するように構成され、前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は、前記ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、ネットワークオーディオミキサーと、
を含む、システム。

【請求項12】

前記第１のユーザ装置から前記メディア及び前記マスタークロックのための時間同期コードを受信するように構成されたフルレゾリューションメディアサーバをさらに含む、請求項１１に記載のシステム。

【請求項13】

前記第１のユーザ装置から前記メディア及び前記マスタークロックのための時間同期コードを受信するように構成された圧縮メディアサーバをさらに含む、請求項１１に記載のシステム。

【請求項14】

前記インターネット帯域幅テストモジュールは、前記ネットワークにｐｉｎｇを行い、第２のユーザ装置への帯域幅を特定して、該第２のユーザ装置に送信されるべき前記メディアのレゾリューションを決定するようにさらに構成され、前記メディアは複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、該演奏はレゾリューションの範囲を有する、請求項１１に記載のシステム。

【請求項15】

前記メディアを前記ネットワークオーディオミキサーに送信するように構成されたフルレゾリューションメディアサーバ及び圧縮メディアサーバの両方をさらに含む、請求項１４に記載のシステム。

【請求項16】

前記ネットワークオーディオミキサーは、前記メディアを前記第２のユーザ装置に送信するようさらに構成されている、請求項１５に記載のシステム。

【請求項17】

前記システムは、前記第２のユーザ装置から演奏を受信するようさらに構成されている、請求項１６に記載のシステム。

【請求項18】

インターネット帯域幅、遅延、品質及びメディアのミキシングを管理するためのシステムであって、当該システムは、
メモリに記憶された命令を実行するプロセッサを含み、該命令は、
所定の期間にわたって帯域幅を計測するためのコンポーネントと、
異なる圧縮レベルを変化させるためのコンポーネントと、
経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントであって、前記コンポーネントの全ては互いに通信可能に連結され、単一のフェーダーにバス接続されている、コンポーネントと、
前記所定の期間にわたって帯域幅を計測するためのコンポーネントと、前記異なる圧縮レベルを変化させるためのコンポーネントと、前記経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントとに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは電子カウントインを生成し、該電子カウントインを第１の演奏にバインドしてマスタークロックのクロック信号を生成するように構成され、前記電子カウントインは特定の且つ識別可能な波形を有し、該特定の且つ識別可能な波形は、ネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールによる受信のために、オーディオ波形サンプルに基づいて該特定の且つ識別可能な波形内の所定の時間に発生する、ネットワークオーディオミキサーと、
を制御する、システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願への相互参照
本願は、２０２０年６月２５日に出願された「ライブに近いライブインターネット音楽を遅延なしで演奏及び録音のための方法及びシステム」と題する米国非仮特許出願第１６/９１２５７８号に対する優先権を主張しており、該非仮特許出願は、２０２０年６月２５日に同時に出願された「ライブに近いライブインターネット音楽を遅延なしで演奏及び録音のための方法及びシステム」と題する米国非仮特許出願１６／９１２５６９号に関連し、
本発明の分野

【0002】

本発明の開示は、音楽演奏及び録音の分野に関し、ネットワーク遅延（latency）及び同期に関する。

【背景技術】

【0003】

音楽は通常、同時演奏及び非同期演奏の何らかの組み合わせで録音される。つまり、ミュージシャンの一部又は全員が一度に音楽を演奏し、それが単一の演奏として録音される。もともとは、全ての音楽は、ミュージシャン全員が単一の演奏として一度に演奏して録音されていた。１９５０年代に、レス・ポールは、予め録音された音楽パート上に第２の音楽パートを演奏できるように初めてマルチトラックレコーダーを作成した。その後、ミュージシャンは最初の録音で１つ以上の楽器を録音し、その後に別の楽器を追加することを始めた。これはオーバーダビングとして知られている。

【0004】

過去２０年間、ミュージシャンは常に、離れた場所で他のミュージシャンとライブで
（同時に）演奏できることを望んできた。これはある程度行われてきたが、ほとんどの音楽スタイルでは、ネットワーク遅延が大きすぎて有用な録音を作成できない。優れたミュージシャンであれば、ある音又はドラムビートが、最も遅くて数ミリ秒の低精度で「拍子が外れ」ていることに気づく。光速の場合でも、ロサンゼルスからニューヨークまで約１３ミリ秒（往復の場合２６ミリ秒）かかるため、この遅延はミュージシャンがリアルタイムで一緒に演奏するには大きすぎる。

【発明の概要】

【0005】

例示の実施形態は、ライブに近いライブインターネット音楽を遅延なしで演奏及び録音するためのシステム及び方法を提供する。

【0006】

例示の方法には、該命令は、電子カウントインを生成することと、前記電子カウントインを第１の演奏にバインドしてマスタークロックを生成することと、第１のミュージシャンの第１の演奏及び第１のタイミング情報をネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールに送信することとを行うために、プロセッサがメモリに記憶された命令を実行することを含む。前記第１のミュージシャンの第１の演奏はフルレゾリューションでローカルに録音され、フルレゾリューションメディアサーバに送信され、前記第１のタイミング情報は前記マスタークロックに送信され得る。あるいは、前記第１のミュージシャンの第１の演奏の低レゾリューションバージョンが圧縮オーディオメディアサーバに送信され、前記第１のタイミング情報は前記マスタークロックに送信され得る。

【0007】

その後、例示の実施形態によれば、前記第１のミュージシャンの第１の演奏が第２のミュージシャンのサウンド装置に送信され、該第２のミュージシャンが第２の演奏を作成し、それと第２のタイミング情報とをネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュールに送信する。前記第１のタイミング情報及び前記第２のタイミング情報と共に、前記第１の演奏及び前記第２の演奏がミックスされて第１のミックスオーディオが生成され、それは第３のミュージシャンのサウンド装置に送信できる。第３のミュージシャンは第３の演奏及び第３のタイミング情報を作成し、それらは第１のミックスオーディオとミックスされて第２のミックスオーディオが生成される。このプロセスは、最後のミュージシャンが演奏し録音されるまで繰り返される。

【0008】

メディアのためのネットワークキャッシュ、ストレージ、タイミング及びミキシングのための例示のシステムは、ネットワークにｐｉｎｇを行い、第１のユーザ装置への帯域幅を特定するように構成されたインターネット帯域幅テストモジュールと、前記インターネット帯域幅テストモジュールに通信可能に結合された品質／遅延設定モジュールであって、該品質／遅延設定モジュールは、前記帯域幅に基づいてメディアのレゾリューションを決定するように構成されている、品質／遅延設定モジュールと、前記品質／遅延設定モジュールに通信可能に連結されたネットワークオーディオミキサーであって、該ネットワークオーディオミキサーは、決定された前記レゾリューションごとに前記メディアを前記第１のユーザ装置に送信するように構成されている、ネットワークオーディオミキサーと、を含む。システムは、前記第１のユーザ装置から前記メディア及びマスタークロックのための時間同期コードを受信するように構成されたフルレゾリューションメディアサーバ及び／又は前記第１のユーザ装置から前記メディア及びマスタークロックのための時間同期コードを受信するように構成された圧縮メディアサーバを含む。

【0009】

その後、さまざまな例示の実施形態によれば、前記インターネット帯域幅テストモジュールは、前記ネットワークにｐｉｎｇを行い、第２のユーザ装置に送信されるべき前記メディアのレゾリューションを決定するために、第２のユーザ装置への帯域幅を特定する。さらなる例示の実施形態では、前記メディアは複数のミュージシャンの演奏を組み合わせた単一のミックストラックであり、該演奏はレゾリューションの範囲を有する。この場合、フルレゾリューションメディアサーバ及び圧縮メディアサーバの両方は前記メディアを前記ネットワークオーディオミキサーし、ネットワークオーディオミキサーは前記メディアを前記第２のユーザ装置に送信する。前記システムは、前記第２のユーザ装置から演奏を受信し、それを単一のミックストラックとミキシングする。

【0010】

インターネット帯域幅、遅延、品質及びメディアのミキシングを管理するための例示のシステムは、所定の期間にわたって帯域幅を計測するためのコンポーネントと、異なる圧縮レベルを変化させるためのコンポーネントと、経時的に品質が変化する共通のタイムコードを用いて、様々なレゾリューションをシームレスにつなぎ合わせるためのコンポーネントと、を制御するために、メモリに記憶された命令を実行するプロセッサを含む。全てのコンポーネントは互いに通信可能に連結され、単一のフェーダーにバス接続されている。

【図面の簡単な説明】

【0011】

本発明の上記の及びさらに他の目的、特徴及び利点は、そのいくつかの具体的な実施形態についての以下の詳細な説明を、特に、添付の図面と組み合わせて考慮することによって明らかになるであろう。様々な図における同様の参照番号は同様のコンポーネントを示すために用いられている。

【図1】図１は、ミュージシャン、ネットワークサービス及びオーディエンスを示すアーキテクチャの高レベルの図である。

【図2】図２は、第１のミュージシャン、ネットワークスタック及び伝送スタックのより詳細を示す。

【図2A】図２Ａは、時間が音楽サンプルとどのように関連するかを示す。

【図2B】図２Ｂは、これがビデオに加えてオーディオとも用いることができ得ることを示す。

【図3】図３は、第２の（及びさらなる）ミュージシャンとの関連でネットワーク及び伝送スタックを示す。

【図4】図４は、チェーンにあるミュージシャンが、ネットワーク及び伝送スタックによってどのように接続され、再生同期及び帯域幅がどのように最適化されるかを示す。

【図5】図５は、音楽があるミュージシャンから次のミュージシャンに移るときに、ネットワークキャッシュ、ストレージ、タイミング及びミキシンモジュールがどのように連携するかを示す。

【図6】図６は、インターネット帯域幅、遅延、品質及びミキシングがどのように連携するかを示す。

【図7】図７は、個々の演奏がどのように異なるレゾリューションでできるかを示す。

【図8】図８は、典型的なジャムバンドのシナリオを示す。

【図9】図９は、ジャムバンドのシナリオのための典型的なタイミング状況を示す。

【図10】図１０は、例示の劇場ポッドキャストシナリオを示す。

【発明を実施するための形態】

【0012】

全体を通して特定される要素は例示であり、様々な代替物、同等物又はその派生物を含み得る。ハードウェア、ソフトウェア及びコンピュータ実行可能命令の様々な組み合わせが利用され得る。プログラムモジュール及びエンジンは、汎用プロセッサ又はアプリケーション特定プロセッサであり得るプロセッサによって実行された場合に、特定のタスクの演奏を生じさせるルーチン、プログラム、オブジェクト、コンポーネント及びデータ構造を含み得る。コンピュータ読み取り可能記憶媒体に記憶されたコンピュータ実行可能命令及び関連するデータ構造は、本明細書で開示する方法のステップを実行するための及び／又は特定のシステム構成を実施するためのプログラミング手段の例を表す。

【0013】

本開示は、ミュージシャンが共に連続して、前のミュージシャンの音に関してリアルタイムに演奏できるようにするためのメカニズムを説明する。複数のミュージシャンが一緒に曲を演奏している場合に、第１の人が演奏を始め、音楽が数ミリ秒の遅延を伴って第２の人に届き得るが、その第２の人が聞いたものに対して演奏を行い、２つの演奏は完全に拍子が合う。次に第３の人は、第２の人が聴いた（互いに拍子が正しい）最初の２人の演奏を聴き、聴くのは実際に演奏された時間よりも後であり得るが、彼らは聴いたものに対して正しい拍子で演奏し、３つの楽器の全ては完全に拍子が合う。これは制限なく続けることができる。

【0014】

これを実現するためには、ある種の連続した記録が必要になる。しかしながら、音声はネットワークを介して送信されるため、品質の低下が容易に起こり得る。つまり、１人のミュージシャンのために音楽の再生が一度開始されると、一時停止するか又はペースを落とすことはできないが、正確なタイミングを可能にするためにビットレート（品質）を下げることができ得る。ここでは、各演奏をフルレゾリューションで、クラウドで（例えば、ネットワークサーバ上に）録音し、必要に応じて圧縮することを提案する。また、最終的な演奏がクラウドに到着した場合にフルレゾリューションになるよう忠実性を維持するために、ローカルでバッファする必要もあり得る。このように、演奏時にミュージシャンが聴く品質が多少損なわれても、録音やクラウドへの転送の品質を損なう必要はないため、最終的な結果は完全な忠実性と、最後に全てが再生されるときの完全な時間で得られる。

【0015】

図１に示すように、システム全体は個々のミュージシャン（及びそれらの機器と、ソフトウェア及び録音）とネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネント（Network Caching, Storage, Timing and Mixing components）で構成されている。シナリオは以下の通りである。

【0016】

第１のミュージシャン（１０１）は、電子カウントイン（electric count-in）（典型的には１、２、３、４と言う）を口に出すか又は生成することにより始める。様々な例示の実施形態では、デジタルデータ又はオーディオデータのいずれかの信号があり、曲の開始及び他のミュージシャンがいつ始めるか知るための合図を伝達する。場合によっては、第１の（及び場合によってはその後の）ミュージシャンが併せて演奏するクリックトラック（メトロノーム）があり得る。他の場合では、ボーカルカウントオフ（vocal count off）又はインストゥルメンタルピックアップ（instrumental
pick up）があり得る。あるいは、指揮者によって与えられるもの等の視覚的な合図があり得る。いずれにせよ、この第１のマーク（繰り返しになるが、必ずしもダウンビートではない）は絶対的に第１の演奏にバインドされ、それは共に、全てのローカルクロック及び演奏を同期させるために用いられるマスタークロックになる。ＮＴＰ又はネットワークタイムプロトコルを用いるのが最も簡単あり得るが、ＮＴＰは通常１００ミリ秒以内の精度しかない。全ての参加者の演奏は、正確さが１ミリ秒未満の共通のクロックにバインドされる必要がある。第１のミュージシャン（１０１）の演奏及びタイミング情報（１０２）がネットワークキャッシュ、ストレージ、タイミング及びミキシングモジュール（１０３）に送信される。

【0017】

各ミュージシャンの演奏は、フルレゾリューションでローカルに録音される。これは最終的にフルレゾリューションメディアサーバ（１０４）に送信される。これはリアルタイムで送信できるが、送信できない場合がある。最適な帯域幅がない状況では、これを後で送信できる。

【0018】

遅延なしでフルレゾリューションオーディオを送信するのに十分な帯域幅がない場合は、レゾリューションがより低いバージョンの第１のミュージシャンの演奏を圧縮オーディオメディアサーバ（１０５）に送信できる。このレゾリューションがより低いバージョンは、後続のミュージシャンが前に現れるパートを聞いて、それに合わせて演奏するのに十分である必要がある。このレゾリューションがより低いバージョンは可能な限り高品質であるべきであり、理想的なネットワーク条件では、品質が完全なバージョンと実質的に区別不能であるべきである。しかしながら、帯域幅の条件によっては、フルレゾリューションオーディオを後で送信しなければならないことがある。

【0019】

同時に且つ同じメディアファイル（フルレゾリューション及び圧縮の両方）の一部として、タイミング情報がマスタークロック（１０６）に送信される。オーディオは通常、４４．１、４８又は９６キロヘルツで録音されるため、定義上、ここで要求される１ミリ秒よりもはるかに正確なクロックがある。クロックの設定及び同期のために、オーディオ録音に関連付けられたタイムスタンプが用いられる。

【0020】

第２のミュージシャン（１０７）がネットワーク帯域幅に応じてフルレゾリューションメディアサーバ（１０４）又は圧縮オーディオメディアサーバ（１０５）から音楽を聴くと、第２のミュージシャン（１０７）が演奏を加える。第２のミュージシャンの演奏は、オーディオ及びタイミング情報が記憶されたネットワークキャッシュ、ストレージ及びタイミングモジュール（１０３）に送信される。同時に、最初の２人のミュージシャンのオーディオがネットワークオーディオミキサー（１０８）によって組み合わされ（又はミキシングされ）、タイミング情報と共に第３のミュージシャン（１０９）に送信され、第３のミュージシャンの演奏は、新たなオーディオ及びタイミング情報が他の演奏とともに記憶されたネットワークキャッシュ、ストレージ及びタイミングモジュール（１０３）に返送され、その後、最後のミュージシャン（１１０）が演奏を行って録音されるまで、さらなるミュージシャンに送信される。

【0021】

ネットワークオーディオミキサー（１０８）は、個々のミュージシャンの演奏を、個々のミュージシャンが互いに聞くことができるよう組み合わせるだけでなく、オーディエンス（１１１）が聴くことができるように全てのミュージシャンの累積的な演奏も組み合わせる。以下で詳細に説明するように、ネットワークオーディオミキサー（１０８）は、異なるトラック（又は演奏）を単に組み合わせるだけではなく、最大限の忠実性を提供するようにそれらを組み合わせる。そのため、例えば、あるミュージシャンの演奏は帯域幅の制約によりレゾリューションが低いが、帯域幅が改善されれば、その品質も改善される。加えて、フルレゾリューションバージョンが最終的にフルレゾリューションメディアサーバ（１０４）に到達し、そのレゾリューションがサーバに到達すると、以降にそれを聴く人はフルレゾリューションを聴くことになる。長期的には、これは、音楽が後で再生される場合（例えば、ライブ演奏の２時間後）、それはフルレゾリューションになることを意味する。一部の状況では、帯域幅が増加した一部のミュージシャンのレゾリューションは、演奏の展開に応じてそれらのパートのレゾリューションを上げることができる。

【0022】

図２は、オーディオ及びタイミング情報の記録及び初期伝送の詳細を示す。同期のための信頼できる開始点は、プロセスの後半でそれらのシステム及びミュージシャンによって正確に識別できる必要がある。例えば、ミュージシャンがカウントオフを行う（例えば、１、２、３、４）とする。「１」という言葉が記録された場合、オーディオ波形サンプルに基づいて、特定の時間に生じる特定の識別可能な波形を有する。デジタル波形は、定義上、周波数（例えば、４４．１ｋＨｚ、４８ｋＨｚ、９６ｋＨｚ等）でサンプリングされ、場所は常に時間と関連付けられる。図２Ａは、ピッチＡ４を演奏するチェロのサンプルを示す。基本は４４０ヘルツであり、これは約２．２５ミリ秒である（波形の摂動は、高調波と、ボーイング（bowing）等の他のノイズである）。録音の共通点が見つかると、その点から曲の任意の場所までのミリ秒の数を簡単に計算できる。

【0023】

同じタイミング情報をビデオに適用できる。例えば、第１のミュージシャンが指揮者である場合、ミュージシャンは（同時にではなくても）依然として拍子にあわせることができる。実際には、クリックトラック又はドラムループ等の共通のリズムが必要になり得るが、理論的には、同じ指揮者又は他の視覚的な合図（映画へのスコアリングのような）に従うことを止めるものは何もない。図２Ｂを参照して、マイク（２０１）がカメラ（２１３）に置き換えられ、サンプリングクロック（２０２）によりローカルレコーディング（２０３、２０４）と同期される記録要素にビデオの録画（２１４）が追加されている点を除いて図２の左側と同様である。

【0024】

図２に戻って、第１のミュージシャン（２００）はマイク（２０１）で音を出し、それによりあるオーディオ（又は上述したようにビデオ）でクロック（２０２）が開始させる。音は完全な忠実度で録音され（２０３）、送信のために準備される。録音機器がオンにされ、ネットワークに接続された時点から、帯域幅をテストするためにネットワークがポーリングされる。帯域幅が十分であれば、完全な忠実度（ロスレス）のバージョン（２０３）がタイミング情報と共に送信される（２０５）。しかしながら、帯域幅が十分でない場合、第１のミュージシャンの録音環境にあるソフトウェアモジュールは、オーディオをより小さなファイルサイズに圧縮できる。例えば、オーディオコーデックＡＡＣは、４８ｋＨｚの録音から作成された１２８キロビット／秒（ｋｂｐｓ）で妥当な忠実度と見なされる。圧縮されていないファイルは、依然として約８００ｋｂｐｓであり得るロスレス圧縮を用いても１５３６ｋｂｐｓでストリーミングされ得る。［注：任意の所与のレゾリューションの複数のファイルは、同時に再生された場合、楽器が単一の録音として記録された場合よりも高いレゾリューションのファイルになる。例えば、１６ビット４８ｋオーディオの１６チャネルは、互いにミキシングされた場合、１６ビット４８ｋオーディオの２チャネルよりもレゾリューションが高くなる。］遅延、帯域幅及び品質のバランスについては、本開示の後で詳細に説明する。

【0025】

伝送形式に関して、クロックは、各録音の各バージョン（ロスレス及び圧縮の両方）に常にバインドされる。伝送スタック（２０５）を見た場合、それぞれが同じ対応する時間／同期コードを有する２つの別々のストリームとして見るべきである。このように、音楽がネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネント（サーバ／サービス）（２０６）に到着すると、サービスがレゾリューション（２０８、２０９）を切り替える必要がある場合、完全な同期を保つために共通（マスター）クロック（２０７）を用いることができる。他のミュージシャンの演奏が組み合わされる場合、これはネットワークオーディオミキサー（２１０）によって行われる。

【0026】

図３は、第２のミュージシャン（３００）の追加を示す。オーディオと、場合によってはビデオとは、ネットワークキャッシュ、ストレージ、タイミング及びミキシングサービス（３０１）からのものであり、ストレージ、タイミング及びミキシングサービス（３０１）には第１のミュージシャンからのメディアが記憶され、タイミング情報（３０３）にバインドされたロスレスオーディオ（３０４）と、帯域幅に応じてタイミング情報（３０３）にもバインドされた圧縮オーディオ（３０５）を含む伝送スタック（３０２）プロトコルを用いてインターネットを介して送信される。このプロセス全体にビデオを含めることが可能であり、オーディオビジュアルの技術分野で実践されているものは、本開示のデータに基づいてビデオを用いて簡単に構築できる。十分な帯域幅がある場合、圧縮オーディオの必要ない場合がある。オーディオが到達すると、それは先ずミキシングモジュール（３０６）に入り、第２のミュージシャンのモニタ（３０７）（おそらくヘッドホン）に送られる。第２のミュージシャンが演奏するか又は歌を歌うと、それは（電子楽器又は圧電若しくは磁気ピックアップ等の音響電気ピックアップの場合）直接注入により又はマイク（３０８）によりミキシングモジュールに送られ、ミキシングモジュールでは、第１のミュージシャンからのオーディオと組み合わされ（ミックスされ）、第２のミュージシャンは一緒に演奏することで両方のパートを聴くことができる。

【0027】

第２のミュージシャンは、元の録音と同じクロック同期（３０９）を用いてロスレス（３１０）で録音され、タイムスタンプされる。第２のミュージシャンからのオーディオは、同じ伝送スタックプロトコル（３１２）を用いて元から受信したのと同じタイムコードでネットワークキャッシュ、ストｒ－ジ、タイミング及びミキシングサービス（ＮＣＳＴＭＳ）（３０１）に返信される。ＮＣＳＴＭＳは既に第１のミュージシャンのオーディオ及び同じ同期されたタイムコードを有しているため、第１のミュージシャンのオーディオをＮＣＳＴＭＳに返信する必要がない。なお、ＮＣＳＴＭＳには、異なるミュージシャンの演奏をミキシングするネットワークオーディオミキサーがある。これは、個々のミュージシャンの場所にあるミキサーとは別のものである。

【0028】

図４は、再生同期及び帯域幅最適化（４０８）を示す。上述したように、同期は、全てのレゾリューションのオーディオ（及びビデオ）にわたって共有されている共通のタイムコードに基づく。品質と遅延との間にはトレードオフがあり得る。ミュージシャン（ミュージシャンＮ）がフルレゾリューション（ロスレスで圧縮）を８００ｋｂｐｓで送信し、次のミュージシャン（ミュージシャンＮ＋１）の帯域幅はそれよりも小さいとする。例えば、ネットワークのスループットをテストした結果、ミュージシャンＮが８００ｋｂｐｓでストリーミングするには、遅延が１５秒になるように十分な音楽をキャッシュする必要がある。しかしながら、ミュージシャンＮが１２８ｋｂｐｓでオーディオを送受信した場合、遅延は７５ミリ秒にしかならない。再生同期及び帯域幅最適化モジュール（４０８）はレゾリューションを選択し得るため、オーディオをミュージシャンＮ＋１に送信するために必要な帯域幅を選択し得る。

【0029】

これをもう少し詳細に見るには、図５及び図６を参照されたい。

【0030】

図５はミュージシャンＮ（５００）を示す。ミュージシャンＮ（５００）とＮＮＣＳＴＭモジュール（５０１）との間で使用可能であり得る帯域幅を知るために、インターネット帯域幅テストモジュール（５０２）が用いられる。ネットワークに「ｐｉｎｇ」を行って、２つの点の間の帯域幅を調べることはかなり標準的な方法であり、この機能は当業者であればだれでも利用可能である。利用可能な帯域幅に基づいて、品質／遅延設定モジュール（５０３）は、ネットワークオーディオミキサーがミュージシャンＮにどのようなレゾリューションのメディアを送信すべきかの決定を行う（図６でより詳細に示す）。帯域幅に応じて、ミュージシャンＮはマスタークロック（５０５）に送られる同期タイムコードと共に、メディアをフルレゾリューションメディアサーバ（５０６）又は圧縮メディアサーバ（５０７）に送信する。なお、「サーバ」とは、ホームコンピュータ上のハードドライブから、インターネット上で幅広く分散された一連のサーバまでのあらゆるサーバ構成を意味する。また、「圧縮メディアサーバ」は、複数のレゾリューションのビデオ及び／又はオーディオを含むことができ、同様に配信でき得る。チェーン内の次のミュージシャンであるミュージシャンＮ＋１（５０８）にメディアを送信するために、インターネット帯域幅テストモジュール（５０２）により帯域幅を再度テストしなければならない。これにより、メディアがどのレゾリューションでミュージシャンＮ＋１に送信されかが決定される。なお、ミュージシャンＮ＋１に送信されるメディアは、以前に演奏されたミュージシャンの個々の録音の全てではなく、それらの演奏の全てが組み合わされた単一のミックストラックである。たとえば、ミュージシャンＮ＋１がチェーン内の第５のミュージシャンであり、それよりも前のミュージシャンにはそれらの演奏の品質には、ミュージシャン１－８００ｋｂｐｓ（フルロスレス）；ミュージシャン２－４５０ｋｂｐｓ；ミュージシャン３－８００ｋｂｐｓ；ミュージシャン４－３２５ｋｂｐｓ；ミュージシャン５－８００ｋｂｐｓといった帯域幅制限があったとする。メディアは、フルレゾリューションメディアサーバ（５０６）及び圧縮メディアサーバ（５０７）の組み合わせからのものであり、ネットワークオーディオミキサー（５０４）に入力される。組み合わされた「ミックス」は、ミュージシャンＮ＋１に送信される。なお、組み合わされたミックスでは、ミュージシャン１及び３のパートは、ミュージシャン２及び４のパートよりもレゾリューションが高くなる。なお、ＮＣＳＴＭモジュールに返信されるメディアは、他の演奏は既にキャッシュされているため、ミュージシャン５による新たな演奏のみとなる。そのため、ミュージシャン５に接続する際の帯域幅の制限は、ミュージシャン５のパートの品質にのみ影響し、その場合でも、（何時聴くかによって）チェーン内のミュージシャンにのみ影響し、全てのミュージシャンの完全な忠実性を受信できる最終的なリスナーに影響しない。

【0031】

図６は、システムの帯域幅、品質、遅延及びミキシングコンポーネントを示す。音楽の品質に対する帯域幅の影響は双方向で起こる。アップロード帯域幅は、個々の演奏の初期送信の品質に影響を与える（同じ演奏の後の送信で、依然フルレゾリューションである）。ダウンロード帯域幅は、ミュージシャンが演奏中に聴く品質に影響を及ぼす。

【0032】

ミュージシャンの動作をアップロードする環境は、帯域幅を測定する独自の機能があるため、例えば、ある時点に完全な帯域幅（６０５）があり得るか又は帯域幅に応じて異なるレベルの圧縮（６０６、６０７、６０８、６０９）がある場合がある。システムは、時間の経過とともに（タイミングではなく）品質だけが変化する共通のタイムコードを用いて様々なレゾリューションをシームレスにつなぎ合わせる。これらの全ては、このミュージシャンがミックス内で同じレベルになるように（this musician levels in the mix）単一のフェーダーに事実上バス接続されている（bussed）（フェーダーを担当する人間がいる場合もあれば又はミキシングを行うアルゴリズムがある場合もある）。これは、チェーン内の第２のミュージシャン（６１０、６１１、６１２、６１３）等から第Ｎのミュージシャン（６１４、６１５、６１６）までに当てはまる。これらのレベルはミックス内で組み合わされ、そのミックスがそれらの帯域幅でチェーン内の次のミュージシャン（５０８）に出力される。なお、ＮＣＳＴＭから任意の個々のミュージシャンへの伝送の帯域幅は、通常（今日一般的に行われているように）遅延がないことを確実にするために適切な帯域幅で送信される。これは、各ミュージシャンからのアップロード帯域幅に依存しない。例えば、１人のミュージシャンの帯域幅が特に低い場合、それらは低品質のストリームを受信し得る。しかしながら、それらはローカル環境で完全に忠実度で録音され、低遅延のリスナーに対する演奏の品質はアップロード帯域幅を反映する。もちろん、上述したように、フルレゾリューションの演奏がアップロードされると、後続のリスナーはそれをフルレゾリューションで聞くことになる（もちろん、そのリスナーの帯域に左右される）。

【0033】

異なるレゾリューションの議論を明確にするために、図７を参照することが役立ち得る。これは、異なるレゾリューションのオーディオがどのように記録及び保存されるかを示す。なお、第１のミュージシャン（７０１）とは異なるレゾリューションが、時間の経過と共に複数の波形として表示されている（７０２）。後続のミュージシャンは、第１のミュージシャンからの演奏を、可変レゾリューションではあるが単一の演奏として聴くことになる。第２のミュージシャンも、次のミュージシャン（７０４）も複数のレゾリューション（７０３）で録音され得る。上述したように、これらの異なる演奏は、ミキシングエンジニアがフェーダーを使ってミックス（６０２、６０３、６０４）するため、後続のミュージシャン又はオーディエンスも聴くことができる。なお、高レゾリューションのオーディオの一部がネットワークキャッシュ、ストレージ、タイミング及びミキシングコンポーネントにアップロードされると、品質を改善するために後続のミックス（例えば、演奏の終了後）で用いることができる。

【0034】

使用例として、図８に示すジャムバンドのシナリオを見てみる。ドラム（８０１）、パーカッション（８０２）、ベース（８０３）、ピアノ（８０４）、ギター（８０５、８０６）を演奏する６人のミュージシャンがいるとする。これらは全員ＮＣＳＴＭ（８０７）に接続されており、オーディエンス（８０８）も同様である。ドラム奏者からスタートし、二小節後にパーカッション奏者及びベース奏者が参加するものとする。他のミュージシャンは即座に参加するか又はいくつかの小節の後に参加できる。各ミュージシャンは順番が前のミュージシャンのみ聴くことができるが、計画により順番を変えることができる。

【0035】

図９を参照して、クロックの実際の時間（９０１）は間断なく進んでいるが、実際の小節の数（９０２）はミュージシャンに合わせて移動する。ドラム奏者（９０３）のための小節１は始まりであるが、後続の各ミュージシャン（９０４）の小節１は少し遅れ、それぞれが前のものよりもより少しだけ遅れが多くなる。ドラム奏者（９０５）が開始し、パーカッション奏者（９０６）、ベース奏者（９０７）、キーボード奏者（９０８）が後に続く。１人のギター奏者（９０９）はキーボード奏者の直後であって、第２のギター奏者よりも前に開始するが、ソロ中にもう他方のギターを聴くことができるようにしたいとする。この文脈で「～の前に開始する」と言うときは、音楽の順序ではなく「ネットワーク順」のことを指している。ミュージシャン（又は予め決められたキューのミキシングエンジニア）がリセット又は「ポジション変更」を行うと、彼らは新たなポジションの時点でオーディオを聴き始める。

【0036】

図９において、灰色の領域（９１１、９１２及び９１３）は、誰かがレイアウト（laying out）していることを表す。そこで、合計２秒間の遅延があるとして、ギター奏者がスイッチを押すと、演奏者全員が演奏しているにもかかわらず、演奏者は自分がいた場所から２秒後に音楽を聴き得る。そのため、１、２小節レイアウトすれば、他のミュージシャンの演奏を聞きながら再参加でき得る。曲中の位置の経過を追うインタラクティブなコードチャートがあれば、これを演出するのは容易であり得るが、ミュージシャンは自分がどこにいるかをかなり素早く認識できるようになり得る。

【0037】

この想像上のジャムバンドのシナリオでは、ミュージシャンは順番にレイアウトして、他のミュージシャンの演奏を聞いて戻ってくることができた。ドラム奏者又はパーカッション奏者でさえ、レイアウトし、数拍後に戻ってきても、他のミュージシャンの演奏を聴くことができ得る。必ずしも列の最後に行く必要はない。おそらく、歌手は常に列の最後にいて、「ドロップバック」は最後の隣までしか連れて行ってくれないか、１つ又は２つだけドロップバックし得る。例えば、ドラム奏者及びパーカッション奏者は場所を交換でき得る。多くの質疑応答型の演奏があり得るが、最終的な再生まで答えを聴くことはできない。

【0038】

もう１つの使用例は、劇場用ポッドキャスト（Theatrical Podcast）シナリオであり得る。このシナリオでは、図１０に示すように、多数の役者がオンラインでライブに近いパフォーマンスを作成している。これには脚本があってもいいし、インタビュー又はリアリティ番組のように自然発生的に行うこともでき得る。上記で説明したようなことができるが、他にもいくつかの選択肢がある。話し言葉は音楽ほど時間に敏感ではないため、少し多く時間と遊ぶ（play with time）ことができる得る。また、パフォーマンスは並列よりも連続的であり、忠実性の要件がより柔軟である。ジャムバンドシナリオでは、１人のミュージシャンが数小節のためにレイアウトする場合、そのミュージシャンを列の後に配置できる。また、その間のパフォーマンスの時間を圧縮することもできる。６人の役者（１００１、１００２、１００３、１００４、１００５及び１００６）による芝居を想像してみる。興味本位で、役者５及び６（１００５と１００６）が同じ場所にいるとする。時間（１００７）を追跡し、１分弱話す役者１（１００１）から始まる。役者２（１００２）は、彼らにとってリアルタイムでそれを聞いている。現在、役者１は、１分弱後に再参加することを計画している。議論のために、役者１と２との間の遅延が１００ミリ秒であると仮定する。役者１が終了するとすぐに、役者１は順番を無視して列に割り込む（jump the queue）ことができる。しかしながら、１）役者１は、役者２が言うことを聞き逃したくなく、２）役者１は、タイミング及び抑揚ができるだけ自然になるように、役者２の台詞の少なくとも最後の部分をできるだけ変更されていない状態で聞きたいという２つの制約がある。そのため、解決策は次のようになる。役者１が順番を無視して列に割り込むと、役者２よりも１００ミリ秒遅れている。つまり、役者２は既に１００ミリ秒間話している。そのため、役者１が順番を無視して列に割り込んで戻った場合に、その１００ミリ秒を埋め合わせる必要がある。ピッチを変えずに録音の速度を上げることは一般的に用いられる技術である。そのため、役者１が順番を無視して列に割り込んで戻った場合、録音から役者２が再生されるが、速度が上げられている。１０％速度が上げられ（ピッチの変化がなくてもほとんど知覚できない）、遅延の合計が１００ミリ秒の場合、役者１は役者１のリアルタイムで役者２を実際の速度で聞くことになる。これは、複数の役者が入ってきて必要に応じて追いつくことで、無制限に続けることができる。音楽録音シナリオと同様に、最終的な製品（音響効果を加えられた話し言葉の場合）は、おそらくリアルタイムライブより数分だけ遅れることになり得る。

【0039】

本発明の本質的な教示から逸脱することなく変更が加えられ得る。本明細書で説明する様々な方法論を実施するために様々な代替的なシステムを利用してもよく、前述のシステムから特定の結果を得るために様々な方法が。

【図1】