7404067 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7404067ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14A
14B
15
16
17
18
19A
19B
20
21
22
23
24
25
26
27
28
29

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-12-15

(45)【発行日】2023-12-25

(54)【発明の名称】ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送

(51)【国際特許分類】

H04R 3/00 20060101AFI20231218BHJP

G10K 15/02 20060101ALI20231218BHJP

G10L 21/034 20130101ALI20231218BHJP

G10L 25/21 20130101ALI20231218BHJP

H04N 23/60 20230101ALI20231218BHJP

H04S 1/00 20060101ALI20231218BHJP

【ＦＩ】

H04R3/00

G10K15/02

G10L21/034

G10L25/21

H04N23/60 300

H04N23/60 500

H04S1/00 200

【請求項の数】 5

(21)【出願番号】P 2019500634

(86)(22)【出願日】2017-07-20

(65)【公表番号】

(43)【公表日】2019-09-05

(86)【国際出願番号】 US2017043152

(87)【国際公開番号】W WO2018017878

(87)【国際公開日】2018-01-25

【審査請求日】2020-07-16

【審判番号】

【審判請求日】2023-01-20

(31)【優先権主張番号】P201631002

(32)【優先日】2016-07-22

(33)【優先権主張国・地域又は機関】ES

(31)【優先権主張番号】62/398,835

(32)【優先日】2016-09-23

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】P201730282

(32)【優先日】2017-03-02

(33)【優先権主張国・地域又は機関】ES

(31)【優先権主張番号】62/501,344

(32)【優先日】2017-05-04

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】507236292

【氏名又は名称】ドルビーラボラトリーズライセンシングコーポレイション

(73)【特許権者】

【識別番号】510185767

【氏名又は名称】ドルビー・インターナショナル・アーベー

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ニコル，フィリップ

(72)【発明者】

【氏名】マテオスソレ，アントニオ

(72)【発明者】

【氏名】センガルレ，ジュリオ

(72)【発明者】

【氏名】バスコ，クリスティナミシェル

【合議体】

【審判長】五十嵐努

【審判官】樫本剛

【審判官】木方庸輔

(56)【参考文献】

【文献】特開２０１２－１０１５４（ＪＰ，Ａ）

【文献】特開２００２－２０７４９２（ＪＰ，Ａ）

【文献】特開昭５４－１３１９１５（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

H04R 3/00

G10K 15/02

G10L 21/034

G10L 21/21

H04S 1/00

(57)【特許請求の範囲】

【請求項1】

サーバー・システムによって、二つ以上のチャネル信号源から、リハーサル・イベントからの参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、個々にプレイする二つ以上の音源の音響情報を含む、段階と；
前記サーバー・システムによって、前記二つ以上のチャネル信号源から、実演イベントの二つ以上のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいて一緒にプレイする前記二つ以上の音源からのオーディオ信号を含む、段階と；
前記サーバー・システムによって、前記二つ以上のチャネル信号をミキシングする段階であって、前記ミキシングは、前記実演イベントの前記二つ以上の音源の利得を各音源のそれぞれのエネルギー・レベルに応じて自動的に動的に増大または減少させることを含み、それぞれのエネルギー・レベルは前記参照オーディオ・データから前記サーバー・システムによって決定される、段階と；
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階とを含む、
方法。

【請求項2】

各チャネル信号源が、マイクロフォンまたは信号出力をもつサウンド信号生成器を含み、
各音源が、ボーカリスト、楽器またはシンセサイザーであり、
前記サーバー・システムは、通信ネットワークを通じて前記二つ以上のチャネル信号源に接続された一つまたは複数のコンピュータを含み、
前記二つ以上のチャネル信号源および前記二つ以上の音源は、リハーサルおよび前記実演イベントにおいて同じ音響的配置をもつ、
請求項１記載の方法。

【請求項3】

前記二つ以上のチャネル信号は、前記二つ以上のチャネル信号源のうちの第一のチャネル信号源からの第一のチャネル信号と、前記二つ以上のチャネル信号源のうちの第二のチャネル信号源からの第二のチャネル信号とを含み、
当該方法は、前記サーバー・システムによって、時間領域で前記第一のチャネル信号および第二のチャネル信号を同期させることを含む、
請求項１記載の方法。

【請求項4】

前記ミキシングが、前記サーバー・システムによって、第一の音源および第二の音源をレベリングし、前記第一の音源および前記第二の音源をパンすることを含む、請求項１ないし３のうちいずれか一項記載の方法。

【請求項5】

前記参照オーディオ・データから、前記イベントにおける各音源についてのそれぞれの利得を決定する段階を含み、該それぞれの利得を決定することは、各音源について：
目標レベルを指定する入力を受領し；
前記参照オーディオ・データにおける前記信号のそれぞれのレベルを決定し；
前記参照オーディオ・データにおける前記信号のレベルと前記目標レベルとの間の差に基づいてそれぞれの利得を決定することを含む、
請求項１ないし４のうちいずれか一項記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は概括的にはライブ音楽実演のマルチメディア・コンテンツの捕捉、処理および配送に関する。

【背景技術】

【0002】

インターネットを通じたライブ実演の高品質なオーディオおよびビデオの配送は困難であることがある。インターネットにアップロードされた多くのアマチュア制作のビデオ記録は貧弱なビデオおよびサウンド品質をもつ。バンドが音響的に扱われない会場で実演するとき、録音がさらなる処理なしに直接アップロードされると、音質は貧弱になることがある。たとえば、ドラムセットが使われるとき、ドラムセットはあまりに大きく演奏されてバンドの他の楽器が明瞭に聞こえないことがある。さらに、バンドがたとえば複数のマイクロフォン、プリアンプおよびミキシング卓を含む録音設備を適正にセットアップしない場合には、実演の録音は低い音質をもつことがある。たとえ録音設備が適正にセットアップされていても、バンドは録音設備を効果的に使う技術上の専門知識を欠くことがありうる。同様に、実演のプロ品質のビデオ記録および編集は、実演者の技量を超えた技術上の専門知識を要求することがある。

【発明の概要】

【課題を解決するための手段】

【0003】

リハーサルおよびライブ・データに基づくビデオ編集のためのシステム、プログラム・プロダクトおよび方法が開示される。システムは、一つまたは複数のマイクロフォンおよび一つまたは複数のビデオ・カメラから実演のリハーサルについてのリハーサル・データを受領する。システムは、リハーサル・データに基づいて音と実演者をマッチングする。ライブ実演の間、システムは実演のライブのオーディオおよびビデオを受領する。リハーサル・データの解析に基づいて、システムは、リハーサルに比しての実演者が実演するレベルおよび前記一つまたは複数のビデオ・カメラにおけるリハーサルの間の実演者の代表的位置を導出する。次いで、システムは、導出されたレベルおよび位置を利用する規則に基づいて、たとえば顕著な実演者を強調するなど、ビデオ・データを編集する。システムは任意的には、実演の解析を使って、編集を改善する。該解析はたとえば、テンポもしくはビート・データおよび実演者動き追跡データを生成する。次いで、システムは、記憶および一つまたは複数のユーザー装置へのストリーミングのために、オーディオ・データを編集されたビデオ・データに関連付ける。

【0004】

限られたネットワーク帯域幅のもとでのビデオ処理のためのシステム、プログラム・プロダクトおよび方法が開示される。ビデオ・カメラは実演の高精細度ビデオ（たとえば4Kビデオ）を捕捉することができる。該ビデオは通信ネットワークを通じてライブでストリーミングすることが（あるいはさらにオフラインでアップロードすることも）難しいことがある。ビデオ・カメラはビデオの一つまたは複数のフレームを、任意的にはより低解像度で、任意的には不可逆ビデオ・コーデックを使って圧縮して、サーバー・システムに提出することができる。前段で述べた前記一つまたは複数のフレームおよびオーディオ・データに基づいて、サーバー・システムは、ビデオ・データに対する編集決定を生成することができる。サーバー・システムはビデオ・カメラに、実演者または実演者の群に対応する高精細度ビデオの部分をクロッピングして、ビデオのその部分をサーバー・システムに、中精細度または低精細度のビデオ（たとえば720p）として、任意的には付可逆ビデオ・コーデックを使って圧縮して、提出するよう命令することができる。ビデオ・カメラ装置は常時、最後に捕捉された諸フレームに対応する高精細度ビデオ（たとえば4K）の長いバッファ（たとえば数十秒）を記憶することができ、それによりサーバー・システムからの受領された命令は、数秒前に捕捉されたフレームに対して実施されることができる。次いで、サーバー・システムは、前記中または低精細度ビデオを記憶するまたは前記中または低精細度ビデオをユーザー装置にストリーミングすることができる。

【0005】

ライブ実演のマルチメディアのネットワーク・ベースの処理および配送のための実装が開示される。いくつかの実装では、記録装置がイベント（たとえばライブ音楽実演）を記録するよう構成されることができる。記録装置は、実演の間にサーバーに記録を提供する。サーバーは自動的に記録を同期させ、ミキシングし、マスタリングする。ある実装では、サーバーは、記録装置および音源がイベント時と同じ音響的な（そしてビデオ記録装置の場合には視覚的な）配置に置かれたリハーサルの間に捕捉された参照オーディオ・データを使って自動化されたミキシングおよびマスタリングを実行する。サーバーはマスタリングされた記録を複数のエンドユーザー装置に、たとえばライブ・ストリーミングによって提供する。

【0006】

いくつかの実装では、サーバーはライブ・イベントのビデオ信号を複数のユーザーにストリーミングする。リハーサル・セッションの間に記録された参照オーディオ・データ（リハーサル・データとも称される）を使って、サーバーはさまざまな楽器およびボーカリスト（以下では「音源」とも称される）の位置および記録位置における実演者の位置を判別する。ライブ実演の間、サーバーは一つまたは複数の優勢な音源を一つまたは複数のパラメータ（たとえばボリューム）に基づいて判別する。画像捕捉装置（たとえばビデオ・カメラ）が実演のライブ・ビデオを捕捉し、それをサーバーに送ることができる。優勢な音源の位置を使って、サーバーは、ビデオ編集操作（たとえばズーム、遷移、視覚的効果）を適用するべき、ビデオにおける部分を決定する。ビデオ編集操作を適用することは、リアルタイムでライブ・ビデオに対して、あるいは以前に記録されたビデオ・データに対して生起することができる。サーバーは、優勢な音源に対応するビデオの部分（たとえばリード・ボーカリストまたはリード・ギター奏者のクローズアップ）をエンドユーザー装置にストリーミングする。たとえば、サーバーは、エンドユーザー装置上で、ユーザーがオーディオ・ミキシング（たとえばボーカリストまたはソロ演奏中の楽器のボリュームを上げる）またはビデオ編集（たとえば特定の実演者にズームインする）を制御できるようにするビデオ・オーバーレイまたはグラフィカル・ユーザー・インターフェースを提供することができる。いくつかの実装では、サーバーは、一つまたは複数の記録パラメータ、たとえばマイクロフォン・プリアンプ上の録音レベル調整、ビデオ記録器のズーム・レベル、特定のマイクロフォンもしくはビデオ記録器をオンもしくはオフにすることまたは上記の任意の組み合わせを調整するよう、オーディオまたはビデオ記録装置にコマンドを発することができる。

【0007】

本明細書に記載される特徴は、通常のオーディオおよびビデオ技術に対して一つまたは複数の利点を達成することができる。それらの特徴は、参照オーディオ・データから得られる参照オーディオ・データに少なくとも部分的に基づく、オーディオ・トラックの自動化されたミキシングおよびマスタリングによって、通常の手動のオーディオおよびビデオ処理技術に対して改善する。本稿で開示される自動化されたミキシングおよびマスタリングを使って、バンドは、プロの録音、ミキシングおよびマスタリング・エンジニアを使うことに頼ることなく、よくバランスのとれた音を生成することができる。バンドが特定の専門家からのミキシング・スタイルを所望するなら、バンドは本稿に開示されるネットワーク・ベースのプラットフォームを使って、自分たちの録音をリモートでミキシングおよびマスタリングするよう専門家を保持することができる。

【0008】

同様に、開示される実装は、手動のカメラ操作（たとえばパンおよびズーム）を、少なくとも部分的にはオーディオおよびビデオ・リハーサル・データに基づく自動化されたカメラ操作で置き換えることによって通常のビデオ処理技術に対して改善する。バンドは、プロのビデオ撮影家を保持することなく、自分たちのライブ実演のプロ品質のビデオを生成および編集することができる。

【0009】

バンドは、さまざまな技術（たとえばライブ・ストリーミング）を使って複数のエンドユーザー装置に高品質のオーディオおよびビデオを提供できる。エンドユーザー経験を向上させるために、ストリーミングは、対話的にされることができ、それによりエンドユーザーはオーディオ・ミキシングおよびビデオ編集のさまざまな側面を制御できる。本明細書では、便宜上、バンド（band）という用語は、一または複数の実演者および楽器の音楽バンドを指すことができる。この用語は、音楽でない環境における一または複数の参加者（たとえばドラマにおける実演家、会議における話者または公共アナウンス・システムにおけるラウドスピーカー）の群をも指すことができる。

【0010】

本稿に開示される特徴およびプロセスは、ライブ実演のオーディオ・トラックの自動化された同期、ミキシングおよびマスタリングならびにビデオ・データの編集を実行するようサーバー・コンピュータを構成することによって、通常のサーバー・コンピュータに対して改善する。サーバー・コンピュータは、処理されたオーディオおよびビデオをエンドユーザー装置にストリーミングし、エンドユーザーがオーディオおよびビデオをさらにミキシングおよび編集できるようにするコントロールを提供することができる。さまざまな実装において、サーバー・コンピュータは、ライブ実演の生データをオフラインでの使用、ミキシング、マスタリング、転用、セグメント分割、キュレーションのために記憶することができる。サーバー・コンピュータは処理されたデータをのちの配送のために記憶することができる。サーバー・コンピュータは、生データと完全に処理されたデータの間の（両端を含む）任意のところの、処理のさまざまな段階を通されたデータを記憶することができる。サーバーは、該データを記憶装置（たとえばハードディスク、コンパクトディスク（CD）、リモート記憶サイト（たとえばクラウド・ベースのオーディオおよびビデオ・サービス）またはメモリースティック）に記憶することができる。

【0011】

本稿に記載される特徴およびプロセスは、サーバー・コンピュータがさまざまな規則に基づいて自動的にビデオ・データを編集することを許容することによって、通常のサーバー・コンピュータに対して改善する。開示される技法を実装するサーバー・コンピュータは、実演者、たとえばソリストが他の実演者と異なる仕方で（たとえばより大きな音で）演奏しているとき、あるいは実演者が動くとき、あるいは実演者が伴奏なしで（たとえばアカペラ）演奏するとき、自動的に実演者、たとえばソリストにフォーカスするよう、記録装置、たとえばビデオ・カメラに指令することができる。サーバー・コンピュータは、音楽のテンポおよびビートに従ってシーンをカットし、変更することができる。サーバー・コンピュータは、音源の動きを追跡する、たとえば第一の実演者から第二の実演者に切り換えるよう記録装置に指令する。ここで、切り換えは、第一から第二の実演者へのハード・カットまたはゆっくりしたパンであることができる。追跡は、記録装置を物理的に動かすことなく、記録されたデータに対して実行されることができる。よって、オーディオ・データ解析に基づいて、サーバー・コンピュータは、人間のカメラマンが行なえることを模倣できる。このように、開示される技法は、記録装置を物理的に動かすことなく、イベントのビューを動かすという技術的利点をもつ。

【0012】

本稿に開示される特徴およびプロセスは、高精細度ビデオ・データを伝送するための帯域幅要求を減らすことによって通常のサーバー・コンピュータに対して改善する。高精細度ビデオ・データ、たとえば4Kビデオは、伝送のための高い帯域幅を要求しうる。開示される特徴は、伝送されるべきビデオのハイライト、たとえばソリストの位置に対応する部分を選択し、その位置にフォーカスすることができる。システムは、ビデオ・データのその部分を、より低い解像度、たとえば720pビデオで伝送することができる。このように、観衆がソリストを見ているだけであるとき、システムはステージ全体のビデオを4Kビデオで送信する必要はない。システムは、それでも、ソリストに対する知覚される精細度および明瞭さを保存できる。よって、システムは、低下した帯域幅で、高品質ビデオの伝送という技術的利点を達成する。

【0013】

もう一つの実施形態では、前記一つまたは複数のカメラ装置は、高解像度（たとえば4K）ビデオを捕捉し、ここに記載される諸方法は、中間の編集された、より低解像度のビデオ（たとえば1080）をストリーミングするために使われ、それによりサーバー・システムはさらに、1080フレーム内で編集して、720pを観衆に供する決定をすることができる。

【0014】

開示される主題の一つまたは複数の実装の詳細は、付属の図面および下記の記述において記載される。開示される主題の他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。

【図面の簡単な説明】

【0015】

【図1】イベントにおける記録装置の第一の例示的な配置を示す図である。

【0016】

【図2】イベントにおける記録装置の第二の例示的な配置を示す図である。

【0017】

【図3】記録装置の例示的アーキテクチャーを示すブロック図である。

【0018】

【図4】ネットワーク・ベースのオーディオ処理のための例示的なオーディオおよびビデオ・システムのアーキテクチャーを示す図である。

【0019】

【図5】オーディオおよびビデオ処理のための例示的な信号経路を示すブロック図である。

【0020】

【図6】オーディオ処理の例示的プロセスのフローチャートである。

【0021】

【図7】例示的な自動化されたミキシングおよびマスタリング・ユニットを示すブロック図である。

【0022】

【図8】自動化されたレベリングの例示的プロセスを示すフローチャートである。

【0023】

【図9】自動化されたパンの例示的プロセスを示すフローチャートである。

【0024】

【図10】最大歪みの際の例示的な角度変換を示す図である。

【0025】

【図11】マイクロフォン信号からエネルギー・レベルを推定する例示的プロセスを示すフローチャートである。

【0026】

【図12】周波数帯域におけるエネルギー・レベルを推定する例示的プロセスを示すフローチャートである。

【0027】

【図13】個々の音源を自動的に等化する例示的プロセスを示すフローチャートである。

【0028】

【図14A】等化されるべき例示的な三楽器混合を表わす図である。

【0029】

【図14B】自動的等化における例示的な利得を示す図である。

【0030】

【図15】オーディオ・データにおける新規性積み上がりに基づいてビデオをセグメント分割する例示的プロセスを示すフローチャートである。

【0031】

【図16】例示的な新規性積み上がり処理を示す図である。

【0032】

【図17】複数のマイクロフォンからの信号を同期させる例示的プロセスを示すフローチャートである。

【0033】

【図18】五つのマイクロフォンを同期させる例示的シーケンスを示す図である。

【0034】

【図19】ＡおよびＢは、自動化されたビデオ編集の結果を表示する例示的なユーザー・インターフェースを示す図である。

【0035】

【図20】自動化されたビデオ編集の例示的プロセスのフローチャートである。

【0036】

【図24】ノイズ削減の例示的プロセス２４００を示すフローチャートである。

【0037】

【図25】リハーサル・データに基づくビデオ編集の例示的技法を示すブロック図である。

【0038】

【図26】リハーサル・データに基づくビデオ編集の例示的プロセスを示すフローチャートである。

【0039】

【図27】フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的技法を示すブロック図である。

【0040】

【図28】サーバー・システムによって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセスを示すフローチャートである。

【0041】

【図29】ビデオ捕捉装置によって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセスを示すフローチャートである。

【0042】

【図21】図１～２０および図２４～２９を参照して述べた特徴および動作を実装するモバイル装置の例示的な装置アーキテクチャーを示すブロック図である。

【0043】

【図22】図１～２０および図２４～２９のモバイル装置のための例示的なネットワーク動作環境のブロック図である。

【0044】

【図23】図１～２０および図２４～２９を参照して述べた特徴および動作を実装するサーバー・システムのための例示的なシステム・アーキテクチャーのブロック図である。

【0045】

さまざまな図面における同様の参照符号は同様の要素を示す。

【発明を実施するための形態】

【0046】

〈例示的な上流アーキテクチャー〉
図１は、ライブ実演イベント１００における記録装置の第一の例示的配置を示す図である。イベント１００は、オーディオ・コンテンツ（たとえば発話、声楽または器楽）および任意的にはビデオ・コンテンツが生成される任意のイベントであることができる。特に、イベント１００は、一つまたは複数の楽器および／または一または複数のボーカリストが演奏するライブ・コンサートであることができる。一つまたは複数の音源がイベント１００に存在することができる。各音源は、楽器、ボーカリスト、ラウドスピーカーまたは音を生成する任意のアイテムであることができる。簡単のため、本発明の随所において、楽器でない音源を含む音源をまとめて楽器と称する。

【0047】

いくつかの実装では、装置１０２、１０４、１０６はイベント１００のオーディオおよびビデオを記録するよう構成されることができる。装置１０２および１０４はモバイル装置（たとえばスマートフォン、ウェアラブル装置またはポータブル・オーディオおよびビデオ・レコーダー）であることができる。装置１０２および１０４は、内蔵マイクロフォンを含んでいても、外部マイクロフォンに結合されても、あるいは両方であってもよい。外部マイクロフォンが使われる場合、外部マイクロフォンは一つまたは複数のマイクロフォン・プリアンプに結合されうる。外部マイクロフォンは、有線または無線接続を使って装置１０２および１０４に結合されることができる。いくつかの実装では、装置１０２および１０４のそれぞれは、一つまたは複数の外部のサウンド生成装置に結合されることができる。ここで、サウンド生成装置は、アナログ電気信号（たとえばキーボード出力）またはデジタル信号（たとえばラップトップ・コンピュータで生成されたデジタル・サウンド）の形で直接、オーディオ信号を生成する。そのような信号は、対応するアダプターを介して装置１０２および１０４に直接供給されることができる。

【0048】

装置１０２および１０４のそれぞれは、イベント１００のオーディオ・コンテンツを記録するためのアプリケーション・プログラムを実行することができる。アプリケーション・プログラムは、記録されたオーディオ・トラックを通信ネットワーク１１０を通じてリモート・サーバー・コンピュータに送ることができる。通信ネットワーク１１０は、パーソナル・エリア・ネットワーク（PAN、たとえばブルートゥース(登録商標)ネットワーク）、ローカル・エリア・ネットワーク（LAN）、セルラー・ネットワーク（たとえば4Gまたは5Gデータ・ネットワーク）広域ネットワーク（WAN、たとえばインターネット）またはアドホック・ネットワークであることができる。通信はゲートウェイ（たとえば無線装置１０８）を通じてまたは個別にであることができる。いくつかの実装では、サーバー・コンピュータはイベント１００に対してローカルであることができる。たとえば、サーバー・コンピュータは装置１０２および１０４の任意のものであることができる。

【0049】

いくつかの実装では、装置１０２および１０４のそれぞれは、オーディオ処理のためのオンライン・ユーザー・アカウントにリンクされたクライアント・アプリケーションを含むことができる。クライアント・アプリケーションは、オンライン・ユーザー・アカウントにオーディオ・トラックを送るのに先立って、ユーザー認証および許諾を実行することができる。クライアント・アプリケーションは、リモート・サーバーからのコマンド、たとえばフィルタ（たとえば低域通過フィルタ、高域通過フィルタ、シェルフ・フィルタ）、装置１０２または１０４に組み込まれたまたは結合されたマイクロフォン・プリアンプの利得または周波数帯域を調整するコマンドに応答するオーディオ処理機能を含むことができる。追加的または代替的に、コマンドは、記録のビット深さおよびサンプル・レート（たとえば44.1Hzで16ビット）を制御することができる。

【0050】

装置１０２および１０４のそれぞれは、記録されたオーディオ・トラックを、有線装置（または有線または無線のルーター）または他の有線または無線の装置１０８を通じてサーバーに提出することができる。無線装置１０８は、無線ローカル・エリア・ネットワーク（WLAN）のための無線アクセスポイント（AP）またはセルラー・タワーであることができる。無線装置１０８は通信ネットワーク１１０に接続することができる。装置１０２および１０４は、記録されたライブ・オーディオ・トラックをサーバーに、通信ネットワーク１１０を通じて送ることができる。データの提出はリアルタイムで、たとえば実演が進行中に、あるいは実演が部分的または完全に終了した後にオフラインで、たとえば装置１０２および１０４によって同時並行してまたは逐次的に行なわれることができる。装置１０２および１０４は、記録されたオーディオ・トラックを、オフライン提出のために記憶することができる。

【0051】

いくつかの実装では、装置１０６は、イベント１００の画像およびオーディオを捕捉するよう構成された画像捕捉装置である。たとえば、装置１０６は高精細度ビデオ（たとえば4K解像度のビデオ）を捕捉するよう構成されることができる。装置１０６は、イベント１００のスチール画像およびビデオを捕捉することができる。装置１０６は、捕捉されたスチール画像またはビデオを、無線装置１０８および通信ネットワーク１１０を通じてサーバーに送ることができる。装置１０６は、スチール画像またはビデオをリアルタイムでまたはオフラインで送ることができる。いくつかの実装では、装置１０６は、サーバー・コンピュータの動作を実行することができる。

【0052】

いくつかの実装では、装置１０２、１０４、１０６の一つまたは二つのマイクロフォンが、すべての楽器およびボーカリストからのオーディオを捕捉する一つまたは複数の主要〔メイン〕マイクロフォン（たとえば「部屋」マイクロフォン）として指定される。前記一つまたは二つの主要マイクロフォンから出力された信号は、主要信号（たとえば主要モノまたは主要ステレオ信号）または主要チャネル信号として指定されることができる。時にそれぞれの個々の音源（たとえばボーカル・マイクロフォン）または個々の音源群（たとえば諸ドラム・マイクロフォン）のところに置かれる他のマイクロフォンはスポット・マイクロフォンとして指定され、サテライト・マイクロフォンとも称される。スポット・マイクロフォンは、音源の、より局在化された捕捉を提供することによって、主要マイクロフォンを増強できる（たとえばキックドラム・マイク、スネアドラム・マイク、ハイハット・マイク、シンバルを捕捉するための頭上マイク、ギターおよびベース増幅器マイクなど）。

【0053】

いくつかの実装では、装置１０２、１０４、１０６のそれぞれは、一つまたは複数のコンピュータ・プログラムを実行することによってサーバーの動作を実行するよう構成されることができる。そのような実装では、オーディオ信号の処理はイベント１００においてオンサイトで実行されることができる。次いで、動作を実行する装置（装置１０６）は、処理された信号を記憶装置またはエンドユーザー装置に、通信ネットワーク１１０を通じてアップロードすることができる。

【0054】

図２は、イベント１００における記録装置の第二の例示的配置を示す図である。統合された記録器２００は、イベント１００のオーディオおよびビデオ信号を記録するよう構成されることができる。統合された記録器２００は、マイクロフォン２０２および２０４を含むことができる。マイクロフォン２０２および２０４のそれぞれは、無指向性、指向性もしくは双方向性マイクロフォンまたは任意の指向性パターンをもつマイクロフォンであることができる。マイクロフォン２０２および２０４のそれぞれは、所与の方向をポイントするよう配置されることができる。マイクロフォン２０２および２０４は、主要マイクロフォンとして指定されることができる。さまざまな実装において、統合された記録器２００は、追加的なオーディオ入力のために一つまたは複数のスポット・マイクロフォンに結合されることができる。

【0055】

統合された記録器２００は、イベント１００のスチール画像またはビデオを捕捉するために画像捕捉装置２０６を含むことができる。統合された記録器２００は、イベント１００の音源の一つまたは複数の属性（たとえば目標ラウドネス・レベル）を指定するためのユーザー・インターフェースを含む、あるいはかかるユーザー・インターフェースに結合されることができる。たとえば、統合された記録器２００は、装置識別子によってモバイル・アプリケーションに関連付けられることができる。モバイル・アプリケーションは、モバイル装置２０７のタッチ感応性表面での表示のためにグラフィカルユーザーインターフェース（GUI）をもつことができる。GUIは、音源の属性（たとえばギター、リード・ボーカリスト、ベースまたはドラムの目標ボリュームまたは利得レベル）を指定するためのユーザー入力を受け容れるよう構成された一つまたは複数のユーザー・インターフェース項目を含むことができる。属性はたとえば、二つの音源（たとえばリード・ボーカリストと他の音源との間）が何デシベル（dB）離れているべきか、どの音源が（たとえば他の音源のボリューム・レベルより大きくプレイすることによって）どのくらい（たとえばX dB）優勢であるべきかを含むことができる。前記一つまたは複数のユーザー・インターフェース項目は、自動化されたミキシングのために音源からの参照オーディオ・データが収集されるリハーサル・セッションを指定するユーザー入力を受け容れることができる。

【0056】

統合された記録器２００は任意的に、たとえば主要マイクロフォンおよびスポット・マイクロフォンからの信号の同期、記録された信号からの音源の分離、参照オーディオ・データに基づく異なる音源の信号のミキシングおよびミキシングされた信号のマスタリングを含む一つまたは複数の動作を実行することができる。統合された記録器２００は、マスタリングされた信号を、ステレオまたはマルチチャネル信号として、サーバーに、通信ネットワーク２１０に接続されている無線装置２０８を通じて提出することができる。同様に、統合された記録器２００は、ビデオ信号をサーバーに提供することができる。次いで、サーバーは、ステレオまたはマルチチャネル信号およびビデオ信号をエンドユーザー装置に、イベント１００の間に実質的にリアルタイムで配送することができる。通信ネットワーク２１０はPAN、LAN、セルラー・データ・ネットワーク（たとえば4Gネットワークまたは5Gネットワーク）、WANまたはアドホック・ネットワークであることができる。

【0057】

図３は、記録装置３０２の例示的アーキテクチャーを示すブロック図である。記録装置３０２は図１の装置１０２もしくは１０４または図２の統合された記録器２００であることができる。

【0058】

記録装置３０２は、主要マイクロフォン３０４およびビデオ・カメラ３０６を含むまたはそれに結合されることができる。主要マイクロフォン３０４は組み込みマイクロフォンまたは記録装置３０２に結合された専用のマイクロフォンであることができる。主要マイクロフォン３０４は、オーディオ信号処理のためのベースライン（ベッドとも称される）を提供することができる。これについては下記でさらに詳細に述べる。ビデオ・カメラ３０６は、組み込みのカメラまたは記録装置３０２に結合された専用のカメラであることができる。ビデオ・カメラ３０６は、捕捉されたビデオの一部がズームインされてもまだ、中程度の（たとえば1080p、1080i、720pまたは720i）解像度をもつ通常のモニターのフル容量を利用できるよう、十分に高い解像度でビデオを捕捉するよう構成されている、デジタル映画館イニシアチブ（CDI: Digital Cinema Initiative）4K、DCI 2KまたはフルHDビデオ・カメラであることができる。

【0059】

記録装置３０２は、一つまたは複数のスポット・マイクロフォン３１０に接続するための外部マイクロフォン・インターフェース３０８を含むことができる。外部マイクロフォン・インターフェース３０８は、一つまたは複数のスポット・マイクロフォン３１０から信号を受領するよう構成される。いくつかの実装では、外部マイクロフォン・インターフェース３０８は、一つまたは複数のスポット・マイクロフォン３１０に制御信号を提供するよう構成される。記録装置３０２は、一つまたは複数の外部カメラ３１４に接続するための外部カメラ・インターフェース３１２を含むことができる。外部カメラ・インターフェース３１４は、一つまたは複数の外部カメラ３１４から信号を受領し、一つまたは複数の外部カメラ３１４に制御信号を提供するよう構成される。

【0060】

記録装置３０２は、一つまたは複数のプロセッサ３２０を含むことができる。一つまたは複数のプロセッサ３２０は、マイクロフォンからのオーディオ信号のアナログからデジタルへの変換を実行し、カメラからのデジタル・オーディオ信号およびビデオ信号のデジタル圧縮を実行するよう構成されることができる。いくつかの実装では、一つまたは複数のプロセッサ３２０はさらにさまざまなチャネルからのオーディオ信号を同期させ、それらのオーディオ信号から音源を分離し、別個の音源を自動的にミキシングし、ミキシングされた信号をマスタリングするよう構成される。

【0061】

記録装置３０２は、デジタル・オーディオおよびビジュアル信号をサーバーにネットワーク装置を通じて提出するためのネットワーク・インターフェース３２２を含むことができる。いくつかの実装では、ネットワーク・インターフェース３２２は、マスタリングされたデジタル・オーディオおよびビデオ信号をサーバーに提出することができる。ネットワーク・インターフェース３２２は、オーディオまたはビジュアル記録の一つまたは複数のパラメータを調整するためにサーバーからコマンドを受領するよう構成されることができる。たとえば、ネットワーク・インターフェース３２２は、指定された方向にビデオ・カメラをパンしてズームイン（またはズームアウト）するまたは特定のマイクロフォンについての録音レベルを調整するためのコマンドを受領することができる。

【0062】

記録装置３０２は、記録の属性を制御するさまざまなユーザー入力を受領するためのユーザー・インターフェース３２４を含むことができる。ユーザー・インターフェース３２４は、記録装置３０２のタッチ感応性表面に表示されるGUIを含むことができる。ユーザー・インターフェース３２４は、記録装置３０２とは別個に装置に、たとえばクライアント・アプリケーション・プログラムを実行しているスマートフォンまたはタブレット・コンピュータに表示されることができる。

【0063】

図４は、ネットワーク・ベースのオーディオおよびビデオ処理のためのオーディオおよびビデオ・システム４００の例示的アーキテクチャーを示す図である。ネットワーク・ベースのオーディオおよびビデオ処理では、通信ネットワーク４０２はイベントをエンドユーザー装置にリンクして、エンドユーザー装置のエンドユーザーが（図１の）イベント１００におけるアーチストのライブ実演を聞き、見ることができるようにする。通信ネットワーク４０２はPAN、LAN、セルラー・ネットワーク、WAN（たとえばインターネット）またはアドホック・ネットワークであることができる。オーディオおよびビデオ・システム４００は、一つまたは複数のサブシステムを含むことができる。各サブシステムについて下記で述べる。

【0064】

スタジオ側システム４０４は、たとえばスタジオ、コンサートホール、シアター、スタジアム、リビングルームまたはイベントが生起する他の会場における位置に位置され、配置された設備を含む、オーディオ・システム４００のサブシステムである。スタジオ側システム４０４は、図１を参照して論じたアーキテクチャーを含むことができ、それぞれがオーディオまたはビデオ処理アプリケーション・プログラムを実行している複数の汎用装置（たとえばスマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ）が記録し、記録された信号をサーバー４０８に送る。あるいはまた、スタジオ側システム４０４は、図２を参照して論じた例示的アーキテクチャーを含むことができ、専用の統合された記録器が記録し、記録された信号をサーバー４０８に送る。

【0065】

サーバー４０８は、一つまたは複数のコンピュータまたは一つまたは複数の離散的なまたは集積された電子回路（たとえば一つまたは複数のプロセッサ）を含むオーディオ・システム４００のサブシステムである。サーバー４０８は、イベント１００のライブのオーディオおよびビデオ・コンテンツを通信ネットワーク４０２を通じて受領し、オーディオおよびビデオ・コンテンツを処理し、オーディオおよびビデオ・コンテンツをエンドユーザー装置に、通信ネットワーク４０２を通じて提供するよう構成される。サーバー４０８は、オーディオ処理を実行するようプログラムされた一つまたは複数のプロセッサを含むことができる。いくつかの実装では、サーバー４０８は、スタジオ側システム４０４のさまざまな側面を制御することができる。たとえば、サーバー４０８は、クリッピングが検出されるときにマイクロフォンのボリューム・レベルを増大または減少させる、サンプル・ビットレートまたはビット深さを増大または減少させる、あるいは検出された帯域幅制限に基づいて圧縮型を選択することができる。

【0066】

いくつかの実装では、サーバー４０８は自動的にオーディオ信号をミキシングおよびマスタリングする。サーバー４０８は、ビデオ・ストリームから、プレイしている楽器に対応する特定の諸部分を自動的に選択することもできる。サーバー・コンピュータ４０８のコンポーネントおよび動作についてのさらなる詳細は図５を参照して後述する。

【0067】

いくつかの実装では、サーバー４０８は、編集者側システム４２０における設備がミキシング、マスタリングおよびシーン選択を実行することを許容する。編集者側システム４２０は、サードパーティーの編集者がライブ・コンテンツ・ストリーミングの間にオーディオまたはビデオ・コンテンツを編集することを許容するよう構成されたオーディオ・システム４００のサブシステムである。編集者側システム４２０は、一つまたは複数のミキサー装置４２２を含むことができる。ミキサー装置４２２は、エンドユーザー、ライブ・イベントを実演しているバンドまたはオーケストラのプレーヤーまたはプロのミキシング・エンジニアによって操作されることができる。編集者側システム４２０は、一つまたは複数のビデオ編集装置４２４を含むことができる。ビデオ編集装置４２４は、エンドユーザー、実演者またはプロのビデオ撮影家によって操作されることができる。

【0068】

エンドユーザーは、さまざまなエンドユーザー・システム４１０においてイベント１００のライブ・コンテンツを聞き、閲覧することができる。さまざまなエンドユーザー・システム４１０において、ライブまたは記憶されたコンテンツがユーザー・オーディオ装置４１２（たとえば複数のラウドスピーカーをもつステレオまたはマルチチャネル・オーディオ・システム）、ユーザー・ビデオ装置４１４（たとえば一つまたは複数のコンピュータ・モニター）または両者の組み合わせ（たとえばテレビジョン・セット、スマートフォン、デスクトップ、ラップトップまたはタブレット・コンピュータまたはウェアラブル装置）でプレイされることができる。

【0069】

いくつかの実装では、オーディオ・システム４００は、エンドユーザーが自分のエンドユーザー装置を使って、ライブ・コンテンツについてのフィードバックを提供し、ライブ・コンテンツのさまざまな側面を制御することを許容する。たとえば、オーディオ・システム４００は、投票に基づくライブ・コンテンツのリアルタイム・レーティングまたはある種の許諾されたエンドユーザーによるビデオ・パンを許容できる。

【0070】

図５は、オーディオおよびビデオ処理の例示的な信号経路を示すブロック図である。信号経路のコンポーネントは（図４の）サーバー４０８で実装されることができる。それらのコンポーネントは同期器５０２、源分離器５０４、ミキシングおよびマスタリング・ユニット５０６、配送フロントエンド５０８および推定器５２２を含むことができる。いくつかの実装では、コンポーネントの一部または全部は、サーバー・コンピュータ４０８上のソフトウェアで実装されることができる。他の実装では、コンポーネントの一部または全部は、さまざまな動作を実行するよう構成された一つまたは複数の電子回路を含むことができる。各電子回路は一つまたは複数の離散的なコンポーネント（たとえば抵抗器、トランジスタまたは真空管）または集積されたコンポーネント（たとえば集積回路、マイクロプロセッサまたはコンピュータ）を含むことができる。

【0071】

同期器５０２は、一つまたは複数の記録装置からイベント１００のデジタル・オーディオ・データを受領することができる。デジタル・オーディオ・データはたとえば、サンプリングされたオーディオ・データであることができる。各記録装置または記録装置に結合された各マイクロフォンは音楽演奏のオーディオ・チャネルまたはトラックに対応することができる。記録装置からの信号はチャネル信号と称される。よって、同期器５０２はNm個のチャネル信号を受け取ることができる。ここで、Nmは、イベント１００を記録するマイクロフォン、あるいはより一般的には、イベント１００において捕捉されるセットのすべてのサウンド信号の総数である。たとえば、Nm個のチャネル信号は、キーボードの直接出力からまたはコンピューティング装置もしくはポータブル音楽プレーヤーのライン・オーディオ出力からの一つまたは複数のチャネルを含むことができる。Nm個のチャネル信号は、環境マイクロフォンからの主要チャネル信号およびスポット・マイクロフォンからのスポット・チャネル信号（ビームとも称される）を含むことができる。Nm個のチャネル信号は、記録装置上でマイクロフォンによって記録され、記録装置によってローカルに、アナログ／デジタル変換器によってサンプリングされることができる。記録装置は、サンプリングされたオーディオ・データをパケットの形のオーディオ・フォーマットで、ネットワークを通じて同期器５０２に送ることができる。よって、Nm個のチャネル信号は、マイクロフォンから直接のアナログ信号ではなく、デジタイズされたオーディオ信号を指すことができる。

【0072】

Nm個のチャネル信号は、時間的な同期から外れることがある。たとえば、デジタル信号のパケットは、対応する捕捉されたサウンド信号が物理的に生成された時間順序を尊重してサーバーに到着しないことがある。同期器５０２は、たとえばパケットに関連付けられたタイムスタンプに基づいて、Nm個の同期されたチャネル信号を含む出力を生成することができる。同期器５０２はNm個の同期されたチャネル信号を源分離器５０４に供給することができる。同期器５０２の動作のさらなる詳細は図１７および図１８を参照して後述する。

【0073】

源分離器５０４は、Nm個の同期された信号から各音源を分離するよう構成された、サーバー４０８のコンポーネントである。各音源はたとえば楽器、ボーカリスト、楽器の群またはボーカリストの群に対応することができる。源分離器５０４は、それぞれが音源に対応するNs個の信号を出力する。音源の数（Ns）は、同期された信号の数Nmと同じまたは異なることがありうる。いくつかの実装では、源分離器５０４はバイパスされることができる。

【0074】

源分離器５０４からのNs個の信号の出力または（源分離器５０４がバイパスされる場合は）同期器５０２からのNm個の同期された信号の出力は、一つまたは複数のミキシングおよびマスタリング・ユニット５０６に入力されることができる。ミキシングおよびマスタリング・ユニット５０６は、少なくとも部分的には参照オーディオ・データに基づいて個々の音源のチャネルに対してミキシング動作を実行し、ミキシングされたオーディオ信号に対してマスタリング動作を実行して、最終的なNチャネル・オーディオ信号（たとえばステレオ・オーディオ、サラウンドサウンド）を生成するよう構成された、サーバー４０８のソフトウェアおよび／またはハードウェア・コンポーネントであることができる。ミキシングおよびマスタリング・ユニット５０６は、Nチャネル・オーディオ信号を配送フロントエンド５０８に出力することができる。さまざまな実装において、ミキシングおよびマスタリング・ユニット５０６は、ミキシング利得を適用し、各信号を等化し、各信号に対してダイナミックレンジ補正（DRC: dynamic range correction）を実行し、各信号に対してノイズ削減を実行する動作を実行できる。ミキシングおよびマスタリング・ユニット５０６は、これらの動作をさまざまな組み合わせで、各信号に対して個々にまたは複数の信号に対して同時に実行できる。

【0075】

参照オーディオ・データは、リハーサルにおいてマイクロフォンによって記録され、推定器５２２によって処理されたオーディオ・コンテンツを含むことができる。リハーサルでは、マイクロフォンおよび音源がライブ・イベント１００と同じ音響配置で置かれる。すると、マイクロフォンは、各音源が個々にプレイされるときにオーディオ信号を記録する。さらに、マイクロフォンは、音源がプレイしていないときにノイズ・サンプルを記録することができる。

【0076】

推定器５２２は、リハーサル・セッションからのオーディオ・データを収集し、処理するよう構成されたコンポーネントである。推定器５２２は、実演位置にある音源の各プレーヤーに個々にその楽器をプレイするまたは歌うよう指示することができる。たとえば、推定器５２２は、各実演者に、自分の楽器をX秒小さなボリュームで、Y秒大きなボリュームでプレイするよう（たとえば装置ユーザー・インターフェースを通じて促すことにより）指示することができる。リハーサルのマイクロフォンからのNm個の信号が記録されることができる。推定器５２２は、Nm個の信号を処理し、ラウドネス行列を決定し、音源特性および位置を導出し、楽器特性および位置をミキシング動作のためにミキシングおよびマスタリング・ユニット５０６に提供することができる。推定器５２２は、楽器特性および位置を決定するためのパラメータを構成する追加的な入力を受領することができる。推定器５２２のコンポーネントおよび動作のさらなる詳細は図８、図９、図１０および図１３を参照して後述する。

【0077】

配送フロントエンド５０８は、前記Nチャネル・オーディオを記憶装置に、あるいはライブ・ストリーミング（たとえばハイパーテキスト転送プロトコル（HTTP）ライブ・ストリーミング、リアルタイム・ストリーミング・プロトコル（RTSP）、リアルタイム転送プロトコル（RTP）、RTPコントロール・プロトコル（RTCP））を含むダウンロードのためにエンドユーザー装置に提供するためのインターフェース（たとえばストリーミングまたはウェブ・サーバー）を含むことができる。ライブ・ストリーミングは、イベント１００の間に実質的にリアルタイムで生起することができる。

【0078】

サーバー４０８は、ビデオ編集器５３０を含むことができる。ビデオ編集器５３０は、イベント１００のビデオ信号を受領し、少なくとも部分的にはオーディオ・コンテンツに基づいてビデオ信号を自動的に編集するよう構成されている、サーバーのコンポーネントである。ビデオを自動的に編集することは、たとえば、ビデオ編集器５３０が特定の楽器が優勢音源であると判別するときに特定の楽器またはプレーヤーにズームインすること（たとえばクローズアップ・ショット）を含むことができる。ビデオ編集器５３０の動作のさらなる詳細は、図１９のＡおよびＢならびに図２０を参照して後述する。

【0079】

図６は、オーディオ処理の例示的プロセス６００のフローチャートである。プロセス６００はたとえば図４のサーバー４０８によって実行されることができる。プロセス６００は、少なくとも部分的にはリハーサルにおいて記録された参照オーディオ・データに基づいてさまざまなミキシングおよびマスタリング動作を自動化することによって、通常のオーディオ処理技術に対して改善する。この明細書では、リハーサルという用語はセッションを指す。

【0080】

サーバー４０８は、一つまたは複数のチャネル信号源から参照オーディオ・データを受領することができる（６０２）。参照オーディオ・データは、リハーサルにおいて個々にプレイする一つまたは複数の音源の音響情報を含むことができる。参照オーディオ・データは、たとえば音源が鳴っていないときの、リハーサルにおけるノイズ・フロアの音響情報を含むことができる。各チャネル信号源は、マイクロフォンまたはライン出力を含むことができる。各音源はたとえば楽器、ボーカリストまたはシンセサイザーであることができる。サーバー４０８は参照オーディオ・データを通信ネットワーク（たとえば図４の通信ネットワーク４０２）を通じて受領することができる。第一のチャネル信号は、第一の位置で（たとえば前方舞台左でまたは特定の楽器のところで）リハーサルを記録する第一のチャネル信号源（たとえば装置１０２）によって捕捉されることができる。第二のチャネル信号は、第二の位置で（たとえば前方舞台右でまたは特定の楽器のところで）リハーサルを記録する第二のチャネル信号源（たとえば装置１０４）によって捕捉されることができる。

【0081】

サーバー４０８は、一つまたは複数のチャネル信号源から、実演イベント、たとえばイベント１００の一つまたは複数のチャネル信号を受領することができる（６０４）。各チャネル信号は、それぞれのチャネル信号源からのデジタルまたはアナログの信号であることができる。各チャネル信号は、実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含むことができる。実演イベントでは、音源およびチャネル信号源の位置は、同じ音響配置に（たとえば同じ位置に）置かれる。いくつかの実装では、サーバー４０８は、時間領域で第一のチャネル信号および第二のチャネル信号を自動的に同期させることができる。同期後、サーバー４０８は、第一のチャネル信号および第二のチャネル信号から、第一の音源および第二の音源を決定することができる。

【0082】

サーバー４０８は、イベント１００の間にまたはイベント１００の終結後に前記一つまたは複数のチャネル信号を自動的にミキシングすることができる（６０６）。自動化されたミキシング動作は、参照オーディオ・データに基づいて、イベント１００の一つまたは複数の音源からの音響効果の一つまたは複数の属性を調整することを含むことができる。たとえば、自動化されたミキシング動作は、個々に各音源に対してノイズ削減を実行すること、各音源のバランスをとることまたはレベリングすることおよび各音源をパンすることを含むことができる。

【0083】

ミキシング動作は、少なくとも部分的には参照オーディオ・データに基づいてイベント１００の一つまたは複数の音源からの信号の属性を自動的に調整することをも含むことができる。一つまたは複数の音源の属性を自動的に調整することは、一つまたは複数の音源の利得を、各音源のそれぞれのボリューム・レベルに従って増大または減少させることを含むことができる。一つまたは複数の音源の属性を自動的に調整することは、それぞれの音源からの各チャネル信号の利得を増大または減少させることまたはその両方を行なって、結果として一つまたは複数の音源のそれぞれに目標ボリューム・レベルに到達させるまたはほぼ到達させることを含むことができる。サーバー・コンピュータ４０８は、推定器５２２を使って少なくとも部分的には参照オーディオ・データから、それぞれのボリューム・レベルを決定することができる。他のミキシング動作は、圧縮を適用すること、等化、飽和または歪み、遅延、残響、変調、ステレオ、ボーカルまたは楽器ボリュームのフィルタリングおよびライディング（riding）を含むことができるがそれに限られない。

【0084】

参照オーディオ・データは、イベント１００に先立って、リハーサル・セッションにおいて第一の記録装置および第二の記録装置によって記録されたオーディオ信号を含むことができる。参照オーディオ・データは、リハーサル・セッションにおける各音源または音源の群について個々に記録されることができる。参照オーディオ・データは、各音源について、第一のサウンド・レベル信号（たとえば小さいまたは低いボリュームとして指定されるもの）および第二のサウンド・レベル信号（たとえば大きいまたは高いボリュームとして指定されるもの）を含むことができる。参照オーディオ・データは、音源がプレイしていないときに背景ノイズについて記録されることができる。いくつかの実装では、参照オーディオ・データは（たとえば各音源が中くらいのボリュームでプレイしているときの）単一のサウンド・レベル信号を含むことができる。

【0085】

サーバー４０８は、少なくとも部分的には参照オーディオ・データから、イベント１００における各音源についてのそれぞれの利得を決定することができる。それぞれの利得を決定することは、各音源または音源の群（たとえばギター群、ドラム群、背景ボーカル）について、目標ボリューム・レベルを指定する入力を受領することを含むことができる。サーバー・コンピュータ４０８は、推定器５０２を使って、参照オーディオ・データにおける信号のそれぞれのボリューム・レベルを決定することができる。サーバー４０８は、参照オーディオ・データにおける信号のボリューム・レベルと目標ボリューム・レベルとの間の差に基づいてそれぞれの利得を決定できる。

【0086】

いくつかの実装では、自動化されたミキシング（６０６）動作は、通信ネットワークを通じてサーバー・システムにログオンしているリモートの人間のミキシングまたはマスタリング技師からの入力に従って、一つまたは複数の音源からの信号の利得を調整することを含むことができる。よって、イベント１００のところにいないリモートのミキシングまたはマスタリング技師が、ライブ・ストリーミングの間にイベント１００の音源をミキシングまたはマスタリングすることができる。

【0087】

サーバー４０８は、サーバー・システムからダウンミックスを記憶装置に、あるいはエンドユーザー装置に、イベント１００のライブ・コンテンツとしてたとえばライブ・ストリーミングによって提供することができる（６０８）。エンドユーザー装置は、エンドユーザー装置に統合されたまたは結合された一つまたは複数のラウドスピーカーでコンテンツを再生することができる。いくつかの実装では、サーバー４０８は、イベント１００についてのビデオ編集を自動化することができる。ビデオ編集は、イベント１００が進行している間のライブ編集またはイベント１００の以前に記録されたビデオに対するオフライン編集であることができる。自動化されたビデオ編集動作のさらなる詳細は、図１９のＡおよびＢならびに図２０に記載される。いくつかの実装では、リモートの人間のビデオ編集者がイベント１００の間に、ビデオ編集を提供するために当該プラットフォームを使うことができる。

【0088】

いくつかの実装では、サーバー４０８は、第一のチャネル信号または第二のチャネル信号に基づいて、第一および第二の記録装置にコマンドを提供することができる。コマンドは、記録装置の記録パラメータを調整することができる。たとえば、コマンドは、利得、圧縮型、圧縮またはサンプル・レート（たとえば44.1Hz）またはビット深さ（たとえば16または24ビット）を調整するよう記録装置に指示することができる。

【0089】

図７は、例示的なミキシングおよびマスタリング・ユニット５０６のコンポーネントを示すブロック図である。ミキシングおよびマスタリング・ユニット５０６は、ミキシングおよびマスタリング動作を実行するよう構成されたさまざまな電子回路を含むことができる。ミキシングおよびマスタリング・ユニット５０６は、ミキシング・ステージにおける信号レベリングおよびパンを自動化することによって、また連続的で長いクレッシェンドが存在するときに新規性ベースの信号セグメント分割を自動化することによって、通常のミキシングおよびマスタリング技術に対して改善する。

【0090】

ミキシングおよびマスタリング・ユニット５０６は、ミキシング・ユニット７０２およびマスタリング・ユニット７０４を含むことができる。ミキシング・ユニット７０２は、参照オーディオ・データおよび一つまたは複数のリモートまたはローカルのミキシング卓からの入力を使って自動的に、源分離器５０４からのNs個の信号または同期器５０２からのNm個の同期された信号に対してミキシング動作を実行するよう構成された、ミキシングおよびマスタリング・ユニット７０４のコンポーネントである。

【0091】

ミキシング・ユニット７０２は、他のコンポーネントの中でも、レベリング・ユニット７０６、パンナー７０８、音源等化器７１０およびノイズ削減ユニット７１１を含むことができる。レベリング・ユニット７０６は、各音源または各マイクロフォンについてそれぞれの利得を調整するよう構成された、ミキシング・ユニット７０２のコンポーネントである。調整は、少なくとも部分的には参照オーディオ・データに基づく、ミキシング卓からの入力によるまたは両方の組み合わせであることができる。レベリング・ユニット７０６の動作のさらなる詳細は図８を参照して後述する。

【0092】

パンナー７０８は、各音源を、仮想サウンドステージ（たとえば左、右、中央）における位置に空間的に配置するよう構成された、ミキシング・ユニット７０２のコンポーネントである。パンナー７０８の動作のさらなる詳細は図９および図１０を参照して後述される。

【0093】

音源等化器７１０は、混合されたオーディオ信号全体としてではなく、個々の音源に対して等化（EQ）動作を実行するよう構成された、ミキシング・ユニット７０２のコンポーネントである。音源等化器７１０の動作のさらなる詳細は、図１３、図１４ＡおよびＢを参照して後述する。

【0094】

ノイズ削減ユニット７１１は、すべての信号のスペクトルを横断してではなく、個々の信号に対してノイズ削減（NR）動作を実行するよう構成された、ミキシング・ユニット７０２のコンポーネントである。ノイズ削減ユニット７１１の動作のさらなる詳細は、図２４を参照して後述する。

【0095】

マスタリング・ユニット７０４は、他のコンポーネントの中でも、等化器７１２およびセグメント分割ユニット７１４を含むことができる。等化器７１２は、全体としてのミキシングされた諸オーディオ信号について、種々の周波数を横断してサウンド・レベルをなめらかにするよう構成された、マスタリング・ユニット７０４のモジュールである。セグメント分割ユニット７１４は、オーディオ信号の内在的な特性に基づいてビデオ信号を複数のセグメントに分割するよう構成された、マスタリング・ユニット７０４のモジュールである。いくつかの実装では、セグメント分割ユニット７１４は、図５のビデオ編集器５３０のコンポーネントであるか、該ビデオ編集器に結合される。セグメント分割ユニット７１４の動作のさらなる詳細は、図１５および図１６を参照して後述する。

【0096】

図８は、音源を自動的にレベリングする例示的プロセス８００を示すフローチャートである。プロセス８００は（図７の）レベリング・ユニット７０６によって実行されることができる。自動的なレベリング（leveling）において、レベリング・ユニット７０６は、音源のそれぞれのボリューム・レベルを自動的に目標レベルに調整することができる。プロセス８００は、人間による手動の調整に基づくのではなく、少なくとも部分的には参照オーディオ・データに基づいて自動的に利得調整を実行することによって、通常のミキシング技術に対して改善する。これは、リアルタイムで膨大な量の音楽コンテンツを高速で処理することを許容する。

【0097】

レベリング・ユニット７０６は、参照オーディオ・データ（リハーサル・データとも称される）を受領することができる（８０２）。参照オーディオ・データは、チャネル信号源、たとえば複数の音源の主要マイクロフォンおよびスポット・マイクロフォンからのチャネル信号の表現を含むことができる。該表現は、チャネル信号源からの直接のチャネル信号または部分的に処理された、たとえば等化されたまたはダイナミックレンジ補正を通った信号であることができる。

【0098】

レベリング・ユニット７０６は、チャネル信号源、たとえばマイクロフォンの各対の間のそれぞれの相関を決定することができる（８０４）。相関を決定することの詳細は、式(3)を参照して後述する。

【0099】

レベリング・ユニット７０６は、それぞれの主要なマイクロフォンのそれぞれのエネルギー・レベルを、単位利得または他の何らかの参照レベル（たとえば－18dB）に関連付けられたベースラインとして指定することができる（８０６）。

【0100】

いくつかの実装では、レベリング・ユニット７０６は、ベースラインへの各スポット・マイクロフォンのそれぞれの寄与を決定することができる（８０８）。

【0101】

レベリング・ユニット７０６は、各音源の目標レベルを指定する目標レベル・データを受領することができる（８１０）。目標レベル・データは、ユーザー・インターフェースから受領されることができる。

【0102】

レベリング・ユニット７０６は、オーディオ信号を、それぞれの寄与に基づいてそれぞれの利得に従って目標レベルに再スケーリングするためのコスト関数を決定することができる（８１２）。コスト関数は、変数（この場合は利得）の関数であって、該変数は該関数が最小値をもつよう解くべきものである、関数であることができる。コスト関数の変数を解くことは、コスト関数を最小化すると称される。コスト関数の変数を解くことの詳細および例は、「最良推測によるコスト関数の最小化」という見出しをもつ節で後述する。

【0103】

レベリング・ユニット７０６は、コスト関数を最小化することによって、各チャネル信号についてそれぞれの利得を計算することができる（８１４）。レベリング・ユニット７０６は、各音源について前記目標レベルを達成するために、ライブ・オーディオ・データにおけるチャネル信号にそれぞれの利得を適用することができる。レベリング・ユニット７０６は、結果として得られる信号を、エンドユーザー装置のさらなる処理およびラウドスピーカーまたはヘッドフォンでの再生のために他のコンポーネントに提供することができる。プロセス８００のさらなる詳細および例を下記で述べる。

【0104】

インデックスの集合i＝1,……,N_iは、音源数をを表わすことができる。ここで、N_iは（図１の）イベント１００における音源の総数である。インデックスの集合b＝1,……,N_bはビーム数を表わすことができる。ここで、各ビームは、先述したように、それぞれのスポット・マイクロフォンからのチャネル信号である。N_bはスポット・マイクロフォンの総数である。インデックスの集合M＝L,R,1,……,N_bは、主要な左マイクロフォン（L）および主要な右マイクロフォン（R）にビーム・インデックスを加えた組み合わせを表わすことができる。主要マイクロフォンがモノ・マイクロフォンである場合には、インデックスの該集合はM＝Mono,1,……,N_bであることができ、項Monoがモノ・マイクロフォンを表わす。その後の処理は同様である。複数の音源が同じビームに割り当てられてもよい。よって、いくつかのシナリオでは、N_b＜N_iである。これはたとえば、歌も歌うギター奏者の近くにスポット・マイクロフォンを置く場合に成り立つケースである。この例では、ボーカルおよびギターは同じスポット・マイクロフォンに割り当てられる。よって、レベリング・ユニット７０６は、最終的なミックスに存在することになる信号の総数をN_Mとして指定することができる。

【0105】

レベリング・ユニット７０６によって実行されるアルゴリズムへの入力の一つは、（たとえばdBでの）各ビームMにおける各楽器iのラウドネス・レベルを定量化するラウドネス行列L_iMである。推定器５２２がラウドネス行列L_iMを計算することができる。レベリング・ユニット７０６はラウドネス行列L_iMについて線形スケールを使うことができる。よって、レベリング・ユニット７０６は、各マイクロフォンにおける各楽器のエネルギーを、エネルギー行列E_iMにおいて次のように表わすことができる：

【数1】

レベリング・ユニット７０６がビームbに利得g_Mを適用する場合、ビームのエネルギーはg_M ²E_ibに変化することができる。さらに、エネルギー行列は、各音源のどのくらいのエネルギーが二つの主要なステレオ・チャネルに存在するかを指定することができる。これらはE_iL、E_iRによって指定される。

【0106】

レベリング・ユニット７０６は、利得g_Mを決定するよう構成される。これは、主要チャネルおよびスポット・チャネルを含む各チャネルについてのそれぞれの利得を表わすベクトルである。ここで、二つの主要チャネルについての利得が最初に表わされる。レベリング・ユニット７０６は、すべてのエネルギーが主要ステレオ・チャネルにおけるエネルギーを基準とするよう、絶対スケールを固定することができる。レベリング・ユニット７０６は、主要ステレオ・チャネルにおけるエネルギーにはいかなる利得も適用しないことを決定することができる。この手法では、主要ステレオ・チャネルは、単位利得をもつベースラインとして指定されることができる。レベリング・ユニット７０６は、このベースラインより上の各スポット・マイクロフォンの寄与を計算することができる。よって、レベリング・ユニット７０６は、g_Mの最初の二つのエントリーを：

【数2】

のように1に設定できる。

【0107】

種々の信号を混合した後のエネルギーを推定するために、レベリング・ユニット７０６はまず、各音源iについて、ビームMとビームM'の間で、参照オーディオ・データから、正規化された相関行列(C_i)_M,M'を得ることができる。各C_iは、音源iだけのリハーサルから得られる。レベリング・ユニット７０６は、楽器iがリハーサルされるときにM個のマイクロフォン（主要ステレオにビームを加えたもの）によって捕捉された信号を表わすためにs_iMを使うことができる。レベリング・ユニット７０６は、正規化された共分散行列を次のように計算することができる：

【数3】

ここで、「< >」はある時間期間にわたる時間平均を表わす。時間期間はリハーサル時間全体であることができる。あるいはまた、レベリング・ユニット７０６は、リハーサルのゲーティングされた部分での平均を取ることができる。それにより、レベリング・ユニット７０６は、ほとんと無音の部分がもしあればそれを除去できる。よって、レベリング・ユニット７０６は、良好な信号対雑音比（SNR）をもつ部分を保持することができる。正規化された共分散は次のことを満たす：
・(C_i)_M,M＝1、つまりマイクロフォンは常に自分自身と完全に相関している。
・二つのマイクロフォンにおける信号が完全に無相関であれば(C_i)_M,M'＝0。
・二つのマイクロフォンにおける信号が正の位相をもって完全に相関している、すなわちs_iM＝αs_iM'であり、αは値であり、α＞0であれば(C_i)_M,M'＝1。
・二つのマイクロフォンにおける信号が逆位相をもって完全に相関している、すなわちs_iM＝αs_iM'であり、αは値であり、α＜0であれば(C_i)_M,M'＝－1。

【0108】

この共分散行列を使って、レベリング・ユニット７０６は、音源iの全エネルギーE_iを次のように表現できる：

【数4】

等価な、より短い形（繰り返される項について和を取るが）は次のようになる：

【数5】

【0109】

レベリング・ユニット７０６へのもう一つの入力は、最終的なミックスにおける各音源iの目標ラウドネス・レベル（または線形スケールでは目標エネルギーT_i）であることができる。原理的には、相対的な目標レベルのみが問題になる。レベリング・ユニット７０６は、主要ステレオ・チャネルの利得を1に固定することによってすでにグローバルなボリュームを固定しているので、これは絶対的な目標ボリュームに物理的な意味を与える。レベリング・ユニット７０６は、それを適切なレベルに設定するための一つまたは複数の基準を決定することができる。

【0110】

これを行なうために、レベリング・ユニット７０６は、所望される相対目標ラウドネス・レベルT_iに到達するあらゆる可能な仕方のうちで、レベリング・ユニット７０６がどのように絶対スケールを指定できるかを決定するための特定のデータ項目を得ることができる。それにより、レベリング・ユニット７０６は、全エネルギーのうち、主要ステレオ・マイクロフォンから由来する結果になるフラクションを、スポット・マイクロフォンから由来する結果になるフラクションに対して制御することができる。いくつかの実装では、レベリング・ユニット７０６は、このフラクション数をユーザー入力パラメータとして設定することができる。

【0111】

いくつかの実装では、レベリング・ユニット７０６は、このフラクションを、直接音対残響比と呼ばれる直接エネルギーと残響エネルギーとの間の所与の比をねらうことによって、このフラクションを推定できる。たとえば、強い残響をもつオーディオ環境（たとえば教会）では、レベリング・ユニット７０６は高いレベルの相対的なスポット・マイクロフォン・エネルギーを適用することができる。それに対し、低い残響をもつオーディオ環境（たとえば音響用に処理された部屋）では、主要ステレオ・マイクロフォンが最適な位置にある場合、レベリング・ユニット７０６は、大半のエネルギーが主要ステレオ・マイクロフォンに由来することを許容できる。よって、レベリング・ユニット７０６は、スポット対主要エネルギー比R_spotsを指定する入力を、ユーザーから、あるいは自動的に計算することによって、得ることができる。次いで、レベリング・ユニット７０６は、下記の式(6)を使ってコスト関数における項を決定することができる：

【数6】

ここで、E_mainは主要マイクロフォンからのエネルギーであり、E_spotはスポット・マイクロフォンからのエネルギーであり、E_totalは全エネルギーである。

【0112】

レベリング・ユニット７０６は、処理を簡単にするためにこの式を近似することができる。最終的な音源エネルギーが正しく到達される、つまり下記の近似において

【数7】

とする。

【数8】

【0113】

この近似において、これらのエネルギーはg_Mには依存せず、よってレベリング・ユニット７０６は、最小化前にはスポット対全部の制約条件をほとんど適用できない。レベリング・ユニット７０６は目標エネルギーを

【数9】

と再スケーリングし、スケーリング因子rについて解くことができる：

【数10】

ここで、＾T_i〔＾付きのT_i〕は、スケーリング因子rによってスケーリングされたT_iである。

【0114】

次いで、レベリング・ユニット７０６は、適正にスケーリングされた＾T_iを用いたコスト関数を決定することができる。たとえレベリング・ユニット７０６がR_spots＝0と設定するとしても、その場合は

【数11】

だが、いくつかの音源iについて目標レベルT_iに到達するために、いくつかのスポット・マイクロフォンが必要とされることがある。これは、R_spots＝0と設定するという直観に反しているが、最小化後にレベリング・ユニット７０６が

【数12】

に近づくことができるという近似に起因する。

【0115】

レベリング・ユニット７０６は、コスト関数が（略記：dB_p[・]＝20log₁₀[・]およびdB_I[・]＝10log₁₀[・]を使って）

【数13】

であることを決定できる。ここで、FはN_b個の未知数g_Mの関数であり、すべての依存性はE_iを介した暗黙的な依存性から生じている。式(9)および下記の他の式において、dBについての項は平方、たとえば(dB)²で表わされている。さまざまな実装において、これらの項は絶対値、たとえば|dB|で置換されることができる。

【0116】

N_i ^-1の正規化因子は、第一項の絶対値が、異なる数の音源がある場合を横断して比較されることができることを保証する。レベリング・ユニット７０６は、各音源が目標に達し損なう平均平方誤差（たとえばdB単位での）を表わすためにコスト関数Fを使うことができる。いくつかの実装では、レベリング・ユニット７０６は、コスト関数を得て、上記のような近似を避けることができる。レベリング・ユニット７０６は、追加のコスト項を入れることができる：

【数14】

ここで、E_spots、E_mainは式(6)においてg_bを用いて定義されている。これにより、レベリング・ユニット７０６は、αを増すことによって、どのくらいの重要性をR_spotsに与えるかを制御することができる。この実装では、レベリング・ユニット７０６はrについても最小を見出す必要があることを注意しておく。それは、諸目標のグローバル・スケールであることができる。

【0117】

さまざまな実装において、レベリング・ユニット７０６は、どの音源が指定されたラウドネス目標に到達することがより重要であるかについての情報をレベリング・ユニット７０６が得る場合に、よりよい結果を提供しうるアルゴリズムを使うことができる。たとえば、入力情報は、リードボーカルが他の楽器より3dB上であるべきであると指定することができる。この情報は、ミックスの品質を決定的に決定することができる。他の楽器は、正しい目標に数dBの差で達しなくても、リードボーカルが目標を下回っている場合ほどミックスが貧弱だと判断されることはない。レベリング・ユニット７０６は、この側面を捉えるために、各音源について、重要度重みの集合w_i ^impを決定することができる。レベリング・ユニット７０６は、重要度重みを組み込むコスト関数を次のように定義することができる：

【数15】

【0118】

レベリング・ユニット７０６は、g_Mについて解くために、上記のようにコスト関数Fを最小化することができる。いくつかの実装では、レベリング・ユニット７０６は、楽器がリード楽器であるかどうかに従って重要度重みw_i ^impを設定することができる。たとえば、レベリング・ユニット７０６は重要度重みw_i ^impを、リード以外の楽器については1に、リード楽器については2から5までの間の値に設定することができる。

【0119】

〈専用のスポット・マイクロフォンの追加〉
いくつかの状況では、前記アルゴリズムは、ある種のチャネル信号源、たとえば専用のスポット・マイクロフォンからのエネルギーをほとんど使わない傾向がある。対応する音源のレベルが他のマイクロフォンを使っても正しく達成されることができるからである。これは、スポット・マイクロフォンが無指向性である場合（たとえばスマートフォンの内蔵マイクロフォン）のように、漏れのある場合に生じることがある。一般に、専用のスポット・マイクロフォンが使われるとき、レベリング・ユニット７０６は、対応する楽器のエネルギーの大半を、そのようなマイクロフォンから得るよう構成されることができる。

【0120】

リハーサル段から、レベリング・ユニット７０６は、所与のスポット・マイクロフォンが所与の音源についてもつ専用度を定義することができる。レベリング・ユニット７０６は、スポット・マイクロフォンが他の音源からの漏れをほとんどもたない場合には、専用度を1に設定することができる。レベリング・ユニット７０６は、他の音源からの漏れが深刻である（たとえば閾値を超える）場合には、専用度を0に設定することができる。よって、ビームがb(i)である音源iについて、そのような専用度D(i)は

【数16】

となる。ここで、SNR(i)は音源iについての信号対雑音比であり、dBMaxRatioは、それより上ではレベリング・ユニット７０６が専用度を1に設定する第一の閾値であり、dBMinRatioは、それより下ではレベリング・ユニット７０６が専用度を0に設定する第二の閾値である。閾値はあらかじめ定義されていてもよく、あるいはユーザー入力からであることもできる。

【0121】

レベリング・ユニット７０６は、D(i)∈[0,1]にクランプ（clamp）できる。いくつかの実装では、レベリング・ユニット７０６は、これらのパラメータについての数を次のように設定できる：dBMaxRatio＝3dB、dBMinRatio＝－6dB。これらの設定は、関連する楽器が、そのマイクにおける他のすべての楽器の和より少なくとも3dB上であれば専用度が1であり、－6dB以下であれば専用度が0であることを含意する。

【0122】

レベリング・ユニット７０６はコスト関数において新たな項N_dedに重み付けするためにD(i)を使うことができる：

【数17】

ここで、N_dedは、何個の専用マイクロフォンがあるかの指標であり（実数）、E_i,spotsは、ミックスにおける、楽器iからの、スポット・マイクロフォンに由来する全エネルギーである：

【数18】

【0123】

レベリング・ユニット７０６は、この新しい項を含むコスト関数を最小化することによってg_Mを計算することができる。

【0124】

〈最良推測によるコスト関数の最小化〉
いくつかの実装では、これらのコスト関数は非線形であることができる。非線形コスト関数を最小化するには、レベリング・ユニット７０６は、推測アプローチを取ることができる。レベリング・ユニット７０６は、たとえば±5dBの範囲内で、すべてのg_Mを1dBのきざみ〔ステップ〕で離散化し、Fを最小化する組み合わせを見出すことができる。レベリング・ユニット７０６は、最良推測から出発して、最良推測から出発して前記範囲を通じて該最良推測から諸ステップ離れることを、レベリング・ユニット７０６がコスト関数の最小値を見出すまで行なうことによって、前記組み合わせを見出すことができる。

【0125】

それを行なうために、レベリング・ユニット７０６は、最初の推測を実行することができる。これはたとえば、漏れを無視して、Eを対角にすることによって得ることができる（推定器５２２またはレベリング・ユニット７０６が行および列をソートしており、音源の対応するビームが対角線にあるとする）。その場合、各iには一つのビームだけが寄与する。そのビームはb(i)とラベル付けされる。よって、

【数19】

ここで、E_i,mainは主要マイクロフォンにおける楽器iのエネルギーである。レベリング・ユニット７０６が目標に達する、すなわち

【数20】

とすると、レベリング・ユニット７０６はgについて解くことができる：

【数21】

【0126】

レベリング・ユニット７０６が同じビームを二つ以上の楽器について繰り返す場合、レベリング・ユニット７０６は次のようにしてgについて解く：

【数22】

ここで、< >は平均であり、平均は同じビームbに割り当てられたさまざまな楽器に対するものである。レベリング・ユニット７０６は、その解を最良推測として指定し、その解を、最良の解を見出すためにXdBステップごとに増大および減少させることができる。

【0127】

この分子の符号についての注意。十分に保証される唯一の事実は、すべてのビームからの全目標エネルギーが主要マイクロフォンからのエネルギー以上である、ということである：

【数23】

【0128】

しかしながら、和におけるいくつかの個々の項は、一部のiについては負になることがある。つまり、いくつかの音源iについては、目標に達するために主要ステレオ・チャネルにすでに十分なラウドネスがある。そのような場合、レベリング・ユニット７０６は対応するビームの利得を0に設定することができる。いくつかの実装では、レベリング・ユニット７０６は、ある範囲の可能性、たとえば－15dBを探すことができる。

【0129】

レベリング・ユニット７０６は、諸目標T_iについて同じラウドネス・モデルを使うことができる。ラウドネスをdBで表わす代わりに、レベリング・ユニット７０６はソーンで表わし、レベリング・ユニット７０６がdBに使っていたラウドネス・モデルを使ってdBに変換し戻すことができる。

【0130】

〈自動的パンナー〉
図９は、自動的パンの例示的プロセス９００を示すフローチャートである。プロセス９００は、図７のパンナー７０８によって実行されることができる。プロセス９００を実行することにより、パンナー７０８は、サウンドステージ上のそれぞれの正しい位置に楽器を自動的に配置することによって、通常のパン技術に対して改善する。

【0131】

パンナー７０８は、イベント１００のチャネル信号を受領することができる（９０２）。チャネル信号は、レベリング・ユニット７０６の出力であることができる。各チャネル信号はマイクロフォンに対応することができる。パンナー７０８は、イベント１００における音源の参照オーディオ・データを受領することができる（９０４）。参照オーディオ・データは、リハーサル・セッションにおいて記録された信号から生成されることができる。パンナー７０８は、左チャネルにおける全エネルギーおよび右チャネルにおける全エネルギーを、参照オーディオ・データに基づく各音源による寄与として、計算することができる（９０６）。パンナー７０８は、それらの全エネルギーに基づいて、左右不均衡を計算することができる（９０８）。パンナー７０８は、該不均衡を最小化するためのコスト関数を決定する。パンナー７０８は、主要マイクロフォンによって捕捉される音源の自然なパンを計算することができる（９１０）。パンナー７０８は、自然なパンを最大にするコスト関数を決定することができる。パンナー７０８は、パンできない音源を判別することができる（９１２）。これはたとえば、その音源をパンできないとして指定する入力に基づく。パンナー７０８は、パンできない音源を尊重するコスト関数を決定することができる。

【0132】

パンナー７０８は、各チャネル信号についてのパン角を変数としてもつコスト関数を決定することができる（９１４）。コスト関数は、前記不均衡に対応する第一の成分と、パンできる音源に対応する第二の成分と、パンできない音源に対応する第三の成分とをもつことができる。

【0133】

パンナー７０８は、コスト関数を最小化することによって、各チャネル信号のパン位置を決定することができる（９１６）。パン位置は、パン角、左と右の出力チャネルの間の比または左と右の出力チャネルに対する百分率としてパラメータ化されることができる。パンナー７０８は、該パン位置をチャネル信号に適用して、音源をスピーカーへの出力のためにステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成することができる。

【0134】

いくつかの実装では、パンナー７０８は、ビデオ・データに基づいてオーディオ・パンを実行することができる。パンナー７０８は、特定の音源、たとえばボーカリストまたは楽器の位置を、ビデオ・データでの顔追跡または楽器追跡を使って決定することができる。すると、パンナー７０８は、その位置に基づいてその音源のパン位置を決定することができる。

【0135】

ひとたびレベリング・ユニット７０６が各ビームのために必要とされる利得（g_b）を計算したら、パンナー７０８は、各ビームをエネルギーを保存する仕方で左と右にどのように分割するかL/Rを決定することができる。パンナー７０８は、各ビームbについてパン角θ_bを計算することができる：

【数24】

ここで、l_bはビームbの左チャネル成分であり、r_bはビームbの右チャネル成分であり、ハードな左はθ＝0、ハードな右はθ＝π/2、中央はθ＝π/4である。

【0136】

パンナー７０８が主要ステレオ・チャネルを不変なままにすると仮定して、パンナー７０８は、インデックスをMに拡張してもよい。ここで、l_L＝r_L＝1である。前記角の関数としての結果として得られるミックスは：

【数25】

である。ここで、s_MはマイクロフォンMによって拾われる信号であり、Lはミックスの左成分であり、Rはミックスの右成分である。

【0137】

参照オーディオ・データに基づいて、パンナー７０８は、各楽器に起因するL/Rチャネルにおける全エネルギーを計算できる：

【数26】

ここで、E_i ^Ltot(θ_b)はパン角θ_bについての左チャネルにおける音源iの全エネルギーであり、E_i ^Rtot(θ_b)はパン角θ_bについての右チャネルにおける音源iの全エネルギーである。これらの式は今やθ_bのみに依存する。利得g_bはレベリング・ユニット７０６によってすでに調整されているからである。

【0138】

パンナー７０８が課すことのできる一つのことは、全体的なミックスがLとRの間でバランスがとれているということである。よって、パンナー７０８は、L-R不均衡コスト関数H_LR-balance：

【数27】

を最小化することができる。

【0139】

他方、パンナー７０８は、イベント１００の観点からイベント１００において配置されている音源の自然なパンを尊重するよう構成されることができる。自然なパンは、完全に主要ステレオ・エネルギー：E_iL、E_iRによって捕捉される。よって、パンナー７０８は、次をも課すことができる：

【数28】

【0140】

いくつかの実装では、パンナー７０８は、左右のチャネルを解析することによって得られる自然なパンに基づいて位置を決定するのではなく、所望される位置を外部入力として受け取ることができる。たとえば、パンナー７０８は、画像またはビデオから自然な位置を決定できる。追加的または代替的に、パンナー７０８は自然な位置をユーザーによる入力から決定できる。

【0141】

加えて、いくつかの音源は決してパンされるべきではない（たとえばリードボーカル、ベースなど）。パンナー７０８は、このことをできるだけ尊重するよう構成されることができる。これらの音源は、パンできない音源として指定されることができる。パンナー７０８は、パンできる（pannable）／パンできない（unpannable）音源集合をそれぞれI_P／I_Uによって表わすことができる。すると、パンナー７０８は上記を次のように一般化できる。

【数29】

パンナー７０８は次いで、パンできない源についてのコスト関数H_unpannableおよびパンできる音源についてのコスト関数H_pannableを決定することができる。

【数30】

【0142】

パンナー７０８は、楽器をサウンドステージの中央に置くこととは反対の、楽器をより幅広くパンする傾向を示す、パン量を制御することができる。いくつかの実装では、パンナー７０８は別の項を導入することができる。いくつかの実装では、パンナー７０８は、主要マイクロフォンからの推定を誇張することができる。パンナー７０８は、発散（divergence）を示すパラメータd∈[0,1]をプリセットまたはユーザー入力として受領することができる。パンナー７０８は、知覚される主要チャネル・エネルギーに対して次の変換を実行することができる。該変換は、楽器角度に対する変換を導入する。

【数31】

ここで、θ₀はもとのパン角であり、θ_finalは最終的なパン角である。d＝0については、何も変わらず、θ_final＝θ₀である。極端な場合d＝1については、歪みは下記で図１０に示される。

【0143】

dを用いると、パンナー７０８は次のパン可能コスト関数を使う：

【数32】

【0144】

パンナー７０８は最終的なコスト関数：

【数33】

を使うことができる。ここで、重みα_uおよびα_pはパンできない音源およびパンできる音源についてのコスト関数のそれぞれに与えたい重要度を制御する。パンナー７０８は、たとえば－50から50まで10度毎のθ_iの可能な値を離散化し、コスト関数の最小値が見出されるまで離散化された値を逐次反復することによって、コスト関数H[θ_b]を最小化することができる。

【0145】

図１０は、最大歪みについての例示的な角変換を示している。この最大歪みについての角変換は、パンナー７０８（d＝1）によって実行されることができる。横軸は一つまたは複数の音源のもとの角θ₀を表わす。縦軸は一つまたは複数の音源の最終的な角θ_finalを表わす。角＝45が中央パンである。

【0146】

〈合同最小化〉
レベリング・ユニット７０６は、扱うことができるよりも少ないスポット・マイクロフォンを使うのでもよい。たとえば、入力利得のさまざまな構成が競合し、それらの入力利得のすべてが同じラウドネスにつながることがある。これは、パンナー７０８には負の影響をもつことがある。1～2個のスポット・マイクロフォンだけが使われればパンナー７０８にとっての可能性の範囲は大幅に縮小できるからである。

【0147】

いくつかの実装では、自動レベル段（auto-level stage）におけるこの不定性を減らし、より多くのスポット・マイクロフォンが使われる構成を優遇するために、レベリング・ユニット７０６の自動レベル段の動作は、パンナー７０８のパン段動作にリンクすることができる。

【0148】

そのような実装では、レベリングおよびパン・ユニットが、レベリング・ユニット７０６およびパンナー７０８の回路および機能を組み合わせることができる。レベリングおよびパン・ユニットは参照オーディオ・データを受領することができる。参照オーディオ・データは、一つまたは複数の音源のリハーサルにおいて記録された複数のチャネル信号源からのチャネル信号の表現を含むことができる。レベリングおよびパン・ユニットは、目標レベル・データを受領することができる。目標レベル・データは各音源の目標レベルを指定する。レベリングおよびパン・ユニットは、ライブ・オーディオ・データを受領することができる。ライブ・オーディオ・データは、ライブ・イベント１００においてプレイしている前記一つまたは複数の音源からの記録されたまたはリアルタイムの信号を含むことができる。レベリング・ユニットは、参照オーディオ・データに基づいて、ライブ・オーディオ・データをレベリングし、ライブ・オーディオ・データをパンするための合同コスト関数を決定することができる。合同コスト関数は、ライブ・オーディオ・データをレベリングするための第一の成分と、ライブ・オーディオ・データをパンするための第二の成分とをもつことができる。第一の成分は目標レベル・データに基づくことができる。第二の成分は、左チャネルと右チャネルの間の不均衡の第一の表現と、音源の間でのパンできる源の第二の表現と、音源の間でのパンできない源の第三の表現とに基づくことができる。レベリングおよびパン・ユニットは、合同コスト関数を最小化することによって、各チャネル信号に適用すべきそれぞれの利得と、各チャネル信号のそれぞれのパン位置とを計算することができる。レベリングおよびパン・ユニットは、イベントのライブ・オーディオ・データの信号に該利得およびパン位置を適用して、記憶装置へのまたはステレオ音再生システムへの出力のために、ライブ・オーディオ・データにおける音源をレベリングし、ライブ・オーディオ・データにおける音源をステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成することができる。

【0149】

合同コスト関数は下記の式(29)に示されている。ここで、上記で現われた項のいくつかは名前が変更されている。

【数34】

ここで、H_automixerは組み合わされたレベリング・ユニット７０６およびパンナー７０８のコスト関数であり、H_levelはレベリング・ユニット７０６のコスト関数であり、H_pannerはパンナー７０８のコスト関数であり、H_targetsは重要な音源についての目標が尊重されるときのコスト関数であり、H_dedicatedは専用のビームが考慮されるときのコスト関数である。さらに、α_dは専用のマイクロフォンの重みであり、α_uはパンできない音源の重みであり、α_pはパンできる音源の重みである。パンナー７０８はこれらの重みをプリセット・パラメータまたはユーザー入力として受領することができる。

【0150】

合同コスト関数におけるコスト関数は下記で定義される。

【数35】

【0151】

ここで、レベリング・ユニット７０６の自動レベル処理はパン角に依存しない。それは、モノ・ダウンミックスの全体的なラウドネスを測る。パンナー７０８の自動パン処理は、パン角のほかにビームの利得g_bに依存する。

【0152】

〈マイクロフォン信号からの楽器RMSの推定〉
図１１は、マイクロフォン信号からエネルギー・レベルを推定する例示的プロセス１１００を示すフローチャートである。図５および図７の推定器５２２が楽器RMSを測定するためにプロセス１１００を実行することができる。楽器RMSは、さまざまな音源のエネルギー・レベルの二乗平均平方根（root mean square）表現であることができる。

【0153】

推定器５２２は、参照オーディオ・データを受領することができる（１１０２）。参照オーディオ・データはリハーサルにおいて記録されたi＝1,……,N_iの音源でのm＝1,……,Mのマイクロフォンからのチャネル信号を含むことができる。

【0154】

推定器５２２は、参照オーディオ・データに基づいて、各マイクロフォンにおける各楽器のそれぞれのレベル（たとえばラウドネス・レベル、エネルギー・レベルまたは両方）を計算することができる（１１０４）。

【0155】

推定器５２２は、各音源のそれぞれの利得に基づくコスト関数を決定することができる（１１０８）。コスト関数において、推定器５２２は、スポット・マイクロフォンよりも主要マイクロフォンからの信号に対して、より小さな重みを与えることができる。コスト関数において、推定器５２２は、参照オーディオ・データにおいて表現されているものより有意に高い、ライブ・データにおける楽器ラウドネスを推定することにペナルティーを与えることができる。コスト関数において、推定器５２２は、実演とリハーサルとの間の測定されたレベルの間の差のマイクロフォン横断平均によって、コスト関数をスケーリングすることができる。

【0156】

推定器５２２は、コスト関数を最小化することによって各音源についてのそれぞれの利得を決定できる（１１１０）。推定器５２２は、エネルギー行列またはラウドネス行列におけるそれぞれの利得を、ビデオ信号を処理するために、たとえばどの楽器が他の楽器の閾値より大きいレベルでプレイしているかを識別してその楽器またはその楽器の奏者に焦点を当てるために、プロセッサ（たとえばビデオ編集器５３０）に提供することができる。プロセス１１００のさらなる詳細および例を下記で述べる。

【0157】

イベント１００のオーディオ・シーンはm＝1,……,Mのマイクロフォンおよびi＝1,……,N_iの音源を含むことができる。リハーサル段では、各楽器は別個にプレイされる。推定器５２２は、各マイクロフォンにおける各楽器のラウドネスE_i,mを計算し、その数値をエネルギーに変換するよう構成された、（図４の）サーバー４０８のコンポーネントである。いくつかの実装では、ラウドネス指標はたとえば欧州放送連合（EBU）のR128規格に基づくことができ、我々は10^L/10によりエネルギーに変換する。よって、リハーサルにおいて、推定器５２２は次の関係から行列e_i,mを計算できる：

【数36】

ここで、E_i,m ^rehearsalは楽器iがリハーサルされるときの各マイクロフォンにおける測定されたラウドネスであり、E_i ^rehearsalはリハーサル段においてプレイしているときの各楽器のラウドネス（未知、測定不能）である。

【0158】

バンド全員が一緒に演奏するとき、推定器５２２は各マイクロフォンにおける全ラウドネスE_m ^performanceを測定することへのアクセスがあるだけであることがある。楽器およびマイクロフォンからの伝達関数が一定かつリハーサル段に等しいままであり、すべての楽器の信号が互いに統計的に独立であれば、次の関係が成り立つ：

【数37】

推定器５２２は利得g_iを使って、各楽器のレベルをそれらの楽器がリハーサルされたときのレベルに対して比較することができる。

【数38】

【0159】

いくつかの実装では、推定器５２２は、利得g_iの関数であることができるコスト関数Cを使うことができる。推定器５２２が、モデルが最小二乗の意味で最もよく満たされるよう実演レベルを推定することを確実にするためである。

【数39】

ここで、C₁(g_i)はコスト関数Cの第一の成分である。

【0160】

いくつかの実装では、推定器５２２は、主要ステレオ・マイクロフォンに対して、より小さな重要度を与えることによって、結果を改善できる。主要ステレオ・マイクロフォンはスポット・マイクロフォンよりも弁別性がずっと低いからである。推定器５２２は、

【数40】

のように、マイクロフォン毎についてそれぞれ重みの集合w_mを適用することができる。よって

【数41】

【0161】

エネルギー・レベルを推定する問題は、楽器よりもマイクロフォンのほうが少ない場合には不足決定であることがある。不定性は、いくつかの楽器の推定をブーストすると同時に一方では他の楽器を減衰させることによって各マイクロフォンにおける同じ全体的なラウドネスを得ることに対応しうる。この不定性を減らすために、いくつかの実装では、推定器５２２は、リハーサルにおいて測定されたものより有意に高い楽器ラウドネスを推定することにペナルティーを与える項を導入することができる。ある可能な項は下記で定義される。

【数42】

ここで、C₂(g_i)はコスト関数Cの第二の成分であり、α₂およびnはペナルティーについてのパラメータである。

【0162】

たとえばα₂＝0.1およびn＝6であれば、利得がリハーサルより低い場合には基本的にペナルティーはない。

【数43】

だが推定されるレベルがリハーサルより6dB上であるときはペナルティーは6.4になる。この項C₂を加えるとき、そのスケールはC₁とは異なることがある。推定器５２２は次のようにスケールΔを導入することができる。

【数44】

ここで、Δは、実演とリハーサルとの間の測定されたレベルの間の平方差の（諸マイクロフォンを横断した）平均である。

【0163】

よって、推定器５２２は、次のコスト関数を適用することができる：

【数45】

【0164】

いくつかの実装では、推定器５２２はdBで測定を行なうことができる。何もかもdBで測定することは、低いレベルを推定するときに、よりよいパフォーマンスを提供しうる。

【数46】

ここで、dB[・]＝10log₁₀[・]である。パラメータについての例示的な値は：α₂＝0.001、n＝4、w_main＝0.2である。いくつかの実装では、推定器５２２は、コスト関数を最小化するとき、上記の1/Mの因子をすべて無視することができる。

【0165】

いくつかの実装では、推定器５２２は、コスト関数の最小化前に初期のフィルタリング段を適用することができる。該初期段では、推定器５２２は、音源iの専用度D(i)を使って、所与のチャネル信号が他の楽器からの小さい漏れをもつ音源を決定することができる。たとえば、推定器５２２は音源iの専用度D(i)が所与の閾値より高いかどうかを判定することができる。そのような各音源について、推定器５２２は、上記のコスト関数を対応する専用チャネル信号のみを含むよう制約することによって、対応する利得を得ることができる。たとえば、推定器５２２が楽器＾i〔＾付きのi；以下同様〕および専用のマイクロフォン＾mについての(＾i,＾m)の対が閾値を満たすと判定する場合、推定器５２２は利得

【数47】

を、縮小されたコスト関数を最小化することによって決定することができる。推定器５２２が式(40)のコスト関数を選ぶ場合、縮小されたコスト関数は下記の式(40.1)になる。

【数48】

【0166】

式(40.1)は推定器５２２が下記の式(40.2)を使って最小化を実行することを許容する。

【数49】

【0167】

推定器５２２は、上記の他のコスト関数を使って、式(40.1)および(40.2)を参照して述べた動作と同様な単純化を適用して一時には一対の信号源‐専用マイクロフォンのみを含むようにして、諸対の利得のそれぞれを決定することができる。

【0168】

初期のフィルタリング段においてこれらの利得を決定すると、推定器５２２はコスト関数を最小化する問題を、専用のチャネル信号をもたない楽器の利得のみを決定することに帰着させる。推定器５２２はこれらの利得を、初期のフィルタリング段において見出された利得に固定することができる。次いで、推定器５２２は残りの利得に関するコスト関数を最小化できる。

【0169】

〈周波数帯域での楽器RMSの推定〉
上記のように推定器５２２を使って信号RMSを推定することは、周波数依存の仕方に拡張されることができる。異なる楽器が全体的な周波数スペクトルの異なる部分に寄与する場合における推定を改善するためである。図１２は、ある周波数帯域においてエネルギー・レベルを推定する例示的プロセス１２００を示すフローチャートである。推定器５２２は、プロセス１２００の動作を実行することができる。

【0170】

推定器５２２は、参照オーディオ・データを受領することができる（１２０２）。参照オーディオ・データは、ライブ実演の間の配置と同じ配置で音源およびマイクロフォンが置かれたリハーサルから記録されたオーディオ信号を含むことができる。

【0171】

第一段では、推定器５２２は、諸周波数帯域における各音源のそれぞれのリハーサル・ラウドネスE_i,m,f ^rehearsalを計算することができる（１２０４）。ここで、それらの周波数帯域は、ANSI（米国規格協会）仕様に従う標準的なフィルタを用いて得られる周波数f＝{32,65,125,250,500,1000,2000,4000,8000}を中心とするオクターブ帯域であることができる。

【0172】

次の段では、推定器５２２は、全コストを、次のようなコスト関数を使って音源当たりのコストの和として計算することができる（１２０６）。

【数50】

ここで、C₁(g_i)は諸マイクロフォンおよび諸周波数帯域を横断したコスト関数の第一の成分である。

【0173】

推定器５２２は周波数帯域における質量項（mass term）を計算することができる（１２０８）：

【数51】

ここで、C₂(g_i)は諸マイクロフォンおよび諸周波数帯域を横断したコスト関数の第二の成分である。

【0174】

推定器５２２は、これらのコストを最小化することによって周波数帯域におけるそれぞれの利得を決定する（１２１０）。推定器５２２は、該利得を、イベント１００のライブ・データを処理するためのプロセッサに提供することができる。たとえば、推定器５２２は、他の音源のレベルより上でプレイしている音源を識別してビデオ編集器５３０がその音源にフォーカスするまたはズームインすることができるようにするために、該利得をビデオ編集器５３０に提供することができる。

【0175】

いくつかの実装では、推定器５２２は、楽器がオンであるまたはオフであることを推定することに向けてバイアスをかけることができる。これは、式(43)の第二項を修正して、g＝0,1において極小をもつようにすることによってできる。たとえば、推定器５２２はg_iに関数f：

【数52】

を適用することができる。ここで、pは制御値であり、aは項が最小値をもつ所望される点である。ここでは、a＝1である。

【0176】

この関数は、最小はx＝0、x＝±aにあるものだけであり、x＝a/√3においてのみf＝pとなる最大をもつという点で、x←→－xのもとで対称的である。よって、推定器５２２は最大における値を（よって、x＝0,aにおける最小の間の壁の大きさを）制御するためにpの値を使うことができる。より一般には、

【数53】

は同じ特性をもつが、ここでは最大はx＝3^-2naにある。コスト関数の第二項は次のようになる。

【数54】

【0177】

式(45)におけるパラメータの例示的な設定はa＝1、n＝1、p＝5である。

【0178】

いくつかの実装では、推定器５２２は次の関数を実装できる。

【数55】

ここで、mおよびnは制御値である。式(45)におけるパラメータの例示的設定はn＝1.2、m＝1e－5、a＝1である。

【0179】

いくつかの実装では、推定器５２２は、点(0,0)、(x_p,y_p)、(x_a,₀)、(x_l,y_l)を通るx-パリティーのもとで対称的な六次多項式：

【数56】

を実装することができる。

【0180】

〈ラウドネス領域における自動化されたEQ〉
図１３は、個々の音源を自動的に等化する例示的プロセス１３００を示すフローチャートである。プロセス１３００はたとえば図７の音源等化器７１０によって実行されることができる。音源等化器７１０は、自動化された仕方で楽器をクリーニングする、強調するまたは脱強調する特定の目的のために（全体的なステレオ・ミックスではなく）個々の音源のレベルに等化（EQ）を適用するよう構成される。

【0181】

音源等化器７１０は、オーディオ・データを受領することができる（１３０２）。オーディオ・データはイベント１００のライブ・オーディオ・データまたはリハーサル・データであることができる。オーディオ・データは音源からのチャネル信号を含むことができる。

【0182】

音源等化器７１０は、各音源についてのそれぞれの信号を、各周波数帯域における励起にマッピングすることができる（１３０４）。音源等化器７１０は、励起空間における異なる源からの音を総和し、ラウドネス空間における異なる周波数帯域からの効果を総和することができる。

【0183】

音源等化器７１０は次いで、一つまたは複数の音源を自動的に等化する。音源等化器７１０は、各音源を各帯域とマッピングする源‐帯域対のリストを生成することができる。音源等化器７１０は、リストにおけるそれぞれの源‐帯域対についてそれぞれの必要値を決定することができる（１３０６）。必要値は、その対におけるその周波数帯域において等化されている、その対において表わされている音源の、他の音源および他の周波数帯域に対する相対的な重要度を示すことができる。必要値は、該相対的な重要度の値と、その源の他の音源によるマスキング・レベルとの積、あるいは相対的重要度またはマスキング・レベルのどちらかがそれぞれ増大または減少させられるときに必要度が増大または減少することを裏付ける数学的に表現可能な関係であることができる。

【0184】

音源等化器７１０は、必要値を閾値と比較することができる。すべての必要値が前記閾値未満であれば、音源等化器７１０はプロセス１３００を終了することができる。

【0185】

ある源‐帯域対の必要値が前記閾値を超えることを判別すると、音源等化器７１０は、その源‐帯域対を目立たせるよう、その対において表わされている音源のために等化することができる（１３０８）。等化はたとえば、その周波数帯域において他の音源を下げることを含むことができる。

【0186】

音源等化器７１０は、その源‐帯域を、目立たせるための可能な対のリストから除去し（１３１０）、段１３０６に戻ることができる。

【0187】

音源等化器７１０は、プロセス１３００を参照オーディオ・データのみに適用することができる。すると、音源等化器７１０は、イベント１００について固定した設定を使うことができる。代替的または追加的に、音源等化器７１０は、ライブ・イベント１００の間、任意的には参照オーディオ・データをシードとして使った後に、これらの動作および機能を適応的に実行することができる。

【0188】

音源等化器７１０は、音源を表わすためにインデックスi∈{1,……,N_i}を使うことができる（たとえばi＝1はベースなど）。いくつかのシナリオでは、ミキシングすべきすべての楽器はよく分離されている。音源等化器７１０は各楽器信号s_iから各周波数帯域bにおける励起にマッピングすることができる：
s_i→E(i,b) (49)
ここで、E(i,b)は帯域bにおける音源iについての励起である。周波数帯域bはERB（equivalent rectangular bandwidth［等価長方形帯域幅］）周波数帯域であることができる。

【0189】

このマップは、グラスバーグ・ムーア（Glasberg-Moore）・ラウドネス・モデルで表現されることができる。このマッピングを実行することによって、音源等化器７１０は前方入射についての（あるいは拡散場における）頭部の効果および静穏時閾値（threshold-in quiet）の逆フィルタを考慮する。同様に、音源等化器７１０は、励起空間から特定ラウドネスL[E(i,b)]にマッピングすることができる：
s_i→E(i,b)→L[E(i,b)] (50)
これは基底膜によって適用される圧縮をモデル化する。そのような関数の例は1kHzより上ではL＝α(E＋1)^0.2である。用語「特定ラウドネス（specific loudness）」は、周波数帯域当たりのラウドネスを表わすことができ、「ラウドネス」はすべての周波数帯域についての和を表わすことができる。これらの式に示されるようなbへの依存性は、特定ラウドネスを示す。bに依存しないことは和を示す。

【0190】

音源等化器７１０は、励起空間において異なる源からの音を総和し、ラウドネス空間において異なる帯域からの効果を総和することができる：

【数57】

ここで、E_sources(b)は帯域bにおけるすべての音源の励起であり、L_all-bands(i)はすべての周波数帯域における音源iのラウドネスである。

【0191】

重要な量は、ノイズの存在時の（あるいは若干数の他の信号の存在時の）信号の部分ラウドネス（partial loudness）である。音源等化器７１０はすべての音源を、インデックスiをもつ信号pLと称される一つと、インデックスi'をもつ他のすべてとに分割することができる：

【数58】

【0192】

これがもちうる最大値は、ちょうどその音源iのラウドネスpL(i,b)＝L(i,b)である。ここで、L(i,b)は帯域bにおける音源iのラウドネスである。この値が生じるのは、音源の間にマスキングが全くなく、よってコンプレッサーが別個に作用する、すなわちL(ΣE)＝ΣL(E)のときである。マスキングはこの値を減少させることができる。

【0193】

音源等化器７１０は次いで、いくつかの音源を自動的に等化する。いくつかの実装では、等化は、いくつかの音源の、他の音源によるマスキングを回避することができる。よって、音源等化器７１０は、初期のプレミックス段がすべての音源を、所与の目標ラウドネスで鳴るよう調整したと想定する。たとえば、リードボーカルのほかはすべての音源は等しいラウドネスをもつことができ、リードボーカルのことは、音源等化器７１０は他のすべてよりも少なくとも3dB上のままにすることができる。

【0194】

プレミックス段は、音源に別個に焦点を当てるだけであってもよい。しかしながら、すべての音源が同時にプレイするときは、マスキングが生じることがある。音源等化器７１０は、いくつかの源を強調するために、たとえばいくつかの音源が目立つのを助けるために、等化動作を実行することができる。典型例はベースである。ベースがオルガンまたは他の広帯域の楽器と一緒にプレイするとき、音源等化器７１０はそうした広帯域の楽器を高域通過させ、低い端でベースをより顕著のままにすることができる。逆に、オルガン・ソロ・オーディオ・イベントでは、音源等化器７１０はこの理由のための等化を適用しない。よって、この問題は、諸楽器を横断する問題である。

【0195】

音源等化器７１０が進行するための一つの方法は、どの音源またはどの音源のどの帯域が、等化されるべき、より大きな必要性をもつかを検出することである。音源等化器７１０は、楽器iおよび帯域bについて、この量をNeed(i,b)と称することができる。この必要性は、次の因子に依存することができる：ｉ）その周波数帯域がその音源にとってどのくらい重要か；およびｉｉ）その音源が他のすべての音源によってどのくらいマスキングされているか。音源等化器７１０はそれぞれ重要度およびマスキング度を定量化するためにI(i,b)、M(i,b)を使うことができる。

【0196】

楽器の周波数帯域の重要性は（マスキングと異なり）その楽器のみに依存する。たとえば、ベースの低周波数端の諸帯域はベースにとって重要であることがある。それに対し、オルガンは周波数においてずっと広がっているので、オルガンの低周波数端の諸帯域はそれほど重要でないことがある。音源等化器７１０は次のように[0,1]に境を制限された重要性を測定することができる：

【数59】

ここで、I(i,b)は、周波数帯域bにおける、等化される楽器iの重要性のレベルを表わす。

【0197】

他のすべての楽器によるマスキングを測るために、音源等化器７１０は、他のすべての音源をノイズとして指定する。音源等化器７１０は他のすべてについての部分ラウドネスを使うことができる。[0,1]に境を制限されたインジケーターを得るために：

【数60】

ここで、M(i,b)は、周波数帯域bにおける、楽器iの、他の楽器によるマスキングのレベルを表わす。

【0198】

よって、音源等化器７１０は、必要性関数を次のように実装できる：

【数61】

ここで、Need(i,b)は、周波数帯域bにおける、等化されている音源iの、他の音源および他の周波数帯域に対する相対的な重要度を示す必要値である。

【0199】

音源等化器７１０は、i以外のすべての音源のラウドネスについての記法を単純化できる：

【数62】

最終的な実装は次のように表わせる：

【数63】

【0200】

音源等化器７１０は、自動的な等化を達成するために次のアルゴリズムを実装できる。次節で改善を記載する。便宜上、量Need(i,b)はN(i,b)と単純化される。

【0201】

段階１：音源等化器７１０は最高のN(i,b)をもつ音源および周波数帯域を見出すことができる。音源等化器７１０はこれを源‐帯域対(＾i,＾b)として表わすことができる。たとえば（ベース、３番目の周波数帯域）である。音源等化器７１０はこの最高のN(i,b)を閾値t∈[0,1]と比較することができる。N(i,b)＞tであれば、段階２に進み、そうでなければ、停止する（他の何も等化する必要がない）。

【0202】

段階２：音源等化器７１０は、選択された対を目立たせるよう残りの楽器を等化することができる。音源等化器７１０は、＾i以外のすべての音源を表わすためにi'を使うことができる。音源等化器７１０は、＾iに対して引き起こすマスキングに比例する仕方で各音源i'の間で責任を分担することができる。それを行なう方法は、各楽器の帯域への利得低減を定義することによる：

【数64】

ここで、gは十分に目立つことを要求することによって固定されるべき唯一の未知数である。gの関数としての各楽器の利得の振る舞いは図１４ＡおよびＢに示されている。

【0203】

g＝1であればすべての利得は1であり、各源‐帯域対はその励起を、どのくらい＾iをマスキングするかに比例して低減する。i'が＾iに対して引き起こすマスキングは、同じ式(54)から、ただしi'をノイズを、＾iを信号と考えて得られる：

【数65】

ここで、M(i'→＾i,b)は、周波数帯域bにおいて音源i'が音源＾iに対して引き起こすマスキングの度合いを表わす。

【0204】

同時に、音源等化器７１０は選択された楽器‐帯域＾i、＾bをブーストすることもできる：

【数66】

ここで、αは、音源等化器７１０が他のすべての(i',＾b)をどのくらい減衰させるかに対して(＾i,＾b)にどのくらいの相対的なブーストを与えるかを制御するパラメータである。α＝1であれば、音源等化器７１０は、音源等化器７１０が残りを減衰させるのと同じくらいブーストする。

【0205】

最後に、音源等化器７１０は、その源‐帯域対について、それが十分にマスキング解除される、すなわちM(＾i,＾b)＜M_thresholdとなるよう目標マスキング・レベルを定義することによって、gについて解く。ここで、M_thresholdはマスキング閾値である。これは、一つの未知数（g）についての方程式によって表わされる実装である。式(54)は、その方程式が非線形であることを示している。音源等化器７１０は、境界値が満たされるまで、たとえばdBより小さい離散的なきざみでgを減少させることによって、gについて解くことができる。音源等化器７１０は、利得からラウドネスへのマップを反転させ、よってラウドネス領域から線形領域に戻ることができる。

【0206】

この文脈では、音源等化器７１０は、許容されるgの最小値を設定することによって、あるいはよりよい制御をもつためにはg(＾i,＾b)およびg(i',＾b)の許容される値の限界を直接制限することによって、受け容れられる等化の最大レベルを課すことができる。

【0207】

段階３：音源等化器７１０は、目立つべき可能な対のリストから、対(＾i,＾b)を除去することができる。段階１に戻る。

【0208】

上記のアルゴリズムは、最大の必要性をもつ対を調べることのみによって候補対(＾i,＾b)を選択している。このアルゴリズムは、恩恵がすべての楽器を通じてグローバルであることを保証しない。一つのグローバルな手法は、空間的符号化を模倣することである：向上させるとグローバルな必要性を最小にする対を見出し、逐次反復する。

【0209】

たとえば、音源等化器７１０は、ミックスが等化されるグローバルな必要性を次のように定義することができる：

【数67】

ここで、Need(global)はグローバルな必要性である。

【0210】

次いで、音源等化器７１０は以下の動作を実行する。第一に、音源等化器７１０は初期のグローバルな必要性Need(global)を計算することができる。第二に、音源等化器７１０はすべての可能な対(i,b)を取る、あるいはより高いN(i,b)をもついくつかの対（たとえば10対）を選択する。各対について、音源等化器７１０はそれを向上されるべき候補と指定し、それをブーストして他を減衰させるために適用されるべき利得g(i,b)を見出すよう、前述のアルゴリズムを走らせる。このようにして考慮された各対について、音源等化器７１０は新たなグローバルな必要性を再計算することができる。第三に、音源等化器７１０は、グローバルな必要性を最小化する対を選択し、その向上利得を適用する。音源等化器７１０は次いで、Need(global)をその新たな値によって置き換えて、第一段階に戻る。

【0211】

音源等化器７１０は、次のうちのいずれかが起こったら、上記の逐次反復を終了することができる。１．Need(global)がすでに所与の閾値より低い；２．(i,b)のどの選択もNeed(global)の減少につながらなかった；あるいは３．音源等化器７１０が所与の最大回数を超えて逐次反復した。

【0212】

図１４Ａは、等化されるべき三楽器ミックスを表わす図である。横軸は周波数fを表わす。三楽器ミックスはベース（bass）、オルガン（organ）および他の楽器を含む。縦軸はエネルギーを表わす。図のように、ベースのエネルギーは、より低いERB帯域に集中している。よって、音源等化器７１０は、オルガンおよび他の楽器に比べて、ベースは、より低いERB帯域において等化の必要性がより高いことを判別できる。

【0213】

図１４Ｂは、自動的な等化における利得を示す図である。g＝1から減少させ始めて、より低いERB帯域ではベースの利得を増大させ、一方、より低いERB帯域における他のすべての楽器を減衰させる。オルガンは「他（another）」の楽器よりもベースをよくマスキングするので、オルガンのほうが大きく減衰させられる。

【0214】

〈新規性に基づくセグメント分割〉
図１５は、オーディオ・データにおける新規性積み上がり（novelty buildup）に基づいてビデオをセグメント分割する例示的プロセス１５００を示すフローチャートである。プロセス１５００は、図７のセグメント分割ユニット７１４によって実行されることができる。いくつかの実装では、セグメント分割ユニット７１４は図５のビデオ編集器５３０によって実装されることができる。

【0215】

セグメント分割ユニット７１４は、オーディオ信号を受領することができる（１５０２）。セグメント分割ユニット７１４は、時間を通じてオーディオ信号についての新規性インデックスを構築することができる（１５０４）。セグメント分割ユニット７１４は、閾値より上である前記オーディオ信号のピークを判別することができる。セグメント分割ユニット７１４は、平均カット長に基づいてセグメント長を決定することができる（１５０６）。カット長は、入力である、プリセット値であるまたは過去のカットから（たとえば過去のX個のカットを平均することによって）導出されることができる。セグメント分割ユニット７１４は、最後のカット以降の新規性インデックスの和を決定することができる（１５０８）。和は、時間を通じた新規性インデックスの積分であることができる。

【0216】

和が新規性閾値より高いことを判別すると、セグメント分割ユニット７１４は次のカットのためのランダム時間を決定することができる（１５１０）。ここで、次のカットまでの時間のランダムさは平均すると平均セグメント長になる。セグメント分割ユニット７１４は、オーディオ信号または該オーディオ信号と同期されている対応するビデオ信号を、ランダム時間のところでカットして（１５１２）新たなセグメントにし、次のカットのための新規性インデックスの総和を開始することができる。セグメント分割ユニット７１４は、新たなセグメントをストリーミングまたはダウンロードのため、そしてラウドスピーカーでの再生のために、ユーザー装置に提供することができる。プロセス１５００のさらなる詳細および例を下記で述べる。

【0217】

ビデオ編集は新規性（novelty）に基づくことができる。新規性は、オーディオまたはビデオが有意に変化する点を示すことができる。セグメント分割ユニット７１４は、新規性インデックスと称される新規性を測るインデックスを構築することができる。セグメント分割ユニット７１４は、オーディオ記録の異なるセグメントを横断して、抽出された特徴の集合を比較することによって、新規性インデックスを構築することができる。セグメント分割ユニット７１４は、類似性インデックスを構築して、それをチェッカーボード・カーネルと畳み込みして新規性を抽出することができる。

【0218】

セグメント分割ユニット７１４は、時間を通じて新規性インデックスを計算することができる。セグメント分割ユニット７１４はまず、ある閾値より上である諸ピークを選択することができる。特徴を抽出するために使われるセグメントの大きさが、新規性が機能するスケールを決定できる。短いセグメントは個々の音符を区別することを許容する。長いセグメントは、より粗い概念を、たとえばイントロをコーラスから、区別することを許容する。あるセグメントが新規であると考えられる閾値は、カットの頻度に影響することができる。よって、該閾値は、所望される平均カット長の関数として設定されることができる。平均カット長自身はテンポの関数として設定されることができる。よって、セグメント分割ユニット７１４は次のように動作を実行することができる：
・テンポを取得→平均カット長を設定→閾値を設定。

【0219】

セグメント分割ユニット７１４は、クレッシェンドのある歌のセクションを適正に扱うことができる。そうしたセクションは、新規性インデックスの引き延ばされたなめらかな増大によって特徴付けされる。そのようななめらかな増大は、顕著なピークにはつながらず、よって非常に長い時間にわたるカットの不在につながる。セグメント分割ユニット７１４は、ピークが起こりうるという事実とは独立して、持続した期間にわたって、カットをもつ必要性を定量化する積み上がり処理モジュールを含むことができる。セグメント分割ユニット７１４は、最後のカットt_last以降の新規性インデックスの積分でこの必要性を特徴付けることができる：

【数68】

ここで、N(t)は必要性であり、novelty(t)は時刻tにおける新規性インデックスである。

【0220】

N(t)が閾値N_thrより上であることを判別したら、セグメント分割ユニット７１４は、平均して次のT秒の間にカットがあるよう調整された確率をもって、ランダムなドローイング（drawing）を開始する。セグメント分割ユニット７１４はN_thrを、大きな必要性と考えられる値、たとえば少なくとも3秒間の間の新規性＝0.6の持続した値に割り当てることができる。同様に、Tの値は、上記のように要求される平均カット長にリンクされることができる。

【0221】

図１６は、例示的な新規性積み上がり処理を示す図である。クレッシェンドのある歌に対する新規性積み上がり処理の効果が、図１６に示されている。X軸は秒単位での時間を表わす。Y軸は前記積分の値を表わす。曲線１６０２によって示されるように、150秒から180秒までの間に長いクレッシェンドがある。曲線１６０２は、積み上がりの後処理なしでの新規性の積分を示している。インデックスのピークのみが使われたとしたら、このセグメントではイベントは検出されない。曲線１６０４は、積み上がり後処理後の積分を示しており、新たなカットの存在およびその出現における制御されたランダム性の両方を明らかにしている。出現は、ハード閾値に基づく、あるいはより好ましくは確率に基づくことができる。

【0222】

〈同期〉
図１７は、複数のマイクロフォンからのオーディオ信号を同期させる例示的プロセス１７００を示している。プロセス１７００は、図５の同期器５０２によって実行されることができる。プロセス１７００を実行する同期器５０２は、同期器がオーディオ信号のみに基づいてオーディオ信号を同期させることのできる通常の同期技術に対して改善する。

【0223】

同期器５０２は、単にオーディオを解析することによってオーディオ・シーンにおいて使われているマイクロフォンを同期させることができる。いくつかの実装では、同期器５０２は、さまざまな相関決定技法、たとえば相互相関アルゴリズムを使ってすべてのマイクロフォンを主要ステレオ・マイクロフォンに同期させることができる。

【0224】

同期器５０２は、オーディオ信号を受領することができる（１７０２）。オーディオ信号はマイクロフォンからのチャネル信号であることができる。同期器５０２は、オーディオ信号の各対の間の相関のそれぞれの品質値を計算することができる（１７０４）。同期器５０２は、品質値をマップ・ベクトルにおいて割り当てることができる（１７０６）。

【0225】

同期器５０２は、以下のようにして、逐次反復的に一連の遅延を決定し、それらの遅延をマップ・ベクトル中に挿入することができる（１７０８）。同期器５０２はマップ・ベクトルにおいて、最高の品質値をもつ信号対を同定することができる。同期器５０２は、その対におけるオーディオ信号を整列させ、その対をモノ信号にダウンミックスし、その整列の遅延をマップ・ベクトルに付加することができる。同期器５０２は、対における第一のオーディオ信号をダウンミックスされたモノ信号で置き換え、第二のオーディオ信号を最大についてのインデックスのリストから除去することができる。同期器５０２は、ダウンミックスされたモノ信号を固定されたままに保ち、品質値を再計算することができる。同期器５０２は、一つの信号のみが残されるまで、上記の同定する段階から再度逐次反復することができる。

【0226】

逐次反復を終了すると、同期器５０２は、マップ・ベクトルに挿入された遅延の順序に従ってマップ・ベクトルにおけるそれぞれの遅延を使ってオーディオ信号を同期させることができる（１７１０）。次いで、同期器５０２は、同期された信号を他のコンポーネント（たとえば図５の源分離器５０４）に、さらなる処理およびストリーミングのために提出することができる。プロセス１７００のさらなる詳細および例を下記で述べる。

【0227】

いくつかの実装では、同期器５０２は、強いピークをもつ相互相関から計算された遅延に対してより大きな重要性を与えて、グローバルに同期するアルゴリズムを実行する。同期器５０２は、シーンにおけるマイクロフォンの集合にm＝1,……,Mとラベル付けすることができる。マイクロフォンの一つがステレオであれば、それは以前に極性検査され、モノにダウンミックスされている。同期器５０２は、次のように時間を通じたそれらの相関C_m,m'(t)を決定することができる。

【数69】

ここで、s_mはマイクロフォンmからの信号を表わし、|s|＝√Σ_t（s(t)²）である。t＝0については、これは式(3)で上記で使った正規化された相関と一致する。

【0228】

各対について、同期器５０２はそれぞれより高い相関およびより低い相関C_m,m' ^max/minにつながるt_max、t_minの値を得ることができる。相関がどのくらい良好であるかを記述する性能指数（あるいは相関の品質Q）は、

【数70】

となる。ここで、Qは、最小が最大より強ければ、負であることができる。同期器５０２はQの最大値を探すことができるので、これは結果に影響しない。

【0229】

同期器５０２は、次のように再帰的アルゴリズムを実行することができる。第一に、同期器５０２は、空のマップ・ベクトルMapを初期化することができる。該ベクトルは(M－1)個のエントリーをもつことになる。同期器５０２は、（Qの対称性のため）Qの上対角のみ、よってm₁＜m₂であるQ_m1,m2を考える。
１．最大のQ_m1,m2をもつ対m₁、m₂を見出す。
２．s_m2をs_m1に整列させ、モノにダウンミックスする。(t_m1,m2)をMapに付加する。
３．s_m1をこのダウンミックスで置き換える。m₂を、Qの最大を求めてスキャンすべきインデックスのリストから除去する。
４．m₁を固定し、すべてのmについてQ_m,m1を再計算する。
５．一つのマイクロフォンだけが残るまで、第一段階を繰り返す。

【0230】

同期器５０２は、M－1個の遅延t_m,m'の集合を残される。ここで、二番目のインデックスは、最初のもの（これは典型的には主要ステレオのダウンミックスである）を除いてすべてのマイクロフォンについて一回のみ現われる。マイクロフォンmがたとえば第一のマイクロフォンと同期しているために必要とされる遅延を再構築するために、同期器５０２は、第一のマイクにつながるチェーンをたどることができる：

【数71】

【0231】

いくつかの実装では、同期器５０２は、モノへの各ダウンミックス後にすべての相関を再計算することを避けることによって、計算速度を改善できる。同期器５０２が第一段においてすでにすべてのC_m,m'を計算しているとすると、これは同期器５０２がすべてのc_m,m'(T)＝<s_m(t)s_m'(t＋T)>を計算したことを意味する。m'をmに整列させてダウンミックスした後、同期器５０２は新しい信号：

【数72】

を得ることができる（t_m,m'の符号を検査）。

【数73】

との新たな相関：

【数74】

を計算する。分子は二つの項をもつ。同期器５０２は、第一の項をC_n,mから導出できる。同期器５０２は第二の項を、C_n,m'からわかっている項のt_m,m'個ぶんの単位の巡回シフトから導出できる。分母も二つの項をもつ。同期器５０２は第二の項を|s_m|および|s_m'|ならびにそれらの相関から導出できる：

【数75】

よって、同期器５０２は初期の相関行列を計算する必要があるだけである。

【0232】

〈ノイズ削減〉
図２４は、ノイズ削減の例示的プロセス２４００を示すフローチャートである。プロセス２４００は、図７のノイズ削減ユニット７１１によって実行されることができる。ノイズ削減ユニット７１１は、各チャネル信号にノイズ削減を適用できる。開示される手法の利点は、たとえば、各チャネルに個々にさまざまな利得を適用することにより、ノイズ削減ユニット７１１は、特定のチャネルが他のチャネルからのチャネル信号をマスクするのに十分高いオーディオ・レベルをもつときにノイズを低減できるということを含む。さらに、チャネル信号は、会場の別個の点（たとえば二ないし三メートル以上離れている）に位置していてもよい異なるチャネル信号源（たとえば異なるモデル、パターンをもつマイクロフォン）からくることができる。

【0233】

ノイズ削減ユニット７１１は、参照オーディオ・データを受領することができる（２４０２）。参照オーディオ・データは、リハーサル・セッションの無音期間の間に記録されたチャネル信号を含む。無音期間は、楽器がプレイしていない（たとえばX秒の）期間であることができる。

【0234】

ノイズ削減ユニット７１１は、ノイズ推定器コンポーネントを含むことができる。ノイズ推定器は、参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することができる（２４０４）。ノイズ推定器は、推定されたノイズ・レベルをノイズ・フロアとして指定することができる。参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することは、周波数ビンと称される複数の周波数帯域にわたって実行されることができる。

【0235】

ノイズ削減ユニット７１１は、ライブ実演データを受領することができる（２４０６）。ライブ実演データは、リハーサル・セッションでは無音だった一つまたは複数の楽器がプレイするイベント１００の間に記録されたチャネル信号を含む。

【0236】

ノイズ削減ユニット７１１は、ノイズ削減器コンポーネントを含むことができる。ノイズ削減器は、ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を個々に削減することができる（２４０８）。ノイズ削減器は、ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を適用することを、ライブ実演データにおける各チャネル信号において、ライブ実演データにおけるそのチャネル信号におけるノイズ・レベルと前記推定されたノイズ・レベルとの間の差が閾値を満たすことを判別した際に行なうことができる。ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを低減することは、各周波数ビンにおいて実行されることができる。

【0237】

ノイズ・レベルを削減した後、ノイズ削減ユニット７１１は、チャネル信号を、さらなる処理、記憶または一つまたは複数のエンドユーザー装置への配送のために下流の装置に提供することができる（２４１０）。下流の装置はたとえば、図５の配送フロントエンド５０８または図７のマスタリング・ユニット７０４であることができる。

【0238】

推定（２４０４）および削減（２４０８）段は、前記閾値、傾き、アタック時間、ディケイ時間およびオクターブ・サイズを含むノイズ削減パラメータに従って実行されることができる。パラメータの例示的な値は、閾値は10dB；傾きはdB当たり20dB；アタック時間はディケイ時間と同じで50ミリ秒（ms）というものである。ノイズ削減動作のさらなる詳細および例を下記に述べる。

【0239】

推定（２４０４）段の間、ノイズ推定器は参照オーディオ・データにおける各チャネル信号に対して個々に、以下の動作を実行することができる。ノイズ推定器は、チャネル信号を、X個のサンプル（たとえば2049個のサンプル）の諸バッファにセグメント分割することができる。それらのバッファは半分の長さの重複をもつことができる。ノイズ推定器は、離散的な窓関数（たとえばハン窓）の平方根を各バッファに適用することができる。ノイズ推定器は離散フーリエ変換を適用することができる。ノイズ推定器は下記の式(68)を使ってノイズ・レベルを計算することができる：
n(f)＝10*log10(|・|²) (68)
ここで、n(f)は特定の周波数ビンfについてのノイズ・レベルである。

【0240】

ノイズ推定器は、下記の式(69)を使って諸バッファを通じてノイズ・レベルを平均することによって、ノイズ・フロアを決定することができる：
n_estimate(f)＝<n(f)>_buffers (69)
ここで、n_estimate(f)は周波数ビンfについてノイズ・フロアとして指定されるノイズ・レベルであり、< >は平均である。結果として、ノイズ推定器は、すべてのチャネル信号についてすべての周波数ビンについて数n_estimate(f)を決定することができる。

【0241】

ノイズ削減（２４０８）段の間、ノイズ削減器は、各チャネル信号に対して個々に以下の動作を実行することによって、イベント１００のライブ実演データにおける各チャネル信号におけるノイズ・レベルを抑制することができる。ノイズ削減器は、ライブ実演データにおけるチャネル信号を、X個のサンプル（たとえば2049個のサンプル）の諸バッファにセグメント分割することができる。それらのバッファは半分の長さの重複をもつことができる。ノイズ削減器は、離散的な窓関数（たとえばハン窓）の平方根を各バッファに適用することができる。ノイズ削減器は離散フーリエ変換を適用することができる。ノイズ削減器は上記の式(68)を使ってノイズ・レベルを計算することができる。

【0242】

ノイズ削減器は、ライブ実演データにおけるノイズ・レベルn(f)と前記ノイズ・フロアとの間の差を下記の式(70)を使って計算することができる：
d(f)＝n(f)－n_estimate(f) (70)
ここでd(f)が前記差である。

【0243】

ノイズ削減器は、次いで、エキスパンダー・モードで、ライブ実演データにおけるチャネル信号に抑制利得を適用することができる。エキスパンダー・モードで抑制利得を適用することは、差d(f)が閾値未満であるかどうかを判定することを含むことができる。差d(f)が閾値未満であると判定したら、ノイズ削減器は、傾き（slope）パラメータに従って、dBの差当たりのdB数を抑制する利得を適用することができる。

【0244】

ノイズ削減器は、諸周波数ビンを通じてまたはオクターブ・サイズ・パラメータにおいて指定される所与の帯域幅上で、すべての抑制利得をなめらかにすることができる。ノイズ削減器は、アタック時間およびディケイ時間パラメータを使って、時間を通じてすべての抑制利得をなめらかにすることができる。ノイズ削減器は、逆離散フーリエ変換を適用し、離散的な窓関数の平方根を再び適用することができる。ノイズ削減器は、次いで、結果を重複させ、加算することができる。

【0245】

図１８は、五つのマイクロフォンを同期させる例示的なシーケンスを示している。第一に、同期器５０２は、マイクロフォン３からの信号をマイクロフォン２からの信号に整列させる。同期器５０２は、遅延t₂₃を決定し、該遅延t₂₃をリストに加えることができる。同期器５０２は、整列された信号をモノ信号にダウンミックする。同期器５０２は次いで、マイクロフォン２からの信号をモノ信号で置き換える。同期器５０２は、モノ信号をマイクロフォン４からの信号と整列させ、次いでマイクロフォン１からの信号をマイクロフォン５と整列させることによって、このプロセスを続けることができる。最後に、同期器５０２はマイクロフォン１からの信号をマイクロフォン２からの信号と整列させる。同期器５０２は、結局、リスト{t₂₃,t₂₄,t₁₅,t₁₂}を得ることができる。この場合、t₂＝t₁₂、t₃＝t₂₃＋t₁₂、t₄＝t₂₄＋t₁₂、t₅＝t₁₅である。

【0246】

〈ビデオ編集〉
図１９のＡおよびＢは、自動ビデオ編集の結果を表示する例示的なユーザー・インターフェースを示している。ユーザー・インターフェースは、ユーザー装置、たとえばビデオ装置４１４の表示表面に呈示されることができる。図１９のＡおよびＢに記載される特徴は、（図５の）ビデオ編集器５３０によって実装されることができる。

【0247】

図１９のＡは、（図１の）イベント１００の第一のビデオ・シーンを表示するユーザー・インターフェースを示している。図示した例では、バンドがイベント１００においてプレイしている。ビデオ・カメラがバンド演奏のライブ・ビデオを捕捉する。バンドにおける各音源、たとえばボーカリスト１９２およびギター１９４ならびに他の音源は、同様のレベルでプレイしている。ビデオ編集器５３０はライブ・ビデオおよびバンド演奏のオーディオ・データを受領することができる。ライブ・ビデオは、イベント１００のリアルタイム・ビデオまたは事前に記憶されたビデオを含むことができる。ビデオ編集器５３０は、オーディオ・データから、各音源のエネルギー（またはラウドネス）レベルの間の差が閾値より小さいことを判別することができる。応答して、ビデオ編集器５３０は、イベント１００のビデオ・シーン１９６全体が呈示されることができることを判別できる。ビデオ編集器５３０は次いで、ライブ・ビデオにおけるビデオ・シーン１９６全体を、ストリーミングのために提供することができる。ビデオ装置４１４は、ビデオ・シーン１９６全体を受領し、該シーンを表示のために呈示することができる。

【0248】

図１９のＢは、（図１の）イベント１００の第二のビデオ・シーンを表示するユーザー・インターフェースを示している。図１９のＡを参照して述べたライブ・プレイの間、ある時間期間にわたって、ビデオ編集器５３０はオーディオ・データから、一つまたは複数の音源が、他の楽器よりも有意に高いレベルでプレイしていることを判別することができる。たとえば、ビデオ編集器５３０は、ボーカリスト１９２およびギター１９４のラウドネス・レベルまたはエネルギー・レベルが、他の楽器のラウドネス・レベルまたはエネルギー・レベルよりも、閾値レベルよりも多く高いことを判別することができる。応答して、ビデオ編集器５３０は、前記一つまたは複数の音源のパン角を決定することができ、ビデオ・データの一部にフォーカスするまたはズームインすることで、部分的なビデオ・シーン１９８を得る。図示した例では、ビデオ編集器５２０は、ボーカリスト１９２およびギター１９４の位置にフォーカスし、ズームインしている。ビデオ編集器５３０は次いで、ライブ・ビデオにおける、ボーカリスト１９２およびギター１９４を含む部分的なビデオ・シーン１９８を、ストリーミングのために提供することができる。ビデオ装置４１４は、ボーカリスト１９２およびギター１９４を含む部分的なビデオ・シーン１９８を受け取ることができる。ビデオ装置４１４は部分的なビデオ・シーン１９８を表示のために呈示することができる。

【0249】

図２０は、自動ビデオ編集の例示的プロセス２００のフローチャートである。プロセス２０００は（図５の）ビデオ編集器５３０によって実行されることができる。ビデオ編集器５３０は、サーバーの、イベント１００のライブ・ビデオ記録を受領するよう構成されたコンポーネントである。

【0250】

ビデオ編集器５３０は、（図１の）イベント１００のビデオ・データおよびイベント１００のオーディオ・データを受領することができる（２００２）。ビデオ・データおよびオーディオ・データはライブ・データであることができる。ライブ・データはリアルタイム・データまたは事前に記憶されたデータであることができる。ビデオ・データは、イベント１００における異なる位置に位置された音源の画像を含むことができる。オーディオ・データは、音源のエネルギー・レベルまたはラウドネス・レベルおよび音源のパン角を含むことができる。

【0251】

ビデオ編集器５３０は、オーディオ・データから、特定の音源が優勢な音源であることを判別することができる（２００４）。たとえば、ビデオ編集器５３０は、オーディオ・データにおいて表現されている音源の信号が、その音源がオーディオ・データにおいて表現されている他の音源のボリューム・レベルに対して、ある閾値量より上であるボリューム・レベルでプレイしていることを示していることを判別することができる。

【0252】

ビデオ編集器５３０は、ビデオ・データにおける音源の位置を決定することができる（２００６）。いくつかの実装では、ビデオ編集器５３０は、オーディオ・データにおける音源のパン角に基づいて該位置を決定することができる。たとえば、ビデオ編集器５３０は、ビデオ・データにおけるシーン全体の角度幅を判別し、シーン全体における、音源のパン角に対応する角度に対応する位置を判別することができる。ビデオ編集器５３０は、オーディオ・データに基づいて音源のパン位置を決定することができる。ビデオ編集器５３０は、その音源のパン位置を、ビデオ・データにおける音源の位置として、指定することができる。いくつかの実装では、ビデオ編集器５３０は、前記位置をビデオ・データに基づいて、たとえば顔追跡または楽器追跡を使うことによって、決定することができる。

【0253】

ビデオ編集器５３０は、ライブ・ビデオ・データにおける、音源の位置に対応する部分を判別することができる（２００８）。たとえば、ビデオ編集器５３０は、音源のパン角に従って、ライブ・ビデオ・データの一部にズームインすることができる。

【0254】

ビデオ編集器５３０は、記憶装置またはエンドユーザー装置へのストリーミングのために、オーディオ・データと、ライブ・ビデオ・データの前記部分とを同期して提供することができる（２０１０）。結果として、たとえば、ボーカリストまたはギタリストがソロを演奏しているとき、エンドユーザー装置におけるライブ・ビデオ再生は、カメラ・オペレーターの干渉および制御なしに、自動的にボーカリストまたはギタリストにズームインすることができる。

【0255】

さらに、いくつかの実装では、ビデオ編集器５３０は、イベント１００におけるさまざまな音源の位置を同定する入力を受け取ることができる。たとえば、ビデオ編集器５３０は、ユーザー・インターフェースをもつクライアント側アプリケーションを含む、あるいはかかるクライアント側アプリケーションに結合されることができる。ユーザー・インターフェースは、イベント１００入力のスチール画像またはビデオの上で一つまたは複数のタッチ入力を受け取ることができる。各タッチ入力は位置を音源に関連付けることができる。たとえば、ユーザーは、スチール画像またはビデオにおけるギター奏者にタッチすることによって、「ギター（guitar）」をスチール画像またはビデオにおけるギター奏者と指定することができる。リハーサルの間、ユーザーは「ギター」を指定することができ、次いでギター演奏のセクションを記録することができる。よって、「ギター」としてラベル付けされた音が、スチール画像またはビデオにおけるある位置と関連付けられることができる。

【0256】

イベント１００が進行中であるとき、ビデオ編集器５３０は、ライブ・ビデオ記録を受領するとともに、源分離器５０４からNs個の音源についてのNs個の信号を受領することができる。ビデオ編集器５３０は、それら複数の信号から一つまたは複数の優勢な信号を識別できる。たとえば、ビデオ編集器５３０は、特定の音源（たとえばボーカリスト）からの信号が、他の各信号よりもXdB大きい〔ラウドである〕ことを判別することができる。ここで、Xは閾値数である。応答して、ビデオ編集器５３０は、ラベル（たとえば「ボーカリスト」）を同定し、該ラベルに対応するライブ・ビデオ記録の位置を同定することができる。ビデオ編集器５３０は、たとえばもとのビデオ記録の一部をクリッピングすることまたはもとのビデオ記録の、その位置に対応する部分にズームインすることにより、その位置にフォーカスすることができる。たとえば、もとのビデオ記録が4K解像度である場合、ビデオ編集器５３０はその位置に対応する720p解像度のビデオをクリッピングできる。ビデオ編集器５３０は、エンドユーザー装置へのストリーミングのために、クリッピングされたビデオを配送フロントエンド５０８に提供することができる。

【0257】

〈リハーサルに基づくビデオ処理〉
図２５は、リハーサル・データに基づくビデオ編集の例示的技法を示すブロック図である。例示的なサーバー・システム２５０２は、リハーサル・ビデオ・データに基づいてライブ・ビデオ・データについての編集決定を提供するよう構成される。サーバー・システム２５０２は、一つまたは複数のプロセッサを含むことができる。

【0258】

サーバー・システム２５０２は、ライブ・データ２５０４、たとえば音楽実演のライブのオーディオおよびビデオまたは任意のイベントのライブのオーディオおよびビデオを、リハーサル・ビデオ・データおよびリハーサル・オーディオ・データに基づいて自動的に編集するよう構成される。ライブ・データは、M個のビデオ捕捉装置、たとえば一つまたは複数のビデオ・カメラによって捕捉された実演のM個のビデオ信号２５０６を含む。オーディオ・データ２５０８は、N個のオーディオ捕捉装置、たとえば一つまたは複数のマイクロフォンからのN個のオーディオ信号を含む。オーディオ捕捉装置の数および位置は任意であることができる。よって、オーディオ捕捉装置のそれぞれの入力利得は未知であってもよい。オーディオ捕捉装置の配置のため、オーディオ信号のレベルは、実演者がプレイしている自然なまたは知覚されるレベルと直接的には相関しないことがある。

【0259】

サーバー・システム２５０２は、どの実演者がどのレベルでプレイしているかの近似値を、ライブ・データ２５０４およびリハーサル・データ２５１０に基づいて決定することができる。各実演者（performer）は、楽器、楽器を演奏している人、ボーカリストとして実演している人、他の仕方で電子的または物理的な音信号を生成する装置を操作している人であることができる。先に示したように、楽器、ボーカリストおよび装置は音源と称される。たとえば、ライブ・データ２５０４においては、第一の実演者の第一の音源（たとえばベース）に対応するフィードは、第二の実演者の第二の音源（たとえばギター）に比べて低いことが、たとえ実際の実演では第一の音源のほうが第二の楽器よりもずっと大きくプレイしているときであっても、ある。この食い違いは、記録構成によって引き起こされることがある。各音源のチェーンに関わるさまざまな入力段およびオーディオ捕捉装置と音源との間の物理的な距離が異なることができるのである。

【0260】

通常は、人間のオペレーター（たとえばサウンドエンジニア、カメラマンまたはビデオ・ディレクター）が誰がどのレベルで演奏しているかの知識を使って、ビデオをどのように編集するかを決定する。サーバー・システム２５０２は、その知識をリハーサル・データ２５１０から導出して、ユーザー選好、たとえば芸術的な設定を指定する一つまたは複数の編集規則を適用して、人間のオペレーターの編集をシミュレートする編集を実行することができる。

【0261】

サーバー・システム２５０２は、リハーサル・フェーズにおいて、リハーサル・データ２５１０を使って、カメラ・フィードにおいて各実演者がどこに位置しているかを判別できる。サーバー・システム２５０２は次いで、音源の音と実演者との間のマップを生成する。これは、実演者またはオペレーターがマッピングを手動で入力することを要求しない。

【0262】

リハーサル・フェーズにおいて、バンドは、ライブ実演におけるのと同じレイアウトで、ステージ上のさまざまな位置に音源を位置決めする。一つまたは複数のオーディオ捕捉装置および一つまたは複数のビデオ捕捉装置も、リハーサルにおいて、ライブ実演におけるのと同じレイアウトで位置決めされる。各オーディオ捕捉装置は、空気圧（空気圧勾配）マイクロフォン、直接入力フィード（たとえば電子キーボードからの）またはデジタル音源（たとえば音楽制作ソフトウェアを走らせているラップトップ）によって生成されるデジタル領域信号において捕捉する装置であることができる。少なくとも一つのビデオ捕捉装置は、バンドにおけるすべての音源および実演者が単一のビデオ・フレームにおいて捕捉されることができるように位置されたビデオ・カメラである。サーバー・システム２５０２は、リハーサルのオーディオおよびビデオ記録を、ライブ・データ２５０４を編集するためのパラメータを構成するために、リハーサル・データ２５１０として使うことができる。

【0263】

リハーサル・データ２５１０は、リハーサル・オーディオ・データ２５１２およびリハーサル・ビデオ・データ２５１４を含む。サーバー・システム２５０２の解析モジュール２５１６は、音源のラウドネス範囲を、最終的なデジタル・ストリームにおいて存在するデジタル・ラウドネス範囲に関係付ける。このように、解析モジュール２５１６は、信号の捕捉と最終的なデジタル表現との間で関わってくる複数レベルの段を較正する。いくつかの実装では、解析モジュール２５１６は、オーディオ捕捉装置のそれぞれによって捕捉される各音源のそれぞれの平均デジタル範囲を決定する。該平均は、低レベルでのソフト・プレイと高レベルでのラウド・プレイとの間のEBUラウドネス・レベルの間の重み付けされた平均であることができる。

【0264】

解析モジュール２５１６は、リハーサル・ビデオ・データ２５１４を解析して、ビデオ・フレームにおいて各実演者がどこに位置されているかを判別することができる。解析モジュール２５１６は、この判別を、人間検出、顔検出アルゴリズム、胴体検出アルゴリズム、背景減算によるプレフィルタリングならびに上記および他のオブジェクト認識アルゴリズムの任意の組み合わせを使って行なうことができる。いくつかの例示的なアルゴリズムは、主成分解析（PCA: principal component analysis）、線形判別分析（LDA: linear discriminant analysis）、ローカル・バイナリー・パターン（LBP: local binary patterns）、顔特色コード（FTC: facial trait code）、アンサンブル投票アルゴリズム（EVA: ensemble voting algorithm）、深層学習ネットワーク（DLN: deep learning network）などを含む。

【0265】

いくつかの実装では、解析モジュール２５１６は、音源検出器を含む。音源検出器は、リハーサル・オーディオ・データ２５１２を解析して、それぞれの個別の音源を識別し、メディア・インテリジェンスを適用してそれが低レベル（たとえばベース、ピアのまたはボーカル）、高レベル（たとえばハーモニック、打奏）および両方においてどんな型の音源であるかを判別するよう構成される。いくつかの実装では、解析モジュール２５１６において実行されている一つまたは複数の楽器認識（MIR: musical instrument recognition）プロセスが、イベントのグローバル記述子を取得することができる。グローバル記述子はたとえば、プレイされている音楽ピースのジャンルがロック、クラシック、ジャズなどであるかどうかを示す。解析モジュール２５１６は、音源型およびグローバル記述子を、ライブ・データ２５０４を編集するために自動ビデオ編集エンジン（AVEE; automatic video editing engine）２５１８に提供することができる。

【0266】

解析モジュール２５１６は、解析モジュール２５１６によって検出された各実演者を、音源のそれぞれの音と関係付ける。たとえば、解析モジュール２５１６は、解析モジュール２５１６によって認識された顔を、特定の音、たとえばギターの音とマッピングすることができる。いくつかの実装では、解析モジュール２５１６は、音および顔を順序付けることによって、マッピングを決定する。たとえば、リハーサル・オーディオ・データ２５１２は、順に、たとえばビデオから見て左から右へとプレイする諸音源を含むことができる。解析モジュール２５１６は、次いで、検出されたいちばん左の顔を、リハーサルにおいてプレイした第一の音源と関係付ける。別の例では、カスタマイズされたグラフィカル・インターフェースを介して直接の人間入力によって、たとえばビデオ装置の一つによって捕捉されたバンドのスチール・フレームを示して、ユーザーに各実演者をタップして、どの音源を彼が演奏しているかを事前に中身を入れられたメニューから選択するよう促すことによって、前記データが収集される。

【0267】

バンドがリハーサルを終えた後、バンドはライブ実演を開始してもよい。サーバー・システム２５０２は、リハーサル中と同じ仕方でライブ・データ２５０４を捕捉する。音源、たとえば実演者は、ライブ実演およびリハーサルにおいてほぼ同じ位置に位置されることができる。オーディオおよびビデオ捕捉装置は、リハーサルにおいてと同じ位置に置かれる。サーバー・システム２５０２は、ライブ・オーディオ・データ２５０８を推定モジュール２５２０および特徴抽出モジュール２５２２に供給する。推定モジュール２５２０は、各音源または音源の各群の、所与の瞬間におけるラウドネスを決定するよう構成される。推定モジュール２５２０の出力は、たとえばリハーサルの間にプレイされたラウドネスを基準としたdBでの、それぞれの音源または音源の群の音レベルを含むことができる。たとえば低レベルから、高レベルからまたは平均からXdBなどである。リハーサル中のラウドネスを基準とすることは、各音源のアナログからデジタルへの変換の間に使われる、潜在的に異なるレベル段に関係した曖昧さをなくすことができる。

【0268】

特徴抽出モジュール２５２２は、ライブ・オーディオ・データ２５０８の時間変化する特徴を、たとえばMIRアルゴリズムを使うことによって、取得するよう構成される。特徴抽出モジュール２５２２は、たとえばダウンビート検出を含むビート検出、新規性インデックス、テンポ、調和度（harmonicity）の計算などを含む動作を実行することができる。

【0269】

サーバー・システム２５０２は、ライブ・ビデオ・データ２５０６を適応追跡モジュール２５２４に供給することができる。適応追跡モジュール２５２４は、適応的な顔追跡、実演者追跡または他のオブジェクト追跡を実行するよう構成される。このように、適応追跡モジュール２５２４は、ステージを去ることがありうる、よってフォーカスされるべきではない実演者を考慮に入れる。適応追跡モジュール２５２４は、たとえば歌手がステージ上で歩き、踊るときに、もとの位置から有意に動く実演者を追跡するようにも構成される。

【0270】

解析モジュール２５１６、推定モジュール２５２０および特徴抽出モジュール２５２２はAVEE ２５１８に出力を提供する。AVEE ２５１８は、システム２５０２の、実演者のフレーミング（framing）を含む動作を実行するよう構成されたコンポーネントである。通常の顔検出アルゴリズムは、各人の顔がどこにあるかを特定しうるが、その顔をズームおよびクロッピングのためにどのようにフレームに収めるかは特定しない。AVEE ２５１８は、各顔のそれぞれのサイズおよびそれぞれの位置を使って、もとの高精細度ビデオ・フレームのうちの、対応する実演者のフォーカスされたビューを提供する対応するサブフレームのそれぞれのサイズおよびそれぞれの位置を導出する。サブフレームは、AVEE ２５１８またはビデオ捕捉装置が、より高い解像度（たとえば4K）フレームからクロッピングする、より低い解像度（たとえば720p）のフレームであることができる。AVEE ２５１８は該サブフレームを、イベントの画像として呈示することができる。AVEE ２５１８は、サイズに基づき、位置に基づき、顕著性に基づくカット決定において、フレームのサイズおよび位置を決定することができる。

【0271】

サイズに基づくカット決定では、AVEE ２５１８は、顔比例フレーミング（facial proportion framing）・アルゴリズムを使ってサブフレームのサイズを決定する。ここで、AVEE ２５１８はサブフレームのサイズを、実演者の認識された顔に比例するよう決定する。たとえば、AVEE ２５１８は実演者のサブフレームの高さが、顔の直径のX（たとえば5）倍であると決定することができる。AVEE ２５１８は、サブフレームの幅が、事前に指定されたアスペクト比を達成する高さの倍数であると決定することができる。同様に、AVEE ２５１８は、実演者のサブフレームの幅が顔直径のY（たとえば8）倍であると決定することができる。AVEE ２５１８は、サブフレームの高さがアスペクト比を達成する重みの倍数であると決定することができる。AVEE ２５１８は、顔がサブフレームにおいて、水平方向では中央に、サブフレームの上端から1/3下がったところに配置されると決定することができる。

【0272】

代替的または追加的に、いくつかの実装では、AVEE ２５１８は、サブフレームのサイズを、手比例アルゴリズムを使って決定する。ここで、AVEE ２５１８はサブフレームのサイズを、実演者の認識された手または認識された両手に比例するよう決定する。代替的または追加的に、いくつかの実装では、AVEE ２５１８は、サブフレームのサイズを、音源比例アルゴリズムを使って決定する。ここで、AVEE ２５１８はサブフレームのサイズを、認識された音楽音源または認識された音源または他の関心対象エリア（単数または複数）に比例するよう決定する。

【0273】

位置に基づくカット決定では、AVEE ２５１８は、高解像度フレームにおけるサブフレームの位置を、動き追跡を使って決定することができる。たとえば、適応追跡モジュール２５２４が実演者がステージを横断して動いていることを通知し、動きの経路を提供するとき、AVEE ２５１８は、顔によって識別される実演者に追従し、フォーカス・ビューのサブフレームを該経路に沿って動かすことができる。

【0274】

顕著性に基づくカット決定では、AVEE ２５１８は、サブフレームを、顕著な実演者または顕著な実演者の群に置く。AVEE ２５１８は、実演者の顕著性を、ライブ・オーディオ・データ２５０８からのさまざまな状態に基づいて決定することができる。たとえば、推定モジュール２５２０および特徴抽出モジュール２５２２の出力から、AVEE ２５１８は、実演者がその実演において特定の瞬間に顕著である確からしさを決定することができる。AVEE ２５１８は、その確からしさに基づいて、次のビデオ・カットにおける実演者を選択することができる。その確からしさが高いほど、次のカットについて選択される確率が高くなる。AVEE ２５１８がその実演者をカバーするサブフレームを選択する確からしさは、実演者が顕著である確からしさに正に相関する。たとえば、実演者が顕著である確からしさが高いほど、AVEE ２５１８がその実演者をカバーするサブフレームを選択する可能性が高い。AVEE ２５１８は、実演者が顕著である確からしさを、オーディオ特色（trait）に基づいて決定することができる。該オーディオ特色は、たとえば、対応する実演者のそれぞれのオーディオ信号のエネルギー（たとえばRMSエネルギー）、実演の最後のN秒に比べたRMSエネルギー・デルタ（増大または減少）、音符開始頻度（note onset frequency）、テンポ変化などの特色を含む。追加的または代替的に、AVEE ２５１８は、顕著性を決定するためにさまざまなビデオ特色を使うことができる。ビデオ特色は、たとえば、サブフレーム境界内の動きを含むことができる。

【0275】

AVEE ２５１８は、音楽のペースおよびフローにマッチするビデオ編集を生成することができる。たとえば、AVEE ２５１８は、カットの平均頻度が、特徴（feature）抽出モジュール２５２２によって推定される音楽のテンポと相関するような仕方でカットを決定することができる。AVEE ２５１８は、ライブ・オーディオ・データ２５０８の新規性における、所与の閾値より上にある変化とカットを整列させることによって、それぞれの特定のカットの精密なタイミングを決定することができる。任意的に、閾値は音楽のテンポに関係している。より速いテンポはより低い閾値に、よってカットの、より高い頻度に対応する。変化は、たとえば、全体的なラウドネスまたは音色における変化または一または複数の実演者がプレイを始めるまたは止めることを含むことができる。AVEE ２５１８は、実演の音楽構造の評価に基づいて、カットのタイミングを決めることができる。たとえば、AVEE ２５１８は、カットを、音楽の小節または楽句と時間的に揃えることができる。

【0276】

AVEE ２５１８は、カットすべきサブフレームの選択を、解析モジュール２５１６、推定モジュール２５２０、特徴抽出モジュール２５２２および任意的には適応追跡モジュール２５２４からの出力を含むパフォーマンス・メトリックに基づいて決定することができる。パフォーマンス・メトリックは、各実演者についてのそれぞれの顕著性メトリック、各実演者についてのサブフレームのそれぞれの指定、上記のようなサイズに基づき、位置に基づき、顕著性に基づくカット決定を含むことができる。AVEE ２５１８は、どのサブフレームをカットするかの選択を、以下のような例示的プロセスを使って決定できる。

【0277】

AVEE ２５１８は、新規性インデックスの次のピークを検出できる。AVEEは、ピークを、最大ラウドネスに続く、あらかじめ定義されたおよび／または構成設定可能な閾値時間、閾値レベルまたはその両方を超える減衰を使って定義することができる。

【0278】

AVEE ２５１８は、最後のカット以降の経過時間および全実演者を示すフルフレーム・ショット以降の経過時間を決定することができる。最後のカット以降の経過時間があらかじめ決定されたおよび／または構成設定可能な最小カット長未満であることを判別すると、AVEE ２５１８は、新規性インデックスの次のピークを検出する第一段に戻ることができる。フルフレーム・ショット以降の経過時間が閾値を超えることを判別すると、AVEE ２５１８はフルフレームにカットすることができる。AVEE ２５１８は、該閾値を、カットの数またはテンポから導出される継続時間を用いて定義できる。

【0279】

AVEE ２５１８は、一または複数の実演者を、該実演者のサブフレームが閾値時間を超える時間にわたって示されている場合には、選択可能性から消去することができる。AVEE ２５１８は、この閾値時間をテンポに基づいて決定することができる。たとえば、より速いテンポは、より短い閾値時間に対応することができる。

【0280】

AVEE ２５１８は、リード・ロールをもつと指定された実演者の顕著性を、全実演者の間の最大の顕著性にマッチするようブーストすることができる。AVEE ２５１８は、ユーザー・インターフェースから受領された入力に基づいて、リード・ロールをもつ一または複数の実演者を指定することができる。

【0281】

AVEE ２５１８は、顕著性値が全実演者の間での最大顕著性からX（たとえば3）dB以内である実演者のリストを構築することができる。AVEE ２５１８は、このリストに、リード実演者についての追加エントリーを加えることができる。AVEE ２５１８は、リストに加える追加エントリーの数を決定することができる。たとえば、追加エントリーの数は、全実演者の数と相関することができる。AVEE ２５１８は、上記のように実演者を選択する仕方から、ランダムに実演者を選択することができる。

【0282】

ビデオ編集についての決定に基づいて、AVEE ２５１８はライブ・ビデオ・データ２５０６をリアルタイムで、たとえば実演が進行中に、編集することができる。AVEE ２５１８は、記憶のためまたは一つまたは複数のユーザー装置にストリーミングするために、編集されたビデオ・データを提供することができる。ストリーミングの場合、AVEE ２５１８は、上記のような処理を実行するためのバッファリングのために、AVEE ２５１８において先読み時間〔ルックアヘッド時間〕を使うことができる。先読み時間は、X秒、たとえば1秒超、5～10秒などであるよう事前に構成されることができる。AVEE ２５１８は、先読み時間を、ストリーミングを受領するクラウド・サービス・アプリケーションにおいて必要とされるバッファリングの量に基づいて決定することができる。コンテンツがストリーミングされるのではなく記憶されるオフラインの場合には、AVEE ２５１８は、先読み時間を無限大または実演全体もしくは歌全体をカバーさせる十分大きな任意の時間期間に設定することができる。

【0283】

便宜上、追跡は、実演者を参照して記述される。さまざまな実装において、追跡は実演者に限定される必要はない。たとえば、楽器（たとえばギター）または楽器の一部（たとえばギター・ネック）または実演者の一部（ピアノ奏者の手）を追跡することが可能である。AVEE ２５１８は、これらのエリアを、フォーカスされるべきであり、フレーミングするべきである潜在的な候補として指定することができる。

【0284】

図２５では、解析モジュール２５１６、AVEE ２５１８、推定モジュール２５２０、特徴抽出モジュール２５２２および適応追跡モジュール２５２４が便宜上、別個のモジュールとして示されている。さまざまな実装において、これらのモジュールは組み合わされるまたは細分されることができる。たとえば、いくつかの実装では、解析モジュール２５１６、推定モジュール２５２０、特徴抽出モジュール２５２２および適応追跡モジュール２５２４の機能はAVEE ２５１８によって実装されることができる。いくつかの実装では、AVEEはビデオ編集決定をして、該決定を一つまたは複数のビデオ捕捉装置への命令として提供する。すると、該一つまたは複数のビデオ捕捉装置が、該決定を実施することを実行する。

【0285】

図２６は、リハーサル・データに基づくビデオ編集の例示的プロセス２６００を示すフローチャートである。プロセス２６００は、サーバー・システム、たとえば図２５のサーバー・システム２５０２によって実行されることができる。

【0286】

サーバー・システムは、一つまたは複数の記録装置から、リハーサル・ビデオ・データおよびリハーサル・オーディオ・データを含むリハーサル・データを受領する（２６０２）。リハーサル・データは、イベントの一または複数の実演者によるイベントのリハーサルを表わす。一つまたは複数の記録装置は、一つまたは複数のマイクロフォンおよび一つまたは複数のビデオ・カメラを含む。一つまたは複数のビデオ・カメラは、高分解能ビデオ・カメラとして指定される少なくとも一つのビデオ・カメラ、たとえば4K対応ビデオ・カメラを含むことができる。

【0287】

サーバー・システムは、リハーサル・ビデオ・データから、前記一または複数の実演者の各実演者のそれぞれの画像を認識する（２６０４）。それぞれの画像を認識することは、実演者または実演者によって演奏される楽器の少なくとも一方のビデオ・ベースの追跡に基づくことができる。たとえば、認識は、顔認識、楽器認識または他のオブジェクト認識に基づくことができる。

【0288】

サーバー・システムは、リハーサル・オーディオ・データから、それぞれの認識された画像に関連付けられた対応するサウンド属性を決定する（２６０６）。サウンド属性は、サウンド型、サウンド・レベルまたは両方を含むことができる。サウンド型は、実演者によって使われる楽器の型、たとえばギター、ドラムまたはボーカルを示すことができる。

【0289】

サーバー・システムは、前記一つまたは複数の記録装置から、イベントのライブ・ビデオ・データおよびライブ・オーディオ・データを含むライブ・データを受領する（２６０８）。いくつかの実装では、ライブ・データは、前記一つまたは複数の記録装置上、サーバー・システム上または両方に、データの処理時間に応じた、かつ結果が記憶されるかユーザー装置にストリーミングされるかに応じた時間期間にわたってバッファリングされることができる。

【0290】

サーバー・システムは、認識された画像および関連付けられたサウンド属性に基づいて、各実演者のそれぞれの顕著性を決定する（２６１０）。システムは、リハーサルに対して各実演者がプレイするそれぞれのレベルならびに前記一つまたは複数のビデオ・カメラによって捕捉されたリハーサルの間の各実演者のそれぞれの位置を導出することができる。サーバー・システムは、上記のような優勢な音源を決定する技法を使って、顕著な実演者を決定することができる。いくつかの実装では、第一の実演者が顕著な実演者であることを決定することは、以下の動作を含むことができる。サーバー・システムは、諸実演者の間の各ラウドネス・レベルを、ライブ・リハーサル・オーディオ・データに基づいて正規化する。サービス・システムは、ライブ・オーディオ・データにおいて、少なくとも一の実演者が、正規化後に少なくとも閾値量、他の実演者の正規化されたラウドネス・レベルより上のレベルで実演していることを判別する。すると、サービス・システムは、第一の実演者が顕著な実演者であると判別することができる。

【0291】

いくつかの実装では、各ラウドネス・レベルを正規化することは、以下の動作を含むことができる。サーバー・システムは、リハーサル・オーディオ・データから、各実演者の第一のレベルの音と、各実演者の第二のレベルの音とを決定することができる。第一のレベルは第二のレベルより低い。次いで、サーバー・システムは、第一のレベルをスケーリングおよび整列し、第二のレベルをスケーリングおよび整列することによって、各ラウドネス・レベルを正規化する。

【0292】

いくつかの実装では、第一の実演者が顕著な実演者であることを判別することは、以下の動作を含むことができる。サーバー・システムは、ライブ・ビデオ・データに基づいて、第一の実演者の動きの量が他の実演者の動きの量を、少なくとも閾値だけ超えることを判別する。すると、サーバー・システムは、第一の実演者が顕著な実演者であることを、動きの量に基づいて判別する。

【0293】

サーバー・システムは、一つまたは複数の編集規則に従って、ライブ・ビデオ・データおよびライブ・オーディオ・データを編集する（２６１２）。ライブ・データを編集する際、サーバー・システムは、少なくとも一の実演者を、それぞれの顕著性に基づいて強調する。たとえば、編集は、ボーカリスト、楽器またはバンドもしくはオーケストラの複数の実演者を含むセクション（たとえば金管セクションまたは木管セクション）を強調することができる。編集は、サーバー・システムによってライブ・ビデオ・データに対して実行されることができる。いくつかの実装では、編集は、記録装置によって実行されることができる。たとえば、サーバー・システムは、記録装置に編集命令を提供して、記録装置に編集動作を実行させることができる。

【0294】

ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、ライブ・オーディオ・データに基づいてイベントのペースおよびテンポを決定することを含むことができる。次いで、サーバー・システムは、ペースおよびテンポに従ってライブ・ビデオ・データをカットすることができる。ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、実演者、たとえば第一の実演者が演奏を開始したまたは停止したことを判別することを含むことができる。すると、サーバー・システムは、応答して、たとえば実演者が演奏を開始したまたは停止した時刻において、ライブ・ビデオ・データをカットすることができる。

【0295】

いくつかの実装では、ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、以下の動作を含む。サーバー・システムは、全実演者を示すフルフレーム・ショット以降に経過した時間が閾値時間を超えることを判別する。サーバー・システムは、応答してライブ・ビデオ・データをカットすることができる。サーバー・システムは、閾値時間を、ライブ・オーディオ・データのテンポから導出された時間の継続時間またはカット数に基づいて決定することができる。

【0296】

次いで、サーバー・システムは、編集されたデータを再生のために提供する（２６１４）。サーバー・システムは、編集されたライブ・ビデオ・データおよび編集されたライブ・オーディオ・データの関連付けを記憶装置に記憶するまたは編集されたライブ・ビデオ・データおよび編集されたライブ・オーディオ・データの関連付けをユーザー装置にストリーミングすることができる。

【0297】

〈フレーム領域選択〉
図２７は、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的技法を示すブロック図である。ライブ・イベント、たとえばコンサートにおいて、少なくとも一つのビデオ捕捉装置２７０２がイベントのビデオを捕捉する。少なくとも一つのオーディオ捕捉装置２７０４がイベントのオーディオを捕捉する。装置２７０２および２７０４はライブ・ビデオ・データおよびライブ・オーディオ・データをサーバー・システム２７０６に通信ネットワーク２７０８、たとえばインターネットを通じて提出する。ビデオ捕捉装置２７０２はビデオを高分解能、たとえば4Kで記録しうる。高分解能ビデオは、サーバー・システム２７０６にアップロードするまたはサーバー・システム２７０６からユーザー装置にダウンロードするために、通信ネットワーク２７０８のあまりに多くの帯域幅を消費することがある。

【0298】

サーバー・システム２７０６は、図２５を参照して記述したサーバー・システム２５０２と同じであるまたは異なることができる。サーバー・システム２７０６は、中程度の解像度、たとえば720pのビデオを記憶するまたはユーザー装置にストリーミングすることができる。ビデオ捕捉装置２７０２は、サーバー・システム２７０６のスレーブとして構成されることができる。サーバー・システム２７０６のスレーブとして、ビデオ捕捉装置２７０２は、サーバー・システム２７０６からのコマンドに従い、ズームし、クロッピングし、ビデオ・データの焦点〔フォーカル・ポイント〕を選択する。オーディオ捕捉装置２７０４からライブ・オーディオ・データを受領するサーバー・システム２７０６は、サブフレームを選択することについての決定をし、選択されたサブフレームをサーバー・システム２７０６に提出するようビデオ捕捉装置２７０２に指令する。

【0299】

サーバー・システム２７０６は、イベントにおけるフルバンド〔バンド全体〕の少なくとも一つのビデオ・フレームを受領する。ビデオ・フレームはすべての実演者を含んでいる。ビデオ・フレームは、フル解像度である必要はなく、任意的に、不可逆コーデックを使って圧縮されることができる。次いで、サーバー・システム２７０６は、ライブ・オーディオ・データに基づいてどこにフォーカスするかおよびどのサブフレームを選択するかを決定する。サーバー・システム２７０６は、ビデオ捕捉装置２７０２に、選択されたサブフレームのみの中程度の解像度のライブ・ビデオをサーバー・システム２７０６に提出するよう指令する。

【0300】

ビデオ捕捉装置２７０２は、ビデオ・バッファ２７１０を含むことができる。ビデオ・バッファ２７１０は、フル解像度でのビデオ・データのX秒（たとえば10秒）ぶんを記憶するよう構成されたデータ記憶部である。ビデオ・データは、一連のフルバンド・フレーム２７１２および関連付けられた時間情報を含むことができる。ビデオ捕捉装置２７０２はビデオ変換器２７１４を含む。ビデオ変換器２７１４はフルバンド・フレーム２７１２をフル解像度から一連の、より低い解像度（たとえば720pまたは640×480）の画像に変換する。ビデオ変換器２７１４は、該より低い解像度の画像をサーバー・システム２７０６に、低下したフレームレート（たとえば1fps）で提出する。その間、ビデオ捕捉装置２７０２はビデオ・バッファ２７１０内のビデオ・ストリームを中程度の解像度のビデオに変換し、該中程度の解像度のビデオをサーバー・システム２７０６に、標準的なフレーム・レート（たとえば24fps）で提出する。

【0301】

初期時刻t0においては、提出されるビデオは、前記より低い解像度の画像と一致するフレームをもつ、フルバンドをカバーするビデオであってもよい。次いで、ビデオ捕捉装置２７０２は、前記中程度の解像度のビデオ・データおよび前記画像をサーバー・システム２７０６に提出することを続けながら、サーバー・システム２７０６からの編集決定についての命令を待つ。

【0302】

サーバー・システム２７０６はAVEE ２７１８を含んでいる。AVEE ２７１８は、図２５のAVEE ２７１８と同じであるまたは異なることができる。AVEE ２７１８は、フルフレーム画像およびライブ・オーディオ・データを受領する。AVEE ２７１８は、フルフレーム画像およびオーディオ捕捉装置２７０４から受領されたライブ・オーディオ・データに基づいて、どの実演者または楽器にフォーカスするかを決定するよう構成される。たとえば、AVEE ２７１８は、時刻t1では歌手が顕著な実演者であることを判別することができる。すると、AVEE ２７１８は、時刻t1からのビデオにおいては顕著な実演者、この例では歌手にズームする命令を発することができる。その命令は、センサー・ピクセル座標、たとえば左からXピクセル、下からYピクセル、サイズおよび時刻t1に関連付けられることができる。

【0303】

その命令に応答して、ビデオ捕捉装置２７０４は、その命令に従った編集を実施する。ビデオ捕捉装置２７０４は対応する時刻t1のビデオ・バッファ２７１０からのビデオ・データを取得する。ビデオ捕捉装置２７０４は座標に従って位置をクロッピングする。ビデオ捕捉装置２７０４はクロッピングされたビデオ・データを指定されたサイズに調整し、変換されたフルフレーム画像をサーバー・システム２７０６に提出することを続ける一方で、調整されたビデオ・データをサーバー・システム２７０６に提出する。ビデオ捕捉装置２７０４は、調整されたビデオ・データを標準的なフレームレート、たとえば24fpsで提出することができる。こうして、サーバー・システム２７０６は、時刻t1からは顕著な実演者、たとえば歌手にフォーカスするビデオを受け取ることになる。

【0304】

サーバー・システム２７０６に提出されたライブ・オーディオ・データおよび画像に基づいて、サーバー・システム２７０６は、第二の時刻t2において、第二の実演者、たとえばバイオリニストが顕著な実演者になることを判別することができる。すると、サーバー・システム２７０６は、バイオリニストのビデオを含むライブ・ビデオの部分にフォーカスするよう、ビデオ捕捉装置２７０４に命令を与える。サブフレームの位置およびサイズならびに時刻t2を指定する前記命令を受信すると、ビデオ捕捉装置２７０４は、クロッピング座標を変更し、バイオリニストを含む、クロッピングされ、任意的にはサイズ変更されたビデオをサーバー・システム２７０６に提出する。よって、サーバー・システム２７０６は時刻t2からはバイオリニストの中程度の解像度のビデオを受領する。

【0305】

サーバー・システム２７０６は、アセンブリー・ユニット２７２０を含んでいる。アセンブリー・ユニット２７２０は、ビデオ捕捉装置２７０２からの中程度の解像度のビデオ・データおよびオーディオ捕捉装置２７０４からのライブ・オーディオ・データを記憶のためまたはユーザー装置へのストリーミングのためにまとめるよう構成されている。ライブ・ストリーミングのためには、アセンブリー・ユニット２７２０は、まとめられたビデオ・ストリームの先頭に遅延を加えることができる。ビデオ・バッファ２７１０および該遅延の両方が、決定およびデータ伝送におけるレイテンシーを補償できる。たとえば、サーバー・システム２７０６は、ドラマーが参入するときにドラマーにズームすることを決定し、メモリに保持されているバッファの、ドラマーが参入する時点に対応する場所でドラマーにフォーカスするようビデオ捕捉装置２７０２に指令することができる。この時刻は、ビデオ捕捉装置２７０２がそのコマンドを受領するX（たとえば0.2）秒前であってもよい。すると、サーバー・システム２７０６は新しい編集されたビデオを受け取り、それを観衆にサービスするが、その際、決定をしてコマンドを送信する時間を隠蔽するよう前記遅延を使う。

【0306】

図２８は、サーバー・システムによって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセス２８００のフローチャートである。サーバー・システムは図２７のサーバー・システム２７０６であることができる。

【0307】

サーバー・システムは、一つまたは複数のオーディオ捕捉装置からイベントのオーディオ・データを、またイベントのビデオ・データの少なくとも一つのフレームを受領する。ビデオ・データは、第一の解像度でビデオを記録するよう構成されたビデオ捕捉装置によって捕捉される。第一の解像度は4K以上であることができる。フレームは、第一の解像度と同じまたはそれ未満の解像度をもつことができる。イベントのビデオ・データのフレームは、ビデオ・データの一連のフレームのうちのフレームであることができる。一連のフレームはサーバー・システムにおいて、フレーム捕捉レート（たとえば24fps以上）より低いフレームレート（たとえば1fps以下）で受領されることができる。いくつかの実装では、イベントのすべての実演者を捕捉する単一のフレームが十分である。いくつかの実装では、ビデオ捕捉装置は、イベントの間に動いたことがありうる実演者をカバーするために、複数のフレームをサーバー・システムに提出する。

【0308】

サーバー・システムは、オーディオ・データおよびビデオ・データのフレームから認識された個々の実演者の画像に基づいて、イベントの個々の実演者の各人のそれぞれの位置を判別する（２８０４）。サーバー・システムは、この判別を、リハーサル・データに基づいて行なうことができる。

【0309】

サーバー・システムによってオーディオ・データから個々の実演者のうちの第一の実演者が第一の時刻において顕著な実演者であると判別すると、サーバー・システムは、ビデオ捕捉装置に、ビデオ・データの第一の部分を第二の解像度でサーバー・システムに提出するよう指令する（２８０６）。ビデオ・データの第一の部分は、第一の時刻において捕捉された第一の実演者の位置に空間的に向けられる。第二の解像度は1080p以下であることができる。

【0310】

サーバー・システムによってオーディオ・データから個々の実演者のうちの第二の実演者が第二の時刻において顕著な実演者であると判別すると、サーバー・システムは、ビデオ・レコーダーに、ビデオ・データの第二の部分を前記第二の解像度でサーバー・システムに提出するよう指令する（２８０８）。ビデオ・データの第二の部分は、第二の時刻において捕捉された第二の実演者の位置に空間的に向けられる。

【0311】

サーバー・システムは、ビデオ・データの第一の部分および第二の部分を、第二の解像度でのイベントのビデオとして指定する（２８１０）。次いで、サーバー・システムは、オーディオ・データおよび第二の解像度でのイベントのビデオを関連付けたもの（association）を、イベントのオーディオおよびビデオ記録として、記憶装置またはユーザー装置に提供する（２８１２）。たとえば、サーバー・システムは、第二の解像度でのイベントのビデオの遅延を加えることができる。次いで、サーバー・システムは遅延されたビデオおよび関連付けられたオーディオ・データを、一つまたは複数のユーザー装置にストリーミングする。

【0312】

いくつかの実装では、ビデオ捕捉装置は、第一の解像度でのビデオ・データのある期間をバッファリングする。サーバー・システムからのコマンドに応答して、ビデオ捕捉装置は、サーバー・システムに提出すべき第一の実演者および第二の実演者に対応するバッファリングされたビデオ・データのフレームの位置を選択する。

【0313】

図２９は、ビデオ捕捉装置によって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセス２９００のフローチャートである。

【0314】

ビデオ捕捉装置はビデオ・データを第一の解像度で記録する（２９０２）。第一の解像度は4K以上であることができる。ビデオ捕捉装置は、ビデオ・データをビデオ捕捉装置のローカル・バッファに記憶する（２９０４）。ビデオ捕捉装置は、記録されたビデオ・データから一つまたは複数の画像の系列を決定する（２９００）。ビデオ捕捉装置は、第一のフレームレートでサーバー・システムに一連の一つまたは複数の画像を提出する（２９０８）。第一のフレームレートは毎秒1フレーム以下であることができる。ビデオ捕捉装置は、サーバー・システムから、ビデオ・データの一部にフォーカスする命令を受領する（２９１０）。該命令は、記録されたビデオ・データの前記一部の時間的位置および空間的位置を示す。

【0315】

前記命令に応答して、ビデオ捕捉装置は示された時間的位置および空間的位置に従って、ローカル・バッファに記憶されているビデオ・データの前記一部を、第一のフレームレートより高い第二のフレームレートをもつ、第二の解像度のビデオ・データに変換する（２９１２）。第二のフレームレートは毎秒24フレーム以上であることができる。次いで、ビデオ捕捉装置は、第二の解像度の変換されたビデオ・データをサーバーに、イベントのライブ・ビデオ・データとして提出する（２９１４）。

【0316】

〈例示的な記録装置アーキテクチャー〉
図２１は、図１～図２０および図２４～図２９を参照して述べた特徴および動作を実装する装置の例示的な装置アーキテクチャー２１００を示すブロック図である。装置はたとえば、図１の記録装置１０２もしくは１０４または図３の記録装置３０２であることができる。装置は、メモリ・インターフェース２１０２、一つまたは複数のデータ・プロセッサ、画像プロセッサおよび／またはプロセッサ２１０４および／または周辺インターフェース２１０６を含むことができる。メモリ・インターフェース２１０２、一つまたは複数のプロセッサ２１０４および／または周辺インターフェース２１０６は、別個のコンポーネントであることができ、あるいは一つまたは複数の集積回路に統合されていることもできる。プロセッサ２１０４は、アプリケーション・プロセッサ、ベースバンド・プロセッサおよび無線プロセッサを含むことができる。たとえばモバイル装置におけるさまざまなコンポーネントが、一つまたは複数の通信バスまたは信号線によって結合されることができる。

【0317】

周辺インターフェース２１０６には、複数の機能を容易にするよう、センサー、装置およびサブシステムが結合されることができる。たとえば、動きセンサー２１１０、光センサー２１１２および近接センサー２１１４が周辺インターフェース２１０６に結合されて、モバイル装置の方向判別、照明および近接性機能を容易にすることができる。位置プロセッサ２１１５が周辺インターフェース２１０６に接続されて地理的測位を提供することができる。いくつかの実装では、位置プロセッサ２１１５は、GNSS受信器の動作を実行するようプログラムされることができる。電子的磁気計２１１６（たとえば集積回路チップ）も周辺インターフェース２１０６に接続されて、磁北の方向を判別するために使用できるデータを提供することができる。このように、電子的磁気計２１１６は電子的なコンパスとして使用されることができる。動きセンサー２１１０は、モバイル装置の動きの速度および方向の変化を判別するよう構成された一つまたは複数の加速度計を含むことができる。気圧計２１１７は、周辺インターフェース２１０６に接続され、モバイル装置のまわりの大気の圧力を測定するよう構成された一つまたは複数の装置を含むことができる。

【0318】

カメラ・サブシステム２１２０および光学センサー２１２２、たとえば電荷結合素子（CCD）または相補的金属‐酸化物半導体（CMOS）光学センサーは、写真およびビデオ・クリップの記録のようなカメラ機能を容易にするために利用されることができる。

【0319】

通信機能は、一つまたは複数の無線通信サブシステム２１２４を通じて容易にされることができる。通信サブシステム２１２４は、電波周波数受信器および送信器および／または光学（たとえば赤外線）受信器および送信器を含むことができる。通信サブシステム２１２４の具体的な設計および実装は、モバイル装置がそれを通じて動作することが意図されている通信ネットワークに依存することができる。たとえば、モバイル装置は、GSM(登録商標)ネットワーク、GPRSネットワーク、EDGEネットワーク、Wi-Fi（商標）またはWiMax（商標）ネットワークおよびブルートゥース(登録商標)ネットワークを通じて動作するよう設計された通信サブシステム２１２４を含むことができる。特に、無線通信サブシステム２１２４は、モバイル装置が他の無線装置のための基地局として構成されることができるよう、ホスト・プロトコルを含むことができる。

【0320】

オーディオ・サブシステム２１２６は、スピーカー２１２８およびマイクロフォン２１３０に結合されて、音声認識、音声模写、デジタル記録および電話機能といった音声対応機能を容易にすることができる。オーディオ・サブシステム２１２６は、ユーザーから音声コマンドを受領するよう構成されることができる。

【0321】

I/Oサブシステム２１４０は、タッチ表面コントローラ２１４２および／または他の入力コントローラ２１４４を含むことができる。タッチ表面コントローラ２１４２はタッチ表面２１４６またはパッドに結合されることができる。タッチ表面２１４６およびタッチ表面コントローラ２１４２は、たとえば、複数のタッチ感応技術の任意のものを使って接触および移動またはその中断を検出することができる。タッチ感応技術は、これに限られないが、容量性、抵抗性、赤外線および表面弾性波技術ならびに他の近接センサー・アレイまたはタッチ表面２１４６との一つまたは複数の接触点を判別するための他の要素を含む。タッチ表面２１４６はたとえばタッチスクリーンを含むことができる。

【0322】

他の入力コントローラ２１４４は、他の入力／制御装置２１４８、たとえば一つまたは複数のボタン、ロッカースイッチ、サムホイール、赤外線ポート、USBポートおよび／またはポインターデバイス、たとえばスタイラスに結合されることができる。一つまたは複数のボタン（図示せず）は、スピーカー２１２８および／またはマイクロフォン２１３０のボリューム制御のための上／下ボタンを含むことができる。

【0323】

ある実装では、第一の継続時間にわたるボタンの押下が、タッチ表面２１４６のロックを解除してもよい；第一の継続時間より長い第二の継続時間にわたるボタンの押下が、モバイル装置への電力をオンまたはオフしてもよい。ユーザーが、ボタンのうち一つまたは複数のボタンの機能をカスタマイズできてもよい。タッチ表面２１４６は、たとえば、仮想またはソフト・ボタンおよび／またはキーボードを実装するために使われることもできる。

【0324】

いくつかの実装では、モバイル装置は、MP3、AACおよびMPEGファイルのような記録されたオーディオおよび／またはビデオ・ファイルを呈示することができる。いくつかの実装では、モバイル装置は、MP3プレーヤーの機能を含むことができる。他の入力／出力および制御装置が使われることもできる。

【0325】

メモリ・インターフェース２１０２は、メモリ２１５０に結合されることができる。メモリ２１５０は、高速ランダムアクセスメモリおよび／または不揮発性メモリ、たとえば一つまたは複数の磁気ディスク記憶装置、一つまたは複数の光学記憶デバイスおよび／またはフラッシュメモリ（たとえばNAND、NOR）を含むことができる。メモリ２１５０は、オペレーティング・システム２１５２、たとえばiOS、Darwin、RTXC、LINUX、UNIX(登録商標)、OS X、WINDOWS(登録商標)またはVxWorksのような組み込みオペレーティング・システムを記憶することができる。オペレーティング・システム２１５２は、基本的なシステム・サービスを扱うためおよびハードウェア依存のタスクを実行するための命令を含んでいてもよい。いくつかの実装では、オペレーティング・システム２１５２はカーネル（たとえばUNIX(登録商標)カーネル）を含むことができる。

【0326】

メモリ２１５０は、一つまたは複数の追加的な装置、一つまたは複数のコンピュータおよび／または一つまたは複数のサーバーとの通信を容易にするために通信命令２１５４をも記憶していてもよい。メモリ２１５０は、グラフィックユーザインターフェース処理を容易にするためのグラフィカルユーザインターフェース命令２１５６；センサー関係の処理および機能を容易にするためのセンサー処理命令２１５８；電話関係のプロセスおよび機能を容易にするための電話命令２１６０；電子メッセージング関係のプロセスおよび機能を容易にするための電子メッセージング命令２１６２；ウェブ閲覧関係のプロセスおよび機能を容易にするためのウェブ閲覧命令２１６４；メディア処理関係のプロセスおよび機能を容易にするためのメディア処理命令２１６６；一般的なGNSSおよび位置に関係したプロセスおよび機能を容易にするためのGNSS/位置命令２１６８；カメラ関係のプロセスおよび機能を容易にするためのカメラ命令２１７０；磁気計の較正を容易にするための磁気計データ２１７２および較正命令２１７４を含んでいてもよい。メモリ２１５０は、セキュリティー命令、ウェブビデオ関係のプロセスおよび機能を容易にするためのウェブビデオ命令および／またはウェブショッピング関係のプロセスおよび機能を容易にするためのウェブショッピング命令などの他のソフトウェア命令（図示せず）をも記憶していてもよい。いくつかの実装では、メディア処理命令２１６６は、オーディオ処理関係のプロセスおよび機能ならびにビデオ処理関係のプロセスおよび機能をそれぞれ容易にするためのオーディオ処理命令およびビデオ処理命令に分割される。起動レコードおよび国際移動体装置識別情報（IMEI）または同様のハードウェア識別子もメモリ２１５０に記憶されることができる。メモリ２１５０は、プロセッサ２１０４によって実行されると、プロセッサ２１０４に以下を含むさまざまな動作を実行させることができるオーディオ処理命令２１７６を記憶することができる。たとえば、ユーザーアカウントにログインすることによって記録サービスのグループに参加する、装置の一つまたは複数のマイクロフォンをスポット・マイクロフォンまたは主要マイクロフォンとして指定する、一つまたは複数のマイクロフォンを使ってグループの音声信号を記録する、記録した信号をサーバーに提出する。いくつかの実装では、オーディオ処理命令２１７６は、図４および他の図を参照して述べたプロセッサ２０１４にサーバー４０８の動作を実行させることができる。メモリ２１５０は、プロセッサ２１０４によって実行されたときに、プロセッサ２１０４に、図２５～図２９を参照して述べたさまざまな動作を実行させることができるビデオ処理命令を記憶することができる。

【0327】

上記で同定された命令およびアプリケーションのそれぞれは、上記の一つまたは複数の機能を実行するための一組の命令に対応することができる。これらの命令は、別個のソフトウェアプログラム、手順またはモジュールとして実装される必要はない。メモリ２１５０は追加的な命令またはより少数の命令を含むことができる。さらに、モバイル装置のさまざまな機能は、一つまたは複数の信号処理および／または特定用途向け集積回路においてを含め、ハードウェアおよび／またはソフトウェアにおいて実装されうる。

【0328】

図２２は、図１～図２０および図２４～図２９のモバイル装置のための例示的なネットワーク動作環境２２００のブロック図である。装置２２０２ａおよび２２０２ｂはたとえば、データ通信において一つまたは複数の有線および／または無線ネットワーク２２１０を通じて通信することができる。たとえば、無線ネットワーク２２１２、たとえばセルラー・ネットワークは、ゲートウェイ２２１６を使用することにより、インターネットのような広域ネットワーク（WAN）２２１４と通信することができる。同様に、802.11g無線アクセスポイントのようなアクセス装置２２１８が広域ネットワーク２２１４への通信アクセスを提供することができる。装置２２０２ａおよび２２０２ｂのそれぞれは、図１の装置１０２または装置１０４、あるいは図３の記録装置３０２であることができる。

【0329】

いくつかの実装では、音声通信とデータ通信の両方が無線ネットワーク２２１２およびアクセス装置２２１８を通じて確立されることができる。たとえば、装置２２０２ａは、（たとえばインターネットプロトコルを通じた音声（VoIP: Voice over Internet Protocol）プロトコルを使って）電話をかけたり受けたりし、（たとえばポストオフィスプロトコル３（POP3: Post Office Protocol 3）を使って）電子メールメッセージを送受信し、無線ネットワーク２２１２、ゲートウェイ２２１６および広域ネットワーク２２１４を通じて（たとえば伝送制御プロトコル／インターネットプロトコル（TCP/IP）またはユーザデータグラムプロトコル（UDP）を使って）ウェブページ、写真およびビデオのような電子文書および／またはストリームを取得することができる。同様に、いくつかの実装では、デバイス２２０２ｂは、アクセス装置２２１８および広域ネットワーク２２１４を通じて電話をかけたり受けたりし、電子メールメッセージを送受信し、電子文書を取得することができる。いくつかの実装では、装置２２０２ａまたは２２０２ｂは、一つまたは複数のケーブルを使ってアクセス装置２２１８に物理的に接続されることができ、アクセス装置２２１８はパーソナルコンピュータであることができる。この構成では、装置２２０２ａまたは２２０２ｂは「テザリングされた」装置と呼ぶことができる。

【0330】

装置２２０２ａおよび２２０２ｂはまた、他の手段によって通信を確立することもできる。たとえば、無線装置２２０２ａは、無線ネットワーク２２１２を通じて、他の無線装置、たとえば他のモバイル装置、携帯電話などと通信することができる。同様に、装置２２０２ａおよび２２０２ｂは、ピアツーピア通信２２２０、たとえばパーソナル・エリア・ネットワークを確立することができる。これは、ブルートゥース(登録商標)通信装置のような一つまたは複数の通信サブシステムの使用による。他の通信プロトコルおよびトポロジーが実装されることもできる。

【0331】

装置２２０２ａまたは２２０２ｂはたとえば、一つまたは複数の有線および／または無線ネットワークを通じて一つまたは複数のサービス２２３０、２２４０および２２５０と通信することができる。たとえば、一つまたは複数のオーディオおよびビデオ処理サービス２２３０は、上述したような自動的な同期、自動的なレベリング、自動的なパン、自動的な音源等化、自動的なセグメント分割およびストリーミングを含むオーディオ処理のサービスを提供することができる。ミキシング・サービス２２４０は、ミキシング専門家がリモート・コンソールを通じてログインしてライブ・オーディオ・データに対してミキシング操作を実行することを許容するユーザー・インターフェースを提供することができる。視覚効果サービス２２５０は、視覚効果専門家がリモート・コンソールを通じてログインしてビデオ・データを編集することを許容するユーザー・インターフェースを提供することができる。

【0332】

装置２２０２ａまたは２２０２ｂは、一つまたは複数の有線および／または無線ネットワークを通じて他のデータおよびコンテンツにアクセスすることもできる。たとえば、ニュースサイト、RSS（Really Simple Syndication）フィード、ウェブサイト、ブログ、ソーシャルネットワーキングサイト、開発者ネットワークなどのコンテンツ・パブリッシャーは、装置２２０２ａまたは２２０２ｂによってアクセスされることができる。そのようなアクセスは、たとえばユーザーがウェブ・オブジェクトに触れることに応答してウェブ閲覧機能またはアプリケーション（たとえばブラウザ）を呼び出すことによって提供されることができる。

【0333】

〈例示的なシステム・アーキテクチャー〉
図２３は、図１～図２０および図２４～図２９を参照して述べた特徴および動作を実装する例示的なサーバー・システムについてのシステム・アーキテクチャーのブロック図である。より多数またはより少数のコンポーネントをもつアーキテクチャーを含め他のアーキテクチャーも可能である。いくつかの実装では、アーキテクチャー２３００は、一つまたは複数のプロセッサ２３０２（たとえば、デュアルコアIntel（登録商標）Xeon（登録商標）プロセッサ）、一つまたは複数の出力装置２３０４（たとえばLCD）、一つまたは複数のネットワーク・インターフェース２３０６、一つまたは複数の入力装置２３０８（たとえば、マウス、キーボード、タッチ感応性ディスプレイ）および一つまたは複数のコンピュータ可読媒体２３１２（たとえば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリなど）を含む。これらのコンポーネントは、コンポーネント間のデータおよび制御信号の転送を容易にするためにさまざまなハードウェアおよびソフトウェアを利用することができる一つまたは複数の通信チャネル２３１０（たとえばバス）を通じて通信およびデータを交換することができる。

【0334】

「コンピュータ可読媒体」という用語は、実行のためにプロセッサ２３０２に命令を提供することに参加する媒体を指し、不揮発性媒体（たとえば光ディスクまたは磁気ディスク）、揮発性媒体（たとえばメモリ）および伝送媒体を含むがこれらに限定されない。伝送媒体は、同軸ケーブル、銅線および光ファイバーを含むが、これらに限定されない。

【0335】

コンピュータ可読媒体２３１２はさらに、オペレーティング・システム２３１４（たとえば、リナックス（登録商標）オペレーティング・システム）、ネットワーク通信モジュール２３１６、オーディオ処理マネージャ２３２０、ビデオ処理マネージャ２３３０、およびライブ・コンテンツ配送器２３４０を含むことができる。オペレーティング・システム２３１４は、マルチユーザー、マルチ処理、マルチタスク、マルチスレッド、リアルタイムなどであることができる。オペレーティング・システム２３１４は、以下を含むがそれに限定されない基本的なタスクを実行する：ネットワーク・インターフェース２３０６および／または装置２３０８からの入力を認識し、それらに出力を提供する；コンピュータ可読媒体２３１２（たとえばメモリまたは記憶装置）上のファイルおよびディレクトリを追跡し管理する；周辺機器の制御；一つまたは複数の通信チャネル２３１０でのトラフィックの管理。ネットワーク通信モジュール２３１６は、ネットワーク接続を確立し維持するためのさまざまなコンポーネント（たとえば、TCP/IP、HTTPなどの通信プロトコルを実装するためのソフトウェア）を含む。

【0336】

オーディオ処理マネージャ２３２０は、実行されると、プロセッサ２３０２に、たとえばサーバー４０８を参照して上述したようなさまざまなオーディオ推定および操作動作を実行させるコンピュータ命令を含むことができる。ビデオ処理マネージャ２３３０は、実行されると、プロセッサ２３０２に、たとえばビデオ編集器５３０、AVEE ２５１８またはAVEE ２７１８を参照して上述したようなビデオ編集および操作動作を実行させるコンピュータ命令を含むことができる。ライブ・コンテンツ配送器２３４０は、実行されると、プロセッサ２３０２に、参照オーディオ・データおよびオーディオ・イベントのライブ・データを受領し、オーディオおよびビジュアル・データが処理された後に、処理されたライブ・データを一つまたは複数のユーザー装置にストリーミングする動作を実行させるコンピュータ命令を含むことができる。

【0337】

アーキテクチャー２３００は、並列処理またはピアツーピア・インフラストラクチャーで、あるいは一つまたは複数のプロセッサを備えた単一の装置で実装されることができる。ソフトウェアは、複数のソフトウェア・コンポーネントを含むことができ、あるいは単体のコードであることもできる。

【0338】

記載された特徴は、データ記憶システムからデータおよび命令を受領し、データ記憶システムにデータおよび命令を送信するように結合された少なくとも一つのプログラム可能プロセッサと、少なくとも一つの入力装置と、少なくとも一つの出力装置とを含むプログラム可能システム上で実行可能な一つまたは複数のコンピュータ・プログラムにおいて有利に実装できる。コンピュータ・プログラムは、ある種の活動を実行するかまたはある種の結果をもたらすためにコンピュータにおいて直接的または間接的に使用されることができる一組の命令である。コンピュータ・プログラムは、コンパイル言語またはインタプリター言語を含む任意の形のプログラミング言語（たとえばObjective-C、Java(登録商標)）で書かれることができ、スタンドアローンのプログラムとしてまたはモジュール、コンポーネント、サブルーチン、ブラウザー・ベースのウェブ・アプリケーションまたはコンピューティング環境での使用に好適な他のユニットとして書かれることができる。

【0339】

命令のプログラムの実行のための好適なプロセッサは、例として、汎用および特殊目的の両方のマイクロプロセッサ、ならびに任意の種類のコンピュータの唯一のプロセッサまたは複数のプロセッサもしくはコアのうちの一つを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受け取る。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための一つまたは複数のメモリである。一般に、コンピュータは、データ・ファイルを記憶するための一つまたは複数の大容量記憶装置も含むか、またはそれと通信するように動作上結合されることになる。そのような装置には、内蔵ハードディスクおよびリムーバブルディスクのような磁気ディスク；光磁気ディスク；および光ディスクが含まれる。コンピュータ・プログラムの命令およびデータを具体的に具現するのに好適な記憶装置は、例として、EPROM、EEPROMおよびフラッシュメモリ・デバイスなどの半導体メモリ・デバイス；内蔵ハードディスクおよびリムーバブルディスクなどの磁気ディスク；光磁気ディスク； CD-ROMおよびDVD-ROMディスクを含むあらゆる形の不揮発性メモリを含む。プロセッサおよびメモリは、ASIC（特定用途向け集積回路）によって補足されるか、あるいはその中に組み込まれることができる。

【0340】

ユーザーとの対話を提供するために、諸機能は、ユーザーに対して情報を表示するためのCRT（陰極線管）またはLCD（液晶ディスプレイ）モニターまたは網膜表示装置のような表示装置を有するコンピュータ上で実装されることができる。コンピュータは、タッチ表面入力装置（たとえばタッチスクリーン）またはキーボードおよびマウスもしくはトラックボールのようなポインティングデバイスを有することができ、それによってユーザーはコンピュータに入力を提供することができる。コンピュータは、ユーザーから音声コマンドを受領するための音声入力装置を有することができる。

【0341】

機能は、データ・サーバーなどのバックエンド・コンポーネントを含むか、またはアプリケーション・サーバーもしくはインターネット・サーバーなどのミドルウェア・コンポーネントを含むか、またはフロントエンド・コンポーネント、たとえばグラフィカルユーザインターフェースまたはインターネット・ブラウザーを有するクライアント・コンピュータ、あるいはそれらの任意の組み合わせを含むコンピュータ・システムで実装されることができる。システムのコンポーネントは、通信ネットワークなどの任意の形または媒体のデジタル・データ通信によって接続されることができる。通信ネットワークの例は、たとえば、LAN、WANならびにインターネットを形成するコンピュータおよびネットワークを含む。

【0342】

コンピューティング・システムは、クライアントおよびサーバーを含むことができる。クライアントとサーバーは一般に互いからリモートであり、典型的には通信ネットワークを通じて対話する。クライアントとサーバーの関係は、それぞれのコンピュータ上で実行され、互いにクライアント‐サーバー関係を有するコンピュータ・プログラムによって生じる。いくつかの実施形態では、サーバーはデータ（たとえばHTMLページ）をクライアント装置に送信する（たとえば、クライアント装置と対話しているユーザーにデータを表示し、ユーザーからユーザー入力を受け取る目的で）。クライアント装置で生成されたデータ（たとえば、ユーザー対話の結果）は、サーバーにおいてクライアント装置から受信されることができる。

【0343】

一つまたは複数のコンピュータのシステムは、動作中に該システムにアクションを実行させる、該システムにインストールされたソフトウェア、ファームウェア、ハードウェアまたはそれらの組合せをもつおかげで、特定のアクションを実行するように構成されることができる。一つまたは複数のコンピュータ・プログラムは、データ処理装置によって実行されたときに該装置にアクションを実行させる命令を含んでいるおかげで、特定のアクションを実行するように構成されることができる。

【0344】

本明細書は多くの具体的な実装上の詳細を含んでいるが、これらはいずれかの発明または請求されうるものの範囲に対する限定としてではなく、むしろ特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。本明細書において別個の実施形態の文脈で記述されているある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態の文脈で記述されているさまざまな特徴は、別個にまたは任意の好適なサブコンビネーションで複数の実施形態で実装されることもできる。さらに、特徴はある種の組み合わせで機能するものとして上記で記述され、当初はそのように請求されることさえありうるが、請求される組み合わせからの一つまたは複数の特徴が、場合によっては該組み合わせから切り取られることができ、請求される組み合わせはサブコンビネーションまたはサブコンビネーションの変形に向けられてもよい。

【0345】

同様に、動作は特定の順序で図面に描かれているが、これは望ましい結果を達成するために、そのような動作が示された特定の順序で、または順次に実行されることや、あるいはすべての示される動作が実行されることを要求するものとして理解されるべきではない。ある種の状況では、マルチタスキングおよび並列処理が有利なことがある。さらに、上述の実施形態におけるさまざまなシステム・コンポーネントの分離は、すべての実施形態においてそのような分離を必要とすると理解されるべきではなく、記載されるプログラム・コンポーネントおよびシステムは一般的に単一のソフトウェア製品に統合されるかまたは複数のソフトウェア製品にパッケージ化されることができる。

【0346】

このように、主題の個別的な実施形態を記述してきた。他の実施形態が添付の請求項の範囲内にある。場合によっては、請求項に記載されているアクションは異なる順序で実行され、それでも望ましい結果を達成することができる。さらに、添付の図面に描かれたプロセスは、望ましい結果を達成するために、示された特定の順序または逐次順を必ずしも必要としない。ある種の実装では、マルチタスク処理および並列処理が有利であることがある。

【0347】

本発明のいくつかの実装を記述してきた。だが、本発明の精神および範囲から逸脱することなくさまざまな修正を加えることができることが理解されるであろう。

【0348】

本発明のさまざまな側面は、以下の箇条書き実施例（EEE: enumerated example embodiment）から理解されうる。

【0349】

〔EEE１〕
オーディオをレベリングする方法であって：
一つまたは複数の電子回路を含むレベリング・ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、複数のチャネル信号源からのチャネル信号の表現を含む、段階と；
前記レベリング・ユニットによって、各音源の目標レベルを指定する目標レベル・データを受領する段階と；
前記レベリング・ユニットによって、前記参照オーディオ・データに基づいて、オーディオ信号を、それぞれの利得に従って前記目標レベルに再スケーリングするためのコスト関数を決定する段階と；
前記レベリング・ユニットによって、前記コスト関数を最小化することによって、ライブ・オーディオ・データにおける各チャネル信号に適用するそれぞれの利得を計算する段階とを含む、
方法。
〔EEE２〕
前記チャネル信号の前記表現が、もとのままのチャネル信号または処理されたチャネル信号を含み、該処理されたチャネル信号は、ノイズ削減ユニット、等化器、ダイナミックレンジ補正ユニットまたは音源分離器によって処理されたチャネル信号を含む、EEE１記載の方法。
〔EEE３〕
前記レベリング・ユニットによって、前記チャネル信号源の各対の間のそれぞれの相関を決定する段階を含む、EEE１または２記載の方法。
〔EEE４〕
オーディオをパンする方法であって：
一つまたは複数の電子回路を含むパンナーによって、音源の参照オーディオ・データを受領する段階であって、前記音源は、一つまたは複数のパンできる源として指定された一つまたは複数の源および一つまたは複数のパンできない源として指定された一つまたは複数の源を含む、段階と；
前記音源がプレイするイベントのチャネル信号を受領する段階と；
前記参照オーディオ・データに基づいてコスト関数を決定する段階であって、前記コスト関数は、各チャネル信号についてのパン位置を変数としてもち、前記コスト関数は、左チャネルと右チャネルの間の不均衡を表わす第一の成分と、前記一つまたは複数のパンできる源を表わす第二の成分と、前記音源のうち前記一つまたは複数のパンできない源を表わす第三の成分とをもつ、段階と；
前記コスト関数を最小化することによって、各チャネル信号のそれぞれのパン位置を決定する段階と；
前記パン位置を前記チャネル信号に適用して、前記イベントの音源を、ステレオ・サウンド再生システムへの出力のためにステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成する段階とを含む、
方法。
〔EEE５〕
前記パン位置は、パン角または左チャネルと右チャネルの間の比の少なくとも一方を含み、前記ステレオ・サウンド再生システムはヘッドフォンまたはラウドスピーカーを含む、EEE４記載の方法。
〔EEE６〕
オーディオをレベリングおよびパンする方法であって：
一つまたは複数の電子回路を含むレベリングおよびパン・ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、一つまたは複数の音源のリハーサルにおいて記録された複数のチャネル信号源からのチャネル信号の表現を含む、段階と；
前記レベリングおよびパン・ユニットによって、目標レベル・データを受領する段階であって、前記目標レベル・データは各音源の目標レベルを指定する、段階と；
前記レベリングおよびパン・ユニットによって、ライブ・オーディオ・データを受領する段階であって、前記ライブ・オーディオ・データは、ライブ・イベントにおいてプレイしている前記一つまたは複数の音源からの記録されたまたはリアルタイムの信号を含む、段階と；
前記レベリング・ユニットによって、前記参照オーディオ・データに基づいて、前記ライブ・オーディオ・データをレベリングし、前記ライブ・オーディオ・データをパンするための合同コスト関数を決定する段階であって、前記合同コスト関数は、前記ライブ・オーディオ・データをレベリングするための第一の成分と、前記ライブ・オーディオ・データをパンするための第二の成分とをもち、前記第一の成分は前記目標レベル・データに基づき、前記第二の成分は、左チャネルと右チャネルの間の不均衡の第一の表現と、音源の間でのパンできる源の第二の表現と、音源の間でのパンできない源の第三の表現とに基づく、段階と；
前記合同コスト関数を最小化することによって、各チャネル信号に適用すべきそれぞれの利得と、各チャネル信号のそれぞれのパン位置とを計算する段階と；
イベントのライブ・オーディオ・データの信号に前記利得およびパン位置を適用して、記憶装置またはステレオ・サウンド再生システムへの出力のために、前記ライブ・オーディオ・データにおける音源をレベリングし、前記ライブ・オーディオ・データにおける音源をステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成する段階とを含む、
方法。
〔EEE７〕
各レベルがエネルギー・レベルまたはラウドネス・レベルである、EEE６記載の方法。
〔EEE８〕
オーディオ・レベルを決定する方法であって：
一つまたは複数の電子回路を含む推定器によって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データはリハーサル・セッションの間にプレイする一つまたは複数の音源をそれぞれ表わすチャネル信号を含む、段階と；
前記推定器によって、前記参照オーディオ・データに基づいて、各マイクロフォンにおける各音源のそれぞれのレベルを計算する段階と；
ライブ・オーディオ・データと参照オーディオ・データの間のレベルの差を判別する段階であって、前記ライブ・オーディオ・データにおいて表現される各音源と前記参照オーディオ・データにおいて表現されるその音源のそれぞれのレベルを比較することを含む、段階と；
前記差に基づいて各音源のそれぞれのレベルについてのコスト関数を決定する段階と；
前記コスト関数を最小化することによって、前記それぞれのレベルを決定する段階と；
前記レベルをオーディオまたはビデオ・プロセッサへの入力として提供する段階とを含む、
方法。
〔EEE９〕
前記推定器によって、複数の周波数帯域の各周波数帯域における各音源のそれぞれのレベルを計算することを含み、
前記コスト関数は、音源ごとの諸周波数帯域を横断した諸コストのそれぞれの和を含み、
前記それぞれのレベルは各周波数帯域において決定される、
EEE８記載の方法。
〔EEE１０〕
オーディオを等化する方法であって：
一つまたは複数の電子回路を有する等化器によって、複数の音源からの信号を含むオーディオ・データを受領する段階と；
前記等化器によって、各音源についてのそれぞれの信号を、各周波数帯域における励起にマッピングする段階と；
源‐帯域対のリストにおけるそれぞれの源‐帯域対について必要値を決定する段階であって、それぞれの源‐帯域対は音源および周波数帯域を表わし、前記必要値は、その対におけるその周波数帯域において等化されている、その対において表わされている音源の、他の音源および他の周波数帯域に対する相対的な重要度と、その対において表わされているその音源の、一つまたは複数の他の音源によるマスキング・レベルとを示す、段階と；
最も高い必要値をもつ前記リストにおける源‐帯域対において表わされている音源の信号を等化して等化された源‐帯域対を前記リストから除去することを、残っている源‐帯域対のうちの最も高い必要値が閾値未満になるまで逐次反復する段階と；
等化された信号を一つまたは複数のラウドスピーカーでの再生のために提供する段階とを含む、
方法。
〔EEE１１〕
前記必要値が、前記相対的な重要度を表わす一つまたは複数の値と、音源のマスキング・レベルを表わす一つまたは複数の値との積である、EEE１０記載の方法。
〔EEE１２〕
一つまたは複数の電子回路を有するセグメント分割ユニットによって、オーディオ信号を受領する段階と；
前記セグメント分割ユニットは、時間を通じてオーディオ信号についての新規性インデックスを構築する段階と；
前記新規性インデックスのピークに基づいて次のカットのためのカット時間を決定する段階と；
前記カット時間のところでビデオ・コンテンツをカットする段階と；
カットされたビデオ・コンテンツを新たなビデオ・セグメントとして、記憶装置にまたは一つまたは複数のエンドユーザー装置に提供する段階とを含む、
方法。
〔EEE１３〕
前記カット時間を決定することが：
平均カット長に基づいてセグメント長を決定する段階であって、前記セグメント長はオーディオ・セグメントの長さに対応する、段階と；
セグメント長に基づいて前記カット時間を決定する段階とを含む、
EEE１２記載の方法。
〔EEE１４〕
前記セグメント長に基づいて前記カット時間を決定することが：
最後のカット以降の時間を通じた前記新規性インデックスの和を決定する段階と；
前記和が新規性閾値より高いことを判別すると、前記新規性インデックスの和が前記新規性閾値を満足する時刻から次のカットの時刻までの時間として、前記カット時間を決定する段階とを含み、前記カット時間のランダムさが平均すると前記セグメント長になる、
EEE１３記載の方法。
〔EEE１５〕
オーディオを同期させる方法であって：
複数のマイクロフォンからのオーディオ信号を受領する段階と；
前記オーディオ信号の各対の間の相関のそれぞれの品質値を決定して、該品質値をマップ・ベクトルにおいて割り当てる段階と；
逐次反復的に一連の遅延を決定し、それらの遅延を前記マップ・ベクトルに挿入していく段階であって、逐次反復的に一連の遅延を決定することは、逐次反復的に、最高の品質値をもつオーディオ信号の対を整列させてダウンミックスしていくことを含む、段階と；
逐次反復を終了したら、前記遅延が前記マップ・ベクトルに挿入された順序に従って前記マップ・ベクトルにおけるそれぞれの遅延を使って前記オーディオ信号を同期させる段階とを含む、
方法。
〔EEE１６〕
ノイズ削減方法であって：
一つまたは複数の電子回路を含むノイズ削減ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、無音期間リハーサル・セッションの間に記録されたチャネル信号を含む、段階と；
前記ノイズ削減ユニットのノイズ推定器によって、前記参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定する段階と；
ライブ実演データを受領する段階であって、前記ライブ実演データは、リハーサル・セッションでは無音だった一つまたは複数の楽器がプレイするイベントの間に記録されたチャネル信号を含む、段階と；
前記ノイズ削減ユニットのノイズ削減器によって、前記ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを個々に低減する段階であって、前記ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を適用することを、前記ライブ実演データにおける各チャネル信号におけるノイズ・レベルと前記推定されたノイズ・レベルとの間の差がある閾値を満足することを判別した際に行なうことを含む、段階と；
ノイズ・レベルを低減した後、前記チャネル信号を、さらなる処理、記憶または一つまたは複数のエンドユーザー装置への配送のために下流の装置に提供する段階とを含む、
方法。
〔EEE１７〕
前記参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することが、複数の周波数ビンに対して実行され、
前記ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを低減することが前記周波数ビンにおいて実行され、
前記推定することおよび前記低減することが、前記閾値、傾き、アタック時間、ディケイ時間およびオクターブ・サイズを含むノイズ削減パラメータに従って実行される、
EEE１６記載の方法。
〔EEE１８〕
サーバー・システムによって、一つまたは複数のチャネル信号源から参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、リハーサルにおいて個々にプレイする一つまたは複数の音源の音響情報を含む、段階と；
前記サーバー・システムによって、前記一つまたは複数のチャネル信号源から、実演イベントの一つまたは複数のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含む、段階と；
前記サーバー・システムによって、前記一つまたは複数のチャネル信号をミキシングする段階であって、前記ミキシングは、前記参照オーディオ・データに基づいて、前記実演イベントの一つまたは複数の音源の一つまたは複数のオーディオ属性を自動的に調整することを含む、段階と；
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階と；
前記実演イベントの前記一つまたは複数のチャネル信号と、少なくとも一つまたは複数のオーディオ属性の前記調整を記述する別個のファイルとを前記サーバー・システムから記憶装置に提供する段階とを含む、
方法。
〔EEE１９〕
サーバー・システムによって、一つまたは複数のチャネル信号源から参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、個々にプレイする一つまたは複数の音源の音響情報を含む、段階と；
前記サーバー・システムによって、前記一つまたは複数のチャネル信号源から、実演イベントの一つまたは複数のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含む、段階と；
前記サーバー・システムによって、前記一つまたは複数のチャネル信号をミキシングする段階であって、前記ミキシングは、前記参照オーディオ・データに基づいて、前記実演イベントの一つまたは複数の音源の一つまたは複数のオーディオ属性を自動的に調整することを含む、段階と；
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階とを含む、
方法。
〔EEE２０〕
各チャネル信号源が、マイクロフォンまたは信号出力をもつサウンド信号生成器を含み、
各音源が、ボーカリスト、楽器またはシンセサイザーであり、
前記サーバー・システムは、通信ネットワークを通じて前記一つまたは複数のチャネル信号源に接続された一つまたは複数のコンピュータを含み、
前記一つまたは複数のチャネル信号源および前記一つまたは複数の音源は、リハーサルおよび前記実演イベントにおいて同じ音響的配置をもつ、
EEE１ないし１９のうちいずれか一項記載の方法。
〔EEE２１〕
前記一つまたは複数のチャネル信号は、前記一つまたは複数のチャネル信号源のうちの第一のチャネル信号源からの第一のチャネル信号と、前記一つまたは複数のチャネル信号源のうちの第二のチャネル信号源からの第二のチャネル信号とを含み、
当該方法は、前記サーバー・システムによって、時間領域で前記第一のチャネル信号および第二のチャネル信号を同期させることを含む、
EEE１ないし２０のうちいずれか一項記載の方法。
〔EEE２２〕
前記一つまたは複数のチャネル信号から第一の音源および第二の音源を分離する段階を含み、該分離する段階は、前記一つまたは複数のチャネル信号において表現されている複数の音源から前記第一の音源および前記第二の音源を分離することを含み、前記一つまたは複数のチャネル信号は、前記第一の音源を表わす第一の信号と、前記第二の音源を表わす第二の信号とを含む、EEE１ないし２１のうちいずれか一項記載の方法。
〔EEE２３〕
前記ミキシングが、前記サーバー・システムによって、第一の音源および第二の音源をレベリングし、前記第一の音源および前記第二の音源をパンすることを含む、EEE１ないし２２のうちいずれか一項記載の方法。
〔EEE２４〕
第一の音源および第二の音源をレベリングすることが、各音源のそれぞれのエネルギー・レベルに応じて前記一つまたは複数の音源の利得を増大または減少させることを含み、それぞれのエネルギー・レベルは前記参照オーディオ・データから前記サーバー・システムによって決定される、EEE２３記載の方法。
〔EEE２５〕
前記参照オーディオ・データが：
低レベルとして指定される第一のレベルおよび高レベルとして指定される第二のレベルでプレイする各音源の信号；または
単一のレベルでプレイする各音源の信号
の少なくとも一方を含む、EEE１ないし２４のうちいずれか一項記載の方法。
〔EEE２６〕
前記参照オーディオ・データから、前記イベントにおける各音源についてのそれぞれの利得を決定する段階を含み、該それぞれの利得を決定することは、各音源について：
目標レベルを指定する入力を受領し；
前記参照オーディオ・データにおける前記信号のそれぞれのレベルを決定し；
前記参照オーディオ・データにおける前記信号のレベルと前記目標レベルとの間の差に基づいてそれぞれの利得を決定することを含む、
EEE１ないし２５のうちいずれか一項記載の方法。
〔EEE２７〕
前記一つまたは複数のチャネル信号をミキシングすることは、前記サーバー・システムにログオンしているミキサー装置からの入力に従って前記一つまたは複数のチャネル信号の利得を調整することを含み、前記信号は前記一つまたは複数の音源または両方からである、EEE１ないし２６のうちいずれか一項記載の方法。
〔EEE２８〕
前記イベントについてビデオ編集を実行する段階を含み、前記ビデオ編集を実行することは：
前記サーバー・システムのビデオ編集器によって、前記イベントのビデオ・データおよびオーディオ・データを受領する段階であって、前記ビデオ・データは、音源が前記イベントにおける種々の位置に見えるように位置されたビデオを含み、前記オーディオ・データは、音源のエネルギー・レベルを含む、段階と；
前記オーディオ・データから、前記オーディオ・データにおいて表現されている第一の音源の信号が、該第一の音源が前記オーディオ・データにおいて表現されている他の音源のレベルに対して、ある閾値量より上であるレベルでプレイしていることを示していることを判別する段階と；
前記ビデオ・データにおける前記第一の音源の位置を判別する段階と；
前記ビデオ・データの、前記第一の音源の位置に対応する部分を判別する段階と；
前記記憶装置または前記エンドユーザー装置に、前記オーディオ・データと、前記ビデオ・データの前記部分とを同期して提供する段階とを含む、
EEE１ないし２７のうちいずれか一項記載の方法。
〔EEE２９〕
前記ビデオ・データにおける音源の位置を判別することが：
オーディオ・データに基づいて前記第一の音源のパン位置を判別し；
前記第一の音源の前記パン位置を、前記ビデオ・データにおける音源の前記位置として指定することを含む、
EEE２８記載の方法。
〔EEE３０〕
前記ビデオ・データにおける音源の位置を判別することが、顔追跡または楽器追跡を使って音源の位置を判別することを含む、EEE２８記載の方法。
〔EEE３１〕
前記一つまたは複数のチャネル信号に基づいて、前記一つまたは複数のチャネル信号源に前記サーバー・システムからコマンドを提供する段階を含み、前記コマンドは、前記一つまたは複数のチャネル信号源の記録パラメータを調整するよう構成されており、前記記録パラメータは、利得、圧縮型、ビット深さまたはデータ伝送レートのうちの少なくとも一つを含む、
EEE１ないし３０のうちいずれか一項記載の方法。

【図1】