(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-15
(45)【発行日】2023-12-25
(54)【発明の名称】ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
(51)【国際特許分類】
H04R 3/00 20060101AFI20231218BHJP
G10K 15/02 20060101ALI20231218BHJP
G10L 21/034 20130101ALI20231218BHJP
G10L 25/21 20130101ALI20231218BHJP
H04N 23/60 20230101ALI20231218BHJP
H04S 1/00 20060101ALI20231218BHJP
【FI】
H04R3/00
G10K15/02
G10L21/034
G10L25/21
H04N23/60 300
H04N23/60 500
H04S1/00 200
(21)【出願番号】P 2019500634
(86)(22)【出願日】2017-07-20
(86)【国際出願番号】 US2017043152
(87)【国際公開番号】W WO2018017878
(87)【国際公開日】2018-01-25
【審査請求日】2020-07-16
【審判番号】
【審判請求日】2023-01-20
(32)【優先日】2016-07-22
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2016-09-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2017-03-02
(33)【優先権主張国・地域又は機関】ES
(32)【優先日】2017-05-04
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507236292
【氏名又は名称】ドルビー ラボラトリーズ ライセンシング コーポレイション
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ニコル,フィリップ
(72)【発明者】
【氏名】マテオス ソレ,アントニオ
(72)【発明者】
【氏名】センガルレ,ジュリオ
(72)【発明者】
【氏名】バスコ,クリスティナ ミシェル
【合議体】
【審判長】五十嵐 努
【審判官】樫本 剛
【審判官】木方 庸輔
(56)【参考文献】
【文献】特開2012-10154(JP,A)
【文献】特開2002-207492(JP,A)
【文献】特開昭54-131915(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04R 3/00
G10K 15/02
G10L 21/034
G10L 21/21
H04S 1/00
(57)【特許請求の範囲】
【請求項1】
サーバー・システムによって、
二つ以上のチャネル信号源から、リハーサル・イベントからの参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、個々にプレイする
二つ以上の音源の音響情報を含む、段階と;
前記サーバー・システムによって、前記
二つ以上のチャネル信号源から、実演イベントの
二つ以上のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいて一緒にプレイする前記
二つ以上の音源からのオーディオ信号を含む、段階と;
前記サーバー・システムによって、前記
二つ以上のチャネル信号をミキシングする段階であって、前記ミキシングは
、前記実演イベントの
前記二つ以上の音源の利得を各音源のそれぞれのエネルギー・レベルに応じて自動的に動的に
増大または減少させることを含
み、それぞれのエネルギー・レベルは前記参照オーディオ・データから前記サーバー・システムによって決定される、段階と;
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階とを含む、
方法。
【請求項2】
各チャネル信号源が、マイクロフォンまたは信号出力をもつサウンド信号生成器を含み、
各音源が、ボーカリスト、楽器またはシンセサイザーであり、
前記サーバー・システムは、通信ネットワークを通じて前記
二つ以上のチャネル信号源に接続された一つまたは複数のコンピュータを含み、
前記
二つ以上のチャネル信号源および前記
二つ以上の音源は、リハーサルおよび前記実演イベントにおいて同じ音響的配置をもつ、
請求項1記載の方法。
【請求項3】
前記
二つ以上のチャネル信号は、前記
二つ以上のチャネル信号源のうちの第一のチャネル信号源からの第一のチャネル信号と、前記
二つ以上のチャネル信号源のうちの第二のチャネル信号源からの第二のチャネル信号とを含み、
当該方法は、前記サーバー・システムによって、時間領域で前記第一のチャネル信号および第二のチャネル信号を同期させることを含む、
請求項1記載の方法。
【請求項4】
前記ミキシングが、前記サーバー・システムによって、第一の音源および第二の音源をレベリングし、前記第一の音源および前記第二の音源をパンすることを含む、請求項1ないし3のうちいずれか一項記載の方法。
【請求項5】
前記参照オーディオ・データから、前記イベントにおける各音源についてのそれぞれの利得を決定する段階を含み、該それぞれの利得を決定することは、各音源について:
目標レベルを指定する入力を受領し;
前記参照オーディオ・データにおける前記信号のそれぞれのレベルを決定し;
前記参照オーディオ・データにおける前記信号のレベルと前記目標レベルとの間の差に基づいてそれぞれの利得を決定することを含む、
請求項1ないし
4のうちいずれか一項記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は概括的にはライブ音楽実演のマルチメディア・コンテンツの捕捉、処理および配送に関する。
【背景技術】
【0002】
インターネットを通じたライブ実演の高品質なオーディオおよびビデオの配送は困難であることがある。インターネットにアップロードされた多くのアマチュア制作のビデオ記録は貧弱なビデオおよびサウンド品質をもつ。バンドが音響的に扱われない会場で実演するとき、録音がさらなる処理なしに直接アップロードされると、音質は貧弱になることがある。たとえば、ドラムセットが使われるとき、ドラムセットはあまりに大きく演奏されてバンドの他の楽器が明瞭に聞こえないことがある。さらに、バンドがたとえば複数のマイクロフォン、プリアンプおよびミキシング卓を含む録音設備を適正にセットアップしない場合には、実演の録音は低い音質をもつことがある。たとえ録音設備が適正にセットアップされていても、バンドは録音設備を効果的に使う技術上の専門知識を欠くことがありうる。同様に、実演のプロ品質のビデオ記録および編集は、実演者の技量を超えた技術上の専門知識を要求することがある。
【発明の概要】
【課題を解決するための手段】
【0003】
リハーサルおよびライブ・データに基づくビデオ編集のためのシステム、プログラム・プロダクトおよび方法が開示される。システムは、一つまたは複数のマイクロフォンおよび一つまたは複数のビデオ・カメラから実演のリハーサルについてのリハーサル・データを受領する。システムは、リハーサル・データに基づいて音と実演者をマッチングする。ライブ実演の間、システムは実演のライブのオーディオおよびビデオを受領する。リハーサル・データの解析に基づいて、システムは、リハーサルに比しての実演者が実演するレベルおよび前記一つまたは複数のビデオ・カメラにおけるリハーサルの間の実演者の代表的位置を導出する。次いで、システムは、導出されたレベルおよび位置を利用する規則に基づいて、たとえば顕著な実演者を強調するなど、ビデオ・データを編集する。システムは任意的には、実演の解析を使って、編集を改善する。該解析はたとえば、テンポもしくはビート・データおよび実演者動き追跡データを生成する。次いで、システムは、記憶および一つまたは複数のユーザー装置へのストリーミングのために、オーディオ・データを編集されたビデオ・データに関連付ける。
【0004】
限られたネットワーク帯域幅のもとでのビデオ処理のためのシステム、プログラム・プロダクトおよび方法が開示される。ビデオ・カメラは実演の高精細度ビデオ(たとえば4Kビデオ)を捕捉することができる。該ビデオは通信ネットワークを通じてライブでストリーミングすることが(あるいはさらにオフラインでアップロードすることも)難しいことがある。ビデオ・カメラはビデオの一つまたは複数のフレームを、任意的にはより低解像度で、任意的には不可逆ビデオ・コーデックを使って圧縮して、サーバー・システムに提出することができる。前段で述べた前記一つまたは複数のフレームおよびオーディオ・データに基づいて、サーバー・システムは、ビデオ・データに対する編集決定を生成することができる。サーバー・システムはビデオ・カメラに、実演者または実演者の群に対応する高精細度ビデオの部分をクロッピングして、ビデオのその部分をサーバー・システムに、中精細度または低精細度のビデオ(たとえば720p)として、任意的には付可逆ビデオ・コーデックを使って圧縮して、提出するよう命令することができる。ビデオ・カメラ装置は常時、最後に捕捉された諸フレームに対応する高精細度ビデオ(たとえば4K)の長いバッファ(たとえば数十秒)を記憶することができ、それによりサーバー・システムからの受領された命令は、数秒前に捕捉されたフレームに対して実施されることができる。次いで、サーバー・システムは、前記中または低精細度ビデオを記憶するまたは前記中または低精細度ビデオをユーザー装置にストリーミングすることができる。
【0005】
ライブ実演のマルチメディアのネットワーク・ベースの処理および配送のための実装が開示される。いくつかの実装では、記録装置がイベント(たとえばライブ音楽実演)を記録するよう構成されることができる。記録装置は、実演の間にサーバーに記録を提供する。サーバーは自動的に記録を同期させ、ミキシングし、マスタリングする。ある実装では、サーバーは、記録装置および音源がイベント時と同じ音響的な(そしてビデオ記録装置の場合には視覚的な)配置に置かれたリハーサルの間に捕捉された参照オーディオ・データを使って自動化されたミキシングおよびマスタリングを実行する。サーバーはマスタリングされた記録を複数のエンドユーザー装置に、たとえばライブ・ストリーミングによって提供する。
【0006】
いくつかの実装では、サーバーはライブ・イベントのビデオ信号を複数のユーザーにストリーミングする。リハーサル・セッションの間に記録された参照オーディオ・データ(リハーサル・データとも称される)を使って、サーバーはさまざまな楽器およびボーカリスト(以下では「音源」とも称される)の位置および記録位置における実演者の位置を判別する。ライブ実演の間、サーバーは一つまたは複数の優勢な音源を一つまたは複数のパラメータ(たとえばボリューム)に基づいて判別する。画像捕捉装置(たとえばビデオ・カメラ)が実演のライブ・ビデオを捕捉し、それをサーバーに送ることができる。優勢な音源の位置を使って、サーバーは、ビデオ編集操作(たとえばズーム、遷移、視覚的効果)を適用するべき、ビデオにおける部分を決定する。ビデオ編集操作を適用することは、リアルタイムでライブ・ビデオに対して、あるいは以前に記録されたビデオ・データに対して生起することができる。サーバーは、優勢な音源に対応するビデオの部分(たとえばリード・ボーカリストまたはリード・ギター奏者のクローズアップ)をエンドユーザー装置にストリーミングする。たとえば、サーバーは、エンドユーザー装置上で、ユーザーがオーディオ・ミキシング(たとえばボーカリストまたはソロ演奏中の楽器のボリュームを上げる)またはビデオ編集(たとえば特定の実演者にズームインする)を制御できるようにするビデオ・オーバーレイまたはグラフィカル・ユーザー・インターフェースを提供することができる。いくつかの実装では、サーバーは、一つまたは複数の記録パラメータ、たとえばマイクロフォン・プリアンプ上の録音レベル調整、ビデオ記録器のズーム・レベル、特定のマイクロフォンもしくはビデオ記録器をオンもしくはオフにすることまたは上記の任意の組み合わせを調整するよう、オーディオまたはビデオ記録装置にコマンドを発することができる。
【0007】
本明細書に記載される特徴は、通常のオーディオおよびビデオ技術に対して一つまたは複数の利点を達成することができる。それらの特徴は、参照オーディオ・データから得られる参照オーディオ・データに少なくとも部分的に基づく、オーディオ・トラックの自動化されたミキシングおよびマスタリングによって、通常の手動のオーディオおよびビデオ処理技術に対して改善する。本稿で開示される自動化されたミキシングおよびマスタリングを使って、バンドは、プロの録音、ミキシングおよびマスタリング・エンジニアを使うことに頼ることなく、よくバランスのとれた音を生成することができる。バンドが特定の専門家からのミキシング・スタイルを所望するなら、バンドは本稿に開示されるネットワーク・ベースのプラットフォームを使って、自分たちの録音をリモートでミキシングおよびマスタリングするよう専門家を保持することができる。
【0008】
同様に、開示される実装は、手動のカメラ操作(たとえばパンおよびズーム)を、少なくとも部分的にはオーディオおよびビデオ・リハーサル・データに基づく自動化されたカメラ操作で置き換えることによって通常のビデオ処理技術に対して改善する。バンドは、プロのビデオ撮影家を保持することなく、自分たちのライブ実演のプロ品質のビデオを生成および編集することができる。
【0009】
バンドは、さまざまな技術(たとえばライブ・ストリーミング)を使って複数のエンドユーザー装置に高品質のオーディオおよびビデオを提供できる。エンドユーザー経験を向上させるために、ストリーミングは、対話的にされることができ、それによりエンドユーザーはオーディオ・ミキシングおよびビデオ編集のさまざまな側面を制御できる。本明細書では、便宜上、バンド(band)という用語は、一または複数の実演者および楽器の音楽バンドを指すことができる。この用語は、音楽でない環境における一または複数の参加者(たとえばドラマにおける実演家、会議における話者または公共アナウンス・システムにおけるラウドスピーカー)の群をも指すことができる。
【0010】
本稿に開示される特徴およびプロセスは、ライブ実演のオーディオ・トラックの自動化された同期、ミキシングおよびマスタリングならびにビデオ・データの編集を実行するようサーバー・コンピュータを構成することによって、通常のサーバー・コンピュータに対して改善する。サーバー・コンピュータは、処理されたオーディオおよびビデオをエンドユーザー装置にストリーミングし、エンドユーザーがオーディオおよびビデオをさらにミキシングおよび編集できるようにするコントロールを提供することができる。さまざまな実装において、サーバー・コンピュータは、ライブ実演の生データをオフラインでの使用、ミキシング、マスタリング、転用、セグメント分割、キュレーションのために記憶することができる。サーバー・コンピュータは処理されたデータをのちの配送のために記憶することができる。サーバー・コンピュータは、生データと完全に処理されたデータの間の(両端を含む)任意のところの、処理のさまざまな段階を通されたデータを記憶することができる。サーバーは、該データを記憶装置(たとえばハードディスク、コンパクトディスク(CD)、リモート記憶サイト(たとえばクラウド・ベースのオーディオおよびビデオ・サービス)またはメモリースティック)に記憶することができる。
【0011】
本稿に記載される特徴およびプロセスは、サーバー・コンピュータがさまざまな規則に基づいて自動的にビデオ・データを編集することを許容することによって、通常のサーバー・コンピュータに対して改善する。開示される技法を実装するサーバー・コンピュータは、実演者、たとえばソリストが他の実演者と異なる仕方で(たとえばより大きな音で)演奏しているとき、あるいは実演者が動くとき、あるいは実演者が伴奏なしで(たとえばアカペラ)演奏するとき、自動的に実演者、たとえばソリストにフォーカスするよう、記録装置、たとえばビデオ・カメラに指令することができる。サーバー・コンピュータは、音楽のテンポおよびビートに従ってシーンをカットし、変更することができる。サーバー・コンピュータは、音源の動きを追跡する、たとえば第一の実演者から第二の実演者に切り換えるよう記録装置に指令する。ここで、切り換えは、第一から第二の実演者へのハード・カットまたはゆっくりしたパンであることができる。追跡は、記録装置を物理的に動かすことなく、記録されたデータに対して実行されることができる。よって、オーディオ・データ解析に基づいて、サーバー・コンピュータは、人間のカメラマンが行なえることを模倣できる。このように、開示される技法は、記録装置を物理的に動かすことなく、イベントのビューを動かすという技術的利点をもつ。
【0012】
本稿に開示される特徴およびプロセスは、高精細度ビデオ・データを伝送するための帯域幅要求を減らすことによって通常のサーバー・コンピュータに対して改善する。高精細度ビデオ・データ、たとえば4Kビデオは、伝送のための高い帯域幅を要求しうる。開示される特徴は、伝送されるべきビデオのハイライト、たとえばソリストの位置に対応する部分を選択し、その位置にフォーカスすることができる。システムは、ビデオ・データのその部分を、より低い解像度、たとえば720pビデオで伝送することができる。このように、観衆がソリストを見ているだけであるとき、システムはステージ全体のビデオを4Kビデオで送信する必要はない。システムは、それでも、ソリストに対する知覚される精細度および明瞭さを保存できる。よって、システムは、低下した帯域幅で、高品質ビデオの伝送という技術的利点を達成する。
【0013】
もう一つの実施形態では、前記一つまたは複数のカメラ装置は、高解像度(たとえば4K)ビデオを捕捉し、ここに記載される諸方法は、中間の編集された、より低解像度のビデオ(たとえば1080)をストリーミングするために使われ、それによりサーバー・システムはさらに、1080フレーム内で編集して、720pを観衆に供する決定をすることができる。
【0014】
開示される主題の一つまたは複数の実装の詳細は、付属の図面および下記の記述において記載される。開示される主題の他の特徴、側面および利点は、該記述、図面および請求項から明白になるであろう。
【図面の簡単な説明】
【0015】
【
図1】イベントにおける記録装置の第一の例示的な配置を示す図である。
【0016】
【
図2】イベントにおける記録装置の第二の例示的な配置を示す図である。
【0017】
【
図3】記録装置の例示的アーキテクチャーを示すブロック図である。
【0018】
【
図4】ネットワーク・ベースのオーディオ処理のための例示的なオーディオおよびビデオ・システムのアーキテクチャーを示す図である。
【0019】
【
図5】オーディオおよびビデオ処理のための例示的な信号経路を示すブロック図である。
【0020】
【
図6】オーディオ処理の例示的プロセスのフローチャートである。
【0021】
【
図7】例示的な自動化されたミキシングおよびマスタリング・ユニットを示すブロック図である。
【0022】
【
図8】自動化されたレベリングの例示的プロセスを示すフローチャートである。
【0023】
【
図9】自動化されたパンの例示的プロセスを示すフローチャートである。
【0024】
【
図10】最大歪みの際の例示的な角度変換を示す図である。
【0025】
【
図11】マイクロフォン信号からエネルギー・レベルを推定する例示的プロセスを示すフローチャートである。
【0026】
【
図12】周波数帯域におけるエネルギー・レベルを推定する例示的プロセスを示すフローチャートである。
【0027】
【
図13】個々の音源を自動的に等化する例示的プロセスを示すフローチャートである。
【0028】
【
図14A】等化されるべき例示的な三楽器混合を表わす図である。
【0029】
【
図14B】自動的等化における例示的な利得を示す図である。
【0030】
【
図15】オーディオ・データにおける新規性積み上がりに基づいてビデオをセグメント分割する例示的プロセスを示すフローチャートである。
【0031】
【
図16】例示的な新規性積み上がり処理を示す図である。
【0032】
【
図17】複数のマイクロフォンからの信号を同期させる例示的プロセスを示すフローチャートである。
【0033】
【
図18】五つのマイクロフォンを同期させる例示的シーケンスを示す図である。
【0034】
【
図19】AおよびBは、自動化されたビデオ編集の結果を表示する例示的なユーザー・インターフェースを示す図である。
【0035】
【
図20】自動化されたビデオ編集の例示的プロセスのフローチャートである。
【0036】
【
図24】ノイズ削減の例示的プロセス2400を示すフローチャートである。
【0037】
【
図25】リハーサル・データに基づくビデオ編集の例示的技法を示すブロック図である。
【0038】
【
図26】リハーサル・データに基づくビデオ編集の例示的プロセスを示すフローチャートである。
【0039】
【
図27】フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的技法を示すブロック図である。
【0040】
【
図28】サーバー・システムによって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセスを示すフローチャートである。
【0041】
【
図29】ビデオ捕捉装置によって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセスを示すフローチャートである。
【0042】
【
図21】
図1~20および
図24~29を参照して述べた特徴および動作を実装するモバイル装置の例示的な装置アーキテクチャーを示すブロック図である。
【0043】
【
図22】
図1~20および
図24~29のモバイル装置のための例示的なネットワーク動作環境のブロック図である。
【0044】
【
図23】
図1~20および
図24~29を参照して述べた特徴および動作を実装するサーバー・システムのための例示的なシステム・アーキテクチャーのブロック図である。
【0045】
さまざまな図面における同様の参照符号は同様の要素を示す。
【発明を実施するための形態】
【0046】
〈例示的な上流アーキテクチャー〉
図1は、ライブ実演イベント100における記録装置の第一の例示的配置を示す図である。イベント100は、オーディオ・コンテンツ(たとえば発話、声楽または器楽)および任意的にはビデオ・コンテンツが生成される任意のイベントであることができる。特に、イベント100は、一つまたは複数の楽器および/または一または複数のボーカリストが演奏するライブ・コンサートであることができる。一つまたは複数の音源がイベント100に存在することができる。各音源は、楽器、ボーカリスト、ラウドスピーカーまたは音を生成する任意のアイテムであることができる。簡単のため、本発明の随所において、楽器でない音源を含む音源をまとめて楽器と称する。
【0047】
いくつかの実装では、装置102、104、106はイベント100のオーディオおよびビデオを記録するよう構成されることができる。装置102および104はモバイル装置(たとえばスマートフォン、ウェアラブル装置またはポータブル・オーディオおよびビデオ・レコーダー)であることができる。装置102および104は、内蔵マイクロフォンを含んでいても、外部マイクロフォンに結合されても、あるいは両方であってもよい。外部マイクロフォンが使われる場合、外部マイクロフォンは一つまたは複数のマイクロフォン・プリアンプに結合されうる。外部マイクロフォンは、有線または無線接続を使って装置102および104に結合されることができる。いくつかの実装では、装置102および104のそれぞれは、一つまたは複数の外部のサウンド生成装置に結合されることができる。ここで、サウンド生成装置は、アナログ電気信号(たとえばキーボード出力)またはデジタル信号(たとえばラップトップ・コンピュータで生成されたデジタル・サウンド)の形で直接、オーディオ信号を生成する。そのような信号は、対応するアダプターを介して装置102および104に直接供給されることができる。
【0048】
装置102および104のそれぞれは、イベント100のオーディオ・コンテンツを記録するためのアプリケーション・プログラムを実行することができる。アプリケーション・プログラムは、記録されたオーディオ・トラックを通信ネットワーク110を通じてリモート・サーバー・コンピュータに送ることができる。通信ネットワーク110は、パーソナル・エリア・ネットワーク(PAN、たとえばブルートゥース(登録商標)ネットワーク)、ローカル・エリア・ネットワーク(LAN)、セルラー・ネットワーク(たとえば4Gまたは5Gデータ・ネットワーク)広域ネットワーク(WAN、たとえばインターネット)またはアドホック・ネットワークであることができる。通信はゲートウェイ(たとえば無線装置108)を通じてまたは個別にであることができる。いくつかの実装では、サーバー・コンピュータはイベント100に対してローカルであることができる。たとえば、サーバー・コンピュータは装置102および104の任意のものであることができる。
【0049】
いくつかの実装では、装置102および104のそれぞれは、オーディオ処理のためのオンライン・ユーザー・アカウントにリンクされたクライアント・アプリケーションを含むことができる。クライアント・アプリケーションは、オンライン・ユーザー・アカウントにオーディオ・トラックを送るのに先立って、ユーザー認証および許諾を実行することができる。クライアント・アプリケーションは、リモート・サーバーからのコマンド、たとえばフィルタ(たとえば低域通過フィルタ、高域通過フィルタ、シェルフ・フィルタ)、装置102または104に組み込まれたまたは結合されたマイクロフォン・プリアンプの利得または周波数帯域を調整するコマンドに応答するオーディオ処理機能を含むことができる。追加的または代替的に、コマンドは、記録のビット深さおよびサンプル・レート(たとえば44.1Hzで16ビット)を制御することができる。
【0050】
装置102および104のそれぞれは、記録されたオーディオ・トラックを、有線装置(または有線または無線のルーター)または他の有線または無線の装置108を通じてサーバーに提出することができる。無線装置108は、無線ローカル・エリア・ネットワーク(WLAN)のための無線アクセスポイント(AP)またはセルラー・タワーであることができる。無線装置108は通信ネットワーク110に接続することができる。装置102および104は、記録されたライブ・オーディオ・トラックをサーバーに、通信ネットワーク110を通じて送ることができる。データの提出はリアルタイムで、たとえば実演が進行中に、あるいは実演が部分的または完全に終了した後にオフラインで、たとえば装置102および104によって同時並行してまたは逐次的に行なわれることができる。装置102および104は、記録されたオーディオ・トラックを、オフライン提出のために記憶することができる。
【0051】
いくつかの実装では、装置106は、イベント100の画像およびオーディオを捕捉するよう構成された画像捕捉装置である。たとえば、装置106は高精細度ビデオ(たとえば4K解像度のビデオ)を捕捉するよう構成されることができる。装置106は、イベント100のスチール画像およびビデオを捕捉することができる。装置106は、捕捉されたスチール画像またはビデオを、無線装置108および通信ネットワーク110を通じてサーバーに送ることができる。装置106は、スチール画像またはビデオをリアルタイムでまたはオフラインで送ることができる。いくつかの実装では、装置106は、サーバー・コンピュータの動作を実行することができる。
【0052】
いくつかの実装では、装置102、104、106の一つまたは二つのマイクロフォンが、すべての楽器およびボーカリストからのオーディオを捕捉する一つまたは複数の主要〔メイン〕マイクロフォン(たとえば「部屋」マイクロフォン)として指定される。前記一つまたは二つの主要マイクロフォンから出力された信号は、主要信号(たとえば主要モノまたは主要ステレオ信号)または主要チャネル信号として指定されることができる。時にそれぞれの個々の音源(たとえばボーカル・マイクロフォン)または個々の音源群(たとえば諸ドラム・マイクロフォン)のところに置かれる他のマイクロフォンはスポット・マイクロフォンとして指定され、サテライト・マイクロフォンとも称される。スポット・マイクロフォンは、音源の、より局在化された捕捉を提供することによって、主要マイクロフォンを増強できる(たとえばキックドラム・マイク、スネアドラム・マイク、ハイハット・マイク、シンバルを捕捉するための頭上マイク、ギターおよびベース増幅器マイクなど)。
【0053】
いくつかの実装では、装置102、104、106のそれぞれは、一つまたは複数のコンピュータ・プログラムを実行することによってサーバーの動作を実行するよう構成されることができる。そのような実装では、オーディオ信号の処理はイベント100においてオンサイトで実行されることができる。次いで、動作を実行する装置(装置106)は、処理された信号を記憶装置またはエンドユーザー装置に、通信ネットワーク110を通じてアップロードすることができる。
【0054】
図2は、イベント100における記録装置の第二の例示的配置を示す図である。統合された記録器200は、イベント100のオーディオおよびビデオ信号を記録するよう構成されることができる。統合された記録器200は、マイクロフォン202および204を含むことができる。マイクロフォン202および204のそれぞれは、無指向性、指向性もしくは双方向性マイクロフォンまたは任意の指向性パターンをもつマイクロフォンであることができる。マイクロフォン202および204のそれぞれは、所与の方向をポイントするよう配置されることができる。マイクロフォン202および204は、主要マイクロフォンとして指定されることができる。さまざまな実装において、統合された記録器200は、追加的なオーディオ入力のために一つまたは複数のスポット・マイクロフォンに結合されることができる。
【0055】
統合された記録器200は、イベント100のスチール画像またはビデオを捕捉するために画像捕捉装置206を含むことができる。統合された記録器200は、イベント100の音源の一つまたは複数の属性(たとえば目標ラウドネス・レベル)を指定するためのユーザー・インターフェースを含む、あるいはかかるユーザー・インターフェースに結合されることができる。たとえば、統合された記録器200は、装置識別子によってモバイル・アプリケーションに関連付けられることができる。モバイル・アプリケーションは、モバイル装置207のタッチ感応性表面での表示のためにグラフィカルユーザーインターフェース(GUI)をもつことができる。GUIは、音源の属性(たとえばギター、リード・ボーカリスト、ベースまたはドラムの目標ボリュームまたは利得レベル)を指定するためのユーザー入力を受け容れるよう構成された一つまたは複数のユーザー・インターフェース項目を含むことができる。属性はたとえば、二つの音源(たとえばリード・ボーカリストと他の音源との間)が何デシベル(dB)離れているべきか、どの音源が(たとえば他の音源のボリューム・レベルより大きくプレイすることによって)どのくらい(たとえばX dB)優勢であるべきかを含むことができる。前記一つまたは複数のユーザー・インターフェース項目は、自動化されたミキシングのために音源からの参照オーディオ・データが収集されるリハーサル・セッションを指定するユーザー入力を受け容れることができる。
【0056】
統合された記録器200は任意的に、たとえば主要マイクロフォンおよびスポット・マイクロフォンからの信号の同期、記録された信号からの音源の分離、参照オーディオ・データに基づく異なる音源の信号のミキシングおよびミキシングされた信号のマスタリングを含む一つまたは複数の動作を実行することができる。統合された記録器200は、マスタリングされた信号を、ステレオまたはマルチチャネル信号として、サーバーに、通信ネットワーク210に接続されている無線装置208を通じて提出することができる。同様に、統合された記録器200は、ビデオ信号をサーバーに提供することができる。次いで、サーバーは、ステレオまたはマルチチャネル信号およびビデオ信号をエンドユーザー装置に、イベント100の間に実質的にリアルタイムで配送することができる。通信ネットワーク210はPAN、LAN、セルラー・データ・ネットワーク(たとえば4Gネットワークまたは5Gネットワーク)、WANまたはアドホック・ネットワークであることができる。
【0057】
図3は、記録装置302の例示的アーキテクチャーを示すブロック図である。記録装置302は
図1の装置102もしくは104または
図2の統合された記録器200であることができる。
【0058】
記録装置302は、主要マイクロフォン304およびビデオ・カメラ306を含むまたはそれに結合されることができる。主要マイクロフォン304は組み込みマイクロフォンまたは記録装置302に結合された専用のマイクロフォンであることができる。主要マイクロフォン304は、オーディオ信号処理のためのベースライン(ベッドとも称される)を提供することができる。これについては下記でさらに詳細に述べる。ビデオ・カメラ306は、組み込みのカメラまたは記録装置302に結合された専用のカメラであることができる。ビデオ・カメラ306は、捕捉されたビデオの一部がズームインされてもまだ、中程度の(たとえば1080p、1080i、720pまたは720i)解像度をもつ通常のモニターのフル容量を利用できるよう、十分に高い解像度でビデオを捕捉するよう構成されている、デジタル映画館イニシアチブ(CDI: Digital Cinema Initiative)4K、DCI 2KまたはフルHDビデオ・カメラであることができる。
【0059】
記録装置302は、一つまたは複数のスポット・マイクロフォン310に接続するための外部マイクロフォン・インターフェース308を含むことができる。外部マイクロフォン・インターフェース308は、一つまたは複数のスポット・マイクロフォン310から信号を受領するよう構成される。いくつかの実装では、外部マイクロフォン・インターフェース308は、一つまたは複数のスポット・マイクロフォン310に制御信号を提供するよう構成される。記録装置302は、一つまたは複数の外部カメラ314に接続するための外部カメラ・インターフェース312を含むことができる。外部カメラ・インターフェース314は、一つまたは複数の外部カメラ314から信号を受領し、一つまたは複数の外部カメラ314に制御信号を提供するよう構成される。
【0060】
記録装置302は、一つまたは複数のプロセッサ320を含むことができる。一つまたは複数のプロセッサ320は、マイクロフォンからのオーディオ信号のアナログからデジタルへの変換を実行し、カメラからのデジタル・オーディオ信号およびビデオ信号のデジタル圧縮を実行するよう構成されることができる。いくつかの実装では、一つまたは複数のプロセッサ320はさらにさまざまなチャネルからのオーディオ信号を同期させ、それらのオーディオ信号から音源を分離し、別個の音源を自動的にミキシングし、ミキシングされた信号をマスタリングするよう構成される。
【0061】
記録装置302は、デジタル・オーディオおよびビジュアル信号をサーバーにネットワーク装置を通じて提出するためのネットワーク・インターフェース322を含むことができる。いくつかの実装では、ネットワーク・インターフェース322は、マスタリングされたデジタル・オーディオおよびビデオ信号をサーバーに提出することができる。ネットワーク・インターフェース322は、オーディオまたはビジュアル記録の一つまたは複数のパラメータを調整するためにサーバーからコマンドを受領するよう構成されることができる。たとえば、ネットワーク・インターフェース322は、指定された方向にビデオ・カメラをパンしてズームイン(またはズームアウト)するまたは特定のマイクロフォンについての録音レベルを調整するためのコマンドを受領することができる。
【0062】
記録装置302は、記録の属性を制御するさまざまなユーザー入力を受領するためのユーザー・インターフェース324を含むことができる。ユーザー・インターフェース324は、記録装置302のタッチ感応性表面に表示されるGUIを含むことができる。ユーザー・インターフェース324は、記録装置302とは別個に装置に、たとえばクライアント・アプリケーション・プログラムを実行しているスマートフォンまたはタブレット・コンピュータに表示されることができる。
【0063】
図4は、ネットワーク・ベースのオーディオおよびビデオ処理のためのオーディオおよびビデオ・システム400の例示的アーキテクチャーを示す図である。ネットワーク・ベースのオーディオおよびビデオ処理では、通信ネットワーク402はイベントをエンドユーザー装置にリンクして、エンドユーザー装置のエンドユーザーが(
図1の)イベント100におけるアーチストのライブ実演を聞き、見ることができるようにする。通信ネットワーク402はPAN、LAN、セルラー・ネットワーク、WAN(たとえばインターネット)またはアドホック・ネットワークであることができる。オーディオおよびビデオ・システム400は、一つまたは複数のサブシステムを含むことができる。各サブシステムについて下記で述べる。
【0064】
スタジオ側システム404は、たとえばスタジオ、コンサートホール、シアター、スタジアム、リビングルームまたはイベントが生起する他の会場における位置に位置され、配置された設備を含む、オーディオ・システム400のサブシステムである。スタジオ側システム404は、
図1を参照して論じたアーキテクチャーを含むことができ、それぞれがオーディオまたはビデオ処理アプリケーション・プログラムを実行している複数の汎用装置(たとえばスマートフォン、タブレット・コンピュータ、ラップトップ・コンピュータ)が記録し、記録された信号をサーバー408に送る。あるいはまた、スタジオ側システム404は、
図2を参照して論じた例示的アーキテクチャーを含むことができ、専用の統合された記録器が記録し、記録された信号をサーバー408に送る。
【0065】
サーバー408は、一つまたは複数のコンピュータまたは一つまたは複数の離散的なまたは集積された電子回路(たとえば一つまたは複数のプロセッサ)を含むオーディオ・システム400のサブシステムである。サーバー408は、イベント100のライブのオーディオおよびビデオ・コンテンツを通信ネットワーク402を通じて受領し、オーディオおよびビデオ・コンテンツを処理し、オーディオおよびビデオ・コンテンツをエンドユーザー装置に、通信ネットワーク402を通じて提供するよう構成される。サーバー408は、オーディオ処理を実行するようプログラムされた一つまたは複数のプロセッサを含むことができる。いくつかの実装では、サーバー408は、スタジオ側システム404のさまざまな側面を制御することができる。たとえば、サーバー408は、クリッピングが検出されるときにマイクロフォンのボリューム・レベルを増大または減少させる、サンプル・ビットレートまたはビット深さを増大または減少させる、あるいは検出された帯域幅制限に基づいて圧縮型を選択することができる。
【0066】
いくつかの実装では、サーバー408は自動的にオーディオ信号をミキシングおよびマスタリングする。サーバー408は、ビデオ・ストリームから、プレイしている楽器に対応する特定の諸部分を自動的に選択することもできる。サーバー・コンピュータ408のコンポーネントおよび動作についてのさらなる詳細は
図5を参照して後述する。
【0067】
いくつかの実装では、サーバー408は、編集者側システム420における設備がミキシング、マスタリングおよびシーン選択を実行することを許容する。編集者側システム420は、サードパーティーの編集者がライブ・コンテンツ・ストリーミングの間にオーディオまたはビデオ・コンテンツを編集することを許容するよう構成されたオーディオ・システム400のサブシステムである。編集者側システム420は、一つまたは複数のミキサー装置422を含むことができる。ミキサー装置422は、エンドユーザー、ライブ・イベントを実演しているバンドまたはオーケストラのプレーヤーまたはプロのミキシング・エンジニアによって操作されることができる。編集者側システム420は、一つまたは複数のビデオ編集装置424を含むことができる。ビデオ編集装置424は、エンドユーザー、実演者またはプロのビデオ撮影家によって操作されることができる。
【0068】
エンドユーザーは、さまざまなエンドユーザー・システム410においてイベント100のライブ・コンテンツを聞き、閲覧することができる。さまざまなエンドユーザー・システム410において、ライブまたは記憶されたコンテンツがユーザー・オーディオ装置412(たとえば複数のラウドスピーカーをもつステレオまたはマルチチャネル・オーディオ・システム)、ユーザー・ビデオ装置414(たとえば一つまたは複数のコンピュータ・モニター)または両者の組み合わせ(たとえばテレビジョン・セット、スマートフォン、デスクトップ、ラップトップまたはタブレット・コンピュータまたはウェアラブル装置)でプレイされることができる。
【0069】
いくつかの実装では、オーディオ・システム400は、エンドユーザーが自分のエンドユーザー装置を使って、ライブ・コンテンツについてのフィードバックを提供し、ライブ・コンテンツのさまざまな側面を制御することを許容する。たとえば、オーディオ・システム400は、投票に基づくライブ・コンテンツのリアルタイム・レーティングまたはある種の許諾されたエンドユーザーによるビデオ・パンを許容できる。
【0070】
図5は、オーディオおよびビデオ処理の例示的な信号経路を示すブロック図である。信号経路のコンポーネントは(
図4の)サーバー408で実装されることができる。それらのコンポーネントは同期器502、源分離器504、ミキシングおよびマスタリング・ユニット506、配送フロントエンド508および推定器522を含むことができる。いくつかの実装では、コンポーネントの一部または全部は、サーバー・コンピュータ408上のソフトウェアで実装されることができる。他の実装では、コンポーネントの一部または全部は、さまざまな動作を実行するよう構成された一つまたは複数の電子回路を含むことができる。各電子回路は一つまたは複数の離散的なコンポーネント(たとえば抵抗器、トランジスタまたは真空管)または集積されたコンポーネント(たとえば集積回路、マイクロプロセッサまたはコンピュータ)を含むことができる。
【0071】
同期器502は、一つまたは複数の記録装置からイベント100のデジタル・オーディオ・データを受領することができる。デジタル・オーディオ・データはたとえば、サンプリングされたオーディオ・データであることができる。各記録装置または記録装置に結合された各マイクロフォンは音楽演奏のオーディオ・チャネルまたはトラックに対応することができる。記録装置からの信号はチャネル信号と称される。よって、同期器502はNm個のチャネル信号を受け取ることができる。ここで、Nmは、イベント100を記録するマイクロフォン、あるいはより一般的には、イベント100において捕捉されるセットのすべてのサウンド信号の総数である。たとえば、Nm個のチャネル信号は、キーボードの直接出力からまたはコンピューティング装置もしくはポータブル音楽プレーヤーのライン・オーディオ出力からの一つまたは複数のチャネルを含むことができる。Nm個のチャネル信号は、環境マイクロフォンからの主要チャネル信号およびスポット・マイクロフォンからのスポット・チャネル信号(ビームとも称される)を含むことができる。Nm個のチャネル信号は、記録装置上でマイクロフォンによって記録され、記録装置によってローカルに、アナログ/デジタル変換器によってサンプリングされることができる。記録装置は、サンプリングされたオーディオ・データをパケットの形のオーディオ・フォーマットで、ネットワークを通じて同期器502に送ることができる。よって、Nm個のチャネル信号は、マイクロフォンから直接のアナログ信号ではなく、デジタイズされたオーディオ信号を指すことができる。
【0072】
Nm個のチャネル信号は、時間的な同期から外れることがある。たとえば、デジタル信号のパケットは、対応する捕捉されたサウンド信号が物理的に生成された時間順序を尊重してサーバーに到着しないことがある。同期器502は、たとえばパケットに関連付けられたタイムスタンプに基づいて、Nm個の同期されたチャネル信号を含む出力を生成することができる。同期器502はNm個の同期されたチャネル信号を源分離器504に供給することができる。同期器502の動作のさらなる詳細は
図17および
図18を参照して後述する。
【0073】
源分離器504は、Nm個の同期された信号から各音源を分離するよう構成された、サーバー408のコンポーネントである。各音源はたとえば楽器、ボーカリスト、楽器の群またはボーカリストの群に対応することができる。源分離器504は、それぞれが音源に対応するNs個の信号を出力する。音源の数(Ns)は、同期された信号の数Nmと同じまたは異なることがありうる。いくつかの実装では、源分離器504はバイパスされることができる。
【0074】
源分離器504からのNs個の信号の出力または(源分離器504がバイパスされる場合は)同期器502からのNm個の同期された信号の出力は、一つまたは複数のミキシングおよびマスタリング・ユニット506に入力されることができる。ミキシングおよびマスタリング・ユニット506は、少なくとも部分的には参照オーディオ・データに基づいて個々の音源のチャネルに対してミキシング動作を実行し、ミキシングされたオーディオ信号に対してマスタリング動作を実行して、最終的なNチャネル・オーディオ信号(たとえばステレオ・オーディオ、サラウンドサウンド)を生成するよう構成された、サーバー408のソフトウェアおよび/またはハードウェア・コンポーネントであることができる。ミキシングおよびマスタリング・ユニット506は、Nチャネル・オーディオ信号を配送フロントエンド508に出力することができる。さまざまな実装において、ミキシングおよびマスタリング・ユニット506は、ミキシング利得を適用し、各信号を等化し、各信号に対してダイナミックレンジ補正(DRC: dynamic range correction)を実行し、各信号に対してノイズ削減を実行する動作を実行できる。ミキシングおよびマスタリング・ユニット506は、これらの動作をさまざまな組み合わせで、各信号に対して個々にまたは複数の信号に対して同時に実行できる。
【0075】
参照オーディオ・データは、リハーサルにおいてマイクロフォンによって記録され、推定器522によって処理されたオーディオ・コンテンツを含むことができる。リハーサルでは、マイクロフォンおよび音源がライブ・イベント100と同じ音響配置で置かれる。すると、マイクロフォンは、各音源が個々にプレイされるときにオーディオ信号を記録する。さらに、マイクロフォンは、音源がプレイしていないときにノイズ・サンプルを記録することができる。
【0076】
推定器522は、リハーサル・セッションからのオーディオ・データを収集し、処理するよう構成されたコンポーネントである。推定器522は、実演位置にある音源の各プレーヤーに個々にその楽器をプレイするまたは歌うよう指示することができる。たとえば、推定器522は、各実演者に、自分の楽器をX秒小さなボリュームで、Y秒大きなボリュームでプレイするよう(たとえば装置ユーザー・インターフェースを通じて促すことにより)指示することができる。リハーサルのマイクロフォンからのNm個の信号が記録されることができる。推定器522は、Nm個の信号を処理し、ラウドネス行列を決定し、音源特性および位置を導出し、楽器特性および位置をミキシング動作のためにミキシングおよびマスタリング・ユニット506に提供することができる。推定器522は、楽器特性および位置を決定するためのパラメータを構成する追加的な入力を受領することができる。推定器522のコンポーネントおよび動作のさらなる詳細は
図8、
図9、
図10および
図13を参照して後述する。
【0077】
配送フロントエンド508は、前記Nチャネル・オーディオを記憶装置に、あるいはライブ・ストリーミング(たとえばハイパーテキスト転送プロトコル(HTTP)ライブ・ストリーミング、リアルタイム・ストリーミング・プロトコル(RTSP)、リアルタイム転送プロトコル(RTP)、RTPコントロール・プロトコル(RTCP))を含むダウンロードのためにエンドユーザー装置に提供するためのインターフェース(たとえばストリーミングまたはウェブ・サーバー)を含むことができる。ライブ・ストリーミングは、イベント100の間に実質的にリアルタイムで生起することができる。
【0078】
サーバー408は、ビデオ編集器530を含むことができる。ビデオ編集器530は、イベント100のビデオ信号を受領し、少なくとも部分的にはオーディオ・コンテンツに基づいてビデオ信号を自動的に編集するよう構成されている、サーバーのコンポーネントである。ビデオを自動的に編集することは、たとえば、ビデオ編集器530が特定の楽器が優勢音源であると判別するときに特定の楽器またはプレーヤーにズームインすること(たとえばクローズアップ・ショット)を含むことができる。ビデオ編集器530の動作のさらなる詳細は、
図19のAおよびBならびに
図20を参照して後述する。
【0079】
図6は、オーディオ処理の例示的プロセス600のフローチャートである。プロセス600はたとえば
図4のサーバー408によって実行されることができる。プロセス600は、少なくとも部分的にはリハーサルにおいて記録された参照オーディオ・データに基づいてさまざまなミキシングおよびマスタリング動作を自動化することによって、通常のオーディオ処理技術に対して改善する。この明細書では、リハーサルという用語はセッションを指す。
【0080】
サーバー408は、一つまたは複数のチャネル信号源から参照オーディオ・データを受領することができる(602)。参照オーディオ・データは、リハーサルにおいて個々にプレイする一つまたは複数の音源の音響情報を含むことができる。参照オーディオ・データは、たとえば音源が鳴っていないときの、リハーサルにおけるノイズ・フロアの音響情報を含むことができる。各チャネル信号源は、マイクロフォンまたはライン出力を含むことができる。各音源はたとえば楽器、ボーカリストまたはシンセサイザーであることができる。サーバー408は参照オーディオ・データを通信ネットワーク(たとえば
図4の通信ネットワーク402)を通じて受領することができる。第一のチャネル信号は、第一の位置で(たとえば前方舞台左でまたは特定の楽器のところで)リハーサルを記録する第一のチャネル信号源(たとえば装置102)によって捕捉されることができる。第二のチャネル信号は、第二の位置で(たとえば前方舞台右でまたは特定の楽器のところで)リハーサルを記録する第二のチャネル信号源(たとえば装置104)によって捕捉されることができる。
【0081】
サーバー408は、一つまたは複数のチャネル信号源から、実演イベント、たとえばイベント100の一つまたは複数のチャネル信号を受領することができる(604)。各チャネル信号は、それぞれのチャネル信号源からのデジタルまたはアナログの信号であることができる。各チャネル信号は、実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含むことができる。実演イベントでは、音源およびチャネル信号源の位置は、同じ音響配置に(たとえば同じ位置に)置かれる。いくつかの実装では、サーバー408は、時間領域で第一のチャネル信号および第二のチャネル信号を自動的に同期させることができる。同期後、サーバー408は、第一のチャネル信号および第二のチャネル信号から、第一の音源および第二の音源を決定することができる。
【0082】
サーバー408は、イベント100の間にまたはイベント100の終結後に前記一つまたは複数のチャネル信号を自動的にミキシングすることができる(606)。自動化されたミキシング動作は、参照オーディオ・データに基づいて、イベント100の一つまたは複数の音源からの音響効果の一つまたは複数の属性を調整することを含むことができる。たとえば、自動化されたミキシング動作は、個々に各音源に対してノイズ削減を実行すること、各音源のバランスをとることまたはレベリングすることおよび各音源をパンすることを含むことができる。
【0083】
ミキシング動作は、少なくとも部分的には参照オーディオ・データに基づいてイベント100の一つまたは複数の音源からの信号の属性を自動的に調整することをも含むことができる。一つまたは複数の音源の属性を自動的に調整することは、一つまたは複数の音源の利得を、各音源のそれぞれのボリューム・レベルに従って増大または減少させることを含むことができる。一つまたは複数の音源の属性を自動的に調整することは、それぞれの音源からの各チャネル信号の利得を増大または減少させることまたはその両方を行なって、結果として一つまたは複数の音源のそれぞれに目標ボリューム・レベルに到達させるまたはほぼ到達させることを含むことができる。サーバー・コンピュータ408は、推定器522を使って少なくとも部分的には参照オーディオ・データから、それぞれのボリューム・レベルを決定することができる。他のミキシング動作は、圧縮を適用すること、等化、飽和または歪み、遅延、残響、変調、ステレオ、ボーカルまたは楽器ボリュームのフィルタリングおよびライディング(riding)を含むことができるがそれに限られない。
【0084】
参照オーディオ・データは、イベント100に先立って、リハーサル・セッションにおいて第一の記録装置および第二の記録装置によって記録されたオーディオ信号を含むことができる。参照オーディオ・データは、リハーサル・セッションにおける各音源または音源の群について個々に記録されることができる。参照オーディオ・データは、各音源について、第一のサウンド・レベル信号(たとえば小さいまたは低いボリュームとして指定されるもの)および第二のサウンド・レベル信号(たとえば大きいまたは高いボリュームとして指定されるもの)を含むことができる。参照オーディオ・データは、音源がプレイしていないときに背景ノイズについて記録されることができる。いくつかの実装では、参照オーディオ・データは(たとえば各音源が中くらいのボリュームでプレイしているときの)単一のサウンド・レベル信号を含むことができる。
【0085】
サーバー408は、少なくとも部分的には参照オーディオ・データから、イベント100における各音源についてのそれぞれの利得を決定することができる。それぞれの利得を決定することは、各音源または音源の群(たとえばギター群、ドラム群、背景ボーカル)について、目標ボリューム・レベルを指定する入力を受領することを含むことができる。サーバー・コンピュータ408は、推定器502を使って、参照オーディオ・データにおける信号のそれぞれのボリューム・レベルを決定することができる。サーバー408は、参照オーディオ・データにおける信号のボリューム・レベルと目標ボリューム・レベルとの間の差に基づいてそれぞれの利得を決定できる。
【0086】
いくつかの実装では、自動化されたミキシング(606)動作は、通信ネットワークを通じてサーバー・システムにログオンしているリモートの人間のミキシングまたはマスタリング技師からの入力に従って、一つまたは複数の音源からの信号の利得を調整することを含むことができる。よって、イベント100のところにいないリモートのミキシングまたはマスタリング技師が、ライブ・ストリーミングの間にイベント100の音源をミキシングまたはマスタリングすることができる。
【0087】
サーバー408は、サーバー・システムからダウンミックスを記憶装置に、あるいはエンドユーザー装置に、イベント100のライブ・コンテンツとしてたとえばライブ・ストリーミングによって提供することができる(608)。エンドユーザー装置は、エンドユーザー装置に統合されたまたは結合された一つまたは複数のラウドスピーカーでコンテンツを再生することができる。いくつかの実装では、サーバー408は、イベント100についてのビデオ編集を自動化することができる。ビデオ編集は、イベント100が進行している間のライブ編集またはイベント100の以前に記録されたビデオに対するオフライン編集であることができる。自動化されたビデオ編集動作のさらなる詳細は、
図19のAおよびBならびに
図20に記載される。いくつかの実装では、リモートの人間のビデオ編集者がイベント100の間に、ビデオ編集を提供するために当該プラットフォームを使うことができる。
【0088】
いくつかの実装では、サーバー408は、第一のチャネル信号または第二のチャネル信号に基づいて、第一および第二の記録装置にコマンドを提供することができる。コマンドは、記録装置の記録パラメータを調整することができる。たとえば、コマンドは、利得、圧縮型、圧縮またはサンプル・レート(たとえば44.1Hz)またはビット深さ(たとえば16または24ビット)を調整するよう記録装置に指示することができる。
【0089】
図7は、例示的なミキシングおよびマスタリング・ユニット506のコンポーネントを示すブロック図である。ミキシングおよびマスタリング・ユニット506は、ミキシングおよびマスタリング動作を実行するよう構成されたさまざまな電子回路を含むことができる。ミキシングおよびマスタリング・ユニット506は、ミキシング・ステージにおける信号レベリングおよびパンを自動化することによって、また連続的で長いクレッシェンドが存在するときに新規性ベースの信号セグメント分割を自動化することによって、通常のミキシングおよびマスタリング技術に対して改善する。
【0090】
ミキシングおよびマスタリング・ユニット506は、ミキシング・ユニット702およびマスタリング・ユニット704を含むことができる。ミキシング・ユニット702は、参照オーディオ・データおよび一つまたは複数のリモートまたはローカルのミキシング卓からの入力を使って自動的に、源分離器504からのNs個の信号または同期器502からのNm個の同期された信号に対してミキシング動作を実行するよう構成された、ミキシングおよびマスタリング・ユニット704のコンポーネントである。
【0091】
ミキシング・ユニット702は、他のコンポーネントの中でも、レベリング・ユニット706、パンナー708、音源等化器710およびノイズ削減ユニット711を含むことができる。レベリング・ユニット706は、各音源または各マイクロフォンについてそれぞれの利得を調整するよう構成された、ミキシング・ユニット702のコンポーネントである。調整は、少なくとも部分的には参照オーディオ・データに基づく、ミキシング卓からの入力によるまたは両方の組み合わせであることができる。レベリング・ユニット706の動作のさらなる詳細は
図8を参照して後述する。
【0092】
パンナー708は、各音源を、仮想サウンドステージ(たとえば左、右、中央)における位置に空間的に配置するよう構成された、ミキシング・ユニット702のコンポーネントである。パンナー708の動作のさらなる詳細は
図9および
図10を参照して後述される。
【0093】
音源等化器710は、混合されたオーディオ信号全体としてではなく、個々の音源に対して等化(EQ)動作を実行するよう構成された、ミキシング・ユニット702のコンポーネントである。音源等化器710の動作のさらなる詳細は、
図13、
図14AおよびBを参照して後述する。
【0094】
ノイズ削減ユニット711は、すべての信号のスペクトルを横断してではなく、個々の信号に対してノイズ削減(NR)動作を実行するよう構成された、ミキシング・ユニット702のコンポーネントである。ノイズ削減ユニット711の動作のさらなる詳細は、
図24を参照して後述する。
【0095】
マスタリング・ユニット704は、他のコンポーネントの中でも、等化器712およびセグメント分割ユニット714を含むことができる。等化器712は、全体としてのミキシングされた諸オーディオ信号について、種々の周波数を横断してサウンド・レベルをなめらかにするよう構成された、マスタリング・ユニット704のモジュールである。セグメント分割ユニット714は、オーディオ信号の内在的な特性に基づいてビデオ信号を複数のセグメントに分割するよう構成された、マスタリング・ユニット704のモジュールである。いくつかの実装では、セグメント分割ユニット714は、
図5のビデオ編集器530のコンポーネントであるか、該ビデオ編集器に結合される。セグメント分割ユニット714の動作のさらなる詳細は、
図15および
図16を参照して後述する。
【0096】
図8は、音源を自動的にレベリングする例示的プロセス800を示すフローチャートである。プロセス800は(
図7の)レベリング・ユニット706によって実行されることができる。自動的なレベリング(leveling)において、レベリング・ユニット706は、音源のそれぞれのボリューム・レベルを自動的に目標レベルに調整することができる。プロセス800は、人間による手動の調整に基づくのではなく、少なくとも部分的には参照オーディオ・データに基づいて自動的に利得調整を実行することによって、通常のミキシング技術に対して改善する。これは、リアルタイムで膨大な量の音楽コンテンツを高速で処理することを許容する。
【0097】
レベリング・ユニット706は、参照オーディオ・データ(リハーサル・データとも称される)を受領することができる(802)。参照オーディオ・データは、チャネル信号源、たとえば複数の音源の主要マイクロフォンおよびスポット・マイクロフォンからのチャネル信号の表現を含むことができる。該表現は、チャネル信号源からの直接のチャネル信号または部分的に処理された、たとえば等化されたまたはダイナミックレンジ補正を通った信号であることができる。
【0098】
レベリング・ユニット706は、チャネル信号源、たとえばマイクロフォンの各対の間のそれぞれの相関を決定することができる(804)。相関を決定することの詳細は、式(3)を参照して後述する。
【0099】
レベリング・ユニット706は、それぞれの主要なマイクロフォンのそれぞれのエネルギー・レベルを、単位利得または他の何らかの参照レベル(たとえば-18dB)に関連付けられたベースラインとして指定することができる(806)。
【0100】
いくつかの実装では、レベリング・ユニット706は、ベースラインへの各スポット・マイクロフォンのそれぞれの寄与を決定することができる(808)。
【0101】
レベリング・ユニット706は、各音源の目標レベルを指定する目標レベル・データを受領することができる(810)。目標レベル・データは、ユーザー・インターフェースから受領されることができる。
【0102】
レベリング・ユニット706は、オーディオ信号を、それぞれの寄与に基づいてそれぞれの利得に従って目標レベルに再スケーリングするためのコスト関数を決定することができる(812)。コスト関数は、変数(この場合は利得)の関数であって、該変数は該関数が最小値をもつよう解くべきものである、関数であることができる。コスト関数の変数を解くことは、コスト関数を最小化すると称される。コスト関数の変数を解くことの詳細および例は、「最良推測によるコスト関数の最小化」という見出しをもつ節で後述する。
【0103】
レベリング・ユニット706は、コスト関数を最小化することによって、各チャネル信号についてそれぞれの利得を計算することができる(814)。レベリング・ユニット706は、各音源について前記目標レベルを達成するために、ライブ・オーディオ・データにおけるチャネル信号にそれぞれの利得を適用することができる。レベリング・ユニット706は、結果として得られる信号を、エンドユーザー装置のさらなる処理およびラウドスピーカーまたはヘッドフォンでの再生のために他のコンポーネントに提供することができる。プロセス800のさらなる詳細および例を下記で述べる。
【0104】
インデックスの集合i=1,……,N
iは、音源数をを表わすことができる。ここで、N
iは(
図1の)イベント100における音源の総数である。インデックスの集合b=1,……,N
bはビーム数を表わすことができる。ここで、各ビームは、先述したように、それぞれのスポット・マイクロフォンからのチャネル信号である。N
bはスポット・マイクロフォンの総数である。インデックスの集合M=L,R,1,……,N
bは、主要な左マイクロフォン(L)および主要な右マイクロフォン(R)にビーム・インデックスを加えた組み合わせを表わすことができる。主要マイクロフォンがモノ・マイクロフォンである場合には、インデックスの該集合はM=Mono,1,……,N
bであることができ、項Monoがモノ・マイクロフォンを表わす。その後の処理は同様である。複数の音源が同じビームに割り当てられてもよい。よって、いくつかのシナリオでは、N
b<N
iである。これはたとえば、歌も歌うギター奏者の近くにスポット・マイクロフォンを置く場合に成り立つケースである。この例では、ボーカルおよびギターは同じスポット・マイクロフォンに割り当てられる。よって、レベリング・ユニット706は、最終的なミックスに存在することになる信号の総数をN
Mとして指定することができる。
【0105】
レベリング・ユニット706によって実行されるアルゴリズムへの入力の一つは、(たとえばdBでの)各ビームMにおける各楽器iのラウドネス・レベルを定量化するラウドネス行列L
iMである。推定器522がラウドネス行列L
iMを計算することができる。レベリング・ユニット706はラウドネス行列L
iMについて線形スケールを使うことができる。よって、レベリング・ユニット706は、各マイクロフォンにおける各楽器のエネルギーを、エネルギー行列E
iMにおいて次のように表わすことができる:
【数1】
レベリング・ユニット706がビームbに利得g
Mを適用する場合、ビームのエネルギーはg
M
2E
ibに変化することができる。さらに、エネルギー行列は、各音源のどのくらいのエネルギーが二つの主要なステレオ・チャネルに存在するかを指定することができる。これらはE
iL、E
iRによって指定される。
【0106】
レベリング・ユニット706は、利得g
Mを決定するよう構成される。これは、主要チャネルおよびスポット・チャネルを含む各チャネルについてのそれぞれの利得を表わすベクトルである。ここで、二つの主要チャネルについての利得が最初に表わされる。レベリング・ユニット706は、すべてのエネルギーが主要ステレオ・チャネルにおけるエネルギーを基準とするよう、絶対スケールを固定することができる。レベリング・ユニット706は、主要ステレオ・チャネルにおけるエネルギーにはいかなる利得も適用しないことを決定することができる。この手法では、主要ステレオ・チャネルは、単位利得をもつベースラインとして指定されることができる。レベリング・ユニット706は、このベースラインより上の各スポット・マイクロフォンの寄与を計算することができる。よって、レベリング・ユニット706は、g
Mの最初の二つのエントリーを:
【数2】
のように1に設定できる。
【0107】
種々の信号を混合した後のエネルギーを推定するために、レベリング・ユニット706はまず、各音源iについて、ビームMとビームM'の間で、参照オーディオ・データから、正規化された相関行列(C
i)
M,M'を得ることができる。各C
iは、音源iだけのリハーサルから得られる。レベリング・ユニット706は、楽器iがリハーサルされるときにM個のマイクロフォン(主要ステレオにビームを加えたもの)によって捕捉された信号を表わすためにs
iMを使うことができる。レベリング・ユニット706は、正規化された共分散行列を次のように計算することができる:
【数3】
ここで、「< >」はある時間期間にわたる時間平均を表わす。時間期間はリハーサル時間全体であることができる。あるいはまた、レベリング・ユニット706は、リハーサルのゲーティングされた部分での平均を取ることができる。それにより、レベリング・ユニット706は、ほとんと無音の部分がもしあればそれを除去できる。よって、レベリング・ユニット706は、良好な信号対雑音比(SNR)をもつ部分を保持することができる。正規化された共分散は次のことを満たす:
・(C
i)
M,M=1、つまりマイクロフォンは常に自分自身と完全に相関している。
・二つのマイクロフォンにおける信号が完全に無相関であれば(C
i)
M,M'=0。
・二つのマイクロフォンにおける信号が正の位相をもって完全に相関している、すなわちs
iM=αs
iM'であり、αは値であり、α>0であれば(C
i)
M,M'=1。
・二つのマイクロフォンにおける信号が逆位相をもって完全に相関している、すなわちs
iM=αs
iM'であり、αは値であり、α<0であれば(C
i)
M,M'=-1。
【0108】
この共分散行列を使って、レベリング・ユニット706は、音源iの全エネルギーE
iを次のように表現できる:
【数4】
等価な、より短い形(繰り返される項について和を取るが)は次のようになる:
【数5】
【0109】
レベリング・ユニット706へのもう一つの入力は、最終的なミックスにおける各音源iの目標ラウドネス・レベル(または線形スケールでは目標エネルギーTi)であることができる。原理的には、相対的な目標レベルのみが問題になる。レベリング・ユニット706は、主要ステレオ・チャネルの利得を1に固定することによってすでにグローバルなボリュームを固定しているので、これは絶対的な目標ボリュームに物理的な意味を与える。レベリング・ユニット706は、それを適切なレベルに設定するための一つまたは複数の基準を決定することができる。
【0110】
これを行なうために、レベリング・ユニット706は、所望される相対目標ラウドネス・レベルTiに到達するあらゆる可能な仕方のうちで、レベリング・ユニット706がどのように絶対スケールを指定できるかを決定するための特定のデータ項目を得ることができる。それにより、レベリング・ユニット706は、全エネルギーのうち、主要ステレオ・マイクロフォンから由来する結果になるフラクションを、スポット・マイクロフォンから由来する結果になるフラクションに対して制御することができる。いくつかの実装では、レベリング・ユニット706は、このフラクション数をユーザー入力パラメータとして設定することができる。
【0111】
いくつかの実装では、レベリング・ユニット706は、このフラクションを、直接音対残響比と呼ばれる直接エネルギーと残響エネルギーとの間の所与の比をねらうことによって、このフラクションを推定できる。たとえば、強い残響をもつオーディオ環境(たとえば教会)では、レベリング・ユニット706は高いレベルの相対的なスポット・マイクロフォン・エネルギーを適用することができる。それに対し、低い残響をもつオーディオ環境(たとえば音響用に処理された部屋)では、主要ステレオ・マイクロフォンが最適な位置にある場合、レベリング・ユニット706は、大半のエネルギーが主要ステレオ・マイクロフォンに由来することを許容できる。よって、レベリング・ユニット706は、スポット対主要エネルギー比R
spotsを指定する入力を、ユーザーから、あるいは自動的に計算することによって、得ることができる。次いで、レベリング・ユニット706は、下記の式(6)を使ってコスト関数における項を決定することができる:
【数6】
ここで、E
mainは主要マイクロフォンからのエネルギーであり、E
spotはスポット・マイクロフォンからのエネルギーであり、E
totalは全エネルギーである。
【0112】
レベリング・ユニット706は、処理を簡単にするためにこの式を近似することができる。最終的な音源エネルギーが正しく到達される、つまり下記の近似において
【数7】
とする。
【数8】
【0113】
この近似において、これらのエネルギーはg
Mには依存せず、よってレベリング・ユニット706は、最小化前にはスポット対全部の制約条件をほとんど適用できない。レベリング・ユニット706は目標エネルギーを
【数9】
と再スケーリングし、スケーリング因子rについて解くことができる:
【数10】
ここで、^T
i〔^付きのT
i〕は、スケーリング因子rによってスケーリングされたT
iである。
【0114】
次いで、レベリング・ユニット706は、適正にスケーリングされた^T
iを用いたコスト関数を決定することができる。たとえレベリング・ユニット706がR
spots=0と設定するとしても、その場合は
【数11】
だが、いくつかの音源iについて目標レベルT
iに到達するために、いくつかのスポット・マイクロフォンが必要とされることがある。これは、R
spots=0と設定するという直観に反しているが、最小化後にレベリング・ユニット706が
【数12】
に近づくことができるという近似に起因する。
【0115】
レベリング・ユニット706は、コスト関数が(略記:dB
p[・]=20log
10[・]およびdB
I[・]=10log
10[・]を使って)
【数13】
であることを決定できる。ここで、FはN
b個の未知数g
Mの関数であり、すべての依存性はE
iを介した暗黙的な依存性から生じている。式(9)および下記の他の式において、dBについての項は平方、たとえば(dB)
2で表わされている。さまざまな実装において、これらの項は絶対値、たとえば|dB|で置換されることができる。
【0116】
N
i
-1の正規化因子は、第一項の絶対値が、異なる数の音源がある場合を横断して比較されることができることを保証する。レベリング・ユニット706は、各音源が目標に達し損なう平均平方誤差(たとえばdB単位での)を表わすためにコスト関数Fを使うことができる。いくつかの実装では、レベリング・ユニット706は、コスト関数を得て、上記のような近似を避けることができる。レベリング・ユニット706は、追加のコスト項を入れることができる:
【数14】
ここで、E
spots、E
mainは式(6)においてg
bを用いて定義されている。これにより、レベリング・ユニット706は、αを増すことによって、どのくらいの重要性をR
spotsに与えるかを制御することができる。この実装では、レベリング・ユニット706はrについても最小を見出す必要があることを注意しておく。それは、諸目標のグローバル・スケールであることができる。
【0117】
さまざまな実装において、レベリング・ユニット706は、どの音源が指定されたラウドネス目標に到達することがより重要であるかについての情報をレベリング・ユニット706が得る場合に、よりよい結果を提供しうるアルゴリズムを使うことができる。たとえば、入力情報は、リードボーカルが他の楽器より3dB上であるべきであると指定することができる。この情報は、ミックスの品質を決定的に決定することができる。他の楽器は、正しい目標に数dBの差で達しなくても、リードボーカルが目標を下回っている場合ほどミックスが貧弱だと判断されることはない。レベリング・ユニット706は、この側面を捉えるために、各音源について、重要度重みの集合w
i
impを決定することができる。レベリング・ユニット706は、重要度重みを組み込むコスト関数を次のように定義することができる:
【数15】
【0118】
レベリング・ユニット706は、gMについて解くために、上記のようにコスト関数Fを最小化することができる。いくつかの実装では、レベリング・ユニット706は、楽器がリード楽器であるかどうかに従って重要度重みwi
impを設定することができる。たとえば、レベリング・ユニット706は重要度重みwi
impを、リード以外の楽器については1に、リード楽器については2から5までの間の値に設定することができる。
【0119】
〈専用のスポット・マイクロフォンの追加〉
いくつかの状況では、前記アルゴリズムは、ある種のチャネル信号源、たとえば専用のスポット・マイクロフォンからのエネルギーをほとんど使わない傾向がある。対応する音源のレベルが他のマイクロフォンを使っても正しく達成されることができるからである。これは、スポット・マイクロフォンが無指向性である場合(たとえばスマートフォンの内蔵マイクロフォン)のように、漏れのある場合に生じることがある。一般に、専用のスポット・マイクロフォンが使われるとき、レベリング・ユニット706は、対応する楽器のエネルギーの大半を、そのようなマイクロフォンから得るよう構成されることができる。
【0120】
リハーサル段から、レベリング・ユニット706は、所与のスポット・マイクロフォンが所与の音源についてもつ専用度を定義することができる。レベリング・ユニット706は、スポット・マイクロフォンが他の音源からの漏れをほとんどもたない場合には、専用度を1に設定することができる。レベリング・ユニット706は、他の音源からの漏れが深刻である(たとえば閾値を超える)場合には、専用度を0に設定することができる。よって、ビームがb(i)である音源iについて、そのような専用度D(i)は
【数16】
となる。ここで、SNR(i)は音源iについての信号対雑音比であり、dBMaxRatioは、それより上ではレベリング・ユニット706が専用度を1に設定する第一の閾値であり、dBMinRatioは、それより下ではレベリング・ユニット706が専用度を0に設定する第二の閾値である。閾値はあらかじめ定義されていてもよく、あるいはユーザー入力からであることもできる。
【0121】
レベリング・ユニット706は、D(i)∈[0,1]にクランプ(clamp)できる。いくつかの実装では、レベリング・ユニット706は、これらのパラメータについての数を次のように設定できる:dBMaxRatio=3dB、dBMinRatio=-6dB。これらの設定は、関連する楽器が、そのマイクにおける他のすべての楽器の和より少なくとも3dB上であれば専用度が1であり、-6dB以下であれば専用度が0であることを含意する。
【0122】
レベリング・ユニット706はコスト関数において新たな項N
dedに重み付けするためにD(i)を使うことができる:
【数17】
ここで、N
dedは、何個の専用マイクロフォンがあるかの指標であり(実数)、E
i,spotsは、ミックスにおける、楽器iからの、スポット・マイクロフォンに由来する全エネルギーである:
【数18】
【0123】
レベリング・ユニット706は、この新しい項を含むコスト関数を最小化することによってgMを計算することができる。
【0124】
〈最良推測によるコスト関数の最小化〉
いくつかの実装では、これらのコスト関数は非線形であることができる。非線形コスト関数を最小化するには、レベリング・ユニット706は、推測アプローチを取ることができる。レベリング・ユニット706は、たとえば±5dBの範囲内で、すべてのgMを1dBのきざみ〔ステップ〕で離散化し、Fを最小化する組み合わせを見出すことができる。レベリング・ユニット706は、最良推測から出発して、最良推測から出発して前記範囲を通じて該最良推測から諸ステップ離れることを、レベリング・ユニット706がコスト関数の最小値を見出すまで行なうことによって、前記組み合わせを見出すことができる。
【0125】
それを行なうために、レベリング・ユニット706は、最初の推測を実行することができる。これはたとえば、漏れを無視して、Eを対角にすることによって得ることができる(推定器522またはレベリング・ユニット706が行および列をソートしており、音源の対応するビームが対角線にあるとする)。その場合、各iには一つのビームだけが寄与する。そのビームはb(i)とラベル付けされる。よって、
【数19】
ここで、E
i,mainは主要マイクロフォンにおける楽器iのエネルギーである。レベリング・ユニット706が目標に達する、すなわち
【数20】
とすると、レベリング・ユニット706はgについて解くことができる:
【数21】
【0126】
レベリング・ユニット706が同じビームを二つ以上の楽器について繰り返す場合、レベリング・ユニット706は次のようにしてgについて解く:
【数22】
ここで、< >は平均であり、平均は同じビームbに割り当てられたさまざまな楽器に対するものである。レベリング・ユニット706は、その解を最良推測として指定し、その解を、最良の解を見出すためにXdBステップごとに増大および減少させることができる。
【0127】
この分子の符号についての注意。十分に保証される唯一の事実は、すべてのビームからの全目標エネルギーが主要マイクロフォンからのエネルギー以上である、ということである:
【数23】
【0128】
しかしながら、和におけるいくつかの個々の項は、一部のiについては負になることがある。つまり、いくつかの音源iについては、目標に達するために主要ステレオ・チャネルにすでに十分なラウドネスがある。そのような場合、レベリング・ユニット706は対応するビームの利得を0に設定することができる。いくつかの実装では、レベリング・ユニット706は、ある範囲の可能性、たとえば-15dBを探すことができる。
【0129】
レベリング・ユニット706は、諸目標Tiについて同じラウドネス・モデルを使うことができる。ラウドネスをdBで表わす代わりに、レベリング・ユニット706はソーンで表わし、レベリング・ユニット706がdBに使っていたラウドネス・モデルを使ってdBに変換し戻すことができる。
【0130】
〈自動的パンナー〉
図9は、自動的パンの例示的プロセス900を示すフローチャートである。プロセス900は、
図7のパンナー708によって実行されることができる。プロセス900を実行することにより、パンナー708は、サウンドステージ上のそれぞれの正しい位置に楽器を自動的に配置することによって、通常のパン技術に対して改善する。
【0131】
パンナー708は、イベント100のチャネル信号を受領することができる(902)。チャネル信号は、レベリング・ユニット706の出力であることができる。各チャネル信号はマイクロフォンに対応することができる。パンナー708は、イベント100における音源の参照オーディオ・データを受領することができる(904)。参照オーディオ・データは、リハーサル・セッションにおいて記録された信号から生成されることができる。パンナー708は、左チャネルにおける全エネルギーおよび右チャネルにおける全エネルギーを、参照オーディオ・データに基づく各音源による寄与として、計算することができる(906)。パンナー708は、それらの全エネルギーに基づいて、左右不均衡を計算することができる(908)。パンナー708は、該不均衡を最小化するためのコスト関数を決定する。パンナー708は、主要マイクロフォンによって捕捉される音源の自然なパンを計算することができる(910)。パンナー708は、自然なパンを最大にするコスト関数を決定することができる。パンナー708は、パンできない音源を判別することができる(912)。これはたとえば、その音源をパンできないとして指定する入力に基づく。パンナー708は、パンできない音源を尊重するコスト関数を決定することができる。
【0132】
パンナー708は、各チャネル信号についてのパン角を変数としてもつコスト関数を決定することができる(914)。コスト関数は、前記不均衡に対応する第一の成分と、パンできる音源に対応する第二の成分と、パンできない音源に対応する第三の成分とをもつことができる。
【0133】
パンナー708は、コスト関数を最小化することによって、各チャネル信号のパン位置を決定することができる(916)。パン位置は、パン角、左と右の出力チャネルの間の比または左と右の出力チャネルに対する百分率としてパラメータ化されることができる。パンナー708は、該パン位置をチャネル信号に適用して、音源をスピーカーへの出力のためにステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成することができる。
【0134】
いくつかの実装では、パンナー708は、ビデオ・データに基づいてオーディオ・パンを実行することができる。パンナー708は、特定の音源、たとえばボーカリストまたは楽器の位置を、ビデオ・データでの顔追跡または楽器追跡を使って決定することができる。すると、パンナー708は、その位置に基づいてその音源のパン位置を決定することができる。
【0135】
ひとたびレベリング・ユニット706が各ビームのために必要とされる利得(g
b)を計算したら、パンナー708は、各ビームをエネルギーを保存する仕方で左と右にどのように分割するかL/Rを決定することができる。パンナー708は、各ビームbについてパン角θ
bを計算することができる:
【数24】
ここで、l
bはビームbの左チャネル成分であり、r
bはビームbの右チャネル成分であり、ハードな左はθ=0、ハードな右はθ=π/2、中央はθ=π/4である。
【0136】
パンナー708が主要ステレオ・チャネルを不変なままにすると仮定して、パンナー708は、インデックスをMに拡張してもよい。ここで、l
L=r
L=1である。前記角の関数としての結果として得られるミックスは:
【数25】
である。ここで、s
MはマイクロフォンMによって拾われる信号であり、Lはミックスの左成分であり、Rはミックスの右成分である。
【0137】
参照オーディオ・データに基づいて、パンナー708は、各楽器に起因するL/Rチャネルにおける全エネルギーを計算できる:
【数26】
ここで、E
i
Ltot(θ
b)はパン角θ
bについての左チャネルにおける音源iの全エネルギーであり、E
i
Rtot(θ
b)はパン角θ
bについての右チャネルにおける音源iの全エネルギーである。これらの式は今やθ
bのみに依存する。利得g
bはレベリング・ユニット706によってすでに調整されているからである。
【0138】
パンナー708が課すことのできる一つのことは、全体的なミックスがLとRの間でバランスがとれているということである。よって、パンナー708は、L-R不均衡コスト関数H
LR-balance:
【数27】
を最小化することができる。
【0139】
他方、パンナー708は、イベント100の観点からイベント100において配置されている音源の自然なパンを尊重するよう構成されることができる。自然なパンは、完全に主要ステレオ・エネルギー:E
iL、E
iRによって捕捉される。よって、パンナー708は、次をも課すことができる:
【数28】
【0140】
いくつかの実装では、パンナー708は、左右のチャネルを解析することによって得られる自然なパンに基づいて位置を決定するのではなく、所望される位置を外部入力として受け取ることができる。たとえば、パンナー708は、画像またはビデオから自然な位置を決定できる。追加的または代替的に、パンナー708は自然な位置をユーザーによる入力から決定できる。
【0141】
加えて、いくつかの音源は決してパンされるべきではない(たとえばリードボーカル、ベースなど)。パンナー708は、このことをできるだけ尊重するよう構成されることができる。これらの音源は、パンできない音源として指定されることができる。パンナー708は、パンできる(pannable)/パンできない(unpannable)音源集合をそれぞれI
P/I
Uによって表わすことができる。すると、パンナー708は上記を次のように一般化できる。
【数29】
パンナー708は次いで、パンできない源についてのコスト関数H
unpannableおよびパンできる音源についてのコスト関数H
pannableを決定することができる。
【数30】
【0142】
パンナー708は、楽器をサウンドステージの中央に置くこととは反対の、楽器をより幅広くパンする傾向を示す、パン量を制御することができる。いくつかの実装では、パンナー708は別の項を導入することができる。いくつかの実装では、パンナー708は、主要マイクロフォンからの推定を誇張することができる。パンナー708は、発散(divergence)を示すパラメータd∈[0,1]をプリセットまたはユーザー入力として受領することができる。パンナー708は、知覚される主要チャネル・エネルギーに対して次の変換を実行することができる。該変換は、楽器角度に対する変換を導入する。
【数31】
ここで、θ
0はもとのパン角であり、θ
finalは最終的なパン角である。d=0については、何も変わらず、θ
final=θ
0である。極端な場合d=1については、歪みは下記で
図10に示される。
【0143】
dを用いると、パンナー708は次のパン可能コスト関数を使う:
【数32】
【0144】
パンナー708は最終的なコスト関数:
【数33】
を使うことができる。ここで、重みα
uおよびα
pはパンできない音源およびパンできる音源についてのコスト関数のそれぞれに与えたい重要度を制御する。パンナー708は、たとえば-50から50まで10度毎のθ
iの可能な値を離散化し、コスト関数の最小値が見出されるまで離散化された値を逐次反復することによって、コスト関数H[θ
b]を最小化することができる。
【0145】
図10は、最大歪みについての例示的な角変換を示している。この最大歪みについての角変換は、パンナー708(d=1)によって実行されることができる。横軸は一つまたは複数の音源のもとの角θ
0を表わす。縦軸は一つまたは複数の音源の最終的な角θ
finalを表わす。角=45が中央パンである。
【0146】
〈合同最小化〉
レベリング・ユニット706は、扱うことができるよりも少ないスポット・マイクロフォンを使うのでもよい。たとえば、入力利得のさまざまな構成が競合し、それらの入力利得のすべてが同じラウドネスにつながることがある。これは、パンナー708には負の影響をもつことがある。1~2個のスポット・マイクロフォンだけが使われればパンナー708にとっての可能性の範囲は大幅に縮小できるからである。
【0147】
いくつかの実装では、自動レベル段(auto-level stage)におけるこの不定性を減らし、より多くのスポット・マイクロフォンが使われる構成を優遇するために、レベリング・ユニット706の自動レベル段の動作は、パンナー708のパン段動作にリンクすることができる。
【0148】
そのような実装では、レベリングおよびパン・ユニットが、レベリング・ユニット706およびパンナー708の回路および機能を組み合わせることができる。レベリングおよびパン・ユニットは参照オーディオ・データを受領することができる。参照オーディオ・データは、一つまたは複数の音源のリハーサルにおいて記録された複数のチャネル信号源からのチャネル信号の表現を含むことができる。レベリングおよびパン・ユニットは、目標レベル・データを受領することができる。目標レベル・データは各音源の目標レベルを指定する。レベリングおよびパン・ユニットは、ライブ・オーディオ・データを受領することができる。ライブ・オーディオ・データは、ライブ・イベント100においてプレイしている前記一つまたは複数の音源からの記録されたまたはリアルタイムの信号を含むことができる。レベリング・ユニットは、参照オーディオ・データに基づいて、ライブ・オーディオ・データをレベリングし、ライブ・オーディオ・データをパンするための合同コスト関数を決定することができる。合同コスト関数は、ライブ・オーディオ・データをレベリングするための第一の成分と、ライブ・オーディオ・データをパンするための第二の成分とをもつことができる。第一の成分は目標レベル・データに基づくことができる。第二の成分は、左チャネルと右チャネルの間の不均衡の第一の表現と、音源の間でのパンできる源の第二の表現と、音源の間でのパンできない源の第三の表現とに基づくことができる。レベリングおよびパン・ユニットは、合同コスト関数を最小化することによって、各チャネル信号に適用すべきそれぞれの利得と、各チャネル信号のそれぞれのパン位置とを計算することができる。レベリングおよびパン・ユニットは、イベントのライブ・オーディオ・データの信号に該利得およびパン位置を適用して、記憶装置へのまたはステレオ音再生システムへの出力のために、ライブ・オーディオ・データにおける音源をレベリングし、ライブ・オーディオ・データにおける音源をステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成することができる。
【0149】
合同コスト関数は下記の式(29)に示されている。ここで、上記で現われた項のいくつかは名前が変更されている。
【数34】
ここで、H
automixerは組み合わされたレベリング・ユニット706およびパンナー708のコスト関数であり、H
levelはレベリング・ユニット706のコスト関数であり、H
pannerはパンナー708のコスト関数であり、H
targetsは重要な音源についての目標が尊重されるときのコスト関数であり、H
dedicatedは専用のビームが考慮されるときのコスト関数である。さらに、α
dは専用のマイクロフォンの重みであり、α
uはパンできない音源の重みであり、α
pはパンできる音源の重みである。パンナー708はこれらの重みをプリセット・パラメータまたはユーザー入力として受領することができる。
【0150】
合同コスト関数におけるコスト関数は下記で定義される。
【数35】
【0151】
ここで、レベリング・ユニット706の自動レベル処理はパン角に依存しない。それは、モノ・ダウンミックスの全体的なラウドネスを測る。パンナー708の自動パン処理は、パン角のほかにビームの利得gbに依存する。
【0152】
〈マイクロフォン信号からの楽器RMSの推定〉
図11は、マイクロフォン信号からエネルギー・レベルを推定する例示的プロセス1100を示すフローチャートである。
図5および
図7の推定器522が楽器RMSを測定するためにプロセス1100を実行することができる。楽器RMSは、さまざまな音源のエネルギー・レベルの二乗平均平方根(root mean square)表現であることができる。
【0153】
推定器522は、参照オーディオ・データを受領することができる(1102)。参照オーディオ・データはリハーサルにおいて記録されたi=1,……,Niの音源でのm=1,……,Mのマイクロフォンからのチャネル信号を含むことができる。
【0154】
推定器522は、参照オーディオ・データに基づいて、各マイクロフォンにおける各楽器のそれぞれのレベル(たとえばラウドネス・レベル、エネルギー・レベルまたは両方)を計算することができる(1104)。
【0155】
推定器522は、各音源のそれぞれの利得に基づくコスト関数を決定することができる(1108)。コスト関数において、推定器522は、スポット・マイクロフォンよりも主要マイクロフォンからの信号に対して、より小さな重みを与えることができる。コスト関数において、推定器522は、参照オーディオ・データにおいて表現されているものより有意に高い、ライブ・データにおける楽器ラウドネスを推定することにペナルティーを与えることができる。コスト関数において、推定器522は、実演とリハーサルとの間の測定されたレベルの間の差のマイクロフォン横断平均によって、コスト関数をスケーリングすることができる。
【0156】
推定器522は、コスト関数を最小化することによって各音源についてのそれぞれの利得を決定できる(1110)。推定器522は、エネルギー行列またはラウドネス行列におけるそれぞれの利得を、ビデオ信号を処理するために、たとえばどの楽器が他の楽器の閾値より大きいレベルでプレイしているかを識別してその楽器またはその楽器の奏者に焦点を当てるために、プロセッサ(たとえばビデオ編集器530)に提供することができる。プロセス1100のさらなる詳細および例を下記で述べる。
【0157】
イベント100のオーディオ・シーンはm=1,……,Mのマイクロフォンおよびi=1,……,N
iの音源を含むことができる。リハーサル段では、各楽器は別個にプレイされる。推定器522は、各マイクロフォンにおける各楽器のラウドネスE
i,mを計算し、その数値をエネルギーに変換するよう構成された、(
図4の)サーバー408のコンポーネントである。いくつかの実装では、ラウドネス指標はたとえば欧州放送連合(EBU)のR128規格に基づくことができ、我々は10
L/10によりエネルギーに変換する。よって、リハーサルにおいて、推定器522は次の関係から行列e
i,mを計算できる:
【数36】
ここで、E
i,m
rehearsalは楽器iがリハーサルされるときの各マイクロフォンにおける測定されたラウドネスであり、E
i
rehearsalはリハーサル段においてプレイしているときの各楽器のラウドネス(未知、測定不能)である。
【0158】
バンド全員が一緒に演奏するとき、推定器522は各マイクロフォンにおける全ラウドネスE
m
performanceを測定することへのアクセスがあるだけであることがある。楽器およびマイクロフォンからの伝達関数が一定かつリハーサル段に等しいままであり、すべての楽器の信号が互いに統計的に独立であれば、次の関係が成り立つ:
【数37】
推定器522は利得g
iを使って、各楽器のレベルをそれらの楽器がリハーサルされたときのレベルに対して比較することができる。
【数38】
【0159】
いくつかの実装では、推定器522は、利得g
iの関数であることができるコスト関数Cを使うことができる。推定器522が、モデルが最小二乗の意味で最もよく満たされるよう実演レベルを推定することを確実にするためである。
【数39】
ここで、C
1(g
i)はコスト関数Cの第一の成分である。
【0160】
いくつかの実装では、推定器522は、主要ステレオ・マイクロフォンに対して、より小さな重要度を与えることによって、結果を改善できる。主要ステレオ・マイクロフォンはスポット・マイクロフォンよりも弁別性がずっと低いからである。推定器522は、
【数40】
のように、マイクロフォン毎についてそれぞれ重みの集合w
mを適用することができる。よって
【数41】
【0161】
エネルギー・レベルを推定する問題は、楽器よりもマイクロフォンのほうが少ない場合には不足決定であることがある。不定性は、いくつかの楽器の推定をブーストすると同時に一方では他の楽器を減衰させることによって各マイクロフォンにおける同じ全体的なラウドネスを得ることに対応しうる。この不定性を減らすために、いくつかの実装では、推定器522は、リハーサルにおいて測定されたものより有意に高い楽器ラウドネスを推定することにペナルティーを与える項を導入することができる。ある可能な項は下記で定義される。
【数42】
ここで、C
2(g
i)はコスト関数Cの第二の成分であり、α
2およびnはペナルティーについてのパラメータである。
【0162】
たとえばα
2=0.1およびn=6であれば、利得がリハーサルより低い場合には基本的にペナルティーはない。
【数43】
だが推定されるレベルがリハーサルより6dB上であるときはペナルティーは6.4になる。この項C
2を加えるとき、そのスケールはC
1とは異なることがある。推定器522は次のようにスケールΔを導入することができる。
【数44】
ここで、Δは、実演とリハーサルとの間の測定されたレベルの間の平方差の(諸マイクロフォンを横断した)平均である。
【0163】
よって、推定器522は、次のコスト関数を適用することができる:
【数45】
【0164】
いくつかの実装では、推定器522はdBで測定を行なうことができる。何もかもdBで測定することは、低いレベルを推定するときに、よりよいパフォーマンスを提供しうる。
【数46】
ここで、dB[・]=10log
10[・]である。パラメータについての例示的な値は:α
2=0.001、n=4、w
main=0.2である。いくつかの実装では、推定器522は、コスト関数を最小化するとき、上記の1/Mの因子をすべて無視することができる。
【0165】
いくつかの実装では、推定器522は、コスト関数の最小化前に初期のフィルタリング段を適用することができる。該初期段では、推定器522は、音源iの専用度D(i)を使って、所与のチャネル信号が他の楽器からの小さい漏れをもつ音源を決定することができる。たとえば、推定器522は音源iの専用度D(i)が所与の閾値より高いかどうかを判定することができる。そのような各音源について、推定器522は、上記のコスト関数を対応する専用チャネル信号のみを含むよう制約することによって、対応する利得を得ることができる。たとえば、推定器522が楽器^i〔^付きのi;以下同様〕および専用のマイクロフォン^mについての(^i,^m)の対が閾値を満たすと判定する場合、推定器522は利得
【数47】
を、縮小されたコスト関数を最小化することによって決定することができる。推定器522が式(40)のコスト関数を選ぶ場合、縮小されたコスト関数は下記の式(40.1)になる。
【数48】
【0166】
式(40.1)は推定器522が下記の式(40.2)を使って最小化を実行することを許容する。
【数49】
【0167】
推定器522は、上記の他のコスト関数を使って、式(40.1)および(40.2)を参照して述べた動作と同様な単純化を適用して一時には一対の信号源‐専用マイクロフォンのみを含むようにして、諸対の利得のそれぞれを決定することができる。
【0168】
初期のフィルタリング段においてこれらの利得を決定すると、推定器522はコスト関数を最小化する問題を、専用のチャネル信号をもたない楽器の利得のみを決定することに帰着させる。推定器522はこれらの利得を、初期のフィルタリング段において見出された利得に固定することができる。次いで、推定器522は残りの利得に関するコスト関数を最小化できる。
【0169】
〈周波数帯域での楽器RMSの推定〉
上記のように推定器522を使って信号RMSを推定することは、周波数依存の仕方に拡張されることができる。異なる楽器が全体的な周波数スペクトルの異なる部分に寄与する場合における推定を改善するためである。
図12は、ある周波数帯域においてエネルギー・レベルを推定する例示的プロセス1200を示すフローチャートである。推定器522は、プロセス1200の動作を実行することができる。
【0170】
推定器522は、参照オーディオ・データを受領することができる(1202)。参照オーディオ・データは、ライブ実演の間の配置と同じ配置で音源およびマイクロフォンが置かれたリハーサルから記録されたオーディオ信号を含むことができる。
【0171】
第一段では、推定器522は、諸周波数帯域における各音源のそれぞれのリハーサル・ラウドネスEi,m,f
rehearsalを計算することができる(1204)。ここで、それらの周波数帯域は、ANSI(米国規格協会)仕様に従う標準的なフィルタを用いて得られる周波数f={32,65,125,250,500,1000,2000,4000,8000}を中心とするオクターブ帯域であることができる。
【0172】
次の段では、推定器522は、全コストを、次のようなコスト関数を使って音源当たりのコストの和として計算することができる(1206)。
【数50】
ここで、C
1(g
i)は諸マイクロフォンおよび諸周波数帯域を横断したコスト関数の第一の成分である。
【0173】
推定器522は周波数帯域における質量項(mass term)を計算することができる(1208):
【数51】
ここで、C
2(g
i)は諸マイクロフォンおよび諸周波数帯域を横断したコスト関数の第二の成分である。
【0174】
推定器522は、これらのコストを最小化することによって周波数帯域におけるそれぞれの利得を決定する(1210)。推定器522は、該利得を、イベント100のライブ・データを処理するためのプロセッサに提供することができる。たとえば、推定器522は、他の音源のレベルより上でプレイしている音源を識別してビデオ編集器530がその音源にフォーカスするまたはズームインすることができるようにするために、該利得をビデオ編集器530に提供することができる。
【0175】
いくつかの実装では、推定器522は、楽器がオンであるまたはオフであることを推定することに向けてバイアスをかけることができる。これは、式(43)の第二項を修正して、g=0,1において極小をもつようにすることによってできる。たとえば、推定器522はg
iに関数f:
【数52】
を適用することができる。ここで、pは制御値であり、aは項が最小値をもつ所望される点である。ここでは、a=1である。
【0176】
この関数は、最小はx=0、x=±aにあるものだけであり、x=a/√3においてのみf=pとなる最大をもつという点で、x←→-xのもとで対称的である。よって、推定器522は最大における値を(よって、x=0,aにおける最小の間の壁の大きさを)制御するためにpの値を使うことができる。より一般には、
【数53】
は同じ特性をもつが、ここでは最大はx=3
-2naにある。コスト関数の第二項は次のようになる。
【数54】
【0177】
式(45)におけるパラメータの例示的な設定はa=1、n=1、p=5である。
【0178】
いくつかの実装では、推定器522は次の関数を実装できる。
【数55】
ここで、mおよびnは制御値である。式(45)におけるパラメータの例示的設定はn=1.2、m=1e-5、a=1である。
【0179】
いくつかの実装では、推定器522は、点(0,0)、(x
p,y
p)、(x
a,
0)、(x
l,y
l)を通るx-パリティーのもとで対称的な六次多項式:
【数56】
を実装することができる。
【0180】
〈ラウドネス領域における自動化されたEQ〉
図13は、個々の音源を自動的に等化する例示的プロセス1300を示すフローチャートである。プロセス1300はたとえば
図7の音源等化器710によって実行されることができる。音源等化器710は、自動化された仕方で楽器をクリーニングする、強調するまたは脱強調する特定の目的のために(全体的なステレオ・ミックスではなく)個々の音源のレベルに等化(EQ)を適用するよう構成される。
【0181】
音源等化器710は、オーディオ・データを受領することができる(1302)。オーディオ・データはイベント100のライブ・オーディオ・データまたはリハーサル・データであることができる。オーディオ・データは音源からのチャネル信号を含むことができる。
【0182】
音源等化器710は、各音源についてのそれぞれの信号を、各周波数帯域における励起にマッピングすることができる(1304)。音源等化器710は、励起空間における異なる源からの音を総和し、ラウドネス空間における異なる周波数帯域からの効果を総和することができる。
【0183】
音源等化器710は次いで、一つまたは複数の音源を自動的に等化する。音源等化器710は、各音源を各帯域とマッピングする源‐帯域対のリストを生成することができる。音源等化器710は、リストにおけるそれぞれの源‐帯域対についてそれぞれの必要値を決定することができる(1306)。必要値は、その対におけるその周波数帯域において等化されている、その対において表わされている音源の、他の音源および他の周波数帯域に対する相対的な重要度を示すことができる。必要値は、該相対的な重要度の値と、その源の他の音源によるマスキング・レベルとの積、あるいは相対的重要度またはマスキング・レベルのどちらかがそれぞれ増大または減少させられるときに必要度が増大または減少することを裏付ける数学的に表現可能な関係であることができる。
【0184】
音源等化器710は、必要値を閾値と比較することができる。すべての必要値が前記閾値未満であれば、音源等化器710はプロセス1300を終了することができる。
【0185】
ある源‐帯域対の必要値が前記閾値を超えることを判別すると、音源等化器710は、その源‐帯域対を目立たせるよう、その対において表わされている音源のために等化することができる(1308)。等化はたとえば、その周波数帯域において他の音源を下げることを含むことができる。
【0186】
音源等化器710は、その源‐帯域を、目立たせるための可能な対のリストから除去し(1310)、段1306に戻ることができる。
【0187】
音源等化器710は、プロセス1300を参照オーディオ・データのみに適用することができる。すると、音源等化器710は、イベント100について固定した設定を使うことができる。代替的または追加的に、音源等化器710は、ライブ・イベント100の間、任意的には参照オーディオ・データをシードとして使った後に、これらの動作および機能を適応的に実行することができる。
【0188】
音源等化器710は、音源を表わすためにインデックスi∈{1,……,Ni}を使うことができる(たとえばi=1はベースなど)。いくつかのシナリオでは、ミキシングすべきすべての楽器はよく分離されている。音源等化器710は各楽器信号siから各周波数帯域bにおける励起にマッピングすることができる:
si→E(i,b) (49)
ここで、E(i,b)は帯域bにおける音源iについての励起である。周波数帯域bはERB(equivalent rectangular bandwidth[等価長方形帯域幅])周波数帯域であることができる。
【0189】
このマップは、グラスバーグ・ムーア(Glasberg-Moore)・ラウドネス・モデルで表現されることができる。このマッピングを実行することによって、音源等化器710は前方入射についての(あるいは拡散場における)頭部の効果および静穏時閾値(threshold-in quiet)の逆フィルタを考慮する。同様に、音源等化器710は、励起空間から特定ラウドネスL[E(i,b)]にマッピングすることができる:
si→E(i,b)→L[E(i,b)] (50)
これは基底膜によって適用される圧縮をモデル化する。そのような関数の例は1kHzより上ではL=α(E+1)0.2である。用語「特定ラウドネス(specific loudness)」は、周波数帯域当たりのラウドネスを表わすことができ、「ラウドネス」はすべての周波数帯域についての和を表わすことができる。これらの式に示されるようなbへの依存性は、特定ラウドネスを示す。bに依存しないことは和を示す。
【0190】
音源等化器710は、励起空間において異なる源からの音を総和し、ラウドネス空間において異なる帯域からの効果を総和することができる:
【数57】
ここで、E
sources(b)は帯域bにおけるすべての音源の励起であり、L
all-bands(i)はすべての周波数帯域における音源iのラウドネスである。
【0191】
重要な量は、ノイズの存在時の(あるいは若干数の他の信号の存在時の)信号の部分ラウドネス(partial loudness)である。音源等化器710はすべての音源を、インデックスiをもつ信号pLと称される一つと、インデックスi'をもつ他のすべてとに分割することができる:
【数58】
【0192】
これがもちうる最大値は、ちょうどその音源iのラウドネスpL(i,b)=L(i,b)である。ここで、L(i,b)は帯域bにおける音源iのラウドネスである。この値が生じるのは、音源の間にマスキングが全くなく、よってコンプレッサーが別個に作用する、すなわちL(ΣE)=ΣL(E)のときである。マスキングはこの値を減少させることができる。
【0193】
音源等化器710は次いで、いくつかの音源を自動的に等化する。いくつかの実装では、等化は、いくつかの音源の、他の音源によるマスキングを回避することができる。よって、音源等化器710は、初期のプレミックス段がすべての音源を、所与の目標ラウドネスで鳴るよう調整したと想定する。たとえば、リードボーカルのほかはすべての音源は等しいラウドネスをもつことができ、リードボーカルのことは、音源等化器710は他のすべてよりも少なくとも3dB上のままにすることができる。
【0194】
プレミックス段は、音源に別個に焦点を当てるだけであってもよい。しかしながら、すべての音源が同時にプレイするときは、マスキングが生じることがある。音源等化器710は、いくつかの源を強調するために、たとえばいくつかの音源が目立つのを助けるために、等化動作を実行することができる。典型例はベースである。ベースがオルガンまたは他の広帯域の楽器と一緒にプレイするとき、音源等化器710はそうした広帯域の楽器を高域通過させ、低い端でベースをより顕著のままにすることができる。逆に、オルガン・ソロ・オーディオ・イベントでは、音源等化器710はこの理由のための等化を適用しない。よって、この問題は、諸楽器を横断する問題である。
【0195】
音源等化器710が進行するための一つの方法は、どの音源またはどの音源のどの帯域が、等化されるべき、より大きな必要性をもつかを検出することである。音源等化器710は、楽器iおよび帯域bについて、この量をNeed(i,b)と称することができる。この必要性は、次の因子に依存することができる:i)その周波数帯域がその音源にとってどのくらい重要か;およびii)その音源が他のすべての音源によってどのくらいマスキングされているか。音源等化器710はそれぞれ重要度およびマスキング度を定量化するためにI(i,b)、M(i,b)を使うことができる。
【0196】
楽器の周波数帯域の重要性は(マスキングと異なり)その楽器のみに依存する。たとえば、ベースの低周波数端の諸帯域はベースにとって重要であることがある。それに対し、オルガンは周波数においてずっと広がっているので、オルガンの低周波数端の諸帯域はそれほど重要でないことがある。音源等化器710は次のように[0,1]に境を制限された重要性を測定することができる:
【数59】
ここで、I(i,b)は、周波数帯域bにおける、等化される楽器iの重要性のレベルを表わす。
【0197】
他のすべての楽器によるマスキングを測るために、音源等化器710は、他のすべての音源をノイズとして指定する。音源等化器710は他のすべてについての部分ラウドネスを使うことができる。[0,1]に境を制限されたインジケーターを得るために:
【数60】
ここで、M(i,b)は、周波数帯域bにおける、楽器iの、他の楽器によるマスキングのレベルを表わす。
【0198】
よって、音源等化器710は、必要性関数を次のように実装できる:
【数61】
ここで、Need(i,b)は、周波数帯域bにおける、等化されている音源iの、他の音源および他の周波数帯域に対する相対的な重要度を示す必要値である。
【0199】
音源等化器710は、i以外のすべての音源のラウドネスについての記法を単純化できる:
【数62】
最終的な実装は次のように表わせる:
【数63】
【0200】
音源等化器710は、自動的な等化を達成するために次のアルゴリズムを実装できる。次節で改善を記載する。便宜上、量Need(i,b)はN(i,b)と単純化される。
【0201】
段階1:音源等化器710は最高のN(i,b)をもつ音源および周波数帯域を見出すことができる。音源等化器710はこれを源‐帯域対(^i,^b)として表わすことができる。たとえば(ベース、3番目の周波数帯域)である。音源等化器710はこの最高のN(i,b)を閾値t∈[0,1]と比較することができる。N(i,b)>tであれば、段階2に進み、そうでなければ、停止する(他の何も等化する必要がない)。
【0202】
段階2:音源等化器710は、選択された対を目立たせるよう残りの楽器を等化することができる。音源等化器710は、^i以外のすべての音源を表わすためにi'を使うことができる。音源等化器710は、^iに対して引き起こすマスキングに比例する仕方で各音源i'の間で責任を分担することができる。それを行なう方法は、各楽器の帯域への利得低減を定義することによる:
【数64】
ここで、gは十分に目立つことを要求することによって固定されるべき唯一の未知数である。gの関数としての各楽器の利得の振る舞いは
図14AおよびBに示されている。
【0203】
g=1であればすべての利得は1であり、各源‐帯域対はその励起を、どのくらい^iをマスキングするかに比例して低減する。i'が^iに対して引き起こすマスキングは、同じ式(54)から、ただしi'をノイズを、^iを信号と考えて得られる:
【数65】
ここで、M(i'→^i,b)は、周波数帯域bにおいて音源i'が音源^iに対して引き起こすマスキングの度合いを表わす。
【0204】
同時に、音源等化器710は選択された楽器‐帯域^i、^bをブーストすることもできる:
【数66】
ここで、αは、音源等化器710が他のすべての(i',^b)をどのくらい減衰させるかに対して(^i,^b)にどのくらいの相対的なブーストを与えるかを制御するパラメータである。α=1であれば、音源等化器710は、音源等化器710が残りを減衰させるのと同じくらいブーストする。
【0205】
最後に、音源等化器710は、その源‐帯域対について、それが十分にマスキング解除される、すなわちM(^i,^b)<Mthresholdとなるよう目標マスキング・レベルを定義することによって、gについて解く。ここで、Mthresholdはマスキング閾値である。これは、一つの未知数(g)についての方程式によって表わされる実装である。式(54)は、その方程式が非線形であることを示している。音源等化器710は、境界値が満たされるまで、たとえばdBより小さい離散的なきざみでgを減少させることによって、gについて解くことができる。音源等化器710は、利得からラウドネスへのマップを反転させ、よってラウドネス領域から線形領域に戻ることができる。
【0206】
この文脈では、音源等化器710は、許容されるgの最小値を設定することによって、あるいはよりよい制御をもつためにはg(^i,^b)およびg(i',^b)の許容される値の限界を直接制限することによって、受け容れられる等化の最大レベルを課すことができる。
【0207】
段階3:音源等化器710は、目立つべき可能な対のリストから、対(^i,^b)を除去することができる。段階1に戻る。
【0208】
上記のアルゴリズムは、最大の必要性をもつ対を調べることのみによって候補対(^i,^b)を選択している。このアルゴリズムは、恩恵がすべての楽器を通じてグローバルであることを保証しない。一つのグローバルな手法は、空間的符号化を模倣することである:向上させるとグローバルな必要性を最小にする対を見出し、逐次反復する。
【0209】
たとえば、音源等化器710は、ミックスが等化されるグローバルな必要性を次のように定義することができる:
【数67】
ここで、Need(global)はグローバルな必要性である。
【0210】
次いで、音源等化器710は以下の動作を実行する。第一に、音源等化器710は初期のグローバルな必要性Need(global)を計算することができる。第二に、音源等化器710はすべての可能な対(i,b)を取る、あるいはより高いN(i,b)をもついくつかの対(たとえば10対)を選択する。各対について、音源等化器710はそれを向上されるべき候補と指定し、それをブーストして他を減衰させるために適用されるべき利得g(i,b)を見出すよう、前述のアルゴリズムを走らせる。このようにして考慮された各対について、音源等化器710は新たなグローバルな必要性を再計算することができる。第三に、音源等化器710は、グローバルな必要性を最小化する対を選択し、その向上利得を適用する。音源等化器710は次いで、Need(global)をその新たな値によって置き換えて、第一段階に戻る。
【0211】
音源等化器710は、次のうちのいずれかが起こったら、上記の逐次反復を終了することができる。1.Need(global)がすでに所与の閾値より低い;2.(i,b)のどの選択もNeed(global)の減少につながらなかった;あるいは3.音源等化器710が所与の最大回数を超えて逐次反復した。
【0212】
図14Aは、等化されるべき三楽器ミックスを表わす図である。横軸は周波数fを表わす。三楽器ミックスはベース(bass)、オルガン(organ)および他の楽器を含む。縦軸はエネルギーを表わす。図のように、ベースのエネルギーは、より低いERB帯域に集中している。よって、音源等化器710は、オルガンおよび他の楽器に比べて、ベースは、より低いERB帯域において等化の必要性がより高いことを判別できる。
【0213】
図14Bは、自動的な等化における利得を示す図である。g=1から減少させ始めて、より低いERB帯域ではベースの利得を増大させ、一方、より低いERB帯域における他のすべての楽器を減衰させる。オルガンは「他(another)」の楽器よりもベースをよくマスキングするので、オルガンのほうが大きく減衰させられる。
【0214】
〈新規性に基づくセグメント分割〉
図15は、オーディオ・データにおける新規性積み上がり(novelty buildup)に基づいてビデオをセグメント分割する例示的プロセス1500を示すフローチャートである。プロセス1500は、
図7のセグメント分割ユニット714によって実行されることができる。いくつかの実装では、セグメント分割ユニット714は
図5のビデオ編集器530によって実装されることができる。
【0215】
セグメント分割ユニット714は、オーディオ信号を受領することができる(1502)。セグメント分割ユニット714は、時間を通じてオーディオ信号についての新規性インデックスを構築することができる(1504)。セグメント分割ユニット714は、閾値より上である前記オーディオ信号のピークを判別することができる。セグメント分割ユニット714は、平均カット長に基づいてセグメント長を決定することができる(1506)。カット長は、入力である、プリセット値であるまたは過去のカットから(たとえば過去のX個のカットを平均することによって)導出されることができる。セグメント分割ユニット714は、最後のカット以降の新規性インデックスの和を決定することができる(1508)。和は、時間を通じた新規性インデックスの積分であることができる。
【0216】
和が新規性閾値より高いことを判別すると、セグメント分割ユニット714は次のカットのためのランダム時間を決定することができる(1510)。ここで、次のカットまでの時間のランダムさは平均すると平均セグメント長になる。セグメント分割ユニット714は、オーディオ信号または該オーディオ信号と同期されている対応するビデオ信号を、ランダム時間のところでカットして(1512)新たなセグメントにし、次のカットのための新規性インデックスの総和を開始することができる。セグメント分割ユニット714は、新たなセグメントをストリーミングまたはダウンロードのため、そしてラウドスピーカーでの再生のために、ユーザー装置に提供することができる。プロセス1500のさらなる詳細および例を下記で述べる。
【0217】
ビデオ編集は新規性(novelty)に基づくことができる。新規性は、オーディオまたはビデオが有意に変化する点を示すことができる。セグメント分割ユニット714は、新規性インデックスと称される新規性を測るインデックスを構築することができる。セグメント分割ユニット714は、オーディオ記録の異なるセグメントを横断して、抽出された特徴の集合を比較することによって、新規性インデックスを構築することができる。セグメント分割ユニット714は、類似性インデックスを構築して、それをチェッカーボード・カーネルと畳み込みして新規性を抽出することができる。
【0218】
セグメント分割ユニット714は、時間を通じて新規性インデックスを計算することができる。セグメント分割ユニット714はまず、ある閾値より上である諸ピークを選択することができる。特徴を抽出するために使われるセグメントの大きさが、新規性が機能するスケールを決定できる。短いセグメントは個々の音符を区別することを許容する。長いセグメントは、より粗い概念を、たとえばイントロをコーラスから、区別することを許容する。あるセグメントが新規であると考えられる閾値は、カットの頻度に影響することができる。よって、該閾値は、所望される平均カット長の関数として設定されることができる。平均カット長自身はテンポの関数として設定されることができる。よって、セグメント分割ユニット714は次のように動作を実行することができる:
・テンポを取得→平均カット長を設定→閾値を設定。
【0219】
セグメント分割ユニット714は、クレッシェンドのある歌のセクションを適正に扱うことができる。そうしたセクションは、新規性インデックスの引き延ばされたなめらかな増大によって特徴付けされる。そのようななめらかな増大は、顕著なピークにはつながらず、よって非常に長い時間にわたるカットの不在につながる。セグメント分割ユニット714は、ピークが起こりうるという事実とは独立して、持続した期間にわたって、カットをもつ必要性を定量化する積み上がり処理モジュールを含むことができる。セグメント分割ユニット714は、最後のカットt
last以降の新規性インデックスの積分でこの必要性を特徴付けることができる:
【数68】
ここで、N(t)は必要性であり、novelty(t)は時刻tにおける新規性インデックスである。
【0220】
N(t)が閾値Nthrより上であることを判別したら、セグメント分割ユニット714は、平均して次のT秒の間にカットがあるよう調整された確率をもって、ランダムなドローイング(drawing)を開始する。セグメント分割ユニット714はNthrを、大きな必要性と考えられる値、たとえば少なくとも3秒間の間の新規性=0.6の持続した値に割り当てることができる。同様に、Tの値は、上記のように要求される平均カット長にリンクされることができる。
【0221】
図16は、例示的な新規性積み上がり処理を示す図である。クレッシェンドのある歌に対する新規性積み上がり処理の効果が、
図16に示されている。X軸は秒単位での時間を表わす。Y軸は前記積分の値を表わす。曲線1602によって示されるように、150秒から180秒までの間に長いクレッシェンドがある。曲線1602は、積み上がりの後処理なしでの新規性の積分を示している。インデックスのピークのみが使われたとしたら、このセグメントではイベントは検出されない。曲線1604は、積み上がり後処理後の積分を示しており、新たなカットの存在およびその出現における制御されたランダム性の両方を明らかにしている。出現は、ハード閾値に基づく、あるいはより好ましくは確率に基づくことができる。
【0222】
〈同期〉
図17は、複数のマイクロフォンからのオーディオ信号を同期させる例示的プロセス1700を示している。プロセス1700は、
図5の同期器502によって実行されることができる。プロセス1700を実行する同期器502は、同期器がオーディオ信号のみに基づいてオーディオ信号を同期させることのできる通常の同期技術に対して改善する。
【0223】
同期器502は、単にオーディオを解析することによってオーディオ・シーンにおいて使われているマイクロフォンを同期させることができる。いくつかの実装では、同期器502は、さまざまな相関決定技法、たとえば相互相関アルゴリズムを使ってすべてのマイクロフォンを主要ステレオ・マイクロフォンに同期させることができる。
【0224】
同期器502は、オーディオ信号を受領することができる(1702)。オーディオ信号はマイクロフォンからのチャネル信号であることができる。同期器502は、オーディオ信号の各対の間の相関のそれぞれの品質値を計算することができる(1704)。同期器502は、品質値をマップ・ベクトルにおいて割り当てることができる(1706)。
【0225】
同期器502は、以下のようにして、逐次反復的に一連の遅延を決定し、それらの遅延をマップ・ベクトル中に挿入することができる(1708)。同期器502はマップ・ベクトルにおいて、最高の品質値をもつ信号対を同定することができる。同期器502は、その対におけるオーディオ信号を整列させ、その対をモノ信号にダウンミックスし、その整列の遅延をマップ・ベクトルに付加することができる。同期器502は、対における第一のオーディオ信号をダウンミックスされたモノ信号で置き換え、第二のオーディオ信号を最大についてのインデックスのリストから除去することができる。同期器502は、ダウンミックスされたモノ信号を固定されたままに保ち、品質値を再計算することができる。同期器502は、一つの信号のみが残されるまで、上記の同定する段階から再度逐次反復することができる。
【0226】
逐次反復を終了すると、同期器502は、マップ・ベクトルに挿入された遅延の順序に従ってマップ・ベクトルにおけるそれぞれの遅延を使ってオーディオ信号を同期させることができる(1710)。次いで、同期器502は、同期された信号を他のコンポーネント(たとえば
図5の源分離器504)に、さらなる処理およびストリーミングのために提出することができる。プロセス1700のさらなる詳細および例を下記で述べる。
【0227】
いくつかの実装では、同期器502は、強いピークをもつ相互相関から計算された遅延に対してより大きな重要性を与えて、グローバルに同期するアルゴリズムを実行する。同期器502は、シーンにおけるマイクロフォンの集合にm=1,……,Mとラベル付けすることができる。マイクロフォンの一つがステレオであれば、それは以前に極性検査され、モノにダウンミックスされている。同期器502は、次のように時間を通じたそれらの相関C
m,m'(t)を決定することができる。
【数69】
ここで、s
mはマイクロフォンmからの信号を表わし、|s|=√Σ
t(s(t)
2)である。t=0については、これは式(3)で上記で使った正規化された相関と一致する。
【0228】
各対について、同期器502はそれぞれより高い相関およびより低い相関C
m,m'
max/minにつながるt
max、t
minの値を得ることができる。相関がどのくらい良好であるかを記述する性能指数(あるいは相関の品質Q)は、
【数70】
となる。ここで、Qは、最小が最大より強ければ、負であることができる。同期器502はQの最大値を探すことができるので、これは結果に影響しない。
【0229】
同期器502は、次のように再帰的アルゴリズムを実行することができる。第一に、同期器502は、空のマップ・ベクトルMapを初期化することができる。該ベクトルは(M-1)個のエントリーをもつことになる。同期器502は、(Qの対称性のため)Qの上対角のみ、よってm1<m2であるQm1,m2を考える。
1.最大のQm1,m2をもつ対m1、m2を見出す。
2.sm2をsm1に整列させ、モノにダウンミックスする。(tm1,m2)をMapに付加する。
3.sm1をこのダウンミックスで置き換える。m2を、Qの最大を求めてスキャンすべきインデックスのリストから除去する。
4.m1を固定し、すべてのmについてQm,m1を再計算する。
5.一つのマイクロフォンだけが残るまで、第一段階を繰り返す。
【0230】
同期器502は、M-1個の遅延t
m,m'の集合を残される。ここで、二番目のインデックスは、最初のもの(これは典型的には主要ステレオのダウンミックスである)を除いてすべてのマイクロフォンについて一回のみ現われる。マイクロフォンmがたとえば第一のマイクロフォンと同期しているために必要とされる遅延を再構築するために、同期器502は、第一のマイクにつながるチェーンをたどることができる:
【数71】
【0231】
いくつかの実装では、同期器502は、モノへの各ダウンミックス後にすべての相関を再計算することを避けることによって、計算速度を改善できる。同期器502が第一段においてすでにすべてのC
m,m'を計算しているとすると、これは同期器502がすべてのc
m,m'(T)=<s
m(t)s
m'(t+T)>を計算したことを意味する。m'をmに整列させてダウンミックスした後、同期器502は新しい信号:
【数72】
を得ることができる(t
m,m'の符号を検査)。
【数73】
との新たな相関:
【数74】
を計算する。分子は二つの項をもつ。同期器502は、第一の項をC
n,mから導出できる。同期器502は第二の項を、C
n,m'からわかっている項のt
m,m'個ぶんの単位の巡回シフトから導出できる。分母も二つの項をもつ。同期器502は第二の項を|s
m|および|s
m'|ならびにそれらの相関から導出できる:
【数75】
よって、同期器502は初期の相関行列を計算する必要があるだけである。
【0232】
〈ノイズ削減〉
図24は、ノイズ削減の例示的プロセス2400を示すフローチャートである。プロセス2400は、
図7のノイズ削減ユニット711によって実行されることができる。ノイズ削減ユニット711は、各チャネル信号にノイズ削減を適用できる。開示される手法の利点は、たとえば、各チャネルに個々にさまざまな利得を適用することにより、ノイズ削減ユニット711は、特定のチャネルが他のチャネルからのチャネル信号をマスクするのに十分高いオーディオ・レベルをもつときにノイズを低減できるということを含む。さらに、チャネル信号は、会場の別個の点(たとえば二ないし三メートル以上離れている)に位置していてもよい異なるチャネル信号源(たとえば異なるモデル、パターンをもつマイクロフォン)からくることができる。
【0233】
ノイズ削減ユニット711は、参照オーディオ・データを受領することができる(2402)。参照オーディオ・データは、リハーサル・セッションの無音期間の間に記録されたチャネル信号を含む。無音期間は、楽器がプレイしていない(たとえばX秒の)期間であることができる。
【0234】
ノイズ削減ユニット711は、ノイズ推定器コンポーネントを含むことができる。ノイズ推定器は、参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することができる(2404)。ノイズ推定器は、推定されたノイズ・レベルをノイズ・フロアとして指定することができる。参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することは、周波数ビンと称される複数の周波数帯域にわたって実行されることができる。
【0235】
ノイズ削減ユニット711は、ライブ実演データを受領することができる(2406)。ライブ実演データは、リハーサル・セッションでは無音だった一つまたは複数の楽器がプレイするイベント100の間に記録されたチャネル信号を含む。
【0236】
ノイズ削減ユニット711は、ノイズ削減器コンポーネントを含むことができる。ノイズ削減器は、ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を個々に削減することができる(2408)。ノイズ削減器は、ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を適用することを、ライブ実演データにおける各チャネル信号において、ライブ実演データにおけるそのチャネル信号におけるノイズ・レベルと前記推定されたノイズ・レベルとの間の差が閾値を満たすことを判別した際に行なうことができる。ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを低減することは、各周波数ビンにおいて実行されることができる。
【0237】
ノイズ・レベルを削減した後、ノイズ削減ユニット711は、チャネル信号を、さらなる処理、記憶または一つまたは複数のエンドユーザー装置への配送のために下流の装置に提供することができる(2410)。下流の装置はたとえば、
図5の配送フロントエンド508または
図7のマスタリング・ユニット704であることができる。
【0238】
推定(2404)および削減(2408)段は、前記閾値、傾き、アタック時間、ディケイ時間およびオクターブ・サイズを含むノイズ削減パラメータに従って実行されることができる。パラメータの例示的な値は、閾値は10dB;傾きはdB当たり20dB;アタック時間はディケイ時間と同じで50ミリ秒(ms)というものである。ノイズ削減動作のさらなる詳細および例を下記に述べる。
【0239】
推定(2404)段の間、ノイズ推定器は参照オーディオ・データにおける各チャネル信号に対して個々に、以下の動作を実行することができる。ノイズ推定器は、チャネル信号を、X個のサンプル(たとえば2049個のサンプル)の諸バッファにセグメント分割することができる。それらのバッファは半分の長さの重複をもつことができる。ノイズ推定器は、離散的な窓関数(たとえばハン窓)の平方根を各バッファに適用することができる。ノイズ推定器は離散フーリエ変換を適用することができる。ノイズ推定器は下記の式(68)を使ってノイズ・レベルを計算することができる:
n(f)=10*log10(|・|2) (68)
ここで、n(f)は特定の周波数ビンfについてのノイズ・レベルである。
【0240】
ノイズ推定器は、下記の式(69)を使って諸バッファを通じてノイズ・レベルを平均することによって、ノイズ・フロアを決定することができる:
nestimate(f)=<n(f)>buffers (69)
ここで、nestimate(f)は周波数ビンfについてノイズ・フロアとして指定されるノイズ・レベルであり、< >は平均である。結果として、ノイズ推定器は、すべてのチャネル信号についてすべての周波数ビンについて数nestimate(f)を決定することができる。
【0241】
ノイズ削減(2408)段の間、ノイズ削減器は、各チャネル信号に対して個々に以下の動作を実行することによって、イベント100のライブ実演データにおける各チャネル信号におけるノイズ・レベルを抑制することができる。ノイズ削減器は、ライブ実演データにおけるチャネル信号を、X個のサンプル(たとえば2049個のサンプル)の諸バッファにセグメント分割することができる。それらのバッファは半分の長さの重複をもつことができる。ノイズ削減器は、離散的な窓関数(たとえばハン窓)の平方根を各バッファに適用することができる。ノイズ削減器は離散フーリエ変換を適用することができる。ノイズ削減器は上記の式(68)を使ってノイズ・レベルを計算することができる。
【0242】
ノイズ削減器は、ライブ実演データにおけるノイズ・レベルn(f)と前記ノイズ・フロアとの間の差を下記の式(70)を使って計算することができる:
d(f)=n(f)-nestimate(f) (70)
ここでd(f)が前記差である。
【0243】
ノイズ削減器は、次いで、エキスパンダー・モードで、ライブ実演データにおけるチャネル信号に抑制利得を適用することができる。エキスパンダー・モードで抑制利得を適用することは、差d(f)が閾値未満であるかどうかを判定することを含むことができる。差d(f)が閾値未満であると判定したら、ノイズ削減器は、傾き(slope)パラメータに従って、dBの差当たりのdB数を抑制する利得を適用することができる。
【0244】
ノイズ削減器は、諸周波数ビンを通じてまたはオクターブ・サイズ・パラメータにおいて指定される所与の帯域幅上で、すべての抑制利得をなめらかにすることができる。ノイズ削減器は、アタック時間およびディケイ時間パラメータを使って、時間を通じてすべての抑制利得をなめらかにすることができる。ノイズ削減器は、逆離散フーリエ変換を適用し、離散的な窓関数の平方根を再び適用することができる。ノイズ削減器は、次いで、結果を重複させ、加算することができる。
【0245】
図18は、五つのマイクロフォンを同期させる例示的なシーケンスを示している。第一に、同期器502は、マイクロフォン3からの信号をマイクロフォン2からの信号に整列させる。同期器502は、遅延t
23を決定し、該遅延t
23をリストに加えることができる。同期器502は、整列された信号をモノ信号にダウンミックする。同期器502は次いで、マイクロフォン2からの信号をモノ信号で置き換える。同期器502は、モノ信号をマイクロフォン4からの信号と整列させ、次いでマイクロフォン1からの信号をマイクロフォン5と整列させることによって、このプロセスを続けることができる。最後に、同期器502はマイクロフォン1からの信号をマイクロフォン2からの信号と整列させる。同期器502は、結局、リスト{t
23,t
24,t
15,t
12}を得ることができる。この場合、t
2=t
12、t
3=t
23+t
12、t
4=t
24+t
12、t
5=t
15である。
【0246】
〈ビデオ編集〉
図19のAおよびBは、自動ビデオ編集の結果を表示する例示的なユーザー・インターフェースを示している。ユーザー・インターフェースは、ユーザー装置、たとえばビデオ装置414の表示表面に呈示されることができる。
図19のAおよびBに記載される特徴は、(
図5の)ビデオ編集器530によって実装されることができる。
【0247】
図19のAは、(
図1の)イベント100の第一のビデオ・シーンを表示するユーザー・インターフェースを示している。図示した例では、バンドがイベント100においてプレイしている。ビデオ・カメラがバンド演奏のライブ・ビデオを捕捉する。バンドにおける各音源、たとえばボーカリスト192およびギター194ならびに他の音源は、同様のレベルでプレイしている。ビデオ編集器530はライブ・ビデオおよびバンド演奏のオーディオ・データを受領することができる。ライブ・ビデオは、イベント100のリアルタイム・ビデオまたは事前に記憶されたビデオを含むことができる。ビデオ編集器530は、オーディオ・データから、各音源のエネルギー(またはラウドネス)レベルの間の差が閾値より小さいことを判別することができる。応答して、ビデオ編集器530は、イベント100のビデオ・シーン196全体が呈示されることができることを判別できる。ビデオ編集器530は次いで、ライブ・ビデオにおけるビデオ・シーン196全体を、ストリーミングのために提供することができる。ビデオ装置414は、ビデオ・シーン196全体を受領し、該シーンを表示のために呈示することができる。
【0248】
図19のBは、(
図1の)イベント100の第二のビデオ・シーンを表示するユーザー・インターフェースを示している。
図19のAを参照して述べたライブ・プレイの間、ある時間期間にわたって、ビデオ編集器530はオーディオ・データから、一つまたは複数の音源が、他の楽器よりも有意に高いレベルでプレイしていることを判別することができる。たとえば、ビデオ編集器530は、ボーカリスト192およびギター194のラウドネス・レベルまたはエネルギー・レベルが、他の楽器のラウドネス・レベルまたはエネルギー・レベルよりも、閾値レベルよりも多く高いことを判別することができる。応答して、ビデオ編集器530は、前記一つまたは複数の音源のパン角を決定することができ、ビデオ・データの一部にフォーカスするまたはズームインすることで、部分的なビデオ・シーン198を得る。図示した例では、ビデオ編集器520は、ボーカリスト192およびギター194の位置にフォーカスし、ズームインしている。ビデオ編集器530は次いで、ライブ・ビデオにおける、ボーカリスト192およびギター194を含む部分的なビデオ・シーン198を、ストリーミングのために提供することができる。ビデオ装置414は、ボーカリスト192およびギター194を含む部分的なビデオ・シーン198を受け取ることができる。ビデオ装置414は部分的なビデオ・シーン198を表示のために呈示することができる。
【0249】
図20は、自動ビデオ編集の例示的プロセス200のフローチャートである。プロセス2000は(
図5の)ビデオ編集器530によって実行されることができる。ビデオ編集器530は、サーバーの、イベント100のライブ・ビデオ記録を受領するよう構成されたコンポーネントである。
【0250】
ビデオ編集器530は、(
図1の)イベント100のビデオ・データおよびイベント100のオーディオ・データを受領することができる(2002)。ビデオ・データおよびオーディオ・データはライブ・データであることができる。ライブ・データはリアルタイム・データまたは事前に記憶されたデータであることができる。ビデオ・データは、イベント100における異なる位置に位置された音源の画像を含むことができる。オーディオ・データは、音源のエネルギー・レベルまたはラウドネス・レベルおよび音源のパン角を含むことができる。
【0251】
ビデオ編集器530は、オーディオ・データから、特定の音源が優勢な音源であることを判別することができる(2004)。たとえば、ビデオ編集器530は、オーディオ・データにおいて表現されている音源の信号が、その音源がオーディオ・データにおいて表現されている他の音源のボリューム・レベルに対して、ある閾値量より上であるボリューム・レベルでプレイしていることを示していることを判別することができる。
【0252】
ビデオ編集器530は、ビデオ・データにおける音源の位置を決定することができる(2006)。いくつかの実装では、ビデオ編集器530は、オーディオ・データにおける音源のパン角に基づいて該位置を決定することができる。たとえば、ビデオ編集器530は、ビデオ・データにおけるシーン全体の角度幅を判別し、シーン全体における、音源のパン角に対応する角度に対応する位置を判別することができる。ビデオ編集器530は、オーディオ・データに基づいて音源のパン位置を決定することができる。ビデオ編集器530は、その音源のパン位置を、ビデオ・データにおける音源の位置として、指定することができる。いくつかの実装では、ビデオ編集器530は、前記位置をビデオ・データに基づいて、たとえば顔追跡または楽器追跡を使うことによって、決定することができる。
【0253】
ビデオ編集器530は、ライブ・ビデオ・データにおける、音源の位置に対応する部分を判別することができる(2008)。たとえば、ビデオ編集器530は、音源のパン角に従って、ライブ・ビデオ・データの一部にズームインすることができる。
【0254】
ビデオ編集器530は、記憶装置またはエンドユーザー装置へのストリーミングのために、オーディオ・データと、ライブ・ビデオ・データの前記部分とを同期して提供することができる(2010)。結果として、たとえば、ボーカリストまたはギタリストがソロを演奏しているとき、エンドユーザー装置におけるライブ・ビデオ再生は、カメラ・オペレーターの干渉および制御なしに、自動的にボーカリストまたはギタリストにズームインすることができる。
【0255】
さらに、いくつかの実装では、ビデオ編集器530は、イベント100におけるさまざまな音源の位置を同定する入力を受け取ることができる。たとえば、ビデオ編集器530は、ユーザー・インターフェースをもつクライアント側アプリケーションを含む、あるいはかかるクライアント側アプリケーションに結合されることができる。ユーザー・インターフェースは、イベント100入力のスチール画像またはビデオの上で一つまたは複数のタッチ入力を受け取ることができる。各タッチ入力は位置を音源に関連付けることができる。たとえば、ユーザーは、スチール画像またはビデオにおけるギター奏者にタッチすることによって、「ギター(guitar)」をスチール画像またはビデオにおけるギター奏者と指定することができる。リハーサルの間、ユーザーは「ギター」を指定することができ、次いでギター演奏のセクションを記録することができる。よって、「ギター」としてラベル付けされた音が、スチール画像またはビデオにおけるある位置と関連付けられることができる。
【0256】
イベント100が進行中であるとき、ビデオ編集器530は、ライブ・ビデオ記録を受領するとともに、源分離器504からNs個の音源についてのNs個の信号を受領することができる。ビデオ編集器530は、それら複数の信号から一つまたは複数の優勢な信号を識別できる。たとえば、ビデオ編集器530は、特定の音源(たとえばボーカリスト)からの信号が、他の各信号よりもXdB大きい〔ラウドである〕ことを判別することができる。ここで、Xは閾値数である。応答して、ビデオ編集器530は、ラベル(たとえば「ボーカリスト」)を同定し、該ラベルに対応するライブ・ビデオ記録の位置を同定することができる。ビデオ編集器530は、たとえばもとのビデオ記録の一部をクリッピングすることまたはもとのビデオ記録の、その位置に対応する部分にズームインすることにより、その位置にフォーカスすることができる。たとえば、もとのビデオ記録が4K解像度である場合、ビデオ編集器530はその位置に対応する720p解像度のビデオをクリッピングできる。ビデオ編集器530は、エンドユーザー装置へのストリーミングのために、クリッピングされたビデオを配送フロントエンド508に提供することができる。
【0257】
〈リハーサルに基づくビデオ処理〉
図25は、リハーサル・データに基づくビデオ編集の例示的技法を示すブロック図である。例示的なサーバー・システム2502は、リハーサル・ビデオ・データに基づいてライブ・ビデオ・データについての編集決定を提供するよう構成される。サーバー・システム2502は、一つまたは複数のプロセッサを含むことができる。
【0258】
サーバー・システム2502は、ライブ・データ2504、たとえば音楽実演のライブのオーディオおよびビデオまたは任意のイベントのライブのオーディオおよびビデオを、リハーサル・ビデオ・データおよびリハーサル・オーディオ・データに基づいて自動的に編集するよう構成される。ライブ・データは、M個のビデオ捕捉装置、たとえば一つまたは複数のビデオ・カメラによって捕捉された実演のM個のビデオ信号2506を含む。オーディオ・データ2508は、N個のオーディオ捕捉装置、たとえば一つまたは複数のマイクロフォンからのN個のオーディオ信号を含む。オーディオ捕捉装置の数および位置は任意であることができる。よって、オーディオ捕捉装置のそれぞれの入力利得は未知であってもよい。オーディオ捕捉装置の配置のため、オーディオ信号のレベルは、実演者がプレイしている自然なまたは知覚されるレベルと直接的には相関しないことがある。
【0259】
サーバー・システム2502は、どの実演者がどのレベルでプレイしているかの近似値を、ライブ・データ2504およびリハーサル・データ2510に基づいて決定することができる。各実演者(performer)は、楽器、楽器を演奏している人、ボーカリストとして実演している人、他の仕方で電子的または物理的な音信号を生成する装置を操作している人であることができる。先に示したように、楽器、ボーカリストおよび装置は音源と称される。たとえば、ライブ・データ2504においては、第一の実演者の第一の音源(たとえばベース)に対応するフィードは、第二の実演者の第二の音源(たとえばギター)に比べて低いことが、たとえ実際の実演では第一の音源のほうが第二の楽器よりもずっと大きくプレイしているときであっても、ある。この食い違いは、記録構成によって引き起こされることがある。各音源のチェーンに関わるさまざまな入力段およびオーディオ捕捉装置と音源との間の物理的な距離が異なることができるのである。
【0260】
通常は、人間のオペレーター(たとえばサウンドエンジニア、カメラマンまたはビデオ・ディレクター)が誰がどのレベルで演奏しているかの知識を使って、ビデオをどのように編集するかを決定する。サーバー・システム2502は、その知識をリハーサル・データ2510から導出して、ユーザー選好、たとえば芸術的な設定を指定する一つまたは複数の編集規則を適用して、人間のオペレーターの編集をシミュレートする編集を実行することができる。
【0261】
サーバー・システム2502は、リハーサル・フェーズにおいて、リハーサル・データ2510を使って、カメラ・フィードにおいて各実演者がどこに位置しているかを判別できる。サーバー・システム2502は次いで、音源の音と実演者との間のマップを生成する。これは、実演者またはオペレーターがマッピングを手動で入力することを要求しない。
【0262】
リハーサル・フェーズにおいて、バンドは、ライブ実演におけるのと同じレイアウトで、ステージ上のさまざまな位置に音源を位置決めする。一つまたは複数のオーディオ捕捉装置および一つまたは複数のビデオ捕捉装置も、リハーサルにおいて、ライブ実演におけるのと同じレイアウトで位置決めされる。各オーディオ捕捉装置は、空気圧(空気圧勾配)マイクロフォン、直接入力フィード(たとえば電子キーボードからの)またはデジタル音源(たとえば音楽制作ソフトウェアを走らせているラップトップ)によって生成されるデジタル領域信号において捕捉する装置であることができる。少なくとも一つのビデオ捕捉装置は、バンドにおけるすべての音源および実演者が単一のビデオ・フレームにおいて捕捉されることができるように位置されたビデオ・カメラである。サーバー・システム2502は、リハーサルのオーディオおよびビデオ記録を、ライブ・データ2504を編集するためのパラメータを構成するために、リハーサル・データ2510として使うことができる。
【0263】
リハーサル・データ2510は、リハーサル・オーディオ・データ2512およびリハーサル・ビデオ・データ2514を含む。サーバー・システム2502の解析モジュール2516は、音源のラウドネス範囲を、最終的なデジタル・ストリームにおいて存在するデジタル・ラウドネス範囲に関係付ける。このように、解析モジュール2516は、信号の捕捉と最終的なデジタル表現との間で関わってくる複数レベルの段を較正する。いくつかの実装では、解析モジュール2516は、オーディオ捕捉装置のそれぞれによって捕捉される各音源のそれぞれの平均デジタル範囲を決定する。該平均は、低レベルでのソフト・プレイと高レベルでのラウド・プレイとの間のEBUラウドネス・レベルの間の重み付けされた平均であることができる。
【0264】
解析モジュール2516は、リハーサル・ビデオ・データ2514を解析して、ビデオ・フレームにおいて各実演者がどこに位置されているかを判別することができる。解析モジュール2516は、この判別を、人間検出、顔検出アルゴリズム、胴体検出アルゴリズム、背景減算によるプレフィルタリングならびに上記および他のオブジェクト認識アルゴリズムの任意の組み合わせを使って行なうことができる。いくつかの例示的なアルゴリズムは、主成分解析(PCA: principal component analysis)、線形判別分析(LDA: linear discriminant analysis)、ローカル・バイナリー・パターン(LBP: local binary patterns)、顔特色コード(FTC: facial trait code)、アンサンブル投票アルゴリズム(EVA: ensemble voting algorithm)、深層学習ネットワーク(DLN: deep learning network)などを含む。
【0265】
いくつかの実装では、解析モジュール2516は、音源検出器を含む。音源検出器は、リハーサル・オーディオ・データ2512を解析して、それぞれの個別の音源を識別し、メディア・インテリジェンスを適用してそれが低レベル(たとえばベース、ピアのまたはボーカル)、高レベル(たとえばハーモニック、打奏)および両方においてどんな型の音源であるかを判別するよう構成される。いくつかの実装では、解析モジュール2516において実行されている一つまたは複数の楽器認識(MIR: musical instrument recognition)プロセスが、イベントのグローバル記述子を取得することができる。グローバル記述子はたとえば、プレイされている音楽ピースのジャンルがロック、クラシック、ジャズなどであるかどうかを示す。解析モジュール2516は、音源型およびグローバル記述子を、ライブ・データ2504を編集するために自動ビデオ編集エンジン(AVEE; automatic video editing engine)2518に提供することができる。
【0266】
解析モジュール2516は、解析モジュール2516によって検出された各実演者を、音源のそれぞれの音と関係付ける。たとえば、解析モジュール2516は、解析モジュール2516によって認識された顔を、特定の音、たとえばギターの音とマッピングすることができる。いくつかの実装では、解析モジュール2516は、音および顔を順序付けることによって、マッピングを決定する。たとえば、リハーサル・オーディオ・データ2512は、順に、たとえばビデオから見て左から右へとプレイする諸音源を含むことができる。解析モジュール2516は、次いで、検出されたいちばん左の顔を、リハーサルにおいてプレイした第一の音源と関係付ける。別の例では、カスタマイズされたグラフィカル・インターフェースを介して直接の人間入力によって、たとえばビデオ装置の一つによって捕捉されたバンドのスチール・フレームを示して、ユーザーに各実演者をタップして、どの音源を彼が演奏しているかを事前に中身を入れられたメニューから選択するよう促すことによって、前記データが収集される。
【0267】
バンドがリハーサルを終えた後、バンドはライブ実演を開始してもよい。サーバー・システム2502は、リハーサル中と同じ仕方でライブ・データ2504を捕捉する。音源、たとえば実演者は、ライブ実演およびリハーサルにおいてほぼ同じ位置に位置されることができる。オーディオおよびビデオ捕捉装置は、リハーサルにおいてと同じ位置に置かれる。サーバー・システム2502は、ライブ・オーディオ・データ2508を推定モジュール2520および特徴抽出モジュール2522に供給する。推定モジュール2520は、各音源または音源の各群の、所与の瞬間におけるラウドネスを決定するよう構成される。推定モジュール2520の出力は、たとえばリハーサルの間にプレイされたラウドネスを基準としたdBでの、それぞれの音源または音源の群の音レベルを含むことができる。たとえば低レベルから、高レベルからまたは平均からXdBなどである。リハーサル中のラウドネスを基準とすることは、各音源のアナログからデジタルへの変換の間に使われる、潜在的に異なるレベル段に関係した曖昧さをなくすことができる。
【0268】
特徴抽出モジュール2522は、ライブ・オーディオ・データ2508の時間変化する特徴を、たとえばMIRアルゴリズムを使うことによって、取得するよう構成される。特徴抽出モジュール2522は、たとえばダウンビート検出を含むビート検出、新規性インデックス、テンポ、調和度(harmonicity)の計算などを含む動作を実行することができる。
【0269】
サーバー・システム2502は、ライブ・ビデオ・データ2506を適応追跡モジュール2524に供給することができる。適応追跡モジュール2524は、適応的な顔追跡、実演者追跡または他のオブジェクト追跡を実行するよう構成される。このように、適応追跡モジュール2524は、ステージを去ることがありうる、よってフォーカスされるべきではない実演者を考慮に入れる。適応追跡モジュール2524は、たとえば歌手がステージ上で歩き、踊るときに、もとの位置から有意に動く実演者を追跡するようにも構成される。
【0270】
解析モジュール2516、推定モジュール2520および特徴抽出モジュール2522はAVEE 2518に出力を提供する。AVEE 2518は、システム2502の、実演者のフレーミング(framing)を含む動作を実行するよう構成されたコンポーネントである。通常の顔検出アルゴリズムは、各人の顔がどこにあるかを特定しうるが、その顔をズームおよびクロッピングのためにどのようにフレームに収めるかは特定しない。AVEE 2518は、各顔のそれぞれのサイズおよびそれぞれの位置を使って、もとの高精細度ビデオ・フレームのうちの、対応する実演者のフォーカスされたビューを提供する対応するサブフレームのそれぞれのサイズおよびそれぞれの位置を導出する。サブフレームは、AVEE 2518またはビデオ捕捉装置が、より高い解像度(たとえば4K)フレームからクロッピングする、より低い解像度(たとえば720p)のフレームであることができる。AVEE 2518は該サブフレームを、イベントの画像として呈示することができる。AVEE 2518は、サイズに基づき、位置に基づき、顕著性に基づくカット決定において、フレームのサイズおよび位置を決定することができる。
【0271】
サイズに基づくカット決定では、AVEE 2518は、顔比例フレーミング(facial proportion framing)・アルゴリズムを使ってサブフレームのサイズを決定する。ここで、AVEE 2518はサブフレームのサイズを、実演者の認識された顔に比例するよう決定する。たとえば、AVEE 2518は実演者のサブフレームの高さが、顔の直径のX(たとえば5)倍であると決定することができる。AVEE 2518は、サブフレームの幅が、事前に指定されたアスペクト比を達成する高さの倍数であると決定することができる。同様に、AVEE 2518は、実演者のサブフレームの幅が顔直径のY(たとえば8)倍であると決定することができる。AVEE 2518は、サブフレームの高さがアスペクト比を達成する重みの倍数であると決定することができる。AVEE 2518は、顔がサブフレームにおいて、水平方向では中央に、サブフレームの上端から1/3下がったところに配置されると決定することができる。
【0272】
代替的または追加的に、いくつかの実装では、AVEE 2518は、サブフレームのサイズを、手比例アルゴリズムを使って決定する。ここで、AVEE 2518はサブフレームのサイズを、実演者の認識された手または認識された両手に比例するよう決定する。代替的または追加的に、いくつかの実装では、AVEE 2518は、サブフレームのサイズを、音源比例アルゴリズムを使って決定する。ここで、AVEE 2518はサブフレームのサイズを、認識された音楽音源または認識された音源または他の関心対象エリア(単数または複数)に比例するよう決定する。
【0273】
位置に基づくカット決定では、AVEE 2518は、高解像度フレームにおけるサブフレームの位置を、動き追跡を使って決定することができる。たとえば、適応追跡モジュール2524が実演者がステージを横断して動いていることを通知し、動きの経路を提供するとき、AVEE 2518は、顔によって識別される実演者に追従し、フォーカス・ビューのサブフレームを該経路に沿って動かすことができる。
【0274】
顕著性に基づくカット決定では、AVEE 2518は、サブフレームを、顕著な実演者または顕著な実演者の群に置く。AVEE 2518は、実演者の顕著性を、ライブ・オーディオ・データ2508からのさまざまな状態に基づいて決定することができる。たとえば、推定モジュール2520および特徴抽出モジュール2522の出力から、AVEE 2518は、実演者がその実演において特定の瞬間に顕著である確からしさを決定することができる。AVEE 2518は、その確からしさに基づいて、次のビデオ・カットにおける実演者を選択することができる。その確からしさが高いほど、次のカットについて選択される確率が高くなる。AVEE 2518がその実演者をカバーするサブフレームを選択する確からしさは、実演者が顕著である確からしさに正に相関する。たとえば、実演者が顕著である確からしさが高いほど、AVEE 2518がその実演者をカバーするサブフレームを選択する可能性が高い。AVEE 2518は、実演者が顕著である確からしさを、オーディオ特色(trait)に基づいて決定することができる。該オーディオ特色は、たとえば、対応する実演者のそれぞれのオーディオ信号のエネルギー(たとえばRMSエネルギー)、実演の最後のN秒に比べたRMSエネルギー・デルタ(増大または減少)、音符開始頻度(note onset frequency)、テンポ変化などの特色を含む。追加的または代替的に、AVEE 2518は、顕著性を決定するためにさまざまなビデオ特色を使うことができる。ビデオ特色は、たとえば、サブフレーム境界内の動きを含むことができる。
【0275】
AVEE 2518は、音楽のペースおよびフローにマッチするビデオ編集を生成することができる。たとえば、AVEE 2518は、カットの平均頻度が、特徴(feature)抽出モジュール2522によって推定される音楽のテンポと相関するような仕方でカットを決定することができる。AVEE 2518は、ライブ・オーディオ・データ2508の新規性における、所与の閾値より上にある変化とカットを整列させることによって、それぞれの特定のカットの精密なタイミングを決定することができる。任意的に、閾値は音楽のテンポに関係している。より速いテンポはより低い閾値に、よってカットの、より高い頻度に対応する。変化は、たとえば、全体的なラウドネスまたは音色における変化または一または複数の実演者がプレイを始めるまたは止めることを含むことができる。AVEE 2518は、実演の音楽構造の評価に基づいて、カットのタイミングを決めることができる。たとえば、AVEE 2518は、カットを、音楽の小節または楽句と時間的に揃えることができる。
【0276】
AVEE 2518は、カットすべきサブフレームの選択を、解析モジュール2516、推定モジュール2520、特徴抽出モジュール2522および任意的には適応追跡モジュール2524からの出力を含むパフォーマンス・メトリックに基づいて決定することができる。パフォーマンス・メトリックは、各実演者についてのそれぞれの顕著性メトリック、各実演者についてのサブフレームのそれぞれの指定、上記のようなサイズに基づき、位置に基づき、顕著性に基づくカット決定を含むことができる。AVEE 2518は、どのサブフレームをカットするかの選択を、以下のような例示的プロセスを使って決定できる。
【0277】
AVEE 2518は、新規性インデックスの次のピークを検出できる。AVEEは、ピークを、最大ラウドネスに続く、あらかじめ定義されたおよび/または構成設定可能な閾値時間、閾値レベルまたはその両方を超える減衰を使って定義することができる。
【0278】
AVEE 2518は、最後のカット以降の経過時間および全実演者を示すフルフレーム・ショット以降の経過時間を決定することができる。最後のカット以降の経過時間があらかじめ決定されたおよび/または構成設定可能な最小カット長未満であることを判別すると、AVEE 2518は、新規性インデックスの次のピークを検出する第一段に戻ることができる。フルフレーム・ショット以降の経過時間が閾値を超えることを判別すると、AVEE 2518はフルフレームにカットすることができる。AVEE 2518は、該閾値を、カットの数またはテンポから導出される継続時間を用いて定義できる。
【0279】
AVEE 2518は、一または複数の実演者を、該実演者のサブフレームが閾値時間を超える時間にわたって示されている場合には、選択可能性から消去することができる。AVEE 2518は、この閾値時間をテンポに基づいて決定することができる。たとえば、より速いテンポは、より短い閾値時間に対応することができる。
【0280】
AVEE 2518は、リード・ロールをもつと指定された実演者の顕著性を、全実演者の間の最大の顕著性にマッチするようブーストすることができる。AVEE 2518は、ユーザー・インターフェースから受領された入力に基づいて、リード・ロールをもつ一または複数の実演者を指定することができる。
【0281】
AVEE 2518は、顕著性値が全実演者の間での最大顕著性からX(たとえば3)dB以内である実演者のリストを構築することができる。AVEE 2518は、このリストに、リード実演者についての追加エントリーを加えることができる。AVEE 2518は、リストに加える追加エントリーの数を決定することができる。たとえば、追加エントリーの数は、全実演者の数と相関することができる。AVEE 2518は、上記のように実演者を選択する仕方から、ランダムに実演者を選択することができる。
【0282】
ビデオ編集についての決定に基づいて、AVEE 2518はライブ・ビデオ・データ2506をリアルタイムで、たとえば実演が進行中に、編集することができる。AVEE 2518は、記憶のためまたは一つまたは複数のユーザー装置にストリーミングするために、編集されたビデオ・データを提供することができる。ストリーミングの場合、AVEE 2518は、上記のような処理を実行するためのバッファリングのために、AVEE 2518において先読み時間〔ルックアヘッド時間〕を使うことができる。先読み時間は、X秒、たとえば1秒超、5~10秒などであるよう事前に構成されることができる。AVEE 2518は、先読み時間を、ストリーミングを受領するクラウド・サービス・アプリケーションにおいて必要とされるバッファリングの量に基づいて決定することができる。コンテンツがストリーミングされるのではなく記憶されるオフラインの場合には、AVEE 2518は、先読み時間を無限大または実演全体もしくは歌全体をカバーさせる十分大きな任意の時間期間に設定することができる。
【0283】
便宜上、追跡は、実演者を参照して記述される。さまざまな実装において、追跡は実演者に限定される必要はない。たとえば、楽器(たとえばギター)または楽器の一部(たとえばギター・ネック)または実演者の一部(ピアノ奏者の手)を追跡することが可能である。AVEE 2518は、これらのエリアを、フォーカスされるべきであり、フレーミングするべきである潜在的な候補として指定することができる。
【0284】
図25では、解析モジュール2516、AVEE 2518、推定モジュール2520、特徴抽出モジュール2522および適応追跡モジュール2524が便宜上、別個のモジュールとして示されている。さまざまな実装において、これらのモジュールは組み合わされるまたは細分されることができる。たとえば、いくつかの実装では、解析モジュール2516、推定モジュール2520、特徴抽出モジュール2522および適応追跡モジュール2524の機能はAVEE 2518によって実装されることができる。いくつかの実装では、AVEEはビデオ編集決定をして、該決定を一つまたは複数のビデオ捕捉装置への命令として提供する。すると、該一つまたは複数のビデオ捕捉装置が、該決定を実施することを実行する。
【0285】
図26は、リハーサル・データに基づくビデオ編集の例示的プロセス2600を示すフローチャートである。プロセス2600は、サーバー・システム、たとえば
図25のサーバー・システム2502によって実行されることができる。
【0286】
サーバー・システムは、一つまたは複数の記録装置から、リハーサル・ビデオ・データおよびリハーサル・オーディオ・データを含むリハーサル・データを受領する(2602)。リハーサル・データは、イベントの一または複数の実演者によるイベントのリハーサルを表わす。一つまたは複数の記録装置は、一つまたは複数のマイクロフォンおよび一つまたは複数のビデオ・カメラを含む。一つまたは複数のビデオ・カメラは、高分解能ビデオ・カメラとして指定される少なくとも一つのビデオ・カメラ、たとえば4K対応ビデオ・カメラを含むことができる。
【0287】
サーバー・システムは、リハーサル・ビデオ・データから、前記一または複数の実演者の各実演者のそれぞれの画像を認識する(2604)。それぞれの画像を認識することは、実演者または実演者によって演奏される楽器の少なくとも一方のビデオ・ベースの追跡に基づくことができる。たとえば、認識は、顔認識、楽器認識または他のオブジェクト認識に基づくことができる。
【0288】
サーバー・システムは、リハーサル・オーディオ・データから、それぞれの認識された画像に関連付けられた対応するサウンド属性を決定する(2606)。サウンド属性は、サウンド型、サウンド・レベルまたは両方を含むことができる。サウンド型は、実演者によって使われる楽器の型、たとえばギター、ドラムまたはボーカルを示すことができる。
【0289】
サーバー・システムは、前記一つまたは複数の記録装置から、イベントのライブ・ビデオ・データおよびライブ・オーディオ・データを含むライブ・データを受領する(2608)。いくつかの実装では、ライブ・データは、前記一つまたは複数の記録装置上、サーバー・システム上または両方に、データの処理時間に応じた、かつ結果が記憶されるかユーザー装置にストリーミングされるかに応じた時間期間にわたってバッファリングされることができる。
【0290】
サーバー・システムは、認識された画像および関連付けられたサウンド属性に基づいて、各実演者のそれぞれの顕著性を決定する(2610)。システムは、リハーサルに対して各実演者がプレイするそれぞれのレベルならびに前記一つまたは複数のビデオ・カメラによって捕捉されたリハーサルの間の各実演者のそれぞれの位置を導出することができる。サーバー・システムは、上記のような優勢な音源を決定する技法を使って、顕著な実演者を決定することができる。いくつかの実装では、第一の実演者が顕著な実演者であることを決定することは、以下の動作を含むことができる。サーバー・システムは、諸実演者の間の各ラウドネス・レベルを、ライブ・リハーサル・オーディオ・データに基づいて正規化する。サービス・システムは、ライブ・オーディオ・データにおいて、少なくとも一の実演者が、正規化後に少なくとも閾値量、他の実演者の正規化されたラウドネス・レベルより上のレベルで実演していることを判別する。すると、サービス・システムは、第一の実演者が顕著な実演者であると判別することができる。
【0291】
いくつかの実装では、各ラウドネス・レベルを正規化することは、以下の動作を含むことができる。サーバー・システムは、リハーサル・オーディオ・データから、各実演者の第一のレベルの音と、各実演者の第二のレベルの音とを決定することができる。第一のレベルは第二のレベルより低い。次いで、サーバー・システムは、第一のレベルをスケーリングおよび整列し、第二のレベルをスケーリングおよび整列することによって、各ラウドネス・レベルを正規化する。
【0292】
いくつかの実装では、第一の実演者が顕著な実演者であることを判別することは、以下の動作を含むことができる。サーバー・システムは、ライブ・ビデオ・データに基づいて、第一の実演者の動きの量が他の実演者の動きの量を、少なくとも閾値だけ超えることを判別する。すると、サーバー・システムは、第一の実演者が顕著な実演者であることを、動きの量に基づいて判別する。
【0293】
サーバー・システムは、一つまたは複数の編集規則に従って、ライブ・ビデオ・データおよびライブ・オーディオ・データを編集する(2612)。ライブ・データを編集する際、サーバー・システムは、少なくとも一の実演者を、それぞれの顕著性に基づいて強調する。たとえば、編集は、ボーカリスト、楽器またはバンドもしくはオーケストラの複数の実演者を含むセクション(たとえば金管セクションまたは木管セクション)を強調することができる。編集は、サーバー・システムによってライブ・ビデオ・データに対して実行されることができる。いくつかの実装では、編集は、記録装置によって実行されることができる。たとえば、サーバー・システムは、記録装置に編集命令を提供して、記録装置に編集動作を実行させることができる。
【0294】
ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、ライブ・オーディオ・データに基づいてイベントのペースおよびテンポを決定することを含むことができる。次いで、サーバー・システムは、ペースおよびテンポに従ってライブ・ビデオ・データをカットすることができる。ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、実演者、たとえば第一の実演者が演奏を開始したまたは停止したことを判別することを含むことができる。すると、サーバー・システムは、応答して、たとえば実演者が演奏を開始したまたは停止した時刻において、ライブ・ビデオ・データをカットすることができる。
【0295】
いくつかの実装では、ライブ・ビデオ・データおよびライブ・オーディオ・データを編集することは、以下の動作を含む。サーバー・システムは、全実演者を示すフルフレーム・ショット以降に経過した時間が閾値時間を超えることを判別する。サーバー・システムは、応答してライブ・ビデオ・データをカットすることができる。サーバー・システムは、閾値時間を、ライブ・オーディオ・データのテンポから導出された時間の継続時間またはカット数に基づいて決定することができる。
【0296】
次いで、サーバー・システムは、編集されたデータを再生のために提供する(2614)。サーバー・システムは、編集されたライブ・ビデオ・データおよび編集されたライブ・オーディオ・データの関連付けを記憶装置に記憶するまたは編集されたライブ・ビデオ・データおよび編集されたライブ・オーディオ・データの関連付けをユーザー装置にストリーミングすることができる。
【0297】
〈フレーム領域選択〉
図27は、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的技法を示すブロック図である。ライブ・イベント、たとえばコンサートにおいて、少なくとも一つのビデオ捕捉装置2702がイベントのビデオを捕捉する。少なくとも一つのオーディオ捕捉装置2704がイベントのオーディオを捕捉する。装置2702および2704はライブ・ビデオ・データおよびライブ・オーディオ・データをサーバー・システム2706に通信ネットワーク2708、たとえばインターネットを通じて提出する。ビデオ捕捉装置2702はビデオを高分解能、たとえば4Kで記録しうる。高分解能ビデオは、サーバー・システム2706にアップロードするまたはサーバー・システム2706からユーザー装置にダウンロードするために、通信ネットワーク2708のあまりに多くの帯域幅を消費することがある。
【0298】
サーバー・システム2706は、
図25を参照して記述したサーバー・システム2502と同じであるまたは異なることができる。サーバー・システム2706は、中程度の解像度、たとえば720pのビデオを記憶するまたはユーザー装置にストリーミングすることができる。ビデオ捕捉装置2702は、サーバー・システム2706のスレーブとして構成されることができる。サーバー・システム2706のスレーブとして、ビデオ捕捉装置2702は、サーバー・システム2706からのコマンドに従い、ズームし、クロッピングし、ビデオ・データの焦点〔フォーカル・ポイント〕を選択する。オーディオ捕捉装置2704からライブ・オーディオ・データを受領するサーバー・システム2706は、サブフレームを選択することについての決定をし、選択されたサブフレームをサーバー・システム2706に提出するようビデオ捕捉装置2702に指令する。
【0299】
サーバー・システム2706は、イベントにおけるフルバンド〔バンド全体〕の少なくとも一つのビデオ・フレームを受領する。ビデオ・フレームはすべての実演者を含んでいる。ビデオ・フレームは、フル解像度である必要はなく、任意的に、不可逆コーデックを使って圧縮されることができる。次いで、サーバー・システム2706は、ライブ・オーディオ・データに基づいてどこにフォーカスするかおよびどのサブフレームを選択するかを決定する。サーバー・システム2706は、ビデオ捕捉装置2702に、選択されたサブフレームのみの中程度の解像度のライブ・ビデオをサーバー・システム2706に提出するよう指令する。
【0300】
ビデオ捕捉装置2702は、ビデオ・バッファ2710を含むことができる。ビデオ・バッファ2710は、フル解像度でのビデオ・データのX秒(たとえば10秒)ぶんを記憶するよう構成されたデータ記憶部である。ビデオ・データは、一連のフルバンド・フレーム2712および関連付けられた時間情報を含むことができる。ビデオ捕捉装置2702はビデオ変換器2714を含む。ビデオ変換器2714はフルバンド・フレーム2712をフル解像度から一連の、より低い解像度(たとえば720pまたは640×480)の画像に変換する。ビデオ変換器2714は、該より低い解像度の画像をサーバー・システム2706に、低下したフレームレート(たとえば1fps)で提出する。その間、ビデオ捕捉装置2702はビデオ・バッファ2710内のビデオ・ストリームを中程度の解像度のビデオに変換し、該中程度の解像度のビデオをサーバー・システム2706に、標準的なフレーム・レート(たとえば24fps)で提出する。
【0301】
初期時刻t0においては、提出されるビデオは、前記より低い解像度の画像と一致するフレームをもつ、フルバンドをカバーするビデオであってもよい。次いで、ビデオ捕捉装置2702は、前記中程度の解像度のビデオ・データおよび前記画像をサーバー・システム2706に提出することを続けながら、サーバー・システム2706からの編集決定についての命令を待つ。
【0302】
サーバー・システム2706はAVEE 2718を含んでいる。AVEE 2718は、
図25のAVEE 2718と同じであるまたは異なることができる。AVEE 2718は、フルフレーム画像およびライブ・オーディオ・データを受領する。AVEE 2718は、フルフレーム画像およびオーディオ捕捉装置2704から受領されたライブ・オーディオ・データに基づいて、どの実演者または楽器にフォーカスするかを決定するよう構成される。たとえば、AVEE 2718は、時刻t1では歌手が顕著な実演者であることを判別することができる。すると、AVEE 2718は、時刻t1からのビデオにおいては顕著な実演者、この例では歌手にズームする命令を発することができる。その命令は、センサー・ピクセル座標、たとえば左からXピクセル、下からYピクセル、サイズおよび時刻t1に関連付けられることができる。
【0303】
その命令に応答して、ビデオ捕捉装置2704は、その命令に従った編集を実施する。ビデオ捕捉装置2704は対応する時刻t1のビデオ・バッファ2710からのビデオ・データを取得する。ビデオ捕捉装置2704は座標に従って位置をクロッピングする。ビデオ捕捉装置2704はクロッピングされたビデオ・データを指定されたサイズに調整し、変換されたフルフレーム画像をサーバー・システム2706に提出することを続ける一方で、調整されたビデオ・データをサーバー・システム2706に提出する。ビデオ捕捉装置2704は、調整されたビデオ・データを標準的なフレームレート、たとえば24fpsで提出することができる。こうして、サーバー・システム2706は、時刻t1からは顕著な実演者、たとえば歌手にフォーカスするビデオを受け取ることになる。
【0304】
サーバー・システム2706に提出されたライブ・オーディオ・データおよび画像に基づいて、サーバー・システム2706は、第二の時刻t2において、第二の実演者、たとえばバイオリニストが顕著な実演者になることを判別することができる。すると、サーバー・システム2706は、バイオリニストのビデオを含むライブ・ビデオの部分にフォーカスするよう、ビデオ捕捉装置2704に命令を与える。サブフレームの位置およびサイズならびに時刻t2を指定する前記命令を受信すると、ビデオ捕捉装置2704は、クロッピング座標を変更し、バイオリニストを含む、クロッピングされ、任意的にはサイズ変更されたビデオをサーバー・システム2706に提出する。よって、サーバー・システム2706は時刻t2からはバイオリニストの中程度の解像度のビデオを受領する。
【0305】
サーバー・システム2706は、アセンブリー・ユニット2720を含んでいる。アセンブリー・ユニット2720は、ビデオ捕捉装置2702からの中程度の解像度のビデオ・データおよびオーディオ捕捉装置2704からのライブ・オーディオ・データを記憶のためまたはユーザー装置へのストリーミングのためにまとめるよう構成されている。ライブ・ストリーミングのためには、アセンブリー・ユニット2720は、まとめられたビデオ・ストリームの先頭に遅延を加えることができる。ビデオ・バッファ2710および該遅延の両方が、決定およびデータ伝送におけるレイテンシーを補償できる。たとえば、サーバー・システム2706は、ドラマーが参入するときにドラマーにズームすることを決定し、メモリに保持されているバッファの、ドラマーが参入する時点に対応する場所でドラマーにフォーカスするようビデオ捕捉装置2702に指令することができる。この時刻は、ビデオ捕捉装置2702がそのコマンドを受領するX(たとえば0.2)秒前であってもよい。すると、サーバー・システム2706は新しい編集されたビデオを受け取り、それを観衆にサービスするが、その際、決定をしてコマンドを送信する時間を隠蔽するよう前記遅延を使う。
【0306】
図28は、サーバー・システムによって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセス2800のフローチャートである。サーバー・システムは
図27のサーバー・システム2706であることができる。
【0307】
サーバー・システムは、一つまたは複数のオーディオ捕捉装置からイベントのオーディオ・データを、またイベントのビデオ・データの少なくとも一つのフレームを受領する。ビデオ・データは、第一の解像度でビデオを記録するよう構成されたビデオ捕捉装置によって捕捉される。第一の解像度は4K以上であることができる。フレームは、第一の解像度と同じまたはそれ未満の解像度をもつことができる。イベントのビデオ・データのフレームは、ビデオ・データの一連のフレームのうちのフレームであることができる。一連のフレームはサーバー・システムにおいて、フレーム捕捉レート(たとえば24fps以上)より低いフレームレート(たとえば1fps以下)で受領されることができる。いくつかの実装では、イベントのすべての実演者を捕捉する単一のフレームが十分である。いくつかの実装では、ビデオ捕捉装置は、イベントの間に動いたことがありうる実演者をカバーするために、複数のフレームをサーバー・システムに提出する。
【0308】
サーバー・システムは、オーディオ・データおよびビデオ・データのフレームから認識された個々の実演者の画像に基づいて、イベントの個々の実演者の各人のそれぞれの位置を判別する(2804)。サーバー・システムは、この判別を、リハーサル・データに基づいて行なうことができる。
【0309】
サーバー・システムによってオーディオ・データから個々の実演者のうちの第一の実演者が第一の時刻において顕著な実演者であると判別すると、サーバー・システムは、ビデオ捕捉装置に、ビデオ・データの第一の部分を第二の解像度でサーバー・システムに提出するよう指令する(2806)。ビデオ・データの第一の部分は、第一の時刻において捕捉された第一の実演者の位置に空間的に向けられる。第二の解像度は1080p以下であることができる。
【0310】
サーバー・システムによってオーディオ・データから個々の実演者のうちの第二の実演者が第二の時刻において顕著な実演者であると判別すると、サーバー・システムは、ビデオ・レコーダーに、ビデオ・データの第二の部分を前記第二の解像度でサーバー・システムに提出するよう指令する(2808)。ビデオ・データの第二の部分は、第二の時刻において捕捉された第二の実演者の位置に空間的に向けられる。
【0311】
サーバー・システムは、ビデオ・データの第一の部分および第二の部分を、第二の解像度でのイベントのビデオとして指定する(2810)。次いで、サーバー・システムは、オーディオ・データおよび第二の解像度でのイベントのビデオを関連付けたもの(association)を、イベントのオーディオおよびビデオ記録として、記憶装置またはユーザー装置に提供する(2812)。たとえば、サーバー・システムは、第二の解像度でのイベントのビデオの遅延を加えることができる。次いで、サーバー・システムは遅延されたビデオおよび関連付けられたオーディオ・データを、一つまたは複数のユーザー装置にストリーミングする。
【0312】
いくつかの実装では、ビデオ捕捉装置は、第一の解像度でのビデオ・データのある期間をバッファリングする。サーバー・システムからのコマンドに応答して、ビデオ捕捉装置は、サーバー・システムに提出すべき第一の実演者および第二の実演者に対応するバッファリングされたビデオ・データのフレームの位置を選択する。
【0313】
図29は、ビデオ捕捉装置によって実行される、フルフレーム・ビデオ・データからサブフレーム領域を選択する例示的プロセス2900のフローチャートである。
【0314】
ビデオ捕捉装置はビデオ・データを第一の解像度で記録する(2902)。第一の解像度は4K以上であることができる。ビデオ捕捉装置は、ビデオ・データをビデオ捕捉装置のローカル・バッファに記憶する(2904)。ビデオ捕捉装置は、記録されたビデオ・データから一つまたは複数の画像の系列を決定する(2900)。ビデオ捕捉装置は、第一のフレームレートでサーバー・システムに一連の一つまたは複数の画像を提出する(2908)。第一のフレームレートは毎秒1フレーム以下であることができる。ビデオ捕捉装置は、サーバー・システムから、ビデオ・データの一部にフォーカスする命令を受領する(2910)。該命令は、記録されたビデオ・データの前記一部の時間的位置および空間的位置を示す。
【0315】
前記命令に応答して、ビデオ捕捉装置は示された時間的位置および空間的位置に従って、ローカル・バッファに記憶されているビデオ・データの前記一部を、第一のフレームレートより高い第二のフレームレートをもつ、第二の解像度のビデオ・データに変換する(2912)。第二のフレームレートは毎秒24フレーム以上であることができる。次いで、ビデオ捕捉装置は、第二の解像度の変換されたビデオ・データをサーバーに、イベントのライブ・ビデオ・データとして提出する(2914)。
【0316】
〈例示的な記録装置アーキテクチャー〉
図21は、
図1~
図20および
図24~
図29を参照して述べた特徴および動作を実装する装置の例示的な装置アーキテクチャー2100を示すブロック図である。装置はたとえば、
図1の記録装置102もしくは104または
図3の記録装置302であることができる。装置は、メモリ・インターフェース2102、一つまたは複数のデータ・プロセッサ、画像プロセッサおよび/またはプロセッサ2104および/または周辺インターフェース2106を含むことができる。メモリ・インターフェース2102、一つまたは複数のプロセッサ2104および/または周辺インターフェース2106は、別個のコンポーネントであることができ、あるいは一つまたは複数の集積回路に統合されていることもできる。プロセッサ2104は、アプリケーション・プロセッサ、ベースバンド・プロセッサおよび無線プロセッサを含むことができる。たとえばモバイル装置におけるさまざまなコンポーネントが、一つまたは複数の通信バスまたは信号線によって結合されることができる。
【0317】
周辺インターフェース2106には、複数の機能を容易にするよう、センサー、装置およびサブシステムが結合されることができる。たとえば、動きセンサー2110、光センサー2112および近接センサー2114が周辺インターフェース2106に結合されて、モバイル装置の方向判別、照明および近接性機能を容易にすることができる。位置プロセッサ2115が周辺インターフェース2106に接続されて地理的測位を提供することができる。いくつかの実装では、位置プロセッサ2115は、GNSS受信器の動作を実行するようプログラムされることができる。電子的磁気計2116(たとえば集積回路チップ)も周辺インターフェース2106に接続されて、磁北の方向を判別するために使用できるデータを提供することができる。このように、電子的磁気計2116は電子的なコンパスとして使用されることができる。動きセンサー2110は、モバイル装置の動きの速度および方向の変化を判別するよう構成された一つまたは複数の加速度計を含むことができる。気圧計2117は、周辺インターフェース2106に接続され、モバイル装置のまわりの大気の圧力を測定するよう構成された一つまたは複数の装置を含むことができる。
【0318】
カメラ・サブシステム2120および光学センサー2122、たとえば電荷結合素子(CCD)または相補的金属‐酸化物半導体(CMOS)光学センサーは、写真およびビデオ・クリップの記録のようなカメラ機能を容易にするために利用されることができる。
【0319】
通信機能は、一つまたは複数の無線通信サブシステム2124を通じて容易にされることができる。通信サブシステム2124は、電波周波数受信器および送信器および/または光学(たとえば赤外線)受信器および送信器を含むことができる。通信サブシステム2124の具体的な設計および実装は、モバイル装置がそれを通じて動作することが意図されている通信ネットワークに依存することができる。たとえば、モバイル装置は、GSM(登録商標)ネットワーク、GPRSネットワーク、EDGEネットワーク、Wi-Fi(商標)またはWiMax(商標)ネットワークおよびブルートゥース(登録商標)ネットワークを通じて動作するよう設計された通信サブシステム2124を含むことができる。特に、無線通信サブシステム2124は、モバイル装置が他の無線装置のための基地局として構成されることができるよう、ホスト・プロトコルを含むことができる。
【0320】
オーディオ・サブシステム2126は、スピーカー2128およびマイクロフォン2130に結合されて、音声認識、音声模写、デジタル記録および電話機能といった音声対応機能を容易にすることができる。オーディオ・サブシステム2126は、ユーザーから音声コマンドを受領するよう構成されることができる。
【0321】
I/Oサブシステム2140は、タッチ表面コントローラ2142および/または他の入力コントローラ2144を含むことができる。タッチ表面コントローラ2142はタッチ表面2146またはパッドに結合されることができる。タッチ表面2146およびタッチ表面コントローラ2142は、たとえば、複数のタッチ感応技術の任意のものを使って接触および移動またはその中断を検出することができる。タッチ感応技術は、これに限られないが、容量性、抵抗性、赤外線および表面弾性波技術ならびに他の近接センサー・アレイまたはタッチ表面2146との一つまたは複数の接触点を判別するための他の要素を含む。タッチ表面2146はたとえばタッチスクリーンを含むことができる。
【0322】
他の入力コントローラ2144は、他の入力/制御装置2148、たとえば一つまたは複数のボタン、ロッカースイッチ、サムホイール、赤外線ポート、USBポートおよび/またはポインターデバイス、たとえばスタイラスに結合されることができる。一つまたは複数のボタン(図示せず)は、スピーカー2128および/またはマイクロフォン2130のボリューム制御のための上/下ボタンを含むことができる。
【0323】
ある実装では、第一の継続時間にわたるボタンの押下が、タッチ表面2146のロックを解除してもよい;第一の継続時間より長い第二の継続時間にわたるボタンの押下が、モバイル装置への電力をオンまたはオフしてもよい。ユーザーが、ボタンのうち一つまたは複数のボタンの機能をカスタマイズできてもよい。タッチ表面2146は、たとえば、仮想またはソフト・ボタンおよび/またはキーボードを実装するために使われることもできる。
【0324】
いくつかの実装では、モバイル装置は、MP3、AACおよびMPEGファイルのような記録されたオーディオおよび/またはビデオ・ファイルを呈示することができる。いくつかの実装では、モバイル装置は、MP3プレーヤーの機能を含むことができる。他の入力/出力および制御装置が使われることもできる。
【0325】
メモリ・インターフェース2102は、メモリ2150に結合されることができる。メモリ2150は、高速ランダムアクセスメモリおよび/または不揮発性メモリ、たとえば一つまたは複数の磁気ディスク記憶装置、一つまたは複数の光学記憶デバイスおよび/またはフラッシュメモリ(たとえばNAND、NOR)を含むことができる。メモリ2150は、オペレーティング・システム2152、たとえばiOS、Darwin、RTXC、LINUX、UNIX(登録商標)、OS X、WINDOWS(登録商標)またはVxWorksのような組み込みオペレーティング・システムを記憶することができる。オペレーティング・システム2152は、基本的なシステム・サービスを扱うためおよびハードウェア依存のタスクを実行するための命令を含んでいてもよい。いくつかの実装では、オペレーティング・システム2152はカーネル(たとえばUNIX(登録商標)カーネル)を含むことができる。
【0326】
メモリ2150は、一つまたは複数の追加的な装置、一つまたは複数のコンピュータおよび/または一つまたは複数のサーバーとの通信を容易にするために通信命令2154をも記憶していてもよい。メモリ2150は、グラフィックユーザインターフェース処理を容易にするためのグラフィカルユーザインターフェース命令2156;センサー関係の処理および機能を容易にするためのセンサー処理命令2158;電話関係のプロセスおよび機能を容易にするための電話命令2160;電子メッセージング関係のプロセスおよび機能を容易にするための電子メッセージング命令2162;ウェブ閲覧関係のプロセスおよび機能を容易にするためのウェブ閲覧命令2164;メディア処理関係のプロセスおよび機能を容易にするためのメディア処理命令2166;一般的なGNSSおよび位置に関係したプロセスおよび機能を容易にするためのGNSS/位置命令2168;カメラ関係のプロセスおよび機能を容易にするためのカメラ命令2170;磁気計の較正を容易にするための磁気計データ2172および較正命令2174を含んでいてもよい。メモリ2150は、セキュリティー命令、ウェブビデオ関係のプロセスおよび機能を容易にするためのウェブビデオ命令および/またはウェブショッピング関係のプロセスおよび機能を容易にするためのウェブショッピング命令などの他のソフトウェア命令(図示せず)をも記憶していてもよい。いくつかの実装では、メディア処理命令2166は、オーディオ処理関係のプロセスおよび機能ならびにビデオ処理関係のプロセスおよび機能をそれぞれ容易にするためのオーディオ処理命令およびビデオ処理命令に分割される。起動レコードおよび国際移動体装置識別情報(IMEI)または同様のハードウェア識別子もメモリ2150に記憶されることができる。メモリ2150は、プロセッサ2104によって実行されると、プロセッサ2104に以下を含むさまざまな動作を実行させることができるオーディオ処理命令2176を記憶することができる。たとえば、ユーザーアカウントにログインすることによって記録サービスのグループに参加する、装置の一つまたは複数のマイクロフォンをスポット・マイクロフォンまたは主要マイクロフォンとして指定する、一つまたは複数のマイクロフォンを使ってグループの音声信号を記録する、記録した信号をサーバーに提出する。いくつかの実装では、オーディオ処理命令2176は、
図4および他の図を参照して述べたプロセッサ2014にサーバー408の動作を実行させることができる。メモリ2150は、プロセッサ2104によって実行されたときに、プロセッサ2104に、
図25~
図29を参照して述べたさまざまな動作を実行させることができるビデオ処理命令を記憶することができる。
【0327】
上記で同定された命令およびアプリケーションのそれぞれは、上記の一つまたは複数の機能を実行するための一組の命令に対応することができる。これらの命令は、別個のソフトウェアプログラム、手順またはモジュールとして実装される必要はない。メモリ2150は追加的な命令またはより少数の命令を含むことができる。さらに、モバイル装置のさまざまな機能は、一つまたは複数の信号処理および/または特定用途向け集積回路においてを含め、ハードウェアおよび/またはソフトウェアにおいて実装されうる。
【0328】
図22は、
図1~
図20および
図24~
図29のモバイル装置のための例示的なネットワーク動作環境2200のブロック図である。装置2202aおよび2202bはたとえば、データ通信において一つまたは複数の有線および/または無線ネットワーク2210を通じて通信することができる。たとえば、無線ネットワーク2212、たとえばセルラー・ネットワークは、ゲートウェイ2216を使用することにより、インターネットのような広域ネットワーク(WAN)2214と通信することができる。同様に、802.11g無線アクセスポイントのようなアクセス装置2218が広域ネットワーク2214への通信アクセスを提供することができる。装置2202aおよび2202bのそれぞれは、
図1の装置102または装置104、あるいは
図3の記録装置302であることができる。
【0329】
いくつかの実装では、音声通信とデータ通信の両方が無線ネットワーク2212およびアクセス装置2218を通じて確立されることができる。たとえば、装置2202aは、(たとえばインターネットプロトコルを通じた音声(VoIP: Voice over Internet Protocol)プロトコルを使って)電話をかけたり受けたりし、(たとえばポストオフィスプロトコル3(POP3: Post Office Protocol 3)を使って)電子メールメッセージを送受信し、無線ネットワーク2212、ゲートウェイ2216および広域ネットワーク2214を通じて(たとえば伝送制御プロトコル/インターネットプロトコル(TCP/IP)またはユーザデータグラムプロトコル(UDP)を使って)ウェブページ、写真およびビデオのような電子文書および/またはストリームを取得することができる。同様に、いくつかの実装では、デバイス2202bは、アクセス装置2218および広域ネットワーク2214を通じて電話をかけたり受けたりし、電子メールメッセージを送受信し、電子文書を取得することができる。いくつかの実装では、装置2202aまたは2202bは、一つまたは複数のケーブルを使ってアクセス装置2218に物理的に接続されることができ、アクセス装置2218はパーソナルコンピュータであることができる。この構成では、装置2202aまたは2202bは「テザリングされた」装置と呼ぶことができる。
【0330】
装置2202aおよび2202bはまた、他の手段によって通信を確立することもできる。 たとえば、無線装置2202aは、無線ネットワーク2212を通じて、他の無線装置、たとえば他のモバイル装置、携帯電話などと通信することができる。同様に、装置2202aおよび2202bは、ピアツーピア通信2220、たとえばパーソナル・エリア・ネットワークを確立することができる。これは、ブルートゥース(登録商標)通信装置のような一つまたは複数の通信サブシステムの使用による。他の通信プロトコルおよびトポロジーが実装されることもできる。
【0331】
装置2202aまたは2202bはたとえば、一つまたは複数の有線および/または無線ネットワークを通じて一つまたは複数のサービス2230、2240および2250と通信することができる。たとえば、一つまたは複数のオーディオおよびビデオ処理サービス2230は、上述したような自動的な同期、自動的なレベリング、自動的なパン、自動的な音源等化、自動的なセグメント分割およびストリーミングを含むオーディオ処理のサービスを提供することができる。ミキシング・サービス2240は、ミキシング専門家がリモート・コンソールを通じてログインしてライブ・オーディオ・データに対してミキシング操作を実行することを許容するユーザー・インターフェースを提供することができる。視覚効果サービス2250は、視覚効果専門家がリモート・コンソールを通じてログインしてビデオ・データを編集することを許容するユーザー・インターフェースを提供することができる。
【0332】
装置2202aまたは2202bは、一つまたは複数の有線および/または無線ネットワークを通じて他のデータおよびコンテンツにアクセスすることもできる。たとえば、ニュースサイト、RSS(Really Simple Syndication)フィード、ウェブサイト、ブログ、ソーシャルネットワーキングサイト、開発者ネットワークなどのコンテンツ・パブリッシャーは、装置2202aまたは2202bによってアクセスされることができる。そのようなアクセスは、たとえばユーザーがウェブ・オブジェクトに触れることに応答してウェブ閲覧機能またはアプリケーション(たとえばブラウザ)を呼び出すことによって提供されることができる。
【0333】
〈例示的なシステム・アーキテクチャー〉
図23は、
図1~
図20および
図24~
図29を参照して述べた特徴および動作を実装する例示的なサーバー・システムについてのシステム・アーキテクチャーのブロック図である。より多数またはより少数のコンポーネントをもつアーキテクチャーを含め他のアーキテクチャーも可能である。いくつかの実装では、アーキテクチャー2300は、一つまたは複数のプロセッサ2302(たとえば、デュアルコアIntel(登録商標)Xeon(登録商標)プロセッサ)、一つまたは複数の出力装置2304(たとえばLCD)、一つまたは複数のネットワーク・インターフェース2306、一つまたは複数の入力装置2308(たとえば、マウス、キーボード、タッチ感応性ディスプレイ)および一つまたは複数のコンピュータ可読媒体2312(たとえば、RAM、ROM、SDRAM、ハードディスク、光ディスク、フラッシュメモリなど)を含む。これらのコンポーネントは、コンポーネント間のデータおよび制御信号の転送を容易にするためにさまざまなハードウェアおよびソフトウェアを利用することができる一つまたは複数の通信チャネル2310(たとえばバス)を通じて通信およびデータを交換することができる。
【0334】
「コンピュータ可読媒体」という用語は、実行のためにプロセッサ2302に命令を提供することに参加する媒体を指し、不揮発性媒体(たとえば光ディスクまたは磁気ディスク)、揮発性媒体(たとえばメモリ)および伝送媒体を含むがこれらに限定されない。伝送媒体は、同軸ケーブル、銅線および光ファイバーを含むが、これらに限定されない。
【0335】
コンピュータ可読媒体2312はさらに、オペレーティング・システム2314(たとえば、リナックス(登録商標)オペレーティング・システム)、ネットワーク通信モジュール2316、オーディオ処理マネージャ2320、ビデオ処理マネージャ2330、およびライブ・コンテンツ配送器2340を含むことができる。オペレーティング・システム2314は、マルチユーザー、マルチ処理、マルチタスク、マルチスレッド、リアルタイムなどであることができる。オペレーティング・システム2314は、以下を含むがそれに限定されない基本的なタスクを実行する:ネットワーク・インターフェース2306および/または装置2308からの入力を認識し、それらに出力を提供する;コンピュータ可読媒体2312(たとえばメモリまたは記憶装置)上のファイルおよびディレクトリを追跡し管理する;周辺機器の制御;一つまたは複数の通信チャネル2310でのトラフィックの管理。ネットワーク通信モジュール2316は、ネットワーク接続を確立し維持するためのさまざまなコンポーネント(たとえば、TCP/IP、HTTPなどの通信プロトコルを実装するためのソフトウェア)を含む。
【0336】
オーディオ処理マネージャ2320は、実行されると、プロセッサ2302に、たとえばサーバー408を参照して上述したようなさまざまなオーディオ推定および操作動作を実行させるコンピュータ命令を含むことができる。ビデオ処理マネージャ2330は、実行されると、プロセッサ2302に、たとえばビデオ編集器530、AVEE 2518またはAVEE 2718を参照して上述したようなビデオ編集および操作動作を実行させるコンピュータ命令を含むことができる。ライブ・コンテンツ配送器2340は、実行されると、プロセッサ2302に、参照オーディオ・データおよびオーディオ・イベントのライブ・データを受領し、オーディオおよびビジュアル・データが処理された後に、処理されたライブ・データを一つまたは複数のユーザー装置にストリーミングする動作を実行させるコンピュータ命令を含むことができる。
【0337】
アーキテクチャー2300は、並列処理またはピアツーピア・インフラストラクチャーで、あるいは一つまたは複数のプロセッサを備えた単一の装置で実装されることができる。ソフトウェアは、複数のソフトウェア・コンポーネントを含むことができ、あるいは単体のコードであることもできる。
【0338】
記載された特徴は、データ記憶システムからデータおよび命令を受領し、データ記憶システムにデータおよび命令を送信するように結合された少なくとも一つのプログラム可能プロセッサと、少なくとも一つの入力装置と、少なくとも一つの出力装置とを含むプログラム可能システム上で実行可能な一つまたは複数のコンピュータ・プログラムにおいて有利に実装できる。コンピュータ・プログラムは、ある種の活動を実行するかまたはある種の結果をもたらすためにコンピュータにおいて直接的または間接的に使用されることができる一組の命令である。コンピュータ・プログラムは、コンパイル言語またはインタプリター言語を含む任意の形のプログラミング言語(たとえばObjective-C、Java(登録商標))で書かれることができ、スタンドアローンのプログラムとしてまたはモジュール、コンポーネント、サブルーチン、ブラウザー・ベースのウェブ・アプリケーションまたはコンピューティング環境での使用に好適な他のユニットとして書かれることができる。
【0339】
命令のプログラムの実行のための好適なプロセッサは、例として、汎用および特殊目的の両方のマイクロプロセッサ、ならびに任意の種類のコンピュータの唯一のプロセッサまたは複数のプロセッサもしくはコアのうちの一つを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受け取る。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを格納するための一つまたは複数のメモリである。一般に、コンピュータは、データ・ファイルを記憶するための一つまたは複数の大容量記憶装置も含むか、またはそれと通信するように動作上結合されることになる。そのような装置には、内蔵ハードディスクおよびリムーバブルディスクのような磁気ディスク;光磁気ディスク;および光ディスクが含まれる。コンピュータ・プログラムの命令およびデータを具体的に具現するのに好適な記憶装置は、例として、EPROM、EEPROMおよびフラッシュメモリ・デバイスなどの半導体メモリ・デバイス;内蔵ハードディスクおよびリムーバブルディスクなどの磁気ディスク;光磁気ディスク; CD-ROMおよびDVD-ROMディスクを含むあらゆる形の不揮発性メモリを含む。プロセッサおよびメモリは、ASIC(特定用途向け集積回路)によって補足されるか、あるいはその中に組み込まれることができる。
【0340】
ユーザーとの対話を提供するために、諸機能は、ユーザーに対して情報を表示するためのCRT(陰極線管)またはLCD(液晶ディスプレイ)モニターまたは網膜表示装置のような表示装置を有するコンピュータ上で実装されることができる。コンピュータは、タッチ表面入力装置(たとえばタッチスクリーン)またはキーボードおよびマウスもしくはトラックボールのようなポインティングデバイスを有することができ、それによってユーザーはコンピュータに入力を提供することができる。コンピュータは、ユーザーから音声コマンドを受領するための音声入力装置を有することができる。
【0341】
機能は、データ・サーバーなどのバックエンド・コンポーネントを含むか、またはアプリケーション・サーバーもしくはインターネット・サーバーなどのミドルウェア・コンポーネントを含むか、またはフロントエンド・コンポーネント、たとえばグラフィカルユーザインターフェースまたはインターネット・ブラウザーを有するクライアント・コンピュータ、あるいはそれらの任意の組み合わせを含むコンピュータ・システムで実装されることができる。システムのコンポーネントは、通信ネットワークなどの任意の形または媒体のデジタル・データ通信によって接続されることができる。通信ネットワークの例は、たとえば、LAN、WANならびにインターネットを形成するコンピュータおよびネットワークを含む。
【0342】
コンピューティング・システムは、クライアントおよびサーバーを含むことができる。クライアントとサーバーは一般に互いからリモートであり、典型的には通信ネットワークを通じて対話する。クライアントとサーバーの関係は、それぞれのコンピュータ上で実行され、互いにクライアント‐サーバー関係を有するコンピュータ・プログラムによって生じる。いくつかの実施形態では、サーバーはデータ(たとえばHTMLページ)をクライアント装置に送信する(たとえば、クライアント装置と対話しているユーザーにデータを表示し、ユーザーからユーザー入力を受け取る目的で)。クライアント装置で生成されたデータ(たとえば、ユーザー対話の結果)は、サーバーにおいてクライアント装置から受信されることができる。
【0343】
一つまたは複数のコンピュータのシステムは、動作中に該システムにアクションを実行させる、該システムにインストールされたソフトウェア、ファームウェア、ハードウェアまたはそれらの組合せをもつおかげで、特定のアクションを実行するように構成されることができる。一つまたは複数のコンピュータ・プログラムは、データ処理装置によって実行されたときに該装置にアクションを実行させる命令を含んでいるおかげで、特定のアクションを実行するように構成されることができる。
【0344】
本明細書は多くの具体的な実装上の詳細を含んでいるが、これらはいずれかの発明または請求されうるものの範囲に対する限定としてではなく、むしろ特定の発明の特定の実施形態に特有の特徴の説明として解釈されるべきである。本明細書において別個の実施形態の文脈で記述されているある種の特徴は、単一の実施形態において組み合わせて実装されることもできる。逆に、単一の実施形態の文脈で記述されているさまざまな特徴は、別個にまたは任意の好適なサブコンビネーションで複数の実施形態で実装されることもできる。さらに、特徴はある種の組み合わせで機能するものとして上記で記述され、当初はそのように請求されることさえありうるが、請求される組み合わせからの一つまたは複数の特徴が、場合によっては該組み合わせから切り取られることができ、請求される組み合わせはサブコンビネーションまたはサブコンビネーションの変形に向けられてもよい。
【0345】
同様に、動作は特定の順序で図面に描かれているが、これは望ましい結果を達成するために、そのような動作が示された特定の順序で、または順次に実行されることや、あるいはすべての示される動作が実行されることを要求するものとして理解されるべきではない。ある種の状況では、マルチタスキングおよび並列処理が有利なことがある。さらに、上述の実施形態におけるさまざまなシステム・コンポーネントの分離は、すべての実施形態においてそのような分離を必要とすると理解されるべきではなく、記載されるプログラム・コンポーネントおよびシステムは一般的に単一のソフトウェア製品に統合されるかまたは複数のソフトウェア製品にパッケージ化されることができる。
【0346】
このように、主題の個別的な実施形態を記述してきた。他の実施形態が添付の請求項の範囲内にある。場合によっては、請求項に記載されているアクションは異なる順序で実行され、それでも望ましい結果を達成することができる。さらに、添付の図面に描かれたプロセスは、望ましい結果を達成するために、示された特定の順序または逐次順を必ずしも必要としない。ある種の実装では、マルチタスク処理および並列処理が有利であることがある。
【0347】
本発明のいくつかの実装を記述してきた。だが、本発明の精神および範囲から逸脱することなくさまざまな修正を加えることができることが理解されるであろう。
【0348】
本発明のさまざまな側面は、以下の箇条書き実施例(EEE: enumerated example embodiment)から理解されうる。
【0349】
〔EEE1〕
オーディオをレベリングする方法であって:
一つまたは複数の電子回路を含むレベリング・ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、複数のチャネル信号源からのチャネル信号の表現を含む、段階と;
前記レベリング・ユニットによって、各音源の目標レベルを指定する目標レベル・データを受領する段階と;
前記レベリング・ユニットによって、前記参照オーディオ・データに基づいて、オーディオ信号を、それぞれの利得に従って前記目標レベルに再スケーリングするためのコスト関数を決定する段階と;
前記レベリング・ユニットによって、前記コスト関数を最小化することによって、ライブ・オーディオ・データにおける各チャネル信号に適用するそれぞれの利得を計算する段階とを含む、
方法。
〔EEE2〕
前記チャネル信号の前記表現が、もとのままのチャネル信号または処理されたチャネル信号を含み、該処理されたチャネル信号は、ノイズ削減ユニット、等化器、ダイナミックレンジ補正ユニットまたは音源分離器によって処理されたチャネル信号を含む、EEE1記載の方法。
〔EEE3〕
前記レベリング・ユニットによって、前記チャネル信号源の各対の間のそれぞれの相関を決定する段階を含む、EEE1または2記載の方法。
〔EEE4〕
オーディオをパンする方法であって:
一つまたは複数の電子回路を含むパンナーによって、音源の参照オーディオ・データを受領する段階であって、前記音源は、一つまたは複数のパンできる源として指定された一つまたは複数の源および一つまたは複数のパンできない源として指定された一つまたは複数の源を含む、段階と;
前記音源がプレイするイベントのチャネル信号を受領する段階と;
前記参照オーディオ・データに基づいてコスト関数を決定する段階であって、前記コスト関数は、各チャネル信号についてのパン位置を変数としてもち、前記コスト関数は、左チャネルと右チャネルの間の不均衡を表わす第一の成分と、前記一つまたは複数のパンできる源を表わす第二の成分と、前記音源のうち前記一つまたは複数のパンできない源を表わす第三の成分とをもつ、段階と;
前記コスト関数を最小化することによって、各チャネル信号のそれぞれのパン位置を決定する段階と;
前記パン位置を前記チャネル信号に適用して、前記イベントの音源を、ステレオ・サウンド再生システムへの出力のためにステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成する段階とを含む、
方法。
〔EEE5〕
前記パン位置は、パン角または左チャネルと右チャネルの間の比の少なくとも一方を含み、前記ステレオ・サウンド再生システムはヘッドフォンまたはラウドスピーカーを含む、EEE4記載の方法。
〔EEE6〕
オーディオをレベリングおよびパンする方法であって:
一つまたは複数の電子回路を含むレベリングおよびパン・ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、一つまたは複数の音源のリハーサルにおいて記録された複数のチャネル信号源からのチャネル信号の表現を含む、段階と;
前記レベリングおよびパン・ユニットによって、目標レベル・データを受領する段階であって、前記目標レベル・データは各音源の目標レベルを指定する、段階と;
前記レベリングおよびパン・ユニットによって、ライブ・オーディオ・データを受領する段階であって、前記ライブ・オーディオ・データは、ライブ・イベントにおいてプレイしている前記一つまたは複数の音源からの記録されたまたはリアルタイムの信号を含む、段階と;
前記レベリング・ユニットによって、前記参照オーディオ・データに基づいて、前記ライブ・オーディオ・データをレベリングし、前記ライブ・オーディオ・データをパンするための合同コスト関数を決定する段階であって、前記合同コスト関数は、前記ライブ・オーディオ・データをレベリングするための第一の成分と、前記ライブ・オーディオ・データをパンするための第二の成分とをもち、前記第一の成分は前記目標レベル・データに基づき、前記第二の成分は、左チャネルと右チャネルの間の不均衡の第一の表現と、音源の間でのパンできる源の第二の表現と、音源の間でのパンできない源の第三の表現とに基づく、段階と;
前記合同コスト関数を最小化することによって、各チャネル信号に適用すべきそれぞれの利得と、各チャネル信号のそれぞれのパン位置とを計算する段階と;
イベントのライブ・オーディオ・データの信号に前記利得およびパン位置を適用して、記憶装置またはステレオ・サウンド再生システムへの出力のために、前記ライブ・オーディオ・データにおける音源をレベリングし、前記ライブ・オーディオ・データにおける音源をステレオ・サウンドステージの左と右の間に配置するというオーディオ効果を達成する段階とを含む、
方法。
〔EEE7〕
各レベルがエネルギー・レベルまたはラウドネス・レベルである、EEE6記載の方法。
〔EEE8〕
オーディオ・レベルを決定する方法であって:
一つまたは複数の電子回路を含む推定器によって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データはリハーサル・セッションの間にプレイする一つまたは複数の音源をそれぞれ表わすチャネル信号を含む、段階と;
前記推定器によって、前記参照オーディオ・データに基づいて、各マイクロフォンにおける各音源のそれぞれのレベルを計算する段階と;
ライブ・オーディオ・データと参照オーディオ・データの間のレベルの差を判別する段階であって、前記ライブ・オーディオ・データにおいて表現される各音源と前記参照オーディオ・データにおいて表現されるその音源のそれぞれのレベルを比較することを含む、段階と;
前記差に基づいて各音源のそれぞれのレベルについてのコスト関数を決定する段階と;
前記コスト関数を最小化することによって、前記それぞれのレベルを決定する段階と;
前記レベルをオーディオまたはビデオ・プロセッサへの入力として提供する段階とを含む、
方法。
〔EEE9〕
前記推定器によって、複数の周波数帯域の各周波数帯域における各音源のそれぞれのレベルを計算することを含み、
前記コスト関数は、音源ごとの諸周波数帯域を横断した諸コストのそれぞれの和を含み、
前記それぞれのレベルは各周波数帯域において決定される、
EEE8記載の方法。
〔EEE10〕
オーディオを等化する方法であって:
一つまたは複数の電子回路を有する等化器によって、複数の音源からの信号を含むオーディオ・データを受領する段階と;
前記等化器によって、各音源についてのそれぞれの信号を、各周波数帯域における励起にマッピングする段階と;
源‐帯域対のリストにおけるそれぞれの源‐帯域対について必要値を決定する段階であって、それぞれの源‐帯域対は音源および周波数帯域を表わし、前記必要値は、その対におけるその周波数帯域において等化されている、その対において表わされている音源の、他の音源および他の周波数帯域に対する相対的な重要度と、その対において表わされているその音源の、一つまたは複数の他の音源によるマスキング・レベルとを示す、段階と;
最も高い必要値をもつ前記リストにおける源‐帯域対において表わされている音源の信号を等化して等化された源‐帯域対を前記リストから除去することを、残っている源‐帯域対のうちの最も高い必要値が閾値未満になるまで逐次反復する段階と;
等化された信号を一つまたは複数のラウドスピーカーでの再生のために提供する段階とを含む、
方法。
〔EEE11〕
前記必要値が、前記相対的な重要度を表わす一つまたは複数の値と、音源のマスキング・レベルを表わす一つまたは複数の値との積である、EEE10記載の方法。
〔EEE12〕
一つまたは複数の電子回路を有するセグメント分割ユニットによって、オーディオ信号を受領する段階と;
前記セグメント分割ユニットは、時間を通じてオーディオ信号についての新規性インデックスを構築する段階と;
前記新規性インデックスのピークに基づいて次のカットのためのカット時間を決定する段階と;
前記カット時間のところでビデオ・コンテンツをカットする段階と;
カットされたビデオ・コンテンツを新たなビデオ・セグメントとして、記憶装置にまたは一つまたは複数のエンドユーザー装置に提供する段階とを含む、
方法。
〔EEE13〕
前記カット時間を決定することが:
平均カット長に基づいてセグメント長を決定する段階であって、前記セグメント長はオーディオ・セグメントの長さに対応する、段階と;
セグメント長に基づいて前記カット時間を決定する段階とを含む、
EEE12記載の方法。
〔EEE14〕
前記セグメント長に基づいて前記カット時間を決定することが:
最後のカット以降の時間を通じた前記新規性インデックスの和を決定する段階と;
前記和が新規性閾値より高いことを判別すると、前記新規性インデックスの和が前記新規性閾値を満足する時刻から次のカットの時刻までの時間として、前記カット時間を決定する段階とを含み、前記カット時間のランダムさが平均すると前記セグメント長になる、
EEE13記載の方法。
〔EEE15〕
オーディオを同期させる方法であって:
複数のマイクロフォンからのオーディオ信号を受領する段階と;
前記オーディオ信号の各対の間の相関のそれぞれの品質値を決定して、該品質値をマップ・ベクトルにおいて割り当てる段階と;
逐次反復的に一連の遅延を決定し、それらの遅延を前記マップ・ベクトルに挿入していく段階であって、逐次反復的に一連の遅延を決定することは、逐次反復的に、最高の品質値をもつオーディオ信号の対を整列させてダウンミックスしていくことを含む、段階と;
逐次反復を終了したら、前記遅延が前記マップ・ベクトルに挿入された順序に従って前記マップ・ベクトルにおけるそれぞれの遅延を使って前記オーディオ信号を同期させる段階とを含む、
方法。
〔EEE16〕
ノイズ削減方法であって:
一つまたは複数の電子回路を含むノイズ削減ユニットによって、参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、無音期間リハーサル・セッションの間に記録されたチャネル信号を含む、段階と;
前記ノイズ削減ユニットのノイズ推定器によって、前記参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定する段階と;
ライブ実演データを受領する段階であって、前記ライブ実演データは、リハーサル・セッションでは無音だった一つまたは複数の楽器がプレイするイベントの間に記録されたチャネル信号を含む、段階と;
前記ノイズ削減ユニットのノイズ削減器によって、前記ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを個々に低減する段階であって、前記ライブ実演データにおける各チャネル信号におけるそれぞれの抑制利得を適用することを、前記ライブ実演データにおける各チャネル信号におけるノイズ・レベルと前記推定されたノイズ・レベルとの間の差がある閾値を満足することを判別した際に行なうことを含む、段階と;
ノイズ・レベルを低減した後、前記チャネル信号を、さらなる処理、記憶または一つまたは複数のエンドユーザー装置への配送のために下流の装置に提供する段階とを含む、
方法。
〔EEE17〕
前記参照オーディオ・データにおける各チャネル信号におけるそれぞれのノイズ・レベルを推定することが、複数の周波数ビンに対して実行され、
前記ライブ実演データにおける各チャネル信号におけるそれぞれのノイズ・レベルを低減することが前記周波数ビンにおいて実行され、
前記推定することおよび前記低減することが、前記閾値、傾き、アタック時間、ディケイ時間およびオクターブ・サイズを含むノイズ削減パラメータに従って実行される、
EEE16記載の方法。
〔EEE18〕
サーバー・システムによって、一つまたは複数のチャネル信号源から参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、リハーサルにおいて個々にプレイする一つまたは複数の音源の音響情報を含む、段階と;
前記サーバー・システムによって、前記一つまたは複数のチャネル信号源から、実演イベントの一つまたは複数のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含む、段階と;
前記サーバー・システムによって、前記一つまたは複数のチャネル信号をミキシングする段階であって、前記ミキシングは、前記参照オーディオ・データに基づいて、前記実演イベントの一つまたは複数の音源の一つまたは複数のオーディオ属性を自動的に調整することを含む、段階と;
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階と;
前記実演イベントの前記一つまたは複数のチャネル信号と、少なくとも一つまたは複数のオーディオ属性の前記調整を記述する別個のファイルとを前記サーバー・システムから記憶装置に提供する段階とを含む、
方法。
〔EEE19〕
サーバー・システムによって、一つまたは複数のチャネル信号源から参照オーディオ・データを受領する段階であって、前記参照オーディオ・データは、個々にプレイする一つまたは複数の音源の音響情報を含む、段階と;
前記サーバー・システムによって、前記一つまたは複数のチャネル信号源から、実演イベントの一つまたは複数のチャネル信号を受領する段階であって、各チャネル信号は、それぞれのチャネル信号源からであり、前記実演イベントにおいてプレイする前記一つまたは複数の音源からのオーディオ信号を含む、段階と;
前記サーバー・システムによって、前記一つまたは複数のチャネル信号をミキシングする段階であって、前記ミキシングは、前記参照オーディオ・データに基づいて、前記実演イベントの一つまたは複数の音源の一つまたは複数のオーディオ属性を自動的に調整することを含む、段階と;
前記実演イベントのミキシングされた記録を前記サーバー・システムから記憶装置に、または複数のエンドユーザー装置に提供する段階とを含む、
方法。
〔EEE20〕
各チャネル信号源が、マイクロフォンまたは信号出力をもつサウンド信号生成器を含み、
各音源が、ボーカリスト、楽器またはシンセサイザーであり、
前記サーバー・システムは、通信ネットワークを通じて前記一つまたは複数のチャネル信号源に接続された一つまたは複数のコンピュータを含み、
前記一つまたは複数のチャネル信号源および前記一つまたは複数の音源は、リハーサルおよび前記実演イベントにおいて同じ音響的配置をもつ、
EEE1ないし19のうちいずれか一項記載の方法。
〔EEE21〕
前記一つまたは複数のチャネル信号は、前記一つまたは複数のチャネル信号源のうちの第一のチャネル信号源からの第一のチャネル信号と、前記一つまたは複数のチャネル信号源のうちの第二のチャネル信号源からの第二のチャネル信号とを含み、
当該方法は、前記サーバー・システムによって、時間領域で前記第一のチャネル信号および第二のチャネル信号を同期させることを含む、
EEE1ないし20のうちいずれか一項記載の方法。
〔EEE22〕
前記一つまたは複数のチャネル信号から第一の音源および第二の音源を分離する段階を含み、該分離する段階は、前記一つまたは複数のチャネル信号において表現されている複数の音源から前記第一の音源および前記第二の音源を分離することを含み、前記一つまたは複数のチャネル信号は、前記第一の音源を表わす第一の信号と、前記第二の音源を表わす第二の信号とを含む、EEE1ないし21のうちいずれか一項記載の方法。
〔EEE23〕
前記ミキシングが、前記サーバー・システムによって、第一の音源および第二の音源をレベリングし、前記第一の音源および前記第二の音源をパンすることを含む、EEE1ないし22のうちいずれか一項記載の方法。
〔EEE24〕
第一の音源および第二の音源をレベリングすることが、各音源のそれぞれのエネルギー・レベルに応じて前記一つまたは複数の音源の利得を増大または減少させることを含み、それぞれのエネルギー・レベルは前記参照オーディオ・データから前記サーバー・システムによって決定される、EEE23記載の方法。
〔EEE25〕
前記参照オーディオ・データが:
低レベルとして指定される第一のレベルおよび高レベルとして指定される第二のレベルでプレイする各音源の信号;または
単一のレベルでプレイする各音源の信号
の少なくとも一方を含む、EEE1ないし24のうちいずれか一項記載の方法。
〔EEE26〕
前記参照オーディオ・データから、前記イベントにおける各音源についてのそれぞれの利得を決定する段階を含み、該それぞれの利得を決定することは、各音源について:
目標レベルを指定する入力を受領し;
前記参照オーディオ・データにおける前記信号のそれぞれのレベルを決定し;
前記参照オーディオ・データにおける前記信号のレベルと前記目標レベルとの間の差に基づいてそれぞれの利得を決定することを含む、
EEE1ないし25のうちいずれか一項記載の方法。
〔EEE27〕
前記一つまたは複数のチャネル信号をミキシングすることは、前記サーバー・システムにログオンしているミキサー装置からの入力に従って前記一つまたは複数のチャネル信号の利得を調整することを含み、前記信号は前記一つまたは複数の音源または両方からである、EEE1ないし26のうちいずれか一項記載の方法。
〔EEE28〕
前記イベントについてビデオ編集を実行する段階を含み、前記ビデオ編集を実行することは:
前記サーバー・システムのビデオ編集器によって、前記イベントのビデオ・データおよびオーディオ・データを受領する段階であって、前記ビデオ・データは、音源が前記イベントにおける種々の位置に見えるように位置されたビデオを含み、前記オーディオ・データは、音源のエネルギー・レベルを含む、段階と;
前記オーディオ・データから、前記オーディオ・データにおいて表現されている第一の音源の信号が、該第一の音源が前記オーディオ・データにおいて表現されている他の音源のレベルに対して、ある閾値量より上であるレベルでプレイしていることを示していることを判別する段階と;
前記ビデオ・データにおける前記第一の音源の位置を判別する段階と;
前記ビデオ・データの、前記第一の音源の位置に対応する部分を判別する段階と;
前記記憶装置または前記エンドユーザー装置に、前記オーディオ・データと、前記ビデオ・データの前記部分とを同期して提供する段階とを含む、
EEE1ないし27のうちいずれか一項記載の方法。
〔EEE29〕
前記ビデオ・データにおける音源の位置を判別することが:
オーディオ・データに基づいて前記第一の音源のパン位置を判別し;
前記第一の音源の前記パン位置を、前記ビデオ・データにおける音源の前記位置として指定することを含む、
EEE28記載の方法。
〔EEE30〕
前記ビデオ・データにおける音源の位置を判別することが、顔追跡または楽器追跡を使って音源の位置を判別することを含む、EEE28記載の方法。
〔EEE31〕
前記一つまたは複数のチャネル信号に基づいて、前記一つまたは複数のチャネル信号源に前記サーバー・システムからコマンドを提供する段階を含み、前記コマンドは、前記一つまたは複数のチャネル信号源の記録パラメータを調整するよう構成されており、前記記録パラメータは、利得、圧縮型、ビット深さまたはデータ伝送レートのうちの少なくとも一つを含む、
EEE1ないし30のうちいずれか一項記載の方法。