【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 平成29年1月26日開催 ライブ・ミュージック・ハッカソン 事務局主催「ライブ・ミュージック・ハッカソン」 http://www.billboard−japan.com/hack2016 平成29年1月26日公開 https://live.line.me/channels/432/broadcast/795602
【解決手段】入力したオーディオ信号から楽曲の拍を検出すると共に、楽器又は奏者ごとのオーディオ信号の特徴量を検出し、検出した特徴量と最大特徴量との相関が最も強い楽器又は奏者を判断する。そして、判断した相関が最も強い楽器又は奏者の映像を、拍に対応した区間ごとに選択するようにした。
前記カメラ選択部は、相関が最も強い楽器又は奏者の映像信号を、直近に選択した頻度が一定以上であるとき、前記特徴量比較部が判断した相関が2番目以降の楽器又は奏者の映像信号を選択するようにした
請求項1又は2に記載のライブ映像処理システム。
【発明を実施するための形態】
【0014】
以下、本発明の一実施の形態の例(以下、「本例」と称する)を、
図1〜
図5を参照して説明する。
【0015】
[1.システム全体の構成例]
図1は、本例の撮影システム全体の概要を示す。
この例では、ステージ5の上に、ベース1、ドラム2、キーボード3、及びピアノ4が配置され、それぞれ別の奏者が各楽器1〜4を演奏する。そして、各楽器1〜4の演奏音を集音するマイクロフォンM1〜M4が、各楽器1〜4ごとに配置されている。また、ステージ5の近傍(又はステージ5の上)に、各楽器1〜4とそれぞれの奏者を撮影するカメラC1〜C4が配置されている。
それぞれのカメラC1〜C4は、演奏状態を撮影するビデオカメラであり、固定された位置に設置されたカメラである。
なお、マイクロフォンM1〜M4やカメラC1〜C4の配置状態は一例であり、これらのマイクロフォンM1〜M4やカメラC1〜C4以外に、ステージ5の上や近傍にマイクロフォンやカメラを配置してもよい。例えば、ステージ5全体を撮影するカメラや、ステージ5全体を集音するマイクロフォンを配置してもよい。
【0016】
4つのマイクロフォンM1〜M4から得られるオーディオ信号は、オーディオミキサ6に供給され、予め設定された混合状態又は演奏に合わせて随時調整した混合状態で、混合されたオーディオ信号となる。オーディオミキサ6で混合されたオーディオ信号は、例えば出力端子6aを介してスピーカ(不図示)に供給され出力される。また、オーディオミキサ6で混合されたオーディオ信号は、後述する記録装置8及び配信装置9にも供給される。
さらに、オーディオミキサ6に得られる4つのマイクロフォンM1〜M4から得られるオーディオ信号は、混合せずに映像処理システム10の制御装置20に供給される。
【0017】
映像処理システム10は、制御装置20と映像切換装置30と映像処理装置40とで構成される。
制御装置20は、コンピュータで構成され、4つのマイクロフォンM1〜M4から得られたオーディオ信号を解析した結果に基づいて、カメラC1〜C4の撮影映像の選択やエフェクトを制御する。制御装置20が行う制御の詳細は後述する。
【0018】
映像切換装置30には、カメラC1〜C4で撮影された4つの映像信号が供給され、供給される4つの映像信号の切換処理を行い、処理された1つの映像信号を出力する。また、映像処理装置40は、映像切換装置30の切換処理で処理された映像信号に対して、ズーム処理や色の変換などのエフェクト処理を行い、処理された映像信号を出力する。
【0019】
映像処理システム10の映像処理装置40が出力する映像信号は、プロジェクタ装置7、記録装置8、及び配信装置9に供給される。プロジェクタ装置7は、供給される映像信号による映像を投影する。記録装置8は、供給される映像信号を記録する。配信装置9は、供給される映像信号を外部に配信する。なお、記録装置8における記録と配信装置9における配信時には、オーディオミキサ6から出力されるオーディオ信号についても記録又は配信を行う。なお、ライブ映像収録の目的や形態により、プロジェクタ装置7、記録装置8、及び配信装置9は必ずしも全てが必要ではなく、いずれか1つあるいは2つの組み合わせによる構成も考えられる。
【0020】
[2.映像処理システムの構成例]
図2は、映像処理システム10の機能的な構成を示すブロック図である。
制御装置20は、4つのマイクロフォンM1〜M4から得られたオーディオ信号を解析して、その解析結果に基づいて映像切換装置30を制御する処理を行う。この制御装置20は、先に説明したようにコンピュータで構成され、解析処理などを実行するプログラムを、コンピュータが備える演算処理機能により実行させることで実現される。なお、制御装置20をコンピュータで構成するのは一例であり、専用のハードウェアで構成してもよい。
【0021】
制御装置20は、
図2に示すように、オーディオ入力部21を備え、このオーディオ入力部21に各楽器1〜4の演奏音を集音した4チャンネルのオーディオ信号が供給される。オーディオ入力部21は、例えばアナログオーディオ信号をデジタルオーディオ信号に変換するアナログデジタル(AD)変換器の役割を持っている。
そして、オーディオ入力部21は、変換されたデジタルオーディオ信号を混合して、拍検出部22に供給する。拍検出部22は、オーディオ信号の周期的なレベルの変化から楽曲全体の拍を検出し、検出した拍のタイミングのデータを、特徴量比較部25に供給する。
【0022】
また、オーディオ入力部21に得られる各チャンネルのデジタルオーディオ信号は、高速フーリエ変換(FFT:Fast Fourier Transform)部23に供給される。高速フーリエ変換部23は、供給される各チャンネルのオーディオ信号を個別に高速フーリエ変換して解析することで、低域(200Hz帯)、中域(1200Hz帯)、及び高域(8000Hz帯)の3つの帯域の強度(レベル)又は振幅を検出する。
【0023】
図3は、あるタイミングのオーディオ信号について、高速フーリエ変換部23で解析した結果の例を示す。
図3Aは、マイクロフォンM1が集音したベース1の演奏音の周波数解析特性f
Aを示す。
図3Bは、マイクロフォンM2が集音したドラム2の演奏音の周波数解析特性f
Bを示す。
図3Cは、マイクロフォンM3が集音したキーボード3の演奏音の周波数解析特性f
Cを示す。
図3Dは、マイクロフォンM4が集音したピアノ4の演奏音の周波数解析特性f
Dを示す。
図3A〜Dにおいて、縦軸は強度(レベル)を示し、横軸は周波数を示す。
これら
図3A〜Dにおいて、周波数帯f1、f2、f3は、それぞれ低域(200Hz帯)、中域(1200Hz帯)、及び高域(8000Hz帯)を示す。
このようにして、高速フーリエ変換部23は、各チャンネルのオーディオ信号ごとに、帯域ごとの強度のデータを得、得られた強度のデータを特徴量検出部24に供給する。
【0024】
特徴量検出部24は、各チャンネルのオーディオ信号の強度のデータから、低域の周波数帯f1、中域の周波数帯f2、及び高域の周波数帯f3の強度を示す特徴量を取得する。ここでの周波数の強度を示す特徴量としては、例えば周波数帯ごとの強度を並べたベクトル値を使用する。特徴量検出部24で得られた各チャンネルの3つの帯域f1,f2,f3の特徴量のデータは、特徴量比較部25に供給される。
特徴量比較部25は、供給される各チャンネルの3つの帯域f1,f2,f3の特徴量のうちの最大値のデータを最大特徴量記録部28に供給し、これを記録する。この最大特徴量記録部28での特徴量の最大値の記録は、例えば楽曲の開始とともに半拍ごとに行われ、楽曲の終了とともにリセットされる。
【0025】
そして、特徴量比較部25は、最大特徴量記録部28に記録された各チャンネルの最大値の特徴量と、特徴量検出部24から供給されるリアルタイムの特徴量との相関を検出し、4つのチャンネルの相関値を比較して、相関値が高い順に順位を判断する。この相関値が高い順位の判断は、拍検出部22が検出した演奏中の楽曲の拍に基づいた区間ごとに行われる。例えば、特徴量比較部25は、拍検出部22が検出した拍に基づいて、楽曲の半拍ごとの区間を設定し、その半拍の区間ごとに、相関値が高い順位を判断する。ここでは、例えば半拍の区間内の、特定の1つのタイミングでのオーディオ信号から特徴量を検出して、相関を判断する。あるいは、半拍の区間内のオーディオ信号から連続的に特徴量を検出して、その連続した特徴量から相関を判断するようにしてもよい。
特徴量比較部25が判断した相関値の高い順位のデータは、カメラ選択部26に供給される。また、特徴量比較部25で検出した相関値のデータは、エフェクト選択部27に供給される。
【0026】
カメラ選択部26は、相関値の順位のデータが供給される毎に、4台のカメラC1〜C4の映像を選択する処理を行う。例えば、ある半拍の区間では、ドラム2の演奏音を集音したマイクロフォンM2から得た特徴量の相関値が1位であるとき、その半拍の区間は、ドラム2を撮影したカメラC2の映像を選択する。
但し、カメラ選択部26は、4台のカメラC1〜C4での選択状態を監視して、特定のカメラの映像が選択され続けることを避けるために、特徴量の相関値が1位であっても、相関値が2位以下のカメラの映像を選ぶ場合もある。
カメラ選択部26で得たカメラ選択データは、映像切換装置30の映像切換部31に供給される。
【0027】
エフェクト選択部27は、カメラ選択部26で選択したカメラのデータと、そのカメラが撮影した映像に対応した楽器のオーディオ信号の特徴量の相関値とを取得する。そして、取得した相関値に応じて、映像に施すエフェクトを選択し、得られたエフェクト選択データを出力する。例えば、映像の中心部分をズームアップするようなエフェクト処理や、映像の色を通常とは異なる色にするエフェクト処理など、様々なエフェクト処理を選択する。エフェクト選択部27が映像に施すエフェクトを選択する上で、オーディオ信号の特徴量の相関値を利用するのは一例であり、オーディオ信号から得た特徴値や、映像信号を画像解析した結果の値などを利用してもよい。あるいは、これらのオーディオ信号や映像信号から得た種々の値を組み合わせて、エフェクト選択部27が映像に施すエフェクトを選択するようにしてもよい。さらにまた、映像に施すエフェクトを、エフェクト選択部27がランダムに選択するようにしてもよい。
エフェクト選択部27で得たエフェクト選択データは、映像処理装置40の映像処理部41に供給される。
【0028】
映像切換装置30は、4台のカメラC1〜C4が撮影した映像信号が供給される映像切換部31を備える。映像切換部31は、4台のカメラC1〜C4が撮影した映像信号から、カメラ選択部26で指示された映像信号に切換え、切換えられた映像信号を映像処理装置40に供給する。
また、映像処理装置40は、映像切換装置30の映像切換部31で切換えられた映像信号に対してエフェクト処理を施す映像処理部41を備える。映像処理部41は、エフェクト選択部27から指示されたエフェクト処理を、供給される映像信号に対して施し、エフェクト処理が施された映像信号を出力する。なお、エフェクト処理なしの指示がある場合には、映像処理部41は映像切換部31から供給される映像信号をそのまま出力する。
映像処理部41が出力する映像信号は、プロジェクタ装置7、記録装置8、及び配信装置9に供給される。
【0029】
[3.映像選択処理の流れ]
図4は、映像処理システム10の制御装置20による制御で、映像選択処理及びエフェクト選択処理が行われる流れを示すフローチャートである。
まず、拍検出部22が拍検出処理を行い、この拍検出部22での一定の拍(ここでは半拍)の区間の検出ごとに、特徴量比較部25は、特徴量検出部24における特徴量検出処理で検出された各帯域f1,f2,f3(
図3)の強度を示す特徴量を取得する(ステップS11)。ここで、最大特徴量記録部28は、各楽器のオーディオ信号の最大特徴量を記録する(ステップS12)。この最大特徴量記録部28に記録される最大特徴量は、楽曲の演奏開始から演奏が進むごとに、最大値が随時更新されて記録される。
【0030】
そして、特徴量比較部25は、最大特徴量記録部28に記録された最大特徴量と、特徴量検出部24で検出された現在の特徴量とから、各楽器のオーディオ信号ごとの相関値を計算する(ステップS13)。ここでの相関値は、例えば現在の特徴量が最大特徴量に近い値であるとき高い相関値となり、現在の特徴量が最大特徴量から離れた小さな値であるとき低い相関値となる。
その後、特徴量比較部25は、4種類の楽器1〜4に対応した4チャンネルのオーディオ信号の内で、相関が高いものから順位を判断する特徴量比較処理を行う(ステップS14)。この相関が高い順位の判断は、拍検出部22が検出した拍に基づいて、楽曲の半拍の区間ごとに行われる。
【0031】
次に、カメラ選択部26は、ステップS14で順位が1位になった楽器のカメラ映像を選ぶことが適切か否かを判断する(ステップS15)。ここでは、例えば特定のカメラの映像が選択され続ける状態がある程度継続した場合に、該当するカメラ映像の選択が適切でないと判断される。また、カメラの切換えが頻繁に行われた場合であっても、特定のカメラの映像が選ばれることが比較的多い状態になる場合にも、該当するカメラ映像の選択が適切でないと判断される。
【0032】
ステップS15において、順位が1位になった楽器のカメラ映像を選ぶことが適切であると判断されたとき(ステップS15のYES)、カメラ選択部26は、映像切換部31に対して、順位が1位になった楽器を撮影したカメラの映像を選択する指示を行う(ステップS16)。また、ステップS15で、順位が1位になった楽器のカメラ映像を選ぶことが適切でないとカメラ選択部26が判断したときは(ステップS15のNO)、カメラ選択部26は、映像切換部31に対して、順位が2位以下のカメラの映像の内で、適切なカメラの映像を選択する指示を行う(ステップS17)。このステップS17では、例えば相関の高さの順位が2位のカメラの映像を選択するようにする。あるいは、相関値とは無関係に、過去の一定期間内で最も選択される頻度が少ないカメラの映像を選ぶようにしてもよい。
【0033】
そして、ステップS16又はステップS17で映像の選択指示を行った後、エフェクト選択部27は、映像処理部41に対してエフェクト処理についての指示を行い、映像のエフェクト状態を設定する(ステップS18)。このエフェクト処理については、相関値により選択されたエフェクト状態を設定する場合と、相関値とは無関係にランダムにエフェクト状態を設定する場合とがある。
【0034】
[4.実際の映像切換例]
図5は、映像切換え処理を実行した一例を示す。
図5において、半拍を検出するタイミングb1,b2,b3,b4,・・・ごとに、カメラC1〜C4の映像の選択状態と、エフェクトの設定状態を示す。
例えば、タイミングb1からタイミングb5までの区間(2拍の区間)で、カメラC3の映像を選択し、エフェクトの設定なしとする。そして、タイミングb5からタイミングb7までの区間(1拍の区間)で、カメラC2の映像を選択し、エフェクト状態として、そのカメラC2が撮影した映像の中心をズームアップする処理を行う。このズームアップ処理は、いわゆるデジタルズーム処理により行われる。また、タイミングb7からタイミングb8までの区間(半拍の区間)で、カメラC1の映像を選択し、エフェクトの設定なしとする。さらに、タイミングb8からタイミングb10までの区間(1拍の区間)で、カメラC2の映像を選択し、カラーをセピア色に変更するエフェクト処理を設定する。
【0035】
このようにオーディオ信号の特徴量の最大値との相関に基づいて、カメラが撮影した映像を一定の拍ごとに切換えるようにしたことで、複数台のカメラC1〜C4が撮影した映像が、自動的に演奏に合わせて切換わるようになる。この場合、演奏音の拍を検出して、その拍に基づいて設定した区間(ここでは半拍の区間)ごとに判断して切換えるようしたことで、楽曲の演奏に同期した切換えが行われ、違和感のない自然な映像切換えが実行される。
【0036】
また、選択される映像は、その映像で表示される楽器の音が相対的に高い状態であり、複数の演奏者の中で注目すべき演奏者の映像が選択されることになり、適切な映像切換えが行われる。すなわち、複数の楽器が演奏時に発する演奏音の大きさは、楽器ごとに異なり、例えば
図3の例では、ドラムの演奏音の周波数解析特性f
B(
図3B)は比較的強い傾向があり、音の強さだけで切換えの判断を行うようにすると、ドラムの映像だけが選択され続けることになってしまう。ここで本例では、特徴量の最大値との相関で判断するようにしたことで、それぞれの楽器の演奏音が盛り上がった特徴量が高い状態か否かの判断ができ、適切な映像選択ができるようになる。
例えば、
図3A〜Dに示す演奏音が得られたとき、特徴量の絶対的なレベルではドラムの演奏音が高いが、ピアノなどの他の楽器の演奏音を最も相関が高いと判断して、その楽器の映像を選ぶような処理が可能になる。したがって、実際の楽器の演奏状態に合わせた適切な映像切換えが実現できるようになる。なお、特徴量としては、例えば周波数帯ごとの強度を並べたベクトル値が適用可能である。
【0037】
[5.変形例]
なお、上述した実施の形態例では、音響解析のみに基づき、映像切換を実行する例を説明した。これに対して、本発明の音響解析とリアルタイムの画像解析を組み合わせ、切換の精度を更に高めてもよい。具体的には、特定の演奏者の演奏音の盛り上がりに加えて、例えば指の動きが加速する、感情が高ぶり演奏者の表情が大きく変化する或いはボディジェスチャが顕著になる、などの特徴量変化を、画像解析により検出し、音響解析と組み合わせ、映像切換処理を実行するようにしてもよい。画像解析処理については、既存の技術を活用することができる。
また、上述した指の動きの加速、演奏者の表情の大きな変化などの画像解析からの特徴量変化の検出で、エフェクト処理の実行を制御するようにしてもよい。
【0038】
また、上述した実施の形態例では、映像処理システム10として、オーディオ信号に基づいて映像の切換制御を行う制御装置20と、その制御装置20からの指示で映像切換処理を行う映像切換装置30とエフェクト処理を行う映像処理装置40とを個別の装置とした。これに対して、1つの装置が、制御装置20としての機能と、映像切換装置30と映像処理装置40としての機能を備えるようにしてもよい。あるいは、これら3つの装置20,30,40のいずれか2つを1つの装置で構成してもよい。このように1つの装置で映像処理システム10を構成する際にも、コンピュータ装置(及びその周辺機器)で構成する場合と、専用のハードウェアで構成する場合のいずれでもよい。
【0039】
また、上述した実施の形態例では、マイクロフォンを各楽器1〜4ごとに配置して、それぞれの楽器の演奏音が個別のチャンネルのオーディオ信号として得られるようした。これに対して、オーディオ信号のチャンネル数は、楽器の数よりも少ない数とし、得られたオーディオ信号を解析して、各楽器の演奏音の強度(特徴量)を判断するようにしてもよい。
【0040】
また、上述した実施の形態例では、楽器の演奏音を解析して映像の切換え処理を行うようにしたが、楽器の演奏音以外の音を解析して、映像の切換え処理を行うようにしてもよい。例えば、マイクロフォンが集音する少なくとも1種類の音については、演奏者の歌声とし、その歌声の特徴量の相関値を得るようにして、楽器の演奏音の特徴量の相関値との比較で、映像の切換え処理を行うようにしてもよい。
【0041】
また、上述した実施の形態例では、映像切換部31で映像を切り換えた後、エフェクト処理部41でエフェクト処理を施すようにしたが、映像切換処理のみを行うようして、エフェクト処理については実行しないようにしてもよい。あるいは、映像切換処理のみを映像処理システム10が自動的に行うようにして、エフェクト処理部41でエフェクト処理については、作業者が手動による操作で随時エフェクト処理を施すようにしてもよい。エフェクト処理の例として、映像のズームアップや色の変更以外の処理を施すようにしてもよい。
【0042】
さらに、映像切換部31での映像切換処理としては、
図5で説明したように半拍ごとの区間でいずれか1つの映像を選ぶようにしたが、例えば、映像切換部31が、各楽器の演奏音の特徴量の相関値に基づいて、複数の映像を合成するようにしてもよい。例えば、ある区間で、演奏音の特徴量の相関値がほぼ同じ程度に高い2つの楽器が存在するとき、1画面内を2分割して、相関値が高い2つの楽器の奏者を撮影した映像を各分割画面に配置するようにしてもよい。
【0043】
また、用意するカメラの少なくとも1台については、ステージ全体を撮影するようにして、随時、そのステージ全体の映像に切り換えるようにしてもよい。この場合には、例えば多数(ここでは3人又は4人)の楽器の演奏音の特徴量の相関値が閾値以上に高い状態を検出したとき、ほぼ全員の奏者の演奏が盛り上がった状態であるとして、ステージ全体を撮影するカメラの映像を、適宜挿入するようにしてもよい。
【0044】
さらに、上述した実施の形態例では、拍検出部22での検出に基づいて半拍ごとに映像を切り換えるようにしたが、この半拍ごとの区間の設定については一例であり、1拍や複数の拍ごとに映像を切り換える区間を設定してもよい。
また、映像を切り換える区間の設定そのものをランダムに行い、あるタイミングでは半拍ごとに切換えるようにし、別のタイミングでは1拍や複数拍ごとに切換えるようにしてもよい。この場合、例えば特徴量の相関値が比較的高い状態(つまり演奏音が比較的大きい区間)では、切換える区間を短くし、特徴量の相関値が比較的低い状態(つまり演奏音が比較的小さい区間)では、切換える区間を長くするように、可変設定してもよい。
【0045】
また、上述した実施の形態例では、各楽器の演奏音の特徴量の最大値を、楽曲の開始から逐次更新させるようしたが、例えば楽器ごとに予め想定される最大値を予め最大特徴量記録部28にセットするようにしてもよい。
さらに、各チャンネルの音の特徴量は、高速フーリエ変換処理で周波数解析した結果から得るようにしたが、高速フーリエ変換以外フィルタ処理で、帯域ごとの特徴量を得るようにしてもよい。帯域として、低域、中域、及び高域の3つの帯域を選び、その3つの帯域での特徴量から選択するようにした点についても一例であり、その他の帯域数で特徴量を検出するようにしてもよい。
【0046】
また、
図5の例では、特定の楽器の演奏音の相関が高い状態が続いたとき、連続して同じ映像を選ぶようにしたが、例えば半拍や1拍などの予め決めた期間ごとに、必ず別の映像に切り換えるようにしてもよい。
【0047】
さらに、
図1の例では、コンサートのライブ映像を撮影(収録)する場合としたが、本発明は、その他の各種ライブ映像(討論会、演劇など)のライブ映像を撮影(収録)する場合にも適用可能である。