(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-28
(45)【発行日】2024-07-08
(54)【発明の名称】楽曲解析装置、楽曲解析方法およびプログラム
(51)【国際特許分類】
G10L 25/51 20130101AFI20240701BHJP
G10L 25/18 20130101ALI20240701BHJP
【FI】
G10L25/51 300
G10L25/18
(21)【出願番号】P 2022553382
(86)(22)【出願日】2020-10-01
(86)【国際出願番号】 JP2020037468
(87)【国際公開番号】W WO2022070392
(87)【国際公開日】2022-04-07
【審査請求日】2023-02-02
(73)【特許権者】
【識別番号】315017409
【氏名又は名称】AlphaTheta株式会社
(74)【代理人】
【識別番号】110000637
【氏名又は名称】弁理士法人樹之下知的財産事務所
(72)【発明者】
【氏名】佐飛 利尚
(72)【発明者】
【氏名】坂上 敬
(72)【発明者】
【氏名】鈴木 四郎
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2016/208000(WO,A1)
【文献】国際公開第2018/207936(WO,A1)
【文献】特開2012-103603(JP,A)
【文献】特開2008-242287(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00-25/93
(57)【特許請求の範囲】
【請求項1】
楽曲の音声データの
ボーカル音に対応する周波数帯域である第1の周波数帯域のレベルに基づいて、前記音声データのサンプリング区間ごとに
、第1の楽曲と、前記第1の楽曲とは異なる第2の楽曲とを通じた前記第1の周波数帯域の最大レベルに対する、前記サンプリング区間における前記第1の周波数帯域のピークレベルの比率を使って導き出される第1のスコアを算出する第1のスコア算出部と、
前記第1の楽曲について算出された前記第1のスコアと、
前記第2の楽曲について算出された前記第1のスコアとを、複数の前記サンプリング区間を含み前記第1の楽曲および前記第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、前記第1の楽曲および前記第2の楽曲の前記所定の区間の組み合わせについて
、前記所定の区間での前記第1の楽曲と前記第2の楽曲とのミキシング適性を示すスコアである第2のスコアを算出する第2のスコア算出部と
を備える楽曲解析装置。
【請求項2】
前記第1のスコア算出部は、前記サンプリング区間におけるフォルマント周波数帯域のピークレベルにさらに基づいて前記第1のスコアを算出する、請求項
1に記載の楽曲解析装置。
【請求項3】
前記所定の区間は、前記楽曲の拍または前記拍の1/n(nは2以上の整数)の長さに対応する、請求項1
または請求項2に記載の楽曲解析装置。
【請求項4】
前記第2のスコア算出部は、前記所定の区間の組み合わせについて、前記第1の楽曲の区間で前記第1のスコアが閾値を超える前記サンプリング区間の合計長さと、前記第2の楽曲の区間で前記第1のスコアが閾値を超える前記サンプリング区間の合計長さとの比率に基づいて前記第2のスコアを算出する、請求項1から請求項
3のいずれか1項に記載の楽曲解析装置。
【請求項5】
前記第2のスコア算出部は、前記所定の区間の組み合わせについて、区間の始点を揃えたときに前記第1の楽曲および前記第2の楽曲の両方で前記第1のスコアが閾値を超える前記サンプリング区間の最大連続長さに基づいて前記第2のスコアを算出する、請求項1から請求項
4のいずれか1項に記載の楽曲解析装置。
【請求項6】
前記第2のスコア算出部は、前記所定の区間の組み合わせについて、区間の始点を揃えたときに前記第1の楽曲および前記第2の楽曲で対応する前記サンプリング区間の前記第1のスコアを掛け合わせたものに基づいて
前記第2のスコアを算出する、請求項1から請求項
5のいずれか1項に記載の楽曲解析装置。
【請求項7】
前記第2のスコアに基づく情報を視覚化して表示させる表示制御部をさらに備える、請求項1から請求項
6のいずれか1項に記載の楽曲解析装置。
【請求項8】
前記表示制御部は、前記第1の楽曲の再生中に、前記第1の楽曲の再生位置または再生予定位置にある前記所定の区間と、前記第2の楽曲の前記所定の区間のそれぞれとの組み合わせについて算出された前記第2のスコアが視覚化された情報を、前記第2の楽曲の時間軸に対応付けて表示させる、請求項
7に記載の楽曲解析装置。
【請求項9】
楽曲の音声データの
ボーカル音に対応する周波数帯域である第1の周波数帯域のレベルに基づいて、前記音声データのサンプリング区間ごとに
、第1の楽曲と、前記第1の楽曲とは異なる第2の楽曲とを通じた前記第1の周波数帯域の最大レベルに対する、前記サンプリング区間における前記第1の周波数帯域のピークレベルの比率を使って導き出される第1のスコアを算出するステップと、
前記第1の楽曲について算出された前記第1のスコアと、
前記第2の楽曲について算出された前記第1のスコアとを、複数の前記サンプリング区間を含み前記第1の楽曲および前記第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、前記第1の楽曲および前記第2の楽曲の前記所定の区間の組み合わせについて
、前記所定の区間での前記第1の楽曲と前記第2の楽曲とのミキシング適性を示すスコアである第2のスコアを算出するステップと
を含む楽曲解析方法。
【請求項10】
楽曲の音声データの
ボーカル音に対応する周波数帯域である第1の周波数帯域のレベルに基づいて、前記音声データのサンプリング区間ごとに
、第1の楽曲と、前記第1の楽曲とは異なる第2の楽曲とを通じた前記第1の周波数帯域の最大レベルに対する、前記サンプリング区間における前記第1の周波数帯域のピークレベルの比率を使って導き出される第1のスコアを算出する第1のスコア算出部と、
前記第1の楽曲について算出された前記第1のスコアと、
前記第2の楽曲について算出された前記第1のスコアとを、複数の前記サンプリング区間を含み前記第1の楽曲および前記第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、前記第1の楽曲および前記第2の楽曲の前記所定の区間の組み合わせについて
、前記所定の区間での前記第1の楽曲と前記第2の楽曲とのミキシング適性を示すスコアである第2のスコアを算出する第2のスコア算出部と
を備える楽曲解析装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲解析装置、楽曲解析方法およびプログラムに関する。
【背景技術】
【0002】
DJパフォーマンスでは、先行曲から後続曲へのクロスフェードがよく用いられる。クロスフェードの間は、先行曲および後続曲がミキシングして再生されるため、それぞれの拍位置を一致させたり、不協和音を避けたりといった工夫が必要である。このような楽曲のミキシングを支援するための技術が、例えば特許文献1に記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、上記の特許文献1に記載されたようなミキシングをするにあたって、多くの場合はそれぞれの楽曲のボーカル音が競合することも避けることが好ましい。しかしながら、このような点を考慮してミキシングを支援する技術は提供されていない。
【0005】
そこで、本発明は、所定の周波数帯域の音の検出結果に基づいて効果的にミキシングを支援することが可能な楽曲解析装置、楽曲解析方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
[1]楽曲の音声データの第1の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第1のスコアを算出する第1のスコア算出部と、第1の楽曲について算出された第1のスコアと、第1の楽曲とは異なる第2の楽曲について算出された第1のスコアとを、複数のサンプリング区間を含み第1の楽曲および第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第1の楽曲および第2の楽曲の所定の区間の組み合わせについて第2のスコアを算出する第2のスコア算出部とを備える楽曲解析装置。
[2]第1の周波数帯域は、ボーカル音に対応する周波数帯域である、[1]に記載の楽曲解析装置。
[3]第1のスコア算出部は、第1の楽曲および第2の楽曲を通じた第1の周波数帯域の最大レベルに対する、サンプリング区間における第1の周波数帯域のピークレベルの比率に基づいて第1のスコアを算出する、[1]または[2]に記載の楽曲解析装置。
[4]第1のスコア算出部は、サンプリング区間におけるフォルマント周波数帯域のピークレベルにさらに基づいて第1のスコアを算出する、[1]から[3]のいずれか1項に記載の楽曲解析装置。
[5]所定の区間は、楽曲の拍または拍の1/n(nは2以上の整数)の長さに対応する、[1]から[4]のいずれか1項に記載の楽曲解析装置。
[6]第2のスコア算出部は、所定の区間の組み合わせについて、第1の楽曲の区間で第1のスコアが閾値を超えるサンプリング区間の合計長さと、第2の楽曲の区間で第1のスコアが閾値を超えるサンプリング区間の合計長さとの比率に基づいて第2のスコアを算出する、[1]から[5]のいずれか1項に記載の楽曲解析装置。
[7]第2のスコア算出部は、所定の区間の組み合わせについて、区間の始点を揃えたときに第1の楽曲および第2の楽曲の両方で第1のスコアが閾値を超えるサンプリング区間の最大連続長さに基づいて第2のスコアを算出する、[1]から[6]のいずれか1項に記載の楽曲解析装置。
[8]第2のスコア算出部は、所定の区間の組み合わせについて、区間の始点を揃えたときに第1の楽曲および第2の楽曲で対応するサンプリング区間の第1のスコアを掛け合わせたものに基づいて第2のスコアを算出する、[1]から[7]のいずれか1項に記載の楽曲解析装置。
[9]第2のスコアに基づく情報を視覚化して表示させる表示制御部をさらに備える、[1]から[8]のいずれか1項に記載の楽曲解析装置。
[10]表示制御部は、第1の楽曲の再生中に、第1の楽曲の再生位置または再生予定位置にある所定の区間と、第2の楽曲の所定の区間のそれぞれとの組み合わせについて算出された第2のスコアが視覚化された情報を、第2の楽曲の時間軸に対応付けて表示させる、[9]に記載の楽曲解析装置。
[11]楽曲の音声データの第1の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第1のスコアを算出するステップと、第1の楽曲について算出された第1のスコアと、第1の楽曲とは異なる第2の楽曲について算出された第1のスコアとを、複数のサンプリング区間を含み第1の楽曲および第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第1の楽曲および第2の楽曲の所定の区間の組み合わせについて第2のスコアを算出するステップとを含む楽曲解析方法。
[12]楽曲の音声データの第1の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第1のスコアを算出する第1のスコア算出部と、第1の楽曲について算出された第1のスコアと、第1の楽曲とは異なる第2の楽曲について算出された第1のスコアとを、複数のサンプリング区間を含み第1の楽曲および第2の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第1の楽曲および第2の楽曲の所定の区間の組み合わせについて第2のスコアを算出する第2のスコア算出部とを備える楽曲解析装置としてコンピュータを機能させるためのプログラム。
【0007】
上記の構成によれば、楽曲の音声データの第1の周波数帯域のレベルに基づいて算出される第1のスコアに基づいて、第1の楽曲および第2の楽曲の所定の区間の組み合わせについて第2のスコアが算出される。楽曲間で第1の周波数帯域の音が競合する可能性を第2のスコアとして表現することによって、効果的にミキシングを支援することができる。
【図面の簡単な説明】
【0008】
【
図1】本発明の一実施形態に係る楽曲解析装置の概略的なブロック図である。
【
図2】ボーカルスコアの算出方法について説明するための第1の図である。
【
図3】ボーカルスコアの算出方法について説明するための第1の図である。
【
図4】ボーカルスコアの算出方法について説明するための第2の図である。
【
図5A】ボーカルスコアの算出方法について説明するための第2の図である。
【
図5B】ボーカルスコアの算出方法について説明するための第2の図である。
【
図5C】ボーカルスコアの算出方法について説明するための第2の図である。
【
図6】ボーカル競合スコアの算出方法について概略的に説明するための図である。
【
図7】ボーカル競合スコアの算出方法についてより具体的に説明するための図である。
【
図8】ボーカル競合スコアの算出方法についてより具体的に説明するための図である。
【
図9】ボーカル競合スコアに基づくミキシング適性の判定の例を示す図である。
【
図10】ボーカル競合スコアを視覚化した情報の例を示す図である。
【発明を実施するための形態】
【0009】
以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0010】
図1は、本発明の一実施形態に係る楽曲解析装置の概略的なブロック図である。図示された例において、楽曲解析装置100は、音声データ入力部110と、FFT(Fast Fourier Transform)121およびフィルタリング122を含む音声データ処理部120と、ボーカルスコア算出部130と、ボーカル競合スコア算出部140と、表示制御部150とを含む。楽曲解析装置100は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、音声データ処理部120、ボーカルスコア算出部130、ボーカル競合スコア算出部140および表示制御部150の機能はプロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される。
【0011】
ここで、楽曲解析装置100は、2つの楽曲をミキシングして再生するDJパフォーマンスのためのシステムに含まれる。このシステムでは、例えばミキサー(図示せず)の複数のチャンネルにそれぞれ異なる楽曲の音声データが入力される。この場合、楽曲解析装置100は、ミキサーに楽曲が再生のために読み込まれるときにそれぞれの楽曲について以下のような解析を実行する。具体的には、ミキサーがAデッキおよびBデッキと呼ばれる2つのチャンネルを有する場合、楽曲解析装置100はAデッキおよびBデッキのそれぞれの楽曲が読み込まれたときに音声データ処理部120における処理を実行し、両方の楽曲が読み込まれたときにボーカルスコア算出部130、ボーカル競合スコア算出部140および表示制御部150における処理を実行する。本明細書では、AデッキおよびBデッキの楽曲をそれぞれ楽曲M1,M2ともいう。また、上記のように楽曲解析装置100はDJパフォーマンスのためのシステムに含まれるため、楽曲M1,M2の再生状態、具体的には、それぞれの楽曲が再生中であるのか、再生待機中であるのかといったような情報が利用可能である。
【0012】
音声データ入力部110は、楽曲M1,M2の音声データの入力を受け付ける。音声データ処理部120は、楽曲M1,M2のそれぞれについて、音声データのサンプリング区間ごとにFFT121を実行して周波数ごとのレベルを算出する。ここで、サンプリング区間は、例えば音声データ処理部120がFFT121およびフィルタリング122以外の処理を実行する場合に、他の処理と共通で設定されてもよいし、FFT121およびフィルタリング122について他の処理とは別に設定されてもよい。さらに、音声データ処理部120は、FFT121の結果に対してフィルタリング122を実行する。フィルタリング122の種類は限定されないが、例えばFFT121の結果をスムージングして周波数帯域ごとのレベルのピークを検出しやすくするようなフィルタが例示される。なお、音声データ処理部120における処理は楽曲M1,M2の組み合わせが決まらなくても実行可能であるため、例えば楽曲解析装置100とは異なる装置によって予め実行されていてもよい。
【0013】
図2および
図3は、ボーカルスコアの算出方法について説明するための第1の図である。本実施形態において、ボーカルスコア算出部130は、楽曲M1,M2を通じたボーカル周波数帯域の最大レベルに対する、楽曲M1,M2のそれぞれのサンプリング区間におけるボーカル周波数帯域のピークレベルの比率に基づいてボーカルスコアを算出する。
図2では、楽曲M1のサンプリング区間M1-1,M1-2,M1-3におけるボーカル周波数帯域における周波数fごとのレベルLを示すグラフが示されている。この例では、楽曲M1のあるサンプリング区間におけるボーカル周波数帯域のピークレベルLp
1-1が、楽曲M1,M2を通じたボーカル周波数帯域の最大レベルL
maxである。この場合、楽曲M1の他のサンプリング区間では、ボーカル周波数帯域のピークレベルLp
1-2,Lp
1-3の最大レベルL
maxに対する比率R1
1-2,R1
1-3が算出される。具体的には、R1
1-2=Lp
1-2/L
maxであり、R1
1-3=Lp
1-3/L
maxである。なお、最大レベルL
maxが検出されたサンプリング区間における比率R1
1-1は1になる。
【0014】
一方、
図3に示された例では、楽曲M2のサンプリング区間M2-1,M2-2,M2-3において、ボーカル周波数帯域のピークレベルLp
2-1,Lp
2-2,Lp
2-3が検出され、それぞれのサンプリング区間において最大レベルL
maxに対する比率R1
2-1,R1
2-2,R1
2-3が算出される。具体的には、具体的には、R1
2-1=Lp
2-1/L
maxであり、R1
2-2=Lp
2-2/L
maxであり、R1
2-3=Lp
2-3/L
maxである。
【0015】
このように、楽曲M1,M2を通じたボーカル周波数帯域の最大レベルに対する比率に基づいてボーカルスコアを算出することによって、後述するミキシング適性に楽曲ごとの全体的なレベルの差を反映させることができる。例えば、楽曲M2のボーカル周波数帯域のレベルが全体的に低く、どの区間であってもミキシングにあたってボーカル音の競合が起こりにくい場合、楽曲M1で検出されるボーカル周波数帯域の最大レベルLmaxに対する比率に基づいて算出される楽曲M2のボーカルスコアは全体的に低くなり、その結果として楽曲M1と楽曲M2との間では全体的にミキシング適性が高くなる。他の例において、例えば楽曲M1,M2のボーカル周波数帯域の最大レベルが同程度であることが前提になるような場合は、楽曲M1,M2のそれぞれのボーカル周波数帯域の最大レベルに対する比率に基づいてボーカルスコアが算出されてもよい。
【0016】
なお、ボーカル周波数帯域は、音声データの中でボーカル音に対応する周波数帯域であり、例えば1kHz付近の周波数帯域であるが、この例には限定されない。ボーカル音に対応する周波数帯域は、例えば楽曲ジャンルや男声/女声の別などによって上記の例とは異なる帯域であってもよい。また、本実施形態ではボーカル音の検出結果に基づくボーカルスコアSc1を利用してミキシング適性の判定に利用可能なボーカル競合スコアSc2が算出されるが、他の実施形態ではボーカル音以外の検出結果に基づいてスコアSc1が算出されてもよい。このような場合に楽曲の音声データの任意の周波数帯域(第1の周波数帯域)のレベルに基づいて算出されるスコアSc1は、必ずしもボーカルスコアとは呼ばれなくてもよい。
【0017】
図4および
図5は、ボーカルスコアの算出方法について説明するための第2の図である。本実施形態において、ボーカルスコア算出部130は、楽曲M1,M2のそれぞれのサンプリング区間におけるボーカル音のフォルマント周波数帯域のピークレベルにさらに基づいてボーカルスコアを算出する。例えば、ボーカルスコア算出部130は、ボーカル音の第1フォルマント周波数帯域f1について設定される上限および下限の閾値Th
U1,Th
L1、およびボーカル音の第2フォルマント周波数帯域f2について設定される上限および下限の閾値Th
U2,Th
L2と、それぞれのサンプリング区間における第1フォルマント周波数帯域のピークレベルLp
f1および第2フォルマント周波数帯域のピークレベルLp
f2に基づいて、以下のように第1および第2のフォルマントスコアF
1,F
2からフォルマントスコアF
all(0≦F
all≦1)を算出する。
【0018】
LpF1<ThL1の場合、F1=0
LpF1>ThU1の場合、F1=0.5
上記以外の場合、F1=0.5*(LpF1-ThL1)/(ThU1-ThL1)
LpF2<ThL2の場合、F2=0
LpF2>ThU2の場合、F2=0.5
上記以外の場合、F2=0.5*(LpF2-ThL2)/(ThU2-ThL2)
Fall=F1+F2
【0019】
このようにして算出されるフォルマントスコアF
allは、例えば
図4に示されるように、フィルタリング後のピークが第1フォルマント周波数帯域f1および第2フォルマント周波数帯域f2の両方で検出されるサンプリング区間で最も高くなり、
図5Aおよび
図5Bに示されるようにピークが第1フォルマント周波数帯域f1または第2フォルマント周波数帯域f2のいずれか一方で検出されるサンプリング区間でやや高くなり、
図5Cに示されるようにピークが第1フォルマント周波数帯域f1でも第2フォルマント周波数帯域f2でも検出されないサンプリング区間では低くなる。
【0020】
ここで、フォルマント周波数帯域は、特定の種類の音を他の音から区別させる周波数成分の帯域である。特定の種類の音について複数のフォルマント周波数帯域が存在する場合、周波数が低いものから順に第1フォルマント周波数帯域、第2フォルマント周波数帯域、・・・と呼ばれる。ボーカル音の場合、第1フォルマント周波数帯域として150Hz以上450Hz以下、第2フォルマント周波数帯域として580Hz以上1000Hz以下が例示されるが、この例には限られない。また、他の実施形態では、ボーカル音以外のフォルマント周波数帯域のピークレベルに基づいてボーカルスコアが算出されてもよい。
【0021】
本実施形態において、ボーカルスコア算出部130は、
図2および
図3を参照して説明したようなボーカル周波数帯域の最大レベルに対するそれぞれのサンプリング区間のピークレベルの比率R1と、
図4および
図5を参照して説明したようなフォルマント周波数帯域のピークレベルに基づくフォルマントスコアF
allとの両方に基づいて、例えば以下のようにそれぞれのサンプリング区間についてボーカルスコアSc1を算出する。ここで、比率R1およびフォルマントスコアF
allはいずれも0以上1以下の値をとるため、ボーカルスコアSc1も0以上1以下の範囲で正規化された値になる。
Sc1=R1*F
all
【0022】
図6は、ボーカル競合スコアの算出方法について概略的に説明するための図である。本実施形態において、ボーカル競合スコア算出部140は、楽曲M1,M2について共通の長さで定義される所定の区間SgごとのボーカルスコアSc1に基づいてボーカル競合スコアを算出する。ここで、所定の区間は
図6において区間Sg
1-1、Sg
1-2、Sg
1-3、Sg
2-1、Sg
2-2、Sg
2-3、・・・として図示されている。これらの区間Sgはそれぞれが複数のサンプリング区間を含み、例えば楽曲の拍または拍の1/n(nは2以上の整数)を単位とする長さを有する。区間Sgの長さは1拍よりも長くてもよく、例えば小節単位であってもよい。この場合、1小節、4小節、8小節などの長さが例示される。ボーカルスコアSc1はサンプリング区間ごとに算出される離散値であるが、区間Sgに対してサンプリング区間が短いため図示されているように連続値として扱うことができる。以下で説明する例のように、ボーカル競合スコア算出部140は、ボーカルスコアSc1の値を閾値THと比較する。図示された例の場合、区間Sg
1-1と区間Sg
2-1、Sg
2-2、Sg
2-3のそれぞれとの組み合わせについてボーカル競合スコアが算出され、区間Sg
1-2と区間Sg
2-1、Sg
2-2、Sg
2-3のそれぞれとの組み合わせについてボーカル競合スコアが算出され、以下同様にして楽曲M1と楽曲M2とのすべての区間の組み合わせについてボーカル競合スコアが算出される。
【0023】
図7および
図8は、ボーカル競合スコアの算出方法についてより具体的に説明するための図である。
図7には、
図6に示された例における楽曲M1の区間Sg
1-1と楽曲M2の区間Sg
2-1との組み合わせについてボーカル競合スコアを算出する例が示されている。区間Sg
1-1および区間Sg
2-1の長さは同じである。ボーカル競合スコア算出部140は、楽曲M1の区間Sg
1-1でボーカルスコアSc1が閾値THを超えるサンプリング区間の合計長さと、楽曲M2の区間Sg
2-1でボーカルスコアSc1が閾値THを超えるサンプリング区間の合計長さとの比率R2に基づいてボーカル競合スコアを算出する。区間Sg
1-1では長さL1の全区間でボーカルスコアSc1が閾値THを超えており、区間Sg
2-1では長さL2の一部の区間のみでボーカルスコアSc1が閾値THを超えている。この場合、比率R2=L2/L1で算出される。
【0024】
さらに、
図7の例において、ボーカル競合スコア算出部140は、楽曲M1の区間Sg
1-1および楽曲M2の区間Sg
2-1の始点を揃えたときに、楽曲M1,M2の両方でボーカルスコアSc1が閾値THを超えるサンプリング区間の最大連続長さL
bothに基づいてボーカル競合スコアを算出する。上述のように、区間Sg
1-1では長さL1の全区間でボーカルスコアSc1が閾値THを超えており、区間Sg
2-1では長さL2の一部の区間のみでボーカルスコアSc1が閾値THを超えているため、両方の楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の最大連続長さL
both=L2になる。
【0025】
一方、
図8には、
図6に示された例における楽曲M1の区間Sg
1-3と楽曲M2の区間Sg
2-3との組み合わせについてボーカル競合スコアを算出する例が示されている。区間Sg
1-3および区間Sg
2-3の長さも同じである。ボーカル競合スコア算出部140は、上記の
図7の例と同様にボーカル競合スコアを算出する。具体的には、区間Sg
1-3では長さL1の全区間でボーカルスコアSc1が閾値THを超えており、区間Sg
2-3では長さL3,L4の不連続な2つの区間でボーカルスコアSc1が閾値THを超えている。この場合、比率R2=(L3+L4)/L1で算出される。一方、両方の楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の最大連続長さL
bothについては、区間Sg
2-3でボーカルスコアSc1が閾値THを超えるサンプリング区間の長さがL3<L4であるため、最大連続長さL
both=L4になる。
【0026】
本実施形態において、ボーカル競合スコア算出部140は、
図7および
図8を参照して説明したような、それぞれの楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の合計長さの比率R2と、楽曲の始点を揃えたときに両方の楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の最大連続長さL
bothとの両方に基づいて、例えば以下のように楽曲の区間の組み合わせについてボーカル競合スコアSc2を算出する。この例では、比率R2と最大連続長さL
bothとが乗算され、さらに区間の始点を揃えたときに楽曲M1,M2で対応するサンプリング区間のボーカルスコアScを掛け合わせたものの平均が乗算される。ここで、Sc
1-iおよびSc
2-iはそれぞれ楽曲M1,M2の対象区間内でi番目のサンプリング区間のボーカルスコアを意味し、mは対象区間内にあるサンプリング区間の数である。
【0027】
【0028】
上記の例の場合、ボーカル競合スコアSc2が小さいほど、当該区間の組み合わせで楽曲M1と楽曲M2とのボーカル音が競合する状況が発生せず、クロスフェードなどによるミキシングに対して適性があることが示される。なお、上述したように他の実施形態ではボーカル音以外の検出結果に基づいてスコアSc1を算出することも可能である。このような場合、楽曲の区間の組み合わせについてスコアSc1に基づいて算出されるスコアSc2は、必ずしもボーカル競合スコアとは呼ばれなくてもよい。
【0029】
本実施形態では、両方の楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の最大連続長さLbothをボーカル競合スコアSc2に反映させることによって、2つの楽曲の区間をミキシングした場合にそれぞれの楽曲で連続的に聴取されるボーカル音による競合状態を、ボーカル競合スコアSc2を参照することによって避けることができる。また、本実施形態では、それぞれの楽曲でボーカルスコアSc1が閾値THを超えるサンプリング区間の合計長さの比率R2をボーカル競合スコアSc2に反映させることによって、2つの楽曲の区間をミキシングした場合にどちらの楽曲でも同じ程度の時間割合で断続的に聴取されるボーカル音による競合状態を、ボーカル競合スコアSc2を参照することによって避けることができる。さらに、本実施形態では、2つの楽曲で対応するサンプリング区間のボーカルスコアSc1を掛け合わせたものをボーカル競合スコアSc2に反映させることによって、ボーカルスコアSc1によって示されるボーカル音の度合いが大きい場合と小さい場合とで、ミキシングに対する適性が異なることを表現することができる。
【0030】
図9は、ボーカル競合スコアに基づくミキシング適性の判定の例を示す図である。
図9に示された例では、楽曲M1と楽曲M2とが同期して再生される前提で、それぞれの楽曲で対応する区間のミキシング適性が「A」、「B」および「C」の3段階で判定されている。区間Sg1では、楽曲M1,M2の両方でボーカルスコアSc1が連続的に閾値を超えて高いため、ボーカル競合スコアSc2は最も高くなり、ミキシング適性は最も低い「C」になる。区間Sg2では、楽曲M2のボーカルスコアSc1が高いのが短い一部の区間のみであるためボーカル競合スコアSc2は相対的に低くなり、ミキシング適性は中程度の「B」になる。区間Sg3では、楽曲M2のボーカルスコアSc1が連続的に閾値を超えるが、区間Sg1,Sg2に比べるとボーカルスコアSc1の値が低いためボーカル競合スコアSc2は相対的に低くなり、ミキシング適性は区間Sg2と同じ「B」になる。一方、区間Sg4では、楽曲M2のボーカルスコアSc1が閾値を超えるのが短い一部の区間のみであり、かつボーカルスコアSc1の値が低いためボーカル競合スコアSc2はさらに低くなり、ミキシング適性は最も高い「A」になる。区間Sc5では、楽曲M1のボーカルスコアSc1が閾値を超えないため、楽曲M2のボーカルスコアSc1が高くてもボーカル競合スコアSc2は低く、ミキシング適性は「A」になる。
【0031】
図10は、ボーカル競合スコアを視覚化した情報の例を示す図である。図示された例では、Aデッキの楽曲の再生中に、ミキサーに読み込まれて再生待機中のBデッキの時間軸に対応付けて、Aデッキの楽曲とBデッキの楽曲と(上記の楽曲M1,M2)のミキシング適性を示す情報が表示されている。このような情報は、例えば楽曲解析装置100を実装するコンピュータのディスプレイに表示される。
図10には、ディスプレイに表示される情報のうち、ミキシング適性に関連する部分、具体的には波形表示501、ミキシング適性表示502および楽曲区間表示503が抽出して示されている。ここで、波形表示501、ミキシング適性表示502および楽曲区間表示503は、時系列で互いに同期して表示される。波形表示501は、Bデッキの楽曲の音声データから抽出された波形を示す。例えば、波形表示501は、楽曲のレベルを波形表示してもよいし、ボーカルスコア算出部130によって算出されたボーカルスコアを波形表示してもよい。
【0032】
ミキシング適性表示502は、Aデッキの楽曲の特定の区間と、Bデッキの楽曲の区間のそれぞれとの組み合わせについて算出されたボーカル競合スコアSc2を視覚化したミキシング適性の情報を色で表示する。連続した同程度のミキシング適性の区間は同じ色で連続して表示されるため、ミキシング適性表示502は帯状の表示になる。図示された例では、色の濃い表示502Aでミキシング適性が高い(
図9の例では「A」)ことが示され、中間色の表示502Bでミキシング適性が中程度(
図9の例では「B」)であることが示され、色の薄い表示502Cでミキシング適性が低い(
図9の例では「C」)ことが示される。
【0033】
ここで、ミキシング適性表示502の対象になるAデッキの楽曲の区間は、例えば現在のAデッキの楽曲の再生位置またはこの先の再生予定位置の区間である。従って、Aデッキの楽曲の再生の進行に伴ってミキシング適性表示502の対象になるAデッキの楽曲の区間が変化し、これによってミキシング適性表示502も変化する。例えば、Aデッキの楽曲の再生位置または再生予定位置の区間でボーカルスコアSc1が低い場合は、ミキシング適性が高いことを示す表示502Aの割合が高くなりうる。また、Aデッキの楽曲の再生位置または再生予定位置の区間でボーカルスコアSc1が高い場合は、ミキシング適性が低いことを示す表示502Cの割合が高くなりうる。
【0034】
楽曲区間表示503は、Bデッキの楽曲について、公知の楽曲解析手法、または音声データに関連付けて提供されるデータに基づいて特定される「イントロ」や「コーラス」などの楽曲区間を表示する。ミキシング適性表示502が波形表示501や楽曲区間表示503と時系列で同期して表示されることによって、情報を参照するDJなどのユーザーは、Bデッキの楽曲のどの部分がAデッキの楽曲とミキシング可能であるかを判断することができる。ミキシング可能であり、かつパフォーマンス上有効と判断される部分がない場合には、Bデッキの楽曲を再生せずに別の楽曲を読み込んでもよい。ミキシング適性が中程度であってもパフォーマンスの状況によってはミキシングを実行する場合があり得るため、OK/NGのようなフラグではなくスコアに基づく情報としてミキシング適性が表示されることは有効である。
【0035】
なお、他の実施形態において、ミキシング適性は、上述したようなボーカル競合スコアSc2だけではなく、例えば国際公開第2016/208002号に記載されたような他の要素にも基づいて統合的に判定されてもよい。この場合、ミキシング適性表示502にはボーカル競合スコアSc2が反映されているが、他の要素の影響によって必ずしもボーカル競合スコアSc2の大小とミキシング適性の高低とが一致しない場合がありうる。
【0036】
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はこれらの例に限定されない。本発明の属する技術の分野の当業者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
【符号の説明】
【0037】
100…楽曲解析装置、110…音声データ入力部、120…音声データ処理部、122…フィルタリング、130…ボーカルスコア算出部、140…ボーカル競合スコア算出部、150…表示制御部、501…波形表示、502…ミキシング適性表示、503…楽曲区間表示。