特許7512406 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ Ｐｉｏｎｅｅｒ　ＤＪ株式会社の特許一覧

特許7512406楽曲解析装置、楽曲解析方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A
5B
5C
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-28

(45)【発行日】2024-07-08

(54)【発明の名称】楽曲解析装置、楽曲解析方法およびプログラム

(51)【国際特許分類】

G10L 25/51 20130101AFI20240701BHJP

G10L 25/18 20130101ALI20240701BHJP

【ＦＩ】

G10L25/51 300

G10L25/18

【請求項の数】 10

(21)【出願番号】P 2022553382

(86)(22)【出願日】2020-10-01

(86)【国際出願番号】 JP2020037468

(87)【国際公開番号】W WO2022070392

(87)【国際公開日】2022-04-07

【審査請求日】2023-02-02

(73)【特許権者】

【識別番号】315017409

【氏名又は名称】ＡｌｐｈａＴｈｅｔａ株式会社

(74)【代理人】

【識別番号】110000637

【氏名又は名称】弁理士法人樹之下知的財産事務所

(72)【発明者】

【氏名】佐飛利尚

(72)【発明者】

【氏名】坂上敬

(72)【発明者】

【氏名】鈴木四郎

【審査官】大野弘

(56)【参考文献】

【文献】国際公開第２０１６／２０８０００（ＷＯ，Ａ１）

【文献】国際公開第２０１８／２０７９３６（ＷＯ，Ａ１）

【文献】特開２０１２－１０３６０３（ＪＰ，Ａ）

【文献】特開２００８－２４２２８７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ２５／００－２５／９３

(57)【特許請求の範囲】

【請求項1】

楽曲の音声データのボーカル音に対応する周波数帯域である第１の周波数帯域のレベルに基づいて、前記音声データのサンプリング区間ごとに、第１の楽曲と、前記第１の楽曲とは異なる第２の楽曲とを通じた前記第１の周波数帯域の最大レベルに対する、前記サンプリング区間における前記第１の周波数帯域のピークレベルの比率を使って導き出される第１のスコアを算出する第１のスコア算出部と、
前記第１の楽曲について算出された前記第１のスコアと、前記第２の楽曲について算出された前記第１のスコアとを、複数の前記サンプリング区間を含み前記第１の楽曲および前記第２の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、前記第１の楽曲および前記第２の楽曲の前記所定の区間の組み合わせについて、前記所定の区間での前記第１の楽曲と前記第２の楽曲とのミキシング適性を示すスコアである第２のスコアを算出する第２のスコア算出部と
を備える楽曲解析装置。

【請求項2】

前記第１のスコア算出部は、前記サンプリング区間におけるフォルマント周波数帯域のピークレベルにさらに基づいて前記第１のスコアを算出する、請求項１に記載の楽曲解析装置。

【請求項3】

前記所定の区間は、前記楽曲の拍または前記拍の１／ｎ（ｎは２以上の整数）の長さに対応する、請求項１または請求項２に記載の楽曲解析装置。

【請求項4】

前記第２のスコア算出部は、前記所定の区間の組み合わせについて、前記第１の楽曲の区間で前記第１のスコアが閾値を超える前記サンプリング区間の合計長さと、前記第２の楽曲の区間で前記第１のスコアが閾値を超える前記サンプリング区間の合計長さとの比率に基づいて前記第２のスコアを算出する、請求項１から請求項３のいずれか１項に記載の楽曲解析装置。

【請求項5】

前記第２のスコア算出部は、前記所定の区間の組み合わせについて、区間の始点を揃えたときに前記第１の楽曲および前記第２の楽曲の両方で前記第１のスコアが閾値を超える前記サンプリング区間の最大連続長さに基づいて前記第２のスコアを算出する、請求項１から請求項４のいずれか１項に記載の楽曲解析装置。

【請求項6】

前記第２のスコア算出部は、前記所定の区間の組み合わせについて、区間の始点を揃えたときに前記第１の楽曲および前記第２の楽曲で対応する前記サンプリング区間の前記第１のスコアを掛け合わせたものに基づいて前記第２のスコアを算出する、請求項１から請求項５のいずれか１項に記載の楽曲解析装置。

【請求項7】

前記第２のスコアに基づく情報を視覚化して表示させる表示制御部をさらに備える、請求項１から請求項６のいずれか１項に記載の楽曲解析装置。

【請求項8】

前記表示制御部は、前記第１の楽曲の再生中に、前記第１の楽曲の再生位置または再生予定位置にある前記所定の区間と、前記第２の楽曲の前記所定の区間のそれぞれとの組み合わせについて算出された前記第２のスコアが視覚化された情報を、前記第２の楽曲の時間軸に対応付けて表示させる、請求項７に記載の楽曲解析装置。

【請求項9】

楽曲の音声データのボーカル音に対応する周波数帯域である第１の周波数帯域のレベルに基づいて、前記音声データのサンプリング区間ごとに、第１の楽曲と、前記第１の楽曲とは異なる第２の楽曲とを通じた前記第１の周波数帯域の最大レベルに対する、前記サンプリング区間における前記第１の周波数帯域のピークレベルの比率を使って導き出される第１のスコアを算出するステップと、
前記第１の楽曲について算出された前記第１のスコアと、前記第２の楽曲について算出された前記第１のスコアとを、複数の前記サンプリング区間を含み前記第１の楽曲および前記第２の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、前記第１の楽曲および前記第２の楽曲の前記所定の区間の組み合わせについて、前記所定の区間での前記第１の楽曲と前記第２の楽曲とのミキシング適性を示すスコアである第２のスコアを算出するステップと
を含む楽曲解析方法。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、楽曲解析装置、楽曲解析方法およびプログラムに関する。

【背景技術】

【0002】

ＤＪパフォーマンスでは、先行曲から後続曲へのクロスフェードがよく用いられる。クロスフェードの間は、先行曲および後続曲がミキシングして再生されるため、それぞれの拍位置を一致させたり、不協和音を避けたりといった工夫が必要である。このような楽曲のミキシングを支援するための技術が、例えば特許文献１に記載されている。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０１６／２０８００２号

【発明の概要】

【発明が解決しようとする課題】

【0004】

ところで、上記の特許文献１に記載されたようなミキシングをするにあたって、多くの場合はそれぞれの楽曲のボーカル音が競合することも避けることが好ましい。しかしながら、このような点を考慮してミキシングを支援する技術は提供されていない。

【0005】

そこで、本発明は、所定の周波数帯域の音の検出結果に基づいて効果的にミキシングを支援することが可能な楽曲解析装置、楽曲解析方法およびプログラムを提供することを目的とする。

【課題を解決するための手段】

【0006】

［１］楽曲の音声データの第１の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第１のスコアを算出する第１のスコア算出部と、第１の楽曲について算出された第１のスコアと、第１の楽曲とは異なる第２の楽曲について算出された第１のスコアとを、複数のサンプリング区間を含み第１の楽曲および第２の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第１の楽曲および第２の楽曲の所定の区間の組み合わせについて第２のスコアを算出する第２のスコア算出部とを備える楽曲解析装置。
［２］第１の周波数帯域は、ボーカル音に対応する周波数帯域である、［１］に記載の楽曲解析装置。
［３］第１のスコア算出部は、第１の楽曲および第２の楽曲を通じた第１の周波数帯域の最大レベルに対する、サンプリング区間における第１の周波数帯域のピークレベルの比率に基づいて第１のスコアを算出する、［１］または［２］に記載の楽曲解析装置。
［４］第１のスコア算出部は、サンプリング区間におけるフォルマント周波数帯域のピークレベルにさらに基づいて第１のスコアを算出する、［１］から［３］のいずれか１項に記載の楽曲解析装置。
［５］所定の区間は、楽曲の拍または拍の１／ｎ（ｎは２以上の整数）の長さに対応する、［１］から［４］のいずれか１項に記載の楽曲解析装置。
［６］第２のスコア算出部は、所定の区間の組み合わせについて、第１の楽曲の区間で第１のスコアが閾値を超えるサンプリング区間の合計長さと、第２の楽曲の区間で第１のスコアが閾値を超えるサンプリング区間の合計長さとの比率に基づいて第２のスコアを算出する、［１］から［５］のいずれか１項に記載の楽曲解析装置。
［７］第２のスコア算出部は、所定の区間の組み合わせについて、区間の始点を揃えたときに第１の楽曲および第２の楽曲の両方で第１のスコアが閾値を超えるサンプリング区間の最大連続長さに基づいて第２のスコアを算出する、［１］から［６］のいずれか１項に記載の楽曲解析装置。
［８］第２のスコア算出部は、所定の区間の組み合わせについて、区間の始点を揃えたときに第１の楽曲および第２の楽曲で対応するサンプリング区間の第１のスコアを掛け合わせたものに基づいて第２のスコアを算出する、［１］から［７］のいずれか１項に記載の楽曲解析装置。
［９］第２のスコアに基づく情報を視覚化して表示させる表示制御部をさらに備える、［１］から［８］のいずれか１項に記載の楽曲解析装置。
［１０］表示制御部は、第１の楽曲の再生中に、第１の楽曲の再生位置または再生予定位置にある所定の区間と、第２の楽曲の所定の区間のそれぞれとの組み合わせについて算出された第２のスコアが視覚化された情報を、第２の楽曲の時間軸に対応付けて表示させる、［９］に記載の楽曲解析装置。
［１１］楽曲の音声データの第１の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第１のスコアを算出するステップと、第１の楽曲について算出された第１のスコアと、第１の楽曲とは異なる第２の楽曲について算出された第１のスコアとを、複数のサンプリング区間を含み第１の楽曲および第２の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第１の楽曲および第２の楽曲の所定の区間の組み合わせについて第２のスコアを算出するステップとを含む楽曲解析方法。
［１２］楽曲の音声データの第１の周波数帯域のレベルに基づいて、音声データのサンプリング区間ごとに第１のスコアを算出する第１のスコア算出部と、第１の楽曲について算出された第１のスコアと、第１の楽曲とは異なる第２の楽曲について算出された第１のスコアとを、複数のサンプリング区間を含み第１の楽曲および第２の楽曲について共通の長さで定義される所定の区間ごとに比較することによって、第１の楽曲および第２の楽曲の所定の区間の組み合わせについて第２のスコアを算出する第２のスコア算出部とを備える楽曲解析装置としてコンピュータを機能させるためのプログラム。

【0007】

上記の構成によれば、楽曲の音声データの第１の周波数帯域のレベルに基づいて算出される第１のスコアに基づいて、第１の楽曲および第２の楽曲の所定の区間の組み合わせについて第２のスコアが算出される。楽曲間で第１の周波数帯域の音が競合する可能性を第２のスコアとして表現することによって、効果的にミキシングを支援することができる。

【図面の簡単な説明】

【0008】

【図1】本発明の一実施形態に係る楽曲解析装置の概略的なブロック図である。

【図2】ボーカルスコアの算出方法について説明するための第１の図である。

【図3】ボーカルスコアの算出方法について説明するための第１の図である。

【図4】ボーカルスコアの算出方法について説明するための第２の図である。

【図5A】ボーカルスコアの算出方法について説明するための第２の図である。

【図5B】ボーカルスコアの算出方法について説明するための第２の図である。

【図5C】ボーカルスコアの算出方法について説明するための第２の図である。

【図6】ボーカル競合スコアの算出方法について概略的に説明するための図である。

【図7】ボーカル競合スコアの算出方法についてより具体的に説明するための図である。

【図8】ボーカル競合スコアの算出方法についてより具体的に説明するための図である。

【図9】ボーカル競合スコアに基づくミキシング適性の判定の例を示す図である。

【図10】ボーカル競合スコアを視覚化した情報の例を示す図である。

【発明を実施するための形態】

【0009】

以下に添付図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

【0010】

図１は、本発明の一実施形態に係る楽曲解析装置の概略的なブロック図である。図示された例において、楽曲解析装置１００は、音声データ入力部１１０と、ＦＦＴ（Fast Fourier Transform）１２１およびフィルタリング１２２を含む音声データ処理部１２０と、ボーカルスコア算出部１３０と、ボーカル競合スコア算出部１４０と、表示制御部１５０とを含む。楽曲解析装置１００は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、音声データ処理部１２０、ボーカルスコア算出部１３０、ボーカル競合スコア算出部１４０および表示制御部１５０の機能はプロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される。

【0011】

ここで、楽曲解析装置１００は、２つの楽曲をミキシングして再生するＤＪパフォーマンスのためのシステムに含まれる。このシステムでは、例えばミキサー（図示せず）の複数のチャンネルにそれぞれ異なる楽曲の音声データが入力される。この場合、楽曲解析装置１００は、ミキサーに楽曲が再生のために読み込まれるときにそれぞれの楽曲について以下のような解析を実行する。具体的には、ミキサーがＡデッキおよびＢデッキと呼ばれる２つのチャンネルを有する場合、楽曲解析装置１００はＡデッキおよびＢデッキのそれぞれの楽曲が読み込まれたときに音声データ処理部１２０における処理を実行し、両方の楽曲が読み込まれたときにボーカルスコア算出部１３０、ボーカル競合スコア算出部１４０および表示制御部１５０における処理を実行する。本明細書では、ＡデッキおよびＢデッキの楽曲をそれぞれ楽曲Ｍ１，Ｍ２ともいう。また、上記のように楽曲解析装置１００はＤＪパフォーマンスのためのシステムに含まれるため、楽曲Ｍ１，Ｍ２の再生状態、具体的には、それぞれの楽曲が再生中であるのか、再生待機中であるのかといったような情報が利用可能である。

【0012】

音声データ入力部１１０は、楽曲Ｍ１，Ｍ２の音声データの入力を受け付ける。音声データ処理部１２０は、楽曲Ｍ１，Ｍ２のそれぞれについて、音声データのサンプリング区間ごとにＦＦＴ１２１を実行して周波数ごとのレベルを算出する。ここで、サンプリング区間は、例えば音声データ処理部１２０がＦＦＴ１２１およびフィルタリング１２２以外の処理を実行する場合に、他の処理と共通で設定されてもよいし、ＦＦＴ１２１およびフィルタリング１２２について他の処理とは別に設定されてもよい。さらに、音声データ処理部１２０は、ＦＦＴ１２１の結果に対してフィルタリング１２２を実行する。フィルタリング１２２の種類は限定されないが、例えばＦＦＴ１２１の結果をスムージングして周波数帯域ごとのレベルのピークを検出しやすくするようなフィルタが例示される。なお、音声データ処理部１２０における処理は楽曲Ｍ１，Ｍ２の組み合わせが決まらなくても実行可能であるため、例えば楽曲解析装置１００とは異なる装置によって予め実行されていてもよい。

【0013】

図２および図３は、ボーカルスコアの算出方法について説明するための第１の図である。本実施形態において、ボーカルスコア算出部１３０は、楽曲Ｍ１，Ｍ２を通じたボーカル周波数帯域の最大レベルに対する、楽曲Ｍ１，Ｍ２のそれぞれのサンプリング区間におけるボーカル周波数帯域のピークレベルの比率に基づいてボーカルスコアを算出する。図２では、楽曲Ｍ１のサンプリング区間Ｍ１－１，Ｍ１－２，Ｍ１－３におけるボーカル周波数帯域における周波数ｆごとのレベルＬを示すグラフが示されている。この例では、楽曲Ｍ１のあるサンプリング区間におけるボーカル周波数帯域のピークレベルＬｐ_１－１が、楽曲Ｍ１，Ｍ２を通じたボーカル周波数帯域の最大レベルＬ_ｍａｘである。この場合、楽曲Ｍ１の他のサンプリング区間では、ボーカル周波数帯域のピークレベルＬｐ_１－２，Ｌｐ_１－３の最大レベルＬ_ｍａｘに対する比率Ｒ１_１－２，Ｒ１_１－３が算出される。具体的には、Ｒ１_１－２＝Ｌｐ_１－２／Ｌ_ｍａｘであり、Ｒ１_１－３＝Ｌｐ_１－３／Ｌ_ｍａｘである。なお、最大レベルＬ_ｍａｘが検出されたサンプリング区間における比率Ｒ１_１－１は１になる。

【0014】

一方、図３に示された例では、楽曲Ｍ２のサンプリング区間Ｍ２－１，Ｍ２－２，Ｍ２－３において、ボーカル周波数帯域のピークレベルＬｐ_２－１，Ｌｐ_２－２，Ｌｐ_２－３が検出され、それぞれのサンプリング区間において最大レベルＬ_ｍａｘに対する比率Ｒ１_２－１，Ｒ１_２－２，Ｒ１_２－３が算出される。具体的には、具体的には、Ｒ１_２－１＝Ｌｐ_２－１／Ｌ_ｍａｘであり、Ｒ１_２－２＝Ｌｐ_２－２／Ｌ_ｍａｘであり、Ｒ１_２－３＝Ｌｐ_２－３／Ｌ_ｍａｘである。

【0015】

このように、楽曲Ｍ１，Ｍ２を通じたボーカル周波数帯域の最大レベルに対する比率に基づいてボーカルスコアを算出することによって、後述するミキシング適性に楽曲ごとの全体的なレベルの差を反映させることができる。例えば、楽曲Ｍ２のボーカル周波数帯域のレベルが全体的に低く、どの区間であってもミキシングにあたってボーカル音の競合が起こりにくい場合、楽曲Ｍ１で検出されるボーカル周波数帯域の最大レベルＬ_ｍａｘに対する比率に基づいて算出される楽曲Ｍ２のボーカルスコアは全体的に低くなり、その結果として楽曲Ｍ１と楽曲Ｍ２との間では全体的にミキシング適性が高くなる。他の例において、例えば楽曲Ｍ１，Ｍ２のボーカル周波数帯域の最大レベルが同程度であることが前提になるような場合は、楽曲Ｍ１，Ｍ２のそれぞれのボーカル周波数帯域の最大レベルに対する比率に基づいてボーカルスコアが算出されてもよい。

【0016】

なお、ボーカル周波数帯域は、音声データの中でボーカル音に対応する周波数帯域であり、例えば１ｋＨｚ付近の周波数帯域であるが、この例には限定されない。ボーカル音に対応する周波数帯域は、例えば楽曲ジャンルや男声／女声の別などによって上記の例とは異なる帯域であってもよい。また、本実施形態ではボーカル音の検出結果に基づくボーカルスコアＳｃ１を利用してミキシング適性の判定に利用可能なボーカル競合スコアＳｃ２が算出されるが、他の実施形態ではボーカル音以外の検出結果に基づいてスコアＳｃ１が算出されてもよい。このような場合に楽曲の音声データの任意の周波数帯域（第１の周波数帯域）のレベルに基づいて算出されるスコアＳｃ１は、必ずしもボーカルスコアとは呼ばれなくてもよい。

【0017】

図４および図５は、ボーカルスコアの算出方法について説明するための第２の図である。本実施形態において、ボーカルスコア算出部１３０は、楽曲Ｍ１，Ｍ２のそれぞれのサンプリング区間におけるボーカル音のフォルマント周波数帯域のピークレベルにさらに基づいてボーカルスコアを算出する。例えば、ボーカルスコア算出部１３０は、ボーカル音の第１フォルマント周波数帯域ｆ１について設定される上限および下限の閾値Ｔｈ_Ｕ１，Ｔｈ_Ｌ１、およびボーカル音の第２フォルマント周波数帯域ｆ２について設定される上限および下限の閾値Ｔｈ_Ｕ２，Ｔｈ_Ｌ２と、それぞれのサンプリング区間における第１フォルマント周波数帯域のピークレベルＬｐ_ｆ１および第２フォルマント周波数帯域のピークレベルＬｐ_ｆ２に基づいて、以下のように第１および第２のフォルマントスコアＦ_１，Ｆ_２からフォルマントスコアＦ_ａｌｌ（０≦Ｆ_ａｌｌ≦１）を算出する。

【0018】

Ｌｐ_Ｆ１＜Ｔｈ_Ｌ１の場合、Ｆ_１＝０
Ｌｐ_Ｆ１＞Ｔｈ_Ｕ１の場合、Ｆ_１＝０．５
上記以外の場合、Ｆ_１＝０．５＊（Ｌｐ_Ｆ１－Ｔｈ_Ｌ１）／（Ｔｈ_Ｕ１－Ｔｈ_Ｌ１）
Ｌｐ_Ｆ２＜Ｔｈ_Ｌ２の場合、Ｆ_２＝０
Ｌｐ_Ｆ２＞Ｔｈ_Ｕ２の場合、Ｆ_２＝０．５
上記以外の場合、Ｆ_２＝０．５＊（Ｌｐ_Ｆ２－Ｔｈ_Ｌ２）／（Ｔｈ_Ｕ２－Ｔｈ_Ｌ２）
Ｆ_ａｌｌ＝Ｆ_１＋Ｆ_２

【0019】

このようにして算出されるフォルマントスコアＦ_ａｌｌは、例えば図４に示されるように、フィルタリング後のピークが第１フォルマント周波数帯域ｆ１および第２フォルマント周波数帯域ｆ２の両方で検出されるサンプリング区間で最も高くなり、図５Ａおよび図５Ｂに示されるようにピークが第１フォルマント周波数帯域ｆ１または第２フォルマント周波数帯域ｆ２のいずれか一方で検出されるサンプリング区間でやや高くなり、図５Ｃに示されるようにピークが第１フォルマント周波数帯域ｆ１でも第２フォルマント周波数帯域ｆ２でも検出されないサンプリング区間では低くなる。

【0020】

ここで、フォルマント周波数帯域は、特定の種類の音を他の音から区別させる周波数成分の帯域である。特定の種類の音について複数のフォルマント周波数帯域が存在する場合、周波数が低いものから順に第１フォルマント周波数帯域、第２フォルマント周波数帯域、・・・と呼ばれる。ボーカル音の場合、第１フォルマント周波数帯域として１５０Ｈｚ以上４５０Ｈｚ以下、第２フォルマント周波数帯域として５８０Ｈｚ以上１０００Ｈｚ以下が例示されるが、この例には限られない。また、他の実施形態では、ボーカル音以外のフォルマント周波数帯域のピークレベルに基づいてボーカルスコアが算出されてもよい。

【0021】

本実施形態において、ボーカルスコア算出部１３０は、図２および図３を参照して説明したようなボーカル周波数帯域の最大レベルに対するそれぞれのサンプリング区間のピークレベルの比率Ｒ１と、図４および図５を参照して説明したようなフォルマント周波数帯域のピークレベルに基づくフォルマントスコアＦ_ａｌｌとの両方に基づいて、例えば以下のようにそれぞれのサンプリング区間についてボーカルスコアＳｃ１を算出する。ここで、比率Ｒ１およびフォルマントスコアＦ_ａｌｌはいずれも０以上１以下の値をとるため、ボーカルスコアＳｃ１も０以上１以下の範囲で正規化された値になる。
Ｓｃ１＝Ｒ１＊Ｆ_ａｌｌ

【0022】

図６は、ボーカル競合スコアの算出方法について概略的に説明するための図である。本実施形態において、ボーカル競合スコア算出部１４０は、楽曲Ｍ１，Ｍ２について共通の長さで定義される所定の区間ＳｇごとのボーカルスコアＳｃ１に基づいてボーカル競合スコアを算出する。ここで、所定の区間は図６において区間Ｓｇ_１－１、Ｓｇ_１－２、Ｓｇ_１－３、Ｓｇ_２－１、Ｓｇ_２－２、Ｓｇ_２－３、・・・として図示されている。これらの区間Ｓｇはそれぞれが複数のサンプリング区間を含み、例えば楽曲の拍または拍の１／ｎ（ｎは２以上の整数）を単位とする長さを有する。区間Ｓｇの長さは１拍よりも長くてもよく、例えば小節単位であってもよい。この場合、１小節、４小節、８小節などの長さが例示される。ボーカルスコアＳｃ１はサンプリング区間ごとに算出される離散値であるが、区間Ｓｇに対してサンプリング区間が短いため図示されているように連続値として扱うことができる。以下で説明する例のように、ボーカル競合スコア算出部１４０は、ボーカルスコアＳｃ１の値を閾値ＴＨと比較する。図示された例の場合、区間Ｓｇ_１－１と区間Ｓｇ_２－１、Ｓｇ_２－２、Ｓｇ_２－３のそれぞれとの組み合わせについてボーカル競合スコアが算出され、区間Ｓｇ_１－２と区間Ｓｇ_２－１、Ｓｇ_２－２、Ｓｇ_２－３のそれぞれとの組み合わせについてボーカル競合スコアが算出され、以下同様にして楽曲Ｍ１と楽曲Ｍ２とのすべての区間の組み合わせについてボーカル競合スコアが算出される。

【0023】

図７および図８は、ボーカル競合スコアの算出方法についてより具体的に説明するための図である。図７には、図６に示された例における楽曲Ｍ１の区間Ｓｇ_１－１と楽曲Ｍ２の区間Ｓｇ_２－１との組み合わせについてボーカル競合スコアを算出する例が示されている。区間Ｓｇ_１－１および区間Ｓｇ_２－１の長さは同じである。ボーカル競合スコア算出部１４０は、楽曲Ｍ１の区間Ｓｇ_１－１でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の合計長さと、楽曲Ｍ２の区間Ｓｇ_２－１でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の合計長さとの比率Ｒ２に基づいてボーカル競合スコアを算出する。区間Ｓｇ_１－１では長さＬ１の全区間でボーカルスコアＳｃ１が閾値ＴＨを超えており、区間Ｓｇ_２－１では長さＬ２の一部の区間のみでボーカルスコアＳｃ１が閾値ＴＨを超えている。この場合、比率Ｒ２＝Ｌ２／Ｌ１で算出される。

【0024】

さらに、図７の例において、ボーカル競合スコア算出部１４０は、楽曲Ｍ１の区間Ｓｇ_１－１および楽曲Ｍ２の区間Ｓｇ_２－１の始点を揃えたときに、楽曲Ｍ１，Ｍ２の両方でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の最大連続長さＬ_ｂｏｔｈに基づいてボーカル競合スコアを算出する。上述のように、区間Ｓｇ_１－１では長さＬ１の全区間でボーカルスコアＳｃ１が閾値ＴＨを超えており、区間Ｓｇ_２－１では長さＬ２の一部の区間のみでボーカルスコアＳｃ１が閾値ＴＨを超えているため、両方の楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の最大連続長さＬ_ｂｏｔｈ＝Ｌ２になる。

【0025】

一方、図８には、図６に示された例における楽曲Ｍ１の区間Ｓｇ_１－３と楽曲Ｍ２の区間Ｓｇ_２－３との組み合わせについてボーカル競合スコアを算出する例が示されている。区間Ｓｇ_１－３および区間Ｓｇ_２－３の長さも同じである。ボーカル競合スコア算出部１４０は、上記の図７の例と同様にボーカル競合スコアを算出する。具体的には、区間Ｓｇ_１－３では長さＬ１の全区間でボーカルスコアＳｃ１が閾値ＴＨを超えており、区間Ｓｇ_２－３では長さＬ３，Ｌ４の不連続な２つの区間でボーカルスコアＳｃ１が閾値ＴＨを超えている。この場合、比率Ｒ２＝（Ｌ３＋Ｌ４）／Ｌ１で算出される。一方、両方の楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の最大連続長さＬ_ｂｏｔｈについては、区間Ｓｇ_２－３でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の長さがＬ３＜Ｌ４であるため、最大連続長さＬ_ｂｏｔｈ＝Ｌ４になる。

【0026】

本実施形態において、ボーカル競合スコア算出部１４０は、図７および図８を参照して説明したような、それぞれの楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の合計長さの比率Ｒ２と、楽曲の始点を揃えたときに両方の楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の最大連続長さＬ_ｂｏｔｈとの両方に基づいて、例えば以下のように楽曲の区間の組み合わせについてボーカル競合スコアＳｃ２を算出する。この例では、比率Ｒ２と最大連続長さＬ_ｂｏｔｈとが乗算され、さらに区間の始点を揃えたときに楽曲Ｍ１，Ｍ２で対応するサンプリング区間のボーカルスコアＳｃを掛け合わせたものの平均が乗算される。ここで、Ｓｃ_１－ｉおよびＳｃ_２－ｉはそれぞれ楽曲Ｍ１，Ｍ２の対象区間内でｉ番目のサンプリング区間のボーカルスコアを意味し、ｍは対象区間内にあるサンプリング区間の数である。

【0027】

【数1】

【0028】

上記の例の場合、ボーカル競合スコアＳｃ２が小さいほど、当該区間の組み合わせで楽曲Ｍ１と楽曲Ｍ２とのボーカル音が競合する状況が発生せず、クロスフェードなどによるミキシングに対して適性があることが示される。なお、上述したように他の実施形態ではボーカル音以外の検出結果に基づいてスコアＳｃ１を算出することも可能である。このような場合、楽曲の区間の組み合わせについてスコアＳｃ１に基づいて算出されるスコアＳｃ２は、必ずしもボーカル競合スコアとは呼ばれなくてもよい。

【0029】

本実施形態では、両方の楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の最大連続長さＬ_ｂｏｔｈをボーカル競合スコアＳｃ２に反映させることによって、２つの楽曲の区間をミキシングした場合にそれぞれの楽曲で連続的に聴取されるボーカル音による競合状態を、ボーカル競合スコアＳｃ２を参照することによって避けることができる。また、本実施形態では、それぞれの楽曲でボーカルスコアＳｃ１が閾値ＴＨを超えるサンプリング区間の合計長さの比率Ｒ２をボーカル競合スコアＳｃ２に反映させることによって、２つの楽曲の区間をミキシングした場合にどちらの楽曲でも同じ程度の時間割合で断続的に聴取されるボーカル音による競合状態を、ボーカル競合スコアＳｃ２を参照することによって避けることができる。さらに、本実施形態では、２つの楽曲で対応するサンプリング区間のボーカルスコアＳｃ１を掛け合わせたものをボーカル競合スコアＳｃ２に反映させることによって、ボーカルスコアＳｃ１によって示されるボーカル音の度合いが大きい場合と小さい場合とで、ミキシングに対する適性が異なることを表現することができる。

【0030】

図９は、ボーカル競合スコアに基づくミキシング適性の判定の例を示す図である。図９に示された例では、楽曲Ｍ１と楽曲Ｍ２とが同期して再生される前提で、それぞれの楽曲で対応する区間のミキシング適性が「Ａ」、「Ｂ」および「Ｃ」の３段階で判定されている。区間Ｓｇ１では、楽曲Ｍ１，Ｍ２の両方でボーカルスコアＳｃ１が連続的に閾値を超えて高いため、ボーカル競合スコアＳｃ２は最も高くなり、ミキシング適性は最も低い「Ｃ」になる。区間Ｓｇ２では、楽曲Ｍ２のボーカルスコアＳｃ１が高いのが短い一部の区間のみであるためボーカル競合スコアＳｃ２は相対的に低くなり、ミキシング適性は中程度の「Ｂ」になる。区間Ｓｇ３では、楽曲Ｍ２のボーカルスコアＳｃ１が連続的に閾値を超えるが、区間Ｓｇ１，Ｓｇ２に比べるとボーカルスコアＳｃ１の値が低いためボーカル競合スコアＳｃ２は相対的に低くなり、ミキシング適性は区間Ｓｇ２と同じ「Ｂ」になる。一方、区間Ｓｇ４では、楽曲Ｍ２のボーカルスコアＳｃ１が閾値を超えるのが短い一部の区間のみであり、かつボーカルスコアＳｃ１の値が低いためボーカル競合スコアＳｃ２はさらに低くなり、ミキシング適性は最も高い「Ａ」になる。区間Ｓｃ５では、楽曲Ｍ１のボーカルスコアＳｃ１が閾値を超えないため、楽曲Ｍ２のボーカルスコアＳｃ１が高くてもボーカル競合スコアＳｃ２は低く、ミキシング適性は「Ａ」になる。

【0031】

図１０は、ボーカル競合スコアを視覚化した情報の例を示す図である。図示された例では、Ａデッキの楽曲の再生中に、ミキサーに読み込まれて再生待機中のＢデッキの時間軸に対応付けて、Ａデッキの楽曲とＢデッキの楽曲と（上記の楽曲Ｍ１，Ｍ２）のミキシング適性を示す情報が表示されている。このような情報は、例えば楽曲解析装置１００を実装するコンピュータのディスプレイに表示される。図１０には、ディスプレイに表示される情報のうち、ミキシング適性に関連する部分、具体的には波形表示５０１、ミキシング適性表示５０２および楽曲区間表示５０３が抽出して示されている。ここで、波形表示５０１、ミキシング適性表示５０２および楽曲区間表示５０３は、時系列で互いに同期して表示される。波形表示５０１は、Ｂデッキの楽曲の音声データから抽出された波形を示す。例えば、波形表示５０１は、楽曲のレベルを波形表示してもよいし、ボーカルスコア算出部１３０によって算出されたボーカルスコアを波形表示してもよい。

【0032】

ミキシング適性表示５０２は、Ａデッキの楽曲の特定の区間と、Ｂデッキの楽曲の区間のそれぞれとの組み合わせについて算出されたボーカル競合スコアＳｃ２を視覚化したミキシング適性の情報を色で表示する。連続した同程度のミキシング適性の区間は同じ色で連続して表示されるため、ミキシング適性表示５０２は帯状の表示になる。図示された例では、色の濃い表示５０２Ａでミキシング適性が高い（図９の例では「Ａ」）ことが示され、中間色の表示５０２Ｂでミキシング適性が中程度（図９の例では「Ｂ」）であることが示され、色の薄い表示５０２Ｃでミキシング適性が低い（図９の例では「Ｃ」）ことが示される。

【0033】

ここで、ミキシング適性表示５０２の対象になるＡデッキの楽曲の区間は、例えば現在のＡデッキの楽曲の再生位置またはこの先の再生予定位置の区間である。従って、Ａデッキの楽曲の再生の進行に伴ってミキシング適性表示５０２の対象になるＡデッキの楽曲の区間が変化し、これによってミキシング適性表示５０２も変化する。例えば、Ａデッキの楽曲の再生位置または再生予定位置の区間でボーカルスコアＳｃ１が低い場合は、ミキシング適性が高いことを示す表示５０２Ａの割合が高くなりうる。また、Ａデッキの楽曲の再生位置または再生予定位置の区間でボーカルスコアＳｃ１が高い場合は、ミキシング適性が低いことを示す表示５０２Ｃの割合が高くなりうる。

【0034】

楽曲区間表示５０３は、Ｂデッキの楽曲について、公知の楽曲解析手法、または音声データに関連付けて提供されるデータに基づいて特定される「イントロ」や「コーラス」などの楽曲区間を表示する。ミキシング適性表示５０２が波形表示５０１や楽曲区間表示５０３と時系列で同期して表示されることによって、情報を参照するＤＪなどのユーザーは、Ｂデッキの楽曲のどの部分がＡデッキの楽曲とミキシング可能であるかを判断することができる。ミキシング可能であり、かつパフォーマンス上有効と判断される部分がない場合には、Ｂデッキの楽曲を再生せずに別の楽曲を読み込んでもよい。ミキシング適性が中程度であってもパフォーマンスの状況によってはミキシングを実行する場合があり得るため、ＯＫ／ＮＧのようなフラグではなくスコアに基づく情報としてミキシング適性が表示されることは有効である。

【0035】

なお、他の実施形態において、ミキシング適性は、上述したようなボーカル競合スコアＳｃ２だけではなく、例えば国際公開第２０１６／２０８００２号に記載されたような他の要素にも基づいて統合的に判定されてもよい。この場合、ミキシング適性表示５０２にはボーカル競合スコアＳｃ２が反映されているが、他の要素の影響によって必ずしもボーカル競合スコアＳｃ２の大小とミキシング適性の高低とが一致しない場合がありうる。

【0036】

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はこれらの例に限定されない。本発明の属する技術の分野の当業者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

【符号の説明】

【0037】

１００…楽曲解析装置、１１０…音声データ入力部、１２０…音声データ処理部、１２２…フィルタリング、１３０…ボーカルスコア算出部、１４０…ボーカル競合スコア算出部、１５０…表示制御部、５０１…波形表示、５０２…ミキシング適性表示、５０３…楽曲区間表示。

【図1】