特許6179140 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6179140音響信号分析装置及び音響信号分析プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6179140

(24)【登録日】2017年7月28日

(45)【発行日】2017年8月16日

(54)【発明の名称】音響信号分析装置及び音響信号分析プログラム

(51)【国際特許分類】

G10G 3/04 20060101AFI20170807BHJP

G10L 25/51 20130101ALI20170807BHJP

【ＦＩ】

G10G3/04

G10L25/51 300

【請求項の数】5

【全頁数】24

(21)【出願番号】特願2013-51159(P2013-51159)

(22)【出願日】2013年3月14日

(65)【公開番号】特開2014-178395(P2014-178395A)

(43)【公開日】2014年9月25日

【審査請求日】2016年1月20日

(73)【特許権者】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000213

【氏名又は名称】特許業務法人プロスペック特許事務所

(74)【代理人】

【識別番号】100168756

【弁理士】

【氏名又は名称】日比野元彦

(72)【発明者】

【氏名】前澤陽

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１０−０２６５１２（ＪＰ，Ａ）

【文献】特開２０１０−１２２６２９（ＪＰ，Ａ）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｇ３／０４

Ｇ１０Ｌ２５／５１

(57)【特許請求の範囲】

【請求項1】

楽曲を表わす音響信号を入力する音響信号入力手段と、
前記入力した音響信号を用いて、前記楽曲における各区間のテンポをそれぞれ検出するテンポ検出手段と、
前記テンポの安定性を判定する判定手段と、
所定の制御対象を、前記判定手段による判定結果に応じて制御する制御手段と、
を備え、
前記テンポ検出手段は、
拍の存在に関する特徴を表わす第１特徴量及びテンポに関する特徴を表わす第２特徴量を前記楽曲における区間ごとに計算する特徴量計算手段と、
前記各区間における拍の存在に関する物理量及びテンポに関する物理量の組み合わせにより分類された状態の系列として記述された複数の確率モデルのうち、前記第１特徴量及び前記第２特徴量が前記各区間において同時に観測される確率を表わす観測尤度の系列が所定の基準を満たす確率モデルを選択することにより、前記楽曲における拍点及びテンポの推移を同時に推定する推定手段と、
を備えたことを特徴とする音響信号分析装置。

【請求項2】

請求項１に記載の音響信号分析装置において、
前記判定手段は、複数の区間におけるテンポの変化量が所定の範囲内にあるとき、テンポが安定していると判定し、前記複数の区間におけるテンポの変化量が前記所定の範囲外にあるとき、テンポが不安定であると判定することを特徴とする音響信号分析装置。

【請求項3】

請求項１に記載の音響信号分析装置において、
前記判定手段は、前記楽曲の先頭から前記各区間までの前記第１特徴量及び前記第２特徴量をそれぞれ観測したときに前記各区間における各状態の尤度が前記所定の基準を満たす前記状態の系列を選択した場合の前記各区間の各状態の尤度をそれぞれ計算し、前記計算した各区間における各状態の尤度の分布に基づいて、前記各区間におけるテンポの安定性を判定することを特徴とする音響信号分析装置。

【請求項4】

請求項１乃至３のうちのいずれか１つに記載の音響信号分析装置において、
前記制御手段は、テンポが安定している区間において前記制御対象を所定の第１の態様で動作させ、テンポが不安定である区間において前記制御対象を所定の第２の態様で動作させることを特徴とする音響信号分析装置。

【請求項5】

コンピュータに、
楽曲を表わす音響信号を入力する音響信号入力ステップと、
前記入力した音響信号を用いて、前記楽曲における各区間のテンポをそれぞれ検出するテンポ検出ステップと、
前記テンポの安定性を判定する判定ステップと、
所定の制御対象を、前記判定手段による判定結果に応じて制御する制御ステップと、
を実行させることを特徴とする音響信号分析プログラムであって、
前記テンポ検出ステップは、
拍の存在に関する特徴を表わす第１特徴量及びテンポに関する特徴を表わす第２特徴量を前記楽曲における区間ごとに計算する特徴量計算ステップと、
前記各区間における拍の存在に関する物理量及びテンポに関する物理量の組み合わせにより分類された状態の系列として記述された複数の確率モデルのうち、前記第１特徴量及び前記第２特徴量が前記各区間において同時に観測される確率を表わす観測尤度の系列が所定の基準を満たす確率モデルを選択することにより、前記楽曲における拍点及びテンポの推移を同時に推定する推定ステップと、を含む音響信号分析プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、楽曲を表わす音響信号を分析して、楽曲における拍点（拍のタイミング）及びテンポを検出し、前記検出した拍点及びテンポに同期するように所定の制御対象を動作させる音響信号分析装置に関する。

【背景技術】

【0002】

従来から、例えば、下記非特許文献１に示されているように、楽曲のテンポを検出し、前記検出した拍点及びテンポに同期するように所定の制御対象を動作させる音響信号分析装置は知られている。

【先行技術文献】

【非特許文献】

【0003】

【非特許文献1】「ＪｏｕｒｎａｌｏｆＮｅｗＭｕｓｉｃＲｅｓｅｒｃｈ」、２００１年、Ｖｏｌ３０、Ｎｏ．２、ｐ．１５９−１７１

【発明の概要】

【0004】

上記非特許文献１の音響信号分析装置は、テンポがほぼ一定の楽曲を対象としており、テンポが途中で大きく変化する楽曲の場合には、テンポが変化する時間帯における拍点及びテンポを正しく検出することが困難である。そのため、テンポが変化する時間帯において、制御対象の動作が不自然になる。

【0005】

本発明は上記問題に対処するためになされたもので、その目的は、楽曲における拍点及びテンポを検出し、前記検出した拍点及びテンポに同期するように制御対象を動作させる音響信号分析装置であって、テンポが変化する時間帯に制御対象の動作が不自然になることを防止できる音響信号分析装置を提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。

【0006】

上記目的を達成するために、本発明の特徴は、楽曲を表わす音響信号を入力する音響信号入力手段（Ｓ１３、Ｓ１２０）と、前記入力した音響信号を用いて、前記楽曲における各区間のテンポをそれぞれ検出するテンポ検出手段（Ｓ１５、Ｓ１８０）と、前記テンポの安定性を判定する判定手段（Ｓ１７、Ｓ２３４）と、所定の制御対象（ＥＸＴ、１６）を、前記判定手段による判定結果に応じて制御する制御手段（Ｓ１８、Ｓ１９、Ｓ２３５、Ｓ２３６）と、を備え、テンポ検出手段は、拍の存在に関する特徴を表わす第１特徴量（ＸＯ）及びテンポに関する特徴を表わす第２特徴量（ＸＢ）を前記楽曲における区間ごとに計算する特徴量計算手段（Ｓ１６５、Ｓ１６７）と、前記各区間における拍の存在に関する物理量（ｎ）及びテンポに関する物理量（ｂ）の組み合わせにより分類された状態（ｑ_ｂ，ｎ）の系列として記述された複数の確率モデルのうち、第１特徴量及び第２特徴量が前記各区間において同時に観測される確率を表わす観測尤度（Ｌ）の系列が所定の基準を満たす確率モデルを選択することにより、前記楽曲における拍点及びテンポの推移を同時に推定する推定手段（Ｓ１７０、Ｓ１８０）と、を備えたことにある。

【0007】

この場合、判定手段（Ｓ１７）は、複数の区間におけるテンポの変化量が所定の範囲内にあるとき、テンポが安定していると判定し、前記複数の区間におけるテンポの変化量が前記所定の範囲外にあるとき、テンポが不安定であると判定するとよい。

【0008】

また、この場合、制御手段は、テンポが安定している区間において制御対象を所定の第１の態様（Ｓ１８、Ｓ２３５）で動作させ、テンポが不安定である区間において前記制御対象を所定の第２の態様（Ｓ１９、Ｓ２３６）で動作させるとよい。

【0009】

上記のように構成した音響信号分析装置によれば、楽曲のテンポの安定性が判定され、その結果に応じて制御対象が制御される。したがって、テンポが不安定である区間で楽曲のリズムと制御対象の動作が合致しないという事態を回避できる。これにより、制御対象の動作が不自然に感じられることを防止できる。

【0011】

また、拍の存在に関する特徴を表わす第１特徴量及びテンポに関する特徴を表わす第２特徴量を用いて計算された観測尤度の系列が所定の基準を満たす確率モデル（最も尤もらしい確率モデル、事後分布が最大となる確率モデルなど）が選択され、楽曲における拍点及びテンポの推移が同時に推定される。したがって、楽曲における拍点を計算し、その計算結果を用いてテンポを計算する場合に比べて、テンポの推定精度を向上させることができる。

【0012】

また、本発明の他の特徴は、判定手段は、楽曲の先頭から各区間までの第１特徴量及び第２特徴量をそれぞれ観測したときに前記各区間における各状態の尤度が前記所定の基準を満たす前記状態の系列を選択した場合の前記各区間の各状態の尤度（Ｃ）をそれぞれ計算し、前記計算した各区間における各状態の尤度の分布に基づいて、前記各区間におけるテンポの安定性を判定することにある。

【0013】

各区間における各状態の尤度の分布の分散が小さければ、そのテンポの値の信頼性が高く、テンポが安定していると考えられる。一方、各区間における各状態の尤度の分布の分散が大きければ、そのテンポの値の信頼性が低く、テンポが不安定であると考えられる。本発明によれば、各状態の尤度の分布に基づいて制御対象が制御されるので、テンポが不安定であるとき、楽曲のリズムと制御対象の動作が合致しないという事態を回避できる。これにより、制御対象の動作が不自然に感じられることを防止できる。

【0014】

さらに、本発明の実施にあたっては、音響信号分析装置の発明に限定されることなく、同装置に適用されるコンピュータプログラムの発明としても実施し得るものである。

【図面の簡単な説明】

【0015】

【図1】本発明の第１及び第２実施形態に係る音響信号分析装置の全体構成を示すブロック図である。

【図2】本発明の第１実施形態に係る音響信号分析プログラムのフローチャートである。

【図3】テンポ安定性判定プログラムを表すフローチャートである。

【図4】確率モデルの概念図である。

【図5】本発明の第２実施形態に係る音響信号分析プログラムを表わすフローチャートである。

【図6】特徴量計算プログラムを表わすフローチャートである。

【図7】分析対象の音響信号の波形を表わすグラフである。

【図8】１つのフレームを短時間フーリエ変換した音響スペクトル図である。

【図9】バンドパスフィルタの特性図である。

【図10】各周波数帯域の振幅の時間変化を示すグラフである。

【図11】オンセット特徴量の時間変化を示すグラフである。

【図12】コムフィルタのブロック図である。

【図13】ＢＰＭ特徴量の計算結果を示すグラフである。

【図14】対数観測尤度計算プログラムを表わすフローチャートである。

【図15】オンセット特徴量の観測尤度の計算結果を示す表である。

【図16】テンプレートの構成を示す表である。

【図17】ＢＰＭ特徴量の観測尤度の計算結果を示す表である。

【図18】拍・テンポ同時推定プログラムを表わすフローチャート

【図19】対数観測尤度の計算結果を示す表である。

【図20】先頭のフレームから各フレームまでオンセット特徴量及びＢＰＭ特徴量を観測したときに前記各フレームの各状態の尤度が最大となるような状態の系列を選択した場合の前記各状態の尤度の計算結果を示す表である。

【図21】遷移元の状態の計算結果を示す表である。

【図22】ＢＰＭらしさ、ＢＰＭらしさの平均及びＢＰＭらしさの分散の計算結果の一例を示す表である。

【図23】拍・テンポ情報リストの概略を示す概略図である。

【図24】テンポの推移を示すグラフである。

【図25】拍点を示すグラフである。

【図26】オンセット特徴量、拍点及びＢＰＭらしさの分散の推移を示すグラフである。

【図27】再生・制御プログラムを表すフローチャートである。

【発明を実施するための形態】

【0016】

（第１実施形態）
本発明の第１実施形態に係る音響信号分析装置１０について説明する。音響信号分析装置１０は、以下説明するように、楽曲を表わす音響信号を入力して、その楽曲のテンポを検出するとともに、前記検出したテンポに同期するように所定の制御対象（外部機器ＥＸＴ、内蔵された演奏装置など）を動作させる。音響信号分析装置１０は、図１に示すように、入力操作子１１、コンピュータ部１２、表示器１３、記憶装置１４、外部インターフェース回路１５及びサウンドシステム１６を備えており、これらがバスＢＳを介して接続されている。

【0017】

入力操作子１１は、オン・オフ操作に対応したスイッチ（例えば数値を入力するためのテンキー）、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、分析対象の楽曲の選択、音響信号の分析開始又は停止、楽曲の再生又は停止（後述するサウンドシステム１６からの出力又は停止）、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子１１が操作されると、その操作内容を表す操作情報が、バスＢＳを介して、後述するコンピュータ部１２に供給される。

【0018】

コンピュータ部１２は、バスＢＳにそれぞれ接続されたＣＰＵ１２ａ、ＲＯＭ１２ｂ及びＲＡＭ１２ｃからなる。ＣＰＵ１２ａは、詳しくは後述する音響信号分析プログラム及びそのサブルーチンをＲＯＭ１２ｂから読み出して実行する。ＲＯＭ１２ｂには、音響信号分析プログラム及びそのサブルーチンに加えて、初期設定パラメータ、表示器１３に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。ＲＡＭ１２ｃには、音響信号分析プログラムの実行時に必要なデータが一時的に記憶される。

【0019】

表示器１３は、液晶ディスプレイ（ＬＣＤ）によって構成される。コンピュータ部１２は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器１３に供給する。表示器１３は、コンピュータ部１２から供給された表示データに基づいて画像を表示する。例えば分析対象の楽曲の選択時には、楽曲のタイトルリストが表示される。

【0020】

また、記憶装置１４は、ＨＤＤ、ＦＤＤ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置１４には、複数の楽曲をそれぞれ表わす複数の楽曲データが記憶されている。楽曲データは、楽曲を所定のサンプリング周期（例えば４４．１ｋＨｚ）でサンプリングして得られた複数のサンプル値からなり、各サンプル値が記憶装置１４における連続するアドレスに順に記録されている。楽曲のタイトルを表わすタイトル情報、楽曲データの容量を表わすデータサイズ情報なども楽曲データに含まれている。楽曲データは予め記憶装置１４に記憶されていてもよいし、後述する外部インターフェース回路１５を介して外部から取り込んでもよい。記憶装置１４に記憶されている楽曲データは、ＣＰＵ１２ａによって読み込まれ、楽曲における拍点及びテンポの推移が分析される。

【0021】

外部インターフェース回路１５は、音響信号分析装置１０を電子音楽装置、パーソナルコンピュータ、照明装置などの外部機器ＥＸＴに接続可能とする接続端子を備えている。音響信号分析装置１０は、外部インターフェース回路１５を介して、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどの通信ネットワークにも接続可能である。

【0022】

サウンドシステム１６は、楽曲データをアナログ音信号に変換するＤ／Ａ変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力する左右一対のスピーカを備えている。サウンドシステム１６は、楽曲の楽音にエフェクト（音響的効果）を付与するエフェクト装置も備えている。楽音に付与される効果の種類、その効果の強度などは、ＣＰＵ１２ａによって制御される。

【0023】

つぎに、上記のように構成した音響信号分析装置１０の第１実施形態における動作について説明する。ユーザが音響信号分析装置１０の図示しない電源スイッチをオンにすると、ＣＰＵ１２ａは、図２に示す音響信号分析プログラムをＲＯＭ１２ｂから読み出して実行する。

【0024】

ＣＰＵ１２ａは、ステップＳ１０にて音響信号分析処理を開始し、ステップＳ１１にて、記憶装置１４に記憶されている複数の楽曲データにそれぞれ含まれるタイトル情報を読み込んで、楽曲のタイトルをリスト形式で表示器１３に表示する。ユーザは、入力操作子１１を用いて、表示器１３に表示された楽曲の中から分析対象の楽曲データを選択する。なお、ステップＳ１１にて分析対象の楽曲データを選択する際、選択しようとする楽曲データが表す楽曲の一部又は全部を再生して楽曲データの内容を確認できるように構成してもよい。

【0025】

つぎに、ＣＰＵ１２ａは、ステップＳ１２にて、音響信号分析のための初期設定を実行する。具体的には、分析対象の楽曲データの一部を読み込む記憶領域、前記楽曲データのうちの読み込み開始アドレスを表す読み込み開始ポインタＲＰ、検出したテンポの値を一時的に記憶しておくテンポ値バッファＢＦ１〜ＢＦ４、テンポの安定性（テンポが変化しているか否か）を表す安定性フラグＳＦなどの記憶領域をＲＡＭ１２ｃ内にそれぞれ確保する。そして、前記確保した記憶領域に所定の値を初期値として書き込む。例えば、読み込み開始ポインタＲＰの値を楽曲の先頭を表す「０」に設定する。また、安定性フラグＳＦの値を、テンポが安定していることを表す「１」に設定する。

【0026】

つぎに、ＣＰＵ１２ａは、ステップＳ１３にて、読み込み開始ポインタＲＰで示されるアドレスを先頭として時系列的に連続する所定数（例えば、２５６個）のサンプル値をＲＡＭ１２ｃに読み込み、読み込み開始ポインタＲＰを前記所定数に相当するアドレス分だけ進める。つぎに、ＣＰＵ１２ａは、ステップＳ１４にて、前記読み込んだサンプル値をサウンドシステム１６に送信する。サウンドシステム１６は、ＣＰＵ１２ａから受信したサンプル値をサンプリング周期の逆数で表される時間間隔で、それらの時系列順にアナログ信号に変換するとともに増幅し、スピーカから放音する。後述するように、ステップＳ１３乃至ステップＳ２０からなる一連の処理が繰り返し実行される。したがって、ステップＳ１３が実行されるごとに前記所定数分のサンプル値が楽曲の先頭側から末尾側へ向かって順に読み込まれる。そして、前記読み込まれた前記所定数分のサンプル値に相当する楽曲の区間（以下、単位区間と言う）がステップＳ１４にて再生される。これにより、楽曲がその先頭から末尾まで滞りなく再生される。

【0027】

つぎに、ＣＰＵ１２ａは、ステップＳ１５にて、上記非特許文献１に記載と同様の計算手順で、前記読み込んだ所定数のサンプル値から構成される単位区間又は前記単位区間を含む区間における拍点及びテンポ（１分間あたりの拍の数（ＢＰＭ））を計算する。つぎに、ＣＰＵ１２ａは、ステップＳ１６にて、図３に示すテンポ安定性判定プログラムをＲＯＭ１２ｂから読み出して実行する。テンポ安定性判定プログラムは、音響信号分析プログラムのサブルーチンである。

【0028】

ＣＰＵ１２ａは、ステップＳ１６ａにてテンポ安定性判定処理を開始する。ＣＰＵ１２ａは、ステップＳ１６ｂにて、テンポ値バッファＢＦ２〜ＢＦ４にそれぞれ記憶されている値をテンポ値バッファＢＦ１〜ＢＦ３にそれぞれ書き込み、前記ステップＳ１５にて計算したテンポの値をテンポ値バッファＢＦ４に書き込む。後述するように、ステップＳ１３乃至ステップＳ２０は繰り返し実行されるので、テンポ値バッファＢＦ１〜ＢＦ４には、連続する４つの単位区間のテンポ値がそれぞれ記憶されている。したがって、テンポ値バッファＢＦ１〜ＢＦ４に記憶されているテンポ値を用いれば、前記連続する４つの単位区間のテンポの安定性を判定できる。以下の説明では、前記連続する４つの単位区間を判定対象区間と呼ぶ。

【0029】

つぎに、ＣＰＵ１２ａは、ステップＳ１６ｃにて、判定対象区間におけるテンポの安定性を判定する。具体的には、テンポ値バッファＢＦ１とテンポ値バッファＢＦ２の値の差ｄｆ_１２（＝｜ＢＦ１−ＢＦ２｜）を計算する。また、テンポ値バッファＢＦ２とテンポ値バッファＢＦ３の値の差ｄｆ_２３（＝｜ＢＦ２−ＢＦ３｜）、及びテンポ値バッファＢＦ３とテンポ値バッファＢＦ４の値の差ｄｆ_３４（＝｜ＢＦ３−ＢＦ４｜）を計算する。そして、ＣＰＵ１２ａは、差ｄｆ_１２、差ｄｆ_２３及び差ｄｆ_３４が所定の基準値ｄｆ_ｓ（例えば、ｄｆ_ｓ＝４）以下であるか否かを判定する。差ｄｆ_１２、差ｄｆ_２３及び差ｄｆ_３４の全てが基準値ｄｆ_ｓ以下である場合には、ＣＰＵ１２ａは、「Ｙｅｓ」と判定して、ステップＳ１６ｄにて、安定性フラグＳＦの値を、テンポが安定していることを表わす「１」に設定する。一方、差ｄｆ_１２、差ｄｆ_２３、及び差ｄｆ_３４のうちの少なくとも１つが基準値ｄｆ_ｓより大きい場合には、ＣＰＵ１２ａは、「Ｎｏ」と判定して、ステップＳ１６ｅにて、安定性フラグＳＦの値を、テンポが不安定である（つまり、判定対象区間においてテンポが大きく変化している）ことを表わす「０」に設定する。そして、ＣＰＵ１２ａは、ステップＳ１６ｆにて、テンポ安定性判定処理を終了し、その処理を音響信号分析処理（メインルーチン）のステップＳ１７に進める。

【0030】

再び音響信号分析処理の説明に戻る。ＣＰＵ１２ａは、ステップＳ１７にて、テンポの安定性に応じて、つまり安定性フラグＳＦの値に応じて次に実行するステップを決定する。安定性フラグＳＦの値が「１」であるときには、ＣＰＵ１２ａは、制御対象を第１の態様で動作させるために、その処理をステップＳ１８に進め、ステップＳ１８にて、テンポが安定しているときの所定の処理を実行する。例えば、外部インターフェース回路１５を介して接続された照明装置を、ステップＳ１５にて計算されたテンポ（以下、現在のテンポという）で点滅させたり、色を変化させたりする。この場合、例えば、拍点に合わせて照明の明度を高くする。また、例えば、照明装置を一定の明度及び色で点灯させておいてもよい。また、例えば、サウンドシステム１６にて再生中の楽音に、現在のテンポに応じた種類のエフェクトを付与する。この場合、例えば、楽音を遅延させるエフェクトが選択されているときには、その遅延量を現在のテンポに応じた値に設定するとよい。また、例えば、複数の画像を、現在のテンポで切り替えながら表示器１３に表示する。また、例えば、外部インターフェース回路１５を介して接続された電子音楽装置（電子楽器）を現在のテンポで制御する。この場合、例えば、ＣＰＵ１２ａは、判定対象区間のコード（和音）を分析し、そのコードを表わすＭＩＤＩ信号を電子音楽装置に送信して、電子音楽装置にそのコードに対応する楽音を放音させるとよい。また、この場合、例えば、１つ又は複数の楽器音からなるフレーズを表わす一連のＭＩＤＩ信号を現在のテンポで電子音楽装置に送信してもよい。さらに、この場合、楽曲の拍点と前記フレーズの拍点を合致させるとよい。これにより、前記フレーズが現在のテンポで演奏される。また、例えば、１つ又は複数の楽器を所定のテンポで演奏したフレーズをサンプリングして、そのサンプル値をＲＯＭ１２ｂ、外部記憶装置１５などに記憶しておき、ＣＰＵ１２ａは、前記フレーズを表わすサンプル値を、現在のテンポに応じた読み出しレートで順に読み出し、サウンドシステム１６に送信する。これにより、前記フレーズが現在のテンポで再生される。

【0031】

一方、安定性フラグＳＦの値が「０」であるときには、ＣＰＵ１２ａは、制御対象を第２の態様で動作させるために、その処理をステップＳ１９に進め，ステップＳ１９にて、テンポが不安定であるときの所定の処理を実行する。例えば、外部インターフェース回路１５を介して接続された照明装置の点滅を停止させたり、色の変化を停止させたりする。また、テンポが安定であるときに照明装置を一定の明度及び色で点灯させる場合には、テンポが不安定であるときに照明装置を点滅させたり、色を変化させたりしてもよい。また、例えば、サウンドシステム１６にて再生中の楽音に付与するエフェクトを、テンポが不安定になる直前に付与していたエフェクトに設定する。また、例えば、複数の画像の切り替えを停止させる。この場合、所定の画像（例えば、テンポが不安定であることを表わすメッセージ）を表示してもよい。また、例えば、ＣＰＵ１２ａは、電子音楽装置へのＭＩＤＩ信号の送信を停止して、電子音楽装置の伴奏を停止させる。また、例えば、ＣＰＵ１２ａは、サウンドシステム１６による前記フレーズの再生を停止させる。

【0032】

つぎにＣＰＵ１２ａは、ステップＳ２０にて、読み込みポインタＲＰが楽曲の末尾に達したか否かを判定する。読み込みポインタＲＰが楽曲の末尾に達していない場合には、ＣＰＵ１２ａは、「Ｎｏ」と判定して、その処理をステップＳ１３に進め、ステップＳ１３〜Ｓ２０からなる一連の処理を再び実行する。一方、読み込みポインタＲＰが楽曲の末尾に達した場合には、ＣＰＵ１２ａは、「Ｙｅｓ」と判定して、ステップＳ２１にて音響信号分析処理を終了する。

【0033】

上記の第１実施形態によれば、判定対象区間におけるテンポの安定性が判定され、その結果に応じて外部機器ＥＸＴ、サウンドシステム１６などの制御対象が制御される。したがって、判定対象区間においてテンポが不安定であるとき、楽曲のリズムと制御対象の動作が合致しないという事態を回避できる。これにより、制御対象の動作が不自然に感じられることを防止できる。また、楽曲の所定の区間を再生しつつ、その区間における拍点及びテンポを検出するので、楽曲を選択した後すぐに再生を開始できる。

【0034】

（第２実施形態）
つぎに、本発明の第２実施形態について説明する。第２実施形態に係る音響信号分析装置の構成は、音響信号分析装置１０の構成と同様であるので、その説明を省略する。第２実施形態の動作は、第１実施形態とは異なる。すなわち、第２実施形態では、実行されるプログラムが第１実施形態とは異なる。第１実施形態では、楽曲の一部の区間のサンプル値を読み込んで再生しつつ、判定対象区間のテンポの安定性を分析し、その分析結果を用いて外部機器ＥＸＴ、サウンドシステム１６などを制御するという一連の処理（ステップＳ１３〜ステップＳ２０）を繰り返している。しかし、第２実施形態では、まず、楽曲を構成する全てのサンプル値を読み込んで、楽曲における拍点及びテンポの推移を分析する。そして、その分析の終了後、その楽曲を再生開始するとともに、前記分析結果を用いて外部機器ＥＸＴ、サウンドシステム１６などを制御する。

【0035】

つぎに、音響信号分析装置１０の第２実施形態における動作について説明する。まず、その概略について説明する。分析対象の楽曲は複数のフレームｔ_ｉ｛ｉ＝０，１，・・・，ｌａｓｔ｝に分割される。そして、拍の存在に関する特徴を表すオンセット特徴量ＸＯ及びテンポに関する特徴を表すＢＰＭ特徴量ＸＢがフレームｔ_ｉごとに計算される。各フレームｔ_ｉにおける拍周期ｂの値（テンポの逆数に比例する値）及び次の拍までのフレーム数ｎの値の組み合わせに応じて分類された状態ｑ_ｂ，ｎの系列Ｑとして記述された確率モデル（隠れマルコフモデル）のうち、観測値としてのオンセット特徴量ＸＯ及びＢＰＭ特徴量ＸＢが同時に観測される確率を表わす観測尤度の系列が最も尤もらしい確率モデルが選択される（図４参照）。これにより、分析対象の楽曲における拍点及びテンポの推移が検出される。なお、拍周期ｂは、フレームの数によって表わされる。したがって、拍周期ｂの値は「１≦ｂ≦ｂ_ｍａｘ」を満たす整数であり、拍周期ｂの値が「β」である状態では、フレーム数ｎの値は「０≦ｎ＜β」を満たす整数である。また、フレームｔ_ｉにおいて拍周期ｂの値が「β」（１≦ｎ＜ｂ_ｍａｘ）である確率を表わす「ＢＰＭらしさ」が計算され、この「ＢＰＭらしさ」を用いて「ＢＰＭらしさの分散」が計算される。そして、この「ＢＰＭらしさの分散」に基づいて、外部機器ＥＸＴ、サウンドシステム１６などが制御される。

【0036】

つぎに、音響信号分析装置１０の第２実施形態における動作について具体的に説明する。ユーザが音響信号分析装置１０の図示しない電源スイッチをオンにすると、ＣＰＵ１２ａは、図５に示す音響信号分析プログラムをＲＯＭ１２ｂから読み出して実行する。

【0037】

ＣＰＵ１２ａは、ステップＳ１００にて音響信号分析処理を開始し、ステップＳ１１０にて、記憶装置１４に記憶されている複数の楽曲データにそれぞれ含まれるタイトル情報を読み込んで、楽曲のタイトルをリスト形式で表示器１３に表示する。ユーザは、入力操作子１１を用いて、表示器１３に表示された楽曲の中から分析対象の楽曲データを選択する。なお、ステップＳ１１０にて分析対象の楽曲データを選択する際、選択しようとする楽曲データが表す楽曲の一部又は全部を再生して楽曲データの内容を確認できるように構成してもよい。

【0038】

つぎに、ＣＰＵ１２ａは、ステップＳ１２０にて、音響信号分析のための初期設定を実行する。具体的には、前記選択された楽曲データのデータサイズ情報に応じた記憶領域をＲＡＭ１２ｃ内に確保し、前記確保した記憶領域に前記選択された楽曲データを読み込む。また、分析結果を表す拍・テンポ情報リスト、オンセット特徴量ＸＯ、ＢＰＭ特徴量ＸＢなどを一時的に記憶する領域をＲＡＭ１２ｃ内に確保する。

【0039】

詳しくは後述するが、本プログラムによる分析結果は、記憶装置１４に保存される（ステップＳ２２０）。前記選択された楽曲が本プログラムによって過去に分析されたことがあれば、記憶装置１４にその分析結果が保存されている。そこで、ＣＰＵ１２ａは、ステップＳ１３０にて、前記選択された楽曲の分析に関する既存のデータ（以下、単に既存データと呼ぶ）を検索する。既存データが有れば、ＣＰＵ１２ａは、ステップＳ１４０にて「Ｙｅｓ」と判定して、ステップＳ１５０にて既存データをＲＡＭ１２ｃに読み込み、後述するステップＳ１９０に処理を進める。一方、既存データが無ければ、ＣＰＵ１２ａは、ステップＳ１４０にて「Ｎｏ」と判定して、その処理をステップＳ１６０に進める。

【0040】

ＣＰＵ１２ａは、ステップＳ１６０にて、図６に示す特徴量計算プログラムをＲＯＭ１２ｂから読み出して実行する。特徴量計算プログラムは、音響信号分析プログラムのサブルーチンである。

【0041】

ＣＰＵ１２ａは、ステップＳ１６１にて特徴量計算処理を開始する。つぎに、ＣＰＵ１２ａは、ステップＳ１６２にて、図７に示すように、前記選択された楽曲を所定の時間間隔をおいて区切り、複数のフレームｔ_ｉ｛ｉ＝０，１，・・・，ｌａｓｔ｝に分割する。各フレームの長さは共通である。説明を簡単にするために、本実施形態では各フレームの長さを１２５ｍｓとする。上記のように、各楽曲のサンプリング周波数は４４．１ｋＨｚであるので、各フレームは、約５０００個のサンプル値から構成されている。そして、以下説明するように、フレームごとに、オンセット特徴量ＸＯ及びＢＰＭ（ｂｅａｔｓｐｅｒｍｉｎｕｔｅ（１分間あたりの拍数））特徴量ＸＢを計算する。

【0042】

つぎに、ＣＰＵ１２ａは、ステップＳ１６３にて、フレームごとに短時間フーリエ変換を実行して、図６に示すように、各周波数ビンｆ_ｊ｛ｊ＝１，２・・・｝の振幅Ａ（ｆ_ｊ，ｔ_ｉ）を計算する。そして、ＣＰＵ１２ａは、ステップＳ１６４にて、振幅Ａ（ｆ_１，ｔ_ｉ），Ａ（ｆ_２，ｔ_ｉ）・・・を周波数ビンｆ_ｊごとに設けられたフィルタバンクＦＢＯ_ｊによってフィルタ処理することにより、所定の周波数帯域ｗ_ｋ｛ｋ＝１，２，・・・｝の振幅Ｍ（ｗ_ｋ，ｔ_ｉ）を計算する。周波数ビンｆ_ｊ用のフィルタバンクＦＢＯ_ｊは、図９に示すように、通過帯域の中心周波数が互いに異なる複数のバンドパスフィルタＢＰＦ（ｗ_ｋ，ｆ_ｊ）からなる。フィルタバンクＦＢＯ_ｊを構成する各バンドパスフィルタＢＰＦ（ｗ_ｋ，ｆ_ｊ）の中心周波数は、対数周波数軸上で等間隔であり、かつ各バンドパスフィルタＢＰＦ（ｗ_ｋ，ｆ_ｊ）の通過帯域幅は、対数周波数軸上で共通である。各バンドパスフィルタＢＰＦ（ｗ_ｋ，ｆ_ｊ）は、通過帯域の中心周波数から通過帯域の下限周波数側及び上限周波数側へ向かうに従って徐々にゲインがそれぞれ小さくなるように構成されている。ＣＰＵ１２ａは、図６のステップＳ１６４に示すように、周波数ビンｆ_ｊごとに振幅Ａ（ｆ_ｊ，ｔ_ｉ）とバンドパスフィルタＢＰＦ（ｗ_ｋ，ｆ_ｊ）のゲインとを積算する。そして、前記周波数ビンｆ_ｊごとに計算した積算結果を全ての周波数ビンｆ_ｊについて合算して振幅Ｍ（ｗ_ｋ，ｔ_ｉ）とする。上記のようにして計算された振幅Ｍの系列を図１０に例示する。

【0043】

つぎに、ＣＰＵ１２ａは、ステップＳ１６５にて、振幅Ｍの時間変化に基づいてフレームｔ_ｉのオンセット特徴量ＸＯ（ｔ_ｉ）を計算する。具体的には、図６のステップＳ１６５に示すように、周波数帯域ｗ_ｋごとに、フレームｔ_ｉ−１からフレームｔ_ｉへの振幅Ｍの増加量Ｒ（ｗ_ｋ，ｔ_ｉ）を計算する。ただし、フレームｔ_ｉ―１の振幅Ｍ（ｗ_ｋ，ｔ_ｉ−１）とフレームｔ_ｉの振幅Ｍ（ｗ_ｋ，ｔ_ｉ）とが同じである場合、又はフレームｔ_ｉの振幅Ｍ（ｗ_ｋ，ｔ_ｉ）がフレームｔ_ｉ―１の振幅Ｍ（ｗ_ｋ，ｔ_ｉ−１）よりも小さい場合は、増加量Ｒ（ｗ_ｋ，ｔ_ｉ）は「０」とする。そして、周波数帯域ｗ_ｋごとに計算した増加量Ｒ（ｗ_ｋ，ｔ_ｉ）を全ての周波数帯域ｗ_１，ｗ_２，・・・について合算してオンセット特徴量ＸＯ（ｔ_ｉ）とする。上記のようにして計算されたオンセット特徴量ＸＯの系列を図１１に例示する。一般に、楽曲においては、拍が存在する部分の音量が大きい。したがって、オンセット特徴量ＸＯ（ｔ_ｉ）が大きいほど、フレームｔ_ｉに拍が存在する可能性が高い。

【0044】

つぎに、ＣＰＵ１２ａは、オンセット特徴量ＸＯ（ｔ_０），ＸＯ（ｔ_１）・・・を用いて、ＢＰＭ特徴量ＸＢをフレームｔ_ｉごとに計算する。なお、フレームｔ_ｉのＢＰＭ特徴量ＸＢ（ｔ_ｉ）は、拍周期ｂごとに計算されたＢＰＭ特徴量ＸＢ_{ｂ＝１，２・・・}（ｔ_ｉ）の集合として表わされる（図１３参照）。まず、ＣＰＵ１２ａは、ステップＳ１６６にて、オンセット特徴量ＸＯ（ｔ_０），ＸＯ（ｔ_１）・・・をこの順にフィルタバンクＦＢＢに入力してフィルタ処理する。フィルタバンクＦＢＢは、拍周期ｂの値に応じてそれぞれ設けられた複数のコムフィルタＤ_ｂからなる。コムフィルタＤ_ｂ＝βは、フレームｔ_ｉのオンセット特徴量ＸＯ（ｔ_ｉ）を入力すると、前記入力したオンセット特徴量ＸＯ（ｔ_ｉ）と「β」だけ先行するフレームｔ_ｉ−βのオンセット特徴量ＸＯ（ｔ_ｉ−β）に対する出力としてのデータＸＤ_ｂ＝β（ｔ_ｉ−β）とを所定の比率で加算してフレームｔ_ｉのデータＸＤ_ｂ＝β（ｔ_ｉ）として出力する（図１２参照）。すなわち、コムフィルタＤ_ｂ＝βは、データＸＤ_ｂ＝βをフレーム数βに相当する時間だけ保持する保持手段としての遅延回路ｄ_ｂ＝βを有する。上記のようにして、オンセット特徴量ＸＯの系列ＸＯ（ｔ）｛＝ＸＯ（ｔ_０），ＸＯ（ｔ_１），・・・｝をフィルタバンクＦＢＢに入力することにより、データＸＤ_ｂの系列ＸＤ_ｂ（ｔ）｛＝ＸＤ_ｂ（ｔ_０），ＸＤ_ｂ（ｔ_１）・・・｝が計算される。

【0045】

つぎに、ＣＰＵ１２ａは、ステップＳ１６７にて、データＸＤ_ｂの系列ＸＤ_ｂ（ｔ）を時系列的に逆にしたデータ列をフィルタバンクＦＢＢに入力することにより、ＢＰＭ特徴量の系列ＸＢ_ｂ（ｔ）｛＝ＸＢ_ｂ（ｔ_０），ＸＢ_ｂ（ｔ_１）・・・｝が得られる。これにより、オンセット特徴量ＸＯ（ｔ_０），ＸＯ（ｔ_１）・・・の位相とＢＰＭ特徴量ＸＢ_ｂ（ｔ_０），ＸＢ_ｂ（ｔ_１）・・・の位相のずれを「０」にすることができる。上記のようにして計算されたＢＰＭ特徴量ＸＢ（ｔ_ｉ）を図１３に例示する。上記のように、ＢＰＭ特徴量ＸＢ_ｂ（ｔ_ｉ）は、オンセット特徴量ＸＯ（ｔ_ｉ）と拍周期ｂの値に相当する時間（すなわち、フレーム数ｂ）だけ遅延させたＢＰＭ特徴量ＸＢ_ｂ（ｔ_ｉ―ｂ）とを所定の比率で加算して計算されるので、オンセット特徴量ＸＯ（ｔ_０），ＸＯ（ｔ_１）・・・が拍周期ｂの値に相当する時間間隔をおいてピークを有する場合、ＢＰＭ特徴量ＸＢ_ｂ（ｔ_ｉ）の値が大きくなる。楽曲のテンポは、１分間あたりの拍数で表されるから、拍周期ｂは１分間あたりの拍数の逆数に比例する。例えば、図１３に示す例では、拍周期ｂの値が「４」であるときのＢＰＭ特徴量ＸＢ_ｂの値（ＢＰＭ特徴量ＸＢ_ｂ＝４）が最も大きい。したがって、この例では拍が４フレームおきに存在する可能性が高い。本実施形態では、１フレームの時間の長さを１２５ｍｓとしたので、この場合の拍の間隔は０．５ｓである。すなわち、テンポは１２０ＢＰＭ（＝６０ｓ／０．５ｓ）である。

【0046】

つぎに、ＣＰＵ１２ａは、ステップＳ１６８にて、特徴量計算処理を終了し、その処理を音響信号分析処理（メインルーチン）のステップＳ１７０に進める。

【0047】

ＣＰＵ１２ａは、ステップＳ１７０にて、図１４に示す対数観測尤度計算プログラムをＲＯＭ１２ｂから読み出して実行する。対数観測尤度計算プログラムは、音響信号分析プログラムのサブルーチンである。

【0048】

ＣＰＵ１２ａは、ステップＳ１７１にて対数観測尤度計算処理を開始する。そして、以下説明するように、オンセット特徴量ＸＯ（ｔ_ｉ）の尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））、及びＢＰＭ特徴量ＸＢ（ｔ_ｉ）の尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））を計算する。なお、上記の「Ｚ_{ｂ＝β，ｎ＝η}（ｔ_ｉ）」は、フレームｔ_ｉにおいて、拍周期ｂの値が「β」であり、且つ次の拍までのフレーム数ｎの値が「η」である状態ｑ_{ｂ＝β，ｎ＝η}のみが生起していることを表わす。フレームｔ_ｉにおいて状態ｑ_{ｂ＝β，ｎ＝η}と状態ｑ_{ｂ≠β，ｎ≠η}とが同時に生起することはない。したがって、尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ＝β，ｎ＝η}（ｔ_ｉ））は、フレームｔ_ｉにおいて、拍周期ｂの値が「β」であり、且つ次の拍までのフレーム数ｎの値が「η」であるという条件のもとでオンセット特徴量ＸＯ（ｔ_ｉ）が観測される確率を表わす。また、尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ＝β，ｎ＝η}（ｔ_ｉ））は、フレームｔ_ｉにおいて、拍周期ｂの値が「β」であり、且つ次の拍までのフレーム数ｎの値が「η」であるという条件のもとでＢＰＭ特徴量ＸＢ（ｔ_ｉ）が観測される確率を表わす。

【0049】

まず、ＣＰＵ１２ａは、ステップＳ１７２にて、尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））を計算する。次の拍までのフレーム数ｎの値が「０」であるとき、オンセット特徴量ＸＯは、平均値が「３」であって、且つ分散が「１」である第１の正規分布に従って分布するものとする。すなわち、第１の正規分布の確率変数としてオンセット特徴量ＸＯ（ｔ_ｉ）を代入した値を尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ，ｎ＝０}（ｔ_ｉ））として計算する。また、拍周期ｂの値が「β」であり、次の拍までのフレーム数ｎの値が「β／２」であるとき、オンセット特徴量ＸＯは、平均値が「１」であって、且つ分散が「１」である第２の正規分布に従って分布するものとする。すなわち、第２の正規分布の確率変数としてオンセット特徴量ＸＯ（ｔ_ｉ）を代入した値を尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ＝β，ｎ＝β／２}（ｔ_ｉ））として計算する。また、次の拍までのフレーム数ｎの値が「０」及び「β／２」のうちのいずれの値とも異なるとき、オンセット特徴量ＸＯは、平均値が「０」であって、且つ分散が「１」である第３の正規分布に従って分布するものとする。すなわち、第３の正規分布の確率変数としてオンセット特徴量ＸＯ（ｔ_ｉ）を代入した値を尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ，ｎ≠０，β／２}（ｔ_ｉ））として計算する。

【0050】

オンセット特徴量ＸＯの系列が｛１０，２，０．５，５，１，０，３，４，２｝であるときの尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ＝６，ｎ}（ｔ_ｉ））の対数を計算した結果を、図１５に例示する。同図に示すように、オンセット特徴量ＸＯの値が大きいフレームｔ_ｉほど、尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ，ｎ＝０}（ｔ_ｉ））が尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_{ｂ，ｎ≠０}（ｔ_ｉ））に比べて大きい。このように、オンセット特徴量ＸＯの値が大きいフレームｔ_ｉほど、フレーム数ｎの値が「０」であるときに拍が存在する可能性が高くなるように、確率モデル（第１乃至第３の正規分布、及びそれらのパラメータ（平均値及び分散））が設定されている。なお、第１乃至第３の正規分布のパラメータの値は、上記実施形態に限られない。これらのパラメータの値は、実験を繰り返して決定してもよいし、機械学習を用いて決定してもよい。なお、この例では、オンセット特徴量ＸＯの尤度Ｐを計算するための確率分布関数として正規分布を用いているが、確率分布関数として他の関数（例えば、ガンマ分布、ポアソン分布など）を用いても良い。

【0051】

つぎに、ＣＰＵ１２ａは、ステップＳ１７３にて、尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））を計算する。尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ＝γ，ｎ}（ｔ_ｉ））は、図１６に示すテンプレートＴＰ_γ｛γ＝１，２・・・｝に対するＢＰＭ特徴量ＸＢ（ｔ_ｉ）の適合度に相当する。具体的には、尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ＝γ，ｎ}（ｔ_ｉ））は、ＢＰＭ特徴量ＸＢ（ｔ_ｉ）とテンプレートＴＰ_γ｛γ＝１，２・・・｝との内積に相当する（図１４のステップＳ１７３の演算式を参照）。なお、この演算式におけるκ_ｂは、オンセット特徴量ＸＯに対するＢＰＭ特徴量ＸＢの重みを決定する係数である。つまり、κ_ｂを大きく設定するほど、結果的に、後述する拍・テンポ同時推定処理においてＢＰＭ特徴量ＸＢが重視される。また、この演算式におけるＺ（κ_ｂ）は、κ_ｂに依存する正規化係数である。テンプレートＴＰ_γは、図１６に示すように、ＢＰＭ特徴量ＸＢ（ｔ_ｉ）を構成するＢＰＭ特徴量ＸＢ_ｂ（ｔ_ｉ）にそれぞれ乗算される係数δ_γ，ｂからなる。テンプレートＴＰ_γは、その係数δ_γ，γが最大であり、係数δ_γ，２γ，係数δ_γ，３γ・・・，係数δ_{γ，（「γ」の整数倍）}，・・・がそれぞれ極大となるように設定されている。すなわち、例えば、テンプレートＴＰ_γ＝２は、２フレームおきに拍が存在する楽曲に適合するように構成されている。なお、この例では、ＢＰＭ特徴量ＸＢの尤度Ｐを計算するためにテンプレートＴＰを用いているが、これに代えて確率分布関数（例えば、多項分布、ディリクレ分布、多次元正規分布、多次元ポアソン分布など）を用いても良い。

【0052】

ＢＰＭ特徴量ＸＢ（ｔ_ｉ）が図１３に示すような値であった場合に、図１６に示すテンプレートＴＰ_γ｛γ＝１，２・・・｝を用いて尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））を計算し、その対数を計算した結果を図１７に例示する。この例では、尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ＝４，ｎ}（ｔ_ｉ））が最も大きいので、ＢＰＭ特徴量ＸＢ（ｔ_ｉ）は、テンプレートＴＰ_４に最も適合している。

【0053】

つぎに、ＣＰＵ１２ａは、ステップＳ１７４にて、尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））の対数と尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））の対数をそれぞれ加算し、その結果を対数観測尤度Ｌ_ｂ，ｎ（ｔ_ｉ）とする。なお、尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））と尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））とを積算した結果の対数を対数観測尤度Ｌ_ｂ，ｎ（ｔ_ｉ）としても同じ結果が得られる。つぎに、ＣＰＵ１２ａは、ステップＳ１７５にて、対数観測尤度計算処理を終了し、その処理を音響信号分析処理（メインルーチン）のステップＳ１８０に進める。

【0054】

つぎに、ＣＰＵ１２ａは、ステップＳ１８０にて、図１８に示す拍・テンポ同時推定プログラムをＲＯＭ１２ｂから読み出して実行する。拍・テンポ同時推定プログラムは、音響信号分析プログラムのサブルーチンである。この拍・テンポ同時推定プログラムは、ビタビアルゴリズムを用いて最尤の状態の系列Ｑを計算するプログラムである。ここで、その概略について説明する。ＣＰＵ１２ａは、まず、フレームｔ_０からフレームｔ_ｉまでオンセット特徴量ＸＯ及びＢＰＭ特徴量ＸＢを観測したときにフレームｔ_ｉの状態ｑ_ｂ，ｎの尤度が最大となるような状態の系列を選択した場合の状態ｑ_ｂ，ｎの尤度を尤度Ｃ_ｂ，ｎ（ｔ_ｉ）とするとともに、各状態ｑ_ｂ，ｎに遷移する１つ前のフレームの状態（遷移元の状態）を状態Ｉ_ｂ，ｎ（ｔ_ｉ）として記憶する。つまり、遷移後の状態が状態ｑ_{ｂ＝βｅ，ｎ＝ηｅ}であって、遷移元の状態が状態ｑ_{ｂ＝βｓ，ｎ＝ηｓ}であるとき、状態Ｉ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は、状態ｑ_{ｂ＝βｓ，ｎ＝ηｓ}である。ＣＰＵ１２ａは、上記のようにして尤度Ｃ及び状態Ｉをフレームｔ_ｌａｓｔまで計算し、その結果を用いて最尤の状態の系列Ｑを選択する。

【0055】

なお、後述する具体例では、その説明を簡単にするために、分析対象の楽曲の拍周期ｂの値が「３」、「４」及び「５」のうちのいずれかであるものとする。すなわち、対数観測尤度Ｌ_ｂ，ｎ（ｔ_ｉ）が図１９に例示するように計算された場合の拍・テンポ同時推定処理の手順を具体例として説明する。この例では、拍周期ｂの値が「３」、「４」及び「５」以外である状態の観測尤度が十分に小さいものとし、図１９乃至図２１では、拍周期ｂの値が「３」、「４」及び「５」以外である状態の観測尤度の図示を省略する。また、この例では、拍周期ｂの値が「βｓ」であり、且つフレーム数ｎの値が「ηｓ」である状態から、拍周期ｂの値が「βｅ」であり、且つフレーム数ｎの値が「ηｅ」である状態への対数遷移確率Ｔの値は、次のように設定されている。「ηｅ＝０」、「βｅ＝βｓ」、かつ「ηｅ＝βｅ−１」のとき、対数遷移確率Ｔの値は、「−０．２」である。また、「ηｓ＝０」、「βｅ＝βｓ＋１」、かつ「ηｅ＝βｅ−１」のとき、対数遷移確率Ｔの値は、「−０．６」である。また、「ηｓ＝０」、「βｅ＝βｓ−１」、かつ「ηｅ＝βｅ−１」のとき、対数遷移確率Ｔの値は、「−０．６」である。また、「ηｓ＞０」、「βｅ＝βｓ」、かつ「ηｅ＝ηｓ−１」のとき、対数遷移確率Ｔの値は、「０」である。上記以外の対数遷移確率Ｔの値は、「−∞」である。すなわち、フレーム数ｎの値が「０」である状態（ηｓ＝０）から次の状態へ遷移するとき、拍周期ｂの値は「１」だけ増減され得る。このとき、フレーム数ｎの値は、遷移後の拍周期ｂの値より「１」だけ小さい値に設定される。また、フレーム数ｎの値が「０」でない状態（ηｓ≠０）から次の状態へ遷移するとき、拍周期ｂの値は変更されず、フレーム数ｎの値が「１」だけ減少する。

【0056】

以下、拍・テンポ同時推定処理について具体的に説明する。ＣＰＵ１２ａは、ステップＳ１８１にて拍・テンポ同時推定処理を開始する。つぎに、ユーザは、ステップＳ１８２にて、入力操作子１１を用いて、図２０に示すような、各状態ｑ_ｂ，ｎに対応した、尤度Ｃの初期条件ＣＳ_ｂ，ｎを入力する。なお、初期条件ＣＳ_ｂ，ｎがＲＯＭ１２ｂに記憶されていて、ＣＰＵ１２ａがＲＯＭ１２ｂから初期条件ＣＳ_ｂ，ｎを読み込むようにしてもよい。

【0057】

つぎに、ＣＰＵ１２ａは、ステップＳ１８３にて、尤度Ｃ_ｂ，ｎ（ｔ_ｉ）及び状態Ｉ_ｂ，ｎ（ｔ_ｉ）を計算する。フレームｔ_０において拍周期ｂの値が「βｅ」であって、フレーム数ｎの値が「ηｅ」である状態ｑ_{ｂ＝βｅ，ｎ＝ηｅ}の尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_０）は、初期条件ＣＳ_{ｂ＝βｅ，ｎ＝ηｅ}と対数観測尤度Ｌ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_０）とを加算することにより計算される。

【0058】

また、状態ｑ_{ｂ＝βｓ，ｎ＝ηｓ}から状態ｑ_{ｂ＝βｅ，ｎ＝ηｅ}に遷移したとき、尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）｛ｉ＞０｝は次のように計算される。状態ｑ_{ｂ＝βｓ，ｎ＝ηｓ}のフレーム数ｎが「０」でないとき（すなわち、ηｓ≠０）、尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は、尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ＋１}（ｔ_ｉ−１）と対数観測尤度Ｌ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）と対数遷移確率Ｔを加算して計算される。ただし、本実施形態では、遷移元の状態のフレーム数ｎが「０」でないときの対数遷移確率Ｔは「０」であるので、尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は、実質的には、尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ＋１}（ｔ_ｉ−１）と対数観測尤度Ｌ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）とを加算することにより計算される（Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）＝Ｃ_{ｂ＝βｅ，ｎ＝ηｅ＋１}（ｔ_ｉ−１）＋Ｌ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ））。また、この場合、状態Ｉ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は、状態ｑ_{βｅ，ηｅ＋１}である。例えば、尤度Ｃが図２０に示すように計算された例では、尤度Ｃ_４，１（ｔ_２）の値は「−０．３」であり、対数観測尤度Ｌ_４，０（ｔ_３）の値は「１．１」であるので、尤度Ｃ_４，０（ｔ_３）の値は「０．８」である。また、図２１に示すように、状態Ｉ_４，０（ｔ_３）は、状態ｑ_４，１である。

【0059】

また、状態ｑ_{ｂ＝βｓ，ｎ＝ηｓ}のフレーム数ｎが「０」のとき（ηｓ＝０）の尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は次のように計算される。この場合、状態の遷移に伴って拍周期ｂの値が増減され得る。そこで、まず、尤度Ｃ_{βｅ−１，０}（ｔ_ｉ−１）、尤度Ｃ_βｅ，０（ｔ_ｉ−１）、及び尤度Ｃ_{βｅ＋１，０}（ｔ_ｉ−１）に対数遷移確率Ｔをそれぞれ加算し、そのうちの最大値に対数観測尤度Ｌ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）を加算した結果が尤度Ｃ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）である。また、状態Ｉ_{ｂ＝βｅ，ｎ＝ηｅ}（ｔ_ｉ）は、状態ｑ_{βｅ−１，０}、状態ｑ_βｅ，０、及び状態ｑ_{βｅ＋１，０}のうち、それらの尤度Ｃ_{βｅ−１，０}（ｔ_ｉ−１）、尤度Ｃ_βｅ，０（ｔ_ｉ−１）、及び尤度Ｃ_{βｅ＋１，０}（ｔ_ｉ−１）に対数遷移確率Ｔをそれぞれ加算した値が最大となる状態ｑである。なお、厳密には、尤度Ｃ_ｂ，ｎ（ｔ_ｉ）は正規化される必要があるが、正規化されていなくても、拍点及びテンポの推移の推定に関しては、数理上同一の結果が得られる。

【0060】

例えば、尤度Ｃ_４，３（ｔ_３）は、次のように計算される。遷移元の状態が状態ｑ_３，０である場合、尤度Ｃ_３，０（ｔ_２）の値は「０．０」であり、対数遷移確率Ｔは「−０．６」であるので、尤度Ｃ_３，０（ｔ_２）と対数遷移確率Ｔとを加算した値は、「−０．６」である。また、遷移元の状態が状態ｑ_４，０である場合、遷移元の尤度Ｃ_４，０（ｔ_２）の値は「−１．２」であり、対数遷移確率Ｔは「−０．２」であるので、尤度Ｃ_４，０（ｔ_２）と対数遷移確率Ｔとを加算した値は、「−１．４」である。また、遷移元の状態が状態ｑ_５，０である場合、遷移元の尤度Ｃ_５，０（ｔ_２）の値は「−１．２」であり、対数遷移確率Ｔは「−０．６」であるので、尤度Ｃ_５，０（ｔ_２）と対数遷移確率Ｔとを加算した値は、「−１．８」である。したがって、尤度Ｃ_３，０（ｔ_２）に対数遷移確率Ｔを加算した値が最も大きい。また、対数観測尤度Ｌ_４，３（ｔ_３）の値は、「−１．１」である。よって、尤度Ｃ_４，３（ｔ_３）の値は「―１．７」（＝−０．６＋（−１．１））であり、状態Ｉ_４，３（ｔ_３）は、状態ｑ_３，０である。

【0061】

上記のようにして、全てのフレームｔ_ｉについて、全ての状態ｑ_ｂ，ｎの尤度Ｃ_ｂ，ｎ（ｔ_ｉ）及び状態Ｉ_ｂ，ｎ（ｔ_ｉ）を計算し終えると、ＣＰＵ１２ａはステップＳ１８４にて、最尤の状態の系列Ｑ（＝｛ｑ_ｍａｘ（ｔ_０），ｑ_ｍａｘ（ｔ_１）・・・，ｑ_ｍａｘ（ｔ_ｌａｓｔ）｝）を次のようにして決定する。まず、ＣＰＵ１２ａは、フレームｔ_ｌａｓｔにおける尤度Ｃ_ｂ，ｎ（ｔ_ｌａｓｔ）が最大である状態ｑ_ｂ，ｎを、状態ｑ_ｍａｘ（ｔ_ｌａｓｔ）とする。ここで、状態ｑ_ｍａｘ（ｔ_ｌａｓｔ）の拍周期ｂの値を「βｍ」と表記し、フレーム数ｎの値を「ηｍ」と表記する。このとき、状態Ｉ_{βｍ，ηｍ}（ｔ_ｌａｓｔ）がフレームｔ_ｌａｓｔの１つ前のフレームｔ_{ｌａｓｔ−１}の状態ｑ_ｍａｘ（ｔ_{ｌａｓｔ−１}）である。フレームｔ_{ｌａｓｔ−２}、フレームｔ_{ｌａｓｔ−３}、・・・の状態ｑ_ｍａｘ（ｔ_{ｌａｓｔ−２}）、状態ｑ_ｍａｘ（ｔ_{ｌａｓｔ−３}）・・・も状態ｑ_ｍａｘ（ｔ_{ｌａｓｔ−１}）と同様に決定される。すなわち、フレームｔ_ｉ＋１の状態ｑ_ｍａｘ（ｔ_ｉ＋１）の拍周期ｂの値を「βｍ」と表記し、フレーム数ｎの値を「ηｍ」と表記したときの状態Ｉ_{βｍ，ηｍ}（ｔ_ｉ＋１）がフレームｔ_ｉ＋１の１つ前のフレームｔ_ｉの状態ｑ_ｍａｘ（ｔ_ｉ）である。上記のようにして、ＣＰＵ１２ａは、フレームｔ_{ｌａｓｔ−１}からフレームｔ_０へ向かって順に状態ｑ_ｍａｘを決定して、最尤の状態の系列Ｑを決定する。

【0062】

例えば、図２０及び図２１に示す例では、フレームｔ_{ｌａｓｔ＝７７}においては、状態ｑ_５，１の尤度Ｃ_５，１（ｔ_{ｌａｓｔ＝７７}）が最大である。したがって、状態ｑ_ｍａｘ（ｔ_{ｌａｓｔ＝７７}）は、状態ｑ_５，１である。図２１によれば、状態Ｉ_５，１（ｔ_７７）は状態ｑ_５，２であるから、状態ｑ_ｍａｘ（ｔ_７６）は状態ｑ_５，２である。また、状態Ｉ_５，２（ｔ_７６）は状態ｑ_５，３であるから、状態ｑ_ｍａｘ（ｔ_７５）は状態ｑ_５，３である。状態ｑ_ｍａｘ（ｔ_７４）乃至状態ｑ_ｍａｘ（ｔ_０）も状態ｑ_ｍａｘ（ｔ_７６）及び状態ｑ_ｍａｘ（ｔ_７５）と同様に決定する。このようにして図２０に矢印で示す最尤の状態の系列Ｑが決定される。この例では、拍の周期ｂの値は最初「３」であるが、フレームｔ_４０付近で「４」に遷移し、さらにフレームｔ_４４付近で「５」に遷移する。また、系列Ｑのうち、フレーム数ｎの値が「０」である状態ｑ_ｍａｘ（ｔ_０），ｑ_ｍａｘ（ｔ_３），・・・に対応するフレームｔ_０，ｔ_３，・・・に拍が存在すると推定される。

【0063】

つぎに、ＣＰＵ１２ａは、ステップＳ１８５にて、拍・テンポ同時推定処理を終了し、その処理を音響信号分析処理（メインルーチン）のステップＳ１９０に進める。

【0064】

ＣＰＵ１２ａは、ステップＳ１９０にて、フレームｔ_ｉごとに「ＢＰＭらしさ」、「ＢＰＭらしさの平均」、「ＢＰＭらしさの分散」、「観測に基づく確率」、「拍らしさ」、「拍が存在する確率」及び「拍が存在しない確率」を計算（図２３に示す演算式を参照）する。「ＢＰＭらしさ」は、フレームｔ_ｉにおけるテンポの値が拍周期ｂに対応した値である確率を意味し、尤度Ｃ_ｂ，ｎ（ｔ_ｉ）を正規化するとともにフレーム数ｎについて周辺化することにより計算される。具体的には、拍周期ｂの値が「β」である場合の「ＢＰＭらしさ」は、フレームｔ_ｉにおける全ての状態の尤度Ｃの合計に対する、拍周期ｂの値が「β」である状態の尤度Ｃの合計の割合である。また、「ＢＰＭらしさの平均」は、フレームｔ_ｉにおける拍周期ｂに対応する「ＢＰＭらしさ」と拍周期ｂの値とをそれぞれ乗算し、それぞれの乗算結果を合算した値をフレームｔ_ｉにおける全ての「ＢＰＭらしさ」の合計値で除することにより計算される。また、「ＢＰＭらしさの分散」は、次のようにして計算される。まず、拍周期ｂの値からフレームｔ_ｉにおける「ＢＰＭらしさの平均」をそれぞれ減算し、それぞれの減算結果を二乗するとともに拍周期ｂの値に対応する「ＢＰＭらしさ」の値を乗算する。そして、それぞれの乗算結果を合算した値をフレームｔ_ｉにおける全ての「ＢＰＭらしさ」の合計値で除することにより「ＢＰＭらしさの分散」が計算される。上記のようにして計算された「ＲＰＭらしさ」、「ＢＰＭらしさの平均」、及び「ＢＰＭらしさの分散」の値を図２２に例示する。また、「観測に基づく確率」は、観測値（すなわちオンセット特徴量ＸＯ）に基づいて計算された、拍がフレームｔ_ｉに存在する確率を意味する。具体的には、所定の基準値ＸＯ_ｂａｓｅに対するオンセット特徴量ＸＯ（ｔ_ｉ）の割合である。また、「拍らしさ」は、すべてのフレーム数ｎの値についてのオンセット特徴量ＸＯ（ｔ_ｉ）の尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））を合算した値に対する尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，０（ｔ_ｉ））の割合である。また、「拍が存在する確率」及び「拍が存在しない確率」は、いずれも尤度Ｃ_ｂ，ｎ（ｔ_ｉ）を拍周期ｂについて周辺化することにより計算される。具体的には、「拍が存在する確率」は、フレームｔ_ｉにおける全ての状態の尤度Ｃの合計に対する、フレーム数ｎの値が「０」である状態の尤度Ｃの合計の割合である。また、「拍が存在しない確率」は、フレームｔ_ｉにおける全ての状態の尤度Ｃの合計に対する、フレーム数ｎの値が「０」でない状態の尤度Ｃの合計の割合である。

【0065】

ＣＰＵ１２ａは、「ＢＰＭらしさ」、「観測に基づく確率」、「拍らしさ」、「拍が存在する確率」及び「拍が存在しない確率」を用いて、図２３に示す拍・テンポ情報リストを表示器１３に表示する。同リスト中の「テンポの推定値（ＢＰＭ）」の欄には、前記計算した「ＢＰＭらしさ」のうち最も確率の高い拍周期ｂに対応するテンポの値（ＢＰＭ）が表示される。また、前記決定した状態ｑ_ｍａｘ（ｔ_ｉ）のうちフレーム数ｎの値が「０」であるフレームの「拍の存在」の欄には「○」が表示され、その他のフレームの「拍の存在」の欄には「×」が表示される。また、ＣＰＵ１２ａは、テンポの推定値（ＢＰＭ）を用いて、図２４に示すようなテンポの推移を表わすグラフを表示器１３に表示する。図２４の例では、テンポの推移を棒グラフで表わしている。図２０及び図２１を用いて説明した例では、最初、拍周期ｂの値が「３」であり、フレームｔ_４０にて拍周期ｂの値が「４」に遷移しさらに、フレームｔ_４４にて拍周期ｂの値が「５」に遷移する。これにより、ユーザは、テンポの推移を視覚的に認識することができる。また、ＣＰＵ１２ａは、前記計算した「拍が存在する確率」を用いて、図２５に示すような拍点を表わすグラフを表示器１３に表示する。さらに、ＣＰＵ１２ａは、前記計算した「オンセット特徴量ＸＯ」、「ＢＰＭらしさの分散」及び「拍の存在」を用いて、図２６に示すようなテンポの安定性を表わすグラフを表示器１３に表示する。

【0066】

また、音響信号分析処理のステップＳ１３０にて既存データを検索した結果、既存データが存在する場合には、ＣＰＵ１２ａは、ステップＳ１５０にてＲＡＭ１２ｃに読み込んだ前回の分析結果に関する各種データを用いて、拍・テンポ情報リスト、テンポの推移を表わすグラフ、拍点、及びテンポの安定性を表わすグラフを表示器１３に表示する。

【0067】

次に、ＣＰＵ１２ａは、ステップＳ２００にて、楽曲の再生を開始するか否かを表すメッセージを表示器１３に表示して、ユーザからの指示を待つ。ユーザは入力操作子１１を用いて楽曲の再生を開始するか、後述の拍・テンポ情報修正処理を実行するかのいずれかを指示する。例えば、マウスを用いて図示しないアイコンをクリックする。

【0068】

ステップＳ２００にて、拍・テンポ情報修正処理を実行するように指示された場合には、ＣＰＵ１２ａは「Ｎｏ」と判定して、ステップＳ２１０にて、拍・テンポ情報修正処理を実行する。まず、ＣＰＵ１２ａは、ユーザが修正情報の入力を終了するまで待機する。ユーザは、入力操作子１１を用いて「ＢＰＭらしさ」、「拍が存在する確率」などの修正値を入力する。例えば、マウスを用いて修正するフレームを選択し、テンキーを用いて修正値を入力する。修正された項目の右側に配置された「Ｆ」の表示形態（例えば色）が変更され、その値が修正されたことが明示される。ユーザは、複数の項目について修正値を入力可能である。ユーザは修正値の入力を完了すると、入力操作子１１を用いて修正情報の入力を完了したことを指示する。例えば、マウスを用いて図示しない修正完了を表わすアイコンをクリックする。ＣＰＵ１２ａは、前記入力された修正値に応じて尤度Ｐ（ＸＯ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））及び尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_ｂ，ｎ（ｔ_ｉ））のうちのいずれか一方又は両方を更新する。例えば、フレームｔ_ｉにおける「拍が存在する確率」が高くなるように修正された場合であって、修正された値に関するフレーム数ｎの値が「ηｅ」であるときには、尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ，ｎ≠ηｅ}（ｔ_ｉ））を十分に小さい値に設定する。これにより、フレームｔ_ｉでは、フレーム数ｎの値が「ηｅ」である確率が相対的に最も高くなる。また、例えば、フレームｔ_ｉにおける「ＢＰＭらしさ」のうち、拍周期ｂの値が「βｅ」である確率が高くなるように修正された場合には、拍周期ｂの値が「βｅ」でない状態の尤度Ｐ（ＸＢ（ｔ_ｉ）｜Ｚ_{ｂ≠βｅ，ｎ}（ｔ_ｉ））を十分に小さい値に設定する。これにより、フレームｔ_ｉでは、拍周期ｂの値が「βｅ」である確率が相対的に最も高くなる。そして、ＣＰＵ１２ａは、拍・テンポ情報修正処理を終了して、その処理をステップＳ１８０に進め、修正された対数観測尤度Ｌを用いて、拍・テンポ同時推定処理を再度実行する。

【0069】

一方、ユーザから楽曲の再生を開始するよう指示された場合には、ＣＰＵ１２ａは「Ｙｅｓ」と判定してステップＳ２２０にて尤度Ｃ、状態Ｉ、拍・テンポ情報リストなどの分析結果に関する各種データを楽曲のタイトルと関連付けて記憶装置１４に記憶する。

【0070】

つぎに、ＣＰＵ１２ａは、ステップＳ２３０にて、図２７に示す再生・制御プログラムをＲＯＭ１２ｂから読み出して実行する。再生・制御プログラムは、音響信号分析プログラムのサブルーチンである。

【0071】

ＣＰＵ１２ａは、ステップＳ２３１にて再生・制御処理を開始する。ＣＰＵ１２ａは、ステップＳ２３２にて、再生するフレームを表わすフレーム番号ｉを「０」に設定する。つぎに、ＣＰＵ１２ａは、ステップＳ２３３にて、フレームｔ_ｉのサンプル値をサウンドシステム１６に送信する。サウンドシステム１６は、第１実施形態と同様に、ＣＰＵ１２ａから受信したサンプル値を用いて楽曲のフレームｔ_ｉに相当する区間を再生する。ＣＰＵ１２ａは、ステップＳ２３４にて、フレームｔ_ｉにおける「ＢＰＭらしさの分散」が所定の基準値σ_ｓ^２（例えば０．５）より小さいか否か判定する。「ＢＰＭらしさの分散」が基準値σ_ｓ^２より小さい場合には、ＣＰＵ１２ａは「Ｙｅｓ」と判定して、ステップＳ２３５にて、ＢＰＭが安定しているときの所定の処理を実行する。一方、「ＢＰＭらしさの分散」が基準値σ_ｓ^２以上である場合には、ＣＰＵ１２ａは「Ｎｏ」と判定して、ステップＳ２３６にて、ＢＰＭが不安定であるときの所定の処理を実行する。ステップＳ２３５及びステップＳ２３６の処理は、第１実施形態のステップＳ１８及びＳ１９とそれぞれ同様であるので、それらの説明を省略する。図２６の例では、フレームｔ_３９〜フレームｔ_５３に亘って、「ＢＰＭらしさの分散」が基準値σ^２_ｓ以上である。したがって、図２６の例では、フレームｔ_４０〜フレームｔ_５３においては、ＣＰＵ１２ａは、ステップＳ２３６にて、ＢＰＭが不安定であるときの所定の処理を実行する。なお、先頭の数フレームにおいては、拍周期ｂの値が一定であっても「ＢＰＭらしさの分散」が基準値σ_ｓ^２より大きくなる傾向にある。そこで、先頭の数フレームにおいては、ステップＳ２３５にて、ＢＰＭが安定であるときの所定の処理を実行するように構成してもよい。

【0072】

つぎに、ＣＰＵ１２ａは、ステップＳ２３７にて、現在の処理対象のフレームが最終フレームであるか否かを判定する。すなわち、フレーム番号ｉの値が「ｌａｓｔ」であるか否かを判定する。現在の処理対象のフレームが最終フレームでなければ、ＣＰＵ１２ａは「Ｎｏ」と判定して、ステップＳ２３８にてフレーム番号ｉをインクリメントした後、その処理をステップＳ２３３に進め、以下、ステップＳ２３３〜Ｓ２３８からなる一連の処理を再び実行する。一方、現在の処理対象のフレームが最終フレームであれば、ＣＰＵ１２ａは、「Ｙｅｓ」と判定して、ステップＳ２３９にて再生・制御処理を終了し、音響信号分析処理（メインルーチン）に戻り、ステップＳ２４０にて、音響信号分析処理を終了する。これにより、楽曲が先頭から末尾まで滞りなく再生されるとともに、外部機器ＥＸＴ、サウンドシステム１６などが制御される。

【0073】

上記の第２実施形態によれば、拍点に関するオンセット特徴量ＸＯ及びテンポに関するＢＰＭ特徴量ＸＢを用いて計算された対数観測尤度Ｌの系列が最も尤もらしい確率モデルが選択され、楽曲における拍点及びテンポの推移が同時に推定される。したがって、楽曲における拍点を計算し、その計算結果を用いてテンポを計算する場合に比べて、テンポの推定精度を向上させることができる。

【0074】

また、「ＢＰＭらしさの分散」の値に応じて制御対象が制御される。すなわち、「ＢＰＭらしさの分散」の値が基準値σ_ｓ^２以上であるときには、そのテンポ値の信頼性が低いと判定し、テンポが不安定であるときの所定の処理を実行する。したがって、テンポが不安定であるときに、楽曲のリズムと制御対象の動作が合致しないという事態を回避できる。これにより、制御対象の動作が不自然に感じられることを防止できる。

【0075】

さらに、本発明の実施にあたっては、上記実施形態に限定されるものではなく、本発明の目的を逸脱しない限りにおいて種々の変更が可能である。

【0076】

例えば、第１及び第２実施形態では、音響信号分析装置１０が楽曲を再生しているが、外部機器が楽曲を再生するように構成しても良い。

【0077】

また、第１及び第２実施形態では、テンポの安定性を、安定であるか不安定であるかという２段階で評価しているが、テンポの安定性をより多段階で評価してもよい。この場合、テンポの安定性の各段階（安定度）に応じて制御対象を制御すればよい。

【0078】

また、第１実施形態では、４つの単位区間を判定対象区間としているが、判定対象区間は、より多くの単位区間から構成されてもよいし、より少ない単位区間から構成されてもよい。また、判定対象区間として選択される単位区間は時系列的に連続していなくてもよい。例えば、単位区間を時系列的に１つおきに選択してもよい。

【0079】

また、第１実施形態では、隣り合う単位区間同士のテンポの差に基づいてテンポの安定性を判定しているが、判定対象区間におけるテンポの最大値と最小値の差に基づいてテンポの安定性を判定してもよい。

【0080】

また、第２実施形態では、観測値としてのオンセット特徴量ＸＯ及びＢＰＭ特徴量ＸＢが同時に観測される確率を表わす観測尤度の系列が最も尤もらしい確率モデルが選択される。しかし、確率モデルの選択基準は、上記実施形態に限られない。例えば、事後分布が最大となるような確率モデルを選択してもよい。

【0081】

また、第２実施形態では、各フレームの「ＢＰＭらしさの分散」に基づいて各フレームのテンポの安定性を判定しているが。推定した各フレームのテンポの値を用いて、第１実施形態と同様に、複数のフレームにおけるテンポの変化量を計算し、その計算結果に基づいて制御対象を制御してもよい。

【0082】

また、第２実施形態では、最尤の状態の系列Ｑを計算して、各フレームにおける拍の存在及びテンポの値を決定している。しかし、フレームｔ_ｉにおける尤度Ｃのうち、その値が最大である尤度Ｃに対応する状態ｑ_ｂ，ｎの拍周期ｂ及びフレーム数ｎの値に基づいて、各フレームにおける拍の存在及びテンポの値を決定してもよい。これによれば、最尤の状態の系列Ｑを計算しないので、分析時間を短縮できる。

【0083】

また、第２実施形態では、説明を簡単にするために、各フレームの長さを１２５ｍｓとしたが、より短く（例えば、５ｍｓ）してもよい。これによれば、拍点及びテンポの推定に関する分解能を向上させることができる。例えば、テンポを１ＢＰＭ刻みで推定できる。

【符号の説明】

【0084】

１０・・・音響信号分析装置、１１・・・入力操作子、ＸＯ・・・オンセット特徴量、ＸＢ・・・ＢＰＭ特徴量、ｂ・・・拍周期、ｎ・・・フレーム数、ＦＢＢ・・・フィルタバンク、ＴＰ・・・テンプレート

【図1】