特許第6281211号(P6281211)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6281211音響信号のアライメント装置、アライメント方法及びコンピュータプログラム
<>
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000009
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000010
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000011
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000012
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000013
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000014
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000015
  • 特許6281211-音響信号のアライメント装置、アライメント方法及びコンピュータプログラム 図000016
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6281211
(24)【登録日】2018年2月2日
(45)【発行日】2018年2月21日
(54)【発明の名称】音響信号のアライメント装置、アライメント方法及びコンピュータプログラム
(51)【国際特許分類】
   G10G 3/04 20060101AFI20180208BHJP
【FI】
   G10G3/04
【請求項の数】6
【全頁数】14
(21)【出願番号】特願2013-176659(P2013-176659)
(22)【出願日】2013年8月28日
(65)【公開番号】特開2015-45731(P2015-45731A)
(43)【公開日】2015年3月12日
【審査請求日】2016年6月20日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000213
【氏名又は名称】特許業務法人プロスペック特許事務所
(74)【代理人】
【識別番号】100168756
【弁理士】
【氏名又は名称】日比野 元彦
(72)【発明者】
【氏名】前澤 陽
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2001−117582(JP,A)
【文献】 特開2008−040259(JP,A)
【文献】 特開2009−031486(JP,A)
【文献】 特開2009−186687(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00− 7/02
G10H 1/00− 7/12
G10L 25/00−25/93
(57)【特許請求の範囲】
【請求項1】
楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置であって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算手段と、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段と、
を備えたことを特徴とするアライメント装置。
【請求項2】
請求項1に記載のアライメント装置において、
前記評価値計算手段は、
前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、
前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことを特徴とするアライメント装置。
【請求項3】
請求項1又は2に記載のアライメント装置において、
前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離であり、
前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、
前記一組のスペクトルの系列の評価値は、前記距離の総和であることを特徴とするアライメント装置。
【請求項4】
請求項1又は2に記載のアライメント装置において、
前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度であり、
前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデルの尤度であることを特徴とするアライメント装置。
【請求項5】
楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント方法であって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
を含むことを特徴とするアライメント方法。
【請求項6】
楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント処理をコンピュータに実行させるコンピュータプログラムであって、
前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルと前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトルとからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値を計算する評価値計算ステップと、
前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算ステップと、
含む処理をコンピュータに実行させることを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部のパートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データを分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置に関する。なお、以下の説明において、複数の演奏をそれぞれ構成する各楽音の発音タイミングの対応関係を単にアライメントと呼ぶ。
【背景技術】
【0002】
従来から、例えば、下記非特許文献1及び2に示されているように、音響信号のアライメント装置は知られている。非特許文献1に記載のアライメント装置では、まず、分析対象の楽曲の楽譜を表わす楽譜データ(例えば、Standard MIDI File)を構成する各発音情報(例えば、ノートオンデータ及びノートオフデータ)と、分析対象の第1の演奏及び第2の演奏をそれぞれ構成する各楽音とを対応づける。そして、楽譜データの発音情報と第1の演奏の各楽音との対応情報、及び楽譜データの発音情報と第2の演奏の各楽音との対応情報を用いて、第1の演奏と第2の演奏のアライメントを計算している。
【0003】
また、非特許文献2に記載のアライメント装置では、動的時間伸縮法(Dynamic Time Warping)を用いて第1の演奏と第2の演奏のアライメントを計算している。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Sebastian Ewert,Meinard Muller,Peter Grosche、「HIGH RESOLUTION AUDIO SYNCLONIZATION USING CHROMA ONSET FEATURES」、Acoustics,Speech and Signal Processing 2009,ICASSP 2009,IEEE International Conference on、p.1869−p.1872
【非特許文献2】Simon Dixon,Gerhard Widner、「MATCH: A MUSIC ALIGNMENT TOOL CHEST」、ISMIR2005,6th International Conference on Music Information Retrieval、p.492−p.497
【発明の概要】
【0005】
上記非特許文献1のアライメント装置によれば、分析対象の楽曲を表わす楽譜データが必要である。したがって、楽譜データが存在しない楽曲のアライメントを計算することができない。また、分析の第1段階として、楽譜データを構成する発音情報と分析対象の第1の演奏及び第2の演奏を構成する各楽音とが対応づけられる。そして、分析の第2段階において、前記第1段階の分析結果を用いて、第1の演奏と第2の演奏のアライメントが計算される。そのため、各分析段階の誤差が蓄積することによって分析精度が低下する虞がある。
【0006】
また、上記非特許文献2のアライメント装置では、第1の演奏と第2の演奏の差(距離)を計算する際、対称性を有する距離尺度(例えば、ユークリッド距離)を用いている。これによれば、第1の演奏に含まれる演奏パート数と第2の演奏に含まれる演奏パート数がほぼ同じである場合には、両演奏を音響信号として評価したときの両者の差(距離)が小さいので、良好な分析結果が得られる。しかし、例えば所定の交響曲の全演奏パートの演奏と、前記全演奏パートのうちの一部の演奏パートのみの演奏とのアライメントを上記非特許文献2のアライメント装置を用いて計算した場合、各演奏を音響信号としてそれぞれ評価したときの両者の差(距離)が大きいので、アライメントを精度良く計算できない。
【0007】
また、第1の演奏及び第2の演奏において共通する演奏パートの楽音の音高(チューニング)がずれている場合には、両者の距離が大きいと判断され、アライメントを精度良く計算できない。
【0008】
本発明は上記問題に対処するためになされたもので、その目的は、楽譜データを用いることなく複数の演奏のアライメントを計算可能なアライメント装置、アライメント方法及びコンピュータプログラムであって、前記複数の演奏を音響信号として評価したときの差が大きくても高精度にアライメントを計算できるアライメント装置、アライメント方法及びコンピュータプログラムを提供することにある。なお、下記本発明の各構成要件の記載においては、本発明の理解を容易にするために、実施形態の対応箇所の符号を括弧内に記載しているが、本発明の各構成要件は、実施形態の符号によって示された対応箇所の構成に限定解釈されるべきものではない。
【0009】
上記目的を達成するために、本発明の特徴は、楽曲を構成する複数の演奏パートを演奏した第1の演奏、及び前記複数の演奏パートのうちの一部の演奏パートを演奏した第2の演奏をそれぞれ表わす音響信号をそれぞれ記録した第1及び第2の音響データ(d1、d2)を分析して、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント装置(10、20)であって、前記第2の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xp(tp))と前記第1の演奏のスペクトログラムを構成する複数のスペクトルのうちの1つのスペクトル(Xm(tm))とからなる一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき第1の重みが付され、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき前記第1の重みよりも小さな第2の重みが付されるように設定された尺度を用いて前記一組のスペクトルの類似性に関する評価値(Dtp,tm、Ltp,tm)を計算する評価値計算手段(S12、S22)と、前記類似性に関する評価値を用いて前記一組のスペクトルの系列の評価値を計算するとともに、前記一組のスペクトルの系列の評価値が所定の基準を満たす前記一組のスペクトルの系列を推定することにより、前記第1及び第2の演奏をそれぞれ構成する各楽音の発音タイミングを対応付けるアライメント計算手段(13、23)と、を備えたアライメント装置としたことにある。なお、上記の「各楽音の発音タイミングを対応付ける」とは、前記第1及び第2の音響データを用いて前記第1及び第2の演奏を同時に再生する際に前記第1及び第2の演奏を同期させることができるように、各楽音の発音タイミングを対応付けることを意味する。
【0010】
この場合、前記一組のスペクトルの類似性に関する評価値は、前記一組のスペクトルの距離(Dtp,tm)であり、前記尺度は、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも大きくなり、前記一組のスペクトルのうちの第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、前記第1の演奏のスペクトルから見た前記第2の演奏のスペクトルの距離が、前記第2の演奏のスペクトルから見た前記第1の演奏のスペクトルの距離よりも小さくなる非対称の距離尺度であり、前記一組のスペクトルの系列の評価値は、前記距離の総和であるとよい。なお、前記距離に単純増加関数(例えば指数関数)を適用し、前記距離の累積値を前記一組のスペクトルの系列の評価値とする場合も実質的には前記距離の総和を前記一組のスペクトルの系列の評価値とすることと同じである。したがって、上記の場合も本発明に含まれるものとする。
【0011】
また、この場合、前記一組のスペクトルの類似性に関する評価値は、前記尺度に対応する確率分布における前記第2の演奏のスペクトルの観測尤度(Ltp,tm)であり、前記一組のスペクトルの系列の評価値は、前記第1の演奏のスペクトルと前記第2の演奏のスペクトルの組み合わせによって分類された状態の系列として記述された確率モデル(HMM)の尤度であってもよい。
【0012】
これによれば、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有する場合には、第1の重みを付して類似性の評価値が計算される。一方、第2の演奏のスペクトルが第1の演奏のスペクトルに包含される場合、第1の重みよりも小さな第2の重みを付して類似性の評価値が計算される。これにより、第1の演奏と第2の演奏の包含関係をより的確に評価できる。すなわち、厳密に対称な尺度(つまり第1の重みと第2の重みが同じである尺度)を用いて前記一組のスペクトルの類似性に関する評価値を計算する場合に比べて、前記評価値をより的確に計算することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。
【0013】
また、本発明の他の特徴は、評価値計算手段は、前記一組のスペクトルのうちの第1の演奏のスペクトル及び第2の演奏のスペクトルのうちの一方の各周波数成分を他方の各周波数成分に対して相対的に周波数軸方向にシフトさせるピッチシフト手段と、前記各周波数成分のシフト量に応じた評価値を前記一組のスペクトルの類似性に関する評価値に加算する加算手段と、をさらに備えたことにある。なお、前記類似性に関する評価値に指数関数を適用した場合、前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に積算される。この場合も実質的には前記各周波数成分のシフト量に応じた評価値が前記一組のスペクトルの類似性に関する評価値に加算されたものとみなす。
【0014】
これによれば、第1の演奏のピッチと第2の演奏をピッチとが相対的にシフトされるとともにそのシフト量に応じたコストとしての距離が両スペクトルの距離として加算される。これにより、第1の演奏に対して第2の演奏のピッチが多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。
【図面の簡単な説明】
【0015】
図1】分析対象の音響信号(音響データ)の構成を示す概念図である。
図2】本発明の第1及び第2実施形態に係るアライメント装置の構成を示すブロック図である。
図3】本発明の第1実施形態に係るアライメント装置のアライメントの計算手順を示すフローチャートである。
図4】格子点の系列を示す概念図である。
図5A】第2の演奏のスペクトルが第1の演奏のスペクトルに包含されている状態を示すグラフである。
図5B】第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有する状態を示すグラフである。
図6】本発明の第2実施形態に係るアライメント装置のアライメントの計算手順を示すフローチャートである。
図7】状態の経路を示す概念図である。
【発明を実施するための形態】
【0016】
(第1実施形態)
本発明の第1実施形態に係るアライメント装置10について説明する。アライメント装置10は、以下説明するように、楽曲の演奏をそれぞれ表わす2つの音響データd1及び音響データd2を用いて各演奏を再生する際にそれらを同期させることができるように、各演奏を構成する各楽音の再生タイミングを対応づける。なお、音響データd1,d2は同一の楽譜に記載された1つ又は複数の演奏パートを演奏することにより発生された音をそれぞれ表わす音響信号をディジタルデータとしてそれぞれ記録したものである。音響データd1は前記楽曲の全演奏パートの演奏(以下第1の演奏と呼ぶ)を含み、音響データd2は、前記全演奏パートのうちの一部の演奏パートの演奏(以下第2の演奏と呼ぶ)のみを含む(図1参照)。図1の例では、分析対象とする音響データd1は、所定の楽曲の全演奏パートを演奏して発生された音響信号を記録したデータである。一方、音響データd2は、前記所定の楽曲のバイオリンの演奏パートのみを演奏して発生された音響信号を記録したデータである。
【0017】
アライメント装置10は、図2に示すように、入力操作子11、コンピュータ部12、表示器13、記憶装置14、外部インターフェース回路15及びサウンドシステム16を備えており、これらがバスBSを介して接続されている。
【0018】
入力操作子11は、オン・オフ操作に対応したスイッチ(例えば数値を入力するためのテンキー)、回転操作に対応したボリューム又はロータリーエンコーダ、スライド操作に対応したボリューム又はリニアエンコーダ、マウス、タッチパネルなどから構成される。これらの操作子は、演奏者の手によって操作されて、分析対象の音響データの選択、音響データの分析開始又は停止、選択した音響データを用いた演奏の再生又は停止(後述するサウンドシステム16からの出力又は停止)、音響信号の分析に関する各種パラメータの設定などに用いられる。入力操作子11を操作すると、その操作内容を表す操作情報が、バスBSを介して、後述するコンピュータ部12に供給される。
【0019】
コンピュータ部12は、バスBSにそれぞれ接続されたCPU12a、ROM12b及びRAM12cからなる。CPU12aは、後述するアライメントの計算手順を表わしたプログラムをROM12bから読み出して実行する。ROM12bには、前記プログラムに加えて、初期設定パラメータ、表示器13に表示される画像を表わす表示データを生成するための図形データ及び文字データなどの各種データが記憶されている。RAM12cには、前記プログラムの実行時に必要なデータが一時的に記憶される。
【0020】
表示器13は、液晶ディスプレイ(LCD)によって構成される。コンピュータ部12は、図形データ、文字データなどを用いて表示すべき内容を表わす表示データを生成して表示器13に供給する。表示器13は、コンピュータ部12から供給された表示データに基づいて画像を表示する。例えば分析対象の音響データを選択する際には、選択可能な音響データのリストが表示器13に表示される。
【0021】
また、記憶装置14は、HDD、FDD、CD、DVDなどの大容量の不揮発性記録媒体と、同各記録媒体に対応するドライブユニットから構成されている。記憶装置14には、音響データd1,d2が記憶されている。音響データd1,d2は、前記所定の楽曲の演奏を所定のサンプリング周期(例えば1/44100sec)でサンプリングして得られた複数のサンプル値からそれぞれなり、各サンプル値が記憶装置14における連続するアドレスに順に記録されている。各音響データd1,d2には、データを識別するためのタイトル情報、容量を表わすデータサイズ情報なども含まれている。音響データd1,d2は予め記憶装置14に記憶されていてもよいし、後述する外部インターフェース回路15を介して外部から取り込んでもよい。
【0022】
外部インターフェース回路15は、アライメント装置10を電子音楽装置、パーソナルコンピュータなどの外部機器に接続可能とする接続端子を備えている。アライメント装置10は、外部インターフェース回路15を介して、LAN(Local Area Network)、インターネットなどの通信ネットワークにも接続可能である。
【0023】
サウンドシステム16は、音響データd1,d2をアナログ音信号に変換するD/A変換器、変換したアナログ音信号を増幅するアンプ、及び増幅されたアナログ音信号を音響信号に変換して出力する左右一対のスピーカを備えている。音響データd1又は音響データd2を用いた演奏の再生するよう指示されると、CPU12aは、音響データd1又は音響データd2をサウンドシステム16に供給する。これにより、ユーザは分析対象の演奏を試聴できる。
【0024】
つぎに、上記のように構成したアライメント装置10の動作(アライメントの計算手順)について説明する。本実施形態では、まず、図3に示すように、ステップS10にてアライメントの計算処理が開始される。次に、ステップS11にて、音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。以下の説明において、各音響信号における時刻(又はフレームの番号)を時刻tm(=1,2,・・・・,TM)及び時刻tp(=1,2,・・・・,TP)と記載する。音響データd1で表される音響信号のスペクトログラムを構成するスペクトルXm(tm)の系列と、音響データd2で表される音響信号のスペクトログラムを構成するスペクトルXp(tp)の系列との対応づけが、動的時間伸縮法を用いて計算される。図4に示すように、第1の演奏及び第2の演奏のそれぞれの時間軸を座標軸とする平面において、時刻tpと時刻tmとの対応関係は、前記平面上の格子点ctp,tmの系列として表現される。
【0025】
具体的には、ステップS12にて、スペクトルXp(tp)とスペクトルXm(tm)との距離Dtp,tmが、下記の式(1)に基づいて計算される。
【数1】
【0026】
なお、距離Dtp,tmが本発明の類似性に関する評価値に相当する。また、式(1)の第1項は、スペクトルXm(tm)から見たスペクトルXp(tp)の板倉斎藤距離に相当する。また、第1項における「Xp(f,tp)」は、スペクトルXp(tp)の周波数fにおける振幅(パワー)を表わす。また、「α」はピッチシフト量を表わす。つまり、「Xm(αf,tm)」はスペクトルXm(tm)を構成する各周波数成分の周波数fをα倍した(すなわちピッチシフトした)スペクトルの周波数αfにおける振幅(パワー)を表わす。また、式(1)の第2項は上記のピッチシフトに対するコストに相当する距離である。本実施形態では、前記ピッチシフトに対するコストに相当する距離は平均が「1」である対数正規分布に従うものとして定義される。
【0027】
次に、ステップS13にて、上記の距離Dtp,tmの総和を最小にするような格子点ctp,tmの系列が、非特許文献2と同様の動的時間伸縮法を用いて計算される。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS14にてアライメント計算処理が終了する。
【0028】
上記のように、第1の演奏は全パートの演奏であり、第2の演奏は一部のパートの演奏であるから、第2の演奏は第1の演奏の部分集合である。したがって、スペクトルXp(tm)がスペクトルXp(tp)との距離を計算するに際し、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合(図5A)に用いる重みを、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分(図5Bにおいて斜線を付した部分)を有する場合に用いる重みよりも小さくするとよい。アライメント装置10によれば、距離尺度として板倉斎藤距離を用いて、距離Dtp,tmが計算される。つまり、距離Dtp,tmを計算するに際し、第1の演奏のスペクトル及び第2の演奏のスペクトルの包含関係によって測定距離が異なるように、非対称の距離尺度を用いた。具体的には、第2の演奏のスペクトルが第1の演奏のスペクトルを超える周波数成分を有するとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも大きくなるような重み(本発明の第1の重み)が付され、第2の演奏のスペクトルが第1の演奏のスペクトルに包含されるとき、第1の演奏のスペクトルから見た第2の演奏のスペクトルの距離が、第2の演奏のスペクトルから見た第1の演奏のスペクトルの距離よりも小さくなるような重み(本発明の第2の重み)が付されて距離Dtp,tmが計算される。したがって、厳密に対称な距離尺度を用いる場合に比べて、第1の演奏のスペクトルに対する第2の演奏のスペクトルの距離をより的確に表現することができる。よって、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。
【0029】
また、上記第1実施形態では、第2の演奏をピッチシフトさせるとともにそのシフト量に応じたコストとしての距離を両スペクトルの距離に加算した。これにより、第1の演奏のピッチに対して第2の演奏のピッチ(チューニング)が多少ずれていたとしても、第1の演奏と第2の演奏とのアライメントを精度良く計算できる。
【0030】
なお、上記第1実施形態のステップS13では、距離Dtp,tmの総和が最小となる格子点ctp,tmの系列が計算されているが、所定の基準値を満たすような格子点ctp,tmの系列が計算されても良い。例えば、格子点の遷移に対するコストを設定し、格子点の遷移に対するコストの総和と距離Dtp,tmの総和との合計が最小となる格子点ctp,tmの系列が計算されても良い。
【0031】
また、上記第1実施形態では、距離Dtp,tmは式(1)に基づいて計算されるが、距離Dtp,tmは下記の式(2)に基づいて計算されても良い。なお、式(2)は、「α」に関する板倉斎藤距離の期待値を表わしている。
【数2】
【0032】
また、距離Dtp,tmは、式(1)に単調増加関数を適用した演算式に基づいて計算されてもよい。例えば、指数関数を適用した式(3)に基づいて計算されてもよい。
【数3】
【0033】
この場合、ステップS13では、距離Dtp,tmの累積が最小となる格子点cの系列が計算される。
【0034】
また、上記第1実施形態では、距離尺度として板倉斎藤距離を採用しているがこれに限られない。任意の値X及び非負の値aに関して次の式(4)が成立するような凸関数から生成されるBregmanダイバージェンスを距離尺度として採用すれば良い。例えば、一般化KLダイバージェンスを採用しても良い。
【数4】
【0035】
上記第1実施形態では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。
【0036】
(第2実施形態)
次に、本発明の第2実施形態に係るアライメント装置20について説明する。アライメント装置20の構成は、アライメント装置10の構成と同様であるので、その説明を省略する。アライメント装置20の動作は、第1実施形態とは異なる。すなわち、第2実施形態では、実行されるプログラムが第1実施形態とは異なる。一般に、「X」から見た「Y」の板倉斎藤距離の最小化は、期待値が「X」である指数分布において「Y」を観測したときのYの最尤推定と等価であることが知られている。そこで、第2実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布に従うものとする。そして、スペクトルXp(tp)とスペクトルXm(tm)との組み合わせで分類された状態の系列(すなわち、時刻tpと時刻tmとの対応付けの系列)として表わされた隠れマルコフモデルHMMのうち、観測値としての時刻tmの系列に対する尤度が所定の基準を満たすモデルを選択することにより、アライメントを計算する。
【0037】
具体的には、図6に示すように、ステップS20にてアライメントの計算処理が開始される。次にステップS21にて、第1実施形態と同様に音響データd1及び音響データd2を用いて、それぞれの音響信号のスペクトログラムが計算される。そして、ステップS22にて、前記計算されたスペクトログラムを構成するスペクトルXm(tm)及びスペクトルXp(tp)を用いて、観測尤度Ltp,tmが次の式(5)に基づいて計算される。つまり、前記指数分布の確率変数としてスペクトルXp(tp)を代入して計算された値を観測尤度Ltp,tmとする。
【数5】
【0038】
なお、観測尤度Ltp,tmが本発明の類似性に関する評価値に相当する。また、本実施形態の隠れマルコフモデルHMMにおける各状態間の遷移確率は次のように設定されている。すなわち、状態遷移において時刻tpは必ず「1」だけ進むように設定されている。また、時刻tpが「1」だけ進んだとき時刻tmが「1」だけ進む確率を「u」(0<u<1)とし、時刻tpが「1」だけ進んだとき時刻tmが同じ時刻に留まる確率を「1−u」とする。その他の状態遷移の確率は「0」である。したがって、隠れマルコフモデルHMMにおける状態経路は図7のように表わされる。
【0039】
各隠れマルコフモデルHMMの尤度は、各経路上の状態における観測尤度Ltp,tmと各状態間の遷移確率の累積値として計算される。例えば、図7の太い実線で示される経路Rのモデルの尤度Cは、次の式(6)のように計算される。
【数6】
【0040】
次に、ステップS23にて、上記の経路のうちの最尤の経路(つまり、尤度Cが最大となるモデル)がビタビアルゴリズムを用いて計算される。なお、この場合、「L1,1=1」且つ「LTP,TM=1」とするとよい。上記のようにして、第1の演奏と第2の演奏のアライメント(つまり、時刻tpと時刻tmの組み合わせの系列)が計算され、ステップS24にてアライメント計算処理が終了する。
【0041】
本実施形態では、スペクトルXp(tp)が、スペクトルXm(tm)を平均とする指数分布(つまり、板倉斎藤距離に対応する分布)に従うものとして、スペクトルXp(tp)の観測尤度Ltp,tmを計算した。すなわち、スペクトルXm(tm)がスペクトルXp(tp)を超える周波数成分を有する場合には、第1の重みを付して観測尤度Ltp,tmが計算される。一方、スペクトルXm(tm)がスペクトルXp(tp)に包含される場合、第1の重みよりも小さな第2の重みを付して観測尤度Ltp,tmが計算される。これにより、厳密に対称な距離尺度に対応する分布を用いる場合に比べて、第1の演奏に対する第2の演奏の距離をより的確に表現することができる。よって、上記のように構成されたアライメント装置20によっても、第1実施形態の効果と同様の効果が得られる。すなわち、第2の演奏が第1の演奏の部分集合であって、両者が音響信号としては大きく乖離している場合であっても、第1の演奏と第2の演奏とのアライメントをより精度良く計算できる。
【0042】
なお、上記第2実施形態では第1実施形態とは異なり、第1の演奏と第2の演奏のピッチのずれが考慮されていない。しかし、第2実施形態においても、第1の演奏と第2の演奏のピッチのずれを考慮に入れるために、観測尤度Ltp,tmを下記の式(7)ように計算しても良い。
【数7】
【0043】
また、式(7)において、ピッチシフトに対するコストとしての尤度を減算してもよい。なお、式(7)では、第1の演奏のピッチをシフト可能に構成されているが、第2の演奏のピッチに対する第1の演奏のピッチを相対的にシフト可能に構成されていればよい。すなわち、第1の演奏のピッチに代えて、又は加えて、第2の演奏のピッチをシフト可能に構成されていても良い。
【0044】
また、上記第2実施形態のステップS23では、最尤の経路(つまり、尤度Cが最大となる経路)が計算されるが、所定の基準値を満たすような経路が計算されても良い。例えば、各時刻において尤度が最大である状態をそれぞれ選択してもよい。
【0045】
また、上記第2実施形態では、板倉斎藤距離に相当する指数分布を用いているがこれに限られず、Bregmanダイバージェンスに相当する分布であれば採用可能である。例えば、一般化KLダイバージェンスに対応するPoisson分布を採用しても良い。
【0046】
また、上記第2実施形態では、状態間の遷移確率を表わすために用いた「u」は定数であるが、これに限られない。例えば、「u」を確率変数とするベルヌーイ分布を事前分布としておき、状態系列の最大事後確率推定を実行すると観測値に対して適切な「u」が決定されるように構成しても良い。
【0047】
また、観測尤度Ltp,tmの対数をとって対数観測尤度とするとともに、状態間の遷移確率を対数遷移確率とすれば、経路Rの尤度Cは、経路R上の各状態の対数観測尤度と各状態間の対数遷移確率の総和として計算される。
【符号の説明】
【0048】
10,20・・・アライメント装置、12・・・コンピュータ部、d1,d2・・・音響データ、Ltp,tm・・・観測尤度、C・・・尤度、Xp,Xm・・・スペクトル、R・・・経路、HMM・・・隠れマルコフモデル
図1
図2
図3
図4
図5A
図5B
図6
図7