(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
特許文献1に開示される音声評価装置によれば、市販の音楽用CDのように、主旋律(正解データ)が設けられていない音源であっても歌唱評価を行うことが可能である。しかしながら、特許文献1では、複数の基準ピッチを抽出する必要があるため、歌唱評価に必要となる処理負荷が大きくなることが想定される。また、評価対象ピッチを、オーディオデータに含まれるメインボーカル、コーラス、各種楽器などのあらゆる音の基準ピッチと比較するため比較に必要な処理負荷は大きくなることが考えられる。また、複数の基準ピッチの内、適切な基準ピッチと比較しないと、歌唱評価が不適切となってしまう場合がある。
【0006】
本発明は、このような事情を考慮したものであって、CD等のように主旋律情報を有していない音源であっても、精度良く、また、処理負荷も抑えた歌唱評価を行うことのできる歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置を提供することを目的としている。
【課題を解決するための手段】
【0007】
そのため本発明に係る歌唱評価装置は、以下の構成を採用したことを特徴としている。
主旋律情報を含んでいない楽曲情報に基づいて再生され、伴奏音を含んだ伴奏音信号を周波数解析し、複数のオクターブにわたる伴奏音スペクトルを算出するスペクトル算出手段と、
複数のオクターブにわたる伴奏音スペクトルに基づいて、1オクターブ内のオクターブ内強度分布を算出するオクターブ内強度分布算出手段と、
マイクロホンから入力される歌唱音声信号を周波数解析し、歌唱音声特性を算出する歌唱特性算出手段と、
算出されたオクターブ内強度分布と、歌唱音声特性を比較することで歌唱音声信号の評価を行う評価手段と、を備えたことを特徴とする。
【0008】
さらに本発明に係る歌唱評価装置において、
前記評価手段は、オクターブ内強度分布の特徴値のレベルを、歌唱音声特性と比較することで行う。
【0009】
さらに本発明に係る歌唱評価装置において、
前記オクターブ内強度分布算出手段は、正規化されたオクターブ内強度分布を算出することを特徴とする。
【0010】
さらに本発明に係る歌唱評価装置において、
前記スペクトル算出手段、もしくは、前記オクターブ内強度分布算出手段の少なくとも一方において聴感補正を行うことを特徴とする。
【0011】
さらに本発明に係る歌唱評価装置において、
前記歌唱特性算出手段は、ビブラート等、歌唱技巧による周波数の揺れを検出し、歌唱技巧による周波数の揺れが除外された歌唱音声特性を算出することを特徴とする
【0012】
また本発明に係る歌唱評価プログラムは、
主旋律情報を含んでいない楽曲情報に基づいて再生され、伴奏音を含んだ伴奏音信号を周波数解析し、複数のオクターブにわたる伴奏音スペクトルを算出するスペクトル算出処理と、
複数のオクターブにわたる伴奏音スペクトルに基づいて、1オクターブ内のオクターブ内強度分布を算出するオクターブ内強度分布算出処理と、
マイクロホンから入力される歌唱音声信号を周波数解析し、歌唱音声特性を算出する歌唱特性算出処理と、
算出されたオクターブ内強度分布と、歌唱音声特性を比較することで歌唱音声信号の評価を行う評価処理と、を実行可能としたことを特徴とする。
【0013】
また本発明に係る歌唱評価方法は、
主旋律情報を含んでいない楽曲情報に基づいて再生され、伴奏音を含んだ伴奏音信号を周波数解析し、複数のオクターブにわたる伴奏音スペクトルを算出し、
複数のオクターブにわたる伴奏音スペクトルに基づいて、1オクターブ内のオクターブ内強度分布を算出し、
マイクロホンから入力される歌唱音声信号を周波数解析し、歌唱音声特性を算出し、
算出されたオクターブ内強度分布と、歌唱音声特性を比較することで歌唱音声信号の評価を行うことを特徴とする。
【0014】
また本発明に係るカラオケ装置は、
主旋律情報を含んでいない楽曲情報に基づいて、伴奏音を含んだ伴奏音信号を再生する再生手段と、
再生された伴奏音信号を周波数解析し、複数のオクターブにわたる伴奏音スペクトルを算出するスペクトル算出手段と、
複数のオクターブにわたる伴奏音スペクトルに基づいて、1オクターブ内のオクターブ内強度分布を算出するオクターブ内強度分布算出手段と、
マイクロホンから入力される歌唱音声信号を周波数解析し、歌唱音声特性を算出する歌唱特性算出手段と、
算出されたオクターブ内強度分布と、歌唱音声特性を比較することで歌唱音声信号の評価を行う評価手段と、を備えたことを特徴とする。
【発明の効果】
【0015】
本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置によれば、複数のオクターブにわたる伴奏音スペクトルに基づいて算出された1オクターブ内のオクターブ内強度分布と、歌唱音声信号に基づく歌唱音声特性とを比較するという簡易な処理によって、処理負荷を抑えた適切な歌唱評価を行うことが可能となる。
【0016】
さらに本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置によれば、オクターブ内強度分布の特徴値のレベルを、歌唱音声特性と比較するという簡易な処理によって、処理負荷を抑えた適切な歌唱評価を行うことが可能となる。
【0017】
さらに本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置では、オクターブ内強度分布の正規化を行うこととしてもよい。オクターブ内強度分布のレベルを使用して評価を行う場合、サビ部分等のように全体としてレベルが大きくなる区間において評価が高くなり、Aメロ等のように全体としてレベルが小さい区間において評価が低くなることが考えられる。オクターブ内強度分布の正規化を行うことで評価格差の均衡を図ることが可能となる。
【0018】
さらに本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置では、聴感補正を行うことで、聞こえ易さを考慮した歌唱評価を行うことが可能となる。例えば、ベースの音高は低いため聴覚的感度が落ちるためベースの音階を参照して歌唱することは少ない。一方、中域で鳴っている楽器は聴覚的感度が高いため、歌唱はその楽器の音高を受けやすくなる。聴覚補正を行うことで、聞こえ易さの影響の度合いを考慮した評価を行うことが可能となる。
【0019】
さらに本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法及びカラオケ装置では、ビブラートなど、歌唱技巧による周波数の揺れが除外された歌唱音声特性を使用して評価を行うことで、歌唱独自の効果である歌唱技巧を排除した形態で、オクターブ内強度分布と比較を行い、歌唱評価の精度向上を図ることが可能となる。
【発明を実施するための形態】
【0021】
図1は、本実施形態のカラオケシステムの構成を示す図である。本実施形態におけるカラオケシステムは、カラオケ装置2(コマンダと呼ぶこともある)と、リモコン装置1を含んで構成されている。カラオケ装置2とリモコン装置1は、LAN100及びアクセスポイント130を利用してネットワークを形成するように通信接続されている。
【0022】
カラオケボックスなどの店舗に設置されるカラオケ装置2は、楽曲を演奏するための演奏部として音響制御部25を備えている。また、カラオケ装置2は、ユーザーからの各種入力を受け付ける操作部21を備える。カラオケ装置2は、操作部21からの入力を解釈してCPU30に伝達する操作処理部22を備える。また、カラオケ装置2は、各種情報を記憶する記憶部としてのハードディスク32を備える。カラオケ装置2は、LAN100に接続してネットワークに加入する通信手段としてのLAN通信部24aを備えている。また、本実施形態のカラオケ装置2は、無線LAN通信部24bも備えており、LAN通信部24aを使用した有線によるネットワーク接続に代え、無線LAN通信部24bを使用した無線によるネットワーク接続を行うことも可能である。
【0023】
また、カラオケ装置2は、モニター41に対して歌詞映像、背景映像を表示させる映像再生手段を備える。この映像再生手段は、映像情報に基づいて映像を再生する映像再生部29、再生する映像を一時的に蓄積するビデオRAM28、再生された映像に対する歌詞テロップの重畳、映像効果の付与等を行う映像制御部31を備えて構成される。
【0024】
さらに、このカラオケ装置2では、外部に接続されるモニター41以外に、タッチパネルモニター33に対して各種情報を表示することを可能としている。タッチパネルモニター33は映像制御部31から入力された映像情報を表示する表示部35と、タッチ入力された位置を操作処理部22に出力するタッチパネル34が重畳されて構成されている。このタッチパネルモニター33は、カラオケ装置2の筐体前面等に配置され、カラオケ装置2の操作部21、あるいは、リモコン装置1のタッチパネルモニター11などと同様、入力部として機能する。ユーザーは、タッチパネルモニター33にて楽曲を選択することで、直接カラオケ装置2に予約させる等、カラオケ装置2に対する各種操作を行うことが可能である。
【0025】
さらに、カラオケ装置2は、各構成を統括して制御するためのCPU30、各種プログラムを実行するにあたって必要となる情報を一時記憶するためのメモリ27を含んだ制御部を備えて構成されている。
【0026】
このような構成にてカラオケ装置2は、各種処理を実行することとなるが、カラオケ装置2の主な機能として、楽曲予約処理、楽曲再生処理などを実行可能としている。楽曲予約処理は、ユーザーからの指定に基づいて楽曲を指定、予約するための処理であってリモコン装置1と連携して実行される。リモコン装置1の選曲処理で形成された予約情報は、カラオケ装置2に送信される。カラオケ装置2は、受信した予約情報をメモリ27中の予約テーブルに登録する。楽曲再生処理は、予約された楽曲を再生させる処理であって、楽曲演奏処理と歌詞表示処理とが同期して実行される処理である。
【0027】
楽曲演奏処理は、楽曲情報に含まれる演奏情報に基づき、音響制御部25に演奏を実行させる処理である。音響制御部25にて演奏された楽曲は、マイクロホン43a、43bから入力される歌唱音声と一緒にスピーカー42から放音される。歌詞表示処理は、楽曲情報に含まれる歌詞情報をモニター41に表示させることで歌唱補助を行う処理である。この歌詞表示処理で表示される歌詞に、背景映像を重畳させて表示させる背景映像表示処理を実行することとしてもよい。
【0028】
一方、リモコン装置1は、ユーザーからの指示に基づいて楽曲を検索し、再生指示のあった楽曲について予約情報をカラオケ装置2に送信する選曲処理を実行可能としている。また、リモコン装置1は、カラオケ装置2あるいはインターネット上に接続されたホスト装置5から各種情報を受信し、各種処理を実行することが可能である。本実施形態では、ユーザーから各種指示を受け付けるユーザインターフェイスとして、操作部17と、タッチパネルモニター11を備えている。タッチパネルモニター11は、表示部11aとタッチパネル11bを有して構成され、表示部11aに各種インターフェイスを表示するとともに、ユーザーからのタッチ入力を受付可能としている。
【0029】
さらにリモコン装置1は、選曲処理に必要とされるデータベース、各種プログラム、並びに、プログラム実行に伴って発生する各種情報を記憶する記憶部として、メモリ14、そして、これら構成を統括して制御するためのリモコン側制御部を備えて構成される。リモコン側制御部には、CPU15、タッチパネルモニター11に対して表示する映像を形成する映像制御部13、表示する映像情報を一時的に蓄えるビデオRAM12、タッチパネルモニター11あるいは操作部17からの入力を解釈してCPU15に伝える操作処理部18が含まれている。
【0030】
リモコン装置1は、無線LAN通信部16によって、アクセスポイント130と無線接続されることで、LAN100によって構成されるネットワークに接続される。なお、各リモコン装置1は、特定のカラオケ装置2に対して事前に対応付けされている。リモコン装置1から出力される各種命令は、対応付けされたカラオケ装置2にて受信されることとなる。
【0031】
このようなリモコン装置1の構成により、ユーザーからの各種入力をタッチパネルモニター11、あるいは、操作部17から受付けるとともに、映像情報をタッチパネルモニター11の表示により各種情報を提供することで、カラオケ装置2に対して出力する予約情報を送信する選曲処理など、各種処理を行うことが可能となっている。
【0032】
本実施形態のカラオケ装置2は、2種類の楽曲情報を再生可能としている。1つめの種類(Aタイプ)の楽曲情報は、歌唱評価を行うための歌唱評価情報を含んだ楽曲情報である。従来から知られているように、このような楽曲情報を再生する際の歌唱評価では、主旋律情報としての歌唱評価情報と、マイクロホンから入力される歌唱音声信号とを比較し、その一致の度合いに基づいて採点値を算出することが可能である。
【0033】
図2(A)は、本実施形態の楽曲情報(Aタイプ)のデータ構成を示した図である。楽曲情報は、楽曲情報に関連する各種情報を含んだメタ情報と、演奏や歌詞の表示といった各種処理を実行するための実情報を有している。メタ情報には、楽曲情報を識別するための楽曲ID、曲名、歌手名、ジャンル等の楽曲関連情報を有している。楽曲関連情報は、ユーザーが楽曲を検索する際の検索対象項目として使用することが可能である。楽曲情報の実情報には、演奏情報、歌詞情報、背景映像情報等を含んで構成される。演奏情報は、MIDI規格に基づいて電子楽器用の制御情報、あるいは、実際の演奏を録音した圧縮音声情報等を含んで構成された、カラオケの伴奏音を演奏するための情報である。歌詞情報は、歌唱補助のため、演奏情報に同期して表示される情報であり、演奏に同期して表示された歌詞の色替えを行うように構成してもよい。歌唱評価情報は、楽曲再生時において、ユーザーの歌唱音声を評価する情報であり、歌唱すべき旋律等を含んで構成される。楽曲再生時、歌唱評価を行う際には、マイクロホン43a、43bに入力される歌唱音声と、この歌唱評価情報を比較することで、採点値の算出等を行うことが可能である。
【0034】
2つめの種類(Bタイプ)の楽曲情報は、歌唱評価情報を含んでいない、例えば、CDに記録された楽曲等のように歌唱評価情報を有していない楽曲情報である。従来、このような楽曲情報の再生時には、歌唱評価情報を含んでいないため歌唱評価を行うことが困難であった。本実施形態のカラオケ装置2では、このような楽曲情報についても歌唱評価を行うことが可能となっている。
【0035】
図2(B)は、本実施形態の楽曲情報(Bタイプ)のデータ構成を示した図である。
図2(A)の楽曲情報と同様、楽曲情報は、楽曲情報に関連する各種情報を含んだメタ情報と、演奏や歌詞の表示といった各種処理を実行するための実情報を有している。メタ情報については
図2(A)の楽曲情報と同様であるため、ここでの説明は省略する。実情報には、伴奏音を含んだ音声情報(本発明における「伴奏音信号」に相当)、映像情報が含まれている。音声情報には、市販されるCDのように実際の演奏を録音した伴奏音が含まれている。また、伴奏音のみならず、歌手による歌唱音が含まれていてもよい。映像情報には、背景映像、伴奏音に同期して表示される歌詞が含まれている。本実施形態のカラオケ装置2は、歌唱評価情報が含まれない楽曲情報(Bタイプ)についても、音声情報(本発明における「伴奏音信号」に相当)を使用して歌唱評価を行うことが可能となっている。
【0036】
なお、歌唱評価情報を含まない楽曲情報(Bタイプ)としては、歌唱評価のために設けられた歌唱評価情報を含んでいない形態であれば、
図2(B)で説明した形態のみならず、各種形態を使用することが可能である。例えば、
図2(A)で説明した楽曲情報中、歌唱評価情報が含まれない楽曲情報もこれに含まれる。近年、カラオケシステムでは、カラオケ業者が用意した楽曲情報のみならず、ユーザーからインターネット等を介して投稿された楽曲情報を使用可能とするサービスが行われている。このような投稿された楽曲情報内の演奏情報は、
図2(A)に示す楽曲情報中、歌唱評価情報が含まれていないものが多数存在する。本実施形態のカラオケ装置2は、楽曲情報(Aタイプ)について、歌唱評価情報が含まれていない場合であっても歌唱評価を行うことが可能である。
【0037】
では、本実施形態のカラオケ装置2について歌唱評価を行う評価処理を含んだ楽曲再生処理について説明する。
図3は、本実施形態の楽曲再生処理を示すフロー図である。カラオケ装置2は、リモコン装置1、あるいは、タッチパネルモニター33等の入力部に対する操作に基づいて楽曲が予約される。
図2(C)は、予約操作に基づいてカラオケ装置2のメモリ27に記憶される予約情報のデータ構成である。予約情報は、楽曲情報を識別するための楽曲IDの他、予約したユーザーを示すユーザーID、予約時の音程設定に基づく音程設定値等が含まれている。
【0038】
カラオケ装置2は、メモリ27に記憶管理している予約テーブルをチェックし、再生の対象となる楽曲を確認する(S101)。次に再生する楽曲がある場合(S102:Yes)、予約情報中の楽曲IDに対応する楽曲情報を読み出して楽曲の再生を開始する(S103)。楽曲情報の再生期間中、ユーザーの歌唱を評価する標準評価処理(S105)、あるいは、評価処理(S200)が実行される。再生中の楽曲情報が、歌唱評価情報が含まれる楽曲情報(Aタイプ)と判断された場合(S104:Yes)、標準評価処理(S105)が実行される。この標準評価処理(S105)は、従来から行われている歌唱評価であって、楽曲情報に含まれる歌唱評価情報(主旋律情報)と、マイクロホン43a、43bから入力される歌唱音声信号とを比較し、採点値等の評価結果を算出する処理である。なお、標準評価処理(S105)は、従来からよく知られている処理であるため、ここでの詳細な説明は省略する。
【0039】
一方、再生中の楽曲情報が、歌唱評価情報が含まれない楽曲情報(Bタイプ)と判断された場合(S104:No)、評価処理(S200)が実行される。この評価処理(S200)は、本実施形態の特徴となる処理であって、歌唱評価情報(主旋律情報)が含まれていない楽曲情報に対しても歌唱評価を行うことが出来る処理である。この評価処理(S200)の詳細については後述する。Aタイプ、Bタイプの何れについても楽曲の再生が終了する(S106、S107:Yes)と、標準評価処理(S105)、あるいは、評価処理(S200)で判定された評価結果をモニター41等に表示することでユーザーの歌唱能力が通知される。そして、楽曲再生処理の先頭に戻り、次に再生の対象となる楽曲の確認が行われる。
【0040】
図4は、本実施形態の評価処理(S200)を示すフロー図である。
図3で説明したように本実施形態のカラオケ装置2は、歌唱評価情報(主旋律情報)を有していない楽曲情報に対しても歌唱評価を行うことが可能となっている。楽曲情報の再生期間中、評価処理(S200)が開始されると、楽曲情報中、音声情報の再生に伴って出力される伴奏音信号の取得が行われる。評価処理(S200)は、所定単位の長さ(例えば、数ミリ秒〜数百ミリ秒)毎に実行され、取得される伴奏音信号もこの所定単位の期間に相当する長さとなる。なお、所定単位の長さは、各種条件に応じて可変長とすることとしてもよい。
【0041】
次に、取得した伴奏音信号に基づきオクターブ内強度分布が算出される。
図5は、本実施形態のオクターブ内強度分布算出を説明するための図である。まず、取得した伴奏音信号に対し、フーリエ変換等の周波数解析を施すことで、周波数と強度の関係が算出される(S202)。
図5(A)は、伴奏音信号の周波数解析に基づいて算出された計測強度分布(本発明の「伴奏音スペクトル」に相当)を示した図である。なお、図面上、計測強度分布は曲線で示されているが、実際には計算機で取り扱い容易な離散値となっている。そして、本実施形態の計測強度分布は、対数周波数軸上、所定間隔でサンプリングされた値となっており、低域側の1オクターブ間と高域側のオクターブ間でサンプル数を揃え、低域側と高域側での周波数的な解像度を揃えるとともに、計算上の負荷軽減を図ることが可能である。なお、本実施形態のような対数周波数に代え、線形周波数を使用することも可能である。
【0042】
本実施形態では、この計測強度分布に対して破線で示す聴感特性を乗算することで聴感補正を行うこととしている(S203)。
図5(B)は、聴感特性で補正後の計測強度分布、すなわち、補正強度分布を示す図である。聴感補正は、実際の聞こえ易さを考慮した歌唱評価上の補正である。例えば、伴奏音信号中、ベースの音高は低いため聴覚的感度が落ちるためベースの音階を参照して歌唱することは少ない。一方、中域で鳴っている楽器は聴覚的感度が高いため、歌唱はその楽器の音高を受けやすくなる。聴覚補正を行うことで、聞こえ易さの影響の度合いを考慮した評価を行うことが可能となる。なお、本実施形態では、中域で荷重の高い聴感特性となっているが、このような形態のみならず各種形態を採用することが可能である。また、楽曲情報のジャンルに応じた聴感特性を使用することとしてもよい。楽曲情報のメタ情報を参照し、ジャンルに応じた聴感特性を使用することで、歌唱評価の精度向上を図ることが可能となる。
【0043】
そして、算出された補正強度分布をオクターブ毎に加算することでオクターブ内強度分布が算出される(S204)。本実施形態では、
図5(A)、
図5(B)に示されるように4つのオクターブにわたる周波数範囲となっている。この4つのオクターブを音名が重なるように加算することで1オクターブの範囲を有するオクターブ内強度分布が算出される。このオクターブ内強度分布は、伴奏音信号内のあらゆる音響特性を、1オクターブ内の音名に対応付けた情報といえ、このオクターブ内強度分布を、ユーザーが歌唱する歌唱音声信号の特性(歌唱音声特性)と比較することで、歌唱評価情報を有さない楽曲情報であっても、蓋然性の高い、もしくは、適切な歌唱評価を行うことが可能となっている。
【0044】
なお、オクターブ内強度分布は、最大値を1.0とする等の正規化を行うこととしてもよい。オクターブ内強度分布のレベルを使用して評価を行う場合、サビ部分等のように全体としてレベルが大きくなる区間では評価が高くなり、Aメロ等のように全体としてレベルが小さい区間において評価が低くなることが考えられる。オクターブ内強度分布の正規化を行うことで、楽曲内における評価格差の均衡を図ることが可能となる。
【0045】
次に、マイクロホン43a、43bから入力されるユーザーの歌唱音声信号に対する処理を説明する。評価処理中、マイクロホン43a、43bに入力された歌唱音声信号は、伴奏音信号と同様、評価の対象となる所定単位の長さ(例えば、数ミリ秒〜数百ミリ秒、但し、必ずしも伴奏音信号の長さと一致する必要は無い)が切り出される(S205)。この場合においても、所定単位の長さは、各種条件に応じて可変長とすることとしてもよい。そして、歌唱音声信号に対し、フーリエ変換等の周波数解析を施すことで、歌唱音声信号の歌唱音声特性が算出される(S206)。本実施形態では、算出された周波数特性上、ビブラート、しゃくり等、歌唱技巧による周波数の揺れを検出し、歌唱技巧が排除された歌唱音声特性を算出している(S207)。ビブラート、しゃくりといった歌唱技巧は、歌唱独自の効果であって、伴奏音信号には含まれていないことが多い。本実施形態では、伴奏音信号に基づくオクターブ内強度分布と、歌唱音声特性を比較することになるため、歌唱音声特性側の歌唱技巧を排除しておくことで、両者の対比を容易なものとし、歌唱評価の精度向上を図ることを可能としている。そして、歌唱技巧が排除された歌唱音声特性を音高変換することで、比較の対象となる歌唱音声信号の音高が算出される(S208)。この場合、例えば、歌唱音声特性中のレベルが最も高い周波数を歌唱音声信号の音高(歌唱音高)とすることが考えられる。ここで周波数の揺れによる歌唱技巧の検出は、従来、歌唱評価において行われている、ビブラート、しゃくり等、各種歌唱技巧の評価を使用して行うことが可能である。また、歌唱技巧の排除は、本実施形態のように音高変換を行う前に行うことに代え、音高変換後に、音高の時間的変化(揺れ)の特性から歌唱技巧を検出し、それを排除することとしてもよい。
【0046】
本実施形態の比較処理では、伴奏音信号に基づいて算出されたオクターブ内強度分布と、歌唱音声信号の音高を比較する比較処理(S209)を行うことで、評価の指標となる採点値が算出される。比較処理(S209)は、このような形態の他、伴奏音信号に基づいて算出されたオクターブ内強度分布と、歌唱音声信号を周波数解析して算出された歌唱音声特性を比較する各種形態を採用することが可能である。以下に、比較処理(S209)の一実施形態を説明する。
【0047】
図6は、本実施形態の比較処理(S209)を説明するための図である。
図6(A)は、ある時点(時刻t0)におけるオクターブ内強度分布を示す図である。
図6(B)は、歌唱音高の時間軸上の変化を示した図である。この実施形態では、時刻t0における歌唱音高(音階)に対応するオクターブ内強度分布上の強度(レベル)を瞬時採点値としている。これは、伴奏音信号内において、オクターブにかかわらず頻繁に出現する音階は、歌唱上もっともらしい、あるいは、適切な音階となることに基づくものである。したがって、頻繁に出現する音階は、オクターブ内強度分布中で強度(レベル)が高くなる。本実施形態では、このような比較処理(S209)を行うことで、歌唱音高が伴奏音信号中、頻繁に出現するものほど、瞬時採点値が高くなることとしている。
【0048】
比較処理(S209)で算出された比較採点値を積算することで採点値が算出される(S210)。楽曲情報の再生期間中、評価処理(S209)を繰り返し実行することで、楽曲全体の採点値が算出されることになる。楽曲の再生終了が判定された場合(S107:Yes)、評価処理(S200)の評価結果として算出された採点値をモニター41等に表示することで、歌唱したユーザーに対して歌唱能力としての採点値が通知される。
【0049】
比較処理(S209)には、
図6で説明した形態以外に各種形態を採用することが可能である。
図7は、他の実施形態の比較処理(S209)を説明するための図である。この実施形態では、時刻t0における歌唱音高(音階)に対応する、オクターブ内強度分布の所定区間の平均値を瞬時採点値としている。
図6で説明した形態では、オクターブ内強度分布の細かい周波数変化に追従しないとよい採点値を取ることができないが、この実施形態では、オクターブ内強度分布の所定区間で平均化されるため、音階的に即していればよい採点値を取得することが可能である。
【0050】
図8は、他の実施形態の比較処理(S209)を説明するための図である。この実施形態では、歌唱音高が安定している区間、例えば、歌唱音高の変動が所定範囲に収まる区間を使用して比較が行われる。まず、
図8(B)に示すように歌唱音高が安定している区間(時刻t0〜t1)が抽出され、その平均値(歌唱音高平均値)が算出される。この場合、同区間(時刻t0〜t1)のオクターブ内強度分布が算出され、オクターブ内強度上において、歌唱音高平均値に対応する強度(レベル)が判定され、区間採点値として算出される。この実施形態では、歌唱開始タイミングの多少のずれ、あるいは、瞬時的な歌唱の発声間違いによって、大幅に評価が下がることを抑制できる。
【0051】
図9は、他の実施形態の比較処理(S209)を説明するための図である。この実施形態では、
図8の場合と同様、歌唱音高が安定している区間、例えば、歌唱音高の変動が所定範囲に収まる区間を使用して比較が行われる。まず、
図9(B)に示すように歌唱音高が安定している区間(時刻t0〜t1)が抽出され、その区間(音高一定区間)内の最低歌唱音高と最高歌唱音高を示す音高変動幅が検出される。そして、オクターブ内強度分布上、検出した音高変動幅内の強度平均を算出することで時刻t0〜t1における区間採点値が採点される。この実施形態では、楽曲の音符内における変動幅を含めた評価を行うことが可能であり、また、歌唱タイミングや時間変動のわずかなずれで大幅に評価が下がることを抑制できる。
【0052】
以上、各種の比較処理(S209)について説明を行ったが、本発明に係る歌唱評価装置、歌唱評価プログラム、歌唱評価方法は、楽曲情報の再生に基づく伴奏音信号から算出されたオクターブ内強度分布と、歌唱音声信号から算出された歌唱音声特性とを比較することで歌唱表音声信号の評価を行う形態であれば、上述する各種の比較処理(S209)に限定されるものではなく、各種形態を採用することができる。
【0053】
また、
図3の楽曲再生処理では、楽曲情報が歌唱評価情報を含んでいない場合(Bタイプ)の場合に、本発明に係る歌唱評価を行う形態としているが、このような形態に限られるものではなく、例えば、各種項目に基づいて歌唱評価を行う際の1項目として本発明に係る歌唱評価を使用する形態であってもよい。その場合、楽曲情報が歌唱評価情報を含んでいるか含んでいないかは問われるものではない。
【0054】
以上、本発明についてカラオケシステムを用いて説明したが、本発明はカラオケシステムに限られるものではない。カラオケ装置内、あるいは、カラオケ装置外において歌唱評価を実行する歌唱評価装置についても本発明の範疇に属するものである。また、現在、スマートホンにカラオケ用アプリ(プログラム)をインストールすることで、スマートホンでカラオケを行う形態、あるいは、ゲーム機において実行されるカラオケ用プログラムもよく知られている。このような各種情報処理装置にインストールすることで、本発明の機能を実現するカラオケ用プログラムに実装された歌唱評価プログラムについても本発明の範疇に属するものである。さらに歌唱評価方法についても本発明の範疇に属することはいうまでもない。