(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-13
(45)【発行日】2022-10-21
(54)【発明の名称】カラオケ装置
(51)【国際特許分類】
G10K 15/04 20060101AFI20221014BHJP
G10L 15/04 20130101ALI20221014BHJP
G10L 25/90 20130101ALI20221014BHJP
【FI】
G10K15/04 302D
G10L15/04 300B
G10L25/90
(21)【出願番号】P 2019036320
(22)【出願日】2019-02-28
【審査請求日】2021-11-18
(73)【特許権者】
【識別番号】390004710
【氏名又は名称】株式会社第一興商
(74)【代理人】
【識別番号】110000176
【氏名又は名称】一色国際特許業務法人
(72)【発明者】
【氏名】橘 聡
【審査官】西村 純
(56)【参考文献】
【文献】特開2019-015761(JP,A)
【文献】特開2008-268370(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04-15/06
G10L 15/04-15/05
G10L 25/90
(57)【特許請求の範囲】
【請求項1】
カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定時間長のフレーム単位で歌唱ピッチを検出する歌唱ピッチ検出部と、
検出した前記歌唱ピッチを含む区間の中に、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する上昇区間と、当該上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす水平区間と、前記上昇区間から前記水平区間までの間に、第3の条件を満たすよう歌唱ピッチが下降する下降区間と、が存在し、且つ前記あるノートの時間長と、前記上昇区間及び前記下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、前記あるノートに対する逆V字アクセント歌唱が行われていると判定する逆V字アクセント歌唱判定部と、
を有するカラオケ装置。
【請求項2】
前記逆V字アクセント歌唱判定部は、
前記カラオケ楽曲に含まれるノートのうち、一のノートの時間長が第1の所定時間以上である場合、当該一のノートを前記あるノートとして特定し、
前記あるノートの発音開始タイミング近傍において検出された第1の歌唱ピッチのフレームから第1の所定数だけ後のフレームまでの間に、歌唱ピッチが第1の所定値以上、上昇し、且つ歌唱ピッチが上げ止まっている場合、前記第1の歌唱ピッチのフレームを開始時のフレームとし、前記上げ止まった時点における歌唱ピッチのフレームを終了時のフレームとする前記上昇区間を特定し、
前記終了時の歌唱ピッチ以降に検出された歌唱ピッチを比較し、連続する2つのフレームの歌唱ピッチのピッチ差が、第1の所定範囲内であり且つ第2の所定数以上連続し、更に、前記あるノートの基準ピッチと各フレームの歌唱ピッチのピッチ差が第2の所定範囲内である場合、その条件を満たす最初の歌唱ピッチのフレームを開始時のフレームとし、当該開
始時のフレームを基準として、前記第2の所定数だけ後の歌唱ピッチのフレームを終了時のフレームとする前記水平区間を特定し、
前記上昇区間の終了時のフレームから前記水平区間の開始時のフレームまで歌唱ピッチが下降し、且つ当該上昇区間の終了時のフレームと当該水平区間の開始時のフレームとのピッチ差が第2の所定値以上である場合、当該上昇区間の終了時のフレームから当該水平区間の開始時のフレームの直前のフレームまでを前記下降区間として特定し、
前記上昇区間及び前記下降区間に含まれるフレーム数に基づく時間長が、前記あるノートの時間長に対して所定割合以下である場合、前記
上昇区間、前記下降区間、及び前記水平区間が連続する区間を前記逆V字アクセント歌唱が行われている区間として判定することを特徴とする請求項1記載のカラオケ装置。
【請求項3】
前記あるノートの採点結果が不合格と判定された場合、且つ当該あるノートに対する前記逆V字アクセント歌唱が行われていると判定された場合、当該あるノートの採点結果を合格と判定する採点処理部を有することを特徴とする請求項1または2に記載のカラオケ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケ装置に関する。
【背景技術】
【0002】
カラオケ装置は、マイクにより入力された歌唱音声から抽出した歌唱音声データと、カラオケ演奏された楽曲の主旋律を示すリファレンスデータとを比較することにより、カラオケ歌唱の巧拙を採点する採点機能が搭載されている。
【0003】
たとえば、特許文献1には、カラオケ演奏に合わせてマイクから入力される歌唱音声信号から音高データ及び音長データを抽出し、カラオケ演奏に並行して読み出されるガイドメロディと比較することによって歌唱の巧拙を採点評価する技術が開示されている。
【0004】
また、歌唱者の中にはプロ歌手の歌唱を真似て、しゃくり、フォール、こぶし、シャウトなどの特殊な歌唱技法を用いて歌唱を行う者もいる。特許文献2~5には、このような特殊な歌唱技法を検出し、歌唱を評価する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開平10-69216号公報
【文献】特開2005-107336号公報
【文献】特開2008-225115号公報
【文献】特開2008-268370号公報
【文献】特開2012-078701号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、特殊な歌唱技法の一つとして、カラオケ歌唱の表現力を深めるために、あるノート(音符)について強調して歌唱する(カラオケ歌唱の音量を大きくして歌唱する)歌唱方法(以下、「アクセント歌唱」)が知られている。このようなアクセント歌唱を検出するためには、歌唱音声の音量レベルを取得し、音量レベルが所定値よりも大きくなったかどうかを判断することが考えられる。
【0007】
しかし、実際のカラオケ歌唱においては、カラオケ伴奏音のマイクへの回り込み(特にバスドラムやスネアの音)や、歌唱者とマイクとの距離が一定ではないこと等が原因となり、音量レベルが正確に得られない。従って、従来のカラオケ装置では、アクセント歌唱を判定することができなかった。
【0008】
また、聴感上の印象が異なる様々なアクセント歌唱が存在する。
【0009】
本発明の目的は、カラオケ歌唱に逆V字アクセント歌唱(後述)が含まれるかどうかを判定することが可能なカラオケ装置を提供することにある。
【課題を解決するための手段】
【0010】
本発明者は、聴感上、アクセント歌唱でありつつ、「切れがあり、明るい印象」を与えるカラオケ歌唱と判断される歌唱音声信号に含まれる歌唱ピッチを解析したところ、あるノートの発音開始タイミング近傍から歌唱ピッチが上昇した後に下降し、その後歌唱ピッチの変動が小さくなるという変化を示すことを見出した。本発明は、この発見に基づき、完成されたものであって、この歌唱独特のピッチの変化を検出することにより、この歌唱を特定することができる技術である。
【0011】
なお、このようなカラオケ歌唱による歌唱ピッチの推移は「逆V字」状になる。よって、このようなピッチ変化を示すアクセント歌唱を、以下「逆V字アクセント歌唱」という。
【0012】
具体的に、上記目的を達成するための発明は、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定時間長のフレーム単位で歌唱ピッチを検出する歌唱ピッチ検出部と、検出した前記歌唱ピッチを含む区間の中に、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する上昇区間と、当該上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす水平区間と、前記上昇区間から前記水平区間までの間に、第3の条件を満たすよう歌唱ピッチが下降する下降区間と、が存在し、且つ前記あるノートの時間長と、前記上昇区間及び前記下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、前記あるノートに対する逆V字アクセント歌唱が行われていると判定する逆V字アクセント歌唱判定部と、を有するカラオケ装置である。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。
【発明の効果】
【0013】
本発明によれば、カラオケ歌唱に逆V字アクセント歌唱が含まれるかどうかを判定することができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係るカラオケ装置のハードウェア構成例を示す図である。
【
図2】実施形態に係るカラオケ本体のソフトウェア構成例を示す図である。
【
図3】実施形態に係る逆V字アクセント歌唱の判定処理を示すフローチャートである。
【
図4】実施形態に係るフレーム単位の演奏時間、基準ピッチ、歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び最初に検出された歌唱ピッチとその後のフレームで検出された歌唱ピッチとのピッチ差を示した図である。
【
図5】実施形態に係るフレーム単位の演奏時間、基準ピッチ、歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び基準ピッチと検出された歌唱ピッチとのピッチ差を示した図である。
【
図6】実施形態に係るフレーム単位の演奏時間、基準ピッチ、歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び上昇区間の終了時の歌唱ピッチとその後のフレームで検出された歌唱ピッチとのピッチ差を示した図である。
【
図7】実施形態に係る一のノートと歌唱ピッチとの関係を示した図である。
【発明を実施するための形態】
【0015】
<実施形態>
図1~
図7を参照して、実施形態に係るカラオケ装置1について説明する。
【0016】
==カラオケ装置==
カラオケ装置1は、カラオケ演奏及び歌唱者がカラオケ歌唱を行うための装置である。カラオケ装置1は、歌唱者が選曲したカラオケ楽曲を予約待ち行列に登録し、順番にカラオケ演奏を行う。
図1に示すように、カラオケ装置1は、カラオケ本体10、スピーカ20、表示装置30、マイク40、及びリモコン装置50を備える。
【0017】
スピーカ20はカラオケ本体10からの放音信号に基づいて放音するための構成である。表示装置30はカラオケ本体10からの信号に基づいて映像や画像を画面に表示するための構成である。マイク40は歌唱者の歌唱音声(マイク40への入力音声)をアナログの歌唱音声信号に変換してカラオケ本体10に入力するための構成である。リモコン装置50は、カラオケ本体10に対する各種操作をおこなうための装置である。歌唱者はリモコン装置50を用いて歌唱を希望するカラオケ楽曲の選曲(予約)等を行うことができる。リモコン装置50の表示画面には各種操作の指示入力を行うためのアイコン等が表示される。
【0018】
カラオケ本体10は、選曲されたカラオケ楽曲の演奏制御、歌詞や背景映像等の表示制御、マイク40を通じて入力された歌唱音声信号の処理といった、カラオケ歌唱に関する各種の制御を行う。
図1に示すように、カラオケ本体10は、制御部11、通信部12、記憶部13、音響処理部14、表示処理部15、及び操作部16を備える。各構成はインターフェース(図示なし)を介してバスBに接続されている。
【0019】
制御部11は、CPU11aおよびメモリ11bを備える。CPU11aは、メモリ11bに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリ11bは、CPU11aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。
【0020】
通信部12は、ルーター(図示なし)を介してカラオケ本体10を通信回線に接続するためのインターフェースを提供する。
【0021】
記憶部13は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部13は、カラオケ装置1によりカラオケ演奏を行うための複数の楽曲データを記憶する。
【0022】
楽曲データは、個々のカラオケ楽曲を特定するための楽曲IDが付与されている。楽曲データは、伴奏データ、リファレンスデータ等を含む。伴奏データは、カラオケ演奏音の元となるデータである。伴奏データはカラオケ演奏をする際のテンポを示す情報を含む。テンポは、楽曲毎に所定の値が設定されている。リファレンスデータは、歌唱者によるカラオケ歌唱を採点する際の基準として用いられるデータである。リファレンスデータは、複数のノート(音符)から構成され、ノート毎に所定のピッチ(基準ピッチ)が設定されている。また、リファレンスデータは、ノート毎に、ノートオンイベントデータ及びノートオフイベントデータを含む。ノートオンイベントデータは、ノートの発音を表すデータであり、ノートオフイベントデータは、ノートの消音を表すデータである。
【0023】
また、記憶部13は、各カラオケ楽曲に対応する歌詞を表示装置30等に表示させるための歌詞テロップデータ、カラオケ演奏時に表示装置30等に表示される背景画像等の背景画像データ、楽曲毎のカラオケ演奏時間を示す演奏時間データ及び楽曲の属性情報(歌手名、作詞・作曲者名、ジャンル等の当該楽曲に関する情報)を記憶する。
【0024】
音響処理部14は、制御部11の制御に基づき、カラオケ楽曲に対する演奏の制御およびマイク40を通じて入力された歌唱音声信号の処理を行う。表示処理部15は、制御部11の制御に基づき、表示装置30やリモコン装置50における各種表示に関する処理を行う。たとえば、表示処理部15は、カラオケ楽曲の演奏時における背景映像に歌詞テロップや各種アイコンが重ねられた映像を表示装置30に表示させる制御を行う。或いは、表示処理部15は、リモコン装置50の表示画面に操作入力用の各種アイコンを表示させる。操作部16は、パネルスイッチおよびリモコン受信回路などからなり、歌唱者によるカラオケ装置1のパネルスイッチあるいはリモコン装置50の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部11に対して出力する。制御部11は、操作部16からの操作信号を検出し、対応する処理を実行する。
【0025】
(ソフトウェア構成)
図2はカラオケ本体10のソフトウェア構成例を示す図である。カラオケ本体10は、歌唱ピッチ検出部100、逆V字アクセント歌唱判定部200、提示部300、及び採点処理部400を備える。歌唱ピッチ検出部100、逆V字アクセント歌唱判定部200、提示部300、及び採点処理部400は、CPU11aがメモリ11bに記憶されるプログラムを実行することにより実現される。
【0026】
[歌唱ピッチ検出部]
歌唱ピッチ検出部100は、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定時間長のフレーム単位で歌唱ピッチを検出する。
【0027】
歌唱ピッチは、所定時間長(たとえば10~20msec)のフレーム単位で1サンプルずつ時系列に検出する。たとえば、所定時間長が12msecの場合、歌唱ピッチ検出部100は、12msecを一のフレームとして、歌唱ピッチの検出を行う。歌唱ピッチ検出部100は、歌唱音声信号を解析して検出した歌唱ピッチを、対応するノートの基準ピッチと対応付けて記憶部13に記憶させる。ノートの基準ピッチは、リファレンスデータに含まれるノートオンイベントデータに基づいて特定される。
【0028】
記憶部13は、検出した歌唱ピッチ及び対応するノートの基準ピッチを、カラオケ演奏の開始からの経過時間と共に記憶する。すなわち、検出した歌唱ピッチ及び対応するノートの基準ピッチは、フレーム単位で記憶されている。
【0029】
なお、歌唱ピッチの検出は、カラオケ楽曲の歌唱に伴って順次行ってもよいし、一のカラオケ楽曲の歌唱が全て終了した後にまとめて行ってもよい。
【0030】
[逆V字アクセント歌唱判定部]
逆V字アクセント歌唱判定部200は、検出した歌唱ピッチを含む区間の中に、第1の条件を満たす上昇区間、第2の条件を満たす水平区間、第3の条件を満たす下降区間が存在し、且つあるノートの時間長と上昇区間及び下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、あるノートに対する逆V字アクセント歌唱が行われていると判定する。
【0031】
上昇区間は、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する区間である。第1の条件は、上昇区間を特定するための条件である。第1の条件は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の条件が設定されている。具体的に、第1の条件は、あるノートの発音開始タイミング近傍において検出された第1の歌唱ピッチのフレームから第1の所定数だけ後のフレームまでの間に、歌唱ピッチが第1の所定値以上、上昇し、且つ歌唱ピッチが上げ止まっているかどうかである(詳細は後述)。
【0032】
水平区間は、上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす区間である。第2の条件は、水平区間を特定するための条件である。第2の条件は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の条件が設定されている。具体的に、第2の条件は、上昇区間の終了時の歌唱ピッチ以降に検出された歌唱ピッチを比較し、連続する2つのフレームの歌唱ピッチのピッチ差が、第1の所定範囲内であり且つ第2の所定数以上連続し、更に、あるノートの基準ピッチと各フレームの歌唱ピッチのピッチ差が第2の所定範囲内であるかどうかである(詳細は後述)。
【0033】
下降区間は、上昇区間から水平区間までの間の区間であって、第3の条件を満たすよう歌唱ピッチが下降する区間である。第3の条件は、下降区間を特定するための条件である。第3の条件は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の条件が設定されている。具体的に、第3の条件は、上昇区間の終了時のフレームから水平区間の開始時のフレームまで歌唱ピッチが下降し、且つ当該上昇区間の終了時のフレームと当該水平区間の開始時のフレームとのピッチ差が第2の所定値以上であるかどうかである(詳細は後述)。
【0034】
第4の条件は、あるノートの時間長と上昇区間及び下降区間に含まれるフレーム数に応じた時間長との関係を規定するための条件である。
【0035】
あるノートの時間長は、当該あるノートに含まれる基準ピッチのフレーム数、及び各フレームの時間によって決定される値である。たとえば、あるノートについて、12msecのフレームが15フレーム存在する場合、当該あるノートの時間長は、180msecとなる。
【0036】
上昇区間及び下降区間に含まれるフレーム数に応じた時間長は、上昇区間及び下降区間で検出された歌唱ピッチのフレーム数、及び各フレームの時間によって決定される値である。たとえば、ある上昇区間及び下降区間について、12msecのフレームが7フレーム存在する場合、当該ある上昇区間及び下降区間に含まれるフレーム数に応じた時間長は、84msecとなる。
【0037】
第4の条件は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の条件が設定されている。具体的に、第4の条件は、上昇区間及び下降区間に含まれるフレーム数に基づく時間長が、あるノートの時間長に対して所定割合以下であるかどうかである(詳細は後述)。
【0038】
ここで、
図3~
図7を参照して、逆V字アクセント歌唱の判定処理について詳細に説明を行う。
図3は、逆V字アクセント歌唱の判定処理を示すフローチャートである。
図4は、カラオケ楽曲Xの各ノートに対するフレーム単位の演奏時間、各ノートの基準ピッチBP、カラオケ楽曲Xの歌唱により得られた歌唱音声信号を解析して検出された歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び最初に検出された歌唱ピッチP(1)とその後のフレームで検出された歌唱ピッチとのピッチ差を示した図である。
図5は、カラオケ楽曲Xの各ノートに対するフレーム単位の演奏時間、各ノートの基準ピッチBP、カラオケ楽曲Xの歌唱により得られた歌唱音声信号を解析して検出された歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び基準ピッチBPと検出された歌唱ピッチとのピッチ差を示した図である。
図6は、カラオケ楽曲Xの各ノートに対するフレーム単位の演奏時間、各ノートの基準ピッチBP、カラオケ楽曲Xの歌唱により得られた歌唱音声信号を解析して検出された歌唱ピッチ、連続する2つのフレームの歌唱ピッチのピッチ差、及び上昇区間の終了時の歌唱ピッチとその後のフレームで検出された歌唱ピッチとのピッチ差を示した図である。なお。
図4~
図6において一のフレームの所定時間は12msecである。また、一のノートには、30フレーム含まれているとする。
図7は、一のノートと歌唱ピッチの推移との関係を示した図である。
図7における縦軸は歌唱ピッチを示し、横軸は時刻を示すが、横軸は連続する時間長(たとえば12msec)のフレームと解してもよく、一フレーム毎に歌唱ピッチが検出される。開始時刻TsはノートNの発音開始タイミングであり、終了時刻TeはノートNの発音終了タイミングである。ノートの発音開始タイミングは、カラオケ楽曲の演奏開始時点を0とした場合の、当該ノートまでの経過時間に相当する。
【0039】
以下の説明において、ノートNに対する逆V字アクセント歌唱が行われているかどうかを判定する際に用いる最初の歌唱ピッチP(1)は、ノートNの発音開始タイミングよりも所定数だけ前のフレームで検出された歌唱ピッチ(ノートNよりも前のノートN-1の時点で検出された歌唱ピッチ)であるとする。この歌唱ピッチP(1)は、ノートNの発音開始タイミング近傍において検出した歌唱ピッチに相当する。歌唱ピッチP(1)は「第1の歌唱ピッチ」の一例である。所定数は、たとえば、10フレーム前等、予め任意の値を設定することができる。また、この例においては、ノートNの発音開始タイミングよりも10フレーム前から歌唱ピッチの検出を行った結果、7フレーム前に歌唱ピッチが検出された例を示している。すなわち、歌唱ピッチP(1)は、ノートNの発音開始タイミングよりも7フレーム前に検出された歌唱ピッチとなっている。
【0040】
図4~
図6の例において、ピッチ差はcent値で示す。なお、cent値は相対値であるが、以下の説明においては歌唱ピッチを絶対値として表現するために、音階C4(周波数261.626Hz)を6000centと定義する。また基準ピッチが0の部分は、非歌唱区間(カラオケ歌唱用の歌詞が付与されていない区間)であり、歌唱ピッチが0の部分は歌唱ピッチが検出できなかったものとする。
【0041】
まず、逆V字アクセント歌唱判定部200は、カラオケ楽曲に含まれるノートのうち、一のノートの時間長が第1の所定時間以上かどうかを判定する。
【0042】
具体的に、逆V字アクセント歌唱判定部200は、一のノートのノートオンイベントデータに基づいて当該一のノートの時間長を取得する。逆V字アクセント歌唱判定部200は、取得した時間長が第1の所定時間以上であった場合、当該一のノートをあるノートとして特定する。第1の所定時間は、一のノートを逆V字アクセント歌唱の検出対象とするかどうかを判定するための値である。たとえば、第1の所定時間は、150msec~300msecである。この例では、第1の所定時間が180msecであるとして説明する。
【0043】
ここで、
図4の例において、ノートNの時間長は、30フレーム×12msec=360msecとなっている。よって、逆V字アクセント歌唱判定部200は、ノートNを逆V字アクセント歌唱の検出対象として特定する(逆V字アクセント歌唱の検出対象となるノートの特定。ステップ10)。なお、一のノートの時間長が第1の所定時間よりも短い場合、逆V字アクセント歌唱判定部200は、以下の処理を行わない。
【0044】
次に、逆V字アクセント歌唱判定部200は、あるノートの発音開始タイミング近傍において検出された第1の歌唱ピッチのフレームから第1の所定数だけ後のフレームまでの間に、歌唱ピッチが第1の所定値以上、上昇し、且つ歌唱ピッチが上げ止まっている場合、第1の歌唱ピッチのフレームを開始時のフレームとし、上げ止まった時点における歌唱ピッチのフレームを終了時のフレームとする上昇区間を特定する(上昇区間の特定。ステップ11)。
【0045】
第1の所定数及び第1の所定値は、上昇区間を特定するための値である。第1の所定数は、上昇区間を特定するにあたり、最低限必要な歌唱ピッチのフレーム数である。第1の所定値は、上昇区間を特定するにあたり、最低限必要な歌唱ピッチの上昇値である。第1の所定数及び第1の所定値は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、第1の所定数は6~10であり、第1の所定値は+60~+100centである。この例では第1の所定数を「6」とし、第1の所定値を「+70cent」として説明する。歌唱ピッチの上げ止まりは、上昇区間を特定するための条件である。具体的に、歌唱ピッチの上げ止まりは、一のフレームの歌唱ピッチが次のフレームの歌唱ピッチよりも大きいかどうかで判定する。一のフレームの歌唱ピッチが次のフレームの歌唱ピッチよりも大きい場合、一のフレームが上昇区間の終了時のフレームに相当する。第1の所定数、第1の所定値、及び歌唱ピッチの上げ止まりは「第1の条件」の一部である。
【0046】
具体的に、逆V字アクセント歌唱判定部200は、ノートNの発音開始タイミング近傍において検出された歌唱ピッチP(1)のフレームから歌唱ピッチP(7)のフレームまで順次、歌唱ピッチを参照し、歌唱ピッチが第1の所定値「+70cent」以上上昇しているかどうか、及び歌唱ピッチが上げ止まっているかどうかを判定する。
【0047】
図4の例によれば、歌唱ピッチP(5)のフレームにおいて、歌唱ピッチP(1)から「+90cent」歌唱ピッチが上昇している。また、歌唱ピッチP(6)の値「6073cent」が次のフレームの歌唱ピッチP(7)の値「6069cent」よりも大きくなっている。
【0048】
よって、逆V字アクセント歌唱判定部200は、歌唱ピッチP(1)のフレームを開始時のフレームとし、歌唱ピッチP(6)のフレームを終了時のフレームとする上昇区間RZを特定する。
【0049】
次に、逆V字アクセント歌唱判定部200は、上昇区間RZの終了時の歌唱ピッチ以降に検出された歌唱ピッチを比較し、連続する2つのフレームの歌唱ピッチのピッチ差が、第1の所定範囲内であり且つ第2の所定数以上連続し、更に、あるノートの基準ピッチと各フレームの歌唱ピッチのピッチ差が第2の所定範囲内である場合、その条件を満たす最初の歌唱ピッチのフレームを開始時のフレームとし、当該開始時のフレームを基準として、第2の所定数だけ後の歌唱ピッチのフレームを終了時のフレームとする水平区間を特定する(水平区間の特定。ステップ12)。
【0050】
第1の所定範囲、第2の所定数、及び第2の所定範囲は、水平区間を特定するための値である。第1の所定範囲は、水平区間を特定するにあたり、許容可能な連続する2つのフレームの歌唱ピッチのずれの幅である。第2の所定数は、水平区間を特定するにあたり、最低限必要な、所定範囲内に含まれるピッチ差の歌唱ピッチが連続する数である。第2の所定範囲は、水平区間を特定するにあたり、許容可能なあるノートの基準ピッチと各フレームの歌唱ピッチとのずれの幅である。第1の所定範囲、第2の所定数、及び第2の所定範囲は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、第1の所定範囲は±1cent~±12centであり、第2の所定数は3~5である。第2の所定範囲は±15cent~±25centである。この例では第1の所定範囲を±5centとし、第2の所定数を「5」とし、第2の所定範囲を±20centとして説明する。第1の所定範囲、第2の所定数、及び第2の所定範囲は「第2の条件」の一部である。
【0051】
具体的に、逆V字アクセント歌唱判定部200は、上昇区間RZの終了時のフレームにおける歌唱ピッチP(6)以降に検出された歌唱ピッチを比較し、連続する2つのフレームの歌唱ピッチのピッチ差が、±5cent以内であり且つ5つ以上連続し、ノートNの基準ピッチBPと各フレームの歌唱ピッチP(n)とのピッチ差が±20cent以内であるかどうかを判定する。
【0052】
図5の例によれば、歌唱ピッチP(13)のフレームと歌唱ピッチP(14)のフレームとのピッチ差(-4cent)においてピッチ差が±5cent以内となり、ピッチ差が±5cent以内となる状態が、少なくとも歌唱ピッチP(17)のフレームと歌唱ピッチP(18)のフレームとのピッチ差まで5つ連続している。更に、基準ピッチBPと、歌唱ピッチP(13)のフレームから歌唱ピッチP(17)のフレームまでの各歌唱ピッチとのピッチ差は、±20cent以内となっている。
【0053】
よって、逆V字アクセント歌唱判定部200は、歌唱ピッチP(13)のフレームを開始時のフレームとし、歌唱ピッチP(17)のフレームを終了時のフレームとする水平区間HZを特定する。
【0054】
次に、逆V字アクセント歌唱判定部200は、上昇区間の終了時のフレームから水平区間の開始時のフレームまで歌唱ピッチが下降し、且つ当該上昇区間の終了時のフレームと当該水平区間の開始時のフレームとのピッチ差が第2の所定値以上である場合、当該上昇区間の終了時のフレームから当該水平区間の開始時のフレームの直前のフレームまでを下降区間として特定する(下降区間の特定。ステップ13)。
【0055】
第2の所定値は、下降区間を特定するための値である。第2の所定値は、下降区間を特定するにあたり、最低限必要な歌唱ピッチの下降値である。第2の所定値は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、第2の所定値は-60~-100centである。この例では第2の所定値を「-70cent」として説明する。第2の所定値は「第3の条件」の一部である。
【0056】
具体的に、逆V字アクセント歌唱判定部200は、上昇区間RZの終了時のフレームにおける歌唱ピッチP(6)から水平区間HZの開始時のフレームにおける歌唱ピッチP(13)まで歌唱ピッチが下降し、且つ歌唱ピッチP(6)と歌唱ピッチP(13)のピッチ差が-70cent以上であるかどうかを判定する。
【0057】
図6の例によれば、歌唱ピッチP(6)から歌唱ピッチP(13)まで歌唱ピッチは下降し、歌唱ピッチP(6)と歌唱ピッチP(13)のピッチ差は、-74centとなっている。
【0058】
よって、逆V字アクセント歌唱判定部200は、歌唱ピッチP(6)のフレームを開始時のフレームとし、水平区間HZの開始時のフレームP(13)の直前のフレームである歌唱ピッチP(12)のフレームを、終了時のフレームとする下降区間DZとして特定する。
【0059】
最後に、逆V字アクセント歌唱判定部200は、上昇区間及び下降区間に含まれるフレーム数に基づく時間長が、あるノートの時間長に対して所定割合以下である場合、上昇区間、下降区間、及び水平区間が連続する区間を逆V字アクセント歌唱が行われている区間として判定する(逆V字アクセント歌唱の判定。ステップ14)。
【0060】
所定割合は、ステップ11~ステップ13で特定された各区間が、逆V字アクセント歌唱が行われている区間に相当するかどうかを特定するための値である。所定割合は、逆V字アクセント区間を特定するにあたり、最低限必要なあるノートの時間長に対する上昇区間及び下降区間に含まれるフレーム数に基づく時間長の割合である。所定割合は、特定する逆V字アクセント歌唱の程度に応じて、予め任意の値が設定されている。たとえば、所定割合は40%~60%である。この例では所定割合を「50%」として説明する。所定割合は「第4の条件」の一部である。
【0061】
具体的に、逆V字アクセント歌唱判定部200は、上昇区間RZ及び下降区間DZに含まれるフレーム数(12個)に基づく時間長(144msec。所定時間長は12msec)が、ノートNの時間長(360msec)に対して50%以下であるかどうかを判定する。
【0062】
図4~
図6の例によれば、上昇区間RZ及び下降区間DZに含まれるフレーム数(12個)に基づく時間長(144msec)は、ノートNの時間長(360msec)に対して40%となっている。
【0063】
よって、逆V字アクセント歌唱判定部200は、上
昇区間RZ、下降区間DZ、及び水平区間HZが連続する区間(歌唱ピッチP(1)のフレームから歌唱ピッチP(17)のフレームまでの区間)を逆V字アクセント歌唱が行われている区間として判定する。
図7の例によると、特定された上昇区間RZ、下降区間DZ、及び水平区間HZが、逆V字アクセント歌唱による歌唱区間となる。
【0064】
なお、上昇区間、下降区間、または水平区間を特定できない場合、逆V字アクセント歌唱判定部200は、ノートNについては逆V字アクセント歌唱が行われていないと判定する。
【0065】
[提示部]
提示部300は、逆V字アクセント歌唱判定部200による判定結果を歌唱者に提示する。たとえば、ノートNに対する逆V字アクセント歌唱が行われたとの判定結果が入力された場合、提示部300は、表示装置30に表示されるノートNに対応するガイドメロディ画像近傍に逆V字アクセント歌唱が行われた旨のアイコンを表示させることができる。ガイドメロディ画像は、歌唱者のカラオケ歌唱を支援するために、カラオケ楽曲のメロディを画像として表示させたものである。ガイドメロディ画像の表示については公知の手法を用いることが可能である(たとえば特開2004-205817号公報参照)。
【0066】
なお、提示部300は、ガイドメロディ画像と関係なく、逆V字アクセント歌唱が行われた旨のアイコンのみを表示させることもできる。或いは、提示部300は、逆V字アクセント歌唱が行われた旨のアイコンを表示させる代わりにスピーカ20を介して音声(拍手、歓声等)で逆V字アクセント歌唱が行われた旨を報知することでもよい。
【0067】
[採点処理部]
採点処理部400は、カラオケ楽曲の歌唱により得られる歌唱音声信号を当該カラオケ楽曲のリファレンスデータと比較し、採点値を算出する。採点値を算出する処理は公知の手法を用いることができる。たとえば、採点処理部400は、マイク40から入力された歌唱音声信号に基づく歌唱ピッチと、リファレンスデータに基づく基準ピッチにより、歌唱音程の正確さについての採点処理を行う。
【0068】
ここで、本実施形態に係る採点処理部400は、あるノートの採点結果が不合格と判定された場合、且つ当該あるノートに対する逆V字アクセント歌唱が行われていた場合、当該あるノートの採点結果を合格と判定する。
図7に示すように、逆V字アクセント歌唱は、ノートの基準ピッチとのずれが大きくなるため、一般的な採点処理によれば、不合格となる可能性が高い。そこで、採点処理部400は、あるノートの採点結果が不合格となった場合であっても、逆V字アクセント歌唱判定部200により、当該あるノートに対して逆V字アクセント歌唱が行われたと判定された場合には、当該あるノートを合格として判定する。
【0069】
以上から明らかなように、本実施形態に係るカラオケ装置1は、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定時間長のフレーム単位で歌唱ピッチを検出する歌唱ピッチ検出部100と、検出した歌唱ピッチを含む区間の中に、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する上昇区間と、当該上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす水平区間と、上昇区間から水平区間までの間に、第3の条件を満たすよう歌唱ピッチが下降する下降区間と、が存在し、且つあるノートの時間長と、上昇区間及び下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、あるノートに対する逆V字アクセント歌唱が行われていると判定する逆V字アクセント歌唱判定部200と、を有する。このようなカラオケ装置1によれば、カラオケ歌唱に逆V字アクセント歌唱が含まれるかどうかを判定することができる。
【0070】
より、具体的に、逆V字アクセント歌唱判定部200は、カラオケ楽曲に含まれるノートのうち、一のノートの時間長が第1の所定時間以上である場合、当該一のノートをあるノートとして特定し、あるノートの発音開始タイミング近傍において検出された第1の歌唱ピッチのフレームから第1の所定数だけ後のフレームまでの間に、歌唱ピッチが第1の所定値以上、上昇し、且つ歌唱ピッチが上げ止まっている場合、第1の歌唱ピッチのフレームを開始時のフレームとし、上げ止まった時点における歌唱ピッチのフレームを終了時のフレームとする上昇区間を特定し、終了時の歌唱ピッチ以降に検出された歌唱ピッチを比較し、連続する2つのフレームの歌唱ピッチのピッチ差が、第1の所定範囲内であり且つ第2の所定数以上連続し、更に、あるノートの基準ピッチと各フレームの歌唱ピッチのピッチ差が第2の所定範囲内である場合、その条件を満たす最初の歌唱ピッチのフレームを開始時のフレームとし、当該開始時のフレームを基準として、第2の所定数だけ後の歌唱ピッチのフレームを終了時のフレームとする水平区間を特定し、上昇区間の終了時のフレームから水平区間の開始時のフレームまで歌唱ピッチが下降し、且つ当該上昇区間の終了時のフレームと当該水平区間の開始時のフレームとのピッチ差が第2の所定値以上である場合、当該上昇区間の終了時のフレームから当該水平区間の開始時のフレームの直前のフレームまでを下降区間として特定し、上昇区間及び下降区間に含まれるフレーム数に基づく時間長が、あるノートの時間長に対して所定割合以下である場合、上昇区間、下降区間、及び水平区間が連続する区間を逆V字アクセント歌唱が行われている区間として判定する。逆V字アクセント歌唱判定部200がこのような処理を実行することにより、カラオケ歌唱に逆V字アクセント歌唱が含まれるかどうかを判定することができる。
【0071】
更に、本実施形態に係るカラオケ装置1は、あるノートの採点結果が不合格と判定された場合、且つ当該あるノートに対する逆V字アクセント歌唱が行われていた場合、当該あるノートの採点結果を合格と判定する採点処理部400を有する。このようなカラオケ装置によれば、逆V字アクセント歌唱という歌唱技法が用いられたにも関わらず、それが反映されない採点結果となることを回避できる。
【0072】
<その他>
上記実施形態で説明した逆V字アクセント歌唱の判定処理等をプログラムとして提供することも可能である。たとえば、当該プログラムは、コンピューター(たとえば、カラオケ装置)に、カラオケ楽曲の歌唱により得られた歌唱音声信号から、所定時間長のフレーム単位で歌唱ピッチを検出させ、検出された歌唱ピッチを含む区間の中に、あるノートの発音開始タイミング近傍において検出された歌唱ピッチから第1の条件を満たすよう歌唱ピッチが上昇する上昇区間と、当該上昇区間よりも後の区間であって、連続する2つのフレームの歌唱ピッチのピッチ差が第2の条件を満たす水平区間と、上昇区間から水平区間までの間に、第3の条件を満たすよう歌唱ピッチが下降する下降区間と、が存在し、且つあるノートの時間長と、上昇区間及び下降区間に含まれるフレーム数に応じた時間長とが第4の条件を満たす場合、あるノートに対する逆V字アクセント歌唱が行われていると判定させる。
【0073】
また、上記プログラムが記憶された非一時的なコンピューター可読媒体(non-transitory computer readable medium with an executable program thereon)を用いて、コンピューターにプログラムを供給することも可能である。なお、非一時的なコンピューターの可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、CD-ROM(Read Only Memory)等がある。
【0074】
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0075】
1 カラオケ装置
10 カラオケ本体
11 制御部
100 歌唱ピッチ検出部
200 逆V字アクセント歌唱判定部
300 提示部
400 採点処理部