(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0016】
図1は、本発明の歌唱音声評価装置を備えたカラオケシステムの構成を示す図である。カラオケシステムは、インターネット等のネットワーク2を介して接続されるサーバ1と、複数のカラオケ店舗3と、複数の評価者端末4と、からなる。
【0017】
各カラオケ店舗3には、ネットワーク2に接続されるルータ等の中継機5と、中継機5を介してネットワーク2に接続される複数のカラオケ装置7が設けられている。中継機5は、カラオケ店舗3の管理室内等に設置されている。複数台のカラオケ装置7は、それぞれ個室(カラオケボックス)に1台ずつ設置されている。また、各カラオケ装置7には、それぞれリモコン9が設置されている。
【0018】
評価者端末4は、PCやスマートフォン等の情報処理端末である。評価者端末4のユーザは、サーバ1に蓄積されている事前歌唱音声データ(各カラオケ装置7で歌唱者が歌唱した結果)を評価する。本実施形態では、各カラオケ装置7で歌唱を行うと、当該歌唱者の歌唱音声がサーバ1に送信され、人的評価待ちの事前歌唱音声データとなる。評価者端末4のユーザは、この事前歌唱音声データの歌唱音声を聴き、得点を付与する。この人的評価が事前歌唱音声データに登録されてサーバ1に蓄積される。そして、後に同じ曲を歌唱した歌唱者の歌唱音声がサーバ1に送信されたとき、サーバ1は、受信した現在の歌唱データと事前歌唱音声データとを比較し、類似する事前歌唱音声データを抽出して、当該抽出した事前歌唱音声データにおける人的評価を現在の歌唱音声における採点結果に反映させる。
【0019】
図2は、カラオケ装置7の構成を示すブロック図である。カラオケ装置7は、装置全体の動作を制御するCPU11、および当該CPU11に接続される各種構成部からなる。CPU11には、RAM12、HDD13、ネットワークインタフェース(I/F)14、LCD(タッチパネル)15、A/Dコンバータ17、音源18、ミキサ(エフェクタ)19、MPEG等のデコーダ22、表示処理部23、操作部25、および送受信部26が接続されている。
【0020】
HDD13は、CPU11の動作用プログラムが記憶されている。ワークメモリであるRAM12には、CPU11の動作用プログラムを実行するために読み出すエリア、カラオケ曲を演奏するために楽曲データを読み出すエリア、予約リストや採点結果等のデータを一時記憶するエリア、等が設定される。また、HDD13は、カラオケ曲を演奏するための楽曲データを記憶している。さらに、HDD13は、モニタ24に背景映像を表示するための映像データも記憶している。映像データは動画、静止画の両方を記憶している。楽曲データや映像データは、定期的にサーバ1(または他の配信センタ)から配信され、更新される。
【0021】
CPU11は、カラオケ装置7を統括的に制御する制御部であり、機能的にシーケンサを内蔵し、カラオケ演奏を行う。また、CPU11は、音声信号生成処理、映像信号生成処理、機械採点処理、および人的評価利用採点処理を行う。
【0022】
タッチパネル15および操作部25は、カラオケ装置7の前面に設けられている。CPU11は、タッチパネル15から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル15上に表示し、GUIを実現する。また、リモコン9も同様のGUIを実現するものである。CPU11は、タッチパネル15、操作部25、または送受信部26を介してリモコン9から入力される操作情報に基づいて、各種の動作を行う。例えば、ユーザがタッチパネル15、操作部25、またはリモコン9を用いて人的評価利用採点の開始指示を行うと、CPU11は、人的評価利用採点処理を開始する。人的評価利用採点処理の詳細は後述する。
【0023】
次に、カラオケ演奏を行うための構成について説明する。上述したように、CPU11は、機能的にシーケンサを内蔵している。CPU11は、RAM12の予約リストに登録された予約曲の曲番号に対応する楽曲データをHDD13から読み出し、シーケンサでカラオケ演奏を行う。
【0024】
楽曲データは、例えば
図3に示すように、曲番号等が書き込まれているヘッダ、演奏用MIDIデータが書き込まれている楽音トラック、ガイドメロディ用MIDIデータが書き込まれているガイドメロディトラック、歌詞用MIDIデータが書き込まれている歌詞トラック、バックコーラス再生タイミングおよび再生すべき音声データが書き込まれているコーラストラック、等からなっている。なお、楽曲データの形式としては、この例に限るものではない。
【0025】
楽音トラックには、楽音を発生させる楽器の種類、タイミング、音程(キー)、強さ、長さ、定位(パン)、音響効果(エフェクト)等を示す情報が記録されている。シーケンサは、当該楽音トラックやガイドメロディトラックのデータに基づいて音源18を制御し、カラオケ曲の楽音を発生する。
【0026】
また、シーケンサは、コーラストラックの指定するタイミングでバックコーラスの音声データ(楽曲データに付随しているMP3等の圧縮音声データ)を再生する。また、シーケンサは、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部23に入力する。
【0027】
音源18は、シーケンサの処理によってCPU11から入力されたデータ(ノートイベントデータ)に応じて楽音信号(デジタル音声信号)を形成する。形成した楽音信号はミキサ19に入力される。
【0028】
ミキサ19は、音源18が発生した楽音信号、コーラス音、およびマイク16からA/Dコンバータ17を介して入力された歌唱者の歌唱音声に対してエコー等の音響効果を付与するとともに、これらの信号をミキシングする。
【0029】
ミキシングされた各デジタル音声信号は、サウンドシステム(SS)20に入力される。サウンドシステム20は、D/Aコンバータおよびパワーアンプを内蔵しており、入力されたデジタル信号をアナログ信号に変換して増幅し、スピーカ21から放音する。ミキサ19が各音声信号に付与する効果およびミキシングのバランスは、CPU11によって制御される。
【0030】
CPU11は、上記シーケンサによる楽音の発生、歌詞テロップの生成と同期して、HDD13に記憶されている映像データを読み出して背景映像等を再生する。動画の映像データは、MPEG形式にエンコードされている。
【0031】
CPU11は、読み出した背景映像の映像データをデコーダ22に入力する。デコーダ22は、入力されたMPEG等のデータを映像信号に変換して表示処理部23に入力する。表示処理部23には、背景映像の映像信号以外に上記歌詞テロップの文字パターン等の映像が入力される。表示処理部23は、背景映像の映像信号の上に歌詞テロップの映像をOSDで合成してモニタ24に出力する。モニタ24は、表示処理部23から入力された映像信号を表示する。
【0032】
以上の様にして、カラオケ演奏が行われる。次に、機械採点処理について説明する。機械採点処理は、歌唱者の歌唱音声を参照歌唱音声であるガイドメロディトラックと比較することによって行われる。機械採点処理は、ガイドメロディトラックのノートイベントデータ毎に、音程(ピッチ)、タイミング、音量等を比較することによって行われる。
【0033】
すなわち、CPU11は、入力した歌唱音声(デジタル音声信号)をRAM12に一時記憶し、当該歌唱音声のピッチを抽出する。CPU11は、抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等をガイドメロディトラックと比較し、得点に換算する。
【0034】
例えば、歌唱音声のピッチが、所定時間以上、ガイドメロディトラックのピッチに合っていた(許容範囲に入っていた)場合には、高い得点を付与する。また、ピッチ変化のタイミングも得点に考慮される。さらに、ビブラート、抑揚、しゃくり(低い音程からなだらかに移行すること)等の技巧の有無に基づいて加点も行われる。
【0035】
例えば、
図4に示すように、ノートAの区間においては、歌唱音声のピッチが、所定時間以上ガイドメロディトラックのピッチに合っていた(許容範囲に入っていた)ため、当該区間の得点として70点が付与されている。一方で、ノートBの区間においては、歌唱音声のピッチとガイドメロディトラックのピッチが大きく異なるため、当該区間の得点として低い得点(20点)が付与されている。また、ノートCの区間においては、基礎得点として70点に加えてビブラートの技巧が検出されたため、合計の90点が当該区間の得点として付与されている。
【0036】
以上のようなノート毎の得点は、Aメロ、Bメロ、サビ等の所定の区間毎(あるいは所定時間経過毎)に集計される。集計された得点は、自装置のRAM12に一時記憶される。人的評価利用採点処理では、当該集計された得点、および歌唱音声(デジタル音声信号)がネットワークI/F14を介してサーバ1に送信される。また、1曲の演奏が終了した時点でも、1曲を通した機械採点の結果、および歌唱音声(デジタル音声信号)がサーバ1に送信される。なお、機械採点は、各カラオケ装置7ではなく、サーバ1で行ってもよい。この場合、サーバ1には、歌唱音声のみが送信される。また、機械採点において、上述のような得点化する処理は、必須ではない。例えば、ガイドメロディとのピッチのずれ量、タイミングのずれ量等の情報等をサーバ1に送信し、これらの情報をサーバ1に蓄積する態様であってもよい。
【0037】
次に、人的評価利用採点処理について説明する。人的評価利用採点処理は、主にサーバ1によって行われる。
図5(A)はサーバ1の構成を示すブロック図である。
【0038】
サーバ1は、CPU51、RAM52、HDD53、およびネットワークI/F54を備えた情報処理装置である。CPU51は、HDD53に記憶されているサーバ1の動作用プログラムをRAM52に読み出し、採点結果蓄積処理および歌唱音声比較処理を行う。
【0039】
サーバ1のHDD53には、事前歌唱音声データが蓄積されている(本発明の記憶手段に相当する)。
図6(A)は、事前歌唱音声データの構造を示す図である。サーバ1には、人的評価利用採点の開始指示を行った各カラオケ装置7から、歌唱音声(デジタル音声信号)および機械採点の結果が送信される。サーバ1は、受信した歌唱音声を用いて歌唱音声比較処理および採点結果蓄積処理を行う。歌唱音声比較処理については後述し、まず採点結果蓄積処理について説明する。
【0040】
サーバ1のCPU51は、受信した歌唱音声と機械採点の結果を対応付けて、所定のヘッダ(データ名、曲番号等)を付与してHDD53に記憶する。なお、歌唱者名の情報等のその他の情報を受信し、歌唱者名等の情報も対応付けて記憶してもよい。事前歌唱音声データには、評価者端末4のユーザによって評価された得点が平均人間採点として記憶される。ただし、最初にHDD53に記憶された時点では、平均人間採点は存在しない。このようにして、
図6(A)に示したような事前歌唱音声データがHDD53に記憶される。
【0041】
次に、
図5(B)は、評価者端末4の構成を示すブロック図である。評価者端末4は、CPU71、RAM72、ROM73、ネットワークI/F74、表示処理部75、モニタ76、操作部77、サウンドシステム(SS)78、およびスピーカ79を備えた情報処理装置である。
【0042】
CPU71は、ROM73に記憶されている動作用プログラムをRAM72に読み出し、歌唱音声再生処理および人的評価処理を行う。
【0043】
評価者端末4のユーザは、操作部77を用いて人的評価の開始指示を行う。CPU71は、操作部77を介して当該人的評価の開始指示を受け付けると、ネットワークI/F74を介してサーバ1に当該開始指示を送信する。サーバ1は、当該開始指示を受信すると、事前歌唱音声データの一覧データを評価者端末4に送信する。
【0044】
図6(B)に示すように、一覧データには、例えば各事前歌唱音声データのデータ名、曲番号に対応する曲名、歌唱者名、平均人間採点結果、機械採点結果等が含まれている。評価者端末4のCPU71は、当該一覧データをサーバ1から受信し、一覧データに対応する映像データを生成する。CPU71は、当該映像データを表示処理部75に出力し、モニタ76に表示する。ユーザは、操作部77を介して、当該一覧から再生したい歌唱音声を選択する。
【0045】
歌唱音声が選択されると、CPU71は、当該選択された歌唱音声の再生リクエストをサーバ1に送信する。サーバ1のCPU51は、当該再生リクエストに対応する事前歌唱音声データを読み出し、評価者端末4に送信する。
【0046】
評価者端末4のCPU71は、受信した事前歌唱音声データの歌唱音声(デジタル音声信号)を再生し、サウンドシステム78に出力する。サウンドシステム78は、入力された歌唱音声(デジタル信号)をアナログ信号に変換して増幅し、スピーカ79から放音する。このようにして歌唱音声再生処理がなされる。
【0047】
ユーザは、再生された歌唱音声を聴き、操作部77を介して採点を行う。採点は、1曲全体としての得点を付与する形式であってもよいし、Aメロ、Bメロ等の所定の区間毎に得点を付与する形式であってもよい。ユーザが採点した結果(人的評価の結果)は、サーバ1に送信される。
【0048】
サーバ1のCPU51は、受信した得点を過去に蓄積した得点と平均化し、平均人間採点として事前歌唱音声データに記憶する。平均人間採点は、1曲全体としての得点として記憶されていてもよいし、Aメロ、Bメロ等の所定の区間毎の得点として記憶されていてもよい。このようにして採点結果蓄積処理がなされる。なお、採点された回数が多ければ多いほど人気の高い歌唱音声であるとみなし、平均人間採点の得点を高くしてもよい。また、採点を行うユーザ毎に異なる重み付けを付与した重み付け平均処理を行ってもよい。例えば採点回数の多いユーザが採点した得点の重み付けを大きくする。
【0049】
次に、歌唱音声比較処理について説明する。歌唱力比較処理は、カラオケ装置7から送信された歌唱音声と事前歌唱音声データとを比較し、類似度を算出する処理である。サーバ1のCPU51は、カラオケ装置7から受信した歌唱音声(デジタル音声信号)をRAM52に一時記憶し、当該歌唱音声のピッチを抽出する。そして、CPU51は、受信した歌唱音声と同じ曲の事前歌唱音声データを読み出し、読み出した事前歌唱音声データに含まれている歌唱音声(デジタル音声信号)と比較する。なお、同じ曲の全ての事前歌唱音声データを読み出してもよいが、例えば最新の事前歌唱音声データから複数個(例えば10個)だけを読み出してもよい。
【0050】
類似度の算出は、機械採点と同様の手法で行われる。すなわち、受信した歌唱音声から抽出したピッチの値、当該ピッチが変化するタイミング、歌唱音声のレベル、等を、事前歌唱音声データに含まれている歌唱音声のピッチ、タイミング、レベル等と比較し、点数化する処理である。ただし、歌唱音声にはガイドメロディのようなノートイベントデータが存在しないため、受信した歌唱音声(または事前歌唱音声)のうち、ある程度同じピッチが連続する区間を1つのノートイベントデータとみなして比較を行う。
【0051】
図7(A)および
図7(B)は、類似度算出の概念を示す図である。同図に示す現在歌唱音声(受信した歌唱音声)は、
図4で示した歌唱音声と同じものを示している。
図7(A)は、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較した図である。
【0052】
この例における現在歌唱音声は、ノートBの区間においてアレンジを加えて音程を変更して歌唱したものである。したがって、ガイドメロディの音程に対して忠実に歌唱を行った場合の事前歌唱音声データと比較すると、ノートBの区間では低い類似度(20%)が算出されるようになっている。
【0053】
一方、
図7(B)は、アレンジを加えてノートBの区間の音程を変更して歌唱した場合の事前歌唱音声データと比較した図である。この例では、現在歌唱音声も事前歌唱音声も、ともにノートBの区間においてアレンジを加えて音程を変更して歌唱しているため、高い類似度(70%)が算出されている。
【0054】
以上のような類似度は、Aメロ、Bメロ、サビ等の所定の区間毎(あるいは所定時間経過毎)に集計される。または、1曲を通した平均類似度(全体の類似度)が算出される。
【0055】
サーバ1のCPU51は、区間毎または全体の類似度が高い事前歌唱音声データを抽出する。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させる。例えば、
図6(C)に示すように、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)と、当該最も類似度の高い事前歌唱音声データCに付与されている機械採点(60点)とを平均化した得点(70点)を現在の歌唱音声の採点結果として出力する。
【0056】
あるいは、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)をそのまま採点結果として出力してもよいし、最も類似度の高い事前歌唱音声データCに付与されている平均人間採点(80点)と、現在の歌唱音声における機械採点(例えば65点)とを平均化した得点(72.5点)を採点結果として出力してもよい。
【0057】
例えば、
図7(B)に示したように、アレンジを加えて音程を変更して歌唱した事前歌唱音声データの平均人間採点に高い得点が付与されていた場合、機械採点の結果が低くとも、当該アレンジによる人的評価が反映されることになり、機械採点よりも高い採点結果が得られる。また、逆にガイドメロディに忠実に歌唱した場合であっても、人間が良いと感じなかった歌唱については、機械採点の結果が高くとも、人的評価が反映されることにより機械採点よりも低い採点結果が得られる。
【0058】
このように、本実施形態のカラオケシステムでは、人間が上手い(または下手)と感じて高い(または低い)人的評価が得られたものが記憶されている場合、同じような歌い方で(例えばアレンジで音程を変更して)歌唱すると、対応付けられた高い(または低い)人的評価が採点結果に反映されるため、人的評価をその場で提示することができる。
【0059】
なお、
図6(C)の例では、最も類似する事前歌唱音声データの人的評価を利用する例を示したが、複数の事前歌唱音声データを抽出し、抽出したそれぞれの事前歌唱音声データの類似度に応じて、それぞれの人的評価を重み付けし、採点結果に反映させることが好ましい。
【0060】
図8は、人的評価利用採点の応用例1を示す図である。応用例1では、類似度の高い複数(4つ)の事前歌唱音声データを抽出する例を示している。
【0061】
この例では、現在の歌唱音声と事前歌唱音声データとの類似度に応じて採点結果に重み付け加算処理を行う。すなわち、最も類似度の高い事前歌唱音声データに最も高い重み(寄与率)を設定し、当該最も類似度の高い事前歌唱音声データに付与されている採点結果を大きく反映させ、類似度が低くなるにつれて重み(寄与率)を低くし、類似度に応じて採点結果を変化させる。
【0062】
また、この例では、それぞれの事前歌唱音声データにおける平均人間採点と、機械採点とを平均化した得点を複合採点として算出する。そして、複合採点と寄与率とを乗算し、寄与率修正点を算出する。例えば、事前歌唱音声データCは、平均人間採点(80点)と機械採点(60点)とを平均化した複合採点が70点として算出されているが、寄与率が40%であるため、修正点として28点が付与される。同様に、事前歌唱音声データBは、修正点として23.55点が付与され、事前歌唱音声データAは、修正点として16.2点が付与され、事前歌唱音声データDは、修正点として7.35点が付与される。そしてこれら修正点を加算した得点(75.1点)が採点結果として出力される。
【0063】
なお、この例においても、抽出したそれぞれの事前歌唱音声データに付与されている平均人間採点に寄与率を乗算して加算し、機械採点を考慮しないようにしてもよい。ただし、機械採点を反映させることで、人間による主観的な評価だけでなく、音程の正確さ等の客観的な評価も反映させることができ、より高精度な採点を行うことが可能である。
【0064】
次に、
図9は、人的評価利用採点の応用例2を示す図である。応用例2では、応用例1に対し、現在の歌唱音声の機械採点結果も反映させる場合の例を示している。
【0065】
この例では、複合採点として、それぞれの事前歌唱音声データにおける平均人間採点に対し、現在の歌唱音声の機械採点結果による補正を行う。すなわち、この例では、平均人間採点×(現在歌唱機械採点/事前歌唱音声データの機械採点)=複合採点として、各事前歌唱音声データの複合採点を算出する。そして、算出した複合採点の結果に寄与率を乗算し、寄与率修正点を算出する。
【0066】
例えば、事前歌唱音声データCは、平均人間採点(80点)に対し、現在歌唱機械採点(65点)/事前歌唱音声データの機械採点(60点)が乗算され、80×(65/60)=86.67点が複合採点として算出されている。そして、寄与率が40%であるため、修正点として34.67点が付与される。同様に、事前歌唱音声データBは、修正点として18.3点が付与され、事前歌唱音声データAは、修正点として13.32点が付与され、事前歌唱音声データDは、修正点として5.75点が付与される。そしてこれら修正点を加算した得点(72.04点)が採点結果として出力される。
【0067】
このように、人的評価を主としながらも、機械採点の結果による微調整を行うことで、より高精度な採点を行うことが可能である。
【0068】
次に、人的評価利用採点処理の動作について、
図10のフローチャートを参照して説明する。歌唱者がタッチパネル15、操作部25、またはリモコン9を用いて人的評価利用採点処理の開始指示を行い、カラオケ演奏が開始されると、
図10に示す動作を行う。
【0069】
まず、カラオケ装置7のCPU11は、カラオケ演奏を行うとともに、歌唱音声の機械採点を開始する(s11)。次に、CPU11は、所定区間(例えばAメロ)が経過したか否かを判断し(s12)、所定区間が経過した場合には、当該所定区間毎に機械採点の結果を集計し、当該所定区間における機械採点結果および歌唱音声をサーバ1に送信する(s13)。
【0070】
サーバ1のCPU51は、採点結果および歌唱音声を受信すると(s14)、歌唱音声比較処理を行い、当該区間において類似度の高い事前歌唱音声データを抽出する(s15)。そして、抽出した事前歌唱音声データに付与されている平均人間採点を、現在の歌唱音声の採点結果に反映させ、採点結果として出力する(s16)。当該採点結果は、カラオケ装置7に送信される(s17)。なお、類似する事前歌唱音声データが存在しなかった、または低い(例えば50%以下の)類似度の事前歌唱音声データだけしか存在しなかった場合には、カラオケ装置7に「評価待ち」を示す情報を送信し、カラオケ装置7においてはモニタ24に「評価待ちです」等と表示して、機械採点の結果だけを表示するようにしてもよい。
【0071】
なお、カラオケ装置7からサーバ1に送信された歌唱音声および機械採点の結果は、事前歌唱音声データとして、サーバ1のHDD53に蓄積され、ユーザによる人的評価の対象の歌唱音声となる
カラオケ装置7のCPU11は、サーバ1から採点結果を受信し(s18)、当該採点結果をモニタ24に表示する(s19)。なお、採点結果は、区間毎の採点結果、および現在までの区間を平均化した全体の採点結果を表示することが好ましい。
【0072】
最後に、CPU11は、楽曲の演奏が終了したか否かを判断し(s20)、楽曲の演奏が終了するまではs12以下の処理を繰り返し行う。楽曲の演奏が終了した場合には、1曲全体の採点結果を表示してもよい。
【0073】
なお、本実施形態においては、カラオケ装置7で歌唱を行い、歌唱音声をサーバ1に送信して、人的評価利用採点処理を行う例を示したが、例えばユーザが自身の所有するPCやスマートフォン等の情報処理装置を用いて歌唱を行い、サーバ1または当該情報処理装置が本発明の歌唱音声評価装置を実現することも可能である。すなわち、ユーザは、自身が所有するPCやスマートフォンを用いて歌唱を行い、当該PCやスマートフォンが歌唱音声をサーバ1に送信することで、人的評価利用採点処理を実現する。
【0074】
この場合、ユーザは、自身の所有する情報処理装置を用いて人的評価利用採点処理の開始指示を行う。ユーザが人的評価利用採点処理の開始指示を行うと、当該ユーザの所有する情報処理装置がカラオケ演奏を行う。ユーザの歌唱音声は、サーバ1に送信される(これにより、サーバ1のCPU51は、本発明の歌唱音声入力手段を実現する)。そして、サーバ1のCPU51が人的評価利用採点処理(
図5に示したフローチャートにおけるs15以下の処理)を行い、本発明の採点手段を実現する。このようにして、ユーザ自身の所有する情報処理装置(またはカラオケ装置7)からサーバ1に歌唱音声を送信し、サーバ1により本発明の歌唱音声評価装置を実現することも可能である。また、ユーザの所有する情報処理装置(またはカラオケ装置7)がサーバ1から事前歌唱音声データをダウンロードし、当該情報処理装置が歌唱音声比較処理を行うことも可能である。
【0075】
なお、本実施形態においては、歌唱音声(デジタル音声信号)をサーバ1に送信し、事前歌唱音声データとして蓄積する例を示したが、歌唱音声を含む映像データ(例えば歌唱者が歌いながら踊る姿を撮影したもの等)をサーバ1に送信し、事前歌唱音声データとして蓄積するようにしてもよい。