(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0005】
一般的な歌謡曲では、楽曲のジャンルや歌手などによって、楽曲を歌唱する際に中心として用いられる歌唱技巧(以下、「特徴技巧」と称す)の種類が異なる。
このため、特許文献1に記載されたカラオケ装置において、歌唱音声から検出した歌唱技巧を、予め生成した評価データに照合した結果、一致している場合に、付加点数を付与することが考えられる。ここで言う評価データとして、例えば、楽曲を歌唱する際に用いるべき歌唱技巧の内容を、その歌唱技巧を用いるべきタイミングと対応付けたものとすることが考えられる。このような評価データは、通常、人の手によって楽曲ごとに予め生成する必要があり、従来の技術では、楽曲データに基づいて評価データを自動的に生成することが困難であるという課題があった。
【0006】
そこで、本発明は、評価データを生成する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
上記目的を達成するためになされた本発明は、楽曲データ取得手段と、抽出手段と、決定手段と、生成手段とを備えた情報処理装置である。
本発明における楽曲データ取得手段は、歌唱した歌唱音を含む楽曲データが記憶された第一記憶部から、楽曲データを取得する。抽出手段は、楽曲データ取得手段により取得された楽曲データから、歌唱した歌唱音を表すボーカルデータを抽出する。
【0008】
さらに、決定手段は、抽出手段により抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての評価を表す技巧特徴量を決定する。そして、生成手段は、決定手段により決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する。
【0009】
このような情報処理装置によれば、楽曲データに対応する評価データを自動で生成することができる。
したがって、本発明において、一般の人間が作詞作曲した楽曲の楽曲データであっても、その楽曲についての評価データを自動生成できる。
【0010】
本発明の情報処理装置は、さらに、歌唱取得手段と、評価手段とを備えていても良い。
本発明における歌唱取得手段は、楽曲の演奏中に入力された音声を表す歌唱データを取得する。評価手段は、歌唱取得手段により取得された歌唱データについて、生成手段で生成された評価データを用いて、入力された音声における歌唱技巧を評価する。
【0011】
このような情報処理装置によれば、楽曲を歌唱した歌唱音声における歌唱技巧を評価できる。
さらに、本発明における抽出手段は、楽曲データから、ボーカルデータと、楽曲における伴奏音を表す伴奏データとを抽出しても良い。
【0012】
この場合、本発明の情報処理装置は、さらに、抽出手段にて抽出した伴奏データに基づいて、楽曲を演奏する演奏手段を備えていても良い。そして、歌唱取得手段は、演奏手段にて楽曲の演奏中に入力された音声を歌唱データとして取得しても良い。
【0013】
このような情報処理装置によれば、第一記憶部に記憶された楽曲データに基づいて楽曲を演奏でき、その演奏中に入力された音声(歌声)における歌唱技巧を評価できる。
また、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量の中で、楽曲において特徴的に用いられる歌唱技巧に対応する技巧特徴量を、所定の条件を満たす技巧特徴量として決定しても良い。
【0014】
このような情報処理装置によれば、楽曲において特徴的に用いられる歌唱技巧に対応する技巧特徴量を、所定の条件を満たす技巧特徴量として決定できる。
この結果、このような情報処理装置にて作成された情報処理装置を用いて歌唱を評価すれば、楽曲に対して多くの人間が有している印象に合致するように評価できる。
【0015】
本発明の情報処理装置は、複数の楽曲にて用いられる歌唱技巧の標準的な評価を表す標準特徴量が格納された第二記憶部から、標準特徴量を取得する標準取得手段を備えていても良い。
【0016】
この場合、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量と標準取得手段で取得した標準特徴量との差分が基準範囲外である場合、基準範囲外となる技巧特徴量を、所定の条件を満たす技巧特徴量として決定しても良い。
【0017】
このような情報処理装置によれば、標準特徴量と技巧特徴量との差分に基づいて、評価データを生成できる。
また、本発明における生成手段は、決定手段により決定された音符区間での技巧特徴量を、音符区間における音高かつ音価ごとに集計した特徴量分布を算出する分布算出手段を備えていても良い。
【0018】
この場合、生成手段は、分布算出手段により算出された特徴量分布において、楽曲における特徴として有意な範囲に含まれる場合、有意な範囲に含まれる技巧特徴量を所定の条件を満たす技巧特徴量として決定しても良い。
【0019】
このような情報処理装置によれば、評価データの生成に必要なデータを楽曲におけるボ
ーカルデータだけとすることができる。
ところで、本発明は、評価データを生成するデータ生成方法としてなされていても良い。
【0020】
この場合のデータ生成方法は、第一記憶部から楽曲データを取得する楽曲データ取得過程と、その取得された楽曲データからボーカルデータを抽出する抽出過程と、その抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての技巧特徴量を決定する決定過程と、その決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成過程とを備えていても良い。
【0021】
このようなデータ生成方法によれば、
本発明に係る情報処理装置と同様の効果を得ることができる。
また、本発明は、コンピュータが実行するプログラムとしてなされていても良い。
【0022】
この場合のプログラムは、第一記憶部から楽曲データを取得する楽曲データ取得手順と、その取得された楽曲データからボーカルデータを抽出する抽出手順と、その抽出されたボーカルデータについて、楽曲データを構成する所定の音符の区間である音符区間ごとに、複数の歌唱技巧についての技巧特徴量を決定する決定手順と、その決定された音符区間の技巧特徴量の中で、所定の条件を満たす技巧特徴量を決定し、決定された技巧特徴量に対応する音符区間と、決定された技巧特徴量とを対応付けたデータを、歌唱の評価に用いる評価データとして生成する生成手順とをコンピュータに実行させる。
【0023】
本発明がプログラムとしてなされていれば、記録媒体から必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、
本発明に係る情報処理装置として機能させることができる。
【0024】
なお、ここで言う記録媒体には、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な電子媒体を含む。
【発明を実施するための形態】
【0026】
以下に本発明の実施形態を図面と共に説明する。
[第一実施形態]
〈カラオケシステムの構成〉
図1に示すカラオケシステム1は、ユーザ(利用者)が指定した楽曲を演奏し、その演奏に合わせてユーザが歌唱するシステムである。
【0027】
これを実現するために、カラオケシステム1は、情報処理サーバ10と、少なくとも一台のカラオケ装置30とを備えている。情報処理サーバ10とカラオケ装置30とは、通信網を介して接続されている。なお、ここで言う通信網は、有線による通信網であっても良いし、無線による通信網であっても良い。
【0028】
情報処理サーバ10は、楽曲ごとに用意された楽曲データMD−1〜MD−Nを格納する。カラオケ装置30は、ユーザ(利用者)が指定した楽曲に対応する楽曲データMDを情報処理サーバ10から取得し、その楽曲データMDに基づいて楽曲を演奏すると共に、その楽曲の演奏中に音声の入力を受け付ける。
【0029】
なお、符号「N」は、楽曲データMDを識別する識別子であり、「N」は、2以上の自然数である。
〈情報処理サーバ〉
情報処理サーバ10は、通信部12と、記憶部14と、制御部16とを備えている。
【0030】
このうち、通信部12は、通信網を介して、情報処理サーバ10が外部との間で通信を行う。
制御部16は、ROM18,RAM20,CPU22を備えた周知のマイクロコンピュータを中心に構成された周知の制御装置である。ROM18は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM20は、処理プログラムやデータを一時的に格納する。CPU22は、ROM18やRAM20に記憶された処理プログラムに従って各処理(各種演算)を実行する。
【0031】
すなわち、制御部16は、情報処理サーバ10を構成する各部を制御すると共に、カラオケ装置30との間のデータ通信を実行する。
記憶部14は、記憶内容を読み書き可能に構成された周知の記憶装置である。この記憶部14には、少なくとも、複数の楽曲データMDが格納される。
【0032】
楽曲データMDは、楽曲に関する情報が記述された楽曲管理情報と、楽曲の演奏音を表す原盤波形データと、楽曲の歌詞を表す歌詞データとを備えている。楽曲管理情報には、少なくとも、楽曲を識別する楽曲識別情報(例えば、曲番号)が含まれる。
【0033】
本実施形態の原盤波形データは、複数の楽器の演奏音と、主旋律を歌唱した歌唱音を含む音声データである。この音声データは、非圧縮音声ファイルフォーマットの音声ファイルによって構成されたデータであっても良いし、音声圧縮フォーマットの音声ファイルによって構成されたデータであっても良い。
【0034】
なお、以下では、原盤波形データに含まれる演奏音を表す音声データを伴奏データと称し、原盤波形データに含まれる歌唱音を表す音声データをボーカルデータと称す。
本実施形態の伴奏データに含まれる楽器の演奏音としては、打楽器(例えば、ドラム,太鼓,シンバルなど)の演奏音,弦楽器(例えば、ギター,ベースなど)の演奏音,打弦楽器(例えば、ピアノ)の演奏音,及び管楽器(例えば、トランペットやクラリネットなど)の演奏音がある。一般的な楽曲においては、通常、打楽器やベースがリズム楽器となる。
【0035】
なお、記憶部14に格納される楽曲データMDには、プロが作曲した楽曲の楽曲データMDに加えて、カラオケシステム1の一般ユーザが作詞・作曲した楽曲の楽曲データMDも含まれる。この一般ユーザが作詞・作曲した楽曲の楽曲データMDは、周知の情報処理端末(例えば、パーソナルコンピュータや携帯端末)にて作成され、情報処理サーバ10にアップロードされる。
〈カラオケ装置〉
カラオケ装置30は、通信部32と、入力受付部34と、楽曲再生部36と、記憶部38と、音声制御部40と、映像制御部46と、制御部50とを備えている。
【0036】
通信部32は、通信網を介して、カラオケ装置30が外部との間で通信を行う。入力受付部34は、外部からの操作に従って情報や指令の入力を受け付ける入力機器である。本実施形態における入力機器とは、例えば、キーやスイッチ、リモコンの受付部などである。
【0037】
楽曲再生部36は、記憶部38に記憶されている楽曲データMDや、情報処理サーバ10からダウンロードした楽曲データMDに基づいて楽曲の再生を行う。音声制御部40は、音声の入出力を制御するデバイスであり、出力部42と、マイク入力部44とを備えている。
【0038】
マイク入力部44には、マイク62が接続される。これにより、マイク入力部44は、ユーザの歌唱音を取得する。出力部42にはスピーカ60が接続されている。出力部42は、楽曲再生部36によって再生される楽曲の音源信号、マイク入力部44からの歌唱音の音源信号をスピーカ60に出力する。スピーカ60は、出力部42から出力される音源信号を音に換えて出力する。
【0039】
映像制御部46は、制御部50から送られてくる映像データに基づく映像の出力を行う。映像制御部46には、映像の表示を行う表示部64が接続されている。
制御部50は、ROM52,RAM54,CPU56を少なくとも有した周知のコンピュータを中心に構成されている。ROM52は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納する。RAM54は、処理プログラムやデータを一時的に格納する。CPU56は、ROM52やRAM54に記憶された処理プログラムに従って各処理(各種演算)を実行する。
【0040】
そして、ROM52には、制御部50が、カラオケ採点処理を実行するための処理プログラムと、評価データ生成処理を実行するための処理プログラムと、標準特徴量算出処理を実行するための処理プログラムとが格納されている。
【0041】
なお、カラオケ採点処理は、ユーザによって指定された楽曲を演奏し、その演奏期間中にマイク62を介して入力された音声を評価する処理である。評価データ生成処理は、カラオケ採点処理に必要な評価データを楽曲データMDごとに生成する処理である。標準特徴量算出処理は、評価データの生成に用いる標準特徴量を算出する処理である。
【0042】
つまり、カラオケ装置30は、標準特徴量算出処理に従って、評価情報としての標準特徴量を算出すると共に、評価データ生成処理に従って、楽曲データMDごとに評価データを生成する。そして、カラオケ装置30は、カラオケ採点処理に従って、対象楽曲に対応する楽曲データMDに基づいて楽曲を演奏し、その演奏中に、マイク62を介して入力された音声を歌唱データとして取得する。さらに、カラオケ装置30は、カラオケ採点処理に従って、その取得した歌唱データを採点して評価する。
【0043】
すなわち、カラオケ装置30は、標準特徴量算出処理、評価データ生成処理、及びカラオケ採点処理を実行する情報処理装置として機能する。
〈標準特徴量算出処理〉
次に、カラオケ装置30の制御部50が実行する標準特徴量算出処理について説明する。
【0044】
この標準特徴量算出処理は、予め規定された時間間隔で起動される。なお、標準特徴量算出処理の起動タイミングは、予め規定された時間間隔ごとに限らず、標準特徴量算出処理を実行するための処理プログラム(アプリケーション)を起動するための起動指令が、入力受付部34を介して入力されたタイミングでも良い。
【0045】
そして、標準特徴量算出処理では、
図2に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S110)。続いて、制御部50は、S110にて取得した楽曲データMDに含まれる原盤波形データを取得する(S120)。
【0046】
さらに、標準特徴量算出処理では、制御部50は、S120にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して、伴奏データ及びボーカルデータを抽出する(S130)。このS130において、制御部50が、伴奏データとボーカルデータとを分離する手法として、周知の手法(例えば、特開2008−134606に記載された“PreFEst”)が考えられる。なお、PreFEstとは、原盤波形データにおいて最も優勢な音声波形をボーカルデータとして原盤波形データから分離し、残りの音声波形を伴奏データとして分離する手法である。
【0047】
続いて、標準特徴量算出処理では、制御部50は、S130にて抽出したボーカルデータを採譜処理する(S140)。このS140における採譜処理は、ボーカルデータにおける音圧の時間変化と、ボーカルデータにおける音高の時間変化とに基づいて採譜する周知の手法である。
【0048】
すなわち、採譜処理では、制御部50は、ボーカルデータにおける音圧の時間変化が規定閾値以上となったタイミングを、楽曲における歌唱旋律を構成する各音符の開始タイミングnnt(a,i)として特定する。さらに、採譜処理では、制御部50は、ボーカルデータにおける音圧の時間変化が規定閾値以下となったタイミングを、楽曲における歌唱旋律を構成する各音符の終了タイミングnft(a,i)として特定する。
【0049】
採譜処理では、制御部50は、互いに対応する開始タイミングnnt(a,i)及び終了タイミングnft(a,i)によって特定される区間を各音符の音符区間として特定する。これと共に、採譜処理では、制御部50は、ボーカルデータにおける音高の時間変化に基づいて、各音符区間における音高を特定し、各音符区間とその音符区間における音高nn(a,i)とを対応付ける。
【0050】
なお、符号aは、楽曲を識別する符号であり、符号iは、楽曲における歌唱旋律の音符区間を識別する符号である。
標準特徴量算出処理では、制御部50は、さらに、複数の歌唱技巧についての評価を表す技巧特徴量を、楽曲における音符区間ごとに決定する(S150)。ここで言う複数の歌唱技巧には、“ビブラート”,“ため”,“しゃくり”,“フォール”,“こぶし”を含む。
【0051】
このうち、“ビブラート”についての技巧特徴量(以下、「ビブラート特徴量」と称す)vib(a,i)の算出では、制御部50は、まず、ボーカルデータから各音符区間に対応する音声波形を抽出し、各音符区間の音声波形について周波数解析(DFT)を実施する。そして、制御部50は、下記(1)式に従って、ビブラート特徴量vib(a,i)を算出する。
【0052】
【数1】
ただし、上記(1)式におけるvib_per(a,i)は、各音符区間の音声波形におけるスペクトルピークの突出精度を表す指標である。このvib_per(a,i)は、周波数解析結果(即ち、振幅スペクトル)のピーク値を、周波数解析結果の平均値で除すことで求めれば良い。また、上記(1)式におけるvip_dep(a,i)は、各音符区間の音声波形の標準偏差である。
【0053】
“ため”についての技巧特徴量(以下、「ため特徴量」と称す)tt(a,i)の算出では、制御部50は、まず、伴奏データにおける非調波成分の音声波形をリズム楽器の演奏音波形として抽出する。この非調波成分の抽出手法として、非調波成分の音声波形を表すフィルタとして予め用意されたフィルタに伴奏音データを通過させることや、“スペクトログラムの滑らかさの異方性に基づいた調波音・打楽器音の分離”(日本音響学会春季研究発表会講演論文集,2−5−8,p.903−904(2008.03))に記載された手法などを用いることが考えられる。
【0054】
さらに、ため特徴量tt(a,i)の算出では、制御部50は、リズム楽器の演奏音波形において、音圧が規定値以上となるタイミングを拍の位置として推定する。続いて、制御部50は、楽曲の歌唱旋律を構成する音符の中で、音価が最も短い音符(以下、「最短音符」と称す)を抽出する。そして、制御部50は、抽出した最短音符の音価にて拍の位置の間隔を除すことで、発声タイミングを特定する。ここで言う発声タイミングとは、各音符iに対して歌唱を開始する可能性のあるタイミングである。
【0055】
ため特徴量tt(a,i)の算出では、さらに、制御部50は、規定条件を満たす発声タイミングを特定する。ここで言う規定条件を満たすとは、開始タイミングnnt(a,i)よりも遅い発声タイミングであって、かつ、開始タイミングnnt(a,i)から減算した値の絶対値が最小となる発声タイミングである。そして、特定した発声タイミングを開始タイミングnnt(a,i)から減算した時間長を、ため特徴量tt(a,i)として算出する。
【0056】
“しゃくり”についての技巧特徴量(以下、「しゃくり特徴量」と称す)rise(a,i)の算出では、制御部50は、まず、ボーカルデータの音高時間変化を微分した微分変化を導出する。続いて、制御部50は、各音符区間の開始タイミングnnt(a,i)以前で、微分変化が時間軸に沿って正の値となったタイミングを特定する。さらに、制御部50は、その特定した各タイミングから開始タイミングnnt(a,i)までの区間におけるボーカルデータの音高時間変化と予め規定された模範曲線との相互相関値を、しゃくり特徴量rise(a,i)として導出する。
【0057】
“フォール”についての技巧特徴量(以下、「フォール特徴量」と称す)fall(a,i)の算出では、制御部50は、各音符区間の終了タイミングnft(a,i)以降で、微分変化が時間軸に沿って正の値となった最初のタイミングを特定する。さらに、制御部50は、歌唱旋律を構成する各音符区間の終了タイミングnft(a,i)から、その特定したタイミングまでの区間におけるボーカルデータの音高時間変化と、予め規定された模範曲線との相互相関値を、フォール特徴量fall(a,i)として導出する。
【0058】
“こぶし”についての技巧特徴量(以下、「こぶし特徴量」と称す)kob(a,i)の算出では、制御部50は、まず、こぶし区間を特定する。ここで言うこぶし区間とは、複数の音高に渡る各音符区間を同一母音で音高を変化させながら歌っている区間である。
【0059】
このため、こぶし特徴量kob(a,i)の算出では、制御部50は、同一母音で発声された区間(以下、「同一母音区間」と称す)を特定する。この同一母音区間の特定方法として、各音符区間のメル周波数ケプストラム(MFCC)の平均値の相互相関を導出し、相互相関値が閾値以上である音符区間を同一母音区間として特定する方法を用いる。
【0060】
また、制御部50は、同一母音区間において、設定条件を満たす同一母音区間だけをこぶし区間として特定する。ここで言う設定条件を満たすとは、時間軸に沿って隣接する音符区間の終了タイミングnft(a−1,i)と開始タイミングnnt(a,i)との時間間隔が閾値以下であり、かつ、隣接する音符区間の音高が全て異なることである。
【0061】
そして、こぶし特徴量kob(a,i)の算出では、制御部50は、こぶし区間におけるボーカル波形からクロマベクトルを算出する。さらに、制御部50は、同こぶし区間における伴奏データのクロマベクトルを算出し、ボーカル波形のクロマベクトルとの相互相関値をこぶし特徴量kob(a,i)として算出する。
【0062】
標準特徴量算出処理では、続いて、制御部50が、複数の歌唱技巧について評価した評価情報としての楽曲特徴量を算出する(S160)。この楽曲特徴量とは、ビブラート特徴量vib,ため特徴量tt,しゃくり特徴量rise,フォール特徴量fall,こぶし特徴量kobそれぞれについての楽曲内での平均値である。ただし、S160では、制御部50は、歌唱旋律を構成する音符区間の音価、かつ、音高の組み合わせごとに、各歌唱技巧の楽曲特徴量を算出する。
【0063】
標準特徴量算出処理では、続いて、制御部50は、楽曲特徴量を算出するまでの処理(即ち、S110〜S160)を、全ての楽曲データMDに対して実行したか否かを判定する(S170)。このS170での判定の結果、楽曲特徴量を算出するまでの処理を、全ての楽曲データMDに対して実行していなければ(S170:NO)、制御部50は、標準特徴量算出処理をS110へと戻す。そして、制御部50は、処理を未実行の楽曲データMDを情報処理サーバ10から取得して、S120へと移行する。
【0064】
一方、S170での判定の結果、楽曲特徴量を算出するまでの処理を、全ての楽曲データMDに対して実行していれば(S170:YES)、制御部50は、標準特徴量算出処理をS180へと進める。
【0065】
そのS180では、制御部50は、音符区間の音価、かつ、音高の組み合わせごとに算出された楽曲特徴量それぞれの、全ての楽曲データに渡った平均値及び標準偏差を標準特徴量として算出する。なお、S180では、制御部50は、標準特徴量を、音符区間の音価かつ音高の組み合わせごとに算出する。
【0066】
標準特徴量算出処理では、制御部50は、S180にて算出した音符区間の音価かつ音高の組み合わせごとに算出された標準特徴量を、情報処理サーバ10の記憶部14にアップロードする(S190)。
【0067】
その後、本標準特徴量算出処理を終了する。
つまり、本実施形態の標準特徴量算出処理では、制御部50は、複数の楽曲のボーカルデータについての各歌唱技巧の評価を表す技巧特徴量を算出する。さらに、標準特徴量算出処理では、制御部50は、その算出された技巧特徴量を、歌唱旋律を構成する音符区間の音価、かつ、音高の組み合わせごとに平均した平均値及び標準偏差を求める。そして、標準特徴量算出処理では、制御部50は、音符区間の音価かつ音高ごとに求められた標準特徴量を、情報処理サーバ10の記憶部14に格納する。
〈評価データ生成処理〉
次に、カラオケ装置30の制御部50が実行する評価データ生成処理について説明する。
【0068】
この評価データ生成処理は、評価データ生成処理を実行するための起動指令が入力されると起動される。
そして、評価データ生成処理では、
図3に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S210)。続いて、制御部50は、S210にて取得した楽曲データMDに含まれる原盤波形データを取得する(S220)。
【0069】
さらに、評価データ生成処理では、制御部50は、S220にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して抽出する(S230)。このS230における伴奏データとボーカルデータとを分離する手法は、標準特徴量算出処理におけるS130と同様の手法を用いれば良い。
【0070】
続いて、評価データ生成処理では、制御部50は、S230にて抽出したボーカルデータを採譜処理する(S240)。このS240における採譜処理は、標準特徴量算出処理のS140における採譜処理と同様の方法を用いれば良い。
【0071】
評価データ生成処理では、制御部50は、さらに、S230にて抽出したボーカルデータについての技巧特徴量それぞれを、楽曲における音符区間ごとに決定する(S250)。このS250における技巧特徴量を決定する手法は、標準特徴量算出処理におけるS150と同様の方法を用いれば良い。
【0072】
評価データ生成処理では、制御部50は、情報処理サーバ10の記憶部14に格納されている標準特徴量を取得する(S260)。続いて、制御部50は、特徴量距離を歌唱技巧ごとに算出する(S270)。
【0073】
このS270では、具体的に、制御部50は、S250にて決定した技巧特徴量と標準特徴量における平均値との差分の絶対値を、標準特徴量における標準偏差で除した値を、特徴量距離として算出する。ただし、S270では、制御部50は、音符区間の音価かつ音高の組み合わせごと、かつ歌唱技巧ごとに特徴量距離を算出する。
【0074】
さらに、評価データ生成処理では、制御部50は、評価データを生成する(S280)。このS280では、制御部50は、まず、音符区間ごとに、特定条件を満たす特徴距離に対応する歌唱技巧を特定する。ここで言う特定条件を満たすとは、S270で算出した各歌唱技巧の特徴量距離の中で、予め規定された基準値以上であり、かつ最大となる特徴量距離となることである。
【0075】
そして、制御部50は、その特定条件を満たす各技巧特徴量(以下、「特定特徴量」と称す)を、その特定特徴量に対応する音符区間それぞれと対応付けた情報を評価データとして生成する。
【0076】
すなわち、S270では、制御部50は、歌唱旋律を構成する各音符区間での技巧特徴量と標準特徴量との差分が基準範囲外である場合に、その基準範囲外となる技巧特徴量を、所定の条件を満たす技巧特徴量(即ち、特定特徴量)として決定する。そして、制御部50は、音符区間の中で特徴的な歌唱技巧が用いられている音符区間と、その特徴的な歌唱技巧の技巧特徴量とを対応付けた情報を評価データとして生成する。
【0077】
続いて、評価データ生成処理では、制御部50は、S240における採譜処理の結果をリファレンスデータとして生成する(S290)。ここで言うリファレンスデータとは、歌唱すべき旋律を構成する音符区間(即ち、音高と音価と)を表したデータである。
【0078】
そして、評価データ生成処理では、制御部50は、楽曲識別情報と、評価データと、リファレンスデータとを対応付けて情報処理サーバ10の記憶部14にアップロードする(S300)。
【0079】
その後、評価データ生成処理を終了する。
つまり、評価データ生成処理では、制御部50が、楽曲において特徴的な歌唱技巧が用いられている音符区間ごとに、その歌唱技巧を評価した評価データを生成する。さらに、評価データ生成処理では、制御部50は、リファレンスデータを生成し、評価データと共に情報処理サーバ10の記憶部14に格納する。
〈カラオケ採点処理〉
次に、カラオケ装置30の制御部50が実行するカラオケ採点処理について説明する。
【0080】
このカラオケ採点処理は、カラオケ採点処理を実行するための処理プログラムを起動する指令が入力受付部34を介して入力されると起動される。
そして、カラオケ採点処理では、起動されると、
図4に示すように、制御部50は、まず、入力受付部34を介して指定された楽曲に対応する楽曲データMDを、情報処理サーバ10の記憶部14から取得する(S510)。続いて、制御部50は、S510にて取得した楽曲データMDに含まれている伴奏データを抽出する(S520)。
【0081】
そして、カラオケ採点処理では、制御部50は、伴奏データを再生して楽曲を演奏する(S530)。具体的にS530では、制御部50は、楽曲再生部36に伴奏データを出力し、その伴奏データを取得した楽曲再生部36は、楽曲の再生を行う。そして、楽曲再生部36によって再生される楽曲の音源信号が、出力部42を介してスピーカ60へと出力される。すると、スピーカ60は、音源信号を音に換えて出力する。
【0082】
さらに、カラオケ採点処理では、制御部50は、マイク62及びマイク入力部44を介して入力された音声を歌唱データとして取得する(S540)。そして、制御部50は、S540にて取得した歌唱データを記憶部38に格納する(S550)。
【0083】
続いて、カラオケ採点処理では、制御部50は、楽曲の演奏を終了したか否かを判定する(S560)。この判定の結果、楽曲の演奏を終了していなければ(S560:NO)、制御部50は、カラオケ採点処理をS540へと戻す。一方、S560での判定の結果、楽曲の演奏が終了していれば(S560:YES)、制御部50は、カラオケ採点処理をS570へと移行させる。
【0084】
そのS570では、制御部50は、記憶部38に格納されている全ての歌唱データを取得する。そして、制御部50は、楽曲における時間軸に沿った歌唱データから、歌唱旋律を構成する各音符を歌唱した区間(以下、「音符歌唱区間」と称す)の歌唱波形それぞれを抽出する(S580)。この音符歌唱区間の特定は、「ボーカルデータ」を「歌唱データ」へと読み替えることを除けば、標準特徴量算出処理におけるS140と同様の方法で実施すれば良い。
【0085】
続いて、カラオケ採点処理では、制御部50は、歌唱データについての歌唱技巧を評価した技巧特徴量(以下、「歌唱特徴量」と称す)を算出する(S590)。この歌唱特徴量の算出方法は、「ボーカルデータ」を「歌唱データ」へと読み替えることを除けば、標準特徴量算出処理におけるS150及びS160と同様であるため、ここでの詳しい説明
は省略する。
【0086】
さらに、カラオケ採点処理では、制御部50は、基準評価点を算出する(S600)。このS600での基準評価点の算出では、制御部50は、各音符歌唱区間における歌唱波形の音高推移を、リファレンスデータにおける音高推移に照合する。そして、制御部50は、照合の結果、一致度が高いほど高い点数とした基準評価点を算出する。
【0087】
続いて、カラオケ採点処理では、制御部50は、技巧評価点を算出する(S610)。このS610での技巧評価点の算出では、制御部50は、まず、標準特徴量、及びS510にて取得した楽曲データMDの評価データを取得する。そして、S590にて算出した歌唱特徴量と、取得した評価データと、標準特徴量とに基づいて、制御部50は、音符区間ごとに、下記式に従って音符毎評価点を算出する。
【0088】
音符毎評価点=α×向き×(歌唱特徴量−標準特徴量における平均値)/標準特徴量における標準偏差
ただし、上記の音符毎評価点を求める式おいて、向きは、評価データに含まれる特定特徴量と歌唱特徴量との差分における正負であり、「1」または「−1」である。
【0089】
また、上記の音符毎評価点を求める式おける符号αは、歌唱技巧に対する点数の重みであり、予め規定された定数である。
さらに、技巧評価点の算出では、制御部50は、楽曲全体に渡る音符毎評価点の平均値を技巧評価点として算出する。
【0090】
さらに、カラオケ採点処理では、制御部50は、S600にて算出した基準評価点に、S610にて算出した技巧評価点を加算することで、総合評価点を算出する(S620)。そして、制御部50は、S620にて算出した総合評価点を表示部64に表示させる(S630)。S630での表示は、制御部50が、映像制御部46を介して表示部64に対して制御信号を出力することで実現する。なお、表示部64に表示される評価点は、総合評価点だけに限らず、基準評価点、技巧評価点の少なくとも一方を含んでも良い。
【0091】
その後、本カラオケ採点処理を終了し、次の起動タイミングまで待機する。
つまり、カラオケ採点処理では、制御部50は、楽曲の演奏中に入力された音声を歌唱データとして記憶する。そして、カラオケ採点処理では、制御部50は、記憶した歌唱データを解析して歌唱特徴量を算出する。さらに、カラオケ採点処理では、制御部50は、楽曲における特徴的な技巧が強く表れているほど、大きな点数となるように技巧評価点を算出する。
【0092】
また、カラオケ採点処理では、制御部50は、各音符歌唱区間における歌唱波形の音高推移をリファレンスデータにおける音高推移に照合し、一致度が高いほど、高い点数とした基準評価点を算出する。そして、制御部50は、技巧評価点と基準評価点との合計を、総合評価点として算出する。
[第一実施形態の効果]
以上説明したように、カラオケシステム1によれば、楽曲データMDに対応する評価データを自動で生成することができる。
【0093】
したがって、カラオケシステム1において、一般の人間が作詞作曲した楽曲の楽曲データMDであっても、その楽曲についての評価データを自動生成できる。
さらに、カラオケシステム1においては、歌唱旋律を構成する音符区間において特徴的に用いられる歌唱技巧を特徴技巧として特定している。そして、カラオケ採点処理では、その音符区間が歌唱された音声において特徴技巧が強く表れていれば、大きな点数の技巧
評価点を基準評価点に付加している。
【0094】
この結果、カラオケシステム1を用いて歌唱を評価すれば、楽曲に対して多くの人間が有している印象に合致するように評価できる。
[第二実施形態]
第二実施形態のカラオケシステムは、第一実施形態のカラオケシステム1とは、主として、評価データ生成処理の内容が異なる。このため、本実施形態においては、第一実施形態と同様の構成及び処理には、同一の符号を付して説明を省略し、第一実施形態とは異なる評価データ処理を中心に説明する。
〈評価データ生成処理〉
本実施形態における評価データ生成処理は、評価データ生成処理を実行するための起動指令が入力されると起動される。
【0095】
そして、評価データ生成処理では、
図5に示すように、起動されると、まず、制御部50は、情報処理サーバ10に格納されている全ての楽曲データMDの中から、一つの楽曲データMDを取得する(S710)。続いて、制御部50は、S710にて取得した楽曲データMDに含まれる原盤波形データを取得する(S720)。
【0096】
さらに、評価データ生成処理では、制御部50は、S720にて取得した原盤波形データから、伴奏データとボーカルデータとを分離して、伴奏データ及びボーカルデータを抽出する(S730)。このS730における伴奏データとボーカルデータとを分離する手法は、標準特徴量算出処理におけるS130と同様の手法を用いれば良い。
【0097】
続いて、評価データ生成処理では、制御部50は、S730にて抽出したボーカルデータを採譜処理する(S740)。このS740における採譜処理は、標準特徴量算出処理のS140における採譜処理と同様の方法を用いれば良い。
【0098】
評価データ生成処理では、制御部50は、さらに、S730にて抽出したボーカルデータについての技巧特徴量それぞれを、楽曲における音符区間ごとに決定する(S750)。このS750における技巧特徴量を決定する手法は、標準特徴量算出処理におけるS150と同様の方法を用いれば良い。
【0099】
評価データ生成処理では、続いて、制御部50は、特徴量分布を算出する(S760)。このS760にて算出する特徴量分布とは、歌唱旋律を構成する音符区間の音高かつ音価ごとに、S750にて算出した技巧特徴量を集計した分布である。なお、S760では、制御部50は、歌唱技巧ごとに特徴量分布を算出する。
【0100】
さらに、評価データ生成処理では、制御部50は、評価データを生成する(S770)。このS770では、制御部50は、S760にて算出した特徴量分布において、楽曲における特徴として有意な範囲に含まれる技巧特徴量であって、各音符区間における歌唱技巧ごとの技巧特徴量の中で最大である技巧特徴量を特定特徴量として特定する。そして、制御部50は、その特定された特定特徴量と、その特定特徴量に対応する音符区間とを対応付けた情報を評価データとして生成する。
【0101】
続いて、評価データ生成処理では、制御部50は、S740における採譜処理の結果をリファレンスデータとして生成する(S780)。
そして、評価データ生成処理では、制御部50は、楽曲識別情報と、評価データと、リファレンスデータとを対応付けて情報処理サーバ10の記憶部14にアップロードする(S790)。
【0102】
その後、評価データ生成処理を終了する。
[第二実施形態の効果]
第二実施形態のカラオケシステム1によれば、評価データの生成に必要なデータを楽曲におけるボーカルデータだけとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
【0103】
上記実施形態では、標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を、カラオケ装置30が実行していたが、これらの標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を実行する装置は、カラオケ装置30に限るものではない。例えば、標準特徴量算出処理,評価データ生成処理,カラオケ採点処理を実行する装置は、情報処理サーバ10であっても良いし、その他の情報処理装置であっても良い。
【0104】
また、上記実施形態の評価データ生成処理では、各特定特徴量と、その特定特徴量に対応する音符区間それぞれと対応付けた情報を評価データとして生成していたが、評価データは、これに限るものではない。
【0105】
例えば、技巧特徴量が予め規定された基準閾値よりも小さい音符区間の情報、即ち、所定の歌唱技巧を用いることが不適切な音符区間表す情報を、評価データに含めても良い。これにより、歌唱技巧を用いることを禁止する音符区間を表す情報を、評価データに含めることができる。
【0106】
また、評価データ生成処理にて生成される評価データは、特徴技巧を用いるべき音符区間と、その特徴技巧の内容及び技巧特徴量とを表したデータであったが、評価データ生成処理にて生成される評価データはこれに限るものではない。評価データは、例えば、音符区間ごとの各歌唱技巧に付与すべき重みを表したデータであっても良い。
【0107】
この場合、カラオケ採点処理において、制御部50は、次の手順にて技巧評価点を算出すれば良い。
まず、制御部50は、以下の式に従って、音符毎評価点を算出する。
【0108】
音符毎評価点=α×Σ×(重み×向き×(歌唱特徴量−標準特徴量における平均値)/標準特徴量における標準偏差)
ただし、上記の音符毎評価点を求める式おいて、和を求める対象(即ち、シグマの対象)は、歌唱技巧である。また、向きは、評価データに含まれる特定特徴量と歌唱特徴量との差分における正負であり、「1」または「−1」である。
【0109】
また、上記の音符毎評価点を求める式おける符号αは、歌唱技巧に対する点数の重みであり、予め規定された定数である。
さらに、技巧評価点の算出では、制御部50は、楽曲全体に渡る音符毎評価点の平均値を技巧評価点として算出する。
【0110】
なお、上記実施形態の構成の一部を、課題を解決できる限りにおいて省略した態様も本発明の実施形態である。また、上記実施形態と変形例とを適宜組み合わせて構成される態様も本発明の実施形態である。また、特許請求の範囲に記載した文言によって特定される発明の本質を逸脱しない限度において考え得るあらゆる態様も本発明の実施形態である。[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。
【0111】
上記実施形態の評価データ生成処理におけるS210,S710を実行することで得られる機能が、特許請求の範囲の記載における楽曲データ取得手段に相当し、S220,S230,S720,S730を実行することで得られる機能が、抽出手段に相当する。また、S250,S750を実行することで得られる機能が、決定手段に相当し、S270,S280,S770,S780を実行することで得られる機能が、生成手段に相当する。
【0112】
さらに、上記実施形態のカラオケ採点処理におけるS540,S550,S570を実行することで得られる機能が、特許請求の範囲の記載における歌唱取得手段に相当し、S610を実行することで得られる機能が、評価手段に相当する。また、S530を実行することで得られる機能が、演奏手段に相当する。
【0113】
なお、第1実施形態の評価データ生成処理におけるS260を実行することで得られる機能が、特許請求の範囲の記載における標準取得手段に相当し、第2実施形態の評価データ生成処理におけるS760を実行することで得られる機能が、分布算出手段に相当する。