(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0015】
図1は、ネットワークカラオケシステムの構成を示す図である。ネットワークカラオケシステムは、インターネット等のネットワーク2を介して接続されるセンタ(サーバ)1と、複数のカラオケ店舗3と、からなる。
【0016】
各カラオケ店舗3には、ネットワーク2に接続されるルータ等の中継機5と、中継機5を介してネットワーク2に接続される複数のカラオケ装置7が設けられている。中継機5は、カラオケ店舗の管理室内等に設置されている。複数台のカラオケ装置7は、それぞれ個室(カラオケボックス)に1台ずつ設置されている。また、各カラオケ装置7には、それぞれリモコン9が設置されている。
【0017】
カラオケ装置7は、中継機5およびネットワーク2を介して他のカラオケ装置7と通信可能になっている。ネットワークカラオケシステムは、異なる場所に設置されているカラオケ装置7同士で通信を行い、複数の歌唱者間で歌唱(デュエット)を行うことができる。
【0018】
図2は、カラオケ装置の構成を示すブロック図である。カラオケ装置7は、CPU11、RAM12、HDD13、ネットワークインタフェース(I/F)14、LCD(タッチパネル)15、マイク16、A/Dコンバータ17、音源18、ミキサ(エフェクタ)19、サウンドシステム(SS)20、スピーカ21、MPEG等のデコーダ22、表示処理部23、モニタ24、操作部25、および送受信部26を備えている。
【0019】
装置全体の動作を制御するCPU11には、RAM12、HDD13、ネットワークインタフェース(I/F)14、LCD(タッチパネル)15、A/Dコンバータ17、音源18、ミキサ(エフェクタ)19、MPEG等のデコーダ22、表示処理部23、操作部25、および送受信部26が接続されている。
【0020】
HDD13は、CPU11の動作用プログラムが記憶されている。ワークメモリであるRAM12には、CPU11の動作用プログラムを実行するために読み出すエリア、カラオケ曲を演奏するために楽曲データを読み出すエリア、ガイドメロディ等のリファレンスデータを読み出すエリア、予約リストや採点結果等のデータを一時記憶するエリア、等が設定される。
【0021】
CPU11は、カラオケ装置を統括的に制御する制御部であり、機能的にシーケンサを内蔵し、カラオケ演奏を行う。また、CPU11は、音声信号生成処理、映像信号生成処理、リクエスト処理、および採点処理を行う。また、CPU11は、本発明における受付部、リクエスト送信部、リクエスト受信部、および結果情報受信部を実現する。
【0022】
タッチパネル15および操作部25は、カラオケ装置の前面に設けられている。CPU11は、タッチパネル15から入力される操作情報に基づいて、操作情報に応じた画像をタッチパネル15上に表示し、GUIを実現する。また、リモコン9も同様のGUIを実現するものである。CPU11は、タッチパネル15、操作部25、または送受信部26を介してリモコン9から入力される操作情報に基づいて、各種の動作を行う。CPU11は、例えば、利用者からカラオケ曲の演奏予約を受け付ける。受け付けた演奏予約は、予約リストに登録される。
【0023】
HDD13は、カラオケ曲を演奏するための楽曲データを記憶している。また、HDD13は、モニタ24に背景映像を表示するための映像データも記憶している。映像データは動画、静止画の両方を記憶している。楽曲データや映像データは、定期的にセンタ1から配信され、更新される。
【0024】
楽曲データは、例えば
図3(A)に示すように、曲番号等が書き込まれているヘッダ、演奏用MIDIデータが書き込まれている楽音トラック、ガイドメロディ用MIDIデータが書き込まれているガイドメロディトラック、歌詞用MIDIデータが書き込まれている歌詞トラック、およびバックコーラスの再生タイミングを示すコーラストラック等からなる。
【0025】
楽音トラックは、楽音を発生させる楽器の種類、タイミング、音程(キー)、強さ、長さ、定位(パン)、音響効果(エフェクト)等を示す情報が記録されている。ガイドメロディトラックは、お手本の歌唱に対応する各音の発音開始タイミング、発音の長さ等の情報が記録されている。
【0026】
CPU11は、楽音トラックのデータに基づいて音源18を制御し、カラオケ曲の楽音を発生する。また、CPU11は、コーラストラックの指定するタイミングでバックコーラスの音声データ(楽曲データに付随しているMP3等の圧縮音声データ)を再生する。また、CPU11は、歌詞トラックに基づいて曲の進行に同期して歌詞の文字パターンを合成し、この文字パターンを映像信号に変換して表示処理部23に入力する。
【0027】
センタ1は、
図4に示すように、CPU31、RAM32、HDD33、およびネットワークインタフェース(I/F)34を備えている。HDD33は、CPU31の動作用プログラムが記憶されている。ワークメモリであるRAM32には、CPU31の動作用プログラムを実行するために読み出すエリア等が設定される。
【0028】
CPU31は、センタ1を統括的に制御する制御部であり、本発明の抽出部を実現する。CPU31は、ネットワークを介してデュエットを行う場合に、リクエストに対応する歌唱者の抽出処理と、各カラオケ装置7を接続する接続処理と、を行う。また、CPU31は、HDD33に記憶されている歌唱データの配信処理を行う。
【0029】
HDD33は、本発明のデータベースに相当する。HDD33には、配信用の楽曲データベースおよび映像データベースが構築されている。さらに、HDD33には、氏名またはID等の各歌唱者の情報が記憶され、歌唱者情報データベースが構築されている。
【0030】
利用者は、カラオケ装置7を操作して、歌唱者の氏名またはIDを入力し、ネットワーク経由で他の歌唱者と歌唱を行うリクエストを行う。CPU11は、リクエストを受け付けると、当該リクエストをセンタ1に送信する。なお、リクエストは、特定の歌唱者の氏名またはIDだけではなく、複数名の歌唱者の氏名またはIDであってもよいし、例えばグループ名等であってもよい。
【0031】
センタ1のCPU31は、カラオケ装置7からリクエストを受信すると、歌唱者情報データベースから、受信したリクエストに含まれている歌唱者の氏名またはIDを抽出する。CPU31は、抽出した結果に係る情報(抽出結果情報)をカラオケ装置7に返信する。カラオケ装置7のCPU11は、抽出結果情報に基づいて、検索結果をモニタ24に表示する。すなわち、CPU11、表示処理部23、およびモニタ24により本発明の表示部が実現される。検索結果は、特定の歌唱者の氏名だけではなく、複数名の歌唱者が含まれる場合がある。また、グループ名でリクエストを行った場合には、当該グループ内の歌唱者が複数表示される。
【0032】
利用者は、モニタ24に表示された検索結果から歌唱者を選択する。利用者が歌唱者を選択すると、センタ1は、利用者のカラオケ装置と、選択された歌唱者が利用するカラオケ装置と、を接続させる。これにより、ネットワーク経由のデュエット歌唱を実現する。
【0033】
また、HDD33には、録音音声として、歌唱データおよび音素データがそれぞれ記憶されている。
図3(B)は、歌唱データの構造を示す図である。歌唱データは、各歌唱者が過去に歌唱したときの歌唱音を録音したデータであり、曲番号および歌唱者の氏名等の情報が含まれたヘッダが付加されている。
図3(C)は、音素データの構造を示す図である。音素データは、各歌唱者の歌唱音を音素毎に切り出したものであり、合成音声の素となるデータである。
【0034】
歌唱データおよび音素データは、各歌唱者がリクエストを行った場合に抽出される。例えば、利用者がカラオケ装置7を操作して特定の歌唱者の氏名および曲名を入力すると、当該歌唱者の情報および曲名がリクエストとしてセンタ1に送信される。センタ1のCPU31は、HDD33に記憶されている歌唱者情報からリクエストに対応する録音データまたは音素データを抽出する。この場合、抽出結果情報として、歌唱者の録音データによる歌唱音声とデュエット歌唱が可能である旨、あるいは歌唱者の合成音声とデュエット歌唱が可能である旨がモニタ24に表示される。例えば、
図5(A)に示すように、利用者が歌唱者Aの氏名またはIDをリクエストした場合、モニタ24には、歌唱者A本人と歌唱が可能である旨(ステータス=スタンバイ)が表示されるとともに、歌唱者の録音データによる歌唱音声とデュエット歌唱が可能である旨、および歌唱者の合成音声とデュエット歌唱が可能である旨がモニタ24に表示される。
【0035】
また、例えば
図5(B)に示すように、利用者が歌唱者Bの氏名またはIDをリクエストし、歌唱者Bが歌唱できない状態(不在)であった場合、モニタ24には、歌唱者B本人が歌唱できない状態である旨(ステータス=不在)が表示されるとともに、歌唱者Bの録音データによる歌唱音声とデュエット歌唱が可能である旨、および歌唱者Bの合成音声とデュエット歌唱が可能である旨がモニタ24に表示される。
【0036】
これにより、各歌唱者は、リクエストに対応する歌唱者がすぐに歌唱できない場合であっても、当該歌唱者の録音データまたは合成音声の歌唱音とともにデュエットを行うことが可能になる。
【0037】
また、歌唱データおよび合成音声は、例えば
図5(C)に示すように、例えば歌手、声優、あるいはキャラクタ(バーチャルアイドル)等が歌唱したものが含まれていてもよい。この場合、各利用者は、好きな歌手、声優、キャラクタ等とデュエットを行うことが可能になる。
【0038】
次に、ネットワークカラオケシステムの動作についてフローチャートを参照して説明する。
図6は、ネットワークカラオケシステムの動作を示すフローチャートである。
【0039】
まず、CPU11は、各利用者がログイン処理を行い、利用者のカラオケ装置7をセンタ1に接続させる(s10およびs50)。ログインが完了すると、当該利用者は、デュエット歌唱が可能である状態(スタンバイ)としてセンタ1に管理される。
【0040】
そして、CPU11は、歌唱者から楽曲のリクエストを受け付ける(s11)。さらに、CPU11は、ネットワーク経由のデュエット歌唱のリクエストであるか否かを判断する(s12)。ネットワーク経由のデュエット歌唱のリクエストであった場合、センタ1に対してリクエストを送信する(s13)。
【0041】
リクエストは、例えば楽曲の情報(曲ID)と、歌唱者の情報(氏名またはID)が含まれている。センタ1は、リクエストを受信し(s51)、HDD33からリクエストに対応酢する歌唱者、または当該歌唱者の録音音声(音声データまたは音素データ)を抽出する(s52)。センタ1は、抽出した結果に係る情報(抽出結果情報)をカラオケ装置7に返信する(s53)。
【0042】
カラオケ装置7のCPU11は、抽出結果情報を受信し(s14)、
図5(A)乃至
図5(C)に示したような結果をモニタ24に表示する(s15)。なお、利用者は、歌唱者の録音音声(音声データまたは音素データ)の一部を試聴できるようにしてもよい。この場合、CPU11は、試聴を指定された歌唱者の音声データまたは音素データをセンタ1からダウンロードして、再生を行う。
【0043】
その後、CPU11は、利用者から歌唱者の選択を受け付け(s16)、選択された歌唱者を示す情報(氏名またはID)をセンタ1に送信する(s17)。
【0044】
センタ1は、選択された歌唱者を示す情報(氏名またはID)を受信し(s54)、選択された歌唱者のカラオケ装置と接続処理を行う(s55)。これにより、各カラオケ装置は、他のカラオケ装置と接続され(s18)、各歌唱者の歌唱データを送受信することによりデュエット歌唱が可能となる。カラオケ装置7同士が接続されると、各カラオケ装置7のCPU11は、リクエストされた楽曲データを読み出して演奏を開始する(s19)。
【0045】
CPU11は、利用者が歌唱データとのデュエットを選択した場合には、センタ1から選択された歌唱者の歌唱データを取得して、カラオケ曲の進行に応じて当該歌唱データを再生し、ミキサ19に出力する。また、CPU11は、利用者が合成音声とのデュエットを選択した場合には、センタ1から当該歌唱者の音素データを取得して、カラオケ曲の進行に応じて歌唱音を合成し、ミキサ19に出力する。CPU11は、歌詞トラックで示される歌詞に対応する音素を読み出し、ガイドメロディトラックに基づいて各音素のピッチおよび音色等を調整し、調整後の音素を接続することにより歌唱音を合成する。
【0046】
このように、本実施形態のネットワークカラオケシステムでは、利用者がデュエット歌唱のリクエストを行うと、対応する歌唱者本人だけでなく、当該歌唱者の録音音声(録音データまたは音素データ)も抽出され、デュエット歌唱の候補として表示される。そのため、リクエストに対応する歌唱者が現在歌唱できない状態であっても、当該歌唱者の録音音声をデュエット相手として選ぶことができる。したがって、利用者は、楽曲を変更せずに好みの相手と歌唱を行うことができる。
【0047】
次に、
図7は、変形例に係るネットワークカラオケシステムの動作を示すフローチャートである。
図6と共通する処理については同一の符号を付し、説明を省略する。
【0048】
この変形例では、リクエストで指定された歌唱者が歌唱できる状態であれば当該歌唱者の情報を抽出し、リクエストで指定された歌唱者が歌唱できない状態である場合、当該歌唱者の録音音声を抽出する。
【0049】
すなわち、センタ1は、リクエストで指定された歌唱者がデュエット歌唱可能である状態(スタンバイ)であるか否かを判断し(s72)、当該歌唱者がスタンバイであれば、当該歌唱者の情報を抽出し(s73)、抽出結果情報を送信する(s53)。この場合、s15の結果表示処理において、利用者のカラオケ装置7のモニタ24には、指定した歌唱者とデュエット歌唱が可能である旨が表示される。
【0050】
一方、センタ1は、リクエストで指定された歌唱者が不在(例えばログインしていない状態、休憩中である場合等)であれば、当該歌唱者の録音音声を抽出し(s74)、抽出結果情報を送信する(s53)。この場合、s15の結果表示処理において、利用者のカラオケ装置7のモニタ24には、指定した歌唱者の録音データまたは合成音声とデュエット歌唱が可能である旨が表示される。
【0051】
変形例に係るネットワークカラオケシステムでは、指定した歌唱者が不在である場合に限り録音音声が抽出され、デュエット歌唱が可能である旨が表示されるため、利用者は指定した歌唱者が不在であるか否かを気にすることなく、すぐにデュエット歌唱を行うことができる。
【0052】
次に、
図8(A)は、応用例に係るセンタ1Aの構成を示すブロック図である。応用例に係るセンタ1Aは、ハードウェア構成としては
図4に示したセンタ1と同一であるが、HDD33は、声質データベース、歌い方データベース、および採点結果データベースを有している。
【0053】
声質データベースは、各歌唱者の録音データの分析結果を蓄積したものである。声質は、音声特徴量で定量化される、音声特徴量は、周波数スペクトルまたはメルスケール(MFCC)の各種パラメータを分析したものであり、例えば3つの尺度(響き度、透明度、および安定度)で定量化することができる。
【0054】
響き度は、声がいかに響くかを示す指標である。例えば、倍音成分が多い場合には、響きが良い声質として定量化することができる。したがって、例えば周波数スペクトルの高域の減衰の程度に応じて響き度を定量化することができる。
【0055】
透明度は、声の質の透き通った感じを表す指標である。透明度は、例えば倍音成分以外の成分によって定量化することができる。すなわち、倍音成分以外の成分が少ないほど透明な声質であると判断することができる。
【0056】
安定度は、音声がどの程度安定して発音されているかを表す指標である。例えば、安定度は、同じ音素を発音している場合において、時間軸上のピークがいかに安定しているかによって表すことができる。音素の変化は、メルスケール上の各パラメータの変化によって検出することができる。音素が変化するとき、メルスケール上の各帯域内の値が大きく変化する。
【0057】
あるいは、声質データベースは、人が手動で評価した結果を蓄積したものであってもよい。この場合、各利用者は、センタ1に蓄積されている録音データを評価する。利用者は、各録音データを聴きながら、上記の3つの尺度(響き度、透明度、および安定度)についてそれぞれ判定値を入力する。
【0058】
歌い方データベースは、各歌唱者の歌い方の分析結果を蓄積したものである。歌い方は、例えば音声特徴量の時間変動で表すことができる。例えば、音声特徴量としてピッチを抽出し、抽出したピッチに対する音声の時間変動を数値化する。これにより、ビブラートの速さ(周期)および深さ(振幅)を数値化することができる。数値化されたビブラートは、1曲の歌唱内で平均することで、歌唱者の歌い方の尺度(例えばビブラートの強さ)として定量化することができる。
【0059】
あるいは、ガイドメロディトラックのノートイベントデータに対して、所定時間内にわずかに遅れたタイミングで歌唱音が入力された場合、当該歌い方を「タメ」としてカウントすることでも定量化することができる。また、ノートイベントデータとのずれ時間を1曲の歌唱内で平均することで、「タメの強さ」として定量化することができる。
【0060】
さらには、ガイドメロディトラックのノートイベントデータが示す音程よりも低い音程から持ち上げつつ歌唱を行う「しゃくり」を検出してもよい。この場合、ノートイベントデータとの音高差を1曲の歌唱内で平均することで、「しゃくりの強さ」として定量化することができる。
【0061】
採点結果データベースは、各歌唱者の採点結果を蓄積したものである。採点は、歌唱データと、ガイドメロディトラックと比較することによって行われる。例えば、採点は、ガイドメロディトラックのノートイベントデータ毎に、音程(ピッチ)、タイミング、音量等を比較することによって行われる。
【0062】
図8(B)に示すように、これらの声質データ、歌い方データおよび採点結果データは、それぞれ歌唱者の氏名またはIDとともに記憶されている。応用例に係るネットワークカラオケシステムでは、各利用者は、氏名、声質、歌い方、または採点結果のうち少なくともいずれか1つを用いてデュエット歌唱のリクエストを行うことができる。例えば、利用者は、透明度の高い声質の歌唱者とのデュエット歌唱をリクエストしたり、ビブラートが強い歌い方をする歌唱者とのデュエット歌唱をリクエストしたりすることができる。
【0063】
なお、センタ1は、リクエストで指定された氏名の歌唱者だけでなく、当該歌唱者に類似する声質または歌い方を有する歌唱者を抽出するようにしてもよい。抽出方法は、例えば、音声特徴量を定量化したもの(響き度、透明度、および安定度)が類似する複数の歌唱者を予めグループ化しておく手法を用いる。センタ1は、予め利用者の個人認証しておき、ログイン時または選曲時に、過去の歌唱履歴から歌唱者に近い音声特徴量または同じグループに属する歌唱者を抽出する。また、センタ1は、リクエストで指定された氏名の歌唱者が不在である場合に、当該歌唱者に類似した声質を有する歌唱者を抽出してもよい。この場合、利用者のカラオケ装置7のモニタ24には、指定した歌唱者に類似した声質を有する歌唱者とデュエット歌唱が可能である旨が表示される。したがって利用者は、リクエストで指定した歌唱者が不在であった場合に、録音データや合成音声ではなく、類似した声質を有する歌唱者の生の歌声とデュエット歌唱を行うこともできる。
【0064】
また、利用者自身の録音音声がセンタ1のHDD33に記憶されている場合には、デュエット歌唱をリクエストした利用者の類似する声質または歌い方の歌唱者を抽出するようにしてもよい。この場合、自身の声質または歌い方に類似した歌唱者とデュエット歌唱を行うことができる。
【0065】
また、カラオケ装置7のCPU11は、モニタ24に抽出結果情報を表示するとき、
図9に示すように、抽出された歌唱者の声質(または歌い方)を同時に表示してもよい。これにより、利用者は各歌唱者の声質を判断しながらデュエット歌唱の相手を選ぶことができる。
【0066】
なお、利用者が合成音声とのデュエット歌唱を選択した場合、CPU11は、センタ1から音素データとともに当該歌唱者の歌い方データをダウンロードして、各音素のピッチを調整してビブラート等を付加することで、合成音声の歌い方を歌い方データベースにおける各歌唱者の歌い方に近似させるようにしてもよい。
【0067】
なお、本実施形態では、ネットワークカラオケシステムを構成するカラオケ装置として、カラオケ店舗に設置された専用の装置を示したが、例えばユーザの所有するPCやスマートフォン、ゲーム機等の情報処理装置も、カラオケ装置として機能することが可能である。
【0068】
なお、本実施形態では、リクエストに対応する歌唱者と歌唱可能であるか否か(または当該歌唱者の録音音声と歌唱可能であるか否か)を報知する一例として、モニタ24に表示する例を示したが、例えばスピーカ21から、リクエストに対応する歌唱者と歌唱可能であるか否か(または当該歌唱者の録音音声と歌唱可能であるか否か)を音声で通知するようにしてもよい。
【0069】
また、
図10に示すように、カラオケ装置7のHDD13に歌唱者情報データベースが構築されていてもよい。歌唱者情報データベースがカラオケ装置7のHDD13に構築されている場合、
図11に示すように、抽出処理(s52)は、カラオケ装置7で実行される。また、
図6で示した抽出結果情報送信処理(s53)、および抽出結果情報受信処理(s14)は、不要である。センタ1は、リクエストおよび選択結果を受信した場合に、選択された歌唱者のカラオケ装置と接続処理を行う(s55)。
【0070】
なお、HDD13に歌唱者情報データベースが構築されている場合、あるカラオケ装置7で歌唱者情報に変化があった場合に、当該歌唱者情報がセンタ1を介して各カラオケ装置7に送信され、情報の同期が取られる。また、
図10に示すように、歌唱データおよび音素データもカラオケ装置7のHDD13に記憶されていてもよい。ただし、歌唱データおよび音素データは、全てのカラオケ装置7において記憶されている必要はない。リクエストを受け付けたカラオケ装置7が、歌唱データまたは音素データが記憶されているカラオケ装置7から都度ダウンロード(ストリーミング)することにより歌唱音の再生(音声の合成)を行う。