IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社第一興商の特許一覧

<>
  • 特許-カラオケシステム 図1
  • 特許-カラオケシステム 図2
  • 特許-カラオケシステム 図3
  • 特許-カラオケシステム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-02-14
(45)【発行日】2023-02-22
(54)【発明の名称】カラオケシステム
(51)【国際特許分類】
   G10K 15/04 20060101AFI20230215BHJP
   G10L 15/00 20130101ALI20230215BHJP
【FI】
G10K15/04 302D
G10L15/00 200G
【請求項の数】 7
(21)【出願番号】P 2019032477
(22)【出願日】2019-02-26
(65)【公開番号】P2020134901
(43)【公開日】2020-08-31
【審査請求日】2021-11-18
(73)【特許権者】
【識別番号】390004710
【氏名又は名称】株式会社第一興商
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】橘 聡
(72)【発明者】
【氏名】関澤 武史
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2012-88521(JP,A)
【文献】特開2013-24935(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータ、カラオケ歌唱を採点するためのリファレンスデータ、及びカラオケ歌唱を行う歌唱者の音声であって、当該カラオケ歌唱による歌唱音声以外の非歌唱音声に対応する複数の第1の効果音データを記憶するデータ記憶部と、
楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理する信号処理部と、
前記入力された歌唱者の音声に基づく信号からピッチを検出するピッチ検出部と、
前記楽曲の歌唱区間においては、前記信号処理部による処理結果と歌詞テロップデータとの比較結果、及び検出された前記ピッチと前記リファレンスデータとの比較結果の少なくとも一方に基づいて、前記入力された歌唱者の音声の音声タイプを判定し、且つ前記楽曲の非歌唱区間においては、少なくとも前記信号処理部による処理結果に基づいて、前記音声タイプを判定する判定部と、
前記音声タイプが前記非歌唱音声の場合、放音手段から、当該非歌唱音声に対応する前記第1の効果音データに基づく効果音を出力する効果音出力部と、
を有するカラオケシステム。
【請求項2】
前記判定部は、前記楽曲の前奏区間を演奏中に入力された前記歌唱者の音声に基づく信号の処理結果の中に、人名、楽曲名、挨拶のいずれかを示す語句が含まれている場合、前記音声タイプを、前記非歌唱音声に含まれる挨拶音声であると判定し、
前記効果音出力部は、前記挨拶音声に対応する前記第1の効果音データに基づく効果音を出力することを特徴とする請求項1記載のカラオケシステム。
【請求項3】
前記判定部は、前記楽曲の間奏区間を演奏中に入力された前記歌唱者の音声に基づく信号の処理結果の中に、人名、楽器名のいずれかを示す語句が含まれている場合、前記音声タイプを、前記非歌唱音声に含まれるプレイヤー紹介音声であると判定し、
前記効果音出力部は、前記プレイヤー紹介音声に対応する前記第1の効果音データに基づく効果音を出力することを特徴とする請求項1または2記載のカラオケシステム。
【請求項4】
前記判定部は、前記楽曲の後奏区間を演奏中に入力された前記歌唱者の音声に基づく信号の処理結果の中に、感謝を示す語句が含まれている場合、前記音声タイプを、前記非歌唱音声に含まれるお礼音声であると判定し、
前記効果音出力部は、前記お礼音声に対応する前記第1の効果音データに基づく効果音を出力することを特徴とする請求項1から3のいずれか一つに記載のカラオケシステム。
【請求項5】
前記判定部は、前記歌唱者の音声に基づく信号の処理結果の中に、所定の処理コマンドを示す語句が含まれている場合、前記音声タイプを前記非歌唱音声に含まれるコマンド音声であると判定し、
前記効果音出力部は、前記第1の効果音データに基づく効果音の出力を禁止することを特徴とする請求項1から4のいずれか一つに記載のカラオケシステム。
【請求項6】
前記判定部は、前記歌唱者の音声に基づく信号の処理結果の中に、前記楽曲の歌詞が含まれており、且つ当該歌詞が本来歌唱すべき歌唱タイミングに先行して歌唱されている場合、前記音声タイプを前記非歌唱音声に含まれるリードナレーション音声であると判定し、
前記効果音出力部は、前記第1の効果音データに基づく効果音の出力を禁止することを特徴とする請求項1から5のいずれか一つに記載のカラオケシステム。
【請求項7】
前記カラオケシステムに対する前記歌唱者のログインを行うログイン処理部と、
ログインを行った前記歌唱者について、予め登録された呼称情報を取得する取得部と、
前記呼称情報に基づいて音声合成を行い、第2の効果音データを生成するデータ生成部と、
を有し、
前記効果音出力部は、前記第1の効果音データに基づく効果音を出力する際、前記第2の効果音データに基づく効果音を混合して出力することを特徴とする請求項1からのいずれか一つに記載のカラオケシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケシステムに関する。
【背景技術】
【0002】
カラオケ歌唱を盛り上げるために、カラオケ歌唱を聴く聴衆が拍手を行ったり、合の手を入れることがある。一方、カラオケ歌唱中に拍手や合の手などの効果音を自動的に放音する技術が知られている。
【0003】
たとえば、特許文献1には、基準採点値と、利用者の歌唱区間別の歌唱採点値を比較し、その比較結果に基づいて、効果音出力手段にて各種効果音を所定のタイミングで出力する技術が開示されている。このような技術によれば、それぞれの歌唱区間毎の採点評価に基づき的確な効果音を出力することができるとされている。
【先行技術文献】
【特許文献】
【0004】
【文献】特開2008-209640号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、カラオケ歌唱を行う歌唱者は、カラオケ演奏の前奏区間に挨拶や楽曲紹介を行ったり、後奏区間にお礼のメッセージを述べる等、非歌唱音声を発することがある。非歌唱音声は、カラオケ演奏中に歌唱者により発声された、カラオケ歌唱の歌唱音声以外の音声である。このような場合に、非歌唱音声に対応した拍手や合の手があることにより、カラオケ歌唱の場をより盛り上げることができる。
【0006】
本発明の目的は、歌唱者により非歌唱音声が発せられた場合に、当該非歌唱音声に応じた効果音を放音することが可能なカラオケシステムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するための発明は、楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータ、カラオケ歌唱を採点するためのリファレンスデータ、及びカラオケ歌唱を行う歌唱者の音声であって、当該カラオケ歌唱による歌唱音声以外の非歌唱音声に対応する複数の第1の効果音データを記憶するデータ記憶部と、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理する信号処理部と、前記入力された歌唱者の音声に基づく信号からピッチを検出するピッチ検出部と、前記楽曲の歌唱区間においては、前記信号処理部による処理結果と歌詞テロップデータとの比較結果、及び検出された前記ピッチと前記リファレンスデータとの比較結果の少なくとも一方に基づいて、前記入力された歌唱者の音声の音声タイプを判定し、且つ前記楽曲の非歌唱区間においては、少なくとも前記信号処理部による処理結果に基づいて、前記音声タイプを判定する判定部と、前記音声タイプが前記非歌唱音声の場合、放音手段から、当該非歌唱音声に対応する前記第1の効果音データに基づく効果音を出力する効果音出力部と、を有するカラオケシステムである。
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。
【発明の効果】
【0008】
本発明によれば、歌唱者により非歌唱音声が発せられた場合に、当該非歌唱音声に応じた効果音を放音することができる。
【図面の簡単な説明】
【0009】
図1】第1実施形態に係るカラオケ装置のハードウェア構成例を示す図である。
図2】第1実施形態に係るカラオケ本体のソフトウェア構成例を示す図である。
図3】第1実施形態に係るカラオケ装置の処理を示すフローチャートである。
図4】第2実施形態に係るカラオケ本体のソフトウェア構成例を示す図である。
【発明を実施するための形態】
【0010】
<第1実施形態>
図1図3を参照して、本実施形態に係るカラオケシステムについて説明する。本実施形態において、カラオケ装置1がカラオケシステムを構成する。
【0011】
==カラオケ装置==
カラオケ装置1は、カラオケ演奏及び歌唱者がカラオケ歌唱を行うための装置である。図1に示すように、カラオケ装置1は、カラオケ本体10、スピーカ20、表示装置30、マイク40、及びリモコン装置50を備える。
【0012】
スピーカ20は各種音声を放音するための構成である。本実施形態におけるスピーカ20は、「放音手段」に相当する。表示装置30はカラオケ本体10からの信号に基づいて映像や画像を画面に表示するための構成である。マイク40は歌唱者の歌唱音声や非歌唱音声をアナログの信号に変換してカラオケ本体10に入力するための構成である。リモコン装置50は、カラオケ本体10に対する各種操作をおこなうための装置である。歌唱者はリモコン装置50を用いてカラオケ歌唱を希望する楽曲の選曲(予約)等を行うことができる。リモコン装置50の表示画面には各種操作の指示入力を行うためのアイコン等が表示される。
【0013】
カラオケ本体10は、選曲された楽曲のカラオケ演奏制御、歌詞や背景映像等の表示制御、マイク40を通じて入力された信号の処理といった、カラオケ歌唱に関する各種の制御を行う。図1に示すように、カラオケ本体10は、制御部11、通信部12、記憶部13、音響処理部14、表示処理部15及び操作部16を備える。各構成はインターフェース(図示なし)を介してバスBに接続されている。
【0014】
制御部11は、CPU11aおよびメモリ11bを備える。CPU11aは、メモリ11bに記憶された動作プログラムを実行することにより各種の制御機能を実現する。メモリ11bは、CPU11aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶装置である。
【0015】
通信部12は、ルーター(図示なし)を介してカラオケ本体10を通信回線に接続するためのインターフェースを提供する。
【0016】
記憶部13は、各種のデータを記憶する大容量の記憶装置であり、たとえばハードディスクドライブなどである。記憶部13は、カラオケ装置1によりカラオケ演奏を行うための複数の楽曲データを記憶する。
【0017】
楽曲データは、個々のカラオケ楽曲を特定するための楽曲IDが付与されている。楽曲データは、伴奏データ、リファレンスデータ等を含む。伴奏データは、カラオケ演奏音の元となるデータである。リファレンスデータは、歌唱者によるカラオケ歌唱を採点する際の基準として用いられるデータである。リファレンスデータは、音符毎のピッチの値を含む。
【0018】
また、記憶部13は、各カラオケ楽曲に対応する歌詞テロップをカラオケ演奏に合わせて表示装置30等に表示させるための歌詞テロップデータ、カラオケ演奏時に表示装置30等に表示される背景画像等の背景画像データ、及び楽曲の属性情報(歌手名、作詞・作曲者名、ジャンル等の当該楽曲に関する情報)を記憶する。
【0019】
各楽曲には歌唱区間と非歌唱区間が存在する。歌唱区間は、カラオケ歌唱を行うための歌詞が付与されている区間(Aメロ、Bメロ、サビ等)である。非歌唱区間は、歌唱区間以外の区間であり、歌詞が付与されていない区間(前奏、間奏、後奏等)である。
【0020】
音響処理部14は、制御部11の制御に基づき、楽曲に対するカラオケ演奏の制御およびマイク40を通じて入力された歌唱音声や非歌唱音声に基づく信号の処理を行う。表示処理部15は、制御部11の制御に基づき、表示装置30やリモコン装置50における各種表示に関する処理を行う。たとえば、表示処理部15は、楽曲のカラオケ演奏時における背景映像に歌詞テロップや各種アイコンが重ねられた映像を表示装置30に表示させる制御を行う。或いは、表示処理部15は、リモコン装置50の表示画面に操作入力用の各種アイコンを表示させる。操作部16は、パネルスイッチおよびリモコン受信回路などからなり、歌唱者によるカラオケ装置1のパネルスイッチあるいはリモコン装置50の操作に応じて選曲信号、演奏中止信号などの操作信号を制御部11に対して出力する。制御部11は、操作部16からの操作信号を検出し、対応する処理を実行する。
【0021】
(ソフトウェア構成)
図2はカラオケ本体10のソフトウェア構成例を示す図である。カラオケ本体10は、データ記憶部100、信号処理部200、ピッチ検出部300、判定部400、及び効果音出力部500を備える。データ記憶部100は、記憶部13の記憶領域の一部として提供される。信号処理部200、ピッチ検出部300、判定部400、及び効果音出力部500は、CPU11aがメモリ11bに記憶されるプログラムを実行することにより実現される。
【0022】
[データ記憶部]
データ記憶部100は、歌詞テロップデータ、リファレンスデータ(いずれも上述)、及び複数の第1の効果音データを記憶する。
【0023】
第1の効果音データは、カラオケ歌唱を行う歌唱者の音声であって、当該カラオケ歌唱による歌唱音声以外の非歌唱音声に対応するデータである。第1の効果音データに基づく効果音は、たとえば、拍手や歓声、叫び声、指笛、鳴り物の音、動物の鳴き声である。
【0024】
第1の効果音データは、非歌唱音声の音声タイプに応じて複数記憶されている。たとえば、非歌唱音声の音声タイプとしては、楽曲の前奏区間における「挨拶音声」、楽曲の間奏区間における「プレイヤー紹介音声」、楽曲の後奏区間における「お礼音声」がある。なお、楽曲の歌唱区間において非歌唱音声が入力されることもありうる。このような非歌唱音声についても第1の効果音データを設定することが可能である。
【0025】
以下の説明において、データ記憶部100は、「挨拶音声」に対応する第1の効果音データSE1、「プレイヤー紹介音声」に対応する第1の効果音データSE2、「お礼音声」に対応する第1の効果音データSE3、及びそれ以外の非歌唱音声に対応する第1の効果音データSE4を記憶しているとする。
【0026】
[信号処理部]
信号処理部200は、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理する。
【0027】
ある歌唱者が予約した楽曲のカラオケ演奏が開始された後、マイク40から音声入力を受けたとする。この場合、信号処理部200は、入力された音声に基づく信号を処理し、音声に含まれる語句を抽出する。音声認識処理は公知の手法を用いることができる。
【0028】
たとえば、歌唱者がマイク40を介し、カラオケ演奏の前奏区間に「こんばんは。オジーです。」と発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理して、データ記憶部100に記憶されている辞書データと照合することで、「こんばんは」という語句(挨拶の定型文)、及び「オジー」という語句(人名)を抽出する。信号処理部200は、抽出した語句の情報を判定部400に出力する。
【0029】
[ピッチ検出部]
ピッチ検出部300は、入力された歌唱者の音声に基づく信号からピッチを検出する。
【0030】
ある歌唱者が予約した楽曲のカラオケ演奏が開始された後、マイク40から音声入力を受けたとする。この場合、ピッチ検出部300は、入力された音声に基づく信号を処理し、音声のピッチを時系列に検出する。ピッチ検出は公知の手法を用いることができる。
【0031】
たとえば、歌唱者がマイク40を介し、カラオケ演奏の歌唱区間に歌詞テロップを参照しながら発声したとする。この場合、ピッチ検出部300は、マイク40から入力された信号からピッチを検出する。ピッチ部300は、検出したピッチを判定部400に出力する。
【0032】
[判定部]
判定部400は、楽曲の歌唱区間においては、信号処理部200による処理結果と歌詞テロップデータとの比較結果、及び検出されたピッチとリファレンスデータとの比較結果の少なくとも一方に基づいて、入力された歌唱者の音声の音声タイプを判定する。一方、判定部400は、楽曲の非歌唱区間においては、少なくとも信号処理部200による処理結果に基づいて、音声タイプを判定する。
【0033】
音声タイプは、歌唱音声と非歌唱音声に区分することができる。歌唱音声は、歌唱者のカラオケ歌唱による音声である。すなわち、歌唱音声は、歌唱者がカラオケ演奏に合わせて適切なピッチで楽曲の歌詞を歌唱した場合に得られる音声である。非歌唱音声は、上述の通り歌唱者の発する音声のうち、歌唱音声以外の音声である。すなわち、非歌唱音声は、本来歌唱すべきピッチ及び歌詞とは異なる声を発した場合に得られる音声である。なお、上述の通り、非歌唱音声はいくつかの音声タイプに区分することができる。
【0034】
具体的に、楽曲の歌唱区間において、判定部400は、信号処理部200により抽出された語句と歌詞テロップとの一致度を求める。また、判定部400は、検出されたピッチの値とリファレンスデータが示すピッチの値との差分を求める。一致度及び差分が所定範囲内に含まれている場合、判定部400は、入力された歌唱者の音声の音声タイプが歌唱音声であると判定する。
【0035】
所定範囲は、音声タイプが歌唱音声か非歌唱音声かを区別するための値である。たとえば、信号処理部200による処理結果と歌詞テロップデータとの比較結果における所定範囲は、95%以上とすることができる。また、検出されたピッチとリファレンスデータとの比較結果における所定範囲は、100cent以内とすることができる。
【0036】
また、判定部400は、信号処理部200による処理結果と歌詞テロップデータとの比較結果、または検出されたピッチとリファレンスデータとの比較結果のいずれか一方に基づいて音声タイプを判定してもよい。
【0037】
一方、楽曲の非歌唱区間において、判定部400は、信号処理部200により抽出された語句に基づいて非歌唱音声の音声タイプを判定する。より具体的には、抽出された語句が人名、楽曲名、挨拶、楽器名等の複数の区分のいずれに相当するかに基づいて判定する。なお、判定部400は、非歌唱区間であっても、信号処理部200による処理結果と歌詞テロップデータとの比較や、検出されたピッチとリファレンスデータとの比較を行い、その結果に応じて音声タイプを判定してもよい。
【0038】
以下、音声タイプの判定についていくつかの具体例を示す。
【0039】
(例1)
歌唱者がマイク40を介し、カラオケ演奏の歌唱区間に歌詞テロップを参照しながら発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理することで、音声に含まれる語句を抽出する。また、ピッチ検出部300は、マイク40から入力された信号からピッチを検出する。
【0040】
この例において、抽出された語句は楽曲の歌詞であるため、歌詞テロップとの一致度は、一般に高い値(100%に近い値)を示す。また、この例において、歌唱者はカラオケ演奏に合わせて歌詞を発声しているため、リファレンスデータとの差分は、一般に低い値(0centに近い値)を示す。従って、判定部400は、入力された歌唱者の音声の音声タイプが歌唱音声であると判定する。
【0041】
(例2)
歌唱者がマイク40を介し、カラオケ演奏の歌唱区間において、歌詞と歌詞の間の短時間に、歌詞と関係ない語句(たとえば「ワォ!」)を発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理することで、音声に含まれる「ワォ」という語句を抽出する。また、ピッチ検出部300は、マイク40から入力された信号からピッチを検出する。
【0042】
この例において、抽出された語句「ワォ」は歌詞に無いため、歌詞テロップとの一致度は0%となる。また、この例において、「ワォ」は、歌詞と歌詞の間での発声のため、対応するリファレンスデータが存在しない。つまり、判定部400は、リファレンスデータとの差分を求めることができない。従って、判定部400は、入力された歌唱者の音声の音声タイプが非歌唱音声であると判定する。なお、この場合の音声タイプは、上述の挨拶音声、プレイヤー紹介音声、お礼音声のいずれにも含まれない音声である。
【0043】
(例3)
歌唱者がマイク40を介し、カラオケ演奏の前奏区間において、「こんばんは。オジーです。」と発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理することで、音声に含まれる「こんばんは」及び「オジー」を抽出する。
【0044】
ここで、判定部400は、楽曲の前奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、人名、楽曲名、挨拶のいずれかを示す語句が含まれている場合、音声タイプを、非歌唱音声に含まれる挨拶音声であると判定する。この例において、抽出された語句「こんばんは」は、挨拶の定型文であり、「オジー」は、人名である。従って、判定部400は、「挨拶」及び「人名」を示す語句が含まれていることから、入力された歌唱者の音声の音声タイプが挨拶音声であると判定する。
【0045】
(例4)
歌唱者がマイク40を介し、カラオケ演奏の間奏区間において、「ギター!トニー!」と発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理することで、音声に含まれる「ギター」及び「トニー」を抽出する。
【0046】
ここで、判定部400は、楽曲の間奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、人名、楽器名のいずれかを示す語句が含まれている場合、音声タイプを、非歌唱音声に含まれるプレイヤー紹介音声であると判定する。この例において、抽出された語句「ギター」は、楽器名であり、「トニー」は、人名である。従って、判定部400は、「楽器名」及び「人名」を示す語句が含まれていることから、入力された歌唱者の音声の音声タイプがプレイヤー紹介音声であると判定する。
【0047】
(例5)
歌唱者がマイク40を介し、カラオケ演奏の後奏区間において、「サンキュー!」と発声したとする。この場合、信号処理部200は、マイク40からの信号を音声認識処理することで、音声に含まれる「サンキュー」を抽出する。
【0048】
ここで、判定部400は、楽曲の後奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、感謝を示す語句が含まれている場合、音声タイプを、非歌唱音声に含まれるお礼音声であると判定する。この例において、抽出された語句「サンキュー」は、感謝を示す語句である。従って、判定部400は、感謝を示す語句が含まれていることから、入力された歌唱者の音声の音声タイプがお礼音声であると判定する。
【0049】
[効果音出力部]
効果音出力部500は、音声タイプが非歌唱音声の場合、放音手段から、当該非歌唱音声に対応する第1の効果音データに基づく効果音を出力する。
【0050】
効果音出力部500は、判定部400による判定結果に応じて、音声タイプに応じた効果音データをデータ記憶部100から読み出し、スピーカ20から放音する。たとえば、判定結果が「挨拶音声」の場合、効果音出力部500は、データ記憶部100から第1の効果音データSE1を読み出し、スピーカ20から放音する。同様に、判定結果が「プレイヤー紹介音声」の場合、効果音出力部500は、データ記憶部100から第1の効果音データSE2を読み出し、スピーカ20から放音する。判定結果が「お礼音声」の場合、効果音出力部500は、データ記憶部100から第1の効果音データSE3を読み出し、スピーカ20から放音する。また、例2で示したような判定結果が得られた場合、効果音出力部500は、データ記憶部100から第1の効果音データSE4を読み出し、スピーカ20から放音する。なお、判定結果が「プレイヤー紹介音声」の場合、効果音出力部500は、間奏区間の最後の小節がカラオケ演奏されるタイミングで効果音を放音することが好ましい。
【0051】
一方、音声タイプが歌唱音声の場合、効果音を出力することはカラオケ歌唱の妨げになる。従って、効果音出力部500は効果音の出力を行わない。
【0052】
==カラオケ装置における処理について==
次に、図3を参照して本実施形態に係るカラオケ装置1における処理の具体例について述べる。図3は、カラオケ装置1における処理例を示すフローチャートである。この例では、歌唱者が選曲した楽曲Xのカラオケ歌唱を行う例について述べる。データ記憶部100は、楽曲Xの歌詞テロップデータ及びリファレンスデータと、非歌唱音声に対応する複数の第1の効果音データを記憶しているとする。
【0053】
カラオケ装置1は、楽曲Xのカラオケ演奏を開始する(カラオケ演奏の開始。ステップ10)。歌唱者は、カラオケ演奏が開始された後、音声を入力する。
【0054】
信号処理部200は、楽曲Xのカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理する(音声認識処理。ステップ11)。
【0055】
ピッチ検出部300は、入力された歌唱者の音声に基づく信号からピッチを検出する(ピッチ検出。ステップ12)。
【0056】
判定部400は、楽曲の歌唱区間においては、ステップ11の処理結果と歌詞テロップデータとの比較結果、及びステップ12で検出されたピッチとリファレンスデータとの比較結果の少なくとも一方に基づいて、入力された歌唱者の音声の音声タイプを判定する。一方、判定部400は、楽曲の非歌唱区間においては、ステップ11の処理結果に基づいて、音声タイプを判定する。
【0057】
音声タイプが非歌唱音声であると判定された場合(ステップ13でYの場合)、効果音出力部500は、スピーカ20から、当該非歌唱音声に対応する第1の効果音データに基づく効果音を出力する(効果音の出力。ステップ14)。
【0058】
カラオケ装置1は、楽曲Xのカラオケ演奏が終了するまで(ステップ15でYの場合)、ステップ1~ステップ14の処理を繰り返し行う。
【0059】
以上から明らかなように、本実施形態に係るカラオケ装置1は、楽曲のカラオケ演奏に合わせて歌詞テロップを表示するための歌詞テロップデータ、カラオケ歌唱を採点するためのリファレンスデータ、及びカラオケ歌唱を行う歌唱者の音声であって、当該カラオケ歌唱による歌唱音声以外の非歌唱音声に対応する複数の第1の効果音データを記憶するデータ記憶部100と、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づく信号を処理する信号処理部200と、入力された歌唱者の音声に基づく信号からピッチを検出するピッチ検出部300と、楽曲の歌唱区間においては、信号処理部200による処理結果と歌詞テロップデータとの比較結果、及び検出されたピッチとリファレンスデータとの比較結果の少なくとも一方に基づいて、入力された歌唱者の音声の音声タイプを判定し、且つ楽曲の非歌唱区間においては、少なくとも信号処理部200による処理結果に基づいて、音声タイプを判定する判定部400と、音声タイプが非歌唱音声の場合、スピーカ20から、当該非歌唱音声に対応する第1の効果音データに基づく効果音を出力する効果音出力部500と、を有する。
【0060】
このようなカラオケ装置1によれば、楽曲のカラオケ演奏中に入力された歌唱者の音声に基づいて音声タイプを判定し、非歌唱音声の場合には、効果音を自動的に出力することができる。よって、カラオケ歌唱の場を盛り上げることができると共に、歌唱者が気分よくカラオケ歌唱を行うことができる。すなわち、本実施形態に係るカラオケ装置1によれば、歌唱者により非歌唱音声が発せられた場合に、当該非歌唱音声に応じた効果音を放音することができる。
【0061】
具体的に、判定部400は、楽曲の前奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、人名、楽曲名、挨拶のいずれかを示す語句が含まれている場合、音声タイプを、前記非歌唱音声に含まれる挨拶音声であると判定し、効果音出力部500は、挨拶音声に対応する第1の効果音データに基づく効果音を出力する。また、判定部400は、楽曲の間奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、人名、楽器名のいずれかを示す語句が含まれている場合、音声タイプを、非歌唱音声に含まれるプレイヤー紹介音声であると判定し、効果音出力部500は、プレイヤー紹介音声に対応する第1の効果音データに基づく効果音を出力する。或いは、判定部400は、楽曲の後奏区間を演奏中に入力された歌唱者の音声に基づく信号の処理結果の中に、感謝を示す語句が含まれている場合、音声タイプを、非歌唱音声に含まれるお礼音声であると判定し、効果音出力部500は、お礼音声に対応する第1の効果音データに基づく効果音を出力する。このように本実施形態に係るカラオケ装置1によれば、非歌唱音声の音声タイプに応じた効果音を出力できる。
【0062】
<第2実施形態>
次に、図4を参照して、第2実施形態に係るカラオケシステムについて説明する。本実施形態においても第1実施形態と同様、カラオケ装置1がカラオケシステムを構成する。本実施形態では、歌唱者が予め登録している呼称情報(後述)を用いた効果音を出力する例について述べる。第1実施形態と同様の構成については詳細な説明を省略する。
【0063】
(ソフトウェア構成)
図4はカラオケ本体10のソフトウェア構成例を示す図である。カラオケ本体10は、データ記憶部100、信号処理部200、ピッチ検出部300、判定部400、効果音出力部500、ログイン処理部600、取得部700、及びデータ生成部800を備える。データ記憶部100は、記憶部13の記憶領域の一部として提供される。信号処理部200、ピッチ検出部300、判定部400、効果音出力部500、ログイン処理部600、取得部700、及びデータ生成部800は、CPU11aがメモリ11bに記憶されるプログラムを実行することにより実現される。
【0064】
[ログイン処理部]
ログイン処理部600は、カラオケ装置1に対する歌唱者のログインを行う。
【0065】
たとえば、歌唱者は、カラオケ装置1のリモコン装置50を介し、自己の専用IDを入力する。専用IDは、歌唱者を識別するための固有の識別子である。歌唱者からの操作入力に基づき、ログイン処理部600は、専用IDを記憶部13に記憶させることでカラオケ装置1に対する歌唱者のログインを完了する。
【0066】
[取得部]
取得部700は、ログインを行った歌唱者について、予め登録された呼称情報を取得する。
【0067】
呼称情報は、歌唱者の氏名やニックネーム等、歌唱者を呼ぶ際に使用される名称を示す情報である。呼称情報は、たとえば専用IDを設定する際に予め登録する。呼称情報は、専用IDと紐付けられて記憶されている。呼称情報の記憶は、カラオケ装置1の記憶部13で行ってもよいし、サーバ装置(図示なし)で行ってもよい。
【0068】
たとえば、歌唱者がカラオケ装置1にログインしたとする。この場合、取得部700は、歌唱者の専用IDに基づいて記憶部13から対応する呼称情報「オジー」を読み出す。
【0069】
[データ生成部]
データ生成部800は、呼称情報に基づいて音声合成を行い、第2の効果音データを生成する。
【0070】
取得部700により呼称情報が取得された場合、データ生成部800は、取得した呼称情報に基づいた音声合成処理により第2の効果音データを生成する。音声合成は公知の手法を用いて行うことができる。
【0071】
[効果音出力部]
本実施形態に係る効果音出力部500は、第1の効果音データに基づく効果音を出力する際、第2の効果音データに基づく効果音を混合して出力する。
【0072】
たとえば、第1実施形態で述べたように、歌唱者がマイク40を介し、カラオケ演奏の歌唱区間において、歌詞と歌詞の間の短時間に、歌詞と関係ない語句「ワォ!」を発声したとする。この場合、判定部400は、入力された歌唱者の音声の音声タイプが非歌唱音声であると判定する。
【0073】
この際、データ生成部800は、取得した呼称情報「オジー」を用いて第2の効果音データSE5を生成する。
【0074】
そして、効果音出力部500は、データ記憶部100から第1の効果音データSE4を読み出し、生成した第2の効果音データSE5と混合してスピーカ20から放音する。
【0075】
このように、本実施形態に係るカラオケ装置1は、カラオケ装置1に対する歌唱者のログインを行うログイン処理部600と、ログインを行った歌唱者について、予め登録された呼称情報を取得する取得部700と、呼称情報に基づいて音声合成を行い、第2の効果音データを生成するデータ生成部800と、を有する。また、本実施形態に係る効果音出力部500は、第1の効果音データに基づく効果音を出力する際、第2の効果音データに基づく効果音を混合して出力する。このようなカラオケ装置1によれば、効果音として歌唱者の呼称を含む音を放音できるため、歌唱者がより気分よくカラオケ歌唱を行うことができる。
【0076】
なお、第1実施形態で述べたように、歌唱者がマイク40を介し、カラオケ演奏の間奏区間において、「ギター!トニー!」と発声したとする。この場合、判定部400は、入力された歌唱者の音声の音声タイプがプレイヤー紹介音声であると判定する。
【0077】
この際、データ生成部800は、取得した呼称情報「オジー」ではなく、抽出された人名「トニー」を用いて第2の効果音データSE6を生成してもよい。
【0078】
効果音出力部500は、データ記憶部100から第1の効果音データSE4を読み出し、生成した第2の効果音データSE6と混合してスピーカ20から放音する。
【0079】
<その他>
データ記憶部100等、一部の構成がサーバ装置(図示なし)に設けられていてもよい。この場合、カラオケシステムは、カラオケ装置1及びサーバ装置により構成される。
【0080】
また、カラオケ装置の中には、歌唱者のコマンド音声入力に応じてボリューム調整等を実行する音声コマンド入力機能を有するものがある。また、カラオケ歌唱においてプロのアーティストが聴衆に歌唱させるために先行して歌詞を読み上げるリードナレーションを真似しようとする歌唱者もいる。
【0081】
これらのコマンド音声やリードナレーション音声は歌唱音声ではなく非歌唱音声に該当する。一方、コマンド音声は、歌唱者がカラオケ歌唱とは関係なく発した音声である。また、リードナレーション音声に対する聴衆の反応は歌唱(合唱)が前提である。従って、このような非歌唱音声に対し、効果音を放音することは望ましくない。
【0082】
そこで、判定部400は、歌唱者の音声に基づく信号の処理結果の中に、所定の処理コマンドを示す語句が含まれている場合、音声タイプを非歌唱音声に含まれるコマンド音声であると判定する。その場合、効果音出力部500は、第1の効果音データに基づく効果音の出力を禁止する。
【0083】
たとえば、第1実施形態の例において、「挨拶音声」、「プレイヤー紹介音声」、及び「お礼音声」に該当しない音声タイプに対しては、第1の効果音データSE4が記憶されている。そこで、効果音出力部500は、音声タイプがコマンド音声の場合には、第1の効果音データSE4を放音することを禁止する。
【0084】
同様に、判定部400は、歌唱者の音声に基づく信号の処理結果の中に、楽曲の歌詞が含まれており、且つ当該歌詞が本来歌唱すべき歌唱タイミングに先行して発声されている場合、音声タイプを非歌唱音声に含まれるリードナレーション音声であると判定する。その場合、効果音出力部500は、第1の効果音データに基づく効果音の出力を禁止する。
【0085】
たとえば、判定部400は、信号処理部200により抽出された語句と歌詞テロップとの一致度が所定範囲内である一方、検出されたピッチの値とリファレンスデータが示すピッチの値との差分が大きい場合、入力された歌唱者の音声の音声タイプがリードナレーション音声であると判定する。この場合、効果音出力部500は、第1の効果音データを放音することを禁止する。
【0086】
上記実施形態は、例として提示したものであり、発明の範囲を限定するものではない。上記の構成は、適宜組み合わせて実施することが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0087】
1 カラオケ装置
10 カラオケ本体
11 制御部
100 データ記憶部
200 信号処理部
300 ピッチ検出部
400 判定部
500 効果音出力部
600 ログイン処理部
700 取得部
800 データ生成部
図1
図2
図3
図4