IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社第一興商の特許一覧

<>
  • 特許-カラオケ装置 図1
  • 特許-カラオケ装置 図2
  • 特許-カラオケ装置 図3
  • 特許-カラオケ装置 図4
  • 特許-カラオケ装置 図5
  • 特許-カラオケ装置 図6
  • 特許-カラオケ装置 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-19
(45)【発行日】2024-01-29
(54)【発明の名称】カラオケ装置
(51)【国際特許分類】
   G10K 15/04 20060101AFI20240122BHJP
   G10L 15/00 20130101ALI20240122BHJP
【FI】
G10K15/04 302D
G10L15/00 200Z
【請求項の数】 5
(21)【出願番号】P 2020128145
(22)【出願日】2020-07-29
(65)【公開番号】P2022025367
(43)【公開日】2022-02-10
【審査請求日】2023-04-18
(73)【特許権者】
【識別番号】390004710
【氏名又は名称】株式会社第一興商
(74)【代理人】
【識別番号】100111202
【弁理士】
【氏名又は名称】北村 周彦
(74)【代理人】
【識別番号】100150304
【弁理士】
【氏名又は名称】溝口 勉
(72)【発明者】
【氏名】山本 誠一
【審査官】冨澤 直樹
(56)【参考文献】
【文献】特開2008-216402(JP,A)
【文献】特開2013-045131(JP,A)
【文献】国際公開第2008/132265(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/04
G10L 15/00-15/34
(57)【特許請求の範囲】
【請求項1】
歌詞テロップデータ及び背景映像データを楽曲毎に記憶したカラオケ装置であって、
楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者の音声信号を取得する取得部と、
所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する生成部と、
所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施す修正部と、
修正処理後のテキストデータと背景映像データに基づいた映像を表示部に表示させる表示制御部と、を有することを特徴とするカラオケ装置。
【請求項2】
前記カラオケ装置には参加者が所持した携帯端末が通信可能に接続されており、
前記取得部は、前記携帯端末から送信された参加者の音声信号を取得することを特徴とする請求項1に記載のカラオケ装置。
【請求項3】
前記取得部が複数の参加者の音声信号を取得した場合に、前記生成部は参加者毎に識別可能なテキストデータを生成し、
前記表示制御部は、参加者毎に異なる表示態様で、修正処理後のテキストデータと背景映像データに基づいた映像を前記表示部に表示させることを特徴とする請求項1又は請求項2に記載のカラオケ装置。
【請求項4】
撮影部によって撮影された歌唱者の歌唱映像データを、当該歌唱映像データに対応する修正処理後のテキストデータに関連付けて記憶させる記憶制御部を有することを特徴とする請求項1から請求項3のいずれか1項に記載のカラオケ装置。
【請求項5】
前記表示制御部は、修正処理後のテキストデータ及び歌唱映像データに基づいた映像を前記表示部に表示させることを特徴とする請求項4に記載のカラオケ装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケ装置に関する。
【背景技術】
【0002】
インターネット上に公開された映像に視聴者がコメントを付与し、映像と共にコメントを画面に表示できるシステムが知られている(例えば、特許文献1参照)。特許文献1に記載のシステムは、画面に映像を再生表示させながら、画面の一側方から他側方にコメントを移動表示させている。コメントは表示時間と文字列長に基づいた速度で移動して、映像の再生中にコメントが次々に画面に表示される。また、ライブ配信中の映像を視聴しながら、視聴者によって映像に付与されたコメントを楽しむことができるシステムも提案されている。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2008-148071号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、グループでカラオケルームを利用する場合、歌唱者以外の参加者(非歌唱者)がカラオケ歌唱中の歌唱者に声援を送ったり、合いの手を入れたりすることがあるが、このような声援や合いの手は歌唱者にとって聞き取り辛い。そこで、参加者の声援や合いの手をテキスト化して、特許文献1のシステムのように、コメントとして背景映像と共にモニタに表示させることが考えられる。しかしながら、参加者がカラオケ演奏に合わせて歌唱すると、歌唱音声信号がテキスト化されてモニタに不要な歌詞が表示され、モニタの限られた表示領域が圧迫されるという不具合がある。
【0005】
本発明の目的は、モニタの表示領域を圧迫することなく、声援や合いの手等をコメントとしてモニタに表示することができるカラオケ装置を提供することである。
【課題を解決するための手段】
【0006】
上記目的を達成するための主たる発明は、歌詞テロップデータ及び背景映像データを楽曲毎に記憶したカラオケ装置であって、楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者の音声信号を取得する取得部と、所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する生成部と、所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施す修正部と、修正処理後のテキストデータと背景映像データに基づいた映像を表示部に表示させる表示制御部と、を有するカラオケ装置である。
【発明の効果】
【0007】
本発明によれば、楽曲のカラオケ演奏中に、所定の演奏区間毎に参加者の音声信号からテキストデータが生成され、このテキストデータから歌詞テロップデータと同一内容が削除されてテキストデータが修正される。参加者が声援等を歌唱者に送った場合には、テキスト化された声援等がコメントとして背景映像と共に表示部に表示され、参加者が歌唱者と共に歌唱した場合には、テキスト化された歌詞が表示部に表示されない。よって、表示部の限られた表示領域を圧迫することなく、参加者の声援等をコメントとして表示部に表示することができる。
【図面の簡単な説明】
【0008】
図1】第1実施形態のカラオケ装置の構成図である。
図2】第1実施形態のカラオケ装置の機能ブロック図である。
図3】第1実施形態の修正処理の一例を示す図である。
図4】第1実施形態のカラオケ装置の処理を示すフローチャートである。
図5】第2実施形態のカラオケ装置の機能ブロック図である。
図6】第2実施形態の修正処理の一例を示す図である。
図7】第3実施形態のカラオケ装置の機能ブロック図である。
【発明を実施するための形態】
【0009】
<第1実施形態>
図1及び図2を参照して、第1実施形態のカラオケ装置10について説明する。図1は、第1実施形態のカラオケ装置10の構成図である。図2は、第1実施形態のカラオケ装置10の機能ブロック図である。なお、図2の機能ブロック図には、説明の便宜上、コメントの表示処理に関する機能ブロックを図示している。
【0010】
図1に示すように、カラオケ装置10は、カラオケ本体11と、モニタ12と、スピーカ13と、マイクロフォン14と、リモコン装置15と、を備えている。また、カラオケ装置10には、利用者が所持した携帯端末M1が通信可能に接続されている。モニタ12は、カラオケ本体11からの映像信号等に基づいて、カラオケ演奏に合わせて背景映像と共に歌詞テロップ等を表示する。スピーカ13は、カラオケ本体11からの放音信号に基づいて、楽曲の伴奏音と共に歌唱者の歌唱音声を放音する。マイクロフォン14は、歌唱者の歌唱音声を歌唱音声信号に変換してカラオケ本体11に入力する。
【0011】
リモコン装置15は、タッチパネルを主体に構成されている。リモコン装置15は、検索メニューや検索結果等の各種情報をタッチパネルに表示すると共に、タッチパネルによって入力を受け付けている。リモコン装置15とカラオケ本体11は近距離無線通信を介してペアリングされており、リモコン装置15とカラオケ本体11の間で各種情報が相互に送受信される。リモコン装置15は、利用者のタッチ操作に基づいて楽曲を検索する。タッチパネルに表示された転送ボタンのタッチによって、リモコン装置15から予約楽曲情報がカラオケ本体11に送信される。
【0012】
カラオケ本体11は、リモコン装置15から受信した予約楽曲情報を記憶部21(図2参照)の予約管理テーブルに登録する。記憶部21には、楽曲毎にカラオケ歌唱に関する各種データ、例えば、カラオケ楽曲の伴奏音の元になる伴奏データ、歌唱の採点基準となるリファレンスデータ、モニタ12に表示される歌詞テロップや背景映像の元になる歌詞テロップデータや背景映像データが記憶されている。カラオケ本体11は、予約管理テーブルから登録順に予約楽曲情報を読み出し、この予約楽曲情報に対応する各種データを記憶部21から読み出す。
【0013】
カラオケ本体11がカラオケ演奏を開始すると、伴奏データの再生に同期して、歌詞テロップデータ及び背景映像データに基づいて歌詞テロップと背景映像がモニタ12に表示される。また、カラオケ本体11ではカラオケ演奏の伴奏音信号とマイクロフォン14から入力された歌唱音声信号がミキサによって適切な比率でミキシングされて、このミキシング信号がアンプによって増幅されてスピーカ13から放音される。このように、歌唱者がカラオケ演奏に合わせて歌唱すると、スピーカ13から伴奏音と共に歌唱音声が放音される。歌唱音声はリファレンスデータに基づいて採点される。
【0014】
携帯端末M1は、いわゆるスマートフォンであり、Bluetooth(登録商標)等の近距離無線通信を介してカラオケ装置10に接続されている。携帯端末M1にはアプリケーションのインストールによって様々な機能が追加されている。本実施形態の携帯端末M1には、カラオケ専用アプリケーションがインストールされており、歌唱者に対するコメント入力機能が搭載されている。携帯端末M1のカラオケ専用アプリケーションが起動されることで、携帯端末M1からカラオケ装置10に入力された利用者の音声信号がテキスト化されて、コメントとして背景映像に重ねてモニタ12に表示される。
【0015】
図2に示すように、カラオケ本体11は、カラオケ演奏処理に加えて、カラオケ演奏中に声援等をコメントとしてモニタ12に表示させるように構成されている。カラオケ本体11には、記憶部21と、演奏部22と、取得部23と、生成部24と、修正部25と、表示制御部26とが設けられている。記憶部21には、予約楽曲情報が登録順に並べられた予約管理テーブル、楽曲毎に楽曲データ、背景映像データ、歌詞テロップデータ等が記憶されている。演奏部22は、MIDI(Musical Instrument Digital Interface)音源等によって構成されている。演奏部22は、記憶部21から伴奏データを読み出して再生する。
【0016】
取得部23は、楽曲のカラオケ演奏中に歌唱者以外でカラオケに参加する参加者(非歌唱者)の音声信号を取得する。カラオケ装置10には参加者が所持した携帯端末M1が通信可能に接続されており、参加者が携帯端末M1に発声することで、参加者の音声が携帯端末M1のマイクロフォンによって音声信号に変換される。携帯端末M1からカラオケ本体11に音声信号が送信されて、取得部23によって参加者の音声信号が取得される。これにより、音声分離技術を用いることなく、歌唱者の音声信号と参加者の音声信号を区別して取得できる。なお、取得部23は、カラオケルームに設置された集音器から参加者の音声信号を取得してもよい。
【0017】
生成部24は、所定の演奏区間毎に参加者の音声信号を音声認識処理してテキストデータを生成する。本実施形態の所定の演奏区間は1小節であり、1小節毎に参加者の音声信号が音声認識処理によってテキスト化される。これにより、参加者の音声信号に対応したテキストデータがカラオケ演奏の進行に合わせて1小節ずつ時系列に並べられる。音声信号に対応したテキストデータは、仮名文字又はローマ字等によって表されている。なお、音声認識処理としては、音声スペクトラムの分析、パターンマッチング等の公知の技術が使用される。
【0018】
修正部25は、所定の演奏区間毎にテキストデータと歌詞テロップデータを比較して、歌詞テロップデータと同一内容を削除する修正処理をテキストデータに施している。カラオケ演奏の開始時に修正部25によって記憶部21から歌詞テロップデータが読み出され、カラオケ演奏の進行に合わせて生成部24から出力されたテキストデータと歌詞テロップデータが1小節ずつ比較される。テキストデータ中に歌詞テロップデータと同一文字列が含まれる場合にはテキストデータから当該文字列が削除される。このように、テキスト内容に歌詞が含まれないようにテキストデータが修正される。
【0019】
なお、本実施形態において、歌詞テロップデータと同一内容とは、歌詞テロップデータと完全に同一内容である必要はなく、歌詞テロップデータと略同一と見做せる内容であればよい。例えば、テキストデータの文字列と歌詞テロップデータの文字列の一致率が9割以上であれば、歌詞テロップデータと略同一内容と見做して、テキストデータから当該同一内容の文字列が削除されてテキストデータが修正されてもよい。また、テキストデータと歌詞テロップデータを略同一内容と見做すための一致率は、音声認識処理の精度に応じて変更されてもよい。
【0020】
表示制御部26は、修正処理後のテキストデータと背景映像データに基づいた映像を表示部としてのモニタ12に表示させる。カラオケ演奏の開始時に表示制御部26によって記憶部21から背景映像データが読み出され、カラオケ演奏の進行に合わせて修正部25から表示制御部26に修正処理後のテキストデータが入力される。表示制御部26によって背景映像データとテキストデータに基づいて、モニタ12に映された背景映像上にテキスト内容がコメントとして順次表示される。なお、表示制御部26は、モニタ12の画面の一側方から他側方にコメントを移動表示させてもよい。
【0021】
カラオケ本体11の各部の処理は、プロセッサを用いてソフトウェアによって実現されてもよいし、集積回路等に形成された論理回路(ハードウェア)によって実現されてもよい。プロセッサを用いる場合には、プロセッサがメモリに記憶されているプログラムを読み出して実行することで各種処理が実施される。プロセッサとしては、例えば、CPU(Central Processing Unit)が使用される。また、メモリは、用途に応じてROM(Read Only Memory)、RAM(Random Access Memory)等の一つ又は複数の記憶媒体によって構成されている。
【0022】
図3を参照して、カラオケ装置10の処理動作について具体例を挙げて説明する。図3は、第1実施形態の修正処理の一例を示す図である。なお、図3では、図1及び図2の符号を適宜使用して説明する。
【0023】
カラオケルームには利用者U1-U3が入室し、利用者U3によってカラオケ装置10に楽曲Xが予約される。また、利用者U1が所持する携帯端末M1がカラオケ装置10にペアリングされており、利用者U1によって携帯端末M1のカラオケ専用アプリケーションが起動される。携帯端末M1とカラオケ装置10が通信可能に接続され、利用者U1が携帯端末M1に発声した音声信号が携帯端末M1からカラオケ装置10に送信可能になっている。このように、利用者U3が歌唱者(以下、歌唱者U3とする)であり、利用者U1、U2が歌唱者U3以外でカラオケに参加する参加者(以下、参加者U1、U2とする)である。
【0024】
図3に示すように、楽曲Xは前奏16小節、第1コーラス32小節、第2コーラス32小節、間奏16小節、第3コーラス32小節、後奏16小節の計144小節で構成されている。第1-第3コーラスは、それぞれAメロ、Bメロ、サビで構成されている。本実施形態では所定の演奏区間が1小節であるため、楽曲XにはP001-P144の演奏区間が含まれている。これらの演奏区間のうち第1コーラスP017-P048、第2コーラスP049-P080、第3コーラスP097-P128の96区間は歌詞テロップデータが存在する歌唱区間である。
【0025】
歌唱者U3によってカラオケ装置10に楽曲Xのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。歌唱者U3によって第1コーラスのサビが歌唱されているときに、このサビの2小節目の演奏区間P042で参加者U1がカラオケ演奏に合わせて「天使のように」と歌唱すると、携帯端末M1からカラオケ装置10に参加者U1の音声信号が送信される。カラオケ装置10の取得部23によって音声信号が取得され、生成部24によって参加者U1の音声信号に音声認識処理が施されてテキストデータTD1として「テンシノヨウニ」が生成される。
【0026】
修正部25によってテキストデータTD1の「テンシノヨウニ」と演奏区間P042の歌詞テロップデータの「天使のように」が比較される。テキストデータTD1の「テンシノヨウニ」と歌詞テロップデータの「天使のように」の仮名文字の文字列が同じであるため、テキストデータTD1の「テンシノヨウニ」が削除される。演奏区間P042のテキストデータTD1には「テンシノヨウニ」しか含まれていないため、修正部25によって演奏区間P042のテキストデータTD1全体が削除される。演奏区間P042では表示制御部26にはテキストデータTD1が入力されず、背景映像と歌詞テロップがモニタ12に表示される。
【0027】
また、歌唱者U3によって第3コーラスのAメロが歌唱されているときに、このAメロの1小節目の演奏区間P097で参加者U1が「やばいよー」と発声すると、携帯端末M1からカラオケ装置10に参加者U1の音声信号が送信される。カラオケ装置10の取得部23によって音声信号が取得され、生成部24によって参加者U1の音声信号に音声認識処理が施されてテキストデータTD1として「ヤバイヨー」が生成される。
【0028】
修正部25によってテキストデータTD1の「ヤバイヨー」と演奏区間P097の歌詞テロップデータの「ずっと」が比較される。テキストデータTD1の「ヤバイヨー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、修正部25によってテキストデータTD1の「ヤバイヨー」が削除されない。演奏区間P097では表示制御部26にテキストデータTD1が入力されて、背景映像上に「ヤバイヨー」というコメントが重畳されて歌詞テロップと共にモニタ12に表示される。このとき、コメントは、背景映像上の歌詞テロップに重ならない位置に重畳される。
【0029】
このように、歌唱者U3の歌唱中に、参加者U1が「やばいよー」と発声したときには背景映像上に「ヤバイヨー」とコメントが表示され、参加者U1がカラオケ演奏に合わせて「天使のように」と歌唱したときには背景映像上にコメントが表示されない。よって、歌唱者U3の歌唱中に参加者U1の歌唱音声が不要なコメントとして背景映像上に表示されることがない。なお、歌詞テロップが存在しない演奏区間(非歌唱区間)、すなわち前奏区間P001-P016、間奏区間P081-P096、後奏区間P129-P144においては、修正部25がテキストデータTD1の修正処理を実施しなくてもよい。すなわち、それらの演奏区間では、生成されたテキストデータTD1は(歌詞テロップデータと比較されることなく)表示制御部26にそのまま入力され、背景映像上にコメントとして表示される。
【0030】
また、生成部24及び修正部25は、予め伴奏データに設定された演奏区間の情報を参照してもよいし、伴奏データに基づいて楽曲の演奏区間を分析してもよい。また、上記の例では、所定の演奏区間が1小節に設定されたが、所定の演奏区間が4小節等の長めに設定されてもよい。例えば、修正部25は4小節分のテキストデータTD1から歌詞テロップデータと同一内容の1小節分を削除して、表示制御部26は残りの3小節分のテキストデータTD1をコメントとして表示してもよい。また、表示制御部26は、背景映像にコメントを重畳して一つの表示領域に表示させる代わりに、モニタ12の画面を複数の表示領域に分けて、背景映像とコメントを別々の表示領域に表示させてもよい。
【0031】
図4を参照して、カラオケ装置10の処理動作の流れについて説明する。図4は、第1実施形態のカラオケ装置10の処理を示すフローチャートである。なお、図4に示すフローチャートは一例を示すものであり、カラオケ装置10の処理動作は、このフローチャートに限定されない。なお、図4では、図1及び図2の符号を適宜使用して説明する。
【0032】
図4に示すように、歌唱者によって楽曲のカラオケ演奏の開始が指示されると、1小節目(n=001)から順番にカラオケ演奏及び背景映像の表示が開始される(ステップS01)。演奏区間Pnのカラオケ演奏が実施されると(ステップS02)、演奏区間Pnの演奏中に取得部23による参加者の音声信号の取得状況が監視されている(ステップS03)。取得部23によって参加者の音声信号が取得されない場合には(ステップS03でNo)、ステップS04ーS06の各処理をスキップしてステップS07に処理が移行する。
【0033】
取得部23によって参加者の音声信号が取得された場合には(ステップS03でYes)、生成部24によって音声信号に音声認識処理が実施されてテキストデータが生成される(ステップS04)。次に、修正部25によって演奏区間Pnのテキストデータと歌詞テロップデータが比較される(ステップS05)。テキストデータに歌詞テロップデータと同一内容(文字列)が含まれている場合には、この同一内容がテキストデータから削除される。テキストデータに歌詞テロップデータと同一内容が含まれない場合には、テキストデータは削除されない。
【0034】
そして、表示制御部26によってテキストデータと背景映像データに基づいて、テキスト内容がコメントとして背景映像上に重畳されてモニタ12に表示される(ステップS06)。次に、最終区間PN(n=N)まで楽曲が演奏されたか否かが判定される(ステップS07)。最終区間PNまで楽曲が演奏された場合には(ステップS07でYes)、楽曲のカラオケ演奏が終了される。一方、最終区間PNまで楽曲が演奏されていない場合には(ステップS07でNo)、次小節(n=n+001)の演奏区間PnでステップS02-ステップS06の処理が実施される。
【0035】
以上、第1実施形態によれば、楽曲のカラオケ演奏中に、所定の演奏区間毎に参加者の音声信号からテキストデータが生成され、このテキストデータから歌詞テロップデータと同一内容が削除されてテキストデータが修正される。参加者が声援等を歌唱者に送った場合には、テキスト化された声援等がコメントとして背景映像と共にモニタ12に表示され、参加者が歌唱者と共に歌唱した場合には、テキスト化された歌詞がモニタ12に表示されない。よって、モニタ12の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ12に表示することができる。
【0036】
<第2実施形態>
図5を参照して、第2実施形態のカラオケ装置30について説明する。図5は、第2実施形態のカラオケ装置30の機能ブロック図である。なお、第2実施形態のカラオケ装置30は、参加者毎にコメントの表示態様を異ならせる点で、第1実施形態のカラオケ装置10と相違する。したがって、第2実施形態については、第1実施形態と同様な構成については説明を省略する。
【0037】
図5に示すように、第2実施形態のカラオケ装置30は、第1実施形態のカラオケ装置10(図2参照)と略同様に構成されており、カラオケ演奏中に声援等をコメントとしてモニタ39に表示させるように構成されている。カラオケ装置30のカラオケ本体31には、記憶部32と、演奏部33と、取得部34と、生成部35と、修正部36と、表示制御部37とが設けられている。取得部34は、歌唱者以外の複数の参加者の音声信号を識別可能に取得する。参加者が所持した携帯端末M1、M2からカラオケ装置30に音声信号と共に端末識別情報が送信されており、端末識別情報によって複数の参加者の音声信号が識別される。
【0038】
生成部35は、取得部34が複数の参加者の音声信号を取得した場合に、参加者毎に識別可能なテキストデータを生成する。テキストデータには各携帯端末M1、M2の端末識別情報が関連付けられ、端末識別情報によって複数の参加者のテキストデータが識別される。修正部36は、所定の演奏区間毎に各参加者のテキストデータと歌詞テロップデータを比較して、各参加者のテキストデータに対して修正処理を施す。表示制御部37は、参加者毎に異なる表示態様で、修正処理後のテキストデータと背景映像データに基づいた映像をモニタ39に表示させる。
【0039】
図6を参照して、カラオケ装置30の処理動作について具体例を挙げて説明する。図6は、第2実施形態の修正処理の一例を示す図である。なお、図6では、図5の符号を適宜使用して説明する。また、楽曲Xには第1の実施形態と同様にP001-P144の演奏区間が含まれている。また、ここでは、表示態様の一例として、参加者U1のコメントには赤い文字色が使用され、参加者U2のコメントには緑の文字色が使用されている。
【0040】
カラオケルームには利用者U1-U3が入室し、利用者U3によってカラオケ装置30に楽曲Xが予約される。また、利用者U1、U2が所持する携帯端末M1、M2がカラオケ装置30にペアリングされており、利用者U1、U2によって携帯端末M1、M2のカラオケ専用アプリケーションが起動される。携帯端末M1、M2とカラオケ装置30が通信可能に接続され、利用者U1、U2が携帯端末M1、M2に発声した音声信号が携帯端末M1、M2からカラオケ装置30に送信可能になっている。このように、利用者U3が歌唱者(以下、歌唱者U3とする)であり、利用者U1、U2が歌唱者U3以外でカラオケに参加する参加者(以下、参加者U1、U2とする)である。
【0041】
歌唱者U3によってカラオケ装置30に楽曲Xのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。図6に示すように、歌唱者U3によって第1コーラスのサビが歌唱されているときに、このサビの2小節目の演奏区間P042で参加者U1がカラオケ演奏に合わせて「天使のように」と歌唱し、参加者U2が「おらー」と発声している。携帯端末M1、M2からカラオケ装置30に音声信号及び端末識別情報が送信され、カラオケ装置30の取得部34によって参加者U1、U2の音声信号及び端末識別情報が取得される。
【0042】
生成部35によって参加者U1の音声信号に音声認識処理が施されてテキストデータTD1として「テンシノヨウニ」が生成される。テキストデータTD1には携帯端末M1の端末識別情報が関連付けられている。また、生成部35によって参加者U2の音声信号に音声認識処理が施されてテキストデータTD2として「オラー」が生成される。テキストデータTD2には携帯端末M2の端末識別情報が関連付けられている。携帯端末M1、M2の端末識別情報によって参加者U1、U2のテキストデータTD1、TD2が識別されている。
【0043】
修正部36によってテキストデータTD1の「テンシノヨウニ」と演奏区間P042の歌詞テロップデータ「天使のように」が比較される。テキストデータTD1の「テンシノヨウニ」と歌詞テロップデータ「天使のように」の仮名文字の文字列が同じであるため、テキストデータTD1の「テンシノヨウニ」が削除される。また、修正部36によってテキストデータTD2の「オラー」と歌詞テロップデータ「天使のように」が比較される。テキストデータTD2の「オラー」と歌詞テロップデータ「天使のように」の仮名文字の文字列が異なるため、テキストデータTD2の「オラー」は削除されない。演奏区間P042では表示制御部37によって背景映像に「オラー」というコメントのみが重畳されて歌詞テロップと共にモニタ39に表示される。このとき、携帯端末M2の端末識別情報に関連付けられた参加者U2のコメント「オラー」は緑の文字色で表示される。
【0044】
また、歌唱者U3によって第3コーラスのAメロが歌唱されているときに、このAメロの1小節目の演奏区間P097で参加者U1が「やばいよー」と発声し、参加者U2が「おらー」と発声している。携帯端末M1、M2からカラオケ装置30に音声信号及び端末識別情報が送信され、カラオケ装置30の取得部34によって参加者U1、U2の音声信号及び端末識別情報が取得される。
【0045】
生成部35によって参加者U1の音声信号に音声認識処理が施されてテキストデータTD1として「ヤバイヨー」が生成される。テキストデータTD1には携帯端末M1の端末識別情報が関連付けられている。また、生成部35によって参加者U2の音声信号に音声認識処理が施されてテキストデータTD2として「オラー」が生成される。テキストデータTD2には携帯端末M2の端末識別情報が関連付けられている。
【0046】
修正部36によってテキストデータTD1の「ヤバイヨー」と演奏区間P097の歌詞テロップデータ「ずっと」が比較される。テキストデータTD1の「ヤバイヨー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、テキストデータTD1の「ヤバイヨー」は削除されない。また、修正部36によってテキストデータTD2の「オラー」と演奏区間P097の歌詞テロップデータ「ずっと」が比較される。テキストデータTD2の「オラー」と歌詞テロップデータ「ずっと」の仮名文字の文字列が異なるため、テキストデータTD2の「オラー」は削除されない。
【0047】
演奏区間P097では表示制御部37によって背景映像に「ヤバイヨー」、「オラー」というコメントが重畳されて歌詞テロップと共にモニタ39に表示される。このとき、携帯端末M1の端末識別情報に関連付けられた参加者U1のコメント「ヤバイヨー」は赤い文字色で表示され、携帯端末M2の端末識別情報に関連付けられた参加者U2のコメント「オラー」は緑の文字色で表示される。なお、コメントの表示態様として、上記の文字色以外にも、フォント種類、文字サイズ等が参加者(携帯端末)毎に変更されてもよい。モニタ39に異なる表示態様でコメントが表示されることで演出効果が高められる。
【0048】
なお、取得部34は、カラオケルームに設置された集音器から複数の参加者の音声信号を取得してもよい。取得部34には複数の参加者の音声が混在した音声信号が取得されるが、公知の音声分離技術を用いて参加者毎に音声信号が分離される。例えば、音声分離技術としては、ディープラーニングとクラスタリングを組み合わせた三菱電機株式会社のディープクラスタリングが挙げられる。
【0049】
以上、第2実施形態によれば、第1実施形態と同様に、モニタ39の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ39に表示することができる。さらに、参加者毎に異なる表示態様でコメントを表示することで演出効果を高めることができる。
【0050】
<第3実施形態>
図7を参照して、第3実施形態のカラオケ装置40について説明する。図7は、第3実施形態のカラオケ装置40の機能ブロック図である。なお、第3実施形態のカラオケ装置40は、歌唱映像上にコメントを表示する点で、第1実施形態のカラオケ装置10と相違する。したがって、第3実施形態については、第1実施形態と同様な構成については説明を省略する。
【0051】
図7に示すように、第3実施形態のカラオケ装置40は、第1実施形態のカラオケ装置10(図2参照)と略同様に構成されており、歌唱映像に声援等をコメントとして付加するように構成されている。カラオケ装置40のカラオケ本体41には、記憶部42と、演奏部43と、取得部44と、生成部45と、修正部46と、表示制御部47と、撮影部48と、記憶制御部49と、が設けられている。撮影部48は、楽曲のカラオケ演奏中に歌唱者を撮影して歌唱映像データを生成する。記憶制御部49は、歌唱映像データを、当該歌唱映像データに対応する修正処理後のテキストデータに関連付けて記憶させる。なお、歌唱映像データは、歌唱音声やカラオケ演奏音を含んでいてもよい。
【0052】
このように構成されたカラオケ装置40では、歌唱者U3によって楽曲Xのカラオケ演奏が指示されると、演奏音が放音され始めると共に背景映像が表示され始める。また、撮影部48によって歌唱者U3の撮影が開始されて、撮影部48から歌唱者U3の歌唱映像データが記憶制御部49に出力される。歌唱者U3の歌唱中に3つの演奏区間P097、P098、P099で参加者U1が発声すると、携帯端末M1からカラオケ装置40に参加者U1の音声信号が送信される。カラオケ装置40の取得部44によって音声信号が取得され、生成部45によって参加者U1の音声信号に音声認識処理が施されてテキストデータTD1が生成される。
【0053】
修正部46によってテキストデータTD1と演奏区間P097、P098、P099の歌詞テロップデータが比較される。テキストデータTD1から歌詞テロップデータと同一内容が削除されてテキストデータTD1が修正される。演奏区間P097、P098、P099ではテキストデータTD1に歌詞テロップデータと同一内容が含まれないため、修正部46によってテキストデータTD1は修正されない。演奏区間P097、P098、P099では表示制御部47にテキストデータTD1が入力され、背景映像にコメントが重畳されて歌詞テロップと共にモニタ50に表示される。
【0054】
記憶制御部49には演奏区間P097、098、099のテキストデータTD1が入力され、テキストデータTD1がTD1-097、TD1-098、TD1-099として歌唱映像データに関連付けられた状態で記憶される。歌唱映像の撮影開始からの経過時間と演奏区間が対応付けられているため、演奏区間P097、098、099に対応したタイミングで、テキストデータTD1-097、TD1-098、TD1-099のテキスト内容がコメントとして歌唱映像に重畳される。
【0055】
表示制御部47は、テキストデータTD1-097、TD1-098、TD1-099と歌唱映像データに基づいた映像をモニタ50に表示させてもよい。より具体的には、歌唱者U3の歌唱映像がモニタ50に表示され、演奏区間P097ではテキストデータTD1-097のテキスト内容がコメントとして歌唱映像上に表示される。また、演奏区間P098ではテキストデータTD1-098のテキスト内容がコメントとして歌唱映像上に表示され、演奏区間P099ではテキストデータTD1-099のテキスト内容がコメントとして歌唱映像上に表示される。
【0056】
なお、カラオケ装置40は、テキストデータ及び歌唱映像データに基づいて、コメントが重畳された撮影映像を作成してネットワーク上に公開してもよい。
【0057】
以上、第3実施形態によれば、第1実施形態と同様に、モニタ50の限られた表示領域を圧迫することなく、参加者の声援等をコメントとしてモニタ50に表示することができる。さらに、テキストデータに関連付けた歌唱映像データを容易に生成し、テキスト化された歌唱等を歌唱映像と共にモニタ50に表示させることができる。
【0058】
また、各実施形態では、カラオケ装置10、30、40がカラオケコマンダである一例について説明したが、カラオケ装置10、30、40は携帯電話等の携帯機器によって構成されてもよい。
【0059】
また、第3実施形態では、カラオケ装置40が撮影部48を有する構成にしたが、カラオケ装置40が撮影部48を有さなくてもよい。カラオケ装置40は、カラオケ装置40とは別体の撮影部48から歌唱映像データを取得してもよい。
【0060】
また、上記した各実施形態において、カラオケ装置10、30、40に対してプログラムをインストールすることによって、カラオケ演奏中に声援等をコメントとして表示させるコメント表示機能がカラオケ装置10、30、40に追加されてもよい。このプログラムは記憶媒体に記憶されている。記憶媒体は特に限定されないが、光ディスク、光磁気ディスク、フラッシュメモリ等の非一過性の記憶媒体であってもよい。
【0061】
また、本実施形態を説明したが、他の実施形態として、上記実施形態及び変形例を全体的又は部分的に組み合わせたものでもよい。
【0062】
また、本発明の技術は上記の実施形態に限定されるものではなく、技術的思想の趣旨を逸脱しない範囲において様々に変更、置換、変形されてもよい。さらには、技術の進歩又は派生する別技術によって、技術的思想を別の仕方によって実現することができれば、その方法を用いて実施されてもよい。したがって、特許請求の範囲は、技術的思想の範囲内に含まれ得る全ての実施態様をカバーしている。
【符号の説明】
【0063】
10、30、40:カラオケ装置
12、39、50:モニタ(表示部)
23、34、44:取得部
24、35、45:生成部
25、36、46:修正部
26、37、47:表示制御部
48 :撮影部
49 :記憶制御部
U1、U2 :参加者
U3 :歌唱者
図1
図2
図3
図4
図5
図6
図7