特許第6073145号(P6073145)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社第一興商の特許一覧

特許6073145歌唱音声データ生成装置、及び、歌唱動画データ生成装置
<>
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000002
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000003
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000004
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000005
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000006
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000007
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000008
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000009
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000010
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000011
  • 特許6073145-歌唱音声データ生成装置、及び、歌唱動画データ生成装置 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6073145
(24)【登録日】2017年1月13日
(45)【発行日】2017年2月1日
(54)【発明の名称】歌唱音声データ生成装置、及び、歌唱動画データ生成装置
(51)【国際特許分類】
   H04N 5/93 20060101AFI20170123BHJP
   G10K 15/04 20060101ALI20170123BHJP
   G10L 21/0356 20130101ALI20170123BHJP
【FI】
   H04N5/93 Z
   G10K15/04 302D
   G10L21/0356
【請求項の数】4
【全頁数】15
(21)【出願番号】特願2013-17564(P2013-17564)
(22)【出願日】2013年1月31日
(65)【公開番号】特開2014-150383(P2014-150383A)
(43)【公開日】2014年8月21日
【審査請求日】2015年10月23日
(73)【特許権者】
【識別番号】390004710
【氏名又は名称】株式会社第一興商
(74)【代理人】
【識別番号】110000176
【氏名又は名称】一色国際特許業務法人
(72)【発明者】
【氏名】橘 聡
(72)【発明者】
【氏名】矢吹 豪
【審査官】 松元 伸次
(56)【参考文献】
【文献】 特開2012−100216(JP,A)
【文献】 特開平11−219189(JP,A)
【文献】 特開2006−121388(JP,A)
【文献】 特開2012−182762(JP,A)
【文献】 特開平05−236423(JP,A)
【文献】 特開2005−84696(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10K15/00−15/12
G10L13/00−13/10
19/00−99/00
H04N5/222−5/257
5/76
5/765
5/80−5/91
5/915
5/92
5/922
5/928−5/93
5/937−5/94
5/95−5/956
7/10
7/14−7/173
7/20−7/56
21/00−21/858
(57)【特許請求の範囲】
【請求項1】
ユーザービデオカメラで撮影されたカラオケ歌唱時の動画データに合成される、前記カラオケ歌唱時の歌唱音声データを生成するための歌唱音声データ生成装置であって、
可聴周波数範囲外であって前記ユーザービデオカメラで録音可能な周波数の同期音を出力する同期音出力手段と、
前記カラオケ歌唱時の歌唱音声を前記同期音と共に録音し、前記歌唱音声データを生成する歌唱音声データ生成手段とを有し、
前記同期音出力手段は、異なる出力パターンに設定された前記同期音を、間隔を空けて繰り返し出力することを特徴とする歌唱音声データ生成装置。
【請求項2】
前記歌唱音声データ生成手段は、前記歌唱音声をマイクによって変換した歌唱音声信号と、前記同期音の基となる同期音信号とをミキシングするミキシング部を備え、ミキシング後の信号に基づいて前記歌唱音声データを生成することを特徴とする請求項1記載の歌唱音声データ生成装置。
【請求項3】
請求項1又は2に記載の歌唱音声データ生成装置で生成された歌唱音声データ、及び、前記歌唱音声データに対応するカラオケ歌唱時にユーザービデオカメラで撮影された動画データを取得するデータ取得手段と、
前記動画データの音声部分に基づき、前記動画データにおける前記同期音の出力タイミングを認識すると共に、前記歌唱音声データに基づき、前記歌唱音声データにおける前記同期音の出力タイミングを認識する出力タイミング認識手段と、
前記動画データにおける前記同期音の出力タイミングと、前記歌唱音声データにおける前記同期音の出力タイミングとを揃えた状態で、前記動画データの映像部分と前記歌唱音声データとを合成し、新たな歌唱動画データを生成する動画データ生成手段とを有することを特徴とする歌唱動画データ生成装置。
【請求項4】
請求項1又は2に記載の歌唱音声データ生成装置で生成された歌唱音声データ、及び、前記歌唱音声データに対応するカラオケ歌唱時にユーザービデオカメラで撮影された複数の動画データを取得するデータ取得手段と、
複数の前記動画データの音声部分に基づき、各動画データにおける前記同期音の出力タイミングをそれぞれ認識すると共に、前記歌唱音声データに基づき、前記歌唱音声データにおける複数の前記同期音の出力タイミングを認識する出力タイミング認識手段と、
複数の前記動画データにおける前記同期音の出力タイミングと、前記歌唱音声データにおける複数の前記同期音の出力タイミングとを揃えた状態で、複数の前記動画データの映像部分をつなぎ合わせると共に前記歌唱音声データと合成し、新たな歌唱動画データを生成する動画データ生成手段とを有することを特徴とする歌唱動画データ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケ歌唱時の歌唱音声データを生成するための歌唱音声データ生成装置に関する。また、本発明は、歌唱音声データ生成装置で生成された歌唱音声データと、ユーザービデオカメラで撮影されたカラオケ歌唱時の動画データとから、歌唱動画データを生成する歌唱動画データ生成装置に関する。
【背景技術】
【0002】
近年、カラオケ産業では、カラオケ歌唱中の映像及び音声を記録し、歌唱動画コンテンツとして公開するサービスが行われている。このサービスでは、カラオケルームに設置されたビデオカメラで撮影が行われるが、ビデオカメラの設置位置や設置台数に制約があることから、得られた歌唱動画コンテンツは似通った映像になってしまう。
【0003】
個性的な歌唱動画コンテンツを得るため、カラオケルームでユーザーが撮影したユーザー動画コンテンツを公開することも考えられるが、その音質は前述のサービスで得られた歌唱動画コンテンツに遠く及ばず、満足のゆくものとはいえなかった。また、特許文献1に記載されているように、営業用のカラオケシステムでユーザーが撮影したユーザー動画や静止画を利用する技術としては、ユーザー動画等をカラオケ歌唱時の背景映像として利用するに留まっていた。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−3843号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
このように、従来のカラオケシステムでは、個性的な歌唱動画コンテンツを得ようとすると音質の面で満足が得られ難く、音質を重視すると個性的な歌唱動画コンテンツを得ることが難しかった。ここで、ユーザー動画データの映像部分とカラオケ装置で取得された歌唱音声データとを合成して新たな歌唱動画データを生成できれば、個性的かつ高音質な歌唱動画コンテンツが得られるが、ユーザー動画データと歌唱音声データとを合成する有効な手法は提案されていない。
【0006】
本発明は、このような事情に鑑みてなされたものであり、その目的は、ユーザー動画データとの合成に適した歌唱音声データを取得すること、及び、個性的かつ高音質な歌唱動画コンテンツを得ることにある。
【課題を解決するための手段】
【0007】
前述の目的を達成するため、本発明は、ユーザービデオカメラで撮影されたカラオケ歌唱時の動画データに合成される、前記カラオケ歌唱時の歌唱音声データを生成するための歌唱音声データ生成装置であって、可聴周波数範囲外であって前記ユーザービデオカメラで録音可能な周波数の同期音を出力する同期音出力手段と、前記カラオケ歌唱時の歌唱音声を前記同期音と共に録音し、前記歌唱音声データを生成する歌唱音声データ生成手段とを有することを特徴とする。
【0008】
本発明によれば、ユーザービデオカメラで撮影された動画データと歌唱音声データ生成装置で生成された歌唱音声データのそれぞれに同期音が含まれているので、これらの同期音に基づいて、動画データの映像部分と歌唱音声データの時刻を同期させることができる。これにより、ユーザー動画データとの合成に適した歌唱音声データを取得できる。
【0009】
前述の歌唱音声データ生成装置において、前記同期音出力手段は、異なる出力パターンに設定された前記同期音を、間隔を空けて繰り返し出力することが好ましい。この構成では、同期音のパターンに応じ、カラオケ歌唱における複数の時刻で、ユーザー動画データと歌唱音声データを同期させることができる。
【0010】
前述の歌唱音声データ生成装置において、前記歌唱音声データ生成手段は、前記歌唱音声をマイクによって変換した歌唱音声信号と、前記同期音の基となる同期音信号とをミキシングするミキシング部を備え、ミキシング後の信号に基づいて前記歌唱音声データを生成することが好ましい。この構成では、ミキシング部によって歌唱音声信号と同期音信号とをミキシングしているので、同期音信号を適切なレベルでミキシングできる。
【0011】
また、本発明の歌唱動画データ生成装置は、前述の歌唱音声データ生成装置で生成された歌唱音声データ、及び、前記歌唱音声データに対応するカラオケ歌唱時にユーザービデオカメラで撮影された動画データを取得するデータ取得手段と、前記動画データの音声部分に基づき、前記動画データにおける前記同期音の出力タイミングを認識すると共に、前記歌唱音声データに基づき、前記歌唱音声データにおける前記同期音の出力タイミングを認識する出力タイミング認識手段と、前記動画データにおける前記同期音の出力タイミングと、前記歌唱音声データにおける前記同期音の出力タイミングとを揃えた状態で、前記動画データの映像部分と前記歌唱音声データとを合成し、新たな歌唱動画データを生成する動画データ生成手段とを有することを特徴とする。
【0012】
本発明によれば、動画データの映像部分と歌唱音声データとが合成されることで、個性的かつ高音質な歌唱動画コンテンツを得ることができる。
【0013】
また、本発明の歌唱動画データ生成装置は、前述の歌唱音声データ生成装置で生成された歌唱音声データ、及び、前記歌唱音声データに対応するカラオケ歌唱時にユーザービデオカメラで撮影された複数の動画データを取得するデータ取得手段と、複数の前記動画データの音声部分に基づき、各動画データにおける前記同期音の出力タイミングをそれぞれ認識すると共に、前記歌唱音声データに基づき、前記歌唱音声データにおける複数の前記同期音の出力タイミングを認識する出力タイミング認識手段と、複数の前記動画データにおける前記同期音の出力タイミングと、前記歌唱音声データにおける複数の前記同期音の出力タイミングとを揃えた状態で、複数の前記動画データの映像部分をつなぎ合わせると共に前記歌唱音声データと合成し、新たな歌唱動画データを生成する動画データ生成手段とを有することを特徴とする歌唱動画データ生成装置。
【0014】
本発明によれば、複数の動画データの映像部分と歌唱音声データとが合成されることで、個性的かつ高音質な歌唱動画コンテンツを得ることができる。
【発明の効果】
【0015】
本発明によれば、ユーザー動画データとの合成に適した歌唱音声データを取得することができる。また、個性的かつ高音質な歌唱動画コンテンツを得ることができる。
【図面の簡単な説明】
【0016】
図1】カラオケシステムの概略構成を説明する概念図である。
図2】ホスト装置(サーバー)の構成を説明するブロック図である。
図3】カラオケ装置の構成を説明するブロック図である。
図4】カラオケ本体の構成を説明するブロック図である。
図5】音響処理部を説明する図である。
図6】ユーザー端末の構成を説明するブロック図である。
図7】(a)は録音可能帯域と可聴域帯域の関係を説明する概念図である。(b)は同期音信号と歌唱音声信号を説明する概念図である。
図8】カラオケシステムの処理の概要を説明する図である。
図9】動画データの映像部分と歌唱音声データの合成を説明する概念図である。
図10】(a)は第2実施形態における同期音信号と歌唱音声信号を説明する概念図である。(b)は第2実施形態における同期音信号の詳細を説明する概念図である。
図11】第2実施形態における動画データの映像部分と歌唱音声データの合成を説明する概念図である。
【発明を実施するための形態】
【0017】
以下、本発明の実施形態について説明する。図1に示すカラオケシステムは、ホスト装置1とカラオケ装置2とユーザー端末3とを有している。そして、これらが通信回線4を介して通信可能に接続されている。このカラオケシステムでは、カラオケ歌唱で取得された歌唱動画データ(歌唱映像データと歌唱音声データの組)がカラオケ装置2からホスト装置1(サーバー)へアップロードされ、ユーザー端末3を通じて閲覧可能な閲覧用動画データが生成される。また、利用者の要求に応じて、ユーザービデオカメラで撮影されたユーザー動画データの映像部分と、カラオケ装置2で取得された歌唱音声データとを合成し、新たな歌唱動画データを生成することもできる。以下、カラオケシステムを構成する各装置1〜3について説明する。
【0018】
まず、ホスト装置1について説明する。ホスト装置1は、サーバーとして機能し、顧客情報や歌唱動画データといった各種情報を蓄積して管理する。図2に示すように、ホスト装置1は、ホスト側制御部11と、ホスト側通信部12と、ホスト側記憶部13とを有している。
【0019】
ホスト側制御部11は、ホスト装置1における制御の中心となる部分であり、CPU11aやメモリ11bを有している。CPU11aは、メモリ11bに記憶された動作プログラムに従って各種の制御を実行する。メモリ11bは、CPU11aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。ホスト側通信部12は、ホスト装置1を通信回線4に接続するためのインタフェースを提供する。
【0020】
ホスト側記憶部13は、大容量の情報を記憶する記憶装置であり、ハードディスクドライブ等によって構成されている。ホスト側記憶部13の一部領域は、顧客情報記憶領域、歌唱音声データ記憶領域、歌唱映像データ記憶領域、ユーザー動画データ記憶領域、閲覧用動画データ記憶領域として用いられている。
【0021】
顧客情報記憶領域には、歌唱者毎の識別情報である利用者IDに対応付けられた状態で、性別、年齢、生年月日、住所等の個人情報や、利用店舗、利用日時、歌唱履歴等の履歴データが記憶されている。
【0022】
歌唱音声データ記憶領域には、カラオケ歌唱時に取得された歌唱音声データが記憶され、歌唱映像データ記憶領域には、カラオケ歌唱時に取得された歌唱映像データが記憶されている。本実施形態において、歌唱音声データはMP3形式のデータが用いられ、歌唱映像データはMPEG2形式のデータが用いられている。これらの歌唱音声データや歌唱映像データは、歌唱動画コンテンツの基となる歌唱動画データであり、カラオケ歌唱の終了に伴って、カラオケ装置2からアップロードされる。そして、各データは、カラオケ楽曲毎の識別情報である楽曲IDや利用者IDといった各種の情報に対応付けられた状態で記憶されている。
【0023】
ユーザー動画データ記憶領域には、カラオケ歌唱時にユーザービデオカメラで撮影されたユーザー動画データが記憶される。本実施形態において、ユーザー動画データは、ユーザー端末3を通じて送信されたり、ユーザービデオカメラUC(図3参照)から送信されたりする。なお、ユーザー動画データは、変換によって歌唱映像部分と歌唱音声部分の各データに分離できれば、任意の形式のデータが利用できる。
【0024】
閲覧用動画データ記憶領域には、ユーザー端末3に閲覧させるための閲覧用動画データが記憶される。この閲覧用動画データは、ユーザー端末3で再生される歌唱動画コンテンツの基となるデータであり、例えばWMV形式やMP4形式の動画データである。本実施形態では、閲覧用動画データ記憶領域に2種類の閲覧用動画データが記憶されている。具体的には、カラオケ装置2で取得された歌唱映像データ及び歌唱音声データに基づいて作成された閲覧用動画データと、ユーザービデオカメラUCで撮影されたユーザー動画データとカラオケ装置2で取得された歌唱音声データに基づいて作成された閲覧用動画データが記憶されている。
【0025】
次に、カラオケ装置2について説明する。このカラオケ装置2は、カラオケ演奏や歌唱時における映像や音声の記録等を行う装置であり、図1に示すように、例えばカラオケ店KBの各カラオケルームRMに設置されている。そして、図3に示すように、カラオケ装置2は、カラオケ本体21と、スピーカ22と、モニタ23と、マイク24と、ビデオカメラ25と、リモコン装置26とを有している。
【0026】
カラオケ本体21は、選択されたカラオケ楽曲の演奏制御、歌詞及び背景映像の表示制御、マイク24を通じて入力された歌唱音声信号の処理といった、カラオケ歌唱に関する各種の制御を行う部分である。このカラオケ本体21については、後で詳しく説明する。
【0027】
スピーカ22は、カラオケ本体21に接続されており、カラオケ本体21からの放音信号に基づいて放音する。モニタ23もカラオケ本体21に接続されており、カラオケ本体21からの映像信号に基づいて映像を画面に表示する。マイク24もカラオケ本体21に接続されており、歌唱者の音声をアナログの歌唱音声信号に変換してカラオケ本体21に入力させる。このような機能を有するマイク24は、歌唱音声入力手段に相当する。ビデオカメラ25もカラオケ本体21に接続されており、歌唱中の映像を歌唱映像信号に変換してカラオケ本体21に入力させる。このような機能を有するビデオカメラ25は、歌唱映像撮影手段に相当する。
【0028】
リモコン装置26は、カラオケ本体21との間で情報を送受信するための双方向通信可能な短距離無線通信部を備えており、カラオケ楽曲の予約時などに操作される。カラオケ楽曲の予約時において、リモコン装置26からは、演奏対象の楽曲を識別するための楽曲IDを含んだ操作信号が送信される。登録された利用者がリモコン装置26を通じてログインした場合、その利用者の利用者IDがホスト装置1に送信される。そして、リモコン装置26には、マイページに登録された各種情報が表示される。
【0029】
また、本実施形態のリモコン装置26は、ユーザー端末3としても機能する。この場合、リモコン装置26は、近隣のアクセスポイント(図示せず)、及び、通信回線4を経由してホスト装置1に接続される。このため、利用者は、カラオケ店に居ながらにして、マイページにアクセスできる。
【0030】
なお、図3には、カラオケ装置2に加え、ユーザービデオカメラUCも示されている。このユーザービデオカメラUCは、カラオケの利用者によって所持されており、カラオケ歌唱中の映像及び音声をユーザー動画データとして記録するものである。このユーザービデオカメラUCは、カラオケ歌唱中の映像及び音声を記録でき、かつ、人間の可聴帯域(20Hz〜15kHz)を超えた帯域の録音ができるものであればよい。このため、デジタルビデオカメラUC1や動画撮影機能付の携帯電話機UC2が含まれる。また、動画撮影機能付のデジタルスチルカメラであってもよい。
【0031】
次に、カラオケ本体21について詳細に説明する。図4に示すように、カラオケ本体21は、本体側制御部31と、本体側通信部32と、本体側記憶部33と、音響処理部34と、表示処理部35と、映像入力部36と、操作部37とを有している。そして、これらの各部がデータバスBUを介して通信可能な状態に接続されている。
【0032】
本体側制御部31は、カラオケ本体21における制御の中心となる部分であり、CPU31aやメモリ31bを有している。CPU31aは、メモリ31bに記憶された動作プログラムに従って各種の制御を実行する。例えば、操作部37からの操作を受け付ける操作入力処理やシーケンサとして動作するシーケンサ処理を行う。メモリ31bは、CPU31aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。本体側通信部32は、カラオケ本体21(カラオケ装置2)を通信回線4に接続するためのインタフェースを提供する。この本体側通信部32は、本体側制御部31によって動作が制御される。
【0033】
本体側記憶部33は、各種のデータを記憶する大容量の記憶装置であり、例えばハードディスクドライブによって構成されている。この本体側記憶部33には、例えば、楽曲データ記憶領域、同期音データ記憶領域、背景映像データ記憶領域、歌唱映像データ記憶領域、歌唱音声データ記憶領域、コラボ動画データ記憶領域が設けられる。
【0034】
楽曲データ記憶領域には、リモコン装置26で選択されたカラオケ楽曲を演奏するための楽曲データが記憶され、同期音データ記憶領域には、ユーザー動画データと歌唱音声データとを同期させるための同期音の基となる同期音データが記憶され、背景映像データ記憶領域には、モニタ23に背景映像を表示させるための背景映像データが記憶される。ここで、同期音について簡単に説明する。この同期音は、可聴帯域の範囲外であってユーザービデオカメラUCのマイクで録音可能な周波数に設定された音である。
【0035】
歌唱映像データ記憶領域には、ビデオカメラ25で撮影された歌唱映像データが記憶され、歌唱音声データ記憶領域には、歌唱音声データが記憶される。本実施形態の歌唱音声データには、歌唱音声をデジタルデータ化したものと、歌唱音声をカラオケ伴奏とともにデジタルデータ化したものが含まれている。コラボ動画データ記憶領域には、コラボレーション歌唱のために受信した、ホスト装置1からの歌唱動画データが記憶される。この歌唱動画データは、コラボレーション歌唱を行う際に再生される。
【0036】
音響処理部34は、カラオケ楽曲に対する演奏の制御を行ったり、マイク24を通じて入力された歌唱音声信号をデジタルの歌唱音声データに変換する等の制御を行ったりする部分である。図5に示すように、音響処理部34は、第1ミキシング部34aと第2ミキシング部34bとを有している。
【0037】
第1ミキシング部34aには、楽曲データ(MIDIデータ)、同期音データ、及び、マイク24からの歌唱音声信号が入力され、楽曲データに基づく楽音信号と、同期音データに基づく同期音と、歌唱音声信号とが適当なバランスでミキシングされ、放音信号としてスピーカ22へ出力される。これにより、カラオケ歌唱に伴う伴奏や音声がスピーカ22から出力される。あわせて、前述の同期音もスピーカ22から出力される。
【0038】
このように、本体側記憶部33、音響処理部34(第1ミキシング部34a)、及びスピーカ22の組は、楽曲データや同期音データを記憶し、楽曲データに基づく楽音信号及び同期音データに基づく同期音などを合成して放音信号を出力し、放音信号に基づいて同期音及びカラオケ伴奏を放音していることから、同期音出力手段に相当する。
【0039】
第2ミキシング部34bにも、楽曲データ、同期音データ、及び、マイク24からの歌唱音声信号が入力されている。そして、第2ミキシング部34bからは、歌唱音声信号のみに基づく歌唱音声データと、前述の楽音信号、同期音、及び歌唱音声信号に基づく伴奏付歌唱音声データが出力される。これに伴い、歌唱音声データ記憶領域には、歌唱音声が記録された歌唱音声データと、カラオケ伴奏、同期音、及び歌唱音声が記録された伴奏付歌唱音声データが記憶される。
【0040】
このように、音響処理部34(第2ミキシング部34b)は、楽音信号、同期音信号、及び歌唱音声信号をミキシングし、伴奏付歌唱音声データを生成しているので、カラオケ歌唱時の歌唱音声を同期音と共に録音し、音声データを生成する歌唱音声データ生成手段に相当する。
【0041】
図4に示す表示処理部35は、カラオケ演奏時における背景映像の表示等の制御を行う。カラオケ演奏時において、表示処理部35には背景映像データが入力されており、この背景映像データのデコードが行われる。そして、表示処理部35は、デコードで生成された背景映像の映像信号に歌詞テロップを合成し、合成後の映像信号をモニタ23に出力する。その結果、モニタ23には、背景映像に歌詞テロップが重ねられた映像が表示される。
【0042】
映像入力部36は、ビデオカメラ25からの歌唱映像信号の取り込み処理を行う部分であり、いわゆるビデオカードで構成されている。この映像入力部36は、例えば、ビデオカメラ25と接続するための外部インタフェース、データバスBUを通じて本体側制御部31等と接続するための内部インタフェース、及び、フレームバッファとしてのビデオメモリを有している(何れも図示せず)。
【0043】
操作部37は、パネルスイッチやリモコン受信回路などからなっており、利用者によるパネルスイッチやリモコン装置26の操作に応じた操作信号を本体側制御部31に対して出力する。本体側制御部31は、操作入力処理を行うことで操作信号を検出し、対応する処理を実行する。なお、パネルスイッチやリモコン装置26は、操作を選択するための種々のキースイッチ(図示せず)を備えている。
【0044】
そして、リモコン装置26を通じたログイン処理を経ることで、カラオケ歌唱時における歌唱動画の記録を指示することができる。歌唱動画の記録を指示することで、本体側記憶部33の歌唱映像データ記憶領域及び歌唱音声データ記憶領域には、対象カラオケ楽曲の歌唱に伴って取得された歌唱映像データ及び歌唱音声データが記憶される。さらに、楽曲終了後においては、記憶された歌唱映像データ及び歌唱音声データがホスト装置1へアップロードされる。
【0045】
次に、ユーザー端末3について説明する。ユーザー端末3は、カラオケの利用者によって操作される通信端末であり、歌唱動画コンテンツを閲覧する際などに操作される。図1に示すように、ユーザー端末3は、パーソナルコンピュータ3A、タブレットコンピュータ3B、携帯電話機3Cなどが含まれる。また、前述したように、リモコン装置26もユーザー端末3に含まれる。
【0046】
図6に示すように、ユーザー端末3は、端末側制御部41と、端末側通信部42と、端末側記憶部43と、表示部44と、入力部45とを有している。
【0047】
端末側制御部41は、ユーザー端末3における制御の中心となる部分であり、CPU41aやメモリ41bを有している。CPU41aは、メモリ41bに記憶された動作プログラムに従って各種の制御を実行する。メモリ41bは、CPU41aに実行されるプログラムを記憶したり、プログラムの実行時に各種情報を一時的に記憶したりする記憶素子である。端末側通信部42は、ユーザー端末3を通信回線4に接続するためのインタフェースを提供する。端末側記憶部43は、各種の情報を記憶する記憶装置であり、不揮発性メモリやハードディスクドライブ等によって構成される。
【0048】
表示部44及び入力部45は、いずれもユーザインタフェースを提供する部分である。表示部44は、各種メニュー等を表示する部分であり、例えば液晶表示装置やブラウン管で構成される。入力部45は、利用者による操作を操作情報として取り込む部分であり、例えばキーボード、マウス、タッチパネルによって構成される。なお、可搬性が要求されるタブレットコンピュータ3Bやリモコン装置26では、表示部44と入力部45とが一体化されたタッチパネル付きの液晶表示パネルが好適に用いられる。
【0049】
次に、上記構成を有するカラオケシステムの動作について説明する。このカラオケシステムでは、ユーザービデオカメラUCで撮影されたユーザー動画データとの合成に適した歌唱音声データを生成し、この歌唱音声データとユーザー動画データの映像部分とを合成して新たな歌唱動画データを生成する点に特徴を有している。
【0050】
以下、図7のフローチャートを参照し、一連の処理について説明する。まず、カラオケの利用者による操作部37の操作により、歌唱動画の記録が指示されると(S1)、カラオケ装置2は、当該カラオケ楽曲の演奏を待ち行列で管理する。その後、当該カラオケ楽曲の順番が到来すると、カラオケ装置2は、カラオケ伴奏を開始させる(S2)。そのとき、カラオケ装置2は、カラオケ伴奏における任意のタイミングに同期音を含ませて出力する。本実施形態では、カラオケ伴奏の演奏開始直後に同期音を含ませて出力している。これにより、スピーカ22からは、同期音が含まれたカラオケ伴奏が放音される。また、同期音信号は、マイク24からの歌唱音声信号とミキシングされる。
【0051】
前述したように、同期音の周波数は、可聴帯域の範囲外であってユーザービデオカメラUCのマイクで録音可能な値に定められている。このため、スピーカ22から放音された同期音は、歌唱者から聞き取られ難く、ビデオカメラ25で撮影されたユーザー動画データに記録される。また、同期音は、カラオケ歌唱で取得された歌唱音声データにも記録される。
【0052】
そして、カラオケ演奏が終了すると(S3)、カラオケ装置2の本体側記憶部33(歌唱映像データ記憶領域,歌唱音声データ記憶領域)に記憶された各種データ(歌唱映像データ,歌唱音声データ,伴奏付歌唱音声データ)は、ホスト装置1にアップロードされ(S4)、ホスト側記憶部13(歌唱映像データ記憶領域,歌唱音声データ記憶領域)に記憶される。
【0053】
その後、ユーザービデオカメラUCで撮影されたユーザー動画データが、ホスト装置1のホスト側記憶部13(ユーザー動画記憶領域)に登録される(S5)。例えば、ユーザービデオカメラUCがデジタルビデオカメラUC1やデジタルスチルカメラ(図示せず)であった場合には、ユーザービデオカメラUCに記憶されたユーザー動画データが、ユーザー端末3(パーソナルコンピュータ3A)を介してホスト装置1に転送される。
【0054】
また、ユーザービデオカメラUCが、カメラ機能及び通信機能を有するタブレットコンピュータ3Bや携帯電話機UC2(3C)であった場合には、二次元バーコードをモニタ23に表示させ、この二次元バーコードを撮影することで、指定された送信先アドレスにユーザー動画データを転送させてもよい。さらに、送信先URLをメールで送信し、この送信先URLのウェブページを通じてユーザー動画データを転送させてもよい。
【0055】
次に、ホスト装置1は、各種データを取得し、ユーザー動画データの映像部分と伴奏付歌唱音声データとを合成し、新たな歌唱動画データを生成する(S6)。このとき、ホスト側制御部11は、データ取得手段として機能し、カラオケ装置2で生成された歌唱音声データ、及び、ユーザービデオカメラUCで撮影された動画データを取得する。次に、ホスト側制御部11は、出力タイミング認識手段として機能し、ユーザー動画データの音声部分に基づき、ユーザー動画データにおける同期音の出力タイミングを認識すると共に、歌唱音声データに基づき、歌唱音声データにおける同期音の出力タイミングを認識する。次に、ホスト側制御部11は、動画データ生成手段として機能し、ユーザー動画データにおける同期音の出力タイミングと、歌唱音声データにおける同期音の出力タイミングとを揃えた状態で、ユーザー動画データの映像部分と歌唱音声データとを合成し、新たな歌唱動画データを生成する。そして、生成された新たな歌唱動画データは、ホスト側記憶部13の閲覧用動画データ記憶領域に記憶される。
【0056】
次に、前述した処理で用いた同期音、及び、ユーザー動画データの映像部分と伴奏付歌唱音声データとの合成について説明する。
【0057】
まず、同期音について説明する。図8(a)に示すように、同期音は、ヒトの可聴周波数帯域の範囲外であって、ユーザービデオカメラUCで録音可能な周波数帯域の範囲内の周波数に設定される。例えば、可聴周波数帯域を20Hz〜15kHzに定め、録音可能な周波数帯域を10Hz〜20kHzに定めた場合、同期音は、低音側が10Hz以上20Hz未満の周波数F1に、高音側が15kHzより高く20kHz以下の周波数F2にそれぞれ定められる。同様に、可聴周波数帯域を15Hz〜20kHzに定め、録音可能な周波数帯域を5Hz〜30kHzに定めた場合、同期音は、低音側が5Hz以上15Hz未満の周波数F1に、高音側が20kHzより高く30kHz以下の周波数F2にそれぞれ定められる。なお、同期音の出力時間をできるだけ短くする観点からすれば、高音側の周波数を用いることが好ましい。
【0058】
そして、カラオケ装置2は、歌唱動画の記録に際し、対象のカラオケ楽曲における伴奏開始直後に同期音を出力する。この場合、音響処理部34は、本体側記憶部33から楽曲データや同期音データを読み出し、楽曲データに基づく楽音信号と同期音データに基づく同期音とをミキシングする。これにより、図8(b)に示すように、伴奏開始直後の放音信号WVには、同期音信号SYと楽音信号ACとが含まれる。
【0059】
スピーカ22からは、この放音信号WVに対応した同期音及びカラオケ伴奏が放音される。ここで、同期音の周波数は、可聴周波数帯域の範囲外であって録音可能な周波数帯域の範囲内であることから、歌唱者には聞き取られ難いが、ユーザービデオカメラUCでは同期音として記録される。また、音響処理部34は、マイク24を通じて入力された歌唱音声信号に、楽曲データに基づく楽音信号ACと同期音データに基づく同期音信号SYとをミキシングする。これにより、音響処理部34から出力される伴奏付歌唱音声データには、カラオケ伴奏と歌唱音声に加えて同期音も記録される。
【0060】
次に、ユーザー動画データの映像部分と伴奏付歌唱音声データとの合成について説明する。図9は、ホスト装置1で行われるユーザー動画データの映像部分と歌唱音声データの合成を説明する概念図である。ホスト側記憶部13には、ユーザー動画データと伴奏付歌唱音声データとが記憶されている。合成に際し、ホスト側制御部11は、ユーザー動画データと伴奏付歌唱音声データをホスト側記憶部13から読み出す。そして、ユーザー動画データについては、映像データVDと音声データWV1に分割する。本実施形態では、ユーザー動画データをMPEG2形式の映像データVDとMP3形式の音声データWV1に変換する。これは、カラオケ装置2からアップロードされる歌唱映像データがMPEG2形式であり、歌唱音声データがMP3形式であることによる。
【0061】
ユーザー動画データを映像データVDと音声データWV1とに変換したならば、ホスト側制御部11は、同期音の出力タイミングを認識する。前述したように、同期音は特定の周波数(例えば周波数F2)に定められているので、ホスト側制御部11は、ユーザー動画データに基づく音声データWV1、及び、伴奏付歌唱音声データWV2のそれぞれに対し、特定周波数に対応するバンドパスフィルタ(プログラム)を適用することで同期音を抽出できる。これにより、ユーザー動画データにおける同期音の出力タイミングと、伴奏付歌唱音声データWV2における同期音の出力タイミングを認識できる。
【0062】
同期音の出力タイミングを認識したならば、ホスト側制御部11は、ユーザー動画データに基づく映像データVD1と伴奏付歌唱音声データWV2とを合成し、新たな歌唱動画データを生成する。合成に際してホスト側制御部11は、映像データにおける同期音信号SY1の出力タイミングと、伴奏付歌唱音声データWV2における同期音信号SY2の出力タイミングを一致させる。これにより、映像部分と音声部分の時刻が同期された状態で、新たな歌唱動画データが生成される。そして、ホスト側制御部11は、生成した新たな歌唱動画データを、ホスト側記憶部13の閲覧用動画データ記憶領域に記憶させる。
【0063】
以上の手順で得られた歌唱動画データは、利用者によって撮影されたユーザー動画データの映像部分(映像データVD)と、カラオケ装置2で取得された伴奏付歌唱音声データWV2とが合成されているので、映像について自由度が高く、高音質な歌唱動画コンテンツが得られる。
【0064】
以上の説明から明らかなように、本実施形態のカラオケシステムによれば、ユーザービデオカメラUCで撮影されたユーザー動画データとカラオケ装置2で生成された伴奏付歌唱音声データWV2のそれぞれに同期音信号SY1,SY2が含まれているため、これらの同期音信号SY1,SY2に基づいて、ユーザー動画データに基づく映像データVDと伴奏付歌唱音声データWV2の時刻を同期させることができる。
【0065】
また、カラオケ装置2の音響処理部34は、歌唱音声をマイク24によって変換した歌唱音声信号と、同期音の基となる同期音信号SYとをミキシングする第2ミキシング部34bを備えており、ミキシング後の信号に基づいて歌唱音声データを生成している。これにより、同期音信号SYを適切なレベルで歌唱音声信号にミキシングすることができる。
【0066】
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
【0067】
例えば、前述した第1実施形態における同期音は、カラオケ伴奏の開始直後に出力されていた。しかしながら、この構成に限定されるものではない。例えば、同期音を、間隔を空けて繰り返し出力するようにしてもよい。以下、このように構成された第2実施形態について説明する。なお、第2実施形態のシステム構成は、第1実施形態と同じであるので、説明は省略する。そして、第1実施形態との相違は、同期音信号の出力態様及び同期音の利用にある。そこで、以下の説明は、これらの相違点について行うこととする。
【0068】
図10(a)に示すように、第2実施形態における放音信号WVは、楽音信号ACに対して複数の同期音信号SYa,SYbが繰り返し合成されている。本実施形態では、所定の同期間隔(30秒間隔)で同期音信号SYが合成されている。そして、図10(b)に示すように、各同期音信号SYa〜SYcは、それぞれ異なる出力パターンに設定されている。この例では、大きな振幅部分の数が各同期音信号SYa〜SYcで異なっている。このため、大きな振幅部分の数に基づき、各同期音信号SYa〜SYcを識別することができる。なお、各同期音信号SYa〜SYcの出力パターンは、ホスト側制御部11で識別できれば、他の態様であってもよい。例えば、同期音信号毎に周波数を異ならせてもよい。
【0069】
そして、図11に示すように、本実施形態では、各音声データに含まれる4種類の同期音信号SY1a〜SY1d,SY2a〜SY2dに基づき、撮影期間の異なる4つのユーザー動画データA〜Dの映像部分を合成して合成映像データを生成している。すなわち、ホスト側制御部11は、4つのユーザー動画データA〜Dにおける各同期音信号SY1a〜SY1dの出力タイミングと、伴奏付歌唱音声データWV21における各同期音信号SY2a〜SY2dの出力タイミングとを揃えることで、各ユーザー動画データA〜Dに基づく映像データVD1〜VD4をつなぎ合わせている。そして、合成映像データVD11と伴奏付歌唱音声データWV21とに基づき、新たな歌唱動画データを生成している。
【0070】
このような処理を行う第2実施形態では、同期音の出力パターンに応じて、カラオケ歌唱における複数の時刻でユーザー動画データと歌唱音声データを同期させることができる。また、撮影時間の異なる複数のユーザー動画データと歌唱音声データを合成することができる。その結果、一層個性的かつ高音質な歌唱動画コンテンツを得ることができる。
【符号の説明】
【0071】
1…ホスト装置;2…カラオケ装置;3…ユーザー端末;4…通信回線;11…ホスト側制御部;12…ホスト側通信部;13…ホスト側記憶部;21…カラオケ本体;22…スピーカ;23…モニタ;24…マイク;25…ビデオカメラ;26…リモコン装置;31…本体側制御部;32…本体側通信部;33…本体側記憶部;34…音響処理部;34a…第1ミキシング部;34b…第2ミキシング部;35…表示処理部;36…映像入力部;37…操作部;41…端末側制御部;42…端末側通信部;43…端末側記憶部;44…表示部;45…入力部;KB…カラオケ店;RM…カラオケルーム;UC1…デジタルビデオカメラ;UC2…携帯電話機;BU…データバス;WV…放音信号;WV1,WV11〜WV14…ユーザー動画データに基づく音声データ;WV2,WV21…伴奏付歌唱音声データ;SY,SY1a〜SY1d,SY2a〜SY2d…同期音信号;VD,VD1〜VD4…ユーザー動画データに基づく映像データ;VD11…合成映像データ;AC…楽音信号
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11