(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【発明が解決しようとする課題】
【0004】
一般的に、カラオケの動画データは、映像情報、楽曲の音情報、歌詞情報等の複数の材料情報から生成される。この場合、動画サイトは、生成されたカラオケ動画データ登録して配信する。カラオケ動画データのメタ情報を生成する場合、カラオケ動画データを解析する必要がある。しかしながら、カラオケ動画データからは、元になった材料の情報が有する詳細な情報が失われている。そのため、カラオケ動画データからは元の詳細な情報を正確に抽出することが難しいので、正確性に欠けるメタ情報が生成されてしまうという問題がある。
【0005】
本発明は、以上の点に鑑みてなされたものであり、カラオケ動画を検索するためのメタ情報として正確な情報を容易に生成することを可能とする情報処理方法等を提供することを課題とする。
【課題を解決するための手段】
【0007】
請求項
1に記載の発明は、一時記憶手段と、取得手段と、展開手段と、カラオケ動画生成手段と、メタ情報生成手段とを備える情報処理装置のコンピュータにより実行される情報処理方法であって、前記取得手段が、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記カラオケ楽曲の演奏が開始されてから前記歌詞の表示が開始されるまでの経過時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得ステップと、前記展開手段が、前記取得ステップにより取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開ステップと、前記カラオケ動画生成手段が、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成ステップと、前記メタ情報生成手段が、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記歌詞情報に含まれる前記経過時間を、歌唱の開始時刻として含むメタ情報を生成するメタ情報生成ステップと、を含むことを特徴とする。
【0008】
請求項
2に記載の発明は、一時記憶手段と、取得手段と、展開手段と、カラオケ動画生成手段と、語抽出手段と、比較手段と、難易度決定手段と、メタ情報生成手段とを備える情報処理装置のコンピュータにより実行される情報処理方法であって、前記取得手段が、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記歌詞に含まれる語ごとに、前記語の表示の開始から終了までの表示時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得ステップと、前記展開手段が、前記取得ステップにより取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開ステップと、前記カラオケ動画生成手段が、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成ステップと、前記語抽出手段が、歌唱の難度が高い語として予め定められた高難度語と、前記高難度語の歌唱の基準時間とを高難度語ごとに対応付けて記憶する第1記憶手段に記憶された複数の高難度語のうち、前記一時記憶手段に展開された前記歌詞情報に含まれる高難度語を抽出する語抽出ステップと、前記比較手段が、前記語抽出ステップにより抽出された高難度語ごとに、前記高難度語の歌唱の基準時間と、前記高難度語の表示時間とを比較する比較ステップと、前記難易度決定手段が、前記比較ステップによる比較結果に基づいて、前記歌詞の難易度を決定する難易度決定ステップと、前記メタ情報生成手段が、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記難易度決定ステップにより決定された前記難易度を含むメタ情報を生成するメタ情報生成ステップと、を含むことを特徴とする。
【0011】
請求項
3に記載の発明は、一時記憶手段と、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記カラオケ楽曲の演奏が開始されてから前記歌詞の表示が開始されるまでの経過時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得手段と、前記取得手段により取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開手段と、前記展開手段により前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成手段と、前記展開手段により前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記歌詞情報に含まれる前記経過時間を、歌唱の開始時刻として含むメタ情報を生成するメタ情報生成手段と、を備えることを特徴とする。
請求項
4に記載の発明は、一時記憶手段と、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記歌詞に含まれる語ごとに、前記語の表示の開始から終了までの表示時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得手段と、前記取得手段により取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開手段と、前記展開手段により前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成手段と、歌唱の難度が高い語として予め定められた高難度語と、前記高難度語の歌唱の基準時間とを高難度語ごとに対応付けて記憶する第1記憶手段に記憶された複数の高難度語のうち、前記一時記憶手段に展開された前記歌詞情報に含まれる高難度語を抽出する語抽出手段と、前記語抽出手段により抽出された高難度語ごとに、前記高難度語の歌唱の基準時間と、前記高難度語の表示時間とを比較する比較手段と、前記比較手段による比較結果に基づいて、前記歌詞の難易度を決定する難易度決定手段と、前記展開手段により前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記難易度決定手段により決定された前記難易度を含むメタ情報を生成するメタ情報生成手段と、を備えることを特徴とする。
【0012】
請求項
5に記載の発明は、一時記憶手段を備える情報処理装置のコンピュータに、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記カラオケ楽曲の演奏が開始されてから前記歌詞の表示が開始されるまでの経過時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得ステップと、前記取得ステップにより取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開ステップと、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成ステップと、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記歌詞情報に含まれる前記経過時間を、歌唱の開始時刻として含むメタ情報を生成するメタ情報生成ステップと、を実行させることを特徴とする。
請求項
6に記載の発明は、一時記憶手段を備える情報処理装置のコンピュータに、カラオケ動画の材料となる複数の材料情報であって、映像情報、カラオケ楽曲の演奏音を示す音情報、及び前記カラオケ楽曲の歌詞を示す歌詞情報であって、前記歌詞に含まれる語ごとに、前記語の表示の開始から終了までの表示時間を含む歌詞情報を少なくとも含む複数の材料情報を取得する取得ステップと、前記取得ステップにより取得された前記複数の材料情報を前記一時記憶手段に1回展開する展開ステップと、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報に基づいて、前記カラオケ動画を生成するカラオケ動画生成ステップと、歌唱の難度が高い語として予め定められた高難度語と、前記高難度語の歌唱の基準時間とを高難度語ごとに対応付けて記憶する第1記憶手段に記憶された複数の高難度語のうち、前記一時記憶手段に展開された前記歌詞情報に含まれる高難度語を抽出する語抽出ステップと、前記語抽出ステップにより抽出された高難度語ごとに、前記高難度語の歌唱の基準時間と、前記高難度語の表示時間とを比較する比較ステップと、前記比較ステップによる比較結果に基づいて、前記歌詞の難易度を決定する難易度決定ステップと、前記展開ステップにより前記一時記憶手段に前記複数の材料情報が1回展開されている状態における前記複数の材料情報のうち少なくとも1つの材料情報に基づいて、前記カラオケ動画の検索に用いられるメタ情報であって、前記難易度決定ステップにより決定された前記難易度を含むメタ情報を生成するメタ情報生成ステップと、を実行させることを特徴とする。
【発明の効果】
【0013】
請求項
1乃至6に記載の発明によれば、一時記憶手段に展開された材料情報に基づいて、カラオケ動画が生成され、且つメタ情報が生成される。従って、このカラオケ動画を検索するためのメタ情報として、カラオケ動画自体から生成した場合と比較してより正確な情報を容易に生成することができる。
【0014】
更に請求項
1、
3又は
5に記載の発明によれば、正確な歌唱開始時刻を含むメタ情報を容易に生成することができる。
【0015】
更に請求項
2、
4又は
6に記載の発明によれば、正確な歌詞に基づいて、歌唱の難易度を含むメタ情報を容易に生成することができる。
【発明を実施するための形態】
【0019】
以下、本発明の実施形態を図面に基づいて説明する。
【0020】
[1.通信システムの構成]
図1(A)は、本実施形態の通信システムSの概要構成例を示す図である。
図1(A)に示すように、通信システムSは、カラオケ動画生成サーバ1、データ送信端末2、ネットワークストレージ3、カラオケ動画配信サーバ4、及び複数の利用者端末5を含んで構成される。カラオケ動画生成サーバ1は、本発明の情報処理装置の一例である。カラオケ動画生成サーバ1、データ送信端末2、カラオケ動画配信サーバ4、及び複数の利用者端末5は、それぞれネットワーク10に接続される。ネットワーク10は、例えば、インターネット等により構成される。カラオケ動画生成サーバ1及びカラオケ動画配信サーバ4と、ネットワークストレージ3とは、例えばLAN(Local Area Network)等のネットワークにより接続される。
【0021】
カラオケ動画生成サーバ1は、データ送信端末2から複数の材料データを受信する。そして、カラオケ動画生成サーバ1は、複数の材料データに基づいて、カラオケ動画データを生成する。カラオケ動画データは、カラオケ楽曲の歌詞のテロップが合成された映像のデータと、カラオケ楽曲の演奏音のデータとを含む。カラオケ動画データの形式は、例えばMP4(ISO/IEC 14496-14:2003)等であってもよい。
【0022】
材料データは、カラオケ動画データを生成するための材料となるデータである。複数の材料データは、少なくとも映像データ、音声データ、及びテロップデータを含む。映像データは、カラオケ動画データに含まれる映像を示すデータである。映像データの形式は、例えばH.264等であってもよい。音声データは、カラオケ楽曲の演奏音を示すデータである。音声データの形式は、例えばMIDI(Musical Instrument Digital Interface)、AAC(Advanced Audio Coding)等であってもよい。テロップデータは、カラオケ楽曲の歌詞と歌詞を表示するタイミングとを示すデータである。
図2(A)は、テロップデータの構成例を示す図である。
図2(A)に示すように、テロップデータは、歌詞の文字情報を含む。また、テロップデータは、歌詞を構成する文字ごとの表示開始時刻及び表示終了時刻を含む。表示開始時刻は、カラオケ楽曲の演奏が開始されてから、対応する文字を表示させるまでに経過する時間を示す。表示終了時刻は、カラオケ楽曲の演奏が開始されてから、対応する文字の表示を終了させるまでに経過する時間を示す。
図2(A)の例では、「生」の表示開始時刻及び終了時刻がそれぞれ500ミリ秒及び1000ミリ秒に設定されている。また、「麦」の表示開始時刻及び終了時刻がそれぞれ1000ミリ秒及び1200ミリ秒に設定されている。
【0023】
また、カラオケ動画生成サーバ1は、複数の材料データのうち少なくとも1つに基づいて、カラオケ動画データの検索に用いられるメタ情報を生成する。カラオケ動画生成サーバ1は、生成したカラオケ動画データ及びメタ情報をネットワークストレージ3に記憶させる。
【0024】
データ送信端末2は、例えばカラオケ動画データの配信サービスの運営者等により利用される。運営者は、例えば材料データをデータ送信端末2に入力し、又はデータ送信端末2を操作して材料データを作成する。データ送信端末2は、入力又は作成された材料データをカラオケ動画生成サーバ1へ送信する。
【0025】
ネットワークストレージ3は、複数のカラオケ動画データを記憶する。ネットワークストレージ3は、カラオケ楽曲を識別可能な識別情報に関連付けて、カラオケ動画データを記憶する。識別情報は、例えば楽曲番号等であってもよい。また、ネットワークストレージ3は、カラオケ動画データごとに、1又は複数のメタ情報を記憶する。ネットワークストレージ3は、例えばハードディスクドライブ等により構成されている。
【0026】
カラオケ動画配信サーバ4は、ネットワークストレージ3から、利用者端末5から送信されてきた検索条件に合致するメタ情報を検索する。カラオケ動画配信サーバ4は、検索されたメタ情報に含まれる楽曲番号に関連付けられたカラオケ動画データをネットワークストレージ3から特定する。これにより、カラオケ動画配信サーバ4は、カラオケ動画データを検索する。そして、カラオケ動画配信サーバ4は、検索されたカラオケ動画データを利用者端末5へストリーミング配信する。
【0027】
利用者端末5は、カラオケの配信サービスの利用者により利用される。利用者は、利用者端末5を操作して、カラオケ動画データを検索するための検索条件を指定する。利用者端末5は、指定された検索条件をカラオケ動画配信サーバ4へ送信する。また、利用者端末5は、カラオケ動画配信サーバ4から配信されてきたカラオケ動画データを再生する。利用者端末5の種類としては、例えばパーソナルコンピュータ、テレビ、STB、携帯電話機、スマートフォン、タブレット型コンピュータ、カラオケ装置等がある。
【0028】
[2.カラオケ動画生成サーバ1の構成]
次に、
図1(B)、
図2(B)乃至
図2(D)を参照して、カラオケ動画生成サーバ1の構成について説明する。
図1(B)は、本実施形態のカラオケ動画生成サーバ1の概要構成例を示す図である。
図1(B)に示すように、カラオケ動画生成サーバ1は、CPU(Center Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、記憶部14及び通信部15等を備えて構成される。これらの構成要素は、バス16に接続されている。通信部15は、ネットワーク10に接続される。記憶部14は、例えばハードディスクドライブにより構成される。記憶部14には、OS、及びサーバプログラム等が記憶されている。サーバプログラムは、コンピュータとしてのCPUに、カラオケ動画データの生成及びメタ情報の生成等を実行させるプログラムである。サーバプログラム等は、例えばネットワーク10等を介して他のサーバ等からダウンロードされてもよい。或いは、サーバプログラム等は、例えば光ディスク、磁気テープ、メモリカード等の記録媒体に記録されてドライブ装置を介して記憶部14に読み込まれてもよい。また、記憶部14には、メタ情報を生成するための情報等が記憶されている。具体的に、記憶部14には、難歌詞リスト、キーワードリスト、及び種類リストが記憶されている。これらのリストは、例えばカラオケ動画データの配信サービスの運営者等により作成されてもよい。
【0029】
図2(B)は、難歌詞リストの構成例を示す図である。難歌詞リストは、カラオケ楽曲の難歌詞のリストである。難歌詞は、歌唱の難度が高い語として予め定められた語である。具体的に、難歌詞リストには、難歌詞ごとに、難歌詞と基準歌唱時間とが対応付けて登録されている。基準歌唱時間は、対応する難歌詞の歌唱が難しく感じる時間の基準値である。
図2(B)の例では、難歌詞「生麦」と基準歌唱時間1000ミリ秒とが対応付けて登録されている。この場合、カラオケ楽曲において「生麦」の歌唱時間が1000ミリ秒未満である場合、「生麦」の歌唱が難しいと判定されてもよい。
【0030】
図2(C)は、キーワードリストの構成例を示す図である。キーワードリストは、キーワードとそのキーワードに関連する単語と示すリストである。具体的に、キーワードリストには、キーワードごとに、キーワードと、そのキーワードに関連する複数の単語とが対応付けて登録されている。
図2(C)の例では、キーワード「春」に対応付けて、単語「桜」、「梅」、「卒業」、「巣立」、「入学」が登録されている。
【0031】
図2(D)は、種類リストの構成例を示す図である。種類リストは、楽曲の種類のリストである。具体的に、種類リストには、楽曲の種類ごとに、楽曲種別と、1又は複数の音色情報とが対応付けて登録されている。楽曲種別は、楽曲の種類を識別可能な識別情報である。音色情報は、楽曲種別が示す種類の楽曲の演奏に用いられる音源の音色を示す情報である。音色情報の付与体系は、例えばジェネラルMIDIで定義されている音色の番号の付与体系と同一であってもよい。
図2(D)に示す種類リストには、楽曲種別「民謡」に対応付けて音色情報「三味線」が登録されている。
【0032】
[3.メタ情報の生成]
例えば、生成されたカラオケ動画データに基づいてメタ情報を生成しようとする場合、カラオケ動画データを解析する必要がある。しかしながら、カラオケ動画データからは、元になった材料データが有する詳細な情報が失われている。そこで、カラオケ動画データの生成に用いられた複数の材料データの少なくとも1つに基づいて運営者がメタ情報を作成することを考える。ところが、完成したカラオケ動画データについて、後でメタ情報を作成しようとした場合、次に述べる問題が生じる。すなわち、メタ情報を作成するまでに、カラオケ動画データの生成に用いられた材料データを、データストレージ3、記憶部14等の記憶手段に保存させておくか、或いはメモリカード、磁気テープ、光ディスク等の記録媒体に保存しておく必要がある。従って、材料データを保存するためにコンピュータリソースを浪費する。また、カラオケ動画データの生成時と、メタ情報の生成時とで、それぞれ材料データを記憶手段又は記録媒体から読み出す必要があるので、二度手間となる。
【0033】
そこで、カラオケ動画生成サーバ1のCPU11は、データ送信端末2から取得した複数の材料データをRAM13に展開する。CPU11は、例えば1回のみ、複数の材料データをRAM13に展開してもよい。CPU11は、RAM13に複数の材料データが1回展開された状態における複数の材料データに基づいて、カラオケ動画データを生成し、且つRAM13に複数の材料データが1回展開された状態における複数の材料データの少なくとも1つに基づいて、メタ情報を生成する。すなわち、CPU11は、カラオケ動画データの生成に用いられた正にその材料データを用いてメタ情報を生成し、又はメタ情報の生成に用いられた正にその材料データを用いてカラオケ動画データを生成する。RAM13は、データを一時的に記憶する作業用の記憶手段である。RAM13に記憶されたデータは、いつかは消去される。CPU11は、メタ情報がRAM13に記憶されている間に、カラオケ動画データの生成とメタ情報の生成とを行うことで、材料データを保存するためのリソースの浪費を防止することができるとともに、材料データの読み出しの手間を減らすことができる。更に、カラオケ動画データの生成に用いられる材料データに基づいて正確なメタ情報を生成することができる。CPU11は、例えばカラオケ動画データの生成とメタ情報の生成とを同時に又は連続して実行してもよいし、別々のタイミングで生成してもよい。メタ情報がRAM13から消去されるまでの間に、カラオケ動画データとメタ情報が生成されればよい。また、CPU11は、カラオケ動画データを先に生成してもよいし、メタ情報を先に生成してもよい。RAM13は、本発明の一時記憶手段の一例である。一時記憶手段は、RAM13に限定されるものではない。例えば、保存を目的とせずに材料データが一時的に記憶されるのであれば、例えば不揮発性のメモリに対しても本発明の一時記憶手段を適用することができる。
【0034】
次に、
図3を参照して、メタ情報の生成の具体例について説明する。例えば、CPU11は、歌唱開始時刻を含むメタ情報を生成してもよい。歌唱開始時刻は、カラオケ楽曲の演奏が開始されてから、カラオケ楽曲の最初の歌詞の歌唱が開始されるまでの時間である。具体的に、CPU11は、RAM13にテロップデータから、歌詞の先頭の文字の表示開始時刻を、歌唱開始時刻として取得する。カラオケ動画データの再生時、利用者は、歌詞のテロップの表示のタイミングに合わせて歌唱する。従って、最初の歌詞部分の表示開始時刻を、歌唱開始時刻と考えることができる。
図3(A)は、歌唱開始時刻を含むメタ情報の構成例を示す図である。
図3(A)に示すメタ情報は、楽曲番号と歌唱開始時刻とを含む。カラオケ動画データの検索時、利用者は、例えば検索条件として歌唱開始時刻の条件を指定することができる。この条件として、例えば10秒、5秒以上、20秒以下等の指定が可能であってもよい。カラオケ動画配信サーバ4は、指定された歌唱開始時刻の条件を満たす歌唱開始時刻を含むメタ情報をネットワークストレージ3から検索する。
【0035】
また例えば、CPU11は、歌唱難易度を含むメタ情報を生成してもよい。歌唱難易度は、カラオケ楽曲の歌唱の難しさを示す情報である。歌唱難易度が高いほど、歌唱が難しい。具体的に、CPU11は、難歌詞リストに登録されている難歌詞のうち、テロップデータに含まれる難歌詞を抽出する。CPU11は、抽出された難歌詞の歌唱時間をテロップデータから取得する。例えば、CPU11は、難歌詞の最初の文字の表示開始時刻から、難歌詞の最後の文字の表示終了時刻までの時間を、歌唱時間として取得する。CPU11は、テロップデータから取得した歌唱時間と、難歌詞の基準歌唱時間とを比較する。そして、CPU11は、この比較の結果に基づいて、歌唱難易度を決定する。例えば、CPU11は、取得した歌唱時間が基準歌唱時間よりも短い難歌詞が多いほど、高い歌唱難易度を決定してもよい。例えば、
図2(A)に示すテロップデータにおいては、「生」と「麦」が連続している。従って、このテロップデータは、
図2(B)に示す難歌詞「生麦」を含む。「生」の表示開始時刻は500ミリ秒であり、「麦」の表示終了時刻は1200ミリ秒である。従って、「生麦」の歌唱時間は700ミリ秒である。
図2(B)に示す難歌詞「生麦」の基準歌唱時間は1000ミリ秒であるので、CPU11は、例えば歌唱難易度を1増加させてもよい。
図3(B)は、歌唱難易度を含むメタ情報の構成例を示す図である。
図3(B)に示すメタ情報は、楽曲番号と歌唱難易度とを含む。カラオケ動画データの検索時、利用者は、例えば検索条件として歌唱難易度の条件を指定することができる。この条件として、例えば難易度0、難易度5以上、難易度8以下等の指定が可能であってもよい。カラオケ動画配信サーバ4は、指定された歌唱難易度の条件を満たす歌唱難易度を含むメタ情報をネットワークストレージ3から検索する。
【0036】
また例えば、CPU11は、キーワードを含むメタ情報を生成してもよい。具体的に、CPU11は、キーワードリストに登録されている単語のうち、テロップデータに含まれる単語に対応付けられたキーワードを、キーワードリストから抽出する。CPU11は、抽出されたキーワードの抽出頻度を出現度として、キーワードリストに登録されているキーワードごとに計数する。
図3(C)は、キーワードの出現度の例を示す図である。
図3(C)の例では、キーワード「春」の出現度が4であり、キーワード「演歌」の出現度が1である。CPU11は、出現度が所定の頻度を超えるキーワードを、カラオケ楽曲のキーワードに決定する。
図3(D)は、キーワードを含むメタ情報の構成例を示す図である。
図3(D)に示すメタ情報は、楽曲番号と1又は複数のキーワードとを含む。例えば所定の頻度が3である場合、
図3(C)に示すキーワードのうち「春」が、カラオケ楽曲のキーワードに決定される。なお、所定の頻度は3以外であってもよい。カラオケ動画データの検索時、利用者は、例えば検索条件としてキーワードを指定することができる。カラオケ動画配信サーバ4は、指定されたキーワードを含むメタ情報をネットワークストレージ3から検索する。
【0037】
仮に、
図3(A)、
図3(B)、
図3(D)に示すメタ情報を、カラオケ動画データに基づいて生成するとする。この場合、カラオケ動画データに含まれる映像データを解析して、歌詞を抽出する必要がある。そのため、CPU11の処理負荷が増大するとともに、歌詞を正確に抽出することができない場合がある。対照的に、本実施形態においては、歌詞を明確に示すテロップデータに基づいてCPU11がメタ情報を生成するので、正確なメタ情報を生成することができる。
【0038】
また例えば、CPU11は、楽曲種別を含むメタ情報を生成してもよい。例えば、音声データがMIDIデータである場合、音声データは、1又は複数のトラックを含む。トラックは音色情報を含む場合がある。この音色情報は、カラオケ楽曲の演奏に用いられる音源の音色を示す。CPU11は、種類リストに登録されている音色情報のうち、音声データに含まれる音色情報に対応付けられた楽曲種別を、種類リストから抽出する。そして、CPU11は、抽出した楽曲種別を含むメタ情報を生成する。
図3(E)は、楽曲種別を含むメタ情報の構成例を示す図である。
図3(E)に示すメタ情報は、楽曲番号と1又は複数の楽曲種別とを含む。カラオケ動画データの検索時、利用者は、例えば検索条件として楽曲種別を指定することができる。カラオケ動画配信サーバ4は、指定された楽曲種別を含むメタ情報をネットワークストレージ3から検索する。なお、1つのカラオケ楽曲について、複数の楽曲種別を抽出する場合がある。この場合、CPU11は、例えば抽出された頻度が最も高い楽曲種別を決定し、決定した楽曲種別のみを含むメタ情報を生成してもよい。抽出された頻度が高い楽曲種別ほど、カラオケ楽曲の種類を示す蓋然性が高いと考えられる。或いは、CPU11は、例えば抽出された頻度が最も高い楽曲種別から順に所定数までの複数の楽曲種別を決定し、決定した複数の楽曲種別を含むメタ情報を生成してもよい。或いは、CPU11は、抽出した楽曲種別ごとに、抽出された頻度を示す情報を生成してもよい。そして、CPU11は、楽曲種別と抽出された頻度を示す情報とを含むメタ情報を生成してもよい。
【0039】
仮に、
図3(E)に示すメタ情報を、カラオケ動画データに基づいて生成するとする。この場合、カラオケ動画データに含まれる音声データを解析して、音源や音色を特定する必要がある。しかしながら、この音声データは、例えば、AAC等の、音声をサンプリングして得られるデータである。そのため、CPU11の処理負荷が増大するとともに、音色を正確に特定することができない場合がある。対照的に、本実施形態においては、音色情報を含むMIDI形式の音声データに基づいてCPU11がメタ情報を生成するので、正確なメタ情報を生成することができる。
【0040】
CPU11は、これまでに説明された4種類のメタ情報の全てを生成してもよいし、一部のメタ情報のみを生成してもよい。また、CPU11は、例えば別の種類のメタ情報を生成してもよい。また、CPU11は、複数の材料データに含まれる映像データに基づいて、メタ情報を生成してもよい。また、CPU11は、例えば2以上の材料データに基づいて、メタ情報を生成してもよい。また、CPU11は、複数種類の情報を含むメタ情報を生成してもよい。例えば、CPU11は、歌唱開始時刻、難易度、キーワード、楽曲種別等を含む1つのメタ情報を生成してもよい。
【0041】
[4.通信システムSの動作]
次に、
図4乃至
図6を参照して、本実施形態の通信システムSの動作について説明する。
図4(A)は、カラオケ動画生成サーバ1におけるサーバ処理の一例を示すフローチャートである。例えば、カラオケ動画生成サーバ1においてサーバプログラムが起動すると、CPU11は、サーバ処理を実行する。
図4(A)に示すように、CPU11は、サーバプログラムが終了するか否かを判定する(ステップS1)。このとき、CPU11は、サーバプログラムが終了しないと判定した場合には(ステップS1:NO)、ステップS2に進む。ステップS2において、CPU11は、データ送信端末2から複数の材料データを受信したか否かを判定する。このとき、CPU11は、複数の材料データを受信していないと判定した場合には(ステップS2:NO)、ステップS1に進む。一方、CPU11は、複数の材料データを受信したと判定した場合には(ステップS2:YES)、ステップS3に進む。
【0042】
ステップS3において、CPU11は、受信された複数の材料データをRAM13に展開する。また、CPU11は、生成されるカラオケ動画データの楽曲番号を取得する。例えば、CPU11は、データ送信端末2から楽曲番号を取得してもよいし、CPU11が楽曲番号を生成してもよい。次いで、CPU11は、後述するメタ情報生成処理を実行する(ステップS4)。
【0043】
次いで、CPU11は、RAM13に展開された複数の材料データに基づいて、カラオケ動画データを生成する(ステップS5)。例えば、材料データに含まれる音声データがMIDI形式のデータである場合、CPU11は、音声データを、例えばAAC等の形式の音声データに変換する。また、CPU11は、材料データに含まれる映像データに、材料データに含まれるテロップデータが示す歌詞を合成する。例えば、CPU11は、歌詞を構成する文字ごとに、映像の再生開始から表示開始時刻のタイミングでその文字の表示が開始され、映像の再生開始から表示終了時刻のタイミングでその文字の表示が終了するように、合成を行う。CPU11は、音声データと、歌詞が合成された映像データとを多重化して、カラオケ動画データを生成する。次いで、CPU11は、カラオケ動画データと楽曲番号とを対応付けてネットワークストレージ3に記憶させる。そして、CPU11は、ステップS1に進む。ステップS1において、CPU11は、サーバプログラムが終了すると判定した場合には(ステップS1:YES)、サーバ処理を終了させる。
【0044】
図4(B)は、カラオケ動画生成サーバ1におけるメタ情報生成処理の一例を示すフローチャートである。
図4(B)に示すように、CPU11は、後述する歌唱開始時刻メタ情報生成処理(ステップS11)、歌唱難易度メタ情報生成処理(ステップS12)、キーワードメタ情報生成処理(ステップS13)、及び楽曲種別メタ情報生成処理(ステップS14)を実行して、メタ情報生成処理を終了させる。
【0045】
図5(A)は、カラオケ動画生成サーバ1における歌唱開始時刻メタ情報生成処理の一例を示すフローチャートである。
図5(A)に示すように、CPU11は、RAM13に展開されたテロップデータから、歌詞の先頭の文字の表示開始時刻を、歌唱開始時刻として取得する(ステップS21)。次いで、CPU11は、楽曲番号と、取得した歌唱開始時刻とを含むメタ情報を生成する。そして、CPU11は、メタ情報をネットワークストレージ3に記憶させて(ステップS22)、歌唱開始時刻メタ情報生成処理を終了させる。
【0046】
図5(B)は、カラオケ動画生成サーバ1における歌唱難易度メタ情報生成処理の一例を示すフローチャートである。
図5(B)に示すように、CPU11は、記憶部14から難歌詞リストを読み出す(ステップS31)。次いで、CPU11は、歌唱難易度を0に設定するとともに、番号iを1に設定する(ステップS32)。次いで、CPU11は、RAM13に展開されたテロップデータに、難歌詞(i)が含まれているか否かを判定する(ステップS33)。難歌詞(i)は、難歌詞リストに含まれる難歌詞のうち、i番目の難歌詞である。CPU11は、テロップデータに、難歌詞(i)が含まれていないと判定した場合には(ステップS33:NO)、ステップS37に進む。一方、CPU11は、テロップデータに、難歌詞(i)が含まれていると判定した場合には(ステップS33:YES)、ステップS34に進む。
【0047】
ステップS34において、CPU11は、テロップデータから、難歌詞(i)の先頭の文字の表示開始時刻と、難歌詞(i)の最後の文字の表示終了時刻とを取得する。そして、CPU11は、取得した表示終了時刻から表示開始時刻を減算することにより、歌唱時間を取得する。次いで、CPU11は、難歌詞(i)に対応付けて難歌詞リストに登録されている基準歌唱時間が、取得された歌唱時間よりも長いか否かを判定する(ステップS35)。このとき、CPU11は、基準歌唱時間が、取得された歌唱時間よりも長くはないと判定した場合には(ステップS35:NO)、ステップS37に進む。一方、CPU11は、基準歌唱時間が、取得された歌唱時間よりも長いと判定した場合には(ステップS35:YES)、ステップS36に進む。ステップS36において、CPU11は、歌唱難易度を1増加させる。
【0048】
次いで、CPU11は、番号iが、難歌詞リストに登録されている難歌詞の数未満であるか否かを判定する(ステップS37)。このとき、CPU11は、番号iが難歌詞の数未満であると判定した場合には(ステップS37:YES)、ステップS38に進む。ステップS38において、CPU11は、番号iを1増加させて、ステップS33に進む。一方、CPU11は、番号iが難歌詞の数未満ではないと判定した場合には(ステップS37:NO)、ステップS39に進む。ステップS39において、CPU11は、楽曲番号と歌唱難易度とを含むメタ情報を生成する。そして、CPU11は、メタ情報をネットワークストレージ3に記憶させて、歌唱難易度メタ情報生成処理を終了させる。
【0049】
図6(A)は、カラオケ動画生成サーバ1におけるキーワードメタ情報生成処理の一例を示すフローチャートである。
図6(A)に示すように、CPU11は、記憶部14からキーワードリストを読み出す(ステップS41)。次いで、CPU11は、キーワードリストに含まれる各キーワードの出現度を0に設定する。また、CPU11は、番号iを1に設定する(ステップS42)。次いで、CPU11は、RAM13に展開されたテロップデータに、単語(i)が含まれているか否かを判定する(ステップS43)。単語(i)は、キーワードリストに含まれる単語のうち、i番目の単語である。CPU11は、テロップデータに、単語(i)が含まれていないと判定した場合には(ステップS43:NO)、ステップS45に進む。一方、CPU11は、テロップデータに、単語(i)が含まれていると判定した場合には(ステップS43:YES)、ステップS44に進む。ステップS44において、CPU11は、単語(i)に対応付けてキーワードリストに登録されているキーワードの出現度を1増加させて、ステップS45に進む。
【0050】
ステップS45において、CPU11は、番号iが、キーワードリストに登録されている単語の数未満であるか否かを判定する。このとき、CPU11は、番号iが単語の数未満であると判定した場合には(ステップS45:YES)、ステップS46に進む。ステップS46において、CPU11は、番号iを1増加させて、ステップS43に進む。一方、CPU11は、番号iが単語の数未満ではないと判定した場合には(ステップS45:NO)、ステップS47に進む。
【0051】
ステップS47において、CPU11は、番号iを1に設定する。次いで、CPU11は、キーワード(i)の出現度が3よりも大きいか否かを判定する(ステップS48)。キーワード(i)は、キーワードリストに登録されているキーワードのうち、i番目のキーワードである。CPU11は、キーワード(i)の出現度が3よりも大きくはないと判定した場合には(ステップS48:NO)、ステップS50に進む。一方、CPU11は、キーワード(i)の出現度が3よりも大きいと判定した場合には(ステップS48:YES)、ステップS49に進む。ステップS49において、CPU11は、キーワード(i)を、カラオケ楽曲のキーワードの1つとして、RAM13に保存する。次いで、CPU11は、ステップS50に進む。
【0052】
ステップS50において、CPU11は、番号iが、キーワードリストに登録されているキーワードの数未満であるか否かを判定する。このとき、CPU11は、番号iがキーワードの数未満であると判定した場合には(ステップS50:YES)、ステップS51に進む。ステップS51において、CPU11は、番号iを1増加させて、ステップS48に進む。一方、CPU11は、番号iがキーワードの数未満ではないと判定した場合には(ステップS50:NO)、ステップS52に進む。ステップS52において、CPU11は、楽曲番号と、RAM13に保存しておいたキーワードとを含むメタ情報を生成する。そして、CPU11は、メタ情報をネットワークストレージ3に記憶させて、キーワードメタ情報生成処理を終了させる。
【0053】
図6(B)は、カラオケ動画生成サーバ1における楽曲種別メタ情報生成処理の一例を示すフローチャートである。
図6(B)に示すように、CPU11は、記憶部14から種類リストを読み出す(ステップS61)。次いで、CPU11は、番号iを1に設定する(ステップS62)。次いで、CPU11は、RAM13に展開された音声データに、音色情報(i)が含まれているか否かを判定する(ステップS63)。音色情報(i)は、種類リストに含まれる音色情報のうち、i番目の音色情報である。CPU11は、テロップデータに、音色情報(i)が含まれていないと判定した場合には(ステップS63:NO)、ステップS65に進む。一方、CPU11は、テロップデータに、音色情報(i)が含まれていると判定した場合には(ステップS63:YES)、ステップS64に進む。ステップS64において、CPU11は、音色情報(i)に対応付けて種類リストに登録されている楽曲種別を、カラオケ楽曲の種類を示す可能性がある楽曲種別としてRAM13に保存する。次いで、CPU11は、ステップS65に進む。
【0054】
ステップS65において、CPU11は、番号iが、種類リストに登録されている音色情報の数未満であるか否かを判定する。このとき、CPU11は、番号iが音色情報の数未満であると判定した場合には(ステップS65:YES)、ステップS66に進む。ステップS66において、CPU11は、番号iを1増加させて、ステップS63に進む。一方、CPU11は、番号iが音色情報の数未満ではないと判定した場合には(ステップS65:NO)、ステップS67に進む。ステップS67において、CPU11は、楽曲番号と、RAM13に保存しておいた楽曲種別とを含むメタ情報を生成する。そして、CPU11は、メタ情報をネットワークストレージ3に記憶させて、楽曲種別メタ情報生成処理を終了させる。
【0055】
以上説明したように、本実施形態によれば、カラオケ動画生成サーバ1が、データ送信端末2から取得された複数の材料情報をRAM13に展開する。また、カラオケ動画生成サーバ1が、RAM13に展開された複数の材料情報に基づいて、カラオケ動画データを生成する。また、カラオケ動画生成サーバ1がRAM13に展開された複数の材料情報のうち少なくとも1つの材料情報に基づいて、メタ情報を生成する。従って、カラオケ動画自体から生成した場合と比較してより正確なメタ情報を容易に生成することができる。