(58)【調査した分野】(Int.Cl.,DB名)
前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得し、取得した整合オーディオフレームに基づいて、整合オーディオフレームユニットを形成することが、
前記候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と前記オーディオファイル中の第2オーディオフレームのオーディオ特徴とを整合して、整合結果を得ることと、
前記整合結果に基づいて、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することと、
前記整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することと、を含む請求項1に記載の歌曲確定方法。
前記候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴と前記オーディオファイル中の第2オーディオフレームに対応するオーディオ特徴とを整合して、整合結果を得ることが、
前記候補歌曲ファイル中の第1オーディオフレームのフレーム数を取得して、前記オーディオファイルから、前記フレーム数と同数の第2オーディオフレームを含むオーディオフレームユニットを選択することと、
前記候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と前記オーディオフレームユニット中の第2オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果を得ることと、を含み、
前記整合結果に基づいて前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することが、
前記オーディオ特徴の整合結果に基づいて、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することを含み、ここで、前記整合オーディオフレームがオーディオ特徴の整合に成功したオーディオフレームであり、
前記整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することが、
整合オーディオフレームに基づいて、複数の連続する前記整合オーディオフレームを含むフレーム連続ユニットを取得することと、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、前記数量に基づいて、前記フレーム連続ユニットを整合オーディオフレームユニットと確定することと、を含む請求項2に記載の歌曲確定方法。
候補歌曲マークに基づいて対応する候補歌曲ファイルを取得した後であって、前記候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴と前記オーディオファイル中の第2オーディオフレームに対応するオーディオ特徴とを整合する前、
候補歌曲ファイル中の各第1オーディオフレームに対応するスペクトルを取得することと、
前記第1オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割して、前記周波数帯に対応する平均幅値を取得することと、
各前記周波数帯の平均幅値と一つ前の第1オーディオフレームの対応する周波数帯の平均幅値とを比較して、比較結果を得ることと、
前記比較結果に基づいて、前記第1オーディオフレームに対応するオーディオ特徴を取得することと、をさらに含む請求項2に記載の歌曲確定方法。
【発明を実施するための形態】
【0013】
以下、本発明の実施例中の図面を結合して、本発明の実施例の技術案を明確且つ完全に説明し、ここで説明する実施例は本発明の実施例の全部ではなく、一部であることは言うまでもない。本発明の実施例に基づいて、当業者が創造性のある労働を必要とせずに得た他の実施例はすべて本発明の保護範囲に含まれる。
【0014】
本発明の実施例で歌曲確定方法及び装置を提供する。以下それぞれ詳細に説明する。
【0015】
本発明の実施例は、歌曲確定装置の方面から説明し、該歌曲確定装置をサーバ等のビデオ挿入歌に対応する歌曲を確定しようとするデバイスに統合することができる。
【0016】
尚、該歌曲確定装置をユーザ端末(例えば、スマートフォン、タブレットPC)等のビデオ挿入歌に対応する歌曲を確定しようとするデバイスに統合することもできる。
【0017】
本発明の実施例で歌曲確定方法を提供し、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得え、その後、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲のマークである目標歌曲マークを取得して、該目標歌曲マークに基づいて該挿入歌が属する目標歌曲を確定することを含む。
【0018】
図1に示すように、該歌曲確定方法の具体的なプロセスは以下のとおりである。
【0019】
ステップ101において、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得る。
【0020】
ここで、ビデオを取得する方式はさまざまがあって、例えば、ビデオサーバに要求を送信してビデオを取得することができれば、ローカルに記憶されたものからビデオを抽出することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」ことは、
ビデオサーバにビデオ取得要求を送信することと、
該ビデオサーバが該ビデオ取得要求に応じて返信したビデオを受信することと、
該ビデオ中のオーディオファイルを抽出することと、を含むことができる。
【0021】
該ビデオ中のオーディオファイルを抽出する方式は様々があって、例えば、ビデオにオーディオとビデオの分離処理を行って、ビデオのオーディオファイルを得ることができ、即ちステップ「ビデオ中のオーディオファイルを抽出する」ことは、ビデオにオーディオ・ビデオ分離処理を行って、ビデオのオーディオファイルを得ることを含むことができる。
【0022】
本発明の実施例において、挿入歌が属する候補歌曲はビデオ挿入歌と整合する歌曲であることができ、該候補歌曲マークはビデオ挿入歌に整合する歌曲のマークである。
【0023】
該候補歌曲マークを取得する方式は様々があって、例えば、まずビデオのオーディオファイルを複数のオーディオ断片に分割した後、オーディオ断片それぞれを歌曲(音楽ライブラリ中の歌曲)と整合させて、ビデオ挿入歌に整合する歌曲を得て、該歌曲のマークを候補歌曲マークとする。例えば、オーディオ断片と歌曲のオーディオ指紋(つまり、歌曲のオーディオのデジタル化の特徴)に基づいて歌曲の整合を行う。つまり、ステップ「該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得する」ことは、
該オーディオファイルを複数のオーディオ断片に分割し、該オーディオ断片のオーディオ指紋を取得することと、
予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定することと、
YESであると、整合する指紋サンプルに対応する歌曲マークを取得して、複数の該歌曲マークを含み該オーディオ断片に対応する歌曲マーク集合を得ることと、
該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択することと、を含むことができる。
【0024】
ここで、候補歌曲マークを取得する具体的なプロセスについては本発明の実施例の後続の記載でさらに説明する。
【0025】
ステップ102において、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得る。
【0026】
例えば、歌曲サーバの歌曲データベースから候補歌曲マークに対応する候補歌曲ファイルを取得し、例えば歌曲サーバに要求を送信して対応する歌曲ファイルを得ることができ、つまり、ステップ「候補歌曲マークに対応する候補歌曲ファイルを取得する」ことは、
歌曲サーバに候補歌曲マークを含む歌曲取得要求を送信することと、
該歌曲サーバが該歌曲取得要求に応じて返信した候補歌曲ファイルを受信することと、を含むことができる。
【0027】
ここで、整合オーディオフレームは候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームであることができ、例えば候補歌曲ファイルが複数の第1オーディオフレームを含み、オーディオファイルが複数の第2オーディオフレームを含む場合、候補歌曲ファイル中の該オーディオファイルにおける第2オーディオフレームと整合する第1オーディオフレームが整合オーディオフレームであって、同様に、オーディオファイル中の候補歌曲ファイルにおける第1オーディオフレームと整合する第2オーディオフレームも整合オーディオフレームである。このとき、該整合オーディオフレームユニットは候補歌曲ファイル中のオーディオフレームユニットであることができれば、オーディオファイル中のオーディオフレームユニットであることもできる。
【0028】
そして、上述した第1オーディオフレームは、候補歌曲中の特定のオーディオフレームを指すものではなく、オーディオファイル中のオーディオフレーム(即ち、第2オーディオフレーム)と比較するため、候補歌曲中のオーディオフレームを指し、同様に、第2オーディオフレームは、オーディオファイル中の特定のオーディオフレームを指すものではなく、オーディオファイル中のオーディオフレームを指す。
【0029】
本発明の実施例において、整合オーディオフレームを取得する方式は様々があって、例えば、候補歌曲中のオーディオフレームとオーディオファイル中のオーディオフレームとを整合することができる。
【0030】
例えば、オーディオフレームの整合は、オーディオフレームのオーディオ特徴に基づいて整合する方式を採用することができ、例えば候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴とオーディオファイル中の第2オーディオフレームのオーディオ特徴とを整合し、オーディオフレームのオーディオ特徴の整合結果に基づいて、整合オーディオフレームを取得する。つまり、ステップ「該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、整合オーディオフレームユニットを得る」ことは、
該候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と該オーディオファイル中の第2オーディオフレームのオーディオ特徴とを整合して、整合結果を得ることと、
該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得することと、
該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することと、を含むことができる。
【0031】
ここで、オーディオフレームのオーディオ特徴をオーディオ指紋と称すことができ、該オーディオ特徴の取得方式はさまざまで、例えばオーディオフレームに対応する周波数帯の平均幅値に基づいて取得することができ、つまり、ステップ「候補歌曲マークに基づいて対応する候補歌曲ファイルを取得する」の後であって、ステップ「該候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴と該オーディオファイル中の第2オーディオフレームに対応するオーディオ特徴とを整合する」の前、該歌曲確定方法は、該候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴を取得するステップをさらに含むことができ、例えば、ステップ「該候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴を取得する」ことは、
候補歌曲ファイル中の第1オーディオフレームそれぞれに対応するスペクトルを取得することと、
該第1オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割し、該周波数帯に対応する平均幅値を取得することと、
各該周波数帯の平均幅値と一つ前の第1オーディオフレームに対応する周波数帯の平均幅値とを比較して、比較結果を得ることと、
該比較結果に基づいて、該第1オーディオフレームに対応するオーディオ特徴を取得することと、を含むことができる。
【0032】
例えば、候補歌曲ファイルを予め設定されたフォーマットのオーディオ、例えば8k16bitオーディオ(つまり、8*1024サンプリングレート、16ビットで量子化したオーディオ)に変換した後、第1の予定の数量のサンプルポイントを1フレームとし、第2の予定の数量のサンプルポイントをフレームシフトとしてフーリエ変換を行って、スペクトルを得て(例えば、1856個のサンプルポイントを1フレームとし、58個のサンプルポイントをフレームシフトとしてフーリエ変換を行う)、続いて、該スペクトルを第3の予定の数量(例えば、32個)の周波数帯に均一に分割し、各周波数帯に対応する平均幅値を計算し、その後、各周波数帯と一つ前のフレーム中の対応する周波数帯とを比較し(第2オーディオフレーム中の一番目の周波数帯と第1オーディオフレームの一番目の周波数帯とを比較し、第2オーディオフレーム中の二番目の周波数帯と第1オーディオフレーム中の二番目の周波数帯とを比較し、類似に、全ての周波数帯を比較する)、大きいと1であって、小さいと0であって、このようにして、各フレームは第3の予定の数量のbit値からなるデータユニットを得ることができ、該データユニットが該フレームのオーディオ特徴である。例えば、スペクトルを32個の周波数帯に分割した場合、各オーディオフレームは32個のbit値を含むデータユニットを得ることができ、該32個のbit値が各オーディオフレームのオーディオ特徴である。
【0033】
同様に、ビデオ中のオーディオファイルのオーディオ特徴も上述した取得方式で取得することができ、例えば取得プロセスは上記説明を参照することができ、ここでは詳細な説明を省略する。
【0034】
本発明の実施例において、オーディオ特徴の整合方式はさまざまで、例えばフレームユニットを単位として特徴の整合を行うことができ、即ちステップ「該候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴と該オーディオファイル中の第2オーディオフレームに対応するオーディオ特徴とを整合して、整合結果を得る」ことは、
該候補歌曲ファイル中の第1オーディオフレームのフレーム数を取得し、該オーディオファイルから、該フレーム数と同数の第2オーディオフレームを含むオーディオフレームユニットを選択することと、
該候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と該オーディオフレームユニット中の第2オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果をえることと、を含むことができる。
【0035】
このとき、ステップ「該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得する」ことは、該オーディオ特徴の整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得することを含むことができ、該整合オーディオフレームはオーディオ特徴の整合に成功したオーディオフレームである。
【0036】
対応して、ステップ「該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得する」ことは、該整合オーディオフレームの連続する数量を取得し、該数量に基づいて、対応する整合オーディオフレームユニットを取得することを含むことができる。
【0037】
例えば、ステップ「該整合オーディオフレームの連続する数量を取得し、該数量に基づいて、対応する整合オーディオフレームユニットを取得する」ことは、
整合オーディオフレームに基づいて、複数の連続する該整合オーディオフレームを含むフレーム連続ユニットを取得することと、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、該数量に基づいて、該フレーム連続ユニットが整合オーディオフレームユニットであると確定することと、を含むことができる。
【0038】
例えば、候補歌曲がn個の第1オーディオフレームを含み、オーディオファイルがm個の第2オーディオフレームを含み、m>nであって、いずれも正整数であるとき、m個の第2オーディオフレームからn個の第2オーディオフレームを連続して選択してオーディオフレームユニットaを構成し、その後、オーディオフレームユニットa中の第2オーディオフレームのオーディオ特徴と候補歌曲中の対応する第1オーディオフレームのオーディオ特徴とを整合し(例えば、オーディオフレームユニットa中の一番目のオーディオフレームと候補歌曲中の一番目のオーディオフレームのオーディオ特徴を整合し、オーディオフレームユニットa中の二番目のオーディオフレームと候補歌曲中の二番目のオーディオフレームのオーディオ特徴を整合し、類似に、オーディオフレームユニットaのn番目のオーディオフレームと候補歌曲中のn番目のオーディオフレームのオーディオ特徴を整合する)、このとき、n回の特徴の整合を行って、オーディオ特徴の整合結果を得なければならない。
【0039】
オーディオ特徴の整合結果がオーディオ特徴の整合に成功した第1オーディオフレームと第2オーディオフレームを含む場合、該整合結果に基づいて、整合オーディオフレームを取得し、フレーム連続ユニット及び該フレーム連続ユニット中の整合オーディオフレームの数量を取得する。
【0040】
続いて、m個の第1オーディオフレームから新しいn個の第2オーディオフレームを再び連続に選択して、新しいオーディオフレームユニットbを構成し、ここで、該オーディオフレームユニットbは少なくとも一つのオーディオフレームユニットaと異なる第2オーディオフレームを含み(つまり、再び連続に選択したn個の第2オーディオフレームが、その前に連続に選択したn個の第2オーディオフレームと少なくとも一つのオーディオフレームで異なっている。例えば、その前に一番目の第2オーディオフレーム、……、十番目の第2オーディオフレームを選択してオーディオフレームユニットaを構成していると、その後は二番目の第2オーディオフレーム、……、十一番目のオーディオフレームを選択してオーディオフレームユニットbを構成することができる)、オーディオフレームユニットb中の第2オーディオフレームのオーディオ特徴と候補歌曲中の対応する第1オーディオフレームのオーディオ特徴とを整合して(例えば、オーディオフレームユニットb中の一番目のオーディオフレームと候補歌曲中の一番目のオーディオフレームのオーディオ特徴を整合し、オーディオフレームユニットb中の二番目のオーディオフレームと候補歌曲中の第2オーディオフレームのオーディオ特徴を整合し、……、オーディオフレームユニットbのn番目のオーディオフレームと候補歌曲中のn番目のオーディオフレームのオーディオ特徴を整合する)、オーディオ特徴の整合結果を得て、該結果がオーディオ特徴の整合に成功した第1オーディオフレームと第2オーディオフレームを含むと、該整合結果に基づいて、整合オーディオフレームを取得し、フレーム連続ユニット及び該フレーム連続ユニット中の整合オーディオフレームの数量を取得し、……、類似に行って、新しいn個の第2オーディオフレームを再び連続に選択してオーディオフレームユニットを構成し、オーディオ特徴の整合を行って、整合オーディオフレームの連続する数量を取得し、各第2オーディオフレームの整合をすべて完成した後に整合を停止する。
【0041】
上述した整合を経た後、一連のフレーム連続ユニット及びそれに対応する整合オーディオフレームの数量を得ることができ、このとき、該数量に基づいてフレーム連続ユニットが整合オーディオフレームユニットであると確できる。例えば、整合オーディオフレームの数量が最も大きいフレーム連続ユニットを整合オーディオフレームユニットとして選択することができる。つまり、ステップ「該数量に基づいて、該フレーム連続ユニットが整合オーディオフレームユニットであると確定する」ことは、該フレーム連続ユニットの整合オーディオフレームの数量が他のフレーム連続ユニットの整合オーディオフレームの数量より大きいと、該フレーム連続ユニットが整合オーディオフレームユニットであると確定することを含むことができる。
【0042】
例えば、候補歌曲が10個のオーディオフレームp、即ち10フレームを含み、オーディオファイルが20個のオーディオフレームq、即ち20フレームを含むと、一番目から十番目のオーディオフレームbを選択して第1オーディオフレームユニットを構成し、その後、第1オーディオフレームユニット中の一番目〜十番目のオーディオフレームq(つまり、オーディオファイル中の一番目のオーディオフレーム〜十番目のオーディオフレーム))と候補歌曲の10個のオーディオフレームpを整合し、整合オーディオフレームを得て(例えば、オーディオフレームユニット中の一番目のオーディオフレームqとオーディオフレームpとの特徴を整合し、……、十番目のオーディオqと十番目のオーディオフレームpとの特徴を整合する)、連続する整合オーディオフレームを取得してフレーム連続ユニットを構成し、フレーム連続ユニット中の整合オーディオフレームの数量を取得する。
【0043】
続いて、オーディオファイル中の二番目〜十一番目のオーディオフレームqを選択して第2オーディオフレームユニットを構成し、その後、第2オーディオフレームユニット中の一番目〜十番目のオーディオフレームq(つまり、オーディオファイル中の二番目〜十一番目のオーディオフレームq)と10個のオーディオフレームpとを整合して、整合オーディオフレームを取得し、連続する整合オーディオフレームを取得してフレーム連続ユニットを構成し、フレーム連続ユニット中の整合オーディオフレームの数量を取得し、類似に行って、十一番目〜二十番目のオーディオフレームqを選択して、オーディオフレームユニットを構成して特徴の整合を行う。
【0044】
上述した特徴の整合を経て、複数のフレーム連続ユニット及びそれに対応する整合オーディオフレームの数量を得ることができ、このとき、含まれた整合オーディオフレームの数量が最も大きいフレーム連続ユニットを整合オーディオフレームユニットとして選択することができ、即ち、最も長いフレーム連続ユニットを整合オーディオフレームユニットとして選択することができる。
【0045】
ステップ103において、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得して、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する。
【0046】
ステップ102を経て、歌曲マークに対応する候補歌曲ファイルとオーディオファイルが整合する整合オーディオフレームユニットを取得することができ、即ち、各候補歌曲マークに対応する整合オーディオフレームユニットを取得することができ、これにより、候補歌曲マークに対応する整合オーディオフレームユニットに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する目標歌曲の目標歌曲マークを選択することができる。
【0047】
例えば、整合オーディオフレームユニットにフレーム拡張を行って、候補歌曲ファイルとオーディオファイルとが整合する整合歌曲断片を得て、その後、該整合歌曲断片に基づいて、目標歌曲マークを取得することができる。つまり、ステップ「該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得する」ことは、
該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を得ることと、
該整合歌曲断片に基づいて、候補歌曲マークに対応する時間情報を取得することと、ここで、該時間情報は、該整合歌曲断片の該ビデオ中の第1開始時間、該候補歌曲中の第2開始時間及び該整合歌曲断片の時間長を含み、
該候補マークに対応する時間情報に基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得することと、を含むことができる。
【0048】
そして、第1開始時間は、該整合歌曲断片の候補歌曲中の開始時間(つまり、第2開始時間)と区別するため、特定の時間を指すものではなく、該整合歌曲断片の該ビデオ中の開始時間を指す。
【0049】
ここで、候補歌曲マークに対応する整合歌曲断片は、候補歌曲マークに対応する候補歌曲がオーディオファイルに整合する整合歌曲断片であって、該整合歌曲断片は候補歌曲中の歌曲断片であることができ、オーディオファイル中の歌曲断片であることもできる。本発明の実施例において、整合歌曲断片がオーディオフレームからなるので、整合歌曲断片を取得した後、断片中のオーディオフレームに基づいて、該断片の候補歌曲中の開始時間と、ビデオ中の開始時間と、該断片の時間長(即ち、該断片の長さ)を取得することができる。
【0050】
例えば、断片のオーディオフレームの歌曲中の番号に基づいて、断片の候補歌曲中の開始時間を取得することができ、断片のオーディオフレームのオーディオファイル中の番号に基づいて、断片のビデオ中の開始時間を取得することもできる。
【0051】
本発明の実施例において、整合オーディオフレームユニットにフレーム拡張を行う方式はさまざまで、例えばそれぞれ候補歌曲ファイルとオーディオファイルにてフレーム拡張を行い、つまり、ステップ「該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を取得する」ことは、
それぞれ該候補歌曲ファイルと該オーディオファイルにおいて該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲ファイル中の第1整合オーディオフレーム拡張ユニット及び該オーディオファイル中の第2整合オーディオフレーム拡張ユニットを得ることと、
該第1整合オーディオフレーム拡張ユニット中の第1オーディオフレームのオーディオ特徴と該第2整合オーディオフレーム拡張ユニット中の第2オーディオフレームのオーディオ特徴とを整合して、拡張ユニット間の整合オーディオフレームを得ることと、
該拡張ユニット間の整合オーディオフレームの数量に基づいて、該第1整合オーディオフレーム拡張ユニット又は第2整合オーディオフレーム拡張ユニットを該候補歌曲と該オーディオファイルとが整合する整合歌曲断片と確定することと、を含むことができる。
【0052】
本発明の実施例一実施形態において、候補歌曲ファイルにおいてオーディオファイルに同期してフレーム拡張を行うことができ、即ち、拡張するオーディオフレームの数量が同じで、方向が同じである。
【0053】
ここで、該拡張ユニット間の整合オーディオフレームの数量に基づいて、整合歌曲断片を確定する方式はさまざまで、例えば該数量がある予定の数量より大きいと、このときの拡張ユニットを整合歌曲断片と確定し、例えば整合オーディオフレームの数量と拡張ユニットオーディオフレームの総数との比が所定の比例(例えば90%)を超えると、このときの拡張ユニットを整合歌曲断片と確定する。
【0054】
候補歌曲マークに対応する時間情報を取得した場合、ステップ「該候補マークに対応する時間情報に基づいて、該候補歌曲マーク集合から目標歌曲マークを取得する」ことは、
候補歌曲マークに対応する第2開始時間と該時間長に基づいて、該候補歌曲マークに対応する再生時間を取得することと、ここで、該再生時間は該整合歌曲断片が該ビデオで再生される時間であって、
候補歌曲マークに対応する再生時間に基づいて、該候補歌曲マーク集合中の候補歌曲マークをろ過して、ろ過後の候補マーク集合を得ることと、
該ろ過後の候補マーク集合中の該候補歌曲を目標歌曲マークとすることと、を含むことができる。
【0055】
例えば、候補歌曲マークに対応する再生時間を取得した後、再生時間が含む関係である候補歌曲マークを確定し、その後、再生時間が含まれた候補歌曲マークをろ過し、即ち、再生時間が含む関係である候補歌曲マーク中の再生時間が短い候補歌曲マークをろ過する。例えば、歌曲ID1に対応する再生時間が第1s〜第10sで、歌曲ID2に対応する再生時間が第2s〜第5sで、歌曲ID3に対応する再生時間が第3s〜第8sである場合、歌曲ID1、ID2、ID3に対応する再生時間は含む関係を有するので、再生時間が短い歌曲IDをろ過することができ、ここでは歌曲ID2とID3をろ過する。
【0056】
さらに、例えば候補歌曲マークに対応する再生時間を取得した後、再生時間が重複関係である候補歌曲マークを確定し、その後、再生時間長が短い候補歌曲マークをろ過することができる。例えば、歌曲ID1に対応する再生時間が第1s〜第10sで、歌曲ID2に対応する再生時間が第5s〜第12sであるとき、再生時間長が短い歌曲IDをろ過することができ、ここでは歌曲ID1の再生時間長が10sで、歌曲ID2の再生時間長が7sであるので、歌曲ID2をろ過する。
【0057】
本発明の実施例によると、目標歌曲マークを取得した後、目標歌曲マークに対応する歌曲を挿入歌が属する目標歌曲とすることができる。
【0058】
本発明の実施例の一実施形態において、ビデオ挿入歌に対応する目標歌曲マークを取得した後、ビデオ挿入歌を再生するときにビデオ挿入歌の歌詞を表示するように、ビデオ挿入歌の歌詞をビデオに添加することもできる。つまり、ステップ103の後、
前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加することをさらに含むことができる。
【0059】
例えば、整合オーディオフレームユニットを拡張して整合歌曲断片及びその時間情報を取得した場合、ステップ「前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加する」ことは、目標歌曲マーク及びそれに対応する時間情報に基づいて、該挿入歌に対応する歌詞を取得して、該歌詞を該ビデオに添加することを含むことができ、ここで、時間情報は該目標歌曲に対応する整合歌曲断片の時間情報である。
【0060】
例えば、目標歌曲マークに対応する整合歌曲断片の歌曲中の開始時間及び該整合歌曲断片の時間長に基づいて、挿入歌に対応する歌詞を取得し、また、該整合歌曲断片のビデオ中の開始時間及び時間長に基づいて歌詞を添加することができる。つまり、ステップ「目標歌曲マーク及びそれに対応する時間情報に基づいて、該挿入歌に対応する歌詞を取得して、該歌詞を該ビデオに添加する」ことは、
目標歌曲マーク及びそれに対応する該第1開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得することと、
該目標歌曲マークに対応する該第2開始時間と該時間長に基づいて、該歌詞を該ビデオに添加することと、を含むことができる。
【0061】
例えば、目標歌曲マークに基づいて対応する目標歌曲の目標歌詞ファイルを取得し、その後、整合歌曲断片の該目標歌曲中の開始時間と整合歌曲断片の時間長に基づいて、該目標歌詞ファイルから挿入歌に対応する歌詞を抽出する。即ちステップ「目標歌曲マーク及びそれに対応する該第1開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得する」ことは、
目標歌曲マークに基づいて、対応する目標歌曲の歌詞ファイルを取得することと、
目標歌曲マークに対応する第1開始時間と時間長に基づいて、該歌詞ファイルから対応する歌詞を抽出して、挿入歌の歌詞とすることと、を含むことができる。
【0062】
例えば、目標歌曲マークが歌曲1で、該歌曲1に対応する整合歌曲断片の歌曲1中の開始時間が第5sで、該整合歌曲断片が10sであるとき、歌曲1の歌詞ファイルから第5s〜15sの歌詞を抽出することができる。
【0063】
さらに、例えばステップ「該目標歌曲マークに対応する該第2開始時間と該時間長に基づいて、該歌詞を該ビデオに添加する」ことは、
該目標歌曲に対応する第2開始時間と時間長に基づいて、歌詞のビデオ中の表示時間を取得することと、
該表示時間に基づいて、該歌詞を該ビデオに添加することと、を含むことができる。
【0064】
例えば、目標歌曲マークに対応する整合歌曲断片のビデオ中の第2開始時間が第7sで、整合歌曲断片の時間長が8sであるとき、歌詞のビデオ中の表示時間が第7s〜第15sであることを得ることができ、その後、該表示時間に基づいて、ビデオの対応する位置に該歌詞を挿入することができる。
【0065】
本発明の実施例の一実施形態において、完全な文である挿入歌の歌詞を表示してユーザの体験を向上させるため、挿入歌の歌詞を取得した後、歌詞が完全な文であるか否かを確定し、YESであると、歌詞を添加する操作を行うことができる。つまり、ステップ「該挿入歌に対応する歌詞を取得した」後であって、ステップ「歌詞を該ビデオに添加する」前、上記方法は、
歌詞が完全な文であるか否かを確定することと、
YESであると、該目標歌曲マークに対応する該第2開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するステップをさらに含むことができる。
【0066】
本発明の実施例の一実施形態において、ユーザの体験を向上させるため、ビデオに一つのインタフェースを設け、これにより、ビデオ挿入歌を再生するときに該インタフェースを介して該ビデオ挿入歌が属する歌曲にジャンプできる。つまり、ステップ「該挿入歌目標歌曲マークを取得した」後、上記方法は、
目標歌曲マークに基づいて、端末が該挿入歌を再生するときにジャンプして該挿入歌が属する目標歌曲を再生するように、該ビデオにジャンプインタフェースを設けることをさらに含むことができる。
【0067】
ここで、該ジャンプインタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。
【0068】
本発明の実施例の一実施形態において、ユーザの体験を向上させるため、同様に、ビデオに一つのインタフェースを設けて、ビデオ挿入歌を再生するときに該インタフェースを介してビデオ挿入歌が属する目標歌曲をミュージックソフトウェアの歌曲リストに追加することができ、つまり、ステップ「前記挿入歌が属する目標歌曲の目標歌曲マークを取得した」後、
目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記目標歌曲をミュージックソフトウェアの歌曲リストに追加するように、前記ビデオに追加インタフェースを設けることをさらに含むことができる。
【0069】
ここで、該追加インタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。ミュージックソフトウェアは常用のミュージック再生ソフトウェアで、例えばクラウドに基づくミュージック再生ソフトウェアやオンラインミュージック再生ソフトウェア等であって、該歌曲リストは曲リスト又は歌曲再生リストであることができ、例えば収集曲リスト等である。
【0070】
上述のように、本発明の実施例は、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得て、その後、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得し、該目標歌曲マークに基づいて該挿入歌が属する目標歌曲を確定する。該方案によると、まずビデオ挿入歌が属する候補歌曲の候補歌曲マーク集合を取得し、その後、ビデオのオーディオファイルと歌曲との整合オーディオフレームに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する歌曲のマークを選択して、ビデオ挿入歌が属する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲の確定又は位置づけの精度と効率を向上させることができる。
【0071】
そして、本発明の実施例はさらに、ビデオ挿入歌が属する歌曲を確定した後、目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、該挿入歌に対応する歌詞を該ビデオに添加する。該方案によると、ビデオ挿入歌と歌曲の整合を自動に完成して、ビデオ挿入歌が属する歌曲を確定することができ、またビデオ挿入歌の歌詞を自動に取得して添加することができ、既存技術に比べ、ビデオ挿入歌の歌詞を添加する精度及び効率を向上させることもできる。
【0072】
本発明の実施例は、上述した歌曲確定方法を基づいてさらに説明する。
【0073】
本発明の実施例で記載の上記内容によると、ビデオ中のオーディオファイルと候補歌曲ファイルとの間のオーディオ指紋整合に基づいて候補歌曲マークを取得することができ、本発明の実施例において主にオーディオ指紋整合に基づいて候補歌曲マークを取得するプロセスを説明し、
図2aを参照すると、候補歌曲マークを取得するプロセスは、ステップ201〜ステップ204を含む。
【0074】
ステップ201において、該オーディオファイルを複数のオーディオ断片に分割して、該オーディオ断片のオーディオ指紋を取得する。
【0075】
例えば、オーディオファイルの分割方式は様々があって、例えば、予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することができ、各オーディオ断片の時間長は予め設定されたフレーム長と同じであって、つまり、ステップ「該オーディオファイルを複数のオーディオ断片に分割する」ことは、
オーディオファイルを対応するフォーマットのオーディオに変換することと、
予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することと、を含むことができる。
【0076】
例えば、オーディオファイルを8k16bit(即ち、8*1024サンプリングレート、16ビットの量子化オーディオ)パルスコード変調(PCM:Pulse Code Modulation、オーディオとも呼ばれる)に変調し、その後、10秒をフレーム長とし、1秒をフレームシフトとして、複数の10秒を1区間とする小さいオーディオ断片に分割し、例えば各フレームの時間長が1sであるとき、第1フレームと第10フレームを一つのオーディオ断片として分割し、第2フレームと第11フレームを一つのオーディオ断片として分割する。具体的に実施する際、実際の需要に応じて適切な分割方式を選択することができる。
【0077】
本発明の実施例において、オーディオ指紋はさまざまで、計算量を減少し、歌詞を添加する速度を高めるため、小オーディオ指紋を利用し、該小オーディオ指紋はデータ構造で、スペクトル上のスペクトルピーク点からなり、例えば、オーディオのオーディオフレームに対応するスペクトルを取得し、その後、オーディオフレームに対応するスペクトルピーク点を抽出することで、該オーディオに対応するスペクトルピーク点を取得し、その後、集合中のピーク点を二つずつ組み合わせてオーディオ指紋を得ることができる。つまり、ステップ「該オーディオ断片のオーディオ指紋を取得する」ことは、
該オーディオ断片中のオーディオフレームに対応するスペクトルを取得することと、
該スペクトルから該オーディオフレームに対応するスペクトルピーク点を抽出して、該オーディオフレームに対応するスペクトルピーク点を含む該オーディオ断片に対応するピーク集合を得ることと、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得ることと、を含むことができる。
【0078】
本発明の実施例の一実施形態において、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る」ことは、
該スペクトルピーク点と組み合わされる目標スペクトルピーク点を確定することと;
該スペクトルピーク点と該目標スペクトルピーク点とを組み合わせて、該スペクトルピーク点に対応する周波数と該スペクトルピーク点と該目標スペクトルピーク点との間の時間差及び周波数差を含むオーディオ断片のオーディオ指紋を得ることと、を含むことができる。
【0079】
ここで、該スペクトルピーク点と組み合わされる目標スペクトルピーク点は、該スペクトルピーク点以外のスペクトルピーク点であることができる。例えば、オーディオ断片に対応するピーク集合を取得した後、ピーク集合に基づいて、周波数ピーク点分布図を生成し、その後、周波数ピーク点分布図で一つの周波数ピーク点(アンカーポイントとも呼ばれる)に対応する目標領域を確定し、ここで、該目標領域は該周波数ピーク点と組み合わされる目標周波数ピーク点を含み、続いて、該アンカーポイントと目標領域中の目標周波数ピーク点を組み合わせ、組み合わせた後、複数のオーディオ指紋が得られる。
【0080】
例えば、一つのスペクトルピーク点a1(t1、f1)と目標領域内の目標スペクトルピーク点a2(t2、f2)を組み合わせてオーディオ指紋D1(f1、△f’、△t’)を構成し、ここで、周波数△f’=f2−f1、△t’=t2−t1で、ここで、該t1はオーディオ指紋D1の該オーディオ断片内でオフセット時間であって、同様に、該スペクトルピーク点a1(t1、f1)をそれぞれ目標領域内の目標スペクトルピーク点a3(t3、f3)、a4(t4、f4)と組み合わせて、オーディオ指紋D2(f1、△f’’、△t’’)、D2(f1、△f’’’、△t’’’)を得ることができ、ここで、△f’’=f3−f1、△t’’=t3−t1, △f’’;=f4−f1、 △t’’’=t4−t1であって、類似にして、オーディオ断片に対応するオーディオ指紋集合を得ることができる。
【0081】
ここで、周波数ピーク点分布図の横軸は時間で、縦軸はピーク点の周波数であって、オーディオフレームが時間が対応関係を有するので、オーディオ指紋を高速に取得するため、本発明の実施例において、オーディオフレーム番号で時間を表すことができ、そして、周波数帯インデックス番号でピーク点の周波数を表すこともでき、インデックス番号の範囲は(0〜255)であることができ、即ち、上記ピーク点tとfをそれぞれオーディオフレーム番号と周波数帯インデックス番号で表すことができる。このとき、目標領域をオーディオフレーム番号と周波数帯インデックス番号で表すことができ、例えば、目標領域が時間領域と周波数域領域から構成されることができ、ここで、時間領域は(15〜63)フレーム(時間差を6bitで表す)で、周波数域領域は(−31〜31)個の周波数帯(周波数帯差を6bitで表す)であることができ、該目標領域の大きさは実際の需要に応じて設定することができ、リソースを節約し指紋を取得する速度を高めるため、本発明の実施例の一実施形態において、該目標領域に三つの目標スペクトルピーク点のみを含み、即ち、アンカーポイントに対応する目標スペクトルピーク点の数量は3である。
【0082】
本発明の実施例の一実施形態において、オーディオ指紋を精確に抽出するため、スペクトルピーク点が均一に分布されるべきであるので、オーディオ断片のピーク集合にピーク点ろ過を行わなければならなく、例えば相互影響するピーク点をろ過し、例えばヒトが音声を感覚するとき、短時間スペクトルピーク周波数点間に相互影響し、一つの周波数成分がそれに近い周波数成分をマスキングする(即ち、所謂聴覚マスキング効果)ので、時間間隔が小さく且つ周波数間隔が小さいピーク点をろ過して、選択されたピーク点が時間と周波数軸に沿って比較的に均一に分布されるようにしなければならない。即ち、ステップ「オーディオ断片に対応するピーク集合を得た」後であって、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせる」前、該歌曲確定方法は、
スペクトルピーク点間の時間差及び周波数差に基づいて、ピーク集合中のスペクトルピーク点をろ過することをさらに含むことができる。
【0083】
図2bを参照すると、一つのオーディオのピーク集合に対応するスペクトルピーク点分布図で、スペクトルピーク点が均一に分布されるように、該ピーク集合中のピーク点をろ過することができ、ろ過後のピーク集合に対応するスペクトルピーク点の分布は
図2cを参照することができる。
【0084】
本発明の実施例で上述したオーディオ指紋(即ち、オーディオ特徴)を区別するため、例えば、オーディオ指紋の大きさに基づいて区別することができ、該実施例中のオーディオ特徴を大オーディオ指紋と称すことができ、本発明の実施例は、
図2に示すオーディオ断片のオーディオ指紋を小オーディオ指紋と称す。
【0085】
ステップ202において、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定し、YESであると、ステップ203を実行し、NOであると、プロセスを終了する。
【0086】
ここで、予め設定されたサンプル集合は少なくとも1種類の指紋サンプルを含むことができ、該予め設定されたサンプル集合中の各種の指紋サンプルが一つの歌曲のオーディオ指紋である。例えば、予め設定されたサンプル集合が複種類の指紋サンプルを含み、各種の指紋サンプルが1種類の歌曲IDに対応することができ、例えば指紋サンプル1が歌曲1に、指紋サンプル2が歌曲2に、……、指紋サンプルnが歌曲nに対応する。
【0087】
例えば、オーディオ断片の複数のオーディオ指紋を取得し、その後、予め設定されたサンプル集合に各オーディオ指紋が整合する(即ち、同一)指紋サンプルが存在する可否かを確定して、複数の整合する指紋サンプルを得て、その後、各整合する指紋サンプルに対応する歌曲マークを取得して、歌曲マーク集合を得ることができ、該歌曲マーク集合は複数の該歌曲マークを含む。例えば、一つのオーディオ断片の場合、該オーディオ断片に対応するオーディオ指紋がオーディオ指紋D1とオーディオ指紋D2を含むと、該オーディオ断片のオーディオ指紋D1を予め設定されたサンプル集合中の指紋サンプルと逐一比較し、オーディオ指紋D1と同一の指紋サンプルがあると、予め設定されたサンプルに該オーディオ指紋D1に整合する指紋サンプルがあると確定し、同様に、オーディオ指紋D2を予め設定されたサンプル集合中の指紋サンプルと逐一比較して、オーディオ指紋D2と同一の指紋サンプルがあると、予め設定されたサンプル集合に該オーディオ指紋D2に整合する指紋サンプルがあると確定する。
【0088】
本発明の実施例において、歌曲データベースから歌曲を抽出し、その後、該歌曲のオーディオ指紋を抽出して指紋サンプルとすることができ、ここで、歌曲のオーディオ指紋を抽出する方式については上述したオーディオ断片のオーディオ指紋を抽出する方式を参照することができ、即ち、歌曲中のオーディオフレームに対応するスペクトルを抽出し、その後、スペクトルピーク点を抽出して、スペクトルピーク点を二つずつ組み合わせて、歌曲のオーディオ指紋(即ち、指紋サンプル)を得て、該歌曲を歌曲データベースから抽出することができる。つまり、ステップ201の前、該歌曲確定方法は、
歌曲データベースから歌曲を取得することと、
歌曲に対応するオーディオ指紋を取得して、該歌曲に対応するオーディオ指紋を指紋サンプルとして、予め設定されたサンプル集合を得ることと、をさらに含むことができる。
【0089】
ステップ203において、整合する指紋サンプルに対応する歌曲マークを取得して、該オーディオ断片に対応する第1歌曲マーク集合を得て、該第1歌曲マーク集合は複数の該歌曲マークを含む。
【0090】
ここで、整合する指紋サンプルに対応する歌曲マークを取得する方式は様々があって、例えば、マッピング関係集合を用いて整合する指紋サンプルに対応する歌曲マークを取得することができ、該マッピング関係集合は指紋サンプルと歌曲マークとの間マッピング関係(即ち、対応関係)を含み、つまり、ステップ「整合する指紋サンプルに対応する歌曲マークを取得する」ステップは具体的に、
マッピング関係集合に基づいて、該整合する指紋サンプルに対応する歌曲マークを取得し、該マッピング関係集合は指紋サンプルと歌曲マークとの間のマッピング関係を含む。
【0091】
ここで、該マッピング関係集合は所定のマッピング関係集合であることができ、該指紋サンプルと歌曲マークとの間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌曲確定方法は、
マッピング関係の確立が必要な指紋サンプルと歌曲マークを指示するマッピング関係設定要求を受信することと、
該マッピング関係設定要求に基づいて、指紋サンプルと歌曲マークとの間のマッピング関係を確立して、マッピング関係集合を得ることと、をさらに含むことができる。
【0092】
本発明の実施例において、マッピング関係集合をテーブル形態で示すことができ、マッピング関係表と呼ばれ、該マッピング関係表は予め設定されたサンプル集合及び予め設定されたサンプル集合中の指紋サンプルに対応する歌曲マークを含むことができ、ここで、該マッピング関係表はデータベースに記憶されることができ、指紋ライブラリとも呼ばれる。
【0093】
ステップ204において、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する。
【0094】
本発明の実施例において、オーディオ断片に対応する歌曲マーク集合を取得した後、さらに選択して、オーディオ断片と整合する可能性が最も高い歌曲マークを取得しなければならない。オーディオ断片と整合する可能性が最も高い歌曲(即ち、挿入歌が属する候補歌曲)が、オーディオ断片の歌曲マークに対応する歌曲における開始時間と関連があるので、オーディオ断片の歌曲中の開始時間に基づいて、歌曲マーク集合から挿入歌が属する候補歌曲の候補歌曲マークを選択することができる。つまり、ステップ「オーディオ指紋を取得した」後であって、ステップ「歌曲マーク集合から候補歌曲マークを選択する」前、該方法は、該オーディオ指紋の該オーディオ断片中の第1オフセット時間及び該整合する指紋サンプルの整合歌曲中の第2オフセット時間を取得することをさらに含み、ここで、該第1オフセット時間は該スペクトルピーク点が該オーディオ断片内にある時間であって、該整合歌曲は該歌曲マークに対応する歌曲である。
【0095】
このとき、ステップ「該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する」ことは、
該第1オフセット時間と該第2オフセット時間に基づいて、該オーディオ断片の該整合歌曲中の開始時間を取得することと、
該オーディオ断片の整合歌曲中の開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択することと、を含むことができる。
【0096】
例えば、オーディオ指紋D1(f1、△f’、△t’)のオーディオ断片内のオフセット時間t1を取得し、該t1がスペクトルピーク点a1のオーディオ断片中の時間であって、同様に、上述した方式で指紋サンプルを抽出するとき、該指紋サンプルのそれが属する歌曲中のオフセット時間が指紋サンプルに対応するスペクトルピーク点(即ち、アンカーポイント)の属する歌曲中の時間である。
【0097】
例えば、本発明の実施例において、予め設定された時間マッピング関係集合に基づいて、整合する指紋サンプルの整合歌曲中のオフセット時間を取得することができ、該予め設定された時間マッピング関係集合は指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間との間のマッピング関係(対応関係)を含むことができ、つまり、ステップ「該整合する指紋サンプルの整合歌曲中の第2オフセット時間」は、
予め設定された時間マッピング関係集合に基づいて、整合する指紋サンプルの該歌曲マーク中の対応する整合歌曲における第2オフセット時間を取得することを含み、ここで、予め設定された時間マッピング関係集合は指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間との間のマッピング関係を含む。
【0098】
ここで、該予め設定された時間マッピング関係集合は所定の時間マッピング関係集合であることができ、該指紋サンプルとオフセット時間との間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌詞添加方法は、
マッピング関係の確立が必要な指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間とを指示する時間マッピング関係設定要求を受信することと、
該時間マッピング関係設定要求に基づいて、指紋サンプルとオフセット時間との間のマッピング関係を確立して、時間マッピング関係集合を得ることと、をさらに含むことができる。
【0099】
本発明の実施例において、時間マッピング関係集合をテーブル形態で示すことができ、時間マッピング関係表と呼ばれ、該マッピング関係表は予め設定されたサンプル集合及び予め設定されたサンプル集合中の指紋サンプルに対応するオフセット時間を含む。
【0100】
本発明の実施例の一実施形態において、歌曲マークとオフセット時間を簡単に取得するように、時間マッピング関係集合と上記マッピング関係集合とを同一のマッピング関係集合に設定し、例えば、指紋サンプルと歌曲マークとの間のマッピング関係と、指紋サンプルとオフセット時間との間のマッピング関係を含む総合マッピング関係集合を設定することができ、例えば、予め設定されたサンプル集合、予め設定されたサンプル集合中の指紋サンプルに対応する歌曲マーク、予め設定されたサンプル集合中の指紋サンプルに対応するオフセット時間を含む総合マッピング関係表を設定することができる。
【0101】
実際の応用において、オーディオ断片の複数の異なる歌曲中の開始時間が同じであると、該複数の歌曲がオーディオ断片と整合する可能性が最も高い歌曲、即ちビデオ挿入歌が属する候補歌曲であることを示し、つまり、ステップ「該歌曲マーク集合中の歌曲マークに対応する開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択する」ことは、
該歌曲マーク集合中の歌曲マークに対応する開始時間を取得して、時間集合を得ることと、
該開始時間が同一である数量に基づいて、該時間集合から目標開始時間を確定することと、
歌曲マーク集合から該目標開始時間に対応する歌曲マークを選択して候補歌曲マークとすることと、を含むことができる。
【0102】
例えば、同一である数量が予め設定された数量に達した開始時間を目標開始時間として選択することがで、つまり、ステップ「該開始時間が同一である数量に基づいて、該時間集合から目標開始時間を確定する」ことは、
該時間集合中の各種の該開始時間の数量を取得することと、
該数量が予め設定された数量を超えるか否かを判断することと、
YESであると、該種類の開始時間を目標開始時間として確定することと、を含むことができる。
【0103】
ここで、予め設定された数量は実際の需要に応じて設定することができ、例えば5、6、9等であることができる。
【0104】
本発明の実施例において、オーディオ断片の歌曲中の開始時間は、該オーディオ指紋に対応するオフセット時間及び該歌曲マーク集合中の該歌曲マークに対応するオフセット時間に基づいて得ることができ、例えば、歌曲マークに対応するオフセット時間とオーディオ指紋に対応するオフセット時間との間の時間差を計算し、該時間差が該オーディオ断片の該歌曲中の開始時間である。例えば、オーディオ断片のオーディオ指紋に対応するオフセット時間がt’で、整合する指紋サンプルに対応するオフセット時間(即ち、歌曲マークに対応するオフセット時間)がt’’であるとき、オーディオ断片の該歌曲マークに対応する歌曲中の開始時間、つまり該歌曲マークに対応する開始時間は△t=t’’−t’であって、当該方式で歌曲マーク集合の各歌曲マークに対応する開始時間△tを計算して、時間集合を得ることができ、例えば(△t1、△t2、△t1、△t1、△t2、△t3……△t3……△tn)を得ることができる。
【0105】
時間集合を得た後、各種の開始時間の数量を取得し、その後、該数量が予め設定された数量を超えるか否かを判断し、YESであると、該種類の開始時間を目標開始時間として確定することができる。例えば、予め設定された数量が8であるとき、△t1を統計した数量が10で、△t2の数量が6で、△t3の数量が12であると、このとき、△t1の数量が予め設定された数量を超え、△t2の数量が予め設定された数量未満で、△t3の数量が予め設定された数量を超えるので、△t1と△t3を目標開始時間として確定することができる。
【0106】
本発明の実施例の一実施形態において、オーディオ指紋の整合速度を高めるため、オーディオ指紋に変換を行うこともでき、例えば、予め設定されたアルゴリズムでオーディオ指紋を具体的な特徴数字に変換して、ハッシュ値(hash_key)と命名する。例えば、オーディオ指紋D1(f1、△f’、△t’)について、式hash_key=f1・2^12+△f・2^6+△tに従って一つの具体的な数字に変換し、「^」は指数演算子で、即ち、ビットの高さに応じて一つの20bit整数を構成し、これにより、その後にオーディオ指紋の整合を行うときにhash_keyの整合のみを行うことで済み、つまり、ステップ「予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定する」ことは、
該オーディオ指紋を対応する特徴数字に変換することと、
予め設定された数字集合に該特徴数字に整合する数字サンプルが存在するか否かを確定することと、
YESであると、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルが存在すると確定することと、
NOであると、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルが存在しないと確定することと、を含むことができる。
【0107】
ここで、予め設定された数字サンプル集合は少なくとも1種類の特徴数字を含み、数字サンプルと呼ばれ、1種類の数字サンプルは1種類の歌曲マークに対応することができる。
【0108】
このとき、ステップ「整合する指紋サンプルに対応する歌曲マークを取得する」ことは、整合する数字サンプルに対応する歌曲マークを取得することを含む。
【0109】
例えば、数字マッピング関係集合に基づいて、整合する数字サンプルに対応する歌曲マークを取得することができ、つまり、ステップ「整合する数字サンプルに対応する歌曲マークを取得する」ことは、数字マッピング関係集合に基づいて、整合する数字サンプルに対応する歌曲マークを取得することを含むことができ、ここで、該数字マッピング関係集合は数字サンプルと歌曲マークとの間の対応関係を含む。
【0110】
ここで、該数字マッピング関係集合は所定の数字マッピング関係集合であることができ、該数字サンプルと歌曲マークとの間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌曲確定方法は、
歌曲のオーディオ指紋を取得し、該オーディオ指紋を数字特徴に変換させることと、
マッピング関係の確立が必要が数字特徴と歌曲マークとを指示する数字マッピング関係設定要求を受信することと、
該数字マッピング関係設定要求に基づいて、数字特徴と歌曲マークとの間のマッピング関係を取得して、数字マッピング関係集合を得ることと、をさらに含むことができる。
【0111】
同様に、ステップ「該整合する指紋サンプルの整合する歌曲中の第2オフセット時間を取得する」ことは、数字時間マッピング関係集合に基づいて、整合する数字サンプルに対応する第2オフセット時間を取得することを含むことができ、ここで、数字時間マッピング関係集合は数字サンプルとオフセット時間との間のマッピング関係を含む。例えば、数字時間マッピング関係集合の取得方式については、上述した数字マッピング関係集合又は時間マッピング関係集合を構築する方式を参照することができ、ここでは詳細な説明を省略する。
【0112】
本発明の実施例の一実施形態において、該数字マッピング関係集合と該数字時間マッピング関係集合が一つの集合に設定されることができ、例えば、数字サンプルと歌曲マークとの間のマッピング関係及び数字サンプルとオフセット時間との間のマッピング関係を含む総合マッピング関係集合を設定することができ、例えば予め設定された数字サンプル集合と、予め設定された数字サンプル集合中の数字サンプルに対応する歌曲マークと、予め設定された数字サンプル集合中の数字サンプルに対応するオフセット時間とを含むマッピング関係表を設定することもできる。
【0113】
例えば、歌曲データベースから歌曲を取得し、その後、歌曲のオーディオ指紋及びそれに対応するオフセット時間を取得し、オーディオ指紋を特徴数字hash_keyに変換させた後、hash_表を構築することができ、該hash_表は複数のhash_記録を含み、各hash_記録は、{hash_key}:(value)を含み、ここで、hash_key=f1・2^12+△f・2^6+△t(ビットの高さに応じて構成された一つの20bit整数)、value={song_id:t_1 }、32bit 数字で表し、ここで、song_idが19bit(52万個の歌曲と表すことができる)を占め、t1が13bitを占める(フレームシフトが0.032msであると、最も長い歌曲の長さが5minであることを示す)。
【0114】
上述のように、本発明の実施例は、該オーディオファイルを複数のオーディオ断片に分割し、該オーディオ断片のオーディオ指紋を取得し、その後、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定し、YESであると、整合する指紋サンプルに対応する歌曲マークを取得して、該オーディオ断片に対応する第1歌曲マーク集合を得て、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する。該方案によると、ビデオ挿入歌が属する全ての候補歌曲を取得し、その後、候補歌曲とビデオのオーディオの整合に基づいて、該候補歌曲からビデオ挿入歌に対応する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲を確定する精度及び効率を向上させる。
【0115】
そして、本発明の実施例において、スペクトルピーク点でオーディオ指紋を構成するので、ビデオ挿入歌に対応する候補歌曲及びそのマークを精確に取得でき、ビデオ挿入歌が属する候補歌曲を確定又は位置づける精度を一層向上させる。
【0116】
本発明の実施例はさらに歌曲確定装置を提供し、
図3aに示すように、該歌曲確定装置は、マーク取得ユニット301と、オーディオフレーム取得ユニット302と、歌曲確定ユニット303と、をさらに含むことができる。
【0117】
(1)マーク取得ユニット301
マーク取得ユニット301は、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得るように構成される。
【0118】
例えば、該マーク取得ユニット301は、オーディオ抽出サブユニットと、指紋取得サブユニットと、確定サブユニットと、マーク集合取得サブユニットと、選択サブユニットとを含むことができる。
【0119】
該オーディオ抽出サブユニットは、ビデオ中のオーディオファイルを抽出するように構成される。
【0120】
該指紋取得サブユニットは、該オーディオファイルを複数のオーディオ断片に分割して、該オーディオ断片のオーディオ指紋を取得するように構成される。
【0121】
該確定サブユニットは、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定するように構成される。
【0122】
該マーク集合取得サブユニットは、該オーディオ指紋に整合する指紋サンプルが存在すると確定した場合、整合する指紋サンプルに対応する歌曲マークを取得して、複数の該歌曲マークを含む該オーディオ断片に対応する歌曲マーク集合を得るように構成される。
【0123】
該選択サブユニットは、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択するように構成される。
【0124】
ここで、ビデオを取得する方式は様々があって、例えば、ビデオサーバに要求を送信してビデオを取得することができ、ローカルに記憶されたものからビデオを抽出することもできる。つまり、オーディオ抽出サブユニットは具体的に、
ビデオサーバにビデオ取得要求を送信し、
該ビデオサーバが該ビデオ取得要求に応じて返信したビデオを受信し、
該ビデオ中のオーディオファイルを抽出するように構成される。
【0125】
該ビデオ中のオーディオファイルを抽出する方式は様々があって、例えば、ビデオにオーディオとビデオの分離処理を行って、ビデオのオーディオファイルを得ることができ、即ちステップ「ビデオ中のオーディオファイルを抽出する」ことは、ビデオにオーディオ・ビデオ分離処理を行って、ビデオのオーディオファイルを得ることを含むことができる。
【0126】
例えば、該オーディオファイルを分割する方式は様々があって、例えば、予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することができ、各オーディオ断片の時間長は予め設定されたフレーム長と同じである。
【0127】
本発明の実施例において、挿入歌が属する候補歌曲はビデオ挿入歌と整合する歌曲であることができ、該候補歌曲マークはビデオ挿入歌に整合する歌曲のマークである。
【0128】
例えば、オーディオ断片のオーディオ指紋を取得する方式もさまざまであって、例えば、
該オーディオ断片中のオーディオフレームに対応するスペクトルを取得し、
該スペクトルから該オーディオフレームに対応するスペクトルピーク点を抽出して、該オーディオフレームに対応するスペクトルピーク点を含む該オーディオ断片に対応するピーク集合を得て、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る方式で取得することができる。
【0129】
例えば、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る」ことは、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得ることを含むことができる。
【0130】
本発明の実施例の一実施形態において、歌曲マーク集合から候補歌曲マークを選択する方式は様々があって、例えば、オーディオ指紋のオフセット時間に基づいて取得することができ、つまり、該歌曲確定装置は、指紋取得サブユニットがオーディオ指紋を取得した後であって、選択サブユニットが候補歌曲マークを選択する前、該オーディオ指紋の該オーディオ断片中の第1オフセット時間及び該整合する指紋サンプルの整合する歌曲中の第2オフセット時間を取得するように構成されたオフセット時間取得ユニットをさらに含み、ここで、該第1オフセット時間は該スペクトルピーク点の該オーディオ断片内の時間であって、該整合する歌曲は該歌曲マークに対応する歌曲である。
【0131】
このとき、選択サブユニットは、具体的に、
該第1オフセット時間と該第2オフセット時間に基づいて、該オーディオ断片の該整合歌曲中の開始時間を取得し、
該オーディオ断片の整合する歌曲中の開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択するように構成される。
【0132】
例えば、選択サブユニットは具体的に、
該歌曲マーク集合中の歌曲マークに対応する開始時間を取得して、時間集合を得て、
各種の該開始時間の数量に基づいて、該時間集合から目標開始時間を確定し、
歌曲マーク集合から該目標開始時間に対応する歌曲マークを選択して候補歌曲マークとするように構成される。
【0133】
(2)、オーディオフレーム取得ユニット302
該オーディオフレーム取得ユニット302は、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、整合オーディオフレームユニットを得るように構成され、ここで、該整合オーディオフレームユニットは複数の連続する整合オーディオフレームを含む。
【0134】
例えば、該オーディオフレーム取得ユニット302は、具体的に、整合サブユニットと、第1取得サブユニットと、第2取得サブユニットとを含むことができる。
【0135】
該整合サブユニットは、該候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と該オーディオファイル中の第2オーディオフレームのオーディオ特徴とを整合して、整合結果を得るように構成される。
【0136】
該第1取得サブユニットは、該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得するように構成される。
【0137】
該第2取得サブユニットは、該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得するように構成される。
【0138】
ここで、該整合サブユニットは、具体的に、
該候補歌曲ファイル中の第1オーディオフレームのフレーム数を取得し、該オーディオファイルからオーディオフレームユニットを選択し、該オーディオフレームユニットは該フレーム数と同数の第2オーディオフレームを含み、
該候補歌曲ファイル中の第1オーディオフレームのオーディオ特徴と該オーディオフレームユニット中の第2オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果を得るように構成される。
【0139】
このとき、該第1取得サブユニットは、具体的に、該オーディオ特徴の整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得するように構成され、該整合オーディオフレームはオーディオ特徴の整合に成功したオーディオフレームである。
【0140】
該第2取得サブユニットは、具体的に、
整合オーディオフレームに基づいて、フレーム連続ユニットを取得し、該フレーム連続ユニットは複数の連続する該整合オーディオフレームを含み、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、該数量に基づいて、該フレーム連続ユニットを整合オーディオフレームユニットとして確定するように構成される。
【0141】
本発明の実施例の一実施形態において、本発明の実施例の歌曲確定装置は、マーク取得ユニット301が候補歌曲マークを取得した後であって、整合サブユニットが特徴の整合を行う前、該候補歌曲ファイル中の第1オーディオフレームに対応するオーディオ特徴を取得するように構成された特徴取得ユニットをさらに含む。
【0142】
例えば、該特徴取得ユニットは、具体的に、
候補歌曲ファイル中の各第1オーディオフレームに対応するスペクトルを取得し、
該第1オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割して、該周波数帯に対応する平均幅値を取得し、
各該周波数帯の平均幅値と一つ前の第1オーディオフレームの対応する周波数帯の平均幅値とを比較して、比較結果を得て、
該比較結果に基づいて、該第1オーディオフレームに対応するオーディオ特徴を取得するように構成される。
【0143】
例えば、候補歌曲ファイルを予め設定されたフォーマットのオーディオ(例えば、8k16bitオーディオ)に変換し、その後、第1の予定の数量のサンプルポイントを1フレームとし、第2の予定の数量のサンプルポイントをフレームシフトとしてフーリエ変換を行って、スペクトルを得て(例えば、1856個のサンプルポイントを1フレームとし、58個のサンプルポイントをフレームシフトとしてフーリエ変換を行う)、続いて、該スペクトルを第3の予定の数量(例えば、32個)の周波数帯に均一に分割し、各周波数帯に対応する平均幅値を計算し、その後、各周波数帯と一つ前のフレーム中の対応する周波数帯とを比較し(第2オーディオフレーム中の一番目の周波数帯と第1オーディオフレームの一番目の周波数帯とを比較し、第2オーディオフレーム中の二番目の周波数帯と第1オーディオフレーム中の二番目の周波数帯とを比較し、類似に、全ての周波数帯を比較する)、大きいと1であって、小さいと0であって、このようにして、各フレームは第3の予定の数量のbit値からなるデータユニットを得ることができ、該データユニットが該フレームのオーディオ特徴である。例えば、スペクトルを32個の周波数帯に分割した場合、各オーディオフレームは32個のbit値を含むデータユニットを得ることができ、該32個のbit値が各オーディオフレームのオーディオ特徴である。
【0144】
(3)、歌曲確定ユニット303
該歌曲確定ユニット303は、前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得し、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。
【0145】
例えば、該歌曲確定ユニット303は具体的に、オーディオフレーム拡張サブユニットと、時間取得サブユニットと、マーク取得サブユニットと、歌曲確定サブユニットと、を含むことができる。
【0146】
該オーディオフレーム拡張サブユニットは、該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を得るように構成される。
【0147】
該時間取得サブユニットは、該整合歌曲断片に基づいて、候補歌曲マークに対応する時間情報を取得するように構成され、該時間情報は、該整合歌曲断片の該ビデオ中の第1開始時間、該候補歌曲中の第2開始時間及び該整合歌曲断片の時間長を含む。
【0148】
前記マーク取得サブユニットは、前記候補マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得するように構成される。
【0149】
前記歌曲確定サブユニットは、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。
【0150】
ここで、オーディオフレーム拡張サブユニットは具体的に、
該候補歌曲ファイルと該オーディオファイルで該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲ファイル中の第1整合オーディオフレーム拡張ユニット及び該オーディオファイル中の第2整合オーディオフレーム拡張ユニットを得て、
該第1整合オーディオフレーム拡張ユニット中の第1オーディオフレームのオーディオ特徴と該第2整合オーディオフレーム拡張ユニット中の第2オーディオフレームのオーディオ特徴とを整合して、拡張ユニット間の整合オーディオフレームを得て、
該拡張ユニット間の整合オーディオフレームの数量に基づいて、該第1整合オーディオフレーム拡張ユニット又は第2整合オーディオフレーム拡張ユニットを該候補歌曲と該オーディオファイルとが整合する整合歌曲断片として確定するように構成される。
【0151】
ここで、マーク取得サブユニットは具体的に、
候補歌曲マークに対応する第2開始時間と該時間長に基づいて、該候補歌曲マークに対応する再生時間を取得し、該再生時間は該整合歌曲断片の該ビデオ中の再生時間であって、
候補歌曲マークに対応する再生時間に基づいて、該候補歌曲マーク集合中の候補歌曲マークをろ過して、ろ過後の候補マーク集合を得て、
該ろ過後の候補マーク集合中の該候補歌曲を該挿入歌が属する目標歌曲の目標歌曲マークとするように構成される。
【0152】
例えば、候補歌曲マークに対応する再生時間を取得した後、再生時間が含む関係である候補歌曲マークを確定し、その後、再生時間が含まれた候補歌曲マークをろ過することができる。さらに、例えば候補歌曲マークに対応する再生時間を取得した後、再生時間が重複関係である候補歌曲マークを確定し、その後、再生時間長が短い候補歌曲マークをろ過することもできる。
【0153】
本発明の実施例の一実施形態において、
図3bを参照して、
図3aに基づいて本発明の実施例に係る歌曲確定装置は歌詞添加ユニット304をさらに含むことができる。
【0154】
該歌詞添加ユニット304は、前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加するように構成される。
【0155】
対応して、歌曲確定ユニット303中の前記マーク取得サブユニットと前記歌曲確定サブユニットの場合、
前記マーク取得サブユニットは、前記候補マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得するように構成され、
前記歌曲確定サブユニットは、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。
【0156】
例えば、該歌詞添加ユニット304は、歌詞取得サブユニットと添加サブユニットとを含むことができる。
【0157】
該歌詞取得サブユニットは、目標歌曲マーク及びそれに対応する該第1開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得するように構成される。
【0158】
該添加サブユニットは、該目標歌曲マークに対応する該第2開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するように構成される。
【0159】
例えば、目標歌曲マークに基づいて対応する目標歌曲の目標歌詞ファイルを取得し、その後、整合歌曲断片の該目標歌曲中の開始時間と整合歌曲断片の時間長に基づいて、該目標歌詞ファイルから挿入歌に対応する歌詞を抽出し、つまり、歌詞取得サブユニットは具体的に、
目標歌曲マークに基づいて、対応する目標歌曲の歌詞ファイルを取得し、
目標歌曲マークに対応する第1開始時間と時間長に基づいて、該歌詞ファイルから対応する歌詞を抽出して、挿入歌の歌詞とするように構成されることができる。
【0160】
さらに、例えば、添加サブユニットは具体的に、
該目標歌曲に対応する第2開始時間と時間長に基づいて、歌詞のビデオ中の表示時間を取得し、
該表示時間に基づいて、該歌詞を該ビデオに添加するように構成されることができる。
【0161】
本発明の実施例の一実施形態において、完全な文である挿入歌の歌詞を表示してユーザの体験を向上させるため、挿入歌の歌詞を取得した後、歌詞が完全な文であるか否かを確定し、YESであると、歌詞を添加する操作を行うことができる。つまり、本発明の実施例に係る歌曲確定装置は、歌詞確定ユニット305をさらに含むことができる。
図3cを参照。
【0162】
該歌詞確定ユニット305は、歌詞添加ユニット304が該挿入歌に対応する歌詞を取得した後、歌詞を該ビデオに添加する前、歌詞が完全な文であるか否かを確定するように構成される。
【0163】
このとき、該歌詞添加ユニット304は、具体的に、歌詞確定ユニット305が歌詞が完全な文であると確定した場合、該目標歌曲マークに対応する該第2開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するステップを実行するように構成される。
【0164】
本発明の実施例の一実施形態において、本発明の実施例は、ビデオに一つのインタフェースを設け、これにより、ビデオ挿入歌を再生するときに該インタフェースを介して該ビデオ挿入歌が属する歌曲にジャンプできる。つまり、本発明の実施例に係る歌詞添加方法は、インタフェース設定ユニットをさらに含むことができる。
【0165】
該インタフェース設定ユニットは、歌曲確定ユニット303が挿入歌の目標歌曲マークを取得した後、端末が該挿入歌を再生するときに該挿入歌が属する目標歌曲の再生にジャンプするように、目標歌曲マークに基づいて該ビデオにジャンプインタフェースを設定するように構成されることができる。
【0166】
ここで、該ジャンプインタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。
【0167】
本発明の実施例の一実施形態において、該インタフェース設定ユニットはさらに、歌曲確定ユニット303が目標歌曲マークを取得した後、目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記目標歌曲をミュージックソフトウェアの歌曲リストに追加するように、前記ビデオに追加インタフェースを設定するように構成されることもできる。
【0168】
具体的に実施する際、上述した各ユニットを単独のエンティティとして実現することができ、そして任意に組み合わせることもでき、同一又は幾つかのエンティティとして実現することもでき、上述した各ユニットの具体的な実施については上述した方法実施例を参照でき、ここでは詳細な説明を省略する。
【0169】
上述のように、本発明の実施例に係る歌曲確定装置は、マーク取得ユニット301によってビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得て、その後、オーディオフレーム取得ユニット302によって候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、また、歌曲確定ユニット303によって前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得し、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する。
【0170】
該方案によると、まずビデオ挿入歌が属する候補歌曲の候補歌曲マーク集合を取得し、その後、ビデオのオーディオファイルと歌曲との整合オーディオフレームに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する歌曲のマークを選択して、ビデオ挿入歌が属する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲の確定又は位置づけの精度と効率を向上させることができる。
【0171】
そして、本発明の実施例に係る装置はさらに、ビデオ挿入歌が属する歌曲を確定した後、目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、該挿入歌に対応する歌詞を該ビデオに添加する。該方案によると、ビデオ挿入歌と歌曲との整合を自動に完成して、ビデオ挿入歌が属する歌曲を確定し、ビデオ挿入歌の歌詞を自動に取得して添加することで、既存技術に比べ、ビデオ挿入歌の歌詞を添加する精度及び効率を向上させることもできる。
【0172】
図4は本発明の実施例で提供する歌曲確定装置40の構成を示す図である。
図4に示す構造は適切な構造を有する実例、歌曲確定装置40の構造に何らかの制限を加えるものではない。歌曲確定装置40は、例えばサーバコンピュータと、小型コンピュータと、大型コンピュータと、任意の上記装置とを含む分布式計算環境で実現されることができる。
【0173】
特別な要求はないが、「コンピュータ読取可能な命令」が一つ又は複数の歌曲確定装置によって実行される汎用の背景で実施例を説明した。コンピュータ読取可能な命令はコンピュータ読取可能な媒体を介して分布されることができる(以下で説明)。コンピュータ読取可能な命令は、例えば特定のジョブを実行したり又は特定の抽象化データタイプの機能、対象、アプリケーションプログラミングインタフェース(API)、データ構造等を実現するプログラム手段として実現されることができる。典型的に、該コンピュータ読取可能な命令の機能が各種の環境で任意に組み合せられたり又は分布されることができる。
【0174】
図4に本発明の実施例で提供する歌曲確定装置40を含む構造の実例を示す。1配置形態において、歌曲確定装置40は、少なくとも一つの処理ユニット41と記憶ユニット42とを含む。歌曲確定装置の適切な配置及びタイプによると、記憶ユニット42は揮発性(例えば、ランダムアクセスメモリ(RAM、Random Access Memory))、不揮発性(例えば読取専用メモリ(ROM、Read Only Memory)、フラッシュ等)又は両方の組み合せであることができる。
図4において点線で当該配置を示す。
【0175】
他の実施例において、歌曲確定装置40は付加的な特徴及び/又は機能を有することができる。例えば、歌曲確定装置40は、付加的な記憶装置(例えば取り外し可能及び/又は取り外し不能)をさらにふくむことができ、磁気記憶装置、光学記憶装置等を含むがこれらに限定されることはない。このような付加的な記憶装置を
図4において記憶ユニット43で示す。一実施例において、本発明の実施例で提供する一つ又は複数の実施例を実現するためのコンピュータ読取可能な命令は記憶ユニット43に記憶されることができる。記憶ユニット43はさらに、オペレーティングシステム、アプリケーション等を実現するための他のコンピュータ読取可能な命令を記憶することもできる。コンピュータ読取可能な命令は、記憶ユニット42に記憶されて例えば処理ユニット41によって実行されることができる。
【0176】
本発明の実施例で使用した用語「コンピュータ読取可能な媒体」は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、例えばコンピュータ読取可能な命令又は他のデータ等の情報を含むいずれかの方法又は技術で実現される揮発性と不揮発性媒体、取り外し可能と取り外し不能な媒体を含む。記憶ユニット42と記憶ユニット43はコンピュータ記憶媒体の実例である。コンピュータ記憶媒体はRAM、ROM、電気的に消去可能なプログラム可能な読み出し専用メモリ(Electrically Erasable Programmable Read−Only Memory)、フラッシュメモリ又は他のメモリ技術、CD−ROM、デジタルユニバーサルディスク(DVD)又は他の光学記憶装置、カセットテープ、磁気テープ、ディスク記憶装置又は他の磁気記憶装置、又は所望の情報を記憶でき歌曲確定装置40がアクセス可能な他の媒体を含むが、これらに限定されない。このようなコンピュータ記憶媒体は全て歌曲確定装置40の一部であることができる。
【0177】
歌曲確定装置40は、歌曲確定装置40が他の機器と通信を行うように、通信接続46をさらに含むことができる。通信接続46は、モデム、ネットワークインタフェースカード(NIC)、集積ネットワークインタフェース、RF受送信器、赤外線ポート、USB接続又は歌曲確定装置40を他の歌曲確定装置に接続する他のインタフェースを含むが、これらに限定されることはない。通信接続46は、有線接続又は無線接続を含む。通信接続46は通信媒体を受送信できる。
【0178】
用語「コンピュータ読取可能な媒体」は、通信媒体を含むことができる。典型的な例として、通信媒体はコンピュータ読取可能な命令又は例えばキャリア又は他の伝送機構等の「変調済みデータ信号」中の他のデータを含み、全ての情報伝送媒体を含む。用語「変調済みデータ信号」は、該信号の一つ又は複数の特性が、情報を信号に符号化する方式で設定されたか又は改善された信号を含むことができる。
【0179】
歌曲確定装置40は、例えばキーボート、マウス、ペン、音声入力機器、タッチ入力機器、赤外線カメラ、ビデオ入力機器及び/又は任意の他の入力機器等の入力ユニット45を含むことができる。歌曲確定装置40は、例えば一つ又は複数のディスプレイ、スピーカー、プリンタ及び/又は任意の他の出力機器等の出力ユニット44をさらに含むこともできる。入力ユニット45と出力ユニット44は有線接続、無線接続又はこれのに任意の組み合せによって歌曲確定装置40に接続されることができる。一実施例において、他の歌曲確定装置からの入力機器又は出力機器が歌曲確定装置40の入力ユニット45又は出力ユニット44として用いられることもできる。
【0180】
歌曲確定装置40のコンポーネントは各種の相互接続(例えば、バス)によって接続されることができる。このような相互接続は、外部機器相互接続バス(PCI、Peripheral Component Interconnect)(例えば、高速PCI)、ユニバーサル・シリアル・バス(USB、Universal Serial Bus)、ファイアワイア(IEEE 1394)、光学バス構造等を含むことができる。他の一実施例において、歌曲確定装置40のコンポーネントはネットワークを介して相互接続されることができる。例えば、記憶ユニット42が、異なる物理的位置に位置し、ネットワークを介して相互接続された複数の物理メモリユニットから構成されることができる。
【0181】
以上、本発明の実施例で提供する歌曲確定方法、装置と記憶媒体を詳細に説明し、本願において具体的な数量の例で本発明の原理及実施形態を説明し、以上の実施例の説明は本発明の方法及びその核心思想を理解させるためのものである。同時に、当業者は本発明の思想に基づいて、具体的な実施形態や応用範囲を変更することができ、上述のように、本願の明細書の内容は本発明を制限するものではない。