特許6576557 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッドの特許一覧

特許6576557歌曲確定方法及び装置、記憶媒体

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2a
2b
2c
3a
3b
3c
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6576557

(24)【登録日】2019年8月30日

(45)【発行日】2019年9月18日

(54)【発明の名称】歌曲確定方法及び装置、記憶媒体

(51)【国際特許分類】

G06F 16/63 20190101AFI20190909BHJP

G10K 15/02 20060101ALI20190909BHJP

G11B 27/00 20060101ALI20190909BHJP

G11B 27/02 20060101ALI20190909BHJP

【ＦＩ】

G06F16/63

G10K15/02

G11B27/00 D

G11B27/02 H

【請求項の数】20

【全頁数】33

(21)【出願番号】特願2018-526229(P2018-526229)

(86)(22)【出願日】2017年4月6日

(65)【公表番号】特表2019-505874(P2019-505874A)

(43)【公表日】2019年2月28日

(86)【国際出願番号】CN2017079631

(87)【国際公開番号】WO2017181852

(87)【国際公開日】20171026

【審査請求日】2018年5月31日

(31)【優先権主張番号】201610244446.8

(32)【優先日】2016年4月19日

(33)【優先権主張国】CN

(73)【特許権者】

【識別番号】514187420

【氏名又は名称】テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100091214

【弁理士】

【氏名又は名称】大貫進介

(72)【発明者】

【氏名】ジャオ，ウェイフェン

【審査官】鹿野博嗣

(56)【参考文献】

【文献】特開２０１２−２２６０８０（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１４／０２１９４６１（ＵＳ，Ａ１）

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１６／６３

Ｇ１０Ｋ１５／０２

Ｇ１１Ｂ２７／００

Ｇ１１Ｂ２７／０２

(57)【特許請求の範囲】

【請求項1】

ビデオ中のオーディオファイルを抽出することと、
前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得ることと、
候補歌曲マークに対応する候補歌曲ファイルを取得し、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することと、
取得した整合オーディオフレームに基づいて、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを形成することと、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得することと、
前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定することと、を含む歌曲確定方法。

【請求項2】

前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得し、取得した整合オーディオフレームに基づいて、整合オーディオフレームユニットを形成することが、
前記候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と前記オーディオファイル中の第２オーディオフレームのオーディオ特徴とを整合して、整合結果を得ることと、
前記整合結果に基づいて、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することと、
前記整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することと、を含む請求項１に記載の歌曲確定方法。

【請求項3】

前記候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴と前記オーディオファイル中の第２オーディオフレームに対応するオーディオ特徴とを整合して、整合結果を得ることが、
前記候補歌曲ファイル中の第１オーディオフレームのフレーム数を取得して、前記オーディオファイルから、前記フレーム数と同数の第２オーディオフレームを含むオーディオフレームユニットを選択することと、
前記候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と前記オーディオフレームユニット中の第２オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果を得ることと、を含み、
前記整合結果に基づいて前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することが、
前記オーディオ特徴の整合結果に基づいて、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得することを含み、ここで、前記整合オーディオフレームがオーディオ特徴の整合に成功したオーディオフレームであり、
前記整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することが、
整合オーディオフレームに基づいて、複数の連続する前記整合オーディオフレームを含むフレーム連続ユニットを取得することと、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、前記数量に基づいて、前記フレーム連続ユニットを整合オーディオフレームユニットと確定することと、を含む請求項２に記載の歌曲確定方法。

【請求項4】

前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得することが、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットにオーディオフレーム拡張を行って、前記候補歌曲マークに対応する整合歌曲断片を得ることと、
前記整合歌曲断片に基づいて、前記整合歌曲断片の前記ビデオ中の第１開始時間、前記候補歌曲中の第２開始時間及び前記整合歌曲断片の時間長を含み候補歌曲マークに対応する時間情報を取得することと、
前記候補歌曲マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得することと、を含む請求項１に記載の歌曲確定方法。

【請求項5】

前記候補歌曲マークに対応する前記整合オーディオフレームユニットにオーディオフレーム拡張を行って、前記候補歌曲マークに対応する整合歌曲断片を得ることが、
それぞれ前記候補歌曲ファイルと前記オーディオファイルで前記整合オーディオフレームユニットにオーディオフレーム拡張を行って、前記候補歌曲ファイル中の第１整合オーディオフレーム拡張ユニット及び前記オーディオファイル中の第２整合オーディオフレーム拡張ユニットを得ることと、
前記第１整合オーディオフレーム拡張ユニット中の第１オーディオフレームのオーディオ特徴と前記第２整合オーディオフレーム拡張ユニット中の第２オーディオフレームのオーディオ特徴とを整合して、拡張ユニット間の整合オーディオフレームを得ることと、
前記拡張ユニット間の整合オーディオフレームの数量に基づいて、前記第１整合オーディオフレーム拡張ユニット又は前記第２整合オーディオフレーム拡張ユニットを、前記候補歌曲と前記オーディオファイルとが整合する整合歌曲断片として確定することと、を含む請求項４に記載の歌曲確定方法。

【請求項6】

候補歌曲マークに基づいて対応する候補歌曲ファイルを取得した後であって、前記候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴と前記オーディオファイル中の第２オーディオフレームに対応するオーディオ特徴とを整合する前、
候補歌曲ファイル中の各第１オーディオフレームに対応するスペクトルを取得することと、
前記第１オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割して、前記周波数帯に対応する平均幅値を取得することと、
各前記周波数帯の平均幅値と一つ前の第１オーディオフレームの対応する周波数帯の平均幅値とを比較して、比較結果を得ることと、
前記比較結果に基づいて、前記第１オーディオフレームに対応するオーディオ特徴を取得することと、をさらに含む請求項２に記載の歌曲確定方法。

【請求項7】

前記候補マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得することが、
候補歌曲マークに対応する第２開始時間と前記時間長に基づいて、前記候補歌曲マークに対応する再生時間を取得することと、ここで、前記再生時間は前記整合歌曲断片の前記ビデオ中の再生時間であって、
候補歌曲マークに対応する再生時間に基づいて、前記候補歌曲マーク集合中の候補歌曲マークをろ過して、ろ過後の候補マーク集合を得ることと、
前記ろ過後の候補マーク集合中の前記候補歌曲を目標歌曲マークとすることと、を含む請求項４に記載の歌曲確定方法。

【請求項8】

前記挿入歌が属する目標歌曲の目標歌曲マークを取得した後、
前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加することをさらに含む請求項４に記載の歌曲確定方法。

【請求項9】

前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加することが、
目標歌曲マーク及びそれに対応する前記第１開始時間と前記時間長に基づいて、前記挿入歌に対応する歌詞を取得することと、
前記目標歌曲マークに対応する前記第２開始時間と前記時間長に基づいて、前記歌詞を前記ビデオに添加することと、を含む請求項５に記載の歌曲確定方法。

【請求項10】

前記挿入歌に対応する歌詞を取得した後であって、歌詞を前記ビデオに添加する前、
前記歌詞が完全な文であるか否かを確定することと、
ＹＥＳであると、前記目標歌曲マークに対応する前記第２開始時間と前記時間長に基づいて、前記歌詞を前記ビデオに添加するステップを実行することと、をさらに含む請求項９に記載の歌曲確定方法。

【請求項11】

前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得することが、
前記オーディオファイルを複数のオーディオ断片に分割して、前記オーディオ断片のオーディオ指紋を得ることと、
予め設定されたサンプル集合に前記オーディオ指紋に整合する指紋サンプルが存在する可否かを確定することと、
ＹＥＳであると、整合する指紋サンプルに対応する歌曲マークを取得して、前記オーディオ断片に対応する歌曲マーク集合を得ることと、ここで、前記歌曲マーク集合は複数の前記歌曲マークを含み、
前記歌曲マーク集合から前記挿入歌が属する候補歌曲の候補歌曲マークを選択することと、を含む請求項１に記載の歌曲確定方法。

【請求項12】

前記オーディオ断片のオーディオ指紋を取得することが、
前記オーディオ断片中のオーディオフレームに対応するスペクトルを取得することと、
前記スペクトルから前記オーディオフレームに対応するスペクトルピーク点を抽出して、前記オーディオフレームに対応するスペクトルピーク点を含み前記オーディオ断片に対応するピーク集合を得ることと、
前記ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、前記オーディオ断片のオーディオ指紋を得ることと、を含む請求項１１に記載の歌曲確定方法。

【請求項13】

前記ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、前記オーディオ断片のオーディオ指紋を得ることが、
前記スペクトルピーク点と組み合わされる目標スペクトルピーク点を確定することと、
前記スペクトルピーク点と前記目標スペクトルピーク点とを組み合わせて、前記スペクトルピーク点に対応する周波数、前記スペクトルピーク点と前記目標スペクトルピーク点との時間差と周波数差を含むオーディオ断片のオーディオ指紋を得ることと、を含む請求項１２に記載の歌曲確定方法。

【請求項14】

前記オーディオ指紋を取得した後であって、候補歌曲マークを選択する前、
前記オーディオ指紋の前記オーディオ断片中の第１オフセット時間及び前記整合する指紋サンプルの整合歌曲中の第２オフセット時間を取得することをさらに含み、ここで、前記第１オフセット時間は前記スペクトルピーク点の前記オーディオ断片内の時間であって、前記整合歌曲は前記歌曲マークに対応する歌曲であって、
前記歌曲マーク集合から、前記挿入歌が属する候補歌曲の候補歌曲マークを選択することが、
前記第１オフセット時間と前記第２オフセット時間に基づいて、前記オーディオ断片の前記整合歌曲中の開始時間を取得することと、
前記オーディオ断片の整合歌曲中の開始時間に基づいて、前記歌曲マーク集合から前記候補歌曲マークを選択することと、を含む請求項１３に記載の歌曲確定方法。

【請求項15】

前記歌曲マーク集合中の歌曲マークに対応する開始時間に基づいて、前記歌曲マーク集合から前記候補歌曲マークを選択することが、
前記歌曲マーク集合中の歌曲マークに対応する開始時間を取得して、時間集合を得ることと、
各種の前記開始時間の数量に基づいて、前記時間集合から目標開始時間を確定することと、
歌曲マーク集合から前記目標開始時間に対応する歌曲マークを候補歌曲マークとして選択することと、を含む請求項１４に記載の歌曲確定方法。

【請求項16】

前記挿入歌が属する目標歌曲の目標歌曲マークを取得した後、
目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記挿入歌が属する目標歌曲の再生にジャンプするように、前記ビデオにジャンプインタフェースを設定することをさらに含む請求項４に記載の歌曲確定方法。

【請求項17】

目標歌曲マークを取得した後、
目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記目標歌曲をミュージックソフトウェアの歌曲リストに追加するように、前記ビデオに追加インタフェースを設定することをさらに含む請求項１に記載の歌曲確定方法。

【請求項18】

ビデオ中のオーディオファイルを抽出し、前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得るように構成されたマーク取得ユニットと、
候補歌曲マークに対応する候補歌曲ファイルを取得し、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得して、取得した整合オーディオフレームに基づいて、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを形成するように構成されたオーディオフレーム取得ユニットと、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得して、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成された歌曲確定ユニットと、を含む歌曲確定装置。
属する属する属する

【請求項19】

プロセッサと、
前記プロセッサに、
ビデオ中のオーディオファイルを抽出する動作と、
前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を形成する動作と、
候補歌曲マークに対応する候補歌曲ファイルを取得して、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得する動作と、
取得した整合オーディオフレームに基づいて、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを形成する動作と、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得する動作と、
前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する動作と、を実行させる実行可能な命令が記憶されるメモリと、を含む歌曲確定装置。

【請求項20】

請求項１乃至１７の中のいずれかに記載の歌曲確定方法を実行する実施する命令が記憶される記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、オーディオ・ビデオ処理技術に関し、特に、歌曲確定方法及び装置、記憶媒体に関する。

【背景技術】

【0002】

インターネットや通信ネットワークの発展に伴って、ビデオ技術も高速に発展し、ネットワークビデオが汎用されていて、ますます多いユーザがネットワークを介してビデオを見ている。

【0003】

現在、一部のビデオに挿入歌が出現され、このとき、ユーザが挿入歌の歌詞を見るように、ビデオの挿入歌に歌詞を添加して、ユーザの体験を向上させなければならない。だが、ビデオ挿入歌に歌詞を添加するとき、まずビデオ挿入歌が属する歌曲の確定又は位置づけを行わなければならなく、現在、ビデオ挿入歌が属する歌曲の確定又は位置づけを行う方式は主に、ビデオ中のビデオ挿入歌の断片を抽出してから、ビデオ挿入歌の断片と音楽ライブラリ中の歌曲とを大体に整合し、整合に成功した歌曲をビデオ挿入歌が属する歌曲とする。

【0004】

既存技術で提供するビデオ挿入歌が属する歌曲の確定又は位置づけを行う技術案において、ビデオ挿入歌断片を抽出する精度が低く、歌曲の整合に比較的簡単な整合方式を採用するので、ビデオ挿入歌に対応する歌曲を確定する精度が比較的低い。

【発明の概要】

【発明が解決しようとする課題】

【0005】

本発明の実施例は、ビデオ挿入歌に対応する歌曲を確定する精度を向上させることのできる歌曲確定方法及び装置、記憶媒体を提供する。

【課題を解決するための手段】

【0006】

第１態様によると、本発明の実施例は、
ビデオ中のオーディオファイルを抽出し、前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得ることと、
候補歌曲マークに対応する候補歌曲ファイルを取得し、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得ることと、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得して、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定することと、を含む歌曲確定方法を提供する。

【0007】

第２態様によると、本発明の実施例は、
ビデオ中のオーディオファイルを抽出し、前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得るように構成されたマーク取得ユニットと、
候補歌曲マークに対応する候補歌曲ファイルを取得し、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得るように構成されたオーディオフレーム取得ユニットと、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得して、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成された歌曲確定ユニットと、を含む歌曲確定装置をさらに提供する。

【0008】

第３態様によると、本発明の実施例は、プロセッサと、前記プロセッサに、
ビデオ中のオーディオファイルを抽出する動作と、
前記オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を形成する動作と、
候補歌曲マークに対応する候補歌曲ファイルを取得して、前記候補歌曲ファイルと前記オーディオファイルとが整合する整合オーディオフレームを取得する動作と、
取得した整合オーディオフレームに基づいて、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを形成する動作と、
前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得する動作と、
前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する動作と、を実行させる実行可能な命令が記憶されるメモリと、を含む歌曲確定装置をさらに提供する。

【0009】

第４態様によると、本発明の実施例は、本発明の実施例で提供する歌曲確定方法を実行する実施可能な命令が記憶される記憶媒体をさらに提供する。

【0010】

本発明の実施例は、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得て、その後、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得して、該目標歌曲マークに基づいて該挿入歌が属する目標歌曲を確定する。

【0011】

該方案によると、まずビデオ挿入歌が属する候補歌曲の候補歌曲マーク集合を得てから、ビデオのオーディオファイルと歌曲との整合オーディオフレームに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する歌曲のマークを選択して、ビデオ挿入歌が属する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲の確定又は位置づけの精度を向上させることができる。

【図面の簡単な説明】

【0012】

本発明の実施例の技術案を明確に説明するため、以下、実施例の説明に必要な図面を簡単に説明するが、以下で説明する図面は本発明の実施例の一部にすぎず、当業者は創造性のある労働を必要とせずにこれらの図面から他の図面を得られる。

【図1】本発明の実施例で提供する歌曲確定方法を示すフローチャートである。

【図2a】本発明の実施例で提供する候補歌曲マークの取得を示すフローチャートである。

【図2b】本発明の実施例で提供するスペクトルピーク点分布図である。

【図2c】本発明の実施例で提供するろ過後のスペクトルピーク点分布図である。

【図3a】本発明の実施例で提供する第１種の歌曲確定装置の構成を示す図である。

【図3b】本発明の実施例で提供する第２種の歌曲確定装置の構成を示す図である。

【図3c】本発明の実施例で提供する第３種の歌曲確定装置の構成を示す図である。

【図4】本発明の実施例で提供する歌曲確定装置のハードウェアの構成を示す図である。

【発明を実施するための形態】

【0013】

以下、本発明の実施例中の図面を結合して、本発明の実施例の技術案を明確且つ完全に説明し、ここで説明する実施例は本発明の実施例の全部ではなく、一部であることは言うまでもない。本発明の実施例に基づいて、当業者が創造性のある労働を必要とせずに得た他の実施例はすべて本発明の保護範囲に含まれる。

【0014】

本発明の実施例で歌曲確定方法及び装置を提供する。以下それぞれ詳細に説明する。

【0015】

本発明の実施例は、歌曲確定装置の方面から説明し、該歌曲確定装置をサーバ等のビデオ挿入歌に対応する歌曲を確定しようとするデバイスに統合することができる。

【0016】

尚、該歌曲確定装置をユーザ端末（例えば、スマートフォン、タブレットＰＣ）等のビデオ挿入歌に対応する歌曲を確定しようとするデバイスに統合することもできる。

【0017】

本発明の実施例で歌曲確定方法を提供し、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得え、その後、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲のマークである目標歌曲マークを取得して、該目標歌曲マークに基づいて該挿入歌が属する目標歌曲を確定することを含む。

【0018】

図１に示すように、該歌曲確定方法の具体的なプロセスは以下のとおりである。

【0019】

ステップ１０１において、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得る。

【0020】

ここで、ビデオを取得する方式はさまざまがあって、例えば、ビデオサーバに要求を送信してビデオを取得することができれば、ローカルに記憶されたものからビデオを抽出することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」ことは、
ビデオサーバにビデオ取得要求を送信することと、
該ビデオサーバが該ビデオ取得要求に応じて返信したビデオを受信することと、
該ビデオ中のオーディオファイルを抽出することと、を含むことができる。

【0021】

該ビデオ中のオーディオファイルを抽出する方式は様々があって、例えば、ビデオにオーディオとビデオの分離処理を行って、ビデオのオーディオファイルを得ることができ、即ちステップ「ビデオ中のオーディオファイルを抽出する」ことは、ビデオにオーディオ・ビデオ分離処理を行って、ビデオのオーディオファイルを得ることを含むことができる。

【0022】

本発明の実施例において、挿入歌が属する候補歌曲はビデオ挿入歌と整合する歌曲であることができ、該候補歌曲マークはビデオ挿入歌に整合する歌曲のマークである。

【0023】

該候補歌曲マークを取得する方式は様々があって、例えば、まずビデオのオーディオファイルを複数のオーディオ断片に分割した後、オーディオ断片それぞれを歌曲（音楽ライブラリ中の歌曲）と整合させて、ビデオ挿入歌に整合する歌曲を得て、該歌曲のマークを候補歌曲マークとする。例えば、オーディオ断片と歌曲のオーディオ指紋（つまり、歌曲のオーディオのデジタル化の特徴）に基づいて歌曲の整合を行う。つまり、ステップ「該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得する」ことは、
該オーディオファイルを複数のオーディオ断片に分割し、該オーディオ断片のオーディオ指紋を取得することと、
予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定することと、
ＹＥＳであると、整合する指紋サンプルに対応する歌曲マークを取得して、複数の該歌曲マークを含み該オーディオ断片に対応する歌曲マーク集合を得ることと、
該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択することと、を含むことができる。

【0024】

ここで、候補歌曲マークを取得する具体的なプロセスについては本発明の実施例の後続の記載でさらに説明する。

【0025】

ステップ１０２において、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得る。

【0026】

例えば、歌曲サーバの歌曲データベースから候補歌曲マークに対応する候補歌曲ファイルを取得し、例えば歌曲サーバに要求を送信して対応する歌曲ファイルを得ることができ、つまり、ステップ「候補歌曲マークに対応する候補歌曲ファイルを取得する」ことは、
歌曲サーバに候補歌曲マークを含む歌曲取得要求を送信することと、
該歌曲サーバが該歌曲取得要求に応じて返信した候補歌曲ファイルを受信することと、を含むことができる。

【0027】

ここで、整合オーディオフレームは候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームであることができ、例えば候補歌曲ファイルが複数の第１オーディオフレームを含み、オーディオファイルが複数の第２オーディオフレームを含む場合、候補歌曲ファイル中の該オーディオファイルにおける第２オーディオフレームと整合する第１オーディオフレームが整合オーディオフレームであって、同様に、オーディオファイル中の候補歌曲ファイルにおける第１オーディオフレームと整合する第２オーディオフレームも整合オーディオフレームである。このとき、該整合オーディオフレームユニットは候補歌曲ファイル中のオーディオフレームユニットであることができれば、オーディオファイル中のオーディオフレームユニットであることもできる。

【0028】

そして、上述した第１オーディオフレームは、候補歌曲中の特定のオーディオフレームを指すものではなく、オーディオファイル中のオーディオフレーム（即ち、第２オーディオフレーム）と比較するため、候補歌曲中のオーディオフレームを指し、同様に、第２オーディオフレームは、オーディオファイル中の特定のオーディオフレームを指すものではなく、オーディオファイル中のオーディオフレームを指す。

【0029】

本発明の実施例において、整合オーディオフレームを取得する方式は様々があって、例えば、候補歌曲中のオーディオフレームとオーディオファイル中のオーディオフレームとを整合することができる。

【0030】

例えば、オーディオフレームの整合は、オーディオフレームのオーディオ特徴に基づいて整合する方式を採用することができ、例えば候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴とオーディオファイル中の第２オーディオフレームのオーディオ特徴とを整合し、オーディオフレームのオーディオ特徴の整合結果に基づいて、整合オーディオフレームを取得する。つまり、ステップ「該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、整合オーディオフレームユニットを得る」ことは、
該候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と該オーディオファイル中の第２オーディオフレームのオーディオ特徴とを整合して、整合結果を得ることと、
該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得することと、
該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得することと、を含むことができる。

【0031】

ここで、オーディオフレームのオーディオ特徴をオーディオ指紋と称すことができ、該オーディオ特徴の取得方式はさまざまで、例えばオーディオフレームに対応する周波数帯の平均幅値に基づいて取得することができ、つまり、ステップ「候補歌曲マークに基づいて対応する候補歌曲ファイルを取得する」の後であって、ステップ「該候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴と該オーディオファイル中の第２オーディオフレームに対応するオーディオ特徴とを整合する」の前、該歌曲確定方法は、該候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴を取得するステップをさらに含むことができ、例えば、ステップ「該候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴を取得する」ことは、
候補歌曲ファイル中の第１オーディオフレームそれぞれに対応するスペクトルを取得することと、
該第１オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割し、該周波数帯に対応する平均幅値を取得することと、
各該周波数帯の平均幅値と一つ前の第１オーディオフレームに対応する周波数帯の平均幅値とを比較して、比較結果を得ることと、
該比較結果に基づいて、該第１オーディオフレームに対応するオーディオ特徴を取得することと、を含むことができる。

【0032】

例えば、候補歌曲ファイルを予め設定されたフォーマットのオーディオ、例えば８ｋ１６ｂｉｔオーディオ（つまり、８＊１０２４サンプリングレート、１６ビットで量子化したオーディオ）に変換した後、第１の予定の数量のサンプルポイントを１フレームとし、第２の予定の数量のサンプルポイントをフレームシフトとしてフーリエ変換を行って、スペクトルを得て（例えば、１８５６個のサンプルポイントを１フレームとし、５８個のサンプルポイントをフレームシフトとしてフーリエ変換を行う）、続いて、該スペクトルを第３の予定の数量（例えば、３２個）の周波数帯に均一に分割し、各周波数帯に対応する平均幅値を計算し、その後、各周波数帯と一つ前のフレーム中の対応する周波数帯とを比較し（第２オーディオフレーム中の一番目の周波数帯と第１オーディオフレームの一番目の周波数帯とを比較し、第２オーディオフレーム中の二番目の周波数帯と第１オーディオフレーム中の二番目の周波数帯とを比較し、類似に、全ての周波数帯を比較する）、大きいと１であって、小さいと０であって、このようにして、各フレームは第３の予定の数量のｂｉｔ値からなるデータユニットを得ることができ、該データユニットが該フレームのオーディオ特徴である。例えば、スペクトルを３２個の周波数帯に分割した場合、各オーディオフレームは３２個のｂｉｔ値を含むデータユニットを得ることができ、該３２個のｂｉｔ値が各オーディオフレームのオーディオ特徴である。

【0033】

同様に、ビデオ中のオーディオファイルのオーディオ特徴も上述した取得方式で取得することができ、例えば取得プロセスは上記説明を参照することができ、ここでは詳細な説明を省略する。

【0034】

本発明の実施例において、オーディオ特徴の整合方式はさまざまで、例えばフレームユニットを単位として特徴の整合を行うことができ、即ちステップ「該候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴と該オーディオファイル中の第２オーディオフレームに対応するオーディオ特徴とを整合して、整合結果を得る」ことは、
該候補歌曲ファイル中の第１オーディオフレームのフレーム数を取得し、該オーディオファイルから、該フレーム数と同数の第２オーディオフレームを含むオーディオフレームユニットを選択することと、
該候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と該オーディオフレームユニット中の第２オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果をえることと、を含むことができる。

【0035】

このとき、ステップ「該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得する」ことは、該オーディオ特徴の整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得することを含むことができ、該整合オーディオフレームはオーディオ特徴の整合に成功したオーディオフレームである。

【0036】

対応して、ステップ「該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得する」ことは、該整合オーディオフレームの連続する数量を取得し、該数量に基づいて、対応する整合オーディオフレームユニットを取得することを含むことができる。

【0037】

例えば、ステップ「該整合オーディオフレームの連続する数量を取得し、該数量に基づいて、対応する整合オーディオフレームユニットを取得する」ことは、
整合オーディオフレームに基づいて、複数の連続する該整合オーディオフレームを含むフレーム連続ユニットを取得することと、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、該数量に基づいて、該フレーム連続ユニットが整合オーディオフレームユニットであると確定することと、を含むことができる。

【0038】

例えば、候補歌曲がｎ個の第１オーディオフレームを含み、オーディオファイルがｍ個の第２オーディオフレームを含み、ｍ＞ｎであって、いずれも正整数であるとき、ｍ個の第２オーディオフレームからｎ個の第２オーディオフレームを連続して選択してオーディオフレームユニットａを構成し、その後、オーディオフレームユニットａ中の第２オーディオフレームのオーディオ特徴と候補歌曲中の対応する第１オーディオフレームのオーディオ特徴とを整合し（例えば、オーディオフレームユニットａ中の一番目のオーディオフレームと候補歌曲中の一番目のオーディオフレームのオーディオ特徴を整合し、オーディオフレームユニットａ中の二番目のオーディオフレームと候補歌曲中の二番目のオーディオフレームのオーディオ特徴を整合し、類似に、オーディオフレームユニットａのｎ番目のオーディオフレームと候補歌曲中のｎ番目のオーディオフレームのオーディオ特徴を整合する）、このとき、ｎ回の特徴の整合を行って、オーディオ特徴の整合結果を得なければならない。

【0039】

オーディオ特徴の整合結果がオーディオ特徴の整合に成功した第１オーディオフレームと第２オーディオフレームを含む場合、該整合結果に基づいて、整合オーディオフレームを取得し、フレーム連続ユニット及び該フレーム連続ユニット中の整合オーディオフレームの数量を取得する。

【0040】

続いて、ｍ個の第１オーディオフレームから新しいｎ個の第２オーディオフレームを再び連続に選択して、新しいオーディオフレームユニットｂを構成し、ここで、該オーディオフレームユニットｂは少なくとも一つのオーディオフレームユニットａと異なる第２オーディオフレームを含み（つまり、再び連続に選択したｎ個の第２オーディオフレームが、その前に連続に選択したｎ個の第２オーディオフレームと少なくとも一つのオーディオフレームで異なっている。例えば、その前に一番目の第２オーディオフレーム、……、十番目の第２オーディオフレームを選択してオーディオフレームユニットａを構成していると、その後は二番目の第２オーディオフレーム、……、十一番目のオーディオフレームを選択してオーディオフレームユニットｂを構成することができる）、オーディオフレームユニットｂ中の第２オーディオフレームのオーディオ特徴と候補歌曲中の対応する第１オーディオフレームのオーディオ特徴とを整合して（例えば、オーディオフレームユニットｂ中の一番目のオーディオフレームと候補歌曲中の一番目のオーディオフレームのオーディオ特徴を整合し、オーディオフレームユニットｂ中の二番目のオーディオフレームと候補歌曲中の第２オーディオフレームのオーディオ特徴を整合し、……、オーディオフレームユニットｂのｎ番目のオーディオフレームと候補歌曲中のｎ番目のオーディオフレームのオーディオ特徴を整合する）、オーディオ特徴の整合結果を得て、該結果がオーディオ特徴の整合に成功した第１オーディオフレームと第２オーディオフレームを含むと、該整合結果に基づいて、整合オーディオフレームを取得し、フレーム連続ユニット及び該フレーム連続ユニット中の整合オーディオフレームの数量を取得し、……、類似に行って、新しいｎ個の第２オーディオフレームを再び連続に選択してオーディオフレームユニットを構成し、オーディオ特徴の整合を行って、整合オーディオフレームの連続する数量を取得し、各第２オーディオフレームの整合をすべて完成した後に整合を停止する。

【0041】

上述した整合を経た後、一連のフレーム連続ユニット及びそれに対応する整合オーディオフレームの数量を得ることができ、このとき、該数量に基づいてフレーム連続ユニットが整合オーディオフレームユニットであると確できる。例えば、整合オーディオフレームの数量が最も大きいフレーム連続ユニットを整合オーディオフレームユニットとして選択することができる。つまり、ステップ「該数量に基づいて、該フレーム連続ユニットが整合オーディオフレームユニットであると確定する」ことは、該フレーム連続ユニットの整合オーディオフレームの数量が他のフレーム連続ユニットの整合オーディオフレームの数量より大きいと、該フレーム連続ユニットが整合オーディオフレームユニットであると確定することを含むことができる。

【0042】

例えば、候補歌曲が１０個のオーディオフレームｐ、即ち１０フレームを含み、オーディオファイルが２０個のオーディオフレームｑ、即ち２０フレームを含むと、一番目から十番目のオーディオフレームｂを選択して第１オーディオフレームユニットを構成し、その後、第１オーディオフレームユニット中の一番目〜十番目のオーディオフレームｑ（つまり、オーディオファイル中の一番目のオーディオフレーム〜十番目のオーディオフレーム））と候補歌曲の１０個のオーディオフレームｐを整合し、整合オーディオフレームを得て（例えば、オーディオフレームユニット中の一番目のオーディオフレームｑとオーディオフレームｐとの特徴を整合し、……、十番目のオーディオｑと十番目のオーディオフレームｐとの特徴を整合する）、連続する整合オーディオフレームを取得してフレーム連続ユニットを構成し、フレーム連続ユニット中の整合オーディオフレームの数量を取得する。

【0043】

続いて、オーディオファイル中の二番目〜十一番目のオーディオフレームｑを選択して第２オーディオフレームユニットを構成し、その後、第２オーディオフレームユニット中の一番目〜十番目のオーディオフレームｑ（つまり、オーディオファイル中の二番目〜十一番目のオーディオフレームｑ）と１０個のオーディオフレームｐとを整合して、整合オーディオフレームを取得し、連続する整合オーディオフレームを取得してフレーム連続ユニットを構成し、フレーム連続ユニット中の整合オーディオフレームの数量を取得し、類似に行って、十一番目〜二十番目のオーディオフレームｑを選択して、オーディオフレームユニットを構成して特徴の整合を行う。

【0044】

上述した特徴の整合を経て、複数のフレーム連続ユニット及びそれに対応する整合オーディオフレームの数量を得ることができ、このとき、含まれた整合オーディオフレームの数量が最も大きいフレーム連続ユニットを整合オーディオフレームユニットとして選択することができ、即ち、最も長いフレーム連続ユニットを整合オーディオフレームユニットとして選択することができる。

【0045】

ステップ１０３において、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得して、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する。

【0046】

ステップ１０２を経て、歌曲マークに対応する候補歌曲ファイルとオーディオファイルが整合する整合オーディオフレームユニットを取得することができ、即ち、各候補歌曲マークに対応する整合オーディオフレームユニットを取得することができ、これにより、候補歌曲マークに対応する整合オーディオフレームユニットに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する目標歌曲の目標歌曲マークを選択することができる。

【0047】

例えば、整合オーディオフレームユニットにフレーム拡張を行って、候補歌曲ファイルとオーディオファイルとが整合する整合歌曲断片を得て、その後、該整合歌曲断片に基づいて、目標歌曲マークを取得することができる。つまり、ステップ「該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得する」ことは、
該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を得ることと、
該整合歌曲断片に基づいて、候補歌曲マークに対応する時間情報を取得することと、ここで、該時間情報は、該整合歌曲断片の該ビデオ中の第１開始時間、該候補歌曲中の第２開始時間及び該整合歌曲断片の時間長を含み、
該候補マークに対応する時間情報に基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得することと、を含むことができる。

【0048】

そして、第１開始時間は、該整合歌曲断片の候補歌曲中の開始時間（つまり、第２開始時間）と区別するため、特定の時間を指すものではなく、該整合歌曲断片の該ビデオ中の開始時間を指す。

【0049】

ここで、候補歌曲マークに対応する整合歌曲断片は、候補歌曲マークに対応する候補歌曲がオーディオファイルに整合する整合歌曲断片であって、該整合歌曲断片は候補歌曲中の歌曲断片であることができ、オーディオファイル中の歌曲断片であることもできる。本発明の実施例において、整合歌曲断片がオーディオフレームからなるので、整合歌曲断片を取得した後、断片中のオーディオフレームに基づいて、該断片の候補歌曲中の開始時間と、ビデオ中の開始時間と、該断片の時間長（即ち、該断片の長さ）を取得することができる。

【0050】

例えば、断片のオーディオフレームの歌曲中の番号に基づいて、断片の候補歌曲中の開始時間を取得することができ、断片のオーディオフレームのオーディオファイル中の番号に基づいて、断片のビデオ中の開始時間を取得することもできる。

【0051】

本発明の実施例において、整合オーディオフレームユニットにフレーム拡張を行う方式はさまざまで、例えばそれぞれ候補歌曲ファイルとオーディオファイルにてフレーム拡張を行い、つまり、ステップ「該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を取得する」ことは、
それぞれ該候補歌曲ファイルと該オーディオファイルにおいて該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲ファイル中の第１整合オーディオフレーム拡張ユニット及び該オーディオファイル中の第２整合オーディオフレーム拡張ユニットを得ることと、
該第１整合オーディオフレーム拡張ユニット中の第１オーディオフレームのオーディオ特徴と該第２整合オーディオフレーム拡張ユニット中の第２オーディオフレームのオーディオ特徴とを整合して、拡張ユニット間の整合オーディオフレームを得ることと、
該拡張ユニット間の整合オーディオフレームの数量に基づいて、該第１整合オーディオフレーム拡張ユニット又は第２整合オーディオフレーム拡張ユニットを該候補歌曲と該オーディオファイルとが整合する整合歌曲断片と確定することと、を含むことができる。

【0052】

本発明の実施例一実施形態において、候補歌曲ファイルにおいてオーディオファイルに同期してフレーム拡張を行うことができ、即ち、拡張するオーディオフレームの数量が同じで、方向が同じである。

【0053】

ここで、該拡張ユニット間の整合オーディオフレームの数量に基づいて、整合歌曲断片を確定する方式はさまざまで、例えば該数量がある予定の数量より大きいと、このときの拡張ユニットを整合歌曲断片と確定し、例えば整合オーディオフレームの数量と拡張ユニットオーディオフレームの総数との比が所定の比例（例えば９０％）を超えると、このときの拡張ユニットを整合歌曲断片と確定する。

【0054】

候補歌曲マークに対応する時間情報を取得した場合、ステップ「該候補マークに対応する時間情報に基づいて、該候補歌曲マーク集合から目標歌曲マークを取得する」ことは、
候補歌曲マークに対応する第２開始時間と該時間長に基づいて、該候補歌曲マークに対応する再生時間を取得することと、ここで、該再生時間は該整合歌曲断片が該ビデオで再生される時間であって、
候補歌曲マークに対応する再生時間に基づいて、該候補歌曲マーク集合中の候補歌曲マークをろ過して、ろ過後の候補マーク集合を得ることと、
該ろ過後の候補マーク集合中の該候補歌曲を目標歌曲マークとすることと、を含むことができる。

【0055】

例えば、候補歌曲マークに対応する再生時間を取得した後、再生時間が含む関係である候補歌曲マークを確定し、その後、再生時間が含まれた候補歌曲マークをろ過し、即ち、再生時間が含む関係である候補歌曲マーク中の再生時間が短い候補歌曲マークをろ過する。例えば、歌曲ＩＤ１に対応する再生時間が第１ｓ〜第１０ｓで、歌曲ＩＤ２に対応する再生時間が第２ｓ〜第５ｓで、歌曲ＩＤ３に対応する再生時間が第３ｓ〜第８ｓである場合、歌曲ＩＤ１、ＩＤ２、ＩＤ３に対応する再生時間は含む関係を有するので、再生時間が短い歌曲ＩＤをろ過することができ、ここでは歌曲ＩＤ２とＩＤ３をろ過する。

【0056】

さらに、例えば候補歌曲マークに対応する再生時間を取得した後、再生時間が重複関係である候補歌曲マークを確定し、その後、再生時間長が短い候補歌曲マークをろ過することができる。例えば、歌曲ＩＤ１に対応する再生時間が第１ｓ〜第１０ｓで、歌曲ＩＤ２に対応する再生時間が第５ｓ〜第１２ｓであるとき、再生時間長が短い歌曲ＩＤをろ過することができ、ここでは歌曲ＩＤ１の再生時間長が１０ｓで、歌曲ＩＤ２の再生時間長が７ｓであるので、歌曲ＩＤ２をろ過する。

【0057】

本発明の実施例によると、目標歌曲マークを取得した後、目標歌曲マークに対応する歌曲を挿入歌が属する目標歌曲とすることができる。

【0058】

本発明の実施例の一実施形態において、ビデオ挿入歌に対応する目標歌曲マークを取得した後、ビデオ挿入歌を再生するときにビデオ挿入歌の歌詞を表示するように、ビデオ挿入歌の歌詞をビデオに添加することもできる。つまり、ステップ１０３の後、
前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加することをさらに含むことができる。

【0059】

例えば、整合オーディオフレームユニットを拡張して整合歌曲断片及びその時間情報を取得した場合、ステップ「前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加する」ことは、目標歌曲マーク及びそれに対応する時間情報に基づいて、該挿入歌に対応する歌詞を取得して、該歌詞を該ビデオに添加することを含むことができ、ここで、時間情報は該目標歌曲に対応する整合歌曲断片の時間情報である。

【0060】

例えば、目標歌曲マークに対応する整合歌曲断片の歌曲中の開始時間及び該整合歌曲断片の時間長に基づいて、挿入歌に対応する歌詞を取得し、また、該整合歌曲断片のビデオ中の開始時間及び時間長に基づいて歌詞を添加することができる。つまり、ステップ「目標歌曲マーク及びそれに対応する時間情報に基づいて、該挿入歌に対応する歌詞を取得して、該歌詞を該ビデオに添加する」ことは、
目標歌曲マーク及びそれに対応する該第１開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得することと、
該目標歌曲マークに対応する該第２開始時間と該時間長に基づいて、該歌詞を該ビデオに添加することと、を含むことができる。

【0061】

例えば、目標歌曲マークに基づいて対応する目標歌曲の目標歌詞ファイルを取得し、その後、整合歌曲断片の該目標歌曲中の開始時間と整合歌曲断片の時間長に基づいて、該目標歌詞ファイルから挿入歌に対応する歌詞を抽出する。即ちステップ「目標歌曲マーク及びそれに対応する該第１開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得する」ことは、
目標歌曲マークに基づいて、対応する目標歌曲の歌詞ファイルを取得することと、
目標歌曲マークに対応する第１開始時間と時間長に基づいて、該歌詞ファイルから対応する歌詞を抽出して、挿入歌の歌詞とすることと、を含むことができる。

【0062】

例えば、目標歌曲マークが歌曲１で、該歌曲１に対応する整合歌曲断片の歌曲１中の開始時間が第５ｓで、該整合歌曲断片が１０ｓであるとき、歌曲１の歌詞ファイルから第５ｓ〜１５ｓの歌詞を抽出することができる。

【0063】

さらに、例えばステップ「該目標歌曲マークに対応する該第２開始時間と該時間長に基づいて、該歌詞を該ビデオに添加する」ことは、
該目標歌曲に対応する第２開始時間と時間長に基づいて、歌詞のビデオ中の表示時間を取得することと、
該表示時間に基づいて、該歌詞を該ビデオに添加することと、を含むことができる。

【0064】

例えば、目標歌曲マークに対応する整合歌曲断片のビデオ中の第２開始時間が第７ｓで、整合歌曲断片の時間長が８ｓであるとき、歌詞のビデオ中の表示時間が第７ｓ〜第１５ｓであることを得ることができ、その後、該表示時間に基づいて、ビデオの対応する位置に該歌詞を挿入することができる。

【0065】

本発明の実施例の一実施形態において、完全な文である挿入歌の歌詞を表示してユーザの体験を向上させるため、挿入歌の歌詞を取得した後、歌詞が完全な文であるか否かを確定し、ＹＥＳであると、歌詞を添加する操作を行うことができる。つまり、ステップ「該挿入歌に対応する歌詞を取得した」後であって、ステップ「歌詞を該ビデオに添加する」前、上記方法は、
歌詞が完全な文であるか否かを確定することと、
ＹＥＳであると、該目標歌曲マークに対応する該第２開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するステップをさらに含むことができる。

【0066】

本発明の実施例の一実施形態において、ユーザの体験を向上させるため、ビデオに一つのインタフェースを設け、これにより、ビデオ挿入歌を再生するときに該インタフェースを介して該ビデオ挿入歌が属する歌曲にジャンプできる。つまり、ステップ「該挿入歌目標歌曲マークを取得した」後、上記方法は、
目標歌曲マークに基づいて、端末が該挿入歌を再生するときにジャンプして該挿入歌が属する目標歌曲を再生するように、該ビデオにジャンプインタフェースを設けることをさらに含むことができる。

【0067】

ここで、該ジャンプインタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。

【0068】

本発明の実施例の一実施形態において、ユーザの体験を向上させるため、同様に、ビデオに一つのインタフェースを設けて、ビデオ挿入歌を再生するときに該インタフェースを介してビデオ挿入歌が属する目標歌曲をミュージックソフトウェアの歌曲リストに追加することができ、つまり、ステップ「前記挿入歌が属する目標歌曲の目標歌曲マークを取得した」後、
目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記目標歌曲をミュージックソフトウェアの歌曲リストに追加するように、前記ビデオに追加インタフェースを設けることをさらに含むことができる。

【0069】

ここで、該追加インタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。ミュージックソフトウェアは常用のミュージック再生ソフトウェアで、例えばクラウドに基づくミュージック再生ソフトウェアやオンラインミュージック再生ソフトウェア等であって、該歌曲リストは曲リスト又は歌曲再生リストであることができ、例えば収集曲リスト等である。

【0070】

上述のように、本発明の実施例は、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得て、その後、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、該候補歌曲マークに対応する該整合オーディオフレームユニットに基づいて、該候補歌曲マーク集合から該挿入歌が属する目標歌曲の目標歌曲マークを取得し、該目標歌曲マークに基づいて該挿入歌が属する目標歌曲を確定する。該方案によると、まずビデオ挿入歌が属する候補歌曲の候補歌曲マーク集合を取得し、その後、ビデオのオーディオファイルと歌曲との整合オーディオフレームに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する歌曲のマークを選択して、ビデオ挿入歌が属する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲の確定又は位置づけの精度と効率を向上させることができる。

【0071】

そして、本発明の実施例はさらに、ビデオ挿入歌が属する歌曲を確定した後、目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、該挿入歌に対応する歌詞を該ビデオに添加する。該方案によると、ビデオ挿入歌と歌曲の整合を自動に完成して、ビデオ挿入歌が属する歌曲を確定することができ、またビデオ挿入歌の歌詞を自動に取得して添加することができ、既存技術に比べ、ビデオ挿入歌の歌詞を添加する精度及び効率を向上させることもできる。

【0072】

本発明の実施例は、上述した歌曲確定方法を基づいてさらに説明する。

【0073】

本発明の実施例で記載の上記内容によると、ビデオ中のオーディオファイルと候補歌曲ファイルとの間のオーディオ指紋整合に基づいて候補歌曲マークを取得することができ、本発明の実施例において主にオーディオ指紋整合に基づいて候補歌曲マークを取得するプロセスを説明し、図２ａを参照すると、候補歌曲マークを取得するプロセスは、ステップ２０１〜ステップ２０４を含む。

【0074】

ステップ２０１において、該オーディオファイルを複数のオーディオ断片に分割して、該オーディオ断片のオーディオ指紋を取得する。

【0075】

例えば、オーディオファイルの分割方式は様々があって、例えば、予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することができ、各オーディオ断片の時間長は予め設定されたフレーム長と同じであって、つまり、ステップ「該オーディオファイルを複数のオーディオ断片に分割する」ことは、
オーディオファイルを対応するフォーマットのオーディオに変換することと、
予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することと、を含むことができる。

【0076】

例えば、オーディオファイルを８ｋ１６ｂｉｔ（即ち、８＊１０２４サンプリングレート、１６ビットの量子化オーディオ）パルスコード変調（ＰＣＭ：ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ、オーディオとも呼ばれる）に変調し、その後、１０秒をフレーム長とし、１秒をフレームシフトとして、複数の１０秒を１区間とする小さいオーディオ断片に分割し、例えば各フレームの時間長が１ｓであるとき、第１フレームと第１０フレームを一つのオーディオ断片として分割し、第２フレームと第１１フレームを一つのオーディオ断片として分割する。具体的に実施する際、実際の需要に応じて適切な分割方式を選択することができる。

【0077】

本発明の実施例において、オーディオ指紋はさまざまで、計算量を減少し、歌詞を添加する速度を高めるため、小オーディオ指紋を利用し、該小オーディオ指紋はデータ構造で、スペクトル上のスペクトルピーク点からなり、例えば、オーディオのオーディオフレームに対応するスペクトルを取得し、その後、オーディオフレームに対応するスペクトルピーク点を抽出することで、該オーディオに対応するスペクトルピーク点を取得し、その後、集合中のピーク点を二つずつ組み合わせてオーディオ指紋を得ることができる。つまり、ステップ「該オーディオ断片のオーディオ指紋を取得する」ことは、
該オーディオ断片中のオーディオフレームに対応するスペクトルを取得することと、
該スペクトルから該オーディオフレームに対応するスペクトルピーク点を抽出して、該オーディオフレームに対応するスペクトルピーク点を含む該オーディオ断片に対応するピーク集合を得ることと、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得ることと、を含むことができる。

【0078】

本発明の実施例の一実施形態において、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る」ことは、
該スペクトルピーク点と組み合わされる目標スペクトルピーク点を確定することと；
該スペクトルピーク点と該目標スペクトルピーク点とを組み合わせて、該スペクトルピーク点に対応する周波数と該スペクトルピーク点と該目標スペクトルピーク点との間の時間差及び周波数差を含むオーディオ断片のオーディオ指紋を得ることと、を含むことができる。

【0079】

ここで、該スペクトルピーク点と組み合わされる目標スペクトルピーク点は、該スペクトルピーク点以外のスペクトルピーク点であることができる。例えば、オーディオ断片に対応するピーク集合を取得した後、ピーク集合に基づいて、周波数ピーク点分布図を生成し、その後、周波数ピーク点分布図で一つの周波数ピーク点（アンカーポイントとも呼ばれる）に対応する目標領域を確定し、ここで、該目標領域は該周波数ピーク点と組み合わされる目標周波数ピーク点を含み、続いて、該アンカーポイントと目標領域中の目標周波数ピーク点を組み合わせ、組み合わせた後、複数のオーディオ指紋が得られる。

【0080】

例えば、一つのスペクトルピーク点ａ１（ｔ１、ｆ１）と目標領域内の目標スペクトルピーク点ａ２（ｔ２、ｆ２）を組み合わせてオーディオ指紋Ｄ１（ｆ１、△ｆ’、△ｔ’）を構成し、ここで、周波数△ｆ’＝ｆ２−ｆ１、△ｔ’＝ｔ２−ｔ１で、ここで、該ｔ１はオーディオ指紋Ｄ１の該オーディオ断片内でオフセット時間であって、同様に、該スペクトルピーク点ａ１（ｔ１、ｆ１）をそれぞれ目標領域内の目標スペクトルピーク点ａ３（ｔ３、ｆ３）、ａ４（ｔ４、ｆ４）と組み合わせて、オーディオ指紋Ｄ２（ｆ１、△ｆ’’、△ｔ’’）、Ｄ２（ｆ１、△ｆ’’’、△ｔ’’’）を得ることができ、ここで、△ｆ’’＝ｆ３−ｆ１、△ｔ’’＝ｔ３−ｔ１, △ｆ’’;＝ｆ４−ｆ１、 △ｔ’’’＝ｔ４−ｔ１であって、類似にして、オーディオ断片に対応するオーディオ指紋集合を得ることができる。

【0081】

ここで、周波数ピーク点分布図の横軸は時間で、縦軸はピーク点の周波数であって、オーディオフレームが時間が対応関係を有するので、オーディオ指紋を高速に取得するため、本発明の実施例において、オーディオフレーム番号で時間を表すことができ、そして、周波数帯インデックス番号でピーク点の周波数を表すこともでき、インデックス番号の範囲は（０〜２５５）であることができ、即ち、上記ピーク点ｔとｆをそれぞれオーディオフレーム番号と周波数帯インデックス番号で表すことができる。このとき、目標領域をオーディオフレーム番号と周波数帯インデックス番号で表すことができ、例えば、目標領域が時間領域と周波数域領域から構成されることができ、ここで、時間領域は（１５〜６３）フレーム（時間差を６ｂｉｔで表す）で、周波数域領域は（−３１〜３１）個の周波数帯（周波数帯差を６ｂｉｔで表す）であることができ、該目標領域の大きさは実際の需要に応じて設定することができ、リソースを節約し指紋を取得する速度を高めるため、本発明の実施例の一実施形態において、該目標領域に三つの目標スペクトルピーク点のみを含み、即ち、アンカーポイントに対応する目標スペクトルピーク点の数量は３である。

【0082】

本発明の実施例の一実施形態において、オーディオ指紋を精確に抽出するため、スペクトルピーク点が均一に分布されるべきであるので、オーディオ断片のピーク集合にピーク点ろ過を行わなければならなく、例えば相互影響するピーク点をろ過し、例えばヒトが音声を感覚するとき、短時間スペクトルピーク周波数点間に相互影響し、一つの周波数成分がそれに近い周波数成分をマスキングする（即ち、所謂聴覚マスキング効果）ので、時間間隔が小さく且つ周波数間隔が小さいピーク点をろ過して、選択されたピーク点が時間と周波数軸に沿って比較的に均一に分布されるようにしなければならない。即ち、ステップ「オーディオ断片に対応するピーク集合を得た」後であって、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせる」前、該歌曲確定方法は、
スペクトルピーク点間の時間差及び周波数差に基づいて、ピーク集合中のスペクトルピーク点をろ過することをさらに含むことができる。

【0083】

図２ｂを参照すると、一つのオーディオのピーク集合に対応するスペクトルピーク点分布図で、スペクトルピーク点が均一に分布されるように、該ピーク集合中のピーク点をろ過することができ、ろ過後のピーク集合に対応するスペクトルピーク点の分布は図２ｃを参照することができる。

【0084】

本発明の実施例で上述したオーディオ指紋（即ち、オーディオ特徴）を区別するため、例えば、オーディオ指紋の大きさに基づいて区別することができ、該実施例中のオーディオ特徴を大オーディオ指紋と称すことができ、本発明の実施例は、図２に示すオーディオ断片のオーディオ指紋を小オーディオ指紋と称す。

【0085】

ステップ２０２において、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定し、ＹＥＳであると、ステップ２０３を実行し、ＮＯであると、プロセスを終了する。

【0086】

ここで、予め設定されたサンプル集合は少なくとも１種類の指紋サンプルを含むことができ、該予め設定されたサンプル集合中の各種の指紋サンプルが一つの歌曲のオーディオ指紋である。例えば、予め設定されたサンプル集合が複種類の指紋サンプルを含み、各種の指紋サンプルが１種類の歌曲ＩＤに対応することができ、例えば指紋サンプル１が歌曲１に、指紋サンプル２が歌曲２に、……、指紋サンプルｎが歌曲ｎに対応する。

【0087】

例えば、オーディオ断片の複数のオーディオ指紋を取得し、その後、予め設定されたサンプル集合に各オーディオ指紋が整合する（即ち、同一）指紋サンプルが存在する可否かを確定して、複数の整合する指紋サンプルを得て、その後、各整合する指紋サンプルに対応する歌曲マークを取得して、歌曲マーク集合を得ることができ、該歌曲マーク集合は複数の該歌曲マークを含む。例えば、一つのオーディオ断片の場合、該オーディオ断片に対応するオーディオ指紋がオーディオ指紋Ｄ１とオーディオ指紋Ｄ２を含むと、該オーディオ断片のオーディオ指紋Ｄ１を予め設定されたサンプル集合中の指紋サンプルと逐一比較し、オーディオ指紋Ｄ１と同一の指紋サンプルがあると、予め設定されたサンプルに該オーディオ指紋Ｄ１に整合する指紋サンプルがあると確定し、同様に、オーディオ指紋Ｄ２を予め設定されたサンプル集合中の指紋サンプルと逐一比較して、オーディオ指紋Ｄ２と同一の指紋サンプルがあると、予め設定されたサンプル集合に該オーディオ指紋Ｄ２に整合する指紋サンプルがあると確定する。

【0088】

本発明の実施例において、歌曲データベースから歌曲を抽出し、その後、該歌曲のオーディオ指紋を抽出して指紋サンプルとすることができ、ここで、歌曲のオーディオ指紋を抽出する方式については上述したオーディオ断片のオーディオ指紋を抽出する方式を参照することができ、即ち、歌曲中のオーディオフレームに対応するスペクトルを抽出し、その後、スペクトルピーク点を抽出して、スペクトルピーク点を二つずつ組み合わせて、歌曲のオーディオ指紋（即ち、指紋サンプル）を得て、該歌曲を歌曲データベースから抽出することができる。つまり、ステップ２０１の前、該歌曲確定方法は、
歌曲データベースから歌曲を取得することと、
歌曲に対応するオーディオ指紋を取得して、該歌曲に対応するオーディオ指紋を指紋サンプルとして、予め設定されたサンプル集合を得ることと、をさらに含むことができる。

【0089】

ステップ２０３において、整合する指紋サンプルに対応する歌曲マークを取得して、該オーディオ断片に対応する第１歌曲マーク集合を得て、該第１歌曲マーク集合は複数の該歌曲マークを含む。

【0090】

ここで、整合する指紋サンプルに対応する歌曲マークを取得する方式は様々があって、例えば、マッピング関係集合を用いて整合する指紋サンプルに対応する歌曲マークを取得することができ、該マッピング関係集合は指紋サンプルと歌曲マークとの間マッピング関係（即ち、対応関係）を含み、つまり、ステップ「整合する指紋サンプルに対応する歌曲マークを取得する」ステップは具体的に、
マッピング関係集合に基づいて、該整合する指紋サンプルに対応する歌曲マークを取得し、該マッピング関係集合は指紋サンプルと歌曲マークとの間のマッピング関係を含む。

【0091】

ここで、該マッピング関係集合は所定のマッピング関係集合であることができ、該指紋サンプルと歌曲マークとの間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌曲確定方法は、
マッピング関係の確立が必要な指紋サンプルと歌曲マークを指示するマッピング関係設定要求を受信することと、
該マッピング関係設定要求に基づいて、指紋サンプルと歌曲マークとの間のマッピング関係を確立して、マッピング関係集合を得ることと、をさらに含むことができる。

【0092】

本発明の実施例において、マッピング関係集合をテーブル形態で示すことができ、マッピング関係表と呼ばれ、該マッピング関係表は予め設定されたサンプル集合及び予め設定されたサンプル集合中の指紋サンプルに対応する歌曲マークを含むことができ、ここで、該マッピング関係表はデータベースに記憶されることができ、指紋ライブラリとも呼ばれる。

【0093】

ステップ２０４において、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する。

【0094】

本発明の実施例において、オーディオ断片に対応する歌曲マーク集合を取得した後、さらに選択して、オーディオ断片と整合する可能性が最も高い歌曲マークを取得しなければならない。オーディオ断片と整合する可能性が最も高い歌曲（即ち、挿入歌が属する候補歌曲）が、オーディオ断片の歌曲マークに対応する歌曲における開始時間と関連があるので、オーディオ断片の歌曲中の開始時間に基づいて、歌曲マーク集合から挿入歌が属する候補歌曲の候補歌曲マークを選択することができる。つまり、ステップ「オーディオ指紋を取得した」後であって、ステップ「歌曲マーク集合から候補歌曲マークを選択する」前、該方法は、該オーディオ指紋の該オーディオ断片中の第１オフセット時間及び該整合する指紋サンプルの整合歌曲中の第２オフセット時間を取得することをさらに含み、ここで、該第１オフセット時間は該スペクトルピーク点が該オーディオ断片内にある時間であって、該整合歌曲は該歌曲マークに対応する歌曲である。

【0095】

このとき、ステップ「該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する」ことは、
該第１オフセット時間と該第２オフセット時間に基づいて、該オーディオ断片の該整合歌曲中の開始時間を取得することと、
該オーディオ断片の整合歌曲中の開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択することと、を含むことができる。

【0096】

例えば、オーディオ指紋Ｄ１（ｆ１、△ｆ’、△ｔ’）のオーディオ断片内のオフセット時間ｔ１を取得し、該ｔ１がスペクトルピーク点ａ１のオーディオ断片中の時間であって、同様に、上述した方式で指紋サンプルを抽出するとき、該指紋サンプルのそれが属する歌曲中のオフセット時間が指紋サンプルに対応するスペクトルピーク点（即ち、アンカーポイント）の属する歌曲中の時間である。

【0097】

例えば、本発明の実施例において、予め設定された時間マッピング関係集合に基づいて、整合する指紋サンプルの整合歌曲中のオフセット時間を取得することができ、該予め設定された時間マッピング関係集合は指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間との間のマッピング関係（対応関係）を含むことができ、つまり、ステップ「該整合する指紋サンプルの整合歌曲中の第２オフセット時間」は、
予め設定された時間マッピング関係集合に基づいて、整合する指紋サンプルの該歌曲マーク中の対応する整合歌曲における第２オフセット時間を取得することを含み、ここで、予め設定された時間マッピング関係集合は指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間との間のマッピング関係を含む。

【0098】

ここで、該予め設定された時間マッピング関係集合は所定の時間マッピング関係集合であることができ、該指紋サンプルとオフセット時間との間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌詞添加方法は、
マッピング関係の確立が必要な指紋サンプルと該指紋サンプルの属する歌曲中のオフセット時間とを指示する時間マッピング関係設定要求を受信することと、
該時間マッピング関係設定要求に基づいて、指紋サンプルとオフセット時間との間のマッピング関係を確立して、時間マッピング関係集合を得ることと、をさらに含むことができる。

【0099】

本発明の実施例において、時間マッピング関係集合をテーブル形態で示すことができ、時間マッピング関係表と呼ばれ、該マッピング関係表は予め設定されたサンプル集合及び予め設定されたサンプル集合中の指紋サンプルに対応するオフセット時間を含む。

【0100】

本発明の実施例の一実施形態において、歌曲マークとオフセット時間を簡単に取得するように、時間マッピング関係集合と上記マッピング関係集合とを同一のマッピング関係集合に設定し、例えば、指紋サンプルと歌曲マークとの間のマッピング関係と、指紋サンプルとオフセット時間との間のマッピング関係を含む総合マッピング関係集合を設定することができ、例えば、予め設定されたサンプル集合、予め設定されたサンプル集合中の指紋サンプルに対応する歌曲マーク、予め設定されたサンプル集合中の指紋サンプルに対応するオフセット時間を含む総合マッピング関係表を設定することができる。

【0101】

実際の応用において、オーディオ断片の複数の異なる歌曲中の開始時間が同じであると、該複数の歌曲がオーディオ断片と整合する可能性が最も高い歌曲、即ちビデオ挿入歌が属する候補歌曲であることを示し、つまり、ステップ「該歌曲マーク集合中の歌曲マークに対応する開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択する」ことは、
該歌曲マーク集合中の歌曲マークに対応する開始時間を取得して、時間集合を得ることと、
該開始時間が同一である数量に基づいて、該時間集合から目標開始時間を確定することと、
歌曲マーク集合から該目標開始時間に対応する歌曲マークを選択して候補歌曲マークとすることと、を含むことができる。

【0102】

例えば、同一である数量が予め設定された数量に達した開始時間を目標開始時間として選択することがで、つまり、ステップ「該開始時間が同一である数量に基づいて、該時間集合から目標開始時間を確定する」ことは、
該時間集合中の各種の該開始時間の数量を取得することと、
該数量が予め設定された数量を超えるか否かを判断することと、
ＹＥＳであると、該種類の開始時間を目標開始時間として確定することと、を含むことができる。

【0103】

ここで、予め設定された数量は実際の需要に応じて設定することができ、例えば５、６、９等であることができる。

【0104】

本発明の実施例において、オーディオ断片の歌曲中の開始時間は、該オーディオ指紋に対応するオフセット時間及び該歌曲マーク集合中の該歌曲マークに対応するオフセット時間に基づいて得ることができ、例えば、歌曲マークに対応するオフセット時間とオーディオ指紋に対応するオフセット時間との間の時間差を計算し、該時間差が該オーディオ断片の該歌曲中の開始時間である。例えば、オーディオ断片のオーディオ指紋に対応するオフセット時間がｔ’で、整合する指紋サンプルに対応するオフセット時間（即ち、歌曲マークに対応するオフセット時間）がｔ’’であるとき、オーディオ断片の該歌曲マークに対応する歌曲中の開始時間、つまり該歌曲マークに対応する開始時間は△ｔ＝ｔ’’−ｔ’であって、当該方式で歌曲マーク集合の各歌曲マークに対応する開始時間△ｔを計算して、時間集合を得ることができ、例えば（△ｔ１、△ｔ２、△ｔ１、△ｔ１、△ｔ２、△ｔ３……△ｔ３……△ｔｎ）を得ることができる。

【0105】

時間集合を得た後、各種の開始時間の数量を取得し、その後、該数量が予め設定された数量を超えるか否かを判断し、ＹＥＳであると、該種類の開始時間を目標開始時間として確定することができる。例えば、予め設定された数量が８であるとき、△ｔ１を統計した数量が１０で、△ｔ２の数量が６で、△ｔ３の数量が１２であると、このとき、△ｔ１の数量が予め設定された数量を超え、△ｔ２の数量が予め設定された数量未満で、△ｔ３の数量が予め設定された数量を超えるので、△ｔ１と△ｔ３を目標開始時間として確定することができる。

【0106】

本発明の実施例の一実施形態において、オーディオ指紋の整合速度を高めるため、オーディオ指紋に変換を行うこともでき、例えば、予め設定されたアルゴリズムでオーディオ指紋を具体的な特徴数字に変換して、ハッシュ値（ｈａｓｈ＿ｋｅｙ）と命名する。例えば、オーディオ指紋Ｄ１（ｆ１、△ｆ’、△ｔ’）について、式ｈａｓｈ＿ｋｅｙ＝ｆ１・２^１２+△ｆ・２^６+△ｔに従って一つの具体的な数字に変換し、「^」は指数演算子で、即ち、ビットの高さに応じて一つの２０ｂｉｔ整数を構成し、これにより、その後にオーディオ指紋の整合を行うときにｈａｓｈ＿ｋｅｙの整合のみを行うことで済み、つまり、ステップ「予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定する」ことは、
該オーディオ指紋を対応する特徴数字に変換することと、
予め設定された数字集合に該特徴数字に整合する数字サンプルが存在するか否かを確定することと、
ＹＥＳであると、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルが存在すると確定することと、
ＮＯであると、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルが存在しないと確定することと、を含むことができる。

【0107】

ここで、予め設定された数字サンプル集合は少なくとも１種類の特徴数字を含み、数字サンプルと呼ばれ、１種類の数字サンプルは１種類の歌曲マークに対応することができる。

【0108】

このとき、ステップ「整合する指紋サンプルに対応する歌曲マークを取得する」ことは、整合する数字サンプルに対応する歌曲マークを取得することを含む。

【0109】

例えば、数字マッピング関係集合に基づいて、整合する数字サンプルに対応する歌曲マークを取得することができ、つまり、ステップ「整合する数字サンプルに対応する歌曲マークを取得する」ことは、数字マッピング関係集合に基づいて、整合する数字サンプルに対応する歌曲マークを取得することを含むことができ、ここで、該数字マッピング関係集合は数字サンプルと歌曲マークとの間の対応関係を含む。

【0110】

ここで、該数字マッピング関係集合は所定の数字マッピング関係集合であることができ、該数字サンプルと歌曲マークとの間のマッピング関係をシステムによって事前に設定することができ、ユーザが自己設定することもできる。つまり、ステップ「ビデオ中のオーディオファイルを抽出する」前、該歌曲確定方法は、
歌曲のオーディオ指紋を取得し、該オーディオ指紋を数字特徴に変換させることと、
マッピング関係の確立が必要が数字特徴と歌曲マークとを指示する数字マッピング関係設定要求を受信することと、
該数字マッピング関係設定要求に基づいて、数字特徴と歌曲マークとの間のマッピング関係を取得して、数字マッピング関係集合を得ることと、をさらに含むことができる。

【0111】

同様に、ステップ「該整合する指紋サンプルの整合する歌曲中の第２オフセット時間を取得する」ことは、数字時間マッピング関係集合に基づいて、整合する数字サンプルに対応する第２オフセット時間を取得することを含むことができ、ここで、数字時間マッピング関係集合は数字サンプルとオフセット時間との間のマッピング関係を含む。例えば、数字時間マッピング関係集合の取得方式については、上述した数字マッピング関係集合又は時間マッピング関係集合を構築する方式を参照することができ、ここでは詳細な説明を省略する。

【0112】

本発明の実施例の一実施形態において、該数字マッピング関係集合と該数字時間マッピング関係集合が一つの集合に設定されることができ、例えば、数字サンプルと歌曲マークとの間のマッピング関係及び数字サンプルとオフセット時間との間のマッピング関係を含む総合マッピング関係集合を設定することができ、例えば予め設定された数字サンプル集合と、予め設定された数字サンプル集合中の数字サンプルに対応する歌曲マークと、予め設定された数字サンプル集合中の数字サンプルに対応するオフセット時間とを含むマッピング関係表を設定することもできる。

【0113】

例えば、歌曲データベースから歌曲を取得し、その後、歌曲のオーディオ指紋及びそれに対応するオフセット時間を取得し、オーディオ指紋を特徴数字ｈａｓｈ＿ｋｅｙに変換させた後、ｈａｓｈ＿表を構築することができ、該ｈａｓｈ＿表は複数のｈａｓｈ＿記録を含み、各ｈａｓｈ＿記録は、{ｈａｓｈ＿ｋｅｙ}：(ｖａｌｕｅ)を含み、ここで、ｈａｓｈ＿ｋｅｙ＝ｆ１・２^１２+△ｆ・２^６+△ｔ（ビットの高さに応じて構成された一つの２０ｂｉｔ整数）、ｖａｌｕｅ＝｛ｓｏｎｇ＿ｉｄ：ｔ＿１｝、３２ｂｉｔ数字で表し、ここで、ｓoｎg_idが１９ｂｉｔ（５２万個の歌曲と表すことができる）を占め、ｔ１が１３ｂｉｔを占める（フレームシフトが０.０３２ｍｓであると、最も長い歌曲の長さが５ｍｉｎであることを示す）。

【0114】

上述のように、本発明の実施例は、該オーディオファイルを複数のオーディオ断片に分割し、該オーディオ断片のオーディオ指紋を取得し、その後、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定し、ＹＥＳであると、整合する指紋サンプルに対応する歌曲マークを取得して、該オーディオ断片に対応する第１歌曲マーク集合を得て、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択する。該方案によると、ビデオ挿入歌が属する全ての候補歌曲を取得し、その後、候補歌曲とビデオのオーディオの整合に基づいて、該候補歌曲からビデオ挿入歌に対応する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲を確定する精度及び効率を向上させる。

【0115】

そして、本発明の実施例において、スペクトルピーク点でオーディオ指紋を構成するので、ビデオ挿入歌に対応する候補歌曲及びそのマークを精確に取得でき、ビデオ挿入歌が属する候補歌曲を確定又は位置づける精度を一層向上させる。

【0116】

本発明の実施例はさらに歌曲確定装置を提供し、図３ａに示すように、該歌曲確定装置は、マーク取得ユニット３０１と、オーディオフレーム取得ユニット３０２と、歌曲確定ユニット３０３と、をさらに含むことができる。

【0117】

（１）マーク取得ユニット３０１
マーク取得ユニット３０１は、ビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得るように構成される。

【0118】

例えば、該マーク取得ユニット３０１は、オーディオ抽出サブユニットと、指紋取得サブユニットと、確定サブユニットと、マーク集合取得サブユニットと、選択サブユニットとを含むことができる。

【0119】

該オーディオ抽出サブユニットは、ビデオ中のオーディオファイルを抽出するように構成される。

【0120】

該指紋取得サブユニットは、該オーディオファイルを複数のオーディオ断片に分割して、該オーディオ断片のオーディオ指紋を取得するように構成される。

【0121】

該確定サブユニットは、予め設定されたサンプル集合に該オーディオ指紋に整合する指紋サンプルがあるか否かを確定するように構成される。

【0122】

該マーク集合取得サブユニットは、該オーディオ指紋に整合する指紋サンプルが存在すると確定した場合、整合する指紋サンプルに対応する歌曲マークを取得して、複数の該歌曲マークを含む該オーディオ断片に対応する歌曲マーク集合を得るように構成される。

【0123】

該選択サブユニットは、該歌曲マーク集合から該挿入歌が属する候補歌曲の候補歌曲マークを選択するように構成される。

【0124】

ここで、ビデオを取得する方式は様々があって、例えば、ビデオサーバに要求を送信してビデオを取得することができ、ローカルに記憶されたものからビデオを抽出することもできる。つまり、オーディオ抽出サブユニットは具体的に、
ビデオサーバにビデオ取得要求を送信し、
該ビデオサーバが該ビデオ取得要求に応じて返信したビデオを受信し、
該ビデオ中のオーディオファイルを抽出するように構成される。

【0125】

【0126】

例えば、該オーディオファイルを分割する方式は様々があって、例えば、予め設定されたフレーム長と予め設定されたフレームシフトで、オーディオファイルを複数のオーディオ断片に分割することができ、各オーディオ断片の時間長は予め設定されたフレーム長と同じである。

【0127】

【0128】

例えば、オーディオ断片のオーディオ指紋を取得する方式もさまざまであって、例えば、
該オーディオ断片中のオーディオフレームに対応するスペクトルを取得し、
該スペクトルから該オーディオフレームに対応するスペクトルピーク点を抽出して、該オーディオフレームに対応するスペクトルピーク点を含む該オーディオ断片に対応するピーク集合を得て、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る方式で取得することができる。

【0129】

例えば、ステップ「該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得る」ことは、
該ピーク集合中のスペクトルピーク点を二つずつ組み合わせて、該オーディオ断片のオーディオ指紋を得ることを含むことができる。

【0130】

本発明の実施例の一実施形態において、歌曲マーク集合から候補歌曲マークを選択する方式は様々があって、例えば、オーディオ指紋のオフセット時間に基づいて取得することができ、つまり、該歌曲確定装置は、指紋取得サブユニットがオーディオ指紋を取得した後であって、選択サブユニットが候補歌曲マークを選択する前、該オーディオ指紋の該オーディオ断片中の第１オフセット時間及び該整合する指紋サンプルの整合する歌曲中の第２オフセット時間を取得するように構成されたオフセット時間取得ユニットをさらに含み、ここで、該第１オフセット時間は該スペクトルピーク点の該オーディオ断片内の時間であって、該整合する歌曲は該歌曲マークに対応する歌曲である。

【0131】

このとき、選択サブユニットは、具体的に、
該第１オフセット時間と該第２オフセット時間に基づいて、該オーディオ断片の該整合歌曲中の開始時間を取得し、
該オーディオ断片の整合する歌曲中の開始時間に基づいて、該歌曲マーク集合から該候補歌曲マークを選択するように構成される。

【0132】

例えば、選択サブユニットは具体的に、
該歌曲マーク集合中の歌曲マークに対応する開始時間を取得して、時間集合を得て、
各種の該開始時間の数量に基づいて、該時間集合から目標開始時間を確定し、
歌曲マーク集合から該目標開始時間に対応する歌曲マークを選択して候補歌曲マークとするように構成される。

【0133】

（２）、オーディオフレーム取得ユニット３０２
該オーディオフレーム取得ユニット３０２は、候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、整合オーディオフレームユニットを得るように構成され、ここで、該整合オーディオフレームユニットは複数の連続する整合オーディオフレームを含む。

【0134】

例えば、該オーディオフレーム取得ユニット３０２は、具体的に、整合サブユニットと、第１取得サブユニットと、第２取得サブユニットとを含むことができる。

【0135】

該整合サブユニットは、該候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と該オーディオファイル中の第２オーディオフレームのオーディオ特徴とを整合して、整合結果を得るように構成される。

【0136】

該第１取得サブユニットは、該整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得するように構成される。

【0137】

該第２取得サブユニットは、該整合オーディオフレームに基づいて、整合オーディオフレームユニットを取得するように構成される。

【0138】

ここで、該整合サブユニットは、具体的に、
該候補歌曲ファイル中の第１オーディオフレームのフレーム数を取得し、該オーディオファイルからオーディオフレームユニットを選択し、該オーディオフレームユニットは該フレーム数と同数の第２オーディオフレームを含み、
該候補歌曲ファイル中の第１オーディオフレームのオーディオ特徴と該オーディオフレームユニット中の第２オーディオフレームのオーディオ特徴とを整合して、オーディオ特徴の整合結果を得るように構成される。

【0139】

このとき、該第１取得サブユニットは、具体的に、該オーディオ特徴の整合結果に基づいて、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得するように構成され、該整合オーディオフレームはオーディオ特徴の整合に成功したオーディオフレームである。

【0140】

該第２取得サブユニットは、具体的に、
整合オーディオフレームに基づいて、フレーム連続ユニットを取得し、該フレーム連続ユニットは複数の連続する該整合オーディオフレームを含み、
フレーム連続ユニット中の整合オーディオフレームの数量を取得し、該数量に基づいて、該フレーム連続ユニットを整合オーディオフレームユニットとして確定するように構成される。

【0141】

本発明の実施例の一実施形態において、本発明の実施例の歌曲確定装置は、マーク取得ユニット３０１が候補歌曲マークを取得した後であって、整合サブユニットが特徴の整合を行う前、該候補歌曲ファイル中の第１オーディオフレームに対応するオーディオ特徴を取得するように構成された特徴取得ユニットをさらに含む。

【0142】

例えば、該特徴取得ユニットは、具体的に、
候補歌曲ファイル中の各第１オーディオフレームに対応するスペクトルを取得し、
該第１オーディオフレームに対応するスペクトルを予定の数量の周波数帯に分割して、該周波数帯に対応する平均幅値を取得し、
各該周波数帯の平均幅値と一つ前の第１オーディオフレームの対応する周波数帯の平均幅値とを比較して、比較結果を得て、
該比較結果に基づいて、該第１オーディオフレームに対応するオーディオ特徴を取得するように構成される。

【0143】

例えば、候補歌曲ファイルを予め設定されたフォーマットのオーディオ（例えば、８ｋ１６ｂｉｔオーディオ）に変換し、その後、第１の予定の数量のサンプルポイントを１フレームとし、第２の予定の数量のサンプルポイントをフレームシフトとしてフーリエ変換を行って、スペクトルを得て（例えば、１８５６個のサンプルポイントを１フレームとし、５８個のサンプルポイントをフレームシフトとしてフーリエ変換を行う）、続いて、該スペクトルを第３の予定の数量（例えば、３２個）の周波数帯に均一に分割し、各周波数帯に対応する平均幅値を計算し、その後、各周波数帯と一つ前のフレーム中の対応する周波数帯とを比較し（第２オーディオフレーム中の一番目の周波数帯と第１オーディオフレームの一番目の周波数帯とを比較し、第２オーディオフレーム中の二番目の周波数帯と第１オーディオフレーム中の二番目の周波数帯とを比較し、類似に、全ての周波数帯を比較する）、大きいと１であって、小さいと０であって、このようにして、各フレームは第３の予定の数量のｂｉｔ値からなるデータユニットを得ることができ、該データユニットが該フレームのオーディオ特徴である。例えば、スペクトルを３２個の周波数帯に分割した場合、各オーディオフレームは３２個のｂｉｔ値を含むデータユニットを得ることができ、該３２個のｂｉｔ値が各オーディオフレームのオーディオ特徴である。

【0144】

（３）、歌曲確定ユニット３０３
該歌曲確定ユニット３０３は、前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得し、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。

【0145】

例えば、該歌曲確定ユニット３０３は具体的に、オーディオフレーム拡張サブユニットと、時間取得サブユニットと、マーク取得サブユニットと、歌曲確定サブユニットと、を含むことができる。

【0146】

該オーディオフレーム拡張サブユニットは、該候補歌曲マークに対応する該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲マークに対応する整合歌曲断片を得るように構成される。

【0147】

該時間取得サブユニットは、該整合歌曲断片に基づいて、候補歌曲マークに対応する時間情報を取得するように構成され、該時間情報は、該整合歌曲断片の該ビデオ中の第１開始時間、該候補歌曲中の第２開始時間及び該整合歌曲断片の時間長を含む。

【0148】

前記マーク取得サブユニットは、前記候補マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得するように構成される。

【0149】

前記歌曲確定サブユニットは、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。

【0150】

ここで、オーディオフレーム拡張サブユニットは具体的に、
該候補歌曲ファイルと該オーディオファイルで該整合オーディオフレームユニットにオーディオフレーム拡張を行って、該候補歌曲ファイル中の第１整合オーディオフレーム拡張ユニット及び該オーディオファイル中の第２整合オーディオフレーム拡張ユニットを得て、
該第１整合オーディオフレーム拡張ユニット中の第１オーディオフレームのオーディオ特徴と該第２整合オーディオフレーム拡張ユニット中の第２オーディオフレームのオーディオ特徴とを整合して、拡張ユニット間の整合オーディオフレームを得て、
該拡張ユニット間の整合オーディオフレームの数量に基づいて、該第１整合オーディオフレーム拡張ユニット又は第２整合オーディオフレーム拡張ユニットを該候補歌曲と該オーディオファイルとが整合する整合歌曲断片として確定するように構成される。

【0151】

ここで、マーク取得サブユニットは具体的に、
候補歌曲マークに対応する第２開始時間と該時間長に基づいて、該候補歌曲マークに対応する再生時間を取得し、該再生時間は該整合歌曲断片の該ビデオ中の再生時間であって、
候補歌曲マークに対応する再生時間に基づいて、該候補歌曲マーク集合中の候補歌曲マークをろ過して、ろ過後の候補マーク集合を得て、
該ろ過後の候補マーク集合中の該候補歌曲を該挿入歌が属する目標歌曲の目標歌曲マークとするように構成される。

【0152】

例えば、候補歌曲マークに対応する再生時間を取得した後、再生時間が含む関係である候補歌曲マークを確定し、その後、再生時間が含まれた候補歌曲マークをろ過することができる。さらに、例えば候補歌曲マークに対応する再生時間を取得した後、再生時間が重複関係である候補歌曲マークを確定し、その後、再生時間長が短い候補歌曲マークをろ過することもできる。

【0153】

本発明の実施例の一実施形態において、図３ｂを参照して、図３ａに基づいて本発明の実施例に係る歌曲確定装置は歌詞添加ユニット３０４をさらに含むことができる。

【0154】

該歌詞添加ユニット３０４は、前記目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、前記挿入歌に対応する歌詞を前記ビデオに添加するように構成される。

【0155】

対応して、歌曲確定ユニット３０３中の前記マーク取得サブユニットと前記歌曲確定サブユニットの場合、
前記マーク取得サブユニットは、前記候補マークに対応する時間情報に基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得するように構成され、
前記歌曲確定サブユニットは、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定するように構成される。

【0156】

例えば、該歌詞添加ユニット３０４は、歌詞取得サブユニットと添加サブユニットとを含むことができる。

【0157】

該歌詞取得サブユニットは、目標歌曲マーク及びそれに対応する該第１開始時間と該時間長に基づいて、該挿入歌に対応する歌詞を取得するように構成される。

【0158】

該添加サブユニットは、該目標歌曲マークに対応する該第２開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するように構成される。

【0159】

例えば、目標歌曲マークに基づいて対応する目標歌曲の目標歌詞ファイルを取得し、その後、整合歌曲断片の該目標歌曲中の開始時間と整合歌曲断片の時間長に基づいて、該目標歌詞ファイルから挿入歌に対応する歌詞を抽出し、つまり、歌詞取得サブユニットは具体的に、
目標歌曲マークに基づいて、対応する目標歌曲の歌詞ファイルを取得し、
目標歌曲マークに対応する第１開始時間と時間長に基づいて、該歌詞ファイルから対応する歌詞を抽出して、挿入歌の歌詞とするように構成されることができる。

【0160】

さらに、例えば、添加サブユニットは具体的に、
該目標歌曲に対応する第２開始時間と時間長に基づいて、歌詞のビデオ中の表示時間を取得し、
該表示時間に基づいて、該歌詞を該ビデオに添加するように構成されることができる。

【0161】

本発明の実施例の一実施形態において、完全な文である挿入歌の歌詞を表示してユーザの体験を向上させるため、挿入歌の歌詞を取得した後、歌詞が完全な文であるか否かを確定し、ＹＥＳであると、歌詞を添加する操作を行うことができる。つまり、本発明の実施例に係る歌曲確定装置は、歌詞確定ユニット３０５をさらに含むことができる。図３ｃを参照。

【0162】

該歌詞確定ユニット３０５は、歌詞添加ユニット３０４が該挿入歌に対応する歌詞を取得した後、歌詞を該ビデオに添加する前、歌詞が完全な文であるか否かを確定するように構成される。

【0163】

このとき、該歌詞添加ユニット３０４は、具体的に、歌詞確定ユニット３０５が歌詞が完全な文であると確定した場合、該目標歌曲マークに対応する該第２開始時間と該時間長に基づいて、該歌詞を該ビデオに添加するステップを実行するように構成される。

【0164】

本発明の実施例の一実施形態において、本発明の実施例は、ビデオに一つのインタフェースを設け、これにより、ビデオ挿入歌を再生するときに該インタフェースを介して該ビデオ挿入歌が属する歌曲にジャンプできる。つまり、本発明の実施例に係る歌詞添加方法は、インタフェース設定ユニットをさらに含むことができる。

【0165】

該インタフェース設定ユニットは、歌曲確定ユニット３０３が挿入歌の目標歌曲マークを取得した後、端末が該挿入歌を再生するときに該挿入歌が属する目標歌曲の再生にジャンプするように、目標歌曲マークに基づいて該ビデオにジャンプインタフェースを設定するように構成されることができる。

【0166】

ここで、該ジャンプインタフェースの形態はさまざまで、例えばボタン、入力枠等であることができ、実際の需要に応じて設定することができる。

【0167】

本発明の実施例の一実施形態において、該インタフェース設定ユニットはさらに、歌曲確定ユニット３０３が目標歌曲マークを取得した後、目標歌曲マークに基づいて、端末が前記挿入歌を再生するときに前記目標歌曲をミュージックソフトウェアの歌曲リストに追加するように、前記ビデオに追加インタフェースを設定するように構成されることもできる。

【0168】

具体的に実施する際、上述した各ユニットを単独のエンティティとして実現することができ、そして任意に組み合わせることもでき、同一又は幾つかのエンティティとして実現することもでき、上述した各ユニットの具体的な実施については上述した方法実施例を参照でき、ここでは詳細な説明を省略する。

【0169】

上述のように、本発明の実施例に係る歌曲確定装置は、マーク取得ユニット３０１によってビデオ中のオーディオファイルを抽出し、該オーディオファイル中の挿入歌が属する候補歌曲の候補歌曲マークを取得して、候補歌曲マーク集合を得て、その後、オーディオフレーム取得ユニット３０２によって候補歌曲マークに対応する候補歌曲ファイルを取得し、該候補歌曲ファイルと該オーディオファイルとが整合する整合オーディオフレームを取得して、複数の連続する整合オーディオフレームを含む整合オーディオフレームユニットを得て、また、歌曲確定ユニット３０３によって前記候補歌曲マークに対応する前記整合オーディオフレームユニットに基づいて、前記候補歌曲マーク集合から目標歌曲マークを取得し、前記目標歌曲マークに基づいて前記挿入歌が属する目標歌曲を確定する。

【0170】

該方案によると、まずビデオ挿入歌が属する候補歌曲の候補歌曲マーク集合を取得し、その後、ビデオのオーディオファイルと歌曲との整合オーディオフレームに基づいて、候補歌曲マーク集合からビデオ挿入歌が属する歌曲のマークを選択して、ビデオ挿入歌が属する歌曲を確定することで、既存技術に比べ、ビデオ挿入歌に対応する歌曲の確定又は位置づけの精度と効率を向上させることができる。

【0171】

そして、本発明の実施例に係る装置はさらに、ビデオ挿入歌が属する歌曲を確定した後、目標歌曲マーク及びそれに対応する整合オーディオフレームユニットに基づいて、該挿入歌に対応する歌詞を該ビデオに添加する。該方案によると、ビデオ挿入歌と歌曲との整合を自動に完成して、ビデオ挿入歌が属する歌曲を確定し、ビデオ挿入歌の歌詞を自動に取得して添加することで、既存技術に比べ、ビデオ挿入歌の歌詞を添加する精度及び効率を向上させることもできる。

【0172】

図４は本発明の実施例で提供する歌曲確定装置４０の構成を示す図である。図４に示す構造は適切な構造を有する実例、歌曲確定装置４０の構造に何らかの制限を加えるものではない。歌曲確定装置４０は、例えばサーバコンピュータと、小型コンピュータと、大型コンピュータと、任意の上記装置とを含む分布式計算環境で実現されることができる。

【0173】

特別な要求はないが、「コンピュータ読取可能な命令」が一つ又は複数の歌曲確定装置によって実行される汎用の背景で実施例を説明した。コンピュータ読取可能な命令はコンピュータ読取可能な媒体を介して分布されることができる（以下で説明）。コンピュータ読取可能な命令は、例えば特定のジョブを実行したり又は特定の抽象化データタイプの機能、対象、アプリケーションプログラミングインタフェース（ＡＰＩ）、データ構造等を実現するプログラム手段として実現されることができる。典型的に、該コンピュータ読取可能な命令の機能が各種の環境で任意に組み合せられたり又は分布されることができる。

【0174】

図４に本発明の実施例で提供する歌曲確定装置４０を含む構造の実例を示す。１配置形態において、歌曲確定装置４０は、少なくとも一つの処理ユニット４１と記憶ユニット４２とを含む。歌曲確定装置の適切な配置及びタイプによると、記憶ユニット４２は揮発性（例えば、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））、不揮発性（例えば読取専用メモリ（ＲＯＭ、ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュ等）又は両方の組み合せであることができる。図４において点線で当該配置を示す。

【0175】

他の実施例において、歌曲確定装置４０は付加的な特徴及び／又は機能を有することができる。例えば、歌曲確定装置４０は、付加的な記憶装置（例えば取り外し可能及び／又は取り外し不能）をさらにふくむことができ、磁気記憶装置、光学記憶装置等を含むがこれらに限定されることはない。このような付加的な記憶装置を図４において記憶ユニット４３で示す。一実施例において、本発明の実施例で提供する一つ又は複数の実施例を実現するためのコンピュータ読取可能な命令は記憶ユニット４３に記憶されることができる。記憶ユニット４３はさらに、オペレーティングシステム、アプリケーション等を実現するための他のコンピュータ読取可能な命令を記憶することもできる。コンピュータ読取可能な命令は、記憶ユニット４２に記憶されて例えば処理ユニット４１によって実行されることができる。

【0176】

本発明の実施例で使用した用語「コンピュータ読取可能な媒体」は、コンピュータ記憶媒体を含む。コンピュータ記憶媒体は、例えばコンピュータ読取可能な命令又は他のデータ等の情報を含むいずれかの方法又は技術で実現される揮発性と不揮発性媒体、取り外し可能と取り外し不能な媒体を含む。記憶ユニット４２と記憶ユニット４３はコンピュータ記憶媒体の実例である。コンピュータ記憶媒体はＲＡＭ、ＲＯＭ、電気的に消去可能なプログラム可能な読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ又は他のメモリ技術、ＣＤ−ＲＯＭ、デジタルユニバーサルディスク（ＤＶＤ）又は他の光学記憶装置、カセットテープ、磁気テープ、ディスク記憶装置又は他の磁気記憶装置、又は所望の情報を記憶でき歌曲確定装置４０がアクセス可能な他の媒体を含むが、これらに限定されない。このようなコンピュータ記憶媒体は全て歌曲確定装置４０の一部であることができる。

【0177】

歌曲確定装置４０は、歌曲確定装置４０が他の機器と通信を行うように、通信接続４６をさらに含むことができる。通信接続４６は、モデム、ネットワークインタフェースカード（ＮＩＣ）、集積ネットワークインタフェース、ＲＦ受送信器、赤外線ポート、ＵＳＢ接続又は歌曲確定装置４０を他の歌曲確定装置に接続する他のインタフェースを含むが、これらに限定されることはない。通信接続４６は、有線接続又は無線接続を含む。通信接続４６は通信媒体を受送信できる。

【0178】

用語「コンピュータ読取可能な媒体」は、通信媒体を含むことができる。典型的な例として、通信媒体はコンピュータ読取可能な命令又は例えばキャリア又は他の伝送機構等の「変調済みデータ信号」中の他のデータを含み、全ての情報伝送媒体を含む。用語「変調済みデータ信号」は、該信号の一つ又は複数の特性が、情報を信号に符号化する方式で設定されたか又は改善された信号を含むことができる。

【0179】

歌曲確定装置４０は、例えばキーボート、マウス、ペン、音声入力機器、タッチ入力機器、赤外線カメラ、ビデオ入力機器及び／又は任意の他の入力機器等の入力ユニット４５を含むことができる。歌曲確定装置４０は、例えば一つ又は複数のディスプレイ、スピーカー、プリンタ及び／又は任意の他の出力機器等の出力ユニット４４をさらに含むこともできる。入力ユニット４５と出力ユニット４４は有線接続、無線接続又はこれのに任意の組み合せによって歌曲確定装置４０に接続されることができる。一実施例において、他の歌曲確定装置からの入力機器又は出力機器が歌曲確定装置４０の入力ユニット４５又は出力ユニット４４として用いられることもできる。

【0180】

歌曲確定装置４０のコンポーネントは各種の相互接続（例えば、バス）によって接続されることができる。このような相互接続は、外部機器相互接続バス（ＰＣＩ、ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）（例えば、高速ＰＣＩ）、ユニバーサル・シリアル・バス（ＵＳＢ、ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、ファイアワイア（ＩＥＥＥ１３９４）、光学バス構造等を含むことができる。他の一実施例において、歌曲確定装置４０のコンポーネントはネットワークを介して相互接続されることができる。例えば、記憶ユニット４２が、異なる物理的位置に位置し、ネットワークを介して相互接続された複数の物理メモリユニットから構成されることができる。

【0181】

以上、本発明の実施例で提供する歌曲確定方法、装置と記憶媒体を詳細に説明し、本願において具体的な数量の例で本発明の原理及実施形態を説明し、以上の実施例の説明は本発明の方法及びその核心思想を理解させるためのものである。同時に、当業者は本発明の思想に基づいて、具体的な実施形態や応用範囲を変更することができ、上述のように、本願の明細書の内容は本発明を制限するものではない。

【図1】