(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-04
(45)【発行日】2024-10-15
(54)【発明の名称】ターゲットビデオを生成するための方法、装置、サーバ及び媒体
(51)【国際特許分類】
H04N 21/8549 20110101AFI20241007BHJP
G10L 15/00 20130101ALI20241007BHJP
H04N 21/234 20110101ALI20241007BHJP
H04N 21/233 20110101ALI20241007BHJP
H04N 23/60 20230101ALI20241007BHJP
【FI】
H04N21/8549
G10L15/00 200Z
H04N21/234
H04N21/233
H04N23/60 300
(21)【出願番号】P 2023507247
(86)(22)【出願日】2021-08-11
(86)【国際出願番号】 CN2021112140
(87)【国際公開番号】W WO2022033534
(87)【国際公開日】2022-02-17
【審査請求日】2023-02-01
(31)【優先権主張番号】202010806612.5
(32)【優先日】2020-08-12
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520476341
【氏名又は名称】北京字節跳動網絡技術有限公司
【氏名又は名称原語表記】Beijing Bytedance Network Technology Co., Ltd.
【住所又は居所原語表記】Room B-0035, 2/F, No.3 Building, No.30, Shixing Road, Shijingshan District Beijing 100041 China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ラン,フォン
【審査官】鈴木 順三
(56)【参考文献】
【文献】国際公開第2017/077751(WO,A1)
【文献】中国特許出願公開第111050191(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
H04N 21/00 - 21/858
G10L 15/00 - 17/26
H04N 23/40 - 23/76
(57)【特許請求の範囲】
【請求項1】
ターゲットビデオを生成するための方法であって、
ライブストリーミングデータを取得するステップであって、前記ライブストリーミングデータには、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれるステップと、
前記ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するステップと、
生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、前記ライブストリーミングデータの総合メトリック値を生成するステップと、
前記ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、前記ライブストリーミングデータに基づいてターゲットビデオを生成するステップ
であって、前記予め設定された条件は、前記ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含むステップと、を含むことを特徴とする方法。
【請求項2】
前記ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するビデオメトリック値を生成する前記ステップは、
前記ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定するステップと、
決定された前記第1プリセットカテゴリ画像に属する数及び前記第2プリセットカテゴリ画像に属する数に基づいて、前記ビデオメトリック値を生成するステップと、を含むことを特徴とする請求項1に記載の方法。
【請求項3】
決定された前記第1プリセットカテゴリ画像に属する数及び前記第2プリセットカテゴリ画像に属する数に基づいて、前記ビデオメトリック値を生成する前記ステップは、
前記第1プリセットカテゴリ画像及び前記第2プリセットカテゴリ画像にそれぞれ対応するプリセット画像重み値を取得するステップと、
決定された前記第1プリセットカテゴリ画像に属する数及び前記第2プリセットカテゴリ画像に属する数と、それぞれ対応する前記プリセット画像重み値とに対して、加重和を実行して、上記ビデオメトリック値を生成するステップと、を含むことを特徴とする請求項2に記載の方法。
【請求項4】
前記ライブストリーミングデータは、音声データを含み、
前記ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値を生成する前記ステップは、
前記音声データを音声認識し、音声認識テキストを生成するステップと、
前記音声認識テキストに含まれるテキストの第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定するステップと、
決定された前記第1プリセットカテゴリテキストに属する数及び前記第2プリセットカテゴリテキストに属する数に基づいて、前記音声メトリック値を生成するステップと、を含むことを特徴とする請求項1から3のいずれか1項に記載の方法。
【請求項5】
前記ライブストリーミングデータは、ライブインタラクションデータを含み、
前記ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するインタラクションメトリック値を生成する前記ステップは、
前記ライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定するステップと、
決定されたターゲットインタラクション挙動の数に基づいて、前記インタラクションメトリック値を生成するステップと、を含むことを特徴とする請求項1から4のいずれか1項に記載の方法。
【請求項6】
前記ターゲットインタラクション挙動は、第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動のうちの少なくとも2つを含み、
決定されたターゲットインタラクション挙動の数に基づいて、前記インタラクションメトリック値を生成する前記ステップは、
決定されたターゲットインタラクション挙動の数、及び前記第1プリセットインタラクション挙動、前記第2プリセットインタラクション挙動、前記第3プリセットインタラクション挙動に対応するプリセットインタラクション重みに基づいて、加重和を実行して、前記インタラクションメトリック値を生成するステップ、を含むことを特徴とする請求項5に記載の方法。
【請求項7】
生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、前記ライブストリーミングデータの総合メトリック値を生成する前記ステップは、
生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値のそれぞれに対応するプリセットメトリック重みを取得するステップと、
生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化するステップと、
正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行して、前記ライブストリーミングデータの総合メトリック値を生成するステップと、を含むことを特徴とする請求項1から6のいずれか1項に記載の方法。
【請求項8】
前記総合メトリック値条件は、ライブストリーミングスライスに対応する総合メトリック値が前記ライブストリーミングデータの総合メトリック値よりも小さいことを含む、ことを特徴とする請求項1から7のいずれか1項に記載の方法。
【請求項9】
前記ライブストリーミングデータは、音声データを含み、
前記ライブストリーミングデータに基づいてターゲットビデオを生成する前記ステップは、
前記音声データに対応する認識テキストの語句完全性に基づいて、前記ライブストリーミングデータのクリップの開始/終了位置を決定するステップと、
クリップされたライブストリーミングデータに基づいてターゲットビデオを生成するステップと、を含むことを特徴とする請求項1から8のいずれか1項に記載の方法。
【請求項10】
クリップされたライブストリーミングデータに基づいてターゲットビデオを生成する前記ステップは、
前記クリップされたライブストリーミングデータに特殊効果を加えて、ターゲットビデオを生成するステップ、を含むことを特徴とする請求項9に記載の方法。
【請求項11】
ターゲットビデオを生成するための装置であって、
ライブストリーミングデータを取得するように構成される取得ユニットであって、前記ライブストリーミングデータには、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれる取得ユニットと、
前記ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するように構成される処理ユニットと、
生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、前記ライブストリーミングデータの総合メトリック値を生成するように構成される第1生成ユニットと、
前記ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、前記ライブストリーミングデータに基づいてターゲットビデオを生成するように構成される第2生成ユニット
であって、前記予め設定された条件は、前記ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含む第2生成ユニットと、
を含むことを特徴とする装置。
【請求項12】
1つまたは複数のプロセッサと、
1つまたは複数のプログラムが記憶されている記憶装置と、
を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサに請求項1から10のいずれか1項に記載の方法を実現させる、ことを特徴とするサーバ。
【請求項13】
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
当該コンピュータプログラムがプロセッサによって実行されるとき、請求項1から10のいずれか1項に記載の方法を実現する、ことを特徴とするコンピュータ可読媒体。
【請求項14】
コンピュータプログラムであって、
コンピュータによって実行されるとき、前記コンピュータに請求項1から10のいずれか1項に記載の方法を実現させる、ことを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年8月12日に中国特許庁に提出された、出願番号が202010806612.5であって、発明の名称が「ターゲットビデオを生成するための方法、装置、サーバ及び媒体」である中国特許出願に基づく優先権を主張するものであり、その全内容を本出願に参照により援用する。
本出願の実施例は、コンピュータ技術の分野に関し、具体的に、ターゲットビデオを生成するための方法、装置、サーバ及び媒体に関する。
【背景技術】
【0002】
インターネット技術の飛躍的な発展に伴い、ビデオライブ配信の応用もますます広くなっている。
【0003】
関連する方式は通常、まずライブストリーミングデータをロングビデオファイルに格納し、さらに手動でロングビデオファイルから必要なセグメントを切り取り、ショートビデオを生成することである。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本出願の実施例は、ターゲットビデオを生成するための方法、装置、サーバ及び媒体を提供する。
【課題を解決するための手段】
【0005】
第1態様によれば、本出願の実施例は、ターゲットビデオを生成するための方法を提供し、当該方法は、ライブストリーミングデータを取得するステップであって、前記ライブストリーミングデータには、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれるステップと、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するステップと、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成するステップと、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成するステップと、を含む。
【0006】
いくつかの実施例では、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するビデオメトリック値を生成する上記ステップは、ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定するステップと、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を生成するステップと、を含む。
【0007】
いくつかの実施例では、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を生成する上記ステップは、第1プリセットカテゴリ画像及び第2プリセットカテゴリ画像にそれぞれ対応するプリセット画像重み値を取得するステップと、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数と、それぞれ対応する画像プリセット重み値とに対して、加重和を実行して、上記ビデオメトリック値を生成するステップと、を含む。
【0008】
いくつかの実施例では、上記ライブストリーミングデータは、音声データを含み、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値を生成する上記ステップは、音声データを音声認識し、音声認識テキストを生成するステップと、音声認識テキストに含まれるテキストの第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定するステップと、決定された、第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数に基づいて、音声メトリック値を生成するステップと、を含む。
【0009】
いくつかの実施例では、上記ライブストリーミングデータは、ライブインタラクションデータを含み、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するインタラクションメトリック値を生成する上記ステップは、ライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定するステップと、決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を生成するステップと、を含む。
【0010】
いくつかの実施例では、上記ターゲットインタラクション挙動は、第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動のうちの少なくとも2つを含み、決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を生成する上記ステップは、決定されたターゲットインタラクション挙動の数、及び第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動に対応するプリセットインタラクション重みに基づいて、加重和を実行して、インタラクションメトリック値を生成するステップを含む。
【0011】
いくつかの実施例では、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成する上記ステップは、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値のそれぞれに対応するプリセットメトリック重みを取得するステップと、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化するステップと、正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行し、ライブストリーミングデータの総合メトリック値を生成するステップと、を含む。
【0012】
いくつかの実施例では、上記予め設定された条件は、ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含み、総合メトリック値条件は、ライブストリーミングスライスに対応する総合メトリック値がライブストリーミングデータの総合メトリック値よりも小さいことを含む。
【0013】
いくつかの実施例では、上記ライブストリーミングデータは、音声データを含み、ライブストリーミングデータに基づいてターゲットビデオを生成する上記ステップは、音声データに対応する認識テキストの語句完全性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定するステップと、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成するステップと、を含む。
【0014】
いくつかの実施例では、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成する上記ステップは、クリップされたビデオストリームデータに特殊効果を加えて、ターゲットビデオを生成するステップを含む。
【0015】
第2態様によれば、本出願の実施例は、ターゲットビデオを生成するための装置を提供し、当該装置は、ライブストリーミングデータを取得するように構成される取得ユニットであって、前記ライブストリーミングデータには、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれる取得ユニットと、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するように構成される処理ユニットと、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成するように構成される第1生成ユニットと、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成するように構成される第2生成ユニットと、を含む。
【0016】
いくつかの実施例では、上記処理ユニットは、ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定するように構成される第1認識サブユニットと、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を生成するように構成される第1生成サブユニットと、を含む。
【0017】
いくつかの実施例では、上記第1生成サブユニットは、第1プリセットカテゴリ画像及び第2プリセットカテゴリ画像にそれぞれ対応するプリセット画像重み値を取得するように構成される取得モジュールと、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数と、それぞれ対応する画像プリセット重み値とに対して、加重和を実行し、上記ビデオメトリック値を生成するように構成される生成モジュールと、を含む。
【0018】
いくつかの実施例では、上記ライブストリーミングデータは、音声データを含み、上記処理ユニットは、音声データを音声認識し、音声認識テキストを生成するように構成される第2認識サブユニットと、音声認識テキストに含まれるテキストの第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定するように構成される第1決定サブユニットと、決定された、第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数に基づいて、音声メトリック値を生成するように構成される第2生成サブユニットと、を含む。
【0019】
いくつかの実施例では、上記ライブストリーミングデータは、ライブインタラクションデータを含み、上記処理ユニットは、ライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定するように構成される第2決定サブユニットと、決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を生成するように構成される第3生成サブユニットと、を含む。
【0020】
いくつかの実施例では、上記ターゲットインタラクション挙動は、第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動のうちの少なくとも2つを含み、上記第3生成サブユニットはさらに、決定されたターゲットインタラクション挙動の数、及び第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動に対応するプリセットインタラクション重みに基づいて、加重和を実行し、インタラクションメトリック値を生成するように構成される。
【0021】
いくつかの実施例では、上記第1生成ユニットは、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値のそれぞれに対応するプリセットメトリック重みを取得するように構成される取得サブユニットと、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化するように構成される正規化サブユニットと、正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行し、ライブストリーミングデータの総合メトリック値を生成するように構成される第4生成サブユニットと、を含む。
【0022】
いくつかの実施例では、上記予め設定された条件は、ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含み、総合メトリック値条件は、ライブストリーミングスライスに対応する総合メトリック値がライブストリーミングデータの総合メトリック値よりも小さいことを含む。
【0023】
いくつかの実施例では、上記ライブストリーミングデータは、音声データを含み、上記第2生成ユニットは、音声データに対応する認識テキストの語句完全性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定するように構成される第3決定サブユニットと、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成するように構成される第5生成サブユニットと、を含む。
【0024】
いくつかの実施例では、上記第5生成サブユニットはさらに、クリップされたビデオストリームデータに特殊効果を加えて、ターゲットビデオを生成するように構成される。
【0025】
第3態様によれば、本出願の実施例は、サーバを提供し、当該サーバは、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶されている記憶装置と、を含み、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行されるとき、1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法を実現させる。
【0026】
第4態様によれば、本出願の実施例は、コンピュータプログラムが記憶されているコンピュータ可読媒体を提供し、当該プログラムがプロセッサによって実行されるとき、第1態様のいずれかの実施形態に記載の方法を実現する。
【0027】
第5態様によれば、本出願の実施例はさらに、コンピュータプログラム指令を含むコンピュータプログラム製品を提供し、当該コンピュータプログラム指令により、コンピュータに第1態様のいずれかの実施形態に記載の方法を実行させる。
【0028】
第6態様によれば、本出願の実施例はさらに、コンピュータプログラムを提供し、コンピュータプログラムがコンピュータ上で実行されるとき、コンピュータに第1態様のいずれかの実施形態に記載の方法を実行させる。
【0029】
本出願の実施例によって提供される、ターゲットビデオを生成するための方法、装置、サーバ及び媒体は、取得されたライブストリーミングデータに含まれる音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータをそれぞれ処理することにより、音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値から得られた総合メトリック値を生成し、最終的にターゲットビデオを生成する。これにより、一方では、ターゲットビデオの自動生成を実現し、他方では、音声、ライブインタラクションのうちの少なくとも1つ及びビデオなどの多方面からターゲットビデオの生成基礎を総合的に選定し、生成されたターゲットビデオの品質及び生成効率を向上させる。
【図面の簡単な説明】
【0030】
本出願の他の特徴、目的及び利点は、以下の図面を参照して作成された非限定的な実施例の詳細な記述を読むことによって、より明らかになる。
【
図1】本出願の実施例を適用することができる例示的なシステムアーキテクチャ図である。
【
図2】本出願によるターゲットビデオを生成するための方法の実施例のフローチャートである。
【
図3】本出願の実施例によるターゲットビデオを生成するための方法の適用シーンの模式図である。
【
図4】本出願によるターゲットビデオを生成するための方法の別の実施例のフローチャートである。
【
図5】本出願によるターゲットビデオを生成するための装置の実施例の構造模式図である。
【
図6】本出願の実施例を実現するのに適した電子機器の構造模式図である。
【発明を実施するための形態】
【0031】
以下、図面及び実施例を結合して本出願をさらに詳しく説明する。理解するように、ここで記述される具体的な実施例は、本発明への限定ではなく、本発明を解釈するために使用されるだけである。なお、説明の便宜上、図面には、本発明に関する部分のみが示されている。
【0032】
なお、本出願における実施例、及び実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面を参照して実施例を結合することで本出願を詳しく説明する。
【0033】
図1は、本出願のターゲットビデオを生成するための方法、またはターゲットビデオを生成するための装置を適用することができる例示的なアーキテクチャ100を示す。
【0034】
図1に示すように、システムアーキテクチャ100は、端末デバイス101、102、103、ネットワーク104及びサーバ105を含んでもよい。ネットワーク104は、端末デバイス101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、例えば、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含んでもよい。
【0035】
端末デバイス101、102、103は、ネットワーク104を介してサーバ105とインタラクションを行うことで、メッセージの受送信などを行う。端末デバイス101、102、103に、例えば、ウェブブラウザアプリケーション、ショッピング類アプリケーション、検索類アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェア、テキスト編集類アプリケーション、ビデオライブ配信類アプリケーションなどの様々な通信クライアントアプリケーションがインストールされることができる。
【0036】
端末デバイス101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、ディスプレイスクリーンを有し、且つオーディオ及びビデオの伝送をサポートする様々な電子機器であってもよく、スマートフォン、タブレット、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。端末デバイス101、102、103がソフトウェアである場合、上に挙げられた電子機器にインストールされることができる。複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実現してもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現してもよい。ここでは具体的に限定しない。
【0037】
サーバ105は、例えば、端末デバイス101、102、103上のビデオライブ配信アプリケーションのためにサポートを提供するバックグラウンドサーバなどの、様々なサービスを提供するサーバであってもよい。バックグラウンドサーバは、受信したライブストリーミングデータに対して分析などの処理を行い、処理結果(例えば、ターゲットビデオ)を端末デバイスにフィードバックすることができる。
【0038】
なお、上記ライブストリーミングデータは、サーバ105のローカルに直接に記憶してもよく、サーバ105は、ローカルに記憶されたライブストリーミングデータを直接に抽出して処理することができ、この場合、端末デバイス101、102、103及びネットワーク104が存在しなくてもよい。
【0039】
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバからなる分散サーバクラスタとして実現してもよいし、単一のサーバとして実現してもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのソフトウェアまたはソフトウェアモジュール)として実現してもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現してもよい。ここでは具体的に限定しない。
【0040】
なお、本出願の実施例によって提供される、ターゲットビデオを生成するための方法は一般的にサーバ105によって実行され、それに対応して、ターゲットビデオを生成するための装置は一般的に、サーバ105に設けられる。
【0041】
なお、端末101、102、103は、ターゲットビデオを生成するための当該方法を実行するために使用されることができ、端末101は、サーバ105がターゲットビデオを生成するための当該方法を実行するように、ライブストリーミングデータを収集し、収集したライブストリーミングデータをサーバ105に送信してもよい。
【0042】
図1における端末デバイス、ネットワーク及びサーバの数は、例示的なものに過ぎず、実現の要求に応じて、任意数の端末デバイス、ネットワーク及びサーバを有してもよいことが理解されるべきである。
【0043】
続いて
図2を参照し、本出願によるターゲットビデオを生成するための方法の実施例のフロー200を示す。ターゲットビデオを生成するための当該方法は、ステップ201から204を含む。
ステップ201、ライブストリーミングデータを取得する。
【0044】
本実施例では、ターゲットビデオを生成するための方法の実行主体(
図1に示すサーバ105)は、有線接続方式または無線接続方式でライブストリーミングデータを取得することができる。上記ライブストリーミングデータは、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータを含むことができる。これにより、上記ライブストリーミングデータは、音声データ、ビデオデータを含むことができ、ライブインタラクションデータ及びビデオデータを含むこともでき、さらに音声データ、ライブインタラクションデータ及びビデオデータを含むこともできる。上記音声データは通常、上記ビデオデータと時間的に同期する。上記ライブインタラクションデータは、ライブ配信中のストリーマーと視聴者とのインタラクション状況を記録するためのデータを含むことができる。上記ライブインタラクションデータは、プリセット期間(例えば1分あたり)におけるリアルタイムコメントの数、プリセット期間(例えば、1分あたり)における、ストリーマーに賛成することを特徴づけること(例えば、賛同を与えること、プレゼントを送ること)の数、プリセット期間(例えば、1分あたり)におけるコメント、伝言の数の少なくとも1つを含むことができるが、これらに限定されない。
【0045】
例示として、上記実行主体は、実行主体と通信接続する電子機器(例えば、
図1に示す端末デバイス)からライブストリーミングデータをリアルタイムで取得することができる。さらに別の例示として、上記実行主体は、ローカルに予め記憶されたライブストリーミングデータを取得することができる。上記ライブストリーミングデータは、予め記憶された、履歴ライブストリーミングデータに対してビデオスライスを行うことで得られたものであってもよい。上記ビデオスライスはさらに、上記履歴ライブストリーミングデータにおける開始時間及び終了時間に対応することができる。
【0046】
ステップ202、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成する。
【0047】
本実施例では、上記実行主体は、上記ステップ201で取得されたライブストリーミングデータを様々な方式で処理することができ、上記実行主体は、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成することができる。
【0048】
本実施例では、例示として、上記実行主体は、様々な方法で、取得されたライブストリーミングデータにおける音声データから音響学特徴を抽出することができる。上記音響学特徴は、メル周波数ケプストラム係数(MelFrequencyCepstrumCoefficient、MFCC)、線形予測ケプストラム係数(LinearPredictionCepstrumCoefficient、LPCC)、ピッチ、音色、ボリュームの少なくとも1つを含むことができるが、これらに限定されない。その後、上記実行主体は、様々な方法で、上記抽出された音響学特徴に対応する音声メトリック値を生成することができる。例えば、上記実行主体は、予めトレーニングされた人工ニューラルネットワークを利用して、上記抽出された音響学特徴に対応する音声メトリック値を生成することができる。上記人工ニューラルネットワークは、履歴ライブストリーミングデータの素晴らしいセグメントに対応する音声データをポジティブサンプル、通常のセグメントに対応する音声データをネガティブサンプルとすることでトレーニングすることができる。上記音声メトリック値は、0~1の間の値であってもよい。さらに例えば、上記実行主体は、上記抽出された音響学特徴と各音響学特徴に対応するプリセット閾値とを比較し、その後、対応するプリセット閾値よりも大きい数に基づいて、上記抽出された音響学特徴に対応する音声メトリック値を生成することができる。
【0049】
本実施例では、例示として、上記実行主体は、取得されたライブストリーミングデータにおけるライブインタラクションデータを様々な方法で処理し、対応するインタラクションメトリック値を生成することができる。例えば、上記実行主体は、リアルタイムコメントまたはコメントの数がプリセット閾値を超える期間の数を、上記インタラクションメトリック値とすることができる。例えば、上記ライブストリーミングデータは5分間のデータを含む。第0~1分間のリアルタイムコメント数は15、第1~2分間のリアルタイムコメント数は28、第2~3分間のリアルタイムコメント数は85、第3~4分間のリアルタイムコメント数は66、第4~5分間のリアルタイムコメント数は32である。上記プリセット閾値が50であると仮定すると、上記実行主体は、上記インタラクションメトリック値を2として決定することができる。
【0050】
本実施例では、例示として、上記実行主体は、取得されたライブストリーミングデータにおけるビデオデータを様々な方法で処理し、対応するビデオメトリック値を生成することができる。例えば、上記実行主体は、上記ライブストリーミングデータのうちターゲット画像を含むビデオフレームの数を決定することができる。決定されたターゲット画像を含むビデオフレームの数に基づいて、上記ライブストリーミングデータに対応するビデオメトリック値を生成する。
【0051】
本実施例のいくつかの選択可能な実施形態では、上記実行主体は、以下の第1~2手順に従ってライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するビデオメトリック値を生成することができる。
第1手順では、ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定する。
【0052】
これらの実施形態では、上記実行主体は、様々な画像認識方法を利用して上記ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定することができる。上記第1プリセットカテゴリ画像及び第2プリセットカテゴリ画像は、予め設定された、適用シーンに関連する画像を含むことができる。例示として、上記第1プリセットカテゴリ画像は、ダンクショット画像であってもよく、上記第2プリセットカテゴリ画像は、スリーポイントシュート画像であってもよい。
【0053】
任意選択で、上記実行主体は、上記ビデオデータからフレーム抽出を行うことができ、例えば、10フレームごとに1フレームを抽出する。その後、上記実行主体によって抽出されたビデオフレームを画像認識する。これにより、算出リソースを節約する。
【0054】
任意選択で、上記第1プリセットカテゴリ画像は、商品販売を特徴づけるための画像、例えば、商品画像、値札などを含むことができる。上記第2プリセットカテゴリ画像は、プリセット人物画像を含んでもよい。上記プリセット人物は例えば、ストリーマーであってもよい。これにより、上記方法は、画像認識の観点から、ライブ販売ビデオにおけるハイライト時点の認識のために技術基礎を提供することができる。
【0055】
第2手順では、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を生成する。
【0056】
これらの実施形態では、上記実行主体は、決定された第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を様々な方法で生成することができる。例示として、上記実行主体は、上記決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数のうち、大きな値を上記ビデオメトリック値として選択することができる。さらに別の例示として、上記実行主体はさらに、上記選択された大きな値と画像認識されるビデオフレームとの比の値を上記ビデオメトリック値とすることができる。
【0057】
任意選択で、上記実行主体はさらに、まず、上記第1プリセットカテゴリ画像及び第2プリセットカテゴリ画像にそれぞれ対応する画像プリセット重み値(例えば、1、0.5)を取得することができる。その後、上記実行主体は、上記決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数と、上記それぞれ対応する画像プリセット重み値とに対して、加重和を実行し、上記ビデオメトリック値を生成することができる。
【0058】
本実施例のいくつかの選択可能な実施形態では、上記ライブストリーミングデータに含まれる音声データに基づいて、上記実行主体は、以下の第1~3手順に従ってライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値を生成することができる。
第1手順では、音声データを音声認識し、音声認識テキストを生成する。
【0059】
これらの実施形態では、上記実行主体は、上記ステップ201で取得されたライブストリーミングデータに含まれる音声データを様々な音声認識技術により認識し、対応する音声認識テキストを生成することができる。
【0060】
第2手順では、音声認識テキストに含まれるテキストの、第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定する。
【0061】
これらの実施形態では、上記実行主体は、様々な方法で、音声認識テキストに含まれるテキストの第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定することができる。上記第1プリセットカテゴリテキスト及び第2プリセットカテゴリテキストは、予め設定された、適用シーンに関連するテキストを含むことができる。例示として、上記第1プリセットカテゴリテキストは、「ナイスショット」、「素敵」、「なんて素晴らしい」などの予め設定された記述単語を含むことができ、上記第2プリセットカテゴリテキストは、「みんな見て」、「気づいた」などの予め設定された提示単語を含むことができる。
【0062】
任意選択で、上記第1プリセットカテゴリテキストは、商品記述情報を含むことができる。上記商品記述情報は、商品名称、商品評価情報(例えば、「うまい」、「使いやすく、高価ではない」など)などを含むことができる。上記第2プリセットカテゴリテキストは、予め設定された販売キーワードを含むことができる。上記予め設定された販売キーワードは例えば、「リンクアップ」、「今すぐ購入」などを含むことができる。これにより、上記方法は、音声認識の観点から、ライブ販売ビデオにおけるハイライト時点の認識のために技術基礎を提供することができる。
【0063】
第3手順では、決定された第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数に基づいて、音声メトリック値を生成する。
【0064】
これらの実施形態では、上記実行主体は、決定された第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数に基づいて、音声メトリック値を様々な方法で生成することができる。例示として、上記実行主体は、上記決定された第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数のうち、大きな値を上記音声メトリック値として選択することができる。さらに別の例示として、上記実行主体はさらに、上記選択された大きな値と認識テキストに含まれる単語の数との比の値を上記音声メトリック値とすることができる。
【0065】
任意選択で、上記実行主体はさらに、まず、上記第1プリセットカテゴリテキスト及び第2プリセットカテゴリテキストにそれぞれ対応するテキストプリセット重み値を取得することができる。その後、上記実行主体は、上記決定された第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数と、上記それぞれ対応するテキストプリセット重み値とに対して、加重和を実行し、上記音声メトリック値を生成することができる。
【0066】
任意選択で、上記第1プリセットカテゴリテキストに含まれる商品記述情報、及び上記第2プリセットカテゴリテキストに含まれる予め設定された販売キーワードに基づいて、上記第1プリセットカテゴリテキストに対応するテキストプリセット重み値(例えば、1)は通常、上記の第2プリセットカテゴリテキストに対応するテキストプリセット重み値(例えば、5)よりも小さい。
【0067】
本実施例のいくつかの選択可能な実施形態では、上記実行主体は、上記ライブストリーミングデータに含まれるライブインタラクションデータに基づいて、以下の第1~2手順に従ってライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応するインタラクションメトリック値を生成することができる。
第1手順では、ライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定する。
【0068】
これらの実施形態では、上記実行主体は、様々な方法で、上記ステップ201で取得されたライブストリーミングデータに含まれるライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定することができる。上記ターゲットインタラクション挙動は、リアルタイムコメントを送信すること、ストリーマーに賛成する挙動を特徴づけること(例えば、賛同を与えること、プレゼントを送ること)、コメントを送信すること、伝言を書くことの少なくとも1つを含むことができるが、これらに限定されない。
【0069】
第2手順では、決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を生成する。
【0070】
これらの実施形態では、上記実行主体は、上記第1手順によって決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を様々な方法で生成することができる。例示として、上記実行主体は、上記決定されたターゲットインタラクション挙動の数をそのまま上記インタラクションメトリック値とすることができる。さらに別の例示として、上記実行主体はさらに、上記決定されたターゲットインタラクション挙動の数とプリセット数値との比の値を上記インタラクションメトリック値とすることができる。
【0071】
任意選択で、上記ターゲットインタラクション挙動は、第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動のうちの少なくとも2つを含むことができる。決定されたターゲットインタラクション挙動の数に基づいて、上記実行主体は、決定されたターゲットインタラクション挙動の数、及び上記第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動に対応するプリセットインタラクション重みに基づいて、加重和を実行して、上記インタラクションメトリック値を生成することができる。第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動は、予め設定された適用シーンに関連するインタラクション挙動を含むことができる。
【0072】
任意選択で、上記第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動はそれぞれ、ライブ配信画面に商品リンクが現れること、上記ライブストリーミングデータによって提供される商品リンクによるオーダーの生成、リアルタイムコメントを送信することを含むことができる。これにより、上記方法は、インタラクション挙動の観点から、ライブ販売ビデオにおけるハイライト時点の認識のために技術基礎を提供することができる。
【0073】
ステップ203、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成する。
【0074】
本実施例では、上記実行主体は、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を様々な方法で生成することができる。例示として、上記実行主体は、上記生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値から、最大値を上記ライブストリーミングデータの総合メトリック値として選択することができる。
【0075】
本実施例のいくつかの選択可能な実施形態では、上記実行主体は、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、以下の第1~3手順に従ってライブストリーミングデータの総合メトリック値を生成することができる。
第1手順では、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値のそれぞれに対応するプリセットメトリック重みを取得する。
【0076】
これらの実施形態では、上記実行主体は、まず、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値のそれぞれに対応するプリセットメトリック重みを取得することができる。上記プリセットメトリック重みは例えば、0.3、0.3、0.4であってもよい。
【0077】
第2手順では、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化する。
【0078】
これらの実施形態では、上記実行主体は、上記第1手順で生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化することができる。これにより、正規化された第1手順で生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値は、同一のオーダーに属する。
【0079】
第3手順では、正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行し、ライブストリーミングデータの総合メトリック値を生成する。
【0080】
これらの実施形態では、上記実行主体は、上記第2手順で得られた、正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行し、ライブストリーミングデータの総合メトリック値を生成することができる。
【0081】
ステップ204、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成する。
【0082】
本実施例では、上記実行主体は、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、様々な方法で、ライブストリーミングデータに基づいてターゲットビデオを生成することができる。例示として、上記予め設定された条件は、上記ライブストリーミングデータの総合メトリック値がプリセットメトリック値の閾値よりも大きいことを含むことができる。例示として、上記実行主体は、上記ライブストリーミングデータをそのまま上記ターゲットビデオとすることができる。さらに別の例示として、上記実行主体は、上記ライブストリーミングデータに対して後処理を行うことによって、上記ターゲットビデオを得ることができる。上記後処理は例えば、フィルターの追加、輝度の調整、コントラストの調整などを含むことができる。
【0083】
本実施例のいくつかの選択可能な実施形態では、上記予め設定された条件は、上記ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含むことができる。上記総合メトリック値条件は、ライブストリーミングスライスに対応する総合メトリック値が上記ライブストリーミングデータの総合メトリック値よりも小さいことを含むことができる。上記ターゲット数は、実際の適用要件に応じて予め指定された任意数であってもよい。上記ターゲット数は、規則によって定められた数、例えば、上記関連するライブストリーミングスライスセットに含まれるライブストリーミングスライス数にプリセット比率を乗算して得られた数であってもよい。
【0084】
例示として、上記ライブストリーミングデータに関連する上記ライブストリーミングスライスセットは、同じライブストリーミングに対応する情報ソース(例えば、ライブルームid)から取得された期間別のライブストリーミングデータスライスを含むことができる。仮に、上記ライブストリーミングデータに関連するライブストリーミングスライスセットには、10つのライブストリーミングスライスが含まれる。上記ターゲット数は6である。上記ライブストリーミングスライスセットに対応する総合メトリック値が上記ライブストリーミングデータの総合メトリック値よりも小さくかつ6よりも大きい場合、上記予め設定された条件を満たした。
【0085】
続いて
図3を参照し、
図3は、本出願の実施例によるターゲットビデオを生成するための方法の適用シーンの模式図である。
図3の適用シーンでは、ユーザ301は、端末デバイス302を使用してライブ配信を行う。端末デバイス302は、ライブストリーミングデータ303をバックグラウンドサーバ304に送信する。上記ライブストリーミングデータは、音声データ、ビデオデータを含むことができる。バックグラウンドサーバ304は、ライブストリーミングデータ303を処理し、含まれる素晴らしい程度を表すオブジェクト(例えば、「ナイスショット」の音声、「ダンクショット画像」)に基づいて、音声メトリック値80及びビデオメトリック値70を生成する(
図3における305に示す)。その後、バックグラウンドサーバ304は、生成された音声メトリック値、ビデオメトリック値を平均して、総合メトリック値75を生成する(
図3における306に示す)。その後、総合メトリック値75がプリセット閾値(例えば、70)よりも大きいことに応じて、バックグラウンドサーバ304はライブストリーミングデータ303に基づいて素晴らしいクリップビデオ307を生成することができる。任意選択で、バックグラウンドサーバ304はさらに、生成された素晴らしいクリップビデオ307を端末デバイス302に送信することができる。
【0086】
現在、従来技術の1つは通常、まずライブストリーミングデータをロングビデオファイルに格納し、さらに手動でロングビデオファイルから必要なセグメントを切り取り、ショートビデオを生成することであり、多くの人件費が必要となる。本出願の上記実施例によって提供される方法は、取得されたライブストリーミングデータに含まれる音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータをそれぞれ処理することにより、音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値から得られた総合メトリック値を生成し、最終的にターゲットビデオを生成する。手動切り取りの方法によりターゲットビデオを生成することと比較すれば、本出願によって提供される方案は、ターゲットビデオの自動生成を実現し、人件費が効果的に削減される。例えば、オーディオまたはビデオのような単一の次元のみに基づいてターゲットビデオを生成する方法と比較すれば、本出願によって提供される方案は、音声、ライブインタラクションのうちの少なくとも1つ及びビデオなどの多方面からターゲットビデオの生成基礎を総合的に選定し、生成されたターゲットビデオの品質及び生成効率を向上させる。
【0087】
図4をさらに参照し、ターゲットビデオを生成するための方法の別の実施例のフロー400を示す。ターゲットビデオを生成するための当該方法のフロー400は、ステップ401~404を含む。
ステップ401、ライブストリーミングデータを取得する。
【0088】
本実施例では、上記ライブストリーミングデータは、音声データ、ビデオデータを含むことができる。
【0089】
ステップ402、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成する。
【0090】
ステップ403、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成する。
【0091】
上記ステップ401、ステップ402、ステップ403はそれぞれ、上記実施例におけるステップ201、ステップ202、ステップ203及びその選択可能な実施形態と一致し、ステップ201、ステップ202、ステップ203及びその選択可能な実施形態についての上記の説明はステップ401、ステップ402及びステップ403にも適用可能であり、ここでは贅言しない。
【0092】
ステップ404、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、音声データに対応する認識テキストの語句連続性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定し、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成する。
【0093】
本実施例では、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ターゲットビデオを生成するための方法の実行主体(例えば、
図1に示すサーバ105)は、以下の第1~2手順に従ってターゲットビデオを生成することができる。
第1手順では、音声データに対応する認識テキストの語句完全性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定する。
【0094】
本実施例では、上記実行主体は、まず、音声データに対応する認識テキストに基づいて語句完全性を決定することができる。その後、上記実行主体は、決定された語句完全性に基づいて、上記ライブストリーミングデータのクリップの開始/終了位置を様々な方法で決定することができる。上記クリップの開始/終了位置は、クリップの開始位置及び終了位置を含むことができる。例示として、上記音声データに対応する認識テキストの語句が完全である(例えば、「XXは本当にうまい」)と決定したことに応答して、上記実行主体は、上記音声データの開始/終了位置をクリップの開始/終了位置として決定することができる。さらに別の例示として、上記音声データに対応する認識テキストの語句が完全ではない(例えば、「個のショットは素晴らしい」、「次に、第…にフォローしてください」)と決定したことに応答し、上記実行主体は、後半文のみを有する語句の終了位置をクリップの開始位置、前半文のみを有する語句の開始位置をクリップの終了位置として決定することができる。
【0095】
第2手順では、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成する。
【0096】
本実施例では、上記実行主体は、様々な方法で、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成することができる。例示として、上記実行主体は、クリップされたライブストリーミングデータをそのまま上記ターゲットビデオとして決定することができる。さらに別の例示として、上記実行主体は、上記クリップされたライブストリーミングデータに対して後処理を行い、後処理されたライブストリーミングデータに基づいてターゲットビデオを生成することができる。
【0097】
本実施例のいくつかの選択可能な実施形態では、上記実行主体はさらに、クリップされたビデオストリームデータに特殊効果を加えて、ターゲットビデオを生成することができる。上記特殊効果は、字幕、ステッカー、トランジション効果の少なくとも1つを含むことができるが、これらに限定されない。
【0098】
図4から分かるように、本実施例における、ターゲットビデオを生成するための方法のフロー400は、音声データに対応する認識テキストの語句完全性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定するステップと、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成するステップと、を具現化する。これにより、本実施例で説明された方案は、音声データに対応する認識テキストの語句完全性に基づいてターゲットビデオを生成することにより、ターゲットビデオにおける語句の完全性を保証することができる。
【0099】
図5をさらに参照し、上記の各図に示される方法の実現として、本出願は、ターゲットビデオを生成するための装置の実施例を提供し、当該装置の実施例は、
図2または
図4に示す方法の実施例に対応し、当該装置は具体的に、様々な電子機器で使用できる。
【0100】
図5に示すように、本実施例によって提供される、ターゲットビデオを生成するための装置500は、取得ユニット501と、処理ユニット502と、第1生成ユニット503と、第2生成ユニット504とを含む。取得ユニット501は、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれるライブストリーミングデータを取得するように構成され、処理ユニット502は、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するように構成され、第1生成ユニット503は、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成するように構成され、第2生成ユニット504は、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成するように構成される。
【0101】
本実施例では、ターゲットビデオを生成するための装置500において、取得ユニット501、処理ユニット502、第1生成ユニット503、第2生成ユニット504の具体的な処理、及びそれらによってもたらされる技術的効果について、
図2に対応する実施例におけるステップ201、ステップ202、ステップ203及びステップ204の関連する説明をそれぞれ参照することができ、ここでは贅言しない。
【0102】
本実施例のいくつかの選択可能な実施形態では、上記処理ユニット502は、第1認識サブユニット(図示せず)と、第1生成サブユニット(図示せず)とを含むことができる。上記第1認識サブユニットは、ビデオデータにおけるビデオフレームを画像認識し、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数をそれぞれ決定するように構成されることができる。上記第1生成サブユニットは、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数に基づいて、ビデオメトリック値を生成するように構成されることができる。
【0103】
本実施例のいくつかの選択可能な実施形態では、上記第1生成サブユニットは、取得モジュール(図示せず)と、生成モジュール(図示せず)とを含むことができる。上記取得モジュールは、第1プリセットカテゴリ画像及び第2プリセットカテゴリ画像にそれぞれ対応するプリセット画像重み値を取得するように構成されることができる。上記生成モジュールは、決定された、第1プリセットカテゴリ画像に属する数及び第2プリセットカテゴリ画像に属する数と、それぞれ対応する画像プリセット重み値とに対して、加重和を実行し、上記ビデオメトリック値を生成するように構成されることができる。
【0104】
本実施例のいくつかの選択可能な実施形態では、上記ライブストリーミングデータは音声データを含むことができる。上記処理ユニット502は、第2認識サブユニット(図示せず)と、第1決定サブユニット(図示せず)と、第2生成サブユニット(図示せず)と、を含むことができる。上記第2認識サブユニットは、音声データを音声認識し、音声認識テキストを生成するように構成されることができる。上記第1決定サブユニットは、音声認識テキストに含まれるテキストの第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数をそれぞれ決定するように構成されることができる。上記第2生成サブユニットは、決定された、第1プリセットカテゴリテキストに属する数及び第2プリセットカテゴリテキストに属する数に基づいて、音声メトリック値を生成するように構成されることができる。
【0105】
本実施例のいくつかの選択可能な実施形態では、上記ライブストリーミングデータはライブインタラクションデータを含むことができる。上記処理ユニット502は、第2決定サブユニット(図示せず)と、第2生成サブユニット(図示せず)と、を含むことができる。上記第2決定サブユニットは、ライブインタラクションデータによって指示されるターゲットインタラクション挙動の数を決定するように構成されることができる。上記第3生成サブユニットは、決定されたターゲットインタラクション挙動の数に基づいて、インタラクションメトリック値を生成するように構成されることができる。
【0106】
本実施例のいくつかの選択可能な実施形態では、上記ターゲットインタラクション挙動は、第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動のうちの少なくとも2つを含むことができる。上記第3生成サブユニットはさらに、決定されたターゲットインタラクション挙動の数、及び第1プリセットインタラクション挙動、第2プリセットインタラクション挙動、第3プリセットインタラクション挙動に対応するプリセットインタラクション重みに基づいて加重和を実行し、インタラクションメトリック値を生成するように構成されることができる。
【0107】
本実施例のいくつかの選択可能な実施形態では、上記第1生成ユニット503は、取得サブユニット(図示せず)と、正規化サブユニット(図示せず)と、第4生成サブユニット(図示せず)と、を含むことができる。上記取得サブユニットは、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値の各々に対応するプリセットメトリック重みを取得するように構成されることができる。上記正規化サブユニットは、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を正規化するように構成されることができる。上記第4生成サブユニットは、正規化された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に対して、加重和を実行し、ライブストリーミングデータの総合メトリック値を生成するように構成されることができる。
【0108】
本実施例のいくつかの選択可能な実施形態では、上記予め設定された条件は、ライブストリーミングデータに関連するライブストリーミングスライスセットのうち、総合メトリック値条件を満たすライブストリーミングスライスの数がターゲット数よりも大きいことを含み、総合メトリック値条件は、ライブストリーミングスライスに対応する総合メトリック値がライブストリーミングデータの総合メトリック値よりも小さいことを含むことができる。
【0109】
本実施例のいくつかの選択可能な実施形態では、上記ライブストリーミングデータは音声データを含むことができる。上記第2生成ユニット504は、第3決定サブユニット(図示せず)と、第5生成サブユニット(図示せず)と、を含むことができる。上記第3決定サブユニットは、音声データに対応する認識テキストの語句完全性に基づいて、ライブストリーミングデータのクリップの開始/終了位置を決定するように構成されることができる。上記第5生成サブユニットは、クリップされたライブストリーミングデータに基づいてターゲットビデオを生成するように構成されることができる。
【0110】
本実施例のいくつかの選択可能な実施形態では、上記第5生成サブユニットは、クリップされたビデオストリームデータに特殊効果を加えて、ターゲットビデオを生成するようにさらに構成されることができる。
【0111】
本出願の上記実施例によって提供される装置は、取得ユニット501によってライブストリーミングデータを取得する。ライブストリーミングデータは、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータを含む。その後、処理ユニット502が、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成する。次に、第1生成ユニット503が、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成する。最後に、第2生成ユニット504が、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成する。これにより、一方では、ターゲットビデオの自動生成を実現し、他方では、音声、ライブインタラクションのうちの少なくとも1つ及びビデオなどの多方面からターゲットビデオの生成基礎を総合的に選定し、生成されたターゲットビデオの品質及び生成効率を向上させる。
【0112】
以下、
図6を参照し、本出願の実施例を実現するのに適した電子機器(例えば、
図1におけるサーバ)600の構造模式図を示す。本出願の実施例における端末デバイスは、携帯電話、ノートパソコン、デジタル放送受信機、PDA(携帯情報端末、personaldigitalassistant)、PAD(タブレット、portableandroiddevice)、PMP(ポータブルマルチメディアプレーヤー、personalmultimediaplayer)、車載端末(例えば、車載ナビゲーション端末)などのような携帯端末、及びデジタルTV、デスクトップコンピュータなどのような固定端末を含むことができるが、これらに限定されない。
図6に示すサーバは1つの例示に過ぎず、本出願の実施例の機能及び使用範囲に任意の制限を与えるべきではない。
【0113】
図6に示すように、電子機器600は、リードオンリーメモリ(read-onlymemory、ROM)602に記憶されたプログラム、または記憶装置608からランダムアクセスメモリ(randomaccessmemory、RAM)603にロードされたプログラムに従って様々な適切な動作及び処理を実行できる処理装置(例えば、中央処理ユニット、グラフィックプロセッサなど)601を含むことができる。RAM603には、電子機器600の操作に必要な様々なプログラム及びデータがさらに記憶されている。処理装置601、ROM602及びRAM603はバス604を介して互いに接続される。入出力(input/output、I/O)インタフェース605もバス604に接続される。
【0114】
通常、I/Oインタフェース605に、例えば、タッチスクリーン、タッチパッド、キーボード、マウス、カメラなどを含む入力装置606、例えば、液晶ディスプレー(LCD、LiquidCrystalDisplay)、スピーカー、バイブレーターなどを含む出力装置607、例えば、磁気テープ、ハードディスクなどを含む記憶装置608、及び通信装置609が接続されることができる。通信装置609は、電子機器600が他のデバイスと無線または有線通信を行ってデータを交換することを可能にする。
図6には、様々な装置を有する電子機器600が示されているが、示される全ての装置を実施または具備することが要求されないことは理解されるべきである。代わりに、より多くのまたはより少ない装置を実施または具備してもよい。
図6に示す各ブロックは、1つの装置を代表してもよいし、必要に応じて複数の装置を代表してもよい。
【0115】
特に、本出願の実施例によれば、フローチャートを参照して以上で説明される過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本出願の実施例は、コンピュータ可読媒体上に担持されるコンピュータプログラムを含むコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートに示す方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信装置609を介してネットワークからダウンロード及びインストールされ、または、記憶装置608からインストールされ、またはROM602からインストールされることができる。当該コンピュータプログラムが処理装置601によって実行されるとき、本出願の実施例の方法で限定される上記機能を実行する。
【0116】
なお、本出願の実施例に記載のコンピュータ可読媒体は、コンピュータ可読信号媒体、またはコンピュータ可読記憶媒体、または上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、または半導体のシステム、装置、若しくはデバイス、または任意の以上の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例としては、1つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(electricalprogrammableROM、EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(compactdiscROM、CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせを含むことができるが、これらに限定されない。本出願の実施例では、コンピュータ可読記憶媒体は、指令実行システム、装置、またはデバイスによって使用され、またはこれらと結合して使用されることができるプログラムを含むか、または記憶する任意の有形媒体であってもよい。本出願の実施例では、コンピュータ可読信号媒体は、ベースバンドで、または搬送波の一部として伝搬するデータ信号を含むことができ、データ信号にコンピュータ可読のプログラムコードが担持される。このように伝搬されるデータ信号は、多種の形式を採用することができ、電磁信号、光信号、または上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体を除いた任意のコンピュータ可読媒体であってもよく、当該コンピュータ可読信号媒体は、指令実行システム、装置、またはデバイスによって使用され、またはこれらと結合して使用されるためのプログラムを送信、伝搬、または伝送することができる。コンピュータ可読媒体上に含まれるプログラムコードは、任意の適切な媒体によって伝送されることができ、電線、光ファイバケーブル、RF(RadioFrequency、無線周波数)など、または上記の任意の適切な組み合わせを含むが、これらに限定されない。
【0117】
上記コンピュータ可読媒体は、上記電子機器に含まれてもよいし、当該電子機器に配置されず、個別として存在してもよい。上記コンピュータ可読媒体に1つまたは複数のプログラムが担持されており、上記1つまたは複数のプログラムが当該サーバによって実行されるとき、当該サーバに、音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれるライブストリーミングデータを取得するステップと、ライブストリーミングデータを処理し、処理結果に含まれるターゲットオブジェクトに基づいて、対応する音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値を生成するステップと、生成された音声メトリック値、インタラクションメトリック値のうちの少なくとも1つ及びビデオメトリック値に基づいて、ライブストリーミングデータの総合メトリック値を生成するステップと、ライブストリーミングデータの総合メトリック値が予め設定された条件を満たすと決定したことに応答して、ライブストリーミングデータに基づいてターゲットビデオを生成するステップと、を実行させる。
【0118】
本発明は、コンピュータプログラムをさらに提供し、当該コンピュータプログラムにより、コンピュータに、上記実施例によって提供される、ターゲットビデオを生成するための方法を実行させる。
【0119】
本出願の実施例の操作を実行するためのコンピュータプログラムコードは、1種または多種のプログラミング言語またはそれらの組み合わせで作成されることができ、上記プログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、「C」言語、Pythonまたは類似するプログラミング言語のような従来の手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で一部的に、1つの独立型ソフトウェアパッケージとして、ユーザのコンピュータ上で一部的にかつリモートコンピュータ上で一部的に、またはリモートコンピュータ若しくはサーバ上で完全に実行されることができる。リモートコンピュータが関与する場合、リモートコンピュータは、ローカルエリアネットワーク(localareanetwork、LAN)またはワイドエリアネットワーク(wideareanetwork、WAN)を含む、任意の種類のネットワークを通じてユーザのコンピュータに接続することができ、または、外部コンピュータに接続することができる(例えば、インタネットサービスプロバイダを利用してインターネットを介して接続する)。
【0120】
図面におけるフローチャート及びブロック図は、本出願の様々な実施例のシステム、方法及びコンピュータプログラム製品に従って実現可能なアーキテクチャ、機能及び操作を示す。この点について、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメント、またはコードの一部を代表することができ、当該モジュール、プログラムセグメント、またはコードの一部は、所定の論理機能を実現するための1つまたは複数の実行可能な指令を含む。なお、いくつかの代替の実現において、ブロックに示されている機能は、図に示されている順序とは異なる順序に従って発生してもよい。例えば、連続的に示される2つのブロックは実際には、基本的に並行して実行されてもよく、ある場合、逆の順序に従って実行されてもよく、関連する機能に応じて決定される。また、ブロック図及び/又はフローチャートにおける各ブロック、並びにブロック図及び/又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための、ハードウェアによる専用システムで実現されてもよいし、又は専用ハードウェアとコンピュータ指令との組み合わせで実現されてもよい。
【0121】
本出願の実施例で記述されるユニットは、ソフトウェアの方式で実現されてもよいし、ハードウェアの方式で実現されてもよい。記述されたユニットは、プロセッサに設けられてもよく、例えば、取得ユニットと、処理ユニットと、第1生成ユニットと、第2生成ユニットとを含むプロセッサとして記述されることができる。これらのユニットの名称はある場合、当該ユニット自身への限定を構成しなく、例えば、取得ユニットは、「音声データ、ライブインタラクションデータのうちの少なくとも1つ及びビデオデータが含まれるライブストリーミングデータを取得するユニット」として記述されてもよい。
【0122】
以上の記載は、本開示の好適な実施例及び適用される技術原理に対する説明にすぎない。当業者であれば理解できるように、本開示に係る開示範囲は、上記の技術特徴の特定の組み合わせによって形成される技術案に限定されず、その同時、上記の開示された構想から逸脱することなく、上記の技術特徴又はその等価特徴の任意の組み合わせによって形成される他の技術案、例えば、上記の特徴と、本開示に開示された(ただしこれに限定されていない)類似機能を有する技術特徴とを互いに置き換えることによって形成された技術案も含まれる。