IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ レモン インコーポレイテッドの特許一覧

特表2024-547159ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体
<>
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図1
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図2
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図3
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図4
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図5
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図6
  • 特表-ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-26
(54)【発明の名称】ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体
(51)【国際特許分類】
   H04N 21/854 20110101AFI20241219BHJP
   G06F 16/783 20190101ALI20241219BHJP
   H04N 21/242 20110101ALI20241219BHJP
   H04N 5/76 20060101ALI20241219BHJP
   H04N 5/91 20060101ALI20241219BHJP
   G06T 7/10 20170101ALI20241219BHJP
【FI】
H04N21/854
G06F16/783
H04N21/242
H04N5/76
H04N5/91
G06T7/10
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024539569
(86)(22)【出願日】2022-12-29
(85)【翻訳文提出日】2024-08-27
(86)【国際出願番号】 SG2022050946
(87)【国際公開番号】W WO2023128877
(87)【国際公開日】2023-07-06
(31)【優先権主張番号】202111672927.6
(32)【優先日】2021-12-31
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】521388058
【氏名又は名称】レモン インコーポレイテッド
【氏名又は名称原語表記】Lemon Inc.
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100229448
【弁理士】
【氏名又は名称】中槇 利明
(72)【発明者】
【氏名】シュエ,ユィファン
(72)【発明者】
【氏名】ホ,ジェ
(72)【発明者】
【氏名】ユアン,イエ
(72)【発明者】
【氏名】リ,シアオジェ
(72)【発明者】
【氏名】ガオ,ユエ
【テーマコード(参考)】
5B175
5C164
5L096
【Fターム(参考)】
5B175DA04
5B175FA01
5B175FA03
5B175FB03
5B175HB03
5C164MB44S
5C164MC01P
5C164PA43
5C164SB01S
5C164SB04S
5C164SB10P
5C164SB12S
5C164SD12S
5L096CA01
5L096FA01
5L096HA13
5L096JA28
(57)【要約】
本開示は、ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体に関し、当該方法は、ユーザに関するビデオから複数のビデオ素材を選択し、選択されている複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、抽出されている目標ビデオセグメントと、決定されている目標オーディ素材とを統合して、目標ビデオを生成することにより、ユーザは、目標ビデオにより、過去を振り返ることができ、且つ、目標ビデオの中の各ビデオセグメントの時間長と、採用されている目標オーディオ素材の中の音楽フレーズの時間長とがマッチングする。
【選択図】 図2
【特許請求の範囲】
【請求項1】
ビデオ生成方法であって、当該ビデオ生成方法は、
ユーザに関するビデオを含むオリジナルビデオ素材セットから複数のビデオ素材を取得するステップと、
バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するステップと、
前記ビデオ素材の各々に対して、前記ビデオ素材の各ビデオフレームに対してそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、前記ビデオ素材に対応する目標ビデオセグメントを取得するステップと、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成するステップと、を含み、前記目標ビデオにおける前記複数のビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、前記目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする、
ビデオ生成方法。
【請求項2】
バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するステップは、
所定のオーディオ素材セットにおける各オーディオ素材のオーディオ特徴、オーディオ素材のビート情報、及びオーディオ素材における特定のオーディオセグメントの各音楽フレーズの時間長に基づいて、前記所定のオーディオ素材セットから目標オーディオ素材を決定するステップを含み、前記目標オーディオ素材における特定のオーディオセグメントは、前記目標ビデオのバックグラウンドミュージックである、請求項1に記載の方法。
【請求項3】
所定のオーディオ素材セットにおける各オーディオ素材のオーディオ特徴、オーディオ素材のビート情報、及びオーディオ素材における特定のオーディオセグメントの各音楽フレーズの時間長に基づいて、前記所定のオーディオ素材セットから目標オーディオ素材を決定するステップは、
所定の音楽特徴セットに基づいて、所定の音楽素材セットの中に含まれる複数の音楽素材を除外して、第1の候補オーディオ素材セットを取得するステップと、
所定のオーディオビートに基づいて、前記第1の候補オーディオ素材セットの中に含まれる各オーディオ素材を除外して、第2の候補オーディオ素材セットを取得するステップと、
前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる各音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材に基づいて、前記目標オーディオ素材を決定するステップと、を含む、請求項2に記載の方法。
【請求項4】
前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材が存在しない場合に、当該方法は、
前記ユーザの嗜好に基づいて、予め指定されているオーディオ素材セットの各オーディオ素材にそれぞれ対応するオーディオ特徴とマッチングを行い、マッチングが成功する場合に、マッチングが成功しているオーディオ素材に基づいて前記目標オーディオ素材を決定するステップをさらに含む、請求項3に記載の方法。
【請求項5】
当該ビデオ生成方法は、
前記ビデオ素材の各々について、前記ビデオ素材の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいて重み付け計算を行い、前記ビデオフレームの各々にそれぞれ対応する評価結果を取得するステップと、
前記ビデオフレームの各々にそれぞれ対応する評価結果に基づいて、前記複数のビデオ素材から抽出される複数の目標ビデオフレームを含むように、前記ビデオ素材の前記ビデオフレームの各々から目標ビデオフレームを抽出して、前記目標ビデオのオープニング及び/又はエンディングを生成するためのビデオフレームセットを取得するステップと、をさらに含み、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、目標ビデオを生成するステップは、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント、前記ビデオフレームセット及び前記目標オーディオ素材を統合して、前記ビデオフレームセットから生成されるオープニング及び/又はエンディングを含む前記目標ビデオを生成するステップを含む、請求項1に記載の方法。
【請求項6】
前記ビデオ素材の各々のビデオフレームにそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、目標ビデオセグメントを取得するステップは、
前記ビデオ素材の各ビデオフレームにそれぞれ対応する画像特徴情報、目標オーディオセグメントにおける対応する音楽フレーズの時間長、及び前記ビデオ素材におけるオリジナルオーディオの文句分割結果に基づいて、前記ビデオ素材に対してセグメント化処理を行って、前記目標ビデオセグメントを取得するステップを含む、請求項1に記載の方法。
【請求項7】
前記目標オーディオセグメントは、対応するオリジナルオーディオの1つ又は複数の完全な文句を含む、請求項6に記載の方法。
【請求項8】
ビデオ生成装置であって、当該ビデオ生成装置は、
ユーザに関するビデオを含むオリジナルビデオ素材セットから複数のビデオ素材を取得するためのビデオ処理モジュールと、
バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するためのオーディオ処理モジュールであって、
前記ビデオ処理モジュールは、さらに、前記ビデオ素材の各々について、前記ビデオ素材の各ビデオフレームに対してそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、前記ビデオ素材に対応する目標ビデオセグメントを取得することに用いられる、オーディオ処理モジュールと、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成するためのビデオ統合モジュールと、を含み、前記目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、前記目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする、
ビデオ生成装置。
【請求項9】
メモリと、プロセッサと、を含む電子機器であって、
前記メモリは、コンピュータプログラム命令を格納するように構成され、
前記プロセッサは、前記コンピュータプログラム命令を実行して、当該電子機器に請求項1~7のうちのいずれか1項に記載の方法を実現させるように構成される、電子機器。
【請求項10】
電子機器の少なくとも1つのプロセッサによって実行されるときに、前記電子機器に請求項1~7のうちのいずれか1項に記載の方法を実現させるコンピュータプログラム命令を含む、読み取り可能な記憶媒体。
【請求項11】
コンピュータによって実行されるときに、前記コンピュータに請求項1~7のうちのいずれか1項に記載の方法を実現させる、コンピュータプログラム。
【請求項12】
コンピュータプログラムを格納するように構成されるビデオ生成装置であって、
前記コンピュータプログラムが当該ビデオ生成装置のプロセッサによって実行されるときに、当該ビデオ生成装置に請求項1~7のうちのいずれか1項に記載の方法を実現させる、ビデオ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本出願は、2021年12月31日に提出された、出願番号が202111672927.6であり、名称が「ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体」である中国特許出願の優先権を主張しており、同出願の内容の全ては、援用されて本出願に取り込まれる。
【0002】
[技術分野]
本開示は、ビデオ処理技術分野に関し、特に、ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体に関する。
【背景技術】
【0003】
ユーザは、過去の一定時間帯内に投稿したビデオを統合して1つのビデオを生成することができる。そのユーザは、生成されたビデオを見ている間に、幾つかの深い記憶を呼び覚ますことがある。このため、レビューを主題とするビデオは、ユーザに深く好まれている。
【発明の概要】
【0004】
本開示は、ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体を提供する。
第1の側面によれば、本開示は、
ユーザに関するビデオを含むオリジナルビデオ素材セットから複数のビデオ素材を取得するステップと、
バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するステップと、
前記ビデオ素材の各々に対して、前記ビデオ素材の各ビデオフレームからそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、前記ビデオ素材に対応する目標ビデオセグメントを得るステップと、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成するステップと、を含み、前記目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、前記目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする、ビデオ生成方法を提供する。
【0005】
一つの可能な実施形態として、バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するステップは、
所定のオーディオ素材セットにおける各オーディオ素材のオーディオ特徴、オーディオ素材のビート情報、及びオーディオ素材における特定のオーディオセグメントの各音楽フレーズの時間長に基づいて、前記所定オーディオ素材セットから目標オーディオ素材を決定するステップを含み、前記目標オーディオ素材における特定のオーディオセグメントは、前記目標ビデオのバックグラウンドミュージックである。
【0006】
一つの可能な実施形態として、所定のオーディオ素材セットにおける各オーディオ素材のオーディオ特徴、オーディオ素材のビート情報、及びオーディオ素材における特定のオーディオセグメントの各音楽フレーズの時間長に基づいて、前記所定オーディオ素材セットから目標オーディオ素材を決定するステップは、
所定の音楽特徴セットに基づいて、所定の音楽素材セットの中に含まれる複数の音楽素材を除外して、第1の候補オーディオ素材セットを得るステップと、
所定のオーディオビートに基づいて、前記第1の候補オーディオ素材セットの中に含まれる各オーディオ素材を除外して、第2の候補オーディオ素材セットを得るステップと、
前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる各音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材に基づいて、前記目標オーディオ素材を決定するステップと、を含む。
【0007】
一つの可能な実施形態として、前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材が存在しない場合に、当該方法は、
前記ユーザの嗜好に基づいて、予め指定されているオーディオ素材セットの各オーディオ素材にそれぞれ対応するオーディオ特徴とマッチングを行い、マッチングが成功する場合に、マッチングが成功しているオーディオ素材に基づいて前記目標オーディオ素材を決定するステップをさらに含む。
【0008】
一つの可能な実施形態として、当該方法は、
前記ビデオ素材の各々に対して、前記ビデオ素材の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいて重み付け計算を行い、前記ビデオフレームの各々にそれぞれ対応する評価結果を得るステップと、
前記ビデオフレームの各々にそれぞれ対応する評価結果に基づいて、前記複数のビデオ素材から抽出された複数の目標ビデオフレームを含むように、前記ビデオ素材の前記ビデオフレームの各々から目標ビデオフレームを抽出して、前記目標ビデオのオープニング及び/又はエンディングを生成するためのビデオフレームセットを得るステップと、をさらに含み、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、目標ビデオを生成するステップは、
前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント、前記ビデオフレームセット及び前記目標オーディオ素材を統合して、前記ビデオフレームセットから生成されるオープニング及び/又はエンディングを含む前記目標ビデオを生成するステップを含む。
【0009】
一つの可能な実施形態として、前記ビデオ素材の各々の中のビデオフレームにそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、目標ビデオセグメントを得るステップは、
前記ビデオ素材の各ビデオフレームにそれぞれ対応する画像特徴情報、前記目標オーディオセグメントの中の対応する音楽フレーズの時間長、及び前記ビデオ素材のオリジナルオーディオの文句分割結果に基づいて、前記ビデオ素材に対してセグメント化処理を行って、前記目標ビデオセグメントを得るステップを含む。
【0010】
一つの可能な実施形態として、前記目標オーディオセグメントは、対応するオリジナルオーディオにおける1つ又は複数の完全な文句を含む。
【0011】
第2の側面によれば、本開示は、
ユーザに関するビデオを含むオリジナルビデオ素材セットから複数のビデオ素材を取得するためのビデオ処理モジュールと、
バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するためのオーディオ処理モジュールであって、
前記ビデオ処理モジュールは、さらに、前記ビデオ素材の各々に対して、前記ビデオ素材の各ビデオフレームからそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、前記ビデオ素材に対応する目標ビデオセグメントを得るのに用いられる、オーディオ処理モジュールと、
複数の前記目標ビデオセグメント及び前記目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成するためのビデオ統合モジュールと、を含み、前記目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、前記目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする、
ビデオ生成装置を提供する。
【0012】
第3の側面によれば、本開示は、メモリと、プロセッサと、を含む電子機器であって、
前記メモリは、コンピュータプログラム命令を格納するように構成され、
前記プロセッサは、前記コンピュータプログラム命令を実行して、前記電子機器に第1の側面のいずれか1つに記載のビデオ生成方法を実現させるように構成される、電子機器を提供する。
【0013】
第4の側面によれば、本開示は、電子機器の少なくとも1つのプロセッサによって実行されるときに、前記電子機器に第1の側面のいずれか1つに記載のビデオ生成方法を実現させるコンピュータプログラム命令を含む、読み取り可能な記憶媒体を提供する。
【0014】
第5の側面によれば、本開示は、コンピュータによって実行されるときに、前記コンピュータに第1の側面のいずれか1つに記載のビデオ生成方法を実現させる、コンピュータプログラム製品を提供する。
【0015】
第6の側面によれば、本開示は、コンピュータによって実行されるときに、前記コンピュータに第1の側面のいずれか1つに記載のビデオ生成方法を実現させる、コンピュータプログラムを提供する。
【図面の簡単な説明】
【0016】
本明細書の中での図面は、本明細書に組み込まれ、本明細書の一部を構成し、本開示に適合する実施例を示し、明細書とともに本開示の原理を解釈するのに用いられる。
【0017】
本開示の実施例又は従来技術における技術案をより明確に説明するために、以下の記載では、実施例又は従来技術の説明において使用される必要がある図面を簡単に説明する。自明なことに、当業者であれば、創造的な労力を払うことなく、それらの図面に基づき、他の図面を得ることもできる。
【0018】
図1】本開示の実施例によるビデオ生成方法の応用シーンを示す図である。
図2】本開示の一実施例によるビデオ生成方法のフローチャートを示す図である。
図3】本開示の別の実施例によるビデオ生成方法のフローチャートを示す図である。
図4】本開示の別の実施例によるビデオ生成方法のフローチャートを示す図である。
図5】本開示の別の実施例によるビデオ生成方法のフローチャートを示す図である。
図6】本開示の一実施例によるビデオ生成装置の構成概略図である。
図7】本開示の一実施例による電子機器の構成概略図である。
【発明を実施するための形態】
【0019】
本開示の上記目的、特徴及び利点をより明確に理解できるように、以下は、本開示の態様についてさらに説明する。説明すべきものは、矛盾しない限り、本開示の実施例及び実施例における特徴は、互いに組み合わせることができる。
【0020】
本開示を十分に理解するために、以下の説明において、多くの具体的な詳細が説明されているが、本開示は、ここで説明されている形態と異なる他の形態で実施されてもよい。明らかに、明細書における実施例は、本開示の一部の実施例であるに過ぎず、全ての実施例ではない。
【0021】
現在では、一般的には、ビデオ解析アルゴリズムを利用して、ユーザが一定時間帯の中で投稿したビデオから一部のビデオセグメントを選択して、選択されたこれらのビデオセグメントを統合することで、レビューを主題とするビデオを生成する。しかし、上記のプロセスは、どのようにビデオセグメントを選択するかの選択方法に限定されるので、生成されたビデオ全体が十分に鮮やかではなく、ユーザに与える感覚が期待に及ばないため、より鮮やかな素晴らしいレビューを主題とするビデオをどのように生成するかは、早急に解決すべき課題となっている。
【0022】
本開示は、ビデオ生成方法、装置、電子機器及び読み取り可能な記憶媒体を提供し、当該方法は、ユーザが所定の時間帯の中で投稿したビデオ素材から複数のビデオ素材を選択し、選択されている複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、抽出されている目標ビデオセグメントと、決定されている目標オーディオセグメントとを統合して、所定の時間帯に対応する目標ビデオを生成することにより、ユーザが目標ビデオにより所定の時間帯の中の深い記憶を振り返ることができるようにする。また、目標ビデオにおける各ビデオセグメントの時間長と、採用された目標オーディオセグメントにおける音楽フレーズの時間長とがマッチングすることにより、目標ビデオのコンテンツリズムとオーディオリズムとがマッチングし、ユーザに独特な体験感覚を与えることができる。
【0023】
図1は、本開示によるビデオ生成方法のシーンを示す図である。図1に示すシーン100は、端末機器101と、サーバサイド機器102とを含み、端末機器101には、クライアントがインストールされ、クライアントは、端末機器101を介してサーバサイド機器102と通信可能である。
【0024】
ここで、クライアントは、端末機器101を介して、目標ビデオを取得するエントリをユーザに提示し、ユーザによる該エントリに対するトリガ操作に基づいて操作命令を生成してもよい。その後、クライアントは、操作命令に従ってビデオ取得リクエストを生成してもよい。クライアントは、端末機器101を介してサーバサイド機器にビデオ取得リクエストを送信する。サーバサイド機器102は、クライアントが端末機器101を介して送信したビデオ取得リクエストに応答して、クライアントに所定の時間帯に対応する目標ビデオを配信してもよい。クライアントは、目標ビデオを受信すると、目標ビデオをロードし、端末機器101を介して、ビデオ編集ページを表示し、ビデオ編集ページで目標ビデオを再生し、提示してもよい。また、ユーザは、ビデオ編集ページを介してビデオに対して幾つかの調整を行い、例えば、目標ビデオのサウンドトラックなどを入れ替えてもよい。
【0025】
サーバサイド機器102は、ユーザに関する複数のビデオから複数のビデオ素材を選択し、選択された複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、バックグラウンドミュージックとして用いられる目標オーディオ素材を決定し、抽出された目標ビデオセグメントと、目標オーディオ素材とを統合して、目標ビデオを生成してもよい。サーバサイド機器102は、オフラインで目標ビデオを予め生成することができるため、サーバサイド機器102は、クライアントから送信されたビデオ取得リクエストを受信すると、ビデオ取得リクエストに迅速に応答することができ、ユーザ体験を確保する。
【0026】
説明すべきものは、上記の図1に示すシーン以外に、本開示によるビデオ生成方法は、端末機器のローカルで実行されてもよい。例えば、クライアントは、端末機器のリソースを利用して、ユーザに関するビデオから複数のビデオ素材を予め選択し、選択された複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、抽出された目標ビデオセグメントと、決定された目標オーディオセグメントとを共に端末機器のローカルにキャッシュしてもよい。クライアントは、ユーザが入力したビデオ取得リクエストを受信すると、複数の目標ビデオセグメントと目標オーディオ素材とを統合して、目標ビデオを生成する。このようにして、クライアントは、端末機器の空き時間帯のリソースを利用して、ビデオ素材及びオーディオ素材の処理を行うことができる。ここで、目標オーディオ素材は、端末機器が予めサーバサイド機器から取得されてもよく、ユーザが入力したビデオ取得リクエストを受信する時に、サーバサイド機器から取得されてもよい。
【0027】
当然ながら、他の形態で本開示によるビデオ生成方法を実現してもよく、ここでは一々贅言しない。
【0028】
例示的に、本開示によるビデオ生成方法は、本開示によるビデオ生成装置によって実行されてもよく、該ビデオ生成装置は、任意のソフトウェア及び/又はハードウェアの形態で実現されてもよい。例示的に、ビデオ生成装置は、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、パームトップコンピュータ、車載端末、ウェアラブルデバイス、ウルトラモバイルパーソナルコンピュータ(ultra-mobile personal computer、UMPC)、ネットブック又はパーソナルディジタルアシスタント(personal digital assistant、PDA)、パーソナルコンピュータ(personal computer、PC)、サーバ、クラウドサーバ、サーバクラスタなどであってもよい。本開示の実施例は、ビデオ生成装置の具体的なタイプを具体的に限定するものではない。
【0029】
以下の実施例では、電子機器がビデオ生成方法を実行する場合を例にして詳細に説明する。
【0030】
図2は、本開示の一実施例によるビデオ生成方法のフローチャートである。図2に示すように、本実施例の方法は、以下のステップを含む。
【0031】
S201: オリジナルビデオ素材セットから複数のビデオ素材を取得する。
【0032】
ここで、前記オリジナルビデオ素材セットは、ユーザに関するビデオを含んでもよく、オリジナルビデオ素材セットから選択されている複数のビデオ素材は、ユーザに対応する目標ビデオを生成するためのビデオ素材である。ここで、ユーザに関するビデオは、ユーザが投稿しているビデオ、ユーザが編集しているが投稿していないビデオ(例えば、下書きに格納されているビデオ)、ユーザがエクスポートしているビデオなどを含んでもよいが、これらには限定されない。又は、ユーザに関するビデオは、さらに時間に関連してもよい。即ち、オリジナルビデオ素材セットは、ユーザに関する、特定の時間条件を満たすビデオを含んでもよい。例えば、オリジナルビデオ素材セットは、ユーザが過去一年間投稿しているビデオ、過去一年間撮影しているビデオ、過去一年間クリップしているビデオなどを含んでもよい。
【0033】
以下の実施例では、オリジナルビデオ素材セットに、所定の時間帯の中で投稿されているビデオが含まれている場合を例にして説明する。
【0034】
電子機器がサーバサイド機器であると仮定すると、サーバサイド機器は、ユーザが投稿しているビデオ素材を格納するためのデータベースから、ユーザが所定の時間帯の中で投稿しているビデオ素材を取得してもよい。電子機器が端末機器であると仮定すると、一般的には、クライアントは、ユーザが投稿したビデオ素材、下書きにおける投稿されていないビデオ素材、ユーザがダウンロードしているビデオ素材などを端末機器のローカルのメモリ空間にキャッシュしてもよい。このため、電子機器は、さらに、端末機器のローカルのメモリ空間から、ユーザが所定の時間帯の中で投稿しているビデオ素材を取得してもよい。
【0035】
本開示は、所定の時間帯の具体的な時間長を限定するものではない。例えば、所定の時間帯は、1年、半年、1四半期などであってもよい。
【0036】
ここで、電子機器が決定する複数のビデオ素材は、ユーザが所定の時間帯の中で投稿した複数のビデオ素材のうち特定の条件を満たすビデオ素材であり、選択しているビデオ素材は、該ユーザの所定の時間帯の中の有意義な思い出を含む場合がある。ここで、ビデオ素材を選択するための特定の条件は、ビデオ素材の第1の次元での情報に関連付けられてもよい。第1の次元は、時間長、再生、いいね、コメント、お気に入り、転送、ダウンロード、シェアリングなどを含んでもよい。
【0037】
可能な一実施形態として、電子機器は、まず、ユーザが所定の時間帯の中で投稿している全てのビデオ素材の時間長を分析し、ビデオ素材全体の時間長が第1の所定の時間長よりも大きいビデオ素材を候補ビデオ素材として決定し、候補ビデオ素材セットを取得し、そして、候補ビデオ素材セットの中の候補ビデオ素材毎に、それぞれ、再生、いいね、コメント、お気に入り、転送、ダウンロード、シェアリングなどの1つ又は複数の第1の次元での情報に対して重み付け計算を行って、各候補ビデオ素材にそれぞれ対応する総合スコアを取得し、各候補ビデオ素材に対応する総合スコアに基づいてソートし、総合スコアが所定の条件を満たす複数の候補ビデオ素材を、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材として決定してもよい。
【0038】
例示的に、所定の時間帯の中で投稿されている各ビデオ素材に対して、ビデオ素材のいいね数X1、コメント数X2、お気に入り数X3、及び転送数X4を取得する。ここで、いいね次元に対応する重みはs1であり、コメント次元に対応する重みはs2であり、お気に入り次元に対応する重みはs3であり、転送次元に対応する重みはs4である。各次元に対応する情報及び重みに基づいて重み付け計算を行い、ビデオ素材に対応する重み付け計算結果を得る。上記の重み付け計算は、式により、P=s1*X1+s2*X2+s3*X3+s4*X4として表されてもよい。ただし、Pは、ビデオ素材に対する重み付け計算結果を表す。
【0039】
ここで、重み付け計算結果の数値が高いほど、該投稿されているビデオ素材が、ビデオ素材を選択するための特定の条件を満たす可能性が高いことを示す。重み付け計算結果の数値が低いほど、該投稿されているビデオが、ビデオ素材を選択するための特定の条件を満たす可能性が低いことを示す。
【0040】
説明すべきものは、重み付け計算を行う前に、第1の所定の時間長に基づいて、ユーザが所定の時間帯の中で投稿しているビデオ素材に対して選別する目的は、コンテンツ性の強いビデオ素材が得られることを確保するためである。ビデオ素材の時間長が短すぎて、ビデオコンテンツが相対的に少ないと、目標ビデオを生成するための有効なビデオセグメントを分割できない恐れがあり、サウンドトラックの音楽フレーズの時間長とマッチングすることもできない。
【0041】
第1の所定の時間長は、目標ビデオセグメントに対応する最小時間長に基づいて決定されてもよい。例えば、目標ビデオセグメントの最小時間長が2秒である場合に、第1の所定の時間長は、2秒よりも大きくてもよい。例えば、第1の所定の時間長は、3秒、4秒などである。
【0042】
説明すべきものは、本開示では、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材の数を限定するものではない。例えば、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材の数は、一定の数値であってもよい。又は、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材の数は、所定の数値範囲の中のいずれか1つの数値であってもよく、ユーザが所定の時間帯の中で投稿しているビデオ素材の総数に基づいて決定されてもよい。例示的に、電子機器に所定の時間帯に対応する目標ビデオを生成するためのビデオ素材の数を5個、10個などに設定してもよい。又は、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材を[3,10]の中の任意の数に設定してもよい。
【0043】
また、電子機器は、オリジナルビデオ素材セットから複数のビデオ素材を選択する際に、まずユーザが転送した他人のビデオ、ユーザがプライバシー状態に設定したビデオ、ユーザが投稿した後に削除しているビデオ、広告売り込みなどのタイプのビデオを除外し、その後、ビデオ素材の時間長及びビデオ素材の第1の次元での情報に基づいてフィルタリングしてもよい。それにより、ユーザのプライバシーを保護し、生成される所定の時間帯に対応する目標ビデオのコンテンツは、ユーザの所定の時間帯の中の思い出と密接に関係しているものであることを確保する。
【0044】
S202: バックグラウンドミュージックとして用いられる目標オーディオ素材を取得する。
【0045】
幾つかの場合において、目標オーディオ素材の時間長、目標オーディオ素材の時間長以外の他の次元でのオーディオ特徴などが本出願における目標ビデオのバックグラウンドミュージックとする要求を満たす場合に、目標オーディオ素材に特別な処理を行う必要はない。別の幾つかの場合において、目標オーディオ素材の時間長、目標オーディオ素材における幾つかのオーディオセグメントのオーディオ特徴などが本出願における目標ビデオのバックグラウンドミュージックとする要求を満たさない場合に、目標オーディオ素材から条件を満たす目標オーディオセグメントを抽出して目標ビデオのバックグラウンドミュージックとしてもよい。
【0046】
目標オーディオ素材における目標オーディオセグメントを目標ビデオのバックグラウンドミュージックとする場合に、目標オーディオセグメントは、電子機器が所定のオーディオ素材セットにおける各オーディオ素材の第2の次元でのオーディオ特徴を総合分析することで決定する目標オーディオ素材の中の1つの特定のオーディオセグメントであってもよい。
【0047】
所定のオーディオ素材セットは、ユーザがお気に入りに追加しているオーディオ素材、ユーザがビデオを投稿した時に使用しているオーディオ素材、オーディオライブラリにおけるオーディオ素材などを含んでもよい。本開示は、所定のオーディオ素材セットの中に含まれるオーディオ素材の数、オーディオ素材の時間長、オーディオ素材の記憶形式などのパラメータを限定するものではない。
【0048】
第2の次元は、リズム、オーディオスタイル、オーディオムード、オーディオシーン、音楽フレーズの時間長、オーディオを用いてビデオを投稿している回数などの1つ又は複数の次元を含んでもよい。当然ながら、第3の次元は、オーディオ素材の他の次元での特徴をさらに含んでもよい。本開示は、オーディオ特徴が具体的にどの次元での特徴を含むかを限定するものではない。
【0049】
目標オーディオ素材及び目標オーディオセグメントは、電子機器が他の方式で決定したオーディオであってもよい。以下は、図3に示す実施例で、どのように目標オーディオ素材及び目標オーディオセグメントを決定するかについて、詳細に説明する。
【0050】
S203: 前記ビデオ素材の各々について、前記ビデオ素材の各ビデオフレームに対してそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行い、前記ビデオ素材に対応する目標ビデオセグメントを得る。
【0051】
本ステップに係る複数のビデオ素材は、ステップS201でオリジナルビデオ素材セットから取得される複数のビデオ素材である。
【0052】
電子機器は、予めトレーニングされているビデオ処理モデルを用いて、選択されている複数のビデオ素材の各ビデオフレームに対して第3の次元で特徴抽出を行い、ビデオ処理モデルが出力するビデオ素材における各ビデオフレームに対する画像特徴情報を得て、ビデオ素材における各ビデオフレームに対応する画像特徴情報に基づいて、ビデオフレームに対応する評価結果を得て、各ビデオフレームにそれぞれ対応する評価結果、ビデオ素材のオリジナルオーディオの文句分割結果、及び目標オーディオセグメントにおける対応する音楽フレーズの時間長に基づいて、分割するべき目標ビデオセグメントのビデオ素材における位置を決定し、さらに分割して、目標ビデオセグメントを得てもよい。
【0053】
ここで、上記の第3の次元は、画風、画像シーン、画像テーマ、画像ムード、画像人物関係、画像顕著性特徴などのうちの1つ又は複数の次元を含んでもよい。なお、本開示は、ビデオ処理モデルのタイプを限定するものではない。例えば、ビデオ処理モデルは、ニューラルネットワークモデル、畳み込みモデルなどであってもよい。
【0054】
ここで、各ビデオフレームにそれぞれ対応する評価結果、ビデオ素材のオリジナルオーディオの文句分割結果、及び目標オーディオセグメントにおける対応する音楽フレーズの時間長に基づいて、目標ビデオセグメントを得ることは、以下のいずれかの実施形態を採用してもよいが、それらには限定されない。
【0055】
一つの可能な実施形態では、評価結果が数値であると仮定すると、電子機器は、評価結果において数値がより高いビデオフレームが相対的に集中するビデオフレーム範囲を分析し、そのビデオフレーム範囲は、予め設定されている生成される目標ビデオにおける各ビデオセグメントの最大時間長以上に設定されてもよく、そして、ビデオ素材のオリジナルオーディオに対する文句分割結果に基づいて、上記の決定されるビデオフレーム範囲の中で切り取りを行い、目標ビデオセグメントを得て、目標ビデオセグメントに対応するオリジナルオーディオセグメントの中に含まれるものが1つ又は複数の完全な文句であるようにしてもよい。
【0056】
別の可能な実施形態では、評価結果が数値であると仮定すると、電子機器は、さらに、総合結果の数値が最も高いビデオフレームが位置する位置に基づいて、評価結果の数値が最も高いビデオフレームが位置する位置の前後で探索を行って、目標ビデオセグメントを得て、目標ビデオセグメントに対応するオリジナルオーディオセグメントの中に含まれるものが1つ又は複数の完全な文句であるようにしてもよい。
【0057】
説明すべきものは、上記のいずれかの方式で決定される目標ビデオセグメントの時間長は、目標オーディオセグメントにおける対応する音楽フレーズの時間長よりも小さくてもよい。例示的に、現在、ビデオ素材2に対して上記の第1の実施形態を実行すると仮定する。ビデオフレームに対応する評価結果に基づいて決定される評価結果の数値が相対的に高いビデオフレーム範囲がビデオ素材の第15のフレームから第26のフレームであり、3フレーム/秒のレートで再生し、再生時間長が4秒であり、ビデオ素材2に対応するオリジナルオーディオのうち、第15のフレームから第26のフレームに対応するオリジナルオーディオセグメントが2つの完全な文句を含み、第1の文句と第2の文句の時間長はいずれも2秒であり、ビデオ素材2に対応する再生時間長は、目標オーディオセグメントにおける第2の音楽フレーズの時間長で3秒であり、3フレーム/秒のレートで最大9フレームが再生されてもよい。従って、第15のフレーム~第26のフレームから、連続する9個以下の数のビデオフレームを抽出する必要がある。よって、2つの文句にそれぞれ対応する複数のビデオフレームの評価結果の数値の高低の全体分布又は評価結果の数値が最も高いビデオフレームに基づいて、そのうちの1つの文句に対応する複数のビデオフレームを、抽出すべき目標オーディオセグメントの中に含まれるビデオフレームとして決定してもよい。
【0058】
例示的に、現在、ビデオ素材3に対して上記の第2の実施形態を実行すると仮定する。ビデオフレームに対応する評価結果に基づいて決定される評価結果の数値が最も高いビデオフレームが第20のフレームであり、ビデオ素材3に対応するオリジナルオーディオのうち、第20のフレームに対応する文句の時間長は4秒であり、前の文句が2秒であり、後の文句が2秒であり、ビデオ素材3に対応する再生時間長は、目標オーディオセグメントにおける第3の音楽フレーズの時間長で8秒である。従って、第20のフレームの前後でそれぞれ探索し、第20のフレームに対応するオリジナルオーディオにおける文句、前の文句、後の文句を決定し、そのうちの1つの文句に対応する複数のビデオフレームを、抽出すべき目標オーディオセグメントに含まれるビデオフレームとして決定してもよい。
【0059】
電子機器は、上記各ビデオ素材に対して該プロセスを実行することで、選択されたビデオ素材から対応する目標ビデオセグメントを抽出することができる。
【0060】
説明すべきものは、電子機器は、他の方式により、ビデオ素材から目標ビデオセグメントを抽出してもよい。
【0061】
S204: 複数の目標ビデオセグメント及び目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成し、目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする。
【0062】
複数の目標ビデオセグメントは、各ビデオ素材に対応する目標ビデオセグメントを含む。
【0063】
一の可能な実施形態として、電子機器は、複数の目標ビデオセグメントを投稿時間順にクリップテンプレートに充填し、そして、目標オーディオ素材(又は、目標オーディオ素材の目標オーディオセグメント)と統合することで、目標ビデオを生成してもよい。ここで、クリップテンプレートは、1つ又は複数のクリップタイプに対応するクリップ操作方式を指示するためのテンプレートである。クリップタイプは、例えば、遷移、フィルタ、エフェクトなどの1つ又は複数を含む。
【0064】
統合している間に、目標ビデオセグメントの時間長が、対応する音楽フレーズの時間長よりも大きい、又は小さい場合があるので、目標ビデオセグメントの再生速度を速くし又は遅くして、再生速度が調整されている目標ビデオセグメントが、対応する音楽フレーズの時間長とマッチングするようにしてもよい。よって、目標ビデオの中に含まれるビデオセグメントは、上記の再生速度が調整されている目標ビデオセグメントである。
【0065】
また、目標ビデオにおいて、各目標ビデオセグメントの各ビデオフレームに、例えば、目標ビデオセグメントの投稿時間、投稿場所、ユーザが目標ビデオセグメントを投稿した際のタイトル、デュエットタイプのビデオであるか否か等の該目標ビデオセグメントに関する情報を表示してもよい。目標ビデオセグメントに関する情報は、例えば、左上、右上、左下、右下等のビデオフレームの任意の位置に表示されてもよい。ユーザの視覚体験を確保するために、できるだけ目標ビデオフレームの画面を遮らないようにしてもよい。
【0066】
本実施例による方法は、ユーザに関するビデオから複数のビデオ素材を選択し、選択されている複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、抽出されている目標ビデオセグメントと、決定されている目標オーディオ素材とを統合して、目標ビデオを生成する。ユーザは、目標ビデオにより、過去の深い記憶を振り返ることができる。また、目標ビデオにおける各ビデオセグメントの時間長と、採用されている目標オーディオ素材における音楽フレーズの時間長とがマッチングすることにより、目標ビデオのコンテンツリズムとオーディオリズムとがマッチングし、ユーザに独特な体験感覚を与えることができる。
【0067】
図3は、本開示の別の実施例によるビデオ生成方法のフローチャートである。図3に示す実施例は、主に、目標オーディオ素材及び目標オーディオセグメントを決定する実施形態を説明するためのものである。図3に示すように、本実施例の方法は、以下のステップを含む。
【0068】
S301: 所定のオーディオ特徴セットに基づいて、所定のオーディオ素材セットの中に含まれる複数のオーディオ素材を除外して、第1の候補オーディオセットを取得する。
【0069】
ステップS301は、オーディオに対して、オーディオスタイルタグ、オーディオムードタグ、オーディオ言語タグ、オーディオシーンタグなどの次元で選別を行うことに相当する。
【0070】
ここで、所定のオーディオ素材セットは、オーディオライブラリにおける複数のオーディオ素材、ユーザがお気に入りに追加したオーディオ素材、ユーザが投稿したビデオに使用されたオーディオ素材などを含んでもよい。本開示は、所定オーディオ素材セットを決定する実現形態を限定するものではない。電子機器は、所定オーディオ素材セットにおける各オーディオ素材の標識、オーディオ素材のオーディオ特徴情報、オーディオ素材の歌詞情報などを取得してもよい。ここで、オーディオ素材の標識は、オーディオ素材を一意に識別するのに使用されてもよい。それにより、後で決定される目標オーディオ素材の標識に基づいて所定のオーディオ素材セットにおいて容易に検索を行うことができる。オーディオ素材の標識は、例えば、オーディオ素材ID、数字番号などであってもよい。
【0071】
所定のオーディオ特徴セットの中に含まれるオーディオ特徴は、目標ビデオのサウンドトラックとして推薦されないオーディオ素材のさまざまな次元でのオーディオ特徴である。例えば、所定のオーディオ特徴セットは、オーディオスタイル特徴、オーディオムード特徴、オーディオ言語特徴、オーディオシーン特徴などの1つ又は複数の次元でのオーディオ特徴を含んでもよい。当然ながら、所定のオーディオ特徴セットは、他の次元でのオーディオ特徴を含んでもよく、本開示はこれを限定するものではない。例示的に、所定のオーディオ特徴セットは、緊張、怒り、疲労などのオーディオムード特徴を含む。
【0072】
所定のオーディオ特徴セットに基づいて所定のオーディオ素材セットの中のオーディオ素材を除外するプロセスにおいて、電子機器は、各オーディオ素材に対応する音楽特徴と、所定のオーディオ特徴セットの中の各オーディオ特徴とのマッチングを行い、マッチングが成功する場合に、該オーディオ素材を非候補オーディオとして決定し、マッチングが成功しない場合に、該オーディオ素材を候補オーディオ素材として決定することにより、第1の候補オーディオ素材セットを取得してもよい。
【0073】
第1の候補オーディオ素材セットは、複数の候補オーディオ素材を含んでもよい。
【0074】
S302: 所定のオーディオビートに基づいて、前記第1の候補オーディオ素材セットの中に含まれる各オーディオ素材を除外して、第2の候補オーディオ素材セットを取得する。
【0075】
ステップS302は、オーディオ素材に対してオーディオリズム次元で選別を行うことに相当する。
【0076】
ここで、オーディオビートは、1分あたりの拍数、即ち、BPM(Beat Per Minute)で表されてもよい。BPMは、オーディオ又は音声のリズムの速さを判断するために使用されてもよく、BPMの値が高いほど、リズムが速いことを示す。
【0077】
電子機器は、第1の候補オーディオ素材セットにおける各オーディオ素材に対応するBPMを取得し、そして、オーディオ素材に対応するBPMと、所定のオーディオビートとを比較し、所定のオーディオビートを満たすオーディオ素材は、第2の候補オーディオ素材セットにおけるオーディオ素材であり、所定のオーディオビートを満たさないオーディオ素材は、除外されるオーディオ素材である。除外されるオーディオ素材は、目標ビデオのサウンドトラックになる可能性がない。
【0078】
所定のオーディオビートは、BPM範囲であってもよく、例えば、BPM=[80,130]である。
【0079】
説明すべきものは、上記S301及びS302の実行順序は、順序とおりでなくてもよく、まずS302を実行し、そしてS301を実行してもよい。
【0080】
次に、電子機器は、第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる各音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材から、前記目標オーディオ素材を決定してもよい。例示的に、ステップS303~ステップS305を含んで実現してもよい。
【0081】
S303: 第2の候補オーディオ素材セットの中のオーディオ素材に対してそれぞれ音声認識を行い、第2の候補オーディオ素材セットの中のオーディオ素材にそれぞれ対応する特定のオーディオセグメントを取得する。
【0082】
S304: 第2の候補オーディオセットの中の各オーディオ素材について、前記オーディオ素材の特定のオーディオセグメントに対して音楽フレーズ分割を行い、前記特定のオーディオセグメントの中に含まれる各音楽フレーズを取得し、前記目標オーディオセグメントの中に含まれる各音楽フレーズの時間長が所定の時間長条件を満たすか否かに応じて、前記オーディオ素材が第3の候補オーディオ素材セットの中のオーディオ素材であるか否かを決定する。
【0083】
ステップS303及びS304は、オーディオ素材について音楽フレーズの時間長次元で選別を行い、且つ、オーディオ素材の特定のオーディオセグメントの中に含まれる音楽フレーズの時間長に基づいて選別を行うことに相当する。
【0084】
このうち、特定のオーディオセグメントは、オーディオ素材におけるクライマックスオーディオセグメントであるとして理解されてもよい。本開示は、オーディオ素材から対応する特定のオーディオセグメントを取得する実現形態を限定するものではない。例えば、特定のオーディオセグメントは、オーディオ処理モデルによってオーディオ素材の特定の属性を分析し、且つ、所定の時間帯に対応する目標ビデオを生成するためのビデオ素材の数を組み合わせて、目標オーディオから区切って得られるオーディオセグメントであってもよい。本開示は、オーディオ処理モデルのタイプを限定するものではない。例えば、オーディオ処理モデルは、ニューラルネットワークモデル、畳み込みモデルなどであってもよい。
【0085】
第2の候補オーディオ素材セットの中の各オーディオ素材に対してそれぞれオーディオ処理を行い、第2の候補オーディオ素材セットの中の各オーディオ素材にそれぞれ対応する特定のオーディオセグメントを取得した後に、音声活動検出(Voice Activity Detection、VAD)技術を採用して特定のオーディオセグメントの歌詞を分析し、特定のオーディオセグメントの中の各音楽フレーズの歌詞の開始位置及び終了位置を決定する、即ち、各音楽フレーズに対応する歌詞の境界を決定し、各音楽フレーズの歌詞の開始位置及び終了位置を特定のオーディオセグメントにマッピングして、各音楽フレーズの時間長を取得してもよい。
【0086】
目標オーディオセグメントの各音楽フレーズの時間長がいずれも第2の所定の条件(例えば、予め設定されている時間長要件)を満たす場合に、該特定のオーディオセグメントが属するオーディオ素材を第3の候補オーディオ素材セットの中のオーディオ素材として決定する。特定のオーディオセグメントの1つ又は複数の音楽フレーズの時間長が第2の所定の条件を満たさない場合に、該特定のオーディオセグメントが属するオーディオ素材を、除外されるオーディオ素材として決定する。
【0087】
説明すべきものは、(例えば、予め設定されている時間長要件等の)第2の所定の条件は、目標ビデオにおいて許容される単一のビデオセグメントの最小時間長及び最大時間長に基づいて決定されてもよい。例えば、目標ビデオにおいて、各ビデオセグメントが最短2秒、最長5秒である場合に、第2の所定の条件は、3秒以上で6秒以下であってもよい。1秒の時間マージンを残しておくことにより、遷移に使用可能であり、後でビデオセグメントを統合する際にエラーが発生することを回避することもできる。
【0088】
1つの可能な場合において、第2の候補オーディオ素材セットに含まれる1つ又は複数のオーディオ素材が条件を満たす場合が考えられるので、第3の候補オーディオ素材セットが1つ又は複数のオーディオ素材を含む場合には、第3の候補オーディオ素材セットの中に含まれるオーディオ素材から目標オーディオ素材を決定してもよい。従って、この場合、電子機器は、S305を実行してもよい。
【0089】
別の可能な場合において、第2の候補オーディオ素材セットの中の全てのオーディオ素材がいずれも第2の所定条件を満たさない場合も考えられ、第3の候補オーディオ素材セットの中にオーディオ素材が存在しない場合には、第3の候補オーディオ素材セットから目標オーディオ素材を決定することはできない。従って、この場合、電子機器は、S306を実行してもよい。
【0090】
S305: 第3の候補オーディオ素材セットの中に含まれるオーディオ素材から、前記目標オーディオ素材を決定し、目標オーディオセグメントは、前記目標オーディオ素材に対応する特定のオーディオセグメントである。
【0091】
一つの可能な実施形態では、電子機器は、第3の候補オーディオ素材セットの中のオーディオ素材について、オーディオ素材を使用して投稿されているビデオの総数、オーディオ素材のお気に入り数、目標ユーザがオーディオ素材を使用して投稿しているビデオの数などの情報に基づいて、重み付け計算を行い、重み付け計算結果に基づいて、第3の候補オーディオ素材セットの中の各オーディオ素材を高い順にソートし、ソート結果に基づいて、1位に位置するオーディオ素材を目標オーディオ素材として選択してもよい。
【0092】
別の可能な実施形態では、電子機器は、第3の候補オーディオ素材セットからランダムに1つのオーディオ素材を目標オーディオ素材として選択してもよい。
【0093】
当然ながら、電子機器は、他の方式により、第3の候補オーディオ素材セットから目標オーディオ素材を選択してもよい。本開示は、どのように第3の候補オーディオ素材セットから目標オーディオ素材を選択するかの実現形態を限定するものではない。
【0094】
説明すべきものは、オーディオ素材を使用して投稿されているビデオの総数、オーディオのお気に入り数、目標ユーザがオーディオ素材を使用して投稿しているビデオの数などの情報に基づいて複数の候補オーディオ素材をソートすることは、ステップS301とS302の後であって、ステップS303の前に実行されてもよい。よって、S303~S305を実行している過程において、選択されている各候補オーディオ素材の早い順に行ってもよい。
【0095】
S306: ユーザの嗜好と、予め指定されているオーディオ素材セットの中の各オーディオ素材に対応するオーディオ特徴とのマッチングを行い、マッチングが成功する場合に、マッチングが成功しているオーディオ素材に基づいて目標オーディオ素材を決定する。
【0096】
ユーザの嗜好と、予め指定されているオーディオ素材セットの中の1つ又は複数のオーディオ素材のオーディオ特徴とのマッチングが成功する場合に、マッチングが成功している1つ又は複数のオーディオ素材から1つを目標オーディオ素材として決定してもよい。
【0097】
例えば、オーディオ素材を使用して投稿されているビデオの総数、オーディオ素材のお気に入り数、目標ユーザがオーディオ素材を使用して投稿しているビデオの数などの情報に基づいて、重み付け計算を行い、重み付け計算結果に基づいて、マッチングが成功しているオーディオ素材を高い順にソートし、1位に位置するオーディオ素材を目標オーディオ素材として選択し、又はマッチングが成功しているオーディオ素材からランダムに1つを目標オーディオ素材として選択してもよい。
【0098】
ユーザの嗜好と、所定のオーディオのオーディオ特徴とがマッチングしない場合に、所定のオーディオ素材セット又は予め指定されているオーディオ素材セットからランダムに1つを目標オーディオ素材として選択してもよい。
【0099】
本実施例による方法によって目標オーディオ素材を選択することで、選択されている目標オーディオ素材と、ユーザが所定の時間帯の中で投稿している複数のビデオ素材から抽出される複数の目標ビデオセグメントとがマッチングするようにして、選択される目標オーディオ素材を目標ビデオのバックグラウンドミュージックとして使用することにより、目標ビデオが可能な限りユーザの期待を満たすようにし、ユーザ体験を向上させることができる。
【0100】
ビデオのオープニングとエンディングは、ビデオの重要な部分であり、ビデオの素晴らしさを高めることができる。このため、図4に示す実施例によって、どのように目標ビデオのオープニング、エンディングを生成するかについて詳細に説明する。
【0101】
図4は、本開示の別の実施例によるビデオ生成方法のフローチャートである。図4に示すように、本実施例による方法は、以下のステップを含む。
【0102】
S401: オリジナルビデオ素材セットから複数のビデオ素材を取得する。
【0103】
ここで、前記オリジナルビデオ素材セットは、ユーザが所定の時間帯の中で投稿しているビデオ素材を含み、オリジナルビデオ素材セットから選択される複数のビデオ素材は、前記所定の時間帯に対応する目標ビデオを生成するのに用いられる。
【0104】
S402: バックグラウンドミュージックとして用いられる目標オーディオ素材を取得する。
【0105】
本実施例におけるステップS401、S402は、それぞれ図2に示す実施例におけるステップS201、S202と類似しており、図2に示す実施例の詳細な説明を参照すればよく、簡明のため、ここではこれ以上説明しない。
【0106】
説明すべきものは、目標ビデオがオープニングとエンディングを含むので、目標オーディオ素材を決定する際には、目標ビデオセグメントの時間長を考慮する必要があるだけでなく、オープニング及びエンディングがそれぞれ1つの音楽フレーズの時間長に対応する必要があることを考慮する必要もある。それにより、目標ビデオ全体の構造が一貫しているということを確保する、即ち、目標ビデオにおける各ビデオセグメントと、1つの完全な音楽フレーズの時間長とがマッチングすることを確保する。
【0107】
S403: 各ビデオ素材について、ビデオ素材の各ビデオフレームに対してそれぞれ画像特徴抽出を行い、ビデオ素材の各ビデオフレームにそれぞれ対応する画像特徴情報に基づいて、ビデオ素材に対応する目標ビデオセグメント及び目標ビデオフレームを取得し、複数の目標ビデオセグメントとビデオフレームセットを取得する。
【0108】
ビデオフレームセットは、前記ビデオ素材の各々から抽出される目標ビデオフレームを含み、前記ビデオフレームセットの中に含まれる複数の目標ビデオフレームは、目標ビデオのオープニング及び/又はエンディングを生成するのに用いられる。
【0109】
ここで、複数のビデオ素材に対してそれぞれビデオフレーム画像特徴抽出を行い、各ビデオフレームに対応する画像特徴情報に基づいてセグメント化処理を行い、目標ビデオセグメントを取得する実現形態は、図2に示す実施例の詳細な説明を参照すればよく、簡明のため、ここではこれ以上説明しない。
【0110】
ここで、ビデオフレームセットの中に含まれる目標ビデオフレームは、目標ビデオのオープニング及び/又はエンディングを生成するための画像素材である。ここでは、主に、どのようにビデオフレームセットの中に含まれる各目標ビデオフレームを取得するかについて説明する。
【0111】
一つの可能な実施形態として、目標ビデオフレームは、ビデオ素材に対応する目標ビデオセグメントから抽出される1つのビデオフレームであってもよく、且つ、目標ビデオフレームの画像特徴情報は、条件を満たす。
【0112】
例示的に、上記で説明されているように、目標ビデオセグメントを決定する際に、ビデオ素材の中の各ビデオフレームの画像特徴情報に基づいて、ビデオ素材の各ビデオフレームに対応する評価結果を取得してもよい。評価結果が数値であると仮定すると、電子機器は、目標ビデオセグメントの中で評価結果の数値が最も高いビデオフレームを、オープニング及び/又はエンディングを生成するための画像素材としてもよい。又は、電子機器は、目標ビデオセグメントの中で評価結果の数値が高い順に、上位の複数のビデオフレームから1つのビデオフレームを選択して、オープニング及び/又はエンディングを生成するための画像素材としてもよい。
【0113】
各ビデオ素材に対して上記のプロセスを実行することにより、各ビデオ素材から、条件を満たすビデオフレームを取得し、目標ビデオのオープニング及び/又はエンディングを生成する画像素材とし、即ち、ビデオフレームセットを取得することができる。
【0114】
S404: ビデオフレームセットからオープニング及び/又はエンディングを生成し、オープニング及び/又はエンディング、及び複数の目標ビデオセグメントと目標オーディオ素材を統合して、目標ビデオを生成する。
【0115】
目標ビデオは、オープニング、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメント及びエンディングを含み、目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする。
【0116】
目標ビデオのバックグラウンドミュージックが目標オーディオ素材の目標オーディオセグメントであるとすると、オープニングの時間長と、目標オーディオセグメントの1番目の音楽フレーズの時間長とがマッチングし、エンディングの時間長と、目標オーディオセグメントの最後の音楽フレーズの時間長とがマッチングし、且つ、各目標ビデオセグメントの時間長と、対応する音楽フレーズの時間長とがマッチングし、1番目の目標ビデオセグメントの時間長と、目標オーディオセグメントにおける2番目の音楽フレーズの時間長とがマッチングし、2番目の目標ビデオセグメントの時間長と、目標オーディオセグメントにおける3番目の音楽フレーズの時間長とがマッチングし、3番目の目標オーディオセグメントの時間長と、目標オーディオセグメントにおける4番目の音楽フレーズの時間長とがマッチングし、このように類推する。
【0117】
一つの可能な実施形態として、オープニングとエンディングを生成する必要があると仮定すると、電子機器は、異なるクリップテンプレートによって、ビデオフレームセットの中に含まれる複数の目標ビデオフレームをそれぞれ編集し(クリップし)、オープニングとエンディングを取得してもよい。クリップテンプレートは、ビデオフレームセットの中に含まれる目標ビデオフレームをビデオセグメントにクリップするクリップ方式を指示するのに用いられる。例えば、クリップ方式は、遷移方式、エフェクト、フィルタなどの1つ又は複数を含んでもよいが、それらに限定されない。本開示は、クリップテンプレートについて限定するものではない。
【0118】
オープニングの時間長と、目標オーディオセグメントの1番目の音楽フレーズの時間長とがマッチングし、エンディングの時間長と、目標オーディオセグメントの最後の音楽フレーズの時間長とがマッチングする必要があるため、目標オーディオセグメントの1番目の音楽フレーズの時間長に基づいて、オープニングをクリップするためのクリップテンプレートを選択し、目標オーディオセグメントの最後の音楽フレーズの時間長に基づいて、エンディングをクリップするためのクリップテンプレートを選択してもよい。当然ながら、クリップテンプレートを選択する際に、例えば、クリップテンプレートに基づいて生成されるビデオセグメントのスタイル、クリップテンプレートの画像素材に対する要求等の他の要因をさらに考慮してもよい。
【0119】
説明すべきものは、統合する過程において、目標ビデオセグメントの時間長が、対応する音楽フレーズの時間長よりも大きい、又は小さい場合がある。よって、目標ビデオセグメントの再生速度を速くし又は遅くして、再生速度が調整された目標ビデオセグメントが、対応する音楽フレーズの時間長とマッチングするようにしてもよい。
【0120】
本実施例では、複数の目標ビデオセグメントからビデオフレームをそれぞれ抽出して目標ビデオのオープニングとエンディングを生成することにより、目標ビデオがより素晴らしくなるようにし、目標ビデオが可能な限りユーザの期待を満たすようにし、ユーザの体験を向上させ、ユーザが該ビデオを投稿する興味を高めるのに有利である。
【0121】
一つの具体的な実施例では、ビデオ生成方法がサーバサイド機器によって実行されると仮定する。サーバサイド機器は、具体的には、業務サーバサイド、オーディオアルゴリズムサーバサイド、画像アルゴリズムサーバサイド、及び統合プロセスを実行するためのクラウドサービスを含む。且つ、サーバサイド機器は、予めオフラインで(例えば、過去一年間等の)所定の時間帯に対応する目標ビデオを生成し、業務サーバサイドがクライアントから送信されるビデオ取得リクエストを受信すると、クライアントに(例えば、過去一年間等の)所定の時間帯に対応する目標ビデオを送信してもよい。
【0122】
以下は、図5に示す実施例によって、サーバサイドがどのように予め目標ビデオを生成するかについて詳細に説明する。図5に示す実施例は、上記のシーンにおけるビデオ生成方法の具体的な流れを示す。
【0123】
図5に示すように、本実施例は、以下のステップを含む。
【0124】
S501: 業務サーバサイドは、データベースにビデオ素材取得リクエストを送信する。
【0125】
ここで、ビデオ素材取得リクエストは、目標ユーザが所定の時間帯の中で投稿しているビデオをリクエストするための取得リクエストである。ビデオ素材取得リクエストは、目標ユーザの標識、及び目標ユーザが所定の時間帯の中で投稿しているビデオ素材をリクエストすることを指示するための指示情報を含んでもよい。
【0126】
S502: データベースは、目標ユーザに対応するオリジナルビデオ素材セットを業務サーバサイドに送信する。
【0127】
S503: 業務サーバサイドは、目標ユーザに対応するオリジナルビデオ素材セットから、複数のビデオ素材を決定する。
【0128】
S504: 業務サーバサイドは、所定のオーディオ特徴セット及び所定のオーディオビートに基づいて、所定のオーディオ素材セットを除外して、第2の候補オーディオ素材セットを取得する。
【0129】
S505: 業務サーバサイドは、第2の候補オーディオ素材セットの中に含まれる各オーディオ素材の標識をオーディオアルゴリズムサーバサイドに送信する。
【0130】
S506: オーディオアルゴリズムサーバサイドは、受信されるオーディオ素材の標識に基づいてオーディオ素材をダウンロードし、オーディオ素材について特定のオーディオセグメントを識別し、音楽フレーズ分割及び選別を行って、目標オーディオ素材を決定する。
【0131】
S507: オーディオアルゴリズムサーバサイドは、業務サーバサイドに目標オーディオ素材の標識及びオーディオタイムスタンプ情報を送信する。
【0132】
ここで、オーディオタイムスタンプ情報は、目標オーディオ素材における目標オーディオセグメントの中の各音楽フレーズのタイムスタンプ情報を含み、オーディオタイムスタンプ情報により、各目標オーディオセグメントの中の各音楽フレーズの開始時間、終了時間を決定することができ、さらに、各音楽フレーズの時間長情報を取得することができる。
【0133】
S508: 業務サーバサイドは、複数のビデオ素材の標識、目標オーディオ素材の標識、及び音声タイムスタンプ情報を画像アルゴリズムサーバサイドに送信する。
【0134】
S509: 画像アルゴリズムサーバサイドは、複数のビデオ素材の標識、目標オーディオ素材の標識から、複数のビデオ素材及び目標オーディオ素材を取得する。
【0135】
S510: 画像アルゴリズムサーバサイドは、複数のビデオ素材、目標オーディオ素材及びオーディオタイムスタンプ情報に基づいて、複数の目標ビデオセグメントのそれぞれのタイムスタンプ情報、及び複数の目標ビデオセグメントと目標オーディオセグメントとの間のビデオ統合ロジックを取得する。
【0136】
S511: 画像アルゴリズムサーバサイドは、複数の目標ビデオセグメントのそれぞれのタイムスタンプ情報、及び複数の目標ビデオセグメントと目標オーディオセグメントとの間のビデオ統合ロジックを業務サーバサイドに送信する。
【0137】
S512: 業務サーバサイドは、複数のビデオ素材の標識、複数の目標ビデオセグメントのそれぞれのタイムスタンプ情報、目標オーディオ素材の標識、目標オーディオセグメントのタイムスタンプ情報、及び複数の目標ビデオセグメントと目標オーディオセグメントとの間のビデオ統合ロジックをクラウドサービスに送信する。
【0138】
S513: クラウドサービスは、複数のビデオ素材の標識、複数の目標ビデオセグメントのそれぞれのタイムスタンプ情報、目標オーディオ素材の標識、目標オーディオセグメントのタイムスタンプ情報、及び複数の目標ビデオセグメントと目標オーディオセグメントとの間のビデオ統合ロジックに基づいて、ビデオ統合を行って、目標ビデオを生成する。
【0139】
生成される目標ビデオは、クラウドサービスに格納されてもよい。
【0140】
S514: クライアントは、ユーザが送信したビデオ取得リクエストを受信する。
【0141】
S515: クライアントは、業務サーバサイドにビデオ取得リクエストを送信する。
【0142】
S516: 業務サーバサイドは、クラウドサービスにビデオ取得リクエストを送信する。
【0143】
S517: クラウドサービスは、業務サーバサイドに目標ビデオを送信する。
【0144】
S518: 業務サーバサイドは、クライアントに目標ビデオを送信する。
【0145】
S519: クライアントは、目標ビデオをビデオ編集ページにロードして再生する。
【0146】
その後、クライアントは、ユーザの操作に基づいて、目標ビデオをクリップして投稿してもよい。
【0147】
図5に示す実施例において、オーディオアルゴリズムサーバサイド及び画像アルゴリズムサーバサイドの実施形態は、上記の方法実施例の詳細な説明を参照すればよく、簡明のため、本実施例ではこれ以上説明しない。
【0148】
本実施例による方法は、ユーザが所定の時間帯の中で投稿しているビデオ素材から複数のビデオ素材を選択し、選択されている複数のビデオ素材から幾つかの目標ビデオセグメントを抽出し、抽出されている目標ビデオセグメントと、決定されている目標オーディオセグメントとを統合して、所定の時間帯に対応する目標ビデオを生成することにより、ユーザは、目標ビデオにより、所定の時間帯の中の深い記憶を振り返ることができる。また、目標ビデオの中の各ビデオセグメントの時間長と、採用されている目標オーディオセグメントの中の音楽フレーズの時間長とがマッチングすることにより、目標ビデオのコンテンツリズムとオーディオリズムとがマッチングし、ユーザに独特な体験感覚を与えることができる。且つ、該態様は、クライアントによってオフラインで予め完成される。サーバサイド機器は、クライアントから送信されるビデオ取得リクエストを受信すると、ビデオ取得リクエストに迅速に応答することができ、ユーザ体験を確保する。
【0149】
例示的に、本開示は、ビデオ生成装置をさらに提供する。
【0150】
図6は、本開示の一実施例によるビデオ生成装置の構成概略図である。ここで、本実施例によるビデオ生成装置は、ビデオ生成システムであってもよい。図6に示すように、ビデオ生成装置600は、ビデオ処理モジュール601、オーディオ処理モジュール602、及びビデオ統合モジュール603を含んでもよい。
【0151】
そのビデオ生成装置600において、ビデオ処理モジュール601は、ユーザに関するビデオを含むオリジナルビデオ素材セットから複数のビデオ素材を取得するのに用いられる。
【0152】
オーディオ処理モジュール602は、バックグラウンドミュージックとして用いられる目標オーディオ素材を取得するのに用いられる。
【0153】
ビデオ処理モジュール601は、さらに、前記ビデオ素材の各ビデオフレームに対してそれぞれ画像特徴抽出を行い、前記ビデオ素材の各々の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいてセグメント化処理を行って、前記ビデオ素材に対応する目標ビデオセグメントを取得するのに用いられる。
【0154】
統合モジュール603は、前記ビデオ素材の各々にそれぞれ対応する目標ビデオセグメント及び前記目標オーディオ素材を統合して、それぞれ複数の目標ビデオセグメントに基づいて得られる複数のビデオセグメントを含む目標ビデオを生成するのに用いられ、前記目標ビデオにおける複数の前記ビデオセグメントは、投稿時間順に再生され、且つ、前記複数のビデオセグメントの時間長は、前記目標オーディオ素材における対応する音楽フレーズの時間長とマッチングする。
【0155】
本実施例によるビデオ生成装置は、上記のいずれか1つの方法実施例に示す技術案を実行するために用いられてもよく、その実現原理及び技術的効果は類似しており、簡明のため、前述した方法実施例の詳細な説明を参照すればよい。
【0156】
一つの可能な実施形態として、オーディオ処理モジュール602は、具体的には、所定のオーディオ素材セットにおける各オーディオ素材のオーディオ特徴、オーディオ素材のビート情報、及びオーディオ素材における特定のオーディオセグメントの各音楽フレーズの時間長に基づいて、前記所定のオーディオ素材セットから目標オーディオ素材を決定するのに用いられ、前記目標オーディオ素材における特定のオーディオセグメントは、前記目標ビデオのバックグラウンドミュージックである。
【0157】
一つの可能な実施形態として、オーディオ処理モジュール602は、具体的には、所定の音楽特徴セットに基づいて、所定の音楽素材セットの中に含まれる複数の音楽素材を除外して、第1の候補オーディオ素材セットを取得することと、所定のオーディオビートに基づいて、前記第1の候補オーディオ素材セットの中に含まれる各オーディオ素材を除外して、第2の候補オーディオ素材セットを取得することと、前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中に含まれる各音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材に基づいて、前記目標オーディオ素材を決定することと、に用いられる。
【0158】
一つの可能な実施形態として、前記第2の候補オーディオ素材セットのうちで特定のオーディオセグメントの中の音楽フレーズの時間長が所定の時間長条件を満たすオーディオ素材が存在しない場合に、オーディオ処理モジュール602は、さらに、前記ユーザの嗜好に基づいて、予め指定されているオーディオ素材セットの中の各オーディオ素材にそれぞれ対応するオーディオ特徴とマッチングを行い、マッチングが成功する場合に、マッチングが成功しているオーディオ素材に基づいて目標オーディオ素材を決定することに用いられる。
【0159】
一つの可能な実施形態として、ビデオ処理モジュール601は、さらに、前記ビデオ素材の各々に対して、前記ビデオ素材の前記ビデオフレームの各々にそれぞれ対応する画像特徴情報に基づいて重み付け計算を行い、前記ビデオフレームの各々にそれぞれ対応する評価結果を取得することと、
前記ビデオフレームの各々にそれぞれ対応する評価結果に基づいて、前記複数のビデオ素材から抽出される複数の目標ビデオフレームを含むように、前記ビデオ素材の前記ビデオフレームの各々から目標ビデオフレームを抽出して、前記目標ビデオのオープニング及び/又はエンディングを生成するためのビデオフレームセットを取得することと、に用いられる。
【0160】
それに応じて、前記統合モジュール603は、具体的には、各前記ビデオ素材にそれぞれ対応する目標ビデオセグメント、前記ビデオフレームセット、及び前記目標オーディオセグメントを統合して、前記ビデオフレームセットから生成されるオープニング及び/又はエンディングを含む前記目標ビデオを生成することに用いられる。
【0161】
一つの可能な実施形態として、ビデオ処理モジュール601は、具体的には、前記ビデオ素材の各ビデオフレームにそれぞれ対応する画像特徴情報、前記目標オーディオセグメントにおける対応する音楽フレーズの時間長、及び前記ビデオ素材におけるオリジナルオーディオの文句分割結果に基づいて、前記ビデオ素材に対してセグメント化処理を行って、前記目標ビデオセグメントを取得することに用いられる。
【0162】
一つの可能な実施形態として、前記目標オーディオセグメントは、対応するオリジナルオーディオの1つ又は複数の完全な文句を含む。
【0163】
一つの可能な実施形態として、ビデオ生成装置600は、生成される目標ビデオを格納するための(図6には図示されていない)記憶モジュールをさらに含んでもよい。
【0164】
一つの可能な実施形態として、ビデオ生成装置600がサーバサイド機器である場合に、ビデオ生成装置は、クライアントから送信されるビデオ取得リクエストを受信し、ビデオ取得リクエストに応答して、クライアントに、対応する所定の時間帯に対応する目標ビデオを送信するための(図6には図示されていない)通信モジュールをさらに含んでもよい。
【0165】
説明すべきものは、図6に示す装置実施例において詳細に記載されていない細部は、前述した方法実施例の説明を参照すればよく、簡明のため、装置実施例においては一々説明されていない。
【0166】
例示的に、本開示は、電子機器をさらに提供する。
【0167】
図7は、本開示の一実施例による電子機器の構成概略図である。図7に示すように、本実施例による電子機器700は、メモリ701と、プロセッサ702とを含む。
【0168】
ここで、メモリ701は、独立した物理的なユニットであってもよく、バス703を介してプロセッサ702と接続されてもよい。メモリ701、プロセッサ702は、一体に集積され、ハードウェアなどにより実現されてもよい。
【0169】
メモリ701は、プログラム命令を格納することに用いられる。プロセッサ702は、該プログラム命令を呼び出して、上記のいずれか1つの方法実施例の技術案を実行する。
【0170】
選択的に、上記の実施例の方法における一部又は全部がソフトウェアにより実現される場合に、上記の電子機器700は、プロセッサ702のみを含んでもよい。プログラムを格納するためのメモリ701は、電子機器700の外部にあり、プロセッサ702は、回路/配線を介してメモリに接続され、メモリの中に格納されているプログラムを読み取って実行するのに用いられる。
【0171】
プロセッサ702は、中央処理装置(central processing unit、CPU)、ネットワークプロセッサ(network processor、NP)、又はCPUとNPの組み合わせであってもよい。
【0172】
プロセッサ702は、ハードウェアチップをさらに含んでもよい。上記のハードウェアチップは、専用集積回路(application-specific integrated circuit、ASIC)、プログラマブルロジックデバイス(programmable logic device、PLD)、又はこれらの組み合わせであってもよい。上記のPLDは、複雑なプログラマブルロジックデバイス(complex programmable logic device、CPLD)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、汎用アレイロジック(generic array logic、GAL)又はこれらの任意の組み合わせであってもよい。
【0173】
メモリ701は、揮発性メモリ(volatile memory)、例えば、ランダムアクセスメモリ(random-access memory、RAM)を含んでもよい。また、メモリは、不揮発性メモリ(non-volatile memory)、例えば、フラッシュメモリ(flash memory)、ハードディスク(hard disk drive、HDD)又はソリッドステートハードディスク(solid-state drive、SSD)を含んでもよい。メモリは、上記の種類のメモリの組み合わせをさらに含んでもよい。
【0174】
本開示は、電子機器の少なくとも1つのプロセッサによって実行されると、上記いずれか1つの方法実施例に記載のビデオ生成方法を実現させるコンピュータプログラム命令を含む読み取り可能な記憶媒体をさらに提供する。
【0175】
本開示は、コンピュータによって実行されると、前記コンピュータに上記いずれか1つの方法実施例に示すビデオ生成方法を実現させるコンピュータプログラム製品をさらに提供する。
【0176】
説明すべきものは、本明細書において、「第1」及び「第2」などのような関係用語は、単に1つのエンティティ又は操作を他のエンティティ又は操作と区別するのに用いられるだけで、これらエンティティ又は操作間にこのような実際の関係又は順序が存在することを要求又は暗示するものではない。さらに、用語「含む」、「包含する」又はその任意の他の変体は、非排他的な含有を示すことで、一系列の要素を含む過程、方法、物品又は機器は、それらの要素だけでなく、明示されていない他の要素も含み、又はこのような過程、方法、物品又は機器に固有の要素も含む。さらに多い制限がない場合に、音楽フレーズである「1つの・・・を含む」によって限定される要素は、前記要素を含む過程、方法、物品又は機器に他の同じ要素も含むことに対して除外しない。
【0177】
以上は本開示の具体的な実施形態にすぎず、当業者が本開示を理解又は実現することを可能にするために使用される。これらの実施例に対する様々な修正は、当業者にとって自明となり、本明細書で定義される一般原理は、本開示の趣旨又は範囲から逸脱することなく他の実施例において実現され得る。従って、本開示は、本明細書のこれら実施例に限定されるものではなく、本明細書で開示される原理及び新規の特徴に適合する最も広い範囲を有する。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】