(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-09-25
(45)【発行日】2023-10-03
(54)【発明の名称】ビデオ生成方法、装置、電子装置及びコンピュータ読み取り可能な媒体
(51)【国際特許分類】
H04N 5/91 20060101AFI20230926BHJP
G06N 20/00 20190101ALI20230926BHJP
G06T 13/80 20110101ALI20230926BHJP
【FI】
H04N5/91
G06N20/00
G06T13/80 B
(21)【出願番号】P 2022519290
(86)(22)【出願日】2020-09-22
(86)【国際出願番号】 CN2020116921
(87)【国際公開番号】W WO2021057740
(87)【国際公開日】2021-04-01
【審査請求日】2022-03-25
(31)【優先権主張番号】201910919296.X
(32)【優先日】2019-09-26
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】520476341
【氏名又は名称】北京字節跳動網絡技術有限公司
【氏名又は名称原語表記】Beijing Bytedance Network Technology Co., Ltd.
【住所又は居所原語表記】Room B-0035, 2/F, No.3 Building, No.30, Shixing Road, Shijingshan District Beijing 100041 China
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】王 妍
(72)【発明者】
【氏名】▲劉▼ 舒
【審査官】鈴木 隆夫
(56)【参考文献】
【文献】米国特許第07512886(US,B1)
【文献】米国特許出願公開第2018/0286458(US,A1)
【文献】特開2005-268991(JP,A)
【文献】中国特許出願公開第110233976(CN,A)
【文献】[自作]PV・MVの作り方[プロモーション・ミュージックビデオ],AviUtlの使い方,2018年02月17日,インターネット <https://aviutl.info/pv-mv/>
(58)【調査した分野】(Int.Cl.,DB名)
H04N 5/91-5/956
G06N 20/00
G06T 13/80
(57)【特許請求の範囲】
【請求項1】
ポートレート素材とオーディオ素材を獲得するステップであって、前記ポートレート素材はイメージ素材を含むステップと、
前記オーディオ素材の音楽ポイントを確定するステップであって、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられるステップと、
前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するステップであって、対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有しているステップと、
複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するステップと
、
最初のオーディオを獲得するステップと、
前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するステップであって、前記オーディオ素材のデュレーションは前記ポートレート素材の総デュレーションより短いステップと、
前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出するステップとを含むことを特徴とするビデオ生成方法。
【請求項2】
複数個のビデオフラグメントは第一ビデオフラグメントを含み、前記第一ビデオフラグメントは前記イメージ素材に動的効果を添加することにより形成されるものであることを特徴とする請求項1に記載のビデオ生成方法。
【請求項3】
前記動的効果は前記イメージ素材の場面タイプにより確定されるものであることを特徴とする請求項2に記載のビデオ生成方法。
【請求項4】
前記イメージ素材の場面タイプはマシンラーニングモデルで前記イメージ素材を分析することにより獲得するものであり、前記マシンラーニングモデルはトレーニングサンプル集合でトレーニングをすることにより獲得するものであることを特徴とする請求項3に記載のビデオ生成方法。
【請求項5】
前記トレーニングサンプル集合はイメージサンプルとそのイメージサンプルの場面タイプを含み、前記マシンラーニングモデルは、前記イメージサンプルを入力し、かつ前記イメージサンプルの場面タイプを所定の出力にすることによりトレーニングをするものであることを特徴とする請求項4に記載のビデオ生成方法。
【請求項6】
前記複数個のビデオフラグメントは第二ビデオフラグメントを含み、前記第二ビデオフラグメントはイメージ素材の移動により形成されるものであることを特徴とする請求項1に記載のビデオ生成方法。
【請求項7】
前記ポートレート素材はビデオ素材を更に含むことを特徴とする請求項1に記載のビデオ生成方法。
【請求項8】
前記複数個のビデオフラグメントは第三ビデオフラグメントを含み、前記第三ビデオフラグメントは前記ビデオ素材において抽出してえたものであることを特徴とする請求項7に記載のビデオ生成方法。
【請求項9】
前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するステップは、
前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップと、
前記最初のデュレーションがデュレーションの閾値より長い場合、前記デュレーションの閾値を前記オーディオ素材のデュレーションに確定するステップと、
前記最初のデュレーションが前記デュレーションの閾値より短い場合、前記最初のデュレーションを前記オーディオ素材のデュレーションに確定するステップとを含むことを特徴とする請求項
1に記載のビデオ生成方法。
【請求項10】
前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップは、
前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより長い場合、前記最初のオーディオのデュレーションを前記最初のデュレーションに確定するステップと、
前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより短い場合、前記ポートレート素材の総デュレーションを前記オーディオ素材のデュレーションまで減少させるステップとを含むことを特徴とする請求項
9に記載のビデオ生成方法。
【請求項11】
獲得ユニット、確定ユニット、生成ユニット
、コンポジットユニット
、第一獲得ユニット、第一確定ユニット及び抽出ユニットを含み、
前記獲得ユニットはポートレート素材とオーディオ素材を獲得するように配置され、前記ポートレート素材はイメージ素材を含み、
前記確定ユニットは前記オーディオ素材の音楽ポイントを確定するように配置され、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられ、
前記生成ユニットは、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するように配置され、対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有しており、
前記コンポジットユニットは、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するように配置され
、
前記第一獲得ユニットは最初のオーディオを獲得するように配置され、
前記第一確定ユニットは前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するように配置され、
前記オーディオ素材のデュレーションは前記ポートレート素材の総デュレーションより短く、
前記抽出ユニットは前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出するように配置されることを特徴とするビデオ生成装置。
【請求項12】
1個または複数個の処理装置と記憶装置を含み、前記記憶装置には1個または複数個のプログラムが記憶されており、前記1個または複数個のプログラムが前記1個または複数個の処理装置に実行されることにより請求項1~
10のうちいずれか一項に記載のビデオ生成方法を実施することを特徴とする電子装置。
【請求項13】
コンピュータプログラムが記憶されており、前記コンピュータプログラムが処理装置に実行されることにより請求項1~
10のうちいずれか一項に記載のビデオ生成方法を実施することを特徴とするコンピュータ読み取り可能な媒体。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本出願は、2019年09月26日に中国専利局(特許庁に相当する)に提出し、出願番号が201910919296.Xであり、発明の名称が「ビデオ生成方法、装置、電子装置及びコンピュータ読み取り可能な媒体」である中国特許出願の優先権を出張し、かつその中国出願の全文の内容を本出願に組み込む。
【0002】
本出願は、コンピュータの技術分野に属し、特に、ビデオ生成方法、装置、電子装置及びコンピュータ読み取り可能な媒体に関するものである。
【背景技術】
【0003】
マルチメディア技術(Multimedia Technology)が迅速に発展することによりビデオ処理技術も迅速に発展している。ビデオ処理ソフトは端末において常用するソフトであり、そのソフトをいろいろな分野に用いることができる。使用者は、ビデオ、音楽等の素材をモンタージュ(montage)することにより所定のビデオを作成することができる。使用者がビデオ処理ソフトによりビデオをモンタージュするとき、大量の精力と時間をかけることによりいろいろな素材を処理する必要がある。それにより、従来のビデオモンタージュ方法は使用の利便性がよくないという欠点を有している。
【0004】
以下、本発明の概要を記述することにより本発明の技術的事項を簡単に説明する。本発明の具体的な技術的事項は下記具体的な実施例により詳細に理解してもらうことができる。この発明の概要により本発明が保護しようとする技術的事項の重要な特徴または不可欠な特徴を示すか或いは本発明の特許請求の範囲を定める意図は全くない。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、改良後のビデオ生成方法、装置、電子装置及びコンピュータ読み取り可能な媒体を提供することにより従来の技術の技術的欠点を解決することにある。
【課題を解決するための手段】
【0006】
本発明の第一例示において、本発明の実施例に係るビデオ生成方法を提供する。その方法は、ポートレート素材とオーディオ素材を獲得するステップであって、前記ポートレート素材はイメージ素材を含むステップと、前記オーディオ素材の音楽ポイントを確定するステップであって、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられるステップと、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するステップであって、対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有しているステップと、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するステップとを含む。
【0007】
本発明の第二例示において、本発明の実施例に係るビデオ生成装置を提供する。そのビデオ生成装置は、獲得ユニット、確定ユニット、生成ユニット及びコンポジットユニットを含む。獲得ユニットはポートレート素材とオーディオ素材を獲得するように配置され、前記ポートレート素材はイメージ素材を含む。確定ユニットは前記オーディオ素材の音楽ポイントを確定するように配置され、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられる。生成ユニットは、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するように配置される。対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有している。コンポジットユニットは、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するように配置される。
【0008】
本発明の第三例示において電子装置を提供する。前記電子装置は1個または複数個の処理装置と記憶装置を含み、前記記憶装置には1つまたは複数のコンピュータプログラムが記憶されており、1つまたは複数のコンピュータプログラムが処理装置により実行されることにより、1個または複数個の処理装置は前記第一例示に記載の方法を実施する。
【0009】
本発明の第四例示においてコンピュータ読み取り可能な媒体を提供する。そのコンピュータ読み取り可能な媒体にはコンピュータプログラムが記憶され、前記コンピュータプログラムが処理装置に実行されることにより本発明の第一例示に記載の方法を実施する。
【発明の効果】
【0010】
本発明の実施例に係る技術的事項により下記発明の効果を獲得することができる。音楽ポイントでオーディオ素材を分けることによりコンポジットビデオ中の各ビデオフラグメントを生成し、それにより使用者が素材を処理する時間を減少させ、モンタージュの利便性を向上させることができる。また、コンポジットビデオ中のビデオフラグメントはイメージ素材により生成されるものでえあるので、ビデオ素材がないか或いはビデオ素材が少ないとき、使用者はイメージ素材によりビデをモンタージュし、モンタージュ後のビデオの内容の多様性を確保することができる。
【図面の簡単な説明】
【0011】
以下、本発明の図面により本発明の具体的な実施例を説明する。それにより本発明の各実施例に係る技術的特徴、発明の効果及び目的をより詳細に理解してもらうことができる。本発明の図面において、同一であるか或いは類似している図面中の符号は同一であるか或いは類似している部品を意味する。下記図面は本発明の例示にしか過ぎないものであり、図面中の部品と元素は部品と元素の実際のサイズの縮尺通りに描いたものでない。
【
図1A】本発明の実施例に係るビデオ生成方法の1つの応用場面を示す図である。
【
図1B】本発明の実施例に係るビデオ生成方法の1つの応用場面を示す図である。
【
図1C】本発明の実施例に係るビデオ生成方法の1つの応用場面を示す図である。
【
図1D】本発明の実施例に係るビデオ生成方法の1つの応用場面を示す図である。
【
図2】本発明の実施例に係るビデオ生成方法を示す流れ図である。
【
図3A】本発明の実施例に係るイメージ素材が移動する1つの応用場面を示す図である。
【
図3B】本発明の実施例に係るイメージ素材が移動する1つの応用場面を示す図である。
【
図3C】本発明の実施例に係るイメージ素材が移動する1つの応用場面を示す図である。
【
図3D】本発明の実施例に係るイメージ素材が移動する1つの応用場面を示す図である。
【
図4】本発明の他の実施例に係るビデオ生成方法を示す流れ図である。
【
図5】本発明の実施例に係るビデオ検出装置の構造を示す図である。
【
図6】本発明の実施例に係る電子装置のコンピュータシステムの構造を示す図である。
【発明を実施するための形態】
【0012】
以下、図面により本発明の実施例をより詳細に説明する。図面に本発明の好適な実施例が記載されているが、本発明はいろいろな実施例により実施されることができ、かつ下記実施例の構成にのみ限定されるものでない。下記実施例を説明することにより本発明の技術的事項をより詳細に理解してもらうことができる。注意されたいことは、本発明の下記図面と実施例は、本発明の例示にしか過ぎないものであり、本発明の保護範囲を限定するものでない。
【0013】
注意されたいことは、説明を簡単にするため、図面に本発明に係る事項のみを示す。矛盾がない限り、本発明の実施例及び実施例中の特徴を組み合わせることができる。
【0014】
本発明の実施例において、複数個の装置がインタラクティブする情報または情報の名称は、本発明を説明するものであるが、その情報または情報の範囲を限定するものでない。
【0015】
以下、本発明の図面と実施例により本発明の事項を詳細に説明する。
【0016】
図1A~
図1Dは本発明の実施例に係るビデオ生成方法の1つの応用場面を示す図である。
図1Aの応用場面に示すとおり、使用者はまず、端末装置101のアップロードページ1017において複数のポートレート素材を選択する。例えばアップロードページ1017に示されているイメージ1011~1014を選択する。使用者はチェックボックス(check box)1015の位置をシングルクリックすることによりイメージ1011とイメージ1012を選択することができる。使用者が「ネクストステップ」キー1016をクリックする場合、前記端末装置101は選択されるイメージ1011とイメージ1012によりポートレート素材104、ポートレート素材105をそれぞれ生成する。獲得したポートレート素材の数量(図面には2個のポートレート素材が示されている)により、獲得したオーディオ素材106を検出することによりオーディオ素材106中の音楽ポイント(Music point)107を確定する。音楽ポイント107によりオーディオ素材106を音楽フラグメント(fragment)Aと音楽フラグメントBに分ける。獲得した音楽フラグメントAと音楽フラグメントBのデュレーションによりポートレート素材104、ポートレート素材105をそれぞれ処理することにより、所定のビデオフラグメント1041とビデオフラグメント1051を獲得する。音楽フラグメントAと音楽フラグメントBがオーディオ素材106に現れる時間によりビデオフラグメント1041とビデオフラグメント1051をスプライシング(splicing)し、添加されたオーディオ素材106をスプライシング後のビデオのオーディオトラック(audio track)にすることにより、コンポジットビデオ(Composite Video)108を獲得する。
【0017】
図1Aとの相違点は、
図1B~
図1Dの応用場面において、前記端末装置101はポートレート素材の数量(図面には2個のポートレート素材が示されている)が含まれているイメージ情報102をサーバー103に送信することにある。
図1C中のサーバー103は獲得したオーディオ素材106によりオーディオ素材106中の音楽ポイント107を確定し、音楽ポイント107によりオーディオ素材106を音楽フラグメントAと音楽フラグメントBに分ける。
図1D中のサーバー103は音楽フラグメントAと音楽フラグメントBのデュレーションに関する情報109を前記端末装置101に送信する。前記端末装置101は音楽フラグメントAと音楽フラグメントBのデュレーションによりポートレート素材104、ポートレート素材105をそれぞれ処理することにより、所定のビデオフラグメント1041とビデオフラグメント1051を獲得する。ビデオフラグメント1041と音楽フラグメントAのデュレーションは同じであり、ビデオフラグメント1051と音楽フラグメントAのデュレーションは同じである。前記端末装置101は音楽フラグメントAと音楽フラグメントBがオーディオ素材106に現れる時間によりビデオフラグメント1041とビデオフラグメント1051をスプライシングし、添加したオーディオ素材106をスプライシング後のビデオのオーディオトラックにすることにより、コンポジットビデオ108を獲得する。
【0018】
注意されたいことは、ビデオ生成方法は、端末装置101により実施されるか或いは、サーバー103により実施されるか或いは、端末装置101とサーバー103が交互に作業することにより実施されるか或いは、いろいろなプログラムにより実施されることができる。端末装置101は例えば表示パネルを具備しているいろいろな電子装置であることができる。そのような電子装置は、スマートフォン、タブレットパソコン、イーブック‐リーダー(e-book reader)、ラップトップコンピュータ(laptop computer)及びデスクトップコンピュータ(desktop computer)等を含むことができるが、それらにのみ限定されるものでない。ビデオ生成方法を実施する実施主体は、サーバー103、ソフトウェア等であることができる。実施主体がソフトウェアである場合、そのソフトウェアを前記電子装置にインストールすることができる。それにより分散型サービス(Distributed Service)を提供する複数のソフトウェアまたはソフトウェアモジュール(software module)を構成するか或いは、1つのソフトウェアまたはソフトウェアモジュールを構成することができる。本発明はそれを限定しない。
【0019】
注意されたいことは、
図1中の携帯電話、サーバーの数量は本発明の例示にしか過ぎないものである。当業者は実際の需要により携帯電話、サーバーの数量を適当に調節することができる。
【0020】
図2を参照すると、その図面は本発明の実施例に係るビデオ生成方法を示す流れ
図200である。その方法はつぎのステップを含む。
【0021】
ステップ201において、ポートレート素材とオーディオ素材を獲得する。
【0022】
本発明の実施例において、ビデオ生成方法を実施する実施主体(例えば
図1に示されているサーバー103)は有線通信方法または無線通信方法によりポートレート素材とオーディオ素材を獲得することができる。前記ポートレート素材はイメージ素材を含む。本発明の例示において、前記ポートレート素材は、使用者が現地に記憶させるイメージであるか或いは、使用者がネットワークにおいてダウンロードしたイメージであることができる。前記オーディオ素材は、使用者が現地に記憶させる音楽であるか或いは、ネットワークの音楽であることができる。
【0023】
本発明の実施例において、ポートレート素材は、イメージ素材だけでなく、ビデオ素材を更に含むことができる。本発明の例示において、前記ビデオ素材は、使用者がアップロードするビデオであるか或いは、使用者が現地に記憶させるビデオであるか或いは、使用者がネットワークにおいてダウンロードしたビデオであることができる。ポートレート素材がビデオ素材とイメージ素材を含むことにより、ポートレート素材の種類を増加させることができる。
【0024】
ステップ202において、前記オーディオ素材の音楽ポイントを確定する。
【0025】
本発明の実施例において、まず、前記実施主体はオーディオ素材の候補音楽ポイントを確定することができる。候補音楽ポイントは所定のリズム変換条件を満たすオーディオ素材中のポイントであることができる。つぎに、前記実施主体は獲得した候補音楽ポイントにおいて所定の数量の音楽ポイントを獲得することができる。前記所定の数量は、獲得した前記ポートレート素材の数量により確定されるか或いは、前記オーディオ素材中の強烈なリズムの数量により確定されるか或いは、使用者が設定した数量により確定されることができる。本発明の例示において、10個のポートレート素材を獲得すると、9個の音楽ポイントを確定することができる。前記強烈なリズムは通常、音楽のストレングスが強いリズムを指す。
【0026】
本発明の例示において、候補音楽ポイントはオーディオ素材において事前設定を満たす音楽性変化発生位置である。前記音楽性変化発生位置はリズム変化発生位置とメロディー(melody)変化発生位置を含むことができる。候補音楽ポイントは下記方法により確定されることができる。前記実施主体は前記オーディオ素材を分析することによりオーディオ素材中のリズムポイントと音符開始点(initiation point)を確定する。リズムポイントはリズム変化発生位置であり、音符開始点はメロディー変化発生位置である。具体的に、1つ目の方法において、ディープラーニング(deep learning)によるリズム分析計算方法によりオーディオ素材を分析することにより、オーディオ素材中のリズムポイントとリズムポイントが位置しているタイムスタンプ(time stamp)を獲得することができる。2つ目の方法において、オーディオ素材に対して短時間スペクトル分析(Short time spectrum analysis)をすることにより、オーディオ素材中の音符開始点と音符開始点が位置しているタイムスタンプを獲得することができる。音符開始点は開始点ディテクタ(onset detector)で検出することができる。つぎに、2つの方法により獲得したリズムポイントと音符開始点を統一し、リズムポイントと音符開始点を合併させるとともに重複除去(duplicate removal)をすることにより候補音楽ポイントを獲得することができる。
【0027】
ステップ203において、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得する。
【0028】
本発明の実施例において、オーディオ素材中の各音楽フラグメントにおいて、前記実施主体はポートレート素材により、前記音楽フラグメントに適用しかつ前記音楽フラグメントのデュレーションと同一であるビデオフラグメントを生成することができる。本発明の例示において、音楽素材は3個の音楽フラグメントに分けられ、3個の音楽フラグメントのデュレーションがそれぞれ、1秒、2秒及び3秒であるとき、前記音楽フラグメントに対応するビデオフラグメントのデュレーションは、1秒、2秒及び3秒であることができる。本発明の例示において、前記実施主体は1個のポートレート素材により複数個のビデオフラグメントを生成することができる。例えば、前記実施主体が10秒のポートレート素材と8秒のオーディオ素材を獲得する場合、前記実施主体は前記音楽ポイントにより前記オーディオ素材を3個の音楽フラグメントに分け、その3個の音楽フラグメントのデュレーションはそれぞれ、2秒、3秒及び5秒であることができる。その場合、前記実施主体は、前記ポートレート素材により異なっている3個のビデオフラグメントを獲得し、その3個のビデオフラグメントのデュレーションは、2秒、3秒及び5秒であることができる。他の例示において、前記実施主体は1個のポートレート素材により1個のビデオフラグメントを生成することができる。例えば、1個のポートレート素材により1個の音楽フラグメントに対応する1個のビデオフラグメントを生成するとき、前記ポートレート素材のデュレーションが前記音楽フラグメントのデュレーションより長いと、元のポートレート素材において前記音楽フラグメントのデュレーションと同一であるビデオフラグメントを検出する。前記ポートレート素材のデュレーションが前記音楽フラグメントのデュレーションより短いとき、元のポートレート素材に対して変速処理(Processing speed)をすることによりそのポートレート素材のデュレーションを延長させることができる。つぎに、変速後のポートレート素材をビデオフラグメントにすることにより、ビデオフラグメントのデュレーションと音楽フラグメントのデュレーションを同一にすることができる。ポートレート素材中のイメージ素材において、いろいろな処理方法でイメージ素材を処理することによりビデオフラグメントを生成することができる。
【0029】
本発明の例示において、生成される複数個のビデオフラグメントは第二ビデオフラグメントを含み、前記第二ビデオフラグメントはイメージ素材の移動により形成されるものである。前記第二ビデオフラグメントは動的効果(Dynamic effect)が添加されたイメージ素材であることができる。前記動的効果は、インナーズーミング(inner zooming)、エキスターナルズーミング(External zooming)、左向きムービングショット(moving shot)及び右向きムービングショットのうちすくなくとも1つを含むことができるが、それらにのみ限定されるものでない。本発明の例示において、
図3Aに示すとおり、最初の場合、前記インナーズーミングは表示ページのディスプレイボックス(display box)に表示されているイメージの中心区域であることができる。
図3Bに示すとおり、イメージのサイズを減少させるとき、ディスプレイボックスに表示されているイメージの区域は増加し、かつイメージ全体がディスプレイボックスに完全に表示されるときまで増加する。
図3Bに示すとおり、最初の場合、前記エキスターナルズーミングは表示ページのディスプレイボックスに表示されているイメージ全体であることができる。
図3Aに示すとおり、イメージのサイズを増加させるとき、ディスプレイボックスに表示されているイメージの区域は縮小され、かつイメージ中の事前設定サイズの中心区域がディスプレイボックスに表示されるときまで縮小される。
図3Dに示すとおり、最初の場合、前記左向きムービングショットは表示ページのディスプレイボックスに表示されているイメージ中の事前設定の右側区域であることができる。
図3Cに示すとおり、イメージをディスプレイボックスに相対して左側へ移動させるとき、ディスプレイボックスに表示されているイメージの区域は左側へ移動し、イメージ中の事前設定の左側区域がディスプレイボックスに表示されるときまで左側へ移動する。それによりイメージが右から左へ移動する視覚的効果を獲得することができる。
図3Cに示すとおり、最初の場合、前記右向きムービングショットは表示ページのディスプレイボックスに表示されているイメージ中の事前設定の左側区域であることができる。
図3Cに示すとおり、イメージをディスプレイボックスに相対して右側へ移動させるとき、ディスプレイボックスに表示されているイメージの区域は右側へ移動し、イメージ中の事前設定の右側区域がディスプレイボックスに表示されるときまで右側へ移動する。それによりイメージが左から右へ移動する視覚的効果を獲得することができる。イメージ素材に動的効果を添加することによりイメージ素材とビデオ素材の変換をより潤滑的に実施することができる。
【0030】
イメージの移動速度は例えば下記式 curScale=(curTime/(EndTime-StartTime)*(EndScale-StartScale))により獲得することができる。その式において、curTimeはイメージが現在のビデオに表示される時間である。EndTimeはイメージの移動が終わる時間であり、StartTimeはイメージの移動が始まる時間であり、EndTime-StartTimeはイメージが移動している時間の長さである。左向きムービングショット、右向きムービングショット等のような動的効果において、curScaleは現在表示されているイメージの所定の区域の位置であり、EndScaleはイメージの移動が終わるとき表示されているイメージの所定の区域の位置であり、StartScaleはイメージの移動が始まるとき表示されているイメージの所定の区域の位置であり、EndScale-StartScaleはイメージが移動するとき表示区域の位置の変化量を指すものである。インナーズーミング、エキスターナルズーミング等のような動的効果において、curScaleは現在表示されているイメージの所定の区域のサイズであり、EndScaleはイメージの移動が終わるとき表示されているイメージの所定の区域のサイズであり、StartScaleはイメージの移動が始まるとき表示されているイメージの所定の区域のサイズであり、EndScale-StartScaleはイメージが移動するとき表示区域のサイズの変化量を指すものである。サイズの変化量と位置の変化量は人為的に設定することができる。
【0031】
本発明の他の例示において、生成される複数個のビデオフラグメントは第一ビデオフラグメントを含み、前記第一ビデオフラグメントは前記イメージ素材に動的効果を添加することにより形成されるものである。前記第一ビデオフラグメントは動的効果が添加されたイメージ素材であることができる。動的効果はイメージ素材にランダムに添加される前景動的効果(Foreground dynamic effect)であることができる。前景動的効果はイメージに添加される動的な動画効果であることができる。例えば、イメージに降雨の効果が添加される動画効果であることができる。イメージ素材に動的効果を添加することによりイメージ素材の視覚上の効果を増加させ、使用者の視覚的効果を向上させることができる。
【0032】
イメージ素材によりビデオフラグメントを生成するとき、まず、移動または動的効果を添加することにより所定のデュレーション(例えば3秒)を有しているビデオ素材を生成することができる。つぎに、前記ビデオ素材によりオーディオのデュレーションと同一であるビデオフラグメントを生成することができる。
【0033】
本発明の例示において、前記イメージ素材が位置している場面タイプにより前記イメージ素材にどのような動的効果を添加することを確定することができる。前記場面タイプは前記イメージ素材が位置している場面の種類を表すことができる。例えば、場面タイプは通用場面タイプと室内タイプのうち少なくとも一種を含むことができるが、それらにのみ限定されるものでない。通用場面タイプは、赤ちゃん、砂浜、建物、車、アニメーション、動物のうち少なくとも一種を含むことができるが、それらにのみ限定されるものでない。室内タイプは、書店、コーヒー店、KTV(Karaoke)、商店のうち少なくとも一種を含むことができるが、それらにのみ限定されるものでない。
【0034】
注意されたいことは、場面タイプを獲得するとき、いろいろな方法によりイメージ素材が位置している場面タイプを獲得することができる。
【0035】
本発明の例示において、実施主体は前記イメージ素材に事前設定場面情報が含まれているかを判断することによりイメージ素材の場面タイプを確定することができる。場面タイプによりイメージ素材に動的効果を添加することにより、イメージと動的効果との間の関連性を増加させることができる。例えば、イメージ素材中の場面情報が「雪だるま」であるとき、選択される動的効果は「飛んでいる雪」という動画効果であることができる。
【0036】
本発明の他の例示において、イメージ素材の場面タイプはマシンラーニングモデル(Machine learning model)で前記イメージ素材を分析することにより獲得することができる。前記マシンラーニングモデルはトレーニングサンプル(training sample)集合でトレーニングをすることにより獲得することができる。前記トレーニングサンプル集合中のトレーニングサンプルはイメージ素材サンプルとそのイメージ素材サンプルに対応する場面タイプサンプルを含む。モデルで場面タイプを確定することにより、処理の速度を向上させ、人力の使用を低減することができる。
【0037】
本発明の例示において、マシンラーニングモデルはトレーニングサンプル集合で下記トレーニングをすることにより獲得することができる。トレーニングサンプル集合で下記トレーニングをするステップにおいて、トレーニングサンプル集合中の少なくとも1個のトレーニングサンプルのイメージ素材サンプルを最初のマシンラーニングモデルにそれぞれ入力することにより、前記少なくとも1個のトレーニングサンプル中の各イメージ素材サンプルに対応する場面タイプを獲得する。前記少なくとも1個のトレーニングサンプル中の各イメージ素材サンプルに対応する場面タイプとそれに対応する場面タイプサンプルとを比較し、その比較の結果により前記最初のマシンラーニングモデルの予測正確率を確定し、かつ前記予測正確率が事前設定正確率の閾値より大きいかを判断する。前記予測正確率が前記事前設定正確率の閾値より大きい場合、前記最初のマシンラーニングモデルをトレーニング済みマシンラーニングモデルにする。前記予測正確率が前記事前設定正確率の閾値より大きくない場合、前記最初のマシンラーニングモデルのパラメーターを調節し、かつ使用前のトレーニングサンプルで構成されるトレーニングサンプル集合を用い、調節後の最初のマシンラーニングモデルを最初のマシンラーニングモデルにする。つぎに、前記トレーニングのステップを再び実施する。
【0038】
前記トレーニングを実施することにより、マシンラーニングモデルはイメージ素材と場面タイプとの間の対応関係を表すことができる。前記マシンラーニングモデルは畳み込みニューラルネットワークモデル(Convolutional neural network model)であることができる。
【0039】
本発明の例示において、トレーニングサンプル集合はイメージサンプルとそのイメージサンプルの場面タイプを含む。前記マシンラーニングモデルは、前記イメージサンプルを入力し、かつ前記イメージサンプルの場面タイプを所定の出力にすることによりトレーニングをするものである。
【0040】
ステップ204において、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得する。
【0041】
本発明の例示において、ビデオ生成方法の実施主体は、前記音楽フラグメントが前記オーディオ素材に現れる順番により、前記音楽フラグメントに対応する前記ビデオフラグメントを順にスプライシングし、かつスプライシングにより形成されたビデオのオーディオトラックに前記オーディオ素材を添加することによりコンポジットビデオを獲得する。本発明の例示において、音楽ポイントにより前記オーディオ素材を順に配列されている3つのフラグメントに分けることができる。例えば、Aフラグメントは0秒~2秒に対応し、Bフラグメントは2秒~5秒に対応し、Cフラグメントは5秒~10秒に対応することができる。それに対応するビデオフラグメントは、Aフラグメント、Bフラグメント及びCフラグメントにそれぞれ対応する。その場合、スプライシングにより形成されたビデオをabcに表示することができる。前記オーディオ素材をスプライシングにより形成されたビデオabcのオーディオトラックに添加することによりコンポジットビデオを獲得することができる。
【0042】
以上のとおり、ポートレート素材はビデオ素材のみを含み、ポートレート素材の種類が少なく、その内容も少ないことにより、コンポジットビデオの内容の多様性に影響を与えるおそれがある。イメージ素材が含まれているポートレート素材を獲得することにより、ポートレート素材の種類を豊富にし、コンポジットビデオの内容の多様性を確保することができる。
【0043】
図4を参照すると、その図面は本発明の実施例に係るビデオ生成方法を示す流れ
図400である。そのビデオ生成方法は下記ステップを含む。
【0044】
ステップ401において、最初のオーディオを獲得する。
【0045】
本発明の実施例において、ビデオ生成方法を実施する実施主体(例えば
図1に示されているサーバー103)は有線通信方法または無線通信方法により最初のオーディオを獲得することができる。前記オーディオ素材は、使用者が現地に記憶させる音楽であるか或いは、ネットワーク中の音楽であることができる。本発明の例示において、使用者に所定の音楽を推薦することができる。推薦された音楽に使用者が欲しがっている音楽がない場合、使用者は手動的に他の音楽を検索することができる。つぎに、使用者が選択する音楽を最初のオーディオにする。
【0046】
ステップ402において、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより、前記オーディオ素材のデュレーションを確定する。
【0047】
本発明の実施例において、前記実施主体は獲得した複数個のポートレート素材により前記ポートレート素材の総デュレーションを算出することができる。ポートレート素材において、ビデオ素材のデュレーションはビデオのデュレーションであり、イメージ素材のデュレーションは人為的に設定したものであることができる。例えば、イメージ素材のデュレーションを4秒に設定することができる。前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションを比較し、比較の結果により前記オーディオ素材のデュレーションを確定する。前記オーディオ素材のデュレーションは前記ポートレート素材の総デュレーションより短いことを確定する。
【0048】
本発明の実施例において、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するステップは、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップを含む。前記最初のデュレーションは最初のオーディオのビデオフラグメントであるか或いはポートレート素材の総デュレーションであることができる。前記最初のデュレーションがデュレーションの閾値より長い場合、前記デュレーションの閾値を前記オーディオ素材のデュレーションに確定する。前記デュレーションの閾値は人為的に設定したものであることができる。例えば、デュレーションの閾値を20秒に設定することができる。前記最初のデュレーションが20秒より短い場合、前記最初のデュレーションを前記オーディオ素材のデュレーションに確定する。閾値を設定することによりオーディオ素材のデュレーションを制御することができる。
【0049】
本発明の実施例において、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップは、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより長い場合、前記最初のオーディオのデュレーションを前記最初のデュレーションに確定し、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより短い場合、前記ポートレート素材の総デュレーションを前記オーディオ素材のデュレーションまで減少させるステップを含む。本発明の例示において、前記ポートレート素材の総デュレーションを減少させる方法として、ポートレート素材の総デュレーションに所定の比例を乗ずる方法を採用するか或いは、ポートレート素材の総デュレーションから事前設定デュレーションを減ずる方法を採用することができる。前記所定の比例と前記事前設定デュレーションは人為的に設定するものであることができる。前記事前設定デュレーションは前記ポートレート素材の総デュレーションより短い。前記方法によりオーディオ素材のデュレーションを容易に制御することができる。
【0050】
ステップ403において、前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出する。
【0051】
本発明の例示において、前記実施主体は前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出する。
【0052】
ステップ404において、ポートレート素材とオーディオ素材を獲得する。
【0053】
ステップ405において、前記オーディオ素材の音楽ポイントを確定する。
【0054】
ステップ406において、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得する。
【0055】
ステップ407において、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得する。
【0056】
本発明の実施例において、ステップ404~ステップ407の具体的な実施方法とそれによる発明の効果は
図2の実施例に係るステップ201~ステップ204を参照することができるので、ここで再び説明しない。
【0057】
本発明の実施例に係るビデオ生成方法おいて、最初のオーディオを獲得した後、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションによりオーディオ素材のデュレーションを確定し、前記最初のオーディオにおいて前記オーディオ素材を抽出することにより、オーディオ素材のデュレーションがコンポジットビデオのデュレーションに適合するようにすることができる。
【0058】
図5を参照すると、本発明は前記ビデオ生成方法を実施するためのビデオ生成装置の実施例を更に提供する。下記ビデオ生成装置の実施例は前記ビデオ生成方法の実施例に対応し、下記ビデオ生成装置をいろいろな電子装置に用いることができる。
【0059】
図5に示すとおり、本発明の実施例に係るビデオ生成装置500は、獲得ユニット501、確定ユニット502、生成ユニット503及びコンポジットユニット504を含む。獲得ユニット501はポートレート素材とオーディオ素材を獲得するように配置され、前記ポートレート素材はイメージ素材を含む。確定ユニット502は前記オーディオ素材の音楽ポイントを確定するように配置され、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられる。生成ユニット503は、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するように配置される。対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有している。コンポジットユニット504は、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するように配置される。
【0060】
本発明の実施例において、ビデオ生成装置500の生成ユニット503中の複数個のビデオフラグメントは第一ビデオフラグメントを含み、前記第一ビデオフラグメントは前記イメージ素材に動的効果を添加することにより形成されるものである。
【0061】
本発明の実施例において、ビデオ生成装置500中のイメージ素材に添加される動的効果は前記イメージ素材の場面タイプにより確定されるものである。
【0062】
本発明の実施例において、ビデオ生成装置500中のイメージ素材の場面タイプはマシンラーニングモデルで前記イメージ素材を分析することにより獲得するものであり、前記マシンラーニングモデルはトレーニングサンプル集合でトレーニングをすることにより獲得するものである。
【0063】
本発明の実施例において、ビデオ生成装置500中のトレーニングサンプル集合はイメージサンプルとそのイメージサンプルの場面タイプを含む。前記マシンラーニングモデルは、前記イメージサンプルを入力し、かつ前記イメージサンプルの場面タイプを所定の出力にすることによりトレーニングをするものである。
【0064】
本発明の実施例において、ビデオ生成装置500の生成ユニット503中の複数個のビデオフラグメントは第二ビデオフラグメントを含み、前記第二ビデオフラグメントはイメージ素材の移動により形成されるものである。
【0065】
本発明の実施例において、ビデオ生成装置500の獲得ユニット501中のポートレート素材はビデオ素材を更に含む。
【0066】
本発明の実施例において、ビデオ生成装置500の生成ユニット503中の複数個のビデオフラグメントは第三ビデオフラグメントを含み、前記第三ビデオフラグメントは前記ビデオ素材において抽出してえたものである。
【0067】
本発明の実施例において、ビデオ生成装置500は、第一獲得ユニット、第一確定ユニット及び抽出ユニットを更に含む。第一獲得ユニットは最初のオーディオを獲得するように配置される。第一確定ユニットは前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するように配置される。前記オーディオ素材のデュレーションは前記ポートレート素材の総デュレーションより短い。抽出ユニットは前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出するように配置される。
【0068】
本発明の実施例において、ビデオ生成装置500の第一確定ユニットは、第一確定サブユニット、第二確定サブユニット及び第三確定サブユニットを含む。第一確定サブユニットは前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するように配置される。第二確定サブユニットは前記最初のデュレーションがデュレーションの閾値より長い場合、前記デュレーションの閾値を前記オーディオ素材のデュレーションに確定するように配置される。第三確定サブユニットは前記最初のデュレーションが前記デュレーションの閾値より短い場合、前記最初のデュレーションを前記オーディオ素材のデュレーションに確定する。
【0069】
本発明の実施例において、ビデオ生成装置500の第一確定ユニット中の第一確定サブユニットは、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより長い場合、前記最初のオーディオのデュレーションを前記最初のデュレーションに確定し、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより短い場合、前記ポートレート素材の総デュレーションを前記オーディオ素材のデュレーションまで減少させるように配置される。
【0070】
図6を参照すると、
図6は本発明の実施例に用いられる電子装置(例えば
図1のサーバー)600の構造を示す図である。本発明の実施例に係る端末装置、例えば携帯電話、ノートブックコンピュータ、デジタル放送受信機(Digital broadcasting receiver)、PDA(携帯情報端末、Personal Digital Assistant)、PAD(タブレット)、PMP(ポータブルメディアプレーヤー、Portable Media Player)、車用端末装置(例えばナビゲーション)等の携帯式端末と、例えばデジタルTV、デスクトップコンピュータ等の非携帯式端末とを含むことができるが、本発明はそれらにのみ限定されるものでない。
図6に示される端末装置は、本発明の例示にしか過ぎないものであり、本発明の実施例の機能と使用の範囲を限定するものでない。
【0071】
図6に示すとおり、電子装置600は処理装置(例えば中央処理装置、画像処理装置等)601を含むことができる。前記処理装置601はリードオンリーメモリー(ROM、Read-Only Memory)602に記憶されているプログラムまたは記憶装置608からランダムアクセスメモリ(RAM、Random Access Memory)603に送信されるプログラムにより所定の作業と処理をすることができる。RAM603には電子装置600の操作に必要であるいろいろなプログラムとデータが更に記憶されている。処理装置601、ROM602及びRAM603はバス604により互いに接続されている。入力/出力(I/O、Input/Output)インターフェース605もバス604に接続されている。
【0072】
下記装置を入力/出力(I/O)インターフェース605に接続することができる。前記装置は、例えばタッチパネル、タッチ基板、キーボード、マウス、画像センサー、マイク、加速度計、ジャイロスコープ等を含む入力装置606と、液晶表示装置(LCD、Liquid Crystal Display)、スピーカー、振動機等を含む出力装置607と、メモリーカード等を含む記憶装置608と、通信装置609とを含むことができる。通信装置609は電子装置600と他の装置が無線または有線で通信をするようにサポートすることによりデータを交換することができる。
図6にはいろいろな装置を具備する電子装置600が示されているが、その電子装置600は図面の複数の装置を全部具備するか或いは全部具備しなくてもよい。すなわち電子装置600はより多いか或いはより少ない装置を具備するか或いは採用することができる。
【0073】
特に、本発明の実施例において、前記流れ図に示されるステップはコンピュータソフトウェアプログラムにより実施されることができる。例えば、本発明の実施例はコンピュータプログラム製品を含み、そのコンピュータプログラム製品はコンピュータ読み取り可能な媒体に記憶されているコンピュータプログラムを含み、前記コンピュータプログラムは前記流れ図中の方法を実施するプログラムコードを含むことができる。この実施例において、通信装置609により前記コンピュータプログラムをネットワークからダウンロードしてインストールするか或いは、記憶装置608からダウンロードしてインストールするか或いは、ROM602からダウンロードしてインストールすることができる。前記コンピュータプログラムが処理装置601により実行されるとき、前記実施例に係る方法中の所定の機能を実施することができる。
【0074】
注意されたいことは、前記コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な信号媒体、コンピュータ読み取り可能な記憶媒体またはその2つの組合せであることができる。コンピュータ読み取り可能な記憶媒体は、電気、磁性、光、電磁、赤外線であるか或いは、半導体のシステム、装置または部品であるか或いはそれらの任意の組合せであることができる。コンピュータ読み取り可能な記憶媒体の具体的な例として、1つまたは複数の導線により接続される携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM、Random Access Memory)、リードオンリーメモリー(ROM、Read-Only Memory)、消去可能プログラム可能ROM(EPROM、Erasable Programmable Read-Only Memory)、フラッシュメモリー、光ファイバー、シーディーロム(CD-ROM、Compact Disc Read Only Memory)、光記憶部品、磁性記憶部品またはそれらの任意の組合せを含むことができるが、本発明はそれらにのみ限定されるものでない。本発明の実施例において、コンピュータ読み取り可能な記憶媒体はプログラムを含むか或いはプログラムを記憶する実物型媒体であり、前記プログラムは、指令実行システム、装置またはそれらの組合せに用いられることができる。本発明の実施例において、コンピュータ読み取り可能な信号媒体はベースバンド(base band)またはキャリアの一部分により伝送されるデータ信号を含み、コンピュータ読み取り可能な信号媒体にはコンピュータ読み取り可能なプログラムコードが記憶されている。その方法により伝送されるデータ信号は、いろいろな信号、例えば電磁信号、光信号またはそれらの組合せであることができるが、本発明はそれらにのみ限定されるものでない。コンピュータ読み取り可能な信号媒体はコンピュータ読み取り可能な記憶媒体以外のいずれかのコンピュータ読み取り可能な媒体であることができる。前記コンピュータ読み取り可能な信号媒体は、指令実行システム、装置またはそれらの組合せに用いられるプログラムを送信、伝播または伝送することができる。コンピュータ読み取り可能な媒体に含まれているプログラムコードは適当な媒体、例えば電線、光ケーブル、RF(Radio Frequency)等により伝送されるか或いはそれらの組合せにより伝送されることができる。
【0075】
本発明の実施例において、クライアント端末、サーバー等は、HTTP(HyperText Transfer Protocol、ハイパーテキスト転送プロトコル)等のような通信手段により現在または未来のネットワークプロトコルと通信をし、かついずれかの実物または媒体型デジタルデータ通信(例えば通信ネットワーク)に接続されることができる。通信ネットワークは、ローカルエリアネットワーク(LAN、local area network)、ワイドエリアネットワーク(WAN、Wide Area Network)、インタネットワーク(例えばインターネット)及びエンドツーエンドネットワーク(End-to-End Network、例えばad hocエンドツーエンドネットワーク)及び現在または未来のネットワークプロトを含むことができる。
【0076】
前記コンピュータ読み取り可能な媒体は前記電子装置に設けられるか或いは前記電子装置に設けられず前記電子装置とそれぞれ存在するものであることができる。前記コンピュータ読み取り可能な媒体には1つまたは複数のプログラムが記憶されており、前記1つまたは複数のプログラムが前記電子装置により実行されることにより、前記電子装置は、ポートレート素材とオーディオ素材を獲得するステップであって、前記ポートレート素材はイメージ素材を含むステップと、前記オーディオ素材の音楽ポイントを確定するステップであって、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられるステップと、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するステップであって、対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有しているステップと、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するステップとを実施する。
【0077】
1つまたは複数のプログラミング言語(programming language)またはそれらの組合せにより本発明の実施例に係る方法を実施するコンピュータプログラムコードを作成することができる。前記プログラミング言語は対象に向くプログラミング言語、例えばJava、Smalltalk、C++を含むか或いは常用する過程式プログラミング言語、例えば「C」プログラミング言語またはそれに類似しているプログラミング言語を更に含むことができる。プログラムコードはクライアントコンピュータにより実行されるか或いは、一部分がクライアントコンピュータにより実行されるか或いは、独立しているソフトウェアパッケージとして実行されるか或いは、一部分がクライアントコンピュータにより実行されかつ一部分がリモートコンピュータにより実行されか或いは、リモートコンピュータまたはサーバーにより実行されることができる。リモートコンピュータにより実行される場合、リモートコンピュータはいずれかのネットワーク、例えばローカルエリアネットワーク(LAN、local area network)またはワイドエリアネットワーク(WAN、Wide Area Network)によりクライアントコンピュータに接続されるか或いは外部のコンピュータに接続されることができる(例えばインターネットサービスプロバイダー(Internet Service Provider)が提供するインターネットにより外部のコンピュータに接続される)。
【0078】
図面中の流れ図とブロックダイアグラム(block diagram)には本発明の実施例に係るシステム、方法及びコンピュータプログラムを実施することができるシステムの構造、機能及び操作方法が記載されている。流れ図とブロックダイアグラム中の各枠は、1つのモジュール、プログラムの一部分、コードの一部分を示し、前記モジュール、プログラムの一部分、コードの一部分は所定の機能を実現する実行可能な指令を含むことができる。注意されたいことは、他の実施例において、ブロックダイアグラムの各枠中の各ステップは図面に示される順番に実施されなくてもよい。例えば、隣接している各枠中のステップは通常、並行の順番に実施されるが、実現しようとする機能が異なることにより逆の順番に実施されることもできる。注意されたいことは、ブロックダイアグラムと/或いは流れ図中の各枠、ブロックダイアグラムと/或いは流れ図中の各枠の組合せは、所定の機能を獲得するか或いは所定の操作をすることができるハードウェアにより実施されるか或いは専用ハードウェアとコンピュータ指令の組合せにより実施されることができる。
【0079】
本発明の実施例に係るユニットはソフトウェアにより実施されるか或いはハードウェアにより実施されることができる。前記ユニットは前記処理装置内に設けられることができる。例えば、処理装置は、獲得ユニット、確定ユニット、生成ユニット及びコンポジットユニットを含むことができる。特別な説明がない限り、前記ユニットの名称はそのユニットを限定するものでない。例えば、獲得ユニットを「ポートレート素材とオーディオ素材を獲得するユニット」ともいうことができる。
【0080】
本発明の実施例に係る少なくとも一部分の機能は1個または複数個のロジックユニットにより実施されることができる。例えば、常用するロジックユニットは、フィールドプログラマブルゲートアレイ(FPGA、Field Programmable Gate Array)、アプリケーション含有集積回路(ASIC、Application Specific Integrated Circuit)、特定用途向けに開発された汎用の集積回路(ASSP、Application Specific Standard Parts)、システムオンアチップ(SOC、system-on-a-chip)、複合プログラマブルロジックデバイス(CPLD、Complex Programmable logic device)等を含むことができるが、本発明はそれらにのみ限定されるものでない。
【0081】
本発明の1個または複数個の実施例においてビデオ生成方法を提供する。その方法は、ポートレート素材とオーディオ素材を獲得するステップであって、前記ポートレート素材はイメージ素材を含むステップと、前記オーディオ素材の音楽ポイントを確定するステップであって、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられるステップと、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するステップであって、対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有しているステップと、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するステップとを含む。
【0082】
本発明の1個または複数個の実施例において、複数個のビデオフラグメントは第一ビデオフラグメントを含み、前記第一ビデオフラグメントは前記イメージ素材に動的効果を添加することにより形成されるものである。
【0083】
本発明の1個または複数個の実施例において、動的効果は前記イメージ素材の場面タイプにより確定されるものである。
【0084】
本発明の1個または複数個の実施例において、イメージ素材の場面タイプはマシンラーニングモデルで前記イメージ素材を分析することにより獲得するものであり、前記マシンラーニングモデルはトレーニングサンプル集合でトレーニングをすることにより獲得するものである。
【0085】
本発明の1個または複数個の実施例において、トレーニングサンプル集合はイメージサンプルとそのイメージサンプルの場面タイプを含む。前記マシンラーニングモデルは、前記イメージサンプルを入力し、かつ前記イメージサンプルの場面タイプを所定の出力にすることによりトレーニングをするものである。
【0086】
本発明の1個または複数個の実施例において、複数個のビデオフラグメントは第二ビデオフラグメントを含み、前記第二ビデオフラグメントはイメージ素材の移動により形成されるものである。
【0087】
本発明の1個または複数個の実施例において、ポートレート素材はビデオ素材を更に含む。
【0088】
本発明の1個または複数個の実施例において、複数個のビデオフラグメントは第三ビデオフラグメントを含み、前記第三ビデオフラグメントは前記ビデオ素材において抽出してえたものである。
【0089】
本発明の1個または複数個の実施例において、前記ビデオ生成方法は、最初のオーディオを獲得するステップと、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するステップであって、前記オーディオ素材のデュレーションは前記ポートレート素材の総デュレーションより短いステップと、前記オーディオ素材のデュレーションにより前記最初のオーディオにおいて前記オーディオ素材を抽出するステップとを更に含む。
【0090】
本発明の1個または複数個の実施例において、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより前記オーディオ素材のデュレーションを確定するステップは、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップと、前記最初のデュレーションがデュレーションの閾値より長い場合、前記デュレーションの閾値を前記オーディオ素材のデュレーションに確定するステップと、前記最初のデュレーションが前記デュレーションの閾値より短い場合、前記最初のデュレーションを前記オーディオ素材のデュレーションに確定するステップとを含む。
【0091】
本発明の1個または複数個の実施例において、前記ポートレート素材の総デュレーションと前記最初のオーディオのデュレーションにより最初のデュレーションを確定するステップは、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより長い場合、前記最初のオーディオのデュレーションを前記最初のデュレーションに確定するステップと、前記ポートレート素材の総デュレーションが前記最初のオーディオのデュレーションより短い場合、前記ポートレート素材の総デュレーションを前記オーディオ素材のデュレーションまで減少させるステップとを含む。
【0092】
本発明の1個または複数個の実施例に係るビデオ生成装置は、獲得ユニット、確定ユニット、生成ユニット及びコンポジットユニットを含む。獲得ユニットはポートレート素材とオーディオ素材を獲得するように配置され、前記ポートレート素材はイメージ素材を含む。確定ユニットは前記オーディオ素材の音楽ポイントを確定するように配置され、前記音楽ポイントは前記オーディオ素材を複数個の音楽フラグメントに分けることに用いられる。生成ユニットは、前記ポートレート素材により前記オーディオ素材中の各音楽フラグメントに対応するビデオフラグメントをそれぞれ生成することにより、複数のビデオフラグメントを獲得するように配置される。対応する音楽フラグメントとビデオフラグメントは同一のデュレーションを有している。コンポジットユニットは、複数個のビデオフラグメントにそれぞれ対応する音楽フラグメントが前記オーディオ素材に現れる時間により前記複数個のビデオフラグメントをスプライシングし、添加された前記オーディオ素材をビデオのオーディオトラックにすることによりコンポジットビデオを獲得するように配置される。
【0093】
本発明の1個または複数個の実施例に係る電子装置を提供する。前記電子装置は1個または複数個の処理装置と記憶装置を含む。前記記憶装置には1個または複数個のプログラムが記憶されており、1個または複数個のプログラムが1個または複数個の処理装置に実行されることにより前記いずれか1つの実施例に係る方法を実施する。
【0094】
本発明の1個または複数個の実施例に係るコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体には1個または複数個のプログラムが記憶されており、そのプログラムが処理装置に実行されることにより前記いずれか1つの実施例に係る方法を実施する。
【0095】
以上、本発明の好適な実施例とそれらに用いられる技術的事項を説明してきた。本技術分野の技術者が知っているように、本発明が公開する範囲は、前記技術的特徴の組合せによって構成される技術的事項にのみ限定されるものでなく、本発明の要旨を逸脱しない範囲において前記技術的特徴または類似の技術的特徴の組合せにより形成される他の技術的事項を更に含むこともできる。例えば、前記技術的特徴と本発明の実施例に公開される類似の技術的特徴(それにのみ限定されるものでない)により形成される技術的事項を更に含むこともできる。