(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023095832
(43)【公開日】2023-07-06
(54)【発明の名称】ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体
(51)【国際特許分類】
G06T 13/40 20110101AFI20230629BHJP
G10L 13/00 20060101ALI20230629BHJP
G06F 3/0481 20220101ALI20230629BHJP
G06T 13/20 20110101ALI20230629BHJP
【FI】
G06T13/40
G10L13/00 100V
G06F3/0481
G06T13/20 500
【審査請求】有
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022206355
(22)【出願日】2022-12-23
(31)【優先権主張番号】202111604879.7
(32)【優先日】2021-12-24
(33)【優先権主張国・地域又は機関】CN
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.UNIX
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100139066
【弁理士】
【氏名又は名称】伊藤 健太郎
(72)【発明者】
【氏名】ドン,ジエ
(72)【発明者】
【氏名】リウ,ジエ
(72)【発明者】
【氏名】リ,ハオウェン
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050AA08
5B050BA08
5B050BA09
5B050CA08
5B050EA10
5B050EA24
5B050EA26
5B050FA02
5B050FA05
5E555AA27
5E555AA48
5E555BA02
5E555BA73
5E555BB02
5E555BC04
5E555BE17
5E555CB44
5E555CB64
5E555DB32
5E555DC30
5E555DC84
5E555DC85
5E555EA23
5E555FA00
(57)【要約】
【課題】データ処理の分野、特にビデオ生成の分野に関するビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体を提供する。
【解決手段】具体的な実現態様は、テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信し、テキストコンテンツを音声に変換し、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成し、ミックストディフォーメーションパラメータセットを使用してバーチャルオブジェクトのモデルをレンダリングして、バーチャルオブジェクトの画像セットを獲得し、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成することである。本開示により、従来でビデオを作成するための膨大で複雑な操作を簡素化することができ、関連技術におけるビデオ作成のコストが高く、低効率であるという問題を解決する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信するステップと、
前記テキストコンテンツを音声に変換するステップと、
前記テキストコンテンツと前記音声とに基づいて、ミックストディフォーメーションパラメータセットを生成するステップと、
前記ミックストディフォーメーションパラメータセットを使用して前記バーチャルオブジェクトのモデルをレンダリングして、前記バーチャルオブジェクトの画像セットを獲得し、前記画像セットに基づいて、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成するステップと、
を含むビデオ処理方法。
【請求項2】
前記テキストコンテンツと前記音声とに基づいて、ミックストディフォーメーションパラメータセットを生成するステップは、
前記テキストコンテンツに基づいて、第1のディフォーメーションパラメータセットを生成するステップであって、前記第1のディフォーメーションパラメータセットは、前記バーチャルオブジェクトの口形をレンダリングするためのものである、ステップと、
前記音声に基づいて、第2のディフォーメーションパラメータセットを生成するステップであって、前記第2のディフォーメーションパラメータセットは、前記バーチャルオブジェクトの表情をレンダリングするためのものである、ステップと、を含み、
前記ミックストディフォーメーションパラメータセットは、前記第1のディフォーメーションパラメータセットと前記第2のディフォーメーションパラメータセットとを含む、請求項1に記載の方法。
【請求項3】
前記画像セットに基づいて、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成するステップは、
第1のターゲット背景画像を取得するステップと、
前記画像セットと前記第1のターゲット背景画像とを融合して、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成するステップと、を含む、請求項1に記載の方法。
【請求項4】
前記画像セットに基づいて、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成するステップは、
背景画像ギャラリーから選択された第2のターゲット背景画像を取得するステップと、
前記画像セットと前記第2のターゲット背景画像とを融合して、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成するステップと、を含む、請求項1に記載の方法。
【請求項5】
前記テキストコンテンツを受信するステップは、
ターゲット音声を収集するステップと、
前記ターゲット音声のテキスト変換を行って、前記テキストコンテンツを獲得するステップと、を含む、請求項1に記載の方法。
【請求項6】
テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信する受信モジュールと、
前記テキストコンテンツを音声に変換する変換モジュールと、
前記テキストコンテンツと前記音声とに基づいて、ミックストディフォーメーションパラメータセットを生成する生成モジュールと、
前記ミックストディフォーメーションパラメータセットを使用して前記バーチャルオブジェクトのモデルをレンダリングして、前記バーチャルオブジェクトの画像セットを獲得し、前記画像セットに基づいて、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成する処理モジュールと、
を備えるビデオ処理装置。
【請求項7】
前記生成モジュールは、
前記テキストコンテンツに基づいて、第1のディフォーメーションパラメータセットを生成する第1の生成ユニットであって、前記第1のディフォーメーションパラメータセットは、前記バーチャルオブジェクトの口形をレンダリングするためのものである、第1の生成ユニットと、
前記音声に基づいて、第2のディフォーメーションパラメータセットを生成する第2の生成ユニットであって、前記第2のディフォーメーションパラメータセットは、前記バーチャルオブジェクトの表情をレンダリングするためのものである、第2の生成ユニットと、を備え、
前記ミックストディフォーメーションパラメータセットは、前記第1のディフォーメーションパラメータセットと前記第2のディフォーメーションパラメータセットとを含む、請求項6に記載の装置。
【請求項8】
前記処理モジュールは、
第1ターゲット背景画像を取得する第1の取得ユニットと、
前記画像セットと前記第1のターゲット背景画像とを融合して、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成する第3の生成ユニットと、を備える、請求項6に記載の装置。
【請求項9】
前記処理モジュールは、
背景画像ギャラリーから選択された第2のターゲット背景画像を取得する第2の取得ユニットと、
前記画像セットと前記第2のターゲット背景画像とを融合して、前記バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成する第4の生成ユニットと、を備える、請求項6に記載の装置。
【請求項10】
前記受信モジュールは、
ターゲット音声を収集する収集ユニットと、
前記ターゲット音声のテキスト変換を行って、前記テキストコンテンツを獲得する変換ユニットと、を備える、請求項6乃至9のいずれか一項に記載の装置。
【請求項11】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサによって実行されて、前記少なくとも1つのプロセッサに請求項1乃至5のいずれか一項に記載の方法を実行させる、電子機器。
【請求項12】
コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1乃至5のいずれか一項に記載の方法を実行させる、非一時的なコンピュータ読取可能な記憶媒体。
【請求項13】
プロセッサによって実行されると、請求項1乃至5のいずれか一項に記載の方法を実現するコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ処理の技術分野、特にビデオ生成の分野に関し、具体的には、ビデオ処理方法、装置、電子機器及びコンピュータ記憶媒体に関する。
【背景技術】
【0002】
関連技術では、所望の宣伝報道ビデオをビデオ編集作業により人手で作成することが一般的であり、ビデオ作成を実現できるが、生産性が低く、大量展開には適していないという問題がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
本開示は、ビデオ処理方法、装置、機器及び記憶媒体を提供する。
【課題を解決するための手段】
【0004】
本開示の一態様によれば、テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信するステップと、テキストコンテンツを音声に変換するステップと、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成するステップと、ミックストディフォーメーションパラメータセットを使用してバーチャルオブジェクトのモデルをレンダリングして、バーチャルオブジェクトの画像セットを獲得し、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップと、を含むビデオ処理方法が提供される。
【0005】
好ましくは、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成するステップは、テキストコンテンツに基づいて、第1のディフォーメーションパラメータセットを生成するステップであって、第1のディフォーメーションパラメータセットは、バーチャルオブジェクトの口形をレンダリングするためのものである、ステップと、音声に基づいて、第2のディフォーメーションパラメータセットを生成するステップであって、第2のディフォーメーションパラメータセットは、バーチャルオブジェクトの表情をレンダリングするためのものである、ステップと、を含み、ミックストディフォーメーションパラメータセットは、第1のディフォーメーションパラメータセットと第2のディフォーメーションパラメータセットとを含む。
【0006】
好ましくは、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップは、第1のターゲット背景画像を取得するステップと、画像セットと第1のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップと、を含む。
【0007】
好ましくは、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップは、背景画像ギャラリーから選択された第2のターゲット背景画像を取得するステップと、画像セットと第2のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップと、を含む。
【0008】
好ましくは、テキストコンテンツを受信するステップは、ターゲット音声を収集するステップと、ターゲット音声のテキスト変換を行って、テキストコンテンツを獲得するステップと、を含む。
【0009】
本開示の別の態様によれば、テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信する受信モジュールと、テキストコンテンツを音声に変換する変換モジュールと、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成する生成モジュールと、ミックストディフォーメーションパラメータセットを使用してバーチャルオブジェクトのモデルをレンダリングして、バーチャルオブジェクトの画像セットを獲得し、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する処理モジュールと、を備えるビデオ処理装置が提供される。
【0010】
好ましくは、生成モジュールは、テキストコンテンツに基づいて、第1のディフォーメーションパラメータセットを生成する第1の生成ユニットであって、第1のディフォーメーションパラメータセットは、バーチャルオブジェクトの口形をレンダリングするためのものである、第1の生成ユニットと、音声に基づいて、第2のディフォーメーションパラメータセットを生成する第2の生成ユニットであって、第2のディフォーメーションパラメータセットは、バーチャルオブジェクトの表情をレンダリングするためのものである、第2の生成ユニットと、を備え、ミックストディフォーメーションパラメータセットは、第1のディフォーメーションパラメータセットと第2のディフォーメーションパラメータセットとを含む。
【0011】
好ましくは、処理モジュールは、第1のターゲット背景画像を取得する第1の取得ユニットと、画像セットと第1のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する第3の生成ユニットと、を備える。
【0012】
好ましくは、処理モジュールは、背景画像ギャラリーから選択された第2のターゲット背景画像を取得する第2の取得ユニットと、画像セットと第2のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する第4の生成ユニットと、を備える。
【0013】
好ましくは、受信モジュールは、ターゲット音声を収集する収集ユニットと、ターゲット音声のテキスト変換を行って、テキストコンテンツを獲得する変換ユニットと、を備える。
【0014】
本開示のさらに別の態様によれば、少なくとも1つのプロセッサと、少なくとも1つのプロセッサと通信可能に接続されたメモリと、を備え、メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、命令は、少なくとも1つのプロセッサによって実行されて、少なくとも1つのプロセッサに上記のいずれかの方法を実行させる、電子機器が提供される。
【0015】
本開示のさらに別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ読取可能な記憶媒体であって、コンピュータ命令は、コンピュータに上記のいずれかの方法を実行させる非一時的なコンピュータ読取可能な記憶媒体が提供される。
【0016】
本開示のさらに別の態様によれば、プロセッサによって実行されると、上記のいずれかの方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
【0017】
ここで説明された内容は、本開示の実施例の肝心な又は重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するものでもないことが理解されるべきである。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。
【図面の簡単な説明】
【0018】
図面は、本発明をより良く理解できるようにするためのものであり、本開示を限定するものではない。
【
図1】本開示の実施例によるビデオ処理方法のフローチャートである。
【
図2】本開示の実施例によるビデオ処理方法の概略図である。
【
図3a】本実施例によるビデオ処理方法でビデオを処理した結果を示す第1の概略図である。
【
図3b】本開示の実施例によるビデオ処理方法でビデオ生成を行った結果を示す第2の概略図である。
【
図4】本実施例によるビデオ処理装置の構造ブロック図である。
【
図5】本開示の実施例による電子機器500の概略ブロック図である。
【発明を実施するための形態】
【0019】
以下、図面を参照しながら本開示の例示的な実施例について説明し、理解しやすくするために、本開示の例示的な実施例の様々な詳細を含むが、これらはあくまでも例示的なものと見なすべきである。したがって、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更及び修正が可能であることを当業者が認識するであろう。同様に、明確化及び簡潔化のために、以下の説明では、公知される機能及び構造についての説明を省略する。
【0020】
用語の説明
バーチャルアンカーとは、バーチャルキャラクターを使用してビデオサイト上で投稿活動を行うアンカーであり、バーチャルYouTuberが最もよく知られている。
【0021】
音声アニメーション合成(Voice-to-Animation)技術は、音声によりバーチャルキャラクターを駆動して発話させ、感情及び動作をフィードバックさせる技術である。
【0022】
Blendshapeは、単一メッシュをディフォーメーションさせることで、多数の事前定義されたシェイプと任意の数の組み合わせを実現する技術である。
【0023】
関連技術における、ビデオ作成はコストが高く、低効率であり、大量展開には適していないという欠点に対して、本開示の実施例では、従来でビデオを作成するための膨大で複雑な操作を簡素化することができるビデオ処理方法が提供され、関連技術におけるビデオ作成のコストが高く、低効率であるという問題を解決する。
【0024】
本開示の実施例では、ビデオ処理方法が提供される。
図1は、本開示の実施例によるビデオ処理方法のフローチャートであり、
図1に示すように、この方法は、以下のステップを含む。
【0025】
ステップS102では、テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信する。
【0026】
ステップS104では、テキストコンテンツを音声に変換する。
【0027】
ステップS106では、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成する。
【0028】
ステップS108では、ミックストディフォーメーションパラメータセットを使用してバーチャルオブジェクトのモデルをレンダリングして、バーチャルオブジェクトの画像セットを獲得し、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する。
【0029】
上記方法により、テキストコンテンツを直接に音声に変換し、バーチャルオブジェクトモデルのレンダリングに使用されるミックストディフォーメーションパラメータセットを生成することができ、即ち、受信されたテキストコンテンツと選択命令とに基づいていれば、バーチャルオブジェクトがテキストコンテンツを報道するビデオを直接に生成することができ、人手による操作が必要とされるステップを大幅に減らし、しかも操作過程に複雑な操作を伴わず、報道されるビデオの作成効率を大幅に向上させ、報道されるビデオの作成コストを下げ、関連技術におけるビデオ作成のコストが高く、低効率であるという問題を解決する。
【0030】
好ましい実施例として、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成する場合、このミックストディフォーメーションパラメータセットは、複数の種類を含んでもよく、例えば、ミックストディフォーメーションパラメータセットは、第1のディフォーメーションパラメータセットと第2のディフォーメーションパラメータセットとを含んでもよい。テキストコンテンツに基づいてこの第1のディフォーメーションパラメータセットを生成し、第1のディフォーメーションパラメータセットは、バーチャルオブジェクトの口形をレンダリングするためのものである。音声に基づいてこの第2のディフォーメーションパラメータセットを生成し、第2のディフォーメーションパラメータセットは、バーチャルオブジェクトの表情をレンダリングするためのものである。生成されたミックストディフォーメーションパラメータが複数の種類を含み、例えば、バーチャルオブジェクトの口形のレンダリング及び表情のレンダリングにそれぞれ使用されるディフォーメーションパラメータセットを生成することにより、バーチャルキャラクターを駆動すると、口の筋肉が自然に連動し、口形動作が正確で、顔表情がリアルになり、人間とのインタラクション時にリアルで自然に見えるようにすることができる。
【0031】
好ましい実施例として、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップは、様々な方法で行うことができ、例えば、第1のターゲット背景画像を取得するステップと、画像セットと第1のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップと、を含む方法で行うことができる。上記第1のターゲット背景画像は、後で生成されるビデオに透明なチャンネルを提供するために使用され、即ち、ビデオ生成後に、このビデオを、ユーザが選択したビデオと直接に合成して、ニーズを満たすビデオを獲得することができる。したがって、上記方法により、ビデオを、バーチャルヒューマンが報道する形で生成することができ、ユーザが後で自分のビデオ素材をこれに埋め込むことが容易になり、ユーザのパーソナライズニーズのために二次加工に余裕を持たせ、ビデオ生成の柔軟性、可変性を増加させ、ユーザエクスペリエンスが向上される。
【0032】
好ましい実施例として、画像セットに基づいて、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップは、様々な方法で行うことができ、例えば、背景画像ギャラリーから選択された第2のターゲット背景画像を取得するステップと、画像セットと第2のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成するステップと、を含む方法で行うことができる。上記方法により、ビデオをピクチャインピクチャの形で生成することができ、背景画像ギャラリーから選択された第2のターゲット背景画像を左上隅のピクチャインピクチャ領域として表示可能であり、ユーザの必要とするビデオを直接かつ迅速に生成することができ、二次処理なしにそのまま使用することができ、ユーザエクスペリエンスが向上される。
【0033】
好ましい実施例として、テキストコンテンツを受信するステップは、様々な方法で行うことができ、例えば、ターゲット音声を収集するステップと、ターゲット音声のテキスト変換を行って、テキストコンテンツを獲得するステップと、を含む方法で行うことができる。上記方法により、テキストコンテンツの取得方法は一定ではなく、テキストを直接入力することができれば、収集したターゲット音声のテキスト変換を行うこともでき、この方法により、ユーザが既存のテキスト又は音声素材に応じて適切な方法を柔軟に選択することが可能となり、ユーザがビデオ作成を開始する前の準備作業を簡素化し、ビデオ作成のコストをさらに下げ、ビデオ作成の効率を高め、ユーザエクスペリエンスが向上する。
【0034】
上記実施例及び好ましい実施例に基づいて、好ましい実施形態が提供され、以下で説明する。
【0035】
ユーザは、様々なビデオ編集ソフトを利用して、自分の必要とする宣伝報道ビデオを人手で作成することができるが、人手作業によるビデオ編集は、生産性が低く、大量展開には不便である。
【0036】
上記問題に基づいて、本開示の好ましい実施形態では、ビデオ処理ソリューションが提供される。このソリューションでは、バーチャルアンカー音声アニメーション合成(Voice-to-Animation)技術を採用することで、ユーザにテキスト又は音声を入力させ、VTA APIを通じてオーディオストリームに対応する3Dバーチャルキャラクターの顔表情係数を自動的に生成し、3Dバーチャルキャラクターの口形及び顔表情の正確な駆動を完成させることができる。開発者が、バーチャル司会者、バーチャルカスタマーサービス、バーチャル教師など、豊富なバーチャルキャラクタースマート駆動アプリケーションを迅速に構築することに資することができる。
【0037】
図2は、本開示の好ましい実施形態によるビデオ処理方法の概略図であり、
図2に示すように、このフローは、以下の処理を含む。
【0038】
(1)フロントエンドページは、ビデオ合成要求を受信すると、要求が成功したと確認すると同時に、ビデオ合成ステータスが成功になるまで、合成ステータスのポーリングを開始し、統一資源位置指定子(Uniform Resource Locator、略してURL)を返す。上記過程は、以下の操作と非同期に実行される。
【0039】
(2)合成素材をダウンロードする。
【0040】
(3)文字による音声合成/オーディオURLの解析を行う(例えば、音声合成(Text to Speech、略してTTS)によりwavファイル(音声ファイル形式の一種)を生成し、内部システムを介してサーバにアップロードし、URLを返す)。
【0041】
(4)音声アニメーション合成(Voice-to-Animation、略してVTA)アルゴリズムを呼び出し、Blendshapeを出力し、Blendshape、ARCase、ビデオ生産方式をクラウド上のレンダリングエンジンに転送する。
【0042】
(5)Unix版エンジンは、転送されてきたパラメータを受信し、バーチャルヒューマンとアニメーションのレンダリングを行う。テキストが口形を駆動し、テキストにより音声を合成することで、動作シーケンスの整列を実現し、アニメーションBlendshape係数を生成することができ、バーチャルキャラクターを駆動すると、口の筋肉が自然に連動することができ、音声が口形を駆動する。音声により口形ディフォーメーション係数を生成し、バーチャルキャラクターが正確な口形、リアルな顔表情で表現できるように駆動し、人とのインタラクション時にリアルで自然に見えるようになる。
【0043】
(6)ユーザによるビデオの二次加工を容易にするRGBAタイプの画像セットを獲得するには、ffmpeg合成エンジンによってビデオを作成し、透明チャンネルを持つビデオ(qtrleがmovに符号化されたもの)を生成する。また、ピクチャインピクチャ表示をサポートするNV21タイプの画像セットを獲得するには、ffmpeg合成エンジンによってビデオ(h264がmp4に符号化されたもの)を作成する。
【0044】
(7)得られたビデオをクラウドにアップロードして保存する。
【0045】
(8)合成状態を合成成功に更新する。
【0046】
図3aは、本開示の実施例によるビデオ処理方法でビデオ生成を行った結果を示す第1の概略図である。この図は、得られたピクチャインピクチャの形のビデオであり、ユーザは、画像ギャラリーから自分の必要とするビデオを1つ探し出し、左上隅のピクチャインピクチャ領域として表示し、最終的に符号化する際にモデルの報道と統合して最終的な配信ビデオを生成することができる。
図3bは、本開示の実施例によるビデオ処理方法でビデオ生成を行った結果を示す第2の概略図である。この図は、最終的に得られたバーチャルヒューマンが報道する形のビデオであり、その背景にはアルファ要素があるため、ユーザが後で自分のビデオ素材をこれに埋め込み、このプラットフォームで生成されたビデオと共に最終的に発表される素材に符号化することが容易となる。
【0047】
本開示の実施例では、ビデオ処理装置がさらに提供される。
図4は、本開示の実施例によるビデオ処理装置の構造ブロック図であり、
図4に示すように、この装置は、受信モジュール42と、変換モジュール44と、生成モジュール46と、処理モジュール48と、を備え、以下、この装置について説明する。
【0048】
受信モジュール42は、テキストコンテンツと、バーチャルオブジェクトを生成するためのモデルを指示する選択命令とを受信する。変換モジュール44は、上記受信モジュール42に接続され、テキストコンテンツを音声に変換する。生成モジュール46は、上記変換モジュール44に接続され、テキストコンテンツと音声とに基づいて、ミックストディフォーメーションパラメータセットを生成する。処理モジュール48は、上記生成モジュール46に接続され、ミックストディフォーメーションパラメータセットを使用してバーチャルオブジェクトのモデルをレンダリングして、バーチャルオブジェクトの画像セットを獲得し、画像セットに基づいて、バーチャルオブジェクトによる前記テキストコンテンツの報道を含むビデオを生成する。
【0049】
好ましい実施例として、上記生成モジュールは、テキストコンテンツに基づいて、第1のディフォーメーションパラメータセットを生成する第1の生成ユニットであって、第1のディフォーメーションパラメータセットは、バーチャルオブジェクトの口形をレンダリングするためのものである、第1の生成ユニットと、音声に基づいて、第2のディフォーメーションパラメータセットを生成する第2の生成ユニットであって、第2のディフォーメーションパラメータセットは、バーチャルオブジェクトの表情をレンダリングするためのものである、第2の生成ユニットと、を備え、ミックストディフォーメーションパラメータセットは、第1のディフォーメーションパラメータセットと第2のディフォーメーションパラメータセットとを含む。
【0050】
好ましい実施例として、上記処理モジュールは、第1のターゲット背景画像を取得する第1の取得ユニットと、画像セットと第1のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する第3の生成ユニットと、を備える。
【0051】
好ましい実施例として、上記処理モジュールは、背景画像ギャラリーから選択された第2のターゲット背景画像を取得する第2の取得ユニットと、画像セットと第2のターゲット背景画像とを融合して、バーチャルオブジェクトによるテキストコンテンツの報道を含むビデオを生成する第4の生成ユニットと、を備える。
【0052】
好ましい実施例として、上記受信モジュールは、ターゲット音声を収集する収集ユニットと、ターゲット音声のテキスト変換を行って、テキストコンテンツを獲得する変換ユニットと、を備える。
【0053】
本開示の技術案では、言及されたユーザの個人情報の取得、保管及び利用等は、いずれも関連する法規制の規定に適合しており、公序良俗に反するものではない。
【0054】
本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体、及びコンピュータプログラム製品をさらに提供する。
【0055】
図5は、本開示の実施例による電子機器500の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータのような様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、また、パーソナルデジタルアシスタント、携帯電話機、スマートフォン、ウェアラブルデバイス、及び他の類似した計算装置のような様々な形態のモバイル装置を表してもよい。本文に示される部品、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に説明される及び/又は要求される本開示の実現を制限することを意図していない。
【0056】
図5に示すように、機器500は、リードオンリーメモリ(ROM)502に記憶されたコンピュータプログラム、又は、記憶ユニット508からランダムアクセスメモリ(RAM)503にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット501を備える。RAM503には、機器500の操作に必要な様々なプログラム及びデータも記憶されていてもよい。計算ユニット501、ROM502及びRAM503は、バス504を介して互いに接続されている。入出力(I/O)インタフェース505もバス504に接続される。
【0057】
機器500における複数の部品は、I/Oインタフェース505に接続され、例えばキーボード、マウス等の入力ユニット506と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット507と、例えば磁気ディスク、光ディスク等の記憶ユニット508と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット509と、を含む。通信ユニット509は、機器500がインターネットのようなコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
【0058】
計算ユニット501は、処理能力及び計算能力を備える様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット501のいくつかの例は、中央処理装置(CPU)、グラフィックス処理装置(GPU)、様々な専用の人工知能(AI)コンピューティングチップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。計算ユニット501は、以上で説明した各方法及び処理、例えば、ビデオ処理方法を実行する。例えば、いくつかの実施例では、ビデオ処理方法は、例えば記憶ユニット508などの、機械読取可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM502及び/又は通信ユニット509を介して機器500にロード及び/又はインストールされることができる。コンピュータプログラムがRAM503にロードされ、計算ユニット501によって実行されると、以上で説明したビデオ処理方法の1つ又は複数のステップを実行することができる。好ましくは、他の実施例では、計算ユニット501は、他の任意の適切な方法で(例えば、ファームウェアを介して)ビデオ処理方法を実行するように構成されてもよい。
【0059】
本文において以上で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現され得る。これらの様々な実施形態は、専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることが可能な、1つ又は複数のコンピュータプログラムにおいて実施されることを含んでもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこの記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信することができる。
【0060】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせを使用して書くことができる。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されて、プロセッサ又はコントローラによって実行されるときに、フローチャート及び/又はブロック図に規定された機能/操作が実行されるようになる。プログラムコードは、完全にマシン上で実行されたり、一部がマシン上で実行されたり、独立したソフトウェアパッケージとして、一部がマシン上で実行されるとともに、一部がリモートマシン上で実行されたり、完全にリモートマシン又はサーバ上で実行されたりすることができる。
【0061】
本開示の文脈において、機械読取可能な媒体は、命令実行システム、装置、又はデバイスが使用するための、又は、命令実行システム、装置、又はデバイスと組み合わせて使用するためのプログラムを含むか又は格納することができる有形媒体であってもよい。機械読取可能な媒体は、機械読取可能な信号媒体又は機械読取可能な記憶媒体であってもよい。機械読取可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線的、又は半導体的なシステム、装置又はデバイス、又はこれらの任意の適切な組み合わせを含んでもよいが、これらに限定されるものではない。機械読取可能な記憶媒体のより具体的な例としては、1つ又は複数の線に基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、便利なコンパクトディスクリードオンリーメモリ(CD-ROM)、光ストレージデバイス、磁気ストレージデバイス、又はこれらの任意の適切な組み合わせを含む。
【0062】
ユーザとのインタラクションを提供するために、ここで説明されたシステム及び技術をコンピュータ上で実施することができ、このコンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供することができるキーボード及びポインティング装置(例えば、マウス又はトラックボール)と、を備える。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよい。また、ユーザからの入力は、任意の形態(音響入力、音声入力、又は触覚入力を含む)で受信することができる。
【0063】
ここで説明されたシステム及び技術は、バックグラウンド部品を含む計算システム(例えば、データサーバとして)、又はミドルウェア部品を含む計算システム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含む計算システム(例えば、ユーザがここで説明されたシステム及び技術の実施形態とインタラクションを行うことができるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品の任意の組み合わせを含む計算システムにて実施されてもよい。システムの部品は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を介して相互に接続されることができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネットを含む。
【0064】
コンピュータシステムは、クライアントとサーバとを備える。クライアント及びサーバは、一般に、互いに離間しており、通常は通信ネットワークを介してインタラクションを行う。対応するコンピュータ上で動作し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバの関係を生成する。サーバはクラウドサーバでも、分散システムのサーバでも、ブロックチェーンを組み合わせたサーバでも構わない。
【0065】
本開示の実施例では、コンピュータ命令を格納した非一時的なコンピュータ読取可能な記憶媒体がさらに提供され、コンピュータ命令は、コンピュータに上記のいずれかのビデオ処理方法を実行させることができる。
【0066】
本開示の実施例では、コンピュータプログラムを含むコンピュータプログラム製品がさらに提供され、コンピュータプログラムは、プロセッサによって実行されると、上記のいずれかのビデオ処理方法を実現する。
【0067】
以上で示された様々な形態のフローを使用して、ステップの並べ替え、追加、又は削除が可能であることが理解されるべきである。例えば、本開示に記載された各ステップは、並行して実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示に開示された技術案で意図される結果を達成できれば、本文では何ら制限もしない。
【0068】
上述した具体的な実施形態は、本開示の保護範囲を制限するものではない。設計要件及びその他の要素に応じて、様々な修正、コンビネーション、サブコンビネーション及び代替が可能であることを当業者が理解されるであろう。本開示の精神及び原則の範囲内で行われた如何なる補正、均等な置換及び改良等も、本開示の保護の範囲内に含まれるべきである。