IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ▲騰▼▲訊▼科技(深▲セン▼)有限公司の特許一覧

特許7557055目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
<>
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図1
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図2
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図3
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図4
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図5
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図6A
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図6B
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図7
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図8
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図9
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図10
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図11
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図12
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図13
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図14
  • 特許-目標対象の動作駆動方法、装置、機器及びコンピュータプログラム 図15
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-17
(45)【発行日】2024-09-26
(54)【発明の名称】目標対象の動作駆動方法、装置、機器及びコンピュータプログラム
(51)【国際特許分類】
   G06T 13/20 20110101AFI20240918BHJP
   G06T 7/00 20170101ALI20240918BHJP
   G06T 13/40 20110101ALI20240918BHJP
   G10L 25/57 20130101ALI20240918BHJP
   G10L 13/08 20130101ALI20240918BHJP
【FI】
G06T13/20 500
G06T7/00 660A
G06T13/40
G10L25/57
G10L13/08
【請求項の数】 19
(21)【出願番号】P 2023518520
(86)(22)【出願日】2021-11-30
(65)【公表番号】
(43)【公表日】2023-10-31
(86)【国際出願番号】 CN2021134541
(87)【国際公開番号】W WO2022116977
(87)【国際公開日】2022-06-09
【審査請求日】2023-03-22
(31)【優先権主張番号】202011413461.3
(32)【優先日】2020-12-04
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【弁理士】
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】▲張▼ 文杰
【審査官】渡部 幸和
(56)【参考文献】
【文献】中国特許出願公開第111508064(CN,A)
【文献】中国特許出願公開第111370020(CN,A)
【文献】Sercan O. Arik 外11名,Deep Voice: Real-time Neural Text-to-Speech,arXiv,2017年,https://arxiv.org/abs/1702.07825
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/00 - 13/60
G06T 7/00
G10L 25/57
G10L 13/08
(57)【特許請求の範囲】
【請求項1】
目標対象の動作駆動装置が実行する、目標対象の動作駆動方法であって、
ソース音声を取得し、目標ビデオを取得するステップであって、前記目標ビデオに目標対象が含まれる、ステップと、
各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るステップであって、前記ソースパラメータは、3D表情パラメータと2D口キーポイントパラメータを含む、ステップと、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るステップと、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るステップと、
前記再構成画像によって合成ビデオを生成するステップと、
を含み、前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応する、目標対象の動作駆動方法。
【請求項2】
前記ソース音声を取得するステップは、
ソーステキストを取得し、前記ソーステキストに対してテキスト解析処理を行い、前記ソーステキストの言語学的特徴を得るステップと、
前記言語学的特徴に対して音響学的パラメータ抽出処理を行い、時間領域における前記ソーステキストの音響学的パラメータを得るステップと、
前記音響学的パラメータに対して変換処理を行い、周波数領域における前記ソーステキストの音声波形を得るステップと、
前記音声波形に対応する音声を前記ソース音声とするステップと、を含む、
請求項1に記載の目標対象の動作駆動方法。
【請求項3】
前記各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るステップは、
任意の時刻における前記ソース音声の音声パラメータに対して、
前記音声パラメータに対して特徴抽出処理を行い、前記ソース音声の音声特徴ベクトルを得る処理と、
前記音声特徴ベクトルに対して畳み込み処理及び完全接続処理を順次に行い、前記時刻における前記ソース音声の前記3D表情パラメータ及び前記2D口キーポイントパラメータを得る処理と、を実行するステップを含む、
請求項1に記載の目標対象の動作駆動方法。
【請求項4】
前記音声特徴ベクトルに対して畳み込み処理及び完全接続処理を順次に行い、前記時刻における前記ソース音声の前記3D表情パラメータ及び前記2D口キーポイントパラメータを得るステップは、
特定の畳み込みコアを含む少なくとも2層の第1畳み込み層によって、前記音声特徴ベクトルに対して前記畳み込み処理を行い、畳み込み処理ベクトルを得るステップと、
少なくとも2層の完全接続層によって前記畳み込み処理ベクトルに対して前記完全接続処理を行い、完全接続処理ベクトルを得るステップと、を含み、
前記完全接続処理ベクトルに、前記3D表情パラメータに対応するベクトル及び前記2D口キーポイントパラメータに対応するベクトルが含まれ、前記3D表情パラメータに対応するベクトルと前記2D口キーポイントパラメータに対応するベクトルとの次元の和は、前記完全接続処理ベクトルの次元に等しい、
請求項3に記載の目標対象の動作駆動方法。
【請求項5】
前記目標パラメータは、目標口キーポイントパラメータ及び目標顔パラメータを含み、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るステップは、
前記目標ビデオ内の前記目標対象に対して口パラメータ抽出処理を行い、前記目標口キーポイントパラメータを得るステップと、
前記目標ビデオ内の前記目標対象に対して顔パラメータ抽出処理を行い、前記目標顔パラメータを得るステップと、を含む、
請求項1に記載の目標対象の動作駆動方法。
【請求項6】
前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得る前に、前記目標対象の動作駆動方法は、
前記ソースパラメータ及び前記目標パラメータに対して結合処理を行い、前記結合パラメータを得るステップをさらに含み、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るステップは、
前記結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、口輪郭図及び顔座標マッピングマップを得るステップと、
前記口輪郭図及び前記顔座標マッピングマップを、前記再構成画像とするステップと、を含む、
請求項1に記載の目標対象の動作駆動方法。
【請求項7】
目標対象の動作駆動装置が実行する、目標対象の動作駆動方法であって、
ソース音声を取得し、目標ビデオを取得するステップであって、前記目標ビデオに目標対象が含まれる、ステップと、
各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るステップと、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るステップと、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るステップと、
前記再構成画像によって合成ビデオを生成するステップと、
を含み、
前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応し、
前記ソースパラメータは、表情パラメータ及び口キーポイントパラメータを含み、前記目標パラメータは、目標口キーポイントパラメータ及び目標顔パラメータを含み、前記目標顔パラメータは、目標姿勢パラメータ、目標形状パラメータ、及び目標表情パラメータを含み、
前記ソースパラメータ及び前記目標パラメータに対して結合処理を行い、前記結合パラメータを得るステップは、
前記目標顔パラメータ内の前記目標表情パラメータを前記表情パラメータに置き換えることによって、置き換えられた顔パラメータを得るステップと、
前記目標口キーポイントパラメータを前記口キーポイントパラメータに置き換えることによって、置き換えられた口キーポイントパラメータを得るステップと、
前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータを、前記結合パラメータとするステップと、
を含み、
前記再構成画像は、前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータを含み、
前記再構成画像によって合成ビデオを生成するステップは、
各時刻の前記置き換えられた顔パラメータ、前記置き換えられた口キーポイントパラメータ、及び前記目標ビデオに対応する背景画像に基づいて、画像レンダリングモデルを呼び出すステップと、
前記画像レンダリングモデルにおける第1レンダリングネットワークによって、各時刻の前記置き換えられた顔パラメータ及び各時刻の前記置き換えられた口キーポイントパラメータに対して口形領域レンダリングを行い、各時刻の口形領域テクスチャ画像を得るステップと、
前記画像レンダリングモデルにおける第2レンダリングネットワークによって、前記各時刻の口形領域テクスチャ画像及び前記背景画像に対してスティッチング処理を行い、各時刻の合成画像を得るステップと、
前記各時刻の合成画像に基づいて、前記目標対象及び前記ソース音声の前記合成ビデオを決定するステップと、
を含む、目標対象の動作駆動方法。
【請求項8】
前記第1レンダリングネットワークは、少なくとも1層の第2畳み込み層、少なくとも1層の第1ダウンサンプリング層、及び少なくとも1層の第1アップサンプリング層を含み、
前記画像レンダリングモデルにおける第1レンダリングネットワークによって、各時刻の前記置き換えられた顔パラメータ及び各時刻の前記置き換えられた口キーポイントパラメータに対して口形領域レンダリングを行い、各時刻の口形領域テクスチャ画像を得るステップは、
前記第2畳み込み層及び前記第1ダウンサンプリング層によって、前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータに対して畳み込み処理及びダウンサンプリング処理を行い、前記再構成画像の深度特徴を得るステップと、
前記第1アップサンプリング層によって、前記再構成画像の深度特徴に対してアップサンプリング処理を行い、前記口形領域テクスチャ画像を得るステップと、を含む、
請求項に記載の目標対象の動作駆動方法。
【請求項9】
前記第2レンダリングネットワークは、少なくとも1層の第3畳み込み層、少なくとも1層の第2ダウンサンプリング層、及び少なくとも1層の第2アップサンプリング層を含み、
前記画像レンダリングモデルにおける第2レンダリングネットワークによって、前記各時刻の口形領域テクスチャ画像及び前記背景画像に対してスティッチング処理を行い、各時刻の合成画像を得るステップは、
前記第3畳み込み層及び前記第2ダウンサンプリング層によって、前記口形領域テクスチャ画像及び前記背景画像に対して、畳み込み処理及びダウンサンプリング処理を行い、前記口形領域テクスチャ画像及び前記背景画像の深度特徴を得るステップと、
前記第2アップサンプリング層によって、前記深度特徴に対してアップサンプリング処理を行い、各時刻の合成画像を得るステップと、を含む、
請求項に記載の目標対象の動作駆動方法。
【請求項10】
前記画像レンダリングモデルは、
再構成画像サンプル及び目標画像サンプルに基づいて、前記画像レンダリングモデルを呼び出すステップと、
前記画像レンダリングモデルの第1レンダリングネットワークによって、前記再構成画像サンプル及び前記目標画像サンプルに対して、特徴抽出処理及び口形領域レンダリングを行い、口形テクスチャ画像サンプルを得るステップと、
前記画像レンダリングモデルにおける第2レンダリングネットワークによって、前記口形テクスチャ画像サンプル及び前記目標画像サンプルに対してスティッチング処理を行い、合成画像サンプルを得るステップと、
前記合成画像サンプルに基づいて所定の損失モデルを呼び出して、損失結果を得るステップと、
前記損失結果に基づいて、前記第1レンダリングネットワーク及び前記第2レンダリングネットワークにおけるパラメータを補正して、トレーニングされた前記画像レンダリングモデルを得るステップと、によってトレーニングされる、
請求項に記載の目標対象の動作駆動方法。
【請求項11】
前記合成画像サンプルに基づいて所定の損失モデルを呼び出して、損失結果を得るステップは、
前記再構成画像サンプル及び前記目標画像サンプルに対応する実合成画像を得るステップと、
前記合成画像サンプルと前記実合成画像とをスティッチングしてから、前記所定の損失モデルに入力し、前記所定の損失モデルによって、前記合成画像サンプル及び前記実合成画像に対して前後フレーム類似度損失の算出を行い、前記損失結果を得るステップと、を含む、
請求項10に記載の目標対象の動作駆動方法。
【請求項12】
請求項7~11のいずれか一項に記載の方法を実行するように構成される処理回路を備える、目標対象の動作駆動装置。
【請求項13】
目標対象の動作駆動装置であって、
ソース音声を取得し、目標ビデオを取得するように構成される取得モジュールであって、前記目標ビデオに目標対象が含まれる、取得モジュールと、
各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るように構成される顔パラメータ変換モジュールであって、前記ソースパラメータは、3D表情パラメータと2D口キーポイントパラメータを含む、顔パラメータ変換モジュールと、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るように構成されるパラメータ抽出モジュールと、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るように構成される画像再構成モジュールと、
前記再構成画像によって合成ビデオを生成するように構成される生成モジュールであって、前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応する生成モジュールと、を含む、目標対象の動作駆動装置。
【請求項14】
目標対象の動作駆動システムであって、端末とサーバとを含み、
前記端末は、前記目標対象の動作駆動要求を前記サーバに送信するために用いられ、前記動作駆動要求に、ソース音声及び目標ビデオが含まれ、前記目標ビデオに目標対象が含まれ、
前記サーバは、前記動作駆動要求に応答して、請求項1~のいずれか一項に記載の目標対象の動作駆動方法を実現するために用いられる、目標対象の動作駆動システム。
【請求項15】
目標対象の動作駆動システムであって、端末とサーバとを含み、
前記端末は、前記目標対象の動作駆動要求を前記サーバに送信するために用いられ、前記動作駆動要求に、ソース音声及び目標ビデオが含まれ、前記目標ビデオに目標対象が含まれ、
前記サーバは、前記動作駆動要求に応答して、請求項8~11のいずれか一項に記載の目標対象の動作駆動方法を実現するために用いられる、目標対象の動作駆動システム。
【請求項16】
実行可能命令を記憶するメモリと、
前記メモリに記憶された実行可能命令を実行するときに、請求項1~のいずれか一項に記載の目標対象の動作駆動方法を実行するプロセッサと、を備える、目標対象の動作駆動機器。
【請求項17】
実行可能命令を記憶するメモリと、
前記メモリに記憶された実行可能命令を実行するときに、請求項8~11のいずれか一項に記載の目標対象の動作駆動方法を実行するプロセッサと、を備える、目標対象の動作駆動機器。
【請求項18】
プロセッサに、請求項1~のいずれか一項に記載の目標対象の動作駆動方法を実行させる、コンピュータプログラム。
【請求項19】
プロセッサに、請求項8~11のいずれか一項に記載の目標対象の動作駆動方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願への相互参照)
本願は、2020年12月04日に中国特許局に提出された、出願番号が202011413461.3である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
【0002】
本願は、インターネットの技術分野に関し、目標対象の動作駆動方法、装置、機器及びコンピュータ可読記憶媒体並びにコンピュータプログラム製品に関するが、これらに限定されない。
【背景技術】
【0003】
近年、口形同期発話ビデオ生成分野においては、主にディープラーニングに基づいて同期プロセスが実現されている。関連技術では、一つの実施形態は、再帰型ニューラルネットワークを利用して音声特徴から口キーポイントを学習し、次に、口キーポイント情報に基づいて、口テクスチャを生成し、最後に、目標ビデオフレームと結合して、口形同期発話ビデオフレームを得ることであり、他の実施形態は、まず、複数の異なるソースの音声セグメントから、共通で共有的な「音声-表情」空間を学習し、次に、得られた表情パラメータに基づいて、最終的な口形同期発話ビデオフレームを決定することである。
【0004】
しかしながら、関連技術における方法で生成された最終的な口形同期発話ビデオフレームには、滑らかではなく、リアルでないという問題が存在する。
【発明の概要】
【課題を解決するための手段】
【0005】
本願の実施例は、最終的に得られる合成ビデオの平滑度及びリアル性を向上させることができる、目標対象の動作駆動方法、装置、機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
【0006】
本願の実施例の技術的方案は、次のように実現することができる。
【0007】
本願の実施例は、目標対象の動作駆動方法を提供し、前記方法は、
ソース音声を取得し、目標ビデオを取得するステップであって、前記目標ビデオに目標対象が含まれる、ステップと、
各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るステップと、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るステップと、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るステップと、
前記再構成画像によって合成ビデオを生成するステップと、を含み、ここで、前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応する。
【0008】
本願の実施例は、目標対象の動作駆動装置を提供し、前記装置は、
ソース音声を取得し、目標ビデオを取得するように構成される取得モジュールであって、前記目標ビデオに目標対象が含まれる、取得モジュールと、
各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るように構成される顔パラメータ変換モジュールと、
前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るように構成されるパラメータ抽出モジュールと、
前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るように構成される画像再構成モジュールと、
前記再構成画像によって合成ビデオを生成するように構成される生成モジュールであって、前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応する生成モジュールと、を含む。
【0009】
本願の実施例は、少なくとも端末及びサーバを含む目標対象の動作駆動システムを提供し、
前記端末は、前記目標対象の動作駆動要求を前記サーバに送信するために用いられ、前記動作駆動要求に、ソース音声及び目標ビデオが含まれ、前記目標ビデオに目標対象が含まれ、
前記サーバは、前記動作駆動要求に応答して、上記の目標対象の動作駆動方法を実現するために用いられる。
【0010】
本願の実施例は、コンピュータ命令を含む、コンピュータプログラム製品又はコンピュータプログラムを提供し、前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ機器のプロセッサは、前記コンピュータ可読記憶媒体から前記コンピュータ命令を読み取り、前記プロセッサは、前記コンピュータ命令を実行することにより、上記の目標対象の動作駆動方法を実現するために用いられる。
【0011】
本願の実施例は、目標対象の動作駆動機器を提供し、前記目標対象の動作駆動機器は、実行可能命令を記憶するメモリと、前記メモリに記憶された実行可能命令を実行するときに、上記の目標対象の動作駆動方法を実現するプロセッサと、を備える。
【0012】
本願の実施例は、実行可能命令が記憶されたコンピュータ可読記憶媒体を提供し、前記実行可能命令は、プロセッサに、上記の目標対象の動作駆動方法を実行させる。
【0013】
本願の実施例は、次の有益な効果を有する。ソースパラメータと目標パラメータとの結合パラメータによって、最終的に音声で目標対象の動作を駆動する合成ビデオが得られ、最終的に得られる合成ビデオの平滑度及びリアル性を向上させることができ、それによって、ビデオ合成の視覚的効果を向上させることができる。
【図面の簡単な説明】
【0014】
図1】関連技術における目標対象の動作駆動方法のシステムフレームワーク図である。
図2】本願の実施例による目標対象の動作駆動システムのアーキテクチャ図である。
図3】本願の実施例による目標対象の動作駆動機器の概略構造図である。
図4】本願の実施例による目標対象の動作駆動方法の1つのフローチャートである。
図5】本願の実施例による目標対象の動作駆動方法の1つのフローチャートである。
図6A】本願の実施例による目標対象の動作駆動方法の1つのフローチャートである。
図6B】本願の実施例による目標対象の動作駆動方法の1つのフローチャートである。
図7】本願の実施例による画像レンダリングモデルのトレーニング方法の実現フローチャートである。
図8】本願の実施例による目標対象の動作駆動方法のシステムフレームワーク図である。
図9】本願の実施例による、テキストから音声への変換モジュールのブロック図である。
図10】本願の実施例による、音声から顔パラメータへの変換ネットワークのブロック図である。
図11】本願の実施例によるDlibアルゴリズムの効果図である。
図12】本願の実施例による画像レンダリングモデルのブロック図である。
図13】本願の実施例による条件に基づく敵対的生成ネットワークのブロック図である。
図14】関連技術における方法により合成された仮想人物同期発話ビデオである。
図15】本願の実施例に係る目標対象の動作駆動方法により生成された合成ビデオを示す図である。
【発明を実施するための形態】
【0015】
本願の目的、技術的方案及び利点をより明確にするために、以下では、図面を参照して、本願をさらに詳しく説明する。記載される実施例は、本願を限定するものではなく、当業者が創造的な労力を払わずに得られる他のすべての実施例は、本願の保護範囲に含まれる。
【0016】
下記において、「いくつかの実施例」という記載は、全ての可能な実施例のサブセットを記載しているが、理解可能なこととして、「いくつかの実施例」というのは、全ての可能な実施例と同じサブセット又は異なるサブセットであり得、矛盾しなければ互いに組み合わせられることができる。特に明記されていない限り、本願で使用されるすべての技術用語及び科学用語は、本願の当業者によって通常理解されるものと同じ意味を有する。本願で使用される用語は、本願の実施例を説明するためにのみ採用され、本願を限定することを意図するものではない。
【0017】
本願の実施例を説明する前に、まず、関連技術における目標対象の動作駆動方法について説明する。
【0018】
現在、口形同期発話ビデオ生成方案は、主にテキスト駆動及び音声駆動の2種類に分けられる。テキスト駆動は、文字通り、テキスト及び目標人物のビデオを入力し、TTS(Text To Speech)技術によりテキストを音声に変換してから、音声特徴から顔特徴を学習し、最後に、目標人物が入力テキストを読むビデオを出力することであり、それに対して、音声駆動は、TTSのステップをスキップして、音声及び目標人物のビデオを直接入力することであり、テキスト駆動方法は、音声駆動方法の拡充であると言える。現在、主にディープラーニングに基づいて口形同期発話ビデオ生成方案を実現しており、そのうちのAudio2Obama方法では、まず、再帰型ニューラルネットワークを利用して、音声特徴から20個の口キーポイントを学習し、次に、口キーポイント情報に基づいて、口テクスチャを生成し、最後に、目標ビデオフレームと結合して、口形同期発話ビデオフレームを得る。それに対して、テキスト駆動としてのObamaNet方法は、主に、3つのモジュールを含み、それぞれ「テキスト-音声」モジュール、「音声-キーポイント」モジュール、及び「キーポイント-ビデオフレーム」モジュールであり、ここで、「テキスト-音声」モジュールは、TTSアルゴリズムにおけるChar2Wavを採用し、「音声-キーポイント」モジュールも同様に再帰型ニューラルネットワークを利用して音声特徴からキーポイント情報を学習し、「キーポイント-ビデオフレーム」モジュールは、スキップ接続により情報伝達を実現するU-Netネットワークを利用しており、当該方法は、一つ目のディープラーニングに基づくテキスト駆動による口形同期発話ビデオ生成モデルである。
【0019】
上記の方法は、いずれも優れた結果を得ることができるが、上記の方法は、いずれも同一人物による実験的検証に基づいているため、モデルの拡張性が低い。このため、他の方法は、異なる人物の声に対応できるネットワークの設計にも取り組んでいる。例えば、1つの方法では、まず、複数の異なるソースの音声セグメントに基づいて、共通で共有的な「音声-表情」空間を学習し、次に、得られた表情パラメータに基づいて3D顔再構成を行い、さらに、対応する顔座標マッピングマップ、即ち、UVマップ(UV map)が得られ、UV mapは、3D顔座標から二次元平面にマッピングされたマップである。この方法も、U-Netネットワークを使用してビデオフレームをレンダリングする。別の方法は、音声識別情報除去ネットワークを利用して、異なる発話者の音声特徴をグローバルドメインに変換し、次に、再帰型ニューラルネットワークを用いて音声特徴から表情パラメータを学習し、得られた表情パラメータと目標人物の3D顔パラメータとを結合し、3Dグリッドを再構成し、3DグリッドをU-Netネットワークに入力して、最終的なビデオフレームを得る。別の方法では、主にレンダリングモジュールを改善し、記憶増強式の敵対的生成ネットワーク(GAN:Generative Adversarial Networks)を提案し、異なる発話者の個人特徴と空間特徴ペアを保持し、それにより、異なる発話者の会話ビデオ合成を実現する。
【0020】
関連技術において、音声駆動モデルに基づく目標対象の動作駆動方法をさらに提案しており、この方法は、まず、複数の異なるソースの音声セグメントから共通で共有的な「音声-表情」空間を学習し、この空間は、複数のブレンドシェイプで構成され、異なる人の表情パラメータは、いずれも空間中の異なるブレンドシェイプの線形な組み合わせから構成できる。次に、得られた表情パラメータに基づいて3D顔再構成を行い、対応するUV mapを得、次に、膨張畳み込みに基づくU-Netを採用してビデオフレームをレンダリングし、図1は、関連技術における目標対象の動作駆動方法のシステムフレームワーク図であり、図1に示すように、目標対象の動作駆動方法のシステムフレームワークは、汎用ネットワーク(Generalized Network)11及び専門ネットワーク(Specialized Network)12によって構成され、ここで、この技術的方案のシステムフレームワークの具体的な処理フローは次の通りである。まず、異なるソースからの音声セグメント111を音声識別システム(DeepSpeech RNN)112に入力して音声特徴抽出を行い、音声特徴を得、次に、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)113によって、異なる人の音声特徴を共通で共有的な潜在的な音声表情空間(Latent Audio Expression Space)114にマッピングし、異なる人の音声特徴は、この空間内の異なるブレンドシェイプ(blendshape)の線形結合によって構成できる。汎用ネットワーク11の出力は、専門ネットワーク12のコンテンツ感知フィルタ(Content-Aware Filtering)121に入り、滑らかな音声-表情パラメータ(Smooth Audio- Expressions)122を得、それによって、再構成された3D顔モデル(3D Model)123及びUV Map 124を得る。最後に、UV Map 124及び背景画像125をニューラルレンダリングネットワーク(Neural Rendering Network)126に入力して、最終的な出力画像127を得る。
【0021】
関連技術における上記の方法には、少なくとも以下の問題が存在する。関連技術における音声駆動は、指定されたテキストに対して、それに対応する口形同期発話ビデオを出力することができない。関連技術で利用される顔パラメータは、3D顔モデルから得られるUV Mapのみであり、しかし、UV Mapは、口形の先験的なデータしかネットワークに提供することがなく、ネットワークに、歯の詳細に関する補助情報がない。関連技術では、レンダリングネットワークをトレーニングするときに、予測値及び実値に対応するフレームのみにペナルティを課し、入力された前後のフレームを考慮しないため、前後のフレームの差異が最適化されず、最終的なビデオにブレが生じる問題である。また、関連技術における上記の方法では、生成された最終的な口形同期発話ビデオフレームに対応するビデオが滑らかではなく、リアルでないという問題も存在する。
【0022】
3D仮想人物口形同期発話ビデオ生成分野において、現在、顔再構成及びビデオフレームのレンダリングという2つが主な課題がある。第1の課題について、本願の実施例は、音声から顔パラメータへの変換ネットワークを提供し、音声特徴から2D口キーポイント及び3D顔表情パラメータを同時に学習することができ、これにより、2Dキーポイントから提供される正確な位置情報を得るとともに、3D顔パラメータが深度情報を有するという利点を保持することができ、2Dと3Dパラメータを結合して顔を再構成することで、その精度を確保することができる。再構成された顔を得た後、さらに背景と融合する。第2の課題について、本願の実施例は、2段階のレンダリングネットワークを提供し、1番目のレンダリングネットワークは、再構成された顔から口テクスチャ領域をレンダリングし、2番目のレンダリングネットワークは、口テクスチャ領域を、背景と結合して最終的なビデオフレームをレンダリングする。2段階のレンダリングネットワークを使用する利点は下記の通りである。1)2つのレンダリングネットワークを個別にトレーニングすることで、トレーニングの難易度を低減させるとともに、1番目のレンダリングネットワークで生成した口形テクスチャの精度を確保することができる。2)2番目のレンダリングネットワークをトレーニングするときに、口形領域に対して再度ペナルティを課することで、口形の補正や歯、しわなどの詳細の最適化を実現し、また、レンダリングネットワークをトレーニングするとき、ビデオフレームの類似度損失をさらに採用することで、出力された前後フレーム間の差異が大きくならないように確保し、ビデオのブレや、ビデオが滑らかでなく、リアルではないという問題を回避する。
【0023】
本願の実施例による目標対象の動作駆動方法では、まず、ソース音声及び目標ビデオを取得し、目標ビデオに目標対象が含まれ、次に、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得、目標ビデオに対してパラメータ抽出を行い、目標パラメータを得、ソースパラメータと目標パラメータとを結合して得られた結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成を行い、再構成画像を得、最後に、再構成画像によって合成ビデオを生成し、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。このように、ソースパラメータと目標パラメータとの結合パラメータに基づいて、音声で目標対象の動作を駆動する最終的な合成ビデオを得るため、最終的に得られる合成ビデオは、より滑らかでリアルになり、ビデオ合成の視覚的効果を向上させることができる。
【0024】
なお、本願の実施例における顔は、人の顔に限定されず、動物の顔、又は仮想対象の顔であってもよい。
【0025】
以下では、本願の実施例の目標対象の動作駆動機器の適用例を説明し、一実施形態では、本願の実施例による目標対象の動作駆動機器は、ノートパソコン、タブレットPC、デスクトップコンピュータ、モバイル機器(携帯電話、携帯音楽プレーヤ、パーソナルデジタルアシスタント、専用メッセージ機器、携帯ゲーム機器など)、スマートロボットなどの任意のビデオ再生機能を備えた端末として実装されてもよいし、別の実施形態では、本願の実施例による目標対象の動作駆動機器は、サーバとして実装されてもよい。以下では、目標対象の動作駆動機器をサーバとして実装する場合の適用例について説明する。
【0026】
図2を参照すると、図2は、本願の実施例による目標対象の動作駆動システム20のアーキテクチャ図である。目標対象及びソース音声を同時に有する合成ビデオを合成するために、即ち、ソース音声で目標対象の動作を駆動する合成ビデオを生成するために、本願の実施例による目標対象の動作駆動システム20は、端末100、ネットワーク200、及びサーバ300を含み、端末100は、目標ビデオ及びソース音声を取得し、目標ビデオ及びソース音声に基づいて、目標対象の動作駆動要求を生成し、ネットワーク200によって動作駆動要求をサーバ300に送信し、サーバ300は、動作駆動要求に応答して、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得、目標ビデオに対してパラメータ抽出を行い、目標パラメータを得、次に、ソースパラメータと目標パラメータとを結合して得られた結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成を行い、再構成画像を得、再構成画像によって合成ビデオを生成し、ここで、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。合成ビデオを得た後、ネットワーク200によって合成ビデオを端末100に送信する。端末100は、合成ビデオを取得した後、端末100の現在のインターフェース100-1上で当該合成ビデオを再生する。
【0027】
以下では、目標対象の動作駆動機器を端末として実装する場合の適用例について説明する。
【0028】
目標対象及びソース音声を同時に有する合成ビデオを合成するため、即ち、ソース音声で目標対象の動作を駆動する合成ビデオを生成するために、端末100は、目標ビデオ及びソース音声を取得し、ここで、目標ビデオ及びソース音声は、ローカルに保存されたビデオ及び音声であってもよいし、リアルタイムで記録されたビデオ及び音声であってもよいし、端末は、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得、目標ビデオに対してパラメータ抽出を行い、目標パラメータを得、次に、ソースパラメータと目標パラメータとを結合して得られた結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成を行い、再構成画像を得、再構成画像によって合成ビデオを生成し、ここで、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。合成ビデオを得た後、端末100の現在のインターフェース100-1上で当該合成ビデオを再生する。
【0029】
本願の実施例による目標対象の動作駆動方法はさらに、人工知能技術分野に関しており、人工知能技術により合成ビデオの合成を実現する。本願の実施例では、少なくとも人工知能技術におけるコンピュータビジョン技術、音声技術、及び自然言語処理技術によって実現することができる。コンピュータビジョン技術(CV:Computer Vision)は、機械に「見させる」方法を研究する科学であり、さらに、人間の目の代わりにカメラ及びコンピュータを使用して、目標に対して識別、追跡、測定など機械ビジョンを実行し、さらに、グラフィックス処理を実行して、コンピュータ処理結果を、人間の目で観察しやすく、又は器械に伝送して検出しやすい画像にするものである。科学分野として、コンピュータビジョンは、関連する理論と技術を研究し、画像又は多次元データから情報を取得することができる人工知能システムを構築しようとする。コンピュータビジョン技術には通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学式文字認識(OCR:Optical Character Recognition)、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/行動の認識、三次元対象再構築、3D技術、仮想現実、拡張現実、同期定位及びマップの構築が含まれ、さらに、顔認識や指紋認識などの一般的な生物学的特徴認識技術も含まれる。音声技術(Speech Technology)の核心技術としては、自動音声識別技術(ASR:Automatic Speech Recognition)、音声合成技術(TTS:Text To Speech)、及び声紋識別技術がある。コンピュータを聞く、見る、話す、感じることができるようにすることは、未来のヒューマンマシンインタラクションの発展方向であり、その中で音声は未来で最も見込みがあるヒューマンマシンインタラクション方式の一つとなっている。自然言語処理(NLP:Nature Language Processing)は、コンピュータ科学と人工知能分野における重要な方向であり、自然言語を使って人間とコンピュータの間の効果的なコミュニケーションを実現するための様々な理論と方法を研究する。自然言語処理は、言語学、コンピュータ科学、数学を融合した科学である。したがって、この分野の研究は自然言語、即ち、人間が日常的に使用する言語に関わり、そのため、言語学の研究と密接に関係している。自然言語処理技術には通常、テキスト処理、セマンティック理解、機械翻訳、ロボットによる質問応答、ナレッジグラフなどの技術が含まれる。
【0030】
本願の実施例によって提供される目標対象の動作駆動方法は、クラウドプラットフォームに基づいて、クラウド技術によって実装することもでき、例えば、上記のサーバ300は、クラウドサーバであってもよい。
【0031】
図3は、本願の実施例による目標対象の動作駆動機器の概略構造図であり、目標対象の動作駆動機器が上記のサーバ300である場合を例にとると、図3に示すサーバ300は、少なくとも1つのプロセッサ310と、メモリ350と、少なくとも1つのネットワークインターフェース320と、ユーザインターフェース330と、を備える。サーバ300における各コンポーネントは、バスシステム340によってカップリンブされる。バスシステム340は、これらのコンポーネント間の接続通信を実現するために使用されることが理解できる。バスシステム340は、データバスに加えて、電力バス、制御バス及びステータス信号バスを含む。しかしながら、説明を明確にするために、図3では、各種バスをすべてバスシステム340として表記している。
【0032】
プロセッサ310は、例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、プログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなど、信号処理機能を備えた集積回路チップであってもよいし、ここで、汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサなどであってもよい。
【0033】
ユーザインターフェース330は、1つ又は複数のスピーカ及び/又は1つ又は複数のビジュアルディスプレイを含む、メディアコンテンツを表示提示可能にする1つ又は複数の出力装置331を含む。ユーザインターフェース330は、キーボード、マウス、マイク、タッチスクリーンディスプレイ、カメラ、その他の入力ボタン及びコントロールなどのユーザ入力を容易にする1つ又は複数の入力装置332をさらに含む。
【0034】
メモリ350は、取り外し可能、取り外し不可、又はそれらの組み合わせであってもよい。例示的なハードウェアデバイスは、ソリッドステートメモリ、ハードドライブ、光学ドライブなどを含む。メモリ350は、プロセッサ310から物理的に離れて配置された1つ又は複数の記憶装置を含む。メモリ350は、揮発性メモリ又は非揮発性メモリを含んでもよいし、又は揮発性メモリ及び不揮発性メモリの両方を含んでもよい。不揮発性メモリは、読み取り専用メモリ(ROM:Read Only Memory)であり得、揮発性メモリは、ランダムアクセスメモリ(RAM:Random Access Memory)であり得る。本願の実施例で説明されるメモリ350は、任意の適切なタイプのメモリを含む。いくつかの実施例では、メモリ350は、以下に例示するように、様々な動作をサポートするためにデータを記憶することができ、これらのデータの例は、プログラム、モジュール及びデータ構造、又はそのサブセット又はスーパーセットを含む。
【0035】
オペレーティングシステム351は、例えば、フレームレイヤ、コアライブラリレイヤ、ドライブレイヤなど、様々な基本的なシステムサービスを処理し、ハードウェア関連のタスクを実行するためのシステムプログラムを含み、様々な基本業務を実現し、ハードウェアベースのタスクを処理するように構成される。
【0036】
ネットワーク通信モジュール352は、1つ又は複数の(有線又は無線)ネットワークインターフェース320によって他のコンピューティングデバイスに到達するように構成され、例示的なネットワークインターフェース320は、Bluetooth、無線互換性認証(WiFi)、及びユニバーサルシリアルバス(USB:Universal Serial Bus)などを含む。
【0037】
入力処理モジュール353は、1つ又は複数の入力装置332からの1つ又は複数のユーザ入力又はインタラクションを検出し、検出された入力又はインタラクションを翻訳するように構成される。
【0038】
いくつかの実施例では、本願の実施例による装置は、ソフトウェアで実装されてもよいし、図3は、メモリ350に記憶された目標対象の動作駆動装置354を示し、当該目標対象の動作駆動装置354は、サーバ300における目標対象の動作駆動装置であってもよいし、プログラムやプラグインの形のソフトウェアであってもよいし、取得モジュール3541、顔パラメータ変換モジュール3542、パラメータ抽出モジュール3543、画像再構成モジュール3544、及び生成モジュール3545を備える、ソフトウェアモジュールであってもよいし、これらのモジュールは論理的であるため、実装されている機能に応じて任意に組み合わせたり、さらに分割したりできる。下記において、各モジュールの機能について説明する。
【0039】
別のいくつかの実施例では、本願の実施例による装置は、ハードウェアで実装されてもよいし、一例として、本願の実施例で提供される装置は、ハードウェア復号化プロセッサのようなプロセッサであり得、それは、本願の実施例で提供される目標対象の動作駆動方法を実行するようにプログラムされ、例えば、ハードウェア復号化プロセッサのようなプロセッサは、1つ又は複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP、デジタル信号プロセッサ(PLD:Programmable Logic Device)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、ィールドプログラマブルゲートアレイ(FPGA:Field-Programmable Gate Array)又は他の電子素子を採用することができる。
【0040】
以下では、本願の実施例によるサーバ300の例示的な適用及び実施に関連して、本願の実施例による目標対象の動作駆動方法を説明し、当該方法は、ビデオ合成方法であり得る。図4を参照すると、図4は、本願の実施例による目標対象の動作駆動方法の1つのフローチャートであり、以下では、図4に示すステップを参照しながら説明する。
【0041】
ステップS401において、ソース音声及び目標ビデオを取得し、目標ビデオに目標対象が含まれる。
【0042】
ここで、サーバは、ユーザが端末によって送信した目標対象の動作駆動要求を受信することができ、当該動作駆動要求は、ソース音声と目標ビデオとを合成して、目標対象及びソース音声を同時に有する、ソース音声で目標対象の動作を駆動する合成ビデオを生成するように要求するために用いられ、即ち、生成するように要求された合成ビデオは、目標ビデオ内の目標対象を有し、且つ目標対象に対応する音声は、当該ソース音声である。
【0043】
ソース音声は、ユーザが予め録音した音声であってもよいし、ネットワークからダウンロードした音声であってもよいし、特定のテキストを変換して得られた音声であってもよい。いくつかの実施例では、ソース音声の音声特徴は、特定の対象の音声特徴であってもよいし、目標ビデオ内の目標対象の音声特徴であってもよい。
【0044】
ステップS402において、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得る。
【0045】
ここで、各時刻のソースパラメータは、表情パラメータ及び口キーポイントパラメータを含むが、これらに限定されず、ここで、表情パラメータは、当該時刻の音声パラメータに対応する表情パラメータであり、例えば、音声パラメータが楽しい音声に対応する場合、表情パラメータは、笑顔の表情パラメータであり得、音声パラメータが悲しい音声に対応する場合、表情パラメータは、眉をひそめる表情パラメータであり得る。口キーポイントパラメータは、当該時刻の音声パラメータを表現するときの口形パラメータである。
【0046】
本願の実施例では、表情パラメータは、3D表情パラメータであり、口キーポイントパラメータは、2Dキーポイントパラメータである。
【0047】
ステップS403において、目標ビデオに対してパラメータ抽出処理を行い、目標パラメータを得る。
【0048】
ここで、予め設定されたアルゴリズムを採用して目標ビデオに対してパラメータ抽出を行うことができ、即ち、目標ビデオ内の目標対象に対してパラメータ抽出を行うことができ、ここで、目標パラメータは、目標口キーポイントパラメータ及び目標顔パラメータを含むが、これらに限定されず、もちろん、目標パラメータはさらに、目標対象の姿勢パラメータ、位置パラメータ、形状パラメータ、及び動作パラメータなどを含み得る。
【0049】
ステップS404において、ソースパラメータと目標パラメータとを結合して得られた結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得る。
【0050】
ここで、まず、ソースパラメータと目標パラメータとを結合して、結合パラメータを得、結合パラメータは、最終的な合成ビデオにおける目標対象の姿勢、位置、形状、動作、及び口形などの状態を表すためのパラメータである。
【0051】
本願の実施例では、結合パラメータに基づいて目標対象に対して画像再構成を行い、再構成画像を得、再構成画像は、最終的な合成ビデオを生成するための画像である。
【0052】
ステップS405において、再構成画像によって合成ビデオを生成する。
【0053】
ここで、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。
【0054】
本願の実施例では、各時刻の音声パラメータに対応して、対応する再構成画像を生成し、且つ各再構成画像をレンダリングして1枚の合成画像を生成し、音声パラメータが一定の時間長を有するため、再構成画像は、少なくとも1枚を有し、且つ合成ビデオの時間長は、ソース音声の時間長と等しいか、又は、合成ビデオの時間長は、ソース音声の時間長より長い。再構成画像が1枚ある場合、最終的に生成された合成ビデオは、1枚の合成画像であり、再構成画像が複数枚ある場合、最終的に生成された合成ビデオの時間長は、ソース音声の時間長と同じであり、且つ合成ビデオは、複数枚の合成画像が時系列に連結されて形成されたビデオである。
【0055】
いくつかの実施例では、目標ビデオは、少なくとも1フレームのビデオフレームを有し得、目標ビデオは目標対象を有し、目標ビデオが1フレームのビデオフレームを含む場合、当該ビデオフレームは目標対象を有し、ビデオ合成要求は、当該目標対象を有する合成ビデオを生成するように要求するために用いられ、且つ合成ビデオは、1フレームのビデオフレームに基づいて得られる動的ビデオであり、目標ビデオが複数フレームのビデオフレームを含む場合、少なくとも1フレームのビデオフレームは、目標対象を有し、ビデオ合成要求は、当該目標対象を有する合成ビデオを生成するように要求するために用いられ、且つ合成ビデオは、複数フレームのビデオフレームに基づいて得られる動的ビデオである。
【0056】
いくつかの実施例では、目標ビデオが複数フレームのビデオフレームを含む場合、目標ビデオの時間長は、ソース音声の時間長と同じでもよいし、異なってもよい。目標ビデオの時間長がソース音声の時間長と同じである場合、各ビデオフレームに対応するソース音声の、各時刻における音声パラメータに基づいて、合成画像を形成し、最終的に、目標ビデオと同じ時間長を有する合成ビデオを形成することができる。
【0057】
本願の実施例は、次のようなシーンに適用され得る。教育業界において、ある知識ポイントに関する教学ビデオを生成したい場合、当該知識ポイントに対応するソース音声(即ち、教室の先生の音声)と、教師の講義が含まれる目標ビデオをサーバに入力することができ、サーバは、本願の実施例の方法を採用して、教師が当該知識ポイントを講義する教学ビデオ(即ち、合成ビデオ)を直接生成して出力する。
【0058】
本願の実施例による目標対象の動作駆動方法では、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得、目標ビデオに対してパラメータ抽出を行い、目標パラメータを得、ソースパラメータと目標パラメータとの結合パラメータに基づいて、目標対象に対して画像再構成を行い、再構成画像を得、最後に、再構成画像によって合成ビデオを生成し、ここで、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。このように、ソースパラメータと目標パラメータとの結合パラメータに基づいて、音声で目標対象の動作を駆動する最終的な合成ビデオを得、それによって最終的に得られる合成ビデオがより滑らかでリアルになり、ビデオ合成の視覚的効果を向上させることができる。
【0059】
いくつかの実施例では、目標対象の動作駆動システムは、少なくとも端末及びサーバを含み、端末とサーバとのインタラクションにより、端末の動作駆動要求に対する応答を実現し、ユーザが所望する合成ビデオを生成する。ここで、動作駆動要求に、ソース音声及び目標ビデオが含まれ、動作駆動要求にさらに、ソーステキストが含まれ得、当該ソーステキストによってソース音声を得ることができる。図5は、本願の実施例による目標対象の動作駆動方法の1つのフローチャートであり、図5に示すように、当該方法は、次のステップを含む。
【0060】
ステップS501において、端末ソース音声及び目標ビデオを取得する。
【0061】
ここで、ソース音声は、ユーザが端末上の音声収集装置によって収集した音声であってもよいし、ユーザが端末によってダウンロードした音声であってもよい。目標ビデオは、任意の時間長のビデオであり得、目標ビデオに目標対象が含まれる。
【0062】
ステップS502において、端末は、ソーステキスト及び目標ビデオを取得する。
【0063】
ここで、ソーステキストは、ソース音声を生成するためのテキストであり、本願の実施例では、入力されたソース音声を処理して、ソース音声を有する合成ビデオを生成するだけでなく、入力されたソーステキストを解析及び変換してソース音声を生成し、それによって、ソース音声を有する合成ビデオを形成することができる。
【0064】
ステップS503において、端末は、ソーステキストに対してテキスト解析を行い、ソーステキストの言語学的特徴を得る。
【0065】
ここで、言語学的特徴は、ピンイン、停頓、句読点記号、イントネーションなどの言語学的特徴を含むが、これらに限定されない。いくつかの実施例では、人工知能技術に基づいて、ソーステキストに対してテキスト解析を行い、ソーステキストの言語学的特徴を得ることもできる。
【0066】
ステップS504において、端末は、言語学的特徴に対して音響学的パラメータ抽出を行い、時間領域におけるソーステキストの音響学的パラメータを得る。
【0067】
ここで、音響学的パラメータは、時間領域におけるソーステキストのパラメータ表現であり、言語学的特徴に対して音響学的パラメータ抽出を行うことにより、時間領域におけるソーステキストの音響学的パラメータを得る。
【0068】
ステップS505において、端末は、音響学的パラメータに対して変換処理を行い、周波数領域におけるソーステキストの音声波形を得る。
【0069】
ここで、音声波形は、音響学的パラメータに対応する音響学的表現であり、音声波形は、周波数領域におけるソーステキストのパラメータ表現である。
【0070】
ステップS506において、端末は、音声波形に対応する音声を、ソース音声として決定する。
【0071】
ステップS507において、端末は、ソース音声及び目標ビデオをカプセル化して、動作駆動要求を形成する。
【0072】
いくつかの実施例では、端末は、ソーステキストを動作駆動要求にカプセル化し、動作駆動要求をサーバに送信することもでき、サーバによって、ステップS503~ステップS506におけるソーステキストをソース音声に変換するステップを実現する。
【0073】
ステップS508において、端末は、動作駆動要求をサーバに送信する。
【0074】
ステップS509において、サーバは、動作駆動要求を解析して、ソース音声及び目標ビデオを得る。
【0075】
ステップS510において、サーバは、ソース音声の各時刻における音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻におけるソース音声のソースパラメータを得る。
【0076】
ステップS511において、サーバは、目標ビデオに対してパラメータ抽出を行い、目標パラメータを得る。
【0077】
ステップS512において、サーバは、ソースパラメータと目標パラメータとを結合して得られた結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成を行い、再構成画像を得る。
【0078】
ステップS513において、サーバは、再構成画像によって合成ビデオを生成し、ここで、合成ビデオに目標対象が含まれ、且つ目標対象の動作はソース音声に対応する。
【0079】
なお、ステップS510~ステップS513は、上記のステップS402~ステップS405と同様であり、本願の実施例では、繰り返して説明しない。
【0080】
ステップS514において、サーバは、合成ビデオを端末に送信する。
【0081】
ステップS515において、端末は、現在のインターフェース上で合成ビデオを再生する。
【0082】
いくつかの実施例では、ソースパラメータは、表情パラメータ及び口キーポイントパラメータを含む。図4に基づき、図6Aは、本願の実施例による目標対象の動作駆動方法の1つのフローチャートであり、図6Aに示すように、ステップS402は、次のステップによって実現することができる。
【0083】
ステップS601において、ソース音声に対して特徴抽出を行い、ソース音声の音声特徴ベクトルを得る。
【0084】
ステップS602において、音声特徴ベクトルに対して畳み込み処理及び完全接続処理を順次に行い、対応する時刻におけるソース音声の表情パラメータ及び口キーポイントパラメータを得る。
【0085】
いくつかの実施例では、ステップS602は、特定の畳み込みコアを有する少なくとも2層の第1畳み込み層によって、音声特徴ベクトルに対して畳み込み処理を順次に行い、畳み込み処理ベクトルを得るステップと、少なくとも2層の完全接続層によって、畳み込み処理ベクトルに対して完全接続処理を順次に行い、完全接続処理ベクトルを得るステップと、によって実現することができる。
【0086】
ここで、完全接続処理ベクトルに、表情パラメータに対応するベクトル及び口キーポイントパラメータに対応するベクトルが含まれ、ここで、表情パラメータに対応するベクトルと口キーポイントパラメータに対応するベクトルとの次元の和は、完全接続処理ベクトルの次元に等しい。
【0087】
引き続き図6Aを参照すると、いくつかの実施例では、ステップS403は、次のステップによって実現することができる。
【0088】
ステップS603において、目標ビデオの現在ビデオフレームにおける目標対象に対して口パラメータ抽出及び顔パラメータ抽出を順次に行い、目標口キーポイントパラメータ及び目標顔パラメータを対応的に得る。
【0089】
ここで、目標口キーポイントパラメータ及び目標顔パラメータは、目標対象のパラメータであり、目標ビデオに複数フレームのビデオフレームが含まれる場合、各フレームのビデオフレームにおける目標対象の目標口キーポイントパラメータ及び目標顔パラメータを抽出することができる。
【0090】
ステップS604において、目標口キーポイントパラメータ及び目標顔パラメータを、目標パラメータとして決定する。
【0091】
引き続き図6Aを参照すると、いくつかの実施例では、ステップS404は、次のステップによって実現することができる。
【0092】
ステップS605において、ソースパラメータと目標パラメータとを結合して、結合パラメータを得る。
【0093】
ここで、ソースパラメータと目標パラメータとを結合することは、最終的な合成画像を生成するためのパラメータを抽出し、最終的な合成画像を生成するために使用しないパラメータを削除して、結合パラメータを得ることであり得る。
【0094】
ステップS606において、結合パラメータに基づいて、目標ビデオ内の目標対象に対して画像再構成を行い、口輪郭図及びUVマップを得る。
【0095】
本願の実施例では、再構成画像は、口輪郭図及びUVマップ(UV map)を含み、ここで、口輪郭図は、最終的に生成された合成画像における目標対象の口の輪郭を表すために用いられ、UVマップは、口輪郭図と結合して、合成画像における目標対象の口領域のテクスチャを生成するために用いられる。
【0096】
ステップS607において、口輪郭図及びUVマップを再構成画像とする。
【0097】
本願の実施例では、ソースパラメータは、表情パラメータ及び口キーポイントパラメータを含み、目標パラメータは、目標口キーポイントパラメータ及び目標顔パラメータを含み、目標顔パラメータは、少なくとも目標姿勢パラメータ、目標形状パラメータ、目標表情パラメータを含む。
【0098】
いくつかの実施例では、ステップS605は、目標顔パラメータ内の目標表情パラメータを表情パラメータに置き換えることによって、置き換えられた顔パラメータを得るステップと、目標口キーポイントパラメータを口キーポイントパラメータに置き換えることによって、置き換えられた口キーポイントパラメータを得るステップと、置き換えられた顔パラメータ及び置き換えられた口キーポイントパラメータを、結合パラメータとするステップと、によって実現することができる。
【0099】
図6Bを参照すると、ステップS405における再構成画像によって合成ビデオを生成するプロセスは、次のステップによって実現することができる。
【0100】
ステップS6054において、各時刻の置き換えられた顔パラメータ、置き換えられた口キーポイントパラメータ、及び目標ビデオに対応する背景画像に基づいて、画像レンダリングモデルを呼び出す。
【0101】
各時刻の置き換えられた顔パラメータ、置き換えられた口キーポイントパラメータ、及び目標ビデオに対応する背景画像を、画像レンダリングモデルに入力する。ここで、再構成画像は、置き換えられた顔パラメータ及び置き換えられた口キーポイントパラメータを含む。
【0102】
ステップS6055において、画像レンダリングモデルにおける第1レンダリングネットワークによって、各時刻の置き換えられた顔パラメータ及び各時刻の置き換えられた口キーポイントパラメータに対して口形領域レンダリングを行い、各時刻の口形領域テクスチャ画像を得る。
【0103】
いくつかの実施例では、第1レンダリングネットワークは、少なくとも1層の第2畳み込み層、少なくとも1層の第1ダウンサンプリング層、及び少なくとも1層の第1アップサンプリング層を含み、ここで、口形領域レンダリングプロセスは、順次に第2畳み込み層及び第1ダウンサンプリング層によって、置き換えられた顔パラメータ及び置き換えられた口キーポイントパラメータに対して畳み込み処理及びダウンサンプリング処理を行い、再構成画像の深度特徴を得るステップと、第1アップサンプリング層によって、再構成画像の深度特徴に対してアップサンプリング処理を行い、再構成画像の解像度を回復し、口形領域テクスチャ画像を得るステップと、によって実現することができる。
【0104】
ステップS6056において、画像レンダリングモデルにおける第2レンダリングネットワークによって、口形領域テクスチャ画像及び背景画像に対してスティッチング処理を行い、各時刻の合成画像を得る。
【0105】
いくつかの実施例では、第2レンダリングネットワークは、少なくとも1層の第3畳み込み層、少なくとも1層の第2ダウンサンプリング層、及び少なくとも1層の第2アップサンプリング層を含み、ここで、スティッチング処理プロセスは、順次に第3畳み込み層及び第2ダウンサンプリング層によって、口形領域テクスチャ画像及び背景画像に対して、畳み込み処理及びダウンサンプリング処理を行い、口形領域テクスチャ画像及び背景画像の深度特徴を得るステップと、第2アップサンプリング層によって、口形領域テクスチャ画像及び背景画像の深度特徴に対してアップサンプリング処理を行い、口形領域テクスチャ画像及び背景画像の解像度を回復し、現在時刻の合成画像を得るステップと、によって実現することができる。
【0106】
ステップS6057において、各時刻の合成画像に基づいて、目標対象及びソース音声を含む合成ビデオを決定する。
【0107】
いくつかの実施例では、上記の画像レンダリングモデルは、各時刻の再構成画像をレンダリングして、対応する時刻の合成画像を生成するために用いられ、且つ当該合成画像に、目標対象だけでなく、対応する時刻におけるソース音声の音声も含まれる。ここで、画像レンダリングモデルは、少なくとも第1レンダリングネットワーク及び第2レンダリングネットワークを含み、第1レンダリングネットワークは、再構成画像及び目標画像に対して特徴抽出及び口形領域レンダリングをそれぞれ行うために用いられ、第2レンダリングネットワークは、口形領域テクスチャ画像及び目標画像に対してスティッチング処理を行うために用いられる。以下では、本願の実施例によって提供される画像レンダリングモデルのトレーニング方法について説明する。
【0108】
図7は、本願の実施例による画像レンダリングモデルのトレーニング方法の実現フローチャートであり、図7に示すように、当該方法は、次のステップを含む。
【0109】
ステップS701において、再構成画像サンプル及び目標画像サンプルに基づいて、画像レンダリングモデルを呼び出す。
【0110】
いくつかの実施例では、再構成画像サンプルは、現在時刻における音声サンプルの音声パラメータに対して顔パラメータ変換処理を行い、音声パラメータサンプルを得るステップと、目標画像サンプルに対してパラメータ抽出を行い、目標パラメータサンプルを得るステップと、音声パラメータサンプルと目標パラメータサンプルとを結合して、結合パラメータサンプルを得、結合パラメータサンプルに基づいて目標画像サンプルにおける目標対象に対して画像再構成を行い、当該再構成画像サンプルを得るステップと、によって実現することができる。
【0111】
いくつかの実施例では、再構成画像サンプルはさらに、テキストサンプルに対してテキスト解析を行い、テキストサンプルの言語学的特徴を得、テキストサンプルの言語学的特徴に対して音響学的パラメータ抽出を行い、時間領域におけるテキストサンプルの音響学的パラメータを得るステップと、当該音響学的パラメータに対して変換処理を行い、周波数領域におけるテキストサンプルの音声波形を得、音声波形に対応する音声を、音声サンプルとして決定するステップと、現在時刻における音声サンプルの音声パラメータに対して顔パラメータ変換処理を行い、音声パラメータサンプルを得るステップと、目標画像サンプルに対してパラメータ抽出を行い、目標パラメータサンプルを得るステップと、音声パラメータサンプルと目標パラメータサンプルとを結合して、結合パラメータサンプルを得、結合パラメータサンプルに基づいて目標画像サンプルにおける目標対象に対して画像再構成を行い、当該再構成画像サンプルを得るステップと、によって実現することができる。
【0112】
ここで、目標画像サンプルに目標対象サンプルが含まれ、最終的に生成された合成画像サンプルにも、当該目標対象サンプルが含まれる。
【0113】
ステップS702において、画像レンダリングモデルの第1レンダリングネットワークによって、再構成画像サンプル及び目標画像サンプルに対して、特徴抽出処理及び口形領域レンダリングを行い、口形テクスチャ画像サンプルを得る。
【0114】
ここで、第1レンダリングネットワークは、少なくとも1層の第2畳み込み層、少なくとも1層の第1ダウンサンプリング層、及び少なくとも1層の第1アップサンプリング層を含む。
【0115】
特徴抽出を行うときに、第2畳み込み層によって、入力された再構成画像サンプル及び目標画像サンプルに対応するパラメータに対して畳み込み処理を行い、第1ダウンサンプリング層によって、畳み込み処理後のパラメータに対してダウンサンプリング処理を行い、再構成画像サンプル及び目標画像サンプルの深度特徴を抽出し、即ち、第1画像特徴サンプルを抽出して得ることができる。口形領域レンダリングを行うときに、第1アップサンプリング層によって、抽出された第1画像特徴サンプルに対してアップサンプリング処理を行い、再構成画像サンプル及び目標画像サンプルの解像度を回復し、口形テクスチャ画像サンプルを得ることができる。
【0116】
本願の実施例では、各第1ダウンサンプリング層の前に、1つの第2畳み込み層が接続されており、各第1アップサンプリング層の後にも、1つの第2畳み込み層が接続されており、即ち、毎回のダウンサンプリング処理の前に1回の畳み込み処理を行い、毎回のアップサンプリング処理の後に1回の畳み込み処理を行う。いくつかの実施例では、第1ダウンサンプリング層と第1アップサンプリング層との間にスキップ接続を取り入れ、スキップ接続によって異なる解像度の特徴情報を保持する。
【0117】
ステップS703において、画像レンダリングモデルにおける第2レンダリングネットワークによって、口形テクスチャ画像サンプル及び目標画像サンプルに対してスティッチング処理を行い、合成画像サンプルを得る。
【0118】
ここで、第2レンダリングネットワークは、少なくとも1層の第3畳み込み層、少なくとも1層の第2ダウンサンプリング層、及び少なくとも1層の第2アップサンプリング層を含む。
【0119】
スティッチング処理を行うときに、まず、第3畳み込み層によって、入力された口形テクスチャ画像サンプル及び目標画像サンプルに対応するパラメータに対して畳み込み処理を行い、第2ダウンサンプリング層によって、畳み込み処理後のパラメータに対してダウンサンプリング処理を行い、口形テクスチャ画像サンプル及び目標画像サンプルの深度特徴を抽出し、即ち、第2画像特徴サンプルを抽出して得ることができる。次に、第2アップサンプリング層によって、抽出された第2画像特徴サンプルに対してアップサンプリング処理を行い、口形テクスチャ画像サンプル及び目標画像サンプルの解像度を回復し、合成画像サンプルを得る。
【0120】
本願の実施例では、各第2ダウンサンプリング層の前に、1つの第3畳み込み層が接続されており、各第2アップサンプリング層の後にも、1つの第3畳み込み層が接続されており、即ち、毎回のダウンサンプリング処理の前に、1回の畳み込み処理を行い、毎回のアップサンプリング処理の後に、1回の畳み込み処理を行う。いくつかの実施例では、第2ダウンサンプリング層と第2アップサンプリング層との間にスキップ接続を取り入れ、スキップ接続によって異なる解像度の特徴情報を保持する。
【0121】
ステップS704において、合成画像サンプルに基づいて所定の損失モデルを呼び出して、損失結果を得る。
【0122】
いくつかの実施例では、ステップS704は、再構成画像サンプル及び目標画像サンプルに対応する実合成画像を得るステップと、合成画像サンプルと実合成画像とをスティッチングしてから、所定の損失モデルに入力し、所定の損失モデルによって、合成画像サンプル及び実合成画像に対して前後フレーム類似度損失の算出を行い、損失結果を得るステップと、によって実現することができる。
【0123】
本願の実施例では、前後フレーム類似度損失の算出を行うときに、下記の損失関数を算出することができ、即ち、画像レンダリングモデルにおける実合成画像と合成画像サンプルに関する2つの損失の間の損失、敵対的生成損失、L1損失、L1損失を利用して算出された、N個の活性化層で実合成画像と合成画像サンプルによって出力された特徴マップの差異に対して、線形重み付けを行って得られる最終的な損失、及び前後フレーム類似度損失を算出することができ、ここで、損失結果は、上記の損失関数のうちの少なくとも1つに基づいて算出されるものであり、つまり、画像レンダリングモデルにおける実合成画像と合成画像サンプルに関する2つの損失の間の損失、敵対的生成損失、L1損失、L1損失を利用して算出された、N個の活性化層で実合成画像と合成画像サンプルによって出力された特徴マップの差異に対して、線形重み付けを行って得られる最終的な損失、及び前後フレーム類似度損失に対して、重み付け加算してから、当該損失結果を得ることができる。
【0124】
ステップS705において、損失結果に基づいて、第1レンダリングネットワーク及び第2レンダリングネットワークにおけるパラメータを補正して、トレーニングされた画像レンダリングモデルを得る。
【0125】
本願の実施例では、画像レンダリングモデルをトレーニングするときに、敵対的生成の策略を採用して、前後フレーム間の類似度に基づいてモデルトレーニングを行い、それによって、毎回の予測における画像レンダリングモデルの損失結果を算出することができる。このように、画像レンダリングモデルを正確にトレーニングすることができ、且つトレーニングして得た画像レンダリングモデルは、前後フレーム間の連続変化を考慮しているため、生成された合成ビデオにおける連続する2フレームのビデオフレーム間の変化はより滑らかになり、それにより、得られた合成ビデオは、より滑らかでリアルになり、画像レンダリングモデルが生成した合成ビデオの視覚的効果を向上させることができる。
【0126】
以下では、本願の一実施例における実際の適用シーンの一例を説明する。
【0127】
本願の実施例は、スマートスピーカ、スマートテレビ、人工知能(AI:Artificial Intelligence)教育、仮想キャスター(「バーチャルキャスター」とも呼ばれる)、ライブなどの口形同期発話のビデオ生成シーンに適用され得、本願の実施例による目標対象の動作駆動方法により、入力されたテキスト又は音声に基づいて、特定の目標人物に対応する同期発話ビデオを合成することができ、スマート製品のヒューマンマシンインタラクション効果及びユーザ体験感を大幅に向上させることができる。
【0128】
一例として、例えばAI教育に適用される場合、目標対象は仮想教師であり、本願の実施例による目標対象の動作駆動方法により、教師側から入力されたテキスト又は音声に基づいて、同期発話するパーソナライズされた3D仮想教師の教学ビデオを自動的に生成し、生徒側に授業を行い、リアル的に教師がオンライン授業を行う機能をシミュレートし、生徒側のユーザ体験を向上させるとともに、教師側の作業量を軽減することができる。
【0129】
一例として、例えば、ライブに適用される場合、目標対象は仮想キャスターであり、本願の実施例による目標対象の動作駆動方法により、キャスターから入力されたテキスト又は音声に基づいて、同期発話する仮想キャスターのライブビデオを自動的に生成し、当該仮想キャスターは、ゲームライブ放送を行って人気を集めることができ、雑談番組によって交流を深めることもでき、歌のリメークやダンスにより高い視聴回数を得ることなどもでき、それにより、ライブの効率を向上させることができる。
【0130】
以下では、本願の実施例による目標対象の動作駆動方法について具体的に説明する。
【0131】
本願の実施例による目標対象の動作駆動方法は、テキスト駆動又は音声駆動の3D仮想の口形同期発話ビデオ生成技術であり、2Dと3Dの顔パラメータとを結合することにより口形を予測し、次に、ビデオフレーム差異損失によってトレーニングしたレンダリングネットワークを用いて最終的な出力画像を合成することにより、音声駆動モデルが音声入力のみに限定され、合成ビデオがリアルでない問題及びぶれる問題を解決する。
【0132】
本願の実施例では、テキスト又は音声を利用して、2D/3D顔パラメータを学習することにより、リアルな特定の目標人物口形と同期する発話ビデオを生成することができる。実現プロセスにおいて、まず、TTS技術を利用して、入力テキストを対応する音声に変換し、次に、1つの畳み込みニューラルネットワークを採用して、音声特徴から2D/3D顔パラメータを学習するとともに、目標人物のビデオに対して2D/3D顔パラメータを抽出し、目標人物のパラメータを学習されたパラメータに置き換えることにより、新たな2D/3D顔モデルを再構成し、当該再構成された顔モデル(即ち、再構成画像)をレンダリングネットワークに入力してビデオフレームを生成し、それにより、目標人物口形同期発話のビデオ生成を実現する。
【0133】
図8は、本願の実施例による目標対象の動作駆動方法のシステムフレームワーク図であり、図8に示すように、当該システムに入力されたのが、1セグメントのソーステキスト801又はソース音声802であり得、入力されたのがソーステキスト801である場合、テキストから音声への変換モジュール803を経由して対応するソース音声を生成し、次に、ソース音声は、音声から顔パラメータへの変換ネットワーク804を経由して対応する顔パラメータを得、ここでの顔パラメータは、2D口キーポイント及び3D表情パラメータを含み、得られた顔パラメータと、顔パラメータ抽出モジュール805によって取得された目標パラメータとを結合して、新たな顔モデル806を再構成し、ここで、UV Map8061及び再構成された口キーポイント8062は、当該顔モデル806によって得られ、次に、UV Map8061及び再構成された口キーポイント8062を、前後フレーム類似度損失によってトレーニングされた2段階の画像レンダリングモデル807に入力して、最終的な出力画像808(即ち、合成画像)を生成することができる。
【0134】
以下では、目標対象の動作駆動方法のシステムフレームワークにおける各構成要素について詳細に説明する。
【0135】
テキストから音声への変換モジュール803について、当該モジュールは、所与の1セグメントの入力ソーステキストを、対応するソース音声に変換して、音声から顔パラメータへの変換ネットワークの入力とすることを目的としている。
【0136】
図9は、本願の実施例によるテキストから音声への変換モジュールのブロック図であり、図9に示すように、テキストから音声への変換モジュールは、主に、テキスト分析モジュール901、音響学的モデルモジュール902、及びボコーダモジュール903の3つのサブモジュールを含む。テキスト分析モジュール901は、入力されたテキスト(即ち、ソーステキスト)を解析して、各文字の発音、話しぶり、イントネーションなどを決定し、テキストを言語学的特徴にマッピングするために用いられ、ここでの言語学的特徴は、ピンイン、停頓、句読点、イントネーションなどの言語学的特徴を含むが、これらに限定されない。音響学的モデルモジュール902は、言語学的特徴を音響学的パラメータにマッピングするために用いられ、ここでの音響学的パラメータは、時間領域におけるソーステキストのパラメータ表現であり、ボコーダモジュール903は、音響学的パラメータを音声波形に変換するために用いられ、ここでの音声波形は、周波数領域におけるソーステキストのパラメータ表現である。
【0137】
音声から顔パラメータへの変換ネットワーク804について、図10は、本願の実施例による音声から顔パラメータへの変換ネットワークのブロック図であり、図10に示すように、Aは、入力された音声セグメント(Input Audio)(即ち、ソース音声)を表し、ユーザ発話又は上記のテキストから音声への変換モジュールによって得られ、Fは、音声特徴(Audio Features)を表し、c~cは、4つの畳み込み層(Convolution layer)を表し、f~fは、3つの完全接続層(Fully connection layer)を表し、Tは、ソース3D表情パラメータ(Three dimensional facial expression parameters of source)を表し、Kは、ソース2D口キーポイント(2D mouth Keypoints of source)を表す。
【0138】
音声から顔パラメータへの変換ネットワークの目的は、入力された音声セグメントから対応するソース3D顔表情パラメータ及び2D口キーポイントを予測することであり、ここで、3D顔表情パラメータは、10次元の係数を有するが、2D口キーポイントは、Dlibアルゴリズムで使用される20個のキーポイントに基づくものであり、2Dキーポイントは、(x,y)の2つの座標系で構成されるため、20個のキーポイントは、40次元のベクトルに対応する。
【0139】
入力されたソース音声Aについては、まず、DeepSpeech方法における再帰型ニューラルネットワーク(RNN)によって音声特徴Fを抽出し、次に、4つの畳み込み層c~cと3つの完全接続層f~fを含む畳み込みニューラルネットワーク(CNN)に入り、最後に、CNNによって、それぞれ3D顔表情パラメータT、2D口キーポイントKである2組の顔パラメータを得る。ここで、抽出された音声特徴Fは、16×29のテンソルであり得、畳み込み層c~cは、いずれも3×1の畳み込みコアを採用し、Fの次元をそれぞれ8×32、4×32、2×64、及び1×64に下げ、畳み込み層cから出力される特徴マップは、3つの完全接続層f~fを経由してから、それぞれ128、64、50次元のベクトルを得る。
【0140】
顔パラメータ抽出モジュール805について、当該モジュールは、目標人物のビデオフレームから目標人物の2D口キーポイント位置及び3D顔パラメータを抽出することを目的としている。ここで、2D口キーポイントは、Dlibアルゴリズムによって得られ、画像が与えられると、当該アルゴリズムは顔の68個のキーポイントを予測する。図11に示すように、図11は、本願の実施例によるDlibアルゴリズムの効果図であり、左側の図1101はオリジナル画像であり、右側の図1102における顔の点は、Dlibアルゴリズムによって予測されたキーポイントである。本願の実施例では、予測された20個の口キーポイントのみを2D顔パラメータとして採用してもよい。各顔画像について、12次元姿勢パラメータ、40次元形状パラメータ、及び10次元表情パラメータを含む62次元の3D顔パラメータを予測する。顔パラメータ抽出モジュールで得た2D口キーポイント及び3D顔表情パラメータは、音声から顔パラメータへの変換ネットワークで得た結果に置き換えられ、目標人物の姿勢パラメータ及び形状パラメータは保持され、再結合された3D顔パラメータを得る。次に、再結合された3D顔パラメータを利用して、目標人物に対して顔再構成を行い、対応するUV mapを得、新たな2D口キーポイント情報は、直接後続のレンダリングの入力の1つとされる。
【0141】
画像レンダリングモデル807について、図12は、本願の実施例による画像レンダリングモデルのブロック図であり、図12に示すように、2D口キーポイント、UV Map、及び背景画像が与えられ、画像レンダリングモデルの目的は、最終的な口形同期発話ビデオフレームを合成することである。実現プロセスにおいて、まず、再構成して得た20個の口キーポイントを連結して1つのポリゴンを口の輪郭、即ち、K(reconstructed mouth keypoints)とし、次に、特定のアルゴリズムに基づいて、3D顔パラメータからマッピングしてUV Map、即ち、Uを得ることができる。K及びUの解像度は、いずれも256×256であり、両者をスティッチングしてから、画像レンダリングモデルの入力とする。画像レンダリングモデルは、2つの段階に分けられ、第1段階(即ち、1番目のレンダリングネットワーク)では、口形領域テクスチャrを合成し、r及び目標ビデオ背景フレームb(即ち、背景画像)に対してスティッチングを行い、2番目のレンダリングネットワークの入力とし、第2段階(即ち、2番目のレンダリングネットワーク)では、背景画像と結合して最終的な出力rを合成する。2つのレンダリングネットワークが採用した構造は、いずれもU-Netネットワークであり、U-Netネットワークは、入力に対してダウンサンプリング及び畳み込み操作を継続的に採用して深度特徴を抽出し、次に、段階的なアップサンプリング層によってその解像度を回復し、ダウンサンプリングとアップサンプリングとの間にスキップ接続を取り入れることにより異なる解像度の特徴情報を保持する。
【0142】
いくつかの実施例では、レンダリングネットワークをトレーニングするときに、条件に基づく敵対的生成ネットワーク(GAN:Generative Adversarial Networks)を採用することができ、図13に示すように、図13は、本願の実施例による条件に基づくGANフレームワーク図であり、レンダリングネットワークの予測値F(即ち、合成画像F)及び実値R(即ち、実画像R)は、それぞれレンダリングネットワークの入力I(即ち、入力画像I)とスティッチングしてから判別器1301に入れられ、実値と予測値に関する2つの損失LD_fake及びLD_realを得る。判別器1301の最終的な損失関数Lは、下記式1-1で表す。
【0143】
【数1】
【0144】
レンダリングネットワークは、生成器として見なすことができ、その損失関数は敵対的生成損失LG_GANを含み、LG_GANは、判別器におけるLD_fakeと同じであり、異なるのは、生成器は当該値を最大化して判別器で真偽を判別できないようにすることを目的とすることに対して、判別器は、当該値を最小化して、合成画像を正確に判別することを目的とする。また、合成画像Fを実画像Rにより近づけるために、生成器では、下記式1-2に示すように、L1損失も採用されている。
【0145】
【数2】
【0146】
ここで、LG_L1は、L1損失に対応する損失値を表す。
【0147】
また、特徴面において、合成画像及び実画像は拘束され、例えば、合成画像及び実画像をそれぞれVGG19ネットワークに入力し、次に、下記式1-3に示すように、L1損失を利用して、5つの活性層で両者により出力された特徴マップの差異をそれぞれ算出し、線形重み付けを行って、最終的な損失LG_VGGを得る。
【0148】
【数3】
【0149】
ここで、Relufi及びReluriは、それぞれi番目の活性化層における合成画像及び実画像の特徴マップを表す。
【0150】
上記の損失は、各フレームに基づいて個別に算出し、フレーム間に拘束されていないため、最終的な合成ビデオに滑らかではない問題又はブレが生じる。そのため、本願の実施例は、前後フレーム類似度損失LG_Smiをさらに取り入れ、合成ビデオにおける前後の2フレームと実際のビデオとの差異を低減する。引き続き図8参照すると、合成されるtフレームについては、まず、合成しようとするtフレームとt-1フレームとの差異を算出して、dfakeと記し、同様に、実際のビデオにおけるtフレームとt-1フレームとの差異を算出して、drealと記し、LG_Smiの目的は、dfakeとdrealとの差、即ち、min[L(dfake,dreal)]を減らすことである。
【0151】
この場合、生成器(即ち、画像レンダリングモデル)の最終的な損失関数Lは、下記式1-4になる。
【0152】
【数4】
【0153】
ここで、α、β、及びγは、いずれもハイパーパラメータである。
【0154】
本願の実施例によって提供される方法は、他の関連技術における仮想人物同期発話ビデオ生成アルゴリズムと比較して、時間的により滑らかでリアルな結果を合成することができる。ここで、図14は、関連技術における方法により合成された仮想人物同期発話ビデオであり、図14に示すように、合成されたビデオフレームの間は、滑らかでなく、リアルでない場合が多く、ビデオフレーム1401の画面とビデオフレーム1402の画面は連続しない場合がある。
【0155】
これに対して、本願の実施例は、2Dと3D顔パラメータとを結合し、前後フレーム類似度損失を取り入れることにより、上記の課題を解決し、生成された最終的な合成ビデオの効果は、図15に示すように、左から右へ、上から下への順に連続する10フレームのビデオフレームである。図15から分かるように、本願の実施例で生成された合成ビデオは、より滑らかで、よりリアルで、視覚的効果がより良い。
【0156】
なお、本願の実施例の方法は、テキスト駆動方法に属し、成熟したTTS技術を組み合わせることによって、1セグメントのテキスト及び任意のセグメントの目標人物ビデオが与えられると、目標人物発話ビデオを生成することができる。本願の実施例の典型的な適用シーンは、近年出現したAI教育業界を含み、従来の音声駆動による仮想教師の生成方案とは異なり、本願の実施例は、入力に対する要求を、テキスト又は音声に拡張し、ユーザの体感をさらに向上させることができる。
【0157】
いくつかの実施例では、上記の音声から顔パラメータへの変換ネットワークにおいて、DeepSpeechを利用して抽出した音声特徴は、1つの畳み込みニューラルネットワークを採用して顔パラメータを予測する。しかしながら、当該モジュールについて、本願の実施例は、深層畳み込みネットワークのモデル種類を限定するものではなく、例えば、畳み込みニューラルネットワークの代わりに再帰型ニューラルネットワーク又は敵対的生成ネットワークを使用することもでき、実際の適用又は製品の精度や効率に対する要件に応じて選択することができる。同様に、画像レンダリングモデルにおける2つのレンダリングネットワークは、U-Net構造だけでなく、砂時計ネットワークなどの他のエンコード/デコード構造も採用することができる。
【0158】
以下では、本願の実施例による目標対象の動作駆動装置354が、ソフトウェアモジュールとして実装される例示的な構造について引き続き説明する。いくつかの実施例では、図3に示すように、メモリ350に記憶された目標対象の動作駆動装置354におけるソフトウェアモジュールは、サーバ300内の目標対象の動作駆動装置であり得、前記装置は、
ソース音声を取得し、目標ビデオを取得するように構成される取得モジュール3541であって、前記目標ビデオに目標対象が含まれる、取得モジュール3541と、各時刻における前記ソース音声の音声パラメータに対して顔パラメータ変換処理を行い、対応する時刻における前記ソース音声のソースパラメータを得るように構成される顔パラメータ変換モジュール3542と、前記目標ビデオに対してパラメータ抽出処理を行い、前記目標ビデオの目標パラメータを得るように構成されるパラメータ抽出モジュール3543と、前記ソースパラメータと前記目標パラメータとを結合して得られた結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、再構成画像を得るように構成される画像再構成モジュール3544と、前記再構成画像によって合成ビデオを生成するように構成される生成モジュール3545と、を備え、ここで、前記合成ビデオに前記目標対象が含まれ、且つ前記目標対象の動作は前記ソース音声に対応する。
【0159】
いくつかの実施例では、前記取得モジュール3541はさらに、ソーステキストを取得し、前記ソーステキストに対してテキスト解析処理を行い、前記ソーステキストの言語学的特徴を得、前記言語学的特徴に対して音響学的パラメータ抽出処理を行い、時間領域における前記ソーステキストの音響学的パラメータを得、前記音響学的パラメータに対して変換処理を行い、周波数領域における前記ソーステキストの音声波形を得、前記音声波形に対応する音声を前記ソース音声とするように構成される。
【0160】
いくつかの実施例では、前記ソースパラメータは、表情パラメータ及び口キーポイントパラメータを含み、前記顔パラメータ変換モジュール3542はさらに、任意の時刻における前記ソース音声の音声パラメータに対して、前記音声パラメータに対して特徴抽出処理を行い、前記ソース音声の音声特徴ベクトルを得る処理と、前記音声特徴ベクトルに対して畳み込み処理及び完全接続処理を順次に行い、前記時刻における前記ソース音声の前記表情パラメータ及び前記口キーポイントパラメータを得る処理と、を実行するように構成される。
【0161】
いくつかの実施例では、前記顔パラメータ変換モジュール3542はさらに、特定の畳み込みコアを含む少なくとも2層の第1畳み込み層によって、前記音声特徴ベクトルに対して前記畳み込み処理を行い、畳み込み処理ベクトルを得、少なくとも2層の完全接続層によって前記畳み込み処理ベクトルに対して前記完全接続処理を行い、完全接続処理ベクトルを得るように構成され、ここで、前記完全接続処理ベクトルに、前記表情パラメータに対応するベクトル及び前記口キーポイントパラメータに対応するベクトルが含まれ、前記表情パラメータに対応するベクトルと前記口キーポイントパラメータに対応するベクトルとの次元の和は、前記完全接続処理ベクトルの次元に等しい。
【0162】
いくつかの実施例では、前記目標パラメータは、目標口キーポイントパラメータ及び前記目標顔パラメータを含み、前記パラメータ抽出モジュール3543はさらに、前記目標ビデオ内の前記目標対象に対して口パラメータ抽出処理を行い、前記目標口キーポイントパラメータを得、前記目標ビデオ内の前記目標対象に対して顔パラメータ抽出処理を行い、前記目標顔パラメータを得るように構成される。
【0163】
いくつかの実施例では、前記画像再構成モジュール3544はさらに、前記ソースパラメータ及び前記目標パラメータに対して結合処理を行い、前記結合パラメータを得、前記結合パラメータに基づいて、前記目標ビデオ内の目標対象に対して画像再構成処理を行い、口輪郭図及び顔座標マッピングマップを得、前記口輪郭図及び前記顔座標マッピングマップを、前記再構成画像とするように構成される。
【0164】
いくつかの実施例では、前記ソースパラメータは、表情パラメータ及び口キーポイントパラメータを含み、前記目標パラメータは、目標口キーポイントパラメータ及び目標顔パラメータを含み、前記目標顔パラメータは、目標姿勢パラメータ、目標形状パラメータ、及び目標表情パラメータを含み、前記画像再構成モジュール3544はさらに、前記目標顔パラメータ内の前記目標表情パラメータを前記表情パラメータに置き換えることによって、置き換えられた顔パラメータを得、前記目標口キーポイントパラメータを前記口キーポイントパラメータに置き換えることによって、置き換えられた口キーポイントパラメータを得、前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータを、前記結合パラメータとするように構成される。
【0165】
いくつかの実施例では、前記再構成画像は、前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータを含み、前記生成モジュール3545はさらに、各時刻の前記置き換えられた顔パラメータ、前記置き換えられた口キーポイントパラメータ、及び前記目標ビデオに対応する背景画像に基づいて、画像レンダリングモデルを呼び出し、前記画像レンダリングモデルにおける第1レンダリングネットワークによって、各時刻の前記置き換えられた顔パラメータ及び各時刻の前記置き換えられた口キーポイントパラメータに対して口形領域レンダリングを行い、各時刻の口形領域テクスチャ画像を得、前記画像レンダリングモデルにおける第2レンダリングネットワークによって、前記各時刻の口形領域テクスチャ画像及び前記背景画像に対してスティッチング処理を行い、各時刻の合成画像を得、前記各時刻の合成画像に基づいて、前記目標対象及び前記ソース音声を含む前記合成ビデオを決定するように構成される。
【0166】
いくつかの実施例では、前記第1レンダリングネットワークは、少なくとも1層の第2畳み込み層、少なくとも1層の第1ダウンサンプリング層、及び少なくとも1層の第1アップサンプリング層を含み、前記生成モジュール3545はさらに、前記第2畳み込み層及び前記第1ダウンサンプリング層によって、前記置き換えられた顔パラメータ及び前記置き換えられた口キーポイントパラメータに対して畳み込み処理及びダウンサンプリング処理を行い、前記再構成画像の深度特徴を得、前記第1アップサンプリング層によって、前記再構成画像の深度特徴に対してアップサンプリング処理を行い、前記口形領域テクスチャ画像を得るように構成される。
【0167】
いくつかの実施例では、前記第2レンダリングネットワークは、少なくとも1層の第3畳み込み層、少なくとも1層の第2ダウンサンプリング層、及び少なくとも1層の第2アップサンプリング層を含み、前記生成モジュール3545はさらに、前記第3畳み込み層及び前記第2ダウンサンプリング層によって、前記口形領域テクスチャ画像及び前記背景画像に対して、畳み込み処理及びダウンサンプリング処理を行い、前記口形領域テクスチャ画像及び前記背景画像の深度特徴を得、前記第2アップサンプリング層によって、前記深度特徴に対してアップサンプリング処理を行い、各時刻の合成画像を得るように構成される。
【0168】
いくつかの実施例では、前記画像レンダリングモデルは、再構成画像サンプル及び目標画像サンプルに基づいて、前記画像レンダリングモデルを呼び出すステップと、前記画像レンダリングモデルの第1レンダリングネットワークによって、前記再構成画像サンプル及び前記目標画像サンプルに対して、特徴抽出処理及び口形領域レンダリングを行い、口形テクスチャ画像サンプルを得るステップと、前記画像レンダリングモデルにおける第2レンダリングネットワークによって、前記口形テクスチャ画像サンプル及び前記目標画像サンプルに対してスティッチング処理を行い、合成画像サンプルを得るステップと、前記合成画像サンプルに基づいて所定の損失モデルを呼び出して、損失結果を得るステップと、前記損失結果に基づいて、前記第1レンダリングネットワーク及び前記第2レンダリングネットワークにおけるパラメータを補正して、トレーニングされた前記画像レンダリングモデルを得るステップと、によってトレーニングされる。
【0169】
いくつかの実施例では、前記画像レンダリングモデルは、前記再構成画像サンプル及び前記目標画像サンプルに対応する実合成画像を得るステップと、前記合成画像サンプルと前記実合成画像とをスティッチングしてから、前記所定の損失モデルに入力し、前記所定の損失モデルによって、前記合成画像サンプル及び前記実合成画像に対して前後フレーム類似度損失の算出を行い、前記損失結果を得るステップと、によってトレーニングされる。
【0170】
なお、本願の実施例における装置の説明は、上記の方法の実施例に関する説明と類似しており、方法の実施例と類似した有益な効果を有するするため、ここでは繰り返して説明しない。本装置の実施例に開示されていない技術的詳細については、本願の方法の実施例の説明を参照することによって理解できる。
【0171】
本願の実施例は、コンピュータ命令を含む、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。コンピュータ機器のプロセッサは、コンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサは当該コンピュータ命令を実行することにより、当該コンピュータ機器に、上記の方法の実施例を実行させる。
【0172】
本願の実施例は、実行可能命令が記憶された記憶媒体をさらに提供し、実行可能命令はプロセッサに、本願の実施例によって提供される方法、例えば、図4に示す方法を実行させる。
【0173】
いくつかの実施例では、記憶媒体は、コンピュータ可読記憶媒体であり得、例えば、強誘電体メモリ(FRAM:Ferromagnetic Random Access Memory)、読み取り専用メモリ(ROM:Read Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable Read Only Memory)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read Only Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ、磁気メモリ、光ディスク、又は読み取り専用コンパクトディスク(CD-ROM:Compact Disk-Read Only Memory)などのメモリであってもよいし、メモリの1つ又は任意の組み合わせを含む様々なデバイスであってもよい。
【0174】
いくつかの実施例では、実行可能命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又はコードの形式を採用して、任意の形式のプログラミング言語(コンパイル言語又は解釈言語、宣言言語又はプロシージャ言語を含む)で記述することができ、独立したプログラム、又はモジュール、コンポーネント、サブルーチン、又はコンピューティング環境で使用するのに適した他のユニットを含む、任意の形式で配置することができる。
【0175】
一例として、実行可能命令は、必ずしもファイルシステム内のファイルに対応するものではなく、他のプログラム又はデータを保持するファイルの一部、例えば、ハイパーテキストマークアップ言語(HTML:Hyper Text Markup Language)ドキュメント内の1つ又は複数のスクリプト内に記憶され、議論されるプログラム専用の単一ファイル内に記憶され、又は複数の共同ファイル(1つ又は複数のモジュール、サブルーチン、又はコード部分を記憶するファイルなど)内に記憶されていてもよい。一例として、実行可能命令は、1つのコンピュータ機器上で実行されるように配置されてもよいし、1つの地点に位置する複数のコンピュータ機器上で実行されるように配置されてもよいし、又は、複数の地点に分散して通信ネットワークによって相互接続されている複数のコンピュータ機器上で実行されるようにしてもよい。
【0176】
上記は、本願の実施例に過ぎず、本願の保護範囲を限定するものではない。本願の精神的及び範囲内で行われるあらゆる修正、同等の置換及び改善などは、本願の保護範囲内に含まれるものとする。
【符号の説明】
【0177】
11 汎用ネットワーク(Generalized Network)
111 音声セグメント
113 畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)
114 音声表情空間(Latent Audio Expression Space)
12 専門ネットワーク(Specialized Network)
121 コンテンツ感知フィルタ(Content-Aware Filtering)
122 滑らかな音声-表情パラメータ(Smooth Audio- Expressions)
123 再構成された3D顔モデル(3D Model)
124 UV Map 124
125 背景画像
126 ニューラルレンダリングネットワーク(Neural Rendering Network)
127 最終的な出力画像
20 目標対象の動作駆動システム
100 端末
100-1 インターフェース
200 ネットワーク
300 サーバ
310 プロセッサ
320 ネットワークインターフェース
330 ユーザインターフェース
332 入力装置
340 バスシステム
350 メモリ
351 オペレーティングシステム 352 ネットワーク通信モジュール
353 入力処理モジュール
354 目標対象の動作駆動装置
3541 取得モジュール
3542 顔パラメータ変換モジュール
3543 パラメータ抽出モジュール
3544 画像再構成モジュール
3545 生成モジュール
801 ソーステキスト
802 ソース音声
803 テキストから音声への変換モジュール
804 音声から顔パラメータへの変換ネットワーク
805 顔パラメータ抽出モジュール
806 顔モデル
8061 UV Map
8062 口キーポイント
807 画像レンダリングモデル
808 最終的な出力画像
901 テキスト分析モジュール
902 音響学的モデルモジュール
903 ボコーダモジュール
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11
図12
図13
図14
図15