IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2025-9930口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス
<>
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図1
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図2
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図3
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図4
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図5
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図6
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図7
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図8
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図9
  • 特開-口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2025009930
(43)【公開日】2025-01-20
(54)【発明の名称】口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイス
(51)【国際特許分類】
   G06T 13/20 20110101AFI20250109BHJP
   G10L 15/10 20060101ALI20250109BHJP
   G10L 15/22 20060101ALI20250109BHJP
【FI】
G06T13/20 500
G10L15/10 500Z
G10L15/10 500T
G10L15/22 460Z
【審査請求】有
【請求項の数】22
【出願形態】OL
【外国語出願】
【公開請求】
(21)【出願番号】P 2024099687
(22)【出願日】2024-06-20
(31)【優先権主張番号】202311040269.8
(32)【優先日】2023-08-17
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(74)【代理人】
【識別番号】100108213
【弁理士】
【氏名又は名称】阿部 豊隆
(72)【発明者】
【氏名】ファン,シャルイ
(72)【発明者】
【氏名】ザオ,ヤフェイ
(72)【発明者】
【氏名】ドゥ,ゾンカイ
(72)【発明者】
【氏名】チェン,イー
(72)【発明者】
【氏名】ワン,ジーチャン
(57)【要約】
【課題】 本開示は、口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【解決手段】 本開示は、人工知能の分野に関し、特にクラウドコンピューティング及びデジタルヒューマンの分野に関する。具体的な実現案は、認識対象オーディオデータ及び予め設定された顔画像を取得し、前記認識対象オーディオデータのオーディオ特徴を決定し、前記オーディオ特徴は、話速特徴及び意味特徴を含み、前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。オーディオデータの意味特徴及び話速特徴を組み合わせることにより、任意の話速で、顔画像における口型を正確に駆動することをサポートし、顔画像の決定精度を向上させる。
【選択図】図1
【特許請求の範囲】
【請求項1】
口型に基づく顔画像を生成する方法であって、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む、
口型に基づく顔画像を生成する方法。
【請求項2】
前記認識対象オーディオデータのオーディオ特徴を決定することは、
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することであって、前記第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる、ことと、
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することであって、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる、ことと、を含む、
請求項1に記載の方法。
【請求項3】
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することと、を含む、
請求項2に記載の方法。
【請求項4】
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、を含む、
請求項3に記載の方法。
【請求項5】
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することは、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、を含む、
請求項2~4のいずれか1項に記載の方法。
【請求項6】
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することは、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成すること、を含む、
請求項1~5のいずれか1項に記載の方法。
【請求項7】
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることであって、前記結合特徴は、話速特徴及び意味特徴を表す、ことと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項6に記載の方法。
【請求項8】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項7に記載の方法。
【請求項9】
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成すること、をさらに含む、
請求項1~8のいずれか1項に記載の方法。
【請求項10】
顔口型決定モデルをトレーニングする方法であって、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む、
顔口型決定モデルをトレーニングする方法。
【請求項11】
前記トレーニング対象オーディオデータのオーディオ特徴を決定することは、
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することであって、前記第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる、ことと、
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することであって、前記第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる、ことと、を含む、
請求項10に記載の方法。
【請求項12】
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することは、
前記トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの音声事後確率特徴を得ることであって、前記音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することと、を含む、
請求項11に記載の方法。
【請求項13】
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記トレーニング対象オーディオデータの話速特徴を得ることと、を含む、
請求項12に記載の方法。
【請求項14】
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することは、
前記トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの意味特徴を出力して得ること、を含む、
請求項11~13のいずれか1項に記載の方法。
【請求項15】
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることは、
前記初期の顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記トレーニング対象オーディオデータの結合特徴を得ることであって、前記結合特徴は、話速特徴及び意味特徴を表す、ことと、
前記初期の顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることと、を含む、
請求項10~14のいずれか1項に記載の方法。
【請求項16】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項15に記載の方法。
【請求項17】
トレーニング対象画像データを取得することは、
前記トレーニング対象オーディオデータを取得することと、
前記トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることと、
前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、前記トレーニング対象顔画像を得ることと、を含む、
請求項10~16のいずれか1項に記載の方法。
【請求項18】
口型に基づく顔画像を生成する装置であって、
認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられるデータ取得ユニットと、
前記認識対象オーディオデータのオーディオ特徴を決定することに用いられる特徴決定ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴決定ユニットと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる画像生成ユニットと、を含む、
口型に基づく顔画像を生成する装置。
【請求項19】
前記特徴決定ユニットは、
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられる第1の決定モジュールであって、前記第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる、第1の決定モジュールと、
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することに用いられる第2の決定モジュールであって、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる、第2の決定モジュールと、を含む、
請求項18に記載の装置。
【請求項20】
前記第1の決定モジュールは、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることに用いられる特徴抽出サブモジュールであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、特徴抽出サブモジュールと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられる特徴決定サブモジュールと、を含む、
請求項19に記載の装置。
【請求項21】
前記特徴決定サブモジュールは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、に用いられる、
請求項20に記載の装置。
【請求項22】
前記第2の決定モジュールは、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、に用いられる、
請求項19~21のいずれか1項に記載の装置。
【請求項23】
前記画像生成ユニットは、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することに用いられる画像生成モジュール、を含む、
請求項18~22のいずれか1項に記載の装置。
【請求項24】
前記画像生成モジュールは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることに用いられる特徴結合サブモジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合サブモジュールと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定サブモジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定サブモジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む、
請求項23に記載の装置。
【請求項25】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記画像レンダリングサブモジュールは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、に用いられる、
請求項23に記載の装置。
【請求項26】
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる意味処理ユニット、をさらに含む、
請求項18~25のいずれか1項に記載の装置。
【請求項27】
顔口型決定モデルをトレーニングする装置であって、
トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられる画像取得ユニットであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、画像取得ユニットと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられる特徴抽出ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴抽出ユニットと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられるモデルトレーニングユニットと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられるモデル取得ユニットと、を含む、
顔口型決定モデルをトレーニングする装置。
【請求項28】
前記特徴抽出ユニットは、
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる第1の抽出モジュールであって、前記第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる、第1の抽出モジュールと、
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することに用いられる第2の抽出モジュールであって、前記第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる、第2の抽出モジュールと、を含む、
請求項27に記載の装置。
【請求項29】
前記第1の抽出モジュールは、
前記トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの音声事後確率特徴を得ることに用いられる確率決定サブモジュールであって、前記音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、確率決定サブモジュールと、
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる話速決定サブモジュールと、を含む、
請求項28に記載の装置。
【請求項30】
前記話速決定サブモジュールは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記トレーニング対象オーディオデータの話速特徴を得ることと、に用いられる、
請求項29に記載の装置。
【請求項31】
前記第2の抽出モジュールは、
前記トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの意味特徴を出力して得ること、に用いられる、
請求項28~30のいずれか1項に記載の装置。
【請求項32】
前記モデルトレーニングユニットは、
前記初期の顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記トレーニング対象オーディオデータの結合特徴を得ることに用いられる特徴結合モジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合モジュールと、
前記初期の顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定モジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る画像レンダリングモジュールと、を含む、
請求項27~31のいずれか1項に記載の装置。
【請求項33】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記画像レンダリングモジュールは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することに用いられるデータ決定サブモジュールであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、データ決定サブモジュールと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む、
請求項32に記載の装置。
【請求項34】
前記画像取得ユニットは、
前記トレーニング対象オーディオデータを取得することに用いられるデータ取得モジュールと、
前記トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることに用いられる3次元再構成モジュールと、
前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、前記トレーニング対象顔画像を得ることに用いられる画像取得モジュールと、を含む、
請求項27~33のいずれか1項に記載の装置。
【請求項35】
電子機器であって、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、請求項1~9又は請求項10~17のいずれか一項に記載の方法を実行させることができる、電子機器。
【請求項36】
コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~9又は請求項10~17のいずれか一項に記載の方法を実行させるためのものである、非一時的なコンピュータ可読記憶媒体。
【請求項37】
コンピュータプログラム製品であって、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1~9又は請求項10~17のいずれか一項に記載の方法のステップが実現される、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の分野におけるクラウドコンピューティング及びデジタルヒューマンの分野に関し、特に口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスに関する。
【背景技術】
【0002】
人工知能技術の急速な発展に伴い、デジタルヒューマン応用は現在の研究の主流となっている。デジタルヒューマンの顔は音声によって変化することができ、例えば、デジタルヒューマンの顔画像における表情や口型などは音声によって変化することができる。
【0003】
デジタルヒューマン応用における核心技術の1つは顔の口型をオーディオで駆動する技術であり、どのように顔画像における口型をオーディオデータに正確に一致させるかは早急に解決すべき技術的難題である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様によれば、口型に基づく顔画像を生成する方法を提供し、この口型に基づく顔画像を生成する方法は、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む。
【0006】
本開示の第2の態様によれば、顔口型決定モデルをトレーニングする方法を提供し、この顔口型決定モデルをトレーニングする方法は、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む。
【0007】
本開示の第3の態様によれば、口型に基づく顔画像を生成する装置を提供し、この口型に基づく顔画像を生成する装置は、
認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられるデータ取得ユニットと、
前記認識対象オーディオデータのオーディオ特徴を決定することに用いられる特徴決定ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴決定ユニットと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる画像生成ユニットと、を含む。
【0008】
本開示の第4の態様によれば、顔口型決定モデルをトレーニングする装置を提供し、この顔口型決定モデルをトレーニングする装置は、
トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられる画像取得ユニットであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、画像取得ユニットと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられる特徴抽出ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴抽出ユニットと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられるモデルトレーニングユニットと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられるモデル取得ユニットと、を含む。
【0009】
本開示の第5の態様によれば、電子機器を提供し、この電子機器は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、本開示の第1の態様及び第2の態様に記載の方法を実行させることができる。
【0010】
本開示の第6の態様によれば、コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに本開示の第1の態様及び第2の態様に記載の方法を実行させるためのものである。
【0011】
本開示の第7の態様によれば、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、コンピュータプログラムを含み、前記コンピュータプログラムがプロセッサによって実行されるときに、本開示の第1の態様及び第2の態様に記載の方法が実現される。
【0012】
本開示の技術により、口型に基づく顔画像の生成精度を向上させる。
【0013】
理解すべきものとして、本明細書に記載された内容は、本開示の実施例の肝心な又は重要な特徴を決定することを意図するものではなく、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の明細書により容易に理解される。
【図面の簡単な説明】
【0014】
図面は、本案をよりよく理解することに用いられ、本開示を限定するものではない。ここで、
図1】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図2】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図3】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図4】本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートである。
図5】本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートである。
図6】本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。
図7】本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。
図8】本開示の実施例によって提供される顔口型決定モデルをトレーニングする装置の構成図である。
図9】本開示の実施例による口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実現するための電子機器のブロック図である。
図10】本開示の実施例による口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本開示の例示的な実施例を説明し、本開示の実施例の様々な詳細が理解を容易にするために含まれていることが、それらは単なる例示的なものと考えられるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、以下の説明では、明瞭かつ簡潔にするため、周知の機能及び構造についての説明は省略される。
【0016】
現在のデジタルヒューマン応用において、1つの核心技術は顔の口型をオーディオで駆動することであり、即ちオーディオデータを通じて顔画像における口型を変化させ、顔画像における口型をオーディオデータに適合させる。そのため、よりリアルで正確な顔口型の駆動をどのようにするかは、早急に解決すべき技術的課題である。
【0017】
従来の口型に基づく顔画像を生成する方法では、話速の変化を処理することが難しく、オーディオデータの話速が口型に大きな影響を与える。同じ文を異なる話速で話す場合、対応する口型は全く異なる可能性がある。話速が遅い場合、各字の口型を発音と完全に揃えることができる。しかし、話速が速いになる場合、顔画像における口型は等比率で加速するわけではなく、1つの口型を完成するのに間に合わないと次の字の発音が必要になる可能性がある。これにより、多くの字の口型が変化し、「字漏れ」や「連読」などの様々な現象が現れ、多くの口型が失われ、融合したり、簡略化されたりして、顔画像の生成精度に影響を与える。
【0018】
本開示は、口型を有する顔画像の生成精度を向上させるために、人工知能の分野におけるクラウドコンピューティング及びデジタルヒューマンの分野に適用される口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【0019】
説明する必要があるのは、本実施例におけるモデルは、特定のユーザを対象としたものではなく、特定のユーザの個人情報を反映するものではない。なお、本実施例における顔画像は、公開されたデータセットからのものである。
【0020】
本開示の技術案において、関連するユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び公開などの処理は、すべて関連する法律法規の規定に合致し、かつ公序良俗に違反しない。
【0021】
読者が本開示の実現原理をより深く理解するために、以下の図1図10を参照して実施例をさらに細分化する。
【0022】
図1は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この方法は口型に基づく顔画像を生成する装置によって実行されることができる。図1に示すように、この方法は以下のステップを含む。
【0023】
S101、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0024】
例示的には、デジタルヒューマンの顔を予め設計し、例えば、デジタルヒューマンの顔の形、目、鼻、口などを設計し、予め設定された顔画像を生成することができる。デジタルヒューマンは、予め設定された顔画像に基づいて口型を変化させることができ、例えば、予め設定された顔画像では、デジタルヒューマンの口は閉じた状態であり、デジタルヒューマンの口型はオーディオデータの送信に伴って変化することができる。
【0025】
認識対象オーディオデータは、予め準備されたオーディオデータであり、デジタルヒューマンの顔画像において、口型が認識対象オーディオデータに応じて変化する必要がある。予め設定された認識対象オーディオデータ及び予め設定された顔画像を取得する。認識対象オーディオデータはオーディオストリームであり、予め設定された顔画像は2次元又は3次元画像であってもよい。
【0026】
S102、認識対象オーディオデータのオーディオ特徴を決定し、オーディオ特徴は、話速特徴及び意味特徴を含む。
【0027】
例示的には、認識対象オーディオデータを取得した後、認識対象オーディオデータに対して特徴抽出を行い、認識対象オーディオデータのオーディオ特徴を得る。オーディオ特徴は、話速特徴及び意味特徴などを含むことができる。話速特徴は、認識対象オーディオデータにおける音素の変化速度を表すことに用いられることができ、例えば、話速特徴は、1秒内に出力される音素の数として表すことができ、即ち、認識対象オーディオデータにおける音素の数及び認識対象オーディオデータの時間を決定することができ、認識対象オーディオデータの時間を音素の数で割り、認識対象オーディオデータの話速の大きさを、話速特徴として得る。本実施例では、認識対象オーディオデータの平均的な話速特徴を決定してもよいし、認識対象オーディオデータの異なる音素に対応する話速特徴を決定してもよい。
【0028】
意味特徴は、認識対象オーディオデータにおける音素によって表現される意味を表すことに用いられることができる。認識対象オーディオデータには複数の音素が含まれていてもよく、認識対象オーディオデータに対して、各音素の意味特徴を決定することができる。即ち、認識対象オーディオデータに対して音素の分割を行い、認識対象オーディオデータにおける各音素を得て、音素に対して意味認識を行い、意味特徴を決定することができる。例えば、予め設定された意味認識モデルを用いて意味認識を行うことができ、意味認識モデルはニューラルネットワークモデルであることができる。音素と意味との関連関係を予め設定し、予め設定された関連関係に基づいて、認識対象オーディオデータの意味特徴として、認識対象オーディオデータにおける各音素の意味特徴を検索することもできる。
【0029】
S103、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。
【0030】
例示的には、話速特徴及び意味特徴を得た後、話速特徴及び意味特徴に基づいて、予め設定された顔画像に対して処理を行い、予め設定された顔画像における口型の変化を制御し、口型を有する顔画像を得ることができる。例えば、認識対象オーディオデータが発する音が「あ」であれば、顔画像での口型は「あ」の口型になる。本実施例では、意味特徴及び話速特徴に基づいて顔画像における口型を決定し、認識対象オーディオデータに対応する複数の顔画像を得ることができる。複数の顔画像に基づいて、認識対象オーディオデータの顔ビデオを決定することもできる。
【0031】
口型と話速特徴との関連関係、口型と意味特徴との関連関係を予め設定してもよいし、口型と話速特徴と意味特徴との関連関係を予め設定してもよい。予め設定された関連関係に基づいて、話速特徴及び意味特徴に対応する口型を決定し、口型を有する顔画像を生成する。口型を決定するためのニューラルネットワークモデルを予めトレーニングし、話速特徴及び意味特徴を入力データとして、このニューラルネットワークモデルに入力し、口型を有する顔画像を出力することもできる。
【0032】
本実施例において、この方法は、認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することをさらに含む。
【0033】
具体的には、話速が遅い場合、各字の口型を発音と完全に揃えることができる。しかし、話速が速いになる場合、1つの口型を完成するのに間に合わないと次の字の発音が必要になる可能性があり、多くの口型の欠落、融合、簡略化などが発生する。
【0034】
話速閾値は予め設定されており、話速特徴が得られた後、話速特徴によって表す値と予め設定された話速閾値とを比較することができる。認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値以上であると決定した場合、話速が速いことを示し、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することができる。
【0035】
認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、認識対象オーディオデータの話速が遅いことが判定され、意味特徴のみで予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することができる。例えば、意味特徴のみを予め設定されたニューラルネットワークモデルの入力データとして、意味特徴を畳み込むなどの処理を行い、顔画像に対して処理を行う際の計算量を減らすことができる。
【0036】
このような設定の有益な効果は、認識対象オーディオデータの話速が遅い場合、意味特徴だけに基づいても正確な口型を得ることができ、計算量を減らし、顔画像の生成効率を向上させることができる。
【0037】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型を認識対象オーディオデータと一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0038】
図2は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0039】
本実施例では、認識対象オーディオデータのオーディオ特徴を決定することは、次のように細分化することができ、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられ、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0040】
図2に示すように、この方法は、以下のステップを含む。
【0041】
S201、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0042】
例示的には、本ステップは、上記のステップS101を参照することができ、これ以上説明しない。
【0043】
S202、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる。
【0044】
例示的には、認識対象オーディオデータから話速特徴を抽出するために予め決定されたニューラルネットワークモデルであることができる第1の特徴抽出モデルが予め設定されている。認識対象オーディオデータを第1の特徴抽出モデルに入力して処理し、認識対象オーディオデータの話速特徴を得る。例えば、第1の特徴抽出モデルには畳み込み層、プール化層などのネットワーク層が含まれていることができ、認識対象オーディオデータに対して畳み込み処理及び特徴抽出を行い、認識対象オーディオデータの話速特徴を得ることができる。本実施例では、第1の特徴抽出モデルのネットワーク構造については特に限定しない。
【0045】
本実施例では、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定することは、認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、認識対象オーディオデータの音声事後確率特徴を得ることであって、音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、認識対象オーディオデータの音声事後確率特徴に基づいて、認識対象オーディオデータの話速特徴を決定することと、を含む。
【0046】
具体的には、第1の特徴抽出モデルはASR(Automatic Speech Recognition、自動音声認識)モデルであってもよく、ASRモデルは多層のネットワーク層を含んでもよく、例えば、畳み込み層、プール化層及び全接続層を含んでもよい。認識対象オーディオデータを予め決定されたASRモデルに入力して特徴抽出を行い、例えば、畳み込み層によって特徴抽出を行い、認識対象オーディオデータのPPG(Phonetic Posterioram、音声事後確率)特徴を得ることができる。PPG特徴は、1つの発話の各特定の時間フレームに、各音声カテゴリの事後確率を表すことができるカテゴリに対する時間の行列である。PPG特徴は2次元座標軸の画像を用いて表現することができ、認識対象オーディオデータの音素カテゴリの情報を表し、横軸は時間を表し、縦軸は音素カテゴリを表す。
【0047】
PPG特徴を得た後、予め設定された話速決定アルゴリズムに基づいて、PPG特徴に対して計算を行い、PPG特徴を認識対象オーディオデータの話速特徴に変換することができる。音素の変化速度を計算し、話速の大きさとして、話速特徴の明示的なモデリングを実現することができる。本実施例では、予め設定された話速決定アルゴリズムについては特に限定しない。
【0048】
このような設定の有益な効果は、認識対象オーディオデータを自動音声認識モデルに入力して処理し、認識対象オーディオデータのPPG特徴を得、PPG特徴に対してさらに計算を行い、話速特徴を得ることである。話速の明示的なモデリングを実現し、それによって話速特徴を導入し、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させた。
【0049】
本実施例では、認識対象オーディオデータの音声事後確率特徴に基づいて、認識対象オーディオデータの話速特徴を決定することは、音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、認識対象オーディオデータの話速特徴を得ることと、を含む。
【0050】
具体的には、PPG特徴は時間領域の信号であり、認識対象オーディオデータのPPG特徴を得た後、PPG特徴に対して高速フーリエ変換処理を行うことができる。即ち、FFT(Fast Fourier Transform、高速フーリエ変換)により、PPG特徴を周波数領域に変換し、PPG特徴に対応する周波数領域信号特徴を得る。この周波数領域信号特徴を、認識対象オーディオデータの音素カテゴリの情報として表してもよい。
【0051】
周波数領域信号特徴を周波数帯域ごとに対して積分を行い、所望の周波数を話速サイズとして算出し、即ち認識対象オーディオデータの話速特徴を得る。話速特徴を計算する際には、周波数帯域サイズを予め設定することができ、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を分割し、複数の周波数帯域サイズの周波数領域信号特徴を得る。各周波数帯域サイズの周波数領域信号特徴に対して1つずつ積分処理を行い、積分結果を、認識対象オーディオデータにおける音素変化速度の体現、即ち話速特徴とすることができる。
【0052】
このような設定の有益な効果は、FFT処理及び積分計算を行うことにより、PPG特徴を具体的な話速の大きさに変換し、話速特徴の決定を実現し、それによって顔画像の生成精度を向上させることができることである。
【0053】
S203、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0054】
例示的には、第2の特徴抽出モデルは、予めトレーニングされたニューラルネットワークモデルであってもよく、例えば、第2の特徴抽出モデルは、予め設定された意味認識モデルである。第2の特徴抽出モデルには特徴抽出ネットワークが含まれ、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータに対して意味特徴の抽出を行い、認識対象オーディオデータの意味特徴を得ることができる。
【0055】
第1の特徴抽出モデル及び第2の特徴抽出モデルを通じて、話速特徴及び意味特徴を迅速に得ることができ、話速特徴及び意味特徴の別々の抽出を実現し、特徴抽出の効率を向上させ、さらに顔画像の生成効率を向上させることができる。
【0056】
本実施例では、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定することは、認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、認識対象オーディオデータの意味特徴を出力して得ること、を含む。
【0057】
具体的には、第2の特徴抽出モデルは意味認識モデルであってもよく、意味認識モデルは多層の畳み込み層などのネットワーク層を含んで、特徴抽出ネットワークを構成してもよい。認識対象オーディオデータを予め設定された意味認識モデルに入力して処理し、例えば、畳み込み層によって特徴抽出を行い、認識対象オーディオデータの意味特徴を得ることができる。認識対象オーディオデータはストリーミングデータであり、抽出される意味特徴はストリーミング特徴であってもよい。本実施例では、意味認識モデルのモデル構造については特に限定しない。
【0058】
このような設定の有益な効果は、入力されたオーディオストリームデータに対して意味特徴の自動抽出を行い、意味特徴の決定効率及び精度を向上させ、さらに顔画像の生成効率及び精度を向上させることである。
【0059】
S204、話速特徴及び意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。
【0060】
例示的には、本ステップは、上記のステップS103を参照することができ、これ以上説明しない。
【0061】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型と認識対象オーディオデータとを一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0062】
図3は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0063】
本実施例では、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することは、次のように細分化することができ、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0064】
図3に示すように、この方法は、以下のステップを含む。
【0065】
S301、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0066】
例示的には、本ステップは、上記のステップS101を参照することができ、これ以上説明しない。
【0067】
S302、認識対象オーディオデータのオーディオ特徴を決定し、前記オーディオ特徴は、話速特徴及び意味特徴を含む。
【0068】
例示的には、本ステップは、上記のステップS102を参照することができ、これ以上説明しない。
【0069】
S303、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0070】
例示的には、口型を有する顔画像を出力することに用いられることができるニューラルネットワークモデルである顔口型決定モデルが予め構築されて、トレーニングされた。話速特徴及び意味特徴を入力データとして、予め設定された顔口型決定モデルに入力して処理する。顔口型決定モデルは、処理を行った後、処理結果に基づいて、予め設定された顔画像に口型の変化を行い、口型を有する顔画像を得ることができる。例えば、顔口型決定モデルが話速特徴及び意味特徴に基づいて決定した処理結果は、口型の大きさ及び形状情報であってもよく、決定した口型の大きさ及び形状情報に基づいて、予め設定された顔画像をレンダリングし、その口型を含む顔画像を生成することができる。顔口型決定モデルを使用することにより、顔画像を迅速に得ることができ、話速特徴及び意味特徴の結合により、話速変化によるオーディオで駆動する顔口型の効果低下の問題を回避し、顔画像の生成効率及び精度を向上させることができる。
【0071】
本実施例では、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成することは、予め設定された顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行い、認識対象オーディオデータの結合特徴を得ることであって、結合特徴は、話速特徴及び意味特徴を表す、ことと、予め設定された顔口型決定モデルにおける畳み込み層に基づいて、結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0072】
具体的には、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力する。顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行うことができ、例えば、話速特徴が表す行列及び意味特徴が表す行列を組み合わせることができる。結合したデータを、認識対象オーディオデータの結合特徴として決定する。即ち、結合特徴は、話速特徴及び意味特徴を表すことができる。
【0073】
顔口型決定モデルには畳み込み層などのネットワーク層が設定され、結合特徴が顔口型決定モデルの畳み込み層を通過する時、畳み込み層に基づいて結合特徴に対して特徴抽出を行い、顔駆動パラメータを計算することができる。顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータである。例えば、顔駆動パラメータは、顔画像における口型を含むターゲットフレームの位置情報や大きさ情報などであってもよい。顔駆動パラメータを得た後、予め設定された顔画像に対して画像レンダリングを行い、予め設定された顔画像における口型を元の閉じた形から顔駆動パラメータに対応する形に変更し、口型を有する顔画像を得る。一部の認識対象オーディオデータについて、異なる口型を有する複数の顔画像を生成することができる。
【0074】
このような設定の有益な効果は、話速特徴及び意味特徴を結合させ、顔口型決定モデルの駆動ネットワークを通じて、顔口型を駆動するために必要なパラメータを得て、生成された顔画像における口型を認識対象オーディオデータに適合させ、顔画像における口型に対する話速の影響を減少させ、顔画像の生成効率及び精度を向上させることである。
【0075】
本実施例では、顔駆動パラメータは混合変形の重みパラメータであり、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することは、混合変形の重みパラメータに基づいて、予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、顔3次元メッシュデータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0076】
具体的には、顔駆動パラメータは、blend shape(混合変形)の重みであってもよく、顔口型決定モデルにおける駆動ネットワークによって、blend shapeの重みを得る。blend shapeの重みのパラメータに基づいて、予め設定されたレンダリングエンジンにより、予め設定された顔画像に基づいて、口型を有する顔画像を得ることができる。例えば、予め設定されたレンダリングエンジンはUnreal(アンリアル)レンダリングエンジンであってもよい。
【0077】
画像レンダリングを行う際には、まずblend shapeの重みに基づいて、顔の3次元mesh(メッシュ)データを決定することができる。顔3次元meshデータは、顔画像での顔表面の3次元メッシュモデルを表すためのデータであってもよい。blend shapeの重み及びblend shapeのベースに基づいて、顔3次元meshを決定することができる。ここで、blend shapeベースは人の画像のバインディングに関連しており、固定不変の予め決定されたパラメータである。顔3次元meshデータを得た後、顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る。
【0078】
このような設定の有益な効果は、まず、blend shapeの重みに基づいて顔3次元meshを得て、次に、顔3次元meshに基づいて顔画像を得ることである。顔画像の正確な生成を実現し、ユーザがデジタルヒューマンを体験するのに便利である。
【0079】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型と認識対象オーディオデータとを一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0080】
図4は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートであり、この方法は顔口型決定モジュールをトレーニングする装置によって実行されることができる。図4に示すように、この方法は以下のステップを含む。
【0081】
S401、トレーニング対象画像データ及び予め設定された顔画像を取得し、トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する。
【0082】
例示的には、口型を有する顔画像を決定する際に、深層学習に基づく顔口型決定モデルを使用することができる。顔口型決定モデルは、上記のいずれかの実施例に記載の顔画像を生成する方法を実現することができ、顔口型決定モデルは予めトレーニングされる必要があり、それから使用する。予め収集されたトレーニング対象画像データ及び予め設定された顔画像を取得する。トレーニング対象画像データには、トレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれてもよく、トレーニング対象オーディオデータはモデルをトレーニングするためのオーディオストリームであり、トレーニング対象顔画像はトレーニング対象オーディオデータに一致する口型を有する。
【0083】
予め設定された顔画像は、予め設計された口を有するデジタルヒューマンの顔画像であり、予め設定された顔画像には、目、鼻などの顔立ちも含むことができる。デジタルヒューマンの顔の形、目、鼻、口などを設計し、予め設定された顔画像を生成することができる。デジタルヒューマンは、予め設定された顔画像に基づいて口型を変化させることができ、例えば、予め設定された顔画像では、デジタルヒューマンの口は閉じた状態であり、デジタルヒューマンの口型はオーディオデータの送信に伴って変化することができる。トレーニング対象顔画像と予め設定された顔画像の違いは、口型の変化が発生したことである。
【0084】
本実施例では、トレーニング対象画像データを取得することは、トレーニング対象オーディオデータを取得することと、トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることと、トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、トレーニング対象顔画像を得ることと、を含む。
【0085】
具体的には、予め収集されたトレーニングセットを取得し、トレーニングセットはトレーニング対象オーディオデータであってもよい。トレーニング対象オーディオデータに基づいて、トレーニング対象顔画像を生成する。トレーニング対象顔画像には口型があり、トレーニング対象顔画像における口型はトレーニング対象オーディオデータに適合する。
【0086】
トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行うことができ、例えば、トレーニング対象オーディオデータの各音素に基づいて、各フレームの顔画像を3次元再構築を行う。本実施例では、3次元再構築の処理手順については特に限定しない。各フレームごとに顔3次元meshデータを決定することで、トレーニング対象オーディオデータに対応する複数フレームの顔3次元meshを得ることができる。トレーニング対象オーディオデータに対応する顔3次元meshに基づいて、複数フレームのトレーニング対象顔画像を得る。
【0087】
このような設定の有益な効果は、トレーニング対象オーディオデータに対応する顔画像を予め決定することは、顔口型決定モデルに対してトレーニングを行うことが容易になり、顔口型決定モデルのトレーニング効率及び精度を向上させることである。
【0088】
S402、トレーニング対象オーディオデータのオーディオ特徴を決定し、オーディオ特徴は、話速特徴及び意味特徴を含む。
【0089】
例示的には、トレーニング対象オーディオデータを得た後、トレーニング対象オーディオデータに対して特徴抽出を行い、トレーニング対象オーディオデータのオーディオ特徴を得る。オーディオ特徴は、話速特徴及び意味特徴などを含むことができる。話速特徴は、トレーニング対象オーディオデータにおける音素の変化速度を表すことに用いられることができ、例えば、話速特徴は、1秒内に出力される音素の数として表すことができ、即ち、トレーニング対象オーディオデータにおける音素の数及びトレーニング対象オーディオデータの時間を決定することができ、トレーニング対象オーディオデータの時間を音素の数で割り、トレーニング対象オーディオデータの話速の大きさを話速特徴として得る。本実施例では、トレーニング対象オーディオデータの平均的な話速特徴を決定してもよいし、トレーニング対象オーディオデータの異なる音素に対応する話速特徴を決定してもよい。
【0090】
意味特徴は、トレーニング対象オーディオデータによって表現される意味を表すことに用いられることができる。トレーニング対象オーディオデータには複数の音素が含まれていてもよく、トレーニング対象オーディオデータに対して、各音素の意味特徴を決定することができる。即ち、トレーニング対象オーディオデータに対して音素の分割を行い、トレーニング対象オーディオデータにおける各音素を得て、音素に対して意味認識を行い、意味特徴を決定することができる。例えば、予め設定された意味認識モデルを用いて意味認識を行うことができ、意味認識モデルはニューラルネットワークモデルであることができる。また、音素と意味との関連関係を予め設定し、予め設定された関連関係に基づいて、トレーニング対象オーディオデータの意味特徴として、トレーニング対象オーディオデータにおけるすべての音素の意味特徴を検索することもできる。
【0091】
S403、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得る。
【0092】
例示的には、トレーニング対象オーディオデータの話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力して反復トレーニングを行う。各反復ごとに、処理した結果と予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0093】
トレーニング対象顔口型決定モデルを予め構築し、話速特徴及び意味特徴を入力データとして、トレーニング対象顔口型決定モデルに入力して処理する。顔口型決定モデルは、処理を行った後、処理結果に基づいて、予め設定された顔画像に口型の変化を行い、異なる口型を有する顔画像を得ることができる。例えば、顔口型決定モデルが話速特徴及び意味特徴に基づいて決定した処理結果は、口型の大きさ及び形状情報であり、決定した口型の大きさ及び形状情報に基づいて、予め設定された顔画像をレンダリングし、その口型を含む顔画像を生成することができる。トレーニング対象オーディオデータには複数の音素が含まれており、各音素に対応する口型を有する顔画像を生成することができる。
【0094】
S404、口型を有する顔画像とトレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定する。
【0095】
例示的には、モデルから出力された口型を有する顔画像を得た後、音素に対応する口型を有する顔画像とその音素に対応するトレーニング対象顔画像とを比較し、両者が一致する場合、顔口型決定モデルのトレーニングが完了されることが判定され、両者が一致しない場合、顔口型決定モデルをトレーニングする必要があることが判定され、引き続き顔口型決定モデルにトレーニング対象オーディオデータの意味特徴及び話速特徴を入力し、出力された口型を有する顔画像が対応するトレーニング対象顔画像と一致するまで、予め設定された逆伝播アルゴリズムに基づいてトレーニングを行う。
【0096】
また、類似度閾値を予め設定してもよく、類似度閾値は、顔口型決定モデルのトレーニングが完了したかどうかを判定することに用いられることができる。口型を有する顔画像を得た後、口型を有する顔画像と対応するトレーニング対象顔画像との類似度を決定する。決定された類似度が予め設定された類似度閾値以上である場合、顔口型決定モデルのトレーニングが完了されることが判定され、類似度が予め設定された類似度閾値よりも小さい場合、顔口型決定モデルのトレーニングが完了されないことが判定される。
【0097】
本開示の実施例では、トレーニング対象オーディオデータ及びトレーニング対象顔画像を取得し、トレーニング対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、トレーニング対象顔口型決定モデルに対してトレーニングを行う。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、出力された顔画像における口型とトレーニング対象オーディオデータとをトレーニングすることによって一致させる。モデルに異なる話速が口型に与える影響を学習させ、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させ、後続に顔口型決定モデルを使用する際に、顔画像の決定精度を向上させるのに便利である。
【0098】
図5は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0099】
本実施例では、トレーニング対象オーディオデータのオーディオ特徴を決定することは、次のように細分化することができ、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられ、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる。
【0100】
図5に示すように、この方法は、以下のステップを含む。
【0101】
S501、トレーニング対象画像データ及び予め設定された顔画像を取得し、トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する。
【0102】
例示的には、本ステップは、上記のステップS401を参照することができ、これ以上説明しない。
【0103】
S502、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる。
【0104】
例示的には、トレーニング対象オーディオデータから話速特徴を抽出するために予め決定されたニューラルネットワークモデルであることができる第1の特徴抽出モデルが予め設定されている。トレーニング対象オーディオデータを第1の特徴抽出モデルに入力して処理し、トレーニング対象オーディオデータの話速特徴を得る。例えば、第1の特徴抽出モデルには畳み込み層、プール化層などのネットワーク層が含まれていることができ、トレーニング対象オーディオデータに対して畳み込み処理及び特徴抽出を行い、トレーニング対象オーディオデータの話速特徴を得ることができる。本実施例では、第1の特徴抽出モデルのネットワーク構造については特に限定しない。
【0105】
本実施例では、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定することは、トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、トレーニング対象オーディオデータの音声事後確率特徴を得ることであって、音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、トレーニング対象オーディオデータの音声事後確率特徴に基づいて、トレーニング対象オーディオデータの話速特徴を決定することと、を含む。
【0106】
具体的には、第1の特徴抽出モデルはASRモデルであってもよく、ASRモデルには多層のネットワーク層を含んでもよく、例えば、畳み込み層、プール化層及び全接続層を含んでもよい。トレーニング対象オーディオデータを予め決定されたASRモデルに入力して特徴抽出を行い、例えば、畳み込み層によって特徴抽出を行い、トレーニング対象オーディオデータのPPG特徴を得ることができる。PPG特徴は、1つの発話の各特定の時間フレームに、各音声カテゴリの事後確率を表すことができるカテゴリに対する時間の行列である。PPG特徴は2次元座標軸の画像を用いて表現することができ、トレーニング対象オーディオデータの音素カテゴリの情報を表し、横軸は時間を表し、縦軸は音素カテゴリを表す。
【0107】
PPG特徴を得た後、予め設定された話速決定アルゴリズムに基づいて、PPG特徴に対して計算を行い、PPG特徴をトレーニング対象オーディオデータの話速特徴に変換することができる。音素の変化速度を計算し、話速の大きさとして、話速特徴の明示的なモデリングを実現することができる。本実施例では、予め設定された話速決定アルゴリズムについては特に限定しない。
【0108】
このような設定の有益な効果は、トレーニング対象オーディオデータを自動音声認識モデルに入力して処理し、トレーニング対象オーディオデータのPPG特徴を得、PPG特徴に対してさらに計算を行い、話速特徴を得ることである。話速の明示的なモデリングを実現し、それによって話速特徴を導入し、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させた。
【0109】
本実施例では、トレーニング対象オーディオデータの音声事後確率特徴に基づいて、トレーニング対象オーディオデータの話速特徴を決定することは、音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、トレーニング対象オーディオデータの話速特徴を得ることと、を含む。
【0110】
具体的には、PPG特徴は時間領域の信号であり、トレーニング対象オーディオデータのPPG特徴を得た後、PPG特徴に対して高速フーリエ変換処理を行うことができる。即ち、FFTにより、PPG特徴を周波数領域に変換し、PPG特徴に対応する周波数領域信号特徴を得る。この周波数領域信号特徴を、トレーニング対象オーディオデータの音素カテゴリの情報として表すことができる。
【0111】
周波数領域信号特徴を周波数帯域ごとに対して積分を行い、所望の周波数を話速サイズとして算出し、即ちトレーニング対象オーディオデータの話速特徴を得る。話速特徴を計算する際には、周波数帯域サイズを予め設定することができ、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を分割し、複数の周波数帯域サイズの周波数領域信号特徴を得る。各周波数帯域サイズの周波数領域信号特徴に対して1つずつ積分処理を行い、積分結果を、トレーニング対象オーディオデータにおける音素変化速度の体現、即ち話速特徴とすることができる。
【0112】
このような設定の有益な効果は、FFT処理及び積分計算を行うことにより、PPG特徴を具体的な話速の大きさに変換し、話速特徴の決定を実現し、それによって顔口型決定モデルのトレーニング精度を向上させることができることである。
【0113】
S503、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる。
【0114】
例示的には、第2の特徴抽出モデルは、予めトレーニングされたニューラルネットワークモデルであってもよく、例えば、第2の特徴抽出モデルは、予め設定された意味認識モデルである。第2の特徴抽出モデルには特徴抽出ネットワークが含まれ、第2の特徴抽出モデルにおける特徴抽出ネットワークに基づいて、トレーニング対象オーディオデータに対して意味特徴の抽出を行い、トレーニング対象オーディオデータの意味特徴を得ることができる。
【0115】
第1の特徴抽出モデル及び第2の特徴抽出モデルを通じて、話速特徴及び意味特徴を迅速に得ることができ、話速特徴及び意味特徴の別々の抽出を実現し、特徴抽出の効率を向上させ、さらに顔口型決定モデルのトレーニング効率を向上させる。
【0116】
本実施例では、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定することは、トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、トレーニング対象オーディオデータの意味特徴を出力して得ること、を含む。
【0117】
具体的には、第2の特徴抽出モデルは意味認識モデルであってもよく、意味認識モデルには多層の畳み込み層などのネットワーク層が含まれて、特徴抽出ネットワークを構成してもよい。トレーニング対象オーディオデータを予め設定された意味認識モデルに入力して処理することができ、例えば、畳み込み層によって特徴抽出を行い、トレーニング対象オーディオデータの意味特徴を得ることができる。トレーニング対象オーディオデータはストリーミングデータであり、抽出される意味特徴はストリーミング特徴であってもよい。本実施例では、意味認識モデルのモデル構造については特に限定しない。
【0118】
このような設定の有益な効果は、入力されたオーディオストリームデータに対して意味特徴の自動抽出を行い、意味特徴の決定効率及び精度を向上させ、さらに顔口型決定モデルのトレーニング効率及び精度を向上させることである。
【0119】
S504、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得る。
【0120】
例示的には、話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力してトレーニングを行う。トレーニング対象顔口型決定モデルは意味特徴及び話速特徴に対して処理を行い、処理した結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0121】
本実施例では、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることは、初期の顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行い、トレーニング対象オーディオデータの結合特徴を得ることであって、結合特徴は、話速特徴及び意味特徴を表す、ことと、初期の顔口型決定モデルにおける畳み込み層に基づいて、結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることと、を含む。
【0122】
具体的には、話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力する。顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行うことができ、例えば、話速特徴が表す行列及び意味特徴が表す行列を組み合わせることができる。結合したデータを、トレーニング対象オーディオデータの結合特徴として決定する。即ち、結合特徴は、話速特徴及び意味特徴を表すことができる。
【0123】
顔口型決定モデルには畳み込み層などのネットワーク層が設定され、結合特徴が顔口型決定モデルの畳み込み層を通過する時、畳み込み層に基づいて結合特徴に対して特徴抽出を行い、顔駆動パラメータを計算して得ることができる。顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータである。例えば、顔駆動パラメータは、顔画像における口型を含むターゲットフレームの位置情報や大きさ情報などであってもよい。顔駆動パラメータを得た後、予め設定された顔画像に対して画像レンダリングを行い、予め設定された顔画像における口型を元の閉じた形から顔駆動パラメータに対応する形に変更し、口型を有する顔画像を得る。
【0124】
このような設定の有益な効果は、話速特徴及び意味特徴を結合させ、顔口型決定モデルの駆動ネットワークを通じて、顔口型を駆動するために必要なパラメータを得て、トレーニングすることにより、生成された顔画像における口型をトレーニング対象オーディオデータに適合させ、顔画像における口型に対する話速の影響を減少させ、顔口型決定モデルのトレーニング精度を向上させることである。
【0125】
本実施例では、顔駆動パラメータは混合変形の重みパラメータであり、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることは、混合変形の重みパラメータに基づいて、予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、顔3次元メッシュデータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0126】
具体的には、顔駆動パラメータは、blend shape(混合変形)の重みであってもよく、顔口型決定モデルにおける駆動ネットワークによって、blend shapeの重みを得る。blend shapeの重みのパラメータに基づいて、予め設定されたレンダリングエンジンにより、予め設定された顔画像に基づいて、口型を有する顔画像を得ることができる。例えば、予め設定されたレンダリングエンジンはUnrealレンダリングエンジンであってもよい。
【0127】
画像レンダリングを行う際には、まずblend shapeの重みに基づいて、顔の3次元meshデータを決定することができる。顔3次元meshデータは、顔画像での顔表面の3次元メッシュモデルを表すためのデータであってもよい。blend shapeの重み及びblend shapeのベースに基づいて、顔3次元meshを決定することができる。ここで、blend shapeベースは人の画像のバインディングに関連しており、固定不変の予め決定されたパラメータである。顔3次元meshデータを得た後、顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る。
【0128】
このような設定の有益な効果は、まず、blend shapeの重みに基づいて顔3次元meshを得て、次に、顔3次元meshに基づいて顔画像を得、顔画像の正確な生成を実現し、顔口型決定モデルのトレーニング精度を向上させることである。
【0129】
S505、口型を有する顔画像とトレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定する。
【0130】
例示的には、本ステップは、上記のステップS404を参照することができ、これ以上説明しない。
【0131】
本開示の実施例では、トレーニング対象オーディオデータ及びトレーニング対象顔画像を取得し、トレーニング対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、トレーニング対象顔口型決定モデルに対してトレーニングを行う。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、出力された顔画像における口型とトレーニング対象オーディオデータとをトレーニングによって一致させる。モデルに異なる話速が口型に与える影響を学習させ、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させ、後続に顔口型決定モデルを使用する際に、顔画像の決定精度を向上させるのに便利である。
【0132】
図6は、本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。説明しやすいために、本開示の実施例に関連する部分のみを示す。図6を参照して、口型に基づく顔画像を生成する装置600は、データ取得ユニット601、特徴決定ユニット602、及び画像生成ユニット603を含む。
【0133】
データ取得ユニット601は、認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられ、
特徴決定ユニット602は、前記認識対象オーディオデータのオーディオ特徴を決定することに用いられ、前記オーディオ特徴は、話速特徴及び意味特徴を含み、
画像生成ユニット603は、前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる。
【0134】
図7は、本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図であり、図7に示すように、口型に基づく顔画像を生成する装置700は、データ取得ユニット701、特徴決定ユニット702、及び画像生成ユニット703を含み、ここで、特徴決定ユニット702は、第1の決定モジュール7021及び第2の決定モジュール7022を含む。
【0135】
第1の決定モジュール7021は、予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられ、前記第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられ、
第2の決定モジュール7022は、予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することに用いられ、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0136】
1つの例では、第1の決定モジュール7021は、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることに用いられる特徴抽出サブモジュールであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、特徴抽出サブモジュールと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられる特徴決定サブモジュールと、を含む。
【0137】
1つの例では、特徴決定サブモジュールは、具体的には、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、に用いられる。
【0138】
1つの例では、第2の決定モジュール7022は、具体的には、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、に用いられる。
【0139】
1つの例では、画像生成ユニット703は、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することに用いられる画像生成モジュール、を含む。
【0140】
1つの例では、画像生成モジュールは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることに用いられる特徴結合サブモジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合サブモジュールと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定サブモジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定サブモジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む。
【0141】
1つの例では、顔駆動パラメータは混合変形の重みパラメータであり、画像レンダリングサブモジュールは、具体的には、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、に用いられる。
【0142】
1つの例には、さらに、
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる意味処理ユニット、を含む。
【0143】
図8は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする装置の構成図である。説明しやすいために、本開示の実施例に関連する部分のみを示す。図8を参照して、顔口型決定モデルをトレーニングする装置800は、画像取得ユニット801、特徴抽出ユニット802、モデルトレーニングユニット803、及びモデル取得ユニット804を含む。
【0144】
画像取得ユニット801は、トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられ、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有し、
特徴抽出ユニット802は、前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられ、前記オーディオ特徴は、話速特徴及び意味特徴を含み、
モデルトレーニングユニット803は、前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられ、
モデル取得ユニット804は、口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられる。
【0145】
1つの例では、特徴抽出ユニット802は、
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる第1の抽出モジュールであって、前記第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる、第1の抽出モジュールと、
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することに用いられる第2の抽出モジュールであって、前記第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる、第2の抽出モジュールと、を含む。
【0146】
1つの例では、第1の抽出モジュールは、
前記トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの音声事後確率特徴を得ることに用いられる確率決定サブモジュールであって、前記音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、確率決定サブモジュールと、
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる話速決定サブモジュールと、を含む。
【0147】
1つの例では、話速決定サブモジュールは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記トレーニング対象オーディオデータの話速特徴を得ることと、に用いられる。
【0148】
1つの例では、第2の抽出モジュールは、具体的には、
前記トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの意味特徴を出力して得ること、に用いられる。
【0149】
1つの例では、モデルトレーニングユニット803は、
前記初期の顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記トレーニング対象オーディオデータの結合特徴を得ることに用いられる特徴結合モジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合モジュールと、
前記初期の顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定モジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る画像レンダリングモジュールと、を含む。
【0150】
1つの例では、顔駆動パラメータは混合変形の重みパラメータであり、画像レンダリングモジュールは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することに用いられるデータ決定サブモジュールであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、データ決定サブモジュールと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む。
【0151】
1つの例では、画像取得ユニット801は、
前記トレーニング対象オーディオデータを取得することに用いられるデータ取得モジュールと、
前記トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることに用いられる3次元再構成モジュールと、
前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、前記トレーニング対象顔画像を得ることに用いられる画像取得モジュールと、を含む。
【0152】
図9は、本開示の実施例によって提供される電子機器のブロック図であり、図9に示すように、電子機器900は、少なくとも1つのプロセッサ902、及び前記少なくとも1つのプロセッサ902と通信的に接続されるメモリ901を含み、前記メモリには、前記少なくとも1つのプロセッサ902によって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサ902によって実行されることにより、前記少なくとも1つのプロセッサ902に、本開示の口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行させることができる。
【0153】
電子機器900は、受信機903及び送信機904をさらに含む。受信機903は、他のデバイスから送信された命令及びデータを受信することに用いられ、送信機904は、外部デバイスに命令及びデータを送信することに用いられる。
【0154】
本開示の実施例によれば、本開示はさらに、電子機器、可読記憶媒体、及びコンピュータプログラム製品を提供する。
【0155】
本開示の実施例によれば、本開示はさらに、コンピュータプログラム製品を提供し、コンピュータプログラム製品は、可読記憶媒体に記憶されるコンピュータプログラムを含み、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み出すことができ、コンピュータプログラムが少なくとも1つのプロセッサによって実行されることにより、電子機器に上記のいずれかの実施例によって提供された技術案を実行させる。
【0156】
図10は、本開示の実施例を実施するために用いられることができる例示的な電子機器1000の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタル処理、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなどのような、様々な形のデジタルコンピュータを表すことを主旨とする。電子機器はまた、パーソナルディジタル処理、セルラーテレフォン、スマートフォーン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスなどのような、様々な形のモバイル装置を表すこともできる。本文に示すコンポーネント、それらの連結や関係、及び、それらの機能は、あくまで例示的なものにすぎず、本文に記載の及び/又は本文が求める本開示の実現を制限することを意図しない。
【0157】
図10に示すように、機器1000は計算ユニット1001を含み、それはリードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003において、さらに機器1000の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット1001、ROM1002、及びRAM1003は、バス1004により相互に接続される。入力/出力(I/O)インターフェース1005もバス1004に接続される。
【0158】
機器1000における複数の部材は、I/Oインターフェース1005に接続され、前記部材は、例えばキーボード、マウスなどの入力ユニット1006、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット1007、例えば磁気ディスク、光ディスクなどの記憶ユニット1008、及び例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009を含む。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又は様々の電気通信網を介して他の機器と情報/データを交換することを可能にする。
【0159】
計算ユニット1001は、処理及び計算能力を有する様々の汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理ユニット(CPU)、グラフィクスプロセッシングユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々の計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。計算ユニット1001は上記説明された各方法及び処理、例えば口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行する。例えば、いくつかの実施例において、口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法はコンピュータソフトウェアプログラムとして実現され、機械可読媒体、例えば記憶ユニット1008に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて、計算ユニット1001により実行される場合、上記記載された口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法の1つ又は複数のステップを実行させることができる。代替的に、他の実施例において、計算ユニット1001は他の任意の適切な方式(例えば、ファームウェアにより)により口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行するように構成されてもよい。
【0160】
本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、システムオンチップシステム(SOC)、複雑プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態において、1つ又は複数のコンピュータプログラムにおいて実施されてもよく、当該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0161】
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで書かれることができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、それにより、プログラムコードはプロセッサ又はコントローラにより実行されるときにフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは完全に機器で実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして、部分的に機器で実行され、かつ部分的にリモート機器で実行され、又は完全にリモート機器又はサーバで実行されてもよい。
【0162】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又は機器が使用する又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか又は記憶してもよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子的、磁気的、光学的、電磁的、赤外線のもの、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械可読記憶媒体のより具体的な例は1つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、携帯式コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含むことができる。
【0163】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びキーボードとポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは当該キーボード及び当該ポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はさらにユーザとのインタラクションを提供するために用いられる。例えば、ユーザに提供されたフィードバックは任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形式(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0164】
ここで説明されたシステム及び技術を、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインターフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施してもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを互いに接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
【0165】
コンピュータシステムはクライアント及びサーバを含んでもよい。クライアントとサーバとは一般的に互いに離れており、かつ通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、対応するコンピュータで実行され、かつ互いにクライアント―サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、それにより従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散式システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
【0166】
理解されるように、上記に示される様々な形態のフローを使用して、ステップの順序を変更、追加、又は削除することができる。例えば、本開示に記載された各ステップは、本願に係る技術的解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。
【0167】
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神と原則の範囲内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【手続補正書】
【提出日】2024-10-28
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、人工知能の分野におけるクラウドコンピューティング及びデジタルヒューマンの分野に関し、特に口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスに関する。
【背景技術】
【0002】
人工知能技術の急速な発展に伴い、デジタルヒューマン応用は現在の研究の主流となっている。デジタルヒューマンの顔は音声によって変化することができ、例えば、デジタルヒューマンの顔画像における表情や口型などは音声によって変化することができる。
【0003】
デジタルヒューマン応用における核心技術の1つは顔の口型をオーディオで駆動する技術であり、どのように顔画像における口型をオーディオデータに正確に一致させるかは早急に解決すべき技術的難題である。
【発明の概要】
【発明が解決しようとする課題】
【0004】
本開示は、口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【課題を解決するための手段】
【0005】
本開示の第1の態様によれば、口型に基づく顔画像を生成する方法を提供し、この口型に基づく顔画像を生成する方法は、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む。
【0006】
本開示の第2の態様によれば、顔口型決定モデルをトレーニングする方法を提供し、この顔口型決定モデルをトレーニングする方法は、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む。
【0007】
本開示の第3の態様によれば、口型に基づく顔画像を生成する装置を提供し、この口型に基づく顔画像を生成する装置は、
認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられるデータ取得ユニットと、
前記認識対象オーディオデータのオーディオ特徴を決定することに用いられる特徴決定ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴決定ユニットと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる画像生成ユニットと、を含む。
【0008】
本開示の第4の態様によれば、顔口型決定モデルをトレーニングする装置を提供し、この顔口型決定モデルをトレーニングする装置は、
トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられる画像取得ユニットであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、画像取得ユニットと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられる特徴抽出ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴抽出ユニットと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられるモデルトレーニングユニットと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられるモデル取得ユニットと、を含む。
【0009】
本開示の第5の態様によれば、電子機器を提供し、この電子機器は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、本開示の第1の態様及び第2の態様に記載の方法を実行させることができる。
【0010】
本開示の第6の態様によれば、コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、前記コンピュータに本開示の第1の態様及び第2の態様に記載の方法を実行させるためのものである。
【0011】
本開示の第7の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本開示の第1の態様及び第2の態様に記載の方法が実現される。
【0012】
本開示の技術により、口型に基づく顔画像の生成精度を向上させる。
【0013】
理解すべきものとして、本明細書に記載された内容は、本開示の実施例の肝心な又は重要な特徴を決定することを意図するものではなく、本開示の範囲を制限するためのものでもない。本開示の他の特徴は、以下の明細書により容易に理解される。
【図面の簡単な説明】
【0014】
図面は、本案をよりよく理解することに用いられ、本開示を限定するものではない。ここで、
図1】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図2】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図3】本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートである。
図4】本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートである。
図5】本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートである。
図6】本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。
図7】本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。
図8】本開示の実施例によって提供される顔口型決定モデルをトレーニングする装置の構成図である。
図9】本開示の実施例による口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実現するための電子機器のブロック図である。
図10】本開示の実施例による口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照しながら本開示の例示的な実施例を説明し、本開示の実施例の様々な詳細が理解を容易にするために含まれていることが、それらは単なる例示的なものと考えられるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び修正を行うことができることを認識すべきである。同様に、以下の説明では、明瞭かつ簡潔にするため、周知の機能及び構造についての説明は省略される。
【0016】
現在のデジタルヒューマン応用において、1つの核心技術は顔の口型をオーディオで駆動することであり、即ちオーディオデータを通じて顔画像における口型を変化させ、顔画像における口型をオーディオデータに適合させる。そのため、よりリアルで正確な顔口型の駆動をどのようにするかは、早急に解決すべき技術的課題である。
【0017】
関連する口型に基づく顔画像を生成する方法では、話速の変化を処理することが難しく、オーディオデータの話速が口型に大きな影響を与える。同じ文を異なる話速で話す場合、対応する口型は全く異なる可能性がある。話速が遅い場合、各字の口型を発音と完全に揃えることができる。しかし、話速が速いになる場合、顔画像における口型は等比率で加速するわけではなく、1つの口型を完成するのに間に合わないと次の字の発音が必要になる可能性がある。これにより、多くの字の口型が変化し、「字漏れ」や「連読」などの様々な現象が現れ、多くの口型が失われ、融合したり、簡略化されたりして、顔画像の生成精度に影響を与える。
【0018】
本開示は、口型を有する顔画像の生成精度を向上させるために、人工知能の分野におけるクラウドコンピューティング及びデジタルヒューマンの分野に適用される口型に基づく顔画像を生成する方法、モデルをトレーニングする方法及びデバイスを提供する。
【0019】
説明する必要があるのは、本実施例におけるモデルは、特定のユーザを対象としたものではなく、特定のユーザの個人情報を反映するものではない。なお、本実施例における顔画像は、公開されたデータセットからのものである。
【0020】
本開示の技術案において、関連するユーザの個人情報の収集、記憶、使用、加工、伝送、提供及び公開などの処理は、すべて関連する法律法規の規定に合致し、かつ公序良俗に違反しない。
【0021】
読者が本開示の実現原理をより深く理解するために、以下の図1図10を参照して実施例をさらに細分化する。
【0022】
図1は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この方法は口型に基づく顔画像を生成する装置によって実行されることができる。図1に示すように、この方法は以下のステップを含む。
【0023】
S101、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0024】
例示的には、デジタルヒューマンの顔を予め設計し、例えば、デジタルヒューマンの顔の形、目、鼻、口などを設計し、予め設定された顔画像を生成することができる。デジタルヒューマンは、予め設定された顔画像に基づいて口型を変化させることができ、例えば、予め設定された顔画像では、デジタルヒューマンの口は閉じた状態であり、デジタルヒューマンの口型はオーディオデータの送信に伴って変化することができる。
【0025】
認識対象オーディオデータは、予め準備されたオーディオデータであり、デジタルヒューマンの顔画像において、口型が認識対象オーディオデータに応じて変化する必要がある。予め設定された認識対象オーディオデータ及び予め設定された顔画像を取得する。認識対象オーディオデータはオーディオストリームであり、予め設定された顔画像は2次元又は3次元画像であってもよい。
【0026】
S102、認識対象オーディオデータのオーディオ特徴を決定し、オーディオ特徴は、話速特徴及び意味特徴を含む。
【0027】
例示的には、認識対象オーディオデータを取得した後、認識対象オーディオデータに対して特徴抽出を行い、認識対象オーディオデータのオーディオ特徴を得る。オーディオ特徴は、話速特徴及び意味特徴などを含むことができる。話速特徴は、認識対象オーディオデータにおける音素の変化速度を表すことに用いられることができ、例えば、話速特徴は、1秒内に出力される音素の数として表すことができ、即ち、認識対象オーディオデータにおける音素の数及び認識対象オーディオデータの時間を決定することができ、音素の数を認識対象オーディオデータの時間で割り、認識対象オーディオデータの話速の大きさを、話速特徴として得る。本実施例では、認識対象オーディオデータの平均的な話速特徴を決定してもよいし、認識対象オーディオデータの異なる音素に対応する話速特徴を決定してもよい。
【0028】
意味特徴は、認識対象オーディオデータにおける音素によって表現される意味を表すことに用いられることができる。認識対象オーディオデータには複数の音素が含まれていてもよく、認識対象オーディオデータに対して、各音素の意味特徴を決定することができる。即ち、認識対象オーディオデータに対して音素の分割を行い、認識対象オーディオデータにおける各音素を得て、音素に対して意味認識を行い、意味特徴を決定することができる。例えば、予め設定された意味認識モデルを用いて意味認識を行うことができ、意味認識モデルはニューラルネットワークモデルであることができる。音素と意味との関連関係を予め設定し、予め設定された関連関係に基づいて、認識対象オーディオデータの意味特徴として、認識対象オーディオデータにおける各音素の意味特徴を検索することもできる。
【0029】
S103、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。
【0030】
例示的には、話速特徴及び意味特徴を得た後、話速特徴及び意味特徴に基づいて、予め設定された顔画像に対して処理を行い、予め設定された顔画像における口型の変化を制御し、口型を有する顔画像を得ることができる。例えば、認識対象オーディオデータが発する音が「あ」であれば、顔画像での口型は「あ」の口型になる。本実施例では、意味特徴及び話速特徴に基づいて顔画像における口型を決定し、認識対象オーディオデータに対応する複数の顔画像を得ることができる。複数の顔画像に基づいて、認識対象オーディオデータの顔ビデオを決定することもできる。
【0031】
口型と話速特徴との関連関係、口型と意味特徴との関連関係を予め設定してもよいし、口型と話速特徴と意味特徴との関連関係を予め設定してもよい。予め設定された関連関係に基づいて、話速特徴及び意味特徴に対応する口型を決定し、口型を有する顔画像を生成する。口型を決定するためのニューラルネットワークモデルを予めトレーニングし、話速特徴及び意味特徴を入力データとして、このニューラルネットワークモデルに入力し、口型を有する顔画像を出力することもできる。
【0032】
本実施例において、この方法は、認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することをさらに含む。
【0033】
具体的には、話速が遅い場合、各字の口型を発音と完全に揃えることができる。しかし、話速が速いになる場合、1つの口型を完成するのに間に合わないと次の字の発音が必要になる可能性があり、多くの口型の欠落、融合、簡略化などが発生する。
【0034】
話速閾値は予め設定されており、話速特徴が得られた後、話速特徴によって表す値と予め設定された話速閾値とを比較することができる。認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値以上であると決定した場合、話速が速いことを示し、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することができる。
【0035】
認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、認識対象オーディオデータの話速が遅いことが判定され、意味特徴のみで予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することができる。例えば、意味特徴のみを予め設定されたニューラルネットワークモデルの入力データとして、意味特徴を畳み込むなどの処理を行い、顔画像に対して処理を行う際の計算量を減らすことができる。
【0036】
このような設定の有益な効果は、認識対象オーディオデータの話速が遅い場合、意味特徴だけに基づいても正確な口型を得ることができ、計算量を減らし、顔画像の生成効率を向上させることができる。
【0037】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型を認識対象オーディオデータと一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0038】
図2は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0039】
本実施例では、認識対象オーディオデータのオーディオ特徴を決定することは、次のように細分化することができ、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられ、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0040】
図2に示すように、この方法は、以下のステップを含む。
【0041】
S201、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0042】
例示的には、本ステップは、上記のステップS101を参照することができ、これ以上説明しない。
【0043】
S202、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる。
【0044】
例示的には、認識対象オーディオデータから話速特徴を抽出するために予め決定されたニューラルネットワークモデルであることができる第1の特徴抽出モデルが予め設定されている。認識対象オーディオデータを第1の特徴抽出モデルに入力して処理し、認識対象オーディオデータの話速特徴を得る。例えば、第1の特徴抽出モデルには畳み込み層、プール化層などのネットワーク層が含まれていることができ、認識対象オーディオデータに対して畳み込み処理及び特徴抽出を行い、認識対象オーディオデータの話速特徴を得ることができる。本実施例では、第1の特徴抽出モデルのネットワーク構造については特に限定しない。
【0045】
本実施例では、予め設定された第1の特徴抽出モデルに基づいて、認識対象オーディオデータの話速特徴を決定することは、認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、認識対象オーディオデータの音声事後確率特徴を得ることであって、音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、認識対象オーディオデータの音声事後確率特徴に基づいて、認識対象オーディオデータの話速特徴を決定することと、を含む。
【0046】
具体的には、第1の特徴抽出モデルはASR(Automatic Speech Recognition、自動音声認識)モデルであってもよく、ASRモデルは多層のネットワーク層を含んでもよく、例えば、畳み込み層、プール化層及び全接続層を含んでもよい。認識対象オーディオデータを予め決定されたASRモデルに入力して特徴抽出を行い、例えば、畳み込み層によって特徴抽出を行い、認識対象オーディオデータのPPG(Phonetic Posterioram、音声事後確率)特徴を得ることができる。PPG特徴は、1つの発話の各特定の時間フレームに、各音声カテゴリの事後確率を表すことができるカテゴリに対する時間の行列である。PPG特徴は2次元座標軸の画像を用いて表現することができ、認識対象オーディオデータの音素カテゴリの情報を表し、横軸は時間を表し、縦軸は音素カテゴリを表す。
【0047】
PPG特徴を得た後、予め設定された話速決定アルゴリズムに基づいて、PPG特徴に対して計算を行い、PPG特徴を認識対象オーディオデータの話速特徴に変換することができる。音素の変化速度を計算し、話速の大きさとして、話速特徴の明示的なモデリングを実現することができる。本実施例では、予め設定された話速決定アルゴリズムについては特に限定しない。
【0048】
このような設定の有益な効果は、認識対象オーディオデータを自動音声認識モデルに入力して処理し、認識対象オーディオデータのPPG特徴を得、PPG特徴に対してさらに計算を行い、話速特徴を得ることである。話速の明示的なモデリングを実現し、それによって話速特徴を導入し、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させた。
【0049】
本実施例では、認識対象オーディオデータの音声事後確率特徴に基づいて、認識対象オーディオデータの話速特徴を決定することは、音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、認識対象オーディオデータの話速特徴を得ることと、を含む。
【0050】
具体的には、PPG特徴は時間領域の信号であり、認識対象オーディオデータのPPG特徴を得た後、PPG特徴に対して高速フーリエ変換処理を行うことができる。即ち、FFT(Fast Fourier Transform、高速フーリエ変換)により、PPG特徴を周波数領域に変換し、PPG特徴に対応する周波数領域信号特徴を得る。この周波数領域信号特徴を、認識対象オーディオデータの音素カテゴリの情報として表してもよい。
【0051】
周波数領域信号特徴を周波数帯域ごとに対して積分を行い、所望の周波数を話速サイズとして算出し、即ち認識対象オーディオデータの話速特徴を得る。話速特徴を計算する際には、周波数帯域サイズを予め設定することができ、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を分割し、複数の周波数帯域サイズの周波数領域信号特徴を得る。各周波数帯域サイズの周波数領域信号特徴に対して1つずつ積分処理を行い、積分結果を、認識対象オーディオデータにおける音素変化速度の体現、即ち話速特徴とすることができる。
【0052】
このような設定の有益な効果は、FFT処理及び積分計算を行うことにより、PPG特徴を具体的な話速の大きさに変換し、話速特徴の決定を実現し、それによって顔画像の生成精度を向上させることができることである。
【0053】
S203、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0054】
例示的には、第2の特徴抽出モデルは、予めトレーニングされたニューラルネットワークモデルであってもよく、例えば、第2の特徴抽出モデルは、予め設定された意味認識モデルである。第2の特徴抽出モデルには特徴抽出ネットワークが含まれ、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータに対して意味特徴の抽出を行い、認識対象オーディオデータの意味特徴を得ることができる。
【0055】
第1の特徴抽出モデル及び第2の特徴抽出モデルを通じて、話速特徴及び意味特徴を迅速に得ることができ、話速特徴及び意味特徴の別々の抽出を実現し、特徴抽出の効率を向上させ、さらに顔画像の生成効率を向上させることができる。
【0056】
本実施例では、予め設定された第2の特徴抽出モデルに基づいて、認識対象オーディオデータの意味特徴を決定することは、認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、認識対象オーディオデータの意味特徴を出力して得ること、を含む。
【0057】
具体的には、第2の特徴抽出モデルは意味認識モデルであってもよく、意味認識モデルは多層の畳み込み層などのネットワーク層を含んで、特徴抽出ネットワークを構成してもよい。認識対象オーディオデータを予め設定された意味認識モデルに入力して処理し、例えば、畳み込み層によって特徴抽出を行い、認識対象オーディオデータの意味特徴を得ることができる。認識対象オーディオデータはストリーミングデータであり、抽出される意味特徴はストリーミング特徴であってもよい。本実施例では、意味認識モデルのモデル構造については特に限定しない。
【0058】
このような設定の有益な効果は、入力されたオーディオストリームデータに対して意味特徴の自動抽出を行い、意味特徴の決定効率及び精度を向上させ、さらに顔画像の生成効率及び精度を向上させることである。
【0059】
S204、話速特徴及び意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成する。
【0060】
例示的には、本ステップは、上記のステップS103を参照することができ、これ以上説明しない。
【0061】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型と認識対象オーディオデータとを一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0062】
図3は、本開示の実施例によって提供される口型に基づく顔画像を生成する方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0063】
本実施例では、話速特徴及び意味特徴に基づいて予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することは、次のように細分化することができ、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0064】
図3に示すように、この方法は、以下のステップを含む。
【0065】
S301、認識対象オーディオデータ及び予め設定された顔画像を取得する。
【0066】
例示的には、本ステップは、上記のステップS101を参照することができ、これ以上説明しない。
【0067】
S302、認識対象オーディオデータのオーディオ特徴を決定し、前記オーディオ特徴は、話速特徴及び意味特徴を含む。
【0068】
例示的には、本ステップは、上記のステップS102を参照することができ、これ以上説明しない。
【0069】
S303、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0070】
例示的には、口型を有する顔画像を出力することに用いられることができるニューラルネットワークモデルである顔口型決定モデルが予め構築されて、トレーニングされた。話速特徴及び意味特徴を入力データとして、予め設定された顔口型決定モデルに入力して処理する。顔口型決定モデルは、処理を行った後、処理結果に基づいて、予め設定された顔画像に口型の変化を行い、口型を有する顔画像を得ることができる。例えば、顔口型決定モデルが話速特徴及び意味特徴に基づいて決定した処理結果は、口型の大きさ及び形状情報であってもよく、決定した口型の大きさ及び形状情報に基づいて、予め設定された顔画像をレンダリングし、その口型を含む顔画像を生成することができる。顔口型決定モデルを使用することにより、顔画像を迅速に得ることができ、話速特徴及び意味特徴の結合により、話速変化によるオーディオで駆動する顔口型の効果低下の問題を回避し、顔画像の生成効率及び精度を向上させることができる。
【0071】
本実施例では、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成することは、予め設定された顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行い、認識対象オーディオデータの結合特徴を得ることであって、結合特徴は、話速特徴及び意味特徴を表す、ことと、予め設定された顔口型決定モデルにおける畳み込み層に基づいて、結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0072】
具体的には、話速特徴及び意味特徴を、予め設定された顔口型決定モデルに入力する。顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行うことができ、例えば、話速特徴が表す行列及び意味特徴が表す行列を組み合わせることができる。結合したデータを、認識対象オーディオデータの結合特徴として決定する。即ち、結合特徴は、話速特徴及び意味特徴を表すことができる。
【0073】
顔口型決定モデルには畳み込み層などのネットワーク層が設定され、結合特徴が顔口型決定モデルの畳み込み層を通過する時、畳み込み層に基づいて結合特徴に対して特徴抽出を行い、顔駆動パラメータを計算することができる。顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータである。例えば、顔駆動パラメータは、顔画像における口型を含むターゲットフレームの位置情報や大きさ情報などであってもよい。顔駆動パラメータを得た後、予め設定された顔画像に対して画像レンダリングを行い、予め設定された顔画像における口型を元の閉じた形から顔駆動パラメータに対応する形に変更し、口型を有する顔画像を得る。一部の認識対象オーディオデータについて、異なる口型を有する複数の顔画像を生成することができる。
【0074】
このような設定の有益な効果は、話速特徴及び意味特徴を結合させ、顔口型決定モデルの駆動ネットワークを通じて、顔口型を駆動するために必要なパラメータを得て、生成された顔画像における口型を認識対象オーディオデータに適合させ、顔画像における口型に対する話速の影響を減少させ、顔画像の生成効率及び精度を向上させることである。
【0075】
本実施例では、顔駆動パラメータは混合変形の重みパラメータであり、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することは、混合変形の重みパラメータに基づいて、予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、顔3次元メッシュデータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0076】
具体的には、顔駆動パラメータは、blend shape(混合変形)の重みであってもよく、顔口型決定モデルにおける駆動ネットワークによって、blend shapeの重みを得る。blend shapeの重みのパラメータに基づいて、予め設定されたレンダリングエンジンにより、予め設定された顔画像に基づいて、口型を有する顔画像を得ることができる。例えば、予め設定されたレンダリングエンジンはUnreal(アンリアル)レンダリングエンジンであってもよい。
【0077】
画像レンダリングを行う際には、まずblend shapeの重みに基づいて、顔の3次元mesh(メッシュ)データを決定することができる。顔3次元meshデータは、顔画像での顔表面の3次元メッシュモデルを表すためのデータであってもよい。blend shapeの重み及びblend shapeのベースに基づいて、顔3次元meshを決定することができる。ここで、blend shapeベースは人の画像のバインディングに関連しており、固定不変の予め決定されたパラメータである。顔3次元meshデータを得た後、顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る。
【0078】
このような設定の有益な効果は、まず、blend shapeの重みに基づいて顔3次元meshを得て、次に、顔3次元meshに基づいて顔画像を得ることである。顔画像の正確な生成を実現し、ユーザがデジタルヒューマンを体験するのに便利である。
【0079】
本開示の実施例では、認識対象オーディオデータを取得し、認識対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、予め設定された顔画像に対して処理を行う。ここで、予め設定された顔画像は、口型が変化したときに根拠となる初期画像であり、顔の外見を表すことができる。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、顔画像の口型と認識対象オーディオデータとを一致させる。話速が速い場合、顔画像の口型に字漏れ及び連読が発生する問題を解決した。顔画像における口型に対する正確な駆動を実現し、顔画像の決定精度を向上させる。
【0080】
図4は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートであり、この方法は顔口型決定モデルをトレーニングする装置によって実行されることができる。図4に示すように、この方法は以下のステップを含む。
【0081】
S401、トレーニング対象画像データ及び予め設定された顔画像を取得し、トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する。
【0082】
例示的には、口型を有する顔画像を決定する際に、深層学習に基づく顔口型決定モデルを使用することができる。顔口型決定モデルは、上記のいずれかの実施例に記載の顔画像を生成する方法を実現することができ、顔口型決定モデルは予めトレーニングされる必要があり、それから使用する。予め収集されたトレーニング対象画像データ及び予め設定された顔画像を取得する。トレーニング対象画像データには、トレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれてもよく、トレーニング対象オーディオデータはモデルをトレーニングするためのオーディオストリームであり、トレーニング対象顔画像はトレーニング対象オーディオデータに一致する口型を有する。
【0083】
予め設定された顔画像は、予め設計された口を有するデジタルヒューマンの顔画像であり、予め設定された顔画像には、目、鼻などの顔立ちも含むことができる。デジタルヒューマンの顔の形、目、鼻、口などを設計し、予め設定された顔画像を生成することができる。デジタルヒューマンは、予め設定された顔画像に基づいて口型を変化させることができ、例えば、予め設定された顔画像では、デジタルヒューマンの口は閉じた状態であり、デジタルヒューマンの口型はオーディオデータの送信に伴って変化することができる。トレーニング対象顔画像と予め設定された顔画像の違いは、口型の変化が発生したことである。
【0084】
本実施例では、トレーニング対象画像データを取得することは、トレーニング対象オーディオデータを取得することと、トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることと、トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、トレーニング対象顔画像を得ることと、を含む。
【0085】
具体的には、予め収集されたトレーニングセットを取得し、トレーニングセットはトレーニング対象オーディオデータであってもよい。トレーニング対象オーディオデータに基づいて、トレーニング対象顔画像を生成する。トレーニング対象顔画像には口型があり、トレーニング対象顔画像における口型はトレーニング対象オーディオデータに適合する。
【0086】
トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行うことができ、例えば、トレーニング対象オーディオデータの各音素に基づいて、各フレームの顔画像を3次元再構築を行う。本実施例では、3次元再構築の処理手順については特に限定しない。各フレームごとに顔3次元meshデータを決定することで、トレーニング対象オーディオデータに対応する複数フレームの顔3次元meshを得ることができる。トレーニング対象オーディオデータに対応する顔3次元meshに基づいて、複数フレームのトレーニング対象顔画像を得る。
【0087】
このような設定の有益な効果は、トレーニング対象オーディオデータに対応する顔画像を予め決定することは、顔口型決定モデルに対してトレーニングを行うことが容易になり、顔口型決定モデルのトレーニング効率及び精度を向上させることである。
【0088】
S402、トレーニング対象オーディオデータのオーディオ特徴を決定し、オーディオ特徴は、話速特徴及び意味特徴を含む。
【0089】
例示的には、トレーニング対象オーディオデータを得た後、トレーニング対象オーディオデータに対して特徴抽出を行い、トレーニング対象オーディオデータのオーディオ特徴を得る。オーディオ特徴は、話速特徴及び意味特徴などを含むことができる。話速特徴は、トレーニング対象オーディオデータにおける音素の変化速度を表すことに用いられることができ、例えば、話速特徴は、1秒内に出力される音素の数として表すことができ、即ち、トレーニング対象オーディオデータにおける音素の数及びトレーニング対象オーディオデータの時間を決定することができ、音素の数をトレーニング対象オーディオデータの時間で割り、トレーニング対象オーディオデータの話速の大きさを話速特徴として得る。本実施例では、トレーニング対象オーディオデータの平均的な話速特徴を決定してもよいし、トレーニング対象オーディオデータの異なる音素に対応する話速特徴を決定してもよい。
【0090】
意味特徴は、トレーニング対象オーディオデータによって表現される意味を表すことに用いられることができる。トレーニング対象オーディオデータには複数の音素が含まれていてもよく、トレーニング対象オーディオデータに対して、各音素の意味特徴を決定することができる。即ち、トレーニング対象オーディオデータに対して音素の分割を行い、トレーニング対象オーディオデータにおける各音素を得て、音素に対して意味認識を行い、意味特徴を決定することができる。例えば、予め設定された意味認識モデルを用いて意味認識を行うことができ、意味認識モデルはニューラルネットワークモデルであることができる。また、音素と意味との関連関係を予め設定し、予め設定された関連関係に基づいて、トレーニング対象オーディオデータの意味特徴として、トレーニング対象オーディオデータにおけるすべての音素の意味特徴を検索することもできる。
【0091】
S403、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得る。
【0092】
例示的には、トレーニング対象オーディオデータの話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力して反復トレーニングを行う。各反復ごとに、処理した結果と予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0093】
トレーニング対象顔口型決定モデルを予め構築し、話速特徴及び意味特徴を入力データとして、トレーニング対象顔口型決定モデルに入力して処理する。顔口型決定モデルは、処理を行った後、処理結果に基づいて、予め設定された顔画像に口型の変化を行い、異なる口型を有する顔画像を得ることができる。例えば、顔口型決定モデルが話速特徴及び意味特徴に基づいて決定した処理結果は、口型の大きさ及び形状情報であり、決定した口型の大きさ及び形状情報に基づいて、予め設定された顔画像をレンダリングし、その口型を含む顔画像を生成することができる。トレーニング対象オーディオデータには複数の音素が含まれており、各音素に対応する口型を有する顔画像を生成することができる。
【0094】
S404、口型を有する顔画像とトレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定する。
【0095】
例示的には、モデルから出力された口型を有する顔画像を得た後、音素に対応する口型を有する顔画像とその音素に対応するトレーニング対象顔画像とを比較し、両者が一致する場合、顔口型決定モデルのトレーニングが完了されることが判定され、両者が一致しない場合、顔口型決定モデルをトレーニングする必要があることが判定され、引き続き顔口型決定モデルにトレーニング対象オーディオデータの意味特徴及び話速特徴を入力し、出力された口型を有する顔画像が対応するトレーニング対象顔画像と一致するまで、予め設定された逆伝播アルゴリズムに基づいてトレーニングを行う。
【0096】
また、類似度閾値を予め設定してもよく、類似度閾値は、顔口型決定モデルのトレーニングが完了したかどうかを判定することに用いられることができる。口型を有する顔画像を得た後、口型を有する顔画像と対応するトレーニング対象顔画像との類似度を決定する。決定された類似度が予め設定された類似度閾値以上である場合、顔口型決定モデルのトレーニングが完了されることが判定され、類似度が予め設定された類似度閾値よりも小さい場合、顔口型決定モデルのトレーニングが完了されないことが判定される。
【0097】
本開示の実施例では、トレーニング対象オーディオデータ及びトレーニング対象顔画像を取得し、トレーニング対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、トレーニング対象顔口型決定モデルに対してトレーニングを行う。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、出力された顔画像における口型とトレーニング対象オーディオデータとをトレーニングすることによって一致させる。モデルに異なる話速が口型に与える影響を学習させ、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させ、後続に顔口型決定モデルを使用する際に、顔画像の決定精度を向上させるのに便利である。
【0098】
図5は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする方法のフローチャートであり、この実施例は上記の実施例に基づく選択可能な実施例である。
【0099】
本実施例では、トレーニング対象オーディオデータのオーディオ特徴を決定することは、次のように細分化することができ、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられ、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる。
【0100】
図5に示すように、この方法は、以下のステップを含む。
【0101】
S501、トレーニング対象画像データ及び予め設定された顔画像を取得し、トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する。
【0102】
例示的には、本ステップは、上記のステップS401を参照することができ、これ以上説明しない。
【0103】
S502、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定し、第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる。
【0104】
例示的には、トレーニング対象オーディオデータから話速特徴を抽出するために予め決定されたニューラルネットワークモデルであることができる第1の特徴抽出モデルが予め設定されている。トレーニング対象オーディオデータを第1の特徴抽出モデルに入力して処理し、トレーニング対象オーディオデータの話速特徴を得る。例えば、第1の特徴抽出モデルには畳み込み層、プール化層などのネットワーク層が含まれていることができ、トレーニング対象オーディオデータに対して畳み込み処理及び特徴抽出を行い、トレーニング対象オーディオデータの話速特徴を得ることができる。本実施例では、第1の特徴抽出モデルのネットワーク構造については特に限定しない。
【0105】
本実施例では、予め設定された第1の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの話速特徴を決定することは、トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、トレーニング対象オーディオデータの音声事後確率特徴を得ることであって、音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、トレーニング対象オーディオデータの音声事後確率特徴に基づいて、トレーニング対象オーディオデータの話速特徴を決定することと、を含む。
【0106】
具体的には、第1の特徴抽出モデルはASRモデルであってもよく、ASRモデルには多層のネットワーク層を含んでもよく、例えば、畳み込み層、プール化層及び全接続層を含んでもよい。トレーニング対象オーディオデータを予め決定されたASRモデルに入力して特徴抽出を行い、例えば、畳み込み層によって特徴抽出を行い、トレーニング対象オーディオデータのPPG特徴を得ることができる。PPG特徴は、1つの発話の各特定の時間フレームに、各音声カテゴリの事後確率を表すことができるカテゴリに対する時間の行列である。PPG特徴は2次元座標軸の画像を用いて表現することができ、トレーニング対象オーディオデータの音素カテゴリの情報を表し、横軸は時間を表し、縦軸は音素カテゴリを表す。
【0107】
PPG特徴を得た後、予め設定された話速決定アルゴリズムに基づいて、PPG特徴に対して計算を行い、PPG特徴をトレーニング対象オーディオデータの話速特徴に変換することができる。音素の変化速度を計算し、話速の大きさとして、話速特徴の明示的なモデリングを実現することができる。本実施例では、予め設定された話速決定アルゴリズムについては特に限定しない。
【0108】
このような設定の有益な効果は、トレーニング対象オーディオデータを自動音声認識モデルに入力して処理し、トレーニング対象オーディオデータのPPG特徴を得、PPG特徴に対してさらに計算を行い、話速特徴を得ることである。話速の明示的なモデリングを実現し、それによって話速特徴を導入し、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させた。
【0109】
本実施例では、トレーニング対象オーディオデータの音声事後確率特徴に基づいて、トレーニング対象オーディオデータの話速特徴を決定することは、音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、トレーニング対象オーディオデータの話速特徴を得ることと、を含む。
【0110】
具体的には、PPG特徴は時間領域の信号であり、トレーニング対象オーディオデータのPPG特徴を得た後、PPG特徴に対して高速フーリエ変換処理を行うことができる。即ち、FFTにより、PPG特徴を周波数領域に変換し、PPG特徴に対応する周波数領域信号特徴を得る。この周波数領域信号特徴を、トレーニング対象オーディオデータの音素カテゴリの情報として表すことができる。
【0111】
周波数領域信号特徴を周波数帯域ごとに対して積分を行い、所望の周波数を話速サイズとして算出し、即ちトレーニング対象オーディオデータの話速特徴を得る。話速特徴を計算する際には、周波数帯域サイズを予め設定することができ、予め設定された周波数帯域サイズに基づいて、周波数領域信号特徴を分割し、複数の周波数帯域サイズの周波数領域信号特徴を得る。各周波数帯域サイズの周波数領域信号特徴に対して1つずつ積分処理を行い、積分結果を、トレーニング対象オーディオデータにおける音素変化速度の体現、即ち話速特徴とすることができる。
【0112】
このような設定の有益な効果は、FFT処理及び積分計算を行うことにより、PPG特徴を具体的な話速の大きさに変換し、話速特徴の決定を実現し、それによって顔口型決定モデルのトレーニング精度を向上させることができることである。
【0113】
S503、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定し、第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる。
【0114】
例示的には、第2の特徴抽出モデルは、予めトレーニングされたニューラルネットワークモデルであってもよく、例えば、第2の特徴抽出モデルは、予め設定された意味認識モデルである。第2の特徴抽出モデルには特徴抽出ネットワークが含まれ、第2の特徴抽出モデルにおける特徴抽出ネットワークに基づいて、トレーニング対象オーディオデータに対して意味特徴の抽出を行い、トレーニング対象オーディオデータの意味特徴を得ることができる。
【0115】
第1の特徴抽出モデル及び第2の特徴抽出モデルを通じて、話速特徴及び意味特徴を迅速に得ることができ、話速特徴及び意味特徴の別々の抽出を実現し、特徴抽出の効率を向上させ、さらに顔口型決定モデルのトレーニング効率を向上させる。
【0116】
本実施例では、予め設定された第2の特徴抽出モデルに基づいて、トレーニング対象オーディオデータの意味特徴を決定することは、トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、トレーニング対象オーディオデータの意味特徴を出力して得ること、を含む。
【0117】
具体的には、第2の特徴抽出モデルは意味認識モデルであってもよく、意味認識モデルには多層の畳み込み層などのネットワーク層が含まれて、特徴抽出ネットワークを構成してもよい。トレーニング対象オーディオデータを予め設定された意味認識モデルに入力して処理することができ、例えば、畳み込み層によって特徴抽出を行い、トレーニング対象オーディオデータの意味特徴を得ることができる。トレーニング対象オーディオデータはストリーミングデータであり、抽出される意味特徴はストリーミング特徴であってもよい。本実施例では、意味認識モデルのモデル構造については特に限定しない。
【0118】
このような設定の有益な効果は、入力されたオーディオストリームデータに対して意味特徴の自動抽出を行い、意味特徴の決定効率及び精度を向上させ、さらに顔口型決定モデルのトレーニング効率及び精度を向上させることである。
【0119】
S504、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得る。
【0120】
例示的には、話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力してトレーニングを行う。トレーニング対象顔口型決定モデルは意味特徴及び話速特徴に対して処理を行い、処理した結果及び予め設定された顔画像に基づいて、口型を有する顔画像を生成する。
【0121】
本実施例では、話速特徴、意味特徴及び予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることは、初期の顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行い、トレーニング対象オーディオデータの結合特徴を得ることであって、結合特徴は、話速特徴及び意味特徴を表す、ことと、初期の顔口型決定モデルにおける畳み込み層に基づいて、結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることと、を含む。
【0122】
具体的には、話速特徴及び意味特徴を、トレーニング対象顔口型決定モデルに入力する。顔口型決定モデルに基づいて、話速特徴及び意味特徴に対して結合処理を行うことができ、例えば、話速特徴が表す行列及び意味特徴が表す行列を組み合わせることができる。結合したデータを、トレーニング対象オーディオデータの結合特徴として決定する。即ち、結合特徴は、話速特徴及び意味特徴を表すことができる。
【0123】
顔口型決定モデルには畳み込み層などのネットワーク層が設定され、結合特徴が顔口型決定モデルの畳み込み層を通過する時、畳み込み層に基づいて結合特徴に対して特徴抽出を行い、顔駆動パラメータを計算して得ることができる。顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータである。例えば、顔駆動パラメータは、顔画像における口型を含むターゲットフレームの位置情報や大きさ情報などであってもよい。顔駆動パラメータを得た後、予め設定された顔画像に対して画像レンダリングを行い、予め設定された顔画像における口型を元の閉じた形から顔駆動パラメータに対応する形に変更し、口型を有する顔画像を得る。
【0124】
このような設定の有益な効果は、話速特徴及び意味特徴を結合させ、顔口型決定モデルの駆動ネットワークを通じて、顔口型を駆動するために必要なパラメータを得て、トレーニングすることにより、生成された顔画像における口型をトレーニング対象オーディオデータに適合させ、顔画像における口型に対する話速の影響を減少させ、顔口型決定モデルのトレーニング精度を向上させることである。
【0125】
本実施例では、顔駆動パラメータは混合変形の重みパラメータであり、顔駆動パラメータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることは、混合変形の重みパラメータに基づいて、予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、顔3次元メッシュデータに基づいて、予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む。
【0126】
具体的には、顔駆動パラメータは、blend shape(混合変形)の重みであってもよく、顔口型決定モデルにおける駆動ネットワークによって、blend shapeの重みを得る。blend shapeの重みのパラメータに基づいて、予め設定されたレンダリングエンジンにより、予め設定された顔画像に基づいて、口型を有する顔画像を得ることができる。例えば、予め設定されたレンダリングエンジンはUnrealレンダリングエンジンであってもよい。
【0127】
画像レンダリングを行う際には、まずblend shapeの重みに基づいて、顔の3次元meshデータを決定することができる。顔3次元meshデータは、顔画像での顔表面の3次元メッシュモデルを表すためのデータであってもよい。blend shapeの重み及びblend shapeのベースに基づいて、顔3次元meshを決定することができる。ここで、blend shapeベースは人の画像のバインディングに関連しており、固定不変の予め決定されたパラメータである。顔3次元meshデータを得た後、顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る。
【0128】
このような設定の有益な効果は、まず、blend shapeの重みに基づいて顔3次元meshを得て、次に、顔3次元meshに基づいて顔画像を得、顔画像の正確な生成を実現し、顔口型決定モデルのトレーニング精度を向上させることである。
【0129】
S505、口型を有する顔画像とトレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定する。
【0130】
例示的には、本ステップは、上記のステップS404を参照することができ、これ以上説明しない。
【0131】
本開示の実施例では、トレーニング対象オーディオデータ及びトレーニング対象顔画像を取得し、トレーニング対象オーディオデータから話速特徴及び意味特徴を決定する。話速特徴と意味特徴とを組み合わせて、トレーニング対象顔口型決定モデルに対してトレーニングを行う。話速特徴及び意味特徴に基づいて、異なる口型を有する顔画像を生成し、出力された顔画像における口型とトレーニング対象オーディオデータとをトレーニングによって一致させる。モデルに異なる話速が口型に与える影響を学習させ、話速が変化した時のオーディオで駆動する口型の精度及び真実性を大幅に向上させ、後続に顔口型決定モデルを使用する際に、顔画像の決定精度を向上させるのに便利である。
【0132】
図6は、本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図である。説明しやすいために、本開示の実施例に関連する部分のみを示す。図6を参照して、口型に基づく顔画像を生成する装置600は、データ取得ユニット601、特徴決定ユニット602、及び画像生成ユニット603を含む。
【0133】
データ取得ユニット601は、認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられ、
特徴決定ユニット602は、前記認識対象オーディオデータのオーディオ特徴を決定することに用いられ、前記オーディオ特徴は、話速特徴及び意味特徴を含み、
画像生成ユニット603は、前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる。
【0134】
図7は、本開示の実施例によって提供される口型に基づく顔画像を生成する装置の構成図であり、図7に示すように、口型に基づく顔画像を生成する装置700は、データ取得ユニット701、特徴決定ユニット702、及び画像生成ユニット703を含み、ここで、特徴決定ユニット702は、第1の決定モジュール7021及び第2の決定モジュール7022を含む。
【0135】
第1の決定モジュール7021は、予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられ、第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられ、
第2の決定モジュール7022は、予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することに用いられ、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる。
【0136】
1つの例では、第1の決定モジュール7021は、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることに用いられる特徴抽出サブモジュールであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、特徴抽出サブモジュールと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することに用いられる特徴決定サブモジュールと、を含む。
【0137】
1つの例では、特徴決定サブモジュールは、具体的には、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、に用いられる。
【0138】
1つの例では、第2の決定モジュール7022は、具体的には、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、に用いられる。
【0139】
1つの例では、画像生成ユニット703は、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することに用いられる画像生成モジュール、を含む。
【0140】
1つの例では、画像生成モジュールは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることに用いられる特徴結合サブモジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合サブモジュールと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定サブモジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定サブモジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む。
【0141】
1つの例では、顔駆動パラメータは混合変形の重みパラメータであり、画像レンダリングサブモジュールは、具体的には、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、に用いられる。
【0142】
1つの例には、さらに、
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる意味処理ユニット、を含む。
【0143】
図8は、本開示の実施例によって提供される顔口型決定モデルをトレーニングする装置の構成図である。説明しやすいために、本開示の実施例に関連する部分のみを示す。図8を参照して、顔口型決定モデルをトレーニングする装置800は、画像取得ユニット801、特徴抽出ユニット802、モデルトレーニングユニット803、及びモデル取得ユニット804を含む。
【0144】
画像取得ユニット801は、トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられ、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有し、
特徴抽出ユニット802は、前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられ、前記オーディオ特徴は、話速特徴及び意味特徴を含み、
モデルトレーニングユニット803は、前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられ、
モデル取得ユニット804は、口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられる。
【0145】
1つの例では、特徴抽出ユニット802は、
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる第1の抽出モジュールであって、前記第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる、第1の抽出モジュールと、
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することに用いられる第2の抽出モジュールであって、前記第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる、第2の抽出モジュールと、を含む。
【0146】
1つの例では、第1の抽出モジュールは、
前記トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの音声事後確率特徴を得ることに用いられる確率決定サブモジュールであって、前記音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、確率決定サブモジュールと、
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することに用いられる話速決定サブモジュールと、を含む。
【0147】
1つの例では、話速決定サブモジュールは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記トレーニング対象オーディオデータの話速特徴を得ることと、に用いられる。
【0148】
1つの例では、第2の抽出モジュールは、具体的には、
前記トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの意味特徴を出力して得ること、に用いられる。
【0149】
1つの例では、モデルトレーニングユニット803は、
前記初期の顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記トレーニング対象オーディオデータの結合特徴を得ることに用いられる特徴結合モジュールであって、前記結合特徴は、話速特徴及び意味特徴を表す、特徴結合モジュールと、
前記初期の顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることに用いられるパラメータ決定モジュールであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、パラメータ決定モジュールと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得る画像レンダリングモジュールと、を含む。
【0150】
1つの例では、顔駆動パラメータは混合変形の重みパラメータであり、画像レンダリングモジュールは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することに用いられるデータ決定サブモジュールであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、データ決定サブモジュールと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することに用いられる画像レンダリングサブモジュールと、を含む。
【0151】
1つの例では、画像取得ユニット801は、
前記トレーニング対象オーディオデータを取得することに用いられるデータ取得モジュールと、
前記トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることに用いられる3次元再構成モジュールと、
前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、前記トレーニング対象顔画像を得ることに用いられる画像取得モジュールと、を含む。
【0152】
図9は、本開示の実施例によって提供される電子機器のブロック図であり、図9に示すように、電子機器900は、少なくとも1つのプロセッサ902、及び前記少なくとも1つのプロセッサ902と通信的に接続されるメモリ901を含み、前記メモリには、前記少なくとも1つのプロセッサ902によって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサ902によって実行されることにより、前記少なくとも1つのプロセッサ902に、本開示の口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行させることができる。
【0153】
電子機器900は、受信機903及び送信機904をさらに含む。受信機903は、他のデバイスから送信された命令及びデータを受信することに用いられ、送信機904は、外部デバイスに命令及びデータを送信することに用いられる。
【0154】
本開示の実施例によれば、本開示はさらに、電子機器、可読記憶媒体、及びコンピュータプログラムを提供する。
【0155】
本開示の実施例によれば、本開示はさらに、コンピュータプログラムを提供し、コンピュータプログラムは、可読記憶媒体に記憶され、電子機器の少なくとも1つのプロセッサは、可読記憶媒体からコンピュータプログラムを読み出すことができ、コンピュータプログラムが少なくとも1つのプロセッサによって実行されることにより、電子機器に上記のいずれかの実施例によって提供された技術案を実行させる。
【0156】
図10は、本開示の実施例を実施するために用いられることができる例示的な電子機器1000の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及びその他の適切なコンピュータなどのような、様々な形のデジタルコンピュータを表すことを主旨とする。電子機器はまた、パーソナルディジタル処理、セルラーテレフォン、スマートフォーン、ウェアラブルデバイス及びその他の類似するコンピューティングデバイスなどのような、様々な形のモバイル装置を表すこともできる。本文に示すコンポーネント、それらの連結や関係、及び、それらの機能は、あくまで例示的なものにすぎず、本文に記載の及び/又は本文が求める本開示の実現を制限することを意図しない。
【0157】
図10に示すように、機器1000は計算ユニット1001を含み、それはリードオンリーメモリ(Read Only Memory、ROM)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(Random Access Memory、RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003において、さらに機器1000の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット1001、ROM1002、及びRAM1003は、バス1004により相互に接続される。入力/出力(Input/Output、I/O)インターフェース1005もバス1004に接続される。
【0158】
機器1000における複数の部材は、I/Oインターフェース1005に接続され、前記部材は、例えばキーボード、マウスなどの入力ユニット1006、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット1007、例えば磁気ディスク、光ディスクなどの記憶ユニット1008、及び例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009を含む。通信ユニット1009は、機器1000がインターネットなどのコンピュータネットワーク及び/又は様々の電気通信網を介して他の機器と情報/データを交換することを可能にする。
【0159】
計算ユニット1001は、処理及び計算能力を有する様々の汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット1001のいくつかの例は、中央処理ユニット(Central Processing Unit、CPU)、グラフィクスプロセッシングユニット(Graphics Processing Unit、GPU)、様々な専用の人工知能(Artificial Intelligence、AI)計算チップ、機械学習モデルアルゴリズムを実行する様々の計算ユニット、デジタル信号プロセッサ(Digital Signal Processor、DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されるものではない。計算ユニット1001は上記説明された各方法及び処理、例えば口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行する。例えば、いくつかの実施例において、口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法はコンピュータソフトウェアプログラムとして実現され、機械可読媒体、例えば記憶ユニット1008に有形的に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて、計算ユニット1001により実行される場合、上記記載された口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法の1つ又は複数のステップを実行させることができる。代替的に、他の実施例において、計算ユニット1001は他の任意の適切な方式(例えば、ファームウェアにより)により口型に基づく顔画像を生成する方法及びモデルをトレーニングする方法を実行するように構成されてもよい。
【0160】
本明細書で説明したシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array、FPGA)、専用集積回路(Application Specific Integrated Circuit、ASIC)、専用標準製品(Application Specific Standard Product、ASSP)、システムオンチップシステム(System On Chip、SOC)、複雑プログラマブルロジック装置(Complex Programmable Logic Device、CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態において、1つ又は複数のコンピュータプログラムにおいて実施されてもよく、当該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈されることができ、当該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信して、データ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
【0161】
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで書かれることができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供されることができ、それにより、プログラムコードはプロセッサ又はコントローラにより実行されるときにフローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは完全に機器で実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして、部分的に機器で実行され、かつ部分的にリモート機器で実行され、又は完全にリモート機器又はサーバで実行されてもよい。
【0162】
本開示のコンテキストにおいて、機械可読媒体は有形の媒体であってもよく、命令実行システム、装置又は機器が使用する又は命令実行システム、装置又は機器と組み合わせて使用するプログラムを含むか又は記憶してもよい。機械可読媒体は機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は電子的、磁気的、光学的、電磁的、赤外線のもの、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含むことができるが、それらに限定されない。機械可読記憶媒体のより具体的な例は1つ以上の線に基づく電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(Erasable Programmable Read Only Memory、EPROM又はフラッシュメモリ、光ファイバ、携帯式コンパクトディスクリードオンリーメモリ(Compact Disc Read Only Memory、CD-ROM)、光学記憶装置、磁気記憶装置、又は上記コンテンツの任意の適切な組み合わせを含むことができる。
【0163】
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube、CRT)又は液晶ディスプレイ(Liquid Crystal Display、LCD)モニタ)、及びキーボードとポインティング装置(例えば、マウス又はトラックボール)を有し、ユーザは当該キーボード及び当該ポインティング装置を介して入力をコンピュータに提供することができる。他の種類の装置はさらにユーザとのインタラクションを提供するために用いられる。例えば、ユーザに提供されたフィードバックは任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かつ任意の形式(音響入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信してもよい。
【0164】
ここで説明されたシステム及び技術を、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインターフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムに実施してもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを互いに接続してもよい。通信ネットワークの例は、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)及びインターネットを含む。
【0165】
コンピュータシステムはクライアント及びサーバを含んでもよい。クライアントとサーバとは一般的に互いに離れており、かつ通常、通信ネットワークを介してインタラクションする。クライアントとサーバとの関係は、対応するコンピュータで実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのうちの1つのホスト製品であり、それにより従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分散式システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。
【0166】
理解されるように、上記に示される様々な形態のフローを使用して、ステップの順序を変更、追加、又は削除することができる。例えば、本開示に記載された各ステップは、本願に係る技術的解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。
【0167】
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本開示の精神と原則の範囲内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲に含まれるべきである。
【手続補正2】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
口型に基づく顔画像を生成する方法であって、
認識対象オーディオデータ及び予め設定された顔画像を取得することと、
前記認識対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することと、を含む、
口型に基づく顔画像を生成する方法。
【請求項2】
前記認識対象オーディオデータのオーディオ特徴を決定することは、
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することであって、前記第1の特徴抽出モデルは、認識対象オーディオデータから話速特徴を抽出することに用いられる、ことと、
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することであって、前記第2の特徴抽出モデルは、認識対象オーディオデータから意味特徴を抽出することに用いられる、ことと、を含む、
請求項1に記載の方法。
【請求項3】
予め設定された第1の特徴抽出モデルに基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記認識対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの音声事後確率特徴を得ることであって、前記音声事後確率特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することと、を含む、
請求項2に記載の方法。
【請求項4】
前記認識対象オーディオデータの音声事後確率特徴に基づいて、前記認識対象オーディオデータの話速特徴を決定することは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、認識対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記認識対象オーディオデータの話速特徴を得ることと、を含む、
請求項3に記載の方法。
【請求項5】
予め設定された第2の特徴抽出モデルに基づいて、前記認識対象オーディオデータの意味特徴を決定することは、
前記認識対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記認識対象オーディオデータの意味特徴を出力して得ること、を含む、
請求項に記載の方法。
【請求項6】
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することは、
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成すること、を含む、
請求項に記載の方法。
【請求項7】
前記話速特徴及び前記意味特徴を、予め設定された顔口型決定モデルに入力して処理を行い、処理された結果及び前記予め設定された顔画像に基づいて、口型を有する顔画像を生成することは、
前記予め設定された顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記認識対象オーディオデータの結合特徴を得ることであって、前記結合特徴は、話速特徴及び意味特徴を表す、ことと、
前記予め設定された顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項6に記載の方法。
【請求項8】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項7に記載の方法。
【請求項9】
前記認識対象オーディオデータの話速特徴が表す数値が、予め設定された話速閾値よりも小さいと決定した場合、前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成すること、をさらに含む、
請求項に記載の方法。
【請求項10】
顔口型決定モデルをトレーニングする方法であって、
トレーニング対象画像データ及び予め設定された顔画像を取得することであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、ことと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、ことと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することと、を含む、
顔口型決定モデルをトレーニングする方法。
【請求項11】
前記トレーニング対象オーディオデータのオーディオ特徴を決定することは、
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することであって、前記第1の特徴抽出モデルは、トレーニング対象オーディオデータから話速特徴を抽出することに用いられる、ことと、
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することであって、前記第2の特徴抽出モデルは、トレーニング対象オーディオデータから意味特徴を抽出することに用いられる、ことと、を含む、
請求項10に記載の方法。
【請求項12】
予め設定された第1の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することは、
前記トレーニング対象オーディオデータを予め設定された第1の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの音声事後確率特徴を得ることであって、前記音声事後確率特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することと、を含む、
請求項11に記載の方法。
【請求項13】
前記トレーニング対象オーディオデータの音声事後確率特徴に基づいて、前記トレーニング対象オーディオデータの話速特徴を決定することは、
前記音声事後確率特徴に対して高速フーリエ変換処理を行い、周波数領域信号特徴を得ることであって、前記周波数領域信号特徴は、トレーニング対象オーディオデータの音素カテゴリの情報を表す、ことと、
予め設定された周波数帯域サイズに基づいて、前記周波数領域信号特徴を少なくとも2つの周波数帯域の周波数領域信号特徴に分割することと、
前記少なくとも2つの周波数帯域の周波数領域信号特徴に対して積分処理して、前記トレーニング対象オーディオデータの話速特徴を得ることと、を含む、
請求項12に記載の方法。
【請求項14】
予め設定された第2の特徴抽出モデルに基づいて、前記トレーニング対象オーディオデータの意味特徴を決定することは、
前記トレーニング対象オーディオデータを予め設定された第2の特徴抽出モデルに入力して特徴抽出を行い、前記トレーニング対象オーディオデータの意味特徴を出力して得ること、を含む、
請求項11に記載の方法。
【請求項15】
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることは、
前記初期の顔口型決定モデルに基づいて、前記話速特徴及び前記意味特徴に対して結合処理を行い、前記トレーニング対象オーディオデータの結合特徴を得ることであって、前記結合特徴は、話速特徴及び意味特徴を表す、ことと、
前記初期の顔口型決定モデルにおける畳み込み層に基づいて、前記結合特徴に対して特徴抽出を行い、顔駆動パラメータを得ることであって、前記顔駆動パラメータは、顔画像における口型の変化を駆動するために必要なパラメータを表すことに用いられる、ことと、
前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることと、を含む、
請求項10に記載の方法。
【請求項16】
前記顔駆動パラメータは混合変形の重みパラメータであり、前記顔駆動パラメータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を得ることは、
前記混合変形の重みパラメータに基づいて、前記予め設定された顔画像に対応する顔3次元メッシュデータを決定することであって、前記顔3次元メッシュデータは、顔画像での顔表面の3次元メッシュモデルを表すデータである、ことと、
前記顔3次元メッシュデータに基づいて、前記予め設定された顔画像に対して画像レンダリングを行い、口型を有する顔画像を生成することと、を含む、
請求項15に記載の方法。
【請求項17】
トレーニング対象画像データを取得することは、
前記トレーニング対象オーディオデータを取得することと、
前記トレーニング対象オーディオデータに基づいて顔画像の3次元再構成処理を行い、前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータを得ることと、
前記トレーニング対象オーディオデータに対応する顔3次元メッシュデータに基づいて、前記トレーニング対象顔画像を得ることと、を含む、
請求項10に記載の方法。
【請求項18】
口型に基づく顔画像を生成する装置であって、
認識対象オーディオデータ及び予め設定された顔画像を取得することに用いられるデータ取得ユニットと、
前記認識対象オーディオデータのオーディオ特徴を決定することに用いられる特徴決定ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴決定ユニットと、
前記話速特徴及び前記意味特徴に基づいて前記予め設定された顔画像に対して処理を行い、口型を有する顔画像を生成することに用いられる画像生成ユニットと、を含む、
口型に基づく顔画像を生成する装置。
【請求項19】
顔口型決定モデルをトレーニングする装置であって、
トレーニング対象画像データ及び予め設定された顔画像を取得することに用いられる画像取得ユニットであって、前記トレーニング対象画像データにはトレーニング対象オーディオデータ及びトレーニング対象顔画像が含まれ、前記トレーニング対象顔画像はトレーニング対象オーディオデータに対応する口型を有する、画像取得ユニットと、
前記トレーニング対象オーディオデータのオーディオ特徴を決定することに用いられる特徴抽出ユニットであって、前記オーディオ特徴は、話速特徴及び意味特徴を含む、特徴抽出ユニットと、
前記話速特徴、前記意味特徴及び前記予め設定された顔画像に基づいて、初期の顔口型決定モデルに対してトレーニングを行い、口型を有する顔画像を得ることに用いられるモデルトレーニングユニットと、
口型を有する顔画像と前記トレーニング対象顔画像とが一致する場合、トレーニングが完了した顔口型決定モデルを得ると判定することに用いられるモデル取得ユニットと、を含む、
顔口型決定モデルをトレーニングする装置。
【請求項20】
電子機器であって、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信的に接続されるメモリを含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、請求項1~9又は請求項10~17のいずれか一項に記載の方法を実行させることができる、電子機器。
【請求項21】
コンピュータ命令を記憶している非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~9又は請求項10~17のいずれか一項に記載の方法を実行させるためのものである、非一時的なコンピュータ可読記憶媒体。
【請求項22】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1~9又は請求項10~17のいずれか一項に記載の方法のステップが実現される、コンピュータプログラム製品。
【外国語明細書】