IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドの特許一覧

特開2023-11742画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
<>
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図1
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図2
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図3
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図4
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図5
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図6
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図7
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図8
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図9
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図10
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図11
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図12
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図13
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図14
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図15
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図16
  • 特開-画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム 図17
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023011742
(43)【公開日】2023-01-24
(54)【発明の名称】画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
(51)【国際特許分類】
   G06T 13/40 20110101AFI20230117BHJP
   G06T 13/20 20110101ALI20230117BHJP
   G06N 3/02 20060101ALI20230117BHJP
   G06N 20/00 20190101ALI20230117BHJP
   G10L 25/57 20130101ALI20230117BHJP
   G10L 19/00 20130101ALI20230117BHJP
【FI】
G06T13/40
G06T13/20 500
G06N3/02
G06N20/00
G10L25/57
G10L19/00 312F
【審査請求】有
【請求項の数】23
【出願形態】OL
【公開請求】
(21)【出願番号】P 2022171959
(22)【出願日】2022-10-27
(31)【優先権主張番号】202111321970.8
(32)【優先日】2021-11-09
(33)【優先権主張国・地域又は機関】CN
(71)【出願人】
【識別番号】514322098
【氏名又は名称】ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド
【氏名又は名称原語表記】Beijing Baidu Netcom Science Technology Co., Ltd.
【住所又は居所原語表記】2/F Baidu Campus, No.10, Shangdi 10th Street, Haidian District, Beijing 100085, China
(74)【代理人】
【識別番号】100083116
【弁理士】
【氏名又は名称】松浦 憲三
(72)【発明者】
【氏名】胡 天舒
(72)【発明者】
【氏名】何 聲一
(72)【発明者】
【氏名】韓 鈞宇
(72)【発明者】
【氏名】洪 智濱
(57)【要約】      (修正有)
【課題】音声により顔アニメーションを生成する画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
【解決手段】画像処理方法は、参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成することと、第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成することと、第2の顔画像を前記目標音声で駆動された後の顔画像とすることと、を含む。
【選択図】図1
【特許請求の範囲】
【請求項1】
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成することと、
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成することと、
前記第2の顔画像を前記目標音声で駆動された後の顔画像とすることと、を含む、
画像処理方法。
【請求項2】
前記第1の顔画像を生成することは、
複数の次元の第1の連続型ランダム変数を取得し、前記第1の連続型ランダム変数が所定分布に合致し、前記所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応することと、
所定のランダム変数と顔画像との対応関係、及び前記第1の連続型ランダム変数に基づいて、前記第1の顔画像を生成することと、を含む、
請求項1に記載の画像処理方法。
【請求項3】
前記所定のランダム変数と顔画像との対応関係の生成手順は、
前記所定分布に合致する複数の次元の第2の連続型ランダム変数を取得することと、
前記第2の連続型ランダム変数に基づいて第3の顔画像を生成することと、
前記第3の顔画像と前記参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、前記第3の顔画像と前記参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、前記第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行することと、を含む、
請求項2に記載の画像処理方法。
【請求項4】
前記第3の顔画像と前記参考顔画像とに基づいて前記対応関係を生成することは、
前記第3の顔画像を符号化して、前記第1の連続型ランダム変数と次元が同一である第1の顔画像コードを得ることと、
前記第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにすることと、
調整後の第1の顔画像コードと第3の顔画像とに基づいて前記対応関係を特定することと、を含む、
請求項3に記載の画像処理方法。
【請求項5】
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成することは、
前記目標音声に応じて、前記第1の連続型ランダム変数のうちの少なくとも1つの前記顔面動作情報に対応する次元に対応する調整ベクトルを生成することと、
前記調整ベクトルに基づいて、前記第1の連続型ランダム変数が前記調整ベクトルの方向にずれるように、前記第1の連続型ランダム変数を調整することと、を含む、
請求項2~4の何れか一項に記載の画像処理方法。
【請求項6】
前記調整ベクトルは所定分布に合致する、
請求項5に記載の画像処理方法。
【請求項7】
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得ることと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることと、
前記トレーニング対象の顔駆動モデルの顔生成モデルを利用して、前記調整ベクトルと前記第2の顔画像コードとに基づいて、第5の顔画像を生成することと、
前記第5の顔画像の顔面動作情報と前記目標オーディオとに基づいて、前記音声プロセッサをトレーニングすることと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得ることと、を含む、
モデル生成方法。
【請求項8】
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成することと、
前記第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、前記トレーニング対象の顔生成モデルをトレーニングして、前記顔生成モデルを得ることと、をさらに含む、
請求項7に記載のモデル生成方法。
【請求項9】
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得ることと、
トレーニング対象の顔符号化モデルを利用して、前記第7の顔画像を符号化して、前記第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得ることと、
前記第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、前記トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得ることと、をさらに含む、
請求項7又は8に記載のモデル生成方法。
【請求項10】
前記目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることは、
前記目標音声を前記音声プロセッサの音声エンコーダに入力して、目標音声コードを得ることと、
前記目標音声コードを前記音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにすることと、
前記調整後の目標音声コードを前記調整ベクトルとすることと、を含む、
請求項7~9の何れか一項に記載のモデル生成方法。
【請求項11】
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成するための第1の顔画像生成モジュールと、
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成するための第2の顔画像生成モジュールと、
前記第2の顔画像を前記目標音声で駆動された後の顔画像とするための駆動モジュールと、を含む、
画像処理装置。
【請求項12】
前記第1の顔画像生成モジュールは、
複数の次元の第1の連続型ランダム変数を取得するために用いられ、前記第1の連続型ランダム変数が所定分布に合致し、前記所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応する第1のランダム変数生成手段と、
所定のランダム変数と顔画像との対応関係、及び前記第1の連続型ランダム変数に基づいて、前記第1の顔画像を生成するための第1のランダム変数変換手段と、を含む、
請求項11に記載の画像処理装置。
【請求項13】
前記所定のランダム変数と顔画像との対応関係の生成手順は、
前記所定分布に合致する複数の次元の第2の連続型ランダム変数を取得することと、
前記第2の連続型ランダム変数に基づいて第3の顔画像を生成することと、
前記第3の顔画像と前記参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、前記第3の顔画像と前記参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、前記第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行することと、を含む、
請求項12に記載の画像処理装置。
【請求項14】
前記第3の顔画像と前記参考顔画像とに基づいて前記対応関係を生成することは、
前記第3の顔画像を符号化して、前記第1の連続型ランダム変数と次元が同一である第1の顔画像コードを得ることと、
前記第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにすることと、
調整後の第1の顔画像コードと第3の顔画像とに基づいて前記対応関係を特定することと、を含む、
請求項13に記載の画像処理装置。
【請求項15】
前記第2の顔画像生成モジュールは、
前記目標音声に応じて、前記第1の連続型ランダム変数のうちの少なくとも1つの前記顔面動作情報に対応する次元に対応する調整ベクトルを生成するための調整ベクトル手段と、
前記調整ベクトルに基づいて、前記第1の連続型ランダム変数が前記調整ベクトルの方向にずれるように、前記第1の連続型ランダム変数を調整するための調整手段と、を含む、
請求項12~14の何れか一項に記載の画像処理装置。
【請求項16】
前記調整ベクトルは所定分布に合致する、
請求項15に記載の画像処理装置。
【請求項17】
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得るための第1の入力モジュールと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得るための第2の入力モジュールと、
前記トレーニング対象の顔駆動モデルの顔生成モデルを利用して、前記調整ベクトルと前記第2の顔画像コードとに基づいて、第5の顔画像を生成するための第1の出力モジュールと、
前記第5の顔画像の顔面動作情報と前記目標オーディオとに基づいて、前記音声プロセッサをトレーニングするための第1のトレーニングモジュールと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得るための第2のトレーニングモジュールと、を含む、
モデル生成装置。
【請求項18】
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成するための第3の入力モジュールと、
前記第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、前記トレーニング対象の顔生成モデルをトレーニングして、前記顔生成モデルを得るための第3のトレーニングモジュールと、をさらに含む、
請求項17に記載のモデル生成装置。
【請求項19】
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得るための第4の入力モジュールと、
トレーニング対象の顔符号化モデルを利用して、前記第7の顔画像を符号化して、前記第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得るための第2の出力モジュールと、
前記第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、前記トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得るための第4のトレーニングモジュールと、をさらに含む、
請求項17又は18に記載のモデル生成装置。
【請求項20】
前記第2の入力モジュールは、
前記目標音声を前記音声プロセッサの音声エンコーダに入力して、目標音声コードを得るための目標音声符号化手段と、
前記目標音声コードを前記音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにするためのマッピング手段と、
前記調整後の目標音声コードを前記調整ベクトルとするための調整ベクトル手段と、を含む、
請求項17~19の何れか一項に記載のモデル生成装置。
【請求項21】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行することができる、
電子機器。
【請求項22】
コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項23】
プロセッサにより実行される場合に、請求項1~10のいずれか一項に記載の方法のステップを実現することを特徴とするコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は人工知能の技術分野に関し、特にディープラーニング、コンピュータ視覚等の技術分野に関する。
【背景技術】
【0002】
顔駆動とは、ある媒体を内容参考として一枚の人物ピクチャを駆動することで、人物ピクチャを利用して参考内容とマッチングする人物ビデオを生成することを指す。近年、ショートビデオ及び生放送の人気によって、内容創作の空前の繁栄をもたらし、仮想現実技術の絶えないアップグレードによって、より多くの可能性を内容創作に与える。顔駆動技術もこれらの内容創作の後ろの重要なサポート技術になる。
【0003】
一般的に、顔駆動作品がリアルになるほど、リアルなシーンに近いほど、効果がよくなると考えられる。如何にして顔駆動作品が呈する効果を向上させるかは、顔駆動技術を改善する重点である。
【発明の概要】
【0004】
本開示は、画像処理方法及び装置、モデルトレーニング方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供している。
【0005】
本開示の1つの局面は、画像処理方法であって、
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成することと、
第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が目標音声の発音規則に合致する第2の顔画像を生成することと、
第2の顔画像を目標音声で駆動された後の顔画像とすることと、を含む、
画像処理方法を提供している。
【0006】
本開示の別の局面によれば、モデル生成方法であって、
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得ることと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることと、
トレーニング対象の顔駆動モデルの顔生成モデルを利用して、調整ベクトルと第2の顔画像コードとに基づいて、第5の顔画像を生成することと、
第5の顔画像の顔面動作情報と目標オーディオとに基づいて、音声プロセッサをトレーニングすることと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得ることと、を含む、
モデル生成方法を提供している。
【0007】
本開示の別の局面によれば、画像処理装置であって、
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成するための第1の顔画像生成モジュールと、
第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が目標音声の発音規則に合致する第2の顔画像を生成するための第2の顔画像生成モジュールと、
第2の顔画像を目標音声で駆動された後の顔画像とするための駆動モジュールと、を含む、
画像処理装置を提供している。
【0008】
本開示の別の局面によれば、モデル生成装置であって、
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得るための第1の入力モジュールと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得るための第2の入力モジュールと、
トレーニング対象の顔駆動モデルの顔生成モデルを利用して、調整ベクトルと第2の顔画像コードとに基づいて、第5の顔画像を生成するための第1の出力モジュールと、
第5の顔画像の顔面動作情報と目標オーディオとに基づいて、音声プロセッサをトレーニングするための第1のトレーニングモジュールと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得るための第2のトレーニングモジュールと、を含む、
モデル生成装置を提供している。
【0009】
本開示の別の局面によれば、
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
該メモリに、該少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、該コマンドが該少なくとも1つのプロセッサによって実行されることで、該少なくとも1つのプロセッサが本開示の何れかの実施形態における方法を実行することができる、
電子機器を提供している。
【0010】
本開示の別の局面によれば、コンピュータに本開示の何れかの実施形態における方法を実行させるためのコンピュータコマンドを記憶している、非一時的なコンピュータ読取可能な記憶媒体を提供している。
【0011】
本開示の別の局面によれば、プロセッサにより実行される場合に、本開示の何れかの実施形態における方法を実現するコンピュータプログラムを提供している。
【0012】
本開示の技術によれば、参考顔画像に基づいて、解像度及び真実性がいずれも所定閾値より大きい第1の顔画像を生成し、さらに目標音声を採用して第1の顔画像を駆動することで、得られた第2の顔画像の口の形、顔面肌理等の情報が、十分に豊富でリアルに目標音声と一致する発音効果を呈する。
【0013】
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
【図面の簡単な説明】
【0014】
ここで、図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
図1図1は、本開示の一実施例による画像処理方法の概略図である。
図2図2は、本開示の別の実施例による画像処理方法の概略図である。
図3図3は、本開示のさらに別の実施例による画像処理方法の概略図である。
図4図4は、本開示のさらに別の実施例による画像処理方法の概略図である。
図5図5は、本開示のさらに別の実施例による画像処理方法の概略図である。
図6図6は、本開示のさらに別の実施例による画像処理方法の概略図である。
図7図7は、本開示のさらに別の実施例による画像処理方法の概略図である。
図8図8は、本開示の一例によるモデルトレーニングの概略図である。
図9図9は、本開示の別の例によるモデルトレーニングの概略図である。
図10図10は、本開示の一実施例による画像処理装置の概略図である。
図11図11は、本開示の別の実施例による画像処理装置の概略図である。
図12図12は、本開示のさらに別の実施例による画像処理装置の概略図である。
図13図13は、本開示のさらに別の実施例による画像処理装置の概略図である。
図14図14は、本開示のさらに別の実施例による画像処理装置の概略図である。
図15図15は、本開示のさらに別の実施例による画像処理装置の概略図である。
図16図16は、本開示のさらに別の実施例による画像処理装置の概略図である。
図17図17は、本開示の実施例の画像処理方法を実現するための電子機器のブロック図である。
【発明を実施するための形態】
【0015】
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
【0016】
また、本開示をよりよく説明するために、以下の具体的な実施形態において多くの具体的な詳細を示す。当業者に理解されるように、ある具体的な詳細がなくても、本開示は同様に実施可能である。いくつかの実施例において、本開示の要旨を強調するように、当業者によく知られている方法、手段、素子及び回路について詳細に説明していない。
【0017】
本開示の実施例によれば、画像処理方法を提供し、図1は本開示の実施例による画像処理方法に基づくフロー概略図であり、該方法が画像処理装置に応用されてよく、例えば、該装置は、端末、サーバ、又は他の処理機器に配置されて実行する場合、顔画像の生成、顔画像の調整、顔面動作情報の生成等を実行することができる。ここで、端末は、ユーザ機器(UE,User Equipment)、移動機器、携帯電話、コードレス電話、パーソナルデジタルアシスタント(PDA,Personal Digital Assistant)、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器などであってよい。いくつかの可能な実現形態において、該方法は、プロセッサによってメモリに記憶されているコンピュータ読取可能なコマンドを呼び出す方式で実現されてもよい。図1に示すように、画像処理方法は、
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成するステップS11と、
第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が目標音声の発音規則に合致する第2の顔画像を生成するステップS12と、
第2の顔画像を目標音声で駆動された後の顔画像とするステップS13とを含む。
【0018】
本実施例において、第1の顔画像は、顔面特徴がランダムに生成された顔画像であってよい。参考顔画像は、任意のリアルかつ高解像度の顔画像であってよく、即ち、解像度が所定閾値より大きいリアルな顔の画像であってよい。参考顔画像は、面相特徴が第1の顔画像と完全に異なる顔の画像であってよい。
【0019】
第1の顔画像と参考顔画像との間の解像度相違及び真実性相違が所定範囲内にあり、即ち、第1の顔画像と参考顔画像との間の解像度相違及び真実性相違が所定閾値より小さいことによって、第1の顔画像が高解像度かつリアルである。
【0020】
例えば、第1の顔画像の解像度は、参考顔画像の解像度から所定相違閾値を減算した値以上であることを満たす場合、第1の顔画像と参考顔画像との間の解像度相違が所定範囲内にあると考えられる。
【0021】
さらに例えば、第1の顔画像の真実性は、参考顔画像の真実性データから所定の相違閾値を減算した値以上である場合、第1の顔画像と参考顔画像との間の真実性相違が所定範囲内にあると考えられる。
【0022】
第1の顔画像を駆動するための目標音声は、第1の顔画像が変化する時に参考を提供して、変化後の第1の顔画像における口の形、顔面筋肉等が目標音声のうちの少なくとも1つの音節の発音方式と一致するようにするために用いられる。
【0023】
目標音声は少なくとも1つの音節を含んでよい。
【0024】
例えば、目標音声が「ニイハオ」でれば、目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報、即ち顔面各組織の位置が音節「ニイ」又は「ハオ」と一致するように、第1の顔画像を調整して、第2の顔画像を得る。
【0025】
本実施例において、顔面組織位置は目標音声の発音規則に合致することは、顔画像におけるすべての顔面組織位置が目標音声の発音規則に合致してもよく、顔画像における一部の顔面組織位置が目標音声の発音規則に合致してもよい。
【0026】
第2の顔画像は少なくとも一枚の画像であってよい。
【0027】
本実施例において、参考顔画像に基づいて、解像度及び真実性がいずれも所定閾値より大きい第1の顔画像を生成し、さらに目標音声を採用して第1の顔画像を駆動することで、得られた第2の顔画像の口の形、顔面肌理等の情報が、十分に豊富でリアルに目標音声と一致する発音効果を呈する。
【0028】
一実施形態において、第1の顔画像を生成することは、
複数の次元の第1の連続型ランダム変数を取得し、第1の連続型ランダム変数が所定分布に合致し、所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応することと、
所定のランダム変数と顔画像との対応関係、及び第1の連続型ランダム変数に基づいて、第1の顔画像を生成することとを含む。
【0029】
本実施例において、複数の次元は、複数の独立した座標数であってよく、各次元の数は一種の顔面情報を表すことができ、例えば、複数の次元のうちのn1次元が目の情報に対応し、n2次元が顔の形の情報に対応するなど。
【0030】
所定分布は、一定の連続型数学的分布であってよく、例えば、正規分布、一様分布、指数分布などであってよい。標準的な数学的分布であってもよく、変形した数学的分布であってもよい。
【0031】
所定分布の連続型ランダム変数の全体集合において、任意の連続型ランダム変数が唯一のリアルな顔特徴に対応し、即ち、唯一のリアルな顔の画像に対応し、連続型ランダム変数の全体集合には無限の連続型ランダム変数が存在し、顔の可能な五官、肌色等の特徴の全体集合に対応する。
【0032】
所定のランダム変数と顔画像との対応関係、及び第1の連続型ランダム変数に基づいて、第1の顔画像を生成することは、所定分布に合致するランダム変数の全体集合と顔画像の全体集合との間の対応関係に基づいて、第1の連続型ランダム変数に対応する顔特徴を特定し、されに第1の顔画像を生成することであってよい。
【0033】
本実施例において、所定分布に合致する第1の連続型ランダム変数に基づいて、第1の顔画像を生成することで、真実性を有する顔特徴を迅速に取得でき、且つ生成された顔はランダム性を有する。
【0034】
一実施形態において、図2に示すように、所定のランダム変数と顔画像との対応関係の生成手順は、
所定分布に合致する複数の次元の第2の連続型ランダム変数を取得するステップS21と、
第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップS22と、
第3の顔画像と参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、第3の顔画像と参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行するステップS23とを含む。
【0035】
本実施例において、第2の連続型ランダム変数に基づいて第3の顔画像を生成することは、デフォルトの連続型ランダム変数のうちの各次元データと顔画像における特徴との関係に基づいて、ランダムな面相の顔画像を生成することであってよい。顔画像における特徴と連続型ランダム変量のうちの各次元データとの関係は、式によって示されてよい。
【0036】
第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行する時、連続型ランダム変数と顔画像における特徴との関係の関連付けを調整してよく、具体的に、例えば、連続型ランダム変数に応じて特徴を取得する式又は式のパラメータを調整してよい。
【0037】
連続型ランダム変数が所定分布に合致することは、連続型ランダム変数のすべての次元のデータによって所定分布がフィッティングされ得ることであってよい。
【0038】
本実施例において、連続型ランダム変数のうちの各次元データと顔画像における特徴との対応関係を特定する時、真実性及び解像度を基準とし、真実性又は解像度条件を満たさない場合、連続型ランダム変数のうちの各次元データと顔画像における特徴との関連付けを調整することで、最終的に、特定された特徴とデータとの間の関係によって、高解像度かつリアルな顔を取得することができる。
【0039】
一実施形態において、図3に示すように、第3の顔画像と参考顔画像とに基づいて、対応関係を生成することは、
第3の顔画像を符号化して、第1の連続型ランダム変数と次元が同じである第1の顔画像コードを得るステップS31と、
第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにするステップS32と、
調整後の第1の顔画像コードと第3の顔画像とに基づいて、対応関係を特定するステップS33とを含む。
【0040】
本実施例において、任意の利用可能な画像符号化方式を採用して、第3の顔画像を符号化してよく、第1の連続型ランダム変数と同一の分布に属し、かつ次元が同一であるデータを得る。
【0041】
調整後の第1の顔画像コードと第3の顔画像とに基づいて、対応関係を特定することは、調整後の第1の顔画像コードと第3の顔画像との間の対応関係を確立することで、後で対応関係に基づいて、類似のコード(即ち、前述したランダム変数)を基に第3の顔画像の解像度及び真実性に近い顔画像を生成できることであってよい。
【0042】
本実施例において、連続型ランダム変数と顔画像との間の対応関係を特定した後、さらにリアルな顔画像を符号化して、逆方向に顔画像と連続型ランダム変数との間の関係を特定することで、ランダムに生成された連続型変数に応じてリアルかつ高解像度の顔画像を生成可能であることをさらに確保した。
【0043】
一実施形態において、第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面変動情報、顔面動作情報を調整して、顔面組織位置が目標音声の発音規則に合致する第2の顔画像を生成することは、
目標音声に応じて、第1の連続型ランダム変数のうちの少なくとも1つの顔面動作情報に対応する次元に対応する調整ベクトルを生成することと、
調整ベクトルに基づいて、第1の連続型ランダム変数が調整ベクトルの方向にずれるように、第1の連続型ランダム変数を調整することとを含む。
【0044】
本実施例において、調整ベクトルの次元が連続型ランダム変数より少なくても良く、顔面動作情報の連続型ランダム変数における次元に対応する。例えば、調整ベクトルは、口の開閉程度、口の形、顔面第1の筋肉のテクスチャ、顔面第2の筋肉のテクスチャ等を表現するための多次元データを含んでよく、各次元データが一種の顔面組織位置情報を対応的に表現する。
【0045】
1つの可能な実施形態において、調整ベクトルは所定の顔面組織変位の正確度に応じて次元を決定してよく、例えば、顔面組織動作変位の正確性要求が低い場合、一次元データを採用して口の形状を表現してよく、顔面組織動作変位の正確性要求が高い場合、多次元データを採用して口の形状を表現してよい。
【0046】
調整ベクトルに基づいて、第1の連続型ランダム変数が調整ベクトルの方向にずれるように、第1の連続型ランダム変数を調整することは、第1の連続型ランダム変数のうち、調整ベクトルに対応する次元のデータを調整ベクトルになるべく接近させることであってよい。第1の連続型ランダム変数を調整するとともに、調整後の連続型ランダム変数が依然として所定分布に合致するように限定してもよい。
【0047】
本実施例において、調整ベクトルによって、顔画像が目標音声と一致する顔面動作、表情、発音等の情報を呈するように、顔面動作情報を変えることができる。
【0048】
一実施形態において、調整ベクトルが所定分布に合致する。
【0049】
調整ベクトルが所定分布に合致することは、調整ベクトルの多次元データ自身が所定分布にフィッティングされ得ることを指してよい。又は、調整ベクトルの次元と第1の連続型ランダム変数の次元とが同じになるように、調整ベクトルを次元補完した後、所定分布に合致する。
【0050】
本実施例において、調整ベクトルが所定分布に合致することは、目標音声の発音要求に応じて調整された後の顔面画像が、依然として高解像度及びリアルの要求を満たすことを保証できる。
【0051】
本開示の実施例は、さらにモデル生成方法を提供し、図4に示すように、
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得るステップS41と、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得るステップS42と、
トレーニング対象の顔駆動モデルの顔生成モデルを利用して、調整ベクトルと第2の顔画像コードとに基づいて、第5の顔画像を生成するステップS43と、
第5の顔画像の顔面動作情報と目標オーディオとに基づいて、音声プロセッサをトレーニングするステップS44と、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得るステップS45と、を含む。
【0052】
本実施例において、音声プロセッサを個別にトレーニングしてもよく、音声プロセッサを顔符号化モデル、顔生成モデルと融合トレーニングしてもよい。
【0053】
第5の顔画像の顔面動作情報と目標オーディオとに基づいて、音声プロセッサをトレーニングすることは、オーディオプロセッサの発生したコードによって顔生成器(顔生成モデル)がリアル、高解像度且つ目標オーディオの発音規則に合致する顔画像を生成可能にするように、顔面動作情報と目標オーディオとの合致程度に基づいてオーディオプロセッサをトレーニング又は最適化することであってよい。
【0054】
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得ることは、音声プロセッサと、顔生成モデルと、顔符号化モデルとを組合せて、顔駆動モデルを得ることであってよい。
【0055】
近年、多くのトレンディな内容創作者は、いくつかの先端の技術を結合してより多くのサプライズを人々に作ろうとしており、例えば、音声でモナリザを歌わせたり、仮想キャラクタを創造して、生放送時にキャラクタを駆動することで視聴者と対話したりする。これらの創作の後ろは、いずれも顔駆動技術に係る。音声で顔を駆動する過程において、音声ファイルの形式で存在する発話内容C及び一枚の人物写真を与えて、理想的な状態では、顔駆動技術によって、ビデオを得ることができ、ビデオの内容は、人物写真における人物が内容Cを話しており、且つビデオの任意時刻での人物の口の形も内容Cにおける同一時刻での音声と正確にマッチングすることができる。音声で顔を駆動することにとって、人物を高品質でモデリングすることが複雑なことであり、それは、大部分のビデオデータの品質がばらつき、多くのデータ中の顔がぼやけ、それによりモデルトレーニングの時に如何に高品質の顔をモデリングするかをうまく学習することができないためである一方、音声駆動の過程において、口部が常に動いているため、口や、歯等の顔面組織を含む口部に位置あわせして安定にモデリングすることが困難であり、それにより生成された結果は口部が特にぼやけ、ひいてはリアルではないことが多い。
【0056】
本開示の実施例が提供したモデル生成方法によって、顔駆動モデルをトレーニングする時、オーディオエンコーダと顔符号化モデル、顔生成モデル等とを別々にトレーニングしてよく、それによりオーディオ符号化モデルが発音時の顔の面部組織位置情報をより正確に学習して、動いている口部又は他の組織、筋肉等の運動状況をよりよく把握することができ、よりよく顔駆動効果を達成する。同時に、顔生成モデルは本開示の任意の実施例が提供したトレーニング後の顔生成モデルであってよく、ランダムに生成された高解像度のリアルな顔画像を提供することで、如何に音声駆動情報を生成するかをトレーニングする時に、モデルが十分に鮮明でリアルな顔面情報を学習することができる。
【0057】
本開示の実施例は、モデル生成方法をさらに提供し、図5に示すように、
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成するステップS51と、
第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、トレーニング対象の顔生成モデルをトレーニングして、顔生成モデルを得るステップS52とを含む。
【0058】
本実施例において、参考顔画像は第6の顔画像と面相特徴の点で同一ではない顔画像であってよい。
【0059】
第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、トレーニング対象の顔生成モデルをトレーニングすることは、第6の顔画像と参考顔画像との間の解像度相違及び真実性相違に基づいて、第6の顔画像と参考顔画像との間の解像度及び真実性相違が所定範囲内になるまで、トレーニング対象の顔生成モデルにおけるパラメータ又は構成を調整することであってよい。
【0060】
本実施例において、トレーニング対象の顔生成モデルに対するトレーニングによって、顔生成モデルが解像度及び真実性が高い顔画像を生成可能であり、それにより顔を駆動する過程において、生成された顔駆動画像が十分かつリアルな口部、顔面筋肉等の情報を提供することができ、リアルな、高解像度の顔駆動画像を生成することに有利である。
【0061】
1つの具体的な実施形態において、トレーニング後の顔生成モデルを基に、さらに顔駆動モデルをトレーニングする。
【0062】
本開示の実施例は、モデル生成方法をさらに提供し、図6に示すように、
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得るステップS61と、
トレーニング対象の顔符号化モデルを利用して、第7の顔画像を符号化して、第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得るステップS62と、
第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得るステップS63とを含む。
【0063】
本実施例において、顔生成モデルは、トレーニング対象の顔生成モデルであってもよく、トレーニングされた顔生成モデルであってもよい。
【0064】
本実施例において、トレーニング対象の顔エンコーダに対するトレーニングによって、トレーニングされた符号化モデルは、顔生成モデルの逆操作を実行可能である。即ち、顔画像に基づいて、所定分布に合致しかつ顔画像を取得する元ベクトルと次元が同一であるコード(又は連続型ランダム変数)を得る。顔エンコーダは、他の実施例における顔符号化モデルに相当する。
【0065】
一実施形態において、符号化モデルをトレーニング時に使用される顔生成モデルは、本開示のいずれかの実施例が提供したモデル生成方法によってトレーニングされたものである。
【0066】
本実施例において、符号化モデルと顔生成モデルとを別々にトレーニングすることで、安定した顔生成機能及び顔画像符号化機能を学習させることに有利である。
【0067】
本実施例において、顔生成モデル及び顔符号化モデルとモデルの駆動部分とを別々にトレーニングすることができ、顔面組織が音声に伴って動く正確な情報をモデルに学習させることに役立つ。
【0068】
一実施形態において、図7に示すように、目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることは、
目標音声を音声プロセッサの音声エンコーダに入力して、目標音声コードを得るステップS71と、
目標音声コードを音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにするステップS72と、
調整後の目標音声コードを調整ベクトルとするステップS73とを含む。
【0069】
1つの可能な実現形態において、マッピングネットワークは固定構成であってもよく、音声エンコーダのトレーニング中に、同時にパラメータ最適化が行われてもよい。
【0070】
本実施例において、目標音声コードを音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにするため、調整後の目標音声のコードが顔生成器によってリアルかつ高解像度の顔面画像情報に変換され得る。
【0071】
本開示の一例において、顔駆動モデルのトレーニングプロセスは、高解像度顔事前モデルのトレーニングと事前情報(facial prior)に基づく顔駆動モデルのトレーニングとの2つの部分に分けられる。
【0072】
高解像度顔事前モデル(即ち、前述した実施例で言及した顔生成モデル)をトレーニングすることで、リアルな高解像度の顔を生成可能な顔生成モデルを得る。顔ビッグデータに対する研究によって、世界中の顔特徴の分布が正規分布またはガウス分布の特徴に合致することを発見した。本例において、図8に示すように、1つのガウス分布からランダムにサンプリングして1つの隠しコード(latent code)wを得て、隠しコードwの次元は1×512であってよい。これを基に、顔生成器81によってランダムな顔特徴を有する顔ピクチャを一枚生成する。顔生成器81は他の実施例における顔生成モデルであってよい。
【0073】
本例において、再び図8を参照して、顔生成器81は予め高解像度顔データ及び顔判別器82によって監視してよく、即ち、リアルな人類の顔画像とトレーニング対象の顔生成器81により生成された画像とを対比し、二分類の方式で対比結果を生成して、対比結果に基づいてトレーニング対象の顔生成器81を敵対的トレーニングすることで、最終的にトレーニングされた顔生成器81によって生成された結果が高解像度且つリアルなものである。
【0074】
本例において、再び図8を参照して、顔生成器81に基づいて、顔ピクチャを隠しコードに圧縮可能な顔エンコーダ83をさらにトレーニングしてもよく、該顔エンコーダ83は顔生成器の逆操作を実行して、ピクチャを隠しコードに変換するために用いられる。顔エンコーダ83は他の実施例における顔符号化モデルであってよい。
【0075】
本例の1つの具体的な可能な実現形態において、再び図8を参照して、顔エンコーダ83は顔生成器81と同時にトレーニングされたものであってよい。顔生成器81によって顔ピクチャが生成された後、顔エンコーダ83によってピクチャを新たに符号化して、目、口の形、筋肉等の顔面特徴を取得し、隠しコードw’を得て、さらに、元のサンプリングで得られたコードwによってw’を監視して、w’とwとに同一の分布を共有させてよく、監視時にw’とwとをできるだけ一致させてもよい。それにより、顔エンコーダ83によって生成されたコードw’に基づいて、顔生成器81が顔を再構成することができる。
【0076】
図8の例を基に、顔ピクチャを隠しコードに圧縮可能な顔エンコーダ、及び隠しコードによって高解像度顔を生成可能な生成器を得ることができる。後に、この2つのトレーニング後のモデルを利用して顔駆動モデルをトレーニングしてよい。
【0077】
音声駆動に基づく顔モデルをトレーニングする時、トレーニング後の顔生成器と顔エンコーダとを事前モデルとして利用して、高解像度顔の事前情報を提供してよい。図9に示すように、顔エンコーダ91によって顔を隠しベクトルkに符号化してよい。1つの音声エンコーダ92によって顔画像を駆動するための音声内容(前述した実施例における目標音声に相当)を符号化し、1つのマッピングネットワーク93によって、音声内容の符号化結果をdelta kにマッピングする。
【0078】
1つの具体的な可能な実現形態において、再び図9を参照して、音声内容の符号化結果をdelta kにマッピングする次元と、顔生成器94が入力したベクトル次元及びエンコーダが出力したベクトル次元とが同一である。
【0079】
例えば、再び図9を参照して、顔を生成する時、1×512次元ベクトル(前述した実施例における連続型ランダム変数に相当)を顔生成器94に入力して顔画像を得て、顔エンコーダ91によって顔画像を符号化して1×512次元ベクトルに変換する。そうすると、音声エンコーダ92によって音声内容に応じて符号化され、マッピングネットワーク93を介して得られたdelta kも1×512次元ベクトルであってよく、ここで、発音に関連する顔面組織の次元の数字は、音声内容に関連してよく、他の次元の数字は0であってよい。
【0080】
本例におけるdelta kは1つの条件ベクトルと見なすことができ、元のkを修正して、kが条件ベクトルに対応する条件の方向にずれるようにするために用いられる。より具体的には、本例の音声エンコーダは音声情報を1つの条件として、調整ベクトルを生成し、調整ベクトルが顔ピクチャの情報(例えば唇形等)を修正するために用いられ、それにより最後に生成された顔画像が音声内容とマッチングすることができる。最終にdelta k+kの結果がトレーニング済みの顔生成器94に入力されて、新しい顔ピクチャが生成される。
【0081】
音声内容を利用してトレーニングする過程において、顔エンコーダ91及び顔生成器94のパラメータがいずれもそのまま固定されてよく、オーディオ同期判別器95によって顔生成器94が生成した顔元画像及び音声内容で駆動された後に生成された顔画像に基づいて損失値を算出するだけで、図9に示す音声エンコーダ92及びマッピングネットワーク93をトレーニングする。
【0082】
顔生成器は予めトレーニング済みの高解像度モデルであるため、前に学習した事前知識に基づいて、顔生成器に入力された隠しコードがkに合致するデータ分布であれば、生成された顔が高解像度かつリアルなものであることを保証できる。音声エンコーダにより得られた結果はkと同一のデータ空間分布を共有することができないことが多いことによって、音声コードがkと有意義に融合することができない可能性があるため、本例ではマッピングネットワークを採用して音声エンコーダが生成した音声内容のコードをマッピングし、音声内容のコードをkの分布空間に改めてマッピングすることで、delta k+kが有意になり、リアルな高解像度の顔面動作画面を生成することができる。
【0083】
本例において、顔生成器、顔エンコーダ、音声エンコーダ、マッピングネットワーク等を別々にトレーニングすることで、音声で駆動される高解像度顔ビデオの生成を実現することができる。顔生成器のトレーニング過程において、顔生成器が如何に高解像度顔を生成するかを学習する必要しかなく、顔駆動モデルに事前知識を提供して、顔駆動モデルによる高解像度顔に対するモデリングの難しさを低減する。これを基に、音声内容を条件として、音声内容のコードを、顔エンコーダから入力されたデータ空間分布に改めてマッピングし、顔隠しコードと結合することで、顔情報を変えて、駆動の効果を達成する。
【0084】
本開示の実施例は画像処理装置をさらに提供し、図10に示すように、
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成するための第1の顔画像生成モジュール101と、
第1の顔画像を駆動するための目標音声に応じて、第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が目標音声の発音規則に合致する第2の顔画像を生成するための第2の顔画像生成モジュール102と、
第2の顔画像を目標音声で駆動された後の顔画像とするための駆動モジュール103とを含む。
【0085】
一実施形態において、図11に示すように、第1の顔画像生成モジュールは、
複数の次元の第1の連続型ランダム変数を取得するために用いられ、第1の連続型ランダム変数が所定分布に合致し、所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応する第1のランダム変数生成手段111と、
所定のランダム変数と顔画像との対応関係、及び第1の連続型ランダム変数に基づいて、第1の顔画像を生成するための第1のランダム変数変換手段112とを含む。
【0086】
一実施形態において、所定のランダム変数と顔画像との対応関係の生成手順は、
所定分布に合致する複数の次元の第2の連続型ランダム変数を取得することと、
第2の連続型ランダム変数に基づいて第3の顔画像を生成することと、
第3の顔画像と参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、第3の顔画像と参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行することとを含む。
【0087】
一実施形態において、第3の顔画像と参考顔画像と基づいて対応関係を生成することは、
第3の顔画像を符号化して、第1の連続型ランダム変数と次元が同一である第1の顔画像コードを得ることと、
第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにすることと、
調整後の第1の顔画像コードと第3の顔画像とに基づいて、対応関係を特定することとを含む。
【0088】
一実施形態において、図12に示すように、第2の顔画像生成モジュールは、
目標音声に応じて、第1の連続型ランダム変数のうちの少なくとも1つの顔面動作情報に対応する次元に対応する調整ベクトルを生成するための調整ベクトル手段121と、
調整ベクトルに基づいて、第1の連続型ランダム変数が調整ベクトルの方向にずれるように、第1の連続型ランダム変数を調整するための調整手段122とを含む。
【0089】
一実施形態において、調整ベクトルが所定分布に合致する。
【0090】
本開示の実施例は、モデル生成装置をさらに提供し、図13に示すように、
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得るための第1の入力モジュール131と、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得るための第2の入力モジュール132と、
トレーニング対象の顔駆動モデルの顔生成モデルを利用して、調整ベクトルと第2の顔画像コードとに基づいて、第5の顔画像を生成するための第1の出力モジュール133と、
第5の顔画像の顔面動作情報と目標オーディオとに基づいて、音声プロセッサをトレーニングするための第1のトレーニングモジュール134と、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得るための第2のトレーニングモジュール135とを含む。
【0091】
一実施形態において、図14に示すように、モデル生成装置はさらに、
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成するための第3の入力モジュール141と、
第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、トレーニング対象の顔生成モデルをトレーニングして、顔生成モデルを得るための第3のトレーニングモジュール142とを含む。
【0092】
一実施形態において、図15に示すように、モデル生成装置はさらに、
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得るための第4の入力モジュール151と、
トレーニング対象の顔符号化モデルを利用して、第7の顔画像を符号化して、第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得るための第2の出力モジュール152と、
第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得るための第4のトレーニングモジュール153とを含む。
【0093】
一実施形態において、図16に示すように、第2の入力モジュールは、
目標音声を音声プロセッサの音声エンコーダに入力して、目標音声コードを得るための目標音声符号化手段161と、
目標音声コードを音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにするためのマッピング手段162と、
調整後の目標音声コードを調整ベクトルとするための調整ベクトル手段163とを含む。
【0094】
本開示の技術案では、係られたユーザ個人情報の取得、記憶及び応用などは、いずれも関連法律や法規の規定に合致しており、公序良俗に反していない。
【0095】
本開示の実施例によれば、本開示は電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。
【0096】
図17は、本開示の実施例を実現するための例示的な電子機器170の概略的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置である。本明細書に示された部材、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定しない。
【0097】
図17に示すように、機器170は、計算手段171を含み、計算手段171は、リードオンリーメモリ(ROM)172に記憶されたコンピュータプログラム又は記憶手段178からランダムアクセスメモリ(RAM)173にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。RAM173には、さらに機器170の操作に必要な様々なプログラム及びデータを記憶してもよい。計算手段171、ROM172、及びRAM173は、バス174を介して相互に接続される。入出力(I/O)インターフェース175も、バス174に接続される。
【0098】
機器170における複数の部品は、I/Oインターフェース175に接続され、例えばキーボード、マウス等の入力手段176と、例えば様々な種類のディスプレイ、スピーカ等の出力手段177と、例えば磁気ディスク、光ディスク等の記憶手段178と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段179とを含む。通信手段179は、機器170がインターネット等のコンピュータネットワーク及び/又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。
【0099】
計算手段171は、処理及び演算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算手段171の幾つかの例として、中央処理ユニット(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段171は、前文で記載された各方法及び処理、例えば画像処理方法を実行する。例えば、幾つかの実施例において、画像処理方法は、例えば記憶手段178のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM172及び/又は通信手段179を介して機器170にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM173にロードされて計算手段171により実行される場合、前文に記載の画像処理方法の1つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段171は、他の任意の適切な方式(例えば、ファームウェアを介する)により画像処理方法を実行するように構成されてもよい。
【0100】
本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラムマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び/又は解釈されることが可能であり、該プログラムマブルプロセッサは、専用又は汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができることを含んでもよい。
【0101】
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
【0102】
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
【0103】
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
【0104】
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
【0105】
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組合せたサーバであってもよい。
【0106】
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
【0107】
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
【手続補正書】
【提出日】2022-10-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成することと、
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成することと、
前記第2の顔画像を前記目標音声で駆動された後の顔画像とすることと、を含む、
画像処理方法。
【請求項2】
前記第1の顔画像を生成することは、
複数の次元の第1の連続型ランダム変数を取得し、前記第1の連続型ランダム変数が所定分布に合致し、前記所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応することと、
所定のランダム変数と顔画像との対応関係、及び前記第1の連続型ランダム変数に基づいて、前記第1の顔画像を生成することと、を含む、
請求項1に記載の画像処理方法。
【請求項3】
前記所定のランダム変数と顔画像との対応関係の生成手順は、
前記所定分布に合致する複数の次元の第2の連続型ランダム変数を取得することと、
前記第2の連続型ランダム変数に基づいて第3の顔画像を生成することと、
前記第3の顔画像と前記参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、前記第3の顔画像と前記参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、前記第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行することと、を含む、
請求項2に記載の画像処理方法。
【請求項4】
前記第3の顔画像と前記参考顔画像とに基づいて前記対応関係を生成することは、
前記第3の顔画像を符号化して、前記第1の連続型ランダム変数と次元が同一である第1の顔画像コードを得ることと、
前記第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにすることと、
調整後の第1の顔画像コードと第3の顔画像とに基づいて前記対応関係を特定することと、を含む、
請求項3に記載の画像処理方法。
【請求項5】
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成することは、
前記目標音声に応じて、前記第1の連続型ランダム変数のうちの少なくとも1つの前記顔面動作情報に対応する次元に対応する調整ベクトルを生成することと、
前記調整ベクトルに基づいて、前記第1の連続型ランダム変数が前記調整ベクトルの方向にずれるように、前記第1の連続型ランダム変数を調整することと、を含む、
請求項2に記載の画像処理方法。
【請求項6】
前記調整ベクトルは所定分布に合致する、
請求項5に記載の画像処理方法。
【請求項7】
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得ることと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることと、
前記トレーニング対象の顔駆動モデルの顔生成モデルを利用して、前記調整ベクトルと前記第2の顔画像コードとに基づいて、第5の顔画像を生成することと、
前記第5の顔画像の顔面動作情報と前記目標オーディオとに基づいて、前記音声プロセッサをトレーニングすることと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得ることと、を含む、
モデル生成方法。
【請求項8】
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成することと、
前記第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、前記トレーニング対象の顔生成モデルをトレーニングして、前記顔生成モデルを得ることと、をさらに含む、
請求項7に記載のモデル生成方法。
【請求項9】
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得ることと、
トレーニング対象の顔符号化モデルを利用して、前記第7の顔画像を符号化して、前記第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得ることと、
前記第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、前記トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得ることと、をさらに含む、
請求項7に記載のモデル生成方法。
【請求項10】
前記目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得ることは、
前記目標音声を前記音声プロセッサの音声エンコーダに入力して、目標音声コードを得ることと、
前記目標音声コードを前記音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにすることと、
前記調整後の目標音声コードを前記調整ベクトルとすることと、を含む、
請求項7に記載のモデル生成方法。
【請求項11】
参考顔画像との間の解像度相違及び真実性相違が所定範囲内にある第1の顔画像を生成するための第1の顔画像生成モジュールと、
前記第1の顔画像を駆動するための目標音声に応じて、前記第1の顔画像における発音に関連する顔面動作情報を調整して、顔面組織位置が前記目標音声の発音規則に合致する第2の顔画像を生成するための第2の顔画像生成モジュールと、
前記第2の顔画像を前記目標音声で駆動された後の顔画像とするための駆動モジュールと、を含む、
画像処理装置。
【請求項12】
前記第1の顔画像生成モジュールは、
複数の次元の第1の連続型ランダム変数を取得するために用いられ、前記第1の連続型ランダム変数が所定分布に合致し、前記所定分布の連続型ランダム変数の全体集合がリアルな顔の顔面特徴の全体集合に対応する第1のランダム変数生成手段と、
所定のランダム変数と顔画像との対応関係、及び前記第1の連続型ランダム変数に基づいて、前記第1の顔画像を生成するための第1のランダム変数変換手段と、を含む、
請求項11に記載の画像処理装置。
【請求項13】
前記所定のランダム変数と顔画像との対応関係の生成手順は、
前記所定分布に合致する複数の次元の第2の連続型ランダム変数を取得することと、
前記第2の連続型ランダム変数に基づいて第3の顔画像を生成することと、
前記第3の顔画像と前記参考顔画像との間の解像度相違又は真実性相違が所定範囲より大きい場合、前記第3の顔画像と前記参考顔画像との間の解像度相違及び真実性相違が所定範囲内になるまで、前記第2の連続型ランダム変数に基づいて第3の顔画像を生成するステップを繰り返し実行することと、を含む、
請求項12に記載の画像処理装置。
【請求項14】
前記第3の顔画像と前記参考顔画像とに基づいて前記対応関係を生成することは、
前記第3の顔画像を符号化して、前記第1の連続型ランダム変数と次元が同一である第1の顔画像コードを得ることと、
前記第1の顔画像コードを調整することで、調整後の第1の顔画像コードが所定分布に合致するようにすることと、
調整後の第1の顔画像コードと第3の顔画像とに基づいて前記対応関係を特定することと、を含む、
請求項13に記載の画像処理装置。
【請求項15】
前記第2の顔画像生成モジュールは、
前記目標音声に応じて、前記第1の連続型ランダム変数のうちの少なくとも1つの前記顔面動作情報に対応する次元に対応する調整ベクトルを生成するための調整ベクトル手段と、
前記調整ベクトルに基づいて、前記第1の連続型ランダム変数が前記調整ベクトルの方向にずれるように、前記第1の連続型ランダム変数を調整するための調整手段と、を含む、
請求項12~14の何れか一項に記載の画像処理装置。
【請求項16】
前記調整ベクトルは所定分布に合致する、
請求項15に記載の画像処理装置。
【請求項17】
第4の顔画像をトレーニング対象の顔駆動モデルの顔符号化モデルに入力して、所定分布に合致する連続型ランダム変数である第2の顔画像コードを得るための第1の入力モジュールと、
目標音声をトレーニング対象の顔駆動モデルの音声プロセッサに入力して、調整ベクトルを得るための第2の入力モジュールと、
前記トレーニング対象の顔駆動モデルの顔生成モデルを利用して、前記調整ベクトルと前記第2の顔画像コードとに基づいて、第5の顔画像を生成するための第1の出力モジュールと、
前記第5の顔画像の顔面動作情報と前記目標オーディオとに基づいて、前記音声プロセッサをトレーニングするための第1のトレーニングモジュールと、
トレーニング後の音声プロセッサに基づいて、トレーニング後の顔駆動モデルを得るための第2のトレーニングモジュールと、を含む、
モデル生成装置。
【請求項18】
所定分布に合致する第3の連続型ランダム変数をトレーニング対象の顔生成モデルに入力して、第6の顔画像を生成するための第3の入力モジュールと、
前記第6の顔画像と参考顔画像との解像度相違及び真実性相違に基づいて、前記トレーニング対象の顔生成モデルをトレーニングして、前記顔生成モデルを得るための第3のトレーニングモジュールと、をさらに含む、
請求項17に記載のモデル生成装置。
【請求項19】
第4の連続型ランダム変数を顔生成モデルに入力して、第7の顔画像を得るための第4の入力モジュールと、
トレーニング対象の顔符号化モデルを利用して、前記第7の顔画像を符号化して、前記第4の連続型ランダム変数と次元が同一である第3の顔画像コードを得るための第2の出力モジュールと、
前記第3の顔画像コードと第4の連続型ランダム変数との相違に基づいて、前記トレーニング対象の顔符号化モデルをトレーニングして、顔符号化モデルを得るための第4のトレーニングモジュールと、をさらに含む、
請求項17又は18に記載のモデル生成装置。
【請求項20】
前記第2の入力モジュールは、
前記目標音声を前記音声プロセッサの音声エンコーダに入力して、目標音声コードを得るための目標音声符号化手段と、
前記目標音声コードを前記音声プロセッサのマッピングネットワークに入力して調整することで、調整後の目標音声コードが所定分布に合致するようにするためのマッピング手段と、
前記調整後の目標音声コードを前記調整ベクトルとするための調整ベクトル手段と、を含む、
請求項17又は18に記載のモデル生成装置。
【請求項21】
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続するメモリとを有する電子機器であって、
前記メモリに、前記少なくとも1つのプロセッサによって実行され得るコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサによって実行されることで、前記少なくとも1つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行することができる、
電子機器。
【請求項22】
コンピュータに請求項1~10のいずれか一項に記載の方法を実行させるためのコンピュータコマンドを記憶している、
非一時的なコンピュータ読取可能な記憶媒体。
【請求項23】
プロセッサにより実行される場合に、請求項1~10のいずれか一項に記載の方法のステップを実現することを特徴とするコンピュータプログラム。