特開2024-11713 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本放送協会の特許一覧

特開2024-11713表情アニメーションデータ生成装置およびそのプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024011713

(43)【公開日】2024-01-25

(54)【発明の名称】表情アニメーションデータ生成装置およびそのプログラム

(51)【国際特許分類】

G06T 19/00 20110101AFI20240118BHJP

【ＦＩ】

G06T19/00 A

【審査請求】未請求

【請求項の数】4

【出願形態】ＯＬ

(21)【出願番号】P 2022113948

(22)【出願日】2022-07-15

(71)【出願人】

【識別番号】000004352

【氏名又は名称】日本放送協会

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】箱▲崎▼ 浩平

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA10

5B050BA09

5B050CA08

5B050DA04

5B050DA07

5B050EA09

5B050EA19

5B050EA27

(57)【要約】

【課題】顔の表情をより正確に表現するとともに、ＣＧソフトウェア上で動作や変更が可能なアニメーションデータを生成する表情アニメーションデータ生成装置を提供する。
【解決手段】表情アニメーションデータ生成装置１は、顔画像変換モデルを用いて、動画像を構成する人物顔画像をキャラクタ顔画像に変換する顔画像変換部２１と、表情制御パラメータ生成モデルを用いて、キャラクタ顔画像から表情制御パラメータを生成する表情制御パラメータ生成部２２と、表情制御パラメータを予め定めた形式のアニメーションデータに変換するアニメーションデータ変換部２３と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

連続する人物顔画像で構成された動画像から、顔の表情をパラメータ化したＣＧのアニメーションデータを生成する表情アニメーションデータ生成装置であって、
人物顔画像をＣＧのキャラクタ顔画像に変換する予め学習されたニューラルネットワークで構成された顔画像変換モデルを用いて、前記動画像を構成する人物顔画像をキャラクタ顔画像に変換する顔画像変換部と、
前記キャラクタ顔画像から顔の各部位の制御状態を示すパラメータ値で構成された表情制御パラメータを生成する予め学習されたニューラルネットワークで構成された表情制御パラメータ生成モデルを用いて、前記キャラクタ顔画像から前記表情制御パラメータを生成する表情制御パラメータ生成部と、
前記表情制御パラメータを予め定めた形式の前記アニメーションデータに変換するアニメーションデータ変換部と、
を備えることを特徴とする表情アニメーションデータ生成装置。

【請求項2】

前記表情制御パラメータを構成するパラメータ値は、前記キャラクタ顔画像の顔の部位をコントローラで制御するリグの値であることを特徴とする請求項１に記載の表情アニメーションデータ生成装置。

【請求項3】

前記表情制御パラメータ生成モデルは、前記表情制御パラメータの各パラメータ値を、正規化して出力するように学習されたモデルであって、
前記アニメーションデータ変換部は、前記表情制御パラメータ生成部で生成される正規化された各パラメータ値を、予め定めた最小値および最大値の範囲の値にスケール変換して、前記アニメーションデータとすることを特徴とする請求項１に記載の表情アニメーションデータ生成装置。

【請求項4】

コンピュータを、請求項１から請求項３のいずれか一項に記載の表情アニメーションデータ生成装置として機能させるための表情アニメーションデータ生成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、表情アニメーションデータ生成装置およびそのプログラムに関する。

【背景技術】

【0002】

聴覚障害者のために、手話通訳、手話放送といった手話サービスが一般的に行われている。また、近年では、手話サービスの拡充のため、手話ＣＧ（コンピュータグラフィックス）を用いたＣＧアニメーションによる手話の研究が進められている。
手話は、同じ手指動作でも異なる意味を持つ手話表現を人の表情によって区別している。そのため、手話用のＣＧアニメーションの生成には、表情をより正確に表現させることが重要となる。

【0003】

従来、人の手話表現の動作データを、光学式のモーションキャプチャを用い、ＢＶＨ（Biovision Hierarchy）形式で取得する手法が開示されている（特許文献１参照）。
また、人の顔が映った画像から、フェイススワッピング（FaceSwapping）の技術を利用して、入力である人の顔画像と同じ表情をしたＣＧキャラクタの顔画像を生成し、そのＣＧキャラクタの表情を制御するためのブレンドシェイプ値を取得する手法が開示されている（非特許文献１参照）。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１７－１５１７５７号公報

【非特許文献】

【0005】

【非特許文献1】Lucio Moser, “Semi-supervised video-driven facial animation transfer for production”, ACM Transactions on Graphics, Volume40, Issue 6, No.222, December 2021

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかし、特許文献１に記載の手法は、動作データを取得するために利用する光学式モーションキャプチャの機材等にコストがかかり、容易に多数のアニメーションデータを取得することができない。また、光学式モーションキャプチャでは、人物の表情の詳細な動きを取得することができず、手話で必要な表情をＣＧモデルが再現しきれないという問題がある。

【0007】

また、非特許文献１に記載の手法は、画像からＣＧモデルの表情を制御するためのブレンドシェイプ値を取得することはできる。しかし、ブレンドシェイプ値は、複数あるＣＧキャラクタの表情パターンのうち、どれを組み合わせるかを示す係数であるが、どのように値を変更すれば、目的となるＣＧキャラクタの表情を作成できるかが直観的に把握しづらい。つまり、従来のようなブレンドシェイプ値の推定だけでは、ＣＧキャラクタの表情修正作業が困難になるという問題がある。

【0008】

本発明は、このような問題に鑑みてなされたもので、顔の表情をより正確に表現するとともに、ＣＧソフトウェア上で動作や変更が可能なアニメーションデータを生成する表情アニメーションデータ生成装置およびそのプログラムを提供することを課題とする。

【課題を解決するための手段】

【0009】

前記課題を解決するため、本発明に係る表情アニメーションデータ生成装置は、連続する人物顔画像で構成された動画像から、顔の表情をパラメータ化したＣＧのアニメーションデータを生成する表情アニメーションデータ生成装置であって、顔画像変換部と、表情制御パラメータ生成部と、アニメーションデータ変換部と、を備える構成とした。

【0010】

かかる構成において、表情アニメーションデータ生成装置は、顔画像変換部によって、顔画像変換モデルを用いて、動画像を構成する人物顔画像をキャラクタ顔画像に変換する。ここで、顔画像変換モデルは、人物顔画像をＣＧのキャラクタ顔画像に変換する予め学習されたニューラルネットワークである。
これによって、顔画像変換部は、実写の人物顔画像をアニメーションで表示されるキャラクタの顔画像に変換することができ、人物の顔表情をキャラクタの顔画像として正確に再現することができる。

【0011】

そして、表情アニメーションデータ生成装置は、表情制御パラメータ生成部によって、表情制御パラメータ生成モデルを用いて、キャラクタ顔画像から表情制御パラメータを生成する。ここで、表情制御パラメータ生成モデルは、キャラクタ顔画像から顔の各部位の制御状態を示すパラメータ値で構成された表情制御パラメータを生成する予め学習されたニューラルネットワークである。
これによって、表情制御パラメータ生成部は、キャラクタ顔画像から、顔の各部位の制御状態を示すパラメータ値を表情制御パラメータとして生成することができる。

【0012】

そして、表情アニメーションデータ生成装置は、アニメーションデータ変換部によって、表情制御パラメータを時系列に連結した予め定めた形式のアニメーションデータに変換する。
これによって、表情アニメーションデータ生成装置が生成するアニメーションデータは、一般的なＣＧソフトウェアで動作を確認することができる。また、このアニメーションデータは、表情制御パラメータで構成されているため、パラメータ値を変更するだけで、顔の表情を変更することができる。
なお、表情アニメーションデータ生成装置は、コンピュータを、前記した各部として機能させるための表情アニメーションデータ生成プログラムで動作させることができる。

【発明の効果】

【0013】

本発明によれば、顔の表情をより正確に表現するとともに、ＣＧソフトウェア上で動作や変更が可能なアニメーションデータを生成することができる。

【図面の簡単な説明】

【0014】

【図1】本発明の実施形態に係る表情アニメーションデータ生成装置の構成を示すブロック構成図である。

【図2】顔画像変換モデルの構成例を説明するための説明図である。

【図3】表情制御パラメータ生成モデルの構成を説明するための説明図である。

【図4】ＣＧソフトウェアで使用するリグ値（表示制御パラメータ）を画面上で制御するコントローラの一例を示す図である。

【図5】コントローラ内の制御ブロックのリグ値のレンジを説明するための説明図であって、（ａ）は左の眉毛を制御する制御ブロック、（ｂ）は左鼻を制御する制御ブロックの例を示す。

【図6】表情制御パラメータ生成モデルの具体例を説明するための説明図である。

【図7】表情制御パラメータからアニメーションデータを生成する手法を説明するための説明図である。

【図8】本発明の実施形態に係る表情アニメーションデータ生成装置の動作を示すフローチャートである。

【図9】顔画像変換モデルを学習するための学習データセットの例を示す顔画像群である。

【図10】顔画像変換モデルを学習する手法を説明するための説明図である。

【図11】アニメーションデータから表情生成パラメータを生成する手法を説明するための説明図である。

【図12】表情制御パラメータ生成モデルを学習する手法を説明するための説明図である。

【発明を実施するための形態】

【0015】

以下、本発明の実施形態について図面を参照して説明する。
［表情アニメーションデータ生成装置の構成］
図１を参照して、本発明の実施形態に係る表情アニメーションデータ生成装置１の構成について説明する。

【0016】

表情アニメーションデータ生成装置１は、連続する人物顔画像で構成された動画像から、顔の表情をパラメータ化したＣＧのアニメーションデータを生成するものである。
表情アニメーションデータ生成装置１は、記憶部１０と制御部２０とを備える。

【0017】

記憶部１０は、ハードディスク、半導体メモリ等の一般的な記憶媒体である。
記憶部１０は、顔画像変換モデル記憶部１１と、表情制御パラメータ生成モデル記憶部１２と、補助情報記憶部１３と、を備える。なお、各記憶部は、同じ記憶媒体内に領域を区分して記憶される構成であってもよいし、異なる記憶媒体に記憶される構成であってもよい。

【0018】

顔画像変換モデル記憶部１１は、人物顔画像をＣＧキャラクタの顔画像（キャラクタ顔画像）に変換する予め学習されたニューラルネットワークで構成された顔画像変換モデル（具体的には、ニューラルネットワークの構造、重み係数等）を記憶するものである。
顔画像変換モデルは、顔画像を変換させるフェイススワッピング（Face Swapping）モデルであって、具体的には、エンコーダ－デコーダ型のＡＥ（オートエンコーダ）モデルである。

【0019】

ここでは、図２に示すように、顔画像変換モデルＭ_Ｃは、人物顔画像Ｉ_Ｐを入力し、画像特徴量Ｚを出力するエンコーダＥ１と、エンコーダＥ１から出力される画像特徴量Ｚから、キャラクタ顔画像を出力するデコーダＤ２と、で構成される。この画像特徴量Ｚは，具体的には、５１２次元程度のベクトルである。
顔画像変換モデルＭ_Ｃは、図２に示すように、人物顔画像Ｉ_Ｐ１，Ｉ_Ｐ２，Ｉ_Ｐ３，…を入力し、顔の表情のみが映ったキャラクタ顔画像Ｉ_{ＣＧＥＸ１}，Ｉ_{ＣＧＥＸ２}，Ｉ_{ＣＧＥＸ３}，…を出力する。この顔画像変換モデルＭ_Ｃの学習方法については後記する。

【0020】

表情制御パラメータ生成モデル記憶部１２は、キャラクタ顔画像から、顔の各部位の制御状態を示すパラメータ値で構成された表情制御パラメータを生成する予め学習されたニューラルネットワークで構成された表情制御パラメータ生成モデル（具体的には、ニューラルネットワークの構造、重み係数等）を記憶するものである。

【0021】

図３に示すように、表情制御パラメータ生成モデルＭ_Ｐは、顔の表情のみが映ったキャラクタ顔画像Ｉ_ＣＧＥＸを入力し、表情制御パラメータＰ_ＣＴＬを出力するエンコーダＥ２で構成される。
表情制御パラメータを構成するパラメータの値は、キャラクタ顔画像の顔の部位をＣＧソフトウェアで使用されるコントローラで制御するリグの値である（リグ値）である。

【0022】

リグ値は、例えば、図４に示すような、操作画面上に表示して、操作者（アニメータ）がＣＧキャラクタの表情を制御するコントローラＣＴＬの各制御領域の位置（◇印の位置）を示す値である。なお、リグ値は、予め定めた各制御領域の顔の部位を制御するパラメータである。
例えば、図４の例では、制御領域ＢＬは左眉を制御するパラメータ、制御領域ＢＲは右眉を制御するパラメータ、制御領域ＥＬは左目を制御するパラメータ、制御領域ＥＲは右目を制御するパラメータ、制御領域ＮＬは左鼻を制御するパラメータ、制御領域ＮＲは右鼻を制御するパラメータ、制御領域ＣＬは左頬を制御するパラメータ、制御領域ＣＲは右頬を制御するパラメータ、制御領域ＭＭは口を制御するパラメータ、制御領域ＭＣＬは左口端を制御するパラメータ、制御領域ＭＣＲは右口端を制御するパラメータ等である。
このコントローラＣＴＬは、一例である。例えば、ＣＧソフトウェアによっては、アニメータにより異なるコントローラを用いる場合もある。

【0023】

また、各制御領域は、その領域によって、位置座標が異なる。
例えば、図５（ａ）に示す制御領域ＢＬは、領域中心を（０，０）とし、水平方向のＸ座標の最大値を“１”、最小値を“－１”、垂直方向のＹ座標の最大値を“１”、最小値を“－１”としている。図５（ａ）におけるリグ値（◇印の位置）は、（－１，０）となる。
また、図５（ｂ）に示す制御領域ＮＬは、上辺の中心を（０，０）とし、水平方向のＸ座標の最大値を“１”、最小値を“－１”、垂直方向のＹ座標の最大値を“１０”、最小値を“０”としている。図５（ｂ）におけるリグ値（◇印の位置）は、（０，１０）となる。
このように、リグ値は、制御領域によって値の範囲が異なる。そこで、表情制御パラメータ生成モデルＭ_Ｐ（図３）の出力は、最小値“０”から最大値“１”の範囲で正規化した値として表情制御パラメータＰ_ＣＴＬ（リグ値）を出力するように予め学習しておく。

【0024】

すなわち、表情制御パラメータ生成モデルＭ_Ｐ（エンコーダＥ２）は、具体的には、図６に示すように、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）で構成することができる。
表情制御パラメータ生成モデルＭ_Ｐは、入力層ＩＮにキャラクタ顔画像Ｉ_ＣＧＥＸを入力し、全結合層となる出力層ＯＵＴから、表情制御パラメータＰ_ＣＴＬの個々の部位のパラメータＰ１，Ｐ２，Ｐ３，…の値を、［０，１］の範囲で出力するように予め学習しておく。
この表情制御パラメータ生成モデルＭ_Ｐの学習方法については後記する。

【0025】

補助情報記憶部１３は、正規化されたパラメータ値で構成された表情制御パラメータＰ_ＣＴＬを、アニメーションデータに変換するために必要となる補助情報を予め記憶するものである。
この補助情報は、生成するアニメーションデータのすべてのパラメータのリスト（全パラメータリスト）と、各パラメータの最小値および最大値を示す値のリスト（最小・最大値リスト）、表情制御パラメータＰ_ＣＴＬに含まれないアニメーションデータのパラメータに対するデフォルトの値のリスト（デフォルト値リスト）が含まれる。
なお、使用するＣＧソフトや制御したいＣＧキャラクタが変わる場合は、それに合わせて補助情報を修正する必要がある。アニメーションデータを生成するためには、すべての補助情報が必須となる。

【0026】

制御部２０は、表情アニメーションデータ生成装置１全体の制御を行うものである。制御部２０は、ハードディスク、ＲＯＭ等に記憶されたプログラム（表情アニメーションデータ生成プログラム）をメモリに展開し、コンピュータ（ＣＰＵ）がプログラムを読み込んで、以下に説明する各部として機能させる。
制御部２０は、顔画像変換部２１と、表情制御パラメータ生成部２２と、アニメーションデータ変換部２３と、を備える。

【0027】

顔画像変換部２１は、顔画像変換モデルを用いて、人物顔画像Ｉ_ＰをＣＧキャラクタの顔画像（キャラクタ顔画像）に変換するものである。
顔画像変換部２１は、動画像として入力されるフレームごとの人物顔画像Ｉ_Ｐを、順次、キャラクタ顔画像に変換する。
顔画像変換部２１は、記憶部１０の顔画像変換モデル記憶部１１に記憶されているニューラルネットワークの顔画像変換モデルの入力層に人物顔画像Ｉ_Ｐを入力し、重み係数を用いて顔画像変換モデルの演算を行う。そして、顔画像変換部２１は、顔画像変換モデルの出力層から出力される演算結果として、キャラクタ顔画像を生成する。

【0028】

これによって、顔画像変換部２１は、図２に示すように、顔画像変換モデルＭ_Ｃを用いて、順次入力される人物顔画像Ｉ_Ｐを顔の表情のみが映ったキャラクタ顔画像Ｉ_ＣＧＥＸに変換することができる。
顔画像変換部２１は、変換後のキャラクタ顔画像を、順次フレームごとに、表情制御パラメータ生成部２２に出力する。

【0029】

表情制御パラメータ生成部２２は、表情制御パラメータ生成モデルを用いて、顔画像変換部２１から入力されるキャラクタ顔画像から、顔の各部位の制御状態を示すパラメータ値で構成された表情制御パラメータを生成するものである。
表情制御パラメータ生成部２２は、記憶部１０の表情制御パラメータ生成モデル記憶部１２に記憶されているニューラルネットワークの表情制御パラメータ生成モデルの入力層にキャラクタ顔画像を入力し、重み係数を用いて表情制御パラメータ生成モデルの演算を行う。そして、表情制御パラメータ生成部２２は、表情制御パラメータ生成モデルの出力層から出力される演算結果として、表情制御パラメータを生成する。

【0030】

これによって、表情制御パラメータ生成部２２は、図３，図６に示すように、表情制御パラメータ生成モデルＭ_Ｐを用いて、順次入力されるキャラクタ顔画像Ｉ_ＣＧＥＸから、［０，１］の範囲のパラメータＰ１，Ｐ２，Ｐ３，…の値で構成される表情制御パラメータＰ_ＣＴＬを生成することができる。
表情制御パラメータ生成部２２は、生成した表情制御パラメータを、順次フレームごとに、アニメーションデータ変換部２３に出力する。

【0031】

アニメーションデータ変換部２３は、表情制御パラメータを予め定めた形式のアニメーションデータに変換するものである。
ここでは、アニメーションデータ変換部２３は、スケール変更部２３１と、パラメータ配列部２３２と、時系列配列部２３３と、を備える。

【0032】

スケール変更部２３１は、表情制御パラメータの個々のパラメータの値を、アニメーションデータで使用する元のスケールに変更するものである。
スケール変更部２３１は、補助情報記憶部１３に記憶されている補助情報の１つである最小・最大値リストを参照し、個々のパラメータに対応する最小値と最大値とから、［０，１］の範囲で正規化されているパラメータの値を元のスケールに変換する。
例えば、あるパラメータの値をｘ、当該パラメータの最大値をｍａｘ、最小値をｍｉｎとしたとき、スケール変更部２３１は、以下の式（１）により、ｘの元のレンジに対応する値ｙを算出する。

【0033】

【数1】

【0034】

これによって、スケール変更部２３１は、表情制御パラメータの各パラメータの値を、コントロールリグに対応する値に変更することができる。
スケール変更部２３１は、スケールを変換した表情制御パラメータをパラメータ配列部２３２に出力する。

【0035】

パラメータ配列部２３２は、スケール変更部２３１でスケールが変更された表情制御パラメータを配列するものである。
パラメータ配列部２３２は、補助情報記憶部１３に記憶されている補助情報の１つである全パラメータリストを参照し、全パラメータリストの順にスケールが変更された表情制御パラメータを配列する。なお、スケール変更部２３１から入力される表情制御パラメータ以外に、全パラメータリストに他のパラメータが定義されている場合、例えば、他のコントロールリグに対するパラメータが定義されている場合、パラメータ配列部２３２は、他のコントロールリグのパラメータについては、補助情報の１つであるデフォルト値リストを参照して、デフォルト値を配列する。

【0036】

これによって、パラメータ配列部２３２は、スケール変更部２３１から入力される１つのコントローラに対する表情制御パラメータ以外に、他のコントローラに対する表情制御パラメータの領域を確保したデータを生成することができる。
パラメータ配列部２３２は、スケール変更後の表情制御パラメータの値（コントロールリグ値）を配列したフレームごとのデータを時系列配列部２３３に出力する。

【0037】

時系列配列部２３３は、フレームごとに生成される表情制御パラメータの配列データを、時系列に配列するものである。
時系列配列部２３３は、パラメータ配列部２３２から入力されるフレームごとの表情制御パラメータの配列データを、時系列に配列することで、アニメーションデータを生成する。この時系列配列部２３３は、表情アニメーションデータ生成装置１に入力される人物顔画像Ｉ_Ｐが映った連続画像（動画像）に対応するフレーム数のアニメーションデータＤ_Ａを生成する。

【0038】

ここで、図７を参照（適宜図１参照）して、アニメーションデータ変換部２３の処理について具体的に説明する。
ここでは、説明を簡略化するため、表情制御パラメータＰ_ＣＴＬの個々のパラメータの数を２とする。例えば、１フレーム目の人物顔画像に対応する表情制御パラメータＰ_ＣＴＬ１の１つ目のパラメータＰａｒａｍ１－１の値が“０．１４３”、２つ目のパラメータＰａｒａｍ１－２の値が“０”であるとする。また、２フレーム目の人物顔画像に対応する表情制御パラメータＰ_ＣＴＬ２、３フレーム目の人物顔画像に対応する表情制御パラメータＰ_ＣＴＬ３についても同様に、それぞれのパラメータＰａｒａｍ１－１，Ｐａｒａｍ１－２に値が設定されているものとする。

【0039】

また、補助情報記憶部１３には、補助情報Ｒとして、最小・最大値リストＬ_{ＭＡＸＭＩＮ}、全パラメータリストＬ_ＡＬＬＰ、デフォルト値リストＬ_ＤＥＦが記憶されている。
最小・最大値リストＬ_{ＭＡＸＭＩＮ}には、パラメータＰａｒａｍ１－１の最小値（ｍｉｎ）“０．１”、最大値（ｍａｘ）“０．８”が設定されているものとする。同様に、最小・最大値リストＬ_{ＭＡＸＭＩＮ}には、パラメータＰａｒａｍ１－２の最小値（ｍｉｎ）“１”、最大値（ｍａｘ）“５”が設定されているものとする。

【0040】

全パラメータリストＬ_ＡＬＬＰには、アニメーションデータで使用されるパラメータとして、Ｐａｒａｍ１－１，Ｐａｒａｍ１－２，Ｐａｒａｍ２－１，Ｐａｒａｍ２－２が設定されているものとする。なお、Ｐａｒａｍ１－１，Ｐａｒａｍ１－２は、コントロールリグＲ１のパラメータであり、Ｐａｒａｍ２－１，Ｐａｒａｍ２－２は、コントロールリグＲ２のパラメータであることとする。
デフォルト値リストＬ_ＤＥＦには、表情制御パラメータＰ_ＣＴＬには含まれないパラメータとして、Ｐａｒａｍ２－１，Ｐａｒａｍ２－２が設定され、それぞれのデフォルト値として“１”が設定されているものとする。

【0041】

この場合、スケール変更部２３１は、１フレーム目の表情制御パラメータＰ_ＣＴＬ１のパラメータＰａｒａｍ１－１については、最小値（ｍｉｎ）が“０．１”、最大値（ｍａｘ）が“０．８”であるため、前記式（１）により、パラメータＰａｒａｍ１－１の値“０．１４３”をスケール変換し“０．２”とする。同様に、表情制御パラメータＰ_ＣＴＬ１のパラメータＰａｒａｍ１－２については、最小値（ｍｉｎ）が“１”、最大値（ｍａｘ）が“５”であるため、前記式（１）により、パラメータＰａｒａｍ１－２の値“０”をスケール変換し“１”とする。

【0042】

パラメータ配列部２３２は、スケール変更部２３１で変換されたパラメータＰａｒａｍ１－１の値“０．２”とＰａｒａｍ１－２の値“１”とを、全パラメータリストＬ_ＡＬＬＰの順に配列する。そして、パラメータ配列部２３２は、表情制御パラメータＰ_ＣＴＬ１に含まれていないパラメータＰａｒａｍ２－１，Ｐａｒａｍ２－２については、デフォルト値リストＬ_ＤＥＦに設定されているデフォルト値“１”を配列する。これによって、アニメーションデータＤ_Ａの１フレーム目に対応するデータが生成されることになる。
アニメーションデータＤ_Ａの２フレーム以降についても同様に生成され、時系列配列部２３３がフレームごとのデータを時系列に配列することで、アニメーションデータＤ_Ａを生成する。

【0043】

以上説明した構成によって、表情アニメーションデータ生成装置１は、連続する人物の顔が映った人物顔画像（動画像）から、顔の表情をより正確に表現するとともに、ＣＧソフトウェア上で動作や変更が可能なコントロールリグで記述されたアニメーションデータを生成することができる。

【0044】

［表情アニメーションデータ生成装置の動作］
次に、図８を参照（構成については適宜図１参照）して、本発明の実施形態に係る表情アニメーションデータ生成装置１の動作について説明する。
なお、顔画像変換モデル記憶部１１には、学習済の顔画像変換モデルが記憶され、表情制御パラメータ生成モデル記憶部１２には、学習済の表情制御パラメータ生成モデルが記憶され、補助情報記憶部１３には、表情制御パラメータをアニメーションデータに変換するために必要となる補助情報が予め記憶されているものとする。

【0045】

ステップＳ１において、顔画像変換部２１は、顔画像変換モデル記憶部１１に記憶されている顔画像変換モデルを用いて、動画像のフレームに相当する人物顔画像Ｉ_ＰをＣＧキャラクタの顔画像（キャラクタ顔画像）に変換する。

【0046】

ステップＳ２において、表情制御パラメータ生成部２２は、表情制御パラメータ生成モデル記憶部１２に記憶されている表情制御パラメータ生成モデルを用いて、ステップＳ１で変換されたキャラクタ顔画像から、顔の各部位の制御状態を示すパラメータ値で構成された表情制御パラメータを生成する。この表情制御パラメータの各パラメータの値は、コントロールリグ値を［０，１］の範囲で正規化したものに相当する。

【0047】

ステップＳ３において、アニメーションデータ変換部２３のスケール変更部２３１は、補助情報記憶部１３に記憶されている最小・最大値リストを参照し、ステップＳ２で生成された表情制御パラメータの個々のパラメータの値を、アニメーションデータで使用する元のスケールに変更する。これによって、コントロールリグ値が生成されることになる。

【0048】

ステップＳ４において、アニメーションデータ変換部２３のパラメータ配列部２３２は、補助情報記憶部１３に記憶されている全パラメータリストを参照し、ステップＳ３でスケールが変更された表情制御パラメータを全パラメータリストの順番に配列する。
このとき、パラメータ配列部２３２は、ステップＳ３で変更された表情制御パラメータ以外に、他のパラメータが全パラメータリストに定義されている場合、補助情報記憶部１３に記憶されているデフォルト値リストを参照して、デフォルト値を配列する。

【0049】

ステップＳ５において、アニメーションデータ変換部２３の時系列配列部２３３は、ステップＳ４で配列された１フレーム分の表情制御パラメータを時系列に配列する。
ステップＳ６において、制御部２０は、次フレームの人物顔画像が存在するか否かを判定する。ここで、次フレームの人物顔画像が存在する場合（ステップＳ６でＹｅｓ）、制御部２０は、ステップＳ１に戻って動作を続ける。

【0050】

一方、次フレームの人物顔画像が存在しない場合（ステップＳ６でＮｏ）、ステップＳ７において、制御部２０は、ステップＳ５でフレーム数分配列された表情制御パラメータをアニメーションデータとして出力する。
以上の動作によって、表情アニメーションデータ生成装置１は、人物顔画像（動画像）から、コントロールリグで記述されたアニメーションデータを生成することができる。

【0051】

［表情アニメーションデータ生成装置で使用するモデルの学習手法］
次に、表情アニメーションデータ生成装置１で使用するモデル（顔画像変換モデル，表情制御パラメータ生成モデル）の学習手法について説明する。
（顔画像変換モデルの学習）
まず、図９，図１０を参照して、顔画像変換モデルＭ_Ｃ（図２）の学習手法について説明する。
顔画像変換モデルＭ_Ｃの学習は、教師なし学習により行うことができる。

【0052】

まず、この学習手法は、図９に示すように、特定の人物の様々な表情が撮影された複数の人物顔画像Ｉ_Ｐ（人物顔画像群Ｉ_ＰＳ）と、ＣＧのキャラクタ（例えば、手話ＣＧで使用するキャラクタ）の様々な表情をレンダリングした複数のキャラクタ顔画像Ｉ_ＣＧ（キャラクタ顔画像群Ｉ_ＣＧＳ）とを、学習データセットとして準備する。なお、人物顔画像群Ｉ_ＰＳとキャラクタ顔画像群Ｉ_ＣＧＳとは、表情を対応付ける必要はない。

【0053】

そして、この学習手法は、図１０に示すように、学習データセットの人物顔画像Ｉ_ＰをエンコーダＥ１に入力し、エンコーダＥ１から出力される画像特徴量Ｚ１をデコーダＤ１に入力して、画像Ｉ_ＰＥＸを生成する。

【0054】

また、この学習手法は、人物顔画像Ｉ_Ｐからマスク画像Ｍ_ＦＣによって顔の表情のみの画像を切り出した画像と、画像Ｉ_ＰＥＸとの間で損失（Ｌｏｓｓ）を最小化するように、エンコーダＥ１およびデコーダＤ１のパラメータを学習する。なお、マスク画像Ｍ_ＦＣは、人物顔画像Ｉ_Ｐから、一般的なランドマーク推定手法を用いて、人物の表情を示す顔の輪郭、目、口、鼻等の予め定めた特徴点であるランドマークを推定し、そのランドマークをすべて包含する最小の多角形（表情領域）の外側をマスク領域とする画像である。

【0055】

また、この学習手法は、学習データセットのキャラクタ顔画像Ｉ_ＣＧを人物顔画像Ｉ_Ｐと共通のエンコーダＥ１に入力し、エンコーダＥ１から出力される画像特徴量Ｚ２をデコーダＤ２に入力して、画像Ｉ_ＣＧＥＸを生成する。

【0056】

また、この学習手法は、キャラクタ顔画像Ｉ_ＣＧからマスク画像Ｍ_ＣＧによって顔の表情のみの領域を切り出した画像と、画像Ｉ_ＣＧＥＸとの間で損失（Ｌｏｓｓ）を最小化するように、エンコーダＥ１およびデコーダＤ２のパラメータを学習する。

【0057】

なお、エンコーダＥ１に入力する人物顔画像Ｉ_Ｐおよびキャラクタ顔画像Ｉ_ＣＧに対して、それぞれ、回転、拡大/縮小、移動等のアフィン変換や、歪みを与える処理を与えることで、入力画像に変化を加えて学習を行うことが、変換精度を高める上で好ましい。
この学習手法によって学習を行ったエンコーダＥ１とデコーダＤ２とを連結して、顔画像変換モデルＭ_Ｃとする。
これによって、顔画像変換モデルＭ_Ｃは、人物顔画像Ｉ_Ｐを入力し、人物顔画像Ｉ_Ｐと同じ表情であり、かつ顔表情部分のみが映ったキャラクタ顔画像Ｉ_ＣＧＥＸを出力することが可能になる。

【0058】

（表情制御パラメータ生成モデルの学習）
次に、図１１，図１２を参照して、表情制御パラメータ生成モデルＭ_Ｐ（図３）の学習手法について説明する。
表情制御パラメータ生成モデルＭ_Ｐの学習は、キャラクタ顔画像と、当該画像に対応する表情制御パラメータとをペアとする複数の学習データを用いて学習する。

【0059】

まず、この学習手法は、予め学習データを生成しておく。キャラクタ顔画像Ｉ_ＣＧと表情制御パラメータＰ_ＣＴＬは、アニメーションデータＤ_Ａから生成される。キャラクタ顔画像Ｉ_ＣＧは、ＣＧソフトウェア上でアニメーションデータＤ_Ａを再生し、毎フレームでレンダリング処理を行うことで生成される。また、アニメーションデータＤ_Ａから表情制御パラメータＰ_ＣＴＬを生成する手法（生成手法）は、図７と同じデータで説明する。
この生成手法は、予めアニメーションデータＤ_Ａから抽出するパラメータのリスト（キーパラメータリストＬ_ＫＰ）を準備しておく。ここでは、キーパラメータリストＬ_ＫＰに、Ｐａｒａｍ１－１，Ｐａｒａｍ１－２が設定されているものとする。

【0060】

また、この生成手法は、各パラメータの最小値および最大値を示す値のリスト（最小・最大値リストＬ_{ＭＡＸＭＩＮ}）を準備しておく。ここでは、最小・最大値リストＬ_{ＭＡＸＭＩＮ}には、パラメータＰａｒａｍ１－１の最小値（ｍｉｎ）“０．１、最大値（ｍａｘ）“０．８”が設定され、パラメータＰａｒａｍ１－２の最小値（ｍｉｎ）“１”、最大値（ｍａｘ）“５”が設定されているものとする。

【0061】

この生成手法は、アニメーションデータＤ_Ａのフレーム（キャラクタ顔画像）ごとに、キーパラメータリストＬ_ＫＰに設定されているパラメータのみを抽出する。そして、この学習手法は、最小・最大値リストＬ_{ＭＡＸＭＩＮ}に設定されている最小値を“０”、最大値を“１”とするようにパラメータの値を正規化することで、フレーム（キャラクタ顔画像）に対応する表情制御パラメータＰ_ＣＴＬを生成する。
例えば、この生成手法は、アニメーションデータＤ_Ａの１フレーム目から、キーパラメータリストＬ_ＫＰに設定されているパラメータＰａｒａｍ１－１，Ｐａｒａｍ１－２の値である“０．２”と“１”とを抽出する。

【0062】

そして、この生成手法は、Ｐａｒａｍ１－１の値“０．２”を最小・最大値リストＬ_{ＭＡＸＭＩＮ}に設定されている範囲で正規化することで“０．１４３”とし、Ｐａｒａｍ１－２の値“１”を同様に正規化することで“０”とする。
これによって、１フレームの画像（キャラクタ顔画像）に対応する表情制御パラメータＰ_{ＣＴＬ１－１}を生成することができ、キャラクタ顔画像と表情制御パラメータとをペアとする学習データを生成することができる。他のフレームについても同様である。

【0063】

そして、この学習手法は、図１１に示すように、キャラクタ顔画像Ｉ_ＣＧと、当該画像に対応する表情制御パラメータＰ_ＣＴＬとをペアとする複数の学習データを用いて表情制御パラメータ生成モデルＭ_Ｐの学習を行う。
この学習方法は、キャラクタ顔画像Ｉ_ＣＧから顔の表情のみが映った領域（表情領域）を抽出し、キャラクタ顔画像Ｉ_ＣＧＥＸを生成する。なお、この表情領域の抽出は、図１０で説明したマスク画像Ｍ_ＦＣ，Ｍ_ＣＧと同様、一般的なランドマーク推定手法を用いて、顔の輪郭、目、口、鼻等の顔の特徴点をランドマークとして推定し、特徴点をすべて包含する最小の多角形の外側をマスク領域とするマスク画像を用いて抽出することができる。

【0064】

そして、この学習手法は、キャラクタ顔画像Ｉ_ＣＧから抽出した顔の表情のみが映ったキャラクタ顔画像Ｉ_ＣＧＥＸを、表情制御パラメータ生成モデルＭ_Ｐに入力し、キャラクタ顔画像Ｉ_ＣＧとペアとなる学習データの表情制御パラメータＰ_ＣＴＬを出力するように表情制御パラメータ生成モデルＭ_Ｐ（エンコーダＥ２）のパラメータを学習する。なお、このモデルのパラメータの学習には、誤差逆伝播法等を用いればよい。
これによって、表情制御パラメータ生成モデルＭ_Ｐは、顔の表情のみが映ったキャラクタ顔画像Ｉ_ＣＧＥＸを入力し、表情制御パラメータＰ_ＣＴＬを出力することが可能になる。

【0065】

以上、本発明の実施形態について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、顔画像変換モデルを、人物顔画像から顔の表情以外をマスクしたキャラクタ顔画像を生成するモデルとした。
しかし、顔画像変換モデルが出力するキャラクタ顔画像は、顔の表情を含んでいれば、必ずしも顔の表情以外をマスクした画像である必要はない。
ただし、顔画像変換モデルが出力するキャラクタ顔画像は、表情制御パラメータの精度を高めるため、顔の表情以外をマスクしたキャラクタ顔画像であることが好ましい。

【符号の説明】

【0066】

１表情アニメーションデータ生成装置
１０記憶部
１１顔画像変換モデル記憶部
１２表情制御パラメータ生成モデル記憶部
１３補助情報記憶部
２０制御部
２１顔画像変換部
２２表情制御パラメータ生成部
２３アニメーションデータ変換部
２３１スケール変更部
２３２パラメータ配列部
２３３時系列配列部
Ｍ_Ｃ顔画像変換モデル
Ｍ_Ｐ表情制御パラメータ生成モデル
Ｐ_ＣＴＬ表情制御パラメータ
ＣＴＬコントローラ

【図1】