IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社ソニー・コンピュータエンタテインメントの特許一覧

特許7599554テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御
<>
  • 特許-テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御 図1
  • 特許-テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御 図2
  • 特許-テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御 図3
  • 特許-テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御 図4
  • 特許-テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-05
(45)【発行日】2024-12-13
(54)【発明の名称】テキストと音声を用いたフェイシャルアクションユニットの自動生成によるフェイシャルアニメーション制御
(51)【国際特許分類】
   G06T 13/40 20110101AFI20241206BHJP
   G10L 25/63 20130101ALI20241206BHJP
【FI】
G06T13/40
G10L25/63
【請求項の数】 16
(21)【出願番号】P 2023514901
(86)(22)【出願日】2021-09-02
(65)【公表番号】
(43)【公表日】2023-09-25
(86)【国際出願番号】 US2021048870
(87)【国際公開番号】W WO2022051497
(87)【国際公開日】2022-03-10
【審査請求日】2023-04-27
(31)【優先権主張番号】63/074,310
(32)【優先日】2020-09-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】17/396,664
(32)【優先日】2021-08-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】310021766
【氏名又は名称】株式会社ソニー・インタラクティブエンタテインメント
(74)【代理人】
【識別番号】100105924
【弁理士】
【氏名又は名称】森下 賢樹
(72)【発明者】
【氏名】カウシィク、ラクシュミシュ
(72)【発明者】
【氏名】クマール、サケット
【審査官】中田 剛史
(56)【参考文献】
【文献】国際公開第2019/160100(WO,A1)
【文献】特開2007-058846(JP,A)
【文献】特開2005-352892(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/40
G10L 25/63
(57)【特許請求の範囲】
【請求項1】
装置であって、
少なくとも1つのプロセッサであって、
コンピュータ化されたアバターの顔の画像を識別すること、
前記アバターに関連する第1のモダリティデータであって、音声を含む前記第1のモダリティデータを識別すること、
前記アバターに関連する第2のモダリティデータであって、テキストを含む前記第2のモダリティデータを識別すること、
前記アバターの前記顔の前記画像をアニメーション化するのに役立つ、前記第1のモダリティデータに少なくとも部分的に基づく第1の情報及び前記第2のモダリティデータに少なくとも部分的に基づく第2の情報を受け取ること、及び
前記第1の情報及び前記第2の情報の両方に従って前記アバターの前記顔をアニメーション化すること、
のための命令で構成された、前記少なくとも1つのプロセッサ、
を含み、
前記命令は少なくとも1つの機械学習(ML)モデルにアクセスして前記アバターの前記顔をアニメーション化することを実行可能であり、前記MLモデルは前記アバターの前記顔の画像から導出されたアンカーポイントを受け取ってフェイシャルアクションユニット(FAU)を生成し、前記音声及び前記テキストを前記FAUに関連付けることを実行可能であり、
前記命令は、前記音声から抽出された音素境界を少なくとも部分的に使用して前記音声及び前記テキストを時間的に互いに整合させることを実行可能であり、前記命令は、前記音声から抽出された前記音素境界を使用して感情及び感情の程度を前記音声及び前記テキストと時間において整合させることをさらに実行可能である、前記装置。
【請求項2】
前記命令は、前記第1及び第2のモダリティデータから前記感情を導出することを実行可能である、請求項1に記載の装置。
【請求項3】
前記情報は、前記感情から生成された時間で整合された単語レベルの感情確率に少なくとも部分的に基づく、請求項2に記載の装置。
【請求項4】
方法であって、
第1のテキスト及び第1の音声の両方に従って単語を話すアニメーション化される第1の顔の画像を生成すること、
前記第1のテキスト及び前記第1の音声を時間において整合させること、及び
前記第1のテキスト及び前記第1の音声に従って、第1の単語を話す前記第1の顔の前記画像をアニメーション化すること、
を含み、
前記第1の顔の前記画像は、前記第1の音声における単語のスライディングウィンドウを処理することによって少なくとも部分的にアニメーション化され、前記第1の音声における単語1~Nは第1の感情に関連付けられ、前記第1の顔の前記画像は前記第1の感情に従ってアニメーション化され、前記第1の音声における単語2~N+は第2の感情に関連付けられ、前記第1の顔の前記画像は前記第2の感情に従ってアニメーション化され、Nは2よりも大きい整数である、前記方法。
【請求項5】
既知の単語を話すアニメーション化された顔のトレーニングセットを使用して、機械学習(ML)モデルをトレーニングすること、
前記第1のテキスト及び前記第1の音声を前記MLモデルに入力すること、
前記MLモデルの出力に従って、前記第1の顔の前記画像をアニメーション化すること、
前記第1のテキストから感情と情緒を検出すること、
前記第1のテキストを前記第1のテキストを表す音声と整合させて、整合されたテキスト/音声をレンダリングすること、及び
前記感情、前記情緒、及び前記整合されたテキスト/音声を前記MLモデルに入力すること、
を含む、請求項4に記載の方法。
【請求項6】
ターゲット感情を前記MLモデルに入力すること
を含む、請求項5に記載の方法。
【請求項7】
前記MLモデルからフェイシャルアクションを表す第1の確率を受け取ること
を含む、請求項5に記載の方法。
【請求項8】
前記MLモデルから感情を表す第2の確率を受け取ること
を含む、請求項7に記載の方法。
【請求項9】
前記第1及び第2の確率の一方または両方を使用して、フェイシャルアクションユニット(FAU)を確立すること
を含む、請求項8に記載の方法。
【請求項10】
前記FAUに従って前記第1の顔の前記画像をアニメーション化すること
を含む、請求項9に記載の方法
【請求項11】
アセンブリであって、
アニメーション化されたコンピュータアバターを提示するように構成された少なくとも1つのディスプレイ、
機械学習(ML)モデルを実行するための命令で構成された少なくとも1つのプロセッサであって、前記命令は、
前記アバターが話す音声を示すテキストを受け取ること、
音声を受け取ること、
前記音声から抽出された音素境界を少なくとも部分的に使用して前記テキスト及び前記音声を時間において整合させること、
前記MLモデルを使用して前記テキスト及び前記音声を処理し、フェイシャルアクションユニット(FAU)を生成すること、及び
前記FAUに従って前記コンピュータアバターをアニメーション化すること、
に対して実行可能である、前記少なくとも1つのプロセッサ、
を含む、前記アセンブリ。
【請求項12】
前記命令は、
前記テキストから感情及び情緒を検出すること、
前記テキストを、前記テキストを表す音声に整合させて、整合されたテキスト/音声をレンダリングすること、及び
前記感情、前記情緒、及び前記整合されたテキスト/音声を前記MLモデルに入力すること、に対して実行可能である、請求項11に記載のアセンブリ。
【請求項13】
前記命令は、
ターゲット感情を前記MLモデルに入力することに対して実行可能である、請求項12に記載のアセンブリ。
【請求項14】
前記命令は、
前記MLモデルからフェイシャルアクションを表す第1の確率を受け取ること
に対して実行可能である、請求項11に記載のアセンブリ。
【請求項15】
前記命令は、
前記MLモデルから感情を表す第2の確率を受け取ること
に対して実行可能である、請求項14に記載のアセンブリ。
【請求項16】
前記命令は、
前記第1及び第2の確率を使用して前記FAUを確立することに対して実行可能である、請求項15に記載のアセンブリ。
【発明の詳細な説明】
【技術分野】
【0001】
本願は、概して、コンピュータシミュレーション及び他のアプリケーションでのテキスト及び音声を使用したフェイシャルアクションユニット(FAU)の自動生成によるフェイシャルアニメーション制御に関する。
【背景技術】
【0002】
コンピュータゲームのアバターなどのコンピュータ化された画像の顔は、シミュレーションのプレイ中にアニメーション化され、リアルな効果が得られる。本明細書で理解されるように、アーティストは通常、人間の顔のそれぞれの筋肉点の収縮または弛緩をエミュレートすることによって、フレームごとに顔のそれぞれの部分をアニメーション化するために使用されるフェイシャルアニメーションユニット(FAU)を苦労して作成する必要がある。
【発明の概要】
【0003】
装置は、少なくとも1つのプロセッサであって、コンピュータ化されたアバターの顔の画像を識別すること、という命令で構成された、少なくとも1つのプロセッサを含む。命令は、機械学習(ML)エンジンへのアバターに関連する第1のモダリティデータを入力すること、アバターに関連する第2モダリティデータをMLエンジンに入力すること、及びアバターの顔の画像をアニメーション化するのに役立つMLエンジンから出力を受け取ることに対して実行可能である。命令はまた、出力に従ってアバターの顔をアニメーション化することに対して実行可能である。
【0004】
いくつかの実施形態で、出力は、複数のフェイシャルアクションユニット(FAU)を含み、各FAUは、顔の画像のそれぞれの部分に関係する。非限定的な例で、第1のモダリティデータがテキストを含み、第2のモダリティデータは音声を含む。
【0005】
非限定的な例では、命令は、MLエンジンを使用して、第1及び第2のモダリティデータから感情アクション情報を導出することに対して実行可能である。出力は、感情アクション情報から生成された時間で整合された単語レベルの感情確率に少なくとも部分的に基づき得る。
【0006】
別の態様では、方法が、既知の単語を話すアニメーション化された顔のトレーニングセットを使用して、機械学習(ML)モデルをトレーニングすることを含む。方法はまた、第1のテキストに従って単語を話すアニメーション化される第1の顔の画像を生成することを含む。方法は、第1のテキストをMLモデルに入力すること、及びMLモデルの出力に従って、第1のテキストによって示される第1の単語を話す第1の顔の画像をアニメーション化することをさらに含む。
【0007】
例示的な実施形態では、方法は第1のテキストから感情と情緒を検出すること、第1のテキストを第1のテキストを表す音声と整合させて、整合されたテキスト/音声をレンダリングすること、及び感情、情緒、及び整合されたテキスト/音声をMLモデルに入力することを含み得る。方法はまた、ターゲット感情をMLモデルに入力することを含み得る。方法の例示的実装形態では、フェイシャルアクションを表すMLモダリティから第1の確率を受け取ること、感情を表すMLモデルから第2の確率を受け取ること、及び第1及び第2の確率を使用して、フェイシャルアクションユニット(FAU)を確立することを含み得る。次いで方法は、FAUに従って第1の顔の画像をアニメーション化することを含むことができる。
【0008】
別の態様では、アセンブリが、アニメーション化されたコンピュータアバターを提示するように構成された少なくとも1つのディスプレイ、及び機械学習(ML)モデルを実行するための命令で構成された少なくとも1つのプロセッサを含む。命令は、アバターが話す音声を示すテキストを受け取ること、MLモデルを使用してテキストを処理し、フェイシャルアクションユニット(FAU)を生成すること、及びFAUに従ってコンピュータアバターをアニメーション化することに対して実行可能である。
【0009】
本願の詳細は、その構造と動作との両方について、添付の図面を参照すると最もよく理解でき、図面において、類似の参照符号は、類似の部分を指す。
【図面の簡単な説明】
【0010】
図1】本原理による例を含む例示的なシステムのブロック図である。
図2】例示的なコンピュータ化されたアバターの顔のスクリーンショットである。
図3】例示的なフローチャート形式で例示的な全体的なロジックを示す。
図4】機械学習(ML)エンジンのトレーニングプロセスを示す。
図5】MLエンジンの推論プロセスを示す。
【発明を実施するための形態】
【0011】
本開示は、概して、限定されることなく、コンピュータゲームネットワークなどの家電(CE)デバイスネットワークの態様を含むコンピュータエコシステムに関する。本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続され得るサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、Sony PlayStation(登録商標)などのゲームコンソールまたはMicrosoft(登録商標)もしくはNintendo(登録商標)もしくは他の製造者によって作成されたゲームコンソール、仮想現実(VR)ヘッドセット、拡張現実(AR)ヘッドセット、ポータブルテレビ(例えば、スマートテレビ、インターネット対応テレビ)、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の実施例を含む他のモバイルデバイスを含む、1つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、様々な動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、実施例として、Linux(登録商標)オペレーティングシステム、Microsoft(登録商標)のオペレーティングシステム、またはUnix(登録商標)オペレーティングシステム、またはApple,Inc.(登録商標)もしくはGoogle(登録商標)によって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、Microsoft(登録商標)もしくはGoogle(登録商標)もしくはMozilla(登録商標)によって作成されたブラウザ、または以下で議論されるインターネットサーバによってホストされるウェブサイトにアクセスできる他のブラウザプログラムなど、1つ以上の閲覧プログラムを実行するために使用され得る。また、本原理による動作環境を使用して、1つ以上のコンピュータゲームプログラムを実行し得る。
【0012】
サーバ及び/またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する1つ以上のプロセッサを含み得る。あるいは、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、Sony PlayStation(登録商標)などのゲームコンソール、パーソナルコンピュータなどによってインスタンス化され得る。
【0013】
クライアントとサーバとの間でネットワークを通じて情報を交換し得る。この目的及びセキュリティのために、サーバ及び/またはクライアントは、ファイアウォール、ロードバランサ、テンポラリストレージ、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。1つ以上のサーバは、ネットワークメンバーにオンラインソーシャルウェブサイトなどの安全なコミュニティを提供する方法を実装する装置を形成し得る。
【0014】
プロセッサは、アドレスライン、データライン及び制御ラインなどの様々なライン、並びにレジスタ及びシフトレジスタによって論理を実行することができる、シングルチッププロセッサまたはマルチチッププロセッサであってよい。
【0015】
一実施形態に含まれるコンポーネントは、他の実施形態では、任意の適切な組み合わせで使用することができる。例えば、本明細書に記載される、及び/または図で示される様々なコンポーネントのいずれもは、組み合わされ、交換され、または他の実施形態から除外されてもよい。
【0016】
「A、B及びCのうちの少なくとも1つを有するシステム」(同様に「A、BまたはCのうちの少なくとも1つを有するシステム」及び「A、B、Cのうちの少なくとも1つを有するシステム」)は、A単独、B単独、C単独、A及びBを一緒に、A及びCを一緒に、B及びCを一緒に、ならびに/またはA、B及びCを一緒に有するシステムなどを含む。
【0017】
ここで、具体的に図1を参照すると、本原理による、上述され、以下でさらに説明される例示的なデバイスのうちの1つ以上を含み得る例示的なシステム10が示されている。システム10に含まれる例示的なデバイスのうちの第1のデバイスは、限定されることなく、テレビチューナ(同等に、テレビを制御するセットトップボックス)を備えたインターネット対応テレビなどのオーディオビデオデバイス(AVD)12などの家電(CE)デバイスである。代替として、AVD12は、また、コンピュータ制御型インターネット対応(「スマート」)電話、タブレットコンピュータ、ノートブックコンピュータ、HMD、ウェアラブルコンピュータ制御デバイス、コンピュータ制御型インターネット対応ミュージックプレイヤ、コンピュータ制御型インターネット対応ヘッドフォン、インプラント可能な皮膚用デバイスなどのコンピュータ制御型インターネット対応インプラント可能デバイス、などであってもよい。それにも関わらず、AVD12は、本原理を実施する(例えば、本原理を実施するように他のCEデバイスと通信し、本明細書に記載される論理を実行し、本明細書に記載されるいずれかの他の機能及び/または動作を行う)ように構成されることを理解されたい。
【0018】
したがって、このような原理を実施するために、AVD12は、図1に示されているコンポーネントの一部または全てによって確立することができる。例えば、AVD12は、1つ以上のディスプレイ14を備えることができ、このディスプレイは、高解像度もしくは超高解像度「4K」またはそれ以上の解像度のフラットスクリーンによって実装されてもよく、ディスプレイのタッチを介したユーザ入力信号を受信するためにタッチ対応であってもよい。AVD12は、本原理に従ってオーディオを出力するための1つ以上のスピーカ16、及び可聴コマンドをAVD12に入力してAVD12を制御するためのオーディオ受信機/マイクロホンなどの、少なくとも1つの追加入力デバイス18を含み得る。例示的なAVD12は、また、1つ以上のプロセッサ24の制御の下、インターネット、WAN、LANなどの少なくとも1つのネットワーク22を通じて通信するための1つ以上のネットワークインタフェース20を含み得る。また、グラフィックプロセッサ24Aが含まれていてもよい。したがって、インタフェース20は、限定されることなく、Wi-Fi(登録商標)送受信機であり得て、このWi-Fi(登録商標)送受信機は、限定されることなく、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの実施例である。プロセッサ24は、その上に画像を提示するようにディスプレイ14を制御すること及びそこから入力を受信することなど、本明細書に記載されるAVD12の他の要素を含むAVD12が本原理を実施するように、制御することを理解されたい。さらに、ネットワークインタフェース20は、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニ送受信機もしくは上述したWi-Fi(登録商標)送受信機などの他の適切なインタフェースであってよいことに留意されたい。
【0019】
上記のものに加えて、AVD12はまた、例えば、別のCEデバイスに物理的に接続する高解像度マルチメディアインタフェース(HDMI(登録商標))ポートもしくはUSBポート、及び/またはヘッドフォンを通してAVD12からユーザにオーディオを提供するためにAVD12にヘッドフォンを接続するヘッドフォンポートなどの1つ以上の入力ポート26を含んでもよい。例えば、入力ポート26は、オーディオビデオコンテンツのケーブルまたは衛星ソース26aに有線でまたは無線で接続されてもよい。したがって、ソース26aは、別個のもしくは統合されたセットトップボックス、または衛星受信機であってよい。あるいは、ソース26aは、コンテンツを含むゲームコンソールまたはディスクプレイヤであってもよい。ソース26aは、ゲームコンソールとして実装されるとき、CEデバイス44に関連して以下で説明されるコンポーネントの一部または全てを含んでよい。
【0020】
AVD12は、さらに、一時的信号ではない、ディスクベースストレージまたはソリッドステートストレージなどの1つ以上のコンピュータメモリ28を含んでもよく、これらのストレージは、場合によっては、スタンドアロンデバイスとしてAVDのシャーシ内で、またはAVプログラムを再生するためにAVDのシャーシの内部もしくは外部のいずれかでパーソナルビデオ録画デバイス(PVR)もしくはビデオディスクプレイヤとして、または取り外し可能メモリ媒体として具現化されてもよい。また、ある実施形態では、AVD12は、限定されることなく、携帯電話受信機、GPS受信機、及び/または高度計30などの位置または場所の受信機を含むことができ、位置または場所の受信機は、衛星もしくは携帯電話基地局から地理的位置情報を受信し、その情報をプロセッサ24に供給し、及び/またはAVD12がプロセッサ24と併せて配置されている高度を決定するように構成される。コンポーネント30はまた、通常、加速度計、ジャイロスコープ、及び磁力計の組み合わせを含み、AVD12の位置及び方向を3次元で決定する慣性測定ユニット(IMU)によって実装されてもよい。
【0021】
AVD12の説明を続けると、いくつかの実施形態では、AVD12は、1つ以上のカメラ32を含んでよく、1つ以上のカメラは、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、及び/またはAVD12に統合され、本原理に従って写真/画像及び/またはビデオを収集するようプロセッサ24によって制御可能なカメラであってよい。また、AVD12に含まれるのは、Bluetooth(登録商標)及び/または近距離無線通信(NFC)技術を各々使用して、他のデバイスと通信するためのBluetooth(登録商標)送受信機34及び他のNFC要素36であってよい。例示的なNFC素子は、無線周波数識別(RFID)素子であってもよい。
【0022】
さらにまた、AVD12は、プロセッサ24に入力を供給する1つ以上の補助センサ37(例えば、加速度計、ジャイロスコープ、サイクロメータなどの運動センサ、または磁気センサ、赤外線(IR)センサ、光学センサ、速度センサ及び/またはケイデンスセンサ、ジェスチャセンサ(例えば、ジェスチャコマンドを検知するための)など)を含み得る。AVD12は、プロセッサ24への入力をもたらすOTA(無線)TV放送を受信するための無線TV放送ポート38を含み得る。上記に加えて、AVD12はまた、赤外線データアソシエーション(IRDA)デバイスなどの赤外線(IR)送信機及び/またはIR受信機及び/またはIR送受信機42を含み得ることに留意されたい。電池(図示せず)は、電池を充電するために及び/またはAVD12に電力を供給するために運動エネルギーを電力に変えることができる運動エネルギーハーベスタのように、AVD12に電力を供給するために提供され得る。
【0023】
さらに図1を参照すると、AVD12に加えて、システム10は、1つ以上の他のCEデバイスタイプを含み得る。一実施例では、第1のCEデバイス44は、AVD12に直接送信されるコマンドを介して及び/または後述のサーバを通して、コンピュータゲームの音声及びビデオをAVD12に送信するために使用することができるコンピュータゲームコンソールであり得る一方で、第2のCEデバイス46は第1のCEデバイス44と同様のコンポーネントを含み得る。図示の実施例では、第2のCEデバイス46は、プレイヤによって操作されるコンピュータゲームのコントローラとして、またはプレイヤ47によって装着されるヘッドマウントディスプレイ(HMD)として構成され得る。図示の実施例では、2つのCEデバイス44、46のみが示されているが、より少ないまたはより多くのデバイスが使用されてよいことは理解されよう。本明細書のデバイスは、AVD12について示されているコンポーネントの一部またはすべてを実装し得る。次の図に示されているコンポーネントのいずれかに、AVD12の場合に示されているコンポーネントの一部またはすべてが組み込まれることがある。
【0024】
ここで、上述の少なくとも1つのサーバ50を参照すると、サーバは、少なくとも1つのサーバプロセッサ52と、ディスクベースストレージまたはソリッドステートストレージなどの少なくとも1つの有形コンピュータ可読記憶媒体54と、サーバプロセッサ52の制御下で、ネットワーク22を通じて図1の他のデバイスとの通信を可能にし、実際に、本原理に従ってサーバとクライアントデバイスとの間の通信を容易にし得る少なくとも1つのネットワークインタフェース56とを含む。ネットワークインタフェース56は、例えば、有線もしくは無線モデムもしくはルータ、Wi-Fi送受信機、または、例えば、無線テレフォニ送受信機などの他の適切なインタフェースであってよいことに留意されたい。
【0025】
したがって、いくつかの実施形態では、サーバ50は、インターネットサーバまたはサーバ「ファーム」全体であってよく、「クラウド」機能を含んでもよく、「クラウド」機能を実行してもよく、システム10のデバイスが、例えば、ネットワークゲームアプリケーションの例示的な実施形態においてサーバ50を介して「クラウド」環境にアクセスし得るようにする。あるいは、サーバ50は、図1に示されている他のデバイスと同じ部屋にある、またはその近くにある、1つ以上のゲームコンソール、または他のコンピュータによって実装されてもよい。
【0026】
図2は、コンピュータアバターの顔202が提示される本明細書の任意のディスプレイなどのディスプレイ200を示す。顔202は、人間の顔の対応する部分の弛緩または収縮をエミュレートするために、それぞれのフェイシャルアニメーションユニット(FAU)によって要求されるようにアニメーション化され得る、多くのエミュレートされたアンカーポイント204(明確にするために4つだけが示されている)を有する。
【0027】
図3は、FAUを自動的に生成して顔202をアニメーション化するために使用できる全体的なロジックを示す。本明細書で説明するロジックは、本明細書で説明するプロセッサのうちの任意の1つまたは複数によって実行することができる。
【0028】
ブロック300で始まり、機械学習(ML)エンジンが、図4を参照して説明されるように訓練される。ブロック302に進むと、顔のビデオ画像202が、例えばコンピュータシミュレーション、例えばコンピュータゲームにより生成され、顔に関連する対応するマルチモダリティデータがブロック304でMLエンジンに入力される。図5を参照してさらに十分に説明するように、マルチモダリティデータから、MLエンジンは、ブロック306でアバターの顔202のエミュレートされた筋肉をアニメーション化するために使用される予測FAUを生成する。
【0029】
図4は、MLエンジンのトレーニングプロセスの例を示している。データベース400からのデータのトレーニングセットがアクセスされる。データのトレーニングセットには、話しているときに感情を表現する顔の画像が含まれている。換言すれば、データベースは、正しい表現をアニメーション化しながら既知のテキストを話すアバターのグラウンドトゥルースアニメーションを含む。
【0030】
入力されるトレーニング画像ごとに、画像のそれぞれのアンカーポイント204がブロック402で画像から抽出される。言い換えれば、ブロック402は、フェイシャルアクションユニット(FAU)に使用される入力画像のアンカーポイントを生成する。また、音声信号及び音声信号が関連付けられているテキストは、ブロック404で抽出され、ブロック404での音声及びテキストがブロック402で抽出されたFAUに関連付けられていることが理解される。
【0031】
ブロック406は、以下にさらに開示するように、音声とテキストが互いに時間的に整合していることを示す。図4のグラフ407によって表されるように、音素境界は、対応するテキスト407Bの音声信号407Aの音素境界から抽出される。このようにすると、x軸に沿った各インクリメンタルブロックが音声によって生成された音素を表し、音素がインクリメンタルブロックの隣接する境界407C、407Dの間で定められる。
【0032】
強制整合ブロック406は、音素境界を使用して、感情注釈ブロック408で感情を時間において整合し、エキスパートが感情で入力に注釈を付ける感情注釈ブロック410で感情を整合し、音声特徴ブロック412で音声の特徴を整合させる。したがって、対応する感情、情緒、及び音声の特徴は、抽出された音素境界を使用して整合される。以下でさらに説明するように、「情緒」は感情の程度、例えば肯定的または否定的であることを指すことができ、「感情」は話者の感情的な状態、例えば幸福、悲しみ、怒りなどを指すことができる。音声における単語のスライディングウィンドウは、この方法で処理できる、例えば、単語1~3に第1の感情/情緒で注釈を付けることができ、単語2~4に第2の感情/情緒で注釈を付けることができる、等々であることに留意されたい。音声特徴412は、入力の組み合わされた特性を表すために生成される。ウィグナー・ヴィル分布関数及び時間周波数フィルタリング技法を含む技法を使用して音声特徴を生成することができる。
【0033】
ブロック408、410、及び412の生成物は、ML感情アクション生成モデル414に供給され、モデルをトレーニングする。また、モデル414への入力は、ブロック402からのFAUと、モデル414をトレーニングするために使用される入力される(注釈付き)感情のグラウンドトゥルースであるターゲット感情416である。このようにすると、モデル414はデータベース400からの複数のデータセットでトレーニングされ、FAUを対応する音声及びテキスト及びターゲット感情と相関させて、フェイシャルアクションアンカー確率418及び時間で整合させた単語レベル感情確率420を出力し、その後、FAUに従ってアンカーポイント204を適切にアニメーション化することによって、顔(例えば、図2の顔202)をアニメーション化する際に使用することができる。
【0034】
図5に移る前に、感情は、カテゴリ及び次元的な感情の分類の一方または両方を使用してグラウンドトゥルース416と比較するために、入力トレーニングセットで検出され得る。カテゴリ分類は、幸福、悲しみ、怒り、恐怖などを含む感情カテゴリを生成する。次元的な分類は、感情価と覚醒度の観点から感情の次元を生成する。
【0035】
図5は、モデル414によるその後の推論処理を示し、図5では510とラベル付けされている。アニメ化されたアバターが話すテキスト500は、テキストを音声信号に変換するためにテキスト読み上げブロック502に入力される。さらに、または代わりに、テキストに対応する記録された、または生の人間の音声がブロック502に供給され得る。図4を参照して上で教示されたように整合されたものに対応するブロックの要素を時間的に整合させるために、図4のグラフ407と同じ特徴を有するグラフ507によって示されるように、図4のトレーニングプロセスについて説明されたのと同じ方法で、ブロック504で音声の特徴が抽出され、ブロック506でテキスト及び対応する音声から音素境界が抽出される。
【0036】
ブロック500からのアバターが話すテキストは感情及び情緒検出ブロック508に送られ、図4からのトレーニングに従ってテキストから情緒及び感情を抽出する。ブロック508でテキストから抽出された感情及び情緒は、ブロック504からの音声の特徴及びブロック506からの整合されたテキスト/音声信号とともに、モデル510に入力される。所望であれば、ブロック512に示されるように、ターゲット感情がモデルに入力され得る。ターゲット感情は、ユーザが入力するか、機械学習を使用して入力されたテキストから導出される、注釈付きテキストの一部であってもよい。
【0037】
そのトレーニングに基づいて、モデル510は、受け取った入力から、各アンカーポイント204のフェイシャルアクションの確率512と、時間で整合されたテキスト/音声信号から導出された感情の確率516を出力する。これらの確率の一方または両方に基づいて、投影されたアンカー位置518(すなわち、FAU)が得られ、各アニメーション化されたフレームが描写する顔の表情を確立する。ブロック500で、FAUがアバターのアニメーションに適用され、アバターがテキスト入力を話すときに正しい表情を与える。
【0038】
いくつかの例示的な実施形態を参照して本原理を説明したが、これらは限定することを意図しておらず、各種の代替的な構成が本明細書で特許請求される主題を実施するために使用されてよいことは理解されよう。
図1
図2
図3
図4
図5