(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-12-22
(45)【発行日】2024-01-05
(54)【発明の名称】人工知能に基づくアニメキャラクター駆動方法及び関連装置
(51)【国際特許分類】
G06T 13/40 20110101AFI20231225BHJP
G06T 13/20 20110101ALI20231225BHJP
G10L 13/00 20060101ALI20231225BHJP
【FI】
G06T13/40
G06T13/20 500
G10L13/00 100A
(21)【出願番号】P 2021557135
(86)(22)【出願日】2020-08-27
(86)【国際出願番号】 CN2020111615
(87)【国際公開番号】W WO2021043053
(87)【国際公開日】2021-03-11
【審査請求日】2021-09-24
(31)【優先権主張番号】201910824770.0
(32)【優先日】2019-09-02
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】517392436
【氏名又は名称】▲騰▼▲訊▼科技(深▲セン▼)有限公司
【氏名又は名称原語表記】TENCENT TECHNOLOGY (SHENZHEN) COMPANY LIMITED
【住所又は居所原語表記】35/F,Tencent Building,Kejizhongyi Road,Midwest District of Hi-tech Park,Nanshan District, Shenzhen,Guangdong 518057,CHINA
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】暴 林超
(72)【発明者】
【氏名】康 世胤
(72)【発明者】
【氏名】王 盛
(72)【発明者】
【氏名】林 祥▲凱▼
(72)【発明者】
【氏名】季 ▲興▼
(72)【発明者】
【氏名】朱 展▲圖▼
(72)【発明者】
【氏名】李 ▲廣▼之
(72)【発明者】
【氏名】陀 得意
(72)【発明者】
【氏名】▲劉▼ 朋
【審査官】粕谷 満成
(56)【参考文献】
【文献】特開2003-141564(JP,A)
【文献】特表2012-528390(JP,A)
【文献】特開2015-210739(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06T 13/40
G06T 13/20
G10L 13/00
(57)【特許請求の範囲】
【請求項1】
オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するステップと、を含み、
前記第1アニメキャラクターと前記第2アニメキャラクターは、
表情変化能力を有した、異なるアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは異な
り、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する前記ステップは、
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定するステップと、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動するステップと、を含む、アニメキャラクター駆動方法。
【請求項2】
前記第2表情ベースは、前記第2表情ベースと音素との所定関係に基づいて生成され、前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定する前記ステップは、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定するステップと、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定するステップであって、前記第1表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定するステップと、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定するステップと、を含む請求項
1に記載の方法。
【請求項3】
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する前記ステップは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定するステップであって、前記表情特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであるステップと、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定するステップと、を含む請求項1に記載の方法。
【請求項4】
オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第1決定ユニット、第2決定ユニット及び駆動ユニットを含み、
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するものであり、
前記第1アニメキャラクターと前記第2アニメキャラクターは、
表情変化能力を有した異なるアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは異な
り、
前記駆動ユニットは、
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動する、アニメキャラクター駆動装置。
【請求項5】
前記第2表情ベースは、前記第2表情ベースと音素との所定関係に基づいて生成され、前記駆動ユニットは、さらに、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定し、前記第1表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定し、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定する請求項
4に記載の装置。
【請求項6】
前記第2決定ユニットは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する請求項
4に記載の装置。
【請求項7】
オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含む第1メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであるステップと、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であるステップと、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するステップと、を含むアニメキャラクター駆動方法。
【請求項8】
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいてターゲット表情ベースを決定する前記ステップは、
前記第1表情ベースから前記第1アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、前記第2表情ベースから前記第2アニメキャラクターが無表情にある時に対応する無表情メッシュを決定するステップと、
前記第1アニメキャラクターに対応する無表情メッシュ及び前記第2アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定するステップであって、前記調整メッシュは、第2頂点トポロジーを有し、無表情にある時の第1アニメキャラクターを識別するものであるステップと、
前記調整メッシュと前記第2表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成するステップと、を含む請求項
7に記載の方法。
【請求項9】
オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第1決定ユニット、第2決定ユニット、第3決定ユニット及び駆動ユニットを備え、
前記取得ユニットは、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであり、
前記第2決定ユニットは、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニットは、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するアニメキャラクター駆動装置。
【請求項10】
アニメキャラクターを駆動するための機器であって、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて請求項1~
3又は、
7~
8のいずれか一項に記載の方法を実行する機器。
【請求項11】
コンピュータに請求項1~
3又は、
7~
8のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、2019年9月2日に中国特許庁に提出された、出願番号が201910824770.0であり、出願名称が「人工知能に基づくアニメキャラクター駆動方法及び装置」である中国特許出願について優先権を主張し、その内容の全てが本出願の一部として援用される。
【0002】
本出願はデータ処理分野に関し、特にアニメキャラクター駆動に関する。
【背景技術】
【0003】
コンピュータ技術の発展とともに、ヒューマンコンピュータインタラクションは、普通になり、ほとんどが単なる音声インタラクションであり、例えば、インタラクション機器は、ユーザによって入力されたテキスト又は音声に基づいてフィードバックコンテンツを決定し、フィードバックコンテンツに基づいて合成された仮想声を再生する。
【0004】
このようなヒューマンコンピュータインタラクションによるユーザの没入感は、現在のユーザのインタラクションニーズを満たすことは困難であり、ユーザの没入感を向上させるために、表情変化能力を有し、例えば、口の形が変化可能なアニメキャラクターをユーザとインタラクションするインタラクション対象とすることは、現在の研究方向である。
【0005】
ただし、現在、完璧なアニメキャラクター駆動方法はない。
【発明の概要】
【発明が解決しようとする課題】
【0006】
本出願は、上記技術課題を解決するために、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上できる、人工知能に基づくアニメキャラクター駆動方法及び装置を提供する。
【課題を解決するための手段】
【0007】
本出願の実施例は、以下の技術案を開示する。
【0008】
第1態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法を提供し、前記方法は、
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動するステップと、を含む。
【0009】
第2態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置を提供し、前記装置は、取得ユニット、第1決定ユニット、第2決定ユニット及び駆動ユニットを含み
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
【0010】
第3態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法を提供し、前記方法は、
話者の顔表情及び対応する音声を含む第1メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定するステップであって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであるステップと、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であるステップと、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動するステップと、を含む。
【0011】
第4態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置を提供し、前記装置は、取得ユニット、第1決定ユニット、第2決定ユニット、第3決定ユニット及び駆動ユニットを含み、
前記取得ユニットは、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニットは、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーであり、
前記第2決定ユニットは、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニットは、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する。
【0012】
第5態様によれば、本出願の実施例は、アニメキャラクターを駆動するための機器を提供し、前記機器は、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて第1態様又は第3態様に記載の方法を実行する。
【0013】
第6態様によれば、本出願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体は、プログラムコードを記憶し、前記プログラムコードは、第1態様又は第3態様に記載の方法を実行する。
【0014】
第7態様によれば、本出願の実施例は、コンピュータプログラム製品を提供し、コンピュータプログラム製品を実行すると、第1態様又は第3態様に記載の方法を実行する。
【発明の効果】
【0015】
上記技術案から分かるように、話者が音声を発する時の顔表情変化のメディアデータを収集することによって、話者に対応する第1アニメキャラクターの第1表情ベースを決定することができ、第1表情ベースは、第1アニメキャラクターの異なる表情を表すことができる。第2アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第1表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができ、この音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、このターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものである。音響的特徴及びターゲット表情パラメータによって、第2表情ベースを有する第2アニメキャラクターを駆動でき、それにより、第2アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行うことができ、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。
【図面の簡単な説明】
【0016】
本出願の実施例又は従来技術の技術案を明瞭に説明するために、以下、実施形態または従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記述された図面は、本出願のいくつかの実施形態にすぎず、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。
【0017】
【
図1】本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法の適用シーンの模式図である。
【
図2】本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。
【
図3】本出願の実施例に係るアニメキャラクター駆動システムの構造プロセスである。
【
図4】本出願の実施例に係るメディアデータを収集するシーンを例示した図である。
【
図5】本出願の実施例に係る3DMMライブラリMの各次元の分布及び意味を例示した図である。
【
図6】本出願の実施例に係る、決定された顔カスタマイズパラメータに基づくアニメキャラクター駆動方法の適用シーンの模式図である。
【
図7】本出願の実施例に係る、決定されたマッピング関係に基づくアニメキャラクター駆動方法の適用シーンの模式図である。
【
図8】本出願の実施例に係る時間区間と音素との対応関係を例示した図である。
【
図9】本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。
【
図10a】本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。
【
図10b】本出願の実施例に係るアニメキャラクター駆動装置の構造図である。
【
図11】本出願の実施例に係るアニメキャラクター駆動装置の構造図である。
【
図12】本出願の実施例に係るアニメキャラクターを駆動するための機器の構造図である。
【
図13】本出願の実施例に係るサーバの構造図である。
【発明を実施するための形態】
【0018】
以下、図面を組み合わせ、本出願の実施例について説明する。
【0019】
現在、表情変化能力を持つアニメキャラクターをユーザとインタラクションするインタラクション対象とすることは、ヒューマンコンピュータインタラクションの主な研究方向である。
【0020】
例えば、ゲームシーンでは、ユーザ自身の顔の形と同じゲームキャラクター(アニメキャラクター)などを作成することができ、ユーザが文字又は音声を入力すると、このゲームキャラクターが音声を発して対応する表情(例えば、口の形など)をすることができ、又は、ゲームシーンでは、ユーザ自身の顔の形と同じゲームキャラクターなどを作成し、相手先が文字又は音声を入力すると、このゲームキャラクターが相手先の入力に応じて音声をフィードバックして対応する表情をすることができる。
【0021】
アニメキャラクターを良好に駆動し、例えば、アニメキャラクターが音声を発して対応する表情をするように駆動するために、本出願の実施例は、人工知能に基づくアニメキャラクター駆動方法を提供する。この方法は、話者が音声を発する時の顔表情変化のメディアデータを収集し、話者に対応する第1アニメキャラクターの第1表情ベースを決定することができ、第2アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第1表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定し、それにより、音響的特徴及びターゲット表情パラメータによって第2表情ベースを有する第2アニメキャラクターを駆動することで、第2アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行い、テキスト情報に基づいて第2アニメキャラクターを駆動することを実現する。
【0022】
強調すべきものとして、本出願の実施例に係るアニメキャラクター駆動方法は、人工知能に基づいて実現され、人工知能(Artificial Intelligence、AI)は、デジタルコンピュータ又はデジタルコンピュータにより制御された機械を用い、ヒトの知能をシミュレート、延伸及び拡張し、環境を感知し、知識を取得しかつ知識を使用して最適な結果を取得する理論、方法、技術及び応用システムである。つまり、人工知能は、コンピュータ科学の総合技術であり、知能の実質を把握し、ヒトの知能と同様に反応できる新規知能機械を生産することを目的とする。人工知能は、様々な知能機械の設計原理及び実現方法を研究することにより、機械に感知、推理及び決定の機能を与えることである。
【0023】
人工知能技術は、総合学科であり、広い分野に係り、ハードウェア面の技術もあり、ソフトウェア面の技術もある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、オペレーティング/インタラクションシステム、電気機械一体化などの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータ視覚技術、音声処理技術、自然言語処理技術及び機械学習/深層学習などの複数の方向を含む。
【0024】
本出願の実施例に主に係る人工知能技術は、音声処理技術、機械学習及びコンピュータ視覚(画像)などの方向を含む。
【0025】
例えば、音声技術(Speech Technology)の音声認識技術(Automatic Speech Recognition、ASR)、音声合成(Text To Speech、TTS)及び声紋認識に係る。音声認識技術は、音声信号前処理(Speech signal preprocessing)、音声信号周波数解析(Speech signal frequency analyzing)、音声信号特徴抽出(Speech signal feature extraction)、音声信号特徴マッチング/認識(Speech signal feature matching/recognition)、音声訓練(Speech training)などを含むことができる。音声合成は、テキスト解析(Text analyzing)、音声生成(Speech generation)などを含む。
【0026】
例えば、機械学習(Machine learning、ML)に係ることができ、機械学習は、多領域の交差学科であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学科に関連している。コンピュータがどのようにヒトの学習行動をシミュレートしたり、実現したりするかを専門的に研究し、新しい知識又はスキルを獲得し、既存の知識構造を再組織して自体の性能を改善する。機械学習は、
1632461396376_0
のコアであり、コンピュータに知能を持たせる根本的なルートであり、人工知能の各分野に適用されている。機械学習は、通常、深層学習(Deep Learning)などの技術を含み、学習深層は、畳み込みニューラルネットワーク(Convolutional Neural Network、CNN)、サイクルニューラルネットワーク(Recurrent Neural Network、RNN)、深層ニューラルネットワーク(Deep neural network、DNN)などの人工ニューラルネットワーク(artificial neural network)を含む。
【0027】
例えば、コンピュータ視覚(Computer Vision)のビデオ処理(video processing)、ビデオセマンティクス解析(video semantic understanding、VSU)、顔識別(face recognition)などに係ることができる。ビデオセマンティクス解析は、ターゲット識別(target recognition)、ターゲット検出/測位(target detection/localization)などを含み、顔識別は、顔の3D再作成(Face 3D Reconstruction)、顔検出(Face Detection)、顔追跡(Face Tracking)などを含む。
【0028】
本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法は、アニメキャラクターを駆動する能力を具備したオーディオ・ビデオ処理機器に適用され、このオーディオ・ビデオ処理機器は、端末機器であってもよいし、サーバであってもよい。
【0029】
このオーディオ・ビデオ処理機器は、音声技術を実施する能力を有し、オーディオ・ビデオ処理機器が聴いたり、見たり、感覚したりできるようにすることは、将来のヒューマンコンピュータインタラクションの発展方向であり、そのうち、音声は、将来最も有望なヒューマンコンピュータインタラクション方式の1つになる。
【0030】
本出願の実施例では、オーディオ・ビデオ処理機器は、上記コンピュータ視覚技術を実施することで、メディアデータ中の話者に対応する第1アニメキャラクターの第1表情ベースを決定し、音声技術及び機械学習によって、ターゲットテキスト情報及びメディアデータに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定し、さらに音響的特徴及びターゲット表情パラメータを用い、第2表情ベースを有する第2アニメキャラクターを駆動する。
【0031】
オーディオ・ビデオ処理機器が端末機器であれば、端末機器は、知能端末、コンピュータ、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、タブレットPCなどであってもよい。
【0032】
このオーディオ・ビデオ処理機器がサーバであれば、サーバは、独立したサーバであってもよいし、クラスターサーバであってもよい。サーバがこの方法を施す場合、端末機器は、話者の顔表情及び対応する音声を含むメディアデータをサーバにアップロードし、サーバは、音響的特徴及びターゲット表情パラメータを決定し、この音響的特徴及びターゲット表情パラメータを用いて端末機器における第2アニメキャラクターを駆動する。
【0033】
本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法は、アニメキャラクターが適用される様々な適用シーン、例えば、ニュース放送、天気予報、ゲーム解説及びゲームシーン(ユーザが自分の顔の形と同じゲームキャラクターなどを作成できる)に適用することができ、さらに、アニメキャラクターがプライベートサービス(例えば、心理医師、仮想アシスタントなどの個人向けの1対1のサービス)を行う適用シーンにも適用することができることが理解され得る。これらのシーンでは、本出願の実施例に係る方法を用い、アニメキャラクターの駆動を実現することができる。
【0034】
本出願の技術案を理解しやすくするために、以下、実際の適用シーンを用い、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について説明する。
【0035】
図1を参照すると、
図1は、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法の適用シーンの模式図である。この適用シーンでは、オーディオ・ビデオ処理機器が端末機器であることを例として説明し、この適用シーンは、話者の顔表情及び対応する音声を含むメディアデータを取得できる端末機器101を含む。このメディアデータは、1つであってもよいし、複数であってもよい。メディアデータは、ビデオであってもよいし、ビデオ及びオーディオであってもよい。メディアデータ中の音声に含まれる文字に対応する言語は、中国語、英語、韓国語などの様々な言語であってもよい。
【0036】
顔表情は、話者が音声を発するときの顔部の動作であり得、例えば、口の形、眼球の動作、眉の動作などを含むことができ、ビデオ視聴者が話者の顔表情から感じられるメディアデータ中の音声は、この話者が話したものである。
【0037】
端末機器101は、顔表情に基づいて話者に対応する第1アニメキャラクターの第1表情ベースを決定し、第1表情ベースは、第1アニメキャラクターの異なる表情を識別するものである。
【0038】
端末機器101は、第2アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第1表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができる。表情パラメータ及びこの後に係る可能性がある顔カスタマイズパラメータの表現形式は、係数であってもよく、例えば、ある次元のベクトルであってもよい。
【0039】
メディアデータ中の音声と顔表情とは、同期し、音響的特徴とターゲット表情パラメータは、いずれも、メディアデータに基づいて得られるものであり、同じ時間軸に対応するため、音響的特徴により識別される声と、ターゲット表情パラメータにより識別される表情とは、同じ時間軸において同期して変化する。生成された音響的特徴は、時間軸に関連する配列であり、ターゲット表情パラメータは、同じ時間軸に関連する配列であり、両者は、テキスト情報の変化に応じて調整することができる。どのように調整しても、音響的特徴は、上記メディアデータ中の話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、ターゲット表情パラメータは、上記メディアデータ中の話者をシミュレートしてターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものである。
【0040】
そして、端末機器101は、音響的特徴及びターゲット表情パラメータによって、第2表情ベースを有する第2アニメキャラクターを駆動することで、第2アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行う。第2アニメキャラクターは、1アニメキャラクターと同一のアニメキャラクターであってもよいし、第1アニメキャラクターと異なるアニメキャラクターであってもよいが、本出願の実施例では、これについて限定しない。
【0041】
次に、図面を用い、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について詳細に説明する。
図2を参照すると、前記方法は、S201~S204を含む。
【0042】
S201において、話者の顔表情及び対応する音声を含むメディアデータを取得する。
【0043】
顔表情及び対応する音声を含むメディアデータは、カメラを有する録音環境で、話者が話した音声を録音し、話者に対応する顔表情をカメラにより撮影することで得られる。
【0044】
カメラにより収集されたビデオが話者の顔表情及び対応する音声の両方を含む場合、メディアデータは、このビデオであり、カメラにより収集されたビデオが話者の顔表情を含むが、音声が録音機器などの他の機器により収集される場合、メディアデータは、ビデオ及びオーディオを含み、この場合、このビデオとオーディオは、同期して収集され、ビデオは、話者の顔表情を含み、オーディオは、話者の音声を含む。
【0045】
なお、本出願の実施例に係る方法は、アニメキャラクター駆動システムにより実現されてもよく、このシステムは、
図3に示すように、データ収集モジュール、顔モデリングモジュール、音響的特徴及び表情パラメータ決定モジュール、及びアニメーション駆動モジュールの4つの部分を主に含む。データ収集モジュールは、S201を実行し、顔モデリングモジュールは、S202を実行し、音響的特徴及び表情パラメータ決定モジュールは、S203を実行し、アニメーション駆動モジュールは、S204を実行する。
【0046】
話者の顔表情及び対応する音声を含むメディアデータは、データ収集モジュールにより得られる。このデータ収集モジュールは、多くのオプションがある。このデータ収集モジュールは、専門機器によって、話者の音声及び顔表情を含むメディアデータを収集し、例えば、動作キャプチャーシステム、顔表情キャプチャーシステムなどの専門機器を用いて、顔の動作、表情、口の形などの話者の顔表情をキャプチャーし、専門の録音機器を使用して話者の音声を録音し、異なる機器の間は、同期信号でトリガーされ、音声と顔表情とのデータ同期などを実現する。
【0047】
もちろん、専門機器は、高いキャプチャーシステムを用いることに限られず、多視点の超高精細機器であってもよく、多視点の超高精細機器によって、話者の音声及び顔表情を含むビデオを収集する。
【0048】
このデータ収集モジュールは、さらに、複数のカメラが囲むことで、話者の音声及び顔表情を含むメディアデータを収集してもよい。1つの可能な実施形態では、3つ、5つ、より多くの超高精細カメラを選択し、正面が話者を囲んで撮影する。収集環境では、安定した環境光が必要とされ、話者が特定の服を着ることが要求されない。
図4を参照すると、
図4は、3つの超高精細カメラを例とし、上方の破線矢印は、安定した光照を表し、左側の3つの矢印は、超高精細カメラの視点と話者との関係を表し、それにより、話者の音声及び顔表情を含むメディアデータを収集する。この場合、超高精細カメラによって収集されたビデオは、音声及び顔表情の両方を含むことができ、すなわち、メディアデータは、ビデオである。
【0049】
なお、メディアデータを収集するとき、顔表情の収集用のセンサによって、収集されたメディアデータの表現形式も異なる。一部の場合では、赤・青・緑・深度(Red Green Blue Deep、RGBD)センサで話者を撮影し、顔モデルの作成を実現する。RGBDセンサは、深度情報を収集し、話者の三次元再作成結果を得ることができ、従って、メディアデータは、話者に対応する顔の静的モデリング、すなわち、三次元(3 Dimensions、3D)データを含む。他の場合では、RGBDセンサがなく、二次元センサを用いて話者を撮影すると、話者の三次元再作成結果がなく、メディアデータは、話者に対応するビデオフレーム、すなわち、二次元(2 Dimensions、2D)データを含む。
【0050】
S202において、顔表情に基づいてこの話者に対応する第1アニメキャラクターの第1表情ベースを決定する。
【0051】
上記メディアデータが取得されると、
図3における顔モデリングモジュールによって、話者の顔をモデリングし、それにより、話者に対応する第1アニメキャラクターの第1表情ベースを得ることができ、この第1表情ベースは、前記第1アニメキャラクターの表情を識別するものである。
【0052】
顔モデリングを行う目的は、コンピュータが、収集された対象、例えば、前記した話者(収集された対象の形状、テクスチャなどを含む)を理解して記憶できるようにすることである。顔モデリングを行う方式は、複数種あり、主にハードウェア、手動、ソフトウェアの3つの形態で実現される。ハードウェア形態の実現は、3Dスキャナなどの専門機器を用いて話者に対して高精度走査を行い、得られた顔モデルに対して手動で/自動的にデータを整理することであり、手動形態の実現は、美術デザイナーがデータを手動で設計し、整理し、調整することであり、ソフトウェア形態の実現は、パラメータ化された顔カスタマイズアルゴリズムを用いて話者の顔モデルを自動的に生成することである。
【0053】
表情のパラメータ化も、同様に、ハードウェア、手動、ソフトウェアの3つの形態で実現することができる。例えば、専門の顔走査機器を用い、表情ありの話者を走査した後、自動的に現在の表情に対するパラメータ化記述を提供し、この記述は、走査機器にカスタマイズされた表情の記述に関連している。美術デザイナーが表情パラメータを手動で調整する場合、一般的に、表情タイプ及び対応する顔のパラメータ化、例えば、口の開度、顔の筋肉の動き幅を予め定義する必要がある。ソフトウェアで表情のパラメータ化を実現する場合、一般的に、顔の異なる表情に対する数学的記述を定義する必要があり、例えば、大量の実際の顔データを、主成分解析方法(Principal Component Analysis、PCA)で解析し、各表情の平均顔に対する変化程度を表す数字記述を得る。
【0054】
本実施例では、主に、ソフトウェアに基づく顔モデリング及び表情のパラメータ化について説明する。この場合、顔の異なる表情に対する数学的記述は、モデルライブラリによって定義されてもよい。本出願の実施例のアニメキャラクター(例えば、第1アニメキャラクター及び後続の第2アニメキャラクター)は、モデルライブラリにおけるモデルであってもよし、モデルライブラリにおけるモデルの線形を組み合わせて得られてもよい。このモデルライブラリは、三次元顔変形モデル(3DMM)ライブラリであってもよいし、他のモデルライブラリであってもよいが、本実施形態では、これについて限定しない。アニメキャラクターは、3Dメッシュであってもよい。
【0055】
3DMMライブラリを例とすると、3DMMライブラリは、大量の高精度な顔データを主成分解析方法で処理して得られるものであり、高次元の顔の形及び表情の平均顔に対する主要な変化を記述し、テクスチャ情報も記述するものである。
【0056】
一般的には、3DMMライブラリが無表情の顔の形を記述するものである場合、mu+Σ(Pfacei-mu)*αiにより得ることができる。式中、muは、自然表情での平均顔、Pfaceiは、i番目の顔の形の主成分、αiは、各顔の形の主成分の加重、すなわち、顔カスタマイズパラメータである。
【0057】
3DMMライブラリにおけるアニメキャラクターに対応するメッシュをMで表し、すなわち、Mが3DMMライブラリにおける顔の形と、表情と、頂点との関係を表すものとする。Mは、[m×n×d]の三次元行列であり、次元の各々は、それぞれメッシュの頂点座標(m)、顔の形の主成分(n)、表情主成分(d)である。3DMMライブラリのMの各次元の分布及び意味は、
図5に示され、各座標軸は、それぞれ、頂点座標(m)、顔の形の主成分(n)、表情主成分(d)を表す。mは、xyzの3つの座標の値を表し、従って、メッシュの頂点の数は、m/3であり、vとする。アニメキャラクターの顔の形又は表情が決定されると、Mは、二次元行列であり得る。
【0058】
本出願の実施例では、3DMMライブラリにおけるテクスチャ次元を考慮せず、アニメキャラクターの駆動をFとすると、
【0059】
【0060】
式において、Mは、アニメキャラクターのメッシュであり、αは、顔カスタマイズパラメータであり、βは、表情パラメータであり、nは、顔カスタマイズベースにおける顔カスタマイズメッシュの数であり、dは、表情ベースにおける表情メッシュの数であり、Mk,j,iは、i番目の表情メッシュ、j番目の顔カスタマイズメッシュを有するk番目のメッシュであり、αjは、1組の顔カスタマイズパラメータ中のj番目の次元であり、j番目の顔の形の主成分の加重を表し、βiは、1組の表情パラメータ中のi番目の次元であり、i番目の表情主成分の加重を表す。
【0061】
顔カスタマイズパラメータを決定するプロセスは、顔カスタマイズアルゴリズムであり、表情パラメータを決定するプロセスは、表情カスタマイズアルゴリズムである。顔カスタマイズパラメータを顔カスタマイズベースと線形組み合わせて対応する顔の形を得、例えば、50個の顔カスタマイズメッシュ(変形可能なメッシュに属し、例えば、blendshape)を含む顔カスタマイズベースが存在し、この顔カスタマイズベースに対応する顔カスタマイズパラメータは、50次元のベクトルであり、次元の各々は、この顔カスタマイズパラメータに対応する顔の形と1つの顔カスタマイズメッシュとの関連度を識別するものである。顔カスタマイズベースに含まれる顔カスタマイズメッシュは、それぞれ、異なる顔の形を表し、各顔カスタマイズメッシュは、いずれも平均顔に対して大きく変化した顔キャラクターであり、大量の顔をPCA解析して得られた異なる次元の顔の形の主成分であり、且つ同じ顔カスタマイズベースにおける異なる顔カスタマイズメッシュに対応する頂点番号が一致する。
【0062】
表情パラメータを表情ベースと線形組み合わせして対応する表情を得、例えば、50個(次元が50であることに相当)の表情メッシュ(変形可能なメッシュに属し、例えば、blendshape)を含む表情ベースが存在し、この表情ベースに対応する表情パラメータは、50次元のベクトルであり、次元の各々は、この表情パラメータに対応する表情と1つの表情メッシュとの関連度を識別するものである。表情ベースに含まれる表情メッシュは、それぞれ、異なる表情を表し、各表情メッシュは、いずれも同じ3Dモデルが異なる表情で変化してなり、同じ表情ベースにおける異なる表情メッシュに対応する頂点番号が一致する。
【0063】
単一の前記変形可能なメッシュを予め設定された形状に変形させ、任意の数のメッシュを得ることができる。
【0064】
上記式(1)を組み合わせ、話者に対応する第1アニメキャラクターの第1表情ベースを得ることができ、後続の第2アニメキャラクターの駆動に用いる。
【0065】
S203において、ターゲットテキスト情報、このメディアデータ及び第1表情ベースに基づいて対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定する。
【0066】
図3における音響的特徴及び表情パラメータ決定モジュールによって、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができる。音響的特徴は、話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、ターゲット表情パラメータは、話者をシミュレートしてターゲットテキスト情報を話す顔表情の、第1表情ベースに対する変化程度を識別するものである。
【0067】
ターゲットテキスト情報の取得方式は、複数種があり、例えば、ターゲットテキスト情報は、ユーザによって端末機器を介して入力したものであってもよいし、端末機器に入力された音声に応じて変換して得られたものであってもよいことが理解され得る。
【0068】
S204において、音響的特徴及びターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
【0069】
図3におけるアニメーション駆動モジュールによって、ターゲット表情パラメータにより識別される表情を音響的特徴により識別される音声と組み合わせ、ヒトが直感的に理解できるように、複数種の感覚で表現する。1つの実現可能な方式は、ターゲット表情パラメータが第2表情ベースにおける各表情メッシュの加重を表すものとし、第2表情ベースを重み付けと線形組み合わせ、対応する表情を取得できることである。音声を発すると同時に、レンダリング方法によって、この音声に対応する表情の第2アニメキャラクターをレンダリングし、それにより、第2アニメキャラクターを駆動する。
【0070】
上記技術案から分かるように、話者が音声を発するときの顔表情の変化のビデオを収集することによって、話者に対応する第1アニメキャラクターの第1表情ベースを決定することができ、第1表情ベースは、第1アニメキャラクターの異なる表情を表すことができる。第2アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第1表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができ、この音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、このターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものである。音響的特徴及びターゲット表情パラメータによって、第2表情ベースを有する第2アニメキャラクターを駆動でき、それにより、第2アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行い、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。
【0071】
なお、S203の実施形態は、複数種あり、本出願の実施例では、1つの実施形態に重点をおいて説明する。
【0072】
1つの可能な実施形態では、S203の実施形態は、ターゲットテキスト情報及びメディアデータに基づいて、対応するターゲットテキスト情報の音響的特徴及び表情特徴を決定することである。この音響的特徴は、話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、この表情特徴は、話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものである。次に、第1表情ベース及び表情特徴に基づいてターゲット表情パラメータを決定する。
【0073】
メディアデータには、話者の顔表情と音声が同期して記録され、すなわち、メディアデータ中の話者の顔表情と音声は、同じ時間軸に対応する。従って、大量のメディアデータを訓練データとしてオンラインで予め収集し、これらのメディアデータからテキスト特徴、音響的特徴及び表情特徴を抽出し、これらの特徴に基づいて訓練して時間モデル、音響モデル、表情モデルを得る。話者の顔表情及び対応する音声を含むメディアデータをオンラインで取得するとき、時間モデルを用いてターゲットテキスト情報に対応する時間を決定し、時間をターゲットテキスト情報に対応するテキスト特徴と組み合わせ、それぞれ音響モデル及び表情モデルによって、対応する音響的特徴及び表情特徴を決定する。音響的特徴及び表情特徴は、いずれも、同じ時間モデルで得られた時間に基づくため、音声と表情を同期させることが容易であり、それにより、第2アニメキャラクターは、話者をシミュレートしてターゲットテキスト情報に対応する音声を発すると同時に、話者をシミュレートして対応する表情を行う。
【0074】
次に、S204の可能な実施形態について説明する。本実施例では、第2アニメキャラクターは、第1アニメキャラクターと同一のアニメキャラクターであってもよいし、第1アニメキャラクターと異なるアニメキャラクターであってもよいことが理解され得る。この2つの場合では、S204の実施形態は、異なる可能性がある。
【0075】
第1場合では、第1アニメキャラクターと第2アニメキャラクターは、同じアニメキャラクターである。
【0076】
この場合、駆動すべきアニメキャラクターは、第1アニメキャラクターである。第1アニメキャラクターを駆動するために、第1表情ベースを決定する必要があるほか、第1アニメキャラクターの顔カスタマイズパラメータを決定し、第1アニメキャラクターの顔の形を得る必要もある。従って、S202では、顔表情に基づいて第1アニメキャラクターの第1表情ベース及び第1アニメキャラクターの顔カスタマイズパラメータを決定することができ、この顔カスタマイズパラメータは、第1アニメキャラクターの顔の形の、第1アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものである。
【0077】
第1アニメキャラクターの第1表情ベース及び第1アニメキャラクターの顔カスタマイズパラメータを決定する方式は、複数種ある。一部の場合では、メディアデータに基づいて顔カスタマイズパラメータを決定して顔モデルを作成するとき、収集されたメディアデータは、精度が高くなく、ノイズが大きいことが多いため、作成された顔モデルは、品質が高くなく、不確定性が多く、作成すべき対象の実際の外観を正確に表現することが困難である。例えば、収集が基準を満たさないため、モデリング品質が低く、再作成が環境光、ユーザのマイクなどの影響を受け、再作成された顔モデルは、表情を含むが、自然状態ではなく、作成された顔モデルは、表情パラメータを抽出しようとするビデオなどに適用できない。これらの問題を解決するために、
図6に示すように、本出願の実施例は、顔カスタマイズパラメータの決定方法を提供する。
【0078】
図6では、取得されたメディアデータが複数組の顔の頂点データを含むと、第1頂点データ、及び3DMMライブラリにおける、ターゲット顔モデルを識別するターゲット頂点データに基づいて、初期顔カスタマイズパラメータを決定することができる。初期顔カスタマイズパラメータを決定した上で、メディアデータ中の第2頂点データを取得し、初期顔カスタマイズパラメータ及びターゲット頂点データに基づいて表情パラメータを決定し、そして、この表情パラメータを固定化し、顔カスタマイズパラメータを逆算し、又は、如何に顔の形を変化させ、この表情パラメータでの話者の顔キャラクターを得るかを逆算し、すなわち、固定化された表情から顔の形を逆算することで、初期顔カスタマイズパラメータを修正し、ターゲット顔カスタマイズパラメータを得、それにより、このターゲット顔カスタマイズパラメータを第1アニメキャラクターの顔カスタマイズパラメータとする。
【0079】
第2頂点データ及び第1頂点データは、それぞれ作成すべき対象の異なる顔キャラクターを識別するものである。従って、第2頂点データ及び第1頂点データは、完全に同じ不確定性からの影響を受ける確率が低く、第1頂点データによって初期顔カスタマイズパラメータを決定した上で、第2頂点データによって修正されたターゲット顔カスタマイズパラメータは、第1頂点データ中のノイズをある程度相殺することができ、ターゲット顔カスタマイズパラメータによって決定された話者に対応する顔モデルの精度が高い。
【0080】
第1表情ベースと第2表情ベースは同じであり、すなわち、両者の次元及び各次元のセマンティクス情報は同じであり、決定されたターゲット表情パラメータは、第2アニメキャラクターを直接駆動することができ、従って、S204で第2アニメキャラクターを駆動する方式は、音響的特徴、ターゲット表情パラメータ及び顔カスタマイズパラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動することであり得る。
【0081】
第2場合では、第1アニメキャラクターと第2アニメキャラクターは、異なるアニメキャラクターである。
【0082】
この場合、第1表情ベースと第2表情ベースは異なり、すなわち、両者の次元及び各次元のセマンティクス情報は異なる。従って、直接ターゲット表情パラメータを用い第2表情ベースを有する第2アニメキャラクターを駆動することが困難である。第1アニメキャラクターに対応する表情パラメータと第2アニメキャラクターに対応する表情パラメータとは、マッピング関係を有すべきであり、第1アニメキャラクターに対応する表情パラメータと第2アニメキャラクターに対応する表情パラメータとのマッピング関係は、関数f()で表され、第1アニメキャラクターに対応する表情パラメータによって第2アニメキャラクターに対応する表情パラメータを計算する式は、以下のとおりである。
【0083】
βb=f(βa) (2)
【0084】
式中、βbは、第2アニメキャラクターに対応する表情パラメータであり、βaは、第1アニメキャラクターに対応する表情パラメータであり、f()は、第1アニメキャラクターに対応する表情パラメータと第2アニメキャラクターに対応する表情パラメータとのマッピング関係を表す。
【0085】
従って、このマッピング関係を決定すれば、第1アニメキャラクター(例えば、アニメキャラクターa)に対応する表情パラメータを用い第2アニメキャラクター(例えば、アニメキャラクターb)を直接駆動することができる。マッピング関係は、線形マッピング関係であってもよいし、非線形マッピング関係であってもよい。
【0086】
ターゲット表情パラメータに基づいて第2表情ベースを有する第2アニメキャラクターを駆動することを実現するには、マッピング関係を決定する必要がある。マッピング関係の決定方式は、複数種あり、本実施例は、主に2つの決定方式について説明する。
【0087】
第1決定方式は、第1アニメキャラクターに対応する第1表情ベース及び第2アニメキャラクターに対応する第2表情ベースに基づいて、表情パラメータのマッピング関係を決定することである。
図7に示すように、第1アニメキャラクターに対応する実際の表情パラメータは、第1アニメキャラクターを駆動して実際の表情をさせることができ、この実際の表情パラメータは、この実際の表情とその表情ベースとの異なる次元での関連度を表すことができ、すなわち、第2アニメキャラクターに対応する実際の表情パラメータは、第2アニメキャラクターの実際の表情とその表情ベースとの異なる次元での関連度を表すことができる。従って、上記表情パラメータと表情ベースとの関連関係に基づいて、第1アニメキャラクターに対応する第1表情ベース及び第2アニメキャラクターに対応する第2表情ベースに基づいて、表情パラメータ間のマッピング関係を決定することができる。次に、音響的特徴、ターゲット表情パラメータ及びこのマッピング関係に基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
【0088】
第2決定方式は、音素と第2表情ベースとの所定関係に基づいて表情パラメータのマッピング関係を決定することである。
【0089】
音素は、音声の自然属性に基づいて
1632461396376_1
された最小の音声単位であり、音節の発音動作に応じて解析し、1つの動作(例えば、口の形)が1つの音素を構成する。つまり、音素は、話者と関係ない。話者が誰であっても、音声が英語又は中国語であっても、音素に対応するテキストが同じであっても、音声中の1つの時間区間内の音素が同じである限り、口の形などの対応する表情が一致性を有する。
図8を参照すると、
図8は、時間区間と音素との対応関係を示し、1つの音声のうち、どの時間区間がどの音素に対応するかを記述する。例えば、2行目の「5650000」及び「6300000」は、タイムスタンプを表し、5.65秒~6.3秒の時間区間を表し、この時間区間内に話者が発した音素は、「u」である。音素の統計方法は、唯一ではなく、本実施例では、33個の中国語音素を例とする。
【0090】
メディアデータ中、面部表情と音声とが同期して収集されるため、音声を区画することで、対応するビデオフレームを得ることが容易であり、すなわち、メディアデータに基づいて、音声により識別される音素、この音素に対応する時間区間及びメディアデータのこの時間区間でのビデオフレームを決定する。次に、このビデオフレームに応じて音素に対応する第1表情パラメータを決定し、第1表情パラメータは、この音素を発するとき、話者の顔表情の、第1表情ベースに対する変化程度を識別するものである。
【0091】
例えば、
図8の2行目に、音素「u」に対応する時間区間が5.65秒~6.3秒であり、時間区間の5.65秒~6.3秒にあるビデオフレームを決定し、このビデオフレームに応じて音素「u」に対応する第1表情パラメータを抽出する。第1アニメキャラクターがアニメキャラクターaであると、第1表情パラメータは、β
aで表される。第1表情ベースの次元がn
aであると、得られた第1表情パラメータβ
aは、1組のn
a長さのベクトルである。
【0092】
このマッピング関係の決定方式は、他のアニメキャラクターの表情ベース、例えば、第2アニメキャラクターに対応する第2表情ベースが音素との所定関係に基づいて生成されることを前提とし、所定関係は、1つの音素が1つの表情メッシュに対応することを表し、例えば、第2アニメキャラクターbの場合、所定関係中の音素「u」が第1表情メッシュに対応し、音素「i」が第2表情メッシュに対応する…、音素の数がnb個であると、所定関係に基づいて、nb個の表情メッシュを含む第2表情ベースを決定することができる。そうすると、音声により識別される音素を決定した後に、所定関係及び第2表情ベースに応じて、この音素に対応する第2表情パラメータを決定する。次に、第1表情パラメータ及び第2表情パラメータに基づいて、マッピング関係を決定する。
【0093】
例えば、音声により識別される音素は、「u」であり、第2表情ベース及び所定関係から、音素「u」に対応する第1表情メッシュがわかり、第2表情パラメータがβb=[1 0 ...0]であることを決定することができ、βbは、nb個の元素を含み、第1元素は、1であり、他のnb-1個の元素は、いずれも0である。
【0094】
それにより、1組のβbとβaのマッピング関係が作成されている。大量の第1表情パラメータβaが得られると、対応する大量の第2表情パラメータβbが生成される。第1表情パラメータβa及び第2表情パラメータβbの数をそれぞれL個とすると、L個の第1表情パラメータβaが第1行列を構成し、L個の第2表情パラメータβbが第2行列を構成し、それぞれβA及びβBとする。
【0095】
βA=[L×na]、 βB=[L×nb] (3)
【0096】
本技術案は、第1表情パラメータと第2表情パラメータが線形マッピング関係を満たすことを例とし、上記式(2)は、式(4)に変形することができる。
【0097】
βb=f*βa (4)
【0098】
式(3)及び(4)に基づいて、マッピング関係の決定式は、式(5)であり得る。
【0099】
f=βB*inv(βA) (5)
【0100】
式中、fは、マッピング関係、βAは、第1行列、βBは、第2行列、invは、反転計算である。
【0101】
マッピング関係fが得られると、任意の1組の第1表情パラメータβaに対して、対応するβb=f*βaを得ることができ、それにより、第1表情パラメータに基づいて第2表情パラメータを得ることで、第2アニメキャラクター、例えば、アニメキャラクターbを駆動する。
【0102】
前記実施例では、如何にテキスト情報に基づいてアニメキャラクターを駆動するかについて主に説明する。一部の場合、さらにメディアデータに基づいてアニメキャラクターを直接駆動してもよい。例えば、メディアデータ中の話者に対応する第1アニメキャラクターは、第1表情ベースを有し、第1表情ベースは、次元が第1次元、頂点トポロジーが第1頂点トポロジーであり、第1表情ベースは、Eaで表され、第1次元は、Naで表され、第1頂点トポロジーは、Taで表され、第1表情ベースEaの形は、Faであり、駆動対象の第2アニメキャラクターは、第2表情ベースを有し、第2表情ベースは、次元が第2次元、頂点トポロジーが第2頂点トポロジーであり、第2表情ベースは、Ebで表され、第2次元は、Nbで表され、第2頂点トポロジーは、Tbで表され、第2表情ベースEbの形は、Fbであり、この話者の顔表情及び音声を含むメディアデータによって第2アニメキャラクターを駆動することが好ましい。
【0103】
よって、本出願の実施例は、人工知能に基づくアニメキャラクター駆動方法をさらに提供し、
図9に示すように、前記方法は、S901~S905を含む。
【0104】
S901において、話者の顔表情及び対応する音声を含む第1メディアデータを取得する。
【0105】
S902において、顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する。
【0106】
S903において、第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定する。
【0107】
本実施例では、第1表情ベースの次元と第2表情ベースの次元は異なり、メディアデータ中のこの話者の顔表情及び音声を用いて第2アニメキャラクターを駆動するために、新規表情ベース、例えば、ターゲット表情ベースを作成することによって、このターゲット表情ベースが第1表情ベースと第2表情ベースの両方の特徴を有するようにする。
【0108】
1つの実施形態では、S903の実施形態は、第1表情ベースから第1アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、第2表情ベースから第2アニメキャラクターが無表情にある時に対応する無表情メッシュを決定することである。第1キャラクターに対応する無表情メッシュ及び第2キャラクターに対応する無表情メッシュに応じて、調整メッシュを決定し、この調整メッシュは、第2頂点トポロジーを有し、無表情にある時の第1アニメキャラクターを識別するものである。調整メッシュと第2表情ベースにおけるメッシュの変形関係に基づいて、ターゲット表情ベースを生成する。
【0109】
第1表情ベースがEaであり、第1次元がNa、第1頂点トポロジーがTa、第1表情ベースEaの形がFaであり、第2表情ベースがEb、第2次元がNb、第2頂点トポロジーがTb、第2表情ベースEbの形がFbである場合、この方法のフローチャートは、さらに、
図10aを参照することができる。第1表情ベースEa及び第2表情ベースEbに応じて、ターゲット表情ベースEb’を決定する。ターゲット表情ベースEb’の決定方式は、第2表情ベースEbの無表情メッシュ及び第1表情ベースEaの無表情メッシュを抽出することであり得る。nricpアルゴリズムなどの顔カスタマイズアルゴリズムによって、Ebの無表情メッシュをEaの無表情メッシュに貼り、Ebの無表情メッシュは、頂点トポロジーFbを維持した上で、形を変え、Eaの形になり、調整メッシュを得、この調整メッシュをNewbとする。そして、Newb及び第2表情ベースEbにおける各次元の表情の、自然表情(無表情)に対するメッシュの変形関係が知られているため、Newb及び第2表情ベースEbにおけるメッシュの変形関係に基づいて、Newbから変形してターゲット表情ベースEb’を形成することができる。ターゲット表情ベースEb’は、形がFa、次元がNb、頂点トポロジーがTbである。
【0110】
S904において、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定する。
【0111】
ターゲット表情ベースが得られると、
図10aに示すように、この話者の顔表情及び対応する音声を含む第2メディアデータ及びこのターゲット表情ベースEb’に応じて、音響的特徴を抽出し、表情カスタマイズアルゴリズムによってターゲット表情パラメータBbを得る。ターゲット表情パラメータは、話者が前記音声を発する顔表情の、ターゲット表情ベースに対する変化程度を識別するものである。
【0112】
この方法で得られたターゲット表情パラメータ及び音響的特徴を用い、前記音響モデル、表情モデルを再訓練することができることが理解され得る。
【0113】
S905において、ターゲット表情パラメータ及び音響的特徴に基づいて、第2表情ベースを有する前記第2アニメキャラクターを駆動する。
【0114】
S901、S902及びS905の具体な実施形態については、それぞれ前記S201、S202及びS204の実施形態を参照でき、ここで繰り返し説明しない。
【0115】
次に、実際の適用シーンを組み合わせて、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について説明する。
【0116】
この適用シーンでは、第1アニメキャラクターが話者の外観をシミュレートして作成され、第2アニメキャラクターがゲームにおいてユーザとインタラクションするゲームキャラクターであるものとする。このゲームキャラクターは、入力されたターゲットテキスト情報によってユーザと対話するとき、このターゲットテキスト情報によって駆動されることで、話者をシミュレートしてターゲットテキスト情報に対応する音声を発し、対応する表情をする。従って、端末機器は、話者の顔表情及び対応する音声を含むメディアデータを取得し、顔表情に基づいてこの話者に対応する第1アニメキャラクターの第1表情ベースを決定する。続いて、ターゲットテキスト情報、メディアデータ及び第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、それにより、この音響的特徴及びターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動することで、第2アニメキャラクターは、ターゲットテキスト情報に対応する音声を発し、対応する表情をする。このように、ユーザは、このゲームキャラクターが話者をシミュレートして音声を発し、対応する表情をすることを見ることができ、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。
【0117】
前記実施例に係る方法に基づいて、本実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置1000をさらに提供する。
図10bを参照すると、前記装置1000は、取得ユニット1001、第1決定ユニット1002、第2決定ユニット1003及び駆動ユニット1004を含み、
前記取得ユニット1001は、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第1決定ユニット1002は、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、
前記第2決定ユニット1003は、ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット1004は、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する。
【0118】
1つの可能な実施形態では、前記第1アニメキャラクターと前記第2アニメキャラクターは同じアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは同じであり、前記第1決定ユニット1002は、
前記顔表情に基づいて前記第1アニメキャラクターの第1表情ベース及び前記第1アニメキャラクターの顔カスタマイズパラメータを決定し、前記顔カスタマイズパラメータは、前記第1アニメキャラクターの顔の形の、前記第1アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであり、
前記駆動ユニット1004は、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第2アニメキャラクターを駆動する。
【0119】
1つの可能な実施形態では、前記第1アニメキャラクターと前記第2アニメキャラクターは異なるアニメキャラクターであり、前記第1表情ベースと前記第2表情ベースは異なり、前記駆動ユニット1004は、
前記第1表情ベースに対応する表情パラメータと前記第2表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第2アニメキャラクターを駆動する。
【0120】
1つの可能な実施形態では、前記第2表情ベースは、前記第2表情ベースと音素との所定関係に基づいて生成されたものであり、前記駆動ユニット1004は、さらに、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第1表情パラメータを決定し、前記第1表情パラメータが、前記音素を発する時の前記話者の顔表情の、前記第1表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第2表情ベースに基づいて、前記音素に対応する第2表情パラメータを決定し、
前記第1表情パラメータ及び前記第2表情パラメータに基づいて、前記マッピング関係を決定する。
【0121】
1つの可能な実施形態では、前記第2決定ユニット1003は、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、対応する前記ターゲットテキスト情報の音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第1表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する。
【0122】
本実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置1100をさらに提供する。
図11を参照すると、前記装置1100は、取得ユニット1101、第1決定ユニット1102、第2決定ユニット1103、第3決定ユニット1104及び駆動ユニット1105を含み、
前記取得ユニット1101は、話者の顔表情及び対応する音声を含む第1メディアデータを取得し、
前記第1決定ユニット1102は、前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定し、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーである、
前記第2決定ユニット1103は、前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定し、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元であり、
前記第3決定ユニット1104は、前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット1105は、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する。
【0123】
1つの可能な実施形態では、前記第2決定ユニット1103は、前記第1表情ベースから前記第1アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、前記第2表情ベースから前記第2アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、
前記第1アニメキャラクターに対応する無表情メッシュ及び前記第2アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定し、前記調整メッシュが、第2頂点トポロジーを有し、無表情にある時の第1アニメキャラクターを識別し、
前記調整メッシュと前記第2表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成する。
【0124】
本出願の実施例は、アニメキャラクターを駆動するための機器をさらに提供し、この機器は、音声によってアニメーションを駆動することができ、この機器は、オーディオ・ビデオ処理機器であり得る。以下、図面を参照してこの機器について説明する。
図12に示すように、本出願の実施例は、アニメキャラクターを駆動するための機器を提供し、この機器は、さらに、端末機器であり得、この端末機器は、携帯電話、タブレットPC、パーソナルデジタルアシスタント(Personal Digital Assistant、PDAと略称)、販売端末(Point of Sales、と略称POS)、車載コンピュータなどの任意の知能端末であり得、端末機器が携帯電話であることを例とする。
【0125】
図12は、本出願の実施例に係る端末機器に関連する携帯電話の一部の構造のブロック図を示す。
図12を参照すると、携帯電話は、高周波(Radio Frequency、RFと略称)回路1210、メモリ1220、入力ユニット1230、表示ユニット1240、センサ1250、オーディオ回路1260、ワイヤレス・フィデリティー(wireless fidelity、WiFiと略称)モジュール1270、プロセッサ1280、及び電源1290などの部材を含む。当業者であれば理解できるように、
図12bに示す携帯電話の構造は、携帯電話を限定するものではなく、図示より多く又は少ない部材を備え、又はいくつかの部材を組み合わせ、又は異なる部材を配置してもよい。
【0126】
以下、
図12を参照しながら携帯電話の各構成部材について具体的に説明する。
【0127】
RF回路1210は、情報を受送信し、又は、通話中に信号を受送信し、特に、基地局の下りリンク情報を受信し、プロセッサ1280に処理させ、また、設定された上りリンクデータを基地局に送信する。通常、RF回路1210は、アンテナ、少なくとも1つの増幅器、受送信器、カプラー、低雑音増幅装置(Low Noise Amplifier、LNAと略称)、ダイプレクサなどを含むがこれらに限られない。また、RF回路1210は、さらに無線通信を介してネットワーク及び他の機器と通信することができる。上記無線通信は、任意の通信基準又はプロトコルを用いることができ、グローバルモバイル通信システム(Global System of Mobile communication、GSMと略称)、汎用パケット無線サービス(General Packet Radio Service、GPRSと略称)、符号分割多元接続(Code Division Multiple Access、CDMAと略称)、広帯域符号分割多元接続(Wideband Code Division Multiple Access、WCDMA(登録商標)と略称)、ロングタームエボリューション(Long Term Evolution、LTEと略称)、電子メール、メッセージサービス(Short Messaging Service、SMSと略称)などを含むがこれらに限られない。
【0128】
メモリ1220は、ソフトウェアプログラム及びモジュールを記憶することができ、プロセッサ1280は、メモリ1220に記憶されたソフトウェアプログラム及びモジュールを実行することによって、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ1220は、主に、プログラム記憶エリアおよびデータ記憶エリアを含み得る。プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能によって要求されるアプリケーションプログラム(例えば、声再生機能、画像再生機能など)などを記憶し、データ記憶エリアは、携帯電話の使用に応じて作成されたデータ(例えば、オーディオデータ、電話帳)などを記憶し得る。また、メモリ1220は、高速ランダムアクセスメモリを含んでもよく、少なくとも1つの磁気ディスクメモリおよびフラッシュメモリのような不揮発性メモリ、または、他の揮発性ソリッドステートメモリを含み得る。
【0129】
入力ユニット1230は、入力された数字又は文字情報を受信し、及び携帯電話のユーザ設定及び機能制御に関連するキー信号の入力を生成するために使用される。具体的に、入力ユニット1230は、タッチパネル1231及び他の入力機器1232を備えてもよい。タッチパネル1231は、タッチパネルとも呼称され、その上又は付近でのユーザのタッチ操作(例えば、ユーザが指、タッチペンなどの任意の適切な物体又は部材を用いたタッチパネル1231の上又はタッチパネル1231の付近での操作)を収集することができ、予め設定されたプログラムに応じて対応する接続装置を駆動する。選択的には、タッチパネル1231は、タッチ検出装置及びタッチコントローラの2つの部分を含んでもよい。タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに転送し、タッチコントローラは、タッチ検出装置からタッチ情報を受信し、接点座標に変換し、プロセッサ1280に転送し、プロセッサ1280から送信されたコマンドを受信して実行することができる。また、タッチパネル1231は、抵抗式、容量型、赤外線及び表面音波などの複数種の種類で実現されてもよい。タッチパネル1231以外に、入力ユニット1230は、他の入力機器1232をさらに含んでもよい。具体的に、他の入力機器1232は、物理キーボード、機能キー(例えば、ボリューム制御ボタン、スイッチボタン等)、トラックボール、マウス、ジョイスティック等のうちの1つ又は複数を含むがこれらに限定されない。
【0130】
表示ユニット1240は、ユーザにより入力された情報、ユーザに提供する情報又は携帯電話の様々なメニューを表示するために使用されることができる。表示ユニット1240は、ディスプレイパネル1241を備えてもよく、選択的に、液晶ディスプレイ(Liquid Crystal Display,LCDと略称)、有機発光ダイオード(Organic Light-Emitting Diode,OLEDと略称)等の形態でディスプレイパネル1241を構成することができる。さらに、タッチパネル1231は、ディスプレイパネル1241に被覆されてもよく、タッチパネル1231は、その上又は付近のタッチ操作を検出すると、プロセッサ1280に転送してタッチイベントのタイプを決定し、そして、プロセッサ1280は、タッチイベントのタイプに応じてディスプレイパネル1241に対応する視覚出力を提供する。
図12では、タッチパネル1231とディスプレイパネル1241とは2つの独立した部品として携帯電話の入力及び入力機能を実現しているが、幾つかの実施例では、タッチパネル1231とディスプレイパネル1241とを統合して携帯電話の入力及び再生機能を実現することができる。
【0131】
携帯電話はまた、光センサ、モーションセンサ及び他のセンサのような少なくとも1つのセンサ1250を備えてもよい。具体的に、光センサは、環境光センサ及び近接センサを含んでもよく、ここで、環境光センサは、環境光の明暗に応じてスクリーン1241の輝度を調整することができ、近接センサは、携帯電話が耳元まで移動したときに、ディスプレイパネル1241及び/又はバックライトをオフすることができる。モーションセンサの一種として、加速度計センサは、各方向(通常は3軸)の加速度の大きさを検出することができ、静止しているときに重力の大きさ及び方向を検出することができ、携帯電話の姿勢を認識するアプリケーション(例えば、縦/横画面の切り替え、関連ゲーム、磁力計の姿勢較正)、振動認識関連機能(例えば、歩数計、タッピング)等に使用されることができ、携帯電話にさらに構成されうるジャイロスコープ、気圧計、湿度計、温度計、赤外線センサ等の他のセンサについては、ここで詳細な説明を省略する。
【0132】
オーディオ回路1260、スピーカー1261、マイクロホン1262は、ユーザと携帯電話との間のオーディオインターフェースを提供することができる。オーディオ回路1260は、受信されたオーディオデータの変換された電気信号を、スピーカー1261に伝送し、スピーカー1261により音声信号に変換して再生することができ、一方、マイクロホン1262は、収集された音声信号を電気信号に変換し、オーディオ回路1260により受信してからオーディオデータに変換し、オーディオデータをプロセッサ1280に出力して処理した後、RF回路1210を介して、例えば別の携帯電話に伝送し、又は、オーディオデータをメモリ1220で出力して、さらに処理する。
【0133】
WiFiは、近距離無線伝送技術に属し、携帯電話は、WiFiモジュール1270を介して、ユーザの電子メールの送受信、ウェブページの閲覧及びストリーミングメディアのアクセス等を支援することができ、ユーザのために無線広帯域インターネットアクセスを提供した。
図12では、WiFiモジュール1270を示しているが、それが携帯電話の必要な構成に属しておらず、発明の本質を変更しない範囲内で必要に応じて十分に省略できることを理解されたい。
【0134】
プロセッサ1280は、携帯電話のコントロールセンターであり、様々なインターフェース及び回線を介して、携帯電話全体の各部分を接続し、メモリ1220に記憶されたソフトウェアプログラム及び/又はモジュールを運転又は実行し、メモリ1220に記憶されたデータを呼び出すことで、携帯電話の様々な機能及び処理データを実行し、それにより、携帯電話全体を監視する。任意選択的には、プロセッサ1280は、1つ又は複数の処理ユニットを含んでもよく、好適には、プロセッサ1280には、アプリケーションプロセッサ及び変復調プロセッサが集積されてもよく、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース及びアプリケーションプログラムなどを処理し、変復調プロセッサは、主に無線通信を処理する。上記変復調プロセッサは、プロセッサ1280に集積されなくてもよいことが理解され得る。
【0135】
携帯電話は、各部材に給電する電源1290(例えば、電池)をさらに含み、好適には、電源は、電源管理システムを介してプロセッサ1280に論理的に接続され、それにより、電源管理システムによって、充電、放電の管理、及び電力消費の管理などの機能を実現する。
【0136】
図示されていないが、携帯電話は、カメラ、ブルートゥース(登録商標)モジュールなどをさらに含んでもよいが、ここで詳しく説明しない。
【0137】
本実施例では、この端末機器に含まれるプロセッサ1280は、
話者の顔表情及び対応する音声を含むメディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する機能であって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものである機能と、
ターゲットテキスト情報、前記メディアデータ及び前記第1表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する機能であって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第1表情ベースに対する変化程度を識別するものである機能と、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第2表情ベースを有する第2アニメキャラクターを駆動する機能、
又は、
話者の顔表情及び対応する音声を含む第1メディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第1アニメキャラクターの第1表情ベースを決定する機能であって、前記第1表情ベースは、前記第1アニメキャラクターの表情を識別するものであり、前記第1表情ベースは、次元が第1次元であり、頂点トポロジーが第1頂点トポロジーである機能と、
前記第1表情ベース及び駆動対象の第2アニメキャラクターの第2表情ベースに基づいて、ターゲット表情ベースを決定する機能であって、前記第2表情ベースは、次元が第2次元であり、頂点トポロジーが第2頂点トポロジーであり、前記ターゲット表情ベースは、第2頂点トポロジーを有する第1アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第2次元である機能と、
前記話者の顔表情及び対応する音声を含む第2メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定する機能であって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものである機能と、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第2表情ベースを有する前記第2アニメキャラクターを駆動する機能とをさらに有する。
【0138】
本出願の実施例は、サーバをさらに提供し、
図13に示すように、
図13は、本出願の実施例に係るサーバ1300の構造図であり、サーバ1300は、構成又は性能が異なるため、大きな差異が生じることがあり、1つ以上の中央処理装置(Central Processing Units、CPUと略称)1322(例えば、1つ以上のプロセッサ)と、メモリ1332と、アプリケーションプログラム1342又はデータ1344を記憶する1つ以上の記憶媒体1330(例えば、1つ以上の大量の記憶デバイス)とを含むことができる。メモリ1332及び記憶媒体1330は、一時記憶又は永続的記憶であってもよい。記憶媒体1330に記憶されるプログラムは、1つ以上のモジュール(図示せず)を含んでもよく、各モジュールは、サーバサーバにおける一連の命令を操作する。さらに、中央処理装置1322は、記憶媒体1330と通信するように構成されており、サーバ1300において記憶媒体1330における一連の命令操作を実行する。
【0139】
サーバ1300は、1つ以上の電源1326、1つ以上の有線又は無線のネットワークインターフェース1350、1つ以上の入出力インターフェース1358、及び/又は、Windows ServerTM、Mac OS XTM、UnixTM、 Linux(登録商標)、FreeBSDTMなどの1つ以上のオペレーティングシステム1341を含むことができる。
【0140】
上記実施例では、サーバにより実行されたステップは、この
図13に示すサーバ構造に基づいて実現される。
【0141】
本出願の実施例は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体は、プログラムコードを記憶し、前記プログラムコードは、前記各実施例に記載のアニメキャラクター駆動方法を実行する。
【0142】
本出願の実施例は、命令を含むコンピュータプログラム製品をさらに提供し、コンピュータに実行されると、コンピュータに前記各実施例に記載のアニメキャラクター駆動方法を実行させる。
【0143】
本出願の明細書及び上記図面における用語の「第1」、「第2」、「第3」、「第4」など(存在する場合)は、類似の対象物を区別することを意図したものであり、必ずしも特定の順序又は配列を示すものではないことに留意されたい。このように使用されるデータは、適切な状況では交換可能であり、ここに記載する本出願の実施例は、例えば、ここに図示又は記載した順序以外の順序で実施可能である。また、用語の「含む」、「備える」といった表現又はそれらの変形は、排他的でないものを含むことを意図するものである。例えば、一連のステップ又はユニットを含む工程、方法、システム、製品、又はデバイスは、必ずしも列挙されたステップ又はユニットに限定されるものではなく、列挙されていない、或いは、かかる工程、方法、システム、製品、又はデバイスに固有の他のステップ又はユニットを含むことができる。
【0144】
本出願では、「少なくとも1つ(項)」とは、1つ又は複数を意味し、「複数の」とは、2つ又は2つ以上を意味することが理解すべきである。「及び/又は」は、関連対象の関連関係だけを述べるが、3種類の関係があることを示している。例えば、「A及び/又はB」は、Aが単独で存在する場合、AとBが同時に存在する場合、Bが単独で存在する場合という3つの場合を示しているのである。A、Bは、単数又は複数であってもよい。文字の「/」は普通に前後の関連対象が「又は」という関係にあることを示している。「以下の少なくとも1項(1つ)」又は類似する表現は、これらのうちの任意の組み合わせを意味し、1項(1つ)又は複数項(個)の任意の組み合わせを含む。例えば、a、b又はcのうちの少なくとも1項(1つ)は、a、b、c、「a及びb」、「a及びc」、「b及びc」、又は「a及びb及びc」として表されてもよく、a、b、cは、単数であってもよいし、複数であってもよい。
【0145】
本出願に係る一部の実施例において、開示されるシステム、装置及び方法は、他の方式で実現されてもよいと理解すべきである。例えば、以上に説明された装置実施例は模式的なものに過ぎず、例えば、前記ユニットの区分は論理的な機能上の区分に過ぎず、実際に実現するとき、他の区分方式があってもよく、例えば複数のユニット又はコンポーネントは他のシステムに組合せ又は集積されてもよく、又はいくつかの特徴は省略してもよく、又は実行しなくてもよい。一方、表示又は検討された相互間の結合又は直接結合又は通信接続はいくつかのインターフェース、装置又はユニットによる間接結合又は通信接続であってもよく、電気、機械又は他の形式であってもよい。
【0146】
分離部材として説明された前記ユニットは物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示された部材は物理ユニットであってもよいし、物理ユニットでなくてもよく、すなわち、一箇所に位置してもよいし、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のユニットを選択して本実施例案の目的を実現してもよい。
【0147】
また、本出願の各実施例の各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットは独立して物理的に存在してもよく、2つ以上のユニットは1つのユニットに集積されてもよい。上記集積されたユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。
【0148】
前記集積されたユニットはソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売または使用される場合、1つのコンピュータ読み取り可能な記憶媒体に格納されてもよい。このような理解に基づき、本出願の技術的解決策は本質的に従来技術に貢献する部分又は該技術的解決策の部分がソフトウェア製品の形態で実現されてもよく、該コンピュータソフトウェア製品は一台のコンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置などあってもよい)に本発明の各実施例に記載の方法の全部又は一部のステップを実行させるためのいくつかのコマンドを含む記憶媒体に記憶される。前記記憶媒体はUディスク、モバイルハードディスク、読み出し専用メモリ(Read-Only Memory、ROMと略称)、ランダムアクセスメモリ(Random Access Memory、RAMと略称)、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。
【0149】
前記のように、以上の実施例は本出願の技術案を説明するものに過ぎず、限定するものではない。前述の実施例を参照して本出願を詳細に説明したが、当業者であれば、依然として前述の各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴に対して同等置換を行うことができることを理解できる。これらの修正又は置換は、対応する技術案の本質を本出願の各実施例の技術的解決手段の精神及び範囲から逸脱させない。
【符号の説明】
【0150】
1000 アニメキャラクター駆動装置
1001 取得ユニット
1002 第1決定ユニット
1003 第2決定ユニット
1004 駆動ユニット
1100 アニメキャラクター駆動装置
1101 取得ユニット
1102 第1決定ユニット
1103 第2決定ユニット
1104 第3決定ユニット
1105 駆動ユニット
1210 RF回路
1220 メモリ
1230 入力ユニット
1231 タッチパネル
1232 他の入力機器
1240 表示ユニット
1241 ディスプレイパネル
1250 センサ
1260 オーディオ回路
1261 スピーカー
1262 マイクロホン
1270 WiFiモジュール
1280 プロセッサ
1290 電源
1300 サーバ
1322 中央処理装置
1326 電源
1330 記憶媒体
1332 メモリ
1341 オペレーティングシステム
1342 アプリケーションプログラム
1344 データ
1350 有線又は無線のネットワークインターフェース
1358 入出力インターフェース