特開2024-69154 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ フルエントインコーポレイテッドの特許一覧

特開2024-69154音声ベースのアバター顔表情の実現方法および装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024069154

(43)【公開日】2024-05-21

(54)【発明の名称】音声ベースのアバター顔表情の実現方法および装置

(51)【国際特許分類】

G06T 13/20 20110101AFI20240514BHJP

G06T 13/40 20110101ALI20240514BHJP

【ＦＩ】

G06T13/20 500

G06T13/40

【審査請求】有

【請求項の数】12

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2023187984

(22)【出願日】2023-11-01

(31)【優先権主張番号】10-2022-0148539

(32)【優先日】2022-11-09

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】523415545

【氏名又は名称】フルエントインコーポレイテッド

【氏名又は名称原語表記】ＦｌｕｅｎｔＴＩｎｃ．

【住所又は居所原語表記】２０２Ｈｏ，２３－１４Ｈｙｏｓｅｏｎｇ－ｒｏ１５ｂｅｏｎ－ｇｉｌ，Ｎａｍ－ｇｕ，Ｐｏｈａｎｇ－ｓｉ，Ｇｙｅｏｎｇｓａｎｇｂｕｋ－ｄｏ３７８３６ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110002262

【氏名又は名称】ＴＲＹ国際弁理士法人

(72)【発明者】

【氏名】ジョンイェチャン

【テーマコード（参考）】

5B050

【Ｆターム（参考）】

5B050AA03

5B050BA08

5B050BA09

5B050CA07

5B050CA08

5B050EA26

5B050FA02

5B050FA10

(57)【要約】（修正有）

【課題】音声信号に基づいてアバターの顔表情を実現するための音声ベースのアバター顔表情の実現方法および装置を提供する。
【解決手段】方法は、音声信号に基づいて、特定の時間についての音声信号の振幅情報を含む複数のチャンクを取得し、複数のチャンクに対応する複数の入力信号を神経網に入力し、神経網に含まれる少なくとも１つのレイヤーによって、複数の入力信号に基づいて複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係を反映する少なくとも１つの値を演算し、神経網に含まれる出力レイヤーによって、少なくとも１つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測し、複数の顔表情係数に基づいて予め指定されたアバターの表情を実現する。
【選択図】図６

【特許請求の範囲】

【請求項1】

音声信号処理方法において、
コンピューティング装置に含まれる少なくとも１つのプロセッサによって、
音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンクを取得するステップと、
前記複数のチャンクに対応する複数の入力信号を神経網に入力するステップと、
前記神経網に含まれる少なくとも１つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係を反映する少なくとも１つの値を演算するステップと、
前記神経網に含まれる出力レイヤーによって、前記少なくとも１つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測するステップと、
前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するステップと、を含み、
前記複数の出力信号に含まれる少なくとも２つ以上の出力信号は、前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係を反映して生成されることを特徴とする音声ベースのアバター顔表情の実現方法。

【請求項2】

前記複数の顔表情係数は、
前記アバターの頬に対応する少なくとも１つの顔表情係数、アバターの顎に対応する少なくとも１つの顔表情係数、またはアバターの口に対応する少なくとも１つの表情係数を含むことを特徴とする請求項１に記載の音声ベースのアバター顔表情の実現方法。

【請求項3】

前記複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、
前記アップサンプリング動作は、前記神経網の出力信号のデコンボリューション動作を含むことを特徴とする請求項１に記載の音声ベースのアバター顔表情の実現方法。

【請求項4】

前記複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得されることを特徴とする請求項１に記載の音声ベースのアバター顔表情の実現方法。

【請求項5】

前記神経網は、予め記憶された学習条件に基づいて学習され、
前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されることを特徴とする請求項１に記載の音声ベースのアバター顔表情の実現方法。

【請求項6】

前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第１条件に設定され、
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第１条件とは異なる第２条件に設定されることを特徴とする請求項５に記載の音声ベースのアバター顔表情の実現方法。

【請求項7】

命令を実行するプロセッサと、
前記命令を記憶するメモリーと、を含み、
前記プロセッサは、
音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンクを取得し、
前記複数のチャンクに対応する複数の入力信号を神経網に入力し、
前記神経網に含まれる少なくとも１つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係を反映する少なくとも１つの値を演算し、
前記神経網に含まれる出力レイヤーによって、前記少なくとも１つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測し、
前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するように設定され、
前記複数の出力信号に含まれる少なくとも２つ以上の出力信号は、前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係を反映して生成されることを特徴とする音声ベースのアバター顔表情の実現装置。

【請求項8】

前記複数の顔表情係数は、
前記アバターの頬に対応する少なくとも１つの顔表情係数、アバターの顎に対応する少なくとも１つの顔表情係数、またはアバターの口に対応する少なくとも１つの表情係数を含むことを特徴とする請求項７に記載の音声ベースのアバター顔表情の実現装置。

【請求項9】

前記複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、
前記アップサンプリング動作は、前記神経網の出力信号のデコンボリューション動作を含むことを特徴とする請求項７に記載の音声ベースのアバター顔表情の実現装置。

【請求項10】

前記複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得されることを特徴とする請求項７に記載の音声ベースのアバター顔表情の実現装置。

【請求項11】

前記神経網は、予め記憶された学習条件に基づいて学習され、
前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されることを特徴とする請求項７に記載の音声ベースのアバター顔表情の実現装置。

【請求項12】

前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第１条件に設定され、
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第１条件とは異なる第２条件に設定されることを特徴とする請求項１１に記載の音声ベースのアバター顔表情の実現装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声ベースのアバター顔表情の実現方法および装置に関し、具体的には、音声信号を神経網に適用してアバター顔表情を実現する音声ベースのアバター顔表情の実現方法および装置に関する。

【背景技術】

【0002】

メタバース（ｍｅｔａｖｅｒｓｅ）は、仮想現実（ｖｉｒｔｕａｌｒｅａｌｉｔｙ，ＶＲ）装置または拡張現実（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ，ＡＲ）装置を用いて実現される３Ｄ仮想世界のネットワークを意味する。

【0003】

３Ｄ仮想世界で実現される３Ｄアバターを実際の使用者と同様に生成するためにはカメラが必要である。しかしながら、ＶＲ装置またはＡＲ装置を使用者が着用すると、カメラは使用者の顔表情を容易にトラッキングすることができない。したがって、使用者の顔表情がリアルに具現されることができないという問題点がある。

【0004】

したがって、カメラがなくても、使用者の音声だけで使用者の実際の表情と同様の表情をアバターで生成する技術が求められている。

【先行技術文献】

【特許文献】

【0005】

特許文献１：韓国登録特許公報第１０－２３９０７８１号（２０２２．０４．２１．）

【発明の概要】

【発明が解決しようとする課題】

【0006】

本発明が達成しようとする技術的課題は、音声信号に基づいてアバターの顔表情を実現するための音声ベースのアバター顔表情の実現方法および装置を提供することである。

【課題を解決するための手段】

【0007】

本開示の一実施形態によれば、コンピューティング装置に含まれる少なくとも１つのプロセッサによって、音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンク（ｃｈｕｎｋｓ）を取得するステップと、前記複数のチャンクに対応する複数の入力信号を神経網に入力するステップと、前記神経網に含まれる少なくとも１つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係（ｒｅｌａｔｉｏｎｓｈｉｐ）を反映する少なくとも１つの値を演算するステップと、前記神経網に含まれる出力レイヤーによって、前記少なくとも１つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測するステップと、前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するステップと、を含み、前記複数の出力信号に含まれる少なくとも２つ以上の出力信号は、前記複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係（ｒｅｌａｔｉｏｎｓｈｉｐ）を反映して生成されることを特徴とする音声信号処理方法を提供することができる。

【0008】

複数の顔表情係数は、前記アバターの頬に対応する少なくとも１つの顔表情係数、アバターの顎に対応する少なくとも１つの顔表情係数、またはアバターの口に対応する少なくとも１つの表情係数を含むことができる。

【0009】

複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、前記アップサンプリング（ｕｐｓａｍｐｌｉｎｇ）動作は、前記神経網の出力信号のデコンボリューション（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）動作を含んでもよい。

【0010】

複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得してもよい。

【0011】

神経網は、予め記憶された学習条件に基づいて学習され、前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されてもよい。

【0012】

グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第１条件に設定され、前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第１条件とは異なる第２条件に設定されてもよい。

【発明の効果】

【0013】

本発明の実施形態による音声ベースのアバター顔表情の実現方法および装置は、音声信号を神経網に適用して顔表情係数を予測することによって音声ベースのアバター顔表情をうまく実現することができるという効果がある。

【図面の簡単な説明】

【0014】

本発明の詳細な説明で引用される図面をより十分に理解するために、各図面の詳細な説明を提供する。

【図1】本発明の実施形態による音声ベースのアバター顔表情の実現装置を示すブロック図である。

【図2】本発明の実施形態による音声信号のチャンク化動作を説明するためのブロック図である。

【図3】図１に示すプロセッサによって実行される神経網構造を示すブロック図である。

【図4】図３に示す神経網の動作を説明するための概念図である。

【図5】図３に示すダウンサンプリングモジュールに含まれる重み、神経網に含まれる重み、およびアップサンプリングモジュールに含まれる重みを更新するために、損失関数のパラメーター変化による顔表情係数を示すグラフである。

【図6】本発明の実施形態による音声ベースのアバター顔表情の実現方法を示すフローチャートである。

【図7】本発明の実施形態による音声に従って実現される３Ｄアバター画像を示す図である。

【発明を実施するための形態】

【0015】

本明細書に開示されている本発明の概念による実施形態に対する特定の構造的または機能的説明は、単に本発明の概念による実施形態を説明するための目的で例示されたものであり、本発明の概念による実施形態は様々な形態で実施することができ、本明細書に記載の実施形態に限定されない。

【0016】

本発明の概念による実施形態は様々な変更を加えることができ、様々な形態を有することができるので、実施形態を図面に示し、本明細書で詳細に説明する。しかし、これは、本発明の概念による実施形態を特定の開示形態に限定することを意図するものではなく、本発明の精神および技術の範囲に含まれるすべての変更、均等物、または取替物を含む。

【0017】

第１または第２などの用語は様々な構成要素を説明するために使用することができるが、前記構成要素は前記用語によって限定されるべきではない。前記用語は、ある構成要素を他の構成要素から区別する目的でのみ、例えば本発明の概念による権利範囲から逸脱することなく、第１構成要素を第２構成要素と命名することができ、同様に第２構成要素を第１構成要素とも命名することができる。

【0018】

本明細書で使用される用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。本明細書では、「含む」または「有する」などの用語は、説明された特徴、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものが存在することを指定するものであり、１つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものなどの存在または付加の可能性を事前に除外しないことを理解されるべきである。

【0019】

別段の定義がない限り、技術的または科学的用語を含む本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるのと同じ意味を表す。一般的に使用される事前に定義されているような用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に定義しない限り、理想的または過度に形式的な意味と解釈されるべきではない。図面における処理フローチャートの各ブロックとフローチャートの組み合わせは、コンピュータプログラム命令によって実行することができる。これらコンピュータプログラム命令は、汎用コンピュータ、特殊用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに実装することができるので、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令はフローチャートブロックに記載されている機能を実行する手段を生成する。これらコンピュータプログラム命令は、特定の方法で機能を実施するためにコンピュータまたは他のプログラム可能なデータ処理装置を指向できるコンピュータ利用可能またはコンピュータ読み取り可能メモリーに記憶されることも可能なので、そのコンピュータ利用可能またはコンピュータ読み取り可能メモリーに記憶された命令は、フローチャートブロックに記載されている機能を実行する命令手段を含む製造品目を製造することも可能であり得る。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置に実装することも可能であるため、コンピュータまたは他のプログラム可能なデータ処理装置上で一連の動作ステップが実行され、コンピュータで実行されるプロセスを生成してコンピュータまたは他のプログラム可能なデータ処理装置を実行する命令は、フローチャートブロックに記載されている機能を実行するためのステップを提供することも可能である。

【0020】

また、機器で読み取り可能な記憶媒体は、非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体の形態で提供することができる。ここで、「非一時的」とは、記憶媒体が有形（ｔａｎｇｉｂｌｅ）の装置であり、信号（ｓｉｇｎａｌ）（例えば電磁波）を含まないことを意味するだけであり、この用語は、データが記憶媒体に半永久的に記憶される場合と一時的に記憶される場合を区別しない。

【0021】

また、各ブロックは、特定の論理的機能を実行するための１つ以上の実行可能な命令を含むモジュール、セグメント、またはコードの一部を表すことができる。また、いくつかの取替実行例ではブロックで言及された機能が順序外で発生することも可能であることに留意されたい。例えば、相次いで示されている２つのブロックは実際には実質的に同時に実行されてもよく、またはブロックが時々該当する機能に従って逆順に実行されてもよい。例えば、モジュール、プログラム、または他の構成要素によって実行される動作は、順次、並列的、反復的、またはヒューリスティックに実行されたり、前記動作のうちの１つ以上が異なる順序で実行されたり、省略されたり、または１つ以上の他の動作を追加することができる。

【0022】

本開示で使用される「～部（ｕｎｉｔ）」という用語は、ソフトウェアまたはフィールドプログラマブルゲートアレイ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ，ＦＰＧＡ）または特定用途向け集積回路（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ，ＡＳＩＣ）などのハードウェア構成要素を意味する。「～部」は特定の役割を果たしているが、ソフトウェアまたはハードウェアに限定される意味ではない。「～部」はアドレッシングできる記憶媒体にあるように構成されてもよく、または１つ以上のプロセッサを再生するように構成されてもよい。したがって、一部の実施形態によれば、「～部」はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、およびタスク構成要素などの構成要素と、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、および変数を含む。構成要素と「～部」で提供される機能は、より少ない数の構成要素および「～部」に組み合わせたり追加的な構成要素と「～部」にさらに分離したりすることができる。さらに、構成要素および「～部」は、デバイスまたはセキュリティーマルチメディアカード内の１つまたは１つ以上のＣＰＵを再生させるように実現され得る。また、本開示の様々な実施形態によれば、「～部」という１つ以上のプロセッサを含むことができる。

【0023】

以下、添付の図面を参照して本発明の好ましい実施形態を説明することによって、本発明を詳細に説明する。

【0024】

図１は、本発明の実施形態による音声ベースのアバター顔表情の実現装置のブロック図を示す。

【0025】

図１を参照すると、音声ベースのアバター顔表情の実現装置１０はコンピューティング装置である。コンピューティング装置は、ノートブック、サーバー、スマートフォン、またはタブレットＰＣなどの電子装置を意味する。

【0026】

音声ベースのアバター顔表情の実現装置１０はプロセッサ１１とメモリー１３とを含む。また、図１には示されていないが、音声ベースのアバター顔表情の実現装置１０は電子装置に含まれる一般的な電子的構成（例えば通信回路）をさらに含むことができる。

【0027】

プロセッサ１１は、少なくとも一部がそれぞれ異なる機能を提供するように実現される少なくとも１つのプロセッサを含むことができる。例えば、ソフトウェア（例えば、プログラム）を実行してプロセッサ１１に接続された電子装置の少なくとも１つの他の構成要素（例えば、ハードウェアまたはソフトウェア構成要素）を制御することができ、様々なデータ処理または演算を実行できる。一実施形態によれば、データ処理または演算の少なくとも一部として、プロセッサ１１は他の構成要素から受信した命令またはデータをメモリー１３（例えば、揮発性メモリー）に記憶し、揮発性メモリーに記憶された命令またはデータを処理し、結果データを不揮発性メモリーに記憶することができる。一実施形態によれば、プロセッサ１１は、メインプロセッサ（例えば、中央処理装置またはアプリケーションプロセッサ）またはそれとは独立的または共に運営可能な補助プロセッサ（例えば、グラフィック処理装置、神経網処理装置（ＮＰＵ：ｎｅｕｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）、画像信号プロセッサ、センサーハブプロセッサ、またはコミュニケーションプロセッサ）を含むことができる。例えば、電子装置がメインプロセッサおよび補助プロセッサを含む場合、補助プロセッサはメインプロセッサよりも低電力を使用するか、または指定された機能に特化するように設定され得る。補助プロセッサは、メインプロセッサとは別に、またはその一部として実現することができる。補助プロセッサは、例えば、メインプロセッサがインアクティブ（例えば、スリップ）状態にある間、メインプロセッサに代わって、またはメインプロセッサがアクティブ（例えば、アプリケーション実行）状態にある間、メインプロセッサと共に電子装置の構成要素のうちの少なくとも１つの構成要素（例えば、通信回路）に関連する機能または状態の少なくとも一部を制御することができる。一実施形態によれば、補助プロセッサ（例えば、画像信号プロセッサまたはコミュニケーションプロセッサ）は、機能的に関連する他の構成要素（例えば、通信回路）の一部として実現することができる。一実施形態によれば、補助プロセッサ（例えば、神経網処理装置）は、人工知能モデルの処理に特化したハードウェア構造を含むことができる。人工知能モデルは機械学習を通じて生成することができる。このような学習は、例えば、人工知能モデルが実行される電子装置自体で実行されてもよく、別途のサーバーを介して実行されてもよい。学習アルゴリズムは、例えば、教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、教師なし学習（ｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、半教師あり学習（ｓｅｍｉ－ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）、または強化学習（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ）を含むことができるが、上記の例に限定されない。人工知能モデルは、複数の人工神経網レイヤーを含むことができる。人工神経網は深層神経網（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＲＮＮ（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）、ＲＢＭ（ｒｅｓｔｒｉｃｔｅｄｂｏｌｔｚｍａｎｎｍａｃｈｉｎｅ）、ＤＢＮ（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ）、ＢＲＤＮＮ（ｂｉｄｉｒｅｃｔｉｏｎａｌｒｅｃｕｒｒｅｎｔｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）、深層Ｑネットワーク（ｄｅｅｐＱ－ｎｅｔｗｏｒｋｓ）、または上記のうち２つ以上の組み合わせのうちの１つであり得るが、上記の例に限定されない。人工知能モデルはハードウェア構造に加えて、追加的または代替的にソフトウェア構造を含むことができる。一方、以下に説明する電子装置（またはコンピューティング装置）の動作は、プロセッサ１１の動作と理解することができる。本開示では、プロセッサの機能に基づいて複数のユニット（例えば「～部」）で区別して表現したが、これは説明の便宜のためのものであり、各ユニットが必ずしも別々のハードウェアで実現されるわけではない。すなわち、プロセッサに含まれる複数のユニットは、互いに別々のハードウェアに実現されてもよいが、１つのハードウェアに実現されてもよい。

【0028】

また、メモリー１３は、電子装置の少なくとも１つの構成要素（例えば、プロセッサ１１によって出力される様々なデータを記憶することができる。データは、例えば、ソフトウェア（例えば、プログラム）およびそれに関連した命令に対する入力データまたは出力データを含むことができる。メモリー１３は、揮発性メモリーまたは不揮発性メモリーを含むことができる。メモリー１３は、オペレーティングシステム、ミドルウェアまたはアプリケーション、および／または上記の人工知能モデルを記憶するように実現することができる。

【0029】

また、通信回路は、電子装置と外部電子装置（例えば、ユーザーデバイス）との間の直接（例えば有線）通信チャネルまたは無線通信チャネルの確立、および確立された通信チャネルを介した通信の実行をサポートすることができる。

【0030】

プロセッサ１１は、音声ベースのアバター顔表情を実現するための命令を実行する。

【0031】

メモリー１３は、前記プロセッサ１１によって実行される命令を記憶する。

【0032】

以下、音声ベースのアバター顔表情を実現するための動作はプロセッサ１１によって実行されることが理解されるべきである。

【0033】

図２は、本発明の実施形態による音声信号のチャンク化動作を説明するためのブロック図を示す。

【0034】

図１および図２を参照すると、コンピューティング装置１０は、使用者１５と対応するアバター顔表情を音声信号１７に基づいて実現するために、使用者１５の音声信号１７を受信する。

【0035】

音声信号１７において、Ｘ軸は時間を表し、Ｙ軸は信号の振幅を表す。信号の振幅は、１秒あたり１６０００回のサンプルレート（ｓａｍｐｌｅｒａｔｅ）で発生する振幅である。

【0036】

プロセッサ１１は、音声信号１７を複数のチャンク（ｃｈｕｎｋｓ；１９－１～１９－Ｎ；Ｎは自然数）に分割する。プロセッサ１１は、音声信号１７を一定の時間間隔（例えば１０秒）に分割してチャンク化された音声信号１９を生成する。

【0037】

図２では、複数のチャンク１９－１～１９－Ｎの内部がグラフで示されているが、実際には振幅の値と表される。前記振幅の値は１６ビット範囲内の値を有する。すなわち、前記振幅の値は－３２，７６８～＋３２，７６７の間の値を有する。

【0038】

図面符号「Ｓ」は、チャンク化された音声信号１９の総時間長を示す。

【0039】

図３は、図１に示すプロセッサによって実行される神経網構造のブロック図を示す。

【0040】

図１～図３を参照すると、プロセッサ１１は受信した音声信号を前処理して神経網入力信号４０を生成することができる。具体的に、プロセッサ１１は、神経網入力信号４０を生成するためにチャンク化された音声信号１９をダウンサンプリング（ｄｏｗｎｓａｍｐｌｉｎｇ）することができる。

【0041】

ダウンサンプリングはダウンサンプリングモジュール３０によって実行される。

【0042】

プロセッサ１１は、チャンク化された音声信号１９をダウンサンプリングモジュール３０に適用して神経網入力信号４０を出力する。

【0043】

チャンク化された音声信号１９は複数のチャンク１９－１～１９－Ｎを含む。

【0044】

ダウンサンプリングモジュール３０は複数のダウンサンプリングレイヤー（ｄｏｗｎｓａｍｐｌｉｎｇｌａｙｅｒｓ；図示せず）を含む。複数のダウンサンプリングレイヤーはコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）レイヤーである。例えば、ダウンサンプリングモジュール３０は７個のコンボリューションレイヤーを含むことができる。コンボリューションレイヤーで１Ｄコンボリューション動作が実行される。前記コンボリューションレイヤーのそれぞれは複数のカーネル（ｋｅｒｎｅｌｓ）を含むことができる。例えば、前記コンボリューションレイヤーのそれぞれに含まれる複数のカーネルの数は５１２個であり得る。

【0045】

音声時間軸に移動するカーネルの間隔（ｓｔｒｉｄｅ）を１より大きく設定して神経網入力信号４０の総時間長Ｓ’はチャンク化された音声信号１９の総時間長Ｓより短く生成させる。

【0046】

神経網入力信号４０の総時間長Ｓ’はチャンク化された音声信号１９の総時間長Ｓより短い。例えば、チャンク化された音声信号１９の総時間長Ｓが１６０，０００秒であると仮定すると、神経網入力信号４０の総時間長Ｓ’は４９９秒である。

【0047】

１Ｄコンボリューション動作が実行される過程で複数のカーネルが使用されたので、神経網入力信号４０は複数のディメンション（ｄｉｍｅｎｓｉｏｎｓ，Ｄ）を含む。例えば、神経網入力信号４０は５１２個のディメンションを含むことができる。すなわち、神経網入力信号４０のティメンジョンＤは５１２である。前記ディメンションは１Ｄコンボリューション動作で使用されるチャネル数を意味する。

【0048】

神経網入力信号４０は、それぞれが総時間長Ｓ’が４９９秒である複数の入力信号（ＩＳ－１，ＩＳ－２，．．．，およびＩＳ－Ｋ；Ｋは自然数）を含む。神経網入力信号４０はティメンジョンＤが５１２であるとき、前記Ｋは５１２であり得る。

【0049】

複数の入力信号（ＩＳ－１，ＩＳ－２，．．．，およびＩＳ－Ｋ）それぞれのチャンク（４０－１～４０－Ｎ；Ｎは自然数）の数（Ｎ個）はチャンク化された音声信号１９のチャンク１９－１～１９－Ｎの数（Ｎ個）に等しい。ここで、チャンクは、使用者１５の特定の時間に対する音声信号１７の振幅情報を含む。

【0050】

プロセッサ１１は、前記ダウンサンプリングされた音声信号４０の特徴抽出を向上（ｅｎｈａｎｃｅ）させるために、神経網入力信号４０を神経網５０に適用して神経網出力信号６０を生成する。

【0051】

神経網５０はトランスフォーマーモデル（ｔｒａｎｓｆｏｒｍｅｒｍｏｄｅｌ）を含むことができるが、これに限定されない。

【0052】

トランスフォーマーモデル（ｔｒａｎｓｆｏｒｍｅｒｍｏｄｅｌ）は、自然言語処理（Ｎａｕｔｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ）で主に使用されるディープラーニング（ｄｅｅｐｌｅａｒｎｉｎｇ）モデルである。トランスフォーマーモデルは広く知られているディープラーニングモデルであるため、これに対する具体的な内部構造は省略する。

【0053】

プロセッサ１１は、神経網５０に含まれる少なくとも１つのレイヤーによって、複数の入力信号４０に基づいて複数の入力信号のうちの少なくとも２つ以上の入力信号の間の関係（ｒｅｌａｔｉｏｎｓｈｉｐ）を反映する少なくとも１つの値を演算することができる。具体的に、プロセッサ１１は、チャンク化された時系列データで実現される入力信号に基づいて複数のチャンク間の関係（または関連性）を演算することによって、入力信号間の関係を反映する出力信号を取得することができる。

【0054】

この場合、プロセッサ１１は、神経網５０に含まれる出力レイヤーによって、入力信号間の関係を反映する少なくとも１つの値に基づいて複数の出力信号を出力することができる。このとき、前記複数の出力信号に含まれる少なくとも２つ以上の出力信号は、前記複数の入力信号のうちの少なくとも２つ以上の入力信号間の関係（ｒｅｌａｔｉｏｎｓｈｉｐ）を反映して生成されてもよい。

【0055】

また、プロセッサ１１は、複数の出力信号に基づいて複数の顔表情係数を予測することができる。

【0056】

図４は、図３に示す神経網の動作を説明するための概念図を示す。

【0057】

図４は、神経網の動作を説明するための概念図であり、実際の神経網における演算は数字で計算される。

【0058】

図４に示す入力信号ＩＳ－１と出力信号ＯＳ－１は図３に示す入力信号ＩＳ－１～ＩＳ－Ｋのいずれかであり、図３に示す出力信号ＯＳ－１～ＯＳ－Ｋのいずれかである。

【0059】

図１～図４を参照すると、入力信号ＩＳ－１が神経網５０に適用される。

【0060】

入力信号ＩＳ－１は複数のチャンク４０－１～４０－９を含む。

【0061】

出力信号ＯＳ－１は複数のチャンク６０－１～６０－９を含む。

【0062】

図４では、説明の便宜上、入力信号ＩＳ－１と出力信号ＯＳ－１のチャンクの数が９個であることが示されているが、実施形態によってチャンクの数は変わり得る。

【0063】

図４では、神経網５０の初期重み（ｗｅｉｇｈｔｓ）は大容量音声データに対して事前学習された（ｐｒｅ－ｔｒａｉｎｅｄ）重みで初期化する。

【0064】

図４では、第２チャンク４０－２が神経網５０に適用されるときの神経網５０の動作について説明する。

【0065】

第２チャンク４０－２はクエリベクトル（ｑｕｅｒｙｖｅｃｔｏｒ）である。

【0066】

残りのチャンク４０－１，４０－３～４０－９はキーベクトル（ｋｅｙｖｅｃｔｏｒｓ）である。残りのチャンク４０－１，４０－３～４０－９は第２チャンク４０－２と関連している。

【0067】

バリューベクトル（ｖａｌｕｅｖｅｃｔｏｒ）は、実際の音声信号１５の特徴を表す振幅の値である。

【0068】

第２チャンク４０－２であるクエリベクトルと第１チャンク４０－１であるキーベクトルとのドットプロダクト（ｄｏｔｐｒｏｄｕｃｔ）が実行される。第２チャンク４０－２であるクエリベクトルと第３チャンク４０－３であるキーベクトルとのドットプロダクト（ｄｏｔｐｒｏｄｕｃｔ）が実行される。第２チャンク４０－２であるクエリベクトルと第４チャンク４０－４であるキーベクトルとのドットプロダクト（ｄｏｔｐｒｏｄｕｃｔ）が実行される。同様に、残りのチャンク４０－５～４０－９でもドットプロダクトが実行される。

【0069】

ドットプロダクトが実行されると、スコアが生成される。スコアはクエリベクトルとキーベクトルがどのくらいよくマッチングするか示す。

【0070】

プロセッサ１１は、ドットプロダクトによって生成されたスコアにバリューベクトルを乗算し、乗算値を加算して第２チャンク６０－２を生成する。

【0071】

神経網出力信号６０である第２チャンク６０－２は、音声信号１５の特性が神経網入力信号４０である第２チャンク４０－２よりも音声信号１５の関係をさらによく表現する。例えば、第１チャンク４０－１で振幅が少し発生すると、第２チャンク４０－２では振幅がますます大きくなるか、または小さくなるように表現される。

【0072】

すなわち、神経網５０を介して第２チャンク４０－２に含まれる音声信号１５の振幅が異なるチャンク４０－１，４０－３～４０－９との関係を考慮して第２チャンク６０－２が生成される。

【0073】

図４では、第２チャンク６０－２は第２チャンク４０－２と同様に示されているが、実際には第２チャンク６０－２は第２チャンク４０－２とは異なる。第２チャンク４０－２と第２チャンク６０－２は実際には数字と表される。

【0074】

図３を参照すると、神経網５０を介して前記ダウンサンプリングされた音声信号４０の特徴抽出を向上（ｅｎｈａｎｃｅ）させることができる。

【0075】

神経網出力信号６０は、それぞれが総時間長Ｓ’が４９９秒である複数の出力信号（ＯＳ－１，ＯＳ－２，．．．，およびＯＳ－Ｋ；Ｋは自然数）を含む。神経網出力信号６０はティメンジョンＤ’が５１２であるとき、前記Ｋは５１２であり得る。

【0076】

プロセッサ１１は、複数の顔表情係数を予測するために神経網出力信号６０を後処理することができる。具体的に、プロセッサ１１は神経網出力信号６０をアップサンプリング（ｕｐｓａｍｐｌｉｎｇ）することができる。

【0077】

アップサンプリングはアップサンプリングモジュール７０によって実行される。

【0078】

アップサンプリングモジュール７０は、複数のアップサンプリングレイヤー（ｕｐｓａｍｐｌｉｎｇｌａｙｅｒｓ；図示せず）を含む。複数のアップサンプリングレイヤーはデコンボリューション（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）レイヤーである。例えば、ダウンサンプリングモジュール３０は７個のコンボリューションレイヤーを含むことができる。コンボリューションレイヤーでは１Ｄデコンボリューション（ｄｅｃｏｎｖｏｌｕｔｉｏｎ）動作が実行される。前記デコンボリューションレイヤーのそれぞれは複数のカーネル（ｋｅｒｎｅｌｓ）を含むことができる。

【0079】

プロセッサ１１は、神経網出力信号６０をアップサンプリングモジュール７０に適用して複数の顔表情係数を出力する。複数の顔表情係数は０または１の間の値を有する。複数の顔表情係数に従って、３Ｄアバターを構成するメッシュ（ｍｅｓｈｅｓ）をデフォーム（ｄｅｆｏｒｍ）することができる。したがって、複数の顔表情係数によって３Ｄアバターの表情が異なる場合がある。複数の顔表情係数は、具体的なアバター顔特徴の動きに関連してアバター顔表情を表す係数を意味する。複数の顔表情係数は、シェイプキー（ＳｈａｐｅＫｅｙｓ）、頂点キー（ＶｅｒｔｅｘＫｅｙｓ）、またはモーフィング（Ｍｏｒｐｈｉｎｇ）と呼ばれることができる。このとき、顔表情係数はアバター顔の下部の部分に対応することができる。具体的には、顔表情係数は、アバターの口に対応する少なくとも１つの顔表情係数、アバターの顎に対応する少なくとも１つの顔表情係数、またはアバターの口に対応する少なくとも１つの顔表情係数を含むことができるが、これに限定されない。

【0080】

アップサンプリング出力信号８０は、複数のチャンク（８０－１～８０－Ｍ；Ｍは自然数）を含む。１つのチャンクは１０秒の時間長を有する。

【0081】

顔表情係数は、１秒あたり６０個を生成することができる。顔表情係数が１秒あたり６０個を生成すると仮定すると、１つのチャンク８０－１には６００個の顔表情係数が含まれ得る。

【0082】

アップサンプリング出力信号８０の総時間長Ｔは６００秒であり得る。すなわち、１つのチャンクの時間長が１０秒であるので、チャンクの数は６０個であり得る。

【0083】

アップサンプリング出力信号８０の総時間長Ｔは、神経網出力信号６０の総時間長Ｓ’よりも長い。例えば、神経網出力信号８０の総時間長Ｓ’が４９９秒であると仮定すると、アップサンプリング出力信号８０の総時間長Ｔは６００秒である。

【0084】

アップサンプリング出力信号８０は複数のチャネルＲを含む。複数のチャネルＲは顔表情係数に対応する。例えば、第１チャネルＦＥ－１は口の形の大きさを表す顔表情係数であり得る。第２チャネルＦＥ－２はアバター顔のうち顎開きを示す顔表情係数であり得る。複数のチャネルＲの数は３１個であり得る。３１個はアバター顔の下部の顔表情係数である。顔の下部とは、アバター顔の頬、顎、または口を意味する。

【0085】

神経網出力信号６０の総時間長Ｓ’と顔表情係数の総長は異なる。しかしながら、アップサンプリング動作により、神経網出力信号６０の総時間長Ｓ’とアップサンプリング出力信号８０の総時間長Ｔとをマッチングさせることができる。

【0086】

プロセッサ１１は、予め記憶された学習条件に基づいて神経網５０を含む音声信号処理エンジンを学習することができる。具体的に、プロセッサ１１は、予め記憶された学習条件に基づいてダウンサンプリングモジュール３０に対応する少なくとも１つの重み、アップサンプリングモジュール７０に対応する少なくとも１つの重み、および神経網５０に対応する少なくとも１つの重みを調整することができる。

【0087】

このとき、予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されてもよい。具体的には、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値より大きい場合、学習条件は第１条件に設定することができる。また、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値より小さい場合、学習条件は前記第１条件と異なる第２条件に設定することができる。上述した学習条件に対する具体的な内容は図５を用いて説明する。

【0088】

ダウンサンプリングモジュール３０に含まれる重み、神経網５０に含まれる重み、およびアップサンプリングモジュール７０に含まれる重みを訓練させるために、損失関数は以下のように定義され得る。

【0089】

［数１］

【0090】

前記ｌｏｓｓ_ｎは損失関数の値を、前記ｙ_ｎはｎ番目のグラウンドトゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）の顔表情係数値を、前記ｙ’_ｎはｎ番目の予測された顔表情係数値を、前記アルファは定数を表す。

【0091】

前記損失関数については、図５でさらに説明する。

【0092】

プロセッサ１１は、前記グラウンドトゥルースを生成するために使用者１５の音声信号１７とマッチングする顔表情係数値を生成する。このとき、顔表情係数値はアバター顔の下部の顔表情係数である。

【0093】

プロセッサ１１は、生成された顔表情係数値のうちの任意の数（例えば、１００個）、任意の時間（例えば、６００秒）、およびチャネル数（例えば、３１個）を抽出してグラウンドトゥルースを生成する。

【0094】

すなわち、グラウンドトゥルースは３１個のチャネルと６００秒を備え、各チャネルあたりのデータは１００個を備える。

【0095】

アップサンプリング出力信号８０は３１個のチャネルと６００秒を備える。すなわち、グラウンドトゥルースとアップサンプリング出力信号８０は互いに対応する。

【0096】

グラウンドトゥルースのチャネル値は正規化（ｎｏｒｍａｌｉｚａｔｉｏｎ）を実行して－１．０から１．０の間の値を備えるようにする。

【0097】

図５は、図３に示すダウンサンプリングモジュールに含まれる重み、神経網に含まれる重み、およびアップサンプリングモジュールに含まれる重みを更新するために、損失関数のパラメーター変化による顔表情係数のグラフを示す。図５の（ａ）は、損失関数のパラメーターであるアルファ値が０．１の場合、顔表情係数のグラフを示す。図５の（ｂ）は、損失関数のパラメーターであるアルファ値が１．０の場合、顔表情係数のグラフを示す。図５の（ｃ）は、損失関数のパラメーターであるアルファ値が１０の場合、顔表情係数のグラフを示す。図５の（ａ）～図５の（ｃ）に示すグラフにおいて、Ｘ軸は時間を表し、Ｙ軸は顔表情係数の値を表す。

【0098】

図５の（ａ）～図５の（ｃ）に示すグラフにおいて、「ｐｒｅｄ」は、ダウンサンプリングモジュール３０、神経網５０、およびアップサンプリングモジュール７０を介して出力される顔表情係数を表し、「ｔｒｕｅ」は、グラウンドトゥルース（ｇｒｏｕｎｄｔｒｕｔｈ）の顔表情係数を表す。

【0099】

Ｘ軸の時間単位は１／６０秒である。したがって、Ｘ軸の６００は１０秒を意味する。顔表情係数の値は０から１の間の値を備える。

【0100】

図３を参照すると、アップサンプリング出力信号８０に含まれる１つのチャンク（例えば、８０－１）は１０秒の時間長を有する。図５の（ａ）、図５の（ｂ）、または図５の（ｃ）に示すグラフは、アップサンプリング出力信号８０に含まれるチャンク８０－１、８０－２、または８０－３に対応する。図５の（ａ）～図５の（ｃ）に示すグラフでは、グラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）は同じである。したがって、図５の（ａ）～図５の（ｃ）に示すグラフは、アップサンプリング出力信号８０に含まれるチャンク８０－１に対応すると仮定することができる。

【0101】

図５の（ａ）を参照すると、損失関数のアルファ値が０．１の場合、点Ｐ１、Ｐ２でグラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は大きい。損失関数のアルファ値が０．１の場合、プロセッサ１１は点Ｐ１、Ｐ２でノイズを判断して顔表情係数の値を除外するためである。前記アルファ値は上記式（１）におけるアルファ値を意味する。

【0102】

点Ｐ１、Ｐ２でグラウンドトゥルースの顔表情係数の値（例えば、０．３、０．１）はグラウンドトゥルースの平均顔表情係数の値（例えば、０．２）より比較的大きかったり、小さかったりする。点Ｐ１でグラウンドトゥルースの顔表情係数の値（例えば、０．３）はグラウンドトゥルースの平均顔表情係数の値（例えば、０．２）より比較的大きい。点Ｐ２でグラウンドトゥルースの顔表情係数の値（例えば、０．１）はグラウンドトゥルースの平均顔表情係数の値（例えば、０．２）より比較的小さい。

【0103】

一方、点Ｐ３でグラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は殆どない。点Ｐ３でグラウンドトゥルースの顔表情係数の値（例えば、０．２）はグラウンドトゥルースの平均顔表情係数の値（例えば、０．２）とほぼ同じである。グラウンドトゥルースの平均顔表情係数の値（例えば、０．２）はグラウンドトゥルースの顔表情係数の値の平均によって計算することができる。

【0104】

すなわち、損失関数のアルファ値が０．１の場合、グラウンドトゥルースの顔表情係数の値がグラウンドトゥルースの平均顔表情係数の値と似ているほど、グラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は殆どない。

【0105】

他方、グラウンドトゥルースの顔表情係数の値がグラウンドトゥルースの平均顔表情係数の値から離れるほど、グラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は大きくなる。

【0106】

損失関数のアルファ値が０．１の場合、点Ｐ１、Ｐ２において顔表情係数の値がよく予測されない。

【0107】

しかし、大きな値を有する顔表情係数をよく予測することが重要である。顔表情係数が大きな値を有するほど、アバターでは顔表情がもっと大きく変形する。したがって、アバター顔表情の違いをより明確にするためには、大きな値を有する顔表情係数をよく予測する必要がある。

【0108】

図５の（ｂ）を参照すると、損失関数のアルファ値が１．０の場合、予測された顔表情係数は損失関数のアルファ値が０．１の場合（図５の（ａ）の場合）と大きな差はない。

【0109】

点Ｐ１、Ｐ２において、グラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は大きい。点Ｐ３において、グラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は殆どない。

【0110】

図５の（ｃ）を参照すると、損失関数のアルファ値が１０の場合、点Ｐ１、Ｐ２におけるグラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は、図５の（ａ）とは別に大きくない。損失関数のアルファ値が１０の場合、プロセッサ１１は点Ｐ１、Ｐ２で顔表情係数の値をノイズを判断しないからである。

【0111】

一方、点Ｐ３におけるグラウンドトゥルースの顔表情係数（「ｔｒｕｅ」グラフ）と予測された顔表情係数（「ｐｒｅｄ」グラフ）との差は、図５の（ａ）とは異なる。

【0112】

図５の（ａ）と図５の（ｂ）のように損失関数のアルファ値が小さい場合、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値（Ｐ３地点）はよく予測される。一方、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値（Ｐ１，Ｐ２地点）はよく予測されない。

【0113】

図５の（ｃ）のように損失関数のアルファ値が大きい場合、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値（Ｐ３地点）はよく予測されない。一方、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値（Ｐ１，Ｐ２地点）はよく予測される。

【0114】

プロセッサ１１は、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値（Ｐ１，Ｐ２地点）をよく予測するためにアルファ値を大きくし、ダウンサンプリングモジュール３０に含まれる重み、神経網５０に含まれる重み、およびアップサンプリングモジュール７０に含まれる重みを訓練させる。

【0115】

また、プロセッサ１１は、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値（Ｐ３地点）をよく予測するためにアルファ値を小さくし、ダウンサンプリングモジュール３０に含まれる重み、神経網５０に含まれる重み、およびアップサンプリングモジュール７０に含まれる重みを訓練させる。

【0116】

すなわち、プロセッサ１１は、グラウンドトゥルースの平均顔表情係数の値を計算する。グラウンドトゥルースは、使用者１５の音声信号１７とマッチングする顔表情係数値を意味する。

【0117】

プロセッサ１１は、グラウンドトゥルースの平均顔表情係数の値とアップサンプリング出力信号９０のチャネル値との絶対差値を計算する。

【0118】

前記絶対値が任意の閾値より大きい場合、プロセッサ１１は損失関数のアルファ値を第１値に設定する。前記第１値は第１任意の値（例えば、５）以上である。例えば、前記任意の閾値は０．１であり得る。前記第１値は１０であり得る。前記第１値は第１任意の値（例えば、５）以上、且つ第２任意の値（例えば、２０）以下の範囲を有する。前記第２任意の値は前記第１任意の値よりも大きい。

【0119】

前記絶対値が任意の閾値より小さい場合、プロセッサ１１は損失関数のアルファ値を第２値に設定する。前記第２値は前記第１任意の値（例えば、５）未満である。例えば、前記任意の閾値は０．１であり得る。前記第２値は０．１であり得る。前記第２値は０以上、且つ前記第１任意の値（例えば、５）未満の範囲を有する。

【0120】

実施形態によれば、プロセッサ１１は、前記第１任意の値、前記第２任意の値、前記第１値、または前記第２値を異なるように設定することができる。

【0121】

本発明のようにグラウンドトゥルースの平均顔表情係数の値とアップサンプリング出力信号８０のチャネル値との差に応じてアルファ値を異なるように設定することによって、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値（Ｐ１，Ｐ２地点）とグラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値（Ｐ３地点）をよく予測することができる。

【0122】

実施形態によれば、プロセッサ１１は、前記損失関数についてのエポック（ｅｐｏｃｈｅｓ）の数字をカウンティングする。前記損失関数についてのエポック（ｅｐｏｃｈｅｓ）の数字が任意の回数（例えば、２０）以上である場合、プロセッサ１１は、前記損失関数に対するアルファを前記第２値に設定することができる。前記損失関数についてのエポック（ｅｐｏｃｈｅｓ）の数字が任意の回数（例えば、２０）以上である場合、前記損失関数の誤差の偏差は大きくないからである。実施形態によれば、プロセッサ１１は、前記任意の回数（例えば、２０）を異なるように設定することができる。

【0123】

図６は、本発明の実施形態による音声ベースのアバター顔表情の実現方法のフローチャートを示す。

【0124】

図１～図６を参照すると、プロセッサ１１は音声信号１７を複数のチャンク１９－１～１９－Ｎに分割する（Ｓ１０）。

【0125】

プロセッサ１１は、神経網入力信号４０を生成するためにチャンク化された音声信号１９をダウンサンプリングする（Ｓ２０）。

【0126】

プロセッサ１１は、前記ダウンサンプリングされた音声信号４０の特徴抽出を向上（ｅｎｈａｎｃｅ）させるために、神経網入力信号４０を神経網５０に適用して神経網出力信号６０を生成する。神経網入力信号４０と前記ダウンサンプリングされた音声信号４０は同じ信号である（Ｓ３０）。

【0127】

プロセッサ１１は、複数の顔表情係数を予測するために神経網出力信号６０をアップサンプリングする（Ｓ４０）。前記複数の顔表情係数はアップサンプリング出力信号８０に含まれる。

【0128】

プロセッサ１１は、前記予測された複数の顔表情係数に従ってアバター顔の表情を実現する（Ｓ５０）。

【0129】

図７は、本発明の実施形態による音声に従って実現される３Ｄアバター画像を示す。図７の（ａ）～図７の（ｄ）は、時間に応じてそれぞれ異なる表情が実現されたアバターの画像を示す。

【0130】

図１、図２、および図７を参照すると、プロセッサ１１は、前記予測された複数の顔表情係数に従ってアバター顔の表情を実現する。

【0131】

アバターは３Ｄで実現することができる。アバターの参照（ｒｅｆｅｒｅｎｃｅ）画像はカメラ（図示せず）によって予め撮影された使用者１５であり得る。

【0132】

本発明は、図面に示された一実施形態を参照して説明されたが、これは例示的なものに過ぎず、本技術分野の通常の知識を有する者であれば、これから様々な変形および均等な他の実施形態が可能であることを理解すべきである。したがって、本発明の真の技術的保護範囲は、添付の登録請求範囲の技術的思想によって定められるべきである。

【符号の説明】

【0133】

１０音声ベースのアバター顔表情の実現装置
１１プロセッサ
１３メモリー
３０ダウンサンプリングモジュール
５０神経網
７０アップサンプリングモジュール

【図1】