(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024069154
(43)【公開日】2024-05-21
(54)【発明の名称】音声ベースのアバター顔表情の実現方法および装置
(51)【国際特許分類】
G06T 13/20 20110101AFI20240514BHJP
G06T 13/40 20110101ALI20240514BHJP
【FI】
G06T13/20 500
G06T13/40
【審査請求】有
【請求項の数】12
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2023187984
(22)【出願日】2023-11-01
(31)【優先権主張番号】10-2022-0148539
(32)【優先日】2022-11-09
(33)【優先権主張国・地域又は機関】KR
(71)【出願人】
【識別番号】523415545
【氏名又は名称】フルエント インコーポレイテッド
【氏名又は名称原語表記】FluentT Inc.
【住所又は居所原語表記】202Ho, 23-14 Hyoseong-ro 15beon-gil, Nam-gu, Pohang-si, Gyeongsangbuk-do 37836 Republic of Korea
(74)【代理人】
【識別番号】110002262
【氏名又は名称】TRY国際弁理士法人
(72)【発明者】
【氏名】ジョン イェチャン
【テーマコード(参考)】
5B050
【Fターム(参考)】
5B050AA03
5B050BA08
5B050BA09
5B050CA07
5B050CA08
5B050EA26
5B050FA02
5B050FA10
(57)【要約】 (修正有)
【課題】音声信号に基づいてアバターの顔表情を実現するための音声ベースのアバター顔表情の実現方法および装置を提供する。
【解決手段】方法は、音声信号に基づいて、特定の時間についての音声信号の振幅情報を含む複数のチャンクを取得し、複数のチャンクに対応する複数の入力信号を神経網に入力し、神経網に含まれる少なくとも1つのレイヤーによって、複数の入力信号に基づいて複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係を反映する少なくとも1つの値を演算し、神経網に含まれる出力レイヤーによって、少なくとも1つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測し、複数の顔表情係数に基づいて予め指定されたアバターの表情を実現する。
【選択図】
図6
【特許請求の範囲】
【請求項1】
音声信号処理方法において、
コンピューティング装置に含まれる少なくとも1つのプロセッサによって、
音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンクを取得するステップと、
前記複数のチャンクに対応する複数の入力信号を神経網に入力するステップと、
前記神経網に含まれる少なくとも1つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係を反映する少なくとも1つの値を演算するステップと、
前記神経網に含まれる出力レイヤーによって、前記少なくとも1つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測するステップと、
前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するステップと、を含み、
前記複数の出力信号に含まれる少なくとも2つ以上の出力信号は、前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係を反映して生成されることを特徴とする音声ベースのアバター顔表情の実現方法。
【請求項2】
前記複数の顔表情係数は、
前記アバターの頬に対応する少なくとも1つの顔表情係数、アバターの顎に対応する少なくとも1つの顔表情係数、またはアバターの口に対応する少なくとも1つの表情係数を含むことを特徴とする請求項1に記載の音声ベースのアバター顔表情の実現方法。
【請求項3】
前記複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、
前記アップサンプリング動作は、前記神経網の出力信号のデコンボリューション動作を含むことを特徴とする請求項1に記載の音声ベースのアバター顔表情の実現方法。
【請求項4】
前記複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得されることを特徴とする請求項1に記載の音声ベースのアバター顔表情の実現方法。
【請求項5】
前記神経網は、予め記憶された学習条件に基づいて学習され、
前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されることを特徴とする請求項1に記載の音声ベースのアバター顔表情の実現方法。
【請求項6】
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第1条件に設定され、
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第1条件とは異なる第2条件に設定されることを特徴とする請求項5に記載の音声ベースのアバター顔表情の実現方法。
【請求項7】
命令を実行するプロセッサと、
前記命令を記憶するメモリーと、を含み、
前記プロセッサは、
音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンクを取得し、
前記複数のチャンクに対応する複数の入力信号を神経網に入力し、
前記神経網に含まれる少なくとも1つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係を反映する少なくとも1つの値を演算し、
前記神経網に含まれる出力レイヤーによって、前記少なくとも1つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測し、
前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するように設定され、
前記複数の出力信号に含まれる少なくとも2つ以上の出力信号は、前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係を反映して生成されることを特徴とする音声ベースのアバター顔表情の実現装置。
【請求項8】
前記複数の顔表情係数は、
前記アバターの頬に対応する少なくとも1つの顔表情係数、アバターの顎に対応する少なくとも1つの顔表情係数、またはアバターの口に対応する少なくとも1つの表情係数を含むことを特徴とする請求項7に記載の音声ベースのアバター顔表情の実現装置。
【請求項9】
前記複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、
前記アップサンプリング動作は、前記神経網の出力信号のデコンボリューション動作を含むことを特徴とする請求項7に記載の音声ベースのアバター顔表情の実現装置。
【請求項10】
前記複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得されることを特徴とする請求項7に記載の音声ベースのアバター顔表情の実現装置。
【請求項11】
前記神経網は、予め記憶された学習条件に基づいて学習され、
前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されることを特徴とする請求項7に記載の音声ベースのアバター顔表情の実現装置。
【請求項12】
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第1条件に設定され、
前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第1条件とは異なる第2条件に設定されることを特徴とする請求項11に記載の音声ベースのアバター顔表情の実現装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声ベースのアバター顔表情の実現方法および装置に関し、具体的には、音声信号を神経網に適用してアバター顔表情を実現する音声ベースのアバター顔表情の実現方法および装置に関する。
【背景技術】
【0002】
メタバース(metaverse)は、仮想現実(virtual reality,VR)装置または拡張現実(augmented reality,AR)装置を用いて実現される3D仮想世界のネットワークを意味する。
【0003】
3D仮想世界で実現される3Dアバターを実際の使用者と同様に生成するためにはカメラが必要である。しかしながら、VR装置またはAR装置を使用者が着用すると、カメラは使用者の顔表情を容易にトラッキングすることができない。したがって、使用者の顔表情がリアルに具現されることができないという問題点がある。
【0004】
したがって、カメラがなくても、使用者の音声だけで使用者の実際の表情と同様の表情をアバターで生成する技術が求められている。
【先行技術文献】
【特許文献】
【0005】
特許文献1:韓国登録特許公報第10-2390781号(2022.04.21.)
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が達成しようとする技術的課題は、音声信号に基づいてアバターの顔表情を実現するための音声ベースのアバター顔表情の実現方法および装置を提供することである。
【課題を解決するための手段】
【0007】
本開示の一実施形態によれば、コンピューティング装置に含まれる少なくとも1つのプロセッサによって、音声信号に基づいて、特定の時間についての前記音声信号の振幅情報を含む複数のチャンク(chunks)を取得するステップと、前記複数のチャンクに対応する複数の入力信号を神経網に入力するステップと、前記神経網に含まれる少なくとも1つのレイヤーによって、前記複数の入力信号に基づいて前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係(relationship)を反映する少なくとも1つの値を演算するステップと、前記神経網に含まれる出力レイヤーによって、前記少なくとも1つの値に基づいて複数の出力信号を出力することにより複数の顔表情係数を予測するステップと、前記複数の顔表情係数に基づいて予め指定されたアバターの表情を実現するステップと、を含み、前記複数の出力信号に含まれる少なくとも2つ以上の出力信号は、前記複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係(relationship)を反映して生成されることを特徴とする音声信号処理方法を提供することができる。
【0008】
複数の顔表情係数は、前記アバターの頬に対応する少なくとも1つの顔表情係数、アバターの顎に対応する少なくとも1つの顔表情係数、またはアバターの口に対応する少なくとも1つの表情係数を含むことができる。
【0009】
複数の顔表情係数は、前記複数の出力信号に基づいてアップサンプリング動作を実行することによって取得され、前記アップサンプリング(upsampling)動作は、前記神経網の出力信号のデコンボリューション(deconvolution)動作を含んでもよい。
【0010】
複数の入力信号は、前記チャンク化された音声信号をダウンサンプリングすることによって取得してもよい。
【0011】
神経網は、予め記憶された学習条件に基づいて学習され、前記予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されてもよい。
【0012】
グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値よりも大きい場合、学習条件は第1条件に設定され、前記グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値よりも小さい場合、学習条件は前記第1条件とは異なる第2条件に設定されてもよい。
【発明の効果】
【0013】
本発明の実施形態による音声ベースのアバター顔表情の実現方法および装置は、音声信号を神経網に適用して顔表情係数を予測することによって音声ベースのアバター顔表情をうまく実現することができるという効果がある。
【図面の簡単な説明】
【0014】
本発明の詳細な説明で引用される図面をより十分に理解するために、各図面の詳細な説明を提供する。
【
図1】本発明の実施形態による音声ベースのアバター顔表情の実現装置を示すブロック図である。
【
図2】本発明の実施形態による音声信号のチャンク化動作を説明するためのブロック図である。
【
図3】
図1に示すプロセッサによって実行される神経網構造を示すブロック図である。
【
図4】
図3に示す神経網の動作を説明するための概念図である。
【
図5】
図3に示すダウンサンプリングモジュールに含まれる重み、神経網に含まれる重み、およびアップサンプリングモジュールに含まれる重みを更新するために、損失関数のパラメーター変化による顔表情係数を示すグラフである。
【
図6】本発明の実施形態による音声ベースのアバター顔表情の実現方法を示すフローチャートである。
【
図7】本発明の実施形態による音声に従って実現される3Dアバター画像を示す図である。
【発明を実施するための形態】
【0015】
本明細書に開示されている本発明の概念による実施形態に対する特定の構造的または機能的説明は、単に本発明の概念による実施形態を説明するための目的で例示されたものであり、本発明の概念による実施形態は様々な形態で実施することができ、本明細書に記載の実施形態に限定されない。
【0016】
本発明の概念による実施形態は様々な変更を加えることができ、様々な形態を有することができるので、実施形態を図面に示し、本明細書で詳細に説明する。しかし、これは、本発明の概念による実施形態を特定の開示形態に限定することを意図するものではなく、本発明の精神および技術の範囲に含まれるすべての変更、均等物、または取替物を含む。
【0017】
第1または第2などの用語は様々な構成要素を説明するために使用することができるが、前記構成要素は前記用語によって限定されるべきではない。前記用語は、ある構成要素を他の構成要素から区別する目的でのみ、例えば本発明の概念による権利範囲から逸脱することなく、第1構成要素を第2構成要素と命名することができ、同様に第2構成要素を第1構成要素とも命名することができる。
【0018】
本明細書で使用される用語は、単に特定の実施形態を説明するために使用されたものであり、本発明を限定することを意図していない。単数の表現は、文脈上明らかに他に意味がない限り、複数の表現を含む。本明細書では、「含む」または「有する」などの用語は、説明された特徴、数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものが存在することを指定するものであり、1つまたはそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、またはそれらを組み合わせたものなどの存在または付加の可能性を事前に除外しないことを理解されるべきである。
【0019】
別段の定義がない限り、技術的または科学的用語を含む本明細書で使用されるすべての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるのと同じ意味を表す。一般的に使用される事前に定義されているような用語は、関連技術の文脈上の意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に定義しない限り、理想的または過度に形式的な意味と解釈されるべきではない。図面における処理フローチャートの各ブロックとフローチャートの組み合わせは、コンピュータプログラム命令によって実行することができる。これらコンピュータプログラム命令は、汎用コンピュータ、特殊用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに実装することができるので、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令はフローチャートブロックに記載されている機能を実行する手段を生成する。これらコンピュータプログラム命令は、特定の方法で機能を実施するためにコンピュータまたは他のプログラム可能なデータ処理装置を指向できるコンピュータ利用可能またはコンピュータ読み取り可能メモリーに記憶されることも可能なので、そのコンピュータ利用可能またはコンピュータ読み取り可能メモリーに記憶された命令は、フローチャートブロックに記載されている機能を実行する命令手段を含む製造品目を製造することも可能であり得る。コンピュータプログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置に実装することも可能であるため、コンピュータまたは他のプログラム可能なデータ処理装置上で一連の動作ステップが実行され、コンピュータで実行されるプロセスを生成してコンピュータまたは他のプログラム可能なデータ処理装置を実行する命令は、フローチャートブロックに記載されている機能を実行するためのステップを提供することも可能である。
【0020】
また、機器で読み取り可能な記憶媒体は、非一時的(non-transitory)記憶媒体の形態で提供することができる。ここで、「非一時的」とは、記憶媒体が有形(tangible)の装置であり、信号(signal)(例えば電磁波)を含まないことを意味するだけであり、この用語は、データが記憶媒体に半永久的に記憶される場合と一時的に記憶される場合を区別しない。
【0021】
また、各ブロックは、特定の論理的機能を実行するための1つ以上の実行可能な命令を含むモジュール、セグメント、またはコードの一部を表すことができる。また、いくつかの取替実行例ではブロックで言及された機能が順序外で発生することも可能であることに留意されたい。例えば、相次いで示されている2つのブロックは実際には実質的に同時に実行されてもよく、またはブロックが時々該当する機能に従って逆順に実行されてもよい。例えば、モジュール、プログラム、または他の構成要素によって実行される動作は、順次、並列的、反復的、またはヒューリスティックに実行されたり、前記動作のうちの1つ以上が異なる順序で実行されたり、省略されたり、または1つ以上の他の動作を追加することができる。
【0022】
本開示で使用される「~部(unit)」という用語は、ソフトウェアまたはフィールドプログラマブルゲートアレイ(Field Programmable Gate Array,FPGA)または特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)などのハードウェア構成要素を意味する。「~部」は特定の役割を果たしているが、ソフトウェアまたはハードウェアに限定される意味ではない。「~部」はアドレッシングできる記憶媒体にあるように構成されてもよく、または1つ以上のプロセッサを再生するように構成されてもよい。したがって、一部の実施形態によれば、「~部」はソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素、およびタスク構成要素などの構成要素と、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、および変数を含む。構成要素と「~部」で提供される機能は、より少ない数の構成要素および「~部」に組み合わせたり追加的な構成要素と「~部」にさらに分離したりすることができる。さらに、構成要素および「~部」は、デバイスまたはセキュリティーマルチメディアカード内の1つまたは1つ以上のCPUを再生させるように実現され得る。また、本開示の様々な実施形態によれば、「~部」という1つ以上のプロセッサを含むことができる。
【0023】
以下、添付の図面を参照して本発明の好ましい実施形態を説明することによって、本発明を詳細に説明する。
【0024】
図1は、本発明の実施形態による音声ベースのアバター顔表情の実現装置のブロック図を示す。
【0025】
図1を参照すると、音声ベースのアバター顔表情の実現装置10はコンピューティング装置である。コンピューティング装置は、ノートブック、サーバー、スマートフォン、またはタブレットPCなどの電子装置を意味する。
【0026】
音声ベースのアバター顔表情の実現装置10はプロセッサ11とメモリー13とを含む。また、
図1には示されていないが、音声ベースのアバター顔表情の実現装置10は電子装置に含まれる一般的な電子的構成(例えば通信回路)をさらに含むことができる。
【0027】
プロセッサ11は、少なくとも一部がそれぞれ異なる機能を提供するように実現される少なくとも1つのプロセッサを含むことができる。例えば、ソフトウェア(例えば、プログラム)を実行してプロセッサ11に接続された電子装置の少なくとも1つの他の構成要素(例えば、ハードウェアまたはソフトウェア構成要素)を制御することができ、様々なデータ処理または演算を実行できる。一実施形態によれば、データ処理または演算の少なくとも一部として、プロセッサ11は他の構成要素から受信した命令またはデータをメモリー13(例えば、揮発性メモリー)に記憶し、揮発性メモリーに記憶された命令またはデータを処理し、結果データを不揮発性メモリーに記憶することができる。一実施形態によれば、プロセッサ11は、メインプロセッサ(例えば、中央処理装置またはアプリケーションプロセッサ)またはそれとは独立的または共に運営可能な補助プロセッサ(例えば、グラフィック処理装置、神経網処理装置(NPU:neural processing unit)、画像信号プロセッサ、センサーハブプロセッサ、またはコミュニケーションプロセッサ)を含むことができる。例えば、電子装置がメインプロセッサおよび補助プロセッサを含む場合、補助プロセッサはメインプロセッサよりも低電力を使用するか、または指定された機能に特化するように設定され得る。補助プロセッサは、メインプロセッサとは別に、またはその一部として実現することができる。補助プロセッサは、例えば、メインプロセッサがインアクティブ(例えば、スリップ)状態にある間、メインプロセッサに代わって、またはメインプロセッサがアクティブ(例えば、アプリケーション実行)状態にある間、メインプロセッサと共に電子装置の構成要素のうちの少なくとも1つの構成要素(例えば、通信回路)に関連する機能または状態の少なくとも一部を制御することができる。一実施形態によれば、補助プロセッサ(例えば、画像信号プロセッサまたはコミュニケーションプロセッサ)は、機能的に関連する他の構成要素(例えば、通信回路)の一部として実現することができる。一実施形態によれば、補助プロセッサ(例えば、神経網処理装置)は、人工知能モデルの処理に特化したハードウェア構造を含むことができる。人工知能モデルは機械学習を通じて生成することができる。このような学習は、例えば、人工知能モデルが実行される電子装置自体で実行されてもよく、別途のサーバーを介して実行されてもよい。学習アルゴリズムは、例えば、教師あり学習(supervised learning)、教師なし学習(unsupervised learning)、半教師あり学習(semi-supervised learning)、または強化学習(reinforcement learning)を含むことができるが、上記の例に限定されない。人工知能モデルは、複数の人工神経網レイヤーを含むことができる。人工神経網は深層神経網(DNN:deep neural network)、CNN(convolutional neural network)、RNN(recurrent neural network)、RBM(restricted boltzmann machine)、DBN(deep belief network)、BRDNN(bidirectional recurrent deep neural network)、深層Qネットワーク(deep Q-networks)、または上記のうち2つ以上の組み合わせのうちの1つであり得るが、上記の例に限定されない。人工知能モデルはハードウェア構造に加えて、追加的または代替的にソフトウェア構造を含むことができる。一方、以下に説明する電子装置(またはコンピューティング装置)の動作は、プロセッサ11の動作と理解することができる。本開示では、プロセッサの機能に基づいて複数のユニット(例えば「~部」)で区別して表現したが、これは説明の便宜のためのものであり、各ユニットが必ずしも別々のハードウェアで実現されるわけではない。すなわち、プロセッサに含まれる複数のユニットは、互いに別々のハードウェアに実現されてもよいが、1つのハードウェアに実現されてもよい。
【0028】
また、メモリー13は、電子装置の少なくとも1つの構成要素(例えば、プロセッサ11によって出力される様々なデータを記憶することができる。データは、例えば、ソフトウェア(例えば、プログラム)およびそれに関連した命令に対する入力データまたは出力データを含むことができる。メモリー13は、揮発性メモリーまたは不揮発性メモリーを含むことができる。メモリー13は、オペレーティングシステム、ミドルウェアまたはアプリケーション、および/または上記の人工知能モデルを記憶するように実現することができる。
【0029】
また、通信回路は、電子装置と外部電子装置(例えば、ユーザーデバイス)との間の直接(例えば有線)通信チャネルまたは無線通信チャネルの確立、および確立された通信チャネルを介した通信の実行をサポートすることができる。
【0030】
プロセッサ11は、音声ベースのアバター顔表情を実現するための命令を実行する。
【0031】
メモリー13は、前記プロセッサ11によって実行される命令を記憶する。
【0032】
以下、音声ベースのアバター顔表情を実現するための動作はプロセッサ11によって実行されることが理解されるべきである。
【0033】
図2は、本発明の実施形態による音声信号のチャンク化動作を説明するためのブロック図を示す。
【0034】
図1および
図2を参照すると、コンピューティング装置10は、使用者15と対応するアバター顔表情を音声信号17に基づいて実現するために、使用者15の音声信号17を受信する。
【0035】
音声信号17において、X軸は時間を表し、Y軸は信号の振幅を表す。信号の振幅は、1秒あたり16000回のサンプルレート(sample rate)で発生する振幅である。
【0036】
プロセッサ11は、音声信号17を複数のチャンク(chunks;19-1~19-N;Nは自然数)に分割する。プロセッサ11は、音声信号17を一定の時間間隔(例えば10秒)に分割してチャンク化された音声信号19を生成する。
【0037】
図2では、複数のチャンク19-1~19-Nの内部がグラフで示されているが、実際には振幅の値と表される。前記振幅の値は16ビット範囲内の値を有する。すなわち、前記振幅の値は-32,768~+32,767の間の値を有する。
【0038】
図面符号「S」は、チャンク化された音声信号19の総時間長を示す。
【0039】
図3は、
図1に示すプロセッサによって実行される神経網構造のブロック図を示す。
【0040】
図1~
図3を参照すると、プロセッサ11は受信した音声信号を前処理して神経網入力信号40を生成することができる。具体的に、プロセッサ11は、神経網入力信号40を生成するためにチャンク化された音声信号19をダウンサンプリング(downsampling)することができる。
【0041】
ダウンサンプリングはダウンサンプリングモジュール30によって実行される。
【0042】
プロセッサ11は、チャンク化された音声信号19をダウンサンプリングモジュール30に適用して神経網入力信号40を出力する。
【0043】
チャンク化された音声信号19は複数のチャンク19-1~19-Nを含む。
【0044】
ダウンサンプリングモジュール30は複数のダウンサンプリングレイヤー(downsampling layers;図示せず)を含む。複数のダウンサンプリングレイヤーはコンボリューション(convolution)レイヤーである。例えば、ダウンサンプリングモジュール30は7個のコンボリューションレイヤーを含むことができる。コンボリューションレイヤーで1Dコンボリューション動作が実行される。前記コンボリューションレイヤーのそれぞれは複数のカーネル(kernels)を含むことができる。例えば、前記コンボリューションレイヤーのそれぞれに含まれる複数のカーネルの数は512個であり得る。
【0045】
音声時間軸に移動するカーネルの間隔(stride)を1より大きく設定して神経網入力信号40の総時間長S’はチャンク化された音声信号19の総時間長Sより短く生成させる。
【0046】
神経網入力信号40の総時間長S’はチャンク化された音声信号19の総時間長Sより短い。例えば、チャンク化された音声信号19の総時間長Sが160,000秒であると仮定すると、神経網入力信号40の総時間長S’は499秒である。
【0047】
1Dコンボリューション動作が実行される過程で複数のカーネルが使用されたので、神経網入力信号40は複数のディメンション(dimensions,D)を含む。例えば、神経網入力信号40は512個のディメンションを含むことができる。すなわち、神経網入力信号40のティメンジョンDは512である。前記ディメンションは1Dコンボリューション動作で使用されるチャネル数を意味する。
【0048】
神経網入力信号40は、それぞれが総時間長S’が499秒である複数の入力信号(IS-1,IS-2,...,およびIS-K;Kは自然数)を含む。神経網入力信号40はティメンジョンDが512であるとき、前記Kは512であり得る。
【0049】
複数の入力信号(IS-1,IS-2,...,およびIS-K)それぞれのチャンク(40-1~40-N;Nは自然数)の数(N個)はチャンク化された音声信号19のチャンク19-1~19-Nの数(N個)に等しい。ここで、チャンクは、使用者15の特定の時間に対する音声信号17の振幅情報を含む。
【0050】
プロセッサ11は、前記ダウンサンプリングされた音声信号40の特徴抽出を向上(enhance)させるために、神経網入力信号40を神経網50に適用して神経網出力信号60を生成する。
【0051】
神経網50はトランスフォーマーモデル(transformer model)を含むことができるが、これに限定されない。
【0052】
トランスフォーマーモデル(transformer model)は、自然言語処理(Nautral language processing)で主に使用されるディープラーニング(deep learning)モデルである。トランスフォーマーモデルは広く知られているディープラーニングモデルであるため、これに対する具体的な内部構造は省略する。
【0053】
プロセッサ11は、神経網50に含まれる少なくとも1つのレイヤーによって、複数の入力信号40に基づいて複数の入力信号のうちの少なくとも2つ以上の入力信号の間の関係(relationship)を反映する少なくとも1つの値を演算することができる。具体的に、プロセッサ11は、チャンク化された時系列データで実現される入力信号に基づいて複数のチャンク間の関係(または関連性)を演算することによって、入力信号間の関係を反映する出力信号を取得することができる。
【0054】
この場合、プロセッサ11は、神経網50に含まれる出力レイヤーによって、入力信号間の関係を反映する少なくとも1つの値に基づいて複数の出力信号を出力することができる。このとき、前記複数の出力信号に含まれる少なくとも2つ以上の出力信号は、前記複数の入力信号のうちの少なくとも2つ以上の入力信号間の関係(relationship)を反映して生成されてもよい。
【0055】
また、プロセッサ11は、複数の出力信号に基づいて複数の顔表情係数を予測することができる。
【0056】
図4は、
図3に示す神経網の動作を説明するための概念図を示す。
【0057】
図4は、神経網の動作を説明するための概念図であり、実際の神経網における演算は数字で計算される。
【0058】
図4に示す入力信号IS-1と出力信号OS-1は
図3に示す入力信号IS-1~IS-Kのいずれかであり、
図3に示す出力信号OS-1~OS-Kのいずれかである。
【0059】
図1~
図4を参照すると、入力信号IS-1が神経網50に適用される。
【0060】
入力信号IS-1は複数のチャンク40-1~40-9を含む。
【0061】
出力信号OS-1は複数のチャンク60-1~60-9を含む。
【0062】
図4では、説明の便宜上、入力信号IS-1と出力信号OS-1のチャンクの数が9個であることが示されているが、実施形態によってチャンクの数は変わり得る。
【0063】
図4では、神経網50の初期重み(weights)は大容量音声データに対して事前学習された(pre-trained)重みで初期化する。
【0064】
図4では、第2チャンク40-2が神経網50に適用されるときの神経網50の動作について説明する。
【0065】
第2チャンク40-2はクエリベクトル(query vector)である。
【0066】
残りのチャンク40-1,40-3~40-9はキーベクトル(key vectors)である。残りのチャンク40-1,40-3~40-9は第2チャンク40-2と関連している。
【0067】
バリューベクトル(value vector)は、実際の音声信号15の特徴を表す振幅の値である。
【0068】
第2チャンク40-2であるクエリベクトルと第1チャンク40-1であるキーベクトルとのドットプロダクト(dot product)が実行される。第2チャンク40-2であるクエリベクトルと第3チャンク40-3であるキーベクトルとのドットプロダクト(dot product)が実行される。第2チャンク40-2であるクエリベクトルと第4チャンク40-4であるキーベクトルとのドットプロダクト(dot product)が実行される。同様に、残りのチャンク40-5~40-9でもドットプロダクトが実行される。
【0069】
ドットプロダクトが実行されると、スコアが生成される。スコアはクエリベクトルとキーベクトルがどのくらいよくマッチングするか示す。
【0070】
プロセッサ11は、ドットプロダクトによって生成されたスコアにバリューベクトルを乗算し、乗算値を加算して第2チャンク60-2を生成する。
【0071】
神経網出力信号60である第2チャンク60-2は、音声信号15の特性が神経網入力信号40である第2チャンク40-2よりも音声信号15の関係をさらによく表現する。例えば、第1チャンク40-1で振幅が少し発生すると、第2チャンク40-2では振幅がますます大きくなるか、または小さくなるように表現される。
【0072】
すなわち、神経網50を介して第2チャンク40-2に含まれる音声信号15の振幅が異なるチャンク40-1,40-3~40-9との関係を考慮して第2チャンク60-2が生成される。
【0073】
図4では、第2チャンク60-2は第2チャンク40-2と同様に示されているが、実際には第2チャンク60-2は第2チャンク40-2とは異なる。第2チャンク40-2と第2チャンク60-2は実際には数字と表される。
【0074】
図3を参照すると、神経網50を介して前記ダウンサンプリングされた音声信号40の特徴抽出を向上(enhance)させることができる。
【0075】
神経網出力信号60は、それぞれが総時間長S’が499秒である複数の出力信号(OS-1,OS-2,...,およびOS-K;Kは自然数)を含む。神経網出力信号60はティメンジョンD’が512であるとき、前記Kは512であり得る。
【0076】
プロセッサ11は、複数の顔表情係数を予測するために神経網出力信号60を後処理することができる。具体的に、プロセッサ11は神経網出力信号60をアップサンプリング(upsampling)することができる。
【0077】
アップサンプリングはアップサンプリングモジュール70によって実行される。
【0078】
アップサンプリングモジュール70は、複数のアップサンプリングレイヤー(upsampling layers;図示せず)を含む。複数のアップサンプリングレイヤーはデコンボリューション(deconvolution)レイヤーである。例えば、ダウンサンプリングモジュール30は7個のコンボリューションレイヤーを含むことができる。コンボリューションレイヤーでは1Dデコンボリューション(deconvolution)動作が実行される。前記デコンボリューションレイヤーのそれぞれは複数のカーネル(kernels)を含むことができる。
【0079】
プロセッサ11は、神経網出力信号60をアップサンプリングモジュール70に適用して複数の顔表情係数を出力する。複数の顔表情係数は0または1の間の値を有する。複数の顔表情係数に従って、3Dアバターを構成するメッシュ(meshes)をデフォーム(deform)することができる。したがって、複数の顔表情係数によって3Dアバターの表情が異なる場合がある。複数の顔表情係数は、具体的なアバター顔特徴の動きに関連してアバター顔表情を表す係数を意味する。複数の顔表情係数は、シェイプキー(Shape Keys)、頂点キー(Vertex Keys)、またはモーフィング(Morphing)と呼ばれることができる。このとき、顔表情係数はアバター顔の下部の部分に対応することができる。具体的には、顔表情係数は、アバターの口に対応する少なくとも1つの顔表情係数、アバターの顎に対応する少なくとも1つの顔表情係数、またはアバターの口に対応する少なくとも1つの顔表情係数を含むことができるが、これに限定されない。
【0080】
アップサンプリング出力信号80は、複数のチャンク(80-1~80-M;Mは自然数)を含む。1つのチャンクは10秒の時間長を有する。
【0081】
顔表情係数は、1秒あたり60個を生成することができる。顔表情係数が1秒あたり60個を生成すると仮定すると、1つのチャンク80-1には600個の顔表情係数が含まれ得る。
【0082】
アップサンプリング出力信号80の総時間長Tは600秒であり得る。すなわち、1つのチャンクの時間長が10秒であるので、チャンクの数は60個であり得る。
【0083】
アップサンプリング出力信号80の総時間長Tは、神経網出力信号60の総時間長S’よりも長い。例えば、神経網出力信号80の総時間長S’が499秒であると仮定すると、アップサンプリング出力信号80の総時間長Tは600秒である。
【0084】
アップサンプリング出力信号80は複数のチャネルRを含む。複数のチャネルRは顔表情係数に対応する。例えば、第1チャネルFE-1は口の形の大きさを表す顔表情係数であり得る。第2チャネルFE-2はアバター顔のうち顎開きを示す顔表情係数であり得る。複数のチャネルRの数は31個であり得る。31個はアバター顔の下部の顔表情係数である。顔の下部とは、アバター顔の頬、顎、または口を意味する。
【0085】
神経網出力信号60の総時間長S’と顔表情係数の総長は異なる。しかしながら、アップサンプリング動作により、神経網出力信号60の総時間長S’とアップサンプリング出力信号80の総時間長Tとをマッチングさせることができる。
【0086】
プロセッサ11は、予め記憶された学習条件に基づいて神経網50を含む音声信号処理エンジンを学習することができる。具体的に、プロセッサ11は、予め記憶された学習条件に基づいてダウンサンプリングモジュール30に対応する少なくとも1つの重み、アップサンプリングモジュール70に対応する少なくとも1つの重み、および神経網50に対応する少なくとも1つの重みを調整することができる。
【0087】
このとき、予め記憶された学習条件は、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差に基づいて設定されてもよい。具体的には、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が任意の閾値より大きい場合、学習条件は第1条件に設定することができる。また、グラウンドトゥルースの平均顔表情係数の値と任意のグラウンドトゥルースの顔表情係数の値との差の絶対値が前記任意の閾値より小さい場合、学習条件は前記第1条件と異なる第2条件に設定することができる。上述した学習条件に対する具体的な内容は
図5を用いて説明する。
【0088】
ダウンサンプリングモジュール30に含まれる重み、神経網50に含まれる重み、およびアップサンプリングモジュール70に含まれる重みを訓練させるために、損失関数は以下のように定義され得る。
【0089】
【0090】
前記lossnは損失関数の値を、前記ynはn番目のグラウンドトゥルース(ground truth)の顔表情係数値を、前記y’nはn番目の予測された顔表情係数値を、前記アルファは定数を表す。
【0091】
【0092】
プロセッサ11は、前記グラウンドトゥルースを生成するために使用者15の音声信号17とマッチングする顔表情係数値を生成する。このとき、顔表情係数値はアバター顔の下部の顔表情係数である。
【0093】
プロセッサ11は、生成された顔表情係数値のうちの任意の数(例えば、100個)、任意の時間(例えば、600秒)、およびチャネル数(例えば、31個)を抽出してグラウンドトゥルースを生成する。
【0094】
すなわち、グラウンドトゥルースは31個のチャネルと600秒を備え、各チャネルあたりのデータは100個を備える。
【0095】
アップサンプリング出力信号80は31個のチャネルと600秒を備える。すなわち、グラウンドトゥルースとアップサンプリング出力信号80は互いに対応する。
【0096】
グラウンドトゥルースのチャネル値は正規化(normalization)を実行して-1.0から1.0の間の値を備えるようにする。
【0097】
図5は、
図3に示すダウンサンプリングモジュールに含まれる重み、神経網に含まれる重み、およびアップサンプリングモジュールに含まれる重みを更新するために、損失関数のパラメーター変化による顔表情係数のグラフを示す。
図5の(a)は、損失関数のパラメーターであるアルファ値が0.1の場合、顔表情係数のグラフを示す。
図5の(b)は、損失関数のパラメーターであるアルファ値が1.0の場合、顔表情係数のグラフを示す。
図5の(c)は、損失関数のパラメーターであるアルファ値が10の場合、顔表情係数のグラフを示す。
図5の(a)~
図5の(c)に示すグラフにおいて、X軸は時間を表し、Y軸は顔表情係数の値を表す。
【0098】
図5の(a)~
図5の(c)に示すグラフにおいて、「pred」は、ダウンサンプリングモジュール30、神経網50、およびアップサンプリングモジュール70を介して出力される顔表情係数を表し、「true」は、グラウンドトゥルース(ground truth)の顔表情係数を表す。
【0099】
X軸の時間単位は1/60秒である。したがって、X軸の600は10秒を意味する。顔表情係数の値は0から1の間の値を備える。
【0100】
図3を参照すると、アップサンプリング出力信号80に含まれる1つのチャンク(例えば、80-1)は10秒の時間長を有する。
図5の(a)、
図5の(b)、または
図5の(c)に示すグラフは、アップサンプリング出力信号80に含まれるチャンク80-1、80-2、または80-3に対応する。
図5の(a)~
図5の(c)に示すグラフでは、グラウンドトゥルースの顔表情係数(「true」グラフ)は同じである。したがって、
図5の(a)~
図5の(c)に示すグラフは、アップサンプリング出力信号80に含まれるチャンク80-1に対応すると仮定することができる。
【0101】
図5の(a)を参照すると、損失関数のアルファ値が0.1の場合、点P1、P2でグラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は大きい。損失関数のアルファ値が0.1の場合、プロセッサ11は点P1、P2でノイズを判断して顔表情係数の値を除外するためである。前記アルファ値は上記式(1)におけるアルファ値を意味する。
【0102】
点P1、P2でグラウンドトゥルースの顔表情係数の値(例えば、0.3、0.1)はグラウンドトゥルースの平均顔表情係数の値(例えば、0.2)より比較的大きかったり、小さかったりする。点P1でグラウンドトゥルースの顔表情係数の値(例えば、0.3)はグラウンドトゥルースの平均顔表情係数の値(例えば、0.2)より比較的大きい。点P2でグラウンドトゥルースの顔表情係数の値(例えば、0.1)はグラウンドトゥルースの平均顔表情係数の値(例えば、0.2)より比較的小さい。
【0103】
一方、点P3でグラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は殆どない。点P3でグラウンドトゥルースの顔表情係数の値(例えば、0.2)はグラウンドトゥルースの平均顔表情係数の値(例えば、0.2)とほぼ同じである。グラウンドトゥルースの平均顔表情係数の値(例えば、0.2)はグラウンドトゥルースの顔表情係数の値の平均によって計算することができる。
【0104】
すなわち、損失関数のアルファ値が0.1の場合、グラウンドトゥルースの顔表情係数の値がグラウンドトゥルースの平均顔表情係数の値と似ているほど、グラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は殆どない。
【0105】
他方、グラウンドトゥルースの顔表情係数の値がグラウンドトゥルースの平均顔表情係数の値から離れるほど、グラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は大きくなる。
【0106】
損失関数のアルファ値が0.1の場合、点P1、P2において顔表情係数の値がよく予測されない。
【0107】
しかし、大きな値を有する顔表情係数をよく予測することが重要である。顔表情係数が大きな値を有するほど、アバターでは顔表情がもっと大きく変形する。したがって、アバター顔表情の違いをより明確にするためには、大きな値を有する顔表情係数をよく予測する必要がある。
【0108】
図5の(b)を参照すると、損失関数のアルファ値が1.0の場合、予測された顔表情係数は損失関数のアルファ値が0.1の場合(
図5の(a)の場合)と大きな差はない。
【0109】
点P1、P2において、グラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は大きい。点P3において、グラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は殆どない。
【0110】
図5の(c)を参照すると、損失関数のアルファ値が10の場合、点P1、P2におけるグラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は、
図5の(a)とは別に大きくない。損失関数のアルファ値が10の場合、プロセッサ11は点P1、P2で顔表情係数の値をノイズを判断しないからである。
【0111】
一方、点P3におけるグラウンドトゥルースの顔表情係数(「true」グラフ)と予測された顔表情係数(「pred」グラフ)との差は、
図5の(a)とは異なる。
【0112】
図5の(a)と
図5の(b)のように損失関数のアルファ値が小さい場合、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値(P3地点)はよく予測される。一方、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値(P1,P2地点)はよく予測されない。
【0113】
図5の(c)のように損失関数のアルファ値が大きい場合、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値(P3地点)はよく予測されない。一方、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値(P1,P2地点)はよく予測される。
【0114】
プロセッサ11は、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値(P1,P2地点)をよく予測するためにアルファ値を大きくし、ダウンサンプリングモジュール30に含まれる重み、神経網50に含まれる重み、およびアップサンプリングモジュール70に含まれる重みを訓練させる。
【0115】
また、プロセッサ11は、グラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値(P3地点)をよく予測するためにアルファ値を小さくし、ダウンサンプリングモジュール30に含まれる重み、神経網50に含まれる重み、およびアップサンプリングモジュール70に含まれる重みを訓練させる。
【0116】
すなわち、プロセッサ11は、グラウンドトゥルースの平均顔表情係数の値を計算する。グラウンドトゥルースは、使用者15の音声信号17とマッチングする顔表情係数値を意味する。
【0117】
プロセッサ11は、グラウンドトゥルースの平均顔表情係数の値とアップサンプリング出力信号90のチャネル値との絶対差値を計算する。
【0118】
前記絶対値が任意の閾値より大きい場合、プロセッサ11は損失関数のアルファ値を第1値に設定する。前記第1値は第1任意の値(例えば、5)以上である。例えば、前記任意の閾値は0.1であり得る。前記第1値は10であり得る。前記第1値は第1任意の値(例えば、5)以上、且つ第2任意の値(例えば、20)以下の範囲を有する。前記第2任意の値は前記第1任意の値よりも大きい。
【0119】
前記絶対値が任意の閾値より小さい場合、プロセッサ11は損失関数のアルファ値を第2値に設定する。前記第2値は前記第1任意の値(例えば、5)未満である。例えば、前記任意の閾値は0.1であり得る。前記第2値は0.1であり得る。前記第2値は0以上、且つ前記第1任意の値(例えば、5)未満の範囲を有する。
【0120】
実施形態によれば、プロセッサ11は、前記第1任意の値、前記第2任意の値、前記第1値、または前記第2値を異なるように設定することができる。
【0121】
本発明のようにグラウンドトゥルースの平均顔表情係数の値とアップサンプリング出力信号80のチャネル値との差に応じてアルファ値を異なるように設定することによって、グラウンドトゥルースの平均顔表情係数の値と差が大きいグラウンドトゥルースの顔表情係数の値(P1,P2地点)とグラウンドトゥルースの平均顔表情係数の値と同様のグラウンドトゥルースの顔表情係数の値(P3地点)をよく予測することができる。
【0122】
実施形態によれば、プロセッサ11は、前記損失関数についてのエポック(epoches)の数字をカウンティングする。前記損失関数についてのエポック(epoches)の数字が任意の回数(例えば、20)以上である場合、プロセッサ11は、前記損失関数に対するアルファを前記第2値に設定することができる。前記損失関数についてのエポック(epoches)の数字が任意の回数(例えば、20)以上である場合、前記損失関数の誤差の偏差は大きくないからである。実施形態によれば、プロセッサ11は、前記任意の回数(例えば、20)を異なるように設定することができる。
【0123】
図6は、本発明の実施形態による音声ベースのアバター顔表情の実現方法のフローチャートを示す。
【0124】
図1~
図6を参照すると、プロセッサ11は音声信号17を複数のチャンク19-1~19-Nに分割する(S10)。
【0125】
プロセッサ11は、神経網入力信号40を生成するためにチャンク化された音声信号19をダウンサンプリングする(S20)。
【0126】
プロセッサ11は、前記ダウンサンプリングされた音声信号40の特徴抽出を向上(enhance)させるために、神経網入力信号40を神経網50に適用して神経網出力信号60を生成する。神経網入力信号40と前記ダウンサンプリングされた音声信号40は同じ信号である(S30)。
【0127】
プロセッサ11は、複数の顔表情係数を予測するために神経網出力信号60をアップサンプリングする(S40)。前記複数の顔表情係数はアップサンプリング出力信号80に含まれる。
【0128】
プロセッサ11は、前記予測された複数の顔表情係数に従ってアバター顔の表情を実現する(S50)。
【0129】
図7は、本発明の実施形態による音声に従って実現される3Dアバター画像を示す。
図7の(a)~
図7の(d)は、時間に応じてそれぞれ異なる表情が実現されたアバターの画像を示す。
【0130】
図1、
図2、および
図7を参照すると、プロセッサ11は、前記予測された複数の顔表情係数に従ってアバター顔の表情を実現する。
【0131】
アバターは3Dで実現することができる。アバターの参照(reference)画像はカメラ(図示せず)によって予め撮影された使用者15であり得る。
【0132】
本発明は、図面に示された一実施形態を参照して説明されたが、これは例示的なものに過ぎず、本技術分野の通常の知識を有する者であれば、これから様々な変形および均等な他の実施形態が可能であることを理解すべきである。したがって、本発明の真の技術的保護範囲は、添付の登録請求範囲の技術的思想によって定められるべきである。
【符号の説明】
【0133】
10 音声ベースのアバター顔表情の実現装置
11 プロセッサ
13 メモリー
30 ダウンサンプリングモジュール
50 神経網
70 アップサンプリングモジュール
【外国語明細書】