IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッドの特許一覧

特表2022-531855テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
<>
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図1
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図2
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図3
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図4
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図5
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図6
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図7
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図8
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図9
  • 特表-テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-12
(54)【発明の名称】テキストに基づくアバターの行動制御方法、デバイス及びコンピュータプログラム
(51)【国際特許分類】
   G06F 16/9035 20190101AFI20220705BHJP
   G06F 16/28 20190101ALI20220705BHJP
【FI】
G06F16/9035
G06F16/28
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021564427
(86)(22)【出願日】2020-09-03
(85)【翻訳文提出日】2021-11-04
(86)【国際出願番号】 CN2020113147
(87)【国際公開番号】W WO2021057424
(87)【国際公開日】2021-04-01
(31)【優先権主張番号】201910898521.6
(32)【優先日】2019-09-23
(33)【優先権主張国・地域又は機関】CN
(81)【指定国・地域】
(71)【出願人】
【識別番号】514187420
【氏名又は名称】テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【弁理士】
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】シエ,ジン
(72)【発明者】
【氏名】リ,ピジ
(72)【発明者】
【氏名】ドアン,ホォン
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175GA04
5B175HA01
5B175KA12
(57)【要約】
本開示は、テキストに基づくアバターの行動制御方法、デバイス及び媒体を開示する。前記方法は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップと、前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップと、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む。
【特許請求の範囲】
【請求項1】
電子デバイスによって実行される、テキストに基づくアバターの行動制御方法であって、
テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものであるステップと、
前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものであるステップと、
前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、
前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含む方法。
【請求項2】
前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するネットワークノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得するステップと、
前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップと、を含む請求項1に記載の方法。
【請求項3】
前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力し、
前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定する前記ステップは、
前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力するステップと、
前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定するステップと、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップと、を含む請求項1又は2に記載の方法。
【請求項4】
前記特定の行動マッピングは、行動マッピングテーブルを含み、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記特定の行動マッピングは、前記アバターの適用場面によって異なる、請求項3に記載の方法。
【請求項6】
前記第1の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す、請求項3に記載の方法。
【請求項7】
前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する前記ステップは、
前記行動予測ベクトルのうちの最大の確率値を決定するステップと、
前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含む請求項6に記載の方法。
【請求項8】
前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力するステップと、
前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力するステップと、
前記第2の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定するステップと、をさらに含み、
少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する前記ステップは、
前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む、請求項3に記載の方法。
【請求項9】
前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含む、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記行動内容が動作内容と表情内容の両方を含む場合、前記第1の符号化ネットワークは、第3の符号化サブネットワークと第4の符号化サブネットワークとを含み、
前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する前記ステップは、
前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、
前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む請求項9に記載の方法。
【請求項11】
前記行動内容を提示するように前記アバターを制御する前記ステップは、
前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む、請求項1から10のいずれか一項に記載の方法。
【請求項12】
前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも1つを含む、請求項11に記載の方法。
【請求項13】
テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、前記ベクトル化装置と、
前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、前記行動トリガー位置決定装置と、
前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、
前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するようにアバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイス。
【請求項14】
プロセッサと、
前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、請求項1から12のいずれか一項に記載の方法を実行する、コンピュータデバイス。
【請求項15】
コンピュータプログラムであって、前記コンピュータプログラムがプロセッサによって実行されると、前記プロセッサは、請求項1から12のいずれか一項に記載の方法を実行する、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年9月23日に「テキストに基づくアバターの行動制御方法、デバイス及び媒体」との発明の名称で中国特許庁に提出された中国特許出願第201910898521.6号の優先権を主張し、その全ての内容は参照により本出願に援用される。
【0002】
[技術分野]
本開示は、人工知能の技術分野に関し、より具体的には、テキストに基づくアバターの行動制御方法、デバイス及び媒体に関する。
【背景技術】
【0003】
人工知能(Artificial Intelligence、AI)の様々な方向での様々な機能の開発に伴い、実際の場面では、もはや単一のAI機能だけの適用に満足できなくなっている。このため、AIの包括的な機能を発揮する適用場面への検討も進められている。近年、AIの包括的な機能の表現形式として、アバターが大きな話題を呼んでいる。アバターとは、コンピュータ技術を用いて人体構造をデジタル化することにより、コンピュータの画面に表示される可視的で制御可能なアバター形態を指す。アバターは、実在の人に基づくキャラクターであってもよく、漫画のキャラクターに基づくキャラクターであってもよい。学界及び産業界の両方で、様々な方法を使用して、人々にサービスや娯楽を24時間提供することができるアバターを作る試みが行われている。
【発明の概要】
【0004】
本出願の実施形態は、実在の人によって駆動されることなく、テキストに適応し、かつ実在の人に似た表情や動作をするようにアバターを制御することが可能なテキストに基づくアバターの行動制御方法、デバイス及び媒体を提供する。
【0005】
本開示の一態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するステップであって、前記特定のシンボルは、テキストの分類を表すものである、ステップと、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップであって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、ステップと、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップと、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するステップと、を含むテキストに基づくアバターの行動制御方法を提供する。
【0006】
本開示の別の態様によると、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するためのベクトル化装置であって、前記特定のシンボルは、テキストの分類を表すものである、ベクトル化装置と、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するための行動トリガー位置決定装置であって、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである、行動トリガー位置決定装置と、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するための行動内容決定装置と、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御するための行動提示装置と、を含むテキストに基づくアバターの行動制御デバイスを提供する。
【0007】
また、本開示によるデバイスにおいて、前記行動トリガー位置決定装置は、さらに、前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。
【0008】
また、本開示によるデバイスにおいて、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。前記行動内容決定装置は、さらに、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力する処理と、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。
【0009】
また、本開示によるデバイスにおいて、前記特定の行動マッピングは、行動マッピングテーブルを含み、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理は、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定する処理をさらに含む。
【0010】
また、本開示によるデバイスにおいて、前記特定の行動マッピングは、前記アバターの適用場面によって異なる。
【0011】
また、本開示によるデバイスにおいて、前記第1の分類ネットワークの出力は、行動予測ベクトルであり、前記行動予測ベクトルの次元は、行動カテゴリの数と同じであり、前記行動予測ベクトルの各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。
【0012】
また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。
【0013】
また、本開示によるデバイスにおいて、前記行動内容決定装置は、さらに、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する処理と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する処理と、前記第2の分類ネットワークの出力に基づいて、前記テキストに対応する感情カテゴリを決定する処理とを実行するように配置される。前記行動内容決定装置は、さらに、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行することによって、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するように配置される。
【0014】
また、本開示によるデバイスにおいて、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含む。
【0015】
また、本開示によるデバイスにおいて、前記行動内容が動作内容及び表情内容の両方を含む場合、前記第1の符号化ネットワークは、第3の符号化サブネットワークと第4の符号化サブネットワークとを含む。前記行動トリガー位置決定装置は、さらに、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定する処理と、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定する処理とを実行するように配置される。
【0016】
また、本開示によるデバイスにおいて、前記行動提示装置は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置される。
【0017】
また、本開示によるデバイスにおいて、前記行動変化パラメーターは、行動出現時間、行動終了時間及び行動変化係数のうちの少なくとも1つを含む。
【0018】
本開示のまた別の態様によると、
プロセッサと、
前記プロセッサに接続されたメモリとを含み、前記メモリには、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータデバイスを開示する。
【0019】
本開示のさらに別の態様によると、機械可読命令が格納され、前記機械可読命令がプロセッサによって実行されると、前記プロセッサは、上記の方法を実行するコンピュータ読み取り可能な記憶媒体を開示する。
【図面の簡単な説明】
【0020】
図1】本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスを示すフローチャートである。
図2】本出願のいくつかの実施形態に記載される第1の符号化ネットワークの内部構造の模式図である。
図3】本出願のいくつかの実施形態におけるアテンションメカニズムの模式図である。
図4】本出願のいくつかの実施形態における第1の符号化ネットワーク及び第1の分類ネットワークの入出力を示す模式図である。
図5図1におけるS103の具体的なプロセスを示すフローチャートである。
図6】本開示の一実施形態によるアバターの行動制御を示す製品フローチャートである。
図7】本出願のいくつかの実施形態における表情マッピングテーブルの一例を示す。
図8】本開示の一実施形態による行動生成プロセスを示す模式図である。
図9】本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスの構成を示す機能ブロック図である。
図10】本開示の一実施形態による例示的なコンピューティングデバイスのアーキテクチャを示す模式図である。
【発明を実施するための形態】
【0021】
以下、添付の図面を参照して本出願の各実施形態について説明する。添付の図面を参照した以下の説明は、特許請求の範囲及びその等価物によって限定される本出願の例示的な実施形態を理解しやすくするために提供され、理解に役立つ様々な詳細を含むが、あくまでも例示的なものと考えられる。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、本明細書に記載される実施形態に対して様々な変更及び修正を行うことができることを認識するであろう。さらに、本明細書をより明確かつ簡潔にするために、当技術分野でよく知られている機能や構成の詳細な説明を省略する。
【0022】
人工知能(Artificial Intelligence、AI)とは、デジタルコンピュータ又はデジタルコンピュータによって制御されるマシンを使用して、人間の知能のシミュレーション、延長、及び拡張を行い、環境を感知し、知識を獲得して利用し、最適な結果を得るための理論、方法、技術、及び応用システムのことである。人工知能ソフトウェア技術には、主にコンピュータビジョン技術、音声処理技術、自然言語処理技術、機械学習/深層学習などの幾つかの分野が含まれる。
【0023】
機械学習(Machine Learning、ML)は、確率論、統計学、近似理論、凸解析、アルゴリズム複雑性理論などの様々な学問に関わる学際的な学問である。新しい知識やスキルを身につけ、既存の知識構造を再編成して自身の性能を継続的に向上させるために、コンピュータがどのように人間の学習行動をシミュレート又は実現するかを専門に研究している。機械学習は、人工知能の中核をなすものとして、コンピュータを知能化するための基本的な方法であり、人工知能のあらゆる分野に応用できる。機械学習及び深層学習には、通常、人工ニューラルネットワーク、信念ネットワーク、強化学習、転移学習、帰納学習、教示学習などの技術が含まれる。
【0024】
本出願の実施形態により提供される技術方案は、人工知能の機械学習などの技術に関わる。具体的には、以下の実施形態によって説明する。
【0025】
通常、アバターを作るための技術方案は、主に2つの方法に大別される。1つ目の方法としては、実在の人による駆動方法である。具体的には、モーションキャプチャデバイスを介して、実際の俳優の体及び表情のデータをキャプチャし、そして、該データを使用してこれらの動作や表情を提示するように3D又は2Dアバターを駆動する方法である。2つ目の方法としては、データによる駆動方法である。具体的には、入力されたテキスト内容をTTS(Text To Speech、テキストツースピーチ)によってアバターに読み上げさせる方法である。しかし、アバターは何の表情も動作も提示しないため、ニュースアナウンスなど、表情や動作をほとんど必要としない場面にしか適用できない。
【0026】
これらのアバターの駆動方法は、人間によって駆動される形跡が明らかであったり、動作や表情などのパーソナライズされた行動要素が回避されていたりして、実在の人によって駆動されずにテキストに基づいて実在の人に似た行動を提示するようにアバターを制御することは困難である。
【0027】
本開示によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いて、アバターを、対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
【0028】
図1を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御方法の具体的なプロセスについて説明する。アバターは、例えば、実在の人を忠実に再現したキャラクターであってもよく、完全に仮想化されたマンガのキャラクターであってもよい。一例として、ニュース放送の適用場面では、アバターは実際のアナウンサーを忠実に再現したキャラクターである。ニュースキャスターとしてのアバターは、テキストに基づいてニュース放送ビデオを短時間で生成できるだけでなく、放送されるニュース内容の「ゼロエラー」を確保することができる。また、場面を問わずに仕事に迅速に取り組み、24時間途切れなく放送でき、メディア業界における効率化に寄与する。別の例として、仮想ゲームの適用場面では、様々なゲームキャラクターとしてのマンガのキャラクターは、テキストに基づいて豊富な行動を提示するとともに、ゲームの解説やチャットサービスなどの役割タスクを24時間途切れなく実行することができる。
【0029】
図1に示すように、前記方法は電子デバイスによって実行することができ、以下の操作を含む。
【0030】
S101において、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成する。
【0031】
ここで、テキストは、通常、1つの文である。いくつかの実施形態では、前記特定のシンボルは、テキストの分類を表すためのCLS(Classification、分類)シンボルであってもよい。ここで、S101において挿入される特定のシンボルは、CLSシンボルに対応するオリジナルベクトルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。
【0032】
特定のシンボルを挿入した後、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。
【0033】
S102において、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。
【0034】
図2は、本出願のいくつかの実施形態に記載される第1の符号化ネットワークの内部構造の模式図を示す。前記第1の符号化ネットワークの入力は、S101で取得した各文字/単語/特定のシンボルのオリジナルベクトルであり、前記第1の符号化ネットワークの出力は、各文字/単語/特定のシンボルが全文のセマンティクス情報と統合されたベクトル表現である。例えば、第1の層にある1番目のネットワークノードの場合、該ネットワークノードに対応する第1の要素の入力ベクトルとそのコンテキストにおける各要素の入力ベクトルとの加重和を該ネットワークノードの符号化ベクトルとして計算する。また、該符号化ベクトルを入力として第2の層にある1番目のネットワークノードから最後の層にある1番目のネットワークノードまで提供し、全文のセマンティクス情報を統合した最終的な第1の符号化出力を取得する。図2では、前記第1の符号化ネットワークは多層のネットワークノードを含む。もちろん、本開示では、これに限定されない。前記第1の符号化ネットワークはネットワークノードを1層のみ含んでいてもよい。
【0035】
例えば、1つの可能な実施形態としては、前記第1の符号化ネットワークは、BERT(Bidirectional Encoder Representations from Transformer、トランスフォーマーによる双方向のエンコード表現)モデルによって実現することができる。BERTモデルは、大規模なラベルなしコーパスを用いてトレーニングを行い、豊富なセマンティクス情報を含むテキストのセマンティクス表現(Representation)を取得した後、特定の自然言語処理(Natural Language Processing、NLP)においてテキストのセマンティクス表現をファインチューニングし、最終的に該NLPタスクに適用するために使用される。
【0036】
したがって、BERTモデルの入力は、S101で取得したテキストにおける各文字/単語のオリジナル単語ベクトルであり、BERTモデルの出力は、テキストにおける各文字/単語が全文のセマンティクス情報と統合されたベクトル表現である。
【0037】
BERTモデルは、アテンション(attention)メカニズムに基づくモデルである。アテンションメカニズムの主な機能は、ニューラルネットワークが「アテンション」を入力の一部に集中できるようにする、つまり、入力の異なる部分が出力に与える影響を区別することである。ここで、アテンションメカニズムは、文字/単語のセマンティクス表現を強化する観点から理解される。
【0038】
文中の文字/単語の意味は、通常、そのコンテキストに関連する。例えば、「鵠」という文字は、一見して理解できないが、「鴻鵠の志」というコンテキストを見ると、すぐに理解できるようになる。したがって、文字/単語に関するコンテキスト情報は、該文字/単語のセマンティクス表現の強化に役立つ。また、コンテキスト中の異なる文字/単語は、セマンティクス表現を強化する上で異なる役割を果たす傾向がある。例えば、上記の例では、「鴻」という文字は「鵠」への理解に最も有用であるが、「の」という文字は比較的に理解に有用ではない。コンテキスト中の文字/単語情報を区別して使用することで対象とする文字/単語のセマンティクス表現を強化するには、アテンションメカニズムを使用することができる。
【0039】
図3は、本出願のいくつかの実施形態におけるアテンションメカニズムの模式図を示す。図3では、入力の第1の要素(文字、単語、又は特定のシンボル)を例として、アテンションメカニズムの計算プロセスについて説明する。
【0040】
図3に示すように、入力の第1の要素を対象要素とし、第1の要素に対応する第1の層の符号化ネットワークにおける1番目のネットワークノードを対象ネットワークノードとする。アテンションメカニズムは、対象要素とコンテキストにおける各要素のセマンティクスベクトル表現とを入力とし、まず特定の行列変換によって対象要素のQueryベクトルと、コンテキストにおける各要素のKeyベクトルと、対象要素及びコンテキストにおける各要素のオリジナルなValueとを取得する。具体的には、対象要素について、トレーニング後の変換行列Wに基づいてQueryベクトルを作成し、対象要素及びコンテキストにおける各要素について、トレーニング後の変換行列WK及びWVに基づいてKeyベクトル及びValueベクトルをそれぞれ作成する。例えば、これらのベクトルは、入力ベクトルと3つのトレーニング後の変換行列WQ、WK、WVとを乗算することによって得られる。第1の符号化ネットワークに提供される入力をX=(x1、x2、・・・、xn)(ただし、第1の要素のベクトルがx1である)とすると、x1に対応するQueryベクトルqと、コンテキストにおける各要素のKeyベクトルkと、対象要素及びコンテキストにおける各要素のオリジナルなValueベクトルvとは、下記の式で算出できる。
【数1】
ここで、iは1~nの整数である。
【0041】
次に、Queryベクトル及びKeyベクトルに基づいて、第1の層の符号化ネットワークにおける1番目のネットワークノード(すなわち、対象ネットワークノード)のアテンションベクトル
【数2】
を計算する。ここで、対象ネットワークノードのアテンションベクトルA における各要素は、対象ネットワークノードからコンテキストにおける各ネットワークノード(つまり、同じ層にある各ネットワークノード)までのアテンション重みをそれぞれ示すものである。例えば、a 1iは、第1の層の符号化ネットワークにおける1番目のネットワークノードから同じ層にあるi番目のネットワークノードまでのアテンション重みを表す。a 1iは、q1にkiを乗じてから、softmax関数で正規化することで得られる。最後に、アテンションベクトルA 及びValueベクトルVに基づいて、対象要素のアテンション出力を得る。例えば、対象ネットワークノードのアテンション出力は、下記の式で算出できる。
【数3】
【0042】
つまり、対象ネットワークノードに対応するアテンションベクトルを重みとし、前記対象ネットワークノードに入力された対象要素のValueベクトルとコンテキストにおける各要素のValueベクトルとを重み付き統合し、得られた結果を対象ネットワークノードの符号化出力、すなわち、対象要素の強化されたセマンティクスベクトル表現とする。
【0043】
図3に示すアテンション出力は、図2の第1の層の符号化ネットワークにおける1番目のネットワークノードの符号化出力に対応する。前記第1の符号化ネットワークがネットワークノードを1層のみ有する場合、図3に示すアテンション出力は、入力の第1の要素に対応する最終的な符号化出力である。前記第1の符号化ネットワークが多層のネットワークノードを有する場合、図3に示す第1の層にある1番目のネットワークノードのアテンション出力を入力として第2の層の符号化ネットワークの1番目のネットワークノードに提供して、同様の方法で第2の層の符号化ネットワークの1番目のネットワークノードの符号化出力を得る。続いて、最後の層に至るまで、層ごとに同様の処理を繰り返す。最後の層の符号化ネットワークにおける1番目のネットワークノードの符号化出力は、入力の第1の要素に対応する最終的な符号化出力である。
【0044】
以上のことから分かるように、前記第1の符号化ネットワークが多層のネットワークノードを有する場合、入力の対象要素は、対象要素に対応するネットワークノードのアテンションベクトルが層ごとに計算される。現在の層では、対象要素に対応するネットワークノードのアテンションベクトルを重みとし、該層に入力されたすべてのベクトルの加重和を求め、得られた加重和を、コンテキストのセマンティクスを統合した現在の層の出力符号化ベクトルとする。次に、現在の層の出力をさらに次の層の入力とし、同じ処理を繰り返す。つまり、第1の符号化ネットワークが計L層あり、対象要素が入力の第1の要素であると仮定した場合、対象要素に対応するL個のアテンションベクトルA 、A 、・・・、A が得られ、前記L個のアテンションベクトルは、それぞれL層の符号化ネットワークに対応する。
【0045】
続いて、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。ここで、前記特定のシンボルに対応するネットワークノードの前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。
【0046】
例えば、前記特定のシンボルが前記テキストの前に挿入されると仮定した場合、前記特定のシンボルに対応するネットワークノードは、各層の符号化ネットワークにおける1番目のネットワークノードであり、前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、各層における1番目のネットワークノードのアテンションベクトルを含む。
【0047】
なお、ここで、行動は、後述するように、動作及び表情のうちの少なくとも1つを含み得る。アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素(文字/単語)に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。
【0048】
前述のように、BERTモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字/単語情報を用いて対象とする文字/単語のセマンティクス表現を強化する。また、本開示によるBERTモデルにおいて、テキストの分類を表すためのCLS(Classification、分類)シンボルがさらに挿入されている。テキストに含まれている他の文字/単語と比較して、挿入されたCLSシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字/単語のセマンティクス情報をより「公正」に統合することができる。したがって、CLSシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字/単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字/単語の重要性が高くなる。
【0049】
本開示による方法において、テキストにおける最も重要な文字/単語の位置で、アバターを、対応する行動を提示するように制御することが好適であると考えられる。したがって、テキストにおける最も重要な文字/単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルは、テキストにおける各文字/単語の重要性を反映できるため、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。
【0050】
具体的には、第1の符号化ネットワークがネットワークノードを1層のみ有する場合、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定する。前記特定のシンボルが1番目の入力ベクトルに対応すると仮定した場合、前記特定のシンボルに対応するネットワークノードが1番目のネットワークノードである。そして、1番目のネットワークノードのアテンションベクトルをA =(a 11、a 12、・・・、a 1n)とする場合、行動トリガー位置pは下記の式で算出できる。
【数4】
ここで、該式は、a1iが最大値をとるときのインデックスiがpに割り当てられることを示す。
【0051】
第1の符号化ネットワークが多層のネットワークノードを有する場合、S102における、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記第1の符号化ネットワークの全ての層における前記特定のシンボルに対応するノードから各ノードまでのアテンションベクトルの平均値を計算し、平均アテンションベクトルを取得するステップと、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定するステップとをさらに含む。
【0052】
具体的には、前述のように、第1の符号化ネットワークが多層のネットワークノードを有する場合、各層には、前記特定のシンボルに対応する1つのネットワークノードが存在し、また、各層において前記特定のシンボルに対応するネットワークノードのアテンションベクトルが計算される。第1の符号化ネットワークが計L層あると仮定した場合、前記特定のシンボルに対応するL個のネットワークノードのL個のアテンションベクトルA 、A 、・・・、A が取得される。この場合、まずこれらのL個のアテンションベクトルの平均値を求め、平均アテンションベクトルAave を取得する。
【数5】
【0053】
次に、下記の式により行動トリガー位置を決定する。
【数6】
ここで、該式は、aave 1iが最大値をとるときのインデックスiがpに割り当てられることを示す。
【0054】
上記では、第1の符号化ネットワークに基づいてアバターの行動トリガー位置を決定する方法について説明した。アバターの行動トリガー位置を決定した後、さらにアバターが提示すべき行動内容も決定する必要がある。
【0055】
S103において、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する符号化ベクトルに基づいて、前記テキストに対応する行動内容を決定する。
【0056】
前述のように、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。第1の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルCLSが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字/単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する第1の符号化ベクトルをテキスト全体のセマンティクス表現とする。
【0057】
図4は、本出願のいくつかの実施形態における第1の符号化ネットワーク及び第1の分類ネットワークの入出力の模式図を示す。さらに、図5は、図1におけるS103の具体的なプロセスを示す。
【0058】
図5に示すように、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するステップは、以下の操作をさらに含む。
【0059】
S501:図4に示すように、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルhCLSを第1の分類ネットワーク(順伝播型ニューラルネットワーク+softmax)に入力する。前記第1の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第1の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、softmax関数により0~1の範囲内の値に正規化することができる。具体的には、前記第1の分類ネットワークの出力
(外1)

は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。
【0060】
テキストシーケンスをX=(x、x、・・・、x)(ここで、xが文Xにおけるi番目の要素(文字/単語)である)とし、CLSシンボルをテキストの前に挿入すると、CLSシンボル及びテキストに対応するベクトルをBERTモデルに入力することにより、CLSシンボルに対応する出力ベクトルを取得できる。
【数7】
【0061】
S502:前記第1の分類ネットワークの出力
(外2)

に基づいて、行動カテゴリを決定する。具体的には、hCLSを入力ベクトルとして第1の分類ネットワークに提供し、第1の分類ネットワークは、テキストが各行動カテゴリに対応する確率値を出力することができる。
【数8】
ここで、Wは第1の分類ネットワークにおけるネットワークノードの重みを表し、bはオフセット定数を表す。
(外3)

のうちの最大の確率値に対応するカテゴリiは、テキストが属する行動カテゴリである。図4には、5番目の要素が最大の確率値を有する場合、すなわち、i=5の場合が示されている。
【0062】
あるいは、別の可能な実施形態として、前記第1の分類ネットワークの出力に基づいて、行動カテゴリを決定するステップは、前記行動予測ベクトルのうちの最大の確率値を決定するステップと、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定するステップと、を含んでもよい。
【0063】
言い換えれば、テキストが属する行動カテゴリを決定するとき、第1の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値
(外4)

が所定の閾値よりも小さい場合、第1の分類ネットワークから出力された行動予測結果の信頼度は低いと考えられる。この場合、第1の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値
(外5)

が所定の閾値よりも大きい場合、第1の分類ネットワークから出力された行動予測結果の信頼度は高いと考えられる。この場合、第1の分類ネットワークの予測結果を採用する。
【0064】
S503:少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、前記特定の行動マッピングは、行動マッピングテーブルを含む。予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。具体的には、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動マッピングテーブルにおいて、前記行動カテゴリに対応する行動内容を検索して、それを前記行動内容として決定するステップをさらに含む。
【0065】
前記特定の行動マッピングは、前記アバターの適用場面によって異なる。例えば、ニュースの場面に対応するマッピングテーブルは、誇張された行動内容をトリガーしない。
【0066】
上記では、第1の符号化ネットワークにテキストを提供し、第1の符号化ネットワークのアテンションメカニズムに基づいて行動トリガー位置を推定するステップについて詳細に説明した。また、第1の符号化ネットワークの出力ベクトルがさらに第1の分類ネットワークに入力され、第1の分類ネットワークからテキストが属する行動カテゴリの予測結果が得られる。例えば、BERTモデルを使用して、前記第1の符号化ネットワークを実現することができる。
【0067】
上記の第1の符号化ネットワーク及び第1の分類ネットワークはいずれもトレーニングが必要である。
【0068】
BERTモデルは、通常、特定のNLPタスクに関連しない大規模なテキストコーパスを使用して事前トレーニングを行い、言語自体がどのようなものであるべきかを学習することを目的とするものである。これは、国語や英語などの言語科目を学ぶ際に、習得した単語を選択して組み合わせ、流暢な文章を作る方法を学ぶ必要があるのと同じである。BERTモデルの場合、その事前トレーニングプロセスにおいて、モデルから出力されるテキストのセマンティクス表現が、言語の本質を描き出すことができ、その後の特定のNLPタスクのファインチューニングを容易にするように、モデルのパラメーターが徐々に調整される。例えば、約200Gの中国語ニュースコーパスを使用して、文字ベースの中国語BERTモデルの事前トレーニングを行うことができる。
【0069】
本開示において、特定のNLPタスクは、テキスト分類タスクである。この場合、事前トレーニング済みのBERTモデルと第1の分類ネットワークとが共同でトレーニングされる。該共同トレーニング段階では、第1の分類ネットワークのトレーニングに重点が置かれ、BERTモデルの変更は非常に僅かであり、このトレーニングプロセスはファインチューニング(fine-tuning)と呼ばれる。第1の分類ネットワークのトレーニングプロセスにおいて、機械学習における教師あり学習が行われる。すなわち、このようなモデルをトレーニングするには、ラベル付きデータセットが必要となる。1つの可能な実施形態として、絵文字(Emoji)マークの付いたウェイボーデータをラベル付きデータセットとしてクローリングすることができる。具体的には、ウェイボーデータでは、ユーザーが投稿したテキストには通常、対応する絵文字表情が含まれる。例えば、テキストに「微笑」の絵文字表情がある場合、「微笑」の絵文字表情カテゴリを該テキストの正しい表情カテゴリとすることができる。また、テキストに「拱手」の絵文字動作がある場合、「拱手」の絵文字動作カテゴリを該テキストの正しい表情カテゴリとすることができる。さらに、他の分類ネットワークのトレーニングと同様に、第1の分類ネットワークは、クロスエントロピー損失関数を最小化することによって最適化することができる。
【0070】
なお、ここで、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。
【0071】
前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第1の符号化ネットワークは、動作に対応する第3の符号化サブネットワークと、表情に対応する第4の符号化サブネットワークとをさらに含んでいてもよい。前記複数の入力ベクトルの各々を第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するステップは、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第3の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第3の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける動作トリガー位置を決定するステップと、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第4の符号化サブネットワークに入力し、前記特定のシンボルに対応する、前記第4の符号化サブネットワークにおけるネットワークノードのアテンションベクトルに基づいて、前記テキストにおける表情トリガー位置を決定するステップと、をさらに含む。
【0072】
これら2つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第1の分類ネットワークは、動作に対応する第3の分類サブネットワーク、及び表情に対応する第4の分類サブネットワークもさらに含む。これら2つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の分類ネットワークと同様であるため、ここでは繰り返さない。
【0073】
また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。
【0074】
さらに、行動カテゴリに加えて、テキストに基づいて、該テキストが属する感情カテゴリをさらに決定することもできる。この場合、本開示による方法は、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する操作と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する操作と、前記第2の分類ネットワークの出力に基づいて、感情カテゴリを決定する操作と、をさらに含んでいてもよい。例えば、感情カテゴリは、「怒り」、「喜び」などを含んでもよいが、これらに限定されない。ここで、第2の符号化ネットワークは第1の符号化ネットワークに類似するものであり、また、これら2つのネットワークは、パラメーターの数が同じであるが、パラメーターの値が、場合によって同じであってもよく、異なっていてもよい。例えば、行動内容が表情内容のみを含む場合、第1の符号化ネットワーク及び第2の符号化ネットワークのパラメーターは同じであってもよい。あるいは、行動内容が動作内容のみを含む場合、第1の符号化ネットワーク及び第2の符号化ネットワークのパラメーターが異なってもよい。
【0075】
上述した第1の符号化ネットワーク及び第1の分類ネットワークと同様に、前記第2の符号化ネットワーク及び第2の分類ネットワークもトレーニングが必要である。そのトレーニング方法は上述したトレーニング方法と同様である。絵文字表情の付いたウェイボーデータを、感情カテゴリをトレーニングするためのラベル付きデータとして使用できる。
【0076】
この場合、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップは、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定するステップをさらに含む。
【0077】
行動カテゴリを独立変数と見なし、行動内容を従属変数と見なすと、感情カテゴリは、最終的な行動内容を決定するために行動カテゴリにさらなる次元を追加した独立変数と見なすことができる。
【0078】
図6は、本開示の一実施形態によるアバターの行動制御の製品フローチャートを示す。図6に示す実施形態において、行動内容は動作内容及び表情内容の両方を含んでいてもよく、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。
【0079】
まず、テキストをアルゴリズムによって処理し、各テキストに対応する表情、動作、及び感情を取得する。例えば、表情及び動作としては、現在広く使用されている絵文字の表情及び動作から選択することができる。もちろん、通常の表情や動作をさらに追加することによって、より正確な表情や動作を出力することもできる。感情は、怒り、喜びなど、テキストに含まれる感情のカテゴリである。表情及び動作は、文字又は単語の単位で正確にトリガーされる。つまり、テキストにおけるある特定の文字又は単語は、指定された動作及び表情をトリガーする。
【0080】
そして、アルゴリズムに基づいて初期の表情及び動作を決定した後、動作マッピングテーブル及び表情マッピングテーブルを用いて、現在のテキストにおいてトリガーされるべき表情内容及び動作内容をそれぞれ決定する。各テキストから、必ずしも動作、表情、及び感情の3つのパラメーターを取得できないため、動作のみ、表情のみ、感情のみ、動作及び表情の両方、動作及び感情の両方、表情及び感情の両方、ならびに3つ全部ある、という7つの状況が生じる可能性がある。図7は、表情マッピングテーブルの一例を示す。図7に示す例は、動作、表情、及び感情の3つのパラメーターを有する場合に対応する。図7における「対応する既存の生放送表情ID」は、アバターが提示する表情を表し、動作ID、表情ID、及び感情IDは、それぞれ、テキストに基づいて決定される動作、表情、及び感情に対応する。
【0081】
図8は、本開示の一実施形態による行動生成プロセスの模式図を示す。図8に示す実施形態において、行動は動作及び表情の両方を含み、また、テキストに基づいて、動作カテゴリ、表情カテゴリ及び感情カテゴリ、ならびに対応する動作トリガー位置及び表情トリガー位置がそれぞれ抽出される。そして、動作カテゴリ、表情カテゴリ及び感情カテゴリに基づいて、特定のマッピングルールにより、アバターが提示すべき動作内容及び表情内容を決定する。図8における動作モデル及び表情モデルは、いずれも上述した第1の符号化ネットワーク及び第1の分類ネットワークによって実現することができる。ただし、具体的な動作モデル、表情モデル及び感情モデルによっては、対応する具体的なネットワークパラメーターは異なる。
【0082】
なお、本明細書に記載されるマッピングルールは、アバターの存在する現在の場面に合わせてさらにスクリーニングすることができる。例えば、ニュース場面に対応するマッピングルールは、誇張された動作や表情をトリガーしない。
【0083】
また、図8には、動作モデル、表情モデル及び感情モデルが示されているが、前述のように、本開示では、これに限定されない。例えば、テキストに基づく動作カテゴリのみの抽出、表情カテゴリのみの抽出、動作カテゴリ及び感情カテゴリの抽出、表情カテゴリ及び感情カテゴリの抽出、動作カテゴリ及び表情カテゴリの抽出、などの組み合わせの変形も、すべて本開示の範囲に含まれる。
【0084】
図1に戻り、最後に、行動内容及び行動トリガー位置を決定した後、S104に進み、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。
【0085】
ここで、実在の人が話すときの行動(例えば、表情)が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、トリガーされる行動をさらにファインチューニングしてもよい。
【0086】
具体的には、前記行動内容を提示するように前記アバターを制御するステップは、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するステップをさらに含む。例えば、各行動変化パラメーターを調整できる。調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。以下は、行動変化パラメーターを調整するためのプログラムコードの例である。該コードでは、表情を例にして、表情を作る前の所定の時間の待機、表情のフェードイン、表情の保持期間、表情のフェードアウトなどを含む具体的なパラメーター調整設定が示されている。これによって、すべての表情変化が自然で一貫性があり、擬人化されるものであることを確保する。
【0087】
private static readonly double [] DefaultRandomRanges = {
0,0.5 /*0秒~0.5秒待ってから表情を作る*/,
0.3,0.5 /*0.3秒から0.5秒以内に表情をフェードインさせる(無から有へ)*/,
0.75,1 /*作られた表情の係数に対する表情の最終的な度合いの割合は0.75~1である*/,
0.5,1 /*表情の保持時間は0.5秒~1秒である*/,
0.3,0.5 /*0.15秒から0.3秒以内に表情をフェードアウトさせる(有から無へ)*/,
0.1,0.25 /*作られた表情の係数に対する表情の回復度合いの割合は0.1~0.3である*/,
2,4 /*次のマイクロエクスプレッション(存在する場合)が現れるまでの保持時間は2秒~4秒である*/
};
private static readonly double [] BlinkEyesDefaultRandomRanges = {
0,0.5 /*0秒~0.5秒待ってから表情を作る*/,
0.167,0.167 /*表情のフェードイン(無から有へ)時間は0.167秒間である*/,
1,1 /*表情のフェードインレベルは100%である*/,
0,0 /*表情を保持しない*/,
0.167,0.167 /*表情のフェードアウト(有から無へ)時間は0.167秒間である*/,
0,0 /*表情が完全に消えるまでフェードアウトする*/,
2,4 /*次のマイクロエクスプレッション(存在する場合)が現れるまでの保持時間は2秒~4秒である*/
};
【0088】
以上では、図1から図8を参照して本開示によるテキストに基づくアバターの行動制御方法について詳細に説明した。図1図8から分かるように、本開示による方法において、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
【0089】
さらに、本開示において、BERTモデルを使用して第1の符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。以下の表1は、BERTモデルに基づくテキスト分類モデルとCNNに基づくテキスト分類モデルの動作、表情、及び感情カテゴリにおける精度をそれぞれ示す。
【表1】
【0090】
次に、図9を参照して、本開示の一実施形態によるテキストに基づくアバターの行動制御デバイスについて説明する。図9に示すように、前記デバイス1000は、ベクトル化装置1001と、行動トリガー位置決定装置1002と、行動内容決定装置1003と、行動提示装置1004とを含む。
【0091】
ベクトル化装置1001は、テキストに特定のシンボルを挿入し、前記特定のシンボル及びテキストにおける各要素に対応する複数の入力ベクトルを生成するために用いられる。前記特定のシンボルは、テキストの分類を表すものである。
【0092】
ここで、テキストは、通常、1つの文である。また、例えば、前記特定のシンボルは、テキストの分類を表すためのCLS(Classification、分類)シンボルであってもよい。また、前記テキストにおける前記特定のシンボルの挿入位置は任意であってもよい。例えば、前記特定のシンボルは、前記テキストの前又は後に挿入されてもよいし、前記テキストの中間位置に挿入されてもよい。
【0093】
特定のシンボルを挿入した後、ベクトル化装置1001は、前記テキストに含まれる各要素を分割する。例えば、前記要素は文字又は単語であってもよい。言い換えれば、テキストを文字の単位で分割してもよいし、単語の単位で分割してもよい。次に、ベクトル化装置1001は、前記特定のシンボル及びテキストにおける各要素をテキストのセマンティクスを表現できる一連のベクトルに変換する。つまり、前記特定のシンボル及びテキストにおける各要素を別の数ベクトル空間にマッピングするか又は埋め込むことによって、対応する複数の入力ベクトルを生成する。
【0094】
行動トリガー位置決定装置1002は、前記複数の入力ベクトルの各々を少なくとも1層のネットワークノードを含む第1の符号化ネットワークに入力し、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するために用いられる。ここで、前記アテンションベクトルにおける各要素は、前記特定のシンボルに対応するネットワークノードから該ネットワークノードと同じ層にある各ネットワークノードまでのアテンション重みをそれぞれ示すものである。例えば、第1の符号化ネットワークはBERTモデルによって実現することができる。
【0095】
前述のように、アバターはテキストに基づいて対応する表情や動作をするため、テキストに基づいて、アバターが提示すべき行動の具体的な内容だけでなく、テキストのどの要素(文字/単語)に対応する音声が再生されるときに、アバターが対応する行動を提示すべきかも決定する必要がある。アバターが対応する行動を提示する時点に対応するテキストにおける要素の位置は、行動トリガー位置である。
【0096】
BERTモデルにおいて、アテンションメカニズムに基づいて、コンテキストの文字/単語情報を用いて対象とする文字/単語のセマンティクス表現を強化する。また、本開示によるBERTモデルにおいて、テキストの分類を表すためのCLS(Classification、分類)シンボルがさらに挿入されている。テキストに含まれている他の文字/単語と比較して、挿入されたCLSシンボルは明らかなセマンティクス情報を持たない。このように、明らかなセマンティクス情報を持たないこのシンボルは、テキストにおける各文字/単語のセマンティクス情報をより「公正」に統合することができる。したがって、CLSシンボルに対応するネットワークノードのアテンションベクトルにおける各要素の重み値は、テキストにおける各文字/単語の重要性を反映することができる。アテンションの重み値が大きいほど、対応する文字/単語の重要性が高くなる。
【0097】
本開示による方法において、テキストにおける最も重要な文字/単語の位置で、アバターを対応する行動を提示するように制御することが好適であると考えられる。したがって、行動トリガー位置決定装置1002は、テキストにおける最も重要な文字/単語の位置を行動トリガー位置とする。前記特定のシンボルに対応するネットワークノードのアテンションベクトルがテキストにおける各文字/単語の重要性を反映できるため、行動トリガー位置決定装置1002は、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定することができる。
【0098】
具体的には、第1の符号化ネットワークがネットワークノードを1層のみ有する場合、前記行動トリガー位置決定装置1002は、さらに、前記特定のシンボルに対応するネットワークノードのアテンションベクトルに基づいて、前記テキストにおける行動トリガー位置を決定するように配置される。
【0099】
第1の符号化ネットワークが多層のネットワークノードを有する場合、前記行動トリガー位置決定装置1002は、さらに、前記第1の符号化ネットワークの各層における前記特定のシンボルに対応するノードのアテンションベクトルを計算し、全ての層におけるアテンションベクトルの平均値を決定して、平均アテンションベクトルを取得する処理と、前記平均アテンションベクトルにおける最大値を持つ要素のインデックス位置に基づいて、前記行動トリガー位置を決定する処理とを実行するように配置される。
【0100】
行動内容決定装置1003は、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルに基づいて、行動内容を決定するために用いられる。
【0101】
前述のように、前記第1の符号化ネットワークは、各入力ベクトルに対応し、かつコンテキストの各要素のセマンティクスを統合した複数の第1の符号化ベクトルを出力する。第1の符号化ネットワークに提供される入力には、明らかなセマンティクス情報を持たない特定のシンボルCLSが挿入されており、明らかなセマンティクス情報を持たないこのシンボルが、テキスト中の各文字/単語のセマンティクス情報をより「公正」に統合する。したがって、テキストの分類のため、該特定のシンボルに対応する、出力の第1の符号化ベクトルをテキスト全体のセマンティクス表現とする。
【0102】
前記行動内容決定装置1003は、さらに、前記第1の符号化ネットワークから出力された、前記特定のシンボルに対応する第1の符号化ベクトルを第1の分類ネットワークに入力する処理と、前記第1の分類ネットワークの出力に基づいて、前記テキストに対応する行動カテゴリを決定する処理と、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理とを実行するように配置される。
【0103】
前記第1の分類ネットワークは、単層のニューラルネットワークであってもよく、多層のニューラルネットワークであってもよい。また、分類すべきカテゴリが複数ある場合は、第1の分類ネットワークを、より多くの出力ニューロンを持つように調整した後、softmax関数により0~1の範囲内の値に正規化することができる。具体的には、前記第1の分類ネットワークの出力は、行動のカテゴリ数と同じ次元の行動予測ベクトルであり、各要素は、前記テキストが相応的な行動カテゴリに対応する確率値を表す。前記行動内容決定装置1003は、行動予測ベクトルのうちの最大の確率値に対応するカテゴリを、テキストが属する行動カテゴリとする。
【0104】
あるいは、別の可能な実施形態として、前記行動内容決定装置1003は、さらに、前記第1の分類ネットワークの出力に基づいて、行動カテゴリを決定する処理を実現するために、前記行動予測ベクトルのうちの最大の確率値を決定する処理と、前記最大の確率値が所定の閾値よりも大きい場合、前記最大の確率値に対応する行動カテゴリを前記テキストに対応する行動カテゴリとし、そうでない場合、前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリを前記テキストに対応する行動カテゴリとして決定する処理とを実行するように配置される。
【0105】
言い換えれば、テキストが属する行動カテゴリを決定するとき、前記行動内容決定装置1003は、第1の分類ネットワークの行動予測結果の信頼度をさらに判断する。最大の確率値が所定の閾値よりも小さい場合、前記行動内容決定装置1003は、第1の分類ネットワークから出力された行動予測結果の信頼度は低いと見なす。この場合、前記行動内容決定装置1003は、第1の分類ネットワークの予測結果を採用する代わりに、テキストが属する行動カテゴリを前記最大の確率値に対応する行動カテゴリとは異なる特定のカテゴリとして決定する。例えば、前記特定のカテゴリはニュートラルカテゴリであってもよい。一方、最大の確率値が所定の閾値よりも大きい場合、前記行動内容決定装置1003は、第1の分類ネットワークから出力された行動予測結果の信頼度は高いと見なす。この場合、前記行動内容決定装置1003は、第1の分類ネットワークの予測結果を採用する。
【0106】
最後に、前記行動内容決定装置1003は、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する。例えば、予め設定されたマッピングテーブルを検索することによって、行動カテゴリに基づいて、前記行動内容を決定してもよい。
【0107】
前述のように、前記行動内容は、動作内容及び表情内容のうちの少なくとも1つを含み得る。例えば、前記行動内容は、動作内容のみを含んでいてもよいし、表情内容のみを含んでいてもよいし、動作内容及び表情内容の両方を含んでいてもよい。例えば、動作内容は、ハートポーズ、拱手、口をゆがめる、あくびする、鼻をほじるなどの動作を含んでもよいが、これらに限定されない。表情内容は、微笑、しかめっ面、軽蔑、大笑いなどを含んでもよいが、これらに限定されない。
【0108】
前記行動内容が動作内容及び表情内容の両方を含む場合、上述した第1の符号化ネットワークは、動作に対応する第3の符号化サブネットワークと、表情に対応する第4の符号化サブネットワークとをさらに含んでいてもよい。これら2つの符号化サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した符号化ネットワークと同様であるため、ここでは繰り返さない。したがって、同じテキストであっても、取得した動作トリガー位置及び表情トリガー位置は、符号化サブネットワークによって異なる。同様に、第1の分類ネットワークは、動作に対応する第3の分類サブネットワーク、及び表情に対応する第4の分類サブネットワークもさらに含む。これら2つの分類サブネットワークは、パラメーターの数が同じであるが、パラメーターの値が異なる。具体的な構造及び配置は、上述した第1の分類ネットワークと同様であるため、ここでは繰り返さない。
【0109】
また、前記行動内容が動作内容及び表情内容の両方を含む場合には、表情マッピングテーブル及び動作マッピングテーブルを事前に設定した後、前記行動内容決定装置1003は、表情カテゴリ及び行動カテゴリに基づいて表情マッピングテーブルを検索して対応する表情内容を決定するとともに、表情カテゴリ及び行動カテゴリに基づいて動作マッピングテーブルを検索して対応する動作内容を決定することができる。
【0110】
さらに、行動カテゴリに加えて、テキストに基づいて、前記テキストが属する感情カテゴリをさらに決定することもできる。この場合、前記行動内容決定装置1003は、さらに、前記複数の入力ベクトルをそれぞれ第2の符号化ネットワークに入力する処理と、前記第2の符号化ネットワークから出力された、前記特定のシンボルに対応する第2の符号化ベクトルを第2の分類ネットワークに入力する処理と、前記第2の分類ネットワークの出力に基づいて、前記テキストが属する感情カテゴリを決定する処理とを実行するように配置される。
【0111】
前記行動内容決定装置1003は、さらに、少なくとも前記行動カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実現するために、前記行動カテゴリ及び前記感情カテゴリに基づいて、特定の行動マッピングによって前記行動内容を決定する処理を実行するように配置される。
【0112】
行動カテゴリを独立変数と見なし、行動内容を従属変数と見なすと、感情カテゴリは、最終的な行動内容を決定するために行動カテゴリにさらなる次元を追加した独立変数と見なすことができる。
【0113】
最後に、前記行動トリガー位置決定装置1002が行動トリガー位置を決定し、前記行動内容決定装置1003が行動内容を決定した後、前記行動提示装置1004を用いて、前記テキストに対応する音声を再生し、前記行動トリガー位置まで再生されると、前記行動内容を提示するように前記アバターを制御する。
【0114】
ここで、実在の人が話すときの行動(例えば、表情)が連続的かつ自然に変化することを考慮すると、前記行動内容を提示するように前記アバターを制御するときに、前記行動提示装置1004は、トリガーされる行動をさらにファインチューニングしてもよい。
【0115】
具体的には、前記行動提示装置1004は、さらに、前記行動内容に基づいて、前記アバターが行動内容を提示しない状態から前記行動内容を提示する状態に一貫して変化するように、前記アバターの行動変化パラメーターを調整するように配置されてもよい。例えば、調整可能な行動変化パラメーターは、行動出現時間、行動終了時間、行動変化係数などを含むが、これらに限定されない。これにより、各行動の変化が自然で一貫性があり、擬人化されるものであることを確保する。
【0116】
上記のことから分かるように、本開示によるデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
【0117】
さらに、本開示において、BERTモデルを使用して符号化ネットワークを実現することにより、アテンションメカニズムに基づいて行動トリガー位置を推定できるだけでなく、テキスト分類の精度も向上させることができる。
【0118】
本開示の実施形態によるアバターの行動制御デバイスは、上述したアバターの行動制御方法に完全に対応しているため、アバターの行動制御デバイスの説明において、多くの細部は省略される。上述したアバターの行動制御方法のすべての細部がアバターの行動制御デバイスに同様に適用できることは、当業者に理解されるであろう。
【0119】
さらに、本開示の実施形態による方法又はデバイスは、図10に示すコンピューティングデバイス1100のアーキテクチャによって実現することができる。図10に示すように、コンピューティングデバイス1100は、バス1110、1つ又は複数のCPU1120、リードオンリーメモリ(ROM)1130、ランダムアクセスメモリ(RAM)1140、ネットワークに接続された通信ポート1150、入力/出力コンポーネント1160、ハードディスク1170などを含んでいてもよい。ROM1130やハードディスク1170などのコンピューティングデバイス1100内の記憶デバイスには、本開示によって提供されるアバターの行動制御方法の処理及び/又は通信に使用される各種のデータやファイル、及びCPUによって実行されるプログラム命令が格納されてもよい。もちろん、図10に示すアーキテクチャは例示的なものに過ぎず、別のデバイスを実現するとき、実際の必要性に応じて、図10に示すコンピューティングデバイス内の1つ又は複数のコンポーネントを省略してもよい。
【0120】
また、本開示の実施形態は、コンピュータ読み取り可能な記憶媒体として実現されてもよい。本開示の実施形態によるコンピュータ読み取り可能な記憶媒体には、コンピュータ読み取り可能な命令が格納されている。前記コンピュータ読み取り可能な命令がプロセッサによって実行されると、上記の添付図面を参照して説明された本開示の実施形態によるアバターの行動制御方法を実行することができる。前記コンピュータ読み取り可能な記憶媒体は、例えば、揮発性メモリ及び/又は不揮発性メモリを含むが、これらに限定されない。前記揮発性メモリは、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)を含んでいてもよい。前記不揮発性メモリは、例えば、リードオンリーメモリ(ROM)、ハードディスク、フラッシュメモリなどを含んでいてもよい。
【0121】
以上、図1から図10を参照して本開示の各実施形態によるアバターの行動制御方法及びデバイスについて詳細に説明した。本開示の各実施形態によるアバターの行動制御方法及びデバイスにおいて、実在の人ではなく、データを用いてアバターを対応する行動を提示するように駆動するため、中断することなく実行し、パーソナライズすることが可能となる。また、テキストに基づいて様々なカテゴリに属するデータを抽出してから、アバターの行動にマッピングすることにより、トリガーされる行動は、現在のテキストに適しているだけでなく、他の技術よりも豊富になる。さらに、アバターが提示する行動は予め設定されたマッピングルールに基づいて決定されるため、スケーラビリティが高く、行動内容を継続的に充実させることができるとともに、マッピングルールを更新するだけでアバターに追加の行動を提示させることができる。
【0122】
なお、本明細書において、「含む」、「有する」という用語、又はその他のいかなる変形は、非排他的な「含む」をカバーすることを意図しているため、一連の要素を含むプロセス、方法、物品又はデバイスは、それらの要素を含むだけでなく、明記されていない他の要素、あるいは、そのようなプロセス、方法、物品、又はデバイスに固有の要素も含む。これ以上の制限がない場合、「・・・を含む」という記述により限定される要素は、前記要素を含むプロセス、方法、物品又はデバイス内の別の同じ要素の存在を排除しない。
【0123】
最後に、上記の一連の処理は、本明細書に記載されている順序で時系列に行われる処理を含むだけでなく、時系列ではなく並行して行われる処理又は別々に行われる処理も含むことに注意されたい。
【0124】
以上の実施形態の説明により、本出願がソフトウェア及び必要なハードウェアプラットフォームによって実現できるだけでなく、ソフトウェアのみによって実施することも可能であることは、当業者に明らかであろう。このような理解を踏まえ、背景技術に対する本出願の技術的解決手段の効果のすべて又は一部をソフトウェア製品として具体化することができる。該コンピュータソフトウェア製品は、ROM/RAM、磁気ディスク、光ディスクなどの記憶媒体に格納することができ、コンピュータデバイス(パーソナルコンピュータ、サーバー、又はネットワークデバイスなどであってもよい)に、本出願の各実施形態又は実施形態の一部に記載されている方法を実行させるための複数の命令を含む。
【0125】
上記では、本出願について詳細に説明した。本明細書において、具体的な例を挙げて本出願の原理と実施形態を説明した。上記の実施形態の説明は、本出願の方法やその趣旨への理解に役立つためのものに過ぎない。また、当業者は、本出願の趣旨に則して、発明を実施するための形態とその適用範囲の変更を行うことができる。要するに、本明細書の内容は、本出願を限定するものとして解釈されるべきではない。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
【国際調査報告】