IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ソウル マシーンズ リミティドの特許一覧

特表2023-553589身体化エージェントにおける自律アニメーション
<>
  • 特表-身体化エージェントにおける自律アニメーション 図1
  • 特表-身体化エージェントにおける自律アニメーション 図2
  • 特表-身体化エージェントにおける自律アニメーション 図3
  • 特表-身体化エージェントにおける自律アニメーション 図4
  • 特表-身体化エージェントにおける自律アニメーション 図5
  • 特表-身体化エージェントにおける自律アニメーション 図6
  • 特表-身体化エージェントにおける自律アニメーション 図7
  • 特表-身体化エージェントにおける自律アニメーション 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-25
(54)【発明の名称】身体化エージェントにおける自律アニメーション
(51)【国際特許分類】
   G06T 13/40 20110101AFI20231218BHJP
   G06F 3/0484 20220101ALI20231218BHJP
【FI】
G06T13/40
G06F3/0484
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023527419
(86)(22)【出願日】2021-11-22
(85)【翻訳文提出日】2023-05-30
(86)【国際出願番号】 IB2021060793
(87)【国際公開番号】W WO2022107088
(87)【国際公開日】2022-05-27
(31)【優先権主張番号】770193
(32)【優先日】2020-11-20
(33)【優先権主張国・地域又は機関】NZ
(81)【指定国・地域】
(71)【出願人】
【識別番号】519327490
【氏名又は名称】ソウル マシーンズ リミティド
(74)【代理人】
【識別番号】110000338
【氏名又は名称】弁理士法人 HARAKENZO WORLD PATENT & TRADEMARK
(72)【発明者】
【氏名】ハットン、ジョー
(72)【発明者】
【氏名】セイガー、マーク
(72)【発明者】
【氏名】ワン、エイミー
(72)【発明者】
【氏名】クラーク-ヤンガー、ハンナ
(72)【発明者】
【氏名】マルコン、カースティン
(72)【発明者】
【氏名】スキナー、ペイジ
(72)【発明者】
【氏名】ブラケット、シェーン
(72)【発明者】
【氏名】ロタ、テア
(72)【発明者】
【氏名】シュー-シェン ウー、ティム
(72)【発明者】
【氏名】サクセナ、ウトカルシュ
(72)【発明者】
【氏名】チャン、シュエユアン
(72)【発明者】
【氏名】ワトソン-スミス、ヘイゼル
(72)【発明者】
【氏名】ビドル、トラバース
(72)【発明者】
【氏名】ペリー、エマ
【テーマコード(参考)】
5B050
5E555
【Fターム(参考)】
5B050AA03
5B050BA08
5B050BA09
5B050CA07
5B050EA24
5B050EA26
5B050FA02
5E555AA27
5E555AA76
5E555BA01
5E555BB01
5E555BC08
5E555CA47
5E555CB44
5E555CB64
5E555DA23
5E555DB32
5E555DC85
5E555DD06
5E555EA19
5E555EA23
5E555FA00
(57)【要約】

本明細書で説明される実施形態は、入力テキストへのアニメーションの自動適用によるジェスチャの自律アニメーション、又はアニメーションマークアップの自動適用に関し、マークアップは、非言語的コミュニケーション表現又はジェスチャをトリガする。身体化エージェントの運動ができるだけ自然で人間に似たものになるように、テキストジェスチャ変換アルゴリズム(TTG(Text-To-Gesture)アルゴリズム)は、伝達発話の入力テキストを、それが身体化エージェントによって発せられる前に分析し、入力テキストの意味、コンテキスト、及び感情的な内容、並びに身体化エージェントのジェスチャスタイル又はパーソナリティを考慮して、適切かつ意味のあるジェスチャでそれをマークアップする。
【選択図】図1

【特許請求の範囲】
【請求項1】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.入力テキストに適用されるポーズを決定するステップと、
iii.入力テキストに適用されるアクションを決定するステップと、
iv.前記ポーズから適用される前記アクションを表す前記仮想キャラクタ又はデジタルエンティティの少なくとも1つの動きを生成するステップと、を含む、方法。
【請求項2】
前記ポーズが、腕ポーズであり、ポーズを決定する前記方法が、腕の間の水平距離を決定するステップを含む、請求項1に記載の方法。
【請求項3】
前記ポーズが、腕ポーズであり、ポーズを決定する前記方法が、1つ以上の腕の垂直高さを決定するステップを含む、請求項1又は2に記載の方法。
【請求項4】
前記少なくとも1つの動きが、ビートジェスチャである、請求項1~3のいずれか一項に記載の方法。
【請求項5】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.入力テキストを受信する入力モジュールと、
ii.決定モジュールであって、
i.入力テキストに適用されるポーズ、及び
ii.前記少なくとも1つのポーズから適用されるアクションを決定する、決定モジュールと、
iii.前記ポーズ及び前記アクションに基づいて、前記仮想キャラクタ又はデジタルエンティティの少なくとも1つの動きを生成する出力モジュールと、を含む、システム。
【請求項6】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.アニメーション化される入力ポーズを決定するステップと、
ii.ジェスチャを表す変形態ポーズを決定するステップであって、前記変形態ポーズが、前記入力ポーズと混合するように構成される、ステップと、
iii.前記入力ポーズと前記変形態ポーズとの間の重み付けされた補間を含む混合ポーズを決定するステップと、
iv.前記混合ポーズを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するステップと、を含む、方法。
【請求項7】
ポーズを決定する前記ステップが、請求項6に記載の方法の前記ステップを含む、請求項1に記載の方法。
【請求項8】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.決定モジュールであって、
i.アニメーション化される入力ポーズ、
ii.ジェスチャを表す変形態ポーズであって、前記変形態ポーズが、前記入力ポーズと混合するように構成されている、変形態ポーズ、
iii.前記入力ポーズと前記変形態ポーズとの間の重み付けされた補間を含む混合ポーズ、を決定する、決定モジュールと、
ii.前記混合ポーズを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するアニメーション化モジュールと、を含む、システム。
【請求項9】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、前記デジタルエンティティの仮想キャラクタが、少なくとも1つの腕、手首、及び指を有し、前記方法が、
i.
様々な腕ポーズから選択された腕ポーズ、
様々な手首ポーズから選択された手首ポーズ、及び様々な指ポーズから選択された指ポーズ、のうちの少なくとも2つを決定するステップと、
ii.前記仮想キャラクタ又はデジタルエンティティをアニメーション化して、前記腕ポーズ、手首ポスト、及び/又は前記指ポーズを含む全体的なポーズを表示するステップと、を含む、方法。
【請求項10】
少なくとも2つを決定することが、ランダムに決定される、請求項9に記載の方法。
【請求項11】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、前記デジタルエンティティの仮想キャラクタが、少なくとも1つの肢を有し、前記方法が、
i.少なくとも、
様々な肢ポーズから選択された肢ポーズ、
前記肢の様々なサブ部分ポーズから選択されたサブ部分のポーズ、を決定するステップと、
ii.前記仮想キャラクタ又はデジタルエンティティをアニメーション化して、前記肢ポーズ及び前記肢のサブ部分の前記ポーズを含む全体的なポーズを表示するステップと、を含む、方法。
【請求項12】
少なくとも決定することが、ランダムに決定される、請求項11に記載の方法。
【請求項13】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.前記入力テキスト内の各単語の強調スコアを決定するステップと、
iii.前記入力テキスト内の残りの単語と比較して相対的に高い強調スコアを有する単語のセットを決定するステップと、
iv.前記入力テキストを話すように仮想キャラクタ又はデジタルエンティティをアニメーション化し、相対的に高い強調スコアを有する前記単語のセットからの各単語にジェスチャを適用するステップと、を含む、方法。
【請求項14】
前記ジェスチャが、相対的に高い強調スコアを有する前記単語のセットからの各単語の強勢音節に適用される、請求項13に記載の方法。
【請求項15】
前記ジェスチャが、ビートジェスチャである、請求項14の請求項13に記載の方法。
【請求項16】
前記強調スコアが、単語の希少性に基づき、より高い希少性を有する単語が、より高い強調スコアを有する、請求項13~15のいずれか一項に記載の方法。
【請求項17】
相対的に高い強調スコアを有する前記単語のセットが、前記入力テキスト内の全ての単語の所定の上位パーセンタイル内の強調スコアを有する前記入力テキストからの単語を含む、請求項13~16のいずれか一項に記載の方法。
【請求項18】
前記単語のセットからの各単語に適用される前記ジェスチャが、前記単語の前記強調スコアに比例又は実質的に比例するジェスチャ振幅を有する、請求項13~16のいずれか一項に記載の方法。
【請求項19】
前記強調スコアが、各単語の前記強調スコアを決定するために基準のセットを適用することによって計算され、前記強調スコアに対する各基準の寄与が、重み付けを使用して重み付けされる、請求項13~16のいずれか一項に記載の方法。
【請求項20】
前記基準のセットが、単語のセンチメント、品詞、大文字化、否定、及び希少性からなる群から選択される、請求項19に記載の方法。
【請求項21】
前記重み付けが、人間のアノテータと同じ様式で単語を強調するように最適化されている、請求項20に記載の方法。
【請求項22】
前記重み付けが、機械学習を使用して最適化されている、請求項21に記載の方法。
【請求項23】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.入力テキストを受信する入力受信手段と、
ii.複数のジェスチャであって、各ジェスチャが、
i.アニメーション、
ii.前記アニメーションを変化させるための少なくとも1つの構成可能パラメータ、及び
iii.前記構成可能パラメータの構成範囲、と関連付けられている、複数のジェスチャと、
iii.アニメーション生成器であって、前記アニメーション生成器が、
i.入力テキストを分析して、少なくとも1つのジェスチャを決定すること、
ii.前記構成範囲から前記構成可能パラメータの構成を決定すること、及び
iii.前記構成可能パラメータによって変化される前記アニメーションを用いて、前記仮想キャラクタ又はデジタルエンティティをアニメーション化すること、を行うように構成されている、アニメーション生成器と、を含む、システム。
【請求項24】
各ジェスチャが、構成パラメータの前記構成範囲を調整するための少なくとも1つの調整変数と関連付けられており、
前記アニメーション生成器が、前記調整変数によって修正される前記構成可能パラメータの構成を決定するように構成されている、請求項23に記載のシステム。
【請求項25】
前記構成範囲から前記構成可能パラメータの構成を決定することが、ランダムに決定される、請求項23又は24に記載のシステム。
【請求項26】
構成可能パラメータが、ジェスチャ速度、ジェスチャ振幅、及びジェスチャポーズからなる群から選択される、請求項23~25のいずれか一項に記載のシステム。
【請求項27】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.ジェスチャのセットの1つ以上のパラメータを構成するステップであって、前記パラメータが、前記ジェスチャが前記仮想キャラクタ又はデジタルエンティティの特性を反映するように構成される、ステップと、
ii.前記1つ以上のパラメータによって構成される前記ジェスチャを用いて前記仮想キャラクタ又はデジタルエンティティをアニメーション化するステップと、を含む、方法。
【請求項28】
前記特性が、文化、性別、スタイル、パーソナリティ、又は性格のうちの1つ以上を含む、請求項27に記載の方法。
【請求項29】
前記パラメータが、
i.ジェスチャの速度、
ii.ジェスチャの位置、
iii.ジェスチャの頻度、
iv.ジェスチャの振幅、及び
v.ジェスチャの利き手、を含むジェスチャの群のうちの1つ以上から選択される、請求項27又は28に記載の方法。
【請求項30】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.前記入力テキストを分析して、少なくとも1つのジェスチャタイプを決定するステップであって、各ジェスチャタイプが、選択のために利用可能な複数のジェスチャ、及び関連付けられた頻度値を含む、ステップと、
iii.ジェスチャ頻度値を使用して、入力テキストに適用されるジェスチャを選択するステップと、
iv.選択された前記ジェスチャを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するステップと、を含む、方法。
【請求項31】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.解析木を生成するステップと、
iii.前記解析木を使用して、前記仮想キャラクタ又はデジタルエンティティの少なくとも1つのアニメーションを決定するステップと、
iv.前記アニメーションに少なくとも基づいて、前記仮想キャラクタ又はデジタルエンティティの少なくとも1つの動きを生成するステップと、を含む、方法。
【請求項32】
前記解析木が、依存木である、請求項31に記載の方法。
【請求項33】
前記解析木を使用して否定の範囲を決定し、前記否定の前記範囲を使用して前記アニメーションを決定するステップを更に含む、請求項31又は32に記載の方法。
【請求項34】
前記解析木を使用して列挙を検出し、前記列挙を使用して前記少なくとも1つのアニメーションを決定するステップを更に含む、請求項31~33のいずれか一項に記載の方法。
【請求項35】
前記少なくとも1つのアニメーションを表すマークアップを生成し、前記マークアップを使用して、前記仮想キャラクタ又はデジタルエンティティの前記少なくとも1つの動きを生成するステップを更に含む、請求項31~34のいずれか一項に記載の方法。
【請求項36】
前記少なくとも1つのアニメーションが、顔及び/又は身体のアニメーションである、請求項31~35のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、仮想キャラクタ、デジタルエンティティ、及び/又はロボットなどの身体化エージェント(Embodied Agent)の自律アニメーション化に関する。より具体的には、限定するものではないが、本発明の実施形態は、動的に身体化エージェントをアニメーション化するように、会話内容の自律及びリアルタイム分析に関する。
【背景技術】
【0002】
挙動マークアップ言語(Behaviour Mark-up Language)、すなわち、BMLは、「身体化会話形式エージェント(Embodied Conversational Agent)」の言語挙動及び非言語挙動を制御するためのXML準拠の記述言語である。BEAT(SIGGRAPH’01)などのルールベースのジェスチャ生成器は、ルールを適用して、キーワードなどのテキストの特徴と対にされたジェスチャを生成する。これは、反復的かつロボット的なジェスチャをもたらし、これは、粒度レベルでカスタマイズすることが困難である。ルール及びジェスチャの大きいデータベースが必要とされる。音声駆動ジェスチャ生成器は、ニューラルネットワークを使用して、学習されたジェスチャ及び音声の組み合わせから自動的な運動を生成する。しかしながら、これらの生成器は、しばしばブラックボックスの様式で動作し、入力音声と出力動きとの間の一般的な関係を仮定し、限られた成功しか収めていない。
【0003】
米国特許第9205557(B2)号は、移動ロボットのコンテキスト挙動を生成するための方法を開示している。キーワードの前にコマンドタグを自動的に挿入するためのモジュールが提供されている。米国特許第9721373(B2)号は、発話の音響分析、構文分析、意味分析、プラグマティック分析、及び修辞分析を用いてキャラクタの発話挙動を分析することを含み得る、リップシンク運動及び非言語的コミュニケーションのための挙動のセットを作成するためのプログラムを開示している。
【0004】
効率的な自律型身体化エージェントによる伝達発話(Communicative Utterance)のオンザフライでの自動拡張及び/又は自動修飾は未解決の問題のままである。更に、リアリティがあり、非反復的で、容易にカスタマイズ可能である様式で身体化エージェントをアニメーション化することも未解決の問題のままである。
【発明の概要】
【0005】
本発明の目的は、身体化エージェントにおける自律アニメーション化を改善すること、又は少なくとも公衆若しくは業界に有用な選択肢を提供することである。
【図面の簡単な説明】
【0006】
図1】一実施形態によるTTGアルゴリズムを示す。
図2】一実施形態による強調検出アルゴリズムを示す。
図3】強調検出のための好適なルール重み付けの例を示す。
図4】強調検出のためのスコアリングプロセスの例を示す。
図5】様々な異なるポーズにおける身体化エージェントを示す。
図6】腕の変形態ポーズ間の混合を示す。
図7】手の変形態ポーズ間の混合の第1の例を示す。
図8】手の変形態ポーズ間の混合の第2の例を示す。
【発明を実施するための形態】
【0007】
仮想キャラクタ、デジタルエンティティ、及び/又はロボットなどの身体化エージェントは、リアルタイムでテキスト入力から音声を発することによって、ユーザと相互作用し得る。身体化エージェントは、デジタルアバター、漫画のキャラクタ、擬人化されたアバターなどであってもよく、又は物理的なアバター、例えば、物理的ロボットなどであってもよい。物理的ロボットは、物理的アバターが様々な顔の動き及び/又は身体の動きを行うことを可能にする、様々な部分、例えば、顔の部分、身体の部分などのための様々な機械ユニットを含み得る。
【0008】
身体化エージェントは、目、鼻、口のうちの少なくとも1つを含む顔を有してもよく、様々な顔の動きを提示するようにアニメーション化されてもよい。アバターはまた、頭、肩、手、腕、脚、足などのうちの少なくとも1つを含む、1つ以上の身体部分を有してもよく、様々な身体の動きを提示するようにアニメーション化されてもよい。
【0009】
テキスト音声変換(text to speech、TTS)、及び音声に同期されたリップアニメーションは、そのような身体化エージェントが人間のような音声に似ることを可能にする。顔の表情及び手振りなどの非言語的コミュニケーションは、人間のコミュニケーションを支援し、現実性をもたらし、身体化エージェントのアニメーションをもたらす。
【0010】
本明細書で説明される実施形態は、入力テキストへのアニメーションの自動適用によるジェスチャの自律アニメーション、又はアニメーションマークアップの自動適用に関し、マークアップは、非言語的コミュニケーション表現又はジェスチャをトリガする。
【0011】
テキストジェスチャ変換
身体化エージェントの運動ができるだけ自然で人間に似たものになるように、テキストジェスチャ変換アルゴリズム(TTG Algorithm:Text-To-Gesture Algorithm)は、伝達発話の入力テキストを、
それが身体化エージェントによって発せられる前に分析し、入力テキストの意味、コンテキスト、及び感情的な内容、並びに身体化エージェントのジェスチャスタイル又はパーソナリティを考慮して、適切かつ意味のあるジェスチャでそれをマークアップする。
【0012】
例えば、入力テキスト: 「Would you like to talk about our technology, or our business model?」は、→を出力するようにTTGアルゴリズムによって処理されてもよい「#SlightlyHappy Would you #Shrug like to #Smile talk about our #BeatBothArmsLeft technology, or our #BeatBothArmsRight business #PalmsSpread model?」
【0013】
TTGアルゴリズムは、微妙な差異を最も含んでいる自然なジェスチャを生成するために、自然言語処理(Natural Language Processing、NLP)を使用して、発話されようとしているテキストからコンテキスト、意味、及び伝達意図の最良の可能な理解を得る。TTGアルゴリズムはモジュール式で拡張可能であるので、新しくより高度な分析を追加することができ、既存の分析を容易に修正又は除去することができる。
【0014】
方法
図1は、一実施形態によるTTGアルゴリズムを示す。
【0015】
構文解析
ステップ102において、入力テキスト6は、パーサーによって受信され、パーサーは、入力テキスト19の各節に対して解析木を返す。各節は木であり、木の各ノードは、大まかには単語に相当する、トークンであり、その見出し語、品詞タグ、及びその親ノードとの依存関係、強いキーワードであるかどうか、名詞句のリストの一部など、トークンに関する情報も含む。一実施形態では、依存解析は、トークン間の関係を提供する依存木を出力する。任意の好適な依存解析方法又はシステムを使用することができる。
【0016】
節分析器
ステップ104において、節分析器は、入力テキスト19に関する更なる情報を解析木8に付加する。節分析器は、節及びトークンに関する情報を導出して、節分析情報に基づいてマークアップを生成するマークアップ生成器に入力として提供する。
【0017】
節は、意味パターン及び構文パターンについて分析され、キーワード、感情及び対話行為が識別される。一実施形態では、節分析器は、依存木を受信し、依存情報を使用して、節におけるビート、否定、及び列挙挙動を識別する。節分析はまた、センチメント情報を依存木に付加する。
【0018】
センチメント
任意の好適な機械学習又はルールベースの方法を使用して、節のセンチメントを分類することができる。節は、誘発性(正-中立-負)、覚醒(低-中立-高)、及びきめ細かい感情的内容(例えば、喜び、悲しみ、怒り、驚き、恐怖、嫌悪)に基づいて分類することができる。
【0019】
一実施形態では、テキストセンチメント分析関数は、サポートベクトルマシン(support vector machine、SVM)を使用して構築される。任意の好適なテキストセンチメント分析方法が使用されてもよい。SVMは、特定のドメインからの会話内容を使用して訓練することができる。一般的な会話には、SVMは、広範囲のドメイン及びスタイル、発話の長さ、並びに他のパラメータを使用して訓練されてもよい。ニューラルネットワーク、決定木、回帰ベースの分類器、ベイズ分類器を含むがこれらに限定されない、任意の他の好適な分類器が使用されてもよい。深層ニューラルネットワークは、きめ細かい感情内容を分類するのに適している場合がある。
【0020】
単語センチメントは、単語レベルでセンチメントを識別し、単語を正又は負として識別することができる。一実施形態では、負/正の単語辞書が使用される。節における個々の単語の誘発性を記録することができる。例えば、全体的に正の誘発性を有する節では、節分析器は、正の誘発性の単語を有する、否定された単語と、負の誘発性を有する、否定されない単語とを識別することができる。
【0021】
一実施形態では、センチメントベースのアニメーションは、センチメントスコアに基づいて、文に適用される。センチメント分析のための任意の好適なモデルが、センチメントスコアを決定するために使用され、適切に訓練されてもよい。
【0022】
否定範囲検出
否定されたトークン(単語)は、依存リンクに基づいて決定することができる(例えば、否定の子孫は、否定によって否定されると見なされる)。依存木構造は、任意の否定語の範囲(すなわち、どの単語が否定されたと見なすことができるか)を決定することができる。特に、否定の子孫、兄弟、又は甥姪(兄弟の子)である任意の単語は、否定の範囲内に入る。
【0023】
列挙
名詞チャンク及び句動詞は、単語のグループを決定するために使用され得る。名詞チャンク(名詞句)のリストが提供されてもよい。
【0024】
句動詞が検出されてもよい。一実施形態では、句動詞は、以下のステップを含むアルゴリズムによって検出することができる:1.動詞を見つける、2.副詞を逆方向に検索する、3.副詞、前置詞及び名詞句を順方向に検索する。
【0025】
単語のグループに関する情報は、アニメーションを駆動するために使用されてもよい。例えば、「Would you like a green avocado, or a brown avocado?」では、身体化エージェントは、それらを個々の単語として扱うのではなく、左側の「green avocado」、及び右側の「brown avocado」を指し示すことができる。
【0026】
ビートはグループ内で繰り返されてもよい。例えば、「I am going on holiday tomorrow」は、「going」で円を、「tomorrow」でチョップをトリガし得るが、「I can see a big yellow fluffy giraffe」は、「big」「fluffy」及び「giraffe」で、繰り返されるチョップをトリガし得る。
【0027】
対話行為分類
対話行為分類は、オプションをリストすること、質問をすること、説明すること、代替案を提供すること、記述すること、表明すること、撤回すること、意見を提供すること、謝罪すること、挨拶すること、主題を変更すること、予測すること、指示すること、説明すること、侮辱すること、又はからかうことなど、対話行為を分類することができる。言い換えれば、対話行為分類は、伝達発話が何を達成しようとしているかを分類する。
【0028】
対話行為分類は、限定はしないが、ルールベースの方法及び機械学習ベースの方法を含む、任意の好適な分類方法を使用して実行され得る。一実施形態では、深層学習分類器は、広範囲の対話行為に対して訓練される。
【0029】
質問については、伝達発話の文法上の法が決定されてもよく(質問は疑問法になる傾向がある)、又はwho、what、when、where、how、do、doesで始まるような「質問」句の辞書に対してそれをチェックしてもよい。対話行為分類器は、節の終わりに疑問符があるかどうかを入力として受信することもできる。対話行為分類器は、この対話行為を、ユーザに自分自身について、又はユーザの意見について尋ねること、明確化を求めること、繰り返しを求めること、及び修辞的質問など、異なる種類の質問に細分することができる。アドバイス及び指示は、しばしば、命令法であるか、又は「you should」若しくは「you could」によって先行される。
【0030】
代替案又は対照的な概念を提供するために、それは、「or」又は「but」などの接続詞によって分離された2つの節、あるいは接続詞によって分離された2つの名詞句又は句動詞であってもよい。例えば、「We could organise a party for him, or we could wait and see if he organises one himself」。いくつかのオプション又は項目をリストするために、コンマ又は接続詞によって分離された一連の名詞句又は句動詞を見つける。例えば、「Are you going on holiday or travelling for work?」、「You will need a pair of 3mm needles, 100g of 4ply yarn in the colourway of your choice, and a cable needle.」。
【0031】
別の例では、テキストが「there are many banks in New Zealand: ASB, ANZ, BNZ and Westpac.」の場合、意図は「列挙」として分類され得る。仮説、条件、又は反論は、「what if」、「only if」、「if...then...」などの句で示され得る。
【0032】
一実施形態では、対話行為分類をセンチメント分析と組み合わせて、非言語的コミュニケーションに更なるニュアンスを追加することができる。
【0033】
トーン分類
送達される内容のトーンは、分類され、挙動パフォーマンスを調整するために使用され得る。分類すべきトーンの次元の例としては、深刻な対ユーモラスな、丁重な対独断的な、冷淡な対同情的な、カジュアル対フォーマル、又は事実対熱狂的が挙げられ得る。言い換えれば、トーン分類は、伝達発話の様式を分類し、それに応じて発話が送達される間にジェスチャ及び感情的なパフォーマンスを調整することができる。
【0034】
トーン分類は、限定はしないが、ルールベースの方法及び機械学習ベースの方法を含む、任意の好適な分類を使用して実行され得る。一実施形態では、トーンの異なる次元は、異なる機械学習分類器を介して分類され得る。別の実施形態では、深層学習分類器は、広範囲のトーン次元にわたって分類することができる。
【0035】
パターン分析
パターン分析器は、名詞句及び一連の名詞句、句動詞及び一連の句動詞を見つける。パターン分析器は、動詞句の残りに続いて前置詞を、次いで名詞句をチェックすることによって、他動詞を識別することができる。例えば、「very quickly running away from the wolf」は、品詞タグがそれぞれ「ADVERB、ADVERB、VERB、ADVERB、PREPOSITION、DETERMINER、NOUN」である(及び「DETERMINER、NOUN」が名詞句である)ので、句動詞として分析される。
【0036】
パターン分析器は、法、時制、動詞形、形容詞形(例えば、最上級、比較級)、人称、数、及び他の形態学的特徴を決定することができる。
【0037】
そのような情報は、例えば、最上級トークン及び比較級トークン上のジェスチャのサイズを増加させることによって、アニメーションに影響を及ぼすために使用され得る。
【0038】
節の「人称」は、適切な「人称」に向けられるようにアクションをアニメーション化することによって、アニメーションに影響を与えることができる。例えば、一人称の節は、より多くの話者指向のアクションを生成することができ、二人称の節は、より多くの聞き手指向のアクションを生成することができ、三人称の節は、無指向のアクションを生成することができる。
【0039】
節の時制は、例えば、過去形の節をより「固定した」アニメーションでアニメーション化し、未来時制を、仮説を表す「より緩い」アニメーションでアニメーション化することによって、ジェスチャに影響を及ぼすことができる。
【0040】
位置分析
高い、低い、狭い(又は中央)及び広い、の各々に対して1つずつ、位置及び方向の句の辞書が提供されてもよい。これらは、正確な文字列一致又はパターン一致であってもよく、例えば、「under$NOUNPHRASE」は、「he was under the sea」、「it was under a big round table」、及び「she was there under some kind of pretence」に一致するが、「they were under 18」には一致しない。
【0041】
コンテキスト
前の節からの、更には前の会話からのコンテキスト情報は、(身体化エージェント12及びユーザの両方にとって)分析されている特定の節についてより広いコンテキストを提供することになる。例えば、身体化エージェント12が、繰り返し言うようにユーザに要求している場合、身体化エージェント12は、2回目の発話をわずかに異なって実行して、キーポイントをより強調するか又はあまり躊躇しないようにしてもよい。固有名詞又は他の用語が会話コンテキストに既に導入されている場合、それは、後続の言及ではキーワードである可能性が低いことがある。現在の発話が会話のトピックを変更している場合、新しいトピックに対する強調を示すために、より多くの(又はより大きい、又はより強力な)ジェスチャが存在してもよい。
【0042】
マークアップ生成器
ステップ108において、マークアップ生成器は、分析された木の情報を使用して、様々な種類のジェスチャに対するマークアップを生成する。分析された木は、節分析からの情報で注釈を付けられた解析木を含むことができる。これらのマークアップ生成器の各々は、節全体の前又は後に、あるいは任意の個々の単語の前又は後に、候補マークアップを追加することができる。多くのジェスチャは単語に「ヒットする」(又は「トリガされる」)。これは、ジェスチャのストロークポイント(極値ポイント)が、その単語の強勢音節と同時に発生することを意味する。これは、強勢音節の瞬間にそのストロークポイントに達する時間を与えるために、ジェスチャが単語の前に開始してもよいことを意味する。
【0043】
ジェスチャは、顔の表情、頭及び首のジェスチャ、腕及び手のジェスチャ、並びに全身の運動を含む。全てのジェスチャは、ポーズ及びアクションから構成され、ポーズは、ジェスチャの開始ポイントであり、アクションは、その開始ポーズから適用される動きである。各アクションに対して、開始ポーズは明示的に定義されてもよいし、あるいは現在のポーズであれば何でもよく、例えば前のジェスチャの終了ポーズであってもよい。
【0044】
対話行為固有のジェスチャ
適用され得る対話行為固有のジェスチャの例としては、以下が挙げられる:質問は、肩をすくめること、及び手のひらを上にした外向きの弧をトリガして、節の主動詞又はキーワードをトリガする。否定は、頭を振り、腕を交差させたり、又は手首を拒絶的に弾いたりすることをトリガする。代替案を提供することは、一方の手を一方の側にマッピングし、次いで他方の手を他方の側にマッピングし、これは、重み付けスケールを示す。名詞又は動詞を、例えば、3つのオプションとしてリストすることは、チョップを伴う両方の腕のジェスチャを、一方の側にマッピングし、次いで両方を中央にマッピングし、次いで両方を他方の側にマッピングする(又は、低いレベルを指し、次いで少し高いレベルを指し、次いで更に少し高いレベルを指すなど、経路に追従する同様のジェスチャ)。代わりに、リスト内の任意の5つ以上の項目が、指の上でカウントオフするようにマッピングされる。
【0045】
記号ジェスチャ
記号ジェスチャは、特定の意味を伝えるジェスチャである。意味は、例えば挨拶を伝える波、エンブレム的である(ジェスチャは単語又は句を表す)か、例えば「box」という単語に対して正方形をトレースすること、アイコン的である(ジェスチャは単語又は句の意味を文字通り表す)か、あるいは例えば「confined」という単語に対して正方形をトレースすること、メタファ的である(ジェスチャは単語又は句の意味を表すが、文字通りには表さない)ことが可能である。これらは、各ジェスチャに対する辞書ルックアップからトリガされ、1つの辞書内にエンブレム、アイコン及びメタファのトリガ句を含む。辞書内の句は、任意選択で、ジェスチャが句の中のどの単語にヒットすべきかを示すことができる。デフォルトでは、それは、句の中の最初の単語にヒットする。これらの句はまた、正確な文字列一致ではなくパターンに一致させることができ、例えば、「I am Sam」は、パターン「I am $PROPERNOUN」に一致するが、「I am hungry」は一致しない。この種のジェスチャは、控えめに適用されるべきであり、さもなければ、それらが発話を行動化しているように見える可能性があり、これは、滑稽な又は横柄なものとして現れる可能性がある。記号ジェスチャのレートは、パーソナリティ/スタイル構成において定義される。一実施形態では、記号ジェスチャは、各ジェスチャの汎用辞書と一致する。
【0046】
ビート
ビートジェスチャは、非有意味に(例えば、記号的な方法ではなく、又は任意の特定の対話行為に関連せずに)単語を強調する。ビートは、構成設定で定義されたレートで、強調検出アルゴリズムによって取り出された節の中の単語に対してトリガされる。アクションは、構成において定義されたパーソナリティ及びジェスチャスタイルに基づいて選択される。アクションの種類には、チョップ(上、下、斜め)、円、及び弧アクションが含まれ、これらの全ては、様々な基本の腕及び手ポーズに適用して、固定した権威主義的ジェスチャから流動的でオープンな弧ジェスチャまでの多種多様なジェスチャを生成することができる。
【0047】
したがって、ビートは、グローバル構成設定で定義されたタイプの、分析された木において指定されたキーワードに適用される。各ビートジェスチャは、ポーズ及びアクションからなり、各ポーズは、腕、手首、及び手の要素からなる。
【0048】
身体化ジェスチャ
身体化ジェスチャは、人々が身体化されているために行うジェスチャである。例えば、人々は、長い記述又は説明を開始する前に、深呼吸又はため息をする。身体化エージェントでは、深呼吸は、長い文の前にトリガされ得る。別の例は、一方の足から他方の足へ体重を移動させることであり、これは人が疲れたときに起こる。身体化エージェントでは、これは、(いくつかの)節の間に、及び他のギャップ中にトリガされ得る。何かを思考又は記憶するために一時停止して一方の側を見上げることは、節の間に、及び長い若しくは非常に稀な単語又は固有名詞が初めて使用される前に、その単語又は名前を思考しようとしているかのように、確率的にトリガされ得る。時々、これらは、しわが寄った額、又は「um」などの挿入された一時停止若しくは躊躇マーカーを伴う。人々は、
衣服をまっすぐにすること、鼻を掻くこと、又は髪を耳の後ろに押し込むことなど、幅広いグルーミングジェスチャを行い、これらは、個人のパーソナリティによって指定されたレートで、他のジェスチャがないギャップにおいてトリガされる。
【0049】
ターンテイキングジェスチャ
人々が発話を一時停止するが、会話の発言権を譲ることを意図しないとき、人々は、目をそらす傾向があり、時として、(手若しくは指を挙げることなどの)発言権保持ジェスチャを行うか、又は一時停止に「um」若しくは「ah」を挿入する傾向がある。ターンテイキング挙動は、いくつかの節の境界において、及び固有名詞を含む長い又は稀な単語が最初に言及される前にトリガされてもよい。人々が発話を終了したとき、発言権を譲るために、彼らは(例えば)直接的なアイコンタクトを行い、期待して笑い、ときには「あなたの番」タイプのジェスチャも行う(例えば、手のひらを上にして一方又は両方の手を会話相手に向けて示す)。そのようなジェスチャは、(1つ又はいくつかの節であり得る)彼らの発話全体の終了時にトリガされる。会話相手(ユーザ)がキャラクタを中断しようと試みるとき、彼らは、発言権を放棄しないことを示すために発言権保持ジェスチャを行うことができ、又は彼らは、少し驚いたように示し、会話及びジェスチャを停止し、発言権をユーザに譲ることができる(彼らがこれを行う可能性は、パーソナリティ及び役割に基づいて構成可能であり得る)。ユーザが話しているとき、バックチャネルジェスチャは、暫定STT結果の迅速なセンチメント分析に基づいて、うなずき及び笑顔、不機嫌な表情、「hmm」及び「uh huh」の形でトリガされる。
【0050】
ポーズ
ポーズはジェスチャの開始ポイントであり、ジェスチャを開始する前に身体がそれに動く。例えば、ポーズは、身体、頭、腕、手首、及び指の要素を含み得る。これらの各々は、基本ポーズ、及び追加された何らかの制御されたランダム変形態を有し得る。各要素は、選択されたアクションに適合する基本ポーズのセットから選択される(アクションはジェスチャの主要部分であるので、最初に選択される)。これらの適合性のあるポーズから、ポーズは、パーソナリティ、スタイル及び役割構成によって定義される頻度で確率的に選択される。制御されたランダム変形態は、少量の「変形態ポーズ」を混合することによって得られる。これらの変形態ポーズは、位置分析器からの情報並びにセンチメントスコアを使用して選択され、もしそれらによって決定されない場合、ランダムに選択される。混合される変形態ポーズの量は、位置分析器、センチメント調整、又はデフォルト範囲(変形態を追加するためだけのものであり、ポーズを特定の方向に可視的に引き寄せるものではないので、より小さい値になる可能性が高い)のいずれかによって指定された範囲から選択される。
【0051】
音声調整
タグは、選択されたジェスチャと音声をより良く整合させるために、音声を調整するように挿入されてもよく、その結果、発話の一貫した全体的なパフォーマンスが得られる。例えば、個々の単語の音声の速度、ピッチ、及び音量を修正して、それらの単語を強調することができる。そのような特徴は、
感情トーンを変化させるために節全体に対して調整されてもよい。例えば、ピッチを減少させながら速度及び音量を増加させると、より怒って聞こえるようになり、3つ全てを減少させると、より悲しく聞こえるようになるなどである。
【0052】
マークアップソルバー
マークアップソルバーは、それぞれのマークアップ生成器によって決定された全ての候補マークアップで注釈を付けられた解析木をとり、適切なマークアップが追加された元のテキストを出力して、音声及びアニメーションへと処理されるために送信されるその発話の一貫したパフォーマンスを生成する。
【0053】
例えば、いくつかのジェスチャは、(1つの頭ジェスチャ及び1つの身体ジェスチャのように)一緒に行われることができるが、他のジェスチャは、そのように行われ得ない。いくつかのジェスチャは、一連の他のジェスチャと併せて実行することのみが意味をなす(例えば、発話が「on one hand, A, but on the other hand, B」であった場合、一方の側を行って他方の側を行わないのではなく、2つのオプションを重み付けするためにジェスチャの両方の側を行うことが最も意味をなす)。このマークアップソルバーは、これらの競合を解決するが、接続されたジェスチャを保持して、発話の一貫したジェスチャパフォーマンスを構築する。
【0054】
一実施形態では、少なくとも1つのマークアップタグを有する単語について、マークアップソルバーは、各単語について多くとも1つの身体ジェスチャ及び1つの頭ジェスチャを選ぶ。これは、優先度ベースの手法を使用して実装され得る。所与の単語に対して複数の候補ジェスチャが存在する場合、ジェスチャは、所定の優先順位で選択することができる。一実施形態では、以下の優先順位が使用される。
●既存の手動タグの置換
●クライアントオーバーライドタグ
●記号的であるが、多過ぎはしない
●対話行為
●列挙
●ビート
●ターンテイキング
●身体化
【0055】
別の実施形態では、全体としてとられるジェスチャが一貫したパフォーマンスを形成されることを確実にするために、節全体又は更には段落全体が考慮される。それは、一緒にとられた一連のジェスチャが、感覚的又は自然なパターンでシーケンスを形成することを確実にする。例えば、広い弧を描き、その後に1つ以上の小さいチョップビートが続くジェスチャは、一般的なシーケンスであるが、チョップ、次いで弧、次いで別のチョップは、あまり自然ではなく、空間においてジグザグに動く(広い、狭い、広い、狭い)一連のジェスチャは、それらが伝達上(記号上)の理由でジグザグに動かない限り、不自然に見える傾向がある。それはまた、より長い又はより重要なジェスチャには、プレイアウトするのに十分な時間が与えられるが、より短いジェスチャは、より光速に連続してトリガされ得ることを確実にする。
【0056】
ポーズ及びアクションスキーム
ポーズ及びアクションスキームは、ポーズ及びアクションを入力テキストに独立して適用する。独立したポーズ及びアクションは、ビートジェスチャ、又は任意の他の好適なタイプのジェスチャに適用され得る。
【0057】
ポーズ
ポーズは、肢の位置など、ジェスチャの寸法及び/又は位置である。例えば、身体化エージェントの腕のポーズ(例えば、腕の位置)は、広く/狭く、又は高く/低くなることができる。
●広い/中程度/狭い
●高い/中程度/低い
【0058】
図5は、身体化エージェント12が伝達発話を話している間の様々な異なるポーズにおける身体化エージェント12を示す。伝達発話の入力テキスト及びマークアップは以下の通りである。
[middle_pose][strong_beats] Please place your [low_beats] ticket [low_pose] under the [medium_beats]scanner.
【0059】
この例は、ポーズ及びアクションが入力テキストの異なる部分にどのように適用され得るかを示す。ポーズが定義されると、全ての後続のアクションは、定義されたポーズから開始する。
【0060】
図5Aは、広い腕/中程度の腕の高さポーズにおける身体化エージェント12を示す。図5B及び図5Cは、低い腕の高さポーズにおける身体化エージェント12を示す。
【0061】
ポーズは、ポーズ速度(中立ポーズ又は以前のポーズから特定のポーズにどれだけ速く到達するか)と関連付けられてもよい。ポーズは、例えば、以下のプロパティタグと関連付けられてもよい。
●文字列名
●左/右又は両方(ポーズが利き手ポーズであるかどうかを指す)
●寸法タグ。例えば、腕ポーズは、幅タグ(例えば、それが狭い幅ポーズであるか、中程度の幅ポーズであるか、若しくは広い幅ポーズであるか)及び/又は高さタグ(それが高い腕ポーズであるか、中程度の腕ポーズであるか、低い高さ腕ポーズであるか)と関連付けられてもよい。
【0062】
一実施形態では、身体化エージェント12は、各アクションの後に「中立」ポーズに戻される。別の実施形態では、特定のアクションの終了ポーズは、新しいアクションの新しい開始ポーズになってもよい。
【0063】
アクション
アクションは、顔部分又は身体部分における様々な特徴ポイントの運動軌跡を指す。アクションは、任意の好適な3D再構築技法に基づくことができる。例えば、身体の動きを示すアクションは、身体部分における所定の特徴ポイントのセットによって再構築され得る。
【0064】
アクションは、限定はしないが、以下を含む好適なパラメータを用いて構成され得る。
●タイプ
●強度
●頻度
●速度
各アクションの1つのプロパティは、どのポーズにそれを適用することができるかである(例えば、ポーズが既に広く、ジェスチャが腕を広く開くものである場合、全ての組み合わせが機能するわけではない)。
【0065】
単語トークンマッチング正規表現
正規表現は、検索パターンを指定する文字のシーケンスである。これらのパターンをテキスト検索アルゴリズムによって使用して、パターンに一致するテキストのインスタンスを見つけることができる。コンピューティングにおいて使用される現代の正規表現は、「regex」と呼ばれ、通常、以下の演算子を含む(が、これらに限定されない)。
●通常のテキスト文字及び数字:a~z、A~Z、0~9、CJK文字、スペースなど、例えば、検索パターン「a」は、テキスト「cat」と第2の位置において一致する。例えば、検索パターン「cat」は、テキスト「concatenate」と位置4において一致する。
●「.」:ドットは、ワイルドカードである。それは任意の文字と一致する。例えば、検索パターン「c.t」は、「cat」、「cot」、及び「cut」と一致する。
●「*」:アスタリスクは、先行する文字の0個以上と一致する。例えば、検索パターン「cut*」は、以下の「t」文字の0個以上に一致する:「cube」、「cute」、「cutting」
●「+」:プラス記号は、先行する文字の1つ以上と一致する。
●「()」:括弧は、演算子の範囲及び優先順位を定義する。
【0066】
一実施形態では、テキストマッチングの方法は、個々の文字の代わりに節トークンに対して動作する。
【0067】
「トークン」は通常、「don’t」が「do」及び「n’t」を表す2つのトークンに分解されるなどのいくつかの例外を除いて、個々の単語に対応する。コンマ「,」などの小辞は、専用のトークンを有する。これらのトークンは、それらが属性として表すテキストの言語的特徴をカプセル化し、以下のものを含む(が、これらに限定されない)。
●品詞:名詞、動詞、形容詞、句読点など。これらは、標準的な省略表現として以下のように指定することができる。「形容詞」は「ADJ」であり、「固有名詞」は「PROPN」などである。
●詳細な品詞:比較級の副詞、限定詞、固有単数名詞。
●見出し語:単語の基本形。例えば、「looking」の見出し語はlookである。「is」の見出し語は「be」である。
●幹:語幹(現在、いかなる形でも使用されない。将来使用される可能性がある)。例えば、「fishing」、「fished」、及び「fisher」の幹は「fish」である。「argue」、「argued」、「argues」、「arguing」の語幹は「argu」である。
●依存性:構文依存性、又はトークンのその親トークンに対する関係(トークンは木構造内に存在し、各トークンは親又は子を有することができる)。
【0068】
通常のテキストは、SpaCyなどの任意の好適なツールを使用してトークンに変換することができる。
【0069】
このトークンベースのテキストマッチングは、一致する属性を指定することによって使用することができる。例えば、
●「$lemma:look over there」は、「They looked over there」、「They are looking over there」、及び「They will look over there」と一致する。
●「I am $pos:PROPN」は、固有名詞、例えば、自己紹介するキャラクタと一致する:「I am Sam」、「I am Rachel」など。
●「was $pos:ADV+ excited」 記号「+」は、先行する演算子(副詞)の1つ以上と一致する。例えば、「I was really excited」、「I was really very excited」、ここで、「really」」及び「very」は両方とも、この文における副詞である。
●アスタリスク演算子を同様に使用して、以下のように0個以上と一致することができる:「was $pos:ADV* excited」は、「I was excited」と更に一致する。
●「a . or .」 ここでの記号「.」は、単一の文字/数字に一致する通常の正規表現とは異なり、任意のトークンとマッチングする。「a . or .」は、代替が提示されているときを検出するために有用であり得る。
【0070】
これらの検索パターンのリストを記憶した辞書ファイルを記憶してもよい。あるテキストが検索パターンのうちの1つに一致する場合、関連するアクション又は感情は、そのテキストが話されたときに実行されるように登録され得る。
【0071】
構成可能性
ジェスチャ、ポーズ、及びアクションは、構成可能であり得る。一実施形態では、ジェスチャ、ポーズ、及びアクションの可能な構成は、ジェスチャ構成設定において定義される。例えば、JSONなどのジェスチャ構成ファイルは、全てのジェスチャ、ポーズ、及びアクションを、それらのジェスチャ、ポーズ、及びアクションの利用可能なパラメータとともに定義することができる。構成可能パラメータの例は、以下を含む。
●ポーズ強度(特定のポーズに対する重み付けは何か)
●ジェスチャ強度(ジェスチャがどれくらい顕著であるか、又は強調されるか)
●ジェスチャ頻度(ジェスチャが使用される確率は何か)
【0072】
一実施形態では、ジェスチャ構成は、ジェスチャ構成設定において定義される。ジェスチャ構成設定は、ジェスチャのタイプごとに、利用可能なジェスチャ及び動きの範囲を決定し得る。ジェスチャは、「完全な」ジェスチャであってもよく、これは、ポーズ及びアクションによって分割されるのとは対照的に、完全なアクション及びポーズの両方を含むことを意味する。
【0073】
ジェスチャごとに、構成設定は、そのジェスチャのための様々な運動及び構成可能パラメータを含み得る。例えば、アクションの速度の許容値は、「speed_min」値と「speed_max」値との間に制限されてもよい。ジェスチャ速度値は、speed_minとspeed_maxとの間でランダムに生成され、「[speed,0.98]」への入力として提供され得る。
【0074】
ジェスチャ頻度は、ジェスチャがランダムに選択される確率を定義する。各ジェスチャ又はジェスチャのカテゴリは、頻度と関連付けられ得る。例えば、様々なビートジェスチャは、以下の頻度を有し得る:「チョップ」:0.4、「円」:0.1、「小さい弧」:0.5、「広い弧」:0。単語がジェスチャを必要とするものとして識別された場合、頻度レートに基づいて適切なジェスチャを選択することができる。
【0075】
BEATアクション構成設定は、例えば、手のひらを下にした弧の運動に対して、利用可能な腕ポーズ、手首ポーズ、及び手ポーズのセットを定義することができる(一部のアクションは一部のポーズと互換性がないため)。構成設定はまた、4つの事前設定されたビート「強度」、すなわち、超強、強、中程度、又は低の振幅範囲を定義する。本明細書で説明する強調検出アルゴリズムは、各単語(もしあれば)に対するビートの「強度」を決定し、正確な強度は、所与の範囲内でランダムに選択される。実行時に、ビートジェスチャを生成するとき、利用可能な腕、手首、及び手ポーズの各々からランダム選択が行われ得る。BEATポーズ構成設定は、手のひらを上にする、手のひらを下にする、及び手のひらを中央にするなど、手首ポーズのための変形態ポーズを含む、手首ポーズのために定義することができる。
【0076】
パーソナリティ構成-グローバル構成設定
一実施形態では、身体化エージェントは、1つ以上のグローバル構成設定を使用して、様々なパーソナリティを与えられる。全てのジェスチャの表現に影響を及ぼすグローバル変数を設定することができる。グローバル構成設定は、可能な範囲内でジェスチャの傾向及び使用を定義する。身体化エージェントのパーソナリティは、グローバル構成設定を使用して構成することができる。
【0077】
一実施形態では、グローバル構成設定jsonは、ジェスチャ速度、ジェスチャ高さ及び幅(平均)、ビートアクションのタイプ、手ポーズ、手首の向き、興奮性、躊躇、並びに任意の他の好適なパラメータなどのジェスチャスタイルを作成するために、キャラクタオーサーが微調整したい可能性がある全てのレバーをカプセル化する。
【0078】
更なる実施形態では、グローバル構成設定内のパラメータは調整されてもよい。
【0079】
一実施形態では、グローバル構成設定は、以下のグローバルパラメータを定義する。
【0080】
速度
グローバル構成設定は、アクションの速度を決定するパラメータを定義することができる。例えば、グローバル構成設定は、アクションの最小速度及び最大速度を決定することができる。一実施形態では、異なるタイプのジェスチャに対して異なる速度パラメータを設定することができる。例えば、記号ジェスチャ及びビートジェスチャは、異なる速度パラメータで構成されてもよい。
【0081】
記号ジェスチャ速度は、身体化エージェントが記号ジェスチャに移行する速度を定義する。記号ジェスチャに移行するための最小速度及び最大速度は、身体化エージェントに対して定義され得る。
【0082】
ビートジェスチャ速度は、身体化エージェントがビートジェスチャに移行する速度を定義する。ビートジェスチャに移行するための最小速度及び最大速度は、身体化エージェントに対して定義され得る。
【0083】
ジェスチャタイプ
異なるタイプのビートジェスチャのレートが定義され得る。例えば、
“beat_types”: {“values”: [

“name”: “arc_palm_down”, “rate”: 0.2
},
...
【0084】
ジェスチャ頻度
グローバル構成設定は、身体化エージェントによる特定のタイプのジェスチャの頻度を定義することができる。例えば、1文当たりの記号ジェスチャの最大数が定義されてもよく、これにより、身体化エージェントが表示する記号ジェスチャが多過ぎないことが保証される。
【0085】
グローバル構成設定は、(ビートジェスチャに多様性をもたらすために使用され得る)強いジェスチャ、中程度のジェスチャ、及び低いジェスチャのレートを独立して設定し得る。「強い」、「中程度の」、又は「低い」重みが、各強調された単語に置かれる。rate_strong、rate_medium、rate_lowのグローバル構成は、異なるサイズのジェスチャがパーソナリティのために使用される頻度を定義する。これらの3つの値の合計が、全体のジェスチャレートである。グローバル構成設定は、身体化エージェントが文において強いビート、中程度のビート、及び低いビートをいくつ発話するかを設定する。
【0086】
「強調」パラメータは、強調強度に基づいて音声の速度を変化させる。負の値は、音声を遅くする。例えば、
“emphasis”:{
“tag”:“[[speed EMPHASIS]]”, “strong”: -0.25,
“medium”:-0.2,
“low”:-0.15
},
【0087】
「ヘッド」:構成は、強調の強度及び文のセンチメントに基づいて、強調された単語に高レベル(#)マークアップタグを追加する。これらの高レベルタグは、高レベル構成ファイルにおいて定義される。
【0088】
sentiment_threshold変数は、中立センチメントの範囲を定義することができる。センチメント分析は、-1.0(完全な否定)と+1.0(完全な肯定)との間の値を返し得る。ジェスチャのタイプ内で、グローバル構成設定は、ジェスチャの特定のサブタイプ(例えば、旋回アクション、チョッピングアクションなど)の頻度、又は個々のジェスチャの頻度さえも設定し得る。
【0089】
ポーズ構成/ジェスチャ寸法
グローバル構成設定は、身体化エージェントのジェスチャ寸法の傾向を決定することができる。例えば、ビートジェスチャの場合、グローバル構成設定は、異なるポーズ、例えば腕の位置の頻度を定義することができる。一実施形態では、グローバル構成設定は、身体化エージェントの腕の位置の何パーセントが低い、中程度の、又は高い腕の高さ/位置にあるかを定義し、身体化エージェントの腕の位置の何パーセントが互いに低い、中程度の、又は高い幅にあるかを独立して定義する。以下のための独立した構成が存在し得る。
●arm_positions:ビートジェスチャに対する異なる腕の高さ及び幅のレート。高さ(低い、中程度、高い)、幅(狭い、中程度、広い、極めて広い)
●hand_positions:ビートジェスチャに使用される異なる手の位置/形状のレート。
●hand_orientation:手のひらを上、中央、又は下にしてジェスチャする身体化エージェントの傾向
【0090】
利き手及び対称性
身体化エージェントは、構成設定において、一方の手のジェスチャの頻度及び/又は強度を他方の手のジェスチャの頻度及び/又は強度より大きく定義することによって、「利き手」を有するように構成されてもよい。
【0091】
単一の利き手の記号ジェスチャに対する各手のレートは、例えば、以下のように定義され得る。
“handedness”:{“values”: [

“name”:“left”, “rate”: 0.5
},
...
【0092】
一方又は他方の手に対して、手を一緒にジェスチャする非記号的(ビート)レートは、例えば、以下のように定義され得る。
“symmetry”:{
“values”:[

“name”:“together”,
“rate”:0.4
},
...
【0093】
感情
感情パラメータは、身体化エージェントのアニメーションが感情によってどれだけ影響を受けるかを定義することができる。emotional_thresholdパラメータは、ジェスチャのサイズが増大される前にセンチメントスコアがどれだけ高くなければならないかを定義することによって、感情が身体化エージェントにどれだけ容易に影響を及ぼすかを定義する。pose_speed_multiplierパラメータは、感情閾値を超えたときにポーズ速度を乗算する。action_speed_multiplierは、感情閾値を超えたときにアクション速度を乗算する。他では、ポーズ及びアクション速度は、乗法的ではなく加法的に修正されてもよい。
【0094】
rate_multiplierは、感情に応答して身体化エージェントのジェスチャの頻度がどれだけ増加するかを定義することができる。
【0095】
size_level_offsetは、感情に応答してレベルの数だけジェスチャのサイズを増加させることができる。height_offsetは、ジェスチャの高さの増加を定義することができ、hands_spread_offsetは、ジェスチャの幅の増加を定義することができる。
【0096】
ジェスチャ間隔
gesture_interval変数は、ジェスチャ間の単語の最小数及び最大数を定義することができる。
【0097】
first_gesture_offset変数は、文の第1のジェスチャの前の単語の最小数を事前定義することができる。これは、身体化エージェントが話す前に第1のジェスチャが再生を開始しないことを保証する。すなわち、ジェスチャオフセットは、身体化エージェントが話している合計時間より小さい。
【0098】
躊躇変数は、躊躇マーカー又は挿入語(「ums」及び「ahs」など)を導入することができる。
【0099】
グローバル構成設定は、身体化エージェントが様々な入力によってどのように影響を受けるかを決定するパラメータを定義することができる。
【0100】
例えば、感情調整は、身体化エージェントが文のセンチメントからどのように影響を受けるかを決定する変数を設定することによって達成することができる。
【0101】
ただし、文のセンチメントは、身体化エージェントの挙動に影響を及ぼす可能性がある入力の一例にすぎない。他の態様は、(例えば、マイクロフォンを介したエージェントの仮想環境からの、又はユーザからの)音声入力、(例えば、カメラを介したエージェントの仮想環境からの、又はユーザからの)視覚入力、ユーザインターフェースからの入力、あるいは任意の他の好適な入力を含み得る。
【0102】
グローバル構成設定内のパラメータは、調整ルールを使用して設定される乗数と関連付けられ得る。例えば、アクション速度乗数は、ジェスチャの速度を調整するように設定されてもよく、レート乗数は、ジェスチャの頻度を調整し得る。サイズレベルオフセットは、ジェスチャの振幅を増加させ得る(ジェスチャが「より大きく」又は「より小さく」なることをもたらす)。
【0103】
ランダム化
ジェスチャパラメータの範囲、及びジェスチャの頻度を定義することによって、グローバル構成設定パラメータは、自律アニメーションの変動及びランダム化の程度に影響を及ぼす。
【0104】
調整
ステップ106において、調整は以下を含んでもよい。
●アニメーションファイルをスワップアウトすること(ある個人は例えば「wave01」を使用し、別の個人は音声の同じ場所で「wave02」を使用するようにする)、
●異なるジェスチャを使用すること(したがって、強調のためにある個人は「チョップ」を使用し、別の個人は「円」を使用するようにする)、
●ジェスチャの速度又は振幅(S)を増加又は減少させること、
●ジェスチャのレート(エージェントが実行するジェスチャの数)を修正すること。
●調整は、ジェスチャの全体的なレート、及び/又は特定のタイプのジェスチャのレートを修正し得る。ジェスチャのレートは、構成設定において設定することができ、(様々な種類の)いくつのジェスチャが文に適用されるかを決定する。
【0105】
調整モジュールは、節分析及び/又はマークアップ生成を修正し、及び/又はそれらによって修正され得る。
【0106】
人口統計調整は、年齢、性別、人種、及び文化のような要因にわたって、身体化エージェントのジェスチャスタイルの違いを作り出す。例えば、より若いキャラクタを描写する身体化エージェントは、より老いたキャラクタより表現力が高く、優性度が低い場合がある。いくつかのジェスチャは、特定の文化内でのみ意味があり、又は異なる文化では(同じ言語を話す場合であっても)全く異なる意味を有することがある。
【0107】
パーソナリティ調整は、外向性、内向性、信頼性、親しみやすさ、開放性などのパーソナリティ特性と整合するようにジェスチャを調整し得る。これらは、構成において定義され、より細かい粒度の挙動特性(例えば、高エネルギー)にマッピングされる。細かい粒度の特性は、ジェスチャマークアップにおいて低レベルの差異(例えば、より頻繁な、より大きい、より速いジェスチャ)にマッピングされる。これらの差異は、ジェスチャレート、振幅、及び速度のそれぞれについて異なる平均値を使用することによって実装される。パーソナリティ調整の更なる例としては、以下が挙げられる:神経質な又はあまり自信がないパーソナリティに対して、より高いレートの身体化ジェスチャ(これらは、何らかの確率で節の間に挿入される-この確率を変化させて、それらが平均的に行う数を変化させる)、より表現力のあるパーソナリティに対して、より幅広い種類のジェスチャ(より少数の異なるジェスチャに対してより高いレートを設定することに対して、多くのジェスチャについて、各ジェスチャのレートをより低くなるように、しかし0より大きくなるように設定する)、より友好的でより開放的なパーソナリティに対して、手のひらを上にした、オープンハンドの、より流動的な/より滑らかな弧を描くジェスチャのより高い出現率、より権威のあるパーソナリティに対して、固定した権威主義的なジェスチャのより高い出現率(例えば手のひらが上を向くジェスチャに対してより高いレートを設定する)。
【0108】
スタイル調整は、特異質のジェスチャスタイルを身体化エージェントに適用することができる。スタイル調整は、パーソナリティ調整より細かい粒度であってもよく、身体化エージェントが、リラックスした手のひらを上にした手ポーズでジェスチャする傾向があるか、又は硬い指を広げた手のひらを下にした手ポーズ(若しくは多くの他のオプション)でジェスチャする傾向があるか、チョップアクション、旋回アクション、流動的な弧アクションなどを使用する傾向があるかどうか、左手を使用する傾向があるか右手を使用する傾向があるか、又は対称的にジェスチャする傾向があるかなど、低レベルのジェスチャ特性を定義してもよい。これらの全ては、それらのパーソナリティによって広く定義され得るが、それらは、個々のキャラクタに独特のスタイルを与えるように微調整されてもよい。これらは全て、左手/右手/両手のレート、並びにチョップジェスチャ及び旋回ジェスチャのレートなどを設定することができる高レベル/パーソナリティ構成設定で定義される。
【0109】
役割調整は、単一の身体化エージェントが、同じ発話であっても、それらのそのときの役割に応じて異なるジェスチャ挙動を表示することを可能にする。例えば、ある人が会議の会話でアイディアを提示している場合、カジュアルな会話に携わっているときとは、両方のケースで同じ単語を言っている場合であっても、異なるジェスチャを使用する可能性が高い。他の役割は、いくつかの事実を説明又は概説すること、ガイド又はアドバイスすること、指導又は教示することを含み得る。キャラクタが果たしている特定の役割は、そのパーソナリティ及び特異質のスタイルと相互作用して、結果として生じる全体的なジェスチャスタイルを形成する。
【0110】
センチメント調整は、センチメント分析の結果を使用して、特定のジェスチャをトリガし、また、潜在的に任意の又は全ての他のジェスチャを調整することを指す。特定のジェスチャは、嬉しいか又は幸せな感情のために、特に心地よい驚きを表現するために、笑ったり眉を上げたり、親指を上げたり拍手したりするか、あるいは怒り又はフラストレーションを表現するために、顔をしかめたり拳を握ったりすることであってもよい。節において表現された覚醒はまた、選択されたジェスチャを調整する。例えば、(興奮又はフラストレーションを表現する節などの)高い覚醒は、ポーズ(ジェスチャの開始ポイント)がより広くかつより高くなり、指がより広がり、ジェスチャがより頻繁になり、アクションがより大きくかつより速くなることを意味する。
【0111】
これは、以下の2つの方法で達成される:第一に、ジェスチャの頻度並びに各ジェスチャの振幅及び速度にオフセット値を加算することによる。オフセットは、高い覚醒に対しては正であり、低い覚醒に対しては負であり、覚醒が高いほどオフセットが高くなるように、及びその逆にスケーリングされる。
【0112】
第二に、腕及び手ポーズに対しては、変形態ポーズが混合される。腕の場合、変形態ポーズは、(高い覚醒のために)最も広くかつ最も高いポーズであり、これは、小~中程度まで基本ポーズと混合されて、基本ポーズは、各ジェスチャのためにより広くかつより高く「引き寄せられる」。手の場合、変形態ポーズは、小~中程度まで混合された最大広がりの指であり、これは、手がどの基本ポーズにあっても、指をわずかに更に広げるように引き寄せる。これらのオフセット及び変形態ポーズの程度は、パーソナリティ及びジェスチャスタイルの調整の一部として構成可能である。例えば、あるキャラクタは、別のキャラクタよりも表現力が高い場合があり、そのため、高度に感情的な内容は、それらのジェスチャ挙動に対してより大きい影響を有することになる。
【0113】
文レベルの感情構成は、文の全体的なセンチメントを理解し、関連する感情の変化を適用する。各感情(怒り、心配、嫌悪、恐怖など)は、(その感情をトリガする単語を定義する)辞書に接続されてもよい。各感情に、感情の低い値、中程度の値、及び高い値が定義されてもよく、各々が強度及び持続時間を有する。検出された感情の強度は、センチメント分析によって決定することができる。持続時間は、感情がどのくらい長く続くかを定義することができる。強度乗数は、基本感情が打ち消される程度を定義する。
【0114】
エージェントは、結合された計算要素及びグラフィカル要素を有する複数のモジュールを含む、神経行動モデル(生物学的にモデル化された「脳」又は神経系)を使用してシミュレートすることができる。各モジュールは、生物学的プロセスを表し、生物学的プロセスに関連し、かつそれをシミュレートする計算要素と、生物学的プロセスを視覚化するグラフィカル要素とを含む。したがって、エージェントは、外部制御なしに特定の挙動を実行するように、したがって、息を吸う、まばたきする、見回す、あくびをする、唇を動かすなどの自然に発生する自動挙動を示すように、「自動アニメーション化」されてもよい。生物学に基づく自律アニメーションは、感覚及び運動系、反射、知覚、感情及び調整系、注意、学習及び記憶、報酬、意思決定、並びに目標を含むがこれらに限定されない、神経系の複数の態様をモデル化することによって達成され得る。仮想オブジェクト又はデジタルエンティティをアニメーション化するための神経行動モデルの使用は、Sagar,M.,Seymour,M.&Henderson,A.(2016)Creating connection with autonomous facial animation. Communications of the ACM,59(12),82-91、及び国際公開第2015016723(A1)号に更に開示されており、これも、本発明の譲受人に譲渡されており、参照により本明細書に組み込まれる。
【0115】
自律アニメーションシステムは、神経行動モデルとの間で信号を送受信することができる。信号を送信することにより、身体化エージェントの発話のセンチメント及び内容が、それらの内部の感情状態に影響を及ぼすことが可能になり、それは、次いで、それらの基礎をなす感情的アニメーション又はアイドルアニメーションに影響を及ぼし得る。信号を受信することにより、キャラクタがユーザの感情状態を知覚すること、又は視野内のオブジェクトを識別することなど、外部要因がジェスチャに影響を及ぼすことが可能になり、ユーザ及び状況に対してより反応することが可能になる。別の例は、ユーザが注意を払っていることを検出し、注意を払っていない場合、何らかの音声の非流暢性を導入し、例えば、節を停止及び再開することである。
【0116】
変形態ポーズ
(不自然なポーズをもたらし得る)各特定の関節にランダム変形態を追加することの代わりに、変形態ポーズシステムは、2つ以上の一貫した入力ポーズ間の混合を可能にして、変形態ポーズという新しいポーズを作成する。入力ポーズは、一貫した様式で混合するためにアニメータによって意図的に作成され得る。
【0117】
図6は、腕の変形態ポーズ間の混合を示す。図6Aは、広いスタンスの入力ポーズを示し、図6Bは、図6Aのポーズと混合するように構成された変形態ポーズを示す。図6Cは、図6A図6Bとの間の中間ポーズである混合ポーズを示す。
【0118】
図7は、手の変形態ポーズ間の混合の第1の例を示す。図7Aは、伸ばされた手の入力ポーズを示し、図7Bは、図7Aのポーズと混合するように構成された、折り畳まれた手の変形態ポーズを示す。図7Cは、図7A図7Bとの間の中間ポーズである混合ポーズを示す。
【0119】
図8は、手の変形態ポーズ間の混合の第2の例を示す。図8Aは、曲がった指を有する手の入力ポーズを示し、図8Bは、図8Aのポーズと混合するように構成された変形態ポーズを示す。図8Cは、図8A図8Bとの間の中間ポーズである混合ポーズを示す。
【0120】
一実施形態では、TTGシステムは、以下のステップを用いて変形態ポーズを生成する。
●入力ポーズを選択又は受信する。一実施形態では、入力ポーズは「基本ポーズ」であり、これは、身体化エージェントの身体部分が構成されるデフォルトポーズであることを意味する。
●入力ポーズと混合するように構成された、対応する変形態ポーズを選択又は受信する。
●各入力ポーズと1つ以上の変形態ポーズとを混合して、混合ポーズを生成する。
【0121】
一実施形態では、入力ポーズ及び変形態ポーズはそれぞれ、強度を用いて選択され、一緒に混合される(例えば、0.8ポーズ1は、0.9ポーズ2と混合される)。
【0122】
別の実施形態では、互いに混合するように構成された2つ以上の変形態ポーズが選択され、変形態ポーズが混合される程度を指定するポーズの各々の間の混合重みは、ランダムに生成される(例えば、0.2ポーズ1は、0.4ポーズ2及び0.4ポーズ3と混合される)。
【0123】
ポーズの選択は、これから来ようとするアクションに適合するように制限されてもよい。アクションごとに適合性のあるポーズのセットが事前定義されていてもよく、その中から1つが選択される。
【0124】
自律的に感情的な音声
一実施形態では、身体化エージェントは、自律的な動的システムであり、自己駆動挙動を有し、本明細書で説明されるTTGシステムによって外部から(重み付けされた又は制御可能な方式で)制御することもでき、自律性(身体化エージェントのジェスチャが、それらの内部の感情状態によって駆動される)と方向付け可能性(身体化エージェントのジェスチャが、TTGシステムに従ってテキストによって駆動される)との混合を可能にする。「ボトムアップ」の自律型挙動は、発明の名称が「System for Neurobehavioural Animation」である米国特許第10181213(B2)号に記載されているものなどのプログラミング環境によって促進され得る。複数のモジュールが必要な構造に配置され、それぞれのモジュールは少なくとも1つの変数を有し、少なくとも1つのコネクタと関連付けられている。コネクタは、構造全体にわたってモジュール間の変数をリンクさせ、モジュールは、神経行動モデルをともに提供する。変数及び/又はモジュールは、構造の動作に影響を及ぼすために使用され得る、ドーパミン又はオキシトシンなどの神経伝達物質/神経調整物質を表し得る。
【0125】
神経行動モデルは、特許出願PCT/IB2020/056280号、「ARCHITECTURE, SYSTEM, AND METHOD FOR SIMULATING DYNAMICS BETWEEN EMOTIONAL STATES OR BEHAVIOR FOR A MAMMAL MODEL AND ARTIFICIAL NERVOUS SYSTEM」に記載されているような感情システムを含んでもよく、
この文献は、参照により本明細書に組み込まれる。
【0126】
感情的内容を伝える各単語について、TTGシステムは、可能なジェスチャと、1つ以上の感情的インパルスの両方を出力することができる。各感情的インパルスは、内部感情システムの状態を乱す。内部感情システムは、感情が互いに競合し、持続及び減衰し、感情状態の履歴を提供する、流れの動的システムである。
【0127】
したがって、身体化エージェントの内部感情反応は、単語の内容及び順序又はシーケンスに依存する。
【0128】
一実施形態では、TTGシステムは、各単語を順次的に処理し、単語が処理されるとすぐに1つ以上の感情的インパルスを出力することができる。別の実施形態では、TTGシステムは、
節、文、及び/又は段落の全体を処理し、任意の好適なルール又は文の分析に従って、感情的インパルスを出力することができる。
【0129】
したがって、自律的感情音声は、感情が長くなり、適切に混合するように、身体化エージェントの内部状態に影響を及ぼす入力テキスト(例えば、キーワード又はセンチメント)の内容によって、履歴を用いて階層化可能で混合可能な方法で、感情システムを駆動する。
【0130】
一実施形態では、単語は、2つ以上の基礎をなす感情に分解され得る。例えば、「marvellous」という単語は、「surprising」及び「happy」の両方として解釈することができ、「horrified」は、「fear」+「disgust」に分解することができる。一実施形態では、2つ以上の「感情辞書」は各々、特定の感情の要素を表す単語のリストを含む。単語又はトークンは、どの成分感情が単語又はトークンに適用されるかを決定するために、感情辞書とマッチングされる。
【0131】
一実施形態では、感情辞書内で一致する各単語は、その単語が感情辞書に関連する程度を表す辞書マッチ変数と対にすることもできる。例えば、「fear」辞書は、以下のような対応する辞書マッチ変数を有する単語を含むことができる:horrifying 0.9、disaster 0.92、scary 0.8、uncomfortable 0.6。マッチングされた感情及び辞書マッチ変数の両方が返され、感情システムへの入力として提供され得る。これは、構成的で混合可能でかつ遷移的なやり方で、複雑で複合的な感情に応答する方法を提供する。
【0132】
強調検出
強調検出アルゴリズムは、伝達発話内の単語の重要性を決定し、身体化エージェントが最も重要な単語をジェスチャで強調することを可能にする。強調検出アルゴリズムは、特定の基準に従ってキーワードを識別することができる。一実施形態では、強調検出アルゴリズムは、各節内のどの単語に強い強調、中程度の強調、低い強調、又は強調なしが与えられるかを識別する。
【0133】
図2は、一実施形態による強調検出アルゴリズムを示す。ステップ202において、入力テキストを受信する。ステップ204において、入力テキスト内の各「トークン」又は単語wについて、各強調検出ルールを適用する。単語スコアの計算は、いくつかのルールの適用を含むことができる。ステップ206において、各強調検出ルールについて、関連するトークン又は単語に対するルールスコアを計算する。強調検出ルールは、いくつかのルールが他のルールより単語スコアに対してより大きい影響を有するように重み付けされてもよい。ステップ208において、トークン又は単語に対する全体的な強調スコアを計算する。ステップ210において、各ルールの強調スコアを返す。次に、単語の強調スコアを使用して、強調スコアに基づいてジェスチャを適用する。
【0134】
一実施形態では、強調検出アルゴリズムは、各単語の希少性を調べる。単語及び(特定の言語又はコンテキストにおけるその単語の使用の)関連付けられた「頻度」のルックアップテーブルを使用して、各単語の単語希少性を返すことができる。
【0135】
相対的に高い強調スコアを有する単語は、「ビート」を「トリガする」ことができ、ビートは、いかなる発話内容も伝えないが、非叙述的内容を伝え、発話のリズムと整合するタイプのジェスチャである。強調検出は、ルールを起動するためにキーワードが定義されたパラメータを認識する。
【0136】
「重み」又は強度は、0~1の範囲であってもよい。重みは、各ルールについて指定される。重みは、ルールごとの「重み」、及び単語ごとの「重み」という、2つの方法で適用することができる。
【0137】
ルールの重みは一定のままであり、例えば、センチメントルールは、常に0.8の値で重み付けされる。一方、キーワードは、対応する辞書内のその記述された値に応じて重み付けされ、
例えば、I am very excited(センチメント辞書に0.7としてリストされる)。
【0138】
複数のキーワードが、所与の文において識別され、それに応じてビートジェスチャで強調され得る。一実施形態では、強調検出アルゴリズムは、所与の節内のキーワードを識別し、重み付けされたキーワード識別アルゴリズムに基づいて、全ての単語に高い強調、中程度の強調、低い強調、又は強調なしを割り当てる。スコアは、文中の全ての単語について計算され、降順にソートされる。上位10%は強いビートとして定義され、その後続の10%は中程度のビートとして定義され、更にその後続の10%は低いビートとして定義される。ビートを強、中程度及び/又は低として分類するために、任意の好適な閾値が提供されてもよい。
【0139】
ビートジェスチャは、ビートのストロークが単語内の強勢音節と同期するように、強勢音節に適用されてもよい。
【0140】
ルールは、MAXを合計するか又は見つけることを含む、任意の好適な様式で組み合わされてもよい。好適なルール重み付けの一例は図3に示されている。図4は、入力テキスト「John loves snorkelling in Greece」へのルールの適用例を示す。
【0141】
強調検出の微調整
強調検出ルールの重みは、人間の注釈付きデータに対して、例えば、貪欲アルゴリズム又は深層学習モデルを使用して、微調整され得る。様々な意味ドメインをカバーする(好ましくは1500個を超える)文の集合が、訓練データセットとして選択される。人間のアノテータは、各文についてキーワード(強調語)を手動で選択する。合計3540個の文が訓練データセットとして使用される。一実施形態では、複数のアノテータが使用され、それらのアノテーション決定の適合性が測定され得る。1つの実験では、本出願人らは、2人の人間のアノテータが、強調された単語の71.44%について同意したことを見出した。全てのアノテータからの注釈を同時に使用して、単一の注釈への過剰適合を回避することができる。
【0142】
一実施形態では、重みは、貪欲アルゴリズムを使用して微調整される。貪欲アルゴリズムを使用して、重みを微調整して、訓練データに対して最大精度を得る。全ての重みはランダムに初期化される。各反復において、全ての重みは、ランダムに選択された1つを除いて、固定される。これは、訓練データの精度を最大化するために、[0,1]内の0.01精度で検索することによって調整される。アルゴリズムは、10k回の反復後に終了する。
【0143】
別の実施形態では、重みを訓練するために深層ニューラルネットワークを使用する。重みを見つけるために、バイアス又はアクティブ化のない1層完全接続フィードフォーワードネットワークをKerasから使用する。
【0144】
利点
TTGシステムは、身体化エージェントのジェスチャスタイルを変化させることによって、異なるパーソナリティの印象を作り出す。TTGシステムは、高度に構成可能である。パーソナリティ及びボディランゲージを理解している人、例えば映画監督は、このシステムを使用して、身体化エージェントにおいて異なる現実的な挙動を作成することができる。人は、使用されるジェスチャのセット、例えば、手のひらを上にするか手のひらを下にするかを選択することができる。彼らはまた、それらのジェスチャの速度、レート、サイズ、及び位置を調節することができる。彼らは、ジェスチャが文のセンチメントによってどのように影響を受けるかを構成することによって、エージェントがどのように感情的に表現されるかを指定することができる。上記の態様は全て、エージェントの知覚されるパーソナリティに影響を及ぼす。
【0145】
アクション及びポーズスキームは、より少ない計算記憶空間を必要とする様式で、多種多様なジェスチャを効率的に生成するために使用される。アクション及びポーズスキームはまた、全ての変形態がアニメータによって手動で作成されることを必要とせずに、アクション及びポーズスキームを使用してアニメーションの大きいセットが自動的に生成され得るので、アニメータの時間を節約する。
【0146】
システムは、以下を含む、対話において最も一般的に使用されるジェスチャタイプを識別する。
●記号ジェスチャ(アイコン的、メタファ的、エンブレム的)-文字列マッチング及び辞書に基づいて識別される。例えば、「square」という単語に対して正方形をトレースすること、「higher」に対してアップジェスチャを使用すること。
●対話行為ジェスチャ-言語学に基づいて我々のルールによって識別される。例えば、質問に対しては、少し肩をすくめ、開いた手のひらで外向きの弧を描くこと、否定に対しては、頭を振って手首を拒絶的に弾くこと、「you can have this or that」の中の「this or that」に対しては、左を指し、次いで右を指すこと。
●強調ジェスチャ-キーワード検出を使用して識別される。例えば、「this is really bad」の「really」にビートジェスチャを適用すること。
●身体化ジェスチャ-例えば、一方の側を見上げ、額にしわを寄せ、次いで、「constructivist epistemology」という用語を検索しているかのように振り返ること、節の間で一方の足から他方の足へ体重を移動させること
●ターンテイキングジェスチャ-例えば、終了していない(会話の発言権を保持する)ときは節の間で目をそらすこと、終了した(会話の発言権を譲る)ときはユーザを直接見て笑うこと。
【0147】
TTGシステムは、アニメーションを知らせるのに役立つ入力テキストから言語情報を導出するので、TTGシステムは、より人間のような自律アニメーションをもたらす。TTGシステムは、文を表す依存木内の単語間の関係に基づいて、否定を検出する。TTGシステムは、単語の品詞において名詞句、動詞句、及び他のパターンを見つけることによって、列挙動作を検出する。
【0148】
変形態ポーズは、ジェスチャに対して自然に見えるランダム性を導入する。
【0149】
解釈
記載の方法及びシステムは、任意の好適な電子コンピューティングシステム上で利用されてもよい。以下に記載される実施形態によれば、電子コンピューティングシステムは、様々なモジュール及びエンジンを使用して本発明の方法論を利用する。電子コンピューティングシステムは、少なくとも1つの処理装置、1つ以上のメモリデバイス、又は1つ以上のメモリデバイスに接続するためのインターフェースと、システムが1人以上のユーザ又は1つ以上の外部システムからの命令を受信し操作することを可能にするために外部デバイスに接続するための入力及び出力インターフェースと、様々な構成要素間の内部及び外部通信用のデータバスと、好適な電源と、を含んでもよい。更に、電子コンピューティングシステムは、外部及び内部デバイスと通信するための1つ以上の通信デバイス(有線又は無線)と、ディスプレイ、ポインティングデバイス、キーボード、又は印刷デバイスなどの1つ以上の入出力デバイスと、を含んでもよい。処理装置は、メモリデバイス内のプログラム命令として記憶されたプログラムのステップを実行するように構成される。プログラム命令は、本明細書に記載されるような本発明を実行する様々な方法が実行されることを可能にする。プログラム命令は、例えば、Cベースの言語及びコンパイラなどの任意の好適なソフトウェアプログラミング言語及びツールキットを使用して開発又は実装されてもよい。更に、プログラム命令は、例えば、コンピュータ可読媒体上に記憶されるなど、メモリデバイスに転送される又は処理装置によって読み取られることが可能であるように、任意の好適な様式で記憶されてもよい。コンピュータ可読媒体は、例えば、ソリッドステートメモリ、磁気テープ、コンパクトディスク(CD-ROM又はCD-R/W)、メモリカード、フラッシュメモリ、光ディスク、磁気ディスク、又は任意の他の好適なコンピュータ可読媒体などのプログラム命令を有形に記憶するための任意の好適な媒体であってもよい。電子コンピューティングシステムは、関連データを取得するために、データ記憶システム又はデバイス(例えば、外部データ記憶システム又はデバイス)と通信するように構成される。本明細書に記載されるシステムは、本明細書に記載される様々な機能及び方法を実行するように構成された1つ以上の要素を含むことが理解されよう。本明細書に記載される実施形態は、システムの要素を構成する様々なモジュール及び/又はエンジンが、機能の実装を可能にするためにどのように相互接続され得るかを示す例を読者に提供することを目的とする。更に、記載される実施形態は、システム関連詳細において、本明細書に記載される方法のステップがどのように実行され得るかを説明する。概念図は、様々な異なるモジュール及び/又はエンジンによって様々なデータ要素が異なる段階でどのように処理されるかを読者に示すために提供される。したがって、モジュール又はエンジンの配置及び構築は、様々な機能が本明細書に記載されるものとは異なるモジュール又はエンジンによって実行され得るように、かつ、特定のモジュール又はエンジンが単一のモジュール又はエンジンに組み合わされ得るように、システム及びユーザ要件に応じて適合され得ることが理解されよう。記載されるモジュール及び/又はエンジンは、任意の好適な形態の技術を使用して実装され、命令を提供され得ることが理解されよう。例えば、モジュール又はエンジンは、任意の好適な言語で書かれた任意の好適なソフトウェアコードを使用して実装又は作成されてもよく、コードはその後、任意の好適なコンピューティングシステム上で実行され得る実行可能プログラムを生成するようにコンパイルされる。代替的に、又は実行可能プログラムと併せて、モジュール又はエンジンは、ハードウェア、ファームウェア、及びソフトウェアの任意の好適な組み合わせを使用して実装されてもよい。例えば、モジュールの一部分は、特定用途向け集積回路(application specific integrated circuit、ASIC)、システムオンチップ(system-on-a-chip、SoC)、フィールドプログラマブルゲートアレイ(field programmable gate arrays、FPGA)、又は任意の他の好適な適応可能若しくはプログラム可能な処理デバイスを使用して実装されてもよい。本明細書に記載される方法は、記載されたステップを実行するように具体的にプログラムされた汎用コンピューティングシステムを使用して実装されてもよい。代替的に、本明細書に記載される方法は、データソート及び可視化コンピュータ、データベースクエリコンピュータ、グラフィック分析コンピュータ、データ分析コンピュータ、製造データ分析コンピュータ、ビジネスインテリジェンスコンピュータ、人工知能コンピュータシステムなど、特定の分野と関連付けられた環境からキャプチャされた特異的なデータに対して、記載されたステップを実行するように具体的に適合されている、特定の電子コンピュータシステムを使用して実装されてもよい。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2022-10-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.前記仮想キャラクタ又はデジタルエンティティの1つ以上の身体部分について、入力テキストに適用されるポーズを決定するステップと、
iii.入力テキストに適用される前記身体部分のアクションを決定するステップと、
iv.前記ポーズから適用される前記アクションを表す前記仮想キャラクタ又はデジタルエンティティの少なくとも1つの動きを生成するステップと、を含む、方法。
【請求項2】
前記ポーズが、腕ポーズであり、ポーズを決定する前記方法が、腕の間の水平距離を決定するステップを含む、請求項1に記載の方法。
【請求項3】
前記ポーズが、腕ポーズであり、ポーズを決定する前記方法が、1つ以上の腕の垂直高さを決定するステップを含む、請求項1又は2に記載の方法。
【請求項4】
前記少なくとも1つの動きが、ビートジェスチャである、請求項1~3のいずれか一項に記載の方法。
【請求項5】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.入力テキストを受信する入力モジュールと、
ii.決定モジュールであって、
i.入力テキストに適用される前記仮想キャラクタ又はデジタルエンティティの1つ以上の身体部分のポーズ、及び
ii.前記少なくとも1つのポーズから適用される前記身体部分のアクション、を決定する、決定モジュールと、
iii.前記ポーズ及び前記アクションに基づいて、前記仮想キャラクタ又はデジタルエンティティの少なくとも1つの動きを生成する出力モジュールと、を含む、システム。
【請求項6】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.アニメーション化される1つ以上の身体部分の入力ポーズを決定するステップと、
ii.前記1つ以上の身体部分の変形態ポーズを決定するステップであって、前記変形態ポーズが、前記入力ポーズと混合するように構成される、ステップと、
iii.前記入力ポーズと前記変形態ポーズとの間の重み付けされた補間を含む混合ポーズを決定するステップと、
iv.前記混合ポーズを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するステップと、を含む、方法。
【請求項7】
ポーズを決定する前記ステップが、請求項6に記載の方法の前記ステップを含む、請求項1に記載の方法。
【請求項8】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.決定モジュールであって、
i.アニメーション化される入力ポーズ、
ii.ジェスチャを表す変形態ポーズであって、前記変形態ポーズが、前記入力ポーズと混合するように構成されている、変形態ポーズ、
iii.前記入力ポーズと前記変形態ポーズとの間の重み付けされた補間を含む混合ポーズ、を決定する、決定モジュールと、
ii.前記混合ポーズを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するアニメーション化モジュールと、を含む、システム。
【請求項9】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、前記デジタルエンティティの仮想キャラクタが、少なくとも1つの腕、手首、及び指を有し、前記方法が、
i.
様々な腕ポーズから選択された腕ポーズ、
様々な手首ポーズから選択された手首ポーズ、及び
様々な指ポーズから選択された指ポーズ、のうちの少なくとも2つを決定するステップと、
ii.前記仮想キャラクタ又はデジタルエンティティをアニメーション化して、前記腕ポーズ、前記手首ポーズ、及び/又は前記指ポーズを含む全体的なポーズを表示するステップと、を含む、方法。
【請求項10】
少なくとも2つを決定することが、ランダムに決定される、請求項9に記載の方法。
【請求項11】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、前記デジタルエンティティの仮想キャラクタが、少なくとも1つの肢を有し、前記方法が、
i.少なくとも、
様々な肢ポーズから選択された肢ポーズ、
前記肢の様々なサブ部分ポーズから選択されたサブ部分のポーズ、を決定するステップと、
ii.前記仮想キャラクタ又はデジタルエンティティをアニメーション化して、前記肢ポーズ及び前記肢のサブ部分の前記ポーズを含む全体的なポーズを表示するステップと、を含む、方法。
【請求項12】
少なくとも決定することが、ランダムに決定される、請求項11に記載の方法。
【請求項13】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.前記入力テキスト内の各単語の強調スコアを決定するステップと、
iii.前記入力テキスト内の残りの単語と比較して相対的に高い強調スコアを有する単語のセットを決定するステップと、
iv.前記入力テキストを話すように仮想キャラクタ又はデジタルエンティティをアニメーション化し、相対的に高い強調スコアを有する前記単語のセットからの各単語にジェスチャを適用するステップと、を含む、方法。
【請求項14】
前記ジェスチャが、相対的に高い強調スコアを有する前記単語のセットからの各単語の強勢音節に適用される、請求項13に記載の方法。
【請求項15】
前記ジェスチャが、ビートジェスチャである、請求項13又は14に記載の方法。
【請求項16】
前記強調スコアが、単語の希少性に基づき、より高い希少性を有する単語が、より高い強調スコアを有する、請求項13~15のいずれか一項に記載の方法。
【請求項17】
相対的に高い強調スコアを有する前記単語のセットが、前記入力テキスト内の全ての単語の所定の上位パーセンタイル内の強調スコアを有する前記入力テキストからの単語を含む、請求項13~16のいずれか一項に記載の方法。
【請求項18】
前記単語のセットからの各単語に適用される前記ジェスチャが、前記単語の前記強調スコアに比例又は実質的に比例するジェスチャ振幅を有する、請求項13~16のいずれか一項に記載の方法。
【請求項19】
前記強調スコアが、各単語の前記強調スコアを決定するために基準のセットを適用することによって計算され、前記強調スコアに対する各基準の寄与が、重み付けを使用して重み付けされる、請求項13~16のいずれか一項に記載の方法。
【請求項20】
前記基準のセットが、単語のセンチメント、品詞、大文字化、否定、及び希少性からなる群から選択される、請求項19に記載の方法。
【請求項21】
前記重み付けが、人間のアノテータと同じ様式で単語を強調するように最適化されている、請求項20に記載の方法。
【請求項22】
前記重み付けが、機械学習を使用して最適化されている、請求項21に記載の方法。
【請求項23】
仮想キャラクタ又はデジタルエンティティをアニメーション化するためのシステムであって、前記システムが、
i.入力テキストを受信する入力受信手段と、
ii.複数のジェスチャであって、各ジェスチャが、
i.アニメーション、
ii.前記アニメーションを変化させるための少なくとも1つの構成可能パラメータ、及び
iii.前記構成可能パラメータの構成範囲、と関連付けられている、複数のジェスチャと、
iii.アニメーション生成器であって、前記アニメーション生成器が、
i.入力テキストを分析して、少なくとも1つのジェスチャを決定すること、
ii.前記構成範囲から前記構成可能パラメータの構成を決定すること、及び
iii.前記構成可能パラメータによって変化される前記アニメーションを用いて、前記仮想キャラクタ又はデジタルエンティティをアニメーション化すること、を行うように構成されている、アニメーション生成器と、を含み、
各ジェスチャが、構成パラメータの前記構成範囲を調整するための少なくとも1つの調整変数と関連付けられており、前記アニメーション生成器が、前記調整変数によって修正される前記構成可能パラメータの構成を決定するように構成されている、システム。
【請求項24】
前記構成範囲から前記構成可能パラメータの構成を決定することが、ランダムに決定される、請求項23に記載のシステム。
【請求項25】
構成可能パラメータが、ジェスチャ速度、ジェスチャ振幅、及びジェスチャポーズからなる群から選択される、請求項24に記載のシステム。
【請求項26】
仮想キャラクタ又はデジタルエンティティをアニメーション化する方法であって、
i.前記仮想キャラクタ又はデジタルエンティティによって話される単語を指定する入力テキストを受信するステップと、
ii.前記入力テキストを分析して、少なくとも1つのジェスチャタイプを決定するステップであって、各ジェスチャタイプが、選択のために利用可能な複数のジェスチャ、及び関連付けられた頻度値を含む、ステップと、
iii.ジェスチャ頻度値を使用して、入力テキストに適用されるジェスチャを選択するステップと、
iv.選択された前記ジェスチャを使用して、前記仮想キャラクタ又はデジタルエンティティをアニメーション化するステップと、を含む、方法。
【国際調査報告】