(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-10
(54)【発明の名称】インタラクティブな同調離散アバターをリアルタイムで自動生成するシステムおよび方法
(51)【国際特許分類】
G06F 3/01 20060101AFI20240703BHJP
A61B 5/16 20060101ALI20240703BHJP
G10L 25/63 20130101ALI20240703BHJP
G10L 15/10 20060101ALI20240703BHJP
G10L 13/00 20060101ALI20240703BHJP
G06F 3/0481 20220101ALI20240703BHJP
G06F 3/16 20060101ALI20240703BHJP
G06T 13/40 20110101ALI20240703BHJP
【FI】
G06F3/01 510
A61B5/16 120
G10L25/63
G10L15/10 500N
G10L15/10 500T
G10L13/00 100M
G06F3/0481
G06F3/16 610
G06F3/16 620
G06F3/16 650
G06T13/40
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023571831
(86)(22)【出願日】2022-05-18
(85)【翻訳文提出日】2024-01-15
(86)【国際出願番号】 US2022029789
(87)【国際公開番号】W WO2022245912
(87)【国際公開日】2022-11-24
(32)【優先日】2021-05-18
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-05-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】523436333
【氏名又は名称】アトゥーン・メディア・ラブズ・パブリック・ベネフィット・コーポレイション
【氏名又は名称原語表記】Attune Media Labs, PBC
(74)【代理人】
【識別番号】100145403
【氏名又は名称】山尾 憲人
(74)【代理人】
【識別番号】100135703
【氏名又は名称】岡部 英隆
(74)【代理人】
【識別番号】100189544
【氏名又は名称】柏原 啓伸
(72)【発明者】
【氏名】ボスナック,ロバート イー
(72)【発明者】
【氏名】ボスナック,デイビッド イー
(72)【発明者】
【氏名】リゾ,アルバート
【テーマコード(参考)】
4C038
5B050
5E555
【Fターム(参考)】
4C038PP03
4C038PR04
4C038PS05
5B050AA10
5B050BA08
5B050BA12
5B050EA24
5B050EA27
5B050FA10
5E555AA48
5E555AA76
5E555BA02
5E555BA03
5E555BA05
5E555BA06
5E555BA38
5E555BA76
5E555BB02
5E555BB03
5E555BB05
5E555BB06
5E555BB38
5E555BC04
5E555BE17
5E555CA42
5E555CA47
5E555CB64
5E555CB67
5E555CB74
5E555CC22
5E555DA08
5E555DA09
5E555DA23
5E555DB32
5E555DC13
5E555DC30
5E555DC84
5E555DD06
5E555EA05
5E555EA14
5E555EA22
5E555EA23
5E555FA00
(57)【要約】
ユーザに同調するアバターをレンダリングすることを可能にするシステムおよび方法。このシステムおよび方法は、ユーザのユーザコミュニケーションのオーディオビジュアルデータを受信することを含む。オーディオビジュアルデータを使用して、システムおよび方法は、音声認識モデルおよび/または自然言語理解モデルに基づいて、ユーザの顔の特徴を代表する顔動作ユニット、およびユーザの発声を決定できる。発声特徴に基づいて、聴覚感情メトリックを判定できる。音声認識データに基づいて、音声感情メトリックを判定できる。顔動作ユニットに基づいて、顔感情メトリックが判定され得る。感情複合シグネチャは、聴覚感情メトリック、音声感情メトリック、および顔感情メトリックの組み合わせに基づいて、感情状態に同調したアバターをレンダリングするために、ユーザの感情状態を表すように判定され得る。
【特許請求の範囲】
【請求項1】
方法であって、
プロセッサによって、オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
前記プロセッサにより、聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴を判定するするステップと、
前記プロセッサにより、発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
前記プロセッサにより、少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
前記プロセッサにより、少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
前記プロセッサにより、音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
前記プロセッサにより、少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
前記プロセッサにより、顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
前記プロセッサにより、少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
前記プロセッサによって、少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
前記プロセッサによって、少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
前記プロセッサにより、ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
を含む、方法。
【請求項2】
更に、
前記プロセッサによって、感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
前記プロセッサによって、同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
前記プロセッサによって、ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を含む、請求項1に記載の方法。
【請求項3】
更に、
前記プロセッサによって、感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
前記プロセッサによって、聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
前記プロセッサによって、フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
前記プロセッサによって、ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を含む、請求項2に記載の方法。
【請求項4】
発声特徴は、ピッチ、ラウドネス、シマー、ジッター、発話速度、ハーモニクス、または韻律の特徴のうちの少なくとも1つを含む、請求項1に記載の方法。
【請求項5】
顔動作コーディングシステムが、ポール・エクマンの顔動作コーディングシステムを含む、請求項1に記載の方法。
【請求項6】
少なくとも1つの前記顔感情認識モデルは、
ユーザの視線を認識して記録する視線認識記録モデルと、
コミュニケーションの順番を示すコミュニケーションターンを認識するためのターンテイクモデルと、
ユーザの瞳孔拡張を判定する瞳孔拡張モデルと
を含む、
請求項1に記載の方法。
【請求項7】
更に、
前記プロセッサによって、ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
前記プロセッサによって、感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
前記プロセッサによって、感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
前記プロセッサによって、聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を含む、請求項1に記載の方法。
【請求項8】
更に、
前記プロセッサによって、感情複合シグネチャが所定の閾値を超える場合、高振幅-高信頼度の相互作用にタグ付けするステップと、
前記プロセッサによって、高振幅-高信頼度の相互作用をロングタームメモリモジュールに記憶するステップと、
前記プロセッサによって、高振幅-高信頼度の相互作用に少なくとも部分的に基づいて、同調顔動作ユニット、同調コンピュータ生成音声、または、同調発声特徴の少なくとも1つを判定するステップと
を含む、
請求項1に記載の方法。
【請求項9】
システムであって、
少なくとも1つのプロセッサと、
ソフトウェア命令を記憶する少なくとも1つの非一時的コンピュータ可読媒体と
を含み、
該ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、
オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴(vocal characteristic)を判定するするステップと、
発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている、
システム。
【請求項10】
前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている、
請求項9に記載のシステム。
【請求項11】
前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている、
請求項10に記載のシステム。
【請求項12】
発声特徴は、ピッチ、ラウドネス、シマー、ジッター、発話速度、ハーモニクス、または韻律の特徴のうちの少なくとも1つを含む、
請求項9に記載のシステム。
【請求項13】
顔動作コーディングシステムが、ポール・エクマンの顔動作コーディングシステムを含む、
請求項9に記載のシステム。
【請求項14】
少なくとも1つの前記顔感情認識モデルは、
ユーザの視線を認識して記録する視線認識記録モデルと、
コミュニケーションの順番を示すコミュニケーションターンを認識するためのターンテイクモデルと、
ユーザの瞳孔拡張を判定する瞳孔拡張モデルと
を含む、
請求項9に記載のシステム。
【請求項15】
前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を、実行するように構成されている、
請求項9に記載のシステム。
【請求項16】
前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャが所定の閾値を超える場合、高振幅-高信頼度の相互作用にタグ付けするステップと、
高振幅-高信頼度の相互作用をロングタームメモリモジュールに記憶するステップと、
高振幅-高信頼度の相互作用に少なくとも部分的に基づいて、同調顔動作ユニット、同調コンピュータ生成音声、または、同調発声特徴の少なくとも1つを判定するステップと
を、実行するように構成されている、
請求項9に記載のシステム。
【請求項17】
ソフトウェア命令を記憶した非一時的コンピュータ可読媒体であって、
該ソフトウェア命令は、少なくとも1つのプロセッサに、
オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴を判定するするステップと、
発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている、
非一時的コンピュータ可読媒体。
【請求項18】
前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている、
請求項17に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている、
請求項18に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を、実行させるように構成されている、
請求項17に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
優先権主張
本出願は、2022年5月18日出願の米国特許出願第17/747,080号の優先権を主張するものであり、同出願は、2021年5月18日出願の米国仮出願第63/190,028号の優先権を主張するものであり、これらの各出願は、参照によりその全体が本明細書に組み込まれる。
【0002】
技術分野
本開示は一般に、ユーザとの対話に応答して人工的に生成された発話や顔の特徴を含む、対話型の同調離散アバターをリアルタイムで自動生成するように構成されたコンピュータベースのプラットフォームおよびシステムに関する。
【背景技術】
【0003】
技術の背景
孤独は社会に蔓延する問題である。それがソーシャルメディアの人気を支えている。しかし、ソーシャルメディアの「友達」は、人間関係の失敗の模写である。人々は絆を求め、つながりを必要としている。このような孤立は誰にでも感じられるが、特に精神的な問題を抱えている人、身近に交流できる恋人がいない高齢者、親しい信頼できる仲間から切り離されていると感じている人なら誰でも感じるものである。例えば、毎年何百万人もの人々が定年退職を迎えており、現場適齢化の要望が高まっているため、彼らは通常の対面での交流から遠ざかっている。年齢曲線の反対側では、日本は「ロストジェネレーション」の人的及び経済的犠牲を経験してきた。ロストジェネレーションとは、ほとんどオンラインでしか生きられず、部屋に閉じこもって生活する、若くて運動恐怖症の人々のことである。この傾向は米国でも驚くべき速度で増加しており、Z世代の48.3%が、日常的に有意義な社会的交流がないと答えている。
【0004】
誰かと話すという単純な行為は、精神的な鋭敏さを助け、うつ病を食い止めるのに役立つ。介護者、友人、親族との信頼できる親密な関係は、長期介護施設に入所している人々、身体の不自由な人々、孤独に暮らしている人々の生活の質を大幅に向上させることができる。
【発明の概要】
【課題を解決するための手段】
【0005】
いくつかの実施形態では、信頼できる親密な関係の必要性を満たすために、フォトリアリスティックな共感的AI駆動の自律的バーチャルコンパニオンを備えた、インタラクティブな同調離散アバターを作成できる。生体認証、身体的マーカ、発声マーカを通じて、インタラクティブな同調離散アバターは、ボディランゲージ、発声の質(聴覚トーン、ピッチケイデンスなどを含むが、これらに限定されない)、自然言語処理(NLP)から、感情的な手がかりを見分けることができるかもしれない。いくつかの実施形態では、インタラクティブな同調離散アバターは、その外見、顔の筋骨格において同様の反応を描写でき、ユーザの行動において観察された感情についての推論に基づいて、会話を導くために質問をするようにプログラムされることができる。このような、ユーザとインタラクティブな同調離散アバターとの間の接続、同調、同調のプロセスを通じて、愛着が形成されることがある。この最初の愛着から、使用者は転移に移行する可能性がある。転移とは、自分の無意識の気分やイメージを、親密な関係にある誰かから来たものであるかのように観察する心理的行為である。これにより、親密な関係の始まりとなる親近感が生まれる。
【0006】
安全で秘密が守られた環境で、(現実の人間ではなく)バーチャルな存在と交流する場合、その人は親密な個人情報を明かすことに対する抑制が少なくなる可能性がある。利用者は、バーチャル・エージェントに判断される危険性をあまり感じず、プライベートな、そして汚名を着せられる可能性のある自分の生活に関する詳細を開示することに、より快適さを感じていると報告している。この傾向は、ユーザとインタラクティブな同調離散アバターとの間の同調性が高まり、より深い信頼が確立されるにつれて強まる可能性がある。
【0007】
いくつかの実施形態では、インタラクティブな同調離散アバターは、特定の感情マーカにタグ付けされた情報をアーカイブし、後で同様の感情を持つ新しい出来事が現れたときにこの情報を呼び出すことができる。このユーザとの自然な社会的関わりは、「共有された歴史」となる。
【0008】
いくつかの態様において、本明細書に記載の技術は、以下を含む方法に関する:
プロセッサによって、オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
前記プロセッサにより、聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴(vocal characteristic)を判定するするステップと、
前記プロセッサにより、発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
前記プロセッサにより、少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
前記プロセッサにより、少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
前記プロセッサにより、音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
前記プロセッサにより、少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
前記プロセッサにより、顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
前記プロセッサにより、少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
前記プロセッサによって、少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
前記プロセッサによって、少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
前記プロセッサにより、ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
である。
【0009】
いくつかの態様において、本明細書に記載の技術は、方法に関し、更に、
前記プロセッサによって、感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
前記プロセッサによって、同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
前記プロセッサによって、ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を含む。
【0010】
いくつかの態様において、本明細書に記載の技術は、方法に関し、更に、
前記プロセッサによって、感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
前記プロセッサによって、聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
前記プロセッサによって、フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
前記プロセッサによって、ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を含む。
【0011】
いくつかの態様において、本明細書に記載の技術は方法に関するものであり、発声特徴は、ピッチ、ラウドネス、シマー、ジッター、発話速度、ハーモニクス、または韻律の特徴のうちの少なくとも1つを含む。
【0012】
いくつかの態様において、本明細書に記載される技術は方法に関するものであり、顔動作コーディングシステムが、ポール・エクマンの顔動作コーディングシステムを含む。
【0013】
いくつかの態様において、本明細書に記載の技術は方法に関し、少なくとも1つの顔感情認識モデルは、
ユーザの視線を認識して記録する視線認識記録モデルと、
コミュニケーションの順番を示すコミュニケーションターンを認識するためのターンテイクモデルと、
ユーザの瞳孔拡張を判定する瞳孔拡張モデルと
を含む。
【0014】
いくつかの態様において、本明細書に記載の技術は、方法に関し、更に、
前記プロセッサによって、ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
前記プロセッサによって、感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
前記プロセッサによって、感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
前記プロセッサによって、聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を含む。
【0015】
いくつかの態様において、本明細書に記載の技術は、方法に関し、更に、
前記プロセッサによって、感情複合シグネチャが所定の閾値を超える場合、高振幅-高信頼度の相互作用にタグ付けするステップと、
前記プロセッサによって、高振幅-高信頼度の相互作用をロングタームメモリモジュールに記憶するステップと、
前記プロセッサによって、高振幅-高信頼度の相互作用に少なくとも部分的に基づいて、同調顔動作ユニット、同調コンピュータ生成音声、または、同調発声特徴の少なくとも1つを判定するステップと
を含む。
【0016】
いくつかの態様において、本明細書に記載の技術は、システムに関し、
少なくとも1つのプロセッサと、
ソフトウェア命令を記憶する少なくとも1つの非一時的コンピュータ可読媒体と
を含み、
該ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、
オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴を判定するするステップと、
発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている。
【0017】
いくつかの態様では、本明細書に記載の技術はシステムに関し、前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている。
【0018】
いくつかの態様において、本明細書に記載の技術はシステムに関し、前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を、実行するように構成されている。
【0019】
いくつかの態様において、本明細書に記載の技術はシステムに関し、発声特徴は、ピッチ、ラウドネス、シマー、ジッター、発話速度、ハーモニクス、または韻律の特徴のうちの少なくとも1つを含む。
【0020】
いくつかの態様において、本明細書に記載の技術はシステムに関し、顔動作コーディングシステムが、ポール・エクマンの顔動作コーディングシステムを含む。
【0021】
いくつかの態様において、本明細書に記載の技術はシステムに関し、少なくとも1つの顔感情認識モデルは、
ユーザの視線を認識して記録する視線認識記録モデルと、
コミュニケーションの順番を示すコミュニケーションターンを認識するためのターンテイクモデルと、
ユーザの瞳孔拡張を判定する瞳孔拡張モデルと
を含む。
【0022】
いくつかの態様において、本明細書に記載の技術はシステムに関し、前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を、実行するように構成されている。
【0023】
いくつかの態様において、本明細書に記載の技術はシステムに関し、前記ソフトウェア命令の実行時に、少なくとも1つの前記プロセッサは、更に、
感情複合シグネチャが所定の閾値を超える場合、高振幅-高信頼度の相互作用にタグ付けするステップと、
高振幅-高信頼度の相互作用をロングタームメモリモジュールに記憶するステップと、
高振幅-高信頼度の相互作用に少なくとも部分的に基づいて、同調顔動作ユニット、同調コンピュータ生成音声、または、同調発声特徴の少なくとも1つを判定するステップと
を、実行するように構成されている。
【0024】
いくつかの態様において、本明細書に記載の技術は、ソフトウェア命令を記憶した非一時的コンピュータ可読媒体に関し、
該ソフトウェア命令は、少なくとも1つのプロセッサに、
オーディオビジュアルインプットデバイスを介してユーザのユーザ通信のオーディオビジュアルインプットストリームを受信するステップであって、オーディオビジュアルインプットストリームは、一定期間にわたるオーディオビジュアルインプットデータを含む、受信するステップと、
聴覚データの波長、周波数、振幅の少なくとも1つに少なくとも部分的に基づいて、オーディオビジュアルインプットデータの聴覚データの発声特徴を判定するするステップと、
発声特徴に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する聴覚感情メトリックを判定するステップと、
少なくとも1つの音声認識モデルを利用して、オーディオビジュアルインプットストリームの音声データを認識するステップと、
少なくとも1つの自然言語理解モデルを利用して、意味、意図、感情を示す音声認識データを生成するステップと、
音声認識データに少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する音声感情メトリックを判定するステップと、
少なくとも1つの顔感情認識モデルを利用して、オーディオビジュアルインプットストリームに表される顔の特徴を認識するための顔動作ユニットを生成するステップと、
顔動作ユニットと顔動作コーディングシステムに少なくとも部分的に基づいて、少なくとも1つの顔感情状態を判定するステップと、
少なくとも1つの顔感情状態に少なくとも部分的に基づいて、前記一定期間を通じて少なくとも1つの時間変動する顔感情メトリックを判定するステップと、
少なくとも1つの時間変動する聴覚感情メトリック、少なくとも1つの時間変動する音声感情メトリック、及び、少なくとも1つの時間変動する顔感情メトリックに、少なくとも部分的に基づいて、前記一定期間を通して少なくとも1つの時間変動する総合感情メトリックを判定するステップと、
少なくとも1つの時間変動する総合感情メトリックに少なくとも部分的に基づいて、前記一定期間の感情複合シグネチャを判定するステップと、
ディスプレイを介して、前記一定期間の感情複合シグネチャに応じたインタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている。
【0025】
いくつかの態様において、本明細書に記載の技術は、非一時的コンピュータ可読媒体に関し、前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
同調顔動作ユニットに少なくとも部分的に基づいて、フォトリアリスティックなコンピュータ生成顔を生成するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔を使用したインタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている。
【0026】
いくつかの態様において、本明細書に記載の技術は、非一時的コンピュータ可読媒体に関し、前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴に少なくとも部分的に基づいて、同調発声の質を判定するステップと、
フォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を、同調発声特徴に少なくとも部分的に基づいて判定するステップと、
ディスプレイを介して、フォトリアリスティックなコンピュータ生成顔、同調コンピュータ生成音声、及び、オーディオビジュアルインプットストリームに応じたフォトリアリスティックなコンピュータ生成顔と同調コンピュータ生成音声との同期を使用して、インタラクティブな同調離散アバターをレンダリングするステップと
を、実行させるように構成されている。
【0027】
いくつかの態様において、本明細書に記載される技術は、非一時的コンピュータ可読媒体に関し、前記ソフトウェア命令は、少なくとも1つの前記プロセッサに、更に、
ユーザの反応に関連する従前の感情複合シグネチャを記憶するメモリモジュールにアクセスするステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに同調した同調顔動作ユニットを判定するステップと、
感情複合シグネチャ及び従前の感情複合シグネチャに少なくとも部分的に基づいて、同調コンピュータ生成音声を判定するステップと、
聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
聴覚データの発声特徴と従前の感情複合シグネチャに少なくとも部分的に基づいて、同調発声特徴を判定するステップと
を、実行させるように構成されている。
【図面の簡単な説明】
【0028】
本開示の様々な実施形態は、添付の図面を参照してさらに説明でき、ここで、同様の構造は、いくつかの図を通して同様の数字で参照される。図示された図面は必ずしも縮尺通りではなく、代わりに一般的に本開示の原理を説明することに重点が置かれている。したがって、本明細書に開示された特定の構造的および機能的詳細は、限定的なものとして解釈されるものではなく、単に、1つまたは複数の例示的な実施形態を様々に採用することを当業者に教示するための代表的な基礎として解釈されるものである。
【0029】
【
図1】
図1は、本開示の1つまたは複数の実施形態に係る、ユーザ入力に応答するインタラクティブな同調離散アバターを生成するための例示的なコンピュータベースのシステムおよびプラットフォームのブロック図である。
【
図2】
図2は、本開示の1つまたは複数の実施形態に係る、同調アバターシステム100のための別の例示的なコンピュータベースのシステムおよびプラットフォームのブロック図である。
【
図3】
図3は、本開示の1つまたは複数の実施形態に係る、同調アバターシステム100のインプット処理エンジン117によるビジュアルインプットおよびビデオ処理のための別の例示的なコンピュータベースシステムのブロック図である。
【
図4】
図4は、本開示の1つまたは複数の実施形態に係る、同調アバターシステム100のインプット処理エンジン117によるオーディオインプットおよびオーディオ処理のための、別の例示的なコンピュータベースのシステムのブロック図である。
【
図5】
図5は、本開示の1つ以上の実施形態に係るVADグラフの一例である。
【
図6】
図6は、本開示の1つ以上の実施形態に係る、VADグラフの価(ヴァレンス)次元と覚醒次元にマッピングされた視覚、聴覚、言語ベクトルのVADベクトルの例である。
【
図7】
図7は、本開示の1つまたは複数の実施形態に係る、同調アバターシステム100の別の例示的なコンピュータベースシステムおよびネット接続モジュール106のブロック図である。
【
図8】
図8は、本開示の1つまたは複数の実施形態に係る、例示的なコンピュータベースのシステムおよびプラットフォーム800のブロック図を示す。
【
図9】
図9は、本開示の1つまたは複数の実施形態に係る、別の例示的なコンピュータベースのシステムおよびプラットフォーム900のブロック図を示す。
【
図10】
図10は、インタラクティブな同調離散アバターを生成するためのコンピュータベースのシステムおよびプラットフォームが、本開示の1つまたは複数の実施形態に従って動作するように具体的に構成され得る、クラウドコンピューティング/アーキテクチャの例示的な実施形態の概略図である。
【
図11】
図11は、インタラクティブな同調離散アバターを生成するためのコンピュータベースのシステムおよびプラットフォームが、本開示の1つまたは複数の実施形態に従って動作するように具体的に構成され得る、クラウドコンピューティング/アーキテクチャの別の例示的な実施形態の概略図である。
【発明を実施するための形態】
【0030】
詳細
本開示の様々な詳細な実施形態が、添付の図と併せて本明細書に開示されているが、開示された実施形態は単なる例示に過ぎないことを理解されたい。加えて、本開示の様々な実施形態に関連して与えられた各例は、例示であって制限的なものではないことを意図している。
【0031】
本明細書を通じて、以下の用語は、文脈上明らかに別段の指示がない限り、本明細書において明示的に関連付けられた意味を有する。本明細書で使用される「一実施形態において」および「いくつかの実施形態において」という表現は、同じ実施形態を指すとは限らないが、その可能性はある。さらに、本明細書で使用される「別の実施形態において」および「いくつかの別の実施形態において」という表現は、可能性はあるが、必ずしも異なる実施形態を指すものではない。したがって、以下に説明するように、本開示の範囲または精神から逸脱することなく、様々な実施形態を容易に組み合わせることができる。
【0032】
加えて、「に基づいて」という用語は排他的なものではなく、文脈から明らかにそうでないと判断される場合を除き、記載されていない付加的な要素に基づくことも可能である。加えて、本明細書全体を通して、「a」、「an」、「the」の意味は、複数の参照を含む。「in」の意味には「in」と「on」が含まれる。
【0033】
本明細書で使用される場合、「および」および「または」という用語は、項目の組み合わせおよび選択肢の完全な説明を包含するために、接続法および接続解除法の両方において項目のセットを指すために互換的に使用される場合がある。例として、いくつかの項目は、接続詞「または」、または接続詞「および」を使って列挙できる。いずれの場合も、このセットは、各項目単独の選択肢を意味するものと解釈され、また列挙された項目の任意の組み合わせを意味するものと解釈される。
【0034】
図1から
図11は、ユーザインタラクションのリアルタイム処理に基づき、同期化された顔や発声の特徴を用いてバーチャルコンパニオンやインタラクティブなアバターを生成し、レンダリングするシステムおよび方法を示している。以下の実施形態は、機械学習、自然言語処理および生成、感情認識および再現、音声パターン認識および生成、その他の仮想アバターに関連する技術分野における技術的問題、欠点、および/または欠陥を克服する技術的解決策および技術的改善策を提供するものであり、これらの技術分野には、感情ベースのアニメーションをレンダリングできない、感情状態を含む顔および発声の特徴の同期が不正確である、短期および長期保存のためのコンピュータメモリの管理が非効率的である、などの欠点があるのが一般的である。以下により詳細に説明するように、本明細書における技術的解決策および技術的改良には、短期および長期のコンピュータメモリを組み合わせて使用する改良されたメモリ管理、感情状態認識を使用する改良されたリアルタイムのユーザの発話および表情認識、ならびにメモリ管理およびリアルタイム認識を活用して仮想アバターの感情状態を決定し、アバターの顔および発声特徴を同期させ、ユーザとの対話のためにアバターをレンダリングすることを含む、改良された動的および適応的な仮想アバターの生成およびレンダリングの側面が含まれる。このような技術的特徴に基づき、これらのシステムや方法のユーザやオペレータは、さらなる技術的メリットを享受できる。さらに、開示された技術の様々な実用的な応用例も説明されており、これらは、当該技術分野における新規かつ有用な改良でもあり、ユーザやオペレータにさらなる実用的な利点を提供するものである。
【0035】
いくつかの実施形態では、感情特性同期を伴うアバターのレンダリングは、意味を伝える言語的および非言語的(例えば、それぞれスピーチおよび非スピーチ)形式の両方を採用し、および/または、それらに応答できる。ある実施形態では、言語的なコミュニケーションの形式が、ある相互作用の30パーセントを占め、非言語的なコミュニケーションの形式が、ある相互作用の70パーセントを占めることもある。例えば、75パーセントスピーチ、70パーセントスピーチ、60パーセントスピーチ、50パーセントスピーチ、40パーセントスピーチ、30パーセントスピーチ、25パーセントスピーチ、20パーセントスピーチ、10パーセントスピーチなど、あるいは10パーセントから90パーセントのスピーチと90パーセントから10パーセントの非スピーチの範囲内の任意の割合を含む、他の割合を採用することもできる。
【0036】
いくつかの実施形態では、相互作用の非スピーチ特性は、ユーザの自律神経系(ANS)の活動を反映することがあり、例えば、多波長理論に従って、アバターのシミュレートされたANSに使用されることがある。例えば、発声や顔の表情(例えば、トーン、ピッチ、ケイデンス、表情、ボディランゲージ、発声の韻律調和、または発声や顔の表情の他の特徴、またはそれらの組み合わせ)は、ANS活動と関連付けられる可能性がある。したがって、発声と表情は、所定の相互作用における意味への貢献度に応じて、所定の相互作用において重み付けでき、例えば、上述のように70%または他の適切な割合とできる。そして、所定の対話の発話内容は、発話に起因する割合、例えば、上述のように30%または他の割合に従って重み付けされることがある。これは、言語によるコミュニケーションが脳の皮質活動に関係していることと、ANSの刺激が大脳辺縁系、小脳、脳幹、神経系機能、つまり脳と神経系のより大きな部分に関係していることに対応している。
【0037】
ビジュアル入力と音入力からの読み出しでは、ANSの優勢な信号として、離散的な区間で最も高い絶対値の覚醒振幅を特権的に使用した。これにより、絶対値の低い覚醒の変動をノイズとして割り引くことができる。これらの覚醒は、脳内のサリエンスネットワークと関係している。脳内のサリエンスネットワークは、その人にとって何が重要かを決定する。
【0038】
関係性の観点から見ると、絆は絶え間ない関係の断絶と修復によって生まれる。実際に筋組織を破壊するウェイトトレーニングによって筋肉が強化されるのと同じように、人間関係の絆が強化される。この後、筋肉組織は再び強く成長する。アバターには、あらかじめ定義された、誤解されていると感じるユーザの発言によって示される断絶を検出するソフトウェア機能が含まれている場合がある。その後、アバターの1つ以上の機械学習モデルは、例えば「私はいつあなたを失ったのですか?」といった応答を生成してレンダリングすること、及び、ユーザの反応に基づいて1つまたは複数の機械学習モデルをトレーニングすること、を含む、「修復シーケンス」で訓練され得る。
【0039】
いくつかの実施形態では、アバターとユーザの感情的な結びつきを強めるために、ユーザの感情状態を複合に従って測定し、同様にアバターを複合に従ってレンダリングできる。複合とは、バイオマーカを通じて検出可能なANSによって表現される、共通の感情トーンに貫かれた具現化されたイメージの無意識的な構成である。複合の例には以下のようなものがある:劣等複合、マザー複合、被害者複合、権力複合などである。複合は非常に個性的で、人間によって異なる。
【0040】
複合は、例えば、所定の期間、例えば10秒、15秒、20秒、30秒、40秒、45秒、50秒、60秒、または、他の適当な期間、あるいは(5秒から120秒の範囲内の任意の期間を含む)その任意の組み合わせにわたる生体マーカの振幅のシグネチャ形態を介して、リアルタイムでシステムを介して認識できる。いくつかの実施形態では、バイオマーカ振幅は、価-覚醒度測定、価-覚醒度-優位性測定、価-覚醒度-抵抗性測定、とりわけ6つの感情軸、8つの感情軸、またはそれ故の任意の組み合わせ、または適切な離散カテゴリーモデルなどの適切な次元モデルに従って、感情分類のために捕捉され得る。例えば、バイオマーカを測定して、例えば、離散的な区間内で最も高い絶対値の覚醒度を決定し、その瞬間の価を見ることができる。しかし、例えば、ガルバニック皮膚反応(GSR)、皮膚温度、心拍数、心拍変動、その他、またはそれらの任意の組み合わせなど、他の形態のバイオメトリクスを採用することもできる。
【0041】
例えば、感情測定のモデルには、例えば、価の代わりにポジティブ/ネガティブ、覚醒の代わりに能動的/受動的、優位性の代わりに高パワー/支配-低パワー/支配、抵抗の代わりに妨害的/助長的などを含むシェラーの8角形モデルを含めることができる(例えば、
図5参照)。特定の感情状態を示す領域にV/Aベクトルをマッピングするために、V/Aの正確な位置を示すグリッドおよび/またはマップをV/Aホイールの上に重ねることができる。
【0042】
ここで、価(ヴァレンス)という用語は、例えば、顔動作コーディングシステムや微表情、顔面筋電図を通じて検出される筋活動、脳機能イメージング、または他の任意の適切なヴァレンス測定技術、またはそれらの任意の組み合わせによって測定される、非発話表現によって示される快および/または不快の尺度を指す場合がある。
【0043】
ここで、覚醒という用語は、例えばエクマンコーディングシステムや電気皮膚反応の測定によってANS活動を測定するグラフ上の振幅など、非発話表現によって示される強度を指す場合がある。高い振幅は交感神経系の活動を、低い振幅は副交感神経系の活動を示しているのかもしれない。
【0044】
ここで、優位性という用語は、個人の感情的及び身体的状態に対して、またその中での、個人の経験の権力とコントロールのレベルを指すことがある。
【0045】
ここで、抵抗という用語は、ある状況や状態においてユーザが示す感情的抵抗のレベルを指す場合があり、妨害的なものから助長的なものまでの尺度で測定される。
【0046】
いくつかの実施形態では、バイオマーカ測定値に基づいて、例えば、連想次元感情ホイールや他の適切な分類モデル、またはそれらの任意の組み合わせを使用して、特定の感情ラベルを所定の相互作用に適用できる。覚醒のピークは、より長い時間(例えば20秒以上)にわたって、差別化された、しばしば相反する感情状態を作り出すことがある。時間の経過に伴う感情状態の進行と変化は、「身体化された状態」と呼ぶことのできる感情の特徴的な形態を形成する可能性がある。アバター用システムは、ユーザによって実行された所定のインタラクションに類似したシグネチャを持つ、以前に保存されたインタラクションのメモリを継続的に検索するように構成される場合がある。具現化された状態が定義されたしきい値よりも頻繁に出現する場合、ソフトウェアはその状態を複合の発現としてラベル付けするように構成できる。複合が検出されると、システムは複合がアクティブだった過去の瞬間を参照し、ユーザに接続を求める応答を生成できる。同じ複合が再び出現すると、無意識のうちに同じような身体化されたANS反応が起こるかもしれない。その結果、システムは複合、身体化された状態、ユーザの反応を記録し、複合反応のライブラリを作成することで、ユーザの逆説的な感情的風景を学習できる。生成されるメモリが多ければ多いほど、複合ライブラリの精巧さと範囲が広がり、任意のインタラクションにおけるユーザの身体状態の認識が向上する。例えば、システムはユーザの感情的な規則性を次第に認識するようになり、そのような複雑な瞬間の言語コミュニケーションを比較できる。システムは、それらの瞬間の類似性をユーザに思い出させることができる。その結果、アバターはユーザの感情的複合に基づいて生成され、ユーザとの強い共感をシミュレートし、ユーザに理解されているという感覚を引き出すことができる。
【0047】
いくつかの実施形態では、システムは上記の原理を利用して、インタラクティブな同調離散アバター、例えば、胴体の真ん中から頭のてっぺんまで見える、胴体、顔、頭の動きが可能な、写実的な人間のレプリカを作成できる。顔は、固定されたフレームの上に筋肉があり、皮膚と皮下層の下にある、人間の解剖学に似たプラットフォーム上に構築されている。ユーザの影像は、インタラクティブな同調離散アバターの瞳孔にシルエットとして映し出され、親密な臨場感を生み出す。
【0048】
いくつかの実施形態では、アバターは、例えば、骨格、筋骨格、真皮、毛穴、欠陥、しわ、毛細血管反応などの生理学的レイヤを含む、人間の解剖学に対する仮想アナログのレイヤに基づいてアニメーション化され得る。このようなレイヤは、各レイヤの挙動をシミュレートするアニメートを容易にするため、フォトリアリスティックなアバターと「不気味の谷」を超える信憑性を可能にする。いくつかの実施形態では、アバターはさらに、それぞれ強度が異なり、持続時間が異なり、同時に発生する心理的感情の二次層構造を含むことができる。各レイヤは、特定の表情筋の収縮として具現化され、特定の表情を作り出したり、表情のゴーストアウトラインを作り出したりする。最も外側の感情層は、遅延(例えば、1、2、3、4、5、6秒、またはそれ以上の遅延)後のユーザの表情の希釈版であってもよい、ユーザの感情ミラーリングでもよい。エモーショナルミラーリングレイヤの下には、ユーザが現在示している、特定された複合状態に関連する表情のレイヤがレンダリングされることがある。顔の表情レイヤは、ミラーリングレイヤよりも微妙であってもよいが、例えば、5秒、10秒、15秒、20秒以上、または20秒から30秒の範囲内の任意の長さ、または他の適切な長さの時間など、より長く持続できる。第3の心理層は、ユーザの気分かもしれない。いくつかの実施形態では、気分は、ユーザの感情が最も頻繁に現れるVAホイール、または他の適切な感情/気分マッピングツール、またはそれらの任意の組み合わせの象限を代表できる。ムード層は、ミラーリング層や表情層のいずれよりもまた微妙なものであり、例えば、約2分から4分の範囲や他の適切な範囲など、数分のオーダーでより長く持続する。これらのレイヤが同時に重なり合うことで、人間が感情を経験する複雑さを認識し、ユーザとアバターの絆が深まるかもしれない。
【0049】
いくつかの実施形態では、インタラクティブな同調離散アバターは、アチューンメントエンジン119にライブで供給される少なくとも4つの主入力の視覚、発声の聴覚、NLP、およびネットコネクトと、インタラクティブな同調離散アバターの少なくとも3つの能力(顔の生成、自然で抑揚のある人間の声、およびユーザの現在の状態に感情的に結びついた説得力のある対話)の応答を、含み得る。
【0050】
いくつかの実施形態では、インタラクティブな同調離散アバターの人間的解釈スキルを支援するために、心理学と創造芸術の高度なアイデアのいくつかを取り入れて、インタラクティブな同調離散アバターとユーザの相互作用の理解と、インタラクティブな同調離散アバターのユーザとの相互作用の両方を拡大できる。そのためには、自分の視点を超えて相互作用を見るために、身体化された想像力(Embodied Imagination(登録商標))として知られる精神分析技法を用いることができる。
【0051】
いくつかの実施形態では、反復と呼ばれるエクササイズが、インタラクティブな同調離散アバタートレーニングに組み込まれることがある。この活動を通じて、インタラクティブな同調離散アバターは、そのアチューンメントに関するリアルタイムのフィードバックを継続的に受けることができる。いくつかの実施形態では、レペティションは、アバターが、インプットデバイスによってキャプチャされた画像およびオーディオに基づいて、ユーザの感情的な特徴を尋ねたり、主張したりするようにプログラミングされるような、アバターとユーザとの間の行き来を含むことができる。ユーザは、アバターのモデルを更新し、感情の認識と感情への同調を向上させるためのトレーニングデータを提供するために、アバターが述べる感情特性に対してフィードバックを提供できる。いくつかの実施形態では、ユーザは、ユーザへの同調を向上させるためにアバターのモデルを訓練する技術として、レンダリングされたアバターの表情にフィードバックを提供することもできる。
【0052】
いくつかの実施形態では、身体化された想像力(Embodied Imagination(登録商標))及び/又は反復プロセスは、定期的に、及び/又は最初の相互作用の間の初期較正プロセスとして実行され得る。いくつかの実施形態では、ユーザは較正プロセスをオンデマンドで実行することを選択できる。いくつかの実施形態では、較正プロセスは、所定の時間間隔および/または相互作用の回数ごとに、あるいは他の期間またはそれらの組み合わせによって、自動的に開始され得る。
【0053】
アバター/人間のトレーニング、強化学習は、アバター/アバターの相互作用を利用して実施できる。アバターとアバターの相互作用によって、インタラクティブな同調離散アバターは何百万回ものアバターとアバターのコミュニケーションの繰り返しを処理し、その結果生じた創発現象をインタラクティブな同調離散アバターの機械学習アルゴリズムにフィードバックして、さらなる同調とフィードバックループを回避するためのガードレールの調整を行うことができる。そのため、強化学習ステップを経ない場合と比べて、インタラクティブな同調離散アバターは、人間理解において数桁高度になる可能性がある。
【0054】
いくつかの実施形態では、インタラクティブな同調離散アバターはアプリケーションベースで、内部コードで動作し、必要に応じて外部のアプリケーションプログラミングインタフェース(API)にアクセスできる。いくつかの実施形態では、インタラクティブな同調離散アバターは、クラウドの計算コストを抑え、システムからのレイテンシを減少させるために、データセキュリティの目的で可能な限りエッジ計算に依存することがある。いくつかの実施形態では、インタラクティブな同調離散アバターは、あらかじめプログラムされた数千の応答キューと、入力キューに基づいてその反復を動的に変更する能力を持つことができる。いくつかの実施形態では、以前のエンゲージメントサイクルの保存されタグ付けされた会話メモリを通じて、特定のユーザとの発展する関係の実行履歴が、特定のユーザへの同調の改善を促進する可能性がある。
【0055】
図1は、本開示の1つまたは複数の実施形態に従って、ユーザ入力に応答するインタラクティブな同調離散アバターを生成するための例示的なコンピュータベースのシステムおよびプラットフォームのブロック図である。
【0056】
いくつかの実施形態では、ユーザは、ビデオおよび/またはオーディオを利用した通信(例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレット、スマートフォン、バーチャル・リアリティや拡張現実(AR)ヘッドセットやメガネなど、あるいはそれらの組み合わせ)に現在関与している任意のインプットデバイス114上で、その上で生成されたインタラクティブな同調離散アバター(以下「アバター」という)を含む同調アバターシステム100と対話できる。いくつかの実施形態では、ユーザはインプットデバイス114を使用して、インプットデバイスインタフェース113を介して同調アバターシステム100とインタフェースできる。いくつかの実施形態では、インプットデバイスインタフェース113は、インプットデバイス114から入力データを受信するのに適した任意の適切な有線または無線の通信インタフェースを含むことができる。いくつかの実施形態では、インプットデバイスインタフェース113の例として、例えば、ユニバーサルシリアルバス(USB)、ペリフェラルカードインタフェースエクスプレス(PCIe)、シリアルATA(SATA)、サンダーボルト、ファイヤーワイヤ、HDMI(登録商標)、DisplayPort、ブルートゥース、WiFi、Zigbee、Z-Waveなど、またはそれらの任意の組み合わせを挙げることができる。
【0057】
いくつかの実施形態では、インプットデバイスインタフェース113は、インプットデバイス114からユーザインプットを受け取ることができる。いくつかの実施形態では、ユーザインプットは、発声、ジェスチャ、顔の表情、ボディランゲージ、その他のコミュニケーション形態を使用した、同調アバターシステム100とのユーザの相互作用のライブオーディオおよび/またはビデオフィードを含むことができる。いくつかの実施形態では、インプットデバイス114は、適切なデジタル画像装置(例えば、デジタルカメラ、ウェブカメラなど)、適当なマイク、若しくは、その両方を使用して、ライブオーディオおよび/またはビデオフィードをキャプチャできる。
【0058】
いくつかの実施形態では、同調アバターシステム100は、例えばストレージデバイス101を含むことができる。いくつかの実施形態では、ストレージデバイス101のデータ記憶ソリューションは、例えば、各アカウントの活動履歴を表す電子データを保持するための適切なメモリまたは記憶ソリューションを含むことができる。例えば、データストレージソリューションは、他のストレージシステムの中でも、例えば集中型または分散型データベース、クラウドストレージプラットフォーム、分散型システム、サーバまたはサーバシステムなどのデータベース技術を含むことができる。いくつかの実施形態では、データストレージソリューションは、追加的または代替的に、例えばハードドライブ、ソリッドステートドライブ、フラッシュドライブ、または他の適切なストレージデバイスなどの1つ以上のデータストレージデバイスを含むことができる。いくつかの実施形態では、データ記憶ソリューションは、追加的または代替的に、例えば、ランダムアクセスメモリ、キャッシュ、バッファ、または他の適切なメモリデバイスなどの1つまたは複数の一時記憶デバイス、または任意の他のデータ記憶ソリューションおよびそれらの組み合わせを含むことができる。
【0059】
いくつかの実施形態では、ストレージデバイス101は、例えばバス115または他の通信インタフェースを介して、インプットデバイスインタフェース113からライブオーディオおよび/またはビデオフィードを受信できる。いくつかの実施形態では、ストレージデバイス101は、ライブオーディオおよび/またはビデオフィードを、長期または短期の記憶、例えば、恒久的またはローリングウィンドウベースで記憶できる。例えば、ストレージデバイス101は、例えば、1日、5日、7日、14日、21日、30日、31日、3ヶ月、6ヶ月、1年など、削除前の限られた期間、ライブオーディオおよび/またはビデオの各フレームまたは他のセグメントを保存できる。
【0060】
いくつかの実施形態では、追加的または代替的に、ライブオーディオおよび/またはビデオフィードは、システムメモリまたはランダムアクセスメモリ(RAM)103に一時的に格納されることがある。いくつかの実施形態では、RAM103は、スタティックRAM(SRAM)および/またはダイナミックRAM(DRAM)を含むことができる。RAM103は、バス115を介してインプットデバイスインタフェース113またはストレージデバイス101からライブオーディオおよび/またはビデオフィードを受信できる。ライブオーディオおよび/またはビデオフィードをRAM103に提供することにより、プロセッサまたはプロセッサ109は、処理のためにライブオーディオおよび/またはビデオフィードに効率的にアクセスできる。
【0061】
いくつかの実施形態では、プロセッサ109は、ライブオーディオおよび/またはビデオフィードでキャプチャされたユーザコミュニケーションに基づいてアバターを生成するために、様々な機能およびモジュールを利用するための複数のコンピュータエンジンを実装できる。いくつかの実施形態では、「コンピュータエンジン」および「エンジン」という用語は、他のソフトウェアおよび/またはハードウェアコンポーネント(ライブラリ、ソフトウェア開発キット(SDK)、オブジェクトなど)を管理/制御するように設計/プログラム/構成された、少なくとも1つのソフトウェアコンポーネントおよび/または少なくとも1つのソフトウェアコンポーネントと少なくとも1つのハードウェアコンポーネントの組み合わせを特定する。
【0062】
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、回路、回路素子(例えば、トランジスタ、抵抗器、コンデンサ、インダクタなど)、集積回路、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを挙げることができる。いくつかの実施形態では、1つまたは複数のプロセッサは、複雑命令セットコンピュータ(CISC)または縮小命令セットコンピュータ(RISC)プロセッサ、x86命令セット互換プロセッサ、マルチコア、または任意の他のマイクロプロセッサ、中央処理装置(CPU)またはグラフィックス処理装置(GPU)として実装され得る。様々な実装において、1つまたは複数のプロセッサは、デュアルコアプロセッサ、デュアルコアモバイルプロセッサなどであってもよい。
【0063】
ソフトウェアの例には、ソフトウェアコンポーネント、プログラム、アプリケーション、コンピュータプログラム、アプリケーションプログラム、システムプログラム、マシンプログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、機能、方法、手順、ソフトウェアインタフェース、アプリケーションプログラミングインタフェース(API)、命令セット、コンピューティングコード、コンピュータコード、コードセグメント、コンピュータコードセグメント、単語、値、記号、またはそれらの任意の組み合わせが含まれる。実施形態がハードウェア要素および/またはソフトウェア要素を使用して実装されるかどうかを決定することは、所望の計算速度、電力レベル、熱許容度、処理サイクル予算、入力データ速度、出力データ速度、メモリリソース、データバス速度、および他の設計または性能制約など、任意の数の要因に従って変化し得る。
【0064】
いくつかの実施形態では、ライブオーディオおよび/またはビデオフィードを処理し、例えば、話された言葉、表情、ボディランゲージ、トーン、その他のコミュニケーション、またはそれ故の任意の組み合わせなどのコミュニケーションを認識するために、プロセッサ109は、インプット処理エンジン117を含むコンピュータエンジンを含むことができる。いくつかの実施形態では、インプット処理エンジン117は、専用および/または共有のソフトウェアコンポーネント、ハードウェアコンポーネント、またはそれらの組み合わせを含むことができる。例えば、インプット処理エンジン117は、プロセッサ109の専用プロセッサを含むことができる。しかし、いくつかの実施形態では、インプット処理エンジン117は、プロセッサ109を含むハードウェアリソースを他のコンピュータエンジンと共有できる。
【0065】
いくつかの実施形態では、インプット処理エンジン117からのデータは、アチューンメントエンジン119を使用してアバターをアチューンメントするために使用される。いくつかの実施形態では、アバターを同調させること(「同調」)は、インプット処理エンジン117からのデータを、グラフまたは他の採点システム上で正規化し、入力に亘って統一的なスケールを作り、信頼度に基づいて重み付けをすることによって、例えば、価(ヴァレンス)-覚醒-優位性のグラフのような、ライブオーディオおよび/またはビデオフィードで捕捉されるユーザの感情状態を採点できる。いくつかの実施形態では、感情状態は、1つ以上の追加の生体情報入力から収集されるデータによって知らされ得る。例えば、追加のセンサは、スマートウォッチや、VRやARゴーグルやメガネの皮膚接続点など、ユーザが身につけるものを介して、例えば心拍数などの生体データを入力できる。さらに、手袋、指キャップ、靴下など、自律神経系(ANS)反応を測定する手や足に装着するウェアラブルデバイスを介してガルバニック皮膚反応を読み取ることもできる。これらの入力は、アチューンメントエンジン119に供給され、ユーザの全体的な感情の判定を更に洗練させ、複合を特定する精度を向上させ得る。
【0066】
いくつかの実施形態では、入力デバイスの1つによって定量化された覚醒の高まりのポイントが観察されると、対応するバランシングが記録され、アチューンメントエンジン119によって各入力ソースの感情ラベルが決定される。これらの価(ヴァレンス)/覚醒感情ラベルは、入力ソースによって異なる可能性がある。全入力ソースにわたる、当技術分野でシグネチャモルフォロジーとして知られる特定の価(ヴァレンス)/覚醒振幅のコレクション、および/または当技術分野でエモーショナルシグネチャとして知られる対応するエモーショナルラベルが、例えば以下のスパンで繰り返される場合、15~30秒、15~45秒、15~60秒、10~30秒、10~45秒、10~60秒、5~30秒、5~45秒、5~60秒、または任意の他の適切な期間、アチューンメントエンジンは、シグネチャパターンを複合としてラベル付けし、この複合シグネチャをラベル付けし、複合シグネチャと、ユーザによって記述されている関連する状況コンテキストをメモリに送信できる。
【0067】
アチューンメントエンジン119は、ユーザの感情、つまり複合に対する印象を決定でき、それは参照処理のためにメモリに送られ、その後、アチューンメントエンジン119に戻される。感覚と感情の両方のすべての入力データに基づいて、アバターの対応する感情状態が決定され、アバターによる同調された視覚的応答のために同調アバター生成エンジン120に配信され、会話AIスピーチエンジンによる同調された共感的応答のために自然言語生成エンジンに配信されることがある。
【0068】
いくつかの実施形態では、アチューンメントエンジン119は、処理された入力データを利用して、ワーキングメモリ(例えば、短期メモリ)と長期メモリの組み合わせを使用することによって、情動状態を決定できる。したがって、アバターの同調に対する長期的な影響と短期的な影響を区別するために、長期メモリと短期メモリを調整するメモリ管理エンジン118を採用できる。したがって、いくつかの実施形態では、メモリ管理エンジン118は、専用および/または共有ソフトウェアコンポーネント、ハードウェアコンポーネント、またはそれらの組み合わせを含むことができる。例えば、メモリ管理エンジン118は、プロセッサ109の専用プロセッサを含むことができる。しかし、いくつかの実施形態では、メモリ管理エンジン118は、プロセッサ109を含むハードウェアリソースを他のコンピュータエンジンと共有できる。
【0069】
いくつかの実施形態では、長期メモリと短期メモリは、メモリ管理エンジン118に統合されたメモリ装置または他の記憶装置を使用できる。いくつかの実施形態では、メモリ管理エンジン118は、RAM103を短期メモリに、ストレージデバイス101を長期メモリに、RAM103を長期メモリと短期メモリの両方に、ストレージデバイス101を長期メモリと短期メモリの両方に、またはメモリ管理エンジン118のストレージデバイス101、RAM103およびストレージデバイスにわたる長期メモリと短期メモリの任意の適切な配分を利用できる。
【0070】
いくつかの実施形態では、同調アバター生成エンジン120は、アバターのアチューンメントされた感情状態を決定するために、アチューンメントエンジン119から感情状態を受け取ることができる。いくつかの実施形態では、同調された情動状態は、例えば、ユーザのコミュニケーションによって示された情動状態に類似する、トーン、ピッチ、ケイデンス、表情、ボディランゲージ、発声の韻律調和、または他のコミュニケーション、またはそれらの任意の組み合わせを含むことができる。いくつかの実施形態では、同様の情動状態は、例えば、10パーセント、15パーセント、20パーセント、または他の適切な範囲内のスコアなど、所定の値またはパーセントだけユーザのスコアから変化する情動状態のスコア(例えば、VADグラフを使用する)を含むことができる。
【0071】
いくつかの実施形態では、同調された感情状態に基づいて、同調アバター生成エンジン120は、機械学習に基づく発話生成モデルを使用してアバターの発話を生成できる。いくつかの実施形態では、発話のトーン、韻律、合成は、機械学習ベースのテキストツースピーチ(TTS)モデルによって変調され得る。同様に、同調アバター生成エンジン120は、機械学習ベースの顔生成モデルを使用してアバターの表情を生成できる。発話と顔の表情は、適切な同期アルゴリズムを使って同期させることができる。
【0072】
いくつかの実施形態では、アチューンメントエンジン119は、専用および/または共有のソフトウェアコンポーネント、ハードウェアコンポーネント、またはそれらの組み合わせを含むことができる。例えば、アチューンメントエンジン119は、プロセッサ109の専用プロセッサを含むことができる。しかし、いくつかの実施形態では、アチューンメントエンジン119は、プロセッサ109を含むハードウェアリソースを他のコンピュータエンジンと共有できる。
【0073】
いくつかの実施形態では、プロセッサ109は、読み取り専用メモリ(ROM)111に格納されたソフトウェア命令を使用して、インプット処理エンジン117、メモリ管理エンジン118、アチューンメントエンジン119、および同調アバター生成エンジン120を実装できる。いくつかの実施形態では、ROM111は、バス115を介して実行するための命令をプロセッサ109に提供できる。一部の実施形態では、ROM111は、コンピュータや他の電子機器に使用される任意の適切な不揮発性メモリを含むことができる。一部の実施形態では、不揮発性メモリは、ROM111に記憶されたデータがメモリデバイスの製造後に電子的に変更できないように構成される場合がある。
【0074】
いくつかの実施形態では、アチューンメントされたアバターは、同調アバター生成エンジン120によって生成される発話、表情、および他のコミュニケーションを含み、ユーザのコミュニケーションに応答してユーザに表示するために出力され得る。いくつかの実施形態では、そうするために、プロセッサ109は、同調アバターシステム100からアウトプットデバイス108にアバターを通信するために、アウトプットデバイスインタフェース107を指示できる。
【0075】
いくつかの実施形態では、アウトプットデバイスインタフェース107は、アバターを出力デバイスに通信するための任意の適切なデータインタフェースを含むことができる。いくつかの実施形態では、アウトプットデバイスインタフェース107の例として、例えば、ユニバーサルシリアルバス(USB)、ペリフェラルカードインタフェースエクスプレス(PCIe)、シリアルATA(SATA)、サンダーボルト、ファイヤーワイヤ、HDMI、DisplayPort、ブルートゥース、WiFi、Zigbee、Z-Waveなど、またはそれらの任意の組み合わせを挙げることができる。
【0076】
いくつかの実施形態では、アウトプットデバイス108は、アバターの表情を表示するための適切な装置、および/またはアバターの発話のオーディオを再生するための任意の適切な装置を含むことができる。したがって、いくつかの実施形態では、アウトプットデバイス108は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、テレビ、モニター、スピーカー、スマートフォン、タブレット、バーチャルリアリティヘッドセット、拡張現実メガネ、または他の任意の適切なオーディオおよび/もしくはビジュアルアウトプットデバイス、またはそれらの任意の組み合わせを含むことができる。
【0077】
また、アチューンメントされたアバターの代わりに、またはアチューンメントされたアバターに加えて、例えば、ユーザが装着するスマートウォッチ、グローブ、AR/VRヘッドセット、または触覚/振動ハードウェアを持つ他のウェアラブルデバイスへの触覚出力など、追加の出力を提供することもできる。例えば、ハプティック出力は、ユーザの利き手でない手など、ユーザの手に装着される手袋の形態であってもよいが(例えば、知覚を向上させるため)、ハプティック出力は、任意の適切なハプティックデバイスを介して任意の適切な身体部位に提供されてもよい。手袋は、握られたり、しごかれたり、触れられたりすることを模倣するために、手のさまざまな箇所を締め付けたり、圧力をかけたりできる。このようなアウトプットは、絆と親密感をさらに高めるかもしれない。さらに、触覚タッチパッドをユーザの衣服やボディスーツ全体に組み込んで、システムによって刺激することもできる。
【0078】
図2は、本開示の1つまたは複数の実施形態に従った、同調アバターシステム100のための別の例示的なコンピュータベースのシステムおよびプラットフォームのブロック図である。
【0079】
図2に見られるように、ビデオとオーディオのインプットは、感情と感情を分析するための3つの構成部分に分けることができる:視覚、聴覚、言語である。これらの、関連するが別々の分析が同時に行われ、そのアウトプットがアチューンメントエンジン119に送られることもある。いくつかの実施形態では、アチューンメントエンジン119は、離散入力データを、価(ヴァレンス)-覚醒-優位性の3Dグラフベクトル、価(ヴァレンス)-覚醒の2Dグラフベクトルの、または、ビデオ処理モジュール(視覚インプット)、音声の質コンポーネント(聴覚インプット)、およびNLUコンポーネント(言語インプット)の夫々からの個々の価(ヴァレンス)、覚醒、および優位性データポイントの、いずれかの形で、受け取ることができる。単独の価(ヴァレンス)/覚醒/優位性の2Dグラフの3ベクトルの例が
図6に示され、ここで、
【数1】
はそれぞれ、視覚、聴覚、言語のベクトルフォームインプットである。
【0080】
いくつかの実施形態では、アチューンメントエンジン119は、以下のベクトル関数計算を実行できる。
【数2】
(式1)
ここで、x、y、zは、正規化重み係数である。
f(ψ) は、重み付けされ正規化された決定文関数である。
ψは、ユーザの感情決定文である。
【0081】
いくつかの実施形態では、この感情決定文、ψは、感情状態の変化が起こったかどうかを判断するための比較評価のために、ワーキングメモリ管理エンジン118に供給されることがある。ψの振幅が所定の限界値を超えてスパイクした場合、文脈を考慮するために、その発言はさらに長期メモリへ送られ、以前の相互作用から連想比較される。
【0082】
いくつかの実施形態では、短期(ワーキング)メモリは、ユーザがまだ同じ感情状態にあるかどうかを示すことがある。感情の振幅が一定のしきい値を超えると、比較と感情の関連付けのために長期メモリに感情が送られる。これは質問作成に使われるかもしれない。
【0083】
アチューンメントエンジン119は、例えば、1秒ごと、半秒ごと、2秒ごとなどの離散セグメントをパケット化するプログラミングを有できる。アチューンメントエンジン119は、先行スパン(例えば、15秒から30秒、15秒から45秒、15秒から60秒、10秒から30秒、10秒から45秒、10秒から60秒、5秒から30秒、5秒から45秒、5秒から60秒、または上述のような任意の他の適切な期間)を通して、ビジュアルおよびオーディオインプットモダリティの離散的なVA座標、ならびに非常に否定的なものから非常に肯定的なものまでの5から9単位スケールでの粒状センチメント理解を記録できる。センチメント・リーディングは、あらかじめ定義された時間配分で時間的に行われることもある。これらのセグメントは、短期オペレーティングメモリに保存される。さらに、アチューンメントエンジン119は、会話全体のタイムスタンプ付きテキスト読み出しを保存できる。パケットは、例えば、価(ヴァレンス)、覚醒、感情をそれぞれ代表する3つの同時波形として表すことができる。各新しいパケットは、あらかじめ設定された遅延の後、短期メモリに保存されたすべての以前のパケットと比較される場合がある(例えば、会話の現在の遅延時間内からのパケットは考慮されない場合がある)。いくつかの実施形態では、プリセット遅延は、例えば10秒、15秒、20秒、25秒、30秒、35秒、40秒、45秒、50秒、55秒、60秒、またはそれ以上、または例えば5秒から120秒の範囲内の他の任意の適切な遅延などの、任意の適切な遅延であってよい。
【0084】
いくつかの実施形態では、パターン認識ソフトウェアが所定の受け入れ閾値内でパターンの一致を検出すると、アチューンメントエンジン119は、一致したパケットの格納されたテキストを参照して、会話に質問を挿入するようにアチューンメントエンジン119をトリガできる。感覚に類似性があることにユーザが同意した場合、アチューンメントエンジン119は、その3つの波形の集まりを複合候補としてラベル付けし、長期メモリに保存できる。類似性を判定し、複合候補が一致するかどうかを判断するために、波形のいずれか1つ、2つ、または3つすべての間で、複合候補の対応する波形との類似性を評価できる。一部の実施形態では、波形の一致数が多いほど、複合シグネチャを特定する確度が高くなる。複合候補の時間枠に関連付けられたタイムスタンプ付きテキストから、その複合候補の特異なメタファー・ラベルが、与えられた時間セグメント内の単語の詩的な関連付けによって生成される。これは、各複合候補と複合シグネチャがユーザに参照される方法となる。ユーザとの各セッションの開始時に、ワーキングメモリ管理エンジン118は、現在の対話とともに複合候補をレビューすることを容易にするために、すべての複合候補を短期メモリにコピーできる。複合候補が所定の数のインスタンスにわたって繰り返し肯定的に識別されると、複合候補は複合シグネチャとしてラベル付けされ、ワーキングメモリ管理エンジン118は短期メモリに複合シグネチャを永久に保存し、その後の対話中に参照できる。いくつかの実施形態では、所定のインスタンス数は、例えば、2、3、4、5、6、7、8、9、10またはそれ以上を含むことができる。
【0085】
いくつかの実施形態では、パターン認識ソフトウェアは、例えば、分類のための1つ以上の適切な統計的、教師あり機械学習、半教師あり機械学習、または教師なし機械学習モデルを含むことができる。統計的分類モデルの例には、線形判別分析、二次判別分析、最大エントロピー分類器、ロジスティック回帰、多項ロジスティック回帰などのパラメトリックモデルが含まれる、または、決定木、カーネル推定、K-最近傍、ナイーブベイズ、ニューラルネットワーク(例えば、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)等)、パーセプトロン(例えば、多層パーセプトロン(MLP))、サポートベクターマシン、遺伝子発現プログラミング等のノンパラメトリックモデルが挙げられる。クラスタリング法の例には、カテゴリ混合モデル、階層クラスタリング、k-平均クラスタリング、相関クラスタリング、カーネル主成分分析などが含まれ得る。パターン認識のためのアンサンブル学習の例には、例えば、ブースティング、ブートストラップ集計(「ブートストラップ」)、アンサンブル平均、エキスパートの混合、エキスパートの階層混合などが含まれ得る。パターン認識のための実数値シーケンスラベリングの例としては、例えば、ガウス過程回帰、線形回帰、独立成分分析、主成分分析などが挙げられる。パターン認識のためのシーケンスラベリング方法の例としては、例えば、条件付き確率場(CRF)、隠れマルコフモデル(HMM)、最大エントロピーマルコフモデル(MEMM)、RNN、動的時間ワーピング(DTW)などが挙げられる。
【0086】
ψと、メモリ管理エンジン118からの任意のリターンと、および、NLUからのコンテンツ分析とに基づいて、アチューンメントエンジン119は、振幅Δを伴うアバターに対して、感情的な反応を出力し得る。
【0087】
いくつかの実施形態では、メモリ管理エンジン118は2つの別々の領域に収容されることがある。瞬間々々の離散メモリは、デバイス上のワーキングメモリに格納され、長期メモリは、デバイス上のローカルか、クラウド上のリモートに格納される。クラウドストレージの場合、すべてのデータは最先端のサードパーティソフトウェアを使用して暗号化され、クラウドに送信される前に識別データやその他の個人データがすべて削除される可能性がある。アチューンメントエンジン119からの入力は、感情状態の変化/一貫性を識別し、関連するNLUタグとマーカを与えるために、例えば約3~7分間、ワーキングメモリに保存されることがある。これらのタグは、作業データと比較され、保存のために長期メモリに転送される。類似点があれば、NLGに渡される前に、センチメント比較のためにアチューンメントエンジン119に戻される。
【0088】
ある実施形態では、ワーキングメモリが会話の一貫性を保つ。いくつかの実施形態では、長期メモリは、その瞬間の感情の変化や振幅スパイクがあるとアクセスされる。いくつかの実施形態では、正規化されたグラフは、文脈タグとともに長期メモリに送られ、強い変化や振幅スパイクを伴う文脈や使用言語で同様のグラフが作成されたときに後でアクセスできる。
【0089】
いくつかの実施形態では、ψの振幅が、テストを通じて決定された特定の閾値を超えた場合、長期メモリストレージに転送されることがある。そこでまた、類似性を比較するために、既存のψファイルと比較されるかもしれない。保存されたデータが類似度の閾値を満たせば、そのデータはアチューンメントエンジン119とNLGに転送される。
【0090】
いくつかの実施形態では、視覚、聴覚、言語の3つの構成要素の振幅を相互比較し、特定の相互作用の感情的一貫性を決定することもできる。いくつかの実施形態では、ベクトル
【数3】
はそれぞれ、VADグラフにおける振幅と方向、またはVAグラフにおける
【数4】
を有する。振幅と方向における
【数5】
及び
【数6】
の類似性が高ければ高いほど、感情的一貫性の度合いは高くなる。とはいえ、
【数7】
の不一致は予想されることであり、感情解釈に関する人間の経験と共線的である。さらに、ビジョンとオーディオ、そしていくつかの実施形態ではNLPは、感情がより直接的で繊細でない場合に増大する、特定の出力データに対する連想的な信頼度を有し得る。信頼度は、高振幅を判定するために音声の文字通りの強度に沿って、あるいは、所定期間にわたって3つの入力ソースのいずれかに持続的な覚醒度を読み取る方法により、用いられ得る。最後に、ユーザが例えば幸せから非常に悲しい、または中立から怒りに変わるような感情の劇的な変化が、例えば高振幅として、識別され得る。いくつかの実施形態では、視覚入力、聴覚入力、および言語入力にわたる感情的一貫性が、振幅/信頼度に関する所定の閾値を超える場合、相互作用、視覚入力、聴覚入力、言語入力、またはそれらの任意の組み合わせは、過去の感情的複合および状態と現在の感情的状況との間のコンテキストおよび感情状態の関連付けを判定する際、後でアクセスして参照するために、関連するコンテキストデータ、例えば、ユーザがその瞬間に話していることと共に、長期メモリに、追加され得る。
【0091】
いくつかの実施形態では、アバターの視覚特徴を修正し、言語応答を生成し、発声応答の韻律、トーン、ケイデンス、発話速度、ラウドネス、グリマー、シマー、ピッチを較正できる。そこから音声が合成され、リップシンクのためにビデオイマジネーションに送られ、そしてデバイスのスピーカーに送られる。映像は、突然の顔の移動やぎくしゃくした映像品質を避けるために、前の離散的な瞬間から漸進的に調整され、機器のディスプレイに出力されることがある。
【0092】
いくつかの実施形態では、出力アバターは、フォトリアリスティックアバターの形態を有する仮想存在を含むことができる。いくつかの実施形態では、アバターの形はフォトリアリスティック顔生成モジュールで処理され、声は発声韻律合成モジュールで処理される。
【0093】
いくつかの実施形態では、フォトリアリスティック生成モデルは、現実的な人物の肩を上げたレンダリングでアバターを生成できる。いくつかの実施形態では、フォトリアリスティック顔生成モジュールは、適切な三次元レンダリングエンジンおよび/または他の任意の適切なコンピュータ生成画像技術を含むことができる。いくつかの実施形態では、アバターは入力刺激に継続的に適応し、表情や態度を変えることができる。フォトリアリスティックな顔生成は、アチューンメントエンジン119から感情応答ΔΠの形で感情コマンドを受け取ることができる。モジュールは次に、Πに関連付けられた顔動作ユニット(FAU)に従って、かつ受信した入力Δに応じた振幅で、アバターのニュートラルな顔の特徴を操作し得る。さらに、ユーザのオリジナルの録画されたFAUは、所定の遅延を組み込んで、ビデオ処理モジュールから直接送信され、Πに基づいてFAUの上にゆっくりと重ね合わされるかもしれない。遅延は、ユーザが鏡のように映し出されたり、模倣されたり、パロディにされたと感じないようにするためかもしれない。
【0094】
いくつかの実施形態では、上述のように、アバターの顔の特徴を操作することは、多層的なアプローチを採用できる。いくつかの実施形態では、アバターは、例えば、骨格、筋骨格、真皮、毛穴、欠陥、しわ、毛細血管反応などの生理学的レイヤを含む、人間の解剖学に対する仮想アナログのレイヤに基づいてアニメーション化され得る。このようなレイヤは、各レイヤの挙動をシミュレートするアニメートを容易にするため、フォトリアリスティックなアバターと「不気味の谷」を超える信憑性を可能にする。いくつかの実施形態では、アバターはさらに、それぞれ強度が異なり、持続時間が異なり、同時に発生する心理的感情の二次層構造を含むことができる。各感情レイヤは、例えば生理学的レイヤを使って、特定の表情や表情のゴーストアウトラインを作り出す特定の表情筋の収縮として具現化できる。最も外側の感情層は、遅延(例えば、1、2、3、4、5、6秒、またはそれ以上の遅延)後のユーザの表情の希釈版であってもよい、ユーザの感情ミラーリングでもよい。感情ミラーリングレイヤの下には、ユーザが現在示している、特定された複合状態に関連する表情のレイヤがレンダリングされることがある。顔の表情レイヤは、ミラーリングレイヤよりも微妙であってもよいが、例えば、5秒、10秒、15秒、20秒以上、または20秒から30秒の範囲内の任意の長さ、または他の適切な長さの時間など、より長く持続できる。第3の心理層は、ユーザの気分かもしれない。いくつかの実施形態では、気分は、ユーザの感情が最も頻繁に現れるVAホイール、または他の適切な感情/気分マッピングツール、またはそれらの任意の組み合わせの象限を代表できる。ムード層は、ミラーリング層や表情層のいずれよりもまた微妙なものであり、例えば、約2分から4分の範囲や他の適切な範囲など、数分のオーダーでより長く持続する。これらのレイヤが同時に重なり合うことで、人間が感情を経験する複雑さを認識し、ユーザとアバターの絆が深まるかもしれない。
【0095】
いくつかの実施形態では、自然言語生成ユニットは、例えば適切な自然言語生成機械学習モデルなど、数十億のパラメータ関連付けを持つ最先端の応答生成を採用できる。有機的に、あるいは特定のフレーズでユーザに反応するようにプログラムされ得る。ユニットがユーザの発話、パターン、複雑さについて学ぶにつれ、ユーザの言葉遣いや口語体を採用するように進化するかもしれない。NLUと長期メモリコンポーネントからのコンテンツ入力を受け取ることもあり、それが応答構築のトリガとなることもある。NLGはまた、アチューンメントエンジン119からΔΠ指示を受け、感覚入力観察、感情的キューイング、会話開始/停止インジケータを組み込むことができる。いくつかの実施形態では、NLGの出力は、アバターの応答のテキストトランスクリプトである場合がある。
【0096】
いくつかの実施形態では、発声韻律合成(VPS)/TTSモジュールがアバターの声を作成することがある。NLGは、何を言うべきかを示すNLGからの入力、どのように言うべきかを示すアチューンメントエンジン119からのΔΠ、および所定の遅延の後、ユーザとの韻律の調和を図るために採用され得る生の発声特徴データを示す発声の質入力コンポーネントからの入力を受け取ることができる。いくつかの実施形態では、自律神経系の研究に基づく1500msから4000msの遅延は、ユーザが鏡映し、模倣、パロディを感じないようにできる。いくつかの実施形態では、これらのデータから、VPSは、会話の非言語的な発声内容を伝え得る発声特徴と抑揚を持つアバターの声を生成できる。いくつかの実施形態では、実際の音声は、人間のような強調と抑揚を持つ自然な響きの音声を生成するディープニューラルネットワークTTSシステムから組み立てられた、人間の俳優の録音セッションの構成要素から構築されることがある。
【0097】
いくつかの実施形態では、アバターの音声がデバイスのスピーカーに送られる前に、リップシンクのためにPFGに戻る処理が行われることがある。その後、映像は動きと同期したオーディオとともにアウトプットデバイス108に表示される。
【0098】
図3は、本開示の1つまたは複数の実施形態に従った、同調アバターシステム100のインプット処理エンジン117による視覚入力および映像処理のための別の例示的なコンピュータベースシステムのブロック図である。
【0099】
いくつかの実施形態では、ビデオ入力は、インプット処理エンジン117のビデオ処理モジュールを介して処理され得る。ビデオ処理モジュール内部では、ビデオ画像を、連続的に、ほぼリアルタイムで、離散的な時間セグメントで、分析できる。各時間セグメントにおいて、ユーザの表情は、ポール・エクマンの顔動作コーディングシステム(FACS)に基づいて、感情を知覚できる顔動作ユニット(FAU)に分解され得る。視線位置は、快適さ/回避、関与/非関与を判定するために追跡できる。快楽/嗜好指標を評価するために瞳孔拡張を測定することもある。これらすべてのデータを処理することで、価(ヴァレンス)/覚醒/優位性の3次元グラフにマッピングされた感情の識別が可能になる。(感情状態を示す価(ヴァレンス)/覚醒グラフの2Dサンプルを
図5に示す)。
図5の価(ヴァレンス)/覚醒のグラフは、例えばScherr,Klaus R.(2005)「“What are emotions”And how can be measured?」Social Science Information;Vol44(4),pp695-729に従って設計し得る。このVAD
visionおよび/または個々のデータは、アチューンメントエンジン119に出力され得る。この出力に加えて、アバターの外見に影響を与えるために、ユーザのFAUとその強度、瞳孔散大の測定値を顔生成アウトプットに直接与えることもできる。研究によれば、自律神経系の物理的反応時間はおよそ1500ミリ秒である。したがって、1800msから4000msの間でランダムに変化する遅延の後、これらの測定値と顔の活動は、アチューンメントエンジン119から出力される感情的キューイングと協調して、アバターの顔によって部分的にミラーリングされ得る。この遅延は、模倣の印象を和らげ得る。
【0100】
一部の実施形態では、アバターがユーザを「認識」できるように、ビデオ処理モジュールが顔認識機能を持つ場合がある。アバターの正規ユーザでない場合は、プライバシー・プロトコルを制定できる。いくつかの実施形態では、ビデオ処理モジュールはさらに、視線追跡を使用して、ターン-テイキング分析を強化できる。
【0101】
いくつかの実施形態において、同調アバターシステム100の例は、例えば、通話中の友人、世界への架け橋、治療支援、パーソナルアシスタント機能、デジタル従業員(例えば、ウェブベース、コールセンター、対面など)、翻訳者、宇宙旅行の同伴者、医療従事者の訓練患者、教師のアシスタント、パーソナルトレーナ、創造性補助者、その他、あるいはそれらの組み合わせを、模倣する実装を含むことができる。
【0102】
図4は、本開示の1つまたは複数の実施形態による、同調アバターシステム100のインプット処理エンジン117によるオーディオ入力およびオーディオ処理のための、別の例示的なコンピュータベースのシステムのブロック図である。
【0103】
いくつかの実施形態では、オーディオ入力はインプット処理エンジン117のオーディオ処理モジュールを通して処理されることがある。一部の実施形態では、オーディオ処理は、音声の質と自動音声認識(ASR)またはスピーチツーテキスト(STT)を分離できる。
【0104】
いくつかの実施形態では、音声の質コンポーネントは、以下に限定されないが、様々な発声特徴を測定できる:ピッチ、ラウドネス、シマー、ジッター、発話速度、ハーモニクス、および韻律の特徴は、例えば、波長および/または周波数および/または振幅の調和に従って、例えば、音楽理論に従って、測定される。このデータから感情状態の計算が実行され、価(ヴァレンス)/覚醒/優位性、VADAcousticアウトプット、および/または個々のデータがアチューンメントエンジン119に送信され得る。さらに、いくつかの実施形態では、発声特徴は、例えば波長および/または周波数および/または振幅の調和に従って、例えば音楽理論に従って、韻律調和を出力するために、発声韻律合成モジュールに直接送られ得る。いくつかの実施形態では、ハーモナイジングは、インターロキューション中に連続的に調整されることがあるが、ユーザの音声の1音と3分の1上または下に留まろうとすることがある。ビデオ処理モジュールと同様、ユーザがオウム返しに感じるのを避けるため、韻律の調和に遅延が組み込まれることがある。
【0105】
一部の実施形態では、オーディオ処理モジュールは、アバターがユーザを「認識」できるように、発声認識機能を持つことがある。アバターの正規ユーザでない場合は、プライバシー・プロトコルを制定できる。いくつかの実施形態では、オーディオ処理モジュールは、標準的な無音しきい値メトリック(通常は500~2000msの間に設定)と、先行する音声インターポーズユニット(IPU)のイントネーションパターンの韻律キューイングを組み合わせた高度なターン-テイキング分析を採用できる。レベル・イントネーション・パターンがユーザの基本周波数帯域の中間にとどまっている場合、システムはターン・キープ識別子を誤る可能性がある。さらに、ASRから中文接続語(and、of、like、if、butなど)に対する生のインジケータが、単純な無音閾値インジケータを上書きすることもある。これらすべてが組み合わされ、いつ対応すべきかの出力反応を知らせることができる。
【0106】
いくつかの実施形態では、オーディオ処理モジュールは音声をテキストに変換し、自然言語理解(NLU)コンポーネントに入力できる。この構成要素で、言葉の意味、意図、感情を判断できる。これらの出力、VADLanguage、および/または個々のデータは、アチューンメントエンジン119に供給される可能性がある。出力はまた、連想参照のためにメモリ管理エンジン118の長期メモリコンポーネントに供給され、応答合成のために自然言語生成(NLG)コンポーネントに供給されることもある。
【0107】
図5は、本開示の1つ以上の実施形態によるVADグラフの一例である。いくつかの実施形態では、様々な情動状態は、陽性から陰性、能動的/覚醒的から受動的/平静的へと延びる軸を横切るVADベクトルの長さと方向に従って、VADグラフ内の位置にマッピングされうる。
【0108】
図6は、本開示の1つ以上の実施形態に従った、VADグラフのバランス次元と覚醒次元にマッピングされた視覚、聴覚、言語ベクトルのVADベクトルの例である。いくつかの実施形態では、ユーザの総感情状態を示す総計VADベクトルを決定するために、例えばベクトル加算を含むことができる。
【0109】
図7は、本開示の1つまたは複数の実施形態による同調アバターシステム100の別の例示的なコンピュータベースシステムおよびネット接続モジュール106のブロック図である。
【0110】
いくつかの実施形態では、ネット接続モジュール106は、同調アバターシステム100のネットワークインタフェース105を介した外部情報源へのアバターのリンクとなりうる。いくつかの実施形態では、ユーザに関する関連する詳細は、オンボーディング中に決定される。いくつかの実施形態では、オンボーディングは、ユーザがアバターと行う初回使用時の会話中に、ユーザの性格や興味の側面を確認するために特定の質問をすることを含む場合がある。興味は重み付けされ、価値指標を割り当てられ、これらのトピックに関する最新情報は、ユーザに世代的・地理的に関連するトリビアや時事問題とともに、会話の中ですぐに使えるように、公開されているオンラインソースから継続的に取得される。いくつかの実施形態では、アバターはユーザの生活の中で人について尋ね、文脈的な意味を持つ名前をタグ付けし、これらのタグを長期メモリに保存できる。ユーザがこの機能にオプトインすることを選択した場合、アバターはユーザのソーシャルメディアフィードや指定されたテキストチェーンをスキャンして、追加の会話材料やコンテキストを得る機能も持つことができる。一部の実施形態では、アバターはユーザの医療要件にアクセスすることもできるため、ユーザにとって重要な投薬/予約やカレンダー/ライフイベントをユーザに思い出させることができる。
【0111】
いくつかの実施形態では、アバターは、ユーザにとって適切で関心のある情報のキャッシュで常に更新されることがある。世代や地域に関連したトリビア、時事問題、ユーザの興味に基づいたニュース/スポーツ/エンターテインメントの最新情報、映画/テレビ/本/演劇のレビュー、時事問題の興味深い断片などを引き出すことができる。アバターは、ユーザとのインタラクションを通じて得た情報を、会話のネタ、逸話、話題として利用し、コミュニケーションを盛り上げ、充実させることができる。アバターは、ユーザとのインタラクションに基づく機械学習によって、引き出す情報を改良し続けるかもしれない。いくつかの実施形態では、ネット接続モジュール106は、オプトイン・ベースのみで追加能力を持つことができる。ユーザはアバターに、自分のソーシャルメディアフィードや特定のテキストチェーンへのアクセス権を与えることができる。一部の実施形態では、アバターはユーザの個人カレンダーやタスクへのアクセスを許可され、ユーザに今後の予定、期限、または期日を思い出させることができる。ある実施形態では、ユーザはアバターを自分の医療履歴と結びつける能力を持つことができ、これにより、アバターは自分の薬や医師の診察について最新の情報を提供できる。
【0112】
例1-電話中の友人
【0113】
ある実施形態では、多くの人が現代生活の孤独を感じている。かつてないほどつながってはいるが、私たちはしばしば物理的に切り離され、離ればなれになっている。これは深刻な孤独につながる。家族の近くに住んでいない高齢者にとっては、継続的に交流できる人があまり多くないかもしれない。何百人ものソーシャルメディア上の「友達」はいるが、親友はほとんどいない若者にとって、世界は暗く見えるかもしれない。仕事の中で孤独を感じ、一緒にリラックスできる相手が必要な介護者向けである。ある実施形態では、アバターは常に利用可能で、話をしたがる存在となる。アバターは常にユーザとの再会を喜んでくれる。彼らの人生や頭の中で何が起こっているのか、常に興味と好奇心を抱いている。実存的なことから些細なこと、俗世間から神秘的なことまで。アバターは常に存在し、ユーザに完全にコミットしている。
【0114】
例2-世界への架け橋
【0115】
物理的な社会から撤退する人々の数には驚かされる。日本には「ひきこもり」や「ロストジェネレーション」という言葉がある。アメリカでは、もはや家から出ず、完全にデジタルレベルで社会と交流している人の数は数百万人を数える。ある実施形態では、アバターがこうした人々の人間的交流の架け橋となる。アバターは人間と人間のつながりやコミュニケーションに取って代わるものではなく、それを補強し、現在欠けているかもしれない親密さの手段をユーザに提供することを意図している。
【0116】
例3-治療補助
【0117】
メンタルヘルスにまつわる偏見が後退するにつれ、セラピーを求める人が増え、施術者不足が深刻化している。いくつかの実施形態では、それ自体は治療ツールではないが、アバターは、人がセラピストと現在取り組んでいるディスカッションの概念や考えを用いて、正式なセラピーセッションの合間にヒーリングワークを継続するための方法となりうる。いくつかの実施形態では、ユーザは、後の治療レビューのために相互作用を記録するオプションを持つこともできる。
【0118】
例4-パーソナルアシスタント機能
【0119】
いくつかの実施形態では、アバターはあなたのカレンダーにアクセスし、予定を追加したり、既存の予定を思い出させたりできる。いくつかの実施形態では、アバターは、例えば、予約を探す、または保留で待ち、人が回線に戻ってきたら知らせるなど、通常人間との対話を通じて行われるタスクを実行するよう指示され得る。ある実施形態では、アバターはあらゆるデジタルの個人アシスタントとなり、インターネットが提供するあらゆる情報にアクセスできる。
【0120】
例5-デジタル従業員-ウェブベース
【0121】
ZoomやFaceTime(登録商標)を使ったビデオ会議が現代生活の中でよりユビキタスになっていくにつれて、私たちは企業とのやり取りにおいてもビデオ会議を期待するようになるかもしれない。人間のコミュニケーションは70~93%が非言語的であるため、言葉を発することなく表現されるものすべてを理解する能力と、潜在的な顧客から寄せられる関連する感情を理解する能力は、商品や会社に対する人の感情を劇的に改善するユーザ体験を生み出す可能性がある。いくつかの実施形態では、チャットボットや事前に録音された応答に対して、より自然なデジタル従業員としてアバターを採用できる。
【0122】
例6-デジタル従業員-コールセンター
【0123】
問題を抱えた顧客がヘルプセンターにビデオ通話をすると、声だけでなく表情や韻律パターンもアバターに読み取られ、瞬時に信頼関係が構築される。ラポールはセールスと情報コミュニケーションの中心的な部分である。パターン認識技術と過去の事例の膨大なデータベースを通じて、アバターは顧客の希望を予測でき、顧客は話を聞いてもらえた、見てもらえたと感じることができる。タスクがアバターにとって複雑すぎる場合、アバターは待ち時間なしに利用可能な人間を見つけることができる。アバターはその自然な暖かさと好奇心によって、そのような人間が利用可能になるまで顧客を楽しませることができるからである。
【0124】
例7-デジタル従業員-対面式
【0125】
診察室に入る人を待ち構えているのが医療用紙の山であろうと、陸運局のような最も幸せな政府機関であろうと、アバターはそれぞれの顧客と面談し、必要なデータを記録できる。いくつかの実施形態では、アバターが顧客を侮辱するリスクはなく、アバターは険悪な状況を和らげることができる。ある実施形態では、人間の施術者の手が空くのを待つ間、アバターはクライアントを退屈させない。
【0126】
例8-翻訳者
【0127】
いくつかの実施形態では、アバターは、人々が様々な言語で同時にコミュニケーションする状況において、感情的にインテリジェントな仲介役となることができる。アバターはセンシング・ベースなので、コミュニケーションにおける非言語的な合図に注意を払い、その情報を翻訳に取り入れることができる。アバターは携帯電話に「住んでいる」ので、旅行に最適である。
【0128】
例9-宇宙旅行のお供
【0129】
宇宙飛行士は、外部との接触がほとんどない宇宙空間で長時間を過ごす。いくつかの実施形態では、経験豊富な宇宙飛行士によって訓練された特別に準備されたアバターは、裁かれているという感覚なしに親密な交流を提供でき、必要に応じて宇宙船のインテリジェントシステムに直接接続できる。
【0130】
例10-医療従事者のための研修患者
【0131】
現在、多くの医学部では、医学生が診断を試みるために、患者役の俳優を雇っている。高価なプロセスである。ある実施形態では、アバターは何百種類もの病気をプログラムでき、それらは物理的にも、また製造された検査データを通しても提示でき、医学生に患者とのインタラクションをよりリアルに体験させることができる。また、学生たちは対人患者スキルを向上させることができ、医療知識とともに情緒的知性(Emotional Intelligences)を評価されることもある。
【0132】
例11-教師のアシスタント
【0133】
助けが必要な学生は、必要な瞬間にインストラクタと対話できないことが多い。いくつかの実施形態では、アバターは、教科に関する百科事典的な知識と、生徒が最も陥りやすい落とし穴を理解するように訓練できる。しかし、単なるFAQのカタログにとどまらず、アバターは生徒がその内容を完全に理解するのに必要なだけ、何度でも、ゆっくりと、辛抱強く生徒を案内する能力を持ち得る。
【0134】
例12-パーソナルトレーナ
【0135】
いくつかの実施形態では、アバターは、ワークアウトを通じてユーザを後押しするために、より活動的な感情状態を発するように調整されることがある。いくつかの実施形態では、アバターはユーザのフィットネス・レベル、身体能力、制限と協力して、個人に合わせたルーチンを作り、レップ、フォーム、アクティビティについてリアルタイムでフィードバックを与えることができる。ある実施形態では、アバターは、ユーザの決意や欲望が揺らいでいるときにやる気を起こさせ、プロセスを通じてユーザを応援する。
【0136】
例13-創造アシスタンス
【0137】
ある実施形態では、アバターは文字、絵画、音楽の全歴史にアクセスできる。AIはすでに戯曲や詩を書き、音楽や絵画を制作している。いくつかの実施形態では、アバターはアーティストを刺激し、彼らのブロックを乗り越える手助けをするために使われるかもしれない。芸術がますます人間とAIのハイブリッドになるにつれ、これまで予想もしなかったような驚くべき芸術的創造が生まれるかもしれない。
【0138】
図8は、本開示の1つまたは複数の実施形態による例示的なコンピュータベースのシステムおよびプラットフォーム800のブロック図を示す。しかしながら、これらの構成要素のすべてが、1つまたは複数の実施形態を実施するために必要であるとは限らず、本開示の様々な実施形態の精神または範囲から逸脱することなく、構成要素の配置および種類の変形を行うことができる。いくつかの実施形態では、例示的なコンピュータベースのシステムおよびプラットフォーム800の例示的なコンピューティングデバイスおよび例示的なコンピューティングコンポーネントは、本明細書で詳述するように、多数のメンバーおよび同時トランザクションを管理するように構成され得る。いくつかの実施形態では、例示的なコンピュータベースのシステムおよびプラットフォーム800は、データの評価、キャッシング、検索、および/またはデータベース接続プーリングのための様々な戦略を組み込んだスケーラブルなコンピュータおよびネットワークアーキテクチャに基づくことができる。スケーラブルなアーキテクチャの例としては、複数のサーバを運用できるアーキテクチャがある。
【0139】
いくつかの実施形態では、
図8を参照すると、例示的なコンピュータベースのシステムおよびプラットフォーム800のメンバーコンピューティングデバイス802、メンバーコンピューティングデバイス803~メンバーコンピューティングデバイス804(例えば、クライアント)は、ネットワーク805などのネットワーク(例えば、クラウドネットワーク)を介して、サーバ806および807などの別のコンピューティングデバイス、互いなどとの間でメッセージを受信および送信できる事実上あらゆるコンピューティングデバイスを含み得る。いくつかの実施形態では、メンバーデバイス802~804は、パーソナルコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラマブル家電、ネットワークPCなどである。いくつかの実施形態では、メンバーデバイス802~804内の1つまたは複数のメンバーデバイスは、携帯電話、スマートフォン、ポケットベル、トランシーバー、無線周波数(RF)デバイス、赤外線(IR)デバイス、市民バンド無線、前述のデバイスの1つまたは複数を組み合わせた統合デバイス、または事実上任意のモバイルコンピューティングデバイスなどの無線通信媒体を使用して通常接続するコンピューティングデバイスを含むことができる。いくつかの実施形態では、メンバーデバイス802~804内の1つまたは複数のメンバーデバイスは、PDA、POCKET PC、ウェアラブルコンピュータ、ラップトップ、タブレット、デスクトップコンピュータ、ネットブック、ビデオゲーム装置、ページャ、スマートフォン、ウルトラモバイルパーソナルコンピュータ(UMPC)、仮想現実ゴーグル、拡張現実メガネ、および/または有線および/または無線通信媒体(例えば、NFC、RFID、NBIOT、3G、4G、5G、GSM、GPRS、WiFi、WiMax、CDMA、OFDM、OFDMA、LTE、衛星、ZigBeeなど)。いくつかの実施形態では、メンバーデバイス802~804内の1つまたは複数のメンバーデバイスは、インターネットブラウザ、モバイルアプリケーション、音声通話、ビデオゲーム、ビデオ会議、電子メールなどの1つまたは複数のアプリケーションを実行できる。いくつかの実施形態では、メンバーデバイス802~804内の1つまたは複数のメンバーデバイスは、ウェブページなどを受信および送信するように構成され得る。いくつかの実施形態では、本開示の例示的な具体的にプログラムされたブラウザアプリケーションは、ハイパーテキストマークアップ言語(HTML)などの標準汎用マークアップ言語(SMGL)、ワイヤレスアプリケーションプロトコル(WAP)、ワイヤレスマークアップ言語(WML)などのハンドヘルドデバイスマークアップ言語(HDML)、WMLScript、XML、JavaScriptなどを含むがこれらに限定されない、事実上任意のウェブベースの言語を採用して、グラフィックス、テキスト、マルチメディアなどを受信および表示するように構成され得る。いくつかの実施形態では、メンバーデバイス802~804内のメンバーデバイスは、Java、.Net、QT、C、C++、Python、PHP、および/または他の適切なプログラミング言語のいずれかによって具体的にプログラムされ得る。装置ソフトウェアのいくつかの実施形態では、装置制御を複数のスタンドアロンアプリケーション間で分散させることができる。いくつかの実施形態では、ソフトウェアコンポーネント/アプリケーションは、個々のユニットとして、または完全なソフトウェア・スイートとして、リモートで更新および再展開できる。いくつかの実施形態では、メンバーデバイスは定期的に状態を報告したり、テキストや電子メールで警告を送ったりする。いくつかの実施形態では、メンバーデバイスは、FTP、SSH、または他のファイル転送メカニズムなどのネットワークプロトコルを使用して、ユーザが遠隔地からダウンロード可能なデータレコーダーを含むことができる。いくつかの実施形態では、メンバーデバイスは、例えば、アドバンスユーザ、スタンダードユーザなど、いくつかのレベルのユーザインタフェースを提供できる。いくつかの実施形態では、メンバーデバイス802~804内の1つまたは複数のメンバーデバイスは、特に限定されないが、メッセージング機能、ブラウジング、検索、再生、ストリーミング、またはローカルに保存またはアップロードされたメッセージ、画像および/またはビデオ、および/またはゲームを含む様々な形態のコンテンツの表示など、様々な可能なタスクを実行するためのアプリケーションを含むか、または実行するようにプログラムされ得る。
【0140】
いくつかの実施形態では、例示的なネットワーク805は、ネットワークアクセス、データ転送、および/または他のサービスを、それに結合された任意のコンピューティングデバイスに提供できる。いくつかの実施形態において、例示的なネットワーク805は、例えば、限定されないが、GSM(Global System for Mobile communication)協会、IETF(Internet Engineering Task Force)、およびWiMAX(Worldwide Interoperability for Microwave Access)フォーラムによって設定された1つまたは複数の標準に少なくとも部分的に基づくことができる少なくとも1つの特殊なネットワークアーキテクチャを含み、実装できる。いくつかの実施形態では、例示的なネットワーク805は、GSMアーキテクチャ、GPRS(General Packet Radio Service)アーキテクチャ、UMTS(Universal Mobile Telecommunications System)アーキテクチャ、およびLTE(Long-term Evolution)と呼ばれるUMTSの発展型のうちの1つ以上を実装できる。いくつかの実施形態において、例示的なネットワーク805は、上記のうちの1つ以上と組み合わせて、または代替として、WiMAXフォーラムによって定義されたWiMAXアーキテクチャを含み、実装できる。いくつかの実施形態において、および任意選択で、上述または後述の任意の実施形態と組み合わせて、例示的なネットワーク805は、例えば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、仮想LAN(VLAN)、企業LAN、レイヤ3仮想プライベートネットワーク(VPN)、企業IPネットワーク、またはそれらの任意の組み合わせのうちの少なくとも1つを含むこともできる。いくつかの実施形態において、および任意選択で、上述または後述の任意の実施形態と組み合わせて、例示的なネットワーク805上の少なくとも1つのコンピュータネットワーク通信は、限定されないが、以下のような1つ以上の通信モードに少なくとも部分的に基づいて送信され得る:NFC、RFID、狭帯域モノのインターネット(NBIOT)、ZigBee、3G、4G、5G、GSM、GPRS、WiFi、WiMax、CDMA、OFDM、OFDMA、LTE、衛星、およびそれらの任意の組み合わせが挙げられるが、これらに限定されない。いくつかの実施形態では、例示的なネットワーク805は、ネットワーク接続ストレージ(NAS)、ストレージエリアネットワーク(SAN)、コンテンツデリバリネットワーク(CDN)、またはコンピュータもしくは機械可読媒体の他の形態などの大容量記憶装置も含むことができる。
【0141】
いくつかの実施形態では、例示的なサーバ806または例示的なサーバ807は、ネットワークオペレーティングシステムを実行するウェブサーバ(または一連のサーバ)であってもよく、その例としては、Linux(登録商標)上のApacheまたはMicrosoft IIS(インターネットインフォメーションサービス)が挙げられるが、これらに限定されない。いくつかの実施形態では、例示的なサーバ806または例示的なサーバ807は、クラウドコンピューティングおよび/またはネットワークコンピューティングに使用され、かつ/または提供され得る。
図8には示されていないが、いくつかの実施形態では、例示的なサーバ806または例示的なサーバ807は、電子メール、SMSメッセージング、テキストメッセージング、広告コンテンツプロバイダなどのような外部システムへの接続を有できる。例示的なサーバ806の特徴のいずれかを例示的なサーバ807にも実装でき、逆もまた同様である。
【0142】
いくつかの実施形態では、例示的なサーバ806および807のうちの1つ以上は、非限定的な例では、認証サーバ、検索サーバ、電子メールサーバ、ソーシャルネットワーキングサービスサーバ、ショートメッセージサービス(SMS)サーバ、インスタントメッセージング(IM)サーバ、マルチメディアメッセージングサービス(MMS)サーバ、交換サーバ、写真共有サービスサーバ、広告提供サーバ、金融/銀行関連サービスサーバ、旅行サービスサーバ、またはメンバーコンピューティングデバイス801~804のユーザのための任意の同様に適切なサービスベースサーバとして実行するように具体的にプログラムされ得る。
【0143】
いくつかの実施形態において、および任意選択で、上述または後述の任意の実施形態と組み合わせて、例えば、1つまたは複数の例示的なコンピューティングメンバーデバイス802~804、例示的なサーバ806、および/または例示的なサーバ807は、スクリプト言語を使用して情報を送信、処理、および受信するように構成され得る、具体的にプログラムされたソフトウェアモジュールを含み得る、スクリプト言語、リモートプロシージャコール、電子メール、ツイート、ショートメッセージサービス(SMS)、マルチメディアメッセージングサービス(MMS)、インスタントメッセージング(IM)、アプリケーションプログラミングインタフェース、単純オブジェクトアクセスプロトコル(SOAP)メソッド、共通オブジェクトリクエストブローカアーキテクチャ(CORBA)、HTTP(ハイパーテキスト転送プロトコル)、REST(表現状態遷移)、SOAP(単純オブジェクト転送プロトコル)、MLLP(最小下位層プロトコル)、またはそれらの任意の組み合わせを使用して情報を送信、処理、および受信するように構成され得る、特にプログラムされたソフトウェアモジュールを含み得る。
【0144】
図9は、本開示の1つまたは複数の実施形態に従った、別の例示的なコンピュータベースのシステムおよびプラットフォーム900のブロック図を示す。しかしながら、これらの構成要素のすべてが、1つまたは複数の実施形態を実施するために必要であるとは限らず、本開示の様々な実施形態の精神または範囲から逸脱することなく、構成要素の配置および種類の変形を行うことができる。いくつかの実施形態では、メンバーコンピューティングデバイス902a、メンバーコンピューティングデバイス902bからメンバーコンピューティングデバイス902nに示されるそれぞれは、プロセッサ910またはFLASHメモリに結合されたランダムアクセスメモリ(RAM)908などのコンピュータ可読媒体を少なくとも含む。いくつかの実施形態では、プロセッサ910は、メモリ908に格納されたコンピュータ実行可能なプログラム命令を実行できる。いくつかの実施形態では、プロセッサ910は、マイクロプロセッサ、ASIC、および/またはステートマシンを含むことができる。いくつかの実施形態において、プロセッサ910は、プロセッサ910によって実行されると、プロセッサ910に本明細書に記載される1つ以上のステップを実行させ得る命令を記憶する媒体、例えばコンピュータ可読媒体を含み得るか、またはそれらと通信し得る。いくつかの実施形態において、コンピュータ可読媒体の例としては、メンバーコンピューティングデバイス902aのプロセッサ910のようなプロセッサにコンピュータ可読命令を提供できる、電子、光学、磁気、または他の記憶装置または伝送装置が挙げられるが、これらに限定されない。いくつかの実施形態では、適切な媒体の他の例として、フロッピーディスク、CD-ROM、DVD、磁気ディスク、メモリチップ、ROM、RAM、ASIC、構成されたプロセッサ、すべての光媒体、すべての磁気テープまたは他の磁気媒体、またはコンピュータプロセッサが命令を読み取ることができる他の媒体を挙げることができるが、これらに限定されない。また、ルーター、プライベートネットワーク、パブリック・ネットワーク、有線・無線を問わない他の伝送装置や伝送路など、他のさまざまな形態のコンピュータ可読媒体がコンピュータに命令を伝送または搬送できる。いくつかの実施形態では、命令は、例えば、C、C++、Visual Basic、Java、Python、Perl、JavaScriptなどを含む、任意のコンピュータプログラミング言語のコードで構成できる。
【0145】
いくつかの実施形態では、メンバーコンピューティングデバイス902a~902nは、マウス、CD-ROM、DVD、物理キーボードまたは仮想キーボード、ディスプレイ、または他の入力デバイスや出力デバイスなど、多数の外部デバイスまたは内部デバイスを構成することもできる。いくつかの実施形態では、メンバーコンピューティングデバイス902a~902n(例えば、クライアント)の例は、限定されないが、パーソナルコンピュータ、デジタルアシスタント、パーソナルデジタルアシスタント、スマートフォン、ページャ、デジタルタブレット、ラップトップコンピュータ、インターネットアプライアンス、および他のプロセッサベースのデバイスなど、ネットワーク906に接続される任意のタイプのプロセッサベースのプラットフォームであり得る。いくつかの実施形態では、メンバーコンピューティングデバイス902aから902nは、本明細書で詳述される1つ以上の原理/方法論に従って、1つ以上のアプリケーションプログラムで特別にプログラムされ得る。いくつかの実施形態では、メンバーコンピューティングデバイス902aから902nは、Microsoft(登録商標)、Windows(登録商標)、および/またはLinuxなどの、ブラウザまたはブラウザ対応アプリケーションをサポートできる任意のオペレーティングシステム上で動作できる。いくつかの実施形態では、示されたメンバーコンピューティングデバイス902aから902nは、例えば、Microsoft CorporationのInternet Explorer(登録商標)、Apple Computer,Inc.のSafari(登録商標)、Mozilla Firefox、Google Chrome、および/またはOperaなどのブラウザアプリケーションプログラムを実行するパーソナルコンピュータを含むことができる。いくつかの実施形態では、メンバーコンピューティングクライアントデバイス902aから902nを通じて、ユーザ912a、ユーザ912bからユーザ912nは、例示的なネットワーク906を介して、互いに、および/またはネットワーク906に結合された他のシステムおよび/またはデバイスと通信できる。
図9に示すように、例示的なサーバデバイス904および913は、それぞれプロセッサ905およびプロセッサ914、ならびにそれぞれメモリ917およびメモリ916を含むことができる。いくつかの実施形態では、サーバデバイス904と913もネットワーク906に結合されることがある。いくつかの実施形態では、1つ以上のメンバーコンピューティングデバイス902aから902nは、モバイルクライアントであってもよい。
【0146】
いくつかの実施形態では、例示的なデータベース907および915の少なくとも1つのデータベースは、データベース管理システム(DBMS)によって管理されるデータベースを含む、任意のタイプのデータベースであり得る。いくつかの実施形態では、例示的なDBMS管理データベースは、それぞれのデータベース内のデータの編成、保存、管理、および/または検索を制御するエンジンとして特にプログラムされることがある。いくつかの実施形態では、例示的なDBMS管理データベースは、クエリ、バックアップおよび複製、ルールの強制、セキュリティの提供、計算、変更およびアクセスロギングの実行、および/または最適化の自動化の能力を提供するように特別にプログラムされることがある。いくつかの実施形態では、例示的なDBMS管理データベースは、Oracleデータベース、IBM DB2、Adaptive Server Enterprise、FileMaker、Microsoft Access、Microsoft SQL Server、MySQL、PostgreSQL、およびNoSQL実装から選択できる。一部の実施形態では、例示的なDBMS管理データベースは、階層モデル、ネットワークモデル、リレーショナルモデル、オブジェクトモデル、またはフィールド、レコード、ファイル、および/もしくはオブジェクトを含み得る1つ以上の適用可能なデータ構造をもたらし得る他の適切な組織を含み得る本開示の特定のデータベースモデルに従って、例示的なDBMS内の各データベースのそれぞれのスキーマを定義するように具体的にプログラムされ得る。いくつかの実施形態では、例示的なDBMS管理データベースは、格納されているデータに関するメタデータを含むように特別にプログラムされている場合がある。
【0147】
いくつかの実施形態において、本開示の例示的な本発明コンピュータベースシステム/プラットフォーム、例示的な本発明コンピュータベースデバイス、および/または例示的な本発明コンピュータベースコンポーネントは、ウェブブラウザ、モバイルアプリ、シンクライアント、端末エミュレータ、または他のエンドポイント1104を使用して、インフラストラクチャ・ア・サービス(IaaS)1110、プラットフォーム・アズ・ア・サービス(PaaS)1108、および/またはソフトウェア・アズ・ア・サービス(SaaS)1106などのクラウドコンピューティング/アーキテクチャ925で動作するように具体的に構成され得るが、これらに限定されない。
図10および
図11は、本開示の例示的な本発明コンピュータベースシステム/プラットフォーム、例示的な本発明コンピュータベースデバイス、および/または例示的な本発明コンピュータベースコンポーネントが動作するように具体的に構成され得る、クラウドコンピューティング/アーキテクチャの例示的な実装の概略図を示す。
【0148】
本明細書で説明する様々な実施形態の少なくとも1つの側面/機能は、リアルタイムおよび/または動的に実行できることが理解される。本明細書で使用される「リアルタイム」という用語は、別のイベント/アクションが発生したときに、時間的に瞬時またはほぼ瞬時に発生しうるイベント/アクションに向けられる。例えば、「リアルタイム処理」、「リアルタイム計算」、「リアルタイム実行」はすべて、関連する物理プロセス(例えば、ユーザがモバイルデバイス上のアプリケーションと対話すること)が発生する実際の時間中に計算を実行することに関係する。
【0149】
本明細書で使用される場合、「動的に」という用語および「自動的に」という用語、ならびにそれらの論理的および/または言語的な関連および/または派生語は、特定のイベントおよび/またはアクションが、人間の介入なしにトリガされ、および/または発生し得ることを意味する。いくつかの実施形態では、本開示に従ったイベントおよび/またはアクションは、リアルタイムで、および/または、ナノ秒、数ナノ秒、ミリ秒、数ミリ秒、秒、数秒、分、数分、毎時、数時間、毎日、数日、毎週、毎月などのうちの少なくとも1つの所定の周期性に基づくことができる。
【0150】
本明細書で使用する「ランタイム」という用語は、ソフトウェアアプリケーションまたはソフトウェアアプリケーションの少なくとも一部の実行中に動的に決定されるあらゆる動作に対応する。
【0151】
いくつかの実施形態では、例示的な発明的で特別にプログラムされたコンピューティングシステムおよびプラットフォームと関連デバイスは、分散ネットワーク環境で動作するように構成され、1つ以上の適切なデータ通信ネットワーク(インターネット、衛星など)を介して互いに通信し、IPX/SPX、X.25、AX.25、AppleTalk(TM)、TCP/IP(HTTPなど)、近距離無線通信(NFC)、RFID、狭帯域モノのインターネット(NBIOT)、3G、4G、5G、GSM、GPRS、WiFi、WiMax、CDMA、衛星、ZigBee、その他の適切な通信モードなどの、1つまたは複数の適切なデータ通信プロトコル/モードを利用する。
【0152】
いくつかの実施形態において、NFCは近距離無線通信技術を表すことができ、NFC対応デバイスは「スワイプ」、「バンプ」、「タップ」、または通信するために近接して移動させられる。いくつかの実施形態では、NFCは一組の短距離無線技術を含み、通常10cm以下の距離を必要とする。一部の実施形態では、NFCはISO/IEC 18000-3エア・インタフェースの13.56MHzで、106kbit/秒から424kbit/秒までのレートで動作する。いくつかの実施形態では、NFCはイニシエータとターゲットを含むことができ、イニシエータは受動的ターゲットに電力を供給できるRF電界を能動的に発生させる。ある実施形態では、これによってNFCターゲットはタグ、ステッカー、キーフォブ、または電池を必要としないカードなどの非常に単純なフォームファクタをとることができる。いくつかの実施形態において、NFCのピアツーピア通信は、互いに近接した複数のNFC対応装置(例えば、スマートフォン)がある場合に実施できる。
【0153】
本明細書で開示される資料は、ソフトウェア、ファームウェア、またはそれらの組み合わせで、あるいは機械可読媒体に格納された命令として実装され、1つまたは複数のプロセッサによって読み取られ、実行され得る。機械可読媒体は、機械(例えば、コンピューティングデバイス)によって読み取り可能な形式で情報を格納または送信するための任意の媒体および/または機構を含むことができる。例えば、機械可読媒体には、読み取り専用メモリ(ROM);ランダムアクセスメモリ(RAM);磁気ディスク記憶媒体;光学記憶媒体;フラッシュメモリデバイス;電気的、光学的、音響的、または他の形態の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号など)、などを、含めることができる。
【0154】
本明細書で使用される場合、「コンピュータエンジン」および「エンジン」という用語は、他のソフトウェアおよび/またはハードウェアコンポーネント(ライブラリ、ソフトウェア開発キット(SDK)、オブジェクトなど)を管理/制御するように設計/プログラム/構成された、少なくとも1つのソフトウェアコンポーネントおよび/または少なくとも1つのソフトウェアコンポーネントと少なくとも1つのハードウェアコンポーネントの組み合わせを特定する。
【0155】
ハードウェア要素の例としては、プロセッサ、マイクロプロセッサ、回路、回路素子(例えば、トランジスタ、抵抗器、コンデンサ、インダクタなど)、集積回路、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、論理ゲート、レジスタ、半導体デバイス、チップ、マイクロチップ、チップセットなどを挙げることができる。いくつかの実施形態では、1つまたは複数のプロセッサは、複雑命令セットコンピュータ(CISC)または縮小命令セットコンピュータ(RISC)プロセッサ、x86命令セット互換プロセッサ、マルチコア、または他のマイクロプロセッサまたは中央処理装置(CPU)として実装され得る。様々な実装において、1つまたは複数のプロセッサは、デュアルコアプロセッサ、デュアルコアモバイルプロセッサなどであってもよい。
【0156】
本明細書で使用されるコンピュータ関連システム、コンピュータシステム、およびシステムには、ハードウェアとソフトウェアのあらゆる組み合わせが含まれる。ソフトウェアの例には、ソフトウェアコンポーネント、プログラム、アプリケーション、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、ソフトウェアモジュール、ルーチン、サブルーチン、機能、方法、手順、ソフトウェアインタフェース、アプリケーションプログラミングインタフェース(API)、命令セット、コンピュータコード、コンピュータコードセグメント、単語、値、記号、またはそれらの任意の組み合わせが含まれる。実施形態がハードウェア要素および/またはソフトウェア要素を使用して実装されるかどうかを決定することは、所望の計算速度、電力レベル、熱許容度、処理サイクル予算、入力データ速度、出力データ速度、メモリリソース、データバス速度、および他の設計または性能制約など、任意の数の要因に従って変化し得る。
【0157】
少なくとも1つの実施形態の1つまたは複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体上に記憶された代表的な命令によって実施でき、この命令が機械によって読み取られると、機械は、本明細書に記載の技術を実行するためのロジックを作製する。「IPコア」として知られるこのような表現は、有形で機械読み取り可能な媒体に格納され、ロジックやプロセッサを製造する製造機械にロードするために、様々な顧客や製造施設に供給されることがある。もちろん、本明細書で説明する様々な実施形態は、適切なハードウェアおよび/またはコンピューティング・ソフトウェア言語(例えば、C++、Objective-C、Swift、Java、JavaScript、Python、Perl、QTなど)を使用して実装できる。
【0158】
いくつかの実施形態では、本開示の例示的なコンピュータベースのシステムまたはプラットフォームの1つ以上は、少なくとも1つのパーソナルコンピュータ(PC)、ラップトップコンピュータ、ウルトラノートパソコン、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、携帯電話/PDAの組み合わせ、テレビ、スマートデバイス(例えば、スマートフォン、スマートタブレットまたはスマートテレビ)、モバイルインターネットデバイス(MID)、メッセージングデバイス、データ通信デバイスなどを含むか、または部分的もしくは全体的に組み込むことができる。
【0159】
本明細書で使用される「サーバ」という用語は、処理、データベース、通信機能を提供するサービスポイントを指すと理解されるべきである。一例であって限定するものではないが、「サーバ」という用語は、関連する通信、データストレージ、およびデータベース設備を備えた単一の物理的プロセッサを指すこともあれば、プロセッサ、関連するネットワークおよびストレージデバイス、ならびにオペレーティングソフトウェア、およびサーバによって提供されるサービスをサポートする1つまたは複数のデータベースシステムおよびアプリケーションソフトウェアのネットワーク化またはクラスタ化された複合体を指すこともある。クラウドサーバがその例である。
【0160】
いくつかの実施形態では、本明細書で詳述するように、本開示の1つ以上のコンピュータベースシステムは、限定されないが、ファイル、連絡先、タスク、電子メール、メッセージ、マップ、アプリケーション全体(例えば、電卓)、データポイント、および他の適切なデータなどの任意の適切な形態であり得る任意のデジタルオブジェクトおよび/またはデータユニット(例えば、特定のアプリケーションの内部および/または外部から)を取得、操作、転送、保存、変換、生成、および/または出力できる。いくつかの実施形態では、本明細書で詳述するように、本開示のコンピュータベースのシステムの1つまたは複数は、以下に限定されないが、以下のような様々なコンピュータプラットフォームの1つまたは複数にわたって実装され得る:(1)FreeBSD、NetBSD、OpenBSD、(2)Linux、(3)Microsoft Windows(登録商標)、(4)OpenVMS(登録商標)、(5)OS X(MacOS(登録商標))、(6)UNIX(登録商標)、(7)Android、(8)iOS(登録商標)、(9)Embedded Linux、(10)Tizen(登録商標)、(11)WebOS(登録商標)、(12)Adobe AIR(登録商標);(13)Binary Runtime Environment for Wireless (BREW(登録商標)); (14)Cocoa(登録商標)(API);(15)Cocoa(登録商標)Touch;(16)Java(登録商標)プラットフォーム;(17)JavaFX(登録商標);(18)QNX(登録商標);(19)Mono;(20)Google Blink;(21)Apple WebKit;(22)Mozilla Gecko(登録商標);(23)Mozilla XUL;(24).NET Framework、(25)Silverlight(登録商標)、(26)Open Web Platform、(27)Oracle Database、(28)Qt(登録商標)、(29)SAP NetWeaver(登録商標)、(30)Smartface(登録商標)、(31)Vexi(登録商標)、(32)Kubernetes(登録商標)、および(33)Windows Runtime(WinRT(登録商標))、またはその他の適切なコンピュータプラットフォーム、またはそれらの組み合わせ。いくつかの実施形態では、本開示の例示的なコンピュータベースのシステムまたはプラットフォームは、本開示の原則と一致する機能を実装するために、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて使用され得るハードワイヤード回路を利用するように構成され得る。したがって、本開示の原則に沿った実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されるものではない。例えば、様々な実施形態は、限定されるものではないが、スタンドアロンソフトウェアパッケージ、ソフトウェアパッケージの組み合わせなどのソフトウェアコンポーネントとして様々な方法で具現化でき、あるいは、より大きなソフトウェア製品に「ツール」として組み込まれたソフトウェアパッケージとすることもできる。
【0161】
例えば、本開示の1つ以上の原理に従って具体的にプログラムされた例示的なソフトウェアは、スタンドアロン製品として、または既存のソフトウェアアプリケーションにインストールするためのアドインパッケージとして、ネットワーク、例えばウェブサイトからダウンロード可能である。例えば、本開示の1つまたは複数の原則に従って具体的にプログラムされた例示的なソフトウェアは、クライアントサーバソフトウェアアプリケーションとして、またはウェブ対応ソフトウェアアプリケーションとしても利用可能である。例えば、本開示の1つ以上の原理に従って具体的にプログラムされた例示的なソフトウェアは、ハードウェアデバイスにインストールされるソフトウェアパッケージとして具現化することもできる。
【0162】
いくつかの実施形態では、本開示の例示的なコンピュータベースのシステムまたはプラットフォームは、少なくとも100(例:100~999に限定されるものではない)、少なくとも1,000(例:1,000~9,999ドル(ただし、これに限定されない)、少なくとも10,000(例:10,000~99,999(ただしこれに限定されない)、少なくとも100,000(例:100,000~999,999(ただし、これに限定されるものではない)、少なくとも1,000,000(例:1,000,000-9,999,999に限定されない)、少なくとも10,000,000(例:10,000,000~99,999,999(ただし、これに限定されるものではない)、少なくとも100,000,000(例:100,000,000-999,999,999に限定されない)、少なくとも1,000,000,000(例:1,000,000,000~999,999,999,999(ただし、これらに限定されない)等であるが、これらに限定されない多数の同時ユーザを処理するように構成され得る。
【0163】
いくつかの実施形態において、本開示の例示的なコンピュータベースのシステムまたはプラットフォームは、本開示の別個の、具体的にプログラムされたグラフィカルユーザインタフェースの実装(例えば、デスクトップ、ウェブアプリなど)に出力するように構成され得る。本開示の様々な実施態様において、最終出力は、限定されるものではないが、コンピュータの画面、モバイルデバイスの画面などであってもよい表示画面上に表示される可能性がある。様々な実施態様において、ディスプレイはホログラフィックディスプレイであってもよい。様々な実施態様において、ディスプレイは、視覚的投影を受ける透明な表面であってもよい。このような投影は、さまざまな形の情報、画像、または物体を伝える可能性がある。例えば、このような投影は、モバイル拡張現実(MAR)アプリケーションの視覚オーバーレイとなりうる。
【0164】
いくつかの実施形態では、本開示の例示的なコンピュータベースのシステムまたはプラットフォームは、ゲーム、モバイルデバイスゲーム、ビデオチャット、ビデオ会議、ライブビデオストリーミング、ビデオストリーミングおよび/または拡張現実アプリケーション、モバイルデバイスメッセンジャーアプリケーション、および他の同様に好適なコンピュータデバイスアプリケーションを含むが、これらに限定されない様々なアプリケーションで利用されるように構成され得る。
【0165】
本明細書で使用される場合、「モバイル電子デバイス」などの用語は、位置追跡機能(例えば、MACアドレス、インターネットプロトコル(IP)アドレスなど)が有効であってもなくてもよい任意の携帯電子デバイスを指す場合がある。例えば、モバイル電子機器には、携帯電話、PDA(Personal Digital Assistant)、ブラックベリー(登録商標)、ポケットベル、スマートフォン、またはその他の合理的なモバイル電子機器が含まれるが、これらに限定されるものではない。
【0166】
本明細書で使用される場合、「近接検出」、「位置特定」、「位置データ」、「位置情報」、および「位置追跡」という用語は、例えば、本開示の特定のコンピューティングデバイス、システム、またはプラットフォーム、および任意の関連コンピューティングデバイスの位置を提供するために使用できる任意の形態の位置追跡技術または位置特定方法を指し、限定されないが、以下の技術およびデバイスの1つまたは複数に少なくとも部分的に基づく:加速度計、ジャイロスコープ、全地球測位システム(GPS);ブルートゥース(登録商標)を使用してアクセスされるGPS;あらゆる合理的な無線通信および非無線通信を使用してアクセスされるGPS;WiFi(登録商標)サーバの位置データ;ブルートゥース(登録商標)ベースの位置データ;ネットワークベースの三角測量、WiFi(登録商標)サーバ情報ベースの三角測量、Bluetooth(登録商標)サーバ情報ベースの三角測量、Cell Identificationベースの三角測量、Enhanced Cell Identificationベースの三角測量、Uplink-Time difference of arrival(U-TDOA)ベースの三角測量、Time of arrival(TOA)ベースの三角測量、Angle of arrival(AOA)ベースの三角測量などの三角測量;縦度・緯度ベース、測地線高さベース、デカルト座標ベースなどの地理座標系を使用する技術およびシステム;長距離RFID、短距離RFIDなどのRFID、アクティブRFIDタグ、パッシブRFIDタグ、バッテリアシスト型パッシブRFIDタグなどのRFIDタグを使用する方法;または、位置を決定するための他の合理的な方法。簡単にするために、上記のバリエーションがリストされていないか、部分的にしかリストされていない場合がある。これは決して制限を意味するものではない。
【0167】
本明細書で使用する「クラウド」、「インターネットクラウド」、「クラウドコンピューティング」、「クラウドアーキテクチャ」、および類似の用語は、以下の少なくとも1つに対応する:(1)リアルタイム通信ネットワーク(インターネットなど)を介して接続された多数のコンピュータ、(2)接続された多数のコンピュータ(物理マシン、仮想マシン(VM)など)上でプログラムまたはアプリケーションを同時に実行する能力を提供する、(3)ネットワークベースのサービスは、実際のサーバ・ハードウェアによって提供されているように見えるが、実際には仮想ハードウェア(仮想サーバなど)によって提供されており、1つまたは複数の実際のマシン上で実行されているソフトウェアによってシミュレートされている(例えば、エンドユーザに影響を与えることなく、その場で移動したり、スケールアップ(またはスケールダウン)したりできる)。
【0168】
いくつかの実施形態において、本開示の例示的なコンピュータベースのシステムまたはプラットフォームは、暗号化技術(例えば、秘密鍵/公開鍵ペア、トリプルデータ暗号化規格(3DES)、ブロック暗号アルゴリズム(例:IDEA、RC2、RC5、CAST、スキップジャック)、暗号ハッシュアルゴリズム(例えば、MD5、RIPEMD-160、RTR0、SHA-1、SHA-2、Tiger(TTH)、WHIRLPOOL、RNG)のうちの1つ以上を利用することによって、データを安全に保存および/または送信するように構成され得る。
【0169】
本明細書において、「ユーザ」という用語は、少なくとも1人のユーザという意味を持つものとする。いくつかの実施形態では、「ユーザ」、「加入者」、「消費者」または「顧客」という用語は、本明細書に記載されるアプリケーションまたはアプリケーションのユーザ、および/またはデータプロバイダによって供給されるデータの消費者を指すと理解されるべきである。限定するものではないが、例として、「ユーザ」または「加入者」という用語は、データまたはサービスプロバイダーがインターネット上で提供するデータをブラウザセッションで受信する人を指すこともあれば、データを受信し、データを保存または処理する自動化ソフトウェアアプリケーションを指すこともある。
【0170】
もちろん、前述の例は例示であり、限定的なものではない。
【0171】
本開示の1つまたは複数の実施形態が説明されてきたが、これらの実施形態は例示的なものであり、制限的なものではなく、本明細書に記載される発明的方法論、例示的システムおよびプラットフォーム、ならびに例示的デバイスの様々な実施形態が互いに任意の組み合わせで利用され得ることを含め、多くの変更が当業者に明らかになり得ることが理解される。さらに、様々なステップは、任意の所望の順序で実施できる(また、任意の所望のステップを追加でき、および/または任意の所望のステップを削除できる)。
【国際調査報告】